eXamen.press
eXamen.press ist eine Reihe, die Theorie und Praxis aus allen Bereichen der Informatik für die Hochschulausbildung vermittelt.
Bernd Kreußler · Gerhard Pfister
Mathematik für Informatiker Algebra, Analysis, Diskrete Strukturen
123
Dr. Bernd Kreußler Mary Immaculate College South Circular Road Limerick Irland
[email protected]
ISBN 978-3-540-89106-2
Prof. Dr. Gerhard Pfister Fachbereich Mathematik Technische Universität Kaiserslautern 67653 Kaiserslautern Deutschland
[email protected]
e-ISBN 978-3-540-89107-9
DOI 10.1007/978-3-540-89107-9 eXamen.press ISSN 1614-5216 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c 2009 Springer-Verlag Berlin Heidelberg Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Satz: Datenerstellung durch die Autoren unter Verwendung eines Springer LaTeX-Makropakets Einbandgestaltung: KünkelLopka, Heidelberg Gedruckt auf säurefreiem Papier 987654321 springer.de
F¨ ur Andrea, Manja, Jana B. K.
F¨ur Marlis, Alexander, Jeannette G. P.
Vorwort
Dieses Buch richtet sich vor allem an Informatikstudenten der ersten Semester. Es ist hervorgegangen aus Vorlesungen, die von den Autoren an der TU Kaiserslautern gehalten wurden. Der Inhalt und Stoffumfang wurden mehrfach in der Praxis erprobt. Da in Kaiserslautern sowohl im Fr¨ uhjahr als auch im Herbst ein Studieneinstieg m¨ oglich ist, beginnen dort einige Studenten mit Algebra (Kapitel 1 und 2), andere jedoch mit Analysis und Diskreter Mathematik (Kapitel 3–5). Der Text ist so aufgebaut, dass dies m¨oglich ist. Ein guter Informatiker ben¨ otigt ein breites mathematisches Grundwissen. Dabei geht es nicht vordergr¨ undig um Formeln und Fakten, sondern um die F¨ ahigkeit, abstrakte Strukturen zu erkennen und zu verstehen. Bevor ein Rechner ein kompliziertes Problem l¨ osen kann, muss es in der Regel vom Menschen (Informatiker) bearbeitet werden. Die besten Ergebnisse werden dabei erzielt, wenn die dem Problem innewohnenden abstrakten Strukturen erkannt und ausgenutzt werden. Die Konzeption dieses Lehrbuches unterscheidet sich von vielen anderen Mathematikb¨ uchern vor allem in den folgenden drei Punkten: • Jedes Kapitel beginnt mit konkreten, dem Leser vertrauten Begriffen oder Situationen. Davon ausgehend wird schrittweise abstrahiert bis hin zu den gebr¨auchlichen abstrakten Begriffen der modernen Mathematik. • In jedem Kapitel werden viele interessante Situationen des Alltagslebens beschrieben, in denen die zuvor eingef¨ uhrten abstrakten Begriffe und die bewiesenen Ergebnisse zum Einsatz kommen. Dabei stehen Anwendungen im Mittelpunkt, die einen engen Bezug zur Informatik besitzen. • Das Kapitel u ¨ber Mengenlehre ist am Ende des Buches zu finden. Es kann jederzeit unabh¨ angig vom restlichen Text gelesen werden. Dieses Lehrbuch besteht aus drei Teilen, die jeweils zwei Kapitel enthalten und weitgehend voneinander unabh¨ angig sind. Sie sind so angelegt, dass sie im Wesentlichen einzeln verstanden werden k¨ onnen: Teil I – Algebra
Teil II – Analysis
Teil III – Diskrete Strukturen.
vii
viii
Vorwort
Teil I besteht aus den zwei Kapiteln Zahlen und Lineare Algebra. Besonderer Wert wird auf die Vermittlung wichtiger Beweistechniken und der Methode ¨ der Abstraktion (Aquivalenzklassenbildung) gelegt. Im ersten Kapitel werden, ausgehend von den ganzen Zahlen, die wichtigen algebraischen Strukturen Gruppe, Ring und K¨orper erkl¨art. Als Anwendung werden die Grundlagen der modernen Kryptographie und das RSA Verschl¨ usselungsverfahren erl¨ autert. Man findet auch die zur Zeit gr¨oßte bekannte Primzahl. Im Zusammenhang mit dem Gruppenbegriff wird erl¨autert, was es mit Geldscheinnummern, der ISBN und der EAN auf sich hat. Es kommt auch der Rubik-W¨ urfel und seine Interpretation als Gruppe vor. Im zweiten Kapitel wird die Lineare Algebra dargestellt. Sie besch¨aftigt sich nicht nur mit Verfahren zur Bestimmung von L¨ osungsmengen linearer Gleichungssysteme, sondern auch mit strukturellen Eigenschaften solcher L¨osungsmengen. Als Anwendung findet man fehlerkorrigierende Codes und deren Bedeutung f¨ ur die gute Qualit¨ at der Musikwiedergabe eines CD-Spielers. Der Teil II enth¨ alt die Kapitel Reelle Zahlen und Folgen und Funktionen. Zun¨achst werden die Grundlagen der Differential- und Integralrechnung behandelt. Darauf aufbauend werden verschiedene M¨oglichkeiten der Approximation von Funktionen diskutiert. Dies umfasst die Approximation stetiger Funktionen durch Polynome und die Approximation periodischer Funktionen durch Fourier-Reihen. Das f¨ uhrt schließlich zu den schnellen FourierTransformationen und deren Anwendung bei der Bildkompression (JPEGVerfahren) und Audiokompression (MP3-Verfahren). Weitere Anwendungen, die in diesem Kapitel besprochen werden, sind verschiedene Methoden zur Berechnung der Zahl π und die n¨ aherungsweise Berechnung von n! f¨ ur sehr große nat¨ urliche Zahlen n. Die Kapitel im Teil III heißen Diskrete Mathematik und Grundlagen der Mathematik. In der Diskreten Mathematik werden die elementaren Grundlagen der Kombinatorik, Wahrscheinlichkeitstheorie und Graphentheorie behandelt. Als Anwendungen werden einerseits die Funktionsweise von Spamfiltern und die Verwaltung großer Datenmengen mit Hashtabellen diskutiert. Andererseits wird erkl¨ art, wie Suchmaschinen effizient Informationen im Internet finden und wie ein Routenplaner einen optimalen Weg bestimmt. Es wir auch der mathematische Hintergrund eines Sudokus erkl¨art. Schließlich werden effiziente Primzahltests, die auf Methoden der Wahrscheinlichkeitstheorie beruhen, vorgestellt. Das Kapitel u ¨ber die Grundlagen der Mathematik besch¨aftigt sich mit Aussagenlogik, Mengenlehre und Relationen. Darin wird das Standardvokabular der modernen Mathematik erl¨ autert. Es ist so angelegt, dass es mehr als nur eine trockene, kurze und knappe Sprachschulung ist. Durch die Darstellung einiger Bez¨ uge zur Arbeit mit Datenbanken wird der Versuch unternommen, die Relevanz der Grundbegriffe der Mathematik in der Informatik den Lesern nahezubringen. Dieses Kapitel kann jeder Zeit unabh¨angig vom u ¨ brigen Teil dieses Buches gelesen werden.
Vorwort
ix
Am Ende dieses Buches ist neben einem Symbolverzeichnis, einem Stichwortverzeichnis und einem Verzeichnis der erw¨ ahnten Personen auch ein Anhang ¨ zu finden, der die L¨ osungen aller Ubungsaufgaben enth¨alt. Dadurch ist das vorliegende Buch auch sehr gut zum Selbststudium geeignet. Hinweise f¨ ur Studierende Die drei Teile dieses Lehrbuches sind unabh¨ angig voneinander lesbar. Wir empfehlen, Kapitel 6 u uhzeitig we¨ ber die Grundlagen der Mathematik fr¨ nigstens zu u ¨berfliegen und nach dem Studium von Teil I oder Teil II bzw. bei Bedarf nochmals f¨ ur ein tieferes Studium zu Kapitel 6 zur¨ uckzukehren. Das Ziel des Kurses besteht im Verst¨ andnis von Konzepten, Begriffsbildungen und von Methoden zur Probleml¨ osung. Ohne aktive Mitarbeit des Lesers ist dieses Ziel nicht erreichbar. Das Konsumieren des Textes beziehungsweise der Vorlesung als reiner Zuschauer ist bei weitem nicht ausreichend. Daher legen ¨ wir jedem Leser ans Herz, alle Ubungsaufgaben selbst¨andig zu l¨osen oder dies zumindest ernsthaft zu versuchen. Die L¨ osungen im Anhang dienen nur zur Kontrolle, ob die eigene L¨ osung korrekt ist. Hinweise f¨ ur Vorlesende Auf der Grundlage dieses Buches kann man zwei 4-st¨ undige Vorlesungen (jeweils ein Semester mit etwa 13–15 Wochen) gestalten. Erprobt wurde, in einem Semester die Kapitel 1, 2 und 6, und im anderen die Kapitel 3, 4 und 5 zu behandeln. Dabei muss man in Abh¨ angigkeit von der konkreten Situation eventuell etwas k¨ urzen. Die beiden Vorlesungen k¨onnen so gestaltet werden, dass sie unabh¨angig und damit in ihrer Reihenfolge vertauschbar sind. Die regelm¨aßige w¨ ochentliche Abgabe eigener schriftlicher L¨osungsversuche ¨ der Studenten und begleitende Ubungsstunden mit sachkundiger Betreuung scheinen den Autoren wesentlich f¨ ur den Erfolg des Kurses. Dankesworte Durch zahlreiche Diskussionen mit unseren Kollegen Magdalena Schweigert und Klaus Wirthm¨ uller und dadurch, dass sie uns Einsicht in ihre Vorlesungsmanuskripte gew¨ ahrt haben, sind ihre langj¨ahrigen Erfahrungen bei der Mathematikausbildung von Informatikstudenten sehr wesentlich in dieses Lehrbuch mit eingeflossen. Daf¨ ur und f¨ ur die konstruktive und kritische Durchsicht unseres Manuskripts m¨ ochten wir uns an dieser Stelle bedanken. Wir bedanken uns bei Carsten Damm, Christian Eder, Ralf Korn, Thomas Markwig, Stefan Steidel und Rolf Wiehagen, die durch viele sehr n¨ utzliche Hinweise nach der Lekt¨ ure eines vorl¨ aufigen Manuskripts zur Verbesserung des vorliegenden Textes beigetragen haben. Wir danken Petra B¨asell, die Teile des Manuskriptes getippt hat, und Oliver Wienand, der uns bei schwierigen LATEX-Problemen beraten hat. Schließlich danken wir unseren Frauen, Andrea und Marlis, f¨ ur die Geduld, die sie w¨ahrend der Entstehung dieses Buches mit uns hatten. Kaiserslautern und Limerick, im November 2008
Bernd Kreußler Gerhard Pfister
Inhaltsverzeichnis
Teil I Algebra 1
Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Rechnen mit ganzen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Restklassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Gruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Ringe und K¨ orper . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.5 Kryptographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3 3 16 25 46 64
2
Lineare Algebra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Lineare Gleichungssysteme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Vektorr¨aume und lineare Abbildungen . . . . . . . . . . . . . . . . . . . . 2.3 Anwendungen des Gaußschen Algorithmus . . . . . . . . . . . . . . . . . 2.4 Quadratische Matrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Fehlerkorrigierende Codes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
73 73 93 110 120 147
Teil II Analysis 3
Reelle Zahlen und Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1 Reelle und komplexe Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Folgen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Reihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Zahlen im Computer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Asymptotische Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
165 165 174 186 195 200
4
Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Differentialrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Potenzreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.4 Integralrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Approximation von Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . .
205 205 221 235 238 256
xi
xii
Inhaltsverzeichnis
Teil III Diskrete Strukturen 5
Diskrete Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3 Graphentheorie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4 Primzahltests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
281 281 293 317 348
6
Grundlagen der Mathematik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Aussagenlogik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3 Relationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
359 360 371 378
L¨ osungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 397 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 443 Symbolverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 Personenverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 447 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449
Teil I Algebra
Kapitel 1
Zahlen
¨ Die klassische Algebra der Agypter, Babylonier und Griechen besch¨aftigte sich vorwiegend mit dem L¨ osen von Gleichungen. Im Zentrum der Untersuchungen der modernen Algebra liegen hingegen algebraische Operationen, wie zum Beispiel die Addition und die Multiplikation ganzer Zahlen. Das Ziel dieses Kapitels besteht darin, die wichtigsten Grundbegriffe der Algebra darzustellen. Dazu ist es notwendig, sich in eine abstrakte Begriffswelt zu begeben. Um dies zu erleichtern, beginnen wir mit einem Studium der grundlegenden Eigenschaften ganzer Zahlen. Besonderer Wert wird auch auf die Vermitt¨ lung wichtiger Beweistechniken gelegt. Die Bildung von Aquivalenzklassen ist eine fundamentale mathematische Konstruktionsmethode und wird daher ausf¨ uhrlich erl¨autert. Viele der hier vorgestellten praktischen Anwendungen beruhen darauf. Als informatikbezogene Anwendung wird am Ende des Kapitels erl¨autert, wie die Grundbegriffe der Algebra f¨ ur sinnvolle und praxisrelevante Pr¨ ufzeichen- und Chiffrierverfahren eingesetzt werden.
1.1 Rechnen mit ganzen Zahlen Die ganzen Zahlen dienen als Modell f¨ ur alle weiteren algebraischen Strukturen, die wir in diesem Kapitel untersuchen. Als Vorbereitung auf die axiomatische Einf¨ uhrung abstrakterer Begriffe konzentrieren wir uns auf die grundlegenden Eigenschaften der Rechenoperationen mit ganzen Zahlen. Außerdem lernen wir das Prinzip der vollst¨ andigen Induktion und den Euklidischen Algorithmus kennen. Das sind wichtige Werkzeuge f¨ ur den Alltagsgebrauch eines Informatikers. Auf eine axiomatische Einf¨ uhrung der nat¨ urlichen Zahlen wird hier bewusst verzichtet. Der interessierte Leser findet eine solche in [EbZ]. F¨ ur die Gesamtheit aller ganzen Zahlen hat sich das Symbol Z eingeb¨ urgert: Z = {. . . , −3, −2, −1, 0, 1, 2, 3, . . .} . 3
4
1 Zahlen
Die Summe, das Produkt und die Differenz (jedoch nicht der Quotient) zweier ganzer Zahlen ist stets eine ganze Zahl. Die Addition und die Multiplikation sind die Operationen auf die sich das algebraische Studium der ganzen Zahlen gr¨ undet. Wir listen hier in aller Ausf¨ uhrlichkeit ihre wesentlichen Eigenschaften auf. Das hilft uns sp¨ ater, abstraktere Begriffe wie Gruppe, Ring und K¨orper besser zu verstehen. F¨ ur beliebige ganze Zahlen a, b, c ∈ Z gilt: Kommutativgesetz der Addition
a+b=b+a
(1.1)
Assoziativgesetz der Addition (a + b) + c = a + (b + c) (1.2) Gesetz vom additiven neutralen Element a+0=a (1.3) Gesetz vom additiven inversen Element Kommutativgesetz der Multiplikation Assoziativgesetz der Multiplikation Gesetz vom multipl. neutralen Element Distributivgesetz
a + (−a) = 0 a·b = b·a
(a · b) · c = a · (b · c) 1·a= a
(1.4) (1.5) (1.6) (1.7)
a · (b + c) = a · b + a · c (1.8)
Das Gesetz vom inversen Element (1.4) ist folgendermaßen zu lesen: Zu jeder ganzen Zahl a gibt es eine ganze Zahl −a, f¨ ur die a + (−a) = 0 ist. Es wird hier nicht gesagt, dass −a durch die gegebene Zahl a eindeutig festgelegt ist. Ein erstes Indiz daf¨ ur, welches Potenzial in diesen acht Gesetzen steckt ist, dass sie die Eindeutigkeit von −a erzwingen. Das sehen wir wie folgt: Wenn wir annehmen, dass x, y ∈ Z Zahlen sind, f¨ ur die a + x = 0 und a + y = 0 gilt, dann folgt mit (1.3), (1.2) und (1.1) x = x + 0 = x + (a + y) = (x + a) + y = 0 + y = y . Wir haben also unter alleiniger Benutzung der Gesetze (1.1), (1.2) und (1.3) gezeigt, dass die Gleichung a + x = 0 h¨ ochstens eine L¨osung besitzen kann. Das Gesetz (1.4) beinhaltet nun die Aussage, dass es eine solche L¨osung tats¨achlich gibt. Ein weiteres Beispiel der ausschließlichen Benutzung der Gesetze (1.1)–(1.8) ist die folgende Herleitung der wohlbekannten Gleichung (−1) · (−1) = 1: 1 = 1 + 0 · (−1)
= 1 + 1 + (−1) · (−1)
= 1 + 1 · (−1) + (−1) · (−1) = 1 + (−1) + (−1) · (−1) = (−1) · (−1)
wegen (1.3) wegen (1.4) wegen (1.8) wegen (1.2) und (1.7) wegen (1.3) und (1.4).
Bei der ersten Umformung benutzen wir, dass f¨ ur alle ganzen Zahlen a die Gleichung 0 · a = 0 gilt. Um dies aus den Grundregeln abzuleiten, bemerken wir zun¨achst, dass die Gleichungen a · 0 = a · (0 + 0) = a · 0 + a · 0 aus
1.1 Rechnen mit ganzen Zahlen
5
(1.3) und (1.8) folgen. Nach Addition von −(a · 0) ergibt sich daraus, unter Benutzung von (1.4) und (1.2), die Gleichung 0 = a · 0. Kommutativit¨at der Multiplikation (1.5) liefert schließlich 0 · a = 0. Derartig elementare Rechnungen sind wichtig, weil wir sie auf abstraktem Niveau wiederholen k¨ onnen. Im Verlauf dieses Kapitels werden wir lernen, mit mathematischen Strukturen umzugehen, bei denen nur noch die algebraischen Operationen an unsere konkrete Erfahrung mit ganzen Zahlen angelehnt sind, nicht aber die Objekte, mit denen wir operieren. In Beweisen k¨onnen wir dann ausschließlich auf Grundregeln wie (1.1)–(1.8) zur¨ uckgreifen. Diese werden als Axiome (das heißt zu Beginn vorgegebene, charakteristische Eigenschaften) der betrachteten Struktur bezeichnet. Die F¨ahigkeit, Argumentationen auf der Grundlage einer kleinen Zahl klar vorgegebener Regeln zu f¨ uhren, ist f¨ ur die exakten Wissenschaften so wichtig, dass sie von Anfang an und kontinuierlich trainiert werden muss. Wenn Sie die bisher angegebenen Beweise elementarer Aussagen nur u ¨berflogen haben, dann empfehlen wir Ihnen deshalb, dass Sie sich vor dem Weiterlesen nochmals etwas intensiver damit besch¨ aftigen. Solche Begriffe wie Teiler und Primzahl sind dem Leser vermutlich bereits vertraut. Wir werden sie hier kurz wiederholen, um von vornherein mit klaren und einheitlichen Begriffen zu operieren. Eine derartige Vorgehensweise ist in Mathematik und Informatik von prinzipieller Wichtigkeit, um Missverst¨andnisse, nicht funktionierende Software oder gar Milliardenverluste zu vermeiden. Eine ganze Zahl b heißt Teiler der ganzen Zahl a, falls es eine ganze Zahl c gibt, so dass bc = a gilt. Wir schreiben dann b | a (sprich: b teilt a). So hat zum Beispiel a = 6 die Teiler −6, −3, −2, −1, 1, 2, 3, 6. Die Zahl a = 0 ist die einzige ganze Zahl, die unendlich viele Teiler besitzt. Entsprechend unserer Definition ist sie durch jede ganze Zahl teilbar. Jede ganze Zahl a hat mindestens die Teiler −a, −1, 1, a, und wenn a 6= ±1, 0 ist, sind dies vier verschiedene Teiler. Außer a = 0 besitzt keine ganze Zahl den Teiler 0. Wir nennen eine Zahl a ∈ Z zusammengesetzt, wenn es ganze Zahlen b 6= ±1, c 6= ±1 gibt, so dass a = bc. Eine von ±1 verschiedene Zahl, die nicht zusammengesetzt ist, nennt man Primzahl . Da 0 = 0 · 2 gilt, ist 0 zusammengesetzt, also keine Primzahl. Da 2 = 1 · 2 und 2 = (−1) · (−2) bis auf die Reihenfolge der Faktoren die einzigen Darstellungen von a = 2 als Produkt zweier ganzer Zahlen sind, ist 2 eine Primzahl. Eine Zahl c heißt gemeinsamer Teiler von a und b falls c | a und c | b. Wir nennen zwei Zahlen teilerfremd , wenn 1 und −1 die einzigen gemeinsamen Teiler dieser Zahlen sind. Definition 1.1.1. Seien a 6= 0, b 6= 0 ganze Zahlen. Wir nennen eine positive ganze Zahl d > 0 gr¨oßten gemeinsamen Teiler von a und b, wenn die folgenden beiden Bedingungen erf¨ ullt sind: (i) (gemeinsamer Teiler) d | a und d | b; (ii) (Maximalit¨at) F¨ ur jedes c ∈ Z gilt: Wenn c | a und c | b, dann gilt c | d.
6
1 Zahlen
Wenn diese Eigenschaften erf¨ ullt sind, schreiben wir d = ggT(a, b). Beachten Sie hier, dass die Bedingung (ii) nicht lautet d ist die gr¨oßte ganze ” Zahl, die (i) erf¨ ullt“. Vergleichen Sie dies jedoch mit Aufgabe 1.2. Diese Definition f¨ uhrt zu unseren ersten mathematischen Problemen: Gibt es f¨ ur beliebige a, b ∈ Z stets einen gr¨oßten gemeinsamen Teiler? Wenn ja, ist dieser dann eindeutig bestimmt? Wie kann man ihn berechnen? Die Antworten sind Ihnen vermutlich bekannt. Wir wollen diese Fragen hier jedoch nicht nur beantworten, sondern unsere Antworten auch begr¨ unden. Wir werden die Existenz und Eindeutigkeit des gr¨oßten gemeinsamen Teilers beweisen. Die Existenz werden wir mit Hilfe des Euklidischen Algorithmus nachweisen, der uns außerdem ein effektives Mittel f¨ ur seine Berechnung in die Hand gibt. Ohne eine Berechnungsmethode zu kennen und ohne den Nachweis der Existenz gef¨ uhrt zu haben, werden wir zun¨achst die Eindeutigkeit des gr¨oßten gemeinsamen Teilers beweisen. Satz 1.1.2 Zu gegebenen ganzen Zahlen a 6= 0, b 6= 0 gibt es h¨ochstens einen gr¨oßten gemeinsamen Teiler. Beweis. Angenommen d und d′ seien gr¨ oßte gemeinsame Teiler von a und b im Sinne von Definition 1.1.1. Dann gilt (1) d | a und d | b; (2) d′ | a und d′ | b; (3) Wenn c ∈ Z, so dass c | a und c | b, dann gilt c | d und c | d′ .
Aus (1) und (3) mit c = d ergibt sich d | d′ . Ebenso folgt aus (2) und (3) mit c = d′ , dass d′ | d gilt. Daher gibt es ganze Zahlen r, s mit d′ = d · r und d = d′ · s. Das heißt d = d · r · s und somit r · s = 1. Also muss r = s = 1 oder r = s = −1 gelten. Da aber d und d′ positive ganze Zahlen sind, ist r = s = 1 und wir erhalten d = d′ . ⊓ ⊔ Der Euklidische 1 Algorithmus ist einer der ¨ altesten und grundlegendsten Algorithmen der Mathematik. Uns dient er hier sowohl als Beweistechnik als auch als Methode f¨ ur konkrete Rechnungen. Sein mathematisches Kernst¨ uck ist die Division mit Rest. Darunter verstehen wir die folgende Eigenschaft ganzer Zahlen, die sich nicht aus den Grundregeln (1.1)–(1.8) ergibt, da die Ordnungsrelation < darin auftritt: Wenn a, b ∈ Z mit b 6= 0, dann gibt es ganze Zahlen r und n, so dass a = nb + r und 0 ≤ r < |b| gilt. 1 Euklid von Alexandria wirkte um 300 v.u.Z. in Alexandria, genaue Lebensdaten und sichere Information, ob es sich wirklich um eine einzelne Person handelt, sind nicht bekannt. Vgl. Fußnote auf Seite 76.
1.1 Rechnen mit ganzen Zahlen
7
Die Zahl r heißt Rest von a bei Division durch b. Hier und im Folgenden bezeichnet |b| den Betrag der ganzen Zahl b, das heißt |b| = b wenn b ≥ 0 und |b| = −b wenn b ≤ 0. Verallgemeinerungen des hier vorgestellten Euklidischen Algorithmus, etwa f¨ ur Polynome oder Gaußsche ganze Zahlen, beruhen jeweils auf einer entsprechend angepassten Version der Division mit Rest.
Der Euklidische Algorithmus Als Eingabedaten seien zwei positive ganze Zahlen a, b mit a > b gegeben. Am Ende wird ggT(a, b) ausgegeben. Jeder Schritt des Algorithmus besteht aus einer Division mit Rest, gefolgt von einem Test, in dem entschieden wird, ob das Ende bereits erreicht wurde. Initialisierung: A := a, B := b Division: Bestimme N ∈ Z, so dass 0 ≤ A − N · B < B. C := A − N · B ist der Rest von A bei Division durch B. Test: Wenn C = 0, dann Ausgabe von ggT(a, b) := B und stopp. Wenn C > 0, dann Division mit Rest f¨ ur A := B, B := C. Wie bei jedem Algorithmus sind zun¨ achst folgende Fragen zu kl¨aren: Endet dieser Algorithmus stets nach endlich vielen Schritten? Liefert er wirklich den gr¨ oßten gemeinsamen Teiler? Um diese Fragen zu beantworten, schauen wir uns den Algorithmus Schritt f¨ ur Schritt an. Wir setzen a1 := a, b1 := b. Bei jedem Schritt wird ein neues Paar von Zahlen (ak , bk ) produziert. Das neue Paar (ak , bk ) ergibt sich f¨ ur jedes k ≥ 1 aus dem vorherigen durch folgende Formeln: bk+1 = ak − nk bk
ak+1 = bk .
Hier ist nk eine geeignete ganze Zahl und es gilt stets 0 ≤ bk+1 < bk . Nach dem k-ten Schritt liegt uns das Paar (ak+1 , bk+1 ) vor. Nach dem N -ten Schritt stoppt der Algorithmus genau dann, wenn bN +1 = 0 gilt. In diesem Fall ist 0 = aN − nN · bN und f¨ ur die Korrektheit des Algorithmus w¨are zu beweisen, dass bN = ggT(a, b) gilt. Schauen wir uns zun¨ achst ein Beispiel an. k 1 2 3 4
(ak , bk ) (287, 84) (84, 35) (35, 14) (14, 7)
ak − n k b k 287 − 3 · 84 84 − 2 · 35 35 − 2 · 14 14 − 2 · 7
= bk+1 = 35 = 14 = 7 = 0
Wir haben hier N = 4, b4 = 7 und es gilt tats¨ achlich ggT(287, 84) = 7. Bemerkung 1.1.3. Pro Schritt produziert der Algorithmus nicht zwei, sondern nur eine neue Zahl, n¨ amlich bk+1 . Wenn wir b0 := a1 setzen, dann
8
1 Zahlen
k¨onnen wir die Berechnung in jedem Schritt des Algorithmus auch in der Form bk+1 = bk−1 − nk bk schreiben. Dabei soll wieder 0 ≤ bk+1 < bk gelten. Der Algorithmus terminiert, sobald bk+1 = 0 ist. Da b1 > b2 > . . . > bn ≥ 0 und die bi ganze Zahlen sind, ist nach maximal b1 Schritten sicher die Bedingung bk+1 = 0 erf¨ ullt. Die Endlichkeit des Algorithmus ist damit garantiert. Die Korrektheit des Euklidischen Algorithmus wird mittels vollst¨andiger Induktion bewiesen. Da diese Beweistechnik h¨aufig verwendet wird und hier zum ersten Mal auftritt, stellen wir sie sehr ausf¨ uhrlich dar. Satz 1.1.4 Der Euklidische Algorithmus berechnet den gr¨oßten gemeinsamen Teiler.
Beweis. Sei N die Zahl der Schritte im Euklidischen Algorithmus, das heißt 0 = aN − n N b N
und
b1 > b2 > . . . > bN > bN +1 = 0 .
Zu zeigen ist bN = ggT(a1 , b1 ). Die Induktion wird u ¨ ber N , die Anzahl der Schritte, durchgef¨ uhrt. Induktionsanfang: Als erstes beweisen wir den Satz f¨ ur den Fall N = 1. Dazu m¨ ussen wir pr¨ ufen, ob b1 die Bedingungen der Definition 1.1.1 erf¨ ullt. Wegen N = 1 gilt a1 = n1 · b1 und somit b1 | a1 . Zusammen mit b1 | b1 ist das gerade die Bedingung (i) der Definition. Wenn eine ganze Zahl c Teiler von a1 und b1 ist, dann gilt offenbar c | b1 , also ist auch die Bedingung (ii) erf¨ ullt. Damit haben wir gezeigt, dass b1 = ggT(a1 , b1 ), wenn N = 1 ist. Induktionsschritt: Wir setzen voraus, dass die Behauptung des Satzes f¨ ur einen festen Wert N ≥ 1 wahr ist und wollen daraus schließen, dass sie auch f¨ ur N + 1 gilt. Voraussetzung. F¨ ur jedes Zahlenpaar (a, b), f¨ ur welches der Euklidische Algorithmus nach N Schritten terminiert (d.h. 0 = aN − nN bN ), liefert uns der Algorithmus den gr¨ oßten gemeinsamen Teiler, d.h. es gilt bN = ggT(a, b). ur jedes Zahlenpaar (a, b), f¨ ur welches der Euklidische AlgoBehauptung. F¨ rithmus nach N + 1 Schritten terminiert, liefert uns dieser Algorithmus den gr¨oßten gemeinsamen Teiler. Beweis. Sei (a, b) = (a1 , b1 ) ein Paar positiver ganzer Zahlen mit a > b, so dass der Euklidische Algorithmus nach N +1 Schritten terminiert. Dann endet der Euklidische Algorithmus f¨ ur das Paar (a2 , b2 ) bereits nach N Schritten. Wir k¨onnen daher die Induktionsvoraussetzung auf das Paar (a2 , b2 ) anwenden und erhalten bN +1 = ggT(a2 , b2 ). Man beachte hier die verschobene Nummerierung. Der Erste Schritt des Algorithmus liefert uns die Gleichungen
1.1 Rechnen mit ganzen Zahlen
9
b 2 = a1 − n 1 b 1
(1.9)
a2 = b 1 , oder ¨aquivalent dazu
a1 = b 2 + n 1 a2
(1.10)
b 1 = a2 .
Wir setzen zur Abk¨ urzung d = bN +1 = ggT(a2 , b2 ). Dann gilt d | a2 und d | b2 . Mit Hilfe von (1.10) ergibt sich daraus d | a1 und d | b1 . Daher erf¨ ullt d die Bedingung (i) aus Definition 1.1.1 des gr¨ oßten gemeinsamen Teilers von a1 und b1 . Wenn nun c ein gemeinsamer Teiler von a1 und b1 ist, dann folgt aus (1.9) c | a2 und c | b2 . Da d = ggT(a2 , b2 ) hat dies c | d zur Folge. Damit erf¨ ullt d in der Tat die definierenden Eigenschaften des gr¨oßten gemeinsamen Teilers von a1 und b1 . Also d = ggT(a1 , b1 ), was die Behauptung war. ⊓ ⊔ Somit ist die Korrektheit und die Endlichkeit des Euklidischen Algorithmus bewiesen. Mit Hilfe dieses Algorithmus l¨ asst sich der gr¨oßte gemeinsame Teiler zweier ganzer Zahlen relativ schnell berechnen. Wenn die Zahlen zu groß werden, st¨oßt er jedoch an seine Grenzen und um in akzeptabler Zeit ein Ergebnis zu erhalten, sind weitere Ideen notwendig. Einige davon werden wir am Ende dieses Kapitels kennenlernen. Von mathematischem Interesse ist der Euklidische Algorithmus f¨ ur uns aber auch deshalb, weil er die Existenz des gr¨ oßten gemeinsamen Teilers liefert. Dar¨ uber hinaus kann er f¨ ur weitere interessante Anwendungen genutzt werden, von denen wir uns eine zun¨ achst an einem Beispiel anschauen. Beispiel 1.1.5. Der Euklidische Algorithmus f¨ ur das Paar (104,47) lautet k 1 2 3 4 5
(ak , bk ) (104, 47) (47, 10) (10, 7) (7, 3) (3, 1)
ak − n k b k 104 − 2 · 47 47 − 4 · 10 10 − 1 · 7 7−2·3 3−3·1
= bk+1 = 10 = 7 = 3 = 1 = 0
Nun setzen wir, mit dem gr¨ oßten gemeinsamen Teiler 1 beginnend, die Re¨ chenergebnisse r¨ uckw¨ arts wieder ein. Zur besseren Ubersicht sind die Zahlen bk unterstrichen. 1 = 7−2·3
= 7 − 2 · (10 − 1 · 7) = 3 · (47 − 4 · 10) − 2 · 10
= 3 · 7 − 2 · 10 = 3 · 47 − 14 · 10
= 3 · 47 − 14 · (104 − 2 · 47) = (−14) · 104 + 31 · 47 . Wir haben damit den gr¨ oßten gemeinsamen Teiler d = 1 der beiden Zahlen a = 104 und b = 47 in der Gestalt d = r · a + s · b dargestellt. Dabei sind
10
1 Zahlen
r = −14 und s = 31 ganze Zahlen. Dies ist ganz allgemein m¨oglich und man kann damit sogar den gr¨ oßten gemeinsamen Teiler charakterisieren. Satz 1.1.6 Seien a 6= 0, b 6= 0 ganze Zahlen. Eine Zahl d > 0 ist genau dann der gr¨oßte gemeinsame Teiler von a und b, wenn die folgenden beiden Bedingungen erf¨ ullt sind: (1) Es gibt ganze Zahlen r, s, f¨ ur die d = ra + sb gilt. (2) Jede ganze Zahl der Gestalt ra + sb ist durch d teilbar. Beweis. Weil die Behauptung besagt, dass zwei unterschiedliche Charakterisierungen des gr¨ oßten gemeinsamen Teilers ¨ aquivalent sind, muss der Beweis aus zwei Teilen bestehen. ullt. Teil I. Es ist zu zeigen, dass ggT(a, b) die Bedingungen (1) und (2) erf¨ Teil II. Umgekehrt muss gezeigt werden, dass eine Zahl d, welche die Bedingungen (1) und (2) erf¨ ullt, auch die Bedingung (i) und (ii) aus Definition 1.1.1 erf¨ ullt, woraus sich dann d = ggT(a, b) ergibt. ankung der Allgemeinheit k¨onnen wir a ≥ b > Beweis von I. Ohne Beschr¨ 0 annehmen, denn ggT(−a, b) = ggT(a, −b) = ggT(a, b) = ggT(b, a). Sei d = ggT(a, b). Da d gemeinsamer Teiler von a und b ist, gilt d | ra + sb f¨ ur beliebige ganze Zahlen r, s ∈ Z. Die Eigenschaft (2) wird also von d erf¨ ullt. Zum Beweis von (1) f¨ uhren wir wieder eine Induktion u ¨ ber N , die Anzahl der Schritte im Euklidischen Algorithmus, durch. Induktionsanfang: Falls N = 1, so ist d = b = b1 und a = a1 = n1 b1 . Damit k¨onnen wir r = 0, s = 1 w¨ ahlen um d = ra + sb zu erhalten. Induktionsschritt: Wenn der Euklidische Algorithmus f¨ ur (a, b) = (a1 , b1 ) aus N +1 Schritten besteht, so sind es f¨ ur (a2 , b2 ) nur N Schritte. Wir k¨onnen also die Induktionsvoraussetzung auf (a2 , b2 ) anwenden. Diese besagt, dass es ganze Zahlen r′ , s′ gibt, f¨ ur die d = r′ a2 + s′ b2 gilt. Außerdem gelten wieder die Gleichungen (1.9) und (1.10) und, wie gew¨ unscht, erhalten wir d = r′ b1 + s′ (a1 − n1 b1 ) = s′ a1 + (r′ − s′ n1 )b1 . Beweis von II. Sei nun d = ra+ sb > 0 eine ganze Zahl, welche die Bedingung (2) erf¨ ullt. Außerdem sei d′ = ggT(a, b). Nach dem bereits gezeigten Teil I gibt es r′ , s′ ∈ Z mit d′ = r′ a + s′ b und d′ erf¨ ullt die Bedingung (2). Da d = ra + sb folgt daraus d′ | d. Weil d′ = r′ a + s′ b und d nach Voraussetzung die Bedingung (2) erf¨ ullt, folgt d | d′ . Daraus ergibt sich, wie bereits zuvor, ′ d=d. ⊓ ⊔ Das bisher erworbene Verst¨ andnis u ¨ber den gr¨oßten gemeinsamen Teiler wenden wir nun an, um eine n¨ utzliche Charakterisierung von Primzahlen zu geben.
1.1 Rechnen mit ganzen Zahlen
11
Satz 1.1.7 (a) F¨ ur a, b, c ∈ Z mit ggT(a, b) = 1 und a | bc gilt stets a | c. (b) Eine Zahl p 6= 0, 1, −1 ist genau dann eine Primzahl, wenn folgende Bedingung erf¨ ullt ist: F¨ ur beliebige ganze Zahlen a, b folgt aus p | ab stets p | a oder p | b. Beweis. (a) Da ggT(a, b) = 1, gibt es nach Satz 1.1.6 ganze Zahlen r, s mit ra+ sb = 1. Also ist c = c·(ra+ sb) = a·rc+ bc·s. Da wir a | bc vorausgesetzt haben, folgt daraus a | c. ¨ (b) Der Beweis der behaupteten Aquivalenz zweier Eigenschaften zerf¨allt erneut in zwei Teile: Teil I. Zun¨achst nehmen wir an, dass die Zahl p die Bedingung erf¨ ullt, dass aus p | ab stets p | a oder p | b folgt. Es ist zu zeigen, dass p eine Primzahl im Sinne unserer Definition auf Seite 5 ist. Dazu nehmen wir an, dass p als Produkt p = ab geschrieben werden kann. Dann gilt p | ab, also nach Voraussetzung p | a oder p | b. Wir k¨ onnen annehmen b = rp. Der Fall p | a erledigt sich in gleicher Weise. Wir erhalten p = ab = arp, woraus, wegen p 6= 0, ar = 1 folgt. Daher muss a = r = 1 oder a = r = −1 gelten. Also ist p eine Primzahl. Teil II. Sei nun p eine Primzahl. Wir haben zu zeigen, dass aus p | ab stets p | a oder p | b folgt. Seien dazu a, b ganze Zahlen, f¨ ur die p | ab gilt. Wir nehmen an p ist kein Teiler von a, sonst w¨ aren wir ja fertig. Da p eine Primzahl ist, hat p nur die beiden positiven Teiler 1 und p. So kann ggT(p, a) nur 1 oder p sein. Da aber p kein Teiler von a ist, muss ggT(p, a) = 1 sein. Wir k¨onnen nun Teil (a) des Satzes 1.1.7 anwenden und erhalten p | b. ⊓ ⊔ Unter Benutzung dieser Charakterisierung von Primzahlen k¨onnen wir jetzt den folgenden Satz beweisen. Er bringt zum Ausdruck, dass die Primzahlen die Grundbausteine der ganzen Zahlen bez¨ uglich ihrer multiplikativen Struktur sind. Satz 1.1.8 (Eindeutige Primfaktorzerlegung) Jede ganze Zahl n 6= 0 l¨asst sich auf genau eine Weise in der Form n = u · p1 · p2 · . . . · pk schreiben, wobei u = ±1 das Vorzeichen von n ist und 1 < p1 ≤ p2 ≤ · · · ≤ pk Primzahlen sind. Der Fall k = 0 ist dabei auch zugelassen und wir meinen dann n = u. Beweis. Wenn n < 0 ist, w¨ ahlen wir u = −1, sonst sei u = 1. Es gen¨ ugt, den Fall n > 0 zu untersuchen, der Rest l¨ asst sich durch Multiplikation mit (−1) darauf zur¨ uckf¨ uhren. Zu beweisen ist f¨ ur jede ganze Zahl n ≥ 2 die Existenz und Eindeutigkeit einer Darstellung n = p1 · . . . · pk mit Primzahlen 1 < p1 ≤ · · · ≤ pk . Die Beweise werden wieder induktiv gef¨ uhrt. Existenzbeweis: (Vollst¨andige Induktion u ¨ ber n.) Induktionsanfang: n = 2. Da p1 = 2 eine Primzahl ist, sind wir fertig.
12
1 Zahlen
Induktionsschritt: Wir nutzen eine leicht ver¨anderte Version des Prinzips der vollst¨andigen Induktion. Die Induktionsvoraussetzung umfasst hier die G¨ ultigkeit der zu beweisenden Aussage f¨ ur alle Werte n ≤ N . Daraus ist die G¨ ultigkeit der Aussage f¨ ur n = N + 1 abzuleiten. Das heißt, wir setzen voraus, dass jede ganze Zahl n mit 2 ≤ n ≤ N eine Darstellung als Produkt von Primzahlen besitzt. Wir wollen dies nun f¨ ur die Zahl N + 1 zeigen. Wenn N + 1 eine Primzahl ist, dann setzen wir p1 = N + 1 und sind fertig. Wenn N + 1 keine Primzahl ist, so gibt es nach der Definition des Begriffes der Primzahl ganze Zahlen a ≥ 2, b ≥ 2, f¨ ur die N + 1 = ab gilt. Da a und b kleiner als N + 1 sind, lassen sich beide Zahlen nach Induktionsvoraussetzung als Primzahlprodukt schreiben. Damit ist die Existenzaussage bewiesen. Eindeutigkeitsbeweis: (Induktion u ¨ ber k, die Anzahl der Primfaktoren.) Induktionsanfang: k = 1 bedeutet hier, dass n = p1 eine Primzahl ist. Wenn außerdem p1 = n = p′1 · . . . · p′r gilt, dann muss r = 1 und p1 = p′1 gelten. Dies folgt aus der Definition des Begriffes der Primzahl. Induktionsschritt: Wir nehmen an, dass jede Darstellung mit k Faktoren eindeutig ist, also wenn n = p1 · . . . · pk mit Primzahlen p1 ≤ · · · ≤ pk und n = p′1 · . . . · p′r mit Primzahlen p′1 ≤ · · · ≤ p′r geschrieben werden kann, dann ist k = r und pi = p′i . Sei n eine Zahl mit k + 1 Primfaktoren, also n = p1 · . . . · pk+1 mit Primzahlen p1 ≤ · · · ≤ pk+1 . Wenn n = p′1 · . . . · p′r eine weitere Zerlegung von n in Primfaktoren p′1 ≤ · · · ≤ p′r ist, dann gilt pk+1 | p′1 · . . . · p′r . Wegen Satz 1.1.7 ergibt sich daraus pk+1 | p′i f¨ ur ein i. Da beides positive Primzahlen sind, muss pk+1 = p′i gelten. Daher ist p1 · . . . · pk = p′1 · . . . · p′i−1 · p′i+1 · . . . · p′r {z } | r−1 Faktoren
und die Induktionsvoraussetzung liefert k = r − 1 und pj = p′j f¨ ur j < i bzw. pj = p′j+1 f¨ ur j ≥ i. Da pk+1 ≥ pk gilt, ist p′i ≥ p′r . Da wir p′i ≤ p′r vorausgesetzt hatten, gilt p′i = p′r und wir k¨onnen i = r w¨ahlen. Es folgt dann k + 1 = r und pj = p′j f¨ ur alle j. ⊓ ⊔
Zum Abschluss dieses Abschnittes beweisen wir einen sehr wichtigen Satz, der bereits vor u ¨ber 2000 Jahren im antiken Griechenland bekannt war – der Beweis ist bereits bei Euklid2 zu finden. Satz 1.1.9 Es gibt unendlich viele verschiedene Primzahlen. Beweis. Der Beweis wird indirekt gef¨ uhrt, das bedeutet, wir nehmen an, dass das (streng mathematische) Gegenteil der Behauptung wahr w¨are. Daraus versuchen wir durch logische Schl¨ usse einen Widerspruch herzuleiten. Wenn uns das gelingt, muss unsere Annahme (n¨ amlich, dass die Behauptung des Satzes nicht gelten w¨ urde) falsch sein. Die Behauptung des Satzes ist dann 2
Vgl. Fußnote auf Seite 6.
1.1 Rechnen mit ganzen Zahlen
13
bewiesen. Dies ist ein zweites wichtiges Beweisprinzip, welches wir h¨aufig benutzen werden. Die Theorie dazu befindet sich im Kapitel 6: Satz 6.1.1 und nachfolgende Erl¨ auterungen. Nun zum Beweis: Wir nehmen an, es g¨ abe nur endlich viele Primzahlen. Qn Dies seien die Zahlen p1 , p2 , . . . , pn . Nun untersuchen wir die Zahl a := 1+ i=1 pi . Da wir (nach Satz 1.1.8) diese Zahl in Primfaktoren zerlegen k¨onnen und a > 1 ist (da uns ja p1 = 2 schon als Primzahl bekannt ist), gibt es eine Primzahl p > 1, welche a teilt. Diese muss, wegen unserer Annahme der Endlichkeit, Qn unter den Zahlen p1 , . . . , pQ n vorkommen. Daher teilt p das Produkt i=1 pi n und somit auch 1 = a − i=1 pi . Dies ist aber f¨ ur eine Zahl p > 1 nicht m¨oglich. Damit haben wir den gew¨ unschten Widerspruch erhalten und der Beweis ist vollst¨andig. ⊓ ⊔ F¨ ur die angek¨ undigten Anwendungen in der Kryptographie (siehe Abschnitt 1.5) werden wir die folgende zahlentheoretische Funktion ben¨otigen. Definition 1.1.10. F¨ ur jede positive ganze Zahl n bezeichnet ϕ(n) die Anzahl der zu n teilerfremden Zahlen k, f¨ ur die 1 ≤ k < n gilt. Diese Funktion ϕ heißt Eulerfunktion 3 oder Eulersche ϕ-Funktion. In Kurzschreibweise: ϕ(n) = |{k | 1 ≤ k < n, ggT(k, n) = 1}|. Hier und im Folgenden wird durch |A| die Kardinalit¨ at, also die Anzahl der Elemente, einer Menge A bezeichnet, vgl. Beispiel 6.3.15. Die im folgenden Satz zusammengefassten Eigenschaften erleichtern die Berechnung der Werte der Eulerfunktion. Satz 1.1.11 Sei p eine Primzahl und seien k, m, n positive ganze Zahlen. Dann gilt: (1) ϕ(p) = p − 1; (2) ϕ(pk ) = pk−1 (p − 1) = pk − pk−1 ; (3) Wenn ggT(m, n) = 1, dann ist ϕ(mn) = ϕ(m)ϕ(n). Beweis. Die Aussage (1) ist klar, da unter den Zahlen 1, 2, . . . , p − 1 keine durch p teilbar ist. Es ist genau dann ggT(a, pk ) 6= 1, wenn p | a gilt. Unter den Zahlen 1, 2, . . . , pk sind genau die folgenden pk−1 Vielfachen von p enthalten: 1 · p, 2 · p, . . . , pk−1 · p. Also bleiben pk − pk−1 Zahlen, die zu pk teilerfremd sind. Den Beweis von (3) k¨ onnen wir leicht f¨ uhren, wenn wir einige Grundbegriffe der Gruppentheorie kennengelernt haben (siehe Satz 1.3.34). Daher verzichten wir an dieser Stelle auf einen Beweis. Dem Leser wird jedoch empfohlen, einen Beweis mit elementaren Mittels selbst auszuarbeiten. ⊓ ⊔ 3
Leonard Euler (1707–1783), Schweizer Mathematiker.
14
1 Zahlen
Beispiel 1.1.12. (i) ϕ(2) = 1, ϕ(4) = 2, ϕ(8) = 4, ϕ(2n ) = 2n−1 . (ii) ϕ(3) = 2, ϕ(9) = 6, ϕ(27) = 18, ϕ(3n ) = 2 · 3n−1 . (iii) ϕ(6) = ϕ(2)ϕ(3) = 1 · 2 = 2. Unter den Zahlen 1, 2, 3, 4, 5, 6 sind nur 1 und 5 teilerfremd zu 6. (iv) ϕ(12) = ϕ(22 ) · ϕ(3) = 2 · 2 = 4 und die zu 12 teilerfremden Zahlen sind 1, 5, 7, 11. (v) ϕ(18) = ϕ(2) · ϕ(32 ) = 1 · 3 · 2 = 6 und wir finden 1, 5, 7, 11, 13, 17 als Zahlen, die zu 18 teilerfremd sind. Auf der Grundlage von Satz 1.1.11 ist es sehr leicht, f¨ ur jede ganze Zahl, deren Primfaktorzerlegung uns bekannt ist, den Wert der Eulerfunktion zu bestimmen. Die Faktorisierung einer Zahl in Primfaktoren ist jedoch ein rechenaufw¨andiges Problem und somit auch die Berechnung von ϕ. Man k¨onnte zwar mit dem Euklidischen Algorithmus f¨ ur jede Zahl k zwischen 1 und n testen, ob sie zu n teilerfremd ist oder nicht, aber auch dies ist ziemlich rechenaufw¨andig. Diese Schwierigkeit ist die Grundlage des RSA-Verfahrens, das im Abschnitt 1.5 behandelt wird.
Aufgaben ¨ Ubung 1.1. Berechnen Sie mit Hilfe des Euklidischen Algorithmus f¨ ur jedes der folgenden Zahlenpaare (a, b) den gr¨ oßten gemeinsamen Teiler d und finden Sie ganze Zahlen r, s, so dass d = ra + sb gilt. (i)
(12345, 54321)
(ii) (338169, 337831)
(iii)
(98701, 345)
¨ Ubung 1.2. Beweisen Sie, dass Definition 1.1.1 f¨ ur d > 0 ¨aquivalent ist zu (i) d | a und d | b; (ii’) F¨ ur c ∈ Z gilt: Wenn c | a und c | b, dann gilt auch c ≤ d. ¨ Ubung 1.3. Benutzen Sie vollst¨ andige Induktion zum Beweis der folgenden Formel: 2 n X n(n + 1) 3 . k = 2 k=1
¨ Ubung 1.4. Versuchen Sie mittels vollst¨ andiger Induktion die folgenden beiden Formeln f¨ ur jede ganze Zahl n ≥ 0 zu beweisen. Dabei ist q 6= 1 eine reelle Zahl und wir setzen stets q 0 = 1 (auch f¨ ur q = 0). n X
k=0
qk =
q n+1 − q 2 + q − 1 + q, q−1
n X
k=0
qk =
q n+1 − q 2 + q − 1 q−1
Welche Formel ist richtig? Welcher Schritt im Beweis funktioniert nicht?
1.1 Rechnen mit ganzen Zahlen
15
¨ Ubung 1.5. Wir definieren hier f¨ ur ganze Zahlen n ≥ 0 und k die Symbole n durch folgende rekursive Vorschrift (Pascalsches4 Dreieck, siehe S. 283): k • 00 = 1, • wenn k < 0 oder k > n, dann ist nk = 0 und n−1 • wenn 0 ≤ k ≤ n, dann ist nk = n−1 k−1 + k .
Beweisen Sie unter Benutzung dieser Definition und mittels vollst¨andiger Induktion f¨ ur n ≥ 0 und beliebige reelle Zahlen a, b die binomische Formel : (a + b)n =
n X n k n−k a b . k
k=0
¨ Ubung 1.6. Zeigen Sie mittels vollst¨ andiger Induktion und unter Benutzung der Definition in Aufgabe 1.5 f¨ ur 0 ≤ k ≤ n die folgende explizite Formel: n! n , = k! · (n − k)! k wobei 0! := 1 und n! := n · (n − 1)! rekursiv definiert ist. Benutzen Sie diese Formel, um zu zeigen, dass p | kp f¨ ur jede Primzahl p und 1 ≤ k ≤ p − 1 gilt.
¨ Ubung 1.7. Benutzen Sie die Methode der vollst¨andigen Induktion, um zu beweisen, dass f¨ ur jedes n > 1, f¨ ur jede Primzahl p und f¨ ur beliebige ganze Zahlen a1 , . . . , an folgendes gilt: Wenn p | a1 · . . . · an , dann gibt es ein i mit 1 ≤ i ≤ n und p | ai . Sie k¨onnen daf¨ ur den Satz 1.1.7 benutzen, in dem der Fall n = 2 behandelt wurde. √ ¨ Ubung 1.8. Beweisen Sie, dass 26 irrational ist, das heißt, sich nicht als Quotient zweier ganzer Zahlen darstellen l¨ asst. ¨ Ubung 1.9. (a) Beweisen Sie (ohne die allgemeinere Eigenschaft (3) aus Satz 1.1.11 zu benutzen), dass f¨ ur Primzahlen p 6= q stets gilt: ϕ(pq) = ϕ(p)ϕ(q) = (p − 1)(q − 1). (b) Berechnen Sie: ϕ(101), ϕ(141), ϕ(142), ϕ(143), ϕ(169), ϕ(1024). (c) F¨ ur welche Zahlen n gilt n = 2 · ϕ(n)? ¨ Ubung 1.10. Gilt f¨ ur jede ungerade Zahl n, dass das um eins verminderte Quadrat dieser Zahl, also n2 − 1, durch 8 teilbar ist? Beweisen Sie Ihre Antwort. 4
Blaise Pascal (1623–1662), franz¨ osischer Mathematiker.
16
1 Zahlen
1.2 Restklassen Abstraktion ist eine wichtige Methode zur Beschreibung und Analyse komplexer Situationen. Das betrifft sowohl mathematische Sachverhalte als auch Gegenst¨ande und Vorg¨ ange der realen Welt. Bei einer Abstraktion ignoriert man einige als unwesentlich betrachtete Merkmale und konzentriert sich dadurch auf eine geringere Zahl einfacher strukturierter Aspekte. Dabei k¨onnen jedoch bestimmte Vorg¨ ange oder Gegenst¨ ande ununterscheidbar werden, obwohl sie in Wirklichkeit verschieden sind. Wenn wir zum Beispiel von B¨aumen sprechen und es uns dabei vor allem darauf ankommt, diese von Blumen, Steinen, Tieren und Wolken zu unterscheiden, dann haben wir bereits abstrahiert. Wir unterscheiden in diesem Moment nicht zwischen Ahorn, Birke, Buche, Eiche, Kiefer, L¨ arche und Weide oder gar konkreten Exemplaren solcher Gew¨achse. Um Abstraktionen mit mathematischer Pr¨ azision durchf¨ uhren zu k¨onnen, wird die Sprache der Mengen, Relationen und Abbildungen benutzt. Eine Einf¨ uhrung in diese mathematischen Grundbegriffe befindet sich im Kapitel 6, in den Abschnitten 6.2 und 6.3. Die Zusammenfassung verschiedener Objekte deren wesentliche Merkmale u ¨ bereinstimmen, wird in der Mathe¨ matik durch die Bildung von Aquivalenzklassen realisiert. Wir werden diese Methode in diesem Abschnitt am Beispiel der Restklassen ganzer Zahlen illustrieren. Der Nutzen dieser Begriffsbildungen zeigt sich dann in den Anwendungen: Wir beweisen einige Teilbarkeitsregeln und besch¨aftigen uns mit Pr¨ ufziffern als Mittel zur Erkennung von Daten¨ ubertragungsfehlern. Bevor wir die allgemeine Definition geben, betrachten wir ein Beispiel. Hierzu stellen wir uns vor, dass wir uns nur daf¨ ur interessieren, ob das Ergebnis einer Rechenoperation gerade oder ungerade ist. Wir benutzen dazu die folgende Schreibweise f¨ ur ganze Zahlen a: a ≡ 0 mod 2, a ≡ 1 mod 2,
wenn a gerade, wenn a ungerade.
F¨ ur a = 17 601 000 und b = 317 206 375 gilt a ≡ 0 mod 2 und b ≡ 1 mod 2. Diese Schreibweise dr¨ uckt aus, dass a den Rest 0 und b den Rest 1 bei Division durch 2 l¨ asst. Um zu entscheiden, welche Reste a + b und a · b bei Division durch 2 lassen, muss man die Summe oder das Produkt nicht wirklich ausrechnen. Wir erhalten leicht a + b ≡ 1 mod 2 und a · b ≡ 0 mod 2. Wir bekommen dieses Resultat, indem wir die gew¨ unschte Rechenoperation mit den Resten 0, 1 durchf¨ uhren: a+b≡0+1≡1 a·b ≡ 0·1 ≡0
mod 2 und mod 2 .
1.2 Restklassen
17
Das ist wesentlich schneller als die Rechnung mit den großen Zahlen a, b. Wir erhalten das gleiche Resultat, wenn wir a durch eine beliebige andere gerade Zahl und b durch eine beliebige ungerade Zahl ersetzen. Wir k¨onnen also mit den Resten, oder besser den Restklassen rechnen. Um dies zu formalisieren, bezeichnen wir mit [0] die Menge aller geraden Zahlen und mit [1] die Menge aller ungeraden Zahlen. Diese Mengen nennt man Restklassen. Es gilt a ∈ [0], b ∈ [1] und unsere Rechnung hat jetzt die folgende einfache Form: a + b ∈ [0 + 1] = [1] und a · b ∈ [0 · 1] = [0]. Das f¨ uhrt uns dazu, Summe und Produkt der Restklassen [0], [1] folgendermaßen zu definieren: [0] + [0] = [0], [0] + [1] = [1] + [0] = [1], [1] + [1] = [0], [0] · [0] = [0] · [1] = [1] · [0] = [0], [1] · [1] = [1] . Es ist leicht nachzupr¨ ufen, dass diese Addition und Multiplikation der Restklassen [0], [1] die Grundgesetze (1.1)–(1.8) des Rechnens mit ganzen Zahlen erf¨ ullen. F¨ ur das Rechnen mit Resten gelten dieselben Regeln wie beim Rechnen mit ganzen Zahlen. ¨ Um dieses Beispiel zu verallgemeinern, benutzen wir den Begriff der Aquivalenzrelation (Definition 6.3.12). Im obigen Beispiel liegen zwei ganze Zahlen in derselben Restklasse, wenn sie entweder beide gerade oder beide ungerade sind. Da zwei Zahlen genau dann dieselbe Parit¨at haben, wenn ihre Differenz ¨ gerade ist, ist die zugeh¨ orige Aquivalenzrelation ∼ durch a ∼ b ⇐⇒ 2 | a − b ¨ gegeben. Ublicherweise schreibt man in dieser Situation a ≡ b mod 2 statt a ∼ b, also a ≡ b mod 2 ⇐⇒ 2|a−b. Wenn wir die Zahl 2 durch eine beliebige ganze Zahl n ≥ 0 ersetzen, erhalten wir die folgende Definition. Definition 1.2.1. a ≡ b mod n ⇐⇒ n | a − b.
¨ Dadurch ist auf der Menge Z aller ganzen Zahlen eine Aquivalenzrelation definiert. Wenn a ≡ b mod n, dann sagen wir: a ist kongruent b modulo n. Unter Benutzung der Division mit Rest erhalten wir a = ra + ka · n und b = rb + kb · n, wobei ka , kb ∈ Z und 0 ≤ ra < n, 0 ≤ rb < n. Dann ist a − b = (ra − rb ) + (ka − kb ) · n und es ergibt sich a ≡ b mod n ⇐⇒ ra = rb . Daher ist a genau dann kongruent b modulo n, wenn a und b den gleichen Rest ¨ ¨ bei Division durch n lassen. Die Aquivalenzklassen dieser Aquivalenzrelation nennen wir Restklassen modulo n. Die Restklasse modulo n, in der a ∈ Z enthalten ist, wird mit [a]n , oder wenn keine Verwechslungen m¨oglich sind mit [a], bezeichnet. F¨ ur festes n ≥ 0 liegt nach Satz 6.3.16 jede ganze Zahl in genau einer Restklasse modulo n. Jedes Element b ∈ [a] heißt Repr¨asentant der Restklasse [a]. Wenn b ein Repr¨ asentant von [a] ist, dann gilt [a] = [b]. Die
18
1 Zahlen
Menge aller Restklassen modulo n bezeichnen wir mit Z/nZ, vgl. Definition 6.3.13. Bemerkung 1.2.2. Wenn n > 0 ist, dann gibt es genau n verschiedene Restklassen modulo n, dies sind [0], [1], . . . , [n − 1], d.h. Z/nZ = [0], [1], . . . , [n − 1] .
Man nennt daher die Zahlen 0, 1, 2, . . . , n − 2, n − 1 ein vollst¨andiges Restsystem modulo n. Da [a]n = [a + kn]n f¨ ur beliebiges k ∈ Z, gibt es auch andere vollst¨andige Restsysteme, z.B. ist nicht nur 0, 1, 2 sondern auch −1, 0, 1 ein vollst¨andiges Restsystem modulo 3. Im Fall n = 0 treffen wir eine v¨ ollig andere Situation an, denn a ≡ b mod 0 ist ¨aquivalent zu a = b. Daher ist in jeder Restklasse modulo 0 genau eine Zahl enthalten und es gibt unendlich viele solche Restklassen: Z/0Z = Z. Wie im Fall n = 2 m¨ ochten wir ganz allgemein mit den Restklassen modulo n rechnen. Definition 1.2.3. Auf der Menge Z/nZ definieren wir eine Addition und eine Multiplikation durch [a] + [b] := [a + b] und [a] · [b] := [a · b]. Dies besagt, dass wir Restklassen addieren oder multiplizieren, indem wir diese Operationen mit Repr¨ asentanten dieser Restklassen durchf¨ uhren. Um zu kl¨aren, ob eine solche Definition sinnvoll ist, m¨ ussen wir beweisen, dass wir stets dasselbe Resultat erhalten, ganz gleich welche Repr¨asentanten wir gew¨ahlt haben. Es ist daher zu zeigen, dass aus [a] = [a′ ] und [b] = [b′ ] stets [a] + [b] = [a′ ] + [b′ ] und [a] · [b] = [a′ ] · [b′ ] folgt. Da, wie leicht einzusehen ist, die Addition und die Multiplikation von Restklassen kommutativ sind, ergibt sich dies aus zweimaliger Anwendung der Implikation [a] = [a′ ]
=⇒
[a] + [b] = [a′ ] + [b]
und
[a] · [b] = [a′ ] · [b].
Um dies zu beweisen, bemerken wir zuerst, dass [a] = [a′ ] genau dann gilt, wenn a ≡ a′ mod n, das heißt a′ = a + kn f¨ ur ein k ∈ Z. Daraus erhalten wir a′ + b = a + kn + b und somit [a′ ] + [b] = [a′ + b] = [a + kn + b] = [a + b] = [a] + [b]. Ebenso ergibt sich a′ · b = (a + kn) · b = a · b + kb · n und [a′ ] · [b] = [a′ · b] = [a · b + kb · n] = [a · b] = [a] · [b]. F¨ ur die Zukunft halten wir fest: Wenn wir mathematische Operationen oder ¨ Abbildungen auf Mengen von Aquivalenzklassen definieren, dann m¨ ussen wir immer sicherstellen, dass die Definition nicht von der Wahl der Repr¨asentanten abh¨ angt. Man spricht dann von Wohldefiniertheit der Operation oder Abbildung.
1.2 Restklassen
19
Der folgende Satz sagt, dass das Rechnen mit Restklassen genauso funktioniert wie mit ganzen Zahlen. Satz 1.2.4 Die Gesetze (1.1)–(1.8) f¨ ur das Rechnen in (Z, +, ·) gelten auch in (Z/nZ, +, ·). Beweis. Wenn wir [0], [1] als neutrale Elemente f¨ ur die Addition bzw. Multiplikation verwenden und −[a] := [−a] setzen, dann ergeben sich diese Gesetze unmittelbar aus denen, die wir f¨ ur Z formuliert hatten, indem wir dort a, b, c durch [a], [b], [c] ersetzen. ⊓ ⊔ Bemerkung 1.2.5. Jeder ist gewissen Rechnungen modulo n bereits im realen Leben begegnet. Zum Beispiel bei der Uhrzeit. Der Stundenzeiger jeder ¨ analogen Uhr zeigt uns Zahlen modulo 12 an. Uberlegungen wie diese sind jedem vertraut: Jetzt ist es 10 Uhr, also ist es in 3 Stunden 1 Uhr. In mathematischer Sprache: 10 + 3 ≡ 1 mod 12. Ebenso sind wir daran gew¨ohnt, dass der Minutenzeiger modulo 60 rechnet. Bevor wir weitere, etwas verstecktere Beispiele des Rechnens in Z/nZ aus dem Alltagsleben kennenlernen, befassen wir uns mit der Division in Z/nZ. Dabei werden wir Erkenntnisse aus Abschnitt 1.1 aus einem neuen Blickwinkel betrachten und die mathematischen Grundlagen f¨ ur die angek¨ undigten Anwendungen bereitstellen. Bei der Division in Z/nZ geht es darum, f¨ ur gegebene a, b ∈ Z die Gleichung a · x ≡ b mod n zu l¨ osen. Es ist sinnvoll, zun¨ achst die einfachere Gleichung a·x ≡1
mod n
(1.11)
zu studieren. Unter Benutzung des Euklidischen Algorithmus haben wir im Satz 1.1.6 gezeigt, dass es genau dann ganze Zahlen r, s mit ra + sn = 1 gibt, wenn ggT(a, n) = 1 gilt. Mit Hilfe von Kongruenzen und Restklassen kann man diesen Sachverhalt folgendermaßen5 ausdr¨ ucken ggT(a, n) = 1 ⇐⇒ ∃ r ∈ Z : r · a ≡ 1 mod n
⇐⇒ ∃ [r] ∈ Z/nZ : [r] · [a] = [1] .
Der Euklidische Algorithmus liefert also eine Methode, mit der wir Gleichungen der Form (1.11) l¨ osen k¨ onnen. Die Eindeutigkeit einer solchen L¨osung wird im folgenden Satz gekl¨ art. Satz 1.2.6 Wenn a, n teilerfremde ganze Zahlen sind, dann gibt es genau eine Restklasse [r] ∈ Z/nZ mit [r] · [a] = [1], d.h. r · a ≡ 1 mod n. 5
Der Existenzquantor ∃ und der Allquantor ∀ sind in Abschnitt 6.1 ab S. 360 erkl¨ art.
20
1 Zahlen
Beweis. Die Existenz haben wir bereits gezeigt (Satz 1.1.6). Angenommen, f¨ ur r, r′ ∈ Z gilt r · a ≡ 1 mod n und r′ · a ≡ 1 mod n. Dann folgt ra ≡ r′ a mod n und somit n | a(r − r′ ). Da nach Voraussetzung ggT(a, n) = 1, liefert Satz 1.1.7, dass n ein Teiler von r − r′ ist. Damit ist r ≡ r′ mod n also [r] = [r′ ]. ⊓ ⊔ Beispiel 1.2.7. Wenn n = 11 und a = 3 ist, dann erhalten wir mittels Euklidischem Algorithmus: 11 − 3 · 3 = 2 und 3 − 2 = 1. R¨ uckw¨arts Einsetzen ergibt 1 = 3 − 2 = 3 − (11 − 3 · 3) = 4 · 3 − 1 · 11. Daraus erhalten wir 4 · 3 ≡ 1 mod 11, das heißt [3] · [4] = [1] in Z/11Z. Ebenso erh¨alt man [1] · [1] = [2] · [6] = [3] · [4] = [5] · [9] = [7] · [8] = [10] · [10] = [1] in Z/11Z. Die Restklasse [0] ∈ Z/11Z ist die einzige, die dabei nicht auftritt. Die Gleichung x · [0]n = [1]n hat f¨ ur kein n ≥ 2 eine L¨osung x ∈ Z/nZ. Wenn n eine Primzahl ist, ergibt sich als Spezialfall aus Satz 1.2.6: Folgerung 1.2.8. Wenn a ∈ Z und n eine Primzahl ist, so dass [a] 6= [0] ∈ Z/nZ, dann gibt es genau ein [r] ∈ Z/nZ, f¨ ur das [r] · [a] = [1] in Z/nZ gilt. Falls n eine Primzahl und [a] 6= [0] in Z/nZ ist, gen¨ ugt das, um jede Gleichung der Gestalt ax ≡ b mod n (1.12) zu l¨osen. Dazu schreiben wir die Kongruenz (1.12) in der Form [a] · [x] = [b] und erhalten unter Benutzung von [r] · [a] = [1] [r] · [b] = [r] · ( [a] · [x] ) = ( [r] · [a] ) · [x] = [x] . Also ist [x] = [r · b] die gesuchte und einzige L¨osung. Die Menge aller ganzzahligen L¨osungen der Kongruenz (1.12) ist daher [r · b]n = {rb + kn | k ∈ Z}.
Falls n keine Primzahl ist, dann gibt es zu jeder L¨osung x ∈ Z der Kongruenz (1.12) eine ganze Zahl s ∈ Z, so dass ax + sn = b gilt. Aus Satz 1.1.6 erhalten wir, dass dies genau dann m¨ oglich ist, wenn d = ggT(a, n) ein Teiler von b ist. Das ist die L¨osbarkeitsbedingung f¨ ur die Kongruenz (1.12). Wenn sie erf¨ ullt ist, dann sind a′ = ad , b′ = db und n′ = nd ganze Zahlen und x ∈ Z ist genau dann L¨osung von (1.12), wenn a′ x ≡ b ′
mod n′ .
Da ggT(a′ , n′ ) = 1, finden wir mit der oben angegebenen Methode alle L¨osungen dieser Kongruenz und damit auch die von (1.12). Erste Anwendungen der Rechenoperationen in Z/nZ betreffen die Bestimmung von Endziffern sehr großer Zahlen und Teilbarkeitsregeln. Beispiel 1.2.9. Mit welcher Ziffer endet die Zahl 999 ?
1.2 Restklassen
21
Die letzte Ziffer d einer Zahl a ∈ Z ist dadurch charakterisiert, dass 0 ≤ d ≤ 9 und dass es eine ganze Zahl k gibt, f¨ ur die a = 10k + d gilt. Daher ist d ≡ a mod 10. Da 9 ≡ −1 mod 10, erhalten wir 999 ≡ (−1)99 ≡ −1 mod 10. Da d = 9 die einzige Ziffer ist, die kongruent −1 modulo 10 ist, endet 999 auf 9. Es ist kein Problem, dies mit einem Taschenrechner nachzupr¨ ufen. 9 11 Wie sieht es jedoch bei 9(9 ) oder bei 9(10 ) aus? Da versagt eine direkte Rechnung mit einem gew¨ ohnlichen Taschenrechner. Die Rechnung mit Kongruenzen kann aber wieder im Kopf durchgef¨ uhrt werden. Zun¨achst bemerken wir, dass der Exponent 99 ungerade ist, da 9 ≡ 1 mod 2 9 9 und somit 99 ≡ 19 ≡ 1 mod 2. Damit erhalten wir nun 9(9 ) ≡ (−1)(9 ) ≡ −1 9 mod 10 und auch 9(9 ) endet mit der Ziffer 9. In analoger Weise sehen wir, dass 1011 ≡ 011 ≡ 0 mod 2, der Exponent also 11 11 gerade ist, woraus wir 9(10 ) ≡ (−1)(10 ) ≡ 1 mod 10 erhalten. Daraus 11 schließen wir, dass 9(10 ) mit der Ziffer 1 endet. Mit geringem Mehraufwand kann man auf diese Weise per Hand die letzten zwei oder drei Ziffern all dieser relativ großen Zahlen bestimmen. Effektiver geht das mit dem kleinen Satz von Fermat, Satz 1.3.24. Weitere Methoden, die das Rechnen mit großen Zahlen erleichtern, werden wir nach Satz 1.4.23 kennenlernen, siehe Bemerkung 1.4.26. Beispiel 1.2.10 (Teilbarkeit durch 3). Viele kennen die 3-er Regel: Eine ganze Zahl ist genau dann durch drei teilbar, wenn ihre Quersumme durch drei teilbar ist. Als Quersumme einer Zahl bezeichnet man die Summe ihrer Ziffern. Unter Verwendung von Kongruenzen l¨ asst sich die Richtigkeit dieser Regel sehr elegant beweisen. Da eine Zahl a genau dann durch 3 teilbar ist, wenn a ≡ 0 mod 3 gilt, gen¨ ugt es zu zeigen, dass jede ganze Zahl kongruent ihrer Quersumme modulo 3 ist. P Wenn eine Zahl a die Ziffern ak ak−1 . . . a1 a0 hat, dann ist a = ki=0 ai 10i Pk und i=0 ai ist die Quersumme dieser Zahl. Da 10 ≡ 1 mod 3 ergibt sich a=
k X i=0
ai · 10i ≡
k X i=0
ai · 1 i ≡
k X
ai
mod 3 .
i=0
Damit ist die 3-er Regel bewiesen. Da 10 ≡ 1 mod 9, gilt die gleiche Regel auch f¨ ur Teilbarkeit durch 9. Beispiel 1.2.11 (Teilbarkeit durch 11). Da 10 ≡ −1 mod 11 folgt aus Pk Pk a = i=1 ai 10i die Kongruenz a ≡ i=1 (−1)i ai mod 11. Daraus sehen wir, dass a genau dann durch 11 teilbar ist, wenn die alternierende Quersumme von a durch 11 teilbar ist. Zum Beispiel ist 317 206 375 nicht durch 11 teilbar, da die alternierende Quersumme 3 − 1 + 7 − 2 + 0 − 6 + 3 − 7 + 5 = 2 nicht durch 11 teilbar ist.
22
1 Zahlen
Nach dem gleichen Muster lassen sich weitere, zum Teil weniger bekannte Teilbarkeitsregeln herleiten und beweisen. Unsere Beweise beruhen stets auf einer Kongruenz der Gestalt 10r ≡ ±1 mod n. Das funktioniert f¨ ur solche n, die Teiler einer Zahl der Gestalt 10r ± 1 sind. Beispiel 1.2.12 (Teilbarkeit durch 101). Die Zahl 101 ist eine Primzahl und es gilt 100 ≡ −1 mod 101. Zur Beschreibung einer Teilbarkeitsregel teilen wir deshalb die Ziffern einer Zahl a in Zweiergruppen. Wir beginnen dabei am Ende der Zahl. Wenn Ak , Ak−1 , . . . , A1 , A0 diese Zweiergruppen Pk sind, dann ist 0 ≤ Ai ≤ 99 und a = i=1 Ai 102i . Damit ergibt sich a≡
k X
(−1)i Ai
mod 101 .
i=1
Also ist a genau dann durch 101 teilbar, wenn die alternierende Summe der am Ende beginnend gebildeten 2-er Gruppen durch 101 teilbar ist. Die 2-er Gruppen unserer Beispielzahl 317 206 375 lauten A4 = 03, A3 = 17, A2 = 20, A1 = 63, A0 = 75. Da 3 − 17 + 20 − 63 + 75 = 18 nicht durch 101 teilbar ist, ist auch 317 206 375 nicht durch 101 teilbar. Beispiel 1.2.13 (Teilbarkeit durch 7 und 13). Der Ausgangspunkt ist die Gleichung 1001 = 7 · 11 · 13. Daraus erhalten wir 1000 ≡ −1 mod 7 und 1000 ≡ −1 mod 13. Daher k¨ onnen wir die Teilbarkeit durch 7 und 13 durch Betrachtung der alternierenden Summe der 3-er Gruppen (am Ende beginnend) testen. F¨ ur die uns bereits vertraute Zahl 317 206 375 erhalten wir als alternierende Summe der Dreiergruppen 317 − 206 + 375 = 486. Da 486 ≡ −4 mod 7 und 486 ≡ 5 mod 13 gilt, ist weder 13 noch 7 ein Teiler von 317 206 375.
¨ Bei der Ubermittlung von Informationen k¨ onnen Fehler oder Datenverluste auftreten. Oft ist es wichtig, dass solche Fehler erkannt oder sogar korrigiert werden. Bei der menschlichen Sprache erlernen wir diese F¨ahigkeit fr¨ uhzeitig, wodurch es uns oft m¨ oglich ist, auch mit einer Person zu kommunizieren, die nuschelt oder einen unvertrauten Dialekt spricht. Wenn es sich bei der u ¨ bermittelten Information jedoch um eine Zahl handelt, zum Beispiel ¨ eine Kontonummer, Artikelnummer, Kreditkartennummer oder Ahnliches, dann ist es f¨ ur ein menschliches Wesen nicht so einfach, Fehler zu erkennen. Das Anh¨angen einer sogenannten Pr¨ ufziffer ist die einfachste Methode, eine Fehlererkennung zu erm¨ oglichen. In den folgenden beiden Beispielen werden zwei weltweit praktizierte Pr¨ ufzifferverfahren vorgestellt. In beiden F¨allen wird die Pr¨ ufziffer durch eine Rechnung modulo n bestimmt. Im Kapitel 2.5 werden wir uns mit Methoden besch¨ aftigen, die eine Korrektur von Fehlern erm¨oglicht. Beispiel 1.2.14 (EAN – European Article Number). In vielen Superm¨arkten werden an der Kasse die auf den Waren aufgedruckten Strich¨ codes gelesen, woraus dann die Rechnung f¨ ur den Kunden und eine Ubersicht
1.2 Restklassen
23
u ¨ ber den Lagerbestand erstellt wird. Der Strichcode spiegelt in einer bestimmten Weise die 13-stellige EAN wieder. Davon tragen die ersten 12 Ziffern a1 , . . . , a12 die Information, die 13. Ziffer a13 ist eine Pr¨ ufziffer. Die ersten 12 Ziffern sind in drei Gruppen unterteilt. Die erste Zifferngruppe ist eine L¨anderkennung, sie umfasst die ersten drei Ziffern. Die Nummern 400– 440 sind Deutschland, 760–769 der Schweiz und Liechtenstein und 900–919 ¨ Osterreich zugeordnet. Aus den ersten drei Ziffern kann man in der Regel nur auf den Firmensitz des Herstellers schließen, nicht aber auf das Land in dem der Artikel tats¨achlich hergestellt wurde. Die zweite Gruppe besteht meist aus vier, manchmal aber auch aus f¨ unf oder sechs Ziffern. Sie codiert das produzierende Unternehmen, welches die verbleibenden Ziffern als Artikelnummer frei vergeben kann. Bei der EAN
4 399148 405508 sieht die Einteilung in Zifferngruppen folgendermaßen aus: 4 3 9 a a a
| 1 {z2 3} Land
9 1 4 8 a a a a
| 4 5{z 6 7} Hersteller
4 0 5 5 0 a a9 a10 a11 a12
|8
{z
Artikel
}
8 a
13 |{z}
Pr¨ ufziffer
Bereits 1973 wurde in den USA ein 12-stelliger Produktcode eingef¨ uhrt, der kurz darauf in Europa zur EAN erweitert wurde. Seit die 13-stellige EAN auch in Nordamerika verwendet wird, spricht man von der International Article Number . Die Pr¨ ufziffer ergibt sich aus den ersten 12 Ziffern wie folgt: a13 ≡ −(a1 + 3a2 + a3 + 3a4 + · · · + 3a12 )
mod 10.
Jede g¨ ultige EAN muss daher die folgende Pr¨ ufgleichung erf¨ ullen: a1 + 3a2 + a3 + 3a4 + · · · + a11 + 3a12 + a13 ≡ 0 mod 10.
(1.13)
Im obigen Beispiel gilt tats¨ achlich 4+3·3+9+3·9+1+3·4+8+3·4+0+3·5+5+3·0+8 ≡ 0
mod 10.
Wenn genau eine der 13 Ziffern fehlt oder unleserlich ist, dann l¨asst sie sich mit Hilfe der Pr¨ ufgleichung (1.13) rekonstruieren. Das ist offensichtlich, wenn die fehlende Ziffer mit Faktor 1 in der Pr¨ ufgleichung auftritt. Wenn sie mit dem Faktor 3 versehen ist, dann nutzen wir die Kongruenz 3 · 7 ≡ 1 mod 10 um sie zu bestimmen. Beispiel 1.2.15 (ISBN – International Standard Book Number). Alle im Handel erh¨altlichen B¨ ucher sind heutzutage mit einer ISBN versehen. Von 1972 bis Ende 2006 bestand sie aus zehn Zeichen, heute ist sie 13-stellig.
24
1 Zahlen
Zur Unterscheidung dieser beiden Typen spricht man von der ISBN-10 und der ISBN-13. Jeder ISBN-10 ist in eindeutiger Weise eine ISBN-13 zugeordnet, nicht aber umgekehrt. Die ISBN-13 eines Buches ist identisch mit seiner EAN. Die Pr¨ ufziffer wird nach der Vorschrift im Beispiel 1.2.14 bestimmt. Bei der ISBN-10 erfolgt die Berechnung des Pr¨ ufzeichens auf eine mathematisch interessantere Art. ¨ Ahnlich zur Struktur der EAN, sind die 10 Zeichen einer ISBN-10 in vier Gruppen unterteilt. Die einzelnen Gruppen repr¨asentieren das Land bzw. den Sprachraum, den Verlag, eine verlagsinterne Nummer des Buches, sowie das Pr¨ ufzeichen. Details sind durch die Norm DIN ISO 2108 geregelt. Die erste Zifferngruppe besteht oft nur aus einer, kann aber bis zu f¨ unf Ziffern umfassen. Der deutsche Sprachraum entspricht der Ziffer 3. In der ISBN dieses Buches finden Sie die Verlagsnummer 540 des Springer-Verlags vor. Auch die Verlagsnummern k¨ onnen aus unterschiedlich vielen Ziffern bestehen. Wenn wir die einzelnen Zeichen einer ISBN-10, von links beginnend, mit a1 , a2 , . . . , a9 , a10 bezeichnen, dann lautet die Pr¨ ufgleichung: 10 X i=1
i · ai ≡ 0 mod 11 .
(1.14)
Da 10 · a10 ≡ −a10 mod 11, ist der Wert des Pr¨ ufzeichens a10 gleich der P9 kleinsten nicht-negativen ganzen Zahl, die kongruent i=1 i · ai modulo 11 ist. Der m¨ogliche Wert 10 wird in Anlehnung an die entsprechende r¨omische Ziffer durch das Symbol X wiedergegeben. Daher sprechen wir von einem Pr¨ ufzeichen statt von einer Pr¨ ufziffer. Das Symbol X ist nur als Pr¨ ufzeichen, also an der letzten Stelle und auch nur bei der ISBN-10 zugelassen. F¨ ur die ISBN 3-528-77217-4 erhalten wir 3 + 2 · 5 + 3 · 2 + 4 · 8 + 5 · 7 + 6 · 7 + 7 · 2 + 8 · 1 + 9 · 7 ≡ 4 mod 11 und das ist tats¨ achlich die angegebene Pr¨ ufziffer. Um aus einer ISBN-10 die zugeh¨ orige ISBN-13 zu gewinnen, wird zuerst das Pr¨ ufzeichen entfernt, dann das Pr¨ afix 978 vorangestellt und schließlich nach den Regeln der EAN die neue Pr¨ ufziffer berechnet. In unserem Beispiel: 9+3·7+8+3·3+5+3·2+8+3·7+7+3·2+1+3·7 ≡2
mod 10.
Damit erhalten wir 8 als neue Pr¨ ufziffer und die zu 3-528-77217-4 geh¨orige ISBN-13 lautet 9783528772178. Auf B¨ uchern, die vor dem 1. Januar 2007 gedruckt wurden, sind in der Regel beide Nummern vorzufinden:
1.3 Gruppen
25
ISBN 3-528-77217-4
9 783528 772178 Außer 978 ist auch das Pr¨ afix 979 im Gebrauch, wodurch sich die Zahl der prinzipiell m¨oglichen Buchnummern verdoppelt. Die ISBN-13, die gleichzeitig auch die EAN darstellt, gibt ein Beispiel daf¨ ur, dass aus den ersten drei Ziffern einer EAN nicht das Herkunftsland des Artikels bestimmt werden kann, es sei denn, man ist der Ansicht, dass alle B¨ ucher aus Buchland“ kommen. ”
Aufgaben ¨ Ubung 1.11. Zeigen Sie, dass durch 2001 teilbar ist.
2000 P k=1
k 13 = 113 + 213 + · · · + 199913 + 200013
¨ Ubung 1.12. Vor geraumer Zeit empfahl mir ein guter Freund zwei B¨ ucher. Aus Bequemlichkeit sandte er mir lediglich die folgenden beiden ISBN-10: 3-423-62015-3 und 3-528-28783-6. Beim Versuch diese B¨ ucher zu kaufen, musste ich leider feststellen, dass eine der beiden Nummern fehlerhaft war. ¨ Uberpr¨ ufen Sie unter Benutzung der Pr¨ ufgleichung (1.14) die G¨ ultigkeit beider ISBN’s. Geben Sie alle M¨ oglichkeiten an, die fehlerhafte ISBN-10 an genau einer Stelle so zu ver¨ andern, dass die Pr¨ ufgleichung erf¨ ullt ist. ¨ Ubertragen Sie die so gefundenen korrigierten ISBN-10 in das ISBN-13Format und ermitteln Sie (z.B. mit Hilfe einer Internetrecherche) welche davon tats¨achlich zu einem Buch geh¨ ort.
1.3 Gruppen Zu Beginn des vorigen Abschnittes haben wir die Wichtigkeit der Methode der Abstraktion hervorgehoben. Als wichtigstes Beispiel eines Abstraktions¨ prozesses diente uns dort der Ubergang von ganzen Zahlen zu Restklassen. Wir nehmen nun den scheinbar wenig spektakul¨aren Satz 1.2.4 als Ausgangs¨ punkt f¨ ur unsere weiteren Uberlegungen. Er sagt, dass die Grundgesetze des ¨ Rechnens beim Ubergang zu Restklassen nicht verloren gehen. In diesem Sinne geh¨oren die Axiome (1.1)–(1.8) zu den wesentlichen Merkmalen, welche sich bei der Abstraktion herauskristallisiert haben. Auf dem neuen Abstraktionsniveau, auf das wir uns in diesem Abschnitt begeben, sind solche Rechengesetze das Einzige, was wir noch als wesentlich betrachten wollen. Die
26
1 Zahlen
Konzentration auf Rechengesetze, oder allgemeiner auf strukturelle Eigenschaften algebraischer Operationen, geh¨ ort zu den wichtigsten Charakteristiken der modernen Algebra. Als erstes Beispiel werden wir den Begriff der Gruppe kennenlernen und studieren. Weitere Begriffe wie Ring und K¨orper bilden den Gegenstand von Abschnitt 1.4. Wie bereits zuvor beschr¨anken wir uns auch hier nicht auf abstrakte Definitionen, sondern illustrieren die eingef¨ uhrten Begriffe durch viele konkrete Beispiele bis hin zu Anwendungen aus dem Alltag. Definition 1.3.1. Eine nichtleere Menge G zusammen mit einer Abbildung ∗ : G × G → G, die jedem Paar (a, b) ∈ G × G ein Element a ∗ b ∈ G zuordnet, heißt Gruppe, wenn Folgendes gilt: (Assoziativgesetz) ∀ a, b, c ∈ G : (neutrales Element) ∃ e ∈ G ∀ a ∈ G : (inverses Element) ∀ a ∈ G ∃ a′ ∈ G :
a ∗ (b ∗ c) = (a ∗ b) ∗ c. e ∗ a = a.
(1.15) (1.16)
a ∗ b = b ∗ a,
(1.18)
a′ ∗ a = e.
(1.17)
Wenn zus¨atzlich noch das (Kommutativgesetz) ∀ a, b ∈ G : gilt, dann nennen wir G eine abelsche 6 Gruppe. Zur Vermeidung von Unklarheiten sprechen wir oft von der Gruppe (G, ∗)“ ” und nicht nur von der Gruppe G“. Das Symbol ∗ dient uns zur allgemeinen ” Bezeichnung der Verkn¨ upfung in einer Gruppe. In Beispielen ersetzen wir nicht nur G durch eine konkrete Menge, sondern oft auch den ∗ durch eines der gebr¨auchlichen Verkn¨ upfungssymbole wie etwa +, ·, ◦ oder ×. Wenn + als Verkn¨ upfungsymbol verwendet wird sprechen wir von einer additiven Gruppe. Dann schreiben wir 0 statt e und das additive Inverse a′ von a bezeichnen wir mit −a. Wenn · als Verkn¨ upfungsymbol verwendet wird, sprechen wir von einer multiplikativen Gruppe. In diesem Fall wird das neutrale Element durch 1 statt durch e bezeichnet. F¨ ur das multiplikative Inverse hat sich die Bezeichnung a−1 eingeb¨ urgert. Beispiel 1.3.2. (i) (Z, +), (Q, +), (R, +) und (C, +) sind abelsche Gruppen. Hier und im Folgenden bezeichnet Q die Menge der rationalen Zahlen, R die Menge der reellen Zahlen und C die Menge der komplexen Zahlen, vgl. Beispiel 1.4.20 und Abschnitt 3.1. (ii) Aus Satz 1.2.4 ergibt sich, dass (Z/nZ, +) eine abelsche Gruppe ist. (iii) (Q r {0}, ·) und (R r {0}, ·) sind abelsche Gruppen. Die Zahl 0 mussten wir wegen (1.17) entfernen, da sie kein multiplikatives Inverses besitzt. 6
Niels Henrik Abel (1802–1829), norwegischer Mathematiker.
1.3 Gruppen
27
(iv) Im Gegensatz dazu ist (Z r {0}, ·) keine Gruppe, denn keine von ±1 verschiedene ganze Zahl hat ein multiplikatives Inverses in Z. Die gr¨oßte multiplikative Gruppe, die nur ganze Zahlen enth¨alt, ist daher {1, −1}. (v) Aus Satz 1.2.6 folgt, dass (Z/nZ)∗ := {[a] ∈ Z/nZ | ggT(a, n) = 1} eine Gruppe bez¨ uglich Multiplikation ist. (vi) Auf dem kartesischen Produkt G × H (siehe Abschnitt 6.2) zweier Gruppen (G, ∗) und (H, ·) erhalten wir die Struktur einer Gruppe (G × H, ◦) indem wir (g, h) ◦ (g ′ , h′ ) := (g ∗ g ′ , h · h′ ) definieren. Das ist jedem von der additiven Gruppe R2 – Vektoren in der Ebene – vertraut. Beispiel 1.3.3. Als Verkn¨ upfung der symmetrischen Gruppe einer Menge M sym(M ) := {f : M → M | f ist eine bijektive7 Abbildung} verwenden wir die Komposition von Abbildungen. Wenn f, g : M → M zwei Abbildungen sind, dann ist ihre ur alle m ∈ M Komposition f ◦ g : M → M f¨ durch (f ◦ g)(m) := f g(m) definiert. Das neutrale Element ist die identische Abbildung IdM : M → M , die durch IdM (m) = m gegeben ist. Die zu f : M → M inverse Abbildung g = f −1 hat folgende Beschreibung. Da f bijektiv ist, gibt es zu jedem m ∈ M genau ein n ∈ M mit f (n) = m. Die inverse Abbildung ist dann durch g(m) := n gegeben. Sie ist durch g ◦ f = f ◦ g = IdM charakterisiert. Wenn M eine endliche Menge mit n Elementen ist, k¨onnen wir durch Nummerierung der Elemente die Menge M mit {1, 2, . . . , n} identifizieren. In dieser Situation hat sich die Bezeichnung Sn f¨ ur die Gruppe (sym(M ), ◦) eingeb¨ urgert. Die Elemente von Sn nennt man Permutationen. Jede Permutation σ ∈ Sn ist eine Bijektion σ : {1, 2, . . . , n} → {1, 2, . . . , n} und eine solche l¨asst sich durch Angabe einer Wertetabelle beschreiben. Dazu werden einfach die Zahlen 1, 2, . . . , n und deren Bilder unter der Abbildung σ ∈ Sn in zwei Zeilen u ¨ bereinander angeordnet 1 2 ... n . σ(1) σ(2) . . . σ(n) Die Gruppe S3 besteht aus den folgenden sechs Elementen 123 123 123 123 123 123 , , , , , . 123 213 321 132 231 312 Die Anzahl der Elemente der Gruppe Sn betr¨ agt n! = n · (n − 1) · . . .· 2 · 1. Die Zahl n!, ausgesprochen als n Fakult¨ at“, ist mathematisch exakter rekursiv ” definiert: man setzt 0! := 1 und n! := n · (n − 1)! f¨ ur alle n ≥ 1. 7
Siehe Definition 6.3.3.
28
1 Zahlen
Durch die folgende Rechnung erkennen wir, dass S3 nicht abelsch ist: 123 123 123 123 123 123 ◦ = 6= = ◦ . 213 321 312 231 321 213 Besonders f¨ ur gr¨ oßere n ist die Benutzung von Wertetabellen ziemlich aufw¨andig. Es ist dann g¨ unstiger, die platzsparendere Zyklenschreibweise zu verwenden. Um die Zerlegung einer Permutation σ in ein Produkt von Zyklen zu bestimmen, startet man mit irgendeinem Element k ∈ {1, . . . , n} und schreibt die iterierten Bilder dieser Zahl hintereinander in eine Liste (k, σ(k), σ(σ(k)), . . . ). Die Liste wird mit einer schließenden Klammer beendet, sobald man wieder auf das Startelement k trifft. So ist zum Beispiel 123456 = (2 4 5) = (4 5 2) = (5 2 4) . 143526 Diesen Zyklus kann man sich etwa wie im folgenden Bild vorstellen:
5
4
2 Jede durch die Permutation σ nicht ver¨ anderte Zahl k, d.h. k = σ(k), wird nicht aufgeschrieben. Jedes von σ ver¨ anderte Element der Menge {1, . . . , n} muss jedoch betrachtet werden. Im Allgemeinen werden wir daher ein Produkt mehrerer Zyklen erhalten: 123456 = (1 6) ◦ (2 4 5) . 643521 Der Vorteil der effektiveren Schreibweise wird mit einer Mehrdeutigkeit erkauft. So kann zum Beispiel der Zyklus (1 2) jeder der folgenden Wertetabellen entsprechen: 12 123 1234 12345 123456 , , , , , etc. 21 213 2134 21345 213456 je nachdem in welchem Sn wir gerade arbeiten. Das ist jedoch nicht weiter dramatisch, da Sn−1 auf nat¨ urliche Weise als Untergruppe in Sn enthalten ist, siehe Beispiel 1.3.14. Die sechs Elemente der Gruppe S3 haben in Zyklenschreibweise die Gestalt
1.3 Gruppen
29
12 Id = 12 12 (2 3) = 13
3 12 , (1 2) = 3 21 3 12 , (1 2 3) = 2 23
3 12 , (1 3) = 3 32 3 12 , (1 3 2) = 1 31
3 , 1 3 . 2
Alle Elemente dieser Gruppe sind einfache Zyklen. Ab n ≥ 4 gibt es Elemente in Sn , die keine einfachen Zyklen sind, zum Beispiel (12)(34) = ( 12 21 34 43 ... ... ). Beispiel 1.3.4. Obwohl wir uns dem Gruppenbegriff durch Abstraktion von den ganzen Zahlen gen¨ ahert haben, liegt sein historischer Ursprung in der Geometrie. Viele Menschen sind von Symmetrien in Natur, Kunst und Wissenschaft fasziniert. Das mathematische Studium von Symmetrien f¨ uhrt unausweichlich zum Begriff der Symmetriegruppe. Die elementarsten Beispiele erh¨alt man als Menge aller Symmetrien einer ebenen Figur wie etwa eines Kreises oder eines Dreiecks. Unter einer Symmetrie wollen wir hier eine Kongruenztransformation einer solchen Figur verstehen, also eine Verschiebung, Drehung oder Spiegelung, unter der diese Figur auf sich selbst abgebildet wird. Die Menge aller Symmetrien eines regelm¨ aßigen ebenen n-Ecks (n ≥ 3) bezeichnet man mit Dn . Sie heißt Diedergruppe (auch Di-edergruppe oder Di¨edergruppe). Zur Illustration betrachten wir hier den Fall n = 5 (Abb. 1.1).
P0 = P5 b
P1
b b
P4
t
× s
b
P2
b
P3
Abb. 1.1 Geometrische Bedeutung der Gruppe D5
Es gibt keine Verschiebung, welche ein F¨ unfeck in sich selbst u uhrt. Als ¨ berf¨ Symmetrien kommen also nur Drehungen und Spiegelungen in Frage. Jede Drehung mit Zentrum im Mittelpunkt des F¨ unfecks um einen Winkel der
30
1 Zahlen
Gr¨oße k · 2π unfeck auf sich selbst ab. Mit t ∈ D5 be5 , k ∈ Z, bildet das F¨ zeichnen wir die Drehung um 2π 5 entgegen dem Uhrzeigersinn. Die weiteren Drehungen sind dann t2 , t3 , t4 und t5 = Id. Jede Kongruenztransformation ist durch ihr Wirken auf der Menge der Eckpunkte {P0 , P1 , P2 , P3 , P4 } vollst¨ andig festgelegt. Daher ist t ∈ D5 durch t(Pi ) = Pi+1 gegeben, wobei wir die Indizes als Elemente von Z/5Z auffassen, also P5 = P0 setzen. Diese bequeme Vereinbarung nutzen wir auch im Folgenden. Als weitere Symmetrien kommen noch die Spiegelungen an den Verbindungsgeraden des Mittelpunktes mit den Eckpunkten des F¨ unfecks in Betracht. Sei zum Beispiel s die Spiegelung an der Achse durch P0 , siehe Abb. 1.1. Dann gilt s(Pi ) = P5−i und s, st, st2 , st3 , st4 ist eine komplette Liste aller Spiegelungen, die das F¨ unfeck auf sich selbst abbilden. Das ergibt: D5 = {1, t, t2 , t3 , t4 , s, st, st2 , st3 , st4 } . Offenbar gilt t5 = 1 und s2 = 1. Außerdem pr¨ uft man durch Berechnung der Wirkung auf den Eckpunkten die Identit¨ at tst = s leicht nach. Aus ihr folgt ts = st−1 und wegen t−1 = t4 sehen wir daraus, dass D5 nicht abelsch ist. Ausgehend von diesen Relationen kann man alle Produkte in D5 berechnen. F¨ ur allgemeines n ≥ 3 ist die Beschreibung von Dn analog. Die Gruppe Dn besteht aus den 2n Elementen 1, t, t2 , . . . , tn−1 , s, st, st2 , . . . , stn−1 . Jedes beliebige Produkt l¨ asst sich unter Verwendung der Relationen tn = 1, s2 = 1 und tst = s berechnen. Satz 1.3.5 In jeder Gruppe (G, ∗) gilt: (a) (b) (c) (d) (e)
Es gibt genau ein neutrales Element e ∈ G. F¨ ur alle a ∈ G gilt a ∗ e = a. Zu jedem a ∈ G gibt es genau ein a′ mit a′ ∗ a = e. Wenn a′ ∗ a = e, dann gilt auch a ∗ a′ = e. In G kann man k¨ urzen, das heißt aus a ∗ b = a ∗ c folgt stets b = c und aus b ∗ a = c ∗ a folgt stets b = c.
Beweis. Wir beginnen mit (d). Sei a′′ ein inverses Element zu a′ , welches nach (1.17) in Definition 1.3.1 existiert und a′′ ∗ a′ = e erf¨ ullt. Wir erhalten a ∗ a′ = e ∗ (a ∗ a′ ) = (a′′ ∗ a′ ) ∗ (a ∗ a′ ) (1.16) = a′′ ∗ (a′ ∗ a) ∗ a′ = a′′ ∗ (e ∗ a′ ) (1.17)
(1.15)
= a′′ ∗ a′ = e,
(1.16)
wie gew¨ unscht.
Damit folgt (b): a ∗ e = a ∗ (a′ ∗ a) = (a ∗ a′ ) ∗ a = e ∗ a = a. (1.17)
(1.15)
(d)
(1.16)
1.3 Gruppen
31
Als N¨achstes zeigen wir (a). Dazu nehmen wir an, dass e¯ ein weiteres neutrales Element ist. Das heißt nach (1.16), dass f¨ ur jedes a ∈ G die Gleichung e¯∗a = a erf¨ ullt ist, insbesondere e = e¯ ∗ e. Wenn wir in (b) a = e¯ einsetzen, erhalten wir e¯ ∗ e = e¯ und somit die gew¨ unschte Eindeutigkeit e = e¯. Nun k¨onnen wir (c) beweisen. Wenn a ¯′ ein weiteres Inverses zu a ist, dann gilt ′ ′ ′ a ¯ ∗a = e. Es ergibt sich a ¯ =a ¯ ∗e = a ¯′ ∗(a∗a′ ) = (¯ a′ ∗a)∗a′ = e∗a′ = a′ . (b)
(d)
(1.15)
(1.16)
Schließlich folgt (e) durch Multiplikation mit a′ von links (bzw. rechts).
⊓ ⊔
Bemerkung 1.3.6. Die Aussage (d) in Satz 1.3.5 besagt nicht, dass die Gruppe G abelsch ist. Sie besagt nur, dass ein von links zu multiplizierendes Inverses mit dem von rechts zu multiplizierenden Inversen u ¨ bereinstimmt. Bemerkung 1.3.7. Aus Satz 1.3.5 (c) folgt (a−1 )−1 = a und (a ∗ b)−1 = b−1 ∗ a−1 in jeder multiplikativ geschriebenen Gruppe. Definition 1.3.8. (1) Eine nichtleere Teilmenge U ⊂ G einer Gruppe (G, ∗) heißt Untergruppe von G, wenn f¨ ur alle a, b ∈ U stets a ∗ b ∈ U und a−1 ∈ U gilt. (2) Eine Abbildung f : G → H zwischen zwei Gruppen (G, ∗) und (H, ◦) heißt Gruppenhomomorphismus, wenn f¨ ur alle a, b ∈ G stets f (a ∗ b) = f (a) ◦ f (b) gilt. (3) Ein bijektiver8 Gruppenhomomorphismus heißt Isomorphismus. Wenn es hervorzuheben gilt, dass f : G → H ein Isomorphismus ist, dann schrei∼ ben wir f : G −−→ H. Bemerkung 1.3.9. Wenn U ⊂ G eine Untergruppe ist, dann ist (U, ∗) eine Gruppe, wobei ∗ die Einschr¨ ankung der Verkn¨ upfung ∗ von G auf U ist. Bemerkung 1.3.10. Da jede Untergruppe U ⊂ G nichtleer ist, gibt es mindestens ein Element a ∈ U . Die Definition besagt, dass damit auch a−1 ∈ U und e = a−1 ∗ a ∈ U sein muss. Daher ist das neutrale Element e ∈ G in jeder Untergruppe enthalten. Man kann also in Definition 1.3.8 die Bedingung U 6= ∅ durch die gleichwertige Forderung e ∈ U ersetzen. Bemerkung 1.3.11. Wenn f : (G, ∗) → (H, ◦) ein Gruppenhomomorphismus ist und eG ∈ G, eH ∈ H die neutralen Elemente bezeichnen, dann gilt f (eG ) = eH , denn eH ◦ f (eG ) = f (eG ) = f (eG ∗ eG ) = f (eG ) ◦ f (eG ), woraus wegen Satz 1.3.5 (e) eH = f (eG ) folgt. Ferner gilt f (a−1 ) = f (a)−1 f¨ ur alle a ∈ G, was wegen der Eindeutigkeit des Inversen, Satz 1.3.5 (c), aus eH = f (eG ) = f (a−1 ∗ a) = f (a−1 ) ◦ f (a) folgt. Bemerkung 1.3.12. Wenn f : G → H ein Isomorphismus ist, dann ist auch f −1 : H → G ein Isomorphismus. Beispiel 1.3.13. 2Z := {2n | n ∈ Z} ⊂ Z ist Untergruppe von (Z, +). Die ungeraden Zahlen {2n + 1 | n ∈ Z} ⊂ Z bilden keine Untergruppe, zum Beispiel weil 0 nicht darin enthalten ist. 8
Siehe Definition 6.3.3.
32
1 Zahlen
Beispiel 1.3.14. Die Abbildung f : Sn → Sn+1 , die durch ( σ(k) 1 ≤ k ≤ n f (σ)(k) := n+1 k =n+1 definiert ist, ist ein Gruppenhomomorphismus. In der Sprache der Wertetabellen operiert dieser Homomorphismus wie folgt, wenn wir ik = σ(k) setzen: 1 2 3 ... n n + 1 1 2 3 ... n 7→ . i1 i2 i3 . . . in n + 1 i1 i2 i3 . . . in Wenn wir f auf Zyklen anwenden, sehen wir keine Ver¨anderung in der Schreibweise, es ¨ andert sich nur die Interpretation. Das Bild der Abbildung f ist die Untergruppe f (Sn ) = Un := {σ ′ ∈ Sn+1 | σ ′ (n + 1) = n + 1} ⊂ Sn+1 ∼ und f definiert einen Isomorphismus f : Sn −−→ Un . Daher k¨onnen wir Sn als Untergruppe von Sn+1 auffassen. Dadurch ist die scheinbar ungenaue Zyklenschreibweise mathematisch gerechtfertigt, bei der z.B. (1 2) als Element in jedem Sn aufgefasst werden kann. Beispiel 1.3.15. Da eine Kongruenztransformation eines regelm¨aßigen ebenen n-Ecks (n ≥ 3) durch die Bildpunkte der Ecken des n-Ecks festgelegt ist, k¨onnen wir, nachdem wir die Ecken nummeriert haben, Dn ⊂ Sn als Untergruppe auffassen. Beispiel 1.3.16. Die Drehungen {1, t, t2 , t3 , t4 } ⊂ D5 bilden eine Untergruppe. Allgemeiner, wenn (G, ∗) eine Gruppe und g ∈ G irgendein Element ist, dann ist die Teilmenge hgi := {g k | k ∈ Z} = {. . . , g −3 , g −2 , g −1 , eG , g, g 2 , g 3 , . . .} stets Untergruppe von G. Definition 1.3.17. Eine Gruppe G heißt zyklisch, wenn es ein g ∈ G gibt, so dass hgi = G ist. Wir sagen dann, g erzeugt die Gruppe G. F¨ ur jedes n ∈ Z ist hni = nZ = {kn | k ∈ Z} ⊂ Z eine zyklische Untergruppe von (Z, +) mit Erzeuger n. Hier ist zu beachten, dass wir wegen der additiven Schreibweise kn statt nk schreiben. Satz 1.3.18 Zu jeder Untergruppe U ⊂ Z von (Z, +) gibt es ein n ∈ Z mit U = nZ. Beweis. Sei U + := {k ∈ U | k ≥ 1}. Wenn U + = ∅, dann ist U = {0}, denn mit k ∈ U ist auch −k ∈ U . In diesem Fall folgt die Behauptung mit n = 0. Sei nun U + 6= ∅. Dann gibt es eine kleinste Zahl n ∈ U + . Jedes a ∈ U l¨asst sich als a = r + s · n mit ganzen Zahlen r, s schreiben, so dass 0 ≤ r < n
1.3 Gruppen
33
(Division mit Rest). Da die Untergruppe U sowohl a als auch n enth¨alt, ist auch r = a − sn ∈ U . Da n das kleinste Element von U + und r < n ist, folgt r 6∈ U + . Daher ist r = 0 und somit a = s · n. Daraus ergibt sich U = nZ. ⊓ ⊔ Beispiel 1.3.19. Die Abbildung f : Z → Z mit f (k) := n · k (fixiertes n) ist ein Gruppenhomomorphismus, denn f (k + l) = n · (k + l) = n · k + n · l = f (k) + f (l). Die durch f (k) := k 2 definierte Abbildung ist hingegen kein Gruppenhomomorphismus Z → Z der additiven Gruppen, denn f (2) = 4 6= 1 + 1 = f (1) + f (1). Wenn (G, ∗) eine Gruppe ist und a ∈ G, (a 6= e), dann ist durch f (g) := a ∗ g kein Gruppenhomomorphismus f : G → G definiert, da f (e) = a ∗ e = a 6= e. Wenn U ⊂ G eine Untergruppe einer Gruppe (G, ∗) ist, dann liefert uns ¨ die folgende Definition eine Aquivalenzrelation (siehe Abschnitt 6.3) auf der Menge G: a ∼ b ⇐⇒ a−1 ∗ b ∈ U . (1.19) Reflexivit¨at: Da U ⊂ G eine Untergruppe ist, gilt a−1 ∗ a = e ∈ U f¨ ur alle a ∈ G. Daher folgt a ∼ a. Symmetrie: Wenn a ∼ b, dann gilt a−1 ∗ b ∈ U und somit (a−1 ∗ b)−1 ∈ U . Unter Verwendung von Bemerkung 1.3.7 folgt daraus (a−1 ∗ b)−1 = b−1 ∗ (a−1 )−1 = b−1 ∗ a ∈ U , also b ∼ a. Transitivit¨at: Wenn a ∼ b und b ∼ c, dann gilt a−1 ∗ b ∈ U und b−1 ∗ c ∈ U . Also ist a−1 ∗ c = (a−1 ∗ b) ∗ (b−1 ∗ c) ∈ U und damit a ∼ c.
¨ Aus der Definition folgt unmittelbar, dass die Aquivalenzklassen die Beschreibung [a] = a ∗ U := {a ∗ b | b ∈ U } besitzen. Die Abbildung U → a ∗ U , die b auf a ∗ b abbildet, ist bijektiv, ihr Inverses bildet c auf a−1 ∗ c ab. ¨ Die Mengen a ∗ U nennt man Linksnebenklassen. F¨ ur die Aquivalenzklassenmenge G/ ∼ schreiben wir G/U und nennen sie die Menge der Linksnebenklassen. Den Spezialfall U = nZ ⊂ G = Z haben wir ausf¨ uhrlich im Abschnitt 1.2 studiert. Satz 1.3.20 (Lagrange9 ) Wenn (G, ∗) eine endliche Gruppe und U ⊂ G eine Untergruppe von G ist, dann gilt: |G| = |U | · |G/U | . Beweis. Da die Abbildung U → a ∗ U , die b ∈ U auf das Element a ∗ b ∈ a ∗ U abbildet, bijektiv ist, haben alle Nebenklassen die gleiche Zahl von Elementen, n¨amlich |U |. Da nach Satz 6.3.16 jedes Element aus G in genau einer Nebenklasse liegt, ist die Zahl der Elemente von G gleich der Zahl der Nebenklassen |G/U | multipliziert mit |U |. ⊓ ⊔ 9
Joseph Louis Lagrange (1736–1813), franz¨ osisch-italienischer Mathematiker.
34
1 Zahlen
Definition 1.3.21. (1) Die Anzahl der Elemente ord(G) := |G| einer Gruppe G heißt Ordnung der Gruppe G. (2) F¨ ur jedes Element g ∈ G einer Gruppe G heißt ord(g) := ord(hgi) Ordnung des Elements g. Obwohl diese Definition auch f¨ ur Gruppen mit unendlich vielen Elementen g¨ ultig ist, werden wir uns hier vorrangig mit Ordnungen in endlichen Gruppen befassen. Die Ordnung eines Elements einer endlichen Gruppe ist stets eine positive ganze Zahl. Die Definition der Ordnung eines Elements g ∈ G u ¨ bersetzt sich in ord(g) = m ⇐⇒ hgi = {e, g, g 2, . . . , g m−1 } . Insbesondere gilt ord(g) = 1 ⇐⇒ g = e. Die Ordnung von g ∈ G ist die kleinste positive ganze Zahl m, f¨ ur die g m = e ist. Im Fall einer additiven Gruppe ist ord(g) = min{k ≥ 1 | k · g = 0}. Beispiel 1.3.22. (i) ord(Z) = ∞, ord(Sn ) = n!, ord(Dn ) = 2n. (ii) In (Z, +) gilt: ord(0) = 1 und ord(n) = ∞ f¨ ur n 6= 0. (iii) Sei [0] 6= [a] ∈ (Z/nZ, +), dann ist ord([a]) = n/ggT(a, n). Wenn n eine Primzahl ist, gilt folglich f¨ ur [a] 6= [0] stets ord([a]) = n in (Z/nZ, +). Satz 1.3.23 Sei (G, ∗) eine endliche Gruppe. (1) Wenn U ⊂ G Untergruppe ist, so ist ord(U ) ein Teiler von ord(G). (2) F¨ ur jedes g ∈ G ist ord(g) ein Teiler von ord(G). (3) F¨ ur alle g ∈ G gilt g ord(G) = e. Beweis. Die Aussage (1) ergibt sich unmittelbar aus dem Satz 1.3.20 unter Benutzung des neu eingef¨ uhrten Begriffes der Ordnung. Aussage (2) ergibt sich aus (1), denn ord(g) = ord(hgi). Da es nach (2) eine ganze Zahl k gibt, f¨ ur die ord(G) = k · ord(g) gilt, ergibt ord(G) k·ord(g) ord(g) k k sich g =g = g = e = e. ⊓ ⊔
Zur Anwendung dieses Satzes auf die multiplikative Gruppe (Z/nZ)∗ erinnern wir uns an die Eulerfunktion (Definition 1.1.10): ϕ(n) = k ∈ Z 1 ≤ k < n, ggT(k, n) = 1 = ord ((Z/nZ)∗ ) . Satz 1.3.24 (kleiner Satz von Fermat10 ) (1) F¨ ur jede Primzahl p und jede ganze Zahl a, die nicht durch p teilbar ist, gilt: ap−1 ≡ 1 mod p. (2) Wenn a, n teilerfremde ganze Zahlen sind, dann gilt aϕ(n) ≡ 1 mod n. 10
Pierre de Fermat (1601–1665), franz¨ osischer Mathematiker.
1.3 Gruppen
35
Beweis. Da ϕ(p) = p− 1 f¨ ur jede Primzahl p und ϕ(n) = ord ((Z/nZ)∗ ), folgt die Behauptung aus Satz 1.3.23 (3). ⊓ ⊔ Beispiel 1.3.25. (i) Wenn ggT(a, 10) = 1, dann ist a4 ≡ 1 mod 10, da ϕ(10) = ϕ(5) · ϕ(2) = 4. Mit anderen Worten: die vierte Potenz jeder ungeraden Zahl, die nicht auf 5 endet, hat als letzte Ziffer eine 1. Aus dieser Kongruenz ergibt sich auch, dass f¨ ur jede ganze Zahl a, die zu 10 teilerfremd ist, die letzte Ziffer einer beliebigen Potenz am gleich der letzten Ziffer von ar ist, sobald r ≡ m mod 4. Dies ergibt sich aus m = 4k + r und am ≡ a4k+r ≡ (a4 )k · ar ≡ 1k · ar ≡ ar mod 10. (ii) Ebenso l¨asst sich der Rechenaufwand f¨ ur die Bestimmung von zwei oder mehr Endziffern großer Zahlen verringern. Bei der Berechnung der letzten zwei Ziffern kann man wegen ϕ(100) = ϕ(52 · 22 ) = 5 · 4 · 2 = 40 die Exponenten modulo 40 reduzieren. Da 99 ≡ 9 mod 40, folgt zum Beispiel 9 9(9 ) ≡ 99 mod 100. Ohne technische Hilfsmittel berechnet man leicht 9 99 ≡ 89 mod 100. Die letzten beiden Ziffern von 9(9 ) lauten also 89. Als N¨achstes werden wir den Prozess der Vererbung der Addition von Z auf Z/nZ (Definition 1.2.3) f¨ ur Gruppen verallgemeinern. Satz 1.3.26 Sei (G, ∗) eine abelsche Gruppe und U ⊂ G eine Untergruppe. Dann ist auf der Menge der Linksnebenklassen G/U durch [a] ∗ [b] := [a ∗ b] die Struktur einer abelschen Gruppe definiert. Beweis. Das Hauptproblem ist hier, ebenso wie bei Satz 1.2.4, die Wohldefiniertheit. Dazu ist zu zeigen, dass aus [a] = [a′ ] und [b] = [b′ ] stets [a′ ∗ b′ ] = [a ∗ b] folgt. Entsprechend der in (1.19) gegebenen Definition bedeuten [a] = [a′ ] und [b] = [b′ ], dass es r, s ∈ U gibt, so dass a′ = a∗r und b′ = b∗s gilt. Damit ergibt sich a′ ∗ b′ = (a ∗ r) ∗ (b ∗ s) = a ∗ (r ∗ b ∗ s) = a ∗ (b ∗ r ∗ s). F¨ ur die letzte Gleichung haben wir benutzt, dass G abelsch ist. Da U eine Untergruppe ist, gilt r ∗ s ∈ U und es folgt a′ ∗ b′ = (a ∗ b) ∗ (r ∗ s) ∈ (a ∗ b) ∗ U , also tats¨achlich [a′ ∗ b′ ] = [a ∗ b]. Die Gruppeneigenschaften u ¨ bertragen sich nun unmittelbar von G auf G/U . ⊓ ⊔ Da die Gruppen Sn und Dn nicht abelsch sind, entsteht die Frage, ob f¨ ur solche Gruppen die Vererbung der Gruppenstruktur auf Linksnebenklassenmengen ebenfalls m¨ oglich ist. Als Beispiel betrachten wir die Untergruppe {1, s} ⊂ D5 . Sie besitzt die folgenden 5 = ord(D5 )/2 Nebenklassen [1] = {1, s}, [t] = {t, ts}, [t2 ] = {t2 , t2 s}, [t3 ] = {t3 , t3 s}, [t4 ] = {t4 , t4 s} . Um die Gruppenstruktur wie in Satz 1.3.26 vererben zu k¨onnen, ist es wegen [t] = [ts] notwendig, dass auch [t2 ] = [t] · [t] = [ts] · [t] = [tst] gilt. Da tst = s ist, m¨ usste dann [t2 ] = [s] sein. Ein Blick auf die Liste der f¨ unf Nebenklassen verr¨ at, dass t2 und s in verschiedenen Nebenklassen liegen. Die
36
1 Zahlen
Gruppenstruktur vererbt sich daher nicht auf D5 /{1, s}. Beim Umgang mit nicht-abelschen Gruppen ist also Vorsicht geboten. Bei genauerer Betrachtung des Beweises von Satz 1.3.26 sehen wir, dass nur an einer Stelle benutzt wurde, dass G abelsch ist, n¨amlich beim Beweis von a ∗ (r ∗ b ∗ s) ∈ (a ∗ b) ∗ U . Diesen Beweisschritt kann man jedoch auch ausf¨ uhren, wenn es ein Element r′ ∈ U gibt, so dass r ∗ b = b ∗ r′ , denn dann folgt a ∗ (r ∗ b ∗ s) = a ∗ (b ∗ r′ ∗ s) ∈ (a ∗ b) ∗ U . Eine Untergruppe U ⊂ G, welche die Eigenschaft hat, dass f¨ ur jedes b ∈ G und jedes r ∈ U ein r′ ∈ U mit r ∗ b = b ∗ r′ existiert, nennt man einen Normalteiler. Mit anderen Worten: Eine Untergruppe U ⊂ G ist genau dann Normalteiler, wenn b ∗ U = U ∗ b f¨ ur alle b ∈ G. Mit dem gleichen Beweis wie von Satz 1.3.26 erhalten wir nun, dass sich die Gruppenstruktur von G auf G/U vererbt, sobald U ⊂ G ein Normalteiler ist. Wenn G abelsch ist, dann ist jede Untergruppe U ⊂ G ein Normalteiler, da stets r ∗ b = b ∗ r. In nicht-abelschen Gruppen gibt es im Allgemeinen jedoch Untergruppen, die nicht Normalteiler sind. Zum Beispiel ist {1, s} ⊂ D5 kein Normalteiler, da ts 6∈ {t, st} in D5 . Bemerkung 1.3.27. Wenn U ⊂ G Normalteiler, dann ist f¨ ur jedes a ∈ U die Nebenklasse [a] ∈ G/U das neutrale Element der Gruppe G/U . Die Begriffe Untergruppe und Homomorphismus sind die wichtigsten Werkzeuge zur Untersuchung von Gruppen, die wir bisher kennengelernt haben. Im Folgenden besch¨ aftigen wir uns damit, wie sie miteinander zusammenh¨angen. Als wichtigstes Resultat werden wir den Homomorphiesatz beweisen. Er erlaubt uns, unter geeigneten Voraussetzungen pr¨azise Information u ¨ ber die Struktur bestimmter Gruppen herauszufinden. Definition 1.3.28. F¨ ur jeden Gruppenhomomorphismus f : G → H heißt ker(f ) := {g ∈ G | f (a) = eH } ⊂ G der Kern von f und im(f ) := {f (a) | a ∈ G} ⊂ H das Bild von f. Bemerkung 1.3.29. Ein Gruppenhomomorphismus f : G → H ist genau dann surjektiv, wenn im(f ) = H. Satz 1.3.30 Sei f : G → H ein Gruppenhomomorphismus. Dann gilt: (1) ker(f ) ⊂ G ist eine Untergruppe. (2) im(f ) ⊂ H ist eine Untergruppe. (3) f ist genau dann injektiv11 , wenn ker(f ) = {eG }. 11
Siehe Definition 6.3.3.
1.3 Gruppen
37
Beweis. (1) Da f (eG ) = eH , ist eG ∈ ker(f ) und damit ker(f ) 6= ∅. Wenn a, b ∈ ker(f ), dann ist f (a) = eH und f (b) = eH . Daraus ergibt sich f (a∗b) = f (a) ∗ f (b) = eH ∗ eH = eH und f (a−1 ) = f (a)−1 = e−1 H = eH . Also gilt a ∗ b ∈ ker(f ) und a−1 ∈ ker(f ), das heißt ker(f ) ist Untergruppe von G. (2) Da G 6= ∅, ist auch im(f ) 6= ∅. Wenn a′ = f (a) ∈ im(f ) und b′ = f (b) ∈ im(f ), dann ist a′ ∗ b′ = f (a) ∗ f (b) = f (a ∗ b) ∈ im(f ) und (a′ )−1 = f (a)−1 = f (a−1 ) ∈ im(f ). Somit ist im(f ) eine Untergruppe von H. (3) Wenn f injektiv ist, dann ist ker(f ) = {eG }. Wenn umgekehrt ker(f ) = {eG } und f (a) = f (b), dann folgt eH = f (a) ∗ f (b)−1 = f (a ∗ b−1 ), d.h. a ∗ b−1 ∈ ker(f ) = {eG }. Damit ist a ∗ b−1 = eG , d.h. a = b, und f ist injektiv. ⊓ ⊔ Bemerkung 1.3.31. F¨ ur jeden Gruppenhomomorphismus f : G → H ist ker(f ) ⊂ G ein Normalteiler , denn f¨ ur a ∈ G, b ∈ ker(f ) ist f (a ∗ b ∗ a−1 ) = −1 −1 f (a) ∗ f (b) ∗ f (a) = f (a) ∗ f (a) = eH , also a ∗ b ∗ a−1 ∈ ker(f ) und somit a ∗ b = b′ ∗ a f¨ ur ein b′ ∈ ker(f ). Satz 1.3.32 (Homomorphiesatz) Sei f : G → H ein Gruppenhomomorphismus und G/ ker(f ) mit der von G vererbten Gruppenstruktur versehen. Dann ist die durch f¯ [a] := f (a) definierte Abbildung ein Isomorphismus f¯ : G/ ker(f ) −→ im(f ) .
Beweis. Nach Bemerkung 1.3.31 ist ker(f ) ⊂ G stets Normalteiler, also wird die Gruppenstruktur von G auf G/ ker(f ) vererbt. Die Wohldefiniertheit von f¯ sehen wir wie folgt: Sei [a] = [a′ ] ∈ G/ ker(f ), dann gibt es ein b ∈ ker(f ) ⊂ G mit a′ = a ∗ b. Damit erhalten wir f (a′ ) = f (a ∗ b) = f (a) ∗ f (b) = f (a)∗ eH = f (a), wie gew¨ unscht. Aus der Definition von f¯ folgt sofort, dass f¯ ein surjektiver Gruppenhomomorphismus ist. F¨ ur den Beweis der Injektivit¨at betrachten wir [a] ∈ ker(f¯) ⊂ G/ ker(f ). Dann ist f (a) = f¯([a]) = eH , d.h. a ∈ ker(f ) und somit [a] = eG/ ker(f ) . Wegen Satz 1.3.30 (3) ist f¯ injektiv und daher ein Isomorphismus. ⊓ ⊔ Als erste Anwendung erhalten wir den folgenden Satz. Satz 1.3.33 Sei G eine Gruppe und g ∈ G ein Element der Ordnung n. Dann gibt es einen Isomorphismus Z/nZ → hgi. Beweis. Durch f (k) := g k ist ein Homomorphismus f : Z → G definiert. Offenbar ist im(f ) = hgi und ker(f ) = nZ, wobei n = ord(g). Daher ist nach Satz 1.3.32 die induzierte Abbildung f¯ : Z/nZ → hgi ein Isomorphismus. ⊓ ⊔ Als weitere Anwendung des Homomorphiesatzes k¨onnen wir nun die bereits im Satz 1.1.11 angek¨ undigte Formel f¨ ur die Eulersche ϕ-Funktion beweisen.
38
1 Zahlen
F¨ ur Anwendungen praktischer Art ist allerdings der im Abschnitt 1.4 gegebene konstruktive Beweis von gr¨ oßerer Bedeutung, vgl Satz 1.4.23. Satz 1.3.34 Wenn m, n zwei teilerfremde ganze Zahlen sind, dann ist der durch f [a]mn := [a]m , [a]n gegebene Gruppenhomomorphismus f : Z/mnZ → Z/mZ × Z/nZ
ein Isomorphismus. Er bildet die Menge (Z/mnZ)∗ ⊂ Z/mnZ bijektiv auf (Z/mZ)∗ × (Z/nZ)∗ ab. Insbesondere gilt ϕ(mn) = ϕ(m)ϕ(n), falls ggT(m, n) = 1. Beweis. Sei g : Z → Z/mZ × Z/nZ der durch g(a) := [a]m , [a]n definierte Gruppenhomomorphismus. Dann ist ker(g) = {a ∈ Z | a ≡ 0 mod m und a ≡ 0
mod n} .
Daraus sehen wir mnZ ⊂ ker(g). Es gilt aber auch ker(g) ⊂ mnZ, denn jedes a ∈ ker(g) ist durch m und n teilbar. Das heißt, es gibt k ∈ Z, so dass a = kn ist und da ggT(m, n) = 1 folgt dann m | k aus Satz 1.1.7. Damit ist a durch mn teilbar und somit ker(g) ⊂ mnZ, also schließlich ker(g) = mnZ. Der Homomorphiesatz besagt dann, dass g einen Isomorphismus g¯ : Z/mnZ → im(g) induziert. Das zeigt, dass ord(im(¯ g)) = ord (Z/mnZ) = mn gilt. Weil (Z/mZ)×(Z/nZ) ebenfalls von Ordnung mn ist, muss im(¯ g ) = Z/mZ×Z/nZ gelten, und es folgt, dass f = g¯ ein Isomorphismus ist. F¨ ur die Aussage u ¨ ber (Z/mnZ)∗ wechseln wir von der additiven zur multiplikativen Struktur von Z/mnZ. Obwohl wir erst im Abschnitt 1.4, bei der Besch¨aftigung mit Ringen, Addition und Multiplikation gleichzeitig betrachten werden, k¨ onnen wir bereits an dieser Stelle einen direkten Beweis ∗ geben. Wir benutzen dazu, dass f¨ ur [a] ∈ Z/nZ die Eigenschaft [a] ∈ (Z/nZ) 12 zu ggT(a, n) = 1 ¨ aquivalent ist . Daher ist f [a]mn = [a]m , [a]n ge∗ ∗ nau dann in Z/mZ × Z/nZ enthalten, wenn ggT(a, m) = 1 und ggT(a, n) = 1 gilt. F¨ ur solche a gibt es ganze Zahlen r, s, r′ , s′ , so dass ′ ra + sn = 1 und r a + s′ m = 1. Daraus erhalten wir ram + smn = m und 1 = r′ a + s′ (ram + smn) = (r′ + s′ rm)a + (s′ s)mn. Somit ist ggT(a, mn) = 1, d.h. [a]mn ∈ (Z/mnZ)∗ . Also ist f (Z/mnZ)∗ = (Z/mZ)∗ × (Z/nZ)∗ und wegen der Injektivit¨ at von f folgt die Behauptung. ⊓ ⊔ Bemerkung 1.3.35. Man kann zeigen, dass jede endliche abelsche Gruppe isomorph zu einer Gruppe der Gestalt Z/n1 Z × Z/n2 Z × · · · × Z/nk Z 12
Beispiel 1.3.2 (v), Seite 26
1.3 Gruppen
39
ist. Durch Anwendung von Satz 1.3.34 kann man immer erreichen, dass die ni Primzahlpotenzen sind. Zum Abschluss dieses Abschnittes wenden wir uns nochmals der Fehlererkennung zu. Wir beginnen mit einer genaueren Analyse der G¨ ute der Pr¨ ufzeichen bei EAN und ISBN, die wir am Ende von Abschnitt 1.2 betrachtet hatten. Anschließend benutzen wir den in diesem Abschnitt eingef¨ uhrten Begriff der Gruppe, um diese Beispiele zu verallgemeinern. Das erlaubt es uns schließlich, die Pr¨ ufgleichung, die bei der Nummerierung ehemaliger deutscher Banknoten verwendet wurde, zu verstehen. Sowohl EAN als auch P ISBN-13 bestehen aus 13 Ziffern a1 , . . . , a13 , welche die Pr¨ ufgleichung 13 ullen. Dabei haben wir wi = i=1 wi ai ≡ 0 mod 10 erf¨ 2 + (−1)i gesetzt, oder im Klartext ( 1 falls i ungerade, wi = 3 falls i gerade. Eine ISBN-10 besteht dagegen aus 10 Zeichen a1 , . . . , a10 , die aus der Menge {0, 1, . . . , 9, X} sind. Das Symbol X wird als [10] ∈ Z/11Z interpretiert und P10 ist nur als a10 zugelassen. Die Pr¨ ufgleichung lautet i=1 iai ≡ 0 mod 11. In beiden Situationen finden wir eine Pr¨ ufgleichung der Gestalt k X i=1
wi ai ≡ c
mod n
(1.20)
vor, wobei die ai Repr¨ asentanten von Elementen von Z/nZ sind, die mit sogenannten Gewichten“ wi ∈ Z zu multiplizieren sind. ” Wir k¨onnen ganz allgemein mit einem endlichen Alphabet starten und Pr¨ ufgleichungen f¨ ur Worte fester L¨ ange untersuchen. Dazu werden die Elemente des Alphabets nummeriert, wodurch wir eine Bijektion zwischen einem n Symbole enthaltenden Alphabet und Z/nZ erhalten. Wenn die Wortl¨ange gleich k ist, dann w¨ ahlen wir k Gewichte [wi ] ∈ Z/nZ, i = 1, . . . , k und fixieren ein Element [c] ∈ Z/nZ. In dieser Situation messen wir die G¨ ute der Pr¨ ufgleichung (1.20) durch die Zahl der Fehler, die durch sie erkannt werden. ¨ Bei der manuellen Ubermittlung von Daten sind typische Fehler: Einzelfehler: Genau eines der ai ist falsch. Transposition: Zwei benachbarte Symbole ai und ai+1 sind vertauscht. Um festzustellen, ob die Pr¨ ufgleichung (1.20) diese Fehler erkennt, nehmen wir an, das korrekte Wort lautet a1 a2 . . . ak und das m¨oglicherweise fehlerhaft u ¨ bermittelte ist b1 b2 . . . bk . ¨ Uber das korrekte Wort, welches uns als Empf¨anger des Wortes b1 b2 . . . bk ja nicht wirklich bekannt ist, wissen wir lediglich, dass die Pr¨ ufgleichung
40
1 Zahlen k X i=1
wi ai ≡ c
mod n
gilt. Als weitere Information k¨ onnen wir die Summe Deshalb kennen wir auch die Diskrepanz δ :=
k X i=1
wi (ai − bi ) ≡ c −
k X
wi bi
Pk
i=1
wi bi berechnen.
mod n .
i=1
Bei Vorliegen eines Einzelfehlers bzw. einer Transposition heißt das konkret: Einzelfehler: Wenn nur aj falsch ist, dann ist δ ≡ wj (aj − bj ) mod n; Transposition: Wenn bj+1 = aj und bj = aj+1 , ansonsten aber alles korrekt u ¨ bermittelt wurde, dann ist δ ≡ (wj − wj+1 ) · (aj − aj+1 ) mod n. Pk Ein Fehler wird erkannt, wenn die Pr¨ ufsumme i=1 wi bi nicht kongruent c modulo n ist, also genau dann, wenn die Diskrepanz δ von Null verschieden ist. Das f¨ uhrt auf folgende Bedingungen zur Fehlererkennung: Einzelfehler: Ein Fehler liegt vor, wenn [aj ] 6= [bj ]. Er wird erkannt, wenn dies [wj ] · ( [aj ] − [bj ] ) 6= [0] zur Folge hat. Transposition: Ein Fehler liegt vor, wenn [aj ] 6= [aj+1 ]. Er wird erkannt, wenn dann auch ( [wj ] − [wj+1 ] )( [aj ] − [aj+1 ] ) 6= [0] gilt.
Um jeden Einzelfehler erkennen zu k¨ onnen, muss [wj ] ein multiplikatives Inverses besitzen, das heißt [wj ] ∈ (Z/nZ)∗ . Diese Bedingung ist f¨ ur EAN und ISBN-10 erf¨ ullt. Zur Erkennung aller Transpositionen muss [wj ] − [wj+1 ] ∈ (Z/nZ)∗ sein. Bei der EAN ist jedoch [wj ] − [wj+1 ] = ±[2] 6∈ (Z/10Z)∗ , denn ggT(±2, 10) = 2. Daher werden Transpositionen zweier Zahlen, deren Differenz f¨ unf ist, durch ¨ die Pr¨ ufsumme nicht erkannt. Die Ubermittlung von 61 statt 16 bleibt zum ¨ Beispiel unbemerkt. Dagegen wird die fehlerhafte Ubermittlung von 26 statt 62 erkannt. Bei der ISBN-10 ist wj = j, also [wj ]− [wj+1 ] = [−1] ∈ (Z/11Z)∗ . Damit werden in diesem Fall alle Transpositionen erkannt. Daran sehen wir, dass die Pr¨ ufgleichung der inzwischen abgeschafften ISBN10 derjenigen der EAN und der neuen ISBN-13 bei der Fehlererkennung u ¨ berlegen war. Beim maschinellen Lesen von Strichcodes sind allerdings Transpositionsfehler von untergeordneter Bedeutung, so dass diese Schw¨ache kaum praktische Relevanz haben sollte. Der Nachteil der Pr¨ ufgleichung der ISBN-10 war die Notwendigkeit der Einf¨ uhrung eines elften Symbols X“. Wenn wir ein Alphabet mit zehn ” Symbolen bevorzugen, dann f¨ uhrt uns die geschilderte Methode auf eine ∗ Pr¨ ufgleichung in Z/10Z. Da Z/10Z = {±1, ±3}, sind auf diese Weise keine wesentlichen Verbesserungen der EAN m¨ oglich. Um bessere Fehlererkennung zu erreichen, kann man versuchen, die additive Gruppe Z/10Z durch eine andere Gruppe zu ersetzen. Man kann zeigen, dass jede Gruppe der Ordnung 10 zu Z/10Z oder D5 isomorph ist.
1.3 Gruppen
41
Doch zun¨achst sei ganz allgemein (G, ∗) eine Gruppe mit n Elementen und c ∈ G fixiert. Statt einer Multiplikation mit Gewichten wi erlauben wir nun beliebige Permutationen σi ∈ sym(G), 1 ≤ i ≤ k. Das f¨ uhrt zur Pr¨ ufgleichung σ1 (a1 ) ∗ σ2 (a2 ) ∗ . . . ∗ σk (ak ) = c . Zur Vereinfachung der Analyse w¨ ahlen wir eine einzige Permutation σ ∈ sym(G) und setzen σi := σ i ∈ sym(G) f¨ ur 1 ≤ i ≤ k. Bei korrektem Wort a1 . . . ak und empfangenem Wort b1 . . . bk ist dann c = σ 1 (a1 ) ∗ σ 2 (a2 ) ∗ . . . ∗ σ k (ak ) und e c = σ 1 (b1 ) ∗ σ 2 (b2 ) ∗ . . . ∗ σ k (bk ) .
Die Diskrepanz ist nun δ = c ∗ e c−1 ∈ G. Ein Fehler wird erkannt, wenn δ 6= e. Q Satz 1.3.36 Eine Pr¨ ufgleichung der Form ki=1 σ i (ai ) = c erkennt alle Einzelfehler. Wenn f¨ ur x 6= y ∈ G stets x ∗ σ(y) 6= y ∗ σ(x) gilt, dann werden auch alle Transpositionen erkannt.
Beweis. Da δ = σ 1 (a1 )∗σ 2 (a2 )∗. . .∗σ k (ak )∗σ k (bk )−1 ∗. . .∗σ 2 (b2 )−1 ∗σ 1 (b1 )−1 , kann ein Einzelfehler an Position j nur dann unerkannt bleiben, wenn e = σ j (aj ) ∗ σ j (bj )−1 , also σ j (aj ) = σ j (bj ) gilt. Da σ j bijektiv ist, ist das nur m¨oglich, wenn aj = bj , also u ¨berhaupt kein Fehler vorliegt. Damit ist die Erkennung aller Einzelfehler gesichert. Wenn an den Positionen i und i + 1 statt (a, b) das Paar (b, a) u ¨ bermittelt wurde, dann wird dies durch die Pr¨ ufgleichung genau dann erkannt, wenn σ i (a) ∗ σ i+1 (b) 6= σ i (b) ∗ σ i+1 (a) gilt. Mit x := σ i (a) 6= σ i (b) =: y folgt dies aus der Voraussetzung x ∗ σ(y) 6= y ∗ σ(x). ⊓ ⊔ Beispiel 1.3.37. Sei jetzt G = D5 = {1, t, t2 , t3 , t4 , s, st, st2 , st3 , st4 }. Wir nummerieren die Elemente dieser Gruppe, indem wir jede der Ziffern 0, . . . , 9 in der Form 5i + j schreiben und dann dem Element tj si ∈ D5 zuordnen. Das f¨ uhrt zu folgender Tabelle 0 1 2 3 4 5 6 7 8 9 1 t t2 t3 t4 s st4 st3 st2 st Dadurch kann die Permutation σ = (0 1 5 8 9 4 2 7) ◦ (3 6) =
0123456789 ∈ S10 1576283094
als Permutation der Elemente der Gruppe D5 aufgefasst werden. Man erh¨alt x 1 t t2 t3 t4 s st st2 st3 st4 σ(x) t s st3 st4 t2 st2 t4 st 1 t3 Es gilt tats¨achlich xσ(y) 6= yσ(x) f¨ ur x 6= y ∈ D5 , siehe Aufgabe 1.23.
42
1 Zahlen
Die im Beispiel 1.3.37 beschriebene Permutation wurde tats¨ achlich bei der Pr¨ ufgleichung f¨ ur die Nummern auf den seit Herbst 1990 ausgegebenen und bis zur Einf¨ uhrung des Euro-Bargelds zu Beginn des Jahres 2002 in Umlauf befindlichen DM-Banknoten angewandt. Die elfstelligen Nummern auf diesen Banknoten hatten an den Stellen 1, 2 und 10 einen Buchstaben statt einer Ziffer. Die Buchstaben entsprachen Ziffern nach folgendem Schema: Ziffer 0 1 2 3 4 5 6 7 8 9 Buchstabe A D G K L N S U Y Z Die benutzte Pr¨ ufgleichung lautete a11
10 Y
σ i (ai ) = 1 .
i=1
Aus Satz 1.3.36 erhalten wir, dass dadurch alle Einzelfehler und Transpositionen erkannt werden konnten. Da an der Position 10 ein Buchstabe und an Position 11 eine Ziffer verwendet wurde, ist es nicht n¨ otig, den Beweis an die leicht ver¨anderte Pr¨ ufgleichung anzupassen.
Abb. 1.2 Eine ehemalige 10-DM Banknote mit Nummer DS1170279G9 vom 1. 10. 1993
Beispiel 1.3.38. Um festzustellen, ob die Nummer der in Abb. 1.2 abgebildeten 10 DM Banknote wirklich die Pr¨ ufgleichung erf¨ ullt, gehen wir folgendermaßen vor: Zuerst ersetzen wir D durch 1, S durch 6 und G durch 2. Dann wenden wir die entsprechende Potenz σ i von σ an. Die Rechnung vereinfacht sich, wenn wir σ 8 = Id benutzen. Schließlich ersetzen wir die so erhaltenen Ziffern durch ihre entsprechenden Elemente in D5 und bilden deren Produkt. Auf diese Weise erhalten wir Tabelle 1.1. Unter Verwendung
1.3 Gruppen
43 Position i Ziffer a Potenz von σ σi (a) Element in D5
1 1 σ 5 s
2 6 σ2 6 st4
3 1 σ3 9 st
4 1 σ4 4 t4
5 7 σ5 9 st
6 0 σ6 2 t2
7 2 σ7 4 t4
8 7 Id 7 st3
9 9 σ 4 t4
10 2 σ2 0 1
11 9 Id 9 st
¨ Tabelle 1.1 Uberpr¨ ufung der Nummer einer ehemaligen Banknote
4 4 2 4 3 4 von stk stk= 1 und tst = s ergibt sich s · st · st · t · st · t · t · st · t · 1 · st = 4 4 7 7 s st · st t st · st st = 1, die Pr¨ ufgleichung ist erf¨ ullt.
Die Verwendung von Pr¨ ufziffern erlaubt uns, Einzelfehler zu erkennen. Eine Korrektur ist in der Regel jedoch nur dann m¨ oglich, wenn bekannt ist, an welcher Stelle der Fehler auftrat. Im Normalfall muss man sich mit der Erkenntnis der Fehlerhaftigkeit begn¨ ugen. Dies ist in Situationen ausreichend, in denen die Originalquelle leicht erreichbar ist, wie etwa bei einer fehlerhaft gescannten EAN an der Kasse eines Supermarktes. Im Fall der Banknotennummern gen¨ ugt die Feststellung der Fehlerhaftigkeit, eine Korrektur ist nicht n¨otig. ¨ Bei der Ubertragung von Daten innerhalb von oder zwischen Computern u otig und erw¨ unscht. Wir ¨ ber ein Netzwerk ist eine Fehlerkorrektur jedoch n¨ befassen uns mit fehlerkorrigierenden Codes im Abschnitt 2.5. Wir wollen schließlich durch ein letztes Beispiel zeigen, wie ein in den achtziger Jahren des letzten Jahrhunderts weltweit verbreitetes Spielzeug der Mathematik ernsthafte Probleme stellen kann. Im Jahr 1975 ließ der ungarische Professor f¨ ur Architektur Erno Rubik den sogenannten Zauberw¨ urfel (Abb. 1.3) patentieren. Von diesem W¨ urfel wurden mehr als 100 Millionen Exemplare verkauft. Noch heute kann man ihn in den Gesch¨ aften finden.
Abb. 1.3 Der Rubik-W¨ urfel
44
1 Zahlen
Der W¨ urfel besteht aus 26 zusammenh¨ angenden kleinen farbigen W¨ urfeln, die sich schichtweise in einer Ebene gegeneinander drehen lassen. Dadurch werden die einzelnen W¨ urfel umgeordnet. Bei den kleinen W¨ urfeln gibt es 8 Ecksteine, deren 3 Außenfl¨achen mit 3 verschiedenen Farben versehen sind. Es gibt 12 Kantensteine mit 2 verschiedenen Farben und 6 Mittelsteine, die jeweils eine der Farben blau, rot, gelb, gr¨ un, braun und weiß haben. Die kleinen W¨ urfel sind so gef¨arbt, dass der W¨ urfel in einer Stellung (Grundstellung) auf jeder Seite eine einheitliche Farbe besitzt. Mathematisch gesehen kann der W¨ urfel als Permutationsgruppe W aufgefasst werden. Auf den 6 Seiten des W¨ urfels gibt es durch die Unterteilung in die kleinen W¨ urfel je 9 farbige Quadrate (insgesamt 54). Die 6 Quadrate der Mittelsteine gehen bei den Drehungen des W¨ urfels in sich u ¨ ber, so dass man das Verdrehen des W¨ urfels als Permutation der 48 ( beweglichen“) Quadrate ” auffassen kann. Das ergibt eine Untergruppe der Permutationsgruppe S48 . Sie 1 hat die Ordnung 12 ·8!·38 ·12!·212 ≈ 4,3 ·1019 . Diese Untergruppe wird durch 6 Permutationen V, H, R, L, O, U erzeugt, die den Drehungen der 6 Seiten (Vorderseite, Hinterseite, rechte Seite, linke Seite, obere Seite, untere Seite) um 90 Grad entsprechen. Sei B0 = {V, H, R, L, O, U }, dann ist W = hB0 i. Oft versteht man unter einer einzelnen Drehung auch die Drehung einer Seite um 180 oder 270 Grad. Daher setzen wir B = {Dk | D ∈ B0 , k = 1, 2, 3}. Wenn man den W¨ urfel als Spielzeug benutzt, kommt es darauf an, ihn aus einer beliebig verdrehten Stellung in m¨ oglichst kurzer Zeit in die Grundstellung zur¨ uckzudrehen. Das ist gar nicht so einfach. Es gab regelrechte Wettbewerbe und die Besten schafften das durchschnittlich in weniger als einer Minute. Der Weg zur Grundstellung ist nat¨ urlich nicht eindeutig bestimmt. Mathematisch stellt sich die Frage nach der folgenden Schranke: M := min{k | ∀σ ∈ W ∃σ1 , . . . , σk ∈ B, so dass σ = σ1 ◦ . . . ◦ σk } , d.h. M ist die kleinstm¨ ogliche Zahl, f¨ ur die sich der W¨ urfel aus jeder beliebigen Stellung mit h¨ ochstens M Drehungen wieder in Grundstellung bringen l¨ asst. Anfang der achtziger Jahre wurde gezeigt, dass 18 ≤ M ≤ 52 ist. Bis heute ist die Zahl M nicht bekannt. Man weiß jetzt, dass 20 ≤ M ≤ 22 gilt. Dieses Ergebnis geht auf Tomas Rokicki (USA) zur¨ uck, der das Problem auf aufw¨andige Rechnungen mit Nebenklassen einer geeigneten Untergruppe von W zur¨ uckf¨ uhrte, die er dann von Computern durchf¨ uhren ließ, siehe [Rok].
Aufgaben ¨ Ubung 1.13. Zeigen Sie, dass die durch f (x, y) := x − y gegebene Abbildung f : Z × Z → Z ein Gruppenhomomorphismus bez¨ uglich der additiven Gruppenstruktur (vgl. Bsp. 1.3.2 (vi)) ist. Bestimmen Sie ker(f ) und im(f ).
1.3 Gruppen
45
¨ Ubung 1.14. Bestimmen Sie die Ordnung von jedem der sechs Elemente der symmetrischen Gruppe S3 . ¨ Ubung 1.15. Zeigen Sie: ord([a]) = n/ ggT(a, n) f¨ ur [0] 6= [a] ∈ (Z/nZ, +). ∗ ¨ Ubung 1.16. (a) Welche der Gruppen D5 , S3 , Z/5Z, (Z/5Z) ist zyklisch? (b) Beweisen Sie, dass jede endliche Gruppe, deren Ordnung eine Primzahl ist, eine zyklische Gruppe ist.
¨ Ubung 1.17. Zeigen Sie, dass die durch g([a]) := [7a ] definierte Abbildung ∗ g : Z/16Z → (Z/17Z) ein Isomorphismus von Gruppen ist. ¨ Ubung 1.18. Sei f : G → H ein Gruppenisomorphismus. Beweisen Sie, dass f¨ ur jedes Element a ∈ G stets ord(a) = ord(f (a)) gilt. Gilt dies auch f¨ ur beliebige Gruppenhomomorphismen? ¨ Ubung 1.19. Beweisen Sie, dass es keinen Isomorphismus zwischen den Gruppen Z/4Z und Z/2Z × Z/2Z gibt. Gibt es einen Isomorphismus zwischen Z/6Z und Z/2Z × Z/3Z? ¨ Ubung 1.20. Sei (G, ∗) eine Gruppe und g ∈ G irgendein Element. Beweisen Sie, dass die durch K(x) = g ∗ x ∗ g −1 gegebene Abbildung K : G → G ein Isomorphismus von Gruppen ist. ¨ Ubung 1.21. Sei U ⊂ G eine Untergruppe einer endlichen Gruppe G, so dass ord(G) = 2 ord(U ). Zeigen Sie, dass U ⊂ G ein Normalteiler ist. ¨ Ubung 1.22. Geben Sie s¨ amtliche Untergruppen der symmetrischen Gruppe S3 an, und bestimmen Sie diejenigen unter ihnen, die Normalteiler sind. ¨ Ubung 1.23. Zeigen Sie, dass die im Beispiel 1.3.37 angegebene Permutation σ tats¨achlich die im Satz 1.3.36 f¨ ur die Erkennung von Transpositionsfehlern angegebene Bedingung erf¨ ullt. ¨ ¨ Ubung 1.24. Uberpr¨ ufen Sie, ob GL0769947G2 eine g¨ ultige Nummer f¨ ur eine ehemalige DM-Banknote sein k¨ onnte. ¨ Ubung 1.25. Bestimmen Sie die fehlende letzte Ziffer der Nummer einer ehemaligen DM-Banknote DY3333333Z?. ¨ Ubung 1.26. Sei (G, ∗) eine Gruppe mit neutralem Element e ∈ G. Wir nehmen an, dass f¨ ur jedes a ∈ G die Gleichung a ∗ a = e gilt. Beweisen Sie, dass G eine abelsche Gruppe ist.
46
1 Zahlen
1.4 Ringe und K¨ orper In den Abschnitten 1.2 und 1.3 wurde die Methode der Abstraktion anhand des konkreten Beispiels der Restklassen ganzer Zahlen und des allgemeinen Begriffes der Gruppe illustriert. Ein Vergleich der Gruppenaxiome (Def. 1.3.1) mit der Liste der Eigenschaften ganzer Zahlen im Abschnitt 1.1 zeigt jedoch, dass der Gruppenbegriff nicht alle Aspekte des Rechnens mit ganzen Zahlen reflektiert. Wir ben¨ otigen eine mathematische Struktur mit zwei Rechenoperationen: einer Addition und einer Multiplikation. Das f¨ uhrt uns zu den Begriffen Ring und K¨orper. Diese Begriffe umfassen sowohl die uns vertrauten Zahlbereiche als auch Polynomringe. Letztere besitzen verbl¨ uffend große ¨ strukturelle Ahnlichkeit zum Ring der ganzen Zahlen. Als Anwendung werden wir im folgenden Abschnitt 1.5 erste Schritte in der Kryptographie unternehmen. Definition 1.4.1. Eine nichtleere Menge K, auf der zwei Verkn¨ upfungen + : K × K → K und · : K × K → K gegeben sind, heißt K¨orper , wenn (K, +) eine abelsche Gruppe mit neutralem Element 0 ∈ K ist, ∗
∗
(K , · ) eine abelsche Gruppe ist, wobei K := K r {0}, und das Distributivgesetz gilt: ∀ a, b, c ∈ K : a · (b + c) = a · b + a · c.
(1.21) (1.22) (1.23)
Beispiel 1.4.2. (i) R, Q sind K¨ orper, aber Z ist kein K¨orper. (ii) (Z/pZ, +, ·) ist ein K¨ orper, falls p eine Primzahl ist. Um ihn von der additiven Gruppe Z/pZ zu unterscheiden, wird er mit Fp bezeichnet. In jedem K¨orper K bezeichnet 1 ∈ K ∗ das neutrale Element der multiplikativen Gruppe (K ∗ , · ). Da 0 6∈ K ∗ , muss stets 0 6= 1 gelten. Mit den gleichen Beweisen wie zu Beginn von Abschnitt 1.1 erh¨alt man folgende Aussagen in einem beliebigen K¨ orper K: F¨ ur alle a ∈ K gilt 0 · a = 0.
Aus a · b = 0 folgt a = 0 oder b = 0. F¨ ur a, b ∈ K gilt a · (−b) = −(a · b) und (−a) · (−b) = a · b.
(1.24) (1.25) (1.26)
Wenn n keine Primzahl ist, dann ist Z/nZ kein K¨orper, denn die Eigenschaft (1.25) ist f¨ ur zusammengesetztes n verletzt. Zum Beispiel gilt [2] · [3] = [0] in Z/6Z. Echte Teiler von n haben kein multiplikatives Inverses modulo n und somit ist (Z/nZ) r {[0]} keine Gruppe bez¨ uglich der Multiplikation. Daher ist es notwendig, den etwas allgemeineren Begriff des Ringes einzuf¨ uhren. Definition 1.4.3. Eine Menge R, auf der zwei Verkn¨ upfungen + : R×R → R und · : R × R → R gegeben sind, heißt kommutativer Ring mit Eins, wenn folgende Bedingungen erf¨ ullt sind:
1.4 Ringe und K¨ orper
47
(R, +) ist eine abelsche Gruppe mit neutralem Element 0 ∈ R.
Die Multiplikation in R ist assoziativ, kommutativ und es gibt ein neutrales Element 1 ∈ R. Das Distributivgesetz gilt.
(1.27) (1.28) (1.29)
Wenn im Folgenden von einem Ring die Rede ist, dann meinen wir stets einen kommutativen Ring mit Eins. In anderen Lehrb¨ uchern wird bei dem Begriff des Ringes mitunter in (1.28) auf die Kommutativit¨at der Multiplikation oder auf die Existenz eines neutralen Elements 1 ∈ R verzichtet. Die Menge aller 2×2-Matrizen ac db mit ganzzahligen Eintr¨agen a, b, c, d ∈ Z bilden einen Ring bez¨ uglich der gew¨ ohnlichen Addition von Matrizen und der Matrizenmultiplikation (Def. 2.2.22) als Produkt. Die Einheitsmatrix ( 10 01 ) ist das Einselement dieses Ringes und die Matrix, deren Eintr¨age s¨amtlich gleich Null sind, ist das Nullelement dieses Ringes. Da 01 00 10 00 00 01 ◦ = 6= = ◦ , 00 10 00 01 10 00 ist dieser Ring nicht kommutativ. Er wird also in diesem Buch nicht weiter auftauchen. Der einzige Unterschied zwischen den Definitionen der Begriffe Ring und K¨ orper ist, dass f¨ ur einen Ring nicht gefordert wird, dass zu jedem r ∈ R mit r 6= 0 ein multiplikatives Inverses existiert. Allerdings ist deshalb in einem Ring nicht mehr automatisch 1 6= 0. Wenn jedoch in einem Ring 0 = 1 gilt, dann sind alle Elemente dieses Ringes gleich 0. Mit anderen Worten: Der einzige Ring, in dem 0 = 1 ist, ist der Nullring R = {0}. In jedem anderen Ring gilt 1 6= 0. In allen Ringen gelten weiterhin (1.24) und (1.26). Die Aussage (1.25) gilt in allgemeinen Ringen jedoch nicht. Beispiel 1.4.4. (i) Jeder K¨ orper, insbesondere R und Q, aber auch die Menge der ganzen Zahlen Z sind Ringe. (ii) F¨ ur jedes n ∈ Z ist Z/nZ ein Ring. (iii) Wenn R und R′ Ringe sind, dann ist das kartesische Produkt R × R′ mit den Verkn¨ upfungen (r, r′ ) + (s, s′ ) := (r + s, r′ + s′ ) (r, r′ ) · (s, s′ ) := (r · s, r′ · s′ ) ebenfalls ein Ring. Selbst wenn R und R′ K¨orper sind, ist R × R′ kein K¨orper. Das liegt daran, dass stets (1, 0) · (0, 1) = (0, 0) = 0 gilt. Beispiel 1.4.5 (Polynomringe). Sei R ein Ring. Dann definieren wir den Polynomring R[X] wie folgt. Die zugrunde liegende Menge enth¨alt alle Polynome in der Unbestimmten X mit Koeffizienten aus dem Ring R:
48
1 Zahlen
R[X] =
(
) n X ai X i n ≥ 0, ai ∈ R . i=0
Ein Polynom ist somit ein formaler Ausdruck, in dem die Unbestimmte“ X ” auftritt. Zwei solche Ausdr¨ ucke sind genau dann gleich, wenn ihre Koeffizienten ai u ¨bereinstimmen. Polynome sind nicht dasselbe wie Polynomfunktionen, die man durch das Einsetzen von Elementen x ∈ K f¨ ur X aus Polynomen erh¨alt, vgl. Aufgabe 1.35. Die Addition ist komponentenweise definiert: n X i=0
ai X i +
m X j=0
max(m,n)
bj X j :=
X
(ai + bi )X i
i=0
wobei wir ai = 0 f¨ ur i > n und bj = 0 f¨ ur j > m setzen. Die Multiplikation ist so definiert, dass aX i · bX j = (a · b)X i+j ist und das Distributivgesetz gilt. Ausf¨ uhrlicher bedeutet das: ! ! m n+m k n X X X X ai bk−i X k . bj X j = ai X i · i=0
j=0
k=0
i=0
Konkret erhalten wir f¨ ur X 2 +1, 2X−3 ∈ Z[X] folgende Summe und Produkt: (X 2 + 1) · (2X − 3) = 2X 3 − 3X 2 + 2X − 3, sowie
(X 2 + 1) + (2X − 3) = X 2 + 2X − 2 . Jedem Polynom ist sein Grad zuordnet. Wenn f=
n X
ai X i = a0 + a1 X + a2 X 2 + . . . + an−1 X n−1 + an X n
i=0
und an 6= 0, dann heißt deg(f ) := n der Grad des Polynoms f . Es ist zweckm¨aßig dem Nullpolynom den Grad −∞ zuzuordnen. Wenn deg(f ) = n, dann nennen wir an den Leitkoeffizienten von f und an X n den Leitterm des Polynoms f . Definition 1.4.6. (1) Sei R ein Ring und R′ ⊂ R eine Teilmenge, so dass R′ Untergruppe bez¨ uglich der Addition ist, 1 ∈ R′ und f¨ ur a, b ∈ R′ stets ′ ′ a · b ∈ R gilt. Dann heißt R Unterring von R. (2) Ein Unterring L ⊂ K eines K¨ orpers K heißt Teilk¨orper , wenn f¨ ur jedes 0 6= a ∈ L auch a−1 ∈ L ist. (3) Eine Abbildung f : R → R′ zwischen zwei Ringen R und R′ heißt Ringhomomorphismus, falls f (1) = 1 ist und f (a + b) = f (a) + f (b) und f (a · b) = f (a) · f (b) f¨ ur alle a, b ∈ R gilt. Wenn R und R′ K¨orper sind, dann spricht man auch von einem K¨orperhomomorphismus. Beispiel 1.4.7. (i) Z ⊂ Q ⊂ R sind Unterringe, Q ⊂ R ist Teilk¨orper.
1.4 Ringe und K¨ orper
49
(ii) R ⊂ R[X] ist Unterring. (iii) F¨ ur fixiertes a ∈ R ist die durch fa (h) := h(a) definierte Pn Abbildung i fa : R[X] → R ein Ringhomomorphismus. Wenn h = i=0 ai X , dann Pn i ist h(a) := i=0 ai a ∈ R. Wir nennen fa den Einsetzungshomomorphismus. (iv) f : Z → Z/nZ mit f (a) := [a] ist ein Ringhomomorphismus. (v) Z[X] ⊂ Q[X] ist ein Unterring. (vi) Die Abbildung Z[X] → (Z/nZ)[X], bei der jeder Koeffizient durch seine Restklasse ersetzt wird, ist ein Ringhomomorphismus. Allgemeiner ist f¨ ur jeden Ringhomomorphismus f : R → R′ ein Ringhomomorphismus R[X] → R′ [X] definiert, indem f auf die Koeffizienten angewendet wird. ¨ Der Polynomring K[X] u orper K weist viel Ahnlichkeit mit dem ¨ber einem K¨ in Abschnitt 1.1 studierten Ring der ganzen Zahlen auf. Die Ursache daf¨ ur besteht im Vorhandensein eines Euklidischen Algorithmus f¨ ur Polynome, der auf der folgenden Division mit Rest basiert. Satz 1.4.8 Zu gegebenen Polynomen f, g ∈ K[X] mit deg(f ) ≥ deg(g) gibt es ein h ∈ K[X], so dass deg(f − gh) < deg(g) gilt. Beweis. Der Beweis erfolgt per Induktion u ¨ ber k := deg(f )− deg(g) ≥ 0. Der Induktionsanfang (k = 0) und der Induktionsschritt (Schluss von k auf k + 1) ¨ ergeben sich aus der folgenden Uberlegung, bei der k ≥ 0 beliebig ist. Sei f = aX n+k + . . . und g = bX n + . . ., wobei nur die Terme h¨ochsten Grades (Leitterme) aufgeschrieben sind. Die Leitkoeffizienten sind a 6= 0 und b 6= 0. Es gilt also deg(f ) = n + k und deg(g) = n. Dann ist deg f − ab · X k · g < n + k = deg(f ), denn der Leitterm von f wird durch Subtraktion von ab X k g entfernt. ⊓ ⊔
Beispiel 1.4.9. (i) Sei f = X 3 + 1 und g = X − 1. Die Leitterme von f und g sind X 3 bzw. X. Daher m¨ ussen wir g mit X 2 multiplizieren. Wir erhalten f − X 2 g = X 3 + 1 − X 2 (X − 1) = X 2 + 1. Da dies vom Grad 2 > deg(g) ist, m¨ ussen wir fortfahren und nun Xg subtrahieren. Der Faktor X ergibt sich wieder als Quotient der Leitterme. Damit erhalten wir f −(X 2 +X)g = X 2 +1−X(X −1) = X +1. Dieses Ergebnis hat Grad 1 ≥ deg(g) und somit ist ein weiterer Schritt notwendig. Wir subtrahieren nun g und erhalten schließlich f − (X 2 + X + 1)g = X + 1 − (X − 1) = 2. (ii) Sei f = X 3 − 3X 2 + 2X und g = X 2 − 1. Die Leitterme sind hier X 3 und X 2 , daher subtrahieren wir zun¨ achst Xg von f und erhalten f − Xg = −3X 2 +3X. Nun ist 3g zu addieren und wir erhalten f −(X−3)g = 3X−3.
50
1 Zahlen
Der Euklidische Algorithmus in Polynomringen Als Eingabedaten seien zwei Polynome f, g ∈ K[X] mit deg(f ) ≥ deg(g) gegeben. Am Ende wird ggT(f, g) ausgegeben. Jeder Schritt des Algorithmus besteht aus einer Division mit Rest, gefolgt von einem Test, in dem entschieden wird, ob das Ende bereits erreicht wurde. Um die Division mit Rest stets ausf¨ uhren zu k¨ onnen, setzen wir voraus, dass K ein K¨orper ist. Initialisierung: A := f , B := g Division: Bestimme N ∈ K[X], so dass deg(A − N · B) < deg(B). C := A − N · B ist der Rest von A bei Division durch B. Test: Wenn C = 0, dann Ausgabe von ggT(a, b) := B und stopp. Wenn C 6= 0, dann Division mit Rest f¨ ur A := B, B := C.
Der Ausgabewert ist, bis auf die Normierung des Leitkoeffizienten, der gr¨oßte gemeinsame Teiler von f und g. Die Definition des Begriffes gr¨oßter gemeinsamer Teiler l¨asst sich fast w¨ ortlich aus Z auf Polynomringe u ¨ bertragen. Der wesentliche Unterschied besteht darin, dass wir die Normierung d > 0“ ” durch Leitkoeffizient ist gleich 1“ zu ersetzen haben. Wie bereits in Ab” schnitt 1.1 beginnen wir mit den Definitionen der Begriffe Teilbarkeit und gr¨oßter gemeinsamer Teiler.
Definition 1.4.10. Ein Element b eines Ringes R heißt Teiler des Elements a ∈ R, falls es ein c ∈ R gibt, so dass b · c = a gilt. Wir schreiben dann b | a. Definition 1.4.11. Seien f, g ∈ K[X] von Null verschiedene Polynome. Ein Polynom d ∈ K[X] heißt genau dann gr¨oßter gemeinsamer Teiler von f und g, wenn die folgenden drei Bedingungen erf¨ ullt sind: (i) (Normierung) Der Leitkoeffizient von d ist gleich 1. (ii) (gemeinsamer Teiler) d | f und d | g. (iii) (Maximalit¨ at) ∀ c ∈ K[X]: Wenn c | f und c | g, dann gilt c | d. Beispiel 1.4.12. (i) Wir bestimmen den gr¨ oßten gemeinsamen Teiler von f = X 4 − 1 und g = X 3 − 1 . Es sind zwei Divisionen mit Rest durchzuf¨ uhren: (X 4 − 1) − X · (X 3 − 1) = X − 1
(X 3 − 1) − (X 2 + X + 1)(X − 1) = 0 .
Das ergibt: ggT(X 4 − 1, X 3 − 1) = X − 1. (ii) F¨ ur f = X 3 − 3X 2 + 2X und g = X 2 − 1 erhalten wir f − (X − 3)g = 3X − 3 und 1 (X 2 − 1) − (X + 1)(3X − 3) = 0 . 3
1.4 Ringe und K¨ orper
51
Damit ist ggT(X 3 − 3X 2 + 2X, X 2 − 1) = X − 1, denn das Polynom 3X − 3 ist noch durch 3 zu teilen, um den Leitkoeffizienten zu normieren. Der Beweis, dass dieser Algorithmus stets nach endlich vielen Schritten endet und tats¨achlich den gr¨ oßten gemeinsamen Teiler berechnet, ist fast w¨ortlich derselbe wie f¨ ur den Euklidischen Algorithmus in Z. Daher wird er hier weggelassen. Alle Eigenschaften der ganzen Zahlen, die mit Hilfe des Euklidischen Algorithmus bewiesen wurden, lassen sich auch f¨ ur Polynomringe K[X] mit Koeffizienten in einem K¨ orper K beweisen. Die Beweise u ¨bertragen sich aus Abschnitt 1.1 fast w¨ ortlich. Satz 1.4.13 (1) F¨ ur f, g, h ∈ K[X] gilt genau dann h = ggT(f, g), wenn es Polynome r, s ∈ K[X] gibt, so dass h = rf + sg und wenn jedes andere Polynom dieser Gestalt durch h teilbar ist. (2) Wenn f, g, h ∈ K[X] Polynome sind, f¨ ur die ggT(f, h) = 1 und f | g · h gilt, dann folgt f | g. (3) Ein Polynom f heißt irreduzibel, wenn aus f = g · h stets g ∈ K oder h ∈ K folgt. Dies ist ¨aquivalent dazu, dass aus f | gh stets f | g oder f | h folgt. (4) Jedes Polynom 0 6= f ∈ K[X] hat eine, bis auf die Reihenfolge eindeutige, Darstellung f = u·p1 ·p2 ·. . .·pk , wobei u ∈ K ∗ und pi ∈ K[X] irreduzible Polynome mit Leitkoeffizient 1 sind. Da der Ring K[X] in seiner Struktur dem Ring Z so sehr ¨ahnlich ist, entsteht die Frage, ob es auch f¨ ur Polynomringe m¨ oglich ist, auf Restklassenmengen in ¨ahnlicher Weise wie auf Z/nZ eine Ringstruktur zu definieren. Das f¨ uhrt allgemeiner auf die Frage, f¨ ur welche Teilmengen I ⊂ R eines beliebigen Ringes R sich die beiden Rechenoperationen + und · auf R/I vererben. Daf¨ ur ist nicht ausreichend, dass Summen und Produkte von Elementen aus I stets in I sind. Eine Analyse des Wohldefiniertheitsproblems f¨ uhrt auf die folgende Definition. Definition 1.4.14. Sei R ein Ring und I ⊂ R eine nichtleere Teilmenge. Wir nennen I ein Ideal 13 , falls die folgenden beiden Bedingungen erf¨ ullt sind: F¨ ur alle a, b ∈ I gilt a + b ∈ I.
F¨ ur alle r ∈ R und a ∈ I gilt r · a ∈ I.
(1.30) (1.31)
Aus (1.30) und (1.31) folgt, dass I ⊂ R ist eine Untergruppe bez¨ uglich der Addition ist. 13 Der deutsche Mathematiker Richard Dedekind (1831–1916) f¨ uhrte den Begriff des Ideals ein, um f¨ ur bestimmte Erweiterungen des Ringes der ganzen Zahlen eine Verallgemeinerung der in der Formulierung von Satz 1.1.8 dort nicht mehr g¨ ultigen eindeutigen Primfaktorzerlegung zu erhalten.
52
1 Zahlen
Beispiel 1.4.15. (i) Die Ideale in Z sind genau die Teilmengen nZ ⊂ Z. Jede Untergruppe von (Z, +) ist nach Satz 1.3.18 von der Gestalt nZ. Da f¨ ur r ∈ Z und a = ns ∈ nZ stets r · a = nrs ∈ nZ gilt, sind die Mengen nZ tats¨ achlich Ideale. (ii) Wenn a1 , . . . , ak ∈ R beliebige Elemente sind, dann ist ( k ) X ri ai ri ∈ R ⊂ R ha1 , . . . , ak i := i=1
ein Ideal. F¨ ur k = 1 erhalten wir hai = a · R = {ra | r ∈ R}. Dies verallgemeinert die Ideale nZ ⊂ Z. Ideale der Gestalt hai heißen Hauptideale. (iii) Stets ist h1i = R ein Ideal. Es ist das einzige Ideal, das ein Unterring ist.
Satz 1.4.16 Sei R ein Ring, I ⊂ R ein Ideal. Dann wird auf der additiven Gruppe R/I durch [a] · [b] := [a · b] die Struktur eines Ringes definiert. Beweis. Um die Wohldefiniertheit der Multiplikation einzusehen, starten wir mit r, s ∈ I und betrachten a′ = a + r, b′ = b + s. Dann ist a′ · b′ = (a+ r)·(b + s) = ab + as+ rb + rs. Wegen (1.30) und (1.31) ist as+ br + rs ∈ I. Das heißt [a′ b′ ] = [ab], die Multiplikation auf R/I ist also wohldefiniert. Die Ringeigenschaften u ⊓ ⊔ ¨ bertragen sich nun leicht. Satz 1.4.17 Wenn K ein K¨orper ist, dann ist K[X] ein Hauptidealring. Das heißt, f¨ ur jedes Ideal I ⊂ K[X] gibt es ein f ∈ K[X], so dass I = hf i. Beweis. Der Beweis ist analog zum Beweis von Satz 1.3.18. Sei I ⊂ K[X] ein Ideal. Wenn I = {0}, dann k¨ onnen wir f = 0 w¨ahlen und sind fertig. Sei von nun an I 6= {0}. Da f¨ ur g 6= 0 der Grad deg(g) ≥ 0 stets eine nicht-negative ganze Zahl ist, gibt es mindestens ein Element f ∈ I von minimalem Grad. Das heißt, f¨ ur jedes 0 6= g ∈ I ist deg(f ) ≤ deg(g). Jedes 0 6= g ∈ I l¨asst sich als g = r + h · f mit r, h ∈ K[X] schreiben, so dass deg(r) < deg(f ) (Division mit Rest). Da I ein Ideal ist, muss r = g − hf ∈ I sein. Wegen der Minimalit¨at des Grades von f folgt r = g − hf = 0, d.h. g ∈ hf i und somit I = hf i. ⊓ ⊔ Definition 1.4.18. (1) Ein Element a ∈ R eines Ringes R heißt Nullteiler, wenn ein 0 6= b ∈ R mit a · b = 0 existiert. (2) Ein Element a ∈ R heißt Einheit, wenn ein b ∈ R mit a · b = 1 existiert. (3) Ein Ring R heißt nullteilerfrei, wenn 0 ∈ R der einzige Nullteiler ist. Bei der Benutzung dieser Begriffe ist Vorsicht geboten, denn f¨ ur jedes a ∈ R gilt a | 0, auch wenn a kein Nullteiler ist. Ein Ring R ist genau dann nullteilerfrei, wenn aus a · b = 0 stets a = 0 oder b = 0 folgt. Das heißt, dass
1.4 Ringe und K¨ orper
53
wir in nullteilerfreien Ringen wie gewohnt k¨ urzen k¨onnen: Falls c 6= 0, dann folgt aus a · c = b · c in nullteilerfreien Ringen a = b. In einem Ring, der echte Nullteiler hat, kann man so nicht schließen. Beispiel 1.4.19. (i) Die Einheiten eines Ringes sind genau die Elemente, die ein multiplikatives Inverses besitzen. Daher ist die Menge aller Einheiten R∗ := {a ∈ R | a ist Einheit in R} eine multiplikative Gruppe. Es gilt (Z/nZ)∗ = {[a] ∈ Z/nZ | ggT(a, n) = 1}. F¨ ur jeden K¨orper K ist K ∗ = K r {0}. Ein Ring R ist genau dann K¨orper, wenn R∗ = R r {0}. (ii) Wenn n ≥ 2, dann ist in Z/nZ jedes Element entweder Nullteiler oder Einheit (vgl. Aufg. 1.32), denn [a] ∈ Z/nZ ist Nullteiler
[a] ∈ Z/nZ ist Einheit
⇐⇒
⇐⇒
ggT(a, n) 6= 1 ,
ggT(a, n) = 1 .
(1.32) (1.33)
(iii) Der einzige Nullteiler in Z ist 0, also ist Z nullteilerfrei. Außerdem gilt Z∗ = {1, −1}. In dem Ring Z ist somit jedes von 0, 1 und −1 verschiedene Element weder Nullteiler, noch Einheit. (iv) F¨ ur beliebige Ringe R, S gilt (R × S)∗ = R∗ × S ∗ . Beispiel 1.4.20 (Komplexe Zahlen). Der K¨orper C der komplexen Zahlen spielt eine wichtige Rolle bei der L¨ osung nichtlinearer Gleichungen. Das liegt daran, dass der Prozess des L¨ osens von Polynomgleichungen in C – zumindest theoretisch – immer erfolgreich abgeschlossen werden kann, wogegen dies in den kleineren K¨orpern Q und R nicht immer m¨oglich ist. Als Prototyp einer solchen Polynomgleichung dient X 2 + 1 = 0. Obwohl die Koeffizienten dieser Gleichung aus Q sind, hat sie weder in Q noch in R eine L¨osung. Die beiden L¨ osungen dieser Gleichung sind erst in C zu finden. Die additive Gruppe von C ist die Menge R × R aller Paare reeller Zahlen. Die Addition ist komponentenweise definiert und die Multiplikation ist durch die folgende Formel gegeben (a, b) · (a′ , b′ ) := (aa′ − bb′ , ab′ + ba′ ) . Man sieht leicht ein, dass 0 = (0, 0) und 1 = (1, 0) gilt, womit man die in der Definition eines K¨ orpers geforderten Eigenschaften leicht nachrechnen kann. Der interessanteste Teil dieser recht erm¨ udenden Rechnungen ist die Angabe eines multiplikativen Inversen f¨ ur (a, b) 6= (0, 0): −b a . , (a, b)−1 = a2 + b 2 a2 + b 2 Zur Vereinfachung ist es u ¨blich i = (0, 1) zu schreiben. Statt (a, b) wird dann a + bi geschrieben. Dadurch l¨ asst sich die oben angegebene Definition der
54
1 Zahlen
Multiplikation durch die Gleichung i2 = −1 charakterisieren. Die vollst¨andige Formel ergibt sich damit aus dem Distributivgesetz. Der Betrag einer komple√ xen Zahl |a+bi| = a2 + b2 ist der Abstand des Punktes (a, b) vom Ursprung (0, 0) in der reellen Ebene. Durch die Abbildung x 7→ (x, 0) wird R ⊂ C Teilk¨orper. Dies wird durch die Schreibweise (x, 0) = x + 0 · i = x direkt ber¨ ucksichtigt. Hier ein Rechenbeispiel: (2 + 3i)(1 + i) 2 + 2i + 3i − 3 −1 + 5i 1 5 2 + 3i = = = =− + i. 1−i (1 − i)(1 + i) 1+1 2 2 2 Die graphische Darstellung14 der komplexen Zahlen in der reellen Ebene und die geometrische Interpretation der Addition und Multiplikation (Abb. 1.4) sind n¨ utzliche Hilfsmittel. Dadurch l¨ asst sich die algebraische Struktur, die wir dadurch auf den Punkten der reellen Ebene erhalten, zur L¨osung von Problemen der ebenen Geometrie anwenden. •z1 · z2
• z1 + z2 z2 •
z2 • z1 •
• z1 0
1
r2 z1
r2 = |z2 |
Abb. 1.4 Addition und Multiplikation komplexer Zahlen
Die wichtigste Eigenschaft des K¨ orpers C ist im folgenden Satz festgehalten, den wir hier ohne Beweis angeben. Satz 1.4.21 (Fundamentalsatz der Algebra) Jedes von Null verschiedene Polynom f ∈ C[X] l¨asst sich als Produkt linearer Polynome schreiben: 14 Die fr¨ uheste, heute bekannte Publikation der Idee, komplexe Zahlen durch Punkte einer Ebene zu repr¨ asentieren, erschien im Jahre 1799. Sie stammt von dem norwegisch-d¨ anischen Mathematiker Caspar Wessel (1745–1818), blieb aber damals weitgehend unbemerkt. Zum Allgemeingut wurde diese Idee durch ein kleines B¨ uchlein, welches im Jahre 1806 vom Schweizer Buchhalter und Amateurmathematiker Jean-Robert Argand (1768–1822) in Paris ver¨ offentlicht wurde. In der englischsprachigen Literatur spricht man daher von der Argand Plane, in der franz¨ osischen dagegen manchmal von der plan de Cauchy. Der deutsche Mathematiker Carl Friedrich Gauß (1777–1855) trug durch eine Publikation im Jahre 1831 zur Popularisierung dieser Idee bei. Daher spricht man in der deutschsprachigen Literatur von der Gaußschen Zahlenebene.
1.4 Ringe und K¨ orper
55
f = c · (X − a1 ) · (X − a2 ) · . . . · (X − an ) . Dabei ist c ∈ C∗ der Leitkoeffizient, n = deg(f ) der Grad und die ai ∈ C sind die Nullstellen von f . Eine komplexe Zahl a ∈ C ist genau dann Nullstelle von f , wenn f (a) = 0 gilt. Jedes Polynom f ∈ C[X] von positivem Grad hat mindestens eine Nullstelle in C. F¨ ur Teilk¨orper von C ist dies nicht der Fall. Bevor wir uns den versprochenen Anwendungen der bisher entwickelten Theorie zuwenden k¨onnen, m¨ ussen noch zwei sehr n¨ utzliche Werkzeuge behandelt werden. Es handelt sich um den Homomorphiesatz und um den Chinesischen Restsatz. Satz 1.4.22 (Homomorphiesatz f¨ ur Ringe) Sei ϕ : R → R′ ein Ringhomomorphismus. Dann ist ker(ϕ) ⊂ R ein Ideal, im(ϕ) ⊂ R′ ein Unterring und die durch ϕ [r] := ϕ(r) definierte Abbildung ϕ : R/ ker(ϕ) → im(ϕ)
ist ein Isomorphismus von Ringen. Beweis. Um zu sehen, dass ker(ϕ) ⊂ R ein Ideal ist, betrachten wir a, b ∈ ker(ϕ). Das heißt ϕ(a) = ϕ(b) = 0 und somit ϕ(a + b) = ϕ(a) + ϕ(b) = 0, also a + b ∈ ker(ϕ). Wenn a ∈ ker(ϕ) und r ∈ R, dann ist ϕ(ra) = ϕ(r) · ϕ(a) = 0 und es ergibt sich ra ∈ ker(ϕ). Daher ist ker(ϕ) ⊂ R ein Ideal. Nun zeigen wir, dass im(ϕ) ⊂ R′ ein Unterring ist. Nach Satz 1.3.30 ist im(ϕ) ⊂ R′ eine additive Untergruppe. Aus ϕ(1) = 1 folgt 1 ∈ im(ϕ). Da sich aus ϕ(a) ∈ im(ϕ) und ϕ(b) ∈ im(ϕ) auch ϕ(a) · ϕ(b) = ϕ(ab) ∈ im(ϕ) ergibt, folgt schließlich, dass im(ϕ) ein Unterring von R′ ist. Isomorphismus der Wir wissen aus Satz 1.3.32, dass ϕ ein wohldefinierter additiven Gruppen ist. Da ϕ [a] · [b] = ϕ [ab] = ϕ(ab) = ϕ(a) · ϕ(b) = ϕ [a] · ϕ [b] und ϕ [1] = ϕ(1) = 1, ist ϕ ein Ringisomorphismus. ⊓ ⊔ Satz 1.4.23 (Chinesischer15 Restsatz) Seien m1 , . . . , mk paarweise teilerfremde ganze Zahlen, sei m := m1 · . . . · mk deren Produkt und seien a1 , . . . , ak ganze Zahlen. Dann gibt es eine L¨osung x ∈ Z der simultanen Kongruenzen: x ≡ a1
mod m1 ,
x ≡ a2
mod m2 ,
und dieses x ist eindeutig bestimmt modulo m.
...
x ≡ ak
mod mk
56
1 Zahlen
Beweis. Die Beweisidee besteht darin, das Problem in einfachere Teilprobleme zu zerlegen, aus deren L¨ osung wir die gesuchte L¨osung x zusammensetzen k¨onnen. Wir bestimmen zun¨ achst ganze Zahlen x1 , . . . , xk , f¨ ur die ( 1 mod mi (1.34) xi ≡ 0 mod mj , falls j 6= i, P gilt. Aus solchen xi ergibt sich dann x = ki=1 xi ai mod m als L¨osung der gegebenen simultanen Kongruenzen. Da die Differenz zweier L¨osungen durch s¨amtliche mi teilbar ist und die mi paarweise teilerfremd sind, folgt die behauptete Eindeutigkeit. Da die mi paarweise teilerfremd sind, gilt f¨ ur eine ganze dann Q Zahl xi genau m teilbar xi ≡ 0 mod mj f¨ ur alle j 6= i, wenn xi durch pi := j6=i mj = m i ist. Weil pi und mi teilerfremd sind, liefert uns der Euklidische Algorithmus ganze Zahlen r und s, so dass rpi + smi = 1. Die Zahl xi := rpi = rm/mi ist dann eine L¨osung der simultanen Kongruenzen (1.34). ⊓ ⊔ Folgerung 1.4.24. Seien m1 , . . . , mk paarweise teilerfremde ganze Zahlen, d.h. ggT(mi , mj ) = 1 f¨ ur i 6= j, und sei m := m1 · . . . · mk . Dann gilt: (a) Durch die Zuordnung [a]m 7→ ([a]m1 , . . . , [a]mk ) ist ein Isomorphismus von Ringen definiert: ∼
Z/mZ −−→ Z/m1 Z × Z/m2 Z × . . . × Z/mk Z . (b) Der Isomorphismus aus (a) induziert einen Isomorphismus abelscher Gruppen ∼ (Z/mZ)∗ −−→ (Z/m1 Z)∗ × . . . × (Z/mk Z)∗ . Insbesondere gilt f¨ ur die Eulersche ϕ-Funktion: ϕ(m) = ϕ(m1 ) · . . . · ϕ(mk ). Beweis. Der Teil (a) ist lediglich eine andere Formulierung von 1.4.23. Statt des angegebenen konstruktiven Beweises kann man (a) aber auch per Induktion aus Satz 1.3.34 gewinnen. Dazu muss man noch bemerken, dass f¨ ur beliebige k ∈ Z stets [ab]k = [a]k · [b]k und [1]k = 1 im Ring Z/kZ gilt, und dass somit der Gruppenhomomorphismus in Satz 1.3.34 sogar ein Ringisomorphismus ist. Da nach Beispiel 1.4.19 (iv) f¨ ur beliebige Ringe Ri die Einheitengruppe von R = R1 × . . . × Rk gleich R∗ = R1∗ × . . . × Rk∗ ist, folgt (b) aus (a). ⊓ ⊔ 15 In einem chinesischen Mathematiklehrbuch, welches vermutlich etwa im dritten Jahrhundert u.Z. geschrieben wurde, wird nach einer Zahl x gefragt, welche die drei Kongruenzen x ≡ 2 mod 3, x ≡ 3 mod 5 und x ≡ 2 mod 7 erf¨ ullt. Die L¨ osung wurde dort mit der gleichen Methode ermittelt, die auch dem hier angegebenen Beweis zugrunde liegt. Es handelt sich dabei um die fr¨ uheste bekannte Quelle, in der ein solches Problem behandelt wurde, daher der Name des Satzes.
1.4 Ringe und K¨ orper
57
Es folgt ein Anwendungsbeispiel f¨ ur den Chinesischen Restsatz. Beispiel 1.4.25 (Die defekte Waschmaschine). Es war einmal ein Haus, in dem sieben Personen wohnten. Jede von ihnen besaß eine Waschmaschine. All diese Waschmaschinen befanden sich im Waschraum im Keller des Hauses. Eines Tages stellte sich heraus, dass eine der Maschinen defekt ist. Da sich die Mieter jedoch sehr gut verstanden und in unterschiedlichen Abst¨anden ihre W¨asche wuschen, einigten sie sich darauf, dass jeder eine jede der noch funktionierenden Waschmaschinen benutzen darf. Ein Problem war erst dann zu erwarten, wenn alle am selben Tag ihre W¨ asche waschen wollten. Die Mieter einigten sich an einem Sonntag auf dieses liberale Nutzungsverhalten. Dabei stellten sie u ur die kommende ¨berrascht fest, dass jeder von ihnen f¨ Woche einen anderen Tag als Waschtag eingeplant hatte. Von da an wollte jede dieser sieben Personen in regelm¨ aßigen Abst¨anden seine W¨asche waschen. Die H¨aufigkeit der Waschmaschinenbenutzung ist aus Tabelle 1.2 zu ersehen, Wochentag H¨ aufigkeit Person
Mo 2 P1
Di 3 P2
Mi 4 P3
Do 1 P4
Fr 6 P5
Sa So 5 7 P6 P7
Tabelle 1.2 H¨ aufigkeit der Waschmaschinenbenutzung
in der diese H¨aufigkeit dem Wochentag zugeordnet ist, an dem die betreffende Person in der ersten Woche ihre W¨ asche zu waschen beabsichtigte. So w¨ ascht zum Beispiel der Mieter der am Montag w¨ascht jeden zweiten Tag seine W¨asche, danach dann am Mittwoch, am Freitag, am Sonntag u.s.w. Wie lange hatten die Hausbewohner Zeit, die Waschmaschine reparieren zu lassen, ohne dass jemand seinen Rhythmus ¨andern musste? Zur Beantwortung dieser Frage gilt es herauszufinden, wann erstmalig alle Mieter am selben Tag waschen wollten. Dazu nummerieren wir die Tage fortlaufend, beginnend mit 1 am Montag nach der Zusammenkunft der Mieter. Die Mieter bezeichnen wir mit P1 , P2 , . . . , P7 , so dass Pi am Tag i w¨ascht. Die Waschh¨aufigkeit mi von Pi ist der Eintrag in der mittleren Zeile von Tabelle 1.2. Die Person Pi w¨ ascht somit genau dann am Tag mit der Nummer x, wenn x ≡ i mod mi gilt. Zur L¨ osung des Problems suchen wir daher die kleinste ganze Zahl x > 0, welche s¨ amtliche der folgenden Kongruenzen erf¨ ullt: x ≡ 1 mod 2
x ≡ 5 mod 6
x ≡ 2 mod 3
x ≡ 6 mod 5
x≡3
x≡7
mod 4 mod 7 .
x≡4
mod 1
Dies k¨onnen wir vereinfachen. Da f¨ ur jedes x ∈ Z die Kongruenz x ≡ 4 mod 1 erf¨ ullt ist, k¨ onnen wir sie streichen. Da Z/6Z ∼ = Z/2Z×Z/3Z nach dem Chinesische Restsatz, ist x ≡ 5 mod 6 ¨ aquivalent zu den zwei Kongruenzen x ≡ 1 mod 2 und x ≡ 5 mod 3. Da 5 ≡ 2 mod 3, treten beide Kongruenzen bereits auf, wir k¨onnen somit x ≡ 5 mod 6 ersatzlos streichen. Da schließlich
58
1 Zahlen
eine Zahl x, f¨ ur die x ≡ 3 mod 4 gilt, ungerade ist, k¨onnen wir die Kongruenz x ≡ 1 mod 2 ebenfalls streichen. Es verbleiben die folgenden Kongruenzen: x≡2
x≡1
mod 3 mod 5
x≡3
x≡0
mod 4 mod 7 .
(1.35)
Da 3 · 4 · 5 · 7 = 420, verspricht uns der Chinesische Restsatz eine L¨osung, die modulo 420 eindeutig bestimmt ist. Zu beachten ist hier, dass 3, 4, 5, 7 tats¨achlich paarweise teilerfremd sind. Das war bei den urspr¨ unglichen Werten 2, 3, 4, 1, 6, 5, 7 nicht der Fall, ist aber eine wichtige Voraussetzung f¨ ur die Anwendung des Chinesischen Restsatzes. Wenn wir die Methode des Beweises von Satz 1.4.23 auf die Kongruenzen (1.35) aus dem Waschmaschinenproblem anwenden, dann rechnen wir mit den Zahlen m1 = 3, m2 = 4, m3 = 5, m4 = 7 und a1 = 2, a2 = 3, a3 = 1, a4 = 0. Es ergibt sich m = m1 m2 m3 m4 = 420 und p1 = 140, p2 = 105, p3 = 84, p4 = 60. Der Euklidische Algorithmus liefert uns die folgenden Ausdr¨ ucke der Gestalt rpi + smi = 1: i=1: i=2: i=3: i=4:
2 · 140 − 93 · 3 = 1
1 · 105 − 26 · 4 = 1 4 · 84 − 67 · 5 = 1
2 · 60 − 17 · 7 = 1
=⇒
x1 = 280
=⇒ =⇒
x2 = 105 x3 = 336
=⇒
x4 = 120
Wenn man die Gleichung rpi + smi = 1 als Kongruenz rpi ≡ 1 mod mi schreibt und pi durch Reduktion modulo mi verkleinert, dann verringert sich der Rechenaufwand ein wenig. Die Ergebnisse xi ¨andern sich dadurch jedoch nicht. Als L¨osung der simultanen Kongruenzen (1.35) ergibt sich x=
4 X i=1
ai xi = 2 · 280 + 3 · 105 + 1 · 336 + 0 · 120 = 1211 .
Die allgemeine L¨ osung hat daher die Gestalt 1211 + n · 420 mit n ∈ Z und die kleinste positive L¨ osung ist 1211 − 2 · 420 = 371. Die Hausbewohner haben also 371 Tage – mehr als ein Jahr – Zeit, die Waschmaschine reparieren zu lassen, vorausgesetzt keine weitere Waschmaschine f¨allt aus und keiner der Mieter a¨ndert seinen Waschrhythmus. Eine genaue Betrachtung des oben beschriebenen Algorithmus zur L¨osung simultaner Kongruenzen zeigt, dass in jeder Teilaufgabe mit den relativ großen Zahlen pi gerechnet wird. Wenn eine hohe Anzahl von Kongruenzen vorliegt kann dies durchaus zu betr¨ achtlichem Rechenaufwand f¨ uhren. Durch eine schrittweise Berechnung der L¨ osung x kann man hier eine Verbesserung erreichen. Die Idee besteht darin, dass man induktiv aus der allgemeinen L¨osung
1.4 Ringe und K¨ orper
59
der ersten t Kongruenzen die allgemeine L¨ osung der ersten t+1 Kongruenzen bestimmt. Als Induktionsanfang k¨ onnen wir x = a1 w¨ ahlen. Sei xt eine L¨osung der ersten t Kongruenzen: xt ≡ ai mod mi f¨ ur 1 ≤ i ≤ t. Dann gilt f¨ ur jede L¨ osung xt+1 der ersten t + 1 Kongruenzen xt+1 = xt + y · m1 · . . . · mt
und
xt+1 ≡ at+1
mod mt+1 .
Um xt+1 zu bestimmen, m¨ ussen wir alle ganzen Zahlen y ermitteln, f¨ ur die xt + ym1 · . . . · mt ≡ at+1
mod mt+1
gilt. Die L¨osung ist y ≡ (at+1 − xt ) · (m1 · . . . · mt )−1
mod mt+1 .
Das Inverse (m1 · . . . · mt )−1 existiert in Z/mt+1 Z, da die mi paarweise teilerfremd sind. Mit diesem y erhalten wir dann xt+1 . Die L¨osung der simultanen Kongruenzen (1.35) ergibt sich mit diesem Algorithmus wie folgt: x1 = 2
y ≡ (a2 − x1 )m−1 1
y ≡ (3 − 2)3 x2 = x1 + 3y = 11
−1
y ≡ (a3 − x2 )(m1 m2 )−1 −1
mod m3
mod 5
y ≡ 0 mod 5
y ≡ (a4 − x3 )(m1 m2 m3 )−1
y ≡ (0 − 11)60 x4 = x3 + 60y = 371
mod 4
y ≡ 3 mod 4
y ≡ (1 − 11)12 x3 = x2 + 12y = 11
mod m2
−1
mod m4
mod 7
y ≡ 6 mod 7 =⇒ x = 371 .
Bemerkung 1.4.26. Beim Rechnen mit sehr großen ganzen Zahlen kommt der Chinesische Restsatz in der Informatik zur Anwendung. Nehmen wir an, ein polynomialer Ausdruck P (a1 , . . . , ar ) soll f¨ ur konkret gegebene, aber sehr große ai ∈ Z berechnet werden. Bei bekanntem Polynom P kann man zun¨achst leicht eine obere Schranke f¨ ur das Ergebnis berechnen. Sei m ∈ Z so, dass |P (a1 , . . . , ar )| < m/2 gilt. Dann gen¨ ugt es, die Rechnung in Z/mZ durchzuf¨ uhren. Wenn m sehr groß ist, mag das noch keine bemerkenswerte Verbesserung bringen. An dieser Stelle kann der Chinesischen Restsatz helfen. Dazu w¨ahlen wir relativ kleine paarweise teilerfremde Zahlen mi , deren Produkt m = m1 · m2 · . . . · mk sich als Schranke wie zuvor eignet. Bei der Berechnung von P (a1 , . . . , ar ) mod mi treten nun keine sehr großen Zahlen mehr auf. Mit Hilfe des obigen Algorithmus zur L¨osung simultaner Kongruen-
60
1 Zahlen
zen k¨onnen wir aus diesen Zwischenergebnissen dann P (a1 , . . . , ar ) mod m ermitteln. Da |P (a1 , . . . , ar )| < m be2 , ist P (a1 , . . . , ar ) gleich dem eindeutig m , . Auf diese stimmten Repr¨asentanten dieser Restklasse im Intervall − m 2 2 Weise ist es sogar m¨ oglich, dass die Berechnung der k verschiedenen Werte P (a1 , . . . , ar ) mod mi parallel durchgef¨ uhrt wird, wodurch ein weiterer Zeitgewinn erzielt werden kann. Diese Methode kommt zum Beispiel in der Kryptographie zum Einsatz, wo momentan mit Zahlen, die mehr als 200 Dezimalstellen besitzen, gerechnet wird. Zum Abschluss dieses Abschnittes wenden wir uns einem sowohl theoretisch als auch praktisch sehr n¨ utzlichen Resultat zu. Mit seiner Hilfe kann man Multiplikationen im K¨ orper Fp f¨ ur große Primzahlen p wesentlich schneller ausf¨ uhren. Bei der Implementierung mancher Programmpakete der Computeralgebra macht man sich dies tats¨ achlich zu Nutze. Satz 1.4.27 F∗p ist eine zyklische Gruppe. Beweis. Der Beweis besteht aus f¨ unf Schritten. Schritt 1: Sei G eine zyklische Gruppe, m = ord(G) und d > 0 ein Teiler von m. Dann ist die Anzahl der Elemente von Ordnung d in G gleich ϕ(d). Nach Satz 1.3.33 ist G isomorph zur additiven Gruppe Z/mZ. Es sind also die Elemente von Ordnung d in dieser Gruppe zu z¨ahlen. Aus Beispiel 1.3.22 (iii) (siehe auch Aufgabe 1.15) ist bekannt, dass ein Element [a] ∈ Z/mZ genau m dann die Ordnung d hat, wenn ggT(a, m) = . Dies ist genau dann der Fall, d m wenn wir a = b · mit einem zu d teilerfremden b ∈ Z schreiben k¨onnen. d Daher gibt es ebenso viele Restklassen [a] ∈ Z/mZ der Ordnung d wie es Elemente [b] ∈ (Z/dZ)∗ gibt. Die Behauptung folgt nun aus ord ((Z/dZ)∗ ) = ϕ(d). P ur jede ganze Zahl m ≥ 1 ist m = d|m ϕ(d), wobei sich die Schritt 2: F¨ Summation u ¨ber alle positiven Teiler von m erstreckt. Da nach Satz 1.3.23 ord([a]) Teiler von m = ord (Z/mZ) ist, folgt diese Gleichung aus Schritt 1, indem man die m Elemente von Z/mZ nach ihrer Ordnung gruppiert z¨ ahlt. Schritt 3: Ein Polynom f ∈ K[X] vom Grad n ≥ 1 hat h¨ochstens n Nullstellen im K¨orper K. Sei 0 6= f ∈ K[X] und a ∈ K. Wenn wir f durch X − a mit Rest dividieren (Satz 1.4.8), erhalten wir h ∈ K[X] und r ∈ K, so dass f − h · (X − a) = r. Wenn a eine Nullstelle von f ist, dann folgt r = 0 durch Einsetzen von a f¨ ur X, das heißt f = h · (X − a). Da K nullteilerfrei ist, ergibt sich daraus mittels vollst¨andiger Induktion: Wenn a1 , . . . , ak paarweise verschiedene Nullstellen von f ∈ K[X] sind, dann gibt es ein Polynom g ∈ K[X], so dass f = (X −a1 )·. . .·(X −ak )·g gilt. Da K ein K¨ orper ist, addieren sich die Grade von Polynomen bei der Multiplikation. Daher gilt n = deg(f ) = k + deg(g) ≥ k.
1.4 Ringe und K¨ orper
61
Das Polynom f kann also h¨ ochstens n = deg(f ) verschiedene Nullstellen in K besitzen. Schritt 4: Die Gruppe F∗p enth¨alt h¨ochstens ϕ(d) Elemente der Ordnung d. Sei Ud := {a ∈ F∗p | ad = 1} ⊂ F∗p und Gd := {a ∈ F∗p | ord(a) = d} ⊂ F∗p . Dann ist Ud ⊂ F∗p Untergruppe und Gd ⊂ Ud Teilmenge. Die Menge Ud enth¨alt genau die Nullstellen des Polynoms X d −1 in Fp und deshalb folgt aus Schritt 3 die Ungleichung ord(Ud ) ≤ d. Wenn Gd = ∅, dann ist die behauptete Aussage klar. Wenn es wenigstens ein Element g in Gd gibt, dann erzeugt dieses eine Untergruppe hgi ⊂ Ud der Ordnung d. Wegen ord(Ud ) ≤ d folgt daraus hgi = Ud , diese Gruppe ist also zyklisch. Die Menge Gd besteht genau aus den Elementen der Ordnung d der zyklischen Gruppe Ud , sie enth¨alt somit nach Schritt 1 genau ϕ(d) Elemente. Schritt 5: Die Gruppe F∗p ist zyklisch. Wir z¨ahlen nun die m := pP − 1 Elemente der Gruppe F∗p nach ihrer Ordnung gruppiert. Das ergibt m = d|m |Gd |. Aus Schritt 4 erhalten wir |Gd | ≤ ϕ(d), woraus wir unter Benutzung von Schritt 2 die Ungleichungskette X X ϕ(d) = m |Gd | ≤ m= d|m
d|m
erhalten. Das ist nur m¨ oglich, wenn jede der Ungleichungen |Gd | ≤ ϕ(d) eine Gleichung ist. Insbesondere muss |Gm | = ϕ(m) ≥ 1 sein, das heißt, in der ⊔ multiplikativen Gruppe F∗p gibt es ein Element der Ordnung m = p − 1. ⊓ Bemerkung 1.4.28. Der gleiche Beweis zeigt, dass f¨ ur jeden endlichen K¨ orper K die multiplikative Gruppe K ∗ zyklisch ist. Beispiel 1.4.29. F∗5 ist eine zyklische Gruppe der Ordnung 4. Da ϕ(4) = 2 ist, gibt es zwei Erzeuger. Dies sind [2] und [3], denn [2]1 = [2],
[2]2 = [4],
[2]3 = [3]
[3]1 = [3],
[3]2 = [4],
[3]3 = [2] .
Dagegen sind [1] und [4] keine Erzeuger. Es gilt ord([1]) = 1 und ord([4]) = 2. Folgerung 1.4.30. F¨ ur jede ganze Zahl e ≥ 1 und jede Primzahl p > 2 ist ∗ (Z/pe Z) eine zyklische Gruppe.
Beweis. Der Fall e = 1 wurde in Satz 1.4.27 behandelt. Sei nun e ≥ 2 und w ∈ Z eine ganze Zahl, so dass [w]p ein Erzeuger der zyklischen Gruppe ∗ (Z/pZ) ist. Wir werden zeigen, dass e−1
z := wp
· (1 + p) mod pe
62
1 Zahlen
ein Element der Ordnung (p − 1)pe−1 in (Z/pe Z)∗ ist. Daraus folgt die Be∗ hauptung, denn ord (Z/pe Z) = (p − 1)pe−1 . Nach Satz 1.3.23 (2) kommen j nur Zahlen der Gestalt k · p mit k | p − 1 und 0 ≤ j ≤ e − 1 als Ordnung von z in Frage. Nach dem kleinen Satz von Fermat (Satz 1.3.24) gilt wp ≡ w mod p, woraus j j+e−1 k z kp ≡ wp ≡ wk mod p folgt. Weil [w]p die Ordnung p hat, ist somit j j z kp 6≡ 1 mod p f¨ ur 0 < k < p − 1. Daher gilt auch z kp 6≡ 1 mod pe und es folgt ord(z) = (p − 1)pj f¨ ur ein 0 ≤ j ≤ e − 1. e−1 j Wegen Satz 1.3.23 (3) gilt wp (p−1) ≡ 1 mod pe , woraus wir z (p−1)p ≡ j (1 + p)(p−1)p mod pe erhalten. Die Behauptung der Folgerung folgt daher, wenn wir per Induktion u ¨ ber e ≥ 2 gezeigt haben, dass e−2
(1 + p)(p−1)p
6≡ 1
mod pe
(1.36)
gilt. Dabei werden wir benutzen, dass wegen Satz 1.3.23 (3) f¨ ur alle e ≥ 1 gilt: e−1 (1 + p)(p−1)p ≡ 1 mod pe . (1.37) F¨ ur den Induktionsanfang bei e = 2 verwenden wir die Binomische Formel (vgl. Aufgabe 1.5) und erhalten p−1 2 (1 + p)p−1 = 1 + (p − 1)p + p + . . . + pp−1 ≡ 1 − p 6≡ 1 mod p2 . 2 Die Voraussetzung f¨ ur den Induktionsschritt ist die G¨ ultigkeit von (1.36) f¨ ur (p−1)pe−1 e+1 ein festes e ≥ 2. Wir haben zu zeigen, dass (1 + p) 6≡ 1 mod p gilt. Nach (1.37) besagt die Voraussetzung gerade, dass es eine ganze Zahl c e−2 mit c 6≡ 0 mod p gibt, so dass (1 + p)(p−1)p = 1 + cpe−1 gilt. Die Binomische Formel ergibt hier e−1
(1 + p)(p−1)p
= 1 + cpe−1
p
=
p X p k k(e−1) c p k
k=0
p 2 2(e−1) = 1 + cpe + c p + . . . + cp pp(e−1) . 2
Da kp f¨ ur 1 ≤ k ≤ p − 1 durch p teilbar ist (vgl. Aufgabe 1.6), und f¨ ur e≥ 2 die Ungleichungen 1 + k(e − 1) ≥ e + 1 und p(e − 1) ≥ e + 1 gelten, ist p k k(e−1) f¨ ur 1 ≤ k ≤ p durch pe+1 teilbar. Daraus folgt k c p e−1
(1 + p)(p−1)p
≡ 1 + cpe 6≡ 1
mod pe+1 ,
da c 6≡ 0 mod p. Damit ist (1.36) f¨ ur alle e ≥ 2 bewiesen.
⊓ ⊔
1.4 Ringe und K¨ orper
63
Aufgaben ¨ Ubung 1.27. Bestimmen Sie den gr¨ oßten gemeinsamen Teiler der Polynome f = X 5 − X 3 − X 2 + 1 ∈ Q[X] und g = X 3 + 2X − 3 ∈ Q[X].
¨ Ubung 1.28. Dividieren Sie f = X 5 + X 3 + X 2 + 1 durch g = X + 2 mit Rest in F3 [X].
¨ Ubung 1.29. Beweisen Sie, dass die Menge I = {f ∈ Z[X] | f (1) = 0}, aller Polynome f ∈ Z[X], die 1 ∈ Z als Nullstelle haben, ein Ideal ist. Ist I ein Hauptideal? ¨ Ubung 1.30. Sei K ein K¨ orper und f ∈ K[X] ein irreduzibles Polynom (vgl. 1.4.13). Beweisen Sie, dass der Ring K[X]/hf i ein K¨orper ist.
¨ Ubung 1.31. Beweisen Sie, dass F2 [X]/hX 2 +X +1i ein K¨orper ist. Wie viel Elemente enth¨alt dieser K¨ orper? Beschreiben Sie die multiplikative Gruppe dieses K¨orpers. Ist sie zyklisch?
¨ Ubung 1.32. Beweisen Sie f¨ ur jede ganze Zahl n > 1, dass jedes Element des Ringes Z/nZ entweder eine Einheit oder ein Nullteiler ist. ¨ Ubung 1.33. Bestimmen sie die kleinste positive ganze Zahl x, welche das folgende System simultaner Kongruenzen erf¨ ullt: x≡2
mod 7,
x≡3
mod 8,
x≡4
mod 9.
Zusatz: Denken Sie sich eine m¨ oglichst realistische Textaufgabe (aus dem Alltagsleben oder aus Wissenschaft und Technik) aus, die auf ein System simultaner Kongruenzen f¨ uhrt. ¨ Ubung 1.34. Bestimmen Sie alle ganzen Zahlen x, welche das folgende System simultaner Kongruenzen erf¨ ullen: x ≡ 5 mod 7,
x ≡ 7 mod 11,
x ≡ 11 mod 13.
¨ Ubung 1.35. Finden Sie f¨ ur jede Primzahl p ein Polynom 0 6= f ∈ Fp [X], welches jedes Element des K¨ orpers Fp als Nullstelle hat. Finden Sie ein Polynom vom Grad 2 in F5 [X], welches in F5 keine Nullstelle besitzt. Versuchen Sie das auch f¨ ur alle anderen K¨orper Fp ! ¨ Ubung 1.36. Sei K ein K¨ orper und N+ := {n ∈ Z | n > 0}. Auf der Menge I(K) := {f | f : N+ → K ist eine Abbildung} definieren wir eine Addition und eine Multiplikation wie folgt: n X . f (d)g (f + g)(n) := f (n) + g(n) und (f · g)(n) := d d|n
Dabei erstreckt sich die Summe u ¨ ber alle positiven Teiler von n. Das Element e ∈ I(K) sei durch e(1) = 1 und e(n) = 0 f¨ ur n > 1 gegeben. Zeigen Sie:
64
1 Zahlen
(a) I(K) ist ein Ring mit dem Einselement e. (b) f ∈ I(K) ist genau dann eine Einheit, wenn f (1) ∈ K ∗ . (c) Sei u ∈ I(K) durch u(n) = 1 f¨ ur alle n ∈ N+ gegeben und ϕ wie u ¨ blich die Eulerfunktion. Berechnen Sie das Produkt u · ϕ in I(K). ¨ Ubung 1.37. Geben Sie alle Erzeuger der multiplikativen Gruppe F∗17 an und berechnen Sie die Ordnung jedes Elements dieser Gruppe. ¨ Ubung 1.38. Bestimmen Sie die Nullstellen a, b ∈ C des Polynoms 2X 2 − 2X + 5 und berechnen Sie die komplexen Zahlen a + b, a · b, a − b und
a . b
1.5 Kryptographie Kryptographie ist die Wissenschaft von der Verschl¨ usselung von Nachrichten. Dabei geht es darum, aus einem gegebenen Klartext ein sogenanntes Kryptogramm (Geheimtext) zu erzeugen, aus dem nur ein bestimmter Personenkreis – die rechtm¨aßigen Empf¨ anger – den gegebenen Klartext rekonstruieren kann. Statt verschl¨ usseln“ bzw. Rekonstruktion des Klartextes“ sagt man auch ” ” chiffrieren bzw. dechiffrieren. Wir konzentrieren uns in diesem Abschnitt auf die einfachsten mathematischen Grundlagen der Kryptographie. Nach einer kurzen Erw¨ahnung klassischer Chiffrierverfahren und einer knappen Erl¨auterung des Diffie-HellmanSchl¨ usselaustausches widmen wir uns haupts¨achlich der Beschreibung des RSA-Verfahrens. Dabei kommen Kenntnisse aus den vorigen Abschnitten zur Anwendung. ¨ Die Verschl¨ usselung von Informationen ist bei jeder Ubermittlung von vertraulichen Daten u offentlich zug¨ angliches Datennetzwerk notwen¨ ber ein ¨ dig. Wenn Sie zum Beispiel bei einer online-Buchhandlung ein Buch kaufen m¨ochten und dies mit Ihrer Kreditkarte bezahlen, dann muss gesichert sein, dass Unbefugte nicht an ihre Kreditkartendaten kommen. Außerdem gibt es seit Jahrtausenden im milit¨ arischen Bereich ein starkes Bed¨ urfnis nach ge¨ heimer Ubermittlung von Nachrichten. Durch den griechischen Historiker Plutarch (ca. 46–120 u.Z.) ist es u ¨ berliefert, ¨ dass bereits vor etwa 2500 Jahren die Regierung von Sparta zur Ubermittlung geheimer Nachrichten an ihre Gener¨ ale folgende Methode benutzte: Sender und Empf¨ anger besaßen identische zylinderf¨ormige Holzst¨abe, sogenannte Skytale. Zur Chiffrierung wurde ein schmales Band aus Pergament spiralf¨ormig um den Zylinder gewickelt. Dann wurde der Text parallel zur Achse des Stabes auf das Pergament geschrieben. Der Text auf dem abgewickelten Band schien dann v¨ ollig sinnlos. Nach dem Aufwickeln auf seine Skytale konnte der Empf¨ anger den Text jedoch ohne große M¨ uhe lesen. Hierbei
1.5 Kryptographie
65
handelt es sich um eine Permutationschiffre: Die Buchstaben des Klartextes werden nach einer bestimmten Regel permutiert. Eine weitere, seit langem bekannte Methode der Chiffrierung ist die Verschiebechiffre. Dabei werden die Buchstaben des Klartextes nach bestimmten Regeln durch andere Buchstaben ersetzt. Die ¨ alteste bekannte Verschiebechiffre wurde von dem r¨ omischen Feldherrn und Diktator Julius C¨asar (100–44 v.u.Z.) benutzt. Es existieren vertrauliche Briefe von C¨asar an Cicero, in denen diese Geheimschrift benutzt wird. Die Methode ist denkbar einfach. Jeder Buchstabe wird durch den Buchstaben des Alphabets ersetzt, der drei Stellen weiter links im Alphabet steht. Zur praktischen Realisierung schreibt man das Alphabet jeweils gleichm¨aßig auf zwei kreisf¨ormige Pappscheiben unterschiedlichen Radius (Abb. 1.5). Die Scheiben werden an ihren Mittelpunkten drehbar miteinander verbunden. F¨ ur C¨asars Chiffre muss man einfach das A“ der einen Scheibe mit dem D“ ” ” ¨ der anderen in Ubereinstimmung bringen. Dadurch erh¨alt man eine Tabel-
I
J
F
•
K L M N H I J K O L
G
M
X Y Z A W B U VWX V T Y S
E F G H A B C D E Z D
P
C
Q R S T U P Q N O R
Abb. 1.5 C¨ asars Chiffre
le, mit der man chiffrieren und dechiffrieren kann. Mit dem heutigen Wissen bietet eine solche Chiffrierung keinerlei Sicherheit mehr. Weitere Verfahren dieser Art findet man zum Beispiel im Buch von A. Beutelspacher [Beu]. Ein sehr sch¨ones Beispiel einer Kryptoanalyse eines chiffrierten Textes, bei der die Buchstaben des Alphabets durch andere Zeichen ersetzt wurden, kann man in der Kurzgeschichte Der Goldk¨ afer“ des amerikanischen Autors E.A. Poe ” (1809–1849) nachlesen. Die Sicherheit der bisher beschriebenen Verfahren ist nach heutigen Maßst¨ aben sehr gering. Ein bekanntes Verfahren, welches perfekte Sicherheit bietet, geht auf Vigen`ere16 zur¨ uck. Anstelle einer festen Regel benutzt es f¨ ur die Ersetzung der Klartextbuchstaben eine zuf¨allige und beliebig lange Buchstabenfolge, einen sogenannten Buchstabenwurm. Die Sicherheit dieses Verfahrens h¨angt davon ab, dass Sender und Empf¨anger irgendwann 16
Blaise de Vigen` ere (1523–1596), franz¨ osischer Diplomat.
66
1 Zahlen
u ussel und damit die Details f¨ ur den Al¨ ber einen sicheren Kanal den Schl¨ gorithmus, ausgetauscht haben. Dies kann beispielsweise durch pers¨onliche ¨ Ubergabe erfolgen. F¨ ur die Anwendung in Computernetzwerken ist dies jedoch nur unter besonderen Umst¨ anden praktikabel. F¨ ur den Alltagsgebrauch, wie zum Beispiel beim online-Buchkauf, ben¨ otigt man andere Methoden f¨ ur den Schl¨ usselaustausch. Moderne Methoden beruhen auf einer bahnbrechenden Idee, die erstmals 1976 von Diffie und Hellman [DH] ver¨ offentlicht wurde. Sie besteht darin, sogenannte Einwegfunktionen zu benutzen. Das sind Funktionen, die leicht berechenbar sind, deren inverse Abbildung aber nur f¨ ur den Besitzer von Zusatzinformationen leicht zu berechnen ist. Ohne Zusatzinformation ist die Berechnung des Inversen so aufw¨ andig und langwierig, dass praktisch Sicherheit gegeben ist, zumindest f¨ ur eine begrenzte Zeit. Beispiele solcher Einwegfunktionen sind das Produkt zweier Primzahlen und ∗ die diskrete Exponentialabbildung Z/ϕ(n)Z → (Z/nZ) , die bei vorgegebener Basis s durch x 7→ sx definiert ist. F¨ ur sehr große ganze Zahlen ist die Berechnung der Inversen – die Faktorisierung in Primzahlen bzw. der diskrete Logarithmus – sehr zeitaufw¨ andig. Der Schl¨ usselaustausch nach Diffie-Hellman geschieht wie folgt: Die Personen A und B wollen einen Schl¨ ussel in Form eines Elements von Z/pZ vereinbaren, ohne dass ein Dritter dies in Erfahrung bringen kann. Dazu wird eine große Primzahl p und eine ganze Zahl 0 < s < p ¨offentlich ausgetauscht. Nun w¨ahlt A eine ganze Zahl a ∈ Z und B eine ganze Zahl b ∈ Z, so dass 0 < a, b < p − 1. Diese Information wird von beiden geheim gehalten. Dann berechnet A den Wert sa mod p in Z/pZ und u ¨ bermittelt ihn B. Ebenso sendet B den Wert sb mod p an A. Schließlich berechnen beide den gleichen Wert (sb )a ≡ sa·b ≡ (sa )b mod p. Auf diese Weise ist beiden Personen (und keinem Dritten) der gemeinsame Schl¨ ussel sa·b mod p in Z/pZ bekannt. Zur praktischen Anwendung w¨ urde die Online-Buchhandlung eine Primzahl p, eine ganze Zahl 0 < s < p und sb mod p ver¨offentlichen. Es ist g¨ unstig, wenn s ein Erzeuger der multiplikativen Gruppe F∗p ist. Die Zahl b bleibt geheim und ist nur dem Buchh¨ andler bekannt. F¨ ur die Sicherheit der Daten ist die Einweg-Eigenschaft des diskreten Logarithmus entscheidend. Der Kunde w¨ahlt nun zuf¨ allig eine Zahl a und berechnet (sb )a mod p in Z/pZ, das ist der Schl¨ ussel f¨ ur seine Transaktion. Diesen benutzt er, um mit Hilfe eines vom Buchh¨ andler bekanntgegebenen Verfahrens seine Daten zu chiffrieren. In der von Taher ElGamal im Jahre 1985 ver¨offentlichten Arbeit [EG] wurde als Chiffrierverfahren einfach die Multiplikation mit dem Schl¨ ussel in Z/pZ vorgeschlagen, dies wird heute als ElGamal-Verfahren bezeichnet. Die Chiffrierung kann jedoch auch auf jede andere, vorher vereinbarte Art erfolgen. Zus¨ atzlich zum chiffrierten Text u ¨ bermittelt er auch sa a b mod p, woraus der Buchh¨ andler den Schl¨ ussel (s ) mod p berechnen kann. Die Vorgehensweise beim RSA-Verfahren ist eine v¨ollig andere. Es beruht darauf, dass die Produktabbildung {Primzahl} × {Primzahl} → Z eine Einwegfunktion ist. Es ist nach seinen Entdeckern R. Rivest, A. Shamir, L. Adle-
1.5 Kryptographie
67
man [RSA] benannt. Das Grundprinzip ist das Folgende: Zu einer nat¨ urlichen Zahl n wird ein ¨offentlicher Schl¨ ussel e ∈ Z mit ggT(e, ϕ(n)) = 1 gew¨ahlt. Durch das L¨osen der Gleichung [e] · [d] = 1 in Z/ϕ(n)Z wird der geheime Schl¨ ussel d ∈ Z bestimmt. Jeder, der das Paar (n, e) kennt, kann eine Nachricht chiffrieren. Dies geschieht, indem eine Kongruenzklasse m ∈ Z/nZ zu me ∈ Z/nZ verschl¨ usselt wird. Um dies zu dechiffrieren benutzt man den Satz 1.3.24. Er liefert (me )d = me·d = m in Z/nZ. Dazu ist die Kenntnis der Zahl d n¨otig. Daher muss man d geheim halten, wogegen die Zahlen n und e ¨offentlich bekanntgegeben werden. Die Sicherheit dieses Verfahrens beruht darauf, dass die Berechnung von d bei Kenntnis von n und e ohne weitere Zusatzinformationen ein sehr aufw¨andiges Problem ist. Die Methoden von Abschnitt 1.2 erlauben uns, den geheimen Schl¨ ussel d mit Hilfe des Euklidischen Algorithmus zu berechnen. Dazu muss allerdings auch die Zahl ϕ(n) bekannt sein. Wenn die Faktorisierung von n in ein Produkt von Primzahlen bekannt ist, dann ist die Berechnung von ϕ(n) mit Hilfe von Satz 1.3.34 oder Folgerung 1.4.24 sehr leicht. F¨ ur große n (das heißt momentan mit 200 bis 400 Dezimalstellen) ist das Auffinden der Zerlegung in Primfaktoren ein sehr aufw¨ andiges Problem. Zur praktischen Durchf¨ uhrung beschafft man sich zun¨achst zwei verschiedene, relativ große Primzahlen p und q. Dann berechnet man n = pq und ϕ(n) = (p − 1)(q − 1). Letzteres ist die Geheiminformation, die man nicht preisgeben darf und die nach der Berechnung von d nicht mehr ben¨otigt wird. Vor einigen Jahren galten dabei 100-stellige Primzahlen als hinreichend sicher. Man muss allerdings mit der Entwicklung von Technik und Algorithmen st¨ andig Schritt halten. Heute ist es kein Problem, eine 430-Bit Zahl innerhalb einiger Monate mit einem einzigen PC zu faktorisieren. Durch die Entwicklung der Hardware und durch die Entdeckung besserer Algorithmen zur Faktorisierung großer Zahlen wird die Gr¨ oße der Zahlen, die in ertr¨aglicher Zeit faktorisierbar sind, in naher Zukunft wachsen. Wer Verantwortung f¨ ur Datensicherheit u ¨ bernimmt, sollte sich daher regelm¨aßig u ¨ber den aktuellen Stand der Entwicklung informieren. Die Firma RSA-Security hatte im Jahre 1991 eine Liste von Zahlen ver¨offentlicht, f¨ ur deren Faktorisierung Preisgelder in unterschiedlicher H¨ohe ausgesetzt wurden ( Factoring Challenge“). Im Jahre 2001 wurde diese Liste wegen ” der rasanten Erfolge durch eine neue ersetzt. Die gr¨oßte Zahl auf dieser Liste heißt RSA-2048. Sie hat 2048 Ziffern in Bin¨ ardarstellung und 617 Dezimalziffern. Es war ein Preisgeld in H¨ ohe von 200 000 US$ auf ihre Faktorisierung ausgesetzt. S¨amtliche Zahlen dieser Liste sind Produkt zweier Primzahlen. Die Faktorisierung der 129-stelligen Zahl RSA-129 im April 1994 hatte damals das o¨ffentliche Interesse auf diese sogenannten RSA-Zahlen gelenkt. Diese Zahl wurde im Jahre 1977 von R. Rivest, A. Shamir, und L. Adleman zur Verschl¨ usselung einer der ersten Nachrichten mit dem RSA-Verfahren benutzt. Zur Zeit der Ver¨ offentlichung der verschl¨ usselten Nachricht glaubte man, dass es Millionen von Jahren dauern wird, bis diese Nachricht ent-
68
1 Zahlen
schl¨ usselt sein wird. Die 1994 gefundene Entschl¨ usselung lautete: The magic ” words are squeamish ossifrage“ [Fr]. Die Faktorisierung dieser 129-stelligen Zahl gelang unter anderem durch Parallelisierung der Rechnung, einer Idee, der wir bereits in Bemerkung 1.4.26 begegnet sind. Anfang Dezember 2003 wurde bekanntgegeben, dass eine weitere Zahl aus der erw¨ahnten Liste faktorisiert wurde. Es handelte sich dabei um RSA-576, deren Faktorisierung mit 10 000 US$ dotiert war. Die Bin¨ardarstellung dieser Zahl besitzt 576 Ziffern. In Dezimaldarstellung handelt es sich um die 174ziffrige Zahl 1881988129206079638386972394616504398071635633794173827007 6335642298885971523466548531906060650474304531738801130339 6716199692321205734031879550656996221305168759307650257059 Die Faktorisierung wurde von einem von Prof. Jens Franke (Mathematisches Institut der Universit¨ at Bonn) geleiteten Team durchgef¨ uhrt. Diese Zahl konnte unter Benutzung eines Algorithmus aus der algebraischen Zahlentheorie, den man das Zahlk¨ orpersieb nennt, in zwei Primzahlen mit je 87 Ziffern zerlegt werden. Dadurch wurde deutlich, dass nunmehr keine Hochleistungsrechner mehr n¨ otig sind, um solch eine Aufgabe zu l¨osen: Die wesentlichen Rechnungen wurden auf gew¨ ohnlichen PC’s, die in besonderer Weise vernetzt waren, durchgef¨ uhrt und dauerten etwa 3 Monate. Die Bonner Gruppe um J. Franke hat dann im Mai 2005 die Zahl RSA-200 (200 Ziffern im Dezimalsystem, siehe Abb. 1.6) und im November 2005 auch die 193-ziffrige Zahl RSA-640 faktorisiert. Auf die letztere war ein Preisgeld von 20 000 US$ ausgesetzt. Obwohl damit noch nicht das Ende der Liste der Firma RSA-Security erreicht war, wurde der Wettbewerb um die Faktorisierung dieser Zahlen im Fr¨ uhjahr 2007 f¨ ur beendet erkl¨art.
27997833911221327870829467638722601621070446786955 42853756000992932612840010760934567105295536085606 18223519109513657886371059544820065767750985805576 13579098734950144178863178946295187237869221823983 = 35324619344027701212726049781984643686711974001976 25023649303468776121253679423200058547956528088349 ×
79258699544783330333470858414800596877379758573642 19960734330341455767872818152135381409304740185467 Abb. 1.6 Faktorisierung von RSA-200
1.5 Kryptographie
69
Die Electronic Frontier Foundation17 hat einen Preis von 100 000 US$ f¨ ur diejenigen ausgesetzt, die eine Primzahl mit mehr als 10 000 000 Ziffern finden. Solche Zahlen wurden im Sommer 2008 gefunden. Wer eine Primzahl mit mindestens 108 Ziffern findet, auf den warten nun 150 000 US$. Die gr¨oßte bisher gefundene Primzahl hat 12 978 189 Ziffern. Das ist die Zahl 243112609 − 1. Es handelt sich dabei um eine sogenannte Mersenne-Primzahl18, d.h. eine Primzahl der Form Mn := 2n − 1. Es ist leicht zu sehen, dass 2n − 1 nur Primzahl sein kann, wenn n selbst eine Primzahl ist. Mersenne behauptete, dass f¨ ur n = 2, 3, 5, 7, 13, 17, 19, 31, 67, 127, 257 die Zahl Mn eine Primzahl ist. F¨ ur M67 und M257 erwies sich das sp¨ ater als falsch. So fand F. Cole19 die Faktoren von M67 . Bis heute sind 46 Mersenne-Primzahlen bekannt. Es ist auch nicht klar, ob es unendlich viele gibt. Die Mersenne-Zahlen kann man veralln −1 gemeinern und Zahlen vom Typ bb−1 betrachten. Diese Zahlen zeichnen sich dadurch aus, dass sie in der b-adischen Darstellung (vgl. Kapitel 3.4) genau n Einsen haben. Insbesondere hat 2n − 1 im Dualsystem genau n Einsen. Wenn n b = 10 ist, erh¨alt man eine sogenannte Repunit 20 Rn := 10 9−1 . Die Zahl R1031 wurde im Jahre 1986 von H. Williams und H. Dubner als Primzahl identifiziert. Sie besteht aus 1031 Ziffern, die alle gleich 1 sind, siehe [WD]. Mancher Leser mag sich fragen, wie man die bisher besprochene Verschl¨ usselung von Elementen aus Z/nZ auf die Verschl¨ usselung realer Texte anwenden kann. Eine m¨ ogliche Antwort ist die Folgende. Der aus Schriftzeichen bestehende Klartext wird zun¨achst in eine Zahl umgewandelt. Dazu kann man den ASCII-Code benutzen. ASCII ist eine Abk¨ urzung f¨ ur American Standard Code for Information Interchange. Dieser Code, der zu Beginn der 1960-er Jahre entwickelt wurde, ordnet jedem Buchstaben des englischen Alphabets und einigen Sonderzeichen eine 7-Bit Zahl zu. In der heutigen Zeit stehen normalerweise 8 Bits zur Speicherung und Verarbeitung von 7-Bit ASCII-Zeichen zur Verf¨ ugung. Das zus¨atzliche Bit k¨onnte als Parit¨ atsbit zur Fehlererkennung genutzt werden (vgl. Beispiel 2.5.6), es wird jedoch heute meist mit Null belegt. Auf den ASCII-Code bauen viele andere Codierungen auf, die zur Digitalisierung anderer Zeichen in nicht-englischen Sprachr¨aumen entwickelt wurden. Das gilt auch f¨ ur den in den 1990-er Jahren entwickelten Unicode-Standard, der die Codierungsvielfalt abgel¨ ost hat. Der Unicode-Standard erlaubt die Codierung tausender Symbole und Schriftzeichen aus verschiedensten Kulturen der Welt. Die 26 Großbuchstaben entsprechen im ASCII-Code den in Tabelle 1.3 angegebenen Dezimal- bzw. Hexadezimalzahlen. Durch Addition von 32 (bzw. 20 hexadezimal) ergibt sich der Wert des entsprechenden Kleinbuchstabens. 17
www.eff.org
18
Marin Mersenne (1588–1648), franz¨ osischer Mathematiker und Theologe. Frank Nelson Cole (1861–1926), US-amerikanischer Mathematiker.
19 20
aus dem Englischen von repeated unit.
70
1 Zahlen Buchstabe A B C D E F G H I J K L M ASCII (dezimal) 65 66 67 68 69 70 71 72 73 74 75 76 77 41 42 43 44 45 46 47 48 49 4A 4B 4C 4D ASCII (hex) Buchstabe N O P Q R S T U V W X Y Z ASCII (dezimal) 78 79 80 81 82 83 84 85 86 87 88 89 90 ASCII (hex) 4E 4F 50 51 52 53 54 55 56 57 58 59 5A
Tabelle 1.3 ASCII-Code f¨ ur Großbuchstaben
Da beim RSA-Verfahren in Z/nZ gerechnet wird, muss der Text in entsprechende Abschnitte zerlegt werden, so dass die durch die ASCII-Codierung entstehende Zahl kleiner als n ist. Um mittelfristige Datensicherheit zu gew¨ ahrleisten, wird heute empfohlen, dass bei praktischer Anwendung des RSA-Verfahrens, die Zahl n mindestens eine 2048-Bit Zahl ist. Diese haben bis zu 617 Ziffern in Dezimaldarstellung. Der zu verschl¨ usselnde Text ist dann in Bl¨ ocke zu je 256 Zeichen zu zerlegen, da 8 · 256 = 2048. Jeder so gewonnene Textblock wird mit Hilfe des ASCIICodes in eine Zahl 0 < m < n u usselung zur e-ten ¨bersetzt, die zur Verschl¨ Potenz erhoben wird: me mod n. Der Empf¨anger der Nachricht, der als Einziger den geheimen Schl¨ ussel d kennt, dechiffriert diese Nachricht, indem er zun¨achst jede der empfangenen Zahlen in die d-te Potenz modulo n erhebt. Als Bin¨arzahl geschrieben sind die 8-er Bl¨ocke der so erhaltenen Zahlen dann der ASCII-Code der Zeichen der urspr¨ unglichen Textbl¨ ocke. Beispiel 1.5.1. Sei p = 1373 und q = 2281, dann ist n = pq = 3131813 und ϕ(n) = 3128160. Da 221 = 2097152 < n k¨ onnen wir drei 7-Bit ASCII Symbole am St¨ uck verarbeiten. Zur Chiffrierung der drei Zeichen R S A k¨onnen wir deren Hexadezimalwerte 52 53 41 aus Tabelle 1.3 als Folge von 7-Bit Zahlen schreiben: 1010010 1010011 1000001. F¨ ur die Rechnung per Hand ist es jedoch einfacher mit den Dezimalwerten 82 83 65 zu rechnen. Die obige 21-Bit Zahl hat den Wert 82 ·214 + 83 ·27 + 65 = 1354177. Wird der ¨offentliche Schl¨ ussel e = 491 benutzt, dann ist 1354177491 mod 3131813 zu berechnen. Dies ist kongruent 992993 modulo 3131813. Da 992993 = 60 ·214 + 77 ·27 + 97, besteht der verschl¨ usselte Text aus den Zeichen der ASCII-Tabelle mit den Nummern 60 77 97, das sind: < M a. Wir hatten Gl¨ uck, dass die Chiffrierung auf druckbare Zeichen gef¨ uhrt hat. Die Zeichen mit den Nummern 0– 31 und 127 in der ASCII-Tabelle sind nicht-druckbare Sonderzeichen, daher wird man auf dem hier begangenen Weg nicht immer zu einem druckbaren verschl¨ usselten Text gelangen. Das ist kein Mangel, denn allein aus den Zahlenwerten l¨asst sich der Originaltext mit Hilfe des geheimen Schl¨ ussels rekonstruieren. Eine Betrachtung des Textes in verschl¨ usselter Form ist in der Regel wenig informativ. Da wir die Zerlegung von n in Primfaktoren und daher auch ϕ(n) kennen, k¨onnen wir Hilfe des Euklidischen Algorithmus den geheimen Schl¨ ussel d =
1.5 Kryptographie
71
¨ 6371 bestimmen. Es ist eine n¨ utzliche Ubung, die Dechiffrierung von < M a mit dieser Zahl d konkret durchzuf¨ uhren. Mit Hilfe des RSA-Verfahrens kann man auch eine sogenannte digitale Unterschrift erzeugen. Zu diesem Zweck muss der Absender A der Nachricht einen offentlichen Schl¨ ussel bekanntgegeben haben. Wenn (nA , eA ) der ¨offentliche ¨ Schl¨ ussel und dA der geheime Schl¨ ussel von A sind, dann wird eine unverschl¨ usselte Nachricht m durch Anh¨ angen von mdA mod nA unterschrieeA mod nA feststellen, ben. Jeder kann jetzt durch Berechnung von mdA ob der angeh¨angte chiffrierte Teil tats¨ achlich mit dem gesendeten Klartext u at wird nicht die gesamte Nachricht, sondern nur ¨ bereinstimmt. In der Realit¨ der Wert einer Hashfunktion chiffriert (vgl. Seite 312). Wenn auch der Empf¨ anger E einen ¨ offentlichen Schl¨ ussel (nE , eE ) bekanntgegeben hat, dann kann A ihm eine elektronisch unterschriebene und chiffrierte Nachricht senden. Dies geschieht, indem zuerst der Klartext wie beschrieben signiert und anschließend mit dem ¨ offentlichen Schl¨ ussel von E chiffriert wird. Der Empf¨anger geht nun umgekehrt vor. Zuerst dechiffriert er die Nachricht mit Hilfe seines geheimen Schl¨ ussels dE , dann pr¨ uft er die Unterschrift durch Anwendung des ¨offentlichen Schl¨ ussels von A. In der modernen Kryptographie werden heute algebraische Strukturen verwendet, die weit u uhrenden Kapitels hinausgehen. ¨ ber den Rahmen dieses einf¨ Zum Beispiel basiert die Verwendung von elliptischen Kurven auf Methoden der algebraischen Geometrie. Wer interessiert ist, findet in [Bau], [Beu], [Ko1], [Ko2], [BSW] und [We] Material unterschiedlichen Schwierigkeitsgrades f¨ ur das weitere Studium. Zum Abschluss dieses Abschnittes m¨ ochten wir nochmals die Warnung aussprechen, dass wir uns hier auf die Darlegung der mathematischen Grundideen der modernen Kryptographie beschr¨ ankt haben. In der angegebenen Form weisen die beschriebenen Verfahren betr¨ achtliche Sicherheitsl¨ ucken auf. Um wirkliche Datensicherheit zu erreichen, ist eine genaue Analyse der bekannten Angriffe auf die benutzten Kryptosysteme notwendig.
Aufgaben ¨ Ubung 1.39. Bestimmen Sie den geheimen Sch¨ ussel d f¨ ur jedes der folgenden Paare (n, d) von ¨offentlichen RSA-Schl¨ usseln: (i) (493, 45) (ii) (10201, 137) (iii) (13081, 701) (iv) (253723, 1759) ¨ Ubung 1.40. Sei p = 31991 und s = 7. (a) Sei a = 27 und b = 17. Bestimmen Sie sa mod p, sb mod p und den Diffie-Hellman Schl¨ ussel sa·b mod p. (b) Versuchen Sie den Schl¨ ussel zu finden, den zwei Personen durch Austausch der beiden Zahlen 4531 und 13270 vereinbart hatten.
72
1 Zahlen
¨ Ubung 1.41. Mit dem ¨ offentlichen RSA-Schl¨ ussel (n, e) = (9119, 17) sollen Nachrichten chiffriert werden. In diesen Texten werden nur solche Zeichen zugelassen, deren ASCII-Code einen Dezimalwert zwischen 32 und 90 hat. Der Nachrichtentext wird in Paare von Zeichen zerlegt. Die zweiziffrigen Dezimaldarstellungen dieser beiden Zeichen werden jeweils zu einer vierstelligen Dezimalzahl nebeneinandergestellt. Auf diese Weise wird aus dem Buchstabenpaar BK die Dezimalzahl m = 6675. Die Chiffrierung erfolgt nach dem RSA-Verfahren durch die Berechnung von me mod n. F¨ ur m = 6675 erh¨ alt man 4492 mod 9119. An den Empf¨anger der verschl¨ usselten Nachricht wird nicht diese Zahl, sondern die entsprechende ASCII-Zeichenkette u ¨ bermittelt. Im Fall von 4492 finden wir in der ASCIITabelle zu den Dezimalzahlen 44 und 92 die Symbole ,\ Finden Sie den aus 6 Buchstaben bestehenden Klartext, der mit diesem Verfahren zu dem Geheimtext +TT&@/ wurde.
Kapitel 2
Lineare Algebra
Die Begriffe und Verfahren der linearen Algebra geh¨oren zu den wichtigsten Werkzeugen eines jeden Mathematikers, Naturwissenschaftlers und Informatikers. Ohne Grundkenntnisse aus diesem Gebiet ist es oft nicht m¨oglich, mathematische Probleme aus anderen Wissensbereichen zu l¨osen. Die lineare Algebra besch¨ aftigt sich mit Systemen linearer Gleichungen. Dabei geht es auf der einen Seite um Verfahren zur Bestimmung der L¨osungen solcher Gleichungssysteme und auf der anderen Seite um eine Strukturtheorie dieser L¨osungsmengen: die Theorie der Vektorr¨aume und linearen Abbildungen. Zur Motivation der abstrakten Begriffsbildungen beginnen wir mit der Darstellung des Gaußschen Algorithmus als wichtigstem Verfahren zur L¨osung linearer Gleichungssysteme. Eine Analyse der erhaltenen L¨osungsmengen f¨ uhrt dann in nat¨ urlicher Weise auf die Begriffe Vektorraum und lineare Abbildung. Im Hauptteil dieses Kapitels werden die wichtigsten Resultate und Methoden der linearen Algebra entwickelt. Zum Abschluss sehen wir anhand des Beispiels der Codierungstheorie, wie die zuvor entwickelte Theorie unmittelbare Anwendung in der Informatik findet.
2.1 Lineare Gleichungssysteme Neben der Vorstellung des Gaußschen Algorithmus ist es ein Hauptanliegen dieses Abschnittes, den Zusammenhang zwischen Algebra und Geometrie transparent zu machen. Im Unterschied zu den abstrakten Begriffsbildungen in Kapitel 1 bietet die lineare Algebra die M¨ oglichkeit, die Begriffe und Zusammenh¨ange geometrisch zu interpretieren. Die Beziehung zwischen linearer Algebra und unserer geometrischen Anschauung entsteht durch die Verwendung von Koordinaten. Die heute oft verwendeten kartesischen1 Koordinaten, 1
Ren´ e Descartes (1596–1650), franz. Mathematiker und Philosoph.
73
74
2 Lineare Algebra
waren bereits im 17. Jahrhundert bekannt. Die Idee besteht darin, den Punkten unserer Anschauungsr¨ aume Paare bzw. Tripel von Zahlen zuzuordnen, mit denen dann algebraische Operationen ausgef¨ uhrt werden k¨onnen. Zur Erleichterung des Einstiegs besch¨ aftigen wir uns in diesem einf¨ uhrenden Abschnitt ausschließlich mit reellen Vektorr¨ aumen, da diese unserer Anschauung am n¨achsten liegen. Im Abschnitt 2.5, bei der Besch¨aftigung mit fehlerkorrigierenden Codes, m¨ ussen wir jedoch auch andere Zahlen“ als nur reelle ” Zahlen zulassen. Dazu z¨ ahlen insbesondere die im Abschnitt 1.4 eingef¨ uhrten endlichen K¨orper Fp . Daher ist es wichtig, die Theorie in den Abschnitten 2.2 und 2.3 f¨ ur beliebige K¨ orper zu formulieren. Unter einem Vektor wollen wir ein Element aus dem Raum Rn = {(x1 , x2 , . . . , xn ) | xi ∈ R, 1 ≤ i ≤ n} verstehen, wobei n ≥ 1 eine ganze Zahl ist. Wenn n = 1 ist, dann heißt der Raum R1 = R die reelle Zahlengerade: −4
−3
−2
−1
0
1
2
3
4
5
In unserer Vorstellung sollte diese Gerade jedoch kein Ende besitzen und alle reellen Zahlen (d.h. alle Punkte), nicht nur die benannten, beinhalten. Die genaue Bedeutung dieser Aussage wird im Abschnitt 3.1 mathematisch pr¨azisiert. Im Fall n = 2 spricht man von der reellen Ebene R2 , siehe Abb. 2.1.
4 (−1, 3) b
3 (4, 2) 2 b
1
−1
1
2
−1
3
4
5
b
(3, −1)
Abb. 2.1 Die reelle Ebene mit drei Punkten
Auch der dreidimensionale Raum R3 ist unserer Anschauung direkt zug¨anglich, f¨ ur n ≥ 4 sind unsere Mittel der konkreten Vorstellung jedoch sehr
2.1 Lineare Gleichungssysteme
75
begrenzt. Wir m¨ ussen uns dann auf die Algebra einlassen, k¨onnen aber noch bedingt auf unsere niederdimensionale Anschauung zur¨ uckgreifen.2 Bisher haben wir Paare oder Tripel von Zahlen als Punkt in der Ebene oder im Raum interpretiert. Die korrekte geometrische Anschauung f¨ ur ein n-Tupel reeller Zahlen x = (x1 , . . . , xn ) ∈ Rn im Rahmen der Linearen Algebra ist jedoch die des Vektors. Man stellt sich einen Vektor als Pfeil vor, der durch seine Richtung und L¨ ange bestimmt ist. Bei dieser Interpretation ist zu beachten, dass nur Richtung und L¨ ange, nicht aber der Anfangspunkt des Pfeils von Bedeutung sind. Statt eines einzelnen Pfeils gibt es unendlich viele Pfeile, die den gleichen Vektor darstellen. Jeder der Pfeile in Abb. 2.2 repr¨asentiert den Vektor (2, 1) ∈ R2 . Wem diese Erkl¨ arung Schwierigkeiten bereitet, der kann sich einen Vektor auch als Verschiebung der Ebene, bzw. des Raumes vorstellen. Dies ist in der Tat die beste Interpretation. Der mathematisch interessierte Leser findet den Hintergrund dazu im Kapitel u ¨ber affine R¨aume in [Kow].
4 3 2 1
−1
1
2
3
4
5
−1
Abb. 2.2 Der Vektor (2, 1)
Die Menge der Vektoren erh¨ alt eine algebraische Struktur, indem wir die Addition zweier Vektoren durch (x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn ) und die Multiplikation eines Vektors mit einer Zahl λ ∈ R durch λ · (x1 , . . . , xn ) := (λx1 , . . . , λxn ) 2 Ein bemerkenswerter Versuch den Dimensionsbegriff in Form eines Romans einem allgemeinen Publikum nahezubringen, wurde bereits im Jahre 1884 von Edwin A. Abbott unter dem Titel Flatland [Abb] unternommen. Inzwischen gibt es einen auf diesem sozialsatirischen Roman basierenden Animationsfilm, siehe http://flatlandthemovie.com/. Auf der DVD wird auch u oglichkeiten der Darstellung einer vierten Dimension gesprochen. ¨ber M¨
76
2 Lineare Algebra
definieren. Abb. 2.3 beschreibt die anschauliche Bedeutung dieser Definition f¨ ur den Fall n = 2. Die Addition auf der Menge Rn haben wir bereits in Kapitel 1 studiert. In der dort verwendeten Begriffswelt ist (Rn , +) eine abelsche Gruppe, n¨amlich das n-fache kartesische Produkt (R, +)×(R, +)×. . .×(R, +) der additiven Gruppe (R, +). Die Multiplikation mit einer Zahl λ ∈ R ist hingegen eine neuartige Operation, denn f¨ ur n ≥ 2 handelt es sich dabei nicht um eine Operation, die zwei Elementen aus Rn ein Element aus Rn zuordnet. Vektoren werden nicht miteinander multipliziert, sondern nur mit Skalaren, das sind einfache Zahlen.
u+v
−u
v
u u 2u
u+v
v u
u
− 12 u
u
Abb. 2.3 Addition und skalare Multiplikation von Vektoren
Der Nullvektor 0 = (0, 0, . . . , 0) ∈ Rn besitzt als einziger Vektor keine Richtung. Aus der Definition erhalten wir 0 · u = 0 f¨ ur jedes u ∈ Rn . Hier ist zu beachten, dass das Symbol 0 in zwei verschiedenen Bedeutungen benutzt wird: Auf der linken Seite dieser Gleichung handelt es sich um die reelle Zahl 0 ∈ R, auf der rechten Seite um den Nullvektor 0 = (0, 0, . . . , 0) ∈ Rn . In der klassischen ebenen Geometrie werden Punkte und Geraden als elementare Objekte des Studiums betrachtet. Zu den Grundannahmen der euklidischen3 Geometrie geh¨ ort, dass es durch zwei verschiedene Punkte stets genau eine Gerade gibt. Diesen Sachverhalt k¨onnen wir in eine algebraisch beschriebene Aussage im Raum Rn u ¨bersetzen. Starten wir dazu mit zwei Punkten x = (x1 , x2 ) und y = (y1 , y2 ) ∈ R2 in der Ebene. Die zu diesen Punkten geh¨origen Ortsvektoren bezeichnen wir ebenfalls mit x bzw. y. Sie verbinden den Nullpunkt mit dem jeweiligen Punkt. Der Vektor w := y − x 3 Euklid von Alexandria ist vor allem durch die Elemente ber¨ uhmt. In diesem mehrb¨ andigen Werk sind die damaligen geometrischen Ergebnisse und Anschauungen auf streng logische Weise dargestellt, vgl. auch Fußnote auf Seite 6.
2.1 Lineare Gleichungssysteme
77
gibt dann die Richtung der Geraden L an, die durch die Punkte x und y verl¨auft. Wenn wir alle Punkt der Gestalt x + λw, λ ∈ R betrachten, dann erhalten wir die gesamte Gerade L (Abb.2.4), d.h. L = {x + λw | λ ∈ R} ⊂ R2 . Eine derartige Beschreibung nennt man Parameterdarstellung der Geraden L. Jede solche Darstellung entspricht einer Abbildung f : R → R2 der Gestalt f (λ) := x + λw. Die Bildmenge f (R) dieser Abbildung ist die Gerade L. x + λw x + 2w
L
y = x+w w
x − 0.8w x
Abb. 2.4 Parameterdarstellung einer Geraden
Außer durch eine Parametrisierung l¨ asst sich eine Gerade in der Ebene auch durch eine lineare Gleichung a1 x1 + a2 x2 = b beschreiben. Bei einer solchen Beschreibung stimmt die Gerade mit der L¨osungsmenge L¨os(a1 , a2 | b) := {(x1 , x2 ) ∈ R2 | a1 x1 + a2 x2 = b} u ¨ berein. Die Koeffizienten a1 , a2 und die Zahl b sind dabei als feste, gegebene Gr¨oßen zu betrachten. Unter dem L¨osen der Gleichung a1 x1 + a2 x2 = b verstehen wir das Auffinden einer Parametrisierung f : R → R2 der L¨ osungsmenge L¨os(a1 , a2 | b). Die Parametrisierung soll die Gestalt f (λ) = v +λw haben, sie ist also vollst¨andig bekannt, wenn die Vektoren v und w bestimmt sind. Dies wird nicht in jedem Fall gelingen. Wenn zum Beispiel a1 = a2 = 0 und b 6= 0 ist, dann gibt es kein (x1 , x2 ) ∈ R2 , welches a1 x1 + a2 x2 = b erf¨ ullt. Die L¨osungsmenge L¨ os(0, 0| b) = ∅ ist dann leer, vorausgesetzt b 6= 0. Ein weiteres Beispiel ist die L¨ osungsmenge L¨ os(0, 0| 0) = R2 , auch dies ist keine Gerade. In allen anderen F¨ allen ist L¨ os(a1 , a2 | b) eine Gerade. Um dies zu sehen, nehmen wir zun¨ achst a1 6= 0 an. Unter dieser Voraussetzung erhalten ur x2 wir aus der gegebenen Gleichung x1 = ab1 − aa21 · x2 und wir k¨onnen f¨ jedes beliebige λ ∈ R einsetzen. Es ergibt sich a2 a2 b b − λ, λ = , 0 + λ − , 1 ∈ L¨os(a1 , a2 | b) . (x1 , x2 ) = a1 a1 a1 a1
78
2 Lineare Algebra
b ,0 a1
Dies ist die gew¨ unschte Parametrisierung f (λ) = v + λw mit v = a2 und w = − , 1 . Falls a1 = 0 und a2 6= 0, geht alles analog. a1 Um die geometrische Anschauung weiter zu f¨ordern, erh¨ohen wir jetzt die Dimension. Auch im dreidimensionalen Raum R3 ist eine Gerade durch zwei ihrer Punkte festgelegt und wir k¨ onnen sie durch eine Parametrisierung f : R → R3 der Gestalt f (λ) := v + λw beschreiben. Hierbei ist w 6= 0 und v, w ∈ R3 . Jede Menge der Gestalt L = {v + λw | λ ∈ R} ⊂ R3 mit v, w ∈ R3 und w 6= 0 ist eine Gerade. Zur Beschreibung einer Geraden im R3 reicht es jedoch nicht aus, eine einzige lineare Gleichung anzugeben. Schauen wir dazu eine lineare Gleichung a1 x1 + a2 x2 + a3 x3 = b
an, in der a3 6= 0 ist. Dann ergibt sich x3 = ab3 − aa31 x1 − aa32 x2 und wir k¨onnen f¨ ur x1 und x2 beliebige Werte λ1 ∈ R und λ2 ∈ R einsetzen. Wir erhalten dann (λ1 , λ2 , ab3 − aa31 λ1 − aa23 λ2 ) = (0, 0, ab3 )+λ1 ·(1, 0, − aa31 )+λ2 ·(0, 1, − aa32 ) als Element in L¨os(a1 , a2 , a3 | b) := {(x1 , x2 , x3 ) ∈ R3 | a1 x1 + a2 x2 + a3 x3 = b}. In diesem Fall gibt es zwei freie Parameter λ1 , λ2 ∈ R in den L¨osungen, die Parametrisierung ist daher eine Abbildung f : R2 → R3 der Gestalt f (λ1 , λ2 ) = u + λ1 v + λ2 w. Wie zuvor ist f (R2 ) = L¨os(a1 , a2 , a3 | b). Die L¨osungsmenge einer linearen Gleichung ist also eine Ebene im R3 . Um eine Gerade zu beschreiben, ben¨ otigen wir zwei lineare Gleichungen, die beide gleichzeitig zu erf¨ ullen sind. Die Gerade ist dann der Durchschnitt der beiden Ebenen, die durch diese Gleichungen definiert werden. Es folgt ein konkretes Beispiel: 2x1 − x2 + x3 = 2
−x1 − 4x2 + x3 = 2 .
(I) (II)
Um die graphische Darstellung zu erleichtern, formen wir zun¨achst die zweite Gleichung um, indem wir von ihr die erste Gleichung subtrahieren und das Ergebnis durch −3 teilen. Wir erhalten die folgenden beiden Gleichungen: 2x1 − x2 + x3 = 2 x1 + x2 = 0 .
(I) (II′ )
Die Ebenen (I), (II′ ) und ihr Durchschnitt L sind in Abb. 2.5 dargestellt. Da man durch Addition der Gleichung (I) zum (−3)-fachen von (II′ ) die ¨ Gleichung (II) zur¨ uckerh¨ alt, hat sich beim Ubergang von (I) und (II) zu (I) und (II′ ) die L¨ osungsmenge nicht ver¨ andert. Geometrisch entspricht die Ersetzung von (II) durch (II′ ) einer Drehung der Ebene (II) um die Achse L, wie in Abb. 2.6 angedeutet.
2.1 Lineare Gleichungssysteme
79
x3 x2
Ebene I 2x1 − x2 + x3 = 2
x1
Ebene II′ x1 + x2 = 0
L
Abb. 2.5 Geometrie der L¨ osung zweier Gleichungen
L
Ebene II −x1 − 4x2 + x3 = 2
Ebene II′
Abb. 2.6 Ersetzung der Gleichung II durch die Gleichung II′
80
2 Lineare Algebra
Um eine Parametrisierung der Geraden L zu erhalten, nutzen wir die Gleichung (II′ ) in der Form x2 = −x1 , um in Gleichung (I) die Variable x2 zu eliminieren. Das ergibt x3 = 2 − 2x1 + x2 = 2 − 3x1 . F¨ ur x1 k¨onnen wir beliebige Werte λ ∈ R einsetzen und erhalten schließlich (x1 , x2 , x3 ) = (λ, −λ, 2 − 3λ) = (0, 0, 2) + λ(1, −1, −3) als Parametrisierung der Geraden L. Auch hier kann es passieren, dass durch zwei lineare Gleichungen keine Gerade im R3 definiert wird. Dies ist der Fall, wenn beide Gleichungen dieselbe Ebene beschreiben. Dann definiert das entsprechende Gleichungssystem eine Ebene. Beide Ebenen k¨ onnen auch parallel sein, dann ist ihr Schnitt und somit auch die L¨ osungsmenge leer. Als abschließendes geometrisches Beispiel schauen wir uns ein System von drei linearen Gleichungen im R3 an. x1 + x2 + x3 = 2
(I)
2x1 + 3x2 + x3 = 4 x1 + 3x2 =3
(II) (III)
Wie zuvor bilden wir Gleichungen (II′ ) = (II) − 2 · (I) und (III′ ) = (III) − (I) x1 + x2 + x3 = 2
(I)
x2 − x3 = 0 2x2 − x3 = 1
(II′ ) (III′ )
Nun eliminieren wir x2 aus der Gleichung (III′ ), indem wir (III′′ ) = (III′ ) − 2(II′ ) bilden: x1 + x2 + x3 = 2
(I)
x2 − x3 = 0 x3 = 1
(II′ ) (III′′ )
Indem wir von unten nach oben einsetzen, erhalten wir x2 = x3 = 1 und x1 = 2 − x2 − x3 = 0. Damit hat das gegebene lineare Gleichungssystem genau eine L¨osung, n¨ amlich (x1 , x2 , x3 ) = (0, 1, 1). Die L¨osungsmenge eines Systems mit drei Gleichungen und drei Variablen kann leer, oder ein einzelner Punkt, eine Gerade, eine Ebene oder gar der gesamte R3 sein. Um auch bei einer gr¨ oßeren Zahl von Variablen oder Gleichungen eine u oglichen, hat es sich eingeb¨ urgert, die Ko¨ bersichtliche Beschreibung zu erm¨
2.1 Lineare Gleichungssysteme
81
effizienten in Form einer Matrix zu schreiben. Durch seine Position in der Matrix ist f¨ ur jeden Koeffizienten klar, vor welcher Variablen er steht. Im letzten Beispiel hat die Koeffizientenmatrix die Gestalt 111 1112 2 3 1 bzw. 2 3 1 4 , 1303 130 wenn wir die rechten Seiten der Gleichungen noch hinzuf¨ ugen, um die erweiterte Koeffizientenmatrix zu erhalten.
Nach dieser konkreten und geometrisch-anschaulichen Einf¨ uhrung wenden wir uns nun dem allgemeinen Fall zu. Um mit beliebig großen Zahlen von Variablen und Gleichungen umgehen zu k¨ onnen, benutzen wir einfach indizierte Buchstaben x1 , x2 , x3 , . . . f¨ ur die Variablen und doppelt indizierte Buchstaben aij zur Bezeichnung der Koeffizienten. Dabei gibt i die Nummer der Gleichung und j die Nummer der zugeh¨origen Variablen xj an. Die Koeffizientenmatrix f¨ ur das Gleichungssystem aus m Gleichungen mit n Variablen: a11 x1 + a12 x2 + . . . + a1n xn = b1 a21 x1 + a22 x2 + . . . + a2n xn = b2 (2.1) .. .. .. .. . . . . am1 x1 + am2 x2 + . . . + amn xn = bm hat die Gestalt
a11 a12 . . . a1n .. .. , A = ... . . am1 am2 . . . amn
wof¨ ur abk¨ urzend A = (aij )i,j geschrieben wird, wenn m und n aus dem Kontext klar sind. Die i-te Zeile enth¨ alt den Vektor (ai1 , ai2 , . . . , ain ). Die erweiterte Koeffizientenmatrix f¨ ur das Gleichungssystem (2.1) lautet: a11 a12 . . . a1n b1 .. .. .. . (A| b) = ... . . . am1 am2 . . . amn bm
Eine Matrix mit m Zeilen und n Spalten nennt man auch m × n-Matrix. Um das Gleichungssystem (2.1) platzsparend notieren zu k¨onnen, vereinbaren wir, die Koeffizienten bi und die Unbestimmten xj jeweils als Spaltenvektor zu schreiben ! ! x1 b1 .. .. . und x := b := . . bm
xn
Das Produkt einer Matrix A = (aij )i,j mit einem Spaltenvektor, dessen L¨ange gleich der Zahl der Spalten der Matrix ist, ist durch folgende Formel definiert:
82
2 Lineare Algebra
a11 x1 + a12 x2 + . . . + a1n xn a21 x1 + a22 x2 + . . . + a2n xn A · x := . .. .. . .. . . am1 x1 + am2 x2 + . . . + amn xn
Das Ergebnis ist ein Vektor, der soviel Eintr¨ age hat, wie die Matrix A Zeilen besitzt. Zur Bestimmung der i-ten Komponente dieses Vektors gen¨ ugt es, die i-te ZeilePder Matrix A und den Vektor x zu kennen, denn sie ist gleich der n Summe j=1 aij xj . Unter Benutzung dieses Produktes ist A · x = b eine Abk¨ urzung f¨ ur das System (2.1) und dessen L¨osungsmenge wird mit L¨ os(A| b) := {x ∈ Rn | A · x = b} bezeichnet. Hierbei wird x ∈ Rn als Spaltenvektor aufgefasst. Unser n¨achstes Ziel ist es, einen Algorithmus zu beschreiben, mit dessen Hilfe man jedes System der Gestalt (2.1) l¨ osen kann. Unter einer L¨osung wollen wir auch hier eine Parametrisierung f : Rs → Rn mit f (Rs ) = L¨os(A| b) verstehen. Die Bestimmung der Zahl s ist Teil des Algorithmus. Wir beginnen mit dem Studium eines Spezialfalls, auf den wir sp¨ater den allgemeinen Fall zur¨ uckf¨ uhren werden. Definition 2.1.1. Eine Matrix besitzt Zeilenstufenform, wenn sie die in Abb. 2.7 angedeutete Gestalt hat. Dabei steht an jeder der mit ⋆ gekennzeich-
j1 ⋆
j2 j3
.......
jr
⋆ ⋆ .. Hier alles gleich 0
. ⋆
n 1 2 3 .. . r
m Abb. 2.7 Zeilenstufenform
neten Stellen eine von Null verschiedene reelle Zahl und der untere Bereich ist v¨ollig mit Nullen ausgef¨ ullt. Etwas formaler – und somit genauer – heißt dies, dass A = (aij )i,j genau dann Zeilenstufenform besitzt, wenn die folgenden Bedingungen erf¨ ullt sind: (i) Es gibt eine ganze Zahl r mit 0 ≤ r ≤ m, so dass die Zeilen mit Nummer i > r nur Nullen enthalten.
2.1 Lineare Gleichungssysteme
83
(ii) Wenn ji := min{j | aij 6= 0} die kleinste Spaltennummer ist, deren Eintrag in Zeile i nicht Null ist, dann gilt 1 ≤ j1 < j2 < . . . < jr ≤ n. Man beachte, dass hier r = 0 zugelassen ist. In diesem Fall ist A die Nullmatrix, das ist die Matrix deren s¨ amtliche Eintr¨ age gleich 0 sind. In jedem Fall nennen wir r den Rang von A und schreiben r = rk(A). Da eine Vertauschung der Spalten der Matrix A lediglich einer Umbenennung der Variablen xi entspricht, k¨ onnen wir zur Erl¨ auterung der allgemeinen Theorie annehmen, dass ji = i, also j1 = 1, j2 = 2, . . . , jr = r gilt. Eine Matrix in dieser speziellen Zeilenstufenform vom Rang r > 0 erf¨ ullt dann a11 6= 0, a22 6= 0, . . . , arr 6= 0
und
aij = 0
falls i > j oder i > r.
Sie hat daher die in Abb. 2.8 angedeutete Gestalt.
1 2 3 ....... r ⋆ ⋆ ⋆ .. . ⋆
n 1 2 3 .. . r
Hier alles gleich 0 m Abb. 2.8 Spezielle Zeilenstufenform
Sei nun A = (aij )i,j eine Matrix vom Rang r in spezieller Zeilenstufenform. Wenn es ein j > r gibt mit bj 6= 0, dann hat A · x = b offenbar keine L¨osung, d.h. L¨os(A| b) = ∅. F¨ ur die Existenz einer L¨ osung des linearen Gleichungssystems A · x = b ist somit br+1 = br+2 = . . . = bm = 0
(2.2)
notwendig. Diese Bedingung ist auch hinreichend, denn wenn sie erf¨ ullt ist, k¨ onnen wir die Variablen xr+1 , . . . , xn mit beliebigen Werten λ1 , λ2 , . . . , λn−r belegen. Man nennt sie daher freie Variablen. Durch sukzessives Einsetzen von unten nach oben erh¨ alt man aus den Gleichungen dann die Werte der gebundenen Variablen x1 , . . . , xr . Dazu startet man mit der letzten nichttrivialen Gleichung ar,r xr + ar,r+1 xr+1 + . . . + ar,n xn = br . Nach Einsetzen der λi ergibt sich daraus der Wert von xr
84
2 Lineare Algebra
1 br − · (ar,r+1 λ1 + . . . + ar,n λn−r ) arr arr n−r br 1 X = − · ar,r+k λk . arr arr
xr =
k=1
Wenn bereits xj+1 , . . . , xr berechnet wurden, dann ergibt sich aus der j-ten Gleichung 1 xj = (bj − aj,j+1 xj+1 − . . . − aj,n xn ) . ajj Nach Einsetzen der bereits berechneten Werte enth¨alt der Ausdruck auf der rechten Seite keine Unbekannten mehr, sondern nur die gegebenen Koeffizienten und die Parameter λk . In dem wichtigen Spezialfall r = n gibt es keine freien Variablen. Wenn die L¨osbarkeitsbedingung (2.2) erf¨ ullt ist, dann gibt es genau eine L¨osung f¨ ur das lineare Gleichungssystem Ax = b. Wenn sogar r = n = m, dann ist jede Zeilenstufenform auch eine spezielle Zeilenstufenform und die L¨ osbarkeitsbedingung ist stets erf¨ ullt. Das Gleichungssystem besitzt dann genau eine L¨ osung. Wenn r = n und b = 0, dann ist die L¨ osbarkeitsbedingung ebenfalls erf¨ ullt und x = 0 ist die eindeutig bestimmte L¨ osung von Ax = b. Wenn allgemeiner A eine Matrix in (nicht spezieller) Zeilenstufenform ist, dann sind lediglich die Formeln f¨ ur die gebundenen Variablen anzupassen, alles andere bleibt unver¨ andert richtig. Beispiel 2.1.2.
02 0 0 (A | b) = 0 0 00
0 −1 −2 0 3 13 1 2 3 6 0 7 0 0 0 3 1 3 0 0 0 00 0
Die freien Variablen sind hier x1 = λ1 , x4 = λ2 , x5 = λ3 und x7 = λ4 . Die dritte Gleichung ergibt 3x6 = 3 − λ4 . Daraus erhalten wir x6 = 1 − 13 λ4 . Aus der zweiten Gleichung ergibt sich x3 = 7−2x2 −3x5 −6x6 = 1−2λ2 −3λ3 +2λ4 1 3 und aus der ersten x2 = 13 osungsvektor x hat somit 2 + 2 λ2 + λ3 − 2 λ4 . Der L¨ die Gestalt 0 0 λ1 0 1 0 1 3 13 1 + λ +λ − λ −3 2 3 4 13 2 2 2 1 0 2 1−2λ 2 −2 22 −3 2 −3λ3 +2λ4 0 1 λ2 = 0 +λ1 0 +λ2 10 +λ3 01 +λ4 00 0 λ3 0 1 0 1− 31 λ4 λ4
1 0
0
0 0
0 0
−3 1
und wir haben die gew¨ unschte Parametrisierung der L¨osung gefunden.
Die Idee f¨ ur den allgemeinen Fall, wenn die Matrix nicht in Zeilenstufenform gegeben ist, besteht darin, die gegebene Matrix A schrittweise in Zeilenstu-
2.1 Lineare Gleichungssysteme
85
fenform zu transformieren, so dass bei keinem der Schritte die L¨osungsmenge ver¨andert wird. Das im Folgenden beschriebene Eliminationsverfahren, zusammen mit der Bestimmung der Parametrisierung aus der Zeilenstufenform, wird auch als Gauß-Verfahren4 oder Gaußscher Algorithmus bezeichnet. Die Grundbausteine dieses Algorithmus sind die folgenden beiden elementaren Zeilenumformungen, die auf die erweiterte Koeffizientenmatrix (A| b) angewendet werden. (Z1) (Z2)
Vertauschung zweier Zeilen. Addition des λ-fachen der k-ten Zeile zur i-ten Zeile, i 6= k und λ ∈ R.
e eb aus (A| b) durch endlich viele elementare ZeilenSatz 2.1.3 Wenn A e eb . umformungen hervorgeht, dann ist L¨ os (A| b) = L¨os A Beweis. Mittels vollst¨ andiger Induktion u ¨ ber die Anzahl der elementaren Zeilenumformungen k¨ onnen wir das Problem darauf reduzieren, den Satz f¨ ur den Fall einer einzigen elementaren Zeilenumformung zu beweisen. Da die L¨ osungsmenge durch die Reihenfolge der Gleichungen nicht beeinflusst wird, andert sich durch eine Zeilenvertauschung nichts. Bei einer Umformung vom ¨ Typ (Z2) bleiben alle Zeilen außer der i-ten Zeile unver¨andert. Daher gen¨ ugt es zu zeigen, dass die L¨ osungsmenge des aus zwei Gleichungen bestehenden Systems ai1 x1 + ai2 x2 + . . . + ain xn = bi (2.3) ak1 x1 + ak2 x2 + . . . + akn xn = bk mit der L¨osungsmenge des Systems (ai1 + λak1 )x1 + (ai2 + λak2 )x2 + . . . + (ain + λakn )xn = bi + λbk ak1 x1 + ak2 x2 + . . . + akn xn = bk
(2.4)
u alt (2.4), wenn man zur ersten Gleichung von (2.3) ¨ bereinstimmt. Man erh¨ das λ-fache der zweiten Gleichung hinzuf¨ ugt. Daher ist jede L¨osung von (2.3) auch L¨osung von (2.4). Umgekehrt entsteht das System (2.3) dadurch, dass man zur ersten Gleichung von (2.4) das (−λ)-fache der zweiten Gleichung addiert, also ist jede L¨ osung von (2.4) auch L¨ osung von (2.3). ⊓ ⊔ 4
Carl Friedrich Gauß (1777–1855), deutscher Mathematiker. Das Gaußsche Eliminationsverfahren findet man in einem alten Chinesischen Mathematiklehrbuch, welches vermutlich bereits 200 v.u.Z. vorlag. Das Verfahren wurde von Gauß in seinem Studium der Bahn des Asteroiden Pallas verwendet. Seine zwischen 1803 und 1809 gemachten Beobachtungen f¨ uhrten ihn auf ein System von sechs linearen Gleichungen mit ebenso vielen Unbekannten, welches er mit dem beschriebenen Eliminationsverfahren systematisch l¨ oste.
86
2 Lineare Algebra
Der Nutzen von Satz 2.1.3 wird durch den folgenden Satz offensichtlich, dessen Beweis uns u ¨ berdies einen Algorithmus zur Konstruktion einer Parametrisierung der L¨ osungsmenge eines beliebigen linearen Gleichungssystems liefert. Satz 2.1.4 Jede Matrix A l¨asst sich durch endlich viele elementare Zeilenumformungen in Zeilenstufenform bringen. Beweis. Wenn A = 0 die Nullmatrix ist, dann ist nichts zu zeigen. Sei also A 6= 0. Wir nehmen an, dass A eine m × n-Matrix ist und f¨ uhren den Beweis per Induktion u ¨ ber n ≥ 1, die Zahl der Spalten. Wenn n = 1 ist, k¨onnen wir durch Permutation der Zeilen erreichen, dass der oberste Eintrag a11 ai1 nicht gleich 0 ist. Wenn wir dann f¨ ur jedes 2 ≤ i ≤ m das − a11 -fache dieser ersten Zeile zur Zeile i addieren, dann erhalten wir die gew¨ unschte Zeilenstufenform. Das beweist den Induktionsanfang. F¨ ur den Induktionsschritt nehmen wir an, dass die Behauptung des Satzes bereits f¨ ur Matrizen mit bis zu n−1 Spalten bewiesen ist. Sei nun j die kleinste Nummer einer nichttrivialen Spalte von A, also einer Spalte die nicht nur Nullen enth¨alt. Da wir A 6= 0 angenommen haben, gibt es ein solches j mit 1 ≤ j ≤ n. In dieser Spalte gibt es einen Eintrag aij 6= 0. Wenn es mehrere gibt, w¨ahlen wir eines davon aus. Man nennt es das Pivotelement . F¨ ur die numerische Stabilit¨ at des Verfahrens ist die Auswahl des betragsgr¨oßten Eintrags als Pivotelement am g¨ unstigsten. Durch Vertauschung derZeilen 1 und a i erreichen wir a1j 6= 0. Nun addieren wir f¨ ur jedes k > 1 das − akj -fache 1j der ersten Zeile zur k-ten Zeile. Wir erhalten dadurch eine Matrix der Gestalt 0 . . . 0 a1j . . . . . . . . 0 ... 0 0 . .. .. .. . B . . 0 ... 0 0
Da die Zahl der Spalten von B gleich n − j < n ist, k¨onnen wir nach Induktionsvoraussetzung die Matrix B durch endlich viele elementare Zeilenoperationen in Zeilenstufenform bringen. Da in den Zeilen 2 bis m links von B in der großen Matrix nur Nullen auftreten, a ¨ndert sich nichts an der Struktur von A außerhalb des Bereiches von B, wenn elementare Zeilenumformungen auf die Zeilen 2 bis m angewendet werden. Das ergibt dann insgesamt eine Zeilenstufenform f¨ ur die gesamte Matrix, womit der Satz bewiesen ist. ⊓ ⊔ Damit erhalten wir folgende Beschreibung des Gaußschen Algorithmus: (G1) (G2)
Erweiterte Koeffizientenmatrix (A| b) aufschreiben. Erzeugung einer Zeilenstufenform f¨ ur A, wie im Beweis von Satz 2.1.4. Die elementaren Zeilenoperationen werden auf (A| b) angewendet, es wird jedoch kein Pivotelement in der Spalte b gesucht.
2.1 Lineare Gleichungssysteme
(G3)
87
Mit dem L¨ osbarkeitskriterium (2.2) stelle man fest, ob es L¨osungen gibt. Wenn ja, dann berechne man eine Parametrisierung f¨ ur L¨os (A| b) in der zuvor erl¨ auterten Weise.
Beispiel 2.1.5. (G1) Die erweiterte Koeffizientenmatrix des Gleichungssystems x1 + 2x2 + x3 = −1 1 2 1 −1 3x1 + 4x2 + 4x3 = −4 lautet (A | b) = 3 4 4 −4 . x1 + 2x3 = −2 1 0 2 −2
(G2) Das Pivotelement wurde bereits gekennzeichnet, es ist der Eintrag a11 . Nun f¨ uhren wir zwei elementare Zeilenumformungen vom Typ (Z2) durch, n¨ amlich (Zeile II)−3·(Zeile I) und (Zeile III)−(Zeile I). Dabei wird immer die zuerst genannte Zeile durch das erhaltene Ergebnis ersetzt. Es ergibt sich 1 2 1 −1 0 −2 1 −1 . 0 −2 1 −1 Das neue Pivotelement ist wieder gekennzeichnet. Durch die elementare Zeilenoperation (Zeile III)−(Zeile II) erhalten wir Zeilenstufenform: 1 2 1 −1 0 −2 1 −1 . 0 0 0 0
(G3) Jetzt k¨onnte man in der zuvor beschriebenen Weise vorgehen. Statt dessen werden wir mit Hilfe von elementaren Zeilenumformungen auch noch oberhalb der Pivotelemente Nullen erzeugen. Danach ist das Ablesen der L¨ osungen wesentlich weniger aufw¨ andig. In unserem Beispiel ist dazu nur noch die elementare Zeilenoperation (Zeile I)+(Zeile II) durchzuf¨ uhren. Das ergibt: 1 0 2 −2 0 −2 1 −1 . 0 0 0 0
Die L¨osbarkeitsbedingung (2.2) ist erf¨ ullt. Die einzige freie Variable ist x3 , sie wird durch den Parameter λ ersetzt. Aus der ersten Gleichung erhalten wir x1 = −2 − 2x3 = −2 − 2λ und aus der zweiten Gleichung −2x2 = −1 − x3 = −1 − λ. Das liefert schließlich die folgende L¨osung des Gleichungssystems, wobei λ ∈ R beliebig ist: −2 −2 −2 − 2λ x1 x2 = 1/2 + λ/2 = 1/2 + λ · 1/2 . 1 0 λ x3
88
2 Lineare Algebra
Bemerkung 2.1.6. F¨ ur die praktische Durchf¨ uhrung von Schritt (G3) im Gaußschen Algorithmus empfiehlt es sich, so wie im Beispiel praktiziert, durch elementare Zeilenoperationen oberhalb der Pivotelemente auch noch Nullen zu erzeugen. Dazu beginnt man mit dem untersten Pivotelement und wendet elementare Zeilenoperationen (Z2) an, wie bei der Erzeugung der Nullen unterhalb der Pivotelemente. Dies ¨ andert die Zeilenstufenstruktur nicht, da links vom Pivotelement nur Nullen stehen und von unten nach oben gearbeitet wird. Das auf diese Weise komplettierte Verfahren wird manchmal auch als Gauß-Jordan-Verfahren5 bezeichnet. Nachdem wir nun ein Verfahren kennengelernt haben, welches uns zu jedem linearen Gleichungssystem A · x = b eine Parametrisierung f : Rr → Rn der L¨osungsmenge L¨ os(A| b) ⊂ Rn liefert, kehren wir nochmals zur analytischen Geometrie zur¨ uck. Definition 2.1.7. Eine Teilmenge U ⊂ Rn heißt affiner Raum, falls es Vektoren u, v1 , . . . , vr ∈ Rn gibt, so dass U = {u + λ1 v1 + · · · + λr vr | λi ∈ R} gilt. Das minimale r, f¨ ur welches eine solche Darstellung m¨oglich ist, heißt Dimension von U . Wir schreiben dann r = dim U . Wenn dim U = 0, dann besteht U nur aus einem Punkt. Wenn dim U = 1, dann heißt U Gerade, und falls dim U = 2, so nennt man U eine Ebene. Dies stimmt mit der zu Beginn des Kapitels eingef¨ uhrten Begriffsbildung im Fall r = 2 und r = 3 u ¨berein. Mit Hilfe des Gaußschen Algorithmus sehen wir, dass die L¨osungsmenge L¨os(A| b) ⊂ Rn jedes linearen Gleichungssystems A · x = b ein affiner Raum ist. Die Zahl r, also die Anzahl der von 0 verschiedenen Zeilen in der Zeilenstufenform von A, hat die geometrische Bedeutung n − r = dim L¨os(A| b), denn n − r ist gerade die Anzahl der freien Variablen. Um zu sehen, dass diese Definition der Dimension korrekt ist, zeigen wir sp¨ater, wenn etwas mehr von der allgemeinen Theorie entwickelt wurde, dass jede beliebige Zeilenstufenform, die wir mit endlich vielen elementaren Zeilenoperationen aus A erhalten, denselben Rang r besitzt. In vielen Bereichen der Mathematik, vor allem in der Algebra einschließlich der linearen Algebra, erzielt man wesentliche Fortschritte und tiefe Einsichten durch das strukturelle Studium der Untersuchungsgegenst¨ande. Das gilt auch f¨ ur das Studium der L¨ osungsmenge L¨ os(A| b) eines linearen Gleichungssystems Ax = b. Die folgenden drei Beobachtungen dienen als Grundlage f¨ ur die ¨ im n¨achsten Abschnitt durchgef¨ uhrte Abstraktion – sie sollen den Ubergang dorthin vorbereiten. Beobachtung 1: Wenn u, v ∈ L¨ os(A| b), dann u − v ∈ L¨os(A| 0), s. Abb. 2.9. Wenn u, v ∈ L¨os(A| b), dann gilt Au = b und Av = b. Subtraktion dieser Gleichungen ergibt A(u − v) = 0, d.h. u − v ∈ L¨os(A| 0). Um dies einzusehen, 5
Camille Jordan (1838–1922), franz¨ osischer Mathematiker.
2.1 Lineare Gleichungssysteme
89 x2
u−v
L¨ os(A| b)
u v
x3
L¨ os(A| 0) u−v
x1
Abb. 2.9 Differenz u − v ∈ L¨ os(A| 0)
erinnern wir uns an die Definition des Produktes A ·! u. Wenn (ai1 , . . . , ain ) ! u1 v1 .. , v = .. die i-te Zeile der Matrix A und u = ist, dann ist der i-te . . un vn Pn Pn Eintrag von A · u gleich uk und der vonPA · v ist gleich k=1 aik vk . k=1 aikP Pn n n Ihre Differenz ist k=1 aik uk − k=1 aik vk = k=1 aik (uk − vk ), und dies ist der i-te Eintrag des Vektors A · (u − v). Beobachtung 2: F¨ ur jedes u ∈ L¨ os(A| b) gilt, siehe Abb. 2.10,
L¨os(A| b) = u + L¨ os(A| 0) = {u + v | v ∈ L¨os(A| 0)} .
90
2 Lineare Algebra
Die affinen Unterr¨ aume der Gestalt L¨ os(A| 0) ⊂ Rn sind genau die, welche den Nullvektor 0 enthalten. Diese nennt man auch lineare Unterr¨aume des Rn . Da man die Addition eines Vektors auch als Parallelverschiebung interpretieren kann, besagt diese Beobachtung, dass alle affinen Unterr¨aume durch Parallelverschiebung aus linearen Unterr¨ aumen hervorgehen. x2
L¨ os(A| b′ ) = u′ + L¨ os(A| 0) L¨ os(A| b) = u + L¨ os(A| 0)
x3
u′
u
L¨ os(A| 0)
x1
Abb. 2.10 affine Unterr¨ aume L¨ os(A| b) = u + L¨ os(A| 0)
Dies ist in gewissem Sinne die Umkehrung der Beobachtung 1, denn aus dieser erhalten wir die Inklusion L¨ os(A| b) ⊂ u+L¨ os(A| 0). Um auch die umgekehrte Inklusion und damit die behauptete Gleichheit einzusehen, betrachten wir u ∈ L¨os(A| b) und v ∈ L¨ os(A| 0). Dann ist Au = b und Av = 0 und durch Addition ergibt sich A(u + v) = b, wie gew¨ unscht. Beobachtung 3: F¨ ur u, v ∈ L¨ os(A| 0) und λ ∈ R gilt, siehe Abb. 2.11,
2.1 Lineare Gleichungssysteme
91
u + v ∈ L¨ os(A| 0)
und
λ · u ∈ L¨os(A| 0) .
Das bedeutet, dass die L¨ osungsmenge L¨ os(A| 0) dieselben formalen Eigenschaften wie der Rn besitzt. Das wird im Abschnitt 2.2 zum Begriff des Vektorraumes verallgemeinert. Zum Beweis k¨onnen wir erneut die beiden x2 x3
u −v 2
u+v
x1 v
L¨ os (A| 0)
Abb. 2.11 Wenn u, v ∈ L¨ os(A| 0), dann λ · u, u + v ∈ L¨ os(A| 0)
Gleichungen Au = 0 und Av = 0 addieren und erhalten A(u + v) = 0. Ein ausf¨ uhrliches Hinschreiben der Definition des Produktes Au liefert λ · (Au) = A · (λu), woraus sich λu ∈ L¨ os(A| 0) ergibt. Bemerkung 2.1.8. Der Gaußsche Algorithmus beschreibt den linearen Unterraum L¨os (A| 0) in der Form ( s ) X L¨ os (A| 0) = λk vk λk ∈ R , k=1
wobei v1 , . . . , vs ∈ L¨ os(A| 0) sind. Hierbei tritt kein konstanter (d.h. parameterfreier) Summand auf, da die bi = 0 sind. Eine solche Menge von Vektoren v1 , . . . , vs ∈ L¨os(A| 0) werden wir sp¨ ater Basis dieses linearen Unterraumes nennen, vorausgesetzt s = n − r besitzt die durch den Algorithmus gesicherte Minimalit¨atseigenschaft. Wer bereits das Kapitel 1 studiert hat, mag sich beim Lesen dieses Abschnittes gefragt haben, ob es m¨ oglich w¨ are, den Gaußschen Algorithmus durch-
92
2 Lineare Algebra
zuf¨ uhren, wenn wir die reellen Zahlen R durch eine der im Kapitel 1 studierten algebraischen Strukturen ersetzen w¨ urden. Da in einer linearen Gleichung Ausdr¨ ucke der Gestalt aij · xj summiert werden, ben¨otigen wir zwei Verkn¨ upfungsoperationen, um lineare Gleichungssysteme u onnen. Unter den in Kapitel 1 studierten ¨ berhaupt formulieren zu k¨ algebraischen Strukturen waren Ringe und K¨orper mit zwei Verkn¨ upfungen ausgestattet. Da jeder K¨ orper auch Ring ist, gehen wir zun¨achst der Frage nach, wie weit wir alles in diesem Abschnitt Gesagte wiederholen k¨onnen, wenn die reellen Zahlen R durch einen beliebigen Ring R ersetzt werden. Unter dieser Annahme kann man lineare Gleichungssysteme weiterhin mit Hilfe von Matrizen in der Gestalt A · x = b beschreiben. Die Eintr¨age aij der Matrix A und die Komponenten bi des Vektors b sind dann Elemente des Ringes R. Die beiden elementaren Zeilenoperationen (Z1) und (Z2) lassen sich f¨ ur einen beliebigen Ring R formulieren. Der Beweis, dass sich L¨os(A| b) unter (Z1) und (Z2) nicht ¨ andert, bleibt richtig. Die erste Stelle, an der wir nicht weiterkommen, befindet sich im Beweis von Satz 2.1.4. Dort mussten wir durch das Pivotelement teilen, um die n¨otigen Nullen zu erzeugen. Das ist in allgemeinen Ringen jedoch nicht immer m¨oglich. Das gleiche Problem hindert uns daran, aus einer Zeilenstufenform eine Parametrisierung der L¨ osung hinzuschreiben. Um alles unver¨andert u onnen, m¨ ussen wir durch beliebige, von Null verschiedene ¨ bernehmen zu k¨ Elemente des Ringes R dividieren k¨ onnen. Dies ist genau dann der Fall, wenn der Koeffizientenbereich ein K¨ orper ist. Wenn wir an einer Parametrisierung von L¨ os(A| b) interessiert sind, dann sollten die Koeffizienten aus einem K¨orper K sein. Alles was in diesem Abschnitt gesagt wurde, bleibt dann richtig.
Aufgaben ¨ Ubung 2.1. L¨osen Sie das folgende lineare Gleichungssystem. x2 + 2x3 + 3x4 = 4 x1 + 2x2 + 3x3 + 4x4 = 5 2x1 + 3x2 + 4x3 + 5x4 = 6 3x1 + 4x2 + 5x3 + 6x4 = 7 ¨ Ubung 2.2. L¨osen Sie das folgende lineare Gleichungssystem. x1 + x2 x1 + x2 + x3 x2 + x3 + x4 x3 + x4
= = = =
10 17 20 12
2.2 Vektorr¨ aume und lineare Abbildungen
93
¨ Ubung 2.3. Ermitteln Sie alle t ∈ R, f¨ ur die das durch die folgende erweiterte Koeffizientenmatrix gegebene lineare Gleichungssystem l¨osbar ist und bestimmen Sie im Fall der L¨ osbarkeit die L¨ osungsmenge: 2 4 2 12t 2 12 7 12t + 7 1 10 6 7t + 8 ¨ Ubung 2.4. Zeichnen Sie in der reellen Ebene R2 mit den Koordinaten x1 , x2 f¨ ur jede der folgenden Gleichungen die L¨ osungsmenge.
(I) 3x2 = 6. (II) 2x1 = 6. (III) 2x1 + 4x2 = b f¨ ur zwei verschiedene Werte von b ∈ R. (IV) Die durch II − a · I“ definierte Menge f¨ ur zwei verschiedene Werte ” a ∈ R mit a 6= 1, a 6= 0. ¨ Ubung 2.5. In dieser Aufgabe sind alle Zahlen als Elemente des K¨orpers F2 zu interpretieren, insbesondere auch xi ∈ F2 . L¨osen Sie das folgende lineare Gleichungssystem und geben Sie eine vollst¨ andige Liste aller L¨osungen (ohne Benutzung von Parametern) an. x3 + x4 x1 + x2 + x3 + x4 + x5 + x6 x2 + x3 + x5 x1 + x3 + x6 x2 + x4 + x5 x1 + x6
=0 =0 =1 =1 =1 =1
¨ Ubung 2.6. L¨osen Sie das folgende System von Kongruenzen. x + 2y ≡4 x+ y + z ≡4 3y + 2z ≡ 6
mod 7 mod 7 mod 7
2.2 Vektorr¨ aume und lineare Abbildungen Die angek¨ undigte Strukturtheorie basiert auf den Begriffen des Vektorraumes und der linearen Abbildung. In diesen Begriffen sind die wesentlichen Eigenschaften von Systemen linearer Gleichungen und deren L¨osungsmengen festgehalten. Es handelt sich hier um eine Abstraktion, ¨ahnlich zur Vorgehensweise in den Abschnitten 1.2 und 1.3. Zur Vorbereitung der Anwendungen in der Codierungstheorie trennen wir uns von der unn¨otigen Einschr¨ ankung, nur reelle Zahlen als Skalare zu verwenden. Wie am Ende des vorigen Abschnittes bemerkt, k¨onnen wir Skalare
94
2 Lineare Algebra
aus einem beliebigen K¨ orper zur Multiplikation mit Vektoren zulassen. Zur Formulierung der allgemeinen Theorie fixieren wir einen K¨orper K. Als konkretes Beispiel k¨ onnen wir daf¨ ur die im Kapitel 1 studierten K¨orper Q, R, C, und Fp einsetzen. Definition 2.2.1. Eine nichtleere Menge V , die mit zwei Verkn¨ upfungen, einer Addition, einer skalaren Multiplikation,
+:V ×V →V
und
·:K ×V →V
ausgestattet ist, heißt Vektorraum u ¨ber dem K¨orper K (kurz K-Vektorraum), falls die folgenden Bedingungen erf¨ ullt sind: (V, +) ist eine abelsche Gruppe
(2.5)
und f¨ ur beliebige v, w ∈ V und λ, µ ∈ K gilt (λµ) · v = λ · (µ · v) (λ + µ) · v = λ · v + µ · v
(2.6) (2.7)
λ · (v + w) = λ · v + λ · w 1·v = v .
(2.8) (2.9)
Das neutrale Element 0 der additiven abelschen Gruppe (V, +) nennt man den Nullvektor. Das additive Inverse eines Vektors v ∈ V wird wie u ¨ blich mit −v bezeichnet. Dieser Vektor ist durch die Gleichung v + (−v) = 0 festgelegt. Unter ausschließlicher Benutzung der in Definition 2.2.1 aufgef¨ uhrten Eigenschaften k¨ onnen wir (−1) · v = −v zeigen. Dazu nutzen wir zun¨ achst (2.5) und (2.7), um zu erkennen, dass 0 · v = (0 + 0) · v = 0 · v + 0 · v gilt. Mit Hilfe von (2.5) ergibt sich daraus 0 · v = 0. Daher ist v + (−1) · v = 1 · v + (−1) · v = (1 + (−1)) · v
wegen (2.9) wegen (2.7)
= 0·v = 0 .
Wegen der Eindeutigkeit des additiven Inversen folgt daraus die gew¨ unschte Gleichung (−1) · v = −v. Auf ¨ ahnliche Weise erh¨alt man λ · 0 = 0 f¨ ur alle λ ∈ K. So kann man auch zeigen, dass nur dann λ · v = 0 gelten kann, wenn λ = 0 oder v = 0.
2.2 Vektorr¨ aume und lineare Abbildungen
95
Definition 2.2.2. Eine nichtleere Teilmenge U ⊂ V eines K-Vektorraumes heißt Untervektorraum (kurz: Unterraum), wenn f¨ ur alle v, w ∈ U und alle λ ∈ K stets v + w ∈ U und λ · v ∈ U gilt. Wenn U ⊂ V ein Unterraum ist, dann ist U mit der von V geerbten Addition und skalaren Multiplikation ein K-Vektorraum. Beispiel 2.2.3. (i) F¨ ur jede ganze Zahl n ≥ 1 ist die Menge der n-Tupel K n := {(x1 , . . . , xn ) | xi ∈ K} ein K-Vektorraum, wenn wir die Addition und skalare Multiplikation durch die folgenden Formeln definieren: (x1 , . . . , xn ) + (y1 , . . . , yn ) := (x1 + y1 , . . . , xn + yn ) und λ · (x1 , . . . , xn ) := (λx1 , . . . , λxn ) . Es ist u ¨ blich, die Elemente von K n als Spaltenvektoren zu denken. In diesem Buch sind sie zur Platzersparnis jedoch oft auch als Zeilenvektoren gedruckt. Falls K = R, dann sind das genau die im Abschnitt 2.1 studierten Vektorr¨aume. Wenn n = 0 ist, setzt man K 0 = {0}. Dies ist der Vektorraum, der nur aus dem Nullvektor besteht. (ii) Die komplexen Zahlen C bilden einen R-Vektorraum. Anwendungen der linearen Algebra beim Studium von K¨ orpern beruhen auf der Beobachtung, dass jeder K¨ orper F als Vektorraum u ¨ ber jedem seiner Teilk¨orper K ⊂ F aufgefasst werden kann. So ist zum Beispiel R ein Q-Vektorraum, da Q ⊂ R ein Teilk¨ orper ist. (iii) Der Polynomring K[X] ist ein K-Vektorraum, dessen Addition und skalare Multiplikation bereits in der Ringstruktur enthalten sind. (iv) Die Menge Mat(m × n, K) aller m × n-Matrizen mit Eintr¨agen aus K ist ein K-Vektorraum. Die Addition und skalare Multiplikation sind komponentenweise definiert. Das heißt, wenn wir abk¨ urzend a11 . . . . a1n .. .. = (a ) A= . ij . am1 . . . . amn
schreiben und B = (bij ) von derselben Gr¨oße wie A ist, dann ist die Summe A + B = (aij + bij ) und das skalare Vielfache λ · A = (λaij ). Die Bezeichnung ist immer so gew¨ ahlt, dass aij in Zeile i und Spalte j steht. (v) Wenn K = R und A ∈ Mat(m × n, R), dann ist L¨os(A| 0) ⊂ Rn ein Unterraum des R-Vektorraumes Rn . F¨ ur 0 6= b ∈ Rm ist jedoch L¨ os(A| b) ⊂ Rn kein Untervektorraum, zum Beispiel weil dann 0 6∈ L¨ os(A| b). (vi) Die Menge I := {f ∈ K[X] | f (1) = 0} ⊂ K[X] ist ein Untervektorraum. Allgemeiner gilt, dass jedes Ideal in K[X] ein Unterraum ist.
96
2 Lineare Algebra
(vii) Die Menge K[X]≤d ⊂ K[X] aller Polynome, deren Grad h¨ochstens gleich d ist, ist ein K-Unterraum. Definition 2.2.4. Ein Vektor v ∈ V in einem K-Vektorraum V heißt Linearkombination der Vektoren v1 , v2 , . . . , vr ∈ V , wenn es λ1 , . . . , λr ∈ K gibt, so dass r X λi vi v= i=1
Pr
gilt. Die Menge Lin(v1 , . . . , vr ) := { i=1 λi vi | λi ∈ K} aller Linearkombinationen der Vektoren v1 , . . . , vr heißt lineare H¨ ulle dieser Menge von Vektoren. Bemerkung 2.2.5. Die Menge Lin(v1 , . . . , vr ) ⊂ V ist der kleinste Unterraum, der die Vektoren v1 , . . . , vr enth¨ alt, denn f¨ ur jeden Unterraum W ⊂ V , der v1 , v2 , . . . , vr enth¨ alt, ist nach Definition 2.2.2 sicher Lin(v1 , . . . , vr ) ⊂ W . Dass Lin(v1 , . . . , vr ) ⊂ V selbst ein Unterraum ist, folgt ebenso leicht aus Definition 2.2.2. Diese Eigenschaft rechtfertigt, dass man Lin(∅) := {0} setzt. Beispiel 2.2.6. (i) Sei ei = (0, . . . , 0, 1, 0, . . . , 0) ∈ K n der Vektor mit einer 1 an der Stelle i und Nullen an allen anderen Stellen. Dann ist Pn Lin(e1 , e2 , . . . , en ) = K n , denn (x1 , . . . , xn ) = i=1 xi ei . (ii) F¨ ur den R-Vektorraum C gilt Lin(1) = R ⊂ C und Lin(1, i) = C, denn jede komplexe Zahl hat die Form a + bi = a · 1 + b · i, wobei a, b ∈ R. Wenn wir C als C-Vektorraum auffassen, dann gilt jedoch Lin(1) = C. Daher w¨are es angebracht, hier LinC (1) = C und zuvor LinR (1) = R ⊂ C zu schreiben. Wenn derartige Verwechslungsm¨oglichkeiten bestehen, dann werden wir LinK (v1 , . . . , vr ) statt Lin(v1 , . . . , vr ) schreiben. Im Abschnitt 2.1 hat sich gezeigt, dass man L¨osungsmengen linearer Gleichungssysteme sehr bequem mit Hilfe von Linearkombinationen von Vektoren beschreiben kann. Das legt nahe, im Kontext dieses Abschnittes ganz allgemein der Frage nachzugehen, wann jeder Vektor eines Vektorraumes V als Linearkombination gegebener Vektoren v1 , . . . , vr dargestellt werden kann, und wann eine solche Darstellung eindeutig ist. Dazu sind die folgenden Begriffsbildungen n¨ utzlich. Definition 2.2.7. Sei V ein K-Vektorraum und v1 , . . . , vr ∈ V Vektoren, die nicht notwendigerweise paarweise verschieden sind. Die aus r Vektoren bestehende Liste (v1 , . . . , vr ) heißt: (1) linear unabh¨angig, fallsP der Nullvektor nur mit λ1 = λ2 = · · · = λr = 0 r als Linearkombination i=1 λi vi dargestellt werden kann. Mit anderen Worten: ∀ λ1 , . . . , λr ∈ K :
r X i=1
λi vi = 0
=⇒
λ1 = λ2 = · · · = λr = 0 .
(2) linear abh¨angig, wenn sie nicht linear unabh¨angig ist.
2.2 Vektorr¨ aume und lineare Abbildungen
97
(3) Erzeugendensystem von V , falls Lin(v1 , . . . , vr ) = V gilt. Bemerkung 2.2.8. Wir sprechen in Definition 2.2.7 von einer Liste von Vektoren und nicht von einer Menge, um hervorzuheben, dass zum Beispiel die Listen (v) und (v, v) voneinander verschieden sind. Wenn v 6= 0, dann ist die erste linear unabh¨ angig, die zweite jedoch nicht. Es w¨are falsch von einer Menge statt einer Liste von Vektoren zu sprechen, denn {v} = {v, v} und somit w¨are der Unterschied zwischen den Listen (v) und (v, v) verschwunden. Bei der Definition des Begriffes Erzeugendensystem spielt diese Unterscheidung jedoch keine Rolle. Außerdem beeinflusst eine Permutation der Elemente in einer Liste nicht die Eigenschaft, linear unabh¨angig zu sein. Schließlich wird die Definition dadurch erg¨ anzt, dass wir auch die leere Liste als linear unabh¨angig betrachten. Wenn (v1 , . . . , vr ) ein Erzeugendensystem Pr von V ist, dann l¨asst sich jeder Vektor aus V als Linearkombination i=1 λi vi schreiben. Diese Darstellung muss allerdings nicht eindeutig sein. Wenn (v1 , . . . , vr ) eine linear unabh¨ angige Liste ist, dann gibt esPf¨ ur jedes r v ∈ Lin(v1 , . . . , vrP ) ⊂ V genau P eine Darstellung der Gestalt v = i=1 λi vi , Pr r r denn wenn v = λ v = µ v , dann gilt (λ − µ )v i i i i i i i = 0, i=1 i=1 i=1 woraus wegen der Definition der linearen Unabh¨angigkeit λi = µi f¨ ur alle i folgt. Wenn (v1 , . . . , vr ) ein linear unabh¨ angiges Erzeugendensystem ist, dann Pr k¨ onnen wir jeden Vektor aus V eindeutig in der Form i=1 λi vi schreiben. Das f¨ uhrt zu folgender Definition. Definition 2.2.9. Eine Liste (v1 , . . . , vr ) von Vektoren aus V heißt Basis des K-Vektorraumes V , falls es sich um ein linear unabh¨angiges Erzeugendensystem von V handelt. Beispiel 2.2.10. (i) Falls v ∈ V , dann ist die einelementige Liste (v) genau dann linear unabh¨ angig, wenn v 6= 0 gilt. (ii) Sobald in einer Liste (v1 , . . . , vr ) ein Element vi = 0 ist, ist sie linear abh¨angig. Das gleiche gilt, wenn f¨ ur ein Paar von verschiedenen Indizes i 6= j die entsprechenden Vektoren vi = vj gleich sind. (iii) (e1 , . . . , en ) ist Basis von K n . (iv) (1, x, x2 , . . . , xd ) ist Basis von K[X]≤d . (v) (1, i) ist Basis von C als R-Vektorraum. (vi) F¨ ur jeden K¨orper K, betrachtet als K-Vektorraum, ist (1) eine Basis. Das ist Beispiel (iii) f¨ ur n = 1. Wir nennen eine linear unabh¨ angige Liste von Vektoren (v1 , . . . , vr ) nicht verl¨angerbar oder maximal, falls f¨ ur jeden Vektor v ∈ V die Liste (v1 , . . . , vr , v) linear abh¨angig ist. Ein Erzeugendensystem (v1 , . . . , vr ) wollen wir unverk¨ urzbar oder minimal nennen, wenn nach Weglassen eines der Vektoren vi aus dieser Liste kein Erzeugendensystem mehr vorliegt.
98
2 Lineare Algebra
Satz 2.2.11 Sei V ein K-Vektorraum und (v1 , . . . , vr ) eine Liste von Vektoren aus V . Folgende Aussagen sind ¨aquivalent: (a) (v1 , . . . , vr ) ist Basis von V , (b) (v1 , . . . , vr ) ist eine nicht verl¨angerbare linear unabh¨angige Liste, (c) (v1 , . . . , vr ) ist ein unverk¨ urzbares Erzeugendensystem. Beweis. Wir beweisen die Implikationen (a) ⇒ (b) ⇒ (c) ⇒ (a), woraus ¨ dann schließlich die Aquivalenz der drei Aussagen folgt. Dieser bequemen Beweismethode werden wir noch mehrmals begegnen. (a) ⇒ (b): Sei (v1 , . . . , vr ) eine Basis von V . Dann ist diese Liste auch linear unabh¨angig und wir m¨ ussen nur noch zeigen, dass sie nicht verl¨angerbar ist. Sei dazuP v ∈ V beliebig. Da die gegebene Liste eine Basis ist, gibt es λi ∈ K r mit v = i=1 λi vi und das liefert 0 = (−1) · v + λ1 v1 + · · · + λr vr . Somit ist (v1 , . . . , vr , v) linear abh¨ angig, was zu beweisen war. angige Liste, die nicht verl¨anger(b) ⇒ (c): Sei (v1 , . . . , vr ) eine linear unabh¨ bar ist. Das heißt, dass f¨ ur jedes v ∈ V Skalare λi ∈ K und λ ∈ K mit λv + λ1 v1 + · · · + λr vr = 0 existieren, die nicht s¨amtlich gleich 0 sind. W¨are λ = 0, so m¨ ussten auch alle λi = 0 sein, da (v1 , . . . , vr ) linear unabh¨angig ist. Daher ist λ 6= 0 und v = − λλ1 v1 − . . . − λλr vr . Also ist (v1 , . . . , vr ) ein Erzeugendensystem. W¨ are es verk¨ urzbar, so k¨ onnte man einen der Vektoren vi als Linearkombination der restlichen darstellen, was der linearen Unabh¨angigkeit von (v1 , . . . , vr ) widerspr¨ ache. Das zeigt, dass (v1 , . . . , vr ) ein unverk¨ urzbares Erzeugendensystem ist. urzbares Erzeugendensystem. W¨are die(c) ⇒ (a): Sei (v1 , . . . , vr ) ein unverk¨ se Liste linear abh¨ a ngig, so g¨ a be es λi ∈ K, die nicht s¨amtlich 0 sind, mit Pr λ v = 0. Nach geeigneter Umnummerierung k¨onnen wir annehmen, i=1 i i λ1 dass λr 6= 0 ist. Dann w¨ are vr = − λr v1 − . . . − λλr−1 vr−1 , woraus sich r erg¨abe, dass bereits (v1 , . . . , vr−1 ) ein Erzeugendensystem ist. Dies widerspr¨ache jedoch der angenommenen Unverk¨ urzbarkeit des Erzeugendensystems (v1 , . . . , vr ). Somit ist (v1 , . . . , vr ) linear unabh¨angig, also eine Basis. ⊓ ⊔ Der Begriff der Basis eines Vektorraumes ist das entscheidende Bindeglied zwischen der allgemeinen Theorie der Vektorr¨aume und konkreten Rechnungen und damit auch zu unserer geometrischen Anschauung. Um eine Verbindung der allgemeinen Theorie zu konkreten Rechnungen zu erm¨oglichen, ben¨otigen wir die grundlegende Tatsache, dass alle Basen eines Vektorraumes dieselbe Anzahl von Elementen besitzen. Der folgende Satz dient zur Vorbereitung des Beweises dieser wichtigen und nicht offensichtlichen Tatsache. Satz 2.2.12 Wenn (v1 , . . . , vr ) eine Basis und (w1 , . . . , ws ) eine linear unabh¨angige Liste von Vektoren eines K-Vektorraumes V ist, dann gilt r ≥ s.
2.2 Vektorr¨ aume und lineare Abbildungen
99
Beweis. Da (v1 , . . . , vr ) eine Basis und damit auch Erzeugendensystem ist, Pr gibt es f¨ ur jedes 1 ≤ j ≤ s Elemente aij ∈ K mit i=1 aij vi = wj . Wir betrachten nun das lineare Gleichungssystem A · x = 0 mit der Matrix A = (aij ) ∈ Mat(r × s, K) und dem Vektor x ∈ K s mit Komponenten xi . Wie am Ende von Abschnitt 2.1 bemerkt, sind die dortigen Resultate nicht nur f¨ ur K = R, sondern f¨ ur beliebige K¨orper K g¨ ultig. Insbesondere k¨ onnen wir A mittels elementarer Zeilentransformationen in Zeilenstufenform eu e 0). Die L¨osbarkeitsbedingung A uhren. Es gilt dann L¨ os(A| 0) = L¨ os(A| ¨ berf¨ e ist f¨ ur A erf¨ ullt, da die rechte Seite der Gleichung der Nullvektor ist. W¨are e mehr nun, im Gegensatz zur Behauptung des Satzes, r < s, so h¨atte A Spalten als Zeilen. Es g¨ abe also mindestens eine freie Variable. Das hat s zur Folge, dass es eine L¨ osung Ps0 6= x ∈ K gibt. Sei x = (λ1 , . . . , λs ) eiur 1 ≤ i ≤ r und das ergibt ne solche L¨osung. Dann gilt j=1 aij λj = 0 f¨ P P P P P 0 = ri=1 ( sj=1 aij λj ) · vi = sj=1 ( ri=1 aij vi )λj = sj=1 λj wj im Widerspruch zur linearen Unabh¨ angigkeit der Liste (w1 , . . . , ws ). Damit muss, wie behauptet, r ≥ s sein. ⊓ ⊔ Satz 2.2.13 Sei V ein K-Vektorraum, welcher ein endliches Erzeugendensystem besitzt. Dann besitzt V eine Basis, die aus endlich vielen Vektoren besteht. Außerdem haben alle Basen von V dieselbe Anzahl von Elementen. Beweis. Durch Streichung endlich vieler Elemente eines beliebigen endlichen Erzeugendensystems erh¨ alt man ein unverk¨ urzbares Erzeugendensystem, welches nur endlich viele Elemente enth¨ alt. Nach Satz 2.2.11 ist dies dann eine Basis. Seien (v1 , . . . , vr ) und (w1 , . . . , ws ) zwei Basen. Da beide Listen auch linear unabh¨angig sind, k¨ onnen wir zweimal, jeweils mit vertauschten Rollen, den Satz 2.2.12 auf diese beiden Listen anwenden, und erhalten sowohl s ≥ r als auch r ≥ s, das heißt r = s. ⊓ ⊔ Dieser Satz garantiert die Korrektheit der folgenden Definition. Definition 2.2.14. Sei V ein K-Vektorraum. Wenn V ein endliches Erzeugendensystem besitzt, dann heißt die Zahl der Elemente einer (und somit jeder) Basis von V die Dimension von V . Wir schreiben f¨ ur diese Zahl dimK V . Wenn es kein endliches Erzeugendensystem f¨ ur V gibt, sagen wir V ist unendlichdimensional und schreiben dimK V = ∞. Bemerkung 2.2.15. Mit Hilfe von Satz 2.2.11 l¨asst sich zeigen, dass ein KVektorraum V genau dann unendlichdimensional ist, wenn f¨ ur jede nat¨ urliche Zahl n ≥ 0 eine linear unabh¨ angige Liste existiert, die genau n Elemente aus V enth¨alt. Beispiel 2.2.16. (i) Es gilt dimK K n = n, insbesondere dimK {0} = 0. (ii) Es ist dimR C = 2 und dimC C = 1.
100
2 Lineare Algebra
(iii) Es gilt dimK K[X] = ∞, aber dimK K[X]≤d = d + 1. (iv) Wir erhalten dimK Mat(m × n, K) = m · n, indem wir eine Basis dieses Vektorraumes angeben. Dazu definieren wir Matrizen Eij ∈ Mat(m × n, K), deren einziger von Null verschiedener Eintrag in Zeile i P und Spalte j auftritt und gleich 1 ist. Da jede m × n-Matrix (aij ) als i,j aij Eij geschrieben werden kann, ist die Liste (Eij | 1 ≤ i ≤ m, 1 ≤ j ≤ n) tats¨achlich eine Basis von Mat(m × n, K). (v) Wenn V ⊂ W Unterraum und dimK V = dimK W , dann ist V = W . Dies erh¨alt man aus Satz 2.2.11 (b). Der aufmerksame Leser wird bemerkt haben, dass die Beobachtungen, die wir am Ende von Abschnitt 2.1 gemacht hatten, besagen, dass die L¨osungsmenge eines linearen Gleichungssystems der Gestalt Ax = 0 ein Vektorraum ist. Um nicht nur die L¨ osungsmenge, sondern auch das Gleichungssystem selbst in einem allgemeinen Begriff zu fassen, befassen wir uns nun mit strukturerhaltenden Abbildungen zwischen Vektorr¨ aumen. Das ist analog zu den im Kapitel 1 studierten Begriffen der Homomorphismen von Gruppen, Ringen und K¨orpern. Zur Vermeidung von Schwierigkeiten, die von einem ersten Verst¨andnis der Grundbegriffe ablenken w¨ urden, betrachten wir ab jetzt nur noch solche Vektorr¨ aume, die ein endliches Erzeugendensystem besitzen und somit von endlicher Dimension sind. Definition 2.2.17. Seien V, W zwei K-Vektorr¨aume. (1) Eine Abbildung f : V → W heißt linear (oder Vektorraumhomomorphismus), falls f¨ ur alle u, v ∈ V und λ ∈ K gilt: f (u + v) = f (u) + f (v) f (λ · u) = λ · f (u) .
und
(2.10) (2.11)
(2) Die Menge aller linearen Abbildungen f : V → W bezeichnen wir mit HomK (V, W ). Dies wird ein K-Vektorraum, wenn wir die Summe f + g und das skalare Vielfache λf von linearen Abbildungen f, g ∈ HomK (V, W ) f¨ ur alle v ∈ V durch die Vorschriften
(3) Die Menge
(f + g)(v) := f (v) + g(v) und (λf )(v) := λ · f (v) definieren. ker(f ) := {v ∈ V | f (v) = 0} ⊂ V
heißt Kern von f und die Menge im(f ) := {f (v) | v ∈ V } ⊂ W heißt Bild von f . (4) F¨ ur w ∈ W nennen wir die Menge
2.2 Vektorr¨ aume und lineare Abbildungen
101
f −1 (w) = {v ∈ V | f (v) = w} ⊂ V die Faser von f u ¨ ber w (vergleiche Definition 6.3.9). Satz 2.2.18 Sei f : V → W eine lineare Abbildung. Dann gilt: (1) (2) (3) (4) (5) (6)
ker(f ) ⊂ V ist ein Unterraum. im(f ) ⊂ W ist ein Unterraum. f ist surjektiv6 ⇐⇒ im(f ) = W . f ist injektiv ⇐⇒ ker(f ) = {0}. Wenn f bijektiv ist, dann ist auch die inverse Abbildung f −1 linear. F¨ ur jede lineare Abbildung g : U → V ist f ◦ g : U → W linear.
Beweis. Da jede lineare Abbildung auch ein Homomorphismus der additiven Gruppen der beteiligten Vektorr¨ aume ist, k¨ onnen wir Satz 1.3.30 anwenden. Aus diesem Satz folgt die Aussage (4) und aus Bemerkung 1.3.29 folgt (3). Zum Beweis von (1) und (2) ist nur noch zu zeigen, dass f¨ ur λ ∈ K, v ∈ ker(f ) und w ∈ im(f ) stets λv ∈ ker(f ) und λw ∈ im(f ) gilt. Das ist eine Konsequenz von f (λv) = λf (v). F¨ ur bijektives f folgt aus Bem. 1.3.12, dass f −1 ein Homomorphismus der additiven Gruppen ist. Da f¨ ur v ∈ V und w ∈ W genau dann f −1 (w) = v gilt, wenn f (v) = w ist, folgt aus f (λv) = λ · f (v) = λw auch f −1 (λw) = λv = λ · f −1 (w). Das beweist (5). Die Aussage (6) erh¨alt man durch direktes Nachrechnen, denn f¨ ur u, u′ ∈ U und λ ∈ K gilt: (f ◦ g)(u + u′ ) = f (g(u + u′ )) = f (g(u) + g(u′ )) = f (g(u)) + f (g(u′ )) = (f ◦ g)(u) + (f ◦ g)(u′ )
und
(f ◦ g)(λu) = f (g(λu)) = f (λg(u)) = λf (g(u)) = λ ((f ◦ g)(u)) . ⊓ ⊔
Definition 2.2.19. Eine bijektive lineare Abbildung nennt man Isomorphismus von Vektorr¨aumen. Wenn es einen Isomorphismus V → W gibt, dann sagen wir V und W sind isomorph und schreiben V ∼ = W . Um hervorzuheben, dass eine lineare Abbildung f : V → W ein Isomorphismus ist, schreiben ∼ wir oft f : V − → W. Beispiel 2.2.20. (i) Die durch pri (x1 , . . . , xn ) := xi definierte Abbildung pri : K n → K ist f¨ ur jedes 1 ≤ i ≤ n linear. Die Abbildung pri heißt Projektion auf die i-te Komponente. (ii) Wenn U ⊂ V ein Unterraum ist, dann definiert die Inklusion von U in V eine lineare Abbildung U → V . Im Fall U = V bezeichnen wir diese Abbildung mit 1V : V → V und nennen sie identische Abbildung, weil 1V (v) = v f¨ ur alle v ∈ V . 6
Siehe Definition 6.3.3.
102
2 Lineare Algebra
(iii) Jede m × n-Matrix A = (aij ) ∈ Mat(m × n, K) definiert eine lineare Abbildung fA : K n → K m durch die Formel n n X X amj xj . fA (x1 , . . . , xn ) := a1j xj , . . . , j=1
j=1
Das ist nichts anderes als die Multiplikation einer Matrix mit einem Vektor fA (x) = A · x, siehe Seite 82. Da fA (ej ) = fA (0, . . . , 0, 1, 0, . . . , 0) = (a1j , a2j , . . . , amj ) die j-te Spalte von A ist, k¨onnen wir die Matrix A aus der linearen Abbildung fA rekonstruieren. Einer beliebigen linearen Abbildung f : K n → K m kann man auf diese Weise eine Matrix A zuordnen. Pn Sie hat den Vektor f (ej ) als j-te Spalte. Weil f (x1 , . . . , xn ) = j=1 xj f (ej ), ist dann f = fA und somit ist die Zuordnung A 7→ fA eine Bijektion Mat(m × n, K) → HomK (K n , K m ) . Da diese Abbildung linear ist, handelt es sich um einen Isomorphismus von Vektorr¨ aumen. Falls m = n, dann entspricht die identische Abbildung 1K n unter diesem Isomorphismus der Einheitsmatrix 1n , f¨ ur deren Eintr¨age aij gilt: aii = 1 und aij = 0 wenn i 6= j. Konkret heißt dies: 1000 100 0 1 0 0 10 11 = (1), 12 = , 13 = 0 1 0 , 14 = 0 0 1 0 e.t.c. 01 001 0001
(iv) Wenn F = (v1 , . . . , vr ) eine Prbeliebige Liste von Vektoren in V ist, dann ist durch ΦF (x1 , . . . , xr ) := i=1 xi vi eine lineare Abbildung ΦF : K r → V definiert. Offenbar gilt im(ΦF ) = Lin(v1 , . . . , vr ). Aus den Definitionen ergibt sich unmittelbar: F ist Erzeugendensystem von V
⇐⇒
ΦF ist surjektiv
F ist eine Basis von V
⇐⇒
ΦF ist ein Isomorphismus.
F ist linear unabh¨ angig
⇐⇒
ΦF ist injektiv
Definition 2.2.21. Ein Koordinatensystem eines K-Vektorraumes V ist ein ∼ Isomorphismus S : V − → K r . Die linearen Abbildungen xi := pri ◦S : V → K heißen Koordinatenfunktionen. Wenn B = (v1 , . . . , vr ) eine Basis von V ist, ∼ dann nennen wir den Isomorphismus SB := Φ−1 → K r das zur Basis B B : V − geh¨orige Koordinatensystem. Ganz konkret bedeutet dies das Folgende. Wenn v ∈ P V bez¨ uglich der Bar sis B = (v1 , . . . , vr ) die eindeutige Darstellung v = i=1 λi vi hat, dann ist SB (v) = (λ1 , . . . , λr ) und xi (v) = λi . Das f¨ uhrt zu den Formeln v = P r i=1 xi (v) · vi und SB (vi ) = ei .
2.2 Vektorr¨ aume und lineare Abbildungen
103
∼
Zu jedem Koordinatensystem S : V − → K r geh¨ort genau eine Basis B, so dass S = SB gilt. Die Basisvektoren vi sind durch S(vi ) = ei eindeutig festgelegt. Die Wahl einer Basis ist daher gleichwertig mit der Angabe eines Koordinatensystems. Etwas mathematischer ausgedr¨ uckt: Die Abbildung B 7→ SB ist eine Bijektion zwischen der Menge aller Basen von V und der Menge aller Koordinatensysteme von V . Wegen Satz 2.2.13 gilt genau dann dimK V = n, wenn V ∼ = K n . Die Angabe eines solchen Isomorphismus entspricht der Auswahl einer Basis von V . In Verallgemeinerung des Beispiels 2.2.20 (iii) k¨onnen wir jeder linearen Abbildung f : V → W eine Matrix zuordnen. Diese Matrix h¨angt jedoch von der Wahl einer Basis A = (v1 , . . . , vn ) von V und einer Basis B = (w1 , . . . , wm ) von W ab. Die Eintr¨ age aij der Matrix MBA (f ) ∈ Mat(m × n, K), die wir Matrixdarstellung von f bez¨ uglich der Basen A und B nennen, definieren wir durch m X aij wi . f (vj ) = i=1
In Kurzform zum Einpr¨ agen: Die Spalten sind die Koordinaten der Bilder der Basisvektoren.
Wenn uns die Basen A = (v1 , . . . , vn ) und B = (w1 , . . . , wm ) bekannt sind, dann k¨onnen wir aus der Matrix MBA (f ) die lineare Abbildung f : V → W wieder zur¨ uckgewinnen. Denn f¨ ur jeden Vektor v ∈ V gibt es eine eindeutige Pn Darstellung v = j=1 λj vj und somit ist
f (v) = f
n X j=1
λj vj =
n X
λj f (vj ) =
j=1
m X i=1
n X j=1
λj aij wi .
Wenn wir mit Koordinatensystemen statt mit Basen arbeiten, wird alles noch u ¨bersichtlicher: Seien S : V → K n und T : W → K m die zu A und B geh¨ origen Koordinatensysteme. Dann ist die lineare Abbildung T ◦ f ◦ S −1 : K n → K m genau die, die unter dem Isomorphismus ∼ Mat(m × n, K) − → HomK (K n , K m ) aus Beispiel 2.2.20 (iii) der Matrix A MB (f ) entspricht. Das kann man sich sehr einpr¨agsam durch ein kommutatives Diagramm veranschaulichen, in dem wir MBA (f ) statt fMBA (f ) schreiben: V Sy K
n
f
−−−−→
W yT
−−−−→ K A (f ) MB
m
(2.12) .
Von einem kommutativen Diagramm spricht man, wenn alle Abbildungen zwischen zwei Punkten des Diagramms u ¨ bereinstimmen, die man durch Kom-
104
2 Lineare Algebra
position verschiedener Pfeile des Diagramms erhalten kann. Im obigen Bei¨ spiel ist das die Ubereinstimmung von T ◦ f und fMBA (f ) ◦ S. Zur Berechnung der Komposition g ◦ f : U → W zweier linearer Abbildungen f g U− →V − → W m¨ ussen wir verstehen, wie man aus den Matrizen MBA (f ) und B MC (g) die Matrix MCA (g ◦ f ) erh¨ alt. Dazu dient die folgende Definition. Definition 2.2.22. F¨ ur zwei Matrizen B = (bij ) ∈ Mat(m × n, K) und A = (akl ) ∈ Mat(n × r, K) ist das Produkt B ◦ A ∈ Mat(m × r, K) die Matrix deren Eintrag an der Position (i, j) gleich n X
bik akj
k=1
ist. Die j-te Spalte von B ◦ A ist das Produkt der Matrix B mit dem j-ten Spaltenvektor von A (siehe Seite 82). f
g
Wenn U − → V − → W lineare Abbildungen und A = (u1 , . . . , ur ), B = (v1 , . . . , vn ), C = (w1 , . . . , wm ) Basen von U, V bzw. W sind, dann gilt MCA (g ◦ f ) = MCB (g) ◦ MBA (f ) . B Um dies zu beweisen, setzen wir MBA (f )P= (aij ) und (g) = (bkl ). Wir MCP n n a v = erhalten (g ◦ f )(uj ) = g (f (uj )) = g kj k k=1 akj g(vk ) = k=1 Pm Pm Pn Pn b w = a w . In diesem Sinne entspricht b a i i=1 ik i i=1 k=1 kj k=1 ik kj das Matrizenprodukt genau der Komposition von Abbildungen.
Definition 2.2.23. Die Transponierte einer Matrix A = (aij ) ∈ Mat(m × n, K) ist die Matrix At ∈ Mat(n × m, K), deren Eintrag an Position (i, j) gleich aji ist. Das heißt, dass die j-te Spalte von At mit der j-ten Zeile von Au ¨ bereinstimmt. Satz 2.2.24 Seien A, A′ ∈ Mat(m × n, K), B, B ′ ∈ Mat(n × r, K), C ∈ Mat(r × s, K) und λ ∈ K, dann gilt: (1) (2) (3) (4) (5)
A ◦ (B + B ′ ) = A ◦ B + A ◦ B ′ und (A + A′ ) ◦ B = A ◦ B + A′ ◦ B. A ◦ (λB) = (λA) ◦ B = λ · (A ◦ B). (A ◦ B) ◦ C = A ◦ (B ◦ C). A ◦ 1n = A und 1n ◦ B = B. t (A ◦ B) = B t ◦ At .
Beweis. Einfaches Nachrechnen.
⊓ ⊔
Definition 2.2.25. Eine Matrix A ∈ Mat(n × n, K) heißt invertierbar, falls eine Matrix A′ ∈ Mat(n × n, K) existiert, so dass A ◦ A′ = A′ ◦ A = 1n gilt. Die Menge
2.2 Vektorr¨ aume und lineare Abbildungen
105
GL(n, K) := {A ∈ Mat(n × n, K) | A ist invertierbar} heißt allgemeine lineare Gruppe. Satz 2.2.26 Die Menge GL(n, K) ist mit dem Matrizenprodukt eine Gruppe. Beweis. Seien A, B ∈ GL(n, K), dann gibt es Matrizen A′ , B ′ ∈ Mat(n × n, K), f¨ ur die A ◦ A′ = A′ ◦ A = B ◦ B ′ = B ′ ◦ B = 1n gilt. Damit erhalten wir (A ◦ B) ◦ (B ′ ◦ A′ ) = A ◦ (B ◦ B ′ ) ◦ A′ = A ◦ 1n ◦ A′ = A ◦ A′ = 1n und (B ′ ◦ A′ ) ◦ (A ◦ B) = B ′ ◦ (A′ ◦ A) ◦ B = B ′ ◦ 1n ◦ B = B ′ ◦ B = 1n . Somit gilt f¨ ur beliebige A, B ∈ GL(n, K) stets A ◦ B ∈ GL(n, K). Die Gruppenaxiome folgen nun sehr leicht aus Satz 2.2.24 und der Definition. ⊓ ⊔ Wie f¨ ur Gruppen u ¨ blich, schreiben wir A−1 statt A′ und sprechen von der inversen Matrix. Aus den vorangegangenen Betrachtungen ist nun klar, dass eine Matrix A ∈ Mat(n × n, K) genau dann in GL(n, K) liegt, wenn fA ein Isomorphismus ist. Definition 2.2.27. (1) Sei f : V → W eine lineare Abbildung, dann ist der Rang der Abbildung f die Zahl rk(f ) := dimK im(f ). (2) Sei A ∈ Mat(m × n, K), dann ist der Rang rk(A) der Matrix A die maximale Anzahl linear unabh¨ angiger Spalten von A. Wenn fA : K n → K m die zu A geh¨ orige lineare Abbildung ist, dann ist rk(fA ) = rk(A). Wenn f : V → W eine lineare Abbildung und A, B Basen von V und W sind, dann ist rk(f ) = rk MBA (f ) . Beide Aussagen folgen aus Satz 2.2.11. Satz 2.2.28 (Dimensionsformel) F¨ ur jede lineare Abbildung f : V → W und jede Matrix A ∈ Mat(m × n, K) gilt dim V = rk(f ) + dimK ker(f ) n = rk(A) + dimK L¨os(A| 0) .
Beweis. Zun¨achst beweisen wir die Aussage f¨ ur lineare Abbildungen f . Sei r = rk(f ) = dimK im(f ) und (w1 , . . . , wr ) eine Basis von im(f ) ⊂ W . Sei außerdem s := dimK ker(f ) und (v1 , . . . , vs ) eine Basis von ker(f ) ⊂ V . Wir w¨ ahlen beliebige Vektoren vs+1 , . . . , vs+r ∈ V , f¨ ur die f (vs+i ) = wi gilt. Dann ist (v1 , . . . , vs+r ) eine Basis von V . Um dies zu beweisen, zeigen wir, dass diese Liste linear unabh¨ angig und ein Erzeugendensystem ist.
106
2 Lineare Algebra
Ps+r Zum Beweis der linearen Unabh¨ angigkeit nehmen wir an j=1 λj vj = 0. Ps+r ur 1 ≤ j ≤ s. Da f¨ ur 1 ≤ i ≤ Daraus folgt j=s+1 λj f (vj ) = 0, da f (vj ) = 0 f¨ r die Vektoren f (vi+s ) = wi nach Voraussetzung linear unabh¨angig sind, folgt λs+1 = . . . = λs+r = 0. Aus der urspr¨ unglichen Gleichung erhalten wir daher P s λ v = 0. Da v , . . . , v linear unabh¨ angig sind, folgt λ1 = . . . = λs = 0. 1 s j=1 j j Um zu zeigen, dass (v1 , . . . , vs+r ) ein Erzeugendensystem von V ist, w¨ahlen wir einen Pbeliebigen Vektor v ∈ V . Dann P gibt es λs+1 , . . . , λs+r P∈ K, so dass f (v) = ri=1 λs+i wi gilt. Da f (v − ri=1 λs+i vs+i ) = f (v) − ri=1 λs+i wi = Ps+r 0, ist v − j=s+1 λj vj ∈ ker(f ). Da (v1 , . . . , vs ) eine Basis von ker(f ) ist, P Ps gibt es λ1 , . . . , λs ∈ K, so dass v − s+r j=s+1 λj vj = j=1 λj vj gilt, d.h. Pr+s v = j=1 λj vj . Die Aussage f¨ ur Matrizen A folgt aus dem bereits Gezeigten, da rk(A) = rk(fA ) und L¨os(A| 0) = ker(fA ). ⊓ ⊔ Folgerung 2.2.29. Sei f : V → W linear und dimK V = dimK W . Dann sind die folgenden drei Aussagen ¨aquivalent: (i) f ist ein Isomorphismus (ii) f ist injektiv (iii) f ist surjektiv. F¨ ur jede Matrix A ∈ Mat(n × n, K) sind die folgenden drei Aussagen a quivalent: ¨ (i) rk(A) = n (ii) A ∈ GL(n, K) (iii) At ∈ GL(n, K). Beweis. F¨ ur den ersten Teil gen¨ ugt es zu zeigen, dass f genau dann injektiv ist, wenn f surjektiv ist. Mit Hilfe der Dimensionsformel (Satz 2.2.28) erhalten wir: f ist injektiv ⇐⇒ dimK ker(f ) = 0 ⇐⇒ rk(f ) = dimK V
⇐⇒ dimK im(f ) = dimK W ⇐⇒ im(f ) = W ⇐⇒ f ist surjektiv.
¨ Die Aquivalenz (i) ⇐⇒ (ii) im zweiten Teil folgt aus dem bereits Gezeigten. Zum Beweis von (ii) ⇒ (iii) sei A ∈ GL(n, K). Dann gilt A ◦ A−1 = 1n und t A−1 ◦ A = 1n . Da 1n t = 1n , erhalten wir aus Satz 2.2.24 (5) (A−1 ) ◦ At = 1n t t und At ◦ (A−1 ) = 1n , daher gilt At ∈ GL(n, K). Da (At ) = A, ergibt sich auch die umgekehrte Implikation (iii) ⇒ (ii). ⊓ ⊔ t
Bemerkung 2.2.30. Aus dem Beweis sehen wir (At )−1 = (A−1 ) .
2.2 Vektorr¨ aume und lineare Abbildungen
107
Definition 2.2.31. Sei U ⊂ V ein Unterraum. Der Quotientenraum V /U ¨ ¨ besteht aus den Aquivalenzklassen [v] ⊂ V bez¨ uglich der Aquivalenzrelation v ∼ w ⇐⇒ v − w ∈ U . Dies sind die additiven Nebenklassen von U in V (vgl. Seite 33 und Abschnitt 1.2), es ist also [v] = [w] ⇐⇒ v − w ∈ U . Die Elemente von V /U sind genau die zu U parallelen affinen Unterr¨aume in V . Durch [v] + [w] = [v + w] und λ · [v] = [λv] erh¨alt V /U die Struktur eines Vektorraumes. Die Abbildung V → V /U , die v auf [v] abbildet, ist linear und surjektiv. Sie heißt kanonische Abbildung. Folgerung 2.2.32. (1) Jeder Unterraum U ⊂ V ist der Kern der kanonischen Abbildung V → V /U und es gilt dimK V /U = dimK V − dimK U . (2) (Homomorphiesatz) Wenn f : V → W eine lineare Abbildung ist, ∼ dann ist durch f¯([v]) := f (v) ein Isomorphismus f¯ : V / ker(f ) − → im(f ) definiert. Beweis. Die Aussage (1) ist wegen der Surjektivit¨at der kanonischen Abbildung und Satz 2.2.28 klar. Zum Beweis von (2) k¨onnen wir Satz 1.3.32 anwenden und erhalten, dass f¯ ein Isomorphismus der zugrunde liegenden additiven Gruppen ist. Da außerdem f¯(λ[v]) = f¯([λv]) = f (λv) = λf (v) = λf¯([v]), ist f¯ linear und somit ein Isomorphismus von Vektorr¨aumen. ⊓ ⊔ Satz 2.2.33 (1) Seien lineare Abbildungen ∼
∼
V ′ −−−−→ V −−−−→ W −−−−→ W ′ ϕ
f
ψ
gegeben, wobei ϕ und ψ Isomorphismen sind. Dann gilt rk(f ) = rk(ψ ◦ f ◦ ϕ) . (2) Sei A ∈ Mat(m × n, K), P ∈ GL(m, K), Q ∈ GL(n, K). Dann gilt rk(A) = rk(P ◦ A ◦ Q)
und
t
rk(A) = rk(A ) .
F¨ ur jede Matrix stimmt die maximale Zahl linear unabh¨angiger Zeilen mit der maximalen Zahl linear unabh¨angiger Spalten ¨ uberein. Beweis. (1) Da ϕ : V ′ → V ein Isomorphismus ist, ist im(f ) = im(f ◦ ϕ). Da ψ : W → W ′ ein Isomorphismus ist, liefert er uns einen Isomorphismus ∼ ψ : im(f ) = im(f ϕ) − → im(ψ ◦ f ◦ ϕ). Daraus folgt die behauptete Gleichung dimK im(f ) = dimK im(ψ ◦ f ◦ ϕ). (2) Wenn wir die Matrizen A, P, Q als lineare Abbildungen interpretieren, dann folgt rk(A) = rk(P ◦ A ◦ Q) aus (1). Sei nun A ∈ Mat(m × n, K)
108
2 Lineare Algebra
und fA : K n → K m die zugeh¨ orige lineare Abbildung. Wir w¨ahlen eine Basis (w1 , . . . , wr ) f¨ ur im(fA ) ⊂ K m und Vektoren v1 , . . . , vr ∈ K n mit fA (vi ) = wi . Dann ist r = rk(A). Außerdem sei (vr+1 , . . . , vn ) eine Basis von ker(fA ) ⊂ K n . Dann ergibt sich, genau wie im Beweis von Satz 2.2.28, dass (v1 , . . . , vn ) eine Basis von K n ist. Schließlich w¨ahlen wir Vektoren wr+1 , . . . , wm ∈ K m , so dass (w1 , . . . , wm ) eine Basis von K m ist, das heißt, wir erg¨anzen (w1 , . . . , wr ) zu einer nicht verl¨ angerbaren linear unabh¨angigen Liste. Dann ist die Matrixdarstellung M (fA ) bez¨ uglich dieser Basen eine Matrix, die in der linken oberen Ecke einen Block der Gestalt 1r und sonst nur t Nullen enth¨alt. Offenbar ist dann rk(M (fA )) = rk(M (fA ) ) = r. Wenn T, S die zu den gew¨ahlten Basen geh¨ origen Koordinatensysteme sind, dann erhalten wir T ◦ fA ◦ S −1 = fM(fA ) aus (2.12). Wenn wir die Matrixdarstellungen ∼ ∼ der Isomorphismen T : K m − → K m und S : K n − → K n bez¨ uglich der Standardbasen ebenfalls mit T und S bezeichnen, dann k¨onnen wir dies in der Form T ◦A◦S −1 = M (fA ) schreiben. Unter Verwendung von Teil (1) erhalten wir schließlich: rk(A) = rk(T AS −1 ) = rk(M (fA )) = t t = rk(M (fA ) ) = rk (T AS −1 ) = rk (S t )−1 ◦ At ◦ T t = = rk(At ) .
⊓ ⊔
Aufgaben ¨ Ubung 2.7. Welche der folgenden Mengen sind Untervektorr¨aume in den jeweiligen Vektorr¨ aumen? (a) {(x1 , x2 , x3 ) | x1 = 2x2 = 3x3 } ⊂ R3 . (b) {(x1 , x2 ) | x21 + x22 = 4} ⊂ R2 . (c) Die Menge der Matrizen A ∈ Mat(m×n, R), deren erste und letzte Spalte u ¨ bereinstimmen. (d) Die Menge der Matrizen A ∈ Mat(m × n, F2 ), f¨ ur die die Anzahl der von Null verschiedenen Eintr¨ age in jeder Spalte gerade ist. ¨ Ubung 2.8. Sei V ein K-Vektorraum und v1 , . . . , vr ∈ V . Beweisen Sie, dass Lin(v1 , . . . , vr ) ⊂ V ein Untervektorraum ist. ¨ Ubung 2.9. Sind die Vektoren (0, 3, 13), (1, 5, 21), (8, 34, 144) ∈ Q3 linear unabh¨angig? ¨ Ubung 2.10. Finden Sie alle Primzahlen p, f¨ ur welche die drei Vektoren aus Aufgabe 2.9, interpretiert als Vektoren im Fp -Vektorraum F3p , linear abh¨angig sind.
2.2 Vektorr¨ aume und lineare Abbildungen
109
¨ Ubung 2.11. Sei f : R3 → R4 die durch die Matrix 123 2 3 4 A= 2 4 7 136
gegebene lineare Abbildung. Berechnen Sie die Matrix MBA (f ) bez¨ uglich der Basen A = (a1 , a2 , a3 ) von R3 und B = (b1 , b2 , b3 , b4 ) von R4 , wobei a1 = (1, −1, 1), a2 = (0, 2, −1), a3 = (−1, 1, 0)
und
b1 = (1, 1, 0, 0), b2 = (1, 1, 1, 0), b3 = (0, 1, 1, 1), b4 = (0, 0, 1, 1). ¨ Ubung 2.12. Sei g : R4 → R2 die durch die Matrix 1 −1 −1 0 B= 0 1 1 −1 gegebene lineare Abbildung und f : R3 → R4 wie in Aufgabe 2.11. (a) Bestimmen Sie dimR (ker(f )) und dimR (im(f )). (b) Berechnen Sie die Matrix (bez¨ uglich der Standardbasen), welche die lineare Abbildung g ◦ f : R3 → R2 definiert. ¨ Ubung 2.13. Finden Sie Beispiele f¨ ur Matrizen A, B ∈ Mat(n × n, K), f¨ ur die A ◦ B = 0, jedoch A 6= 0 und B 6= 0 ist. K¨onnen Sie auch ein Beispiel angeben, in dem kein Eintrag von A oder von B gleich 0 ist? W¨ahlen Sie mindestens n ≥ 3. ¨ Ubung 2.14. Finden Sie Beispiele f¨ ur Matrizen A, B ∈ Mat(n × n, K), f¨ ur die A ◦ B 6= B ◦ A gilt. ¨ Ubung 2.15. Sei T ⊂ GL(n, K) die Teilmenge aller invertierbaren oberen Dreiecksmatrizen, das sind diejenigen A = (aij )i,j ∈ GL(n, K), f¨ ur die aij = 0 f¨ ur alle i > j. Beweisen Sie: T ⊂ GL(n, K) ist eine Untergruppe. ¨ Ubung 2.16. F¨ ur die Faschingsfeier soll ein leicht alkoholhaltiges Mischgetr¨ ank hergestellt werden. Findige Studenten haben bei einem Großh¨andler extrem preisg¨ unstige Angebote f¨ ur drei verschiedene No-Name-Produkte ausfindig gemacht. Obwohl die Namen der Getr¨ anke nicht bekannt sind, ist durch eine Analyse deren Zusammensetzung ermittelt worden. Der prozentuale Anteil von Alkohol, Wasser und sonstiger Bestandteile kann der folgenden Tabelle entnommen werden: Getr¨ ank 1 Getr¨ ank 2 Getr¨ ank 3
Alkohol Wasser Sonstiges 20 20 60 20 70 10 0 50 50
110
2 Lineare Algebra
Ist es m¨oglich, daraus ein Getr¨ ank (wie auch immer es dann schmecken mag) zu mischen, in dem 10% Alkohol und 40% Wasser enthalten sind? Falls ja, bestimmen Sie die Menge jeder Getr¨ ankesorte, die man ben¨otigt, um 100 Liter dieser Mischung herzustellen.
2.3 Anwendungen des Gaußschen Algorithmus Das Ziel dieses Abschnittes ist es, die Rechenverfahren von Abschnitt 2.1 im Kontext der allgemeinen Theorie von Vektorr¨aumen und linearen Abbildungen zu benutzen. Wir werden mit Hilfe elementarer Zeilenoperationen die folgenden Aufgaben l¨ osen: • Bestimmung einer maximalen linear unabh¨angigen Liste als Teil einer gegebenen Liste von Vektoren. • Erg¨anzung einer gegebenen linear unabh¨ angigen Liste zu einer Basis. • Berechnung der Inversen A−1 einer Matrix A. • Bestimmung eines Gleichungssystems zu vorgegebener L¨osungsmenge. • Berechnung des Durchschnittes zweier Unterr¨aume. • Berechnung der Summe zweier Unterr¨ aume. Zur Vorbereitung u ¨ bersetzen wir die Zeilenumformungen des Gaußschen Algorithmus in die Sprache der Matrizen. Dazu erinnern wir uns daran, dass dieser Algorithmus auf zwei Typen elementarer Zeilenumformungen beruht: (Z1) (Z2)
Vertauschung von Zeile i mit Zeile j. Addition des λ-fachen von Zeile k zu Zeile i.
Diese Umformungen lassen sich mit Hilfe der folgenden Elementarmatrizen P (i, j) ∈ Mat(m × m, K) und Qλ (i, k) ∈ Mat(m × m, K) beschreiben. P (i, j) := 1m − Eii − Ejj + Eij + Eji Qλ (i, k) := 1m + λEik f¨ ur i 6= k.
und
Die einzigen von Null verschiedenen Eintr¨ age der Matrix P (i, j) sind akk = 1 wenn k 6= i oder k 6= j und aij = aji = 1. Die Matrix Qλ (i, k) unterscheidet sich von der Einheitsmatrix nur dadurch, dass sie in der i-ten Zeile und k-ten Spalte den Eintrag λ hat. So ist zum Beispiel im Fall m = 5 10000 10000 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 P (2, 4) = P (4, 2) = , P (5, 2) = P (2, 5) = 0 0 1 0 0 0 1 0 0 0 0 0 0 1 0 00001 01000 und
2.3 Anwendungen des Gaußschen Algorithmus
1 0 Q−1 (2, 4) = 0 0 0
00 0 0 1 0 −1 0 0 1 0 0 , 0 0 1 0 00 0 1
111
100 0 1 0 Qλ (4, 2) 0 0 1 0 λ 0 000
00 0 0 0 0 . 1 0 01
Wenn A ∈ Mat(m × n, K), dann ist P (i, j) ◦ A genau die Matrix, die man aus A durch Anwendung von (Z1) erh¨ alt, und Qλ (i, k) ◦ A ist die Matrix, die durch Anwendung von (Z2) aus A entsteht. Interessant ist nun: P (i, j) ◦ P (i, j) = 1m und falls i 6= k Qλ (i, k) ◦ Q−λ (i, k) = 1m . Daher gilt sogar P (i, j) ∈ GL(m, K) und Qλ (i, k) ∈ GL(m, K). Aus Satz 2.2.33 (2) erhalten wir damit, dass die elementaren Zeilenumformungen (Z1) und (Z2) den Rang einer Matrix nicht ver¨ andern und dass dieser Rang gleich der Zahl der von Null verschiedenen Zeilen einer Zeilenstufenform ist. Unter Benutzung des bisher Gesagten liefert der Gaußsche Algorithmus den folgenden Satz. Satz 2.3.1 F¨ ur jede Matrix A ∈ Mat(m × n, K) gibt es eine invertierbare Matrix P ∈ GL(m, K), die sich als Produkt von Elementarmatrizen schreiben l¨asst, so dass P ◦ A Zeilenstufenform besitzt. Bemerkung 2.3.2. Wie in Bemerkung 2.1.6 erw¨ahnt, kann man durch elementare Zeilenumformungen auch oberhalb der Pivotelemente Nullen erzeugen. Wenn wir zus¨ atzlich noch die Multiplikation einer Zeile mit einem Faktor λ 6= 0 zulassen, dann k¨ onnen wir sogar die sogenannte reduzierte Zeilenstufenform herstellen, bei der alle Pivotelemente gleich 1 sind. Da auch die Multiplikation einer Zeile mit einem Faktor λ 6= 0 durch die Multiplikation mit einer invertierbaren Matrix von links beschrieben werden kann, bleibt Satz 2.3.1 wahr, wenn wir darin Zeilenstufenform durch reduzierte Zeilenstufenform ersetzen und zus¨ atzlich zu den Elementarmatrizen auch noch solche invertierbare Matrizen zulassen, die aus der Einheitsmatrix durch Multiplikation einer Zeile mit einem von Null verschiedenen λ ∈ K hervorgehen. Der Vorteil der reduzierten Zeilenstufenform besteht darin, dass man eine Parametrisierung der L¨ osungsmenge des zugeh¨origen linearen Gleichungssystems unmittelbar ablesen kann. In der Sprache von Abschnitt 2.2 heißt das, dass wir aus der reduzierten Zeilenstufenform leicht eine Basis von ker(fA ) = ker(fP ◦A ) = L¨ os(P ◦ A| 0) = L¨ os(A| 0) ablesen k¨onnen.
112
2 Lineare Algebra
Maximale linear unabh¨ angige Teillisten H¨aufig ist man mit der Aufgabe konfrontiert, aus einer Liste (u1 , u2 , . . . , un ) von Vektoren uj ∈ K m eine maximale Liste linear unabh¨angiger Vektoren auszuw¨ahlen. Zur L¨ osung dieser Aufgabe betrachtet man die Matrix A ∈ Mat(m×n, K), deren Spalten die gegebenen Vektoren uj sind. Da f¨ ur jede Matrix P ∈ GL(m, K) die Gleichung (P ◦A)·x = 0 dieselbe L¨osungsmenge wie die Gleichung A · x = 0 hat, ist eine Teilliste der urspr¨ unglich gegebenen Vektoren genau dann linear unabh¨ angig, wenn dies f¨ ur die entsprechenden Spalten von P ◦ A gilt. Wenn P ◦ A Zeilenstufenform hat, was wir wegen Satz 2.3.1 immer erreichen k¨ onnen, dann bilden die Spalten, in denen die Pivotelemente stehen, offenbar eine maximale Liste linear unabh¨angiger Spalten. Beispiel 2.3.3. Seien die uj ∈ K 4 die r 6= s. Dann ist 101 0 1 0 A= 0 1 1 100
sechs Vektoren der Gestalt er + es , 01 11 00 10
0 0 . 1 1
Durch elementare Zeilentransformationen erh¨alt man 10 1 0 1 0 10 1 0 1 0 0 1 0 1 1 0 , 0 1 0 1 1 0 und 0 1 1 0 0 1 0 0 1 −1 −1 1 0 0 −1 1 −1 1 0 0 −1 1 −1 1
daraus nacheinander 101 0 1 0 0 1 0 1 1 0 0 0 1 −1 −1 1 . 0 0 0 0 −2 2
Das zeigt, dass die erste, zweite, dritte und f¨ unfte Spalte von A eine maximale linear unabh¨angige Liste bilden. Die ersten vier Spalten bilden dagegen keine solche Liste.
Basiserg¨ anzung Eine verwandte Aufgabe besteht darin, eine gegebene linear unabh¨angige Liste zu einer Basis zu erg¨ anzen. Dabei kann man zwei unterschiedlichen Aufgabenstellungen begegnen. Auf der einen Seite kann die Aufgabe darin bestehen, dass man gegebene Vektoren (u1 , u2 , . . . , un ) zu einer Basis von K m erg¨anzen soll. Andererseits kann auch eine Basis (v1 , . . . , vr ) eines Unterraumes U gegeben sein, der die Vektoren uj enth¨alt. In diesem Fall mag man an einer Basis von U interessiert sein, in der die gegebenen uj vorkommen. Die zuerst geschilderte Aufgabenstellung ist ein Spezialfall der zweiten mit U = K m und vi = ei . Zur L¨osung dieses Problems bildet man eine Matrix (u1 , . . . , un | v1 , . . . , vr ), deren Spalten die gegebenen Vektoren sind. Dabei ist es wichtig, dass die
2.3 Anwendungen des Gaußschen Algorithmus
113
Vektoren uj zuerst aufgef¨ uhrt werden. Da sie als linear unabh¨angig vorausgesetzt sind, wird bei Anwendung des Gauß-Verfahrens in jeder der ersten n Spalten ein Pivotelement stehen. Nach Ermittlung einer Zeilenstufenform erhalten wir mit der weiter oben geschilderten Methode eine maximale linear unabh¨angige Liste, in der sicher die ersten n Spaltenvektoren vorkommen. Da die Spalten der betrachteten Matrix ein Erzeugendensystem von U bilden, ist ihr Rang gleich der Dimension von U . Daher bildet die so erhaltene linear unabh¨angige Liste eine Basis von U . Beispiel 2.3.4. Die beiden Vektoren (1, 0, 0, 1) und (0, 1, 1, 0) sind linear unabh¨angig. Um eine Basis von K 4 zu finden, in der diese beiden Vektoren auftreten, u uhren wir die Matrix ¨ berf¨ 101000 0 1 0 1 0 0 0 1 0 0 1 0 100001
wie folgt in Zeilenstufenform 1 10 1 000 0 0 1 0 1 0 0 0 1 0 0 1 0 7→ 0 0 0 0 −1 0 0 1
0 1 0 0 1 0 1 0 0 0 −1 1 0 −1 0 0
0 0 0 1
7→
10 1 0 0 0 1 0 1 0 0 0 −1 0 0 0 0 0 −1 1
0 0 . 1 0
Daraus sehen wir, dass die beiden gegebenen Vektoren zusammen mit e1 und e2 eine Basis bilden. Zusammen mit e2 und e3 bilden sie dagegen keine Basis.
Berechnung der inversen Matrix Eine quadratische Matrix A ∈ Mat(n × n, K) ist genau dann invertierbar, wenn rk(A) = n, siehe Folgerung 2.2.29. Dies ist genau dann der Fall, wenn die durch den Gaußschen Algorithmus erzeugte Zeilenstufenform in jeder Zeile ein Pivotelement enth¨ alt. Die entsprechende reduzierte Zeilenstufenform ist dann die Einheitsmatrix 1n . Das Produkt der Matrizen, die den durchgef¨ uhrten Zeilenumformungen entsprechen, ist eine Matrix P ∈ GL(n, K), f¨ ur die P ◦A = 1n gilt, das heißt P = A−1 . Wenn wir die Zeilenumformungen, die A in 1n u uhren, auf die um die Einheitsmatrix erweiterte Matrix (A| 1n ) ¨ berf¨ anwenden, dann ergibt sich (P ◦ A| P ◦ 1n ) = (1n | A−1 ). Beispiel 2.3.5. Um die inverse Matrix von 302 302100 A = 3 2 3 zu berechnen, starten wir mit 3 2 3 0 1 0 . 647001 647
114
2 Lineare Algebra
Wir f¨ uhren die folgenden Schritte durch
3 0 2 1 0 0 (Zeile II) − (Zeile I) 0 2 1 −1 1 0 (Zeile III) − 2(Zeile I) 0 4 3 −2 0 1
3 0 2 1 0 0 0 2 1 −1 1 0 (Zeile III) − 2(Zeile II) 0 0 1 0 −2 1
(Zeile I) − 2(Zeile III) 3 0 0 1 4 −2 (Zeile II) − (Zeile III) 0 2 0 −1 3 −1 0 0 1 0 −2 1
1 0 0 13 34 − 23 0 1 0 − 1 3 − 1 2 2 2 0 0 1 0 −2 1
(Zeile I)/3 (Zeile II)/2 und erhalten somit A−1 =
2 8 −4 − 32 1 − 21 = −3 9 −3 . 6 0 −12 6 0 −2 1
1 3 − 1 2
4 3 3 2
Der Leser pr¨ ufe bitte nach, dass tats¨ achlich A ◦ A−1 = 13 gilt.
Lineare Gleichungen zu vorgegebener L¨ osungsmenge Das Umkehrproblem zum Gaußschen Algorithmus besteht darin, ein Gleichungssystem zu bestimmen, welches einen gegebenen linearen Unterraum U ⊂ K m als L¨osungsmenge besitzt. Wir nehmen dabei an, dass U durch eine Basis oder ein Erzeugendensystem u1 , u2 , . . . , us gegeben ist. Ein Vektor x ∈ K m liegt genau dann in U , wenn !es λ1 , λ2 , . . . , λs ! ∈ K u1j x1 Ps .. .. als und x = gibt, so dass x = j=1 λj uj . Wenn wir uj = . . umj
xm
Spaltenvektoren schreiben, dann ist die Bedingung x ∈ U zur Existenz einer L¨osung des linearen Gleichungssystems x1 λ1 u11 . . . u1s .. .. .. = .. . . . . um1 . . . ums
λs
xm
2.3 Anwendungen des Gaußschen Algorithmus
115
aquivalent. Uns interessiert daher die L¨ osbarkeitsbedingung des Gleichungs¨ systems mit erweiterter Koeffizientenmatrix u11 · · · u1s x1 .. .. .. . . . . um1 · · · ums xm
Um diese durch Gleichungen in den Variablen xi auszudr¨ ucken, stellen wir mittels Gaußschem Algorithmus Zeilenstufenform her. Wir beachten dabei, dass die uij gegebene Elemente aus K, die xj jedoch Variablen sind. Da diese Variablen nur in der letzten Spalte auftreten, beeinflussen sie den Ablauf des Algorithmus nicht. Nach Erreichung der Zeilenstufenform haben die unteren Zeilen der Matrix die Gestalt (0 0 . . . 0 | Li (x)) , Pm wobei Li (x) eine Linearkombination j=1 aij xj der Variablen xj ist. Falls U 6= K m , dann gibt es mindestens eine solche Zeile. Wenn n ≥ 1 solche Zeilen in der Zeilenstufenform auftreten, dann lautet die L¨osbarkeitsbedingung f¨ ur das obige Gleichungssystem m X j=1
aij xj = 0
f¨ ur 1 ≤ i ≤ n .
Dieses neue Gleichungssystem hat als L¨ osungsmenge genau den gegebenen Unterraum U . Beispiel 2.3.6. Gegeben sei der Unterraum U = Lin(u1 , u2 , u3 ) ⊂ R5 , der von den drei Vektoren 0 −1 1 1 0 0 u1 = 0 , u2 = 3 , u3 = 1 1 0 0 2 −3 −1
erzeugt wird. Wir starten mit der erweiterten Koeffizientenmatrix 0 −1 1 x1 1 0 0 x2 0 3 1 x3 1 0 0 x4 2 −3 −1 x5
und f¨ uhren nacheinander die aufgelisteten elementaren Zeilenoperationen durch. Das Ergebnis ist die rechts angegebene Matrix:
116
2 Lineare Algebra
10 0 1 0 0 0 0 00
Vertausche (Zeile I) und (Zeile II) (Zeile IV) − (Zeile I) (Zeile V) − 2(Zeile I) + (Zeile III) (Zeile II) × (−1) (Zeile III) − 3(Zeile II)
x2 0 −x1 −1 x3 + 3x1 4 . 0 x4 − x2 0 x5 − 2x2 + x3
Die L¨osbarkeitsbedingung f¨ ur das entsprechende Gleichungssystem ist das Verschwinden der beiden linearen Ausdr¨ ucke unterhalb der horizontalen Linie. Der Unterraum U ist somit die L¨ osungsmenge des Gleichungssystems −x2 +x4 =0 −2x2 +x3 +x5 = 0 , dessen zugeh¨orige Koeffizientenmatrix die folgende Gestalt hat 0 −1 0 1 0 . 0 −2 1 0 1 ¨ Als Ubungsaufgabe empfehlen wir dem Leser, mit Hilfe des Gaußschen Algorithmus eine Basis der L¨ osungsmenge dieses Gleichungssystems zu bestimmen und dann festzustellen, ob diese L¨ osungsmenge tats¨achlich mit U u ¨ bereinstimmt.
Durchschnitt zweier Unterr¨ aume Die Schwierigkeiten bei der Bestimmung des Durchschnittes U ∩V zweier Unterr¨aume U, V ⊂ K n h¨ angen davon ab, in welcher Form die Unterr¨aume gegeben sind. Wenn die Unterr¨ aume durch Gleichungssysteme gegeben sind, dann ist der Durchschnitt durch die Vereinigung dieser Gleichungen bestimmt. Die Matrix des zugeh¨ origen Gleichungssystems erhalten wir, indem wir die Zeilen der beiden gegebenen Matrizen als Zeilen einer einzigen Matrix schreiben. Mit Hilfe des Gaußschen Algorithmus kann man daraus eine Basis bestimmen. Interessanter ist der Fall, in dem beide Unterr¨aume durch Basen gegeben sind. Sei (u1 , . . . , ur ) eine Basis von U und (v1 , . . . , vs ) eine Basis von V . Mit dem oben erl¨ auterten Verfahren bestimmen wir zun¨achst ein lineares Gleichungssystem f¨ ur V , das heißt eine Matrix A ∈ Mat(m × n, K) mit L¨os(A| 0) = V P . Die Vektoren aus U ∩ V sind diejenigen x ∈ V , die sich in der Form x = rj=1 yj uj schreiben lassen. Ein solcher Vektor ist genau dann u1j ! .. , dann ist x = Pr y u . Mit in V , wenn A · x = 0. Wenn uj = i j=1 j ij . unj
der Matrix B ∈ Mat(n ! × r, K), deren j-te Spalte der Vektor uj ist, und y1 .. der Abk¨ urzung y = schreibt sich das als x = B · y. Die L¨osungen des . yr
2.3 Anwendungen des Gaußschen Algorithmus
117
Gleichungssystems (A◦B)·y = 0 beschreiben genau die Linearkombinationen der Basisvektoren u1 , . . . , ur von U , die in V liegen. Wenn w1 , . . . , wt ∈ K r eine Basis f¨ ur L¨os(A◦B| 0) ist, dann ist Bw1 , . . . , Bwt eine Basis f¨ ur U ∩V . F¨ ur diese Rechnungen gen¨ ugt es, dass Erzeugendensysteme von U und V gegeben sind. Allerdings ist es m¨ oglich, dass wir am Ende nur ein Erzeugendensystem von U ∩ V erhalten, wenn die Vektoren v1 , . . . , vs linear abh¨angig waren. Wie zuvor beschrieben, kann man daraus eine Basis von U ∩ V gewinnen. Bei dem im Folgenden beschriebenen alternativen Verfahren wird die Bestimmung der Matrix A vermieden. Wegen der Gr¨ oße der auftretenden Matrizen wird man darauf wohl eher bei einer Implementierung als bei einer Rechnung per Hand zur¨ uckgreifen. Sei jetzt C ∈ Mat(n×s, K) die Matrix, deren Spalten die Vektoren vj sind. F¨ ur die L¨ osungen des linearen Gleichungssystems λ1 1n B 0 . . =0 gilt 1n 0 C . λn+r+s
λ1 λn+1 .. . . = −B .. λn
λn+r
und
λ1 λn+r+1 .. . . = −C .. . λn
λn+r+s
Daher sind die aus den ersten n Komponenten von L¨osungsvektoren λ ∈ K n+r+s gebildeten Vektoren genau die Vektoren, die in U ∩V liegen. Eine Ba 1n B 0 0 sis von U ∩ V ergibt sich somit, wenn wir eine Basis von L¨os 1n 0 C 0 bestimmen und von jedem Basisvektor nur die ersten n Komponenten (λ1 , . . . , λn ) u ¨ bernehmen. Beispiel 2.3.7. Gegeben seien die beiden Unterr¨aume 4 1 2 1 −1 0 3 2 0 1 0 0 U = Lin 0 , 3 , 1 und V = Lin 1 , 0 , −1 3 2 0 1 0 0 3 2 3 −1 −3 2
im R5 . Wir haben in Beispiel 2.3.6 eine Matrix A bestimmt, deren Kern gleich U ist. Unter Benutzung der zuvor eingef¨ uhrten Bezeichnung ist somit 21 4 3 2 0 0 −1 0 1 0 1 0 −1 A= und B = . 0 −2 1 0 1 3 2 0 32 3
118
2 Lineare Algebra
0 0 0 Wir erhalten A ◦ B = . Die reduzierte Zeilenstufenform dieser −2 −2 2 1 1 −1 Matrix hat die Gestalt , woraus wir als Basis des zugeh¨origen 00 0 L¨osungsraumes die beiden Vektoren (−1, 1, 0) und (1, 0, 1) erhalten. Dies sind noch nicht die gesuchten Basisvektoren, sondern deren Koordinaten bez¨ uglich (v1 , v2 , v3 ). Als Basis f¨ ur den Durchschnitt U ∩ V ergeben sich daraus die beiden Vektoren −1 B 1 = −v1 + v2 = (−1, −1, −1, −1, −1) und 0 1 B 0 = v1 + v3 = (6, 3, 0, 3, 6) . 1
Summe zweier Unterr¨ aume Wenn U, V ⊂ W Unterr¨ aume eines Vektorraumes W sind, dann ist auch U + V := {u + v | u ∈ U, v ∈ V } ⊂ W ein Unterraum. Dies ist der kleinste Unterraum, der U und V enth¨alt. Wenn (u1 , . . . , ur ) Basis von U und (v1 , . . . , vs ) Basis von V ist, dann ist offenbar (u1 , . . . , ur , v1 , . . . , vs ) ein Erzeugendensystem von U + V . Im Allgemeinen wird dies jedoch keine Basis sein. Nach der Wahl von Koordinatensystemen k¨ onnen wir annehmen W = K n . Aus der Zeilenstufenform der Matrix, deren Spalten die Koordinaten der gegebenen Vektoren sind, kann man auf zuvor beschriebene Weise eine Basis von U + V ablesen. Alternativ kann man eine (r + s)× n-Matrix bilden, deren Zeilen die Koordinaten der Vektoren u1 , . . . , ur , v1 , . . . , vs sind. Durch elementare Zeilenumformungen k¨ onnen wir auch diese Matrix in Zeilenstufenform u uhren. Die von 0 verschiedenen Zeilen dieser Zeilenstufenform bilden ¨ berf¨ dann eine Basis von U + V . Der Rang dieser Matrix ist gleich der Dimension von U + V . Daraus sehen wir, dass im Allgemeinen nur dimK (U + V ) ≤ r + s gilt. Die Situation wird durch den folgenden Satz vollst¨andig gekl¨art. Satz 2.3.8 Wenn U, V ⊂ W lineare Unterr¨aume sind, dann gilt dimK (U + V ) + dimK (U ∩ V ) = dimK U + dimK V . Beweis. Sei (w1 , . . . , wt ) eine Basis von U ∩ V . Diese k¨onnen wir zu einer nicht verl¨angerbaren linear unabh¨ angigen Liste (w1 , . . . , wt , ut+1 , . . . , ur ) von
2.3 Anwendungen des Gaußschen Algorithmus
119
U erg¨anzen. Nach Satz 2.2.11 ist das eine Basis von U . Ebenso finden wir eine Basis der Gestalt (w1 , . . . , wt , vt+1 , . . . , vs ) von V . Wir behaupten nun, dass (w1 , . . . , wt , ut+1 , . . . , ur , vt+1 , . . . , vs ) eine Basis von U + V ist, woraus die gew¨ unschte Gleichung dim(U + V ) = t + (r − t) + (s − t) = r + s − t = dim U + dim V − dim(U ∩ V ) folgt. Die angegebene Liste bildet ein Erzeugendensystem von U + V . Zum Beweis der linearen Unabh¨ angigkeit nehmen wir an t X
λi wi +
r−t X
αi ut+i +
βi vt+i = 0 .
i=1
i=1
i=1
s−t X
Daraus ergibt sich t X i=1
λi wi +
r−t X i=1
αi ut+i = −
s−t X i=1
βi vt+i ∈ U ∩ V .
Da (w1 , . . . , wi ) Basis von U ∩ V ist, muss es Elemente µi ∈ K geben, f¨ ur die t X i=1
µi wi = −
s−t X
βi vt+i
i=1
gilt. Wegen der linearen Unabh¨ angigkeit der Liste (w1 , . . . , wt , vt+1 , . . . , vs ) erhalten wir daraus f¨ ur alle i, dass µi = 0 und βi = 0 ist. Das liefert jetzt t X i=1
λi wi +
r−t X
αi ut+i = 0 ,
i=1
was wegen der linearen Unabh¨ angigkeit von (w1 , . . . , wt , ut+1 , . . . , ur ) zur Folge hat, dass λi = 0 und αi = 0 f¨ ur alle i gilt. Damit ist gezeigt, dass (w1 , . . . , wt , ut+1 , . . . , ur , vt+1 , . . . , vs ) eine Basis von U + V ist. ⊓ ⊔
Aufgaben ¨ Ubung 2.17. Bestimmen Sie eine Basis des durch die Spalten der Matrix 1 2 2 8 3 3 1 2 1 5 1 3 −1 −2 0 −2 2 −4 2 4 3 13 6 4
aufgespannten Unterraumes von R4 .
120
2 Lineare Algebra
¨ Ubung 2.18. Bestimmen sie eine Basis (v1 , v2 , v3 , v4 , v5 ) von R5 , so dass v2 = (1, 1, 1, 1, 2)
und
v4 = (1, 1, 1, 1, 4) .
¨ Ubung 2.19. Berechnen Sie die Inverse A−1 ∈ GL(4, R) der Matrix 1100 1 1 1 0 A= 0 1 1 1 ∈ GL(4, R) . 0011
¨ Ubung 2.20. Berechnen Sie die Inverse B −1 ∈ GL(3, F13 ) der Matrix 12 1 B = 0 1 0 ∈ GL(3, F13 ) . 1 0 −1
¨ Ubung 2.21. Sei A ∈ Mat(n×n, K) eine Matrix mit der Eigenschaft A2 = 0. Beweisen Sie, dass die Matrix 1n − A invertierbar ist. Geben Sie ein Beispiel einer solchen Matrix A f¨ ur den Fall n = 4 an, bei dem m¨oglichst wenige Eintr¨age der Matrix gleich 0 sind. Ist 1n − A auch dann invertierbar, wenn nur bekannt ist, dass es eine ganze Zahl k ≥ 2 gibt, f¨ ur die Ak = 0 gilt? ¨ Ubung 2.22. Sei U ⊂ Q5 der Unterraum U = Lin(u1 , u2 , u3 ), der durch die Vektoren u1 = (2, 4, 6, 8, 0), u2 = (1, 1, 2, 2, 1), u3 = (0, 7, 8, 17, −6) aufgespannt ist. Bestimmen Sie ein lineares Gleichungssystem, dessen L¨osungsmenge gleich U ist. ¨ Ubung 2.23. Sei U ⊂ Q3 die durch die beiden Vektoren (1, 2, 1), (27, 0, 3) aufgespannte Ebene und sei V ⊂ Q3 die Ebene, die durch die beiden Vektoren (2, 1, 2), (41, 28, 1) aufgespannt wird. Bestimmen Sie eine Basis f¨ ur den Durchschnitt U ∩ V . ¨ Ubung 2.24. Seien e1 , . . . , en ∈ Rn die Standardbasisvektoren und e0 := 0, en+1 := 0. F¨ ur 1 ≤ i ≤ n definieren wir vi := ei−1 + ei + ei+1 . F¨ ur welche n ≥ 1 ist (v1 , . . . , vn ) eine Basis von Rn ? Falls Sie dies schwierig finden, untersuchen Sie diese Frage zun¨ achst f¨ ur n = 3, 4, 5.
2.4 Quadratische Matrizen Man nennt eine Matrix quadratisch, wenn sie ebenso viele Zeilen wie Spalten besitzt. Solche Matrizen treten vor allem beim Studium von Symmetrien und inneren Strukturen von Vektorr¨ aumen auf. Es gibt mindestens zwei Gr¨ unde, weshalb ihnen ein eigener Abschnitt gewidmet ist. Auf der einen Seite sind
2.4 Quadratische Matrizen
121
hier spezielle Methoden und Begriffsbildungen im Zusammenhang mit quadratischen Matrizen zu behandeln: Determinanten, Skalarprodukte und Eigenwerte. Andererseits wird damit Grundlagenwissen f¨ ur Anwendungen in der Computergraphik und bei der Informationssuche in großen Datennetzen bereitgestellt. Im Abschnitt 5.3, bei der Vorstellung der Suchstrategien der popul¨aren Suchmaschine von Google, werden wir eine sehr praktische und n¨ utzliche Anwendung von Eigenwerten quadratischer Matrizen kennenlernen.
Determinanten Definition 2.4.1. Die Determinante einer quadratischen Matrix A = (aij ) ∈ Mat(n × n, K) ist auf rekursive Weise durch die Formel det(A) =
n X (−1)i+1 ai1 det(Ai1 ) i=1
definiert. Dabei bezeichnet Ai1 ∈ Mat((n − 1) × (n − 1), K) die Matrix, die durch Entfernung der ersten Spalte und i-ten Zeile aus der Matrix A entsteht. Im Fall n = 1 ist det(a) = a. Beispiel 2.4.2. F¨ ur n = 2 und n = 3 ergibt sich aus dieser Definition explizit ab det = ad − bc und cd a11 a12 a13 a a a a a a deta21 a22 a23 = a11 det 22 23 −a21 det 12 13 +a31 det 12 13 a22 a23 a32 a33 a32 a33 a31 a32 a33 = a11 a22 a33 + a12 a23 a31 + a13 a21 a32 − a31 a22 a13 − a32 a23 a11 − a33 a21 a12 .
Der letzte Ausdruck l¨ asst sich mittels folgender Graphiken leichter einpr¨agen:
• • •
a11
a12
a13
a11
a12
a21
a22
a23
a21
a22
a31
a32
a33
a31
a32
• • •
• • • − • • •
• • •
• • •
122
2 Lineare Algebra
Wir werden auf den folgenden Seiten ein Verfahren zur Berechnung von Determinanten kennenlernen, welches weitaus effizienter ist als die rekursive Anwendung der Definition. Es beruht darauf, dass die Determinante einer oberen Dreiecksmatrix gleich dem Produkt ihrer Diagonalelemente ist. Dies ergibt sich aus Definition 2.4.1 wie folgt: a11 a12 . . . . . . a1n a22 . . . . . . a2n 0 a22 . . . . . . a2n 0 a33 . . . a3n det 0 0 a33 . . . a3n = a11 · det . . . = .. . . . . ... .. . . . . . . . .. . 0 . . . 0 ann 0 . . . . . . . 0 ann
a33 . . . . . . a3n .. 0 a44 . = . . . = a11 · a22 · a33 · . . . · ann . = a11 · a22 · det . . . . . .. .. 0 . . . 0 ann
Wir empfehlen unseren Lesern, einen formal korrekten Beweis mittels Induktion u andig zu formulieren. ¨ ber n selbst¨ Satz 2.4.3 Seien A, A′ , A′′ ∈ Mat(n × n, K) quadratische Matrizen, deren Zeilenvektoren mit zi , zi′ bzw. zi′′ bezeichnet werden. (1) Wenn zi = zi′ +zi′′ f¨ ur einen Index i, jedoch zk = zk′ = zk′′ f¨ ur alle anderen k 6= i gilt, dann ist det(A) = det(A′ ) + det(A′′ ). (2) Wenn zi = λzi′ f¨ ur einen Index i, jedoch zk = zk′ f¨ ur alle k 6= i gilt, dann ist det(A) = λ det(A′ ). (3) Wenn es i 6= j gibt mit zi = zj , dann ist det(A) = 0. (4) Wenn A′ aus A durch das Vertauschen zweier Zeilen hervorgeht, dann ist det(A) = − det(A′ ). (5) Wenn zi = zi′ + λzj′ f¨ ur ein Paar von Indizes i 6= j, jedoch zk = zk′ f¨ ur alle k 6= i gilt, dann ist det(A) = det(A′ ). Beweis. Die Aussagen (1) und (2) ergeben sich per Induktion u ¨ber n unmittelbar aus Definition 2.4.1. Wenn Aussage (3) f¨ ur ein festes n gezeigt ist, dann ergibt sich daraus die Aussage (5) f¨ ur denselben Wert von n. Dazu bemerken wir, dass nach (1) det(A) = det(A′ )+det(A′′ ) gilt, wenn wir A′′ durch zi′′ = λzj′ f¨ ur das gegebene Paar von Indizes i 6= j und zk′′ = zk′ f¨ ur alle k 6= i definieren. Da aus (2) und (3) det(A′′ ) = 0 folgt, ist (5) gezeigt. Aus der G¨ ultigkeit von (2) und (5) f¨ ur ein festes n ergibt sich die Aussage (4), da sich die Vertauschung zweier Zeilen durch eine Folge von Additionen eines Vielfachen einer Zeile zu einer anderen – was nach (5) die Determinante nicht ¨andert – gefolgt von der Multiplikation einer Zeile mit dem Faktor −1
2.4 Quadratische Matrizen
123
beschreiben l¨asst: zj zj zi + zj zi + zj zi . 7→ 7→ 7→ 7→ zi −zi −zi zj zj Somit bleibt noch die G¨ ultigkeit der Aussage (3) zu beweisen. Das geschieht per Induktion u ur n = 2 ist das aus der expliziten Formel in Beispiel ¨ber n. F¨ 2.4.2 sofort einzusehen. F¨ ur den Induktionsschritt nehmen wir an, (3) gilt f¨ ur quadratische Matrizen der Gr¨ oße n − 1 ≥ 2. Wir haben bereits gezeigt, dass dann auch alle anderen Aussagen des Satzes f¨ ur Matrizen der Gr¨oße n − 1 g¨ ultig sind. F¨ ur eine Matrix A ∈ Mat(n × n, K), deren Zeile i mit Zeile j u ur k 6= i, j zwei gleiche Zeilen. ¨ bereinstimmt, haben auch die Matrizen Ak1 f¨ Da die Matrizen Ak1 die Gr¨ oße n−1 haben, verschwindet deren Determinante nach Induktionsvoraussetzung und wir erhalten det(A) = (−1)1+i ai1 det(Ai1 ) + (−1)1+j aj1 det(Aj1 ) . Die Matrix Aj1 geht aus Ai1 durch ±(j − i) − 1 Zeilenvertauschungen hervor. Wegen (4) ist daher det(Aj1 ) = (−1)i−j−1 det(Ai1 ). Mit aj1 = ai1 folgt nun die Behauptung det(A) = 0. ⊓ ⊔ Mit λ = 0 in (2) erh¨ alt man, dass die Determinante einer Matrix, die eine nur aus Nullen bestehende Zeile enth¨ alt, gleich Null ist. Aus den Aussagen (4) und (5) des Satzes 2.4.3 ergibt sich det(P (i, j)) = −1 und det(Qλ (i, k)) = 1 f¨ ur i 6= j, i 6= k und λ ∈ K. Es folgt außerdem f¨ ur jedes A ∈ Mat(n × n, K) det(P (i, j) ◦ A) = det(P (i, j)) det(A) = − det(A)
det(Qλ (i, k) ◦ A) = det(Qλ (i, k)) det(A) = det(A) .
und
(2.13) (2.14)
Das bedeutet, dass die elementare Zeilenumformung (Z1) das Vorzeichen der Determinante einer Matrix ¨ andert, die elementare Zeilenumformung (Z2) dagegen die Determinante unver¨ andert l¨ asst. Dadurch ist es m¨oglich, mit Hilfe des Gaußschen Algorithmus die Determinante einer quadratischen Matrix zu berechnen. Dazu erzeugt man Zeilenstufenform und merkt sich die Zahl v der Zeilenvertauschungen. Das Produkt der Diagonalelemente der Zeilenstufenform ist dann bis auf das Vorzeichen (−1)v gleich der Determinante der urspr¨ unglichen Matrix. Durch Anwendung der Regel (2) aus Satz 2.4.3 l¨asst ¨ sich die Rechnung oft noch vereinfachen. Diese Uberlegungen und Folgerung 2.2.29 zeigen, dass eine quadratische Matrix genau dann invertierbar ist, wenn ihre Determinante nicht verschwindet. F¨ ur jedes A ∈ Mat(n × n, K) gilt A ∈ GL(n, K) ⇐⇒ det(A) 6= 0 .
124
2 Lineare Algebra
Beispiel 2.4.4.
3 3 9 1 1 3 1 1 3 det 2 5 13 = 3 det 2 5 13 = 3 det 0 3 7 8 21 34 8 21 34 0 13 10 3 7 = 3 det = 3(30 − 91) = −183 . 13 10
Satz 2.4.5 F¨ ur A, B ∈ Mat(n × n, K) gilt det(A ◦ B) = det(A) det(B). Beweis. Wenn P das Produkt von Elementarmatrizen und T eine obere Dreiecksmatrix ist, dann gilt wegen (2.13) und (2.14) det(P ◦ T ) = det(P ) det(T ). Aus Satz 2.4.3 (2) folgt auf analoge Weise f¨ ur jede Matrix B ∈ Mat(n × n, K) und jede Diagonalmatrix D die Gleichung det(D ◦ B) = det(D) det(B). Sei T die wie beim Gauß-Jordan-Verfahren aus der quadratischen Matrix A erzeugte Zeilenstufenform, in der auch oberhalb der Pivotelemente Nullen stehen. Dann gibt es eine Matrix P , die ein Produkt von Elementarmatrizen ist, so dass A = P ◦ T . Wenn T eine Diagonalmatrix ist, dann folgt det(A ◦ B) = det(P ◦ T ◦ B) = det(P ) det(T ) det(B) = det(A) det(B) . Wenn T keine Diagonalmatrix ist, muss ein Zeilenvektor von T gleich Null sein. Dies ist dann auch f¨ ur die Matrix T ◦ B der Fall. Daraus folgt einerseits det(A ◦ B) = det(P ) det(T ◦ B) = 0 und andererseits det(A) det(B) = det(P ) det(T ) det(B) = 0, woraus sich die Behauptung ergibt. ⊓ ⊔ Bemerkung 2.4.6. In der Sprache von Abschnitt 1.3 besagt Satz 2.4.5, dass det : GL(n, K) −→ K ∗ ein Gruppenhomomorphismus ist. Sein Kern SL(n, K) = A | det(A) = 1
tritt unter dem Namen spezielle lineare Gruppe in der Literatur auf.
Folgerung 2.4.7. Wenn A ∈ Mat(n × n, K), dann gilt f¨ ur jedes 1 ≤ j ≤ n
(i) det(A) = P det(At ) (ii) det(A) = Pni=1 (−1)i+j aij det(Aij ) n (iii) det(A) = i=1 (−1)i+j aji det(Aji )
Die Matrix Aij entsteht durch Streichung von Zeile i und Spalte j aus A. Bei Anwendung von (ii) sagt man, die Determinante von A wird nach ihrer j-ten Spalte entwickelt. Die Formel (iii) ist eine Entwicklung nach der j-ten Zeile. Beweis. Wenn T die Zeilenstufenform von A mit Nullen oberhalb der Pivotelemente ist, dann gibt es wieder ein Produkt von Elementarmatrizen P , so
2.4 Quadratische Matrizen
125
dass A = P ◦ T . Da At = T t ◦ P t , P (i, j)t = P (i, j), Qλ (i, k)t = Qλ (k, i) und det(T t ) = det(T ), folgt (i) aus Satz 2.4.5. Wegen (i) gelten die Aussagen in Satz 2.4.3 auch f¨ ur Spalten statt Zeilen. Durch zweimaliges Vertauschen der ersten mit der j-ten Spalte ergibt sich daher (ii) aus Definition 2.4.1. Schließlich folgt (iii) aus (i) und (ii). ⊓ ⊔ Beispiel 2.4.8. Um Determinanten per Hand effizient zu berechnen, kann man die verschiedenen Methoden miteinander kombinieren. Durch elementare Zeilen- oder Spaltenoperationen kann man m¨oglichst viele Nullen in einer Zeile oder Spalte erzeugen und dann Folgerung 2.4.7 anwenden. Im folgenden Beispiel wurden zuerst die Zeilen IV und II von Zeile III subtrahiert. Nach Verkleinerung wurde das Dreifache der Zeile III von Zeile I subtrahiert. 5 6 9 −2 5 6 9 −2 5 6 9 −2 1 0 7 4 = det 1 0 7 4 = det 1 0 7 4 = det 0 0 3 0 1 0 10 4 2 2 5 3 1 2 −5 −1 1 2 −5 −1 1 2 −5 −1 5 6 −2 20 1 21 = 3 det 1 0 4 = 3 det 1 0 4 = −3·2 det = −3·2(8−1) = −42. 14 1 2 −1 1 2 −1 Satz 2.4.9 Sei A ∈ Mat(n × n, K) und B = (bij ) die Matrix mit den Eintr¨agen bij = (−1)i+j det(Aji ). Dann gilt A ◦ B = det(A)1n . Wenn 1 B. A ∈ GL(n, K), dann ist A−1 = det(A) Beweis. Der j-te Spaltenvektor vj von B hat als k-ten Eintrag bkj = (−1)k+j det(Ajk ). Der i-te Eintrag des Vektors Avj ist daher gleich n X
k=1
aik bkj =
n X
(−1)k+j aik det(Ajk ) .
k=1
Wenn i = j, dann ist dies wegen Folgerung 2.4.7 (iii) gleich det(A). Wenn i 6= j, dann ist dieser Ausdruck gleich der Determinante der Matrix, die aus A durch Ersetzung der j-ten Zeile durch ihre i-te Zeile entsteht. Da diese Matrix zwei gleiche Zeilen besitzt, ist ihre Determinante gleich Null. ⊓ ⊔ Bemerkung 2.4.10. Im Fall n = 2 lauten die Formeln aus Satz 2.4.9 −1 1 d −b ab d −b 10 ab . ◦ = (ad − bc) und = cd −c a 01 cd ad − bc −c a Im Allgemeinen heißt (−1)i+j det(Aij ) das algebraische Komplement (oder auch Cofaktor ) zum Eintrag aij . Die Matrix B erh¨alt man also, indem man
126
2 Lineare Algebra
in A jeden Eintrag durch sein algebraisches Komplement ersetzt und anschließend die Matrix transponiert. Die Matrix B nennt man auch Komplement¨armatrix oder Adjunkte der Matrix A. Folgerung 2.4.11 (Cramersche7 Regel). Wenn A ∈ GL(n, K) eine invertierbare quadratische Matrix ist, dann ist det(An ) det(A1 ) det(A2 ) , ,..., x= det(A) det(A) det(A) die (als Zeilenvektor geschriebene) eindeutig bestimmte L¨osung des Gleichungssystems Ax = b. Hierbei ist Ai die Matrix, die entsteht, wenn die i-te Spalte von A durch den Vektor b ersetzt wird.
Beweis. Da A invertierbar ist, gilt x = A−1 b. Mit den Bezeichnungen von 1 Satz 2.4.9 heißt das x = det(A) Bb. Die i-te Komponente von x ist somit gleich n
1 X 1 det(Ai ) . (−1)i+k bk det(Aki ) = det(A) det(A) k=1
⊓ ⊔
Orthogonalit¨ at Zum Einstieg in die lineare Algebra hatten wir uns im Abschnitt 2.1 mit geometrischen Objekten wie Geraden und Ebenen im dreidimensionalen Raum besch¨aftigt. F¨ ur unsere geometrische Anschauung verwenden wir normalerweise ein Koordinatensystem, in dem die Koordinatenachsen senkrecht aufeinander stehen. Diesen Aspekt hatten wir bisher v¨ollig ignoriert. Begriffe wie L¨ange, Winkel oder senkrecht zueinander sind im abstrakten Konzept eines Vektorraumes nicht widergespiegelt. Im Rahmen der linearen Algebra lassen sich diese grundlegenden geometrischen Konzepte aus dem Begriff des Skalarproduktes ableiten. Erst nach dieser Erweiterung verf¨ ugen wir u ¨ ber ein ad¨aquates Konzept zur Beschreibung von ebenen oder r¨aumlichen Bewegungen, ein Grundbed¨ urfnis der Computergraphik. Das Standardskalarprodukt auf dem Vektorraum Rn ist durch hx, yi = 7
n X i=1
xi yi = xt · y
Gabriel Cramer (1704–1752), Schweizer Mathematiker und Philosoph.
2.4 Quadratische Matrizen
127
gegeben. Dabei ist xt = (x1 , x2 , . . . , xn ) und y t = (y1 , y2 , . . . , yn ). Es hat folgende wichtige Eigenschaften. F¨ ur alle x, y, z ∈ Rn und λ ∈ R gilt hx + y, zi = hx, zi + hy, zi hλx, yi = λhx, yi hx, yi = hy, xi hx, xi > 0 ,
falls x 6= 0.
(2.15) (2.16) (2.17) (2.18)
Wenn K ein K¨orper und V ein K-Vektorraum ist, dann heißt eine Abbildung V × V −→ K symmetrische Bilinearform, wenn sie die Bedingungen (2.15), (2.16) und (2.17) erf¨ ullt. Die Eigenschaft (2.18) ist eine Spezialit¨at f¨ ur K = Q oder K = R. Eine Bilinearform mit dieser Eigenschaft heißt positiv definit . Jede positiv definite, symmetrische Bilinearform h·, ·i : Rn × Rn −→ R nennt man Skalarprodukt. Aus (2.15) und (2.16) folgt f¨ ur beliebige v1 , . . . , vn ∈ V und ai , bi ∈ K + * n n X n n X X X ai bj hvi , vj i . bj vj = ai vi , i=1
j=1
i=1 j=1
Dabei ist h·, ·i irgendeine symmetrische Bilinearform auf dem K-Vektorraum V . Wenn (v1 , . . . , vn ) eine Basis von V ist, dann sind durch hvi , vj i alle Werte hv, wi bestimmt. Daher ist eine symmetrische Bilinearform durch ihre Gramsche8 Matrix hvi , vj i ∈ Mat(n×n, K) eindeutig bestimmt. Wegen (2.17) ist jede Gramsche Matrix G symmetrisch, das heißt G = Gt . Jede symmetrische Matrix G ist die Gramsche Matrix einer symmetrischen Bilinearform hv, wiG := hGv, wi = hv, Gwi . Ob eine solche Matrix ein positiv definites Skalarprodukt definiert, kann man leicht mit dem Hauptminorenkriterium (Satz 2.4.29) entscheiden. Die geometrischen Grundbegriffe L¨ange, Orthogonalit¨at und Winkel erh¨alt man auf folgende Weise aus einem Skalarprodukt h·, ·i auf V = Rn . p Definition 2.4.12. (1) kxk = hx, xi heißt L¨ange von x ∈ Rn . (2) x ∈ Rn heißt senkrecht (oder orthogonal ) zu y ∈ Rn , falls hx, yi = 0. (3) Der Winkel zwischen x 6= 0 und y 6= 0 ist die eindeutig bestimmte Zahl hx, yi gilt. 0 ≤ α ≤ π, f¨ ur die cos(α) = kxk · kyk Da −1 ≤ cos(α) ≤ 1 f¨ ur jede reelle Zahl α, ben¨otigen wir den folgenden Satz zur Rechtfertigung der Definition des Winkels zwischen zwei Vektoren. 8
Jørgen Pedersen Gram (1850–1916), d¨ anischer Mathematiker.
128
2 Lineare Algebra
Satz 2.4.13 (Cauchy-Schwarz9 Ungleichung) F¨ ur alle x, y ∈ Rn gilt |hx, yi| ≤ kxk · kyk . Beweis. F¨ ur jede reelle Zahl t gilt htx + y, tx + yi ≥ 0 wegen (2.18). Daher hat das quadratische Polynom htx + y, tx + yi = t2 kxk2 + 2thx, yi + kyk2 in der Variablen t h¨ ochstens eine reelle Nullstelle. Der Ausdruck unter der Wurzel in der L¨osungsformel dieser quadratischen Gleichung kann damit nicht 2 positiv sein, das heißt (hx, yi) − kxk2 · kyk2 ≤ 0. Daraus folgt die behauptete Ungleichung. ⊓ ⊔ Als Folgerung ergibt sich daraus die sogenannte Dreiecksungleichung, der wir beim Studium fehlerkorrigierender Codes wiederbegegnen werden, siehe Definition 2.5.3.
kx + yk
Abb. 2.12 Dreiecksungleichung
kyk
kxk
Satz 2.4.14 (Dreiecksungleichung) F¨ ur alle x, y ∈ Rn gilt kx + yk ≤ kxk + kyk . Beweis. Mit Hilfe der Cauchy-Schwarz Ungleichung erhalten wir kx + yk2 = 2 hx+y, x+yi = kxk2 +2hx, yi+kyk2 ≤ kxk2 +2kxk·kyk+kyk2 = (kxk + kyk) , woraus die Behauptung folgt. ⊓ ⊔ Beispiel 2.4.15. Wenn U ⊂ Rn ein Unterraum ist, dann folgt aus (2.15) und (2.16), dass das orthogonale Komplement von U U ⊥ = {x ∈ Rn | hx, ui = 0 f¨ ur alle u ∈ U } ein Unterraum von Rn ist. Wenn (v1 , v2 , . . . , vm ) eine Basis von U ⊂ Rn und A ∈ Mat(m × n, R) die Matrix ist, deren Zeilen die Vektoren vi sind, dann ist die i-te Komponente des Vektors Ax gleich hvi , xi. Somit ist U ⊥ = L¨os(A| 0). Hier haben wir das Standardskalarprodukt des Rn benutzt. 9 Augustin Louis Cauchy (1789–1857), franz¨ osischer Mathematiker. Hermann Amandus Schwarz (1843–1921), deutscher Mathematiker.
2.4 Quadratische Matrizen
129
Rechnungen mit Vektoren des Raumes Rn sind unter Verwendung der kanonischen Basis (e1 , . . . , en ) besonders bequem. Das liegt unter anderem daran, dass die Gramsche Matrix des Standardskalarproduktes bez¨ uglich dieser Basis die Einheitsmatrix 1n ist. Basen mit dieser Eigenschaft, auch bez¨ uglich anderer symmetrischer Bilinearformen, sind daher von besonderem Interesse. Definition 2.4.16. Eine Basis (v1 , v2 , . . . , vn ) eines K-Vektorraumes, auf dem eine symmetrische Bilinearform h·, ·i gegeben ist, heißt Orthonormalbasis (kurz: ON-Basis), falls ( 0 falls i 6= j hvi , vj i = 1 falls i = j. Eine ON-Basis zeichnet sich dadurch aus, dass jeder ihrer Vektoren die L¨ange eins hat und orthogonal zu allen anderen Basisvektoren ist. Die Bestimmung einer ON-Basis eines Unterraumes V ⊂ Rn bez¨ uglich des Standardskalarproduktes auf Rn ist bereits ein interessantes Problem. Dieses wird durch den folgenden Algorithmus gel¨ ost. Gram-Schmidt10 Orthonormalisierungsverfahren Als Eingabedaten seien die Vektoren einer Basis (w1 , w2 , . . . , wm ) eines mit einer symmetrischen Bilinearform ausgestatteten Vektorraumes V gegeben. Ausgegeben wird eine ON-Basis (v1 , v2 , . . . , vm ) von V . 1 w1 Schritt 1: v1 := kw1 k Pk−1 1 Schritt k ≥ 2: vk := zk mit zk := wk − i=1 hwk , vi ivi . kzk k F¨ ur die Vektoren vk gilt offenbar kvk k = 1. Außerdem ist f¨ ur j < k + * k−1 k−1 X X hwk , vi ihvi , vj i . hwk , vi ivi , vj = hwk , vj i − hzk , vj i = wk − i=1
i=1
Wenn wir Induktion u uhren, dann k¨onnen wir an dieser Stelle ¨ ber k ≥ 2 f¨ voraussetzen, dass v1 , . . . , vk−1 bereits eine ON-Basis des von diesen Vektoren aufgespannten Unterraumes ist. Daher ist hvi , vj i = 0 f¨ ur i 6= j < k und Obiges vereinfacht sich zu hzk , vj i = hwk , vj i − hwk , vj i = 0, daher auch hvk , vj i = 0. Damit ist gezeigt, dass dieses Verfahren tats¨ achlich eine ON-Basis produziert. 10
Jørgen Pedersen Gram (1850–1916), d¨ anischer Mathematiker. Erhard Schmidt (1876–1959), deutscher Mathematiker.
130
2 Lineare Algebra
Beispiel 2.4.17. Sei V ⊂ R4 der durch die Basis 1 7 7 1 −1 1 w1 = w2 = w3 = 3 , 7 , 6 5 9 2
gegebene Unterraum. Wir wenden das Orthonormalisierungsverfahren an, um eine ON-Basis von V bez¨ uglich des Standardskalarproduktes des R4 zu bestimmen. Dies sieht konkret wie folgt aus: t
z1 = w1 = (1, 1, 3, 5) 1 1 1 t z1 = z1 = (1, 1, 3, 5) kz1 k = 6, v1 = kz1 k 6 6 1 hw2 , v1 i = hw2 , z1 i = 12 6 t z2 = w2 − hw2 , v1 iv1 = w2 − 12v1 = w2 − 2z1 = (5, −3, 1, −1) 1 1 1 t kz2 k = 6, v2 = z2 = z2 = (5, −3, 1, −1) kz2 k 6 6 1 1 hw3 , v1 i = hw3 , z1 i = 6, hw3 , v2 i = hw3 , z2 i = 6 6 6 t z3 = w3 − hw3 , v1 iv1 − hw3 , v2 iv2 = w3 − z1 − z2 = (1, 3, 2, −2) √ 1 t v3 = √ (1, 3, 2, −2) . kz3 k = 3 2, 3 2 Wir erhalten als ON-Basis f¨ ur V : 1 5 1 1 1 −3 v1 = , v2 = , 1 6 3 6 5 −1
1 1 3 . v3 = √ 3 2 2 −2
Diese Basis von V ⊂ R4 kann man zu einer ON-Basis von R4 erg¨anzen, indem man eine ON-Basis des orthogonalen Komplements V ⊥ bestimmt. Im Allgemeinen ist V ⊥ = L¨ os(A| 0), wobei die Zeilenvektoren der Matrix A die Vektoren vi oder Vielfache von ihnen sind. In diesem Fall w¨ahlen wir 1 1 3 5 A = 5 −3 1 −1 . 1 3 2 −2
Mit Hilfe des Gaußschen Algorithmus findet man (2, 2, −3, 1) als Basisvektor √ von V ⊥ . Da k(2, 2, −3, 1)k = 3 2, ergibt sich als ON-Basis des R4
2.4 Quadratische Matrizen
1 1 1 , v1 = 6 3 5
131
5 1 −3 , v2 = 1 6 −1
1 1 3 , v3 = √ 2 3 2 −2
2 1 2 . v4 = √ −3 3 2 1
Die Vektoren in V sind genau diejenigen, die zu v4 orthogonal sind, das heißt, V ist die L¨osungsmenge der Gleichung 2x1 + 2x2 − 3x3 + x4 = 0 . Das ist eine Alternative zu dem auf Seite 114 beschriebenen Verfahren, welches ein Gleichungssystem mit vorgegebener L¨osungsmenge produziert. Bemerkung 2.4.18. Die Berechnung der Koordinaten (Def. 2.2.21) eines Vektors bez¨ uglich einer ON-Basis ist besonders einfach. Wenn (v1 , v2 , . . . , vn ) eine ON-BasisPeines Vektorraumes V bez¨ uglich eines Pn Skalarproduktes h·, ·i n ist und w = k=1 xk vk ∈ V , dann ist hvi , wi = k=1 xk hvi , vk i = xi da hvi , vi i = 1 und hvi , vk i = 0 f¨ ur i 6= k. Das ergibt w=
n X i=1
hvi , wivi .
Solche Ausdr¨ ucke traten bereits im Orthonormalisierungsverfahren auf. Dort handelte es sich jedoch um die Projektion eines Vektors auf den Unterraum, der durch den bereits konstruierten Teil der ON-Basis aufgespannt wird. Da Koordinaten von Bildvektoren zu bestimmen sind, wenn die Matrixdarstellung einer linearen Abbildung berechnet werden soll, kann man vom Vorhandensein eines Skalarproduktes im Bildraum profitieren. Sei dazu f : V → W eine lineare Abbildung und auf W ein Skalarprodukt gegeben. Wenn A = (v1 , v2 , . . . , vn ) irgendeine Basis von V und B = (w1 , w2 , . . . , wm ) eine ON-Basis von W ist, dann ist der Eintrag der Matrix MBA (f ) an der Stelle (i, j) gleich der i-ten Koordinate von f (vj ) bez¨ uglich der gegebenen ON-Basis von W , vgl. Seite 103. Aus den obigen Betrachtungen folgt damit MBA (f ) = hwi , f (vj )i .
Wenn f : Rn → Rm durch eine Matrix A gegeben ist, dann haben die Eintr¨age bez¨ uglich der neuen Basen die Gestalt hwi , Avj i. Eine quadratische Matrix P ∈ Mat(n × n, R) heißt orthogonal , wenn P ◦ P t = 1n ,
das heißt, wenn P −1 = P t .
Das sind genau die Matrizen, deren Spalten bez¨ uglich des Standardskalart produktes eine ON-Basis des Rn bilden. Aus hx, P yi = xt P y = (P t x) y = t hP x, yi ergibt sich, wenn wir x durch P x ersetzen, dass f¨ ur jede orthogonale Matrix P und alle x, y ∈ Rn die Gleichung
132
2 Lineare Algebra
hP x, P yi = hx, yi gilt. Aus Definition 2.4.12 folgt damit, dass die durch eine Matrix P definierte lineare Abbildung fP : Rn → Rn , vgl. Beispiel 2.2.20, genau dann Winkel und L¨angen nicht ver¨ andert, wenn P orthogonal ist. Das Produkt zweier orthogonaler Matrizen ist stets wieder orthogonal. Das folgt aus der Gleichung (P ◦ Q)t ◦ P ◦ Q = Qt ◦ P t ◦ P ◦ Q. Die Menge aller orthogonalen Matrizen gleicher Gr¨ oße O(n) := {P ∈ GL(n, R) | P ◦ P t = 1n } ist daher eine Gruppe. Sie heißt orthogonale Gruppe. Sie spielt beim Studium der Geometrie des Raumes Rn eine wesentliche Rolle. Da det(P ) = det(P t ), 2 gilt f¨ ur jede orthogonale Matrix (det(P )) = 1. Die orthogonalen Matrizen, deren Determinante gleich eins ist, bilden eine Untergruppe von O(n), die spezielle orthogonale Gruppe SO(n) = {P ∈ O(n) | det(P ) = 1} = O(n) ∩ SL(n, R) . Jede orthogonale Matrix Q mit det(Q) = −1 kann man in der Form D ◦ P oder P ◦D schreiben, wobei P ∈ SO(n) und D eine Diagonalmatrix ist, in der ein Eintrag gleich −1 und alle anderen Diagonaleintr¨age gleich 1 sind. Eine solche Diagonalmatrix entspricht einer Spiegelung. Die Elemente von SO(n) sind Drehungen des Rn . Bei den nicht in dieser Untergruppe enthaltenen Elementen von O(n) handelt es sich um Spiegelungen an (n − 1)-dimensionalen Unterr¨aumen. F¨ ur die Computergraphik sind insbesondere die Gruppen SO(2) und SO(3) von Interesse, da mit ihnen Bewegungen im zwei- und dreidimensionalen Raum beschrieben werden k¨ onnen. Besonders einfach ist die Beschreibung der Gruppe SO(2). Jedes ihrer Elemente entspricht einer Drehung um einen Winkel ϕ ∈ [0, 2π) entgegen dem Uhrzeigersinn: cos(ϕ) − sin(ϕ) SO(2) = {T (ϕ) | ϕ ∈ [0, 2π)} mit T (ϕ) = . sin(ϕ) cos(ϕ) t
Die Bedingung T (ϕ) ◦ T (ϕ) = 12 ist zur Gleichung sin2 (ϕ) + cos2 (ϕ) =1 aquivalent. Die Spiegelung an der Geraden mit Anstieg 12 ϕ ∈ [0, π) ist durch ¨ die Matrix 1 0 cos(ϕ) sin(ϕ) T (ϕ) ◦ = 0 −1 sin(ϕ) − cos(ϕ) gegeben. Damit ist die Gruppe O(2) vollst¨ andig beschrieben.
2.4 Quadratische Matrizen
133
Die Beschreibung der Gruppe SO(3) ist weitaus komplizierter. Am u ¨ bersichtlichsten geht das mit Hilfe der Hamiltonschen11 Quaternionen. Die Quaternionen H bilden einen vierdimensionalen reellen Vektorraum, der mit einer Multiplikation ausgestattet ist. Jede Quaternion q ∈ H l¨asst sich in der Form q = a1 1 + a2 i + a3 j + a4 k
mit
a1 , a2 , a3 , a4 ∈ R
(2.19)
schreiben, wobei (1, i, j, k) eine Basis des reellen Vektorraumes H ist. Die quaternionische Multiplikation erf¨ ullt i2 = j2 = k2 = −1,
i· j = −j· i = k .
Sie ist nicht kommutativ ! Alle anderen K¨ orperaxiome, vgl. Def. 1.4.1, sind erf¨ ullt. Statt a1 1 schreibt man abk¨ urzend a1 . Dadurch werden, genau wie im Fall der komplexen Zahlen, die reellen Zahlen eine Teilmenge von H. Einer komplexen Zahl a1 + a2 i ordnet man die gleichnamige Quaternion zu und erh¨alt Inklusionen R ⊂ C ⊂ H. Das ist m¨ oglich, da 1 ∈ H das neutrale Element bez¨ uglich der Multiplikation ist und da die Multiplikation von Quaternionen mit der gew¨ ohnlichen Multiplikation reeller bzw. komplexer Zahlen vertr¨aglich ist. Explizit ergibt sich mit Hilfe des Distributivgesetzes (a1 + a2 i + a3 j + a4 k) · (b1 + b2 i + b3 j + b4 k) =
= a1 b1 − a2 b2 − a3 b3 − a4 b4 + (a1 b2 + a2 b1 + a3 b4 − a4 b3 ) i +(a1 b3 − a2 b4 + a3 b1 + a4 b2 ) j + (a1 b4 + a2 b3 − a3 b2 + a4 b1 ) k . Zu q = a1 + a2 i + a3 j + a4 k ∈ H definiert man die konjugierte Quaternion q = a1 − a2 i − a3 j − a4 k . Als imagin¨are Quaternionen bezeichnet man solche q ∈ H, f¨ ur die q = −q gilt. Eine Basis des dreidimensionalen Vektorraumes IH aller imagin¨aren Quaternionen ist ( i, j, k). Durch eine Rechnung belegt man p · q = q · p. Als Norm einer Quaternion bezeichnet man die reelle Zahl N (q) = q · q = q · q = a21 + a22 + a23 + a24 ≥ 0 . Damit l¨asst sich das multiplikative Inverse einer Quaternion q 6= 0 leicht q berechnen: q −1 = . N (q) Die Quaternionen, deren Norm gleich eins ist, bilden eine multiplikative Gruppe. Wenn man einer Quaternion q ∈ H mit N (q) = 1 die Matrixdarstellung der linearen Abbildung f : IH → IH zuordnet, die durch f (x) = q · x · q gegeben ist, erh¨alt man einen surjektiven Homomorphismus auf die Gruppe 11
William Rowan Hamilton (1805–1865), irischer Mathematiker, der am 16. Oktober 1843 die Formeln i2 = j2 = k2 = i j k = −1, die er nach jahrelanger Suche an diesem Tag gefunden hatte, in eine Br¨ ucke in Dublin ritzte.
134
2 Lineare Algebra
SO(3) = {A ∈ O(3) | det(A) = 1}. Hierzu verwendet man die Basis ( i, j, k) von IH. Dieser Homomorphismus bildet q und −q auf dieselbe Matrix ab. Indem man f¨ ur x die drei Basisvektoren i, j, k einsetzt, ergibt sich als Matrix, die ±q = a1 + a2 i + a3 j + a4 k entspricht: 2 a1 + a22 − a23 − a24 2a2 a3 − 2a1 a4 2a1 a3 + 2a2 a4 2a1 a4 + 2a2 a3 a21 − a22 + a23 − a24 2a3 a4 − 2a1 a2 . 2a2 a4 − 2a1 a3 2a1 a2 + 2a3 a4 a21 − a22 − a23 + a24
Der Vorteil der Darstellung von SO(3) mit Hilfe von Quaternionen gegen¨ uber der Beschreibung durch Matrizen besteht darin, dass statt der neun Eintr¨age der Matrix nur noch die vier Komponenten der Quaternion gespeichert werden m¨ ussen. Hamiltons Entdeckung erm¨ oglicht somit eine signifikante Verringerung des Speicherplatzbedarfs bei der Beschreibung von Bewegungen im dreidimensionalen Raum. Eine ausf¨ uhrliche Darstellung mit Beweisen findet der Leser in [EbZ].
Eigenwerte Definition 2.4.19. Ein Skalar λ ∈ K heißt Eigenwert einer quadratischen Matrix A ∈ Mat(n × n, K), wenn es einen vom Nullvektor verschiedenen Vektor v ∈ K n gibt, so dass A·v = λv. Ein solcher Vektor v heißt Eigenvektor zum Eigenwert λ. Eigenwerte sind vor allem deshalb von Interesse, weil sie eine einfache Beschreibung der durch A definierten linearen Abbildung fA : K n → K n erm¨oglichen. Wenn es n¨ amlich eine Basis (v1 , v2 , . . . , vn ) von K n gibt, die s¨amtlich aus Eigenvektoren der Matrix A besteht, dann ist die Matrixdarstellung (siehe Seite 103) der Abbildung fA bez¨ uglich dieser Basis besonders einfach. Wenn der Eigenwert zu vi gleich λi ist, also fA (vi ) = Avi = λi vi , dann wird fA bez¨ uglich dieser Basis durch die Diagonalmatrix mit Eintr¨agen λ1 , λ2 , . . . , λn entlang der Diagonalen dargestellt. Rechnungen mit Diagonalmatrizen sind besonders bei sehr großen Matrizen viel ¨okonomischer als solche mit Matrizen, in denen nicht so viele Eintr¨ age gleich Null sind. Leider ist es nicht m¨ oglich, f¨ ur jede Matrix eine Basis aus Eigenvektoren zu finden. Das ist der Fall, wenn der zugrunde liegende K¨orper K zu klein in dem Sinne ist, dass nicht jedes Polynom mit Koeffizienten aus K in Linearfaktoren mit Koeffizienten aus K zerlegt werden kann. So hat zum Beispiel die Matrix 1 0 −1 = C) die komplexen Eigenwerte i und −i, da 10 −1 −i 0 1 0 ∈ Mat(2×2, 1 1 1 ). Uber ¨ dem K¨ o rper K = R hat diese Matrix ) = −i ( ( i −i und 10 −1 i i 0 jedoch keinen Eigenwert. Außerdem kann es bei Vorliegen mehrfacher Eigenwerte, wie zum Beispiel bei der Matrix ( 10 11 ) ∈ Mat(2 × 2, R), vorkommen, dass es nicht gen¨ ugend
2.4 Quadratische Matrizen
135
viele Eigenvektoren gibt: Es gilt zwar ( 10 11 ) ( 10 ) = ( 10 ), aber jeder andere Eigenvektor dieser Matrix ist ein Vielfaches des Vektors ( 10 ). Definition 2.4.20. Wenn A ∈ Mat(n × n, K) eine quadratische Matrix ist, dann heißt χA (λ) := det (λ1n − A) ∈ K[λ] das charakteristische Polynom der Matrix A. Die Nullstellen des charakteristischen Polynoms χA sind genau die Eigenwerte der Matrix A. Das ergibt sich aus Folgerung 2.2.29, angewandt auf die Matrix λ1n − A, deren Kern die Eigenvektoren zum Eigenwert λ enth¨alt. F¨ ur jeden Eigenwert λ nennt man die Menge ker(λ1n − A) = {v ∈ K n | A · v = λv} den zu λ geh¨origen Eigenraum. Er enth¨ alt außer den zu λ geh¨origen Eigenvektoren auch noch den Nullvektor, den wir nicht als Eigenvektor betrachten. Beispiel 2.4.21. Zur Bestimmung der Eigenwerte und Eigenr¨aume der Matrix A = ( 12 21 ) gehen wir folgendermaßen vor. Zun¨achst bestimmen wir das charakteristische Polynom λ0 12 λ − 1 −2 χA (λ) = det (λ12 − A) = det − = det 0λ 21 −2 λ − 1 = (λ − 1)2 − 4 = λ2 − 2λ − 3 .
Die beiden Nullstellen dieses Polynoms λ1 = −1 und λ2 = 3 sind die Eigenwerte von A. Die zugeh¨ origen Eigenr¨ aume sind die L¨osungsmengen der Gleichungssysteme mit Koeffizientenmatrizen −2 −2 2 −2 λ1 12 − A = bzw. λ2 12 − A = . −2 −2 −2 2 t
Als Basisvektoren f¨ ur diese Eigenr¨ aume bestimmt man leicht v1 = (1, −1) und v2 = (1, 1)t . Beide Eigenr¨ aume haben Dimension eins.
Beispiel 2.4.22. Das charakteristische Polynom der Matrix 0 10 λ −1 0 A = 0 0 1 ist gleich det 0 λ −1 = (λ + 1)(λ − 1)(λ − 2) . −2 1 2 2 −1 λ − 2
Die Eigenwerte von A sind somit λ1 = −1, λ2 = 1 und λ3 = 2. Die Eigenr¨aume sind auch hier eindimensional. Aus den Koeffizientenmatrizen λi 12 − A erh¨alt man Basisvektoren vi wie folgt:
136
2 Lineare Algebra
−1 −1 0 1 0 −1 1 λ1 : 0 −1 −1 7→ 0 1 1 =⇒ v1 = −1 2 −1 −3 00 0 1 1 1 0 −1 1 −1 0 λ2 : 0 1 −1 7→ 0 1 −1 =⇒ v2 = 1 1 00 0 2 −1 −1 2 −1 0 4 0 −1 1 λ3 : 0 2 −1 7→ 0 2 −1 =⇒ v3 = 2 . 2 −1 0 00 0 4 Satz 2.4.23 Eigenvektoren v1 , . . . , vk zu paarweise verschiedenen Eigenwerten λ1 , . . . , λk einer Matrix A ∈ Mat(n × n, K) sind stets linear unabh¨angig. Beweis. Wir f¨ uhren den Beweis per Induktion u ¨ ber k ≥ 1. Wenn k = 1, dann ist die Behauptung ¨ aquivalent mit dem in der Definition geforderten Nichtverschwinden der Eigenvektoren. F¨ ur den Induktionsschritt nehmen wir an, dass v1 , . . . , vk−1 linear unabh¨ angig sind. Wenn a1 v1 + a2 v2 + . . . + ak vk = 0 f¨ ur geeignete ai ∈ K, dann folgt einerseits durch Multiplikation mit dem Eigenwert λk a1 λk v1 + a2 λk v2 + . . . + ak−1 λk vk−1 + ak λk vk = 0 . Andererseits liefert Anwendung von A wegen A · vi = λi vi die Gleichung a1 λ1 v1 + a2 λ2 v2 + . . . + ak−1 λk−1 vk−1 + ak λk vk = 0 . In der Differenz beider Ausdr¨ ucke tritt der Vektor vk nicht mehr auf: a1 (λk − λ1 )v1 + a2 (λk − λ2 )v2 + . . . + ak−1 (λk − λk−1 )vk−1 = 0 . Da λk − λi 6= 0 f¨ ur 1 ≤ i ≤ k − 1, folgt aus der Induktionsvoraussetzung, dass a1 = . . . = ak−1 = 0 ist. Daraus ergibt sich ak vk = 0, was wegen vk 6= 0 schließlich ak = 0 zur Folge hat. ⊓ ⊔ Folgerung 2.4.24. Wenn das charakteristische Polynom χA einer n × nMatrix A in n paarweise verschiedene Linearfaktoren zerf¨allt, dann gibt es eine Basis von K n , die aus Eigenvektoren von A besteht. Beweis. Dass das Polynom χA vom Grad n in n paarweise verschiedene Linearfaktoren zerf¨ allt, bedeutet χA (λ) = (λ − λ1 )(λ − λ2 ) · · · (λ − λn ) mit paarweise verschiedenen λi ∈ K. Diese λi sind die Eigenwerte von A. Die zu diesen Eigenwerten geh¨ origen Eigenvektoren v1 , v2 , . . . , vn sind nach Satz
2.4 Quadratische Matrizen
137
2.4.23 linear unabh¨ angig, bilden daher wegen der S¨atze 2.2.11 und 2.2.12 eine Basis von K n . ⊓ ⊔ ¨ Der Ubergang von der Standardbasis zu einer Basis aus Eigenvektoren geschieht durch eine sogenannte Basiswechselmatrix P ∈ GL(n, K). Ihre Spalten werden von den Eigenvektoren v1 , v2 , . . . , vn gebildet. Die i-te Spalte von A ◦ P ist der Vektor A · vi = λi vi . Wenn D(λ1 , . . . , λn ) die Diagonalmatrix mit den Eigenwerten λi entlang der Diagonalen (und Nullen u ¨berall sonst) bezeichnet, dann ist λi vi gerade der i-te Spaltenvektor der Matrix P ◦ D(λ1 , . . . , λn ). Das beweist A ◦ P = P ◦ D(λ1 , . . . , λn )
und
A = P ◦ D(λ1 , . . . , λn ) ◦ P −1 .
Eine solche Darstellung ist f¨ ur konkrete Rechnungen sehr n¨ utzlich, zum Beispiel zur Berechnung sehr hoher Potenzen der Matrix A. Das liegt daran, dass hohe Potenzen von Diagonalmatrizen mit geringem Aufwand berechnet werden: D(λ1 , . . . , λn )k = D(λk1 , . . . , λkn ) ∀k > 0. Das ergibt Ak = (P ◦ D(λ1 , . . . , λn ) ◦ P −1 )k
= (P ◦ D ◦ P −1 ) ◦ (P ◦ D ◦ P −1 ) ◦ . . . ◦ (P ◦ D ◦ P −1 )
= P ◦ D(λ1 , . . . , λn )k ◦ P −1
= P ◦ D(λk1 , . . . , λkn ) ◦ P −1 .
3 −1 −1 3 λ−3 1 χA (λ) = det = (λ − 2)(λ − 4) 1 λ−3 1 −1 P = 1 1 k 1 1 −1 2 0 1 1 Ak = P ◦ D(2, 4)k ◦ P −1 = −1 1 0 4k 2 1 1 k k k 1 2 + 4k 2k − 4k k−1 1 + 2 1 − 2 = 2 = 1 − 2k 1 + 2k 2 2k − 4k 2k + 4k 9444732965808009904128 −9444732965670570950656 A37 = −9444732965670570950656 9444732965808009904128 38685626227672531637108736 −38685626227663735544086528 A43 = −38685626227663735544086528 38685626227672531637108736 Beispiel 2.4.25. A =
138
2 Lineare Algebra
Beispiel 2.4.26. Eine interessante Anwendung ergibt sich mit der Matrix 11 A= . Ihr charakteristisches Polynom ist χA (λ) = λ2 − λ − 1 und die 10 Eigenwerte sind √ √ 1− 5 1+ 5 und 1 − ϕ = . ϕ= 2 2 Als Eigenvektor zu ϕ findet man (ϕ, 1) und ein Eigenvektor zu 1 − ϕ ist (1 − ϕ, 1). Damit ergibt sich 11 ϕ 0 ϕ 1−ϕ −1 A= =P P mit P = . 10 0 1−ϕ 1 1 √ Da det(P ) = 2ϕ − 1 = 5, erhalten wir P −1 = 1 An = √ 5
√1 5
1 ϕ−1 −1 ϕ
und damit
n ϕ 1−ϕ ϕ 0 1 ϕ−1 . 1 1 0 (1 − ϕ)n −1 ϕ
Insbesondere ergibt sich 1 ϕn+1 − (1 − ϕ)n+1 1 =√ An . 0 ϕn − (1 − ϕ)n 5 Die Fibonacci-Folge (vgl. Kapitel 3, Beispiel 3.2.3) ist rekursiv definiert durch f0 = 0, f1 = 1 und fn+1 = fn + fn−1 f¨ ur n > 0. Daher gilt f1 1 fn+1 11 fn fn+1 n 1 = , = , also =A . 0 f0 10 fn fn−1 fn 0 Somit haben wir durch obige Rechnung die Formel von Binet12 bewiesen √ !n √ !n ! 1+ 5 1− 5 1 . − fn = √ 2 2 5 Auch wenn das charakteristische Polynom einer Matrix mehrfache Nullstellen besitzt, kann es eine Basis aus Eigenvektoren geben. Jede der folgenden Matrizen hat die Standardvektoren e1 , e2 , e3 , e4 als Eigenvektoren. Die Eigenwerte sind die Eintr¨ age auf der Diagonalen und ihre Vielfachheit als Nullstelle des charakteristischen Polynoms stimmt mit der H¨aufigkeit ihres Auftretens in der Matrix u ¨ berein. 12
Jacques Philippe Marie Binet (1786–1856), franz¨ osischer Mathematiker.
2.4 Quadratische Matrizen
100 0 2 0 0 0 2 000
139
0 0 0 3
200 0 2 0 0 0 3 000
0 0 0 3
1 0 0 0
00 10 01 00
0 0 0 1
Wie bereits eingangs erw¨ ahnt, existiert nicht in jedem Fall eine Basis aus Eigenvektoren. Typische Matrizen, f¨ ur die dies der Fall ist, sind 1000 2100 1100 0100 0 2 1 0 0 2 0 0 0 1 1 0 0 0 1 0 0 0 2 0 0 0 3 1 0 0 1 0 0 0 0 1 . 0003 0003 0002 0000
Der von den Eigenvektoren aufgespannte Unterraum von Q4 hat f¨ ur diese Matrizen jeweils nur die Dimension 3, 2, 2 bzw. 1. F¨ ur jede quadratische Matrix, deren charakteristisches Polynom in Linearfaktoren zerf¨allt, gibt es eine sogenannte Jordansche13 Normalform. Die angegebenen Beispiele haben diese Normalform, die sich dadurch auszeichnet, dass alle Eintr¨age gleich Null sind außer den auf der Diagonalen eingetragenen Eigenwerten dieser Matrix und einigen Eintr¨ agen direkt u ¨ ber der Diagonalen, die gleich Eins sind. Sobald diese Normalform außerhalb der Diagonale von Null verschiedene Eintr¨age besitzt, gibt es keine Basis, die aus Eigenvektoren besteht. Auch diese Normalformen lassen sich als P −1 ◦ A ◦ P mit einer geeigneten Matrix P ∈ GL(n, K) ausdr¨ ucken. Wir erl¨autern hier weder die theoretischen Grundlagen zum Beweis der Existenz der Jordanschen Normalform, noch geben wir eine Beschreibung, wie sie bestimmt werden kann. Das findet der interessierte Leser in der Standardliteratur zur linearen Algebra f¨ ur Mathematiker, zum Beispiel [Br], [Fi] oder [Kow]. Statt dessen besch¨ aftigen wir uns mit dem wesentlich einfacheren Spezialfall der symmetrischen Matrizen. Satz 2.4.27 Sei A = At ∈ Mat(n × n, R) eine reelle symmetrische Matrix. Dann gilt: (i) Alle Eigenwerte von A sind reell, d.h. das charakteristische Polynom χA zerf¨allt in Linearfaktoren. (ii) Es gibt eine Matrix P ∈ O(n), so dass P −1 ◦ A ◦ P = P t ◦ A ◦ P eine Diagonalmatrix ist. Die Spalten von P bilden eine aus Eigenvektoren von A bestehende ON-Basis des Vektorraumes Rn . Beweis. Da die Eintr¨ age von A reell sind, hat das charakteristische Polynom χA (λ) ∈ R[λ] reelle Koeffizienten. Nach dem Fundamentalsatz der Algebra (Satz 1.4.21) zerf¨allt es in C[λ] in Linearfaktoren, es ist jedoch m¨oglich, dass 13
Camille Jordan (1838–1922), franz¨ osischer Mathematiker.
140
2 Lineare Algebra
nicht-reelle Nullstellen als konjugierte Paare komplexer Zahlen auftreten. Die zu solchen Eigenwerten geh¨ origen Eigenvektoren haben m¨oglicherweise nichtreelle Eintr¨age, daher wechseln wir von Rn in den komplexen Vektorraum Cn . Die Abbildung h : Cn × Cn → C, die durch h(v, w) = v t · w gegeben ist, nennt man hermitesches Skalarprodukt. Es hat ¨ahnliche Eigenschaften wie das Standardskalarprodukt auf dem Rn . Wenn alle Komponenten von v und w reell sind, dann gilt h(v, w) = hv, wi. F¨ ur jedes v ∈ Cn ist h(v, v) reell und h(v, v) = v t · v =
n X
v i vi =
i=1
n X i=1
|vi |2 > 0
f¨ ur v 6= 0.
Der f¨ ur uns wichtigste Unterschied zum Standardskalarprodukt besteht in h(v, λw) = λh(v, w) ,
∀ λ ∈ C, ∀ v, w ∈ Cn .
aber h(λv, w) = λh(v, w)
Aus der Definition von h ergibt sich t
t
t
h(Av, w) = (Av) · w = v t · A · w = h(v, A w) = h(v, Aw) . t
Die letzte Gleichung gilt, weil A reell und symmetrisch ist, d.h. A = A . Damit sind alle zum Beweis von (i) n¨ otigen Werkzeuge bereitgestellt. Sei λ ∈ C ein Eigenwert von A und v ∈ Cn ein zugeh¨origer Eigenvektor, das heißt v 6= 0 und Av = λv. Dann ergibt sich λh(v, v) = h(λv, v) = h(Av, v) = h(v, Av) = h(v, λv) = λh(v, v) . Da h(v, v) wegen v 6= 0 eine positive reelle Zahl ist, folgt daraus λ = λ und somit λ ∈ R wie behauptet. Zum Beweis von (ii) nutzen wir Induktion u ur den Induktions¨ber n ≥ 1. F¨ anfang bei n = 1 ist nichts zu beweisen. F¨ ur den Induktionsschritt nehmen wir an, die Behauptung sei f¨ ur Matrizen der Gr¨oße n − 1 ≥ 1 bereits bewiesen. Aus Teil (i) wissen wir, dass A einen reellen Eigenwert λ besitzt. Sei vn ∈ Rn ein zugeh¨ origer Eigenvektor. Da auch jedes von Null verschiedene reelle Vielfache dieses Vektors ein Eigenvektor zum Eigenwert λ ist, k¨onnen wir annehmen, kvn k = 1. Die L¨ ange von vn wird hier mit dem Standardskalarprodukt des Rn berechnet. Das orthogonale Komplement von vn (siehe Beispiel 2.4.15) U = {w ∈ Rn | hvn , wi = 0} ist ein Unterraum der Dimension n − 1. Dort wollen wir nun die Induktionsvoraussetzung anwenden. Dazu bemerken wir zuerst, dass hvn , Awi = hAvn , wi = hλvn , wi = λhvn , wi , da A symmetrisch und Avn = λvn ist. Daher ist Aw ∈ U f¨ ur alle w ∈ U . Die Matrixdarstellung A′ der durch A definierten linearen Abbildung U → U
2.4 Quadratische Matrizen
141
bez¨ uglich einer ON-Basis w1 , w2 , . . . , wn−1 von U hat an der Position (i, j) den Eintrag hwi , Awj i, siehe Bemerkung 2.4.18. Da A eine symmetrische Matrix ist, folgt mit (2.17) hwi , Awj i = hAwi , wj i = hwj , Awi i . Somit ist A′ eine symmetrische (n − 1) × (n − 1)-Matrix. Die Induktionsvoraussetzung liefert nun die Existenz einer ON-Basis v1 , v2 , . . . , vn−1 von U , bez¨ uglich der A′ Diagonalgestalt hat. Die Vektoren v1 , . . . , vn bilden die Spalten der gesuchten orthogonalen Matrix P . ⊓ ⊔ Dieser Satz hat vielf¨ altige Anwendungen. Eine dieser Anwendungen ist als Hauptachsentransformation bekannt. Dabei geht es darum, die Gestalt einer durch eine quadratische Gleichung gegebenen Menge zu bestimmen. Beispiel 2.4.28. Die quadratische Gleichung 337x21 + 168x1 x2 + 288x22 = 3600 hat unendlich viele L¨ osungen (x1 , x2 ) ∈ R2 . Diese Punkte bilden eine Kurve in der Ebene, die wir zeichnen m¨ ochten. Dazu setzen wir x = xx12 und schreiben diese Gleichung in der Form 337 84 xt · A · x = 3600 mit der symmetrischen Matrix A = . 84 288 Das charakteristische Polynom von A lautet χA (λ) = λ2 − 625λ + 90000 = (λ − 400)(λ − 225) . t
Als Eigenvektor zum Eigenwert λ1 = 400 ermittelt man v1 = (4, 3) . Ein t Eigenvektor zu λ2 = 225 ist v2 = (−3, 4) . Diese beiden Vektoren sind orthogonal zueinander (vgl. Aufgabe 2.40). Da kv1 k = kv2 k = 5 erhalten wir die orthogonale Matrix 1 4 −3 400 0 , f¨ ur die A = P ◦ ◦ P t gilt. P = 0 225 5 3 4 Daraus sehen wir, dass x = P · y =
1 5
(y1 v1 + y2 v2 ) genau dann eine L¨osung 400 0 der Gleichung xt · A · x = 3600 ist, wenn y t y = 3600 gilt, d.h. 0 225 400y12 + 225y22 = 3600 oder ¨ aquivalent y 2 1
3
+
y 2 2
4
=1.
Das ist die Gleichung einer Ellipse mit Halbachsen der L¨angen 3 und 4, siehe Abbildung 2.13.
142
2 Lineare Algebra x2 5
y2
4 3 2
y1
1 −4 −3 −2 −1 −1
1
2
3
4
5
x1
−2 −3 −4 Abb. 2.13 L¨ osungsmenge der Gleichung 337x21 + 168x1 x2 + 288x22 = 3600
Eine zweite Anwendung besch¨ aftigt sich mit der positiven Definitheit symmetrischer Matrizen. Eine symmetrische Matrix A = At ∈ Mat(n × n, R) heißt positiv definit , wenn die Bilinearform hv, wiA = hAv, wi, deren Gramsche Matrix gerade A ist, positiv definit ist. Explizit heißt das: v t · A · v > 0 f¨ ur alle 0 6= v ∈ Rn . Als unmittelbare Konsequenz des Satzes 2.4.27 erhalten wir, dass eine symmetrische Matrix A = At ∈ Mat(n×n, R) genau dann positiv definit ist, wenn ihre Eigenwerte s¨ amtlich positiv sind. Um das einzusehen, schreiben wir die aus den Eigenwerten gebildete Diagonalmatrix als D(λ1 , . . . , λn ) = P t ◦ A ◦ P mit P ∈ O(n). Somit sind die Eigenwerte λi = ei t · D(λ1 , . . . , λn ) · ei = (P ei )t · A · P ei positiv, wenn A positiv definit ist. Umgekehrt folgt die positive Pn Definitheit t von A daraus, dass P ∈ GL(n, R) und (P y) ·A·P y = y t ·D·y = i=1 λi yi2 > 0 f¨ ur y 6= 0 gilt. Eine interessantere und sehr n¨ utzliche Anwendung ist das Hauptminorenkriterium von Sylvester 14 . Als Hauptminor einer quadratischen Matrix A bezeichnet man die Determinante jeder quadratischen Teilmatrix, die die linke obere Ecke von A enth¨ alt: 14
James Joseph Sylvester (1814–1897), englischer Mathematiker.
2.4 Quadratische Matrizen
143
a11 a21 a31 a41 .. .
a12 a22 a32 a42 .. .
a13 a23 a33 a43 .. .
a14 a24 a34 a44 .. .
... ... ... ...
a1n a2n a3n a4n .. .
an1 an2 an3 an4 . . . ann also a11 , det ( aa11 21
a12 a22
) u.s.w. bis einschließlich det(A).
Satz 2.4.29 Eine symmetrische Matrix A = At ∈ Mat(n × n, R) ist genau dann positiv definit, wenn alle ihre Hauptminoren positiv sind. Beweis. Wir f¨ uhren den Beweis per Induktion u ¨ ber n, die Gr¨oße der Matrix A. F¨ ur den Start der Induktion bei n = 1 ist nichts zu beweisen. F¨ ur den Induktionsschritt nehmen wir an, dass das Kriterium f¨ ur Matrizen der Gr¨oße n − 1 bereits bewiesen ist. Sei nun A positiv definit. Wir haben zu zeigen, dass alle Hauptminoren von A positiv sind. Die Teilmatrix Ann , die durch Streichung der letzten Zeile und Spalte aus A hervorgeht, ist ebenfalls positiv definit. Dies folgt aus der Gleichung y t Ann y = xt Ax, in der y ∈ Rn−1 und x = (y, 0) ∈ Rn der in der letzten Komponente durch 0 erg¨ anzte Vektor ist. Somit sind die Hauptminoren von Ann nach Induktionsvoraussetzung positiv. Der einzige Hauptminor von A, der nicht unter den n − 1 Hauptminoren von Ann vorkommt, ist det(A). Nach Satz 2.4.27 existiert eine invertierbare Matrix P , so dass P −1 ◦ A ◦ P = D eine Diagonalmatrix ist, deren Eintr¨age die Eigenwerte von A sind. Daher ist, Q unter Benutzung von Satz 2.4.5, det(A) = det(P −1 ◦ A ◦ P ) = det(D) = λi > 0. Damit ist gezeigt, dass alle Hauptminoren von A positiv sind. Zum Abschluss zeigen wir, dass A positiv definit ist, wenn alle ihre Hauptminoren positiv sind. Da die Hauptminoren von Ann unter denen von A enthalten sind, ist Ann nach Induktionsvoraussetzung positiv definit. Damit sind die Eigenwerte von Ann positiv. Nach Satz 2.4.27 gibt es eine Basis des Rn−1 , die aus Eigenvektoren der Matrix Ann besteht. Indem man Rn−1 mit dem von e1 , e2 , . . . , en−1 aufgespannten Unterraum U von Rn identifiziert, kann man diese Eigenvektoren als Vektoren v1 , v2 , . . . , vn−1 im Rn auffassen. Das werden im Allgemeinen keine Eigenvektoren von A sein, aber es gilt ( 0 falls i 6= j hvi , Avj i = hAvi , vj i = λi > 0 falls i = j , da diese Ausdr¨ ucke wegen des verschwindenden letzten Eintrages in den Vektoren vi nur von Ann abh¨ angen. Wenn wir xi = λ1i hAen , vi i setzen, dann gilt Pn−1 f¨ ur den Vektor vn = en − i=1 xi vi und f¨ ur j = 1, 2, . . . , n − 1
144
2 Lineare Algebra
hvn , Avj i = hen , Avj i −
n−1 X i=1
xi hvi , Avj i = hAen , vj i − xj λj = 0 .
Das bedeutet, dass die Gramsche Matrix der durch A definierten symmetrischen Bilinearform h·, ·iA bez¨ uglich der Basis (v1 , v2 , . . . , vn ) Diagonalgestalt besitzt. Wenn P die – im Allgemeinen nicht orthogonale – Matrix bezeichnet, deren Spalten die Vektoren vi sind, dann ist P t ◦ A ◦ P = D eine Diagonalmatrix mit Eintr¨ agen λ1 , . . . , λn−1 , hvn , Avn i. Daher ist 2 λ1 · . . . · λn−1 · hvn , Avn i = det(P ) det(A) .
Da nach Voraussetzung det(A) > 0 und λi > 0, muss auch λn P := hvn , Avn i > 0 sein. Damit ist f¨ ur 0 6= y = (y1 , . . . , yn ) ∈ Rn auch y t ·D·y = ni=1 λi yi2 > 0. t Weil P ∈ GL(n, R) und (P y) · A · P y = y t · D · y > 0, ist A positiv definit. ⊓ ⊔ Beispiel 2.4.30. Um festzustellen, ob die symmetrischen Matrizen 222 232 A = 2 3 2 bzw. B = 3 2 2 224 224
positiv definit sind, berechnen wir deren Hauptminoren. Im Fall der Matrix A sind dies 2, det ( 22 23 ) = 2 und det(A) = 4. Die Matrix A ist positiv definit. Da hingegen det ( 23 32 ) = −5 < 0, ist die Matrix B nicht positiv definit.
Aufgaben ¨ Ubung 2.25. Berechnen Sie die Determinanten folgender Matrizen: 1 5 10 10 5 1 3 15 20 20 15 3 1 2 −1 −2 2 31 2 9 21 21 9 2 2 3 0 2 1 0 , −1 3 1 , , und 0 1 3 4 2 0 . 1 7 1 13 −1 3 1 10 4 20 41 42 20 4 0 −2 0 −1 1 5 12 12 7 3
¨ Ubung 2.26. Seien x1 , x2 , . . . , xn reelle Zahlen und Vn die quadratische Mai−1 i−1 trix deren i-ter Zeilenvektor (xi−1 1 , x2 , . . . , xn ) ist (i = 1, . . . , n). Die Determinanten einer solchen Matrix nennt man Vandermodesche DeterminanQ te 15 . Zeigen Sie det(Vn ) = i>j (xi − xj ).
¨ Ubung 2.27. Sei σ ∈ Sn eine Permutation (vgl. Beispiel 1.3.3) und P (σ) ∈ Mat(n × n, K) die Matrix deren Eintr¨ age aij alle gleich Null sind, außer 15
Alexandre Th´ eophile Vandermonde (1735–1796), franz¨ osischer Mathematiker.
2.4 Quadratische Matrizen
145
aσ(j)j . Die von Null verschiedenen Eintr¨ age sind gleich Eins. Diese Matrizen nennt man Permutationsmatrizen, da sie aus der Einheitsmatrix 1n durch Permutation der Zeilen mittels σ entstehen. Zeigen Sie: P (σ)ek = eσ(k) und P (στ ) = P (σ)P (τ ). ¨ Ubung 2.28. Sei f : Mat(n × n, K) → K eine Abbildung mit den folgenden, zu (1),(2),(3) in Satz 2.4.3 analogen Eigenschaften: (i) f (A) = f (A′ ) + f (A′′ ), wenn die i-te Zeile von A die Summe der i-ten Zeilen von A′ und A′′ ist, ansonsten aber A, A′ , A′′ u ¨bereinstimmen; (ii) f (A) = λf (A′ ), wenn die i-te Zeile von A das λ-fache der i-te Zeile von A′ ist, beide Matrizen ansonsten aber u ¨ bereinstimmen; (iii) f (A) = 0, wenn A zwei gleiche Zeilen besitzt. Beweisen Sie: (a) Wenn f (1n ) = 0, dann ist f (A) = 0 f¨ ur alle A ∈ Mat(n × n, K). (b) Wenn f (1n ) = 1, dann ist f (A) = det(A) f¨ ur alle A ∈ Mat(n × n, K). ¨ Ubung 2.29. Sei sgn(σ) := det(P (σ)), siehe Aufgabe 2.27, das Signum oder die Parit¨at der Permutation σ ∈ Sn (vgl. Beispiel 1.3.3). Beweisen Sie f¨ ur jede Matrix A = (aij ) ∈ Mat(n × n, K) die Formel X sgn(σ)a1σ(1) a2σ(2) · · · anσ(n) . det(A) = σ∈Sn
Dies verallgemeinert die expliziten Formeln f¨ ur die Determinante aus Beispiel 2.4.2. ¨ Ubung 2.30. Benutzen Sie die Cramersche Regel zum L¨osen das Systems 2x1 + x2 = 1 −x1 + 2x2 + x3 = −26 x2 + 2x3 = 1 . ¨ Ubung 2.31. Berechnen Sie den Winkel zwischen v1 = (2, 1, 0, 2) und v2 = (2, 4, 2, 1) bzw. zwischen w1 = (1, 1, 1, 1) und w2 = (1, 0, 0, 0) im R4 . ¨ Ubung 2.32. Bestimmen Sie eine ON-Basis f¨ ur den durch 1 3 2 3 2 2 u1 = 1 , u2 = −1 , u3 = 1 5 2 0 aufgespannten Unterraum des R4 .
¨ Ubung 2.33. Sei U ⊂ R4 der durch v1 = (2, 0, 0, 2) und v2 = (3, 1, 3, 1) aufgespannte Unterraum. Bestimmen Sie eine ON-Basis von U ⊥ .
146
2 Lineare Algebra
¨ Ubung 2.34. Bestimmen Sie f¨ ur die folgenden Matrizen A alle Eigenwerte, finden Sie jeweils eine Basis aus Eigenvektoren und eine invertierbare Matrix P , so dass P −1 ◦ A ◦ P Diagonalgestalt besitzt: 2 −4 1 −2 3 −2 1 0 1 0 0 −2 0 0 01 , −1 2 −3 , 1 0 0 und 1 −1 2 −1 . 10 1 2 −5 1 −1 1 −1 1 1 1 ¨ Ubung 2.35. Berechnen Sie
200 32 −33 . 22 −23
¨ Ubung 2.36. Zeichnen Sie, nach Durchf¨ uhrung einer Hauptachsentransformation, die durch folgende Gleichungen bestimmten Mengen im R2 : (i) x2 + 4xy − 2y 2 = 3 (ii) 5x2 − 6xy + 5y 2 = 32 (iii) 9x2 + 6xy + y 2 + 3y − x = 1 ¨ Ubung 2.37. Welche der Matrizen sind positiv definit? 21 1 1 1 −1 1 1 1 1 1 78 , −1 2 0 und 1 1 2 −1 . 89 1 0 1 1 1 −1 13
¨ Ubung 2.38. Sei V ein Vektorraum mit Skalarprodukt und x, y ∈ V . Beweisen Sie (i) kx + yk2 + kx − yk2 = 2kxk2 + 2kyk2 (Parallelogrammregel); (ii) Wenn kxk = kyk dann sind x + y und x − y orthogonal zueinander. ¨ Ubung 2.39. F¨ ur jede quadratische P Matrix A = (aij ) nennt man die Summe der Diagonalelemente tr(A) := aii die Spur der Matrix A. F¨ ur eine 2 × 2Matrix ist zum Beispiel tr ac db = a + d die Spur. Sei A eine 2 × 2-Matrix. Zeigen Sie χA (λ) = λ2 −tr(A)λ+det(A) und beweisen Sie tr(A) = tr(P −1 AP ) f¨ ur jede invertierbare 2 × 2-Matrix P . ¨ Ubung 2.40. Zeigen Sie, dass Eigenvektoren zu verschiedenen Eigenwerten einer symmetrischen Matrix bez¨ uglich des Standardskalarproduktes stets orthogonal zueinander sind. ¨ Ubung 2.41. Sei n > 0 eine positive ganze Zahl. Bestimmen Sie alle Elemente der Ordnung n in der Gruppe SO(2). (Die Ordnung eines Gruppenelements wurde in Definition 1.3.21 definiert.)
2.5 Fehlerkorrigierende Codes
147
2.5 Fehlerkorrigierende Codes Als Ausgangspunkte f¨ ur die in den vorangegangenen Abschnitten durchgef¨ uhrten Abstraktionen dienten uns unsere allt¨agliche Raumvorstellung und die Erfahrung im Umgang mit ganzen Zahlen. Dadurch wurden wir zu Begriffen wie Vektorraum und Ring gef¨ uhrt. Im Folgenden werden wir durch konkrete Anwendungen die N¨ utzlichkeit dieser abstrakten Begriffsbildungen illustrieren. Bereits bei der Beschreibung von fehlererkennenden Codes (EAN, ISBN, Banknotennummern) im Kapitel 1 hatten wir Methoden aus der Gruppentheorie verwendet. Wir befassen uns hier mit der m¨oglichen Korrektur von Fehlern bei der Daten¨ ubertragung. Die einfachsten Verfahren beruhen auf den linearen Codes – das sind Vektorr¨ aume u ¨ ber dem K¨orper F2 – und auf den zyklischen Codes – sie werden mit Hilfe des Polynomringes F2 [X] konstruiert. In der Codierungstheorie besch¨ aftigt man sich mit dem folgenden Problem: Gewisse Daten k¨ onnen nur u ¨ber einen st¨oranf¨alligen Kanal zu ihrem Empf¨anger u bermittelt werden. Der Empf¨ anger soll in der Lage sein, trotz ¨ zuf¨alliger St¨orungen, aus den empfangenen Daten mit hoher Wahrscheinlichkeit die korrekten Originaldaten zu rekonstruieren. Mit einem derartigen Problem wird man im Alltagsleben oft konfrontiert: Beim Telefonieren h¨ oren wir die St¨ orung als Knacken und Rauschen in der Leitung. Dass dies immer seltener auftritt oder manchem Leser g¨anzlich unbekannt ist, ist auch ein Verdienst der Codierungstheorie. Beim Abspielen von Musik, die auf herk¨ ommlichen Tontr¨ agern (Schallplatte, CD, Tonband) gespeichert ist, kann durch mechanische Besch¨adigung des Tontr¨agers eine Qualit¨atsminderung entstehen. Im vorigen Jahrhundert war die deutlich h¨ orbare St¨orung durch einen Kratzer auf einer Schallplatte ein vielen Menschen vertrautes Ph¨ anomen. Die hervorragende Tonqualit¨at beim Abspielen einer Musik-CD oder anderer digitaler Tontr¨ ager wird ganz wesentlich durch die Anwendung moderner Codierungstheorie erm¨oglicht. St¨orungen durch Flecke oder Kratzer k¨ onnen dadurch weitgehend ausgeglichen werden. Auch außerhalb unseres Alltagslebens, bei der Kommunikation u ¨ber sehr große Distanzen, zum Beispiel mit einem Raumschiff oder Satelliten, ist die Anwendung fehlerkorrigierender Codes wichtig. Die Grundidee der fehlerkorrigierenden Codes besteht darin, dass man Redundanz zu den zu u ugt, also Information wieder¨ bermittelnden Daten hinzuf¨ holt. Dadurch wird erreicht, dass bei Verlust oder St¨orung eines Teils der u oglichst wenig Information verlorengegangen ist. ¨ bermittelten Daten m¨ Die einfachste Umsetzung dieser Idee ist der sogenannte Wiederholungscode. Dieses Verfahren kommt bei in Seenot geratenen Schiffen zur Anwendung seit eine Nachrichten¨ ubertragung per Funk m¨ oglich ist. Gesendet wird dann bekanntlich SOS SOS SOS SOS SOS SOS . . . .
148
2 Lineare Algebra
Bei einem Wiederholungscode wird jedes Zeichen n-mal wiederholt. Statt des Wortes F R E I T A G wird im Fall n = 3 der Text F F F R B R E E E I I I T T T A A A G G G. ¨ u der elektronischen Version dieses Bu¨ bermittelt. Falls bei der Ubermittlung ches zur Druckerei einer der Buchstaben gest¨ ort wurde, k¨onnen Sie den Fehler leicht selbst beheben. Wenn von je drei aufeinanderfolgenden gleichen Zeichen h¨ochstens eins gest¨ ort ist, kann der Text korrekt rekonstruiert werden. Dieses Verfahren ist nicht besonders effizient, da die dreifache Datenmenge u ¨ bermittelt werden muss. Im Folgenden werden wir Verfahren kennenlernen, die bei einer wesentlich geringeren Datenwiederholungsrate mindestens die gleichen Korrekturm¨ oglichkeiten bieten. F¨ ur das systematische Studium der Situation und zur Beschreibung der Codierungsverfahren legen wir zun¨ achst eine klare Sprache fest. Wie bereits im Kapitel 1 bezeichnen wir als Alphabet die Menge, aus der die zu u ¨ bermittelnden Zeichen stammen. Zur mathematischen Behandlung ordnen wir den Elementen des Alphabets sogenannte Codeworte zu. Diese Zuordnung soll injektiv sein. Anders als im Kapitel 1 ist ein Codewort hier nicht aus Elementen des Alphabets zusammengesetzt, vgl. S. 39. Wir beschr¨anken uns hier auf die in der folgenden Definition eingef¨ uhrten Codes, die auf dem K¨orper F2 beruhen. Zum Aufbau der Theorie kann man F2 durch jeden beliebigen endlichen K¨ orper ersetzen. Bei praktischen Anwendungen, wie zum Beispiel beim CD-Spieler, ist das auch tats¨ achlich notwendig. Definition 2.5.1. Unter einem Code verstehen wir eine Teilmenge C ⊂ Fn2 . Die Elemente von C heißen Codeworte. Dabei ist Fn2 = (F2 )n der im Beispiel 2.2.3 eingef¨ uhrte Vektorraum u ¨ ber dem K¨orper F2 . Seine Elemente sind n-Tupel von Nullen und Einsen. Er hat die Dimension n und enth¨alt 2n Elemente. Ein einfaches Beispiel f¨ ur einen solchen Code ist der 128 Zeichen umfassende ASCII-Code. In diesem Fall ist n = 8 und C enth¨alt 27 Elemente. Das u onnte prinzipiell als Pr¨ ufbit verwendet werden, indem es ¨ berz¨ahlige Bit k¨ gleich der Summe der Informationsbits gesetzt wird, vgl. Beispiel 2.5.6. Das Alphabet besteht aus den Buchstaben des englischen Alphabets und einigen bei der Benutzung von Computern u ¨ blichen Sonderzeichen. Obwohl inzwischen die Verwendung eines Alphabets mit nur 128 Elementen f¨ ur viele Belange als nicht mehr ausreichend gilt (Internationalisierung, Unicode), spielt der reine ASCII-Code zum Beispiel innerhalb der Programmierung (ANSI C) und im Internet (URL) noch immer eine wichtige Rolle. Das zus¨atzliche Bit wird heutzutage allerdings f¨ ur andere Funktionen genutzt. Etwas abweichend von unserer Definition k¨ onnen wir auch die Menge aller zul¨assigen EANs oder ISBNs als Code auffassen. Diese Codes w¨aren, anders als in der obigen Definition, Teilmengen von (Z/10Z)13 bzw. (Z/11Z)10 = F10 11 und nicht von Fn2 . Im Gegensatz zur Sprechweise in Kapitel 1 w¨are hier entsprechend der Definition 2.5.1 jede EAN bzw. ISBN ein Element des jeweiligen Alphabets.
2.5 Fehlerkorrigierende Codes
149
Eine zentrale Rolle in der Codierungstheorie spielt der Hamming-Abstand. Definition 2.5.2. Der Hamming-Abstand 16 d(x, y) zwischen zwei Elementen x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Fn2 ist die Anzahl der Positionen, an denen sich beide Vektoren unterscheiden: d(x, y) = |{i | xi 6= yi }|. Der Hamming-Abstand kann als Abbildung d : Fn2 × Fn2 → Z aufgefasst werden. Wir sprechen von einem Abstand, da diese Abbildung die gleichen Eigenschaften wie der gew¨ ohnliche Abstandsbegriff aus der ebenen euklidischen Geometrie besitzt. Unter dem Abstand zwischen zwei Vektoren x, y ∈ Rn versteht man in der klassischen Geometrie die L¨ ange ihres Differenzvektors p kx − yk = (x1 − y1 )2 + (x2 − y2 )2 + . . . + (xn − yn )2 .
Mehr dazu findet der Leser im Abschnitt 2.4 im Zusammenhang mit dem Begriff des Skalarproduktes. Die wesentlichen Eigenschaften eines derartigen Abstandsbegriffes sind in der Definition des in der Mathematik etablierten Begriffes der Metrik zusammengefasst.
Definition 2.5.3. Als Metrik auf einer Menge X bezeichnet man eine Abbildung d : X × X → R, f¨ ur die f¨ ur beliebige x, y, z ∈ X gilt: d(x, y) = d(y, x) d(x, y) ≥ 0 d(x, y) = 0 ⇐⇒ x = y
d(x, y) + d(y, z) ≥ d(x, z) .
(2.20) (2.21) (2.22) (2.23)
Die Bedingung (2.23) heißt Dreiecksungleichung, vgl. Satz 2.4.14. Da eine Kugel vom Radius r im dreidimensionalen Raum R3 genau aus den Punkten besteht, deren Abstand zum Mittelpunkt der Kugel h¨ochstens r ist, nennt man ganz allgemein bei Vorliegen einer Metrik d auf einer Menge X Br (x) := {y ∈ X | d(x, y) ≤ r} ⊂ X die Kugel mit Radius r und Zentrum x. Die Grundidee der Fehlererkennung besteht darin, dass ein empfangenes Element aus Fn2 als korrekt angesehen wird, wenn es sich um ein Codewort aus C handelt. Bei der Fehlerkorrektur ersetzt man jeden nicht korrekten Vektor durch das n¨achstgelegene Codewort. Der Hamming-Abstand ist so definiert, dass das n¨achstgelegene Codewort dasjenige ist, welches durch die kleinste ¨ Zahl von Anderungen aus dem fehlerhaften Vektor gewonnen werden kann. Um die G¨ ute eines Codes quantifizieren zu k¨onnen, f¨ uhrt man f¨ ur Codes C ⊂ Fn2 die folgende Sprechweise ein. 16
Richard Hamming (1915–1998), US-amerikanischer Mathematiker.
150
2 Lineare Algebra
Definition 2.5.4. Sei r ≥ 0 eine nat¨ urliche Zahl, dann nennen wir C
(i) r-fehlererkennend, wenn durch Ab¨ andern eines Codewortes v ∈ C an h¨ochstens r Positionen niemals ein anderes Codewort aus C entsteht. (ii) r-fehlerkorrigierend, wenn es zu jedem w ∈ Fn2 maximal ein Codewort v ∈ C gibt, welches sich an h¨ ochstens r Positionen von w unterscheidet. (iii) r-perfekt, wenn es zu jedem w ∈ Fn2 genau ein Codewort v ∈ C gibt, welches sich an h¨ ochstens r Positionen von w unterscheidet.
Mit Hilfe des Hamming-Abstands k¨ onnen wir diese Begriffe folgendermaßen beschreiben und graphisch veranschaulichen. Ein Code C ist genau dann r-fehlererkennend, wenn der Abstand zwischen zwei beliebigen Codeworten mindestens r + 1 betr¨agt, das heißt f¨ ur alle v ∈ C muss Br (v) ∩ C = {v} ¨ gelten. Aquivalent dazu ist
dmin (C) := min{d(u, v) | u, v ∈ C, u 6= v} ≥ r + 1 .
(2.24)
Die Zahl dmin (C) heißt Minimalabstand des Codes C ⊂ Fn2 . bc
bc
bc
b
bc
bc
b bc
bc bc
bc
bc
bc
bc
bc bc
bc
b bc
bc
b
bc
b bc
bc
bc
r
bc
b
bc
b
bc
bc
bc
bc
bc
bc
bc
b
bc
b
bc
bc
bc
bc
bc
bc
bc
bc bc
Abb. 2.14 r-fehlererkennend
Ein Code C ist genau dann r-fehlerkorrigierend, wenn es keinen Vektor in Fn2 gibt, der von zwei verschiedenen Codeworten h¨ochstens Abstand r hat, das heißt, wenn f¨ ur alle u, v ∈ C mit u 6= v Br (u) ∩ Br (v) = ∅ gilt. Dies ist wegen der Dreiecksungleichung ¨ aquivalent zu dmin (C) := min{d(u, v) | u, v ∈ C, u 6= v} ≥ 2r + 1 .
(2.25)
Schließlich ist ein Code C genau dann r-perfekt, wenn er r-fehlerkorrigierend ist und jedes Element aus Fn2 h¨ ochstens Abstand r zu einem Codewort hat: [ Br (v) = Fn2 und ∀ u, v ∈ C mit u 6= v : Br (u) ∩ Br (v) = ∅ . v∈C
2.5 Fehlerkorrigierende Codes
151 bc
bc
bc bc
bc
bc bc
bc
bc bc
bc
bc bc
bc bc
bc bc
bc
bc bc
bc bc
bc bc
bc
bc bc
bc bc
bc
bc bc
bc bc
bc
bc
b
bc
bc
bc
bc bc
bc
bc
b
bc
r bc
bc
bc
bc
bc
bc b
bc
bc
bc
bc
bc bc
bc
bc
b
bc
bc
bc
bc
bc
bc
b
bc
bc
bc
bc
bc
bc
bc
b
bc
bc
bc
bc
bc
bc
bc
bc
bc
bc bc
Abb. 2.15 r-fehlerkorrigierend
Das heißt, bei einem r-perfekten Code wird der Vektorraum Fn2 wie bei ei¨ ner Aquivalenzrelation durch die in Codeworten zentrierten Kugeln Br (v) disjunkt u ur einen solchen Code je¨ berdeckt. Das ist anstrebenswert, da f¨ dem empfangenen Wort x ∈ Fn2 ein eindeutig bestimmtes Codewort v ∈ C zugeordnet werden kann, n¨ amlich dasjenige f¨ ur welches x ∈ Br (v) gilt. Aus dieser Beschreibung ergeben sich f¨ ur jeden Code C die folgenden Implikationen: r-perfekt
=⇒
r-fehlerkorrigierend =⇒ r-fehlererkennend ⇓ ⇓ (r − 1)-perfekt =⇒ (r − 1)-fehlerkorrigierend =⇒ (r − 1)-fehlererkennend. Wir haben hier nicht vergessen einen dritten senkrechten Implikationspfeil zu drucken, denn im Allgemeinen wird kein r-perfekter Code auch (r − 1)perfekt sein, da man bei Verkleinerung des Kugelradius m¨oglicherweise einige Elemente verliert. Wenn man diese Begriffe sinngem¨aß auf (Z/mZ)n u ¨ bertr¨agt, dann kann man sagen, dass der ISBN-Code und der EAN-Code 1-fehlererkennende, aber nicht 1-fehlerkorrigierende Codes sind. Das ergibt sich aus der am Ende von Abschnitt 1.3 durchgef¨ uhrten Analyse. Aus der Ungleichung (2.25) folgt f¨ ur jeden 1-fehlerkorrigierenden Code dmin (C) ≥ 3. F¨ ur einen 2-fehlerkorrigierenden Code gilt dmin (C) ≥ 5. Wegen (2.24) ist jeder Code C stets (dmin (C) − 1)-fehlererkennend. Je gr¨oßer der Minimalabstand eines Codes desto besser sind seine Fehlererkennungs- und -korrektureigenschaften. Bei einem r-perfekten Code kann man bei der praktischen Durchf¨ uhrung der Fehlerkorrektur mit einer Tabelle arbeiten, in der zu jedem v ∈ C alle Elemente aus Br (v) aufgelistet sind. Zu jedem u ¨bermittelten Codewort w ∈ Fn2 l¨ asst sich daraus dasjenige v ∈ C ablesen, f¨ ur das w ∈ Br (v) gilt. Diese Methode ist nicht sehr effizient. Wenn viele Daten innerhalb kurzer Zeit bearbeitet werden m¨ ussen, wie zum Beispiel beim Abspielen digitalisierter Musik, dann ist diese Methode u ¨ berhaupt nicht anwendbar. Ein Ausweg besteht darin, Codes zu betrachten, die mehr algebraische Struktur besitzen. Dadurch kann die Benutzung von Tabellen durch algebraische Rechnungen ersetzt werden. Dies f¨ uhrt zu wesentlich schnelleren Decodierverfahren.
152
2 Lineare Algebra
Lineare Codes Definition 2.5.5. Ein Code C ⊂ Fn2 heißt linear, falls C ein F2 -Unterraum von Fn2 ist. Wenn dimF2 C = k, nennen wir C einen linearen (n, k)-Code. Da sich durch Addition des gleichen Vektors zu u und zu v die Anzahl der Eintr¨age, an denen sich die zwei Vektoren u und v unterscheiden, nicht ¨andert, gilt d(u + w, v + w) = d(u, v). Insbesondere ist d(u, v) = d(u − v, 0). Statt mit dem Hamming-Abstand zu arbeiten, k¨ onnen wir daher auch das Gewicht w(v) := d(v, 0) des Vektors v ∈ Fn2 verwenden. Das Gewicht w(v) ist gleich der Zahl der von Null verschiedenen Eintr¨ age in v. Da jeder lineare Code C den Nullvektor enth¨alt und mit je zwei seiner Codeworte auch deren Differenz, ergibt sich aus d(u, v) = w(u − v), dass dmin (C) = min{w(v) | v ∈ C, v 6= 0} = wmin (C) gilt. Diese Zahl nennt man das Minimalgewicht des linearen Codes C. Ein linearer Code mit großem Minimalgewicht hat gute Eigenschaften bei der Fehlerkorrektur. Um das angestrebte Ziel zu erreichen, bei der Beschreibung und Decodierung auf die Benutzung von Tabellen verzichten zu k¨onnen, erinnern wir uns daran, dass wir Unterr¨ aume des Vektorraumes Fn2 auf zwei Weisen beschreiben k¨onnen: als L¨osungsmenge eines Gleichungssystems oder durch eine Basis. Die 2k Vektoren eines linearen (n, k)-Codes sind durch die Angabe von k Basisvektoren vollst¨ andig beschrieben. Eine Matrix G ∈ Mat(k×n, F2 ), deren Zeilen eine Basis eines linearen (n, k)-Codes C bilden, heißt Generatormatrix dieses Codes. Wenn C = L¨os(H| 0) eine Beschreibung des linearen (n, k)-Codes C als L¨osungsmenge eines Gleichungssystems mit n−k Gleichungen ist, dann heißt H ∈ Mat((n − k) × n, F2 ) Kontrollmatrix des Codes C. Durch Berechnung von H · w kann man kontrollieren, ob w ein Codewort ist: w ∈ C ⇐⇒ H · w = 0. Den Vektor H · w ∈ F2n−k nennt man das Syndrom von w, denn er ist genau dann gleich 0, wenn w ∈ C. Das Syndrom zeigt dem Empf¨anger ¨ Ubertragungsfehler an. Da die Zeilen einer Generatormatrix G Codeworte sind, gilt f¨ ur jede Kontrollmatrix H stets H ◦ Gt = 0. In der Sprache der linearen Algebra (Abschnitt 2.2) definiert die Transponierte der Matrix G eine lineare Abbildung fGt : Fk2 → Fn2 , deren Bildraum der Code C = im(fGt ) ist. Der L¨ osungsraum einer Kontrollmatrix H ist der Kern C = ker(fH ) der linearen Abbildung fH : Fn2 → F2n−k . Beispiel 2.5.6. Die bereits erw¨ ahnte Codierung der 128 ASCII-Zeichen mit einem zus¨atzlichen Pr¨ ufbit ist ein linearer Code. Da er aus 128 = 27 Codeworten in F82 besteht, handelt es sich um einen (8, 7)-Code. Eine Bitfolge
2.5 Fehlerkorrigierende Codes
153
a1 a2 . . . a8 , interpretiert als Vektor a = (a1 , . . . , a8 ) ∈ F82 , entspricht genau P8 ur C kann man dann einem ASCII-Zeichen, wenn i=1 ai = 0 ist. Als Basis f¨ die 7 Vektoren ei + e8 , 1 ≤ i ≤ 7 w¨ ahlen. Die entsprechende Generatormatrix ist 10000001 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 1 G= 0 0 0 1 0 0 0 1 ∈ Mat(7 × 8, F2 ) . 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1 00000011
Als Kontrollmatrix kann man die folgende Matrix w¨ahlen
H = (1, 1, 1, 1, 1, 1, 1, 1) ∈ Mat(1 × 8, F2 ) . Der ASCII-Code mit Parit¨ atsbit hat daher die folgende Beschreibung: t C = G · y | y ∈ F72 = v ∈ F82 | H · v = 0 .
Da sowohl eine Basis als auch ein Gleichungssystem f¨ ur einen linearen Unterraum C ⊂ Fn2 nicht eindeutig bestimmt sind, sind wir flexibel bei der Wahl der Matrizen G und H. Wir nutzen diese Flexibilit¨at, um eine besonders ¨okonomische Beschreibung linearer Codes zu gewinnen. Wir starten dazu mit einer beliebigen Kontrollmatrix H ∈ Mat((n − k) × n, F2 ) eines linearen (n, k)-Codes. Diese Matrix hat Rang n − k, da ihr Kern die Dimension k hat, vgl. Satz 2.2.28. Anwendung des Gauß-Jordan-Verfahrens auf H liefert eine Matrix, die in jeder Zeile ein Pivotelement besitzt. Durch Vertauschung der Spalten erhalten wir daraus eine Matrix, deren erste n − k Spalten die Einheitsmatrix 1n−k bilden. Die Vertauschung von Spalten ver¨andert nichts Grunds¨atzliches an den Eigenschaften des Codes. Durch eine Ver¨anderung der Identifikation des Alphabets mit den Codeworten kann man eine Spaltenvertauschung wieder kompensieren. ¨ Diese Uberlegungen zeigen, dass es f¨ ur jeden linearen (n, k)-Code (nach eventueller Spaltenvertauschung) eine Matrix M ∈ Mat((n − k) × k, F2 ) gibt, so dass die Kontrollmatrix H = (1n−k | M ) ist. F¨ ur solch eine Kontrollmatrix l¨ asst sich die Generatormatrix G leicht berechnen. Das liegt daran, dass H bereits in reduzierter Zeilenstufenform vorliegt und somit eine Basis der L¨ osungsmenge C = L¨ os(H| 0) unmittelbar abzulesen ist. Es ergibt sich hier G = (−M t | 1k ) = (M t | 1k ) ∈ Mat(k × n, F2 ) . Das Vorzeichen ist irrelevant, da 1 = −1 in F2 . Bei der Beschreibung des ASCII-Codes mit Parit¨atsbit im Beispiel 2.5.6 hatten wir G und H im Wesentlichen in dieser Form angegeben. Die Matrix M ist in diesem Beispiel eine 1 × 7-Matrix, deren Eintr¨age alle gleich 1 sind.
154
2 Lineare Algebra
Wenn ein linearer Code durch eine Generatormatrix G der Gestalt (M t | 1k ) gegeben ist, dann tragen die letzten k Komponenten eines Vektors v ∈ C die eigentliche Information. Die ersten (n−k) Komponenten interpretieren wir als Pr¨ ufbits. Diese berechnen sich aus den letzten k Komponenten v ′ ∈ Fk2 – der t t zu codierenden Information – als v ′ · M t , dabei ist v ′ der zum Spaltenvektor ′ ′ v geh¨ Das zu v geh¨ orige Codewort als Spaltenvektor lautet orige Zeilenvektor. M · v′ v= ∈ C. Auf der Empf¨ angerseite wird man aus einem empfangenen v′ v ′′ Wort v = mit Hilfe der Kontrollmatrix H = (1n−k | M ) das Syndrom v′ H · v = v ′′ + M v ′ bestimmen. Beispiel 2.5.7. Der lineare (7, 4)-Code, der durch die Matrix 1101 M = 1 0 1 1 ∈ Mat(3 × 4, F2 ) 0111
gegeben ist, hat als Kontrollmatrix die Matrix 1001101 H = 0 1 0 1 0 1 1 ∈ Mat(3 × 7, F2 ) 0010111
und als Generatormatrix die 11 1 0 G = 0 1 11
Matrix
010 101 100 100
00 0 0 ∈ Mat(4 × 7, F2 ) . 1 0 01
Da die Generatormatrix G dieses Codes Zeilen mit nur drei Einsen enth¨alt, ist wmin ≤ 3. G¨ abe es ein Codewort v ∈ C, welches h¨ochstens zwei von Null verschiedene Komponenten hat, dann m¨ usste H zwei linear abh¨angige Spalten besitzen, da H · v = 0 f¨ ur jedes Codewort v. Ein Blick auf H verr¨at, dass dies nicht der Fall ist. Daher hat dieser Code das Minimalgewicht wmin = 3. Er ist also 1-fehlerkorrigierend und 2-fehlererkennend. Mit ¨ ahnlichen Uberlegungen kann man zeigen, dass f¨ ur jeden linearen (n, k)-Code ¨ stets wmin ≤ n − k + 1 gilt. Dieser Wert wird bei den sogenannten ReedSolomon-Codes auch tats¨ achlich erreicht. Das zeigt, dass dieser Code wesentlich besser ist als der Wiederholungscode. Es ist eine 3-fach Wiederholung n¨ otig, um einen 1-fehlerkorrigierenden Code zu erhalten. Bei einem solchen Wiederholungscode werden 4-Bit Zeichen durch Codeworte der L¨ ange 3 × 4 = 12 Bits codiert. Mit dem angegebenen linearen (7, 4)-Code sind zur Codierung von 4-Bit Zeichen nur 7 Bits notwendig.
2.5 Fehlerkorrigierende Codes
155
Bevor wir uns mit den zyklischen Codes befassen, fragen wir nach linearen Codes, bei denen sich die Fehlerkorrektur besonders ¨okonomisch durchf¨ uhren l¨ asst. Das wird uns zu den Hamming-Codes f¨ uhren, die bereits von eindrucksvoller Qualit¨at hinsichtlich der Vermeidung von Informationsverlust sind. Jede Kontrollmatrix H eines linearen (n, k)-Codes ist vom Rang n − k. Das u ¨ bersetzt sich in die Aussage, dass fH : Fn2 → F2n−k surjektiv ist. Da C = ker(fH ), besagt der Homomorphiesatz f¨ ur lineare Abbildungen, Folgerung 2.2.32, dass das Syndrom H · v ∈ F2n−k eines Vektors v angibt, in welcher Nebenklasse von C ⊂ Fn2 der Vektor v enthalten ist. Der Fehlervektor e, um den sich das korrekte Codewort c ∈ C und das empfangene Wort v = c + e unterscheiden, hat wegen H · c = 0 das gleiche Syndrom wie v: Hv = He. Zur Fehlerkorrektur nehmen wir an, dass der kleinstm¨ogliche Fehler vorliegt. Somit m¨ ussen wir das Element kleinsten Gewichts in jeder Nebenklasse bestimmen und dies in geeigneter Weise aus dem Syndrom ablesen. Wenn das Syndrom mit einer Spalte der Kontrollmatrix H u ¨bereinstimmt, dann ist der zugeh¨ orige Fehlervektor kleinsten Gewichts einer der Standardbasisvektoren ei . Eine besonders g¨ unstige Situation liegt vor, wenn jedes m¨ogliche Syndrom als Spalte der Kontrollmatrix H auftritt. Das ist bei dem (7, 4)-Code aus Beispiel 2.5.7 der Fall. Da F32 acht Elemente enth¨alt, gibt es acht Nebenklassen von C in F72 . Um das Element kleinsten Gewichts in jeder dieser Nebenklassen zu bestimmen, starten wir mit der Beobachtung, dass keine zwei der acht Vektoren 0, e1 , e2 , . . . , e7 in der gleichen Nebenklasse liegen k¨onnen. Das liegt daran, dass die Differenz zweier Vektoren aus dieser Liste h¨ochstens vom Gewicht 2, das Minimalgewicht des Codes jedoch gleich 3 ist. Da w(0) = 0 und w(ei ) = 1, sind diese acht Vektoren die gesuchten Elemente minimalen Gewichts in den jeweiligen Nebenklassen. Die Fehlerkorrektur kann man deshalb bei dem (7, 4)-Code aus Beispiel 2.5.7 auf die folgende besonders ¨ okonomische Weise durchf¨ uhren: Wenn das Syndrom eines Vektors v gleich 0 ist, dann nehmen wir an, es liegt kein ¨ Ubertragungsfehler vor. Wenn das Syndrom nicht gleich 0 ist, dann tritt es als Spalte von H auf, denn die Spalten von H sind genau die von Null verschiedenen Vektoren von F32 . Wenn das Syndrom die i-te Spalte von H ist, dann ist der Fehlervektor gleich ei und v ist genau an der Stelle i zu ver¨andern. Bei einer praktischen Umsetzung wird man die Komponenten der Codeworte so umsortieren, dass die Kontrollmatrix die Gestalt 1010101 H = 0 1 1 0 0 1 1 ∈ Mat(3 × 7, F2 ) 0001111 hat. So geschrieben, stellen die Eintr¨ age einer Spalte die Nummer dieser Spalte als Bin¨arzahl dar. Das Syndrom Hv ist in diesem Fall bereits gleich der Nummer der Position, an der v ge¨ andert werden muss.
156
2 Lineare Algebra
Die Besonderheit dieses Beispiels besteht darin, dass jeder von Null verschiedene Vektor des Vektorraumes F32 als Spalte der Kontrollmatrix H auftritt. Dies ist der Ausgangspunkt f¨ ur die folgende Definition. Definition 2.5.8. F¨ ur jedes r ≥ 2 sei Hr ∈ Mat(r × n, F2 ) die Matrix, deren Spalten durch die n = 2r − 1 von 0 verschiedenen Vektoren aus Fr2 gebildet werden. Den durch die Kontrollmatrix Hr definierten linearen (n, n−r)-Code nennt man Hamming-Code. F¨ ur r = 2 erhalten wir den (3, 1)-Hamming-Code mit Kontrollmatrix 101 . 011 Dies ist der 3-fach Wiederholungscode. Mit r = 3 erhalten wir den (7, 4)Hamming-Code, der in Beispiel 2.5.7 betrachtet wurde. Dieser wurde etwa 1950 von R.W. Hamming entdeckt, siehe [Ha]. F¨ ur jedes r ≥ 2 ist der zugeh¨orige Hamming-Code 1-fehlerkorrigierend und sein Minimalgewicht ist wmin = 3. Bemerkung 2.5.9. Zur Quantifizierung der G¨ ute eines Codes kann man die Wahrscheinlichkeit berechnen, mit der eine bestimmte Datenmenge korrekt decodiert wird. Dazu nimmt man an, dass ein einzelnes Bit bei der Nachrichten¨ ubertragung mit Wahrscheinlichkeit p gest¨ort wird. Dann kommt ein n-Bit Wort mit Wahrscheinlichkeit 1 − (1 − p)n gest¨ort beim Empf¨anger an. Wenn ein Hamming-Code benutzt wird, tritt erst dann Informationsverlust ein, wenn mindestens zwei Bits eines Codewortes gest¨ort sind. Die Wahrscheinlichkeit, dass dies bei einem Codewort der L¨ange n auftritt, betr¨agt17 1 − (1 − p)n − np(1 − p)n−1 = 1 − (1 − p)n−1 (1 + (n − 1)p) . Wir m¨ ussen jetzt noch ber¨ ucksichtigen, dass bei einem Hamming-Code von den u ¨bertragenen n = m + r Bits nur m Informationsbits sind. Da die Wortl¨ange beim Hamming-Code gleich n = m + r = 2r − 1 ist, enth¨alt jedes Wort m = n − r = 2r − 1 − r Informationsbits. Die Wahrscheinlichkeit, dass ein Codewort, welches m Informationsbits enth¨alt, vom Empf¨anger korrekt rekonstruiert werden kann, ist somit bei einem (n, m) = (2r − 1, 2r − r − 1)Hamming-Code gleich (1 − p)m+r + (m + r)p(1 − p)m+r−1 . Da m + r = n und da jedes Codewort n − r Informationsbits enth¨alt, ergibt sich daraus, dass die Wahrscheinlichkeit, dass N Informationsbits mit Hilfe eines (n, n − r)-Hamming-Codes vom Empf¨ anger korrekt erkannt werden,
17
N n−r (1 − p)n−1 (1 + (n − 1)p)
Die mathematischen Grundlagen f¨ ur diese Rechnungen findet man in Abschnitt 5.2, insbesondere Beispiel 5.2.7 und Bemerkung 5.2.18.
2.5 Fehlerkorrigierende Codes
157
betr¨agt. Die Wahrscheinlichkeit, dass N uncodierte Informationsbits korrekt beim Empf¨anger ankommen betr¨ agt (1 − p)N . Tabelle 2.1 enth¨alt angen¨ aherte Werte f¨ ur die als Prozentzahl ausgedr¨ uckte Wahrscheinlichkeit, dass 1 MB Information, das sind N = 8 × 220 = 223 Informationsbits, korrekt vom Empf¨ anger decodiert wird. Dabei wurden f¨ unf r (n, n − r) 2 (3, 1) 3 (7, 4) 4 (15, 11) 5 (31, 26) 10 (1023, 1013) uncodiert
Rate 0.33 0.57 0.73 0.84 0.99 1.00
p = 10−4 p = 10−5 p = 10−6 77.75 99.75 100.00 64.39 99.56 100.00 44.93 99.20 99.99 22.37 98.51 99.98 0.00 65.05 99.57 0.00 0.003 35.04
¨ Tabelle 2.1 Wahrscheinlichkeit der korrekten Ubermittlung von 1 MB Daten
¨ verschiedene Hamming-Codes und die uncodierte Ubertragung f¨ ur drei Beispielwerte von 0 ≤ p ≤ 1 verglichen. In der Tabelle ist auch die Informationsrate angegeben, das ist der Quotient m/n aus der Zahl der Informationsbits und der Zahl der u ¨bertragenen Bits. Die angegebenen Zahlen sind N¨ aherungswerte, was insbesondere bei den Eintr¨agen 0.00 und 100.00 zu beachten ist. Da bei praktischen Anwendungen oft große Datenmengen in kurzer Zeit verarbeitet werden m¨ ussen, ist man an Codes interessiert, die eine Informationsrate besitzen, die nicht viel kleiner als 1 ist. Ein guter Code hat sowohl eine große Informationsrate als auch eine große Wahrscheinlichkeit, dass die Daten korrekt vom Empf¨ anger rekonstruiert werden k¨onnen. Die Tabelle zeigt eindrucksvoll, dass bereits mit Hamming-Codes, die ja nur 1-fehlerkorrigierend sind, befriedigende Ergebnisse erreicht werden k¨onnen.
Zyklische Codes F¨ ur praktische Anwendungen wie zum Beispiel beim Abspielen einer MusikCD sind die Hamming-Codes noch nicht ausreichend. Zur Verbesserung kann man weitere algebraische Strukturen benutzen. Diese Vorgehensweise illustrieren wir hier am Beispiel der zyklischen Codes. F¨ ur ihr Studium kann die Ringstruktur des Polynomringes F2 [X] genutzt werden. Die Hamming-Codes erweisen sich bis auf Spaltenvertauschung als zyklische Codes. Die Beschreibung der f¨ ur Musik-CDs relevanten Codes w¨ urde den Rahmen dieses Buches sprengen. Am Ende des Kapitels findet der interessierte Leser dazu Literaturhinweise. Die zyklischen Codes sind spezielle lineare Codes. Die Zusatzstruktur erh¨alt man dadurch, dass der Vektorraum Fn2 durch den Ring
158
2 Lineare Algebra
F2 [X]/hX n − 1i ersetzt wird. Die Wahl einer Basis des F2 -Vektorraumes F2 [X]/hX n − 1i legt einen Isomorphismus Fn2 ∼ = F2 [X]/hX n −1i fest. Wir ordnen hier jedem Vektor Pn−1 (a0 , a1 , . . . , an−1 ) ∈ Fn2 die Restklasse des Polynoms i=0 ai X i ∈ F2 [X] in F2 [X]/hX n − 1i zu. Definition 2.5.10. Ein zyklischer Code ist ein Ideal C ⊂ F2 [X]/hX n − 1i.
Diese Codes heißen zyklisch, weil mit jedem Codewort (a0 , . . . , an−1 ) ∈ Fn2 auch jede zyklische Vertauschung (ai , ai+1 , . . . , an−1 , a0 , a1 , . . . , ai−1 ) ein Codewort ist. Das kommt daher, dass die Multiplikation mit der Restklasse von X dem zyklischen Verschieben der Eintr¨ age um eine Position entspricht. Dies ist die Grundlage f¨ ur eine technisch g¨ unstige Codierung zyklischer Codes mittels sogenannter Schieberegister. Mehr dazu erf¨ahrt der Leser zum Beispiel in [Sch, S. 138–140]. Da F2 [X] ein Hauptidealring ist (Satz 1.4.17), ist auch jedes Ideal des Ringes F2 [X]/hX n − 1i von einem Element erzeugt. Das bedeutet, dass zu jedem zyklischen Code C ⊂ F2 [X]/hX n −1i ein Polynom g ∈ F2 [X] existiert, dessen Restklasse modulo X n − 1 das Ideal C erzeugt. Wir nennen das Polynom kleinsten Grades mit dieser Eigenschaft das Generatorpolynom des zyklischen Codes C. Es ist eindeutig bestimmt, da zwei Polynome gleichen Grades aus dem Ring F2 [X], von denen jedes ein Vielfaches des anderen ist, bis auf einen von Null verschiedenen Faktor aus F2 u ussen. ¨ bereinstimmen m¨ Satz 2.5.11 Das Generatorpolynom g jedes zyklischen Codes ist ein Teiler von X n − 1 in F2 [X]. Beweis. Da wir modulo X n − 1 rechnen, ist sicher deg(g) < n. Division mit Rest in F2 [X] liefert eine Darstellung X n − 1 = g · h + r, wobei r, h ∈ F2 [X] Polynome sind, so dass deg(r) < deg(g). Es folgt g·h = −r in F2 [X]/hX n −1i, also r ∈ hgi = C. Da g minimalen Grad hat, ist dies nur m¨oglich, wenn r = 0 gilt. Daher ist X n − 1 = g · h und g ist Teiler von X n − 1. ⊓ ⊔ Das Generatorpolynom eines zyklischen Codes ersetzt die Generatormatrix eines linearen Codes. Da in dem Ring F2 [X]/hX n − 1i die Gleichung X n = 1 gilt, k¨onnen wir jedes Element dieses Ringes auf eindeutige Weise durch ein Polynom aus F2 [X] vom Grad kleiner als n repr¨asentieren. Die Repr¨asentanten f¨ ur die Codeworte aus C = hgi erh¨alt man durch Multiplikation des Generatorpolynoms g mit den 2k Elementen von F2 [X]≤k−1 , der Menge aller Polynome, deren Grad kleiner als k = n− deg(g) ist. Dadurch sehen wir, dass C ein (n, k)-Code ist. Eine Basis von C, betrachtet als F2 -Vektorraum, wird durch die Codeworte g, Xg, X 2g, . . . , X k−1 g gebildet. Die zugeh¨orige Generatormatrix f¨ ur den zyklischen Code mit Generatorpolynom g = g0 + g1 X + g2 X 2 + . . . + gr X r
2.5 Fehlerkorrigierende Codes
hat die Gestalt g0 0 G = ... 0 0
159
g 1 . . . . . . . . . gr 0 . . . . . . 0 g 0 g 1 . . . . . . . . gr 0 . . . 0 .. .. .. . . . . .. ∈ Mat((n − r) × n, F2 ) . . . . . . . . . . 0 g 0 g 1 . . . . . . . . gr 0 . . . . . . 0 g 0 g 1 . . . . . . . . . gr
Um eine Kontrollmatrix H eines zyklischen Codes beschreiben zu k¨onnen, beobachten wir zun¨ achst, dass es wegen Satz 2.5.11 ein Polynom h ∈ F2 [X] gibt, so dass Xn − 1 = g · h gilt. Das Polynom kleinsten Grades mit dieser Eigenschaft nennen wir Kontrollpolynom des zyklischen Codes C, da das Ideal C mit dem Kern der durch Multiplikation mit h definierten Abbildung F2 [X]/hX n − 1i −→ F2 [X]/hX n − 1i u ¨ bereinstimmt. Das heißt, dass f ∈ F2 [X] genau dann ein Codewort ist, wenn f · h = 0 in F2 [X]/hX n − 1i. Wenn h = h0 + h1 X + h2 X 2 + . . . + hn−r X n−r , dann ist die Matrix hn−r 0 H = ... 0 0
. . . . . . . . h0 0 ...... hn−r . . . . . . . . h0 0 . . . .. .. .. .. . . . . . . . 0 hn−r . . . . . . . . h0 . . . . . . . . 0 hn−r . . . . . .
0 0 .. ∈ Mat(r × n, F ) 2 . 0 h0
eine Kontrollmatrix f¨ ur den durch g definierten zyklischen Code.
Beispiel 2.5.12. Im Ring F2 [X] l¨ asst sich X 7 − 1 folgendermaßen zerlegen: X 7 − 1 = (X + 1)(X 3 + X + 1)(X 3 + X 2 + 1) . Wenn wir h = (X + 1)(X 3 + X + 1) = X 4 + X 3 + X 2 + 1 3
2
g =X +X +1 w¨ ahlen, dann erhalten wir als Kontrollmatrix 1110100 H = 0 1 1 1 0 1 0 . 0011101
und
160
2 Lineare Algebra
Durch Umsortierung der Spalten entsteht daraus die Kontrollmatrix des im Beispiel 2.5.7 betrachteten (7, 4)-Hamming-Codes. Das gilt gleichermaßen bei der Wahl g = X 3 + X + 1 und h = (X + 1)(X 3 + X 2 + 1) = X 4 + X 2 + X + 1. Man kann sogar zeigen, dass alle Hamming-Codes, nach eventueller Spaltenvertauschung, zyklisch sind. Bei der praktischen Realisierung der Codierung bei einem zyklischen Code mit Generatorpolynom g vom Grad r betrachtet man die Codeworte als Polynome f = cn−1 X n−1 + cn−2 X n−2 + · · · + c2 X 2 + c1 X + c0 vom Grad kleiner als n. Die n − r Koeffizienten cn−1 , . . . , cr werden f¨ ur die Informationsbits genutzt. Aus ihnen ergibt sich der restliche Teil p = cr−1 X r−1 + . . . + c1 X + c0 des Codewortes durch Division mit Rest: cn−1 X n−1 + cn−2 X n−2 + · · · + cr X r = gq + p,
deg(p) < deg(g) = r.
Um die Fehlerkorrektur im Fall zyklischer Codes effizient durchf¨ uhren zu k¨onnen, beschr¨anken wir uns auf irreduzible Generatorpolynome g ∈ F2 [X]. Unter dieser Voraussetzung ist K := F2 [X]/hgi ein K¨orper. Da deg(g) = r, enth¨alt dieser endliche K¨ orper 2r Elemente. Nach Satz 1.4.27 und Bemerkung ∗ 1.4.28 ist K eine zyklische Gruppe. Wenn α ∈ K ∗ ein erzeugendes Element von K ∗ ist, dann ist o n r 1, α, α2 , . . . , α2 −2
eine vollst¨andige Liste aller Elemente von K ∗ . Insbesondere kommt die Restklasse von X modulo hgi in dieser Liste vor, es gibt somit eine ganze Zahl 1 ≤ e ≤ 2r − 2, f¨ ur die X = αe in K gilt. Das Syndrom eines Codewortes f ∈ F2 [X] ist das Bild von f in K = F2 [X]/C. Da die kanonische Abbildung F2 [X] −→ F2 [X]/C ein Ringhomomorphismus ist, ist das Syndrom gleich f (αe ) ∈ K. Wenn sich f von einem Codewort aus C an genau einer Position unterscheidet, sagen wir bei X t , dann ist f (αe ) = αte . Im Fall e = 1 ist der Fehler besonders leicht zu korrigieren. Das im Beispiel 2.5.12 betrachtete Polynom g = X 3 + X 2 + 1 f¨ ur den (7, 4)Hamming-Code ist irreduzibel und es gilt e = 1. Das heißt, α ≡ X mod g ist ein Erzeuger der multiplikativen Gruppe K ∗ . Das Syndrom ist somit gleich f (α) ≡ f mod g. Die Elemente von K ∗ entsprechen dabei genau den sieben erzeugenden Monomen 1, X, X 2, . . . , X 6 von F2 [X]/hX 7 − 1i. Die Codierungstheorie ist ein aktuelles Gebiet, welches die Mathematik eng mit der Informatik verbindet. Um die Darstellung m¨oglichst einfach zu halten, haben wir unsere Betrachtungen auf den K¨orper F2 beschr¨ankt. Ohne Probleme l¨asst er sich durch den K¨ orper Fp ersetzen. Außer den in Abschnitt 1.4 studierten K¨ orpern Fp gibt es noch weitere endliche K¨orper. Bis auf Iso-
2.5 Fehlerkorrigierende Codes
161
morphie gibt es f¨ ur jede Primzahlpotenz q = ps genau einen endlichen K¨orper Fq . Diesen kann man als Restklassenring Fp [X]/hgi mit irreduziblem Polynom g ∈ Fp [X] konkret beschreiben. Einem solchen K¨orper sind wir beim Studium zyklischer Codes bereits begegnet. Durch systematisches Ausnutzen der Struktur endlicher K¨orper K = Fq kann man noch bessere Codes konstruieren. Dazu geh¨oren die etwa 1960 entdeckten Reed-Solomon-Codes [RS]. Das sind lineare (q − 1, q − d)-Codes mit Minimalgewicht wmin = d. Dabei ist q = ps eine Primzahlpotenz und diese zyklischen Codes k¨onnen durch ein Generatorpolynom d−1 Y j=1
(X − αj ) ∈ Fq [X]
beschrieben werden, wobei α ∈ F∗q ein erzeugendes Element ist. Bei praktischen Anwendungen, wie zum Beispiel bei der Digitalisierung von Musik, werden mehrere Codes kombiniert. Eine detaillierte Beschreibung der Codierung der digitalisierten Musik auf einer CD findet der interessierte Leser in [Ju], wo auch Verweise auf Literatur mit weiteren technischen Einzelheiten zu finden sind. Zum Abschluss folgt eine Liste weitergehender Einf¨ uhrungen in die Codierungstheorie, in die auf der Basis der hier erworbenen Grundkenntnisse ein Einstieg m¨oglich sein sollte: [Bet], [EH], [HP], [Ju], [Li], [L¨ u] und [Sch].
Aufgaben ¨ Ubung 2.42. Beweisen Sie, dass der Hamming-Abstand (siehe 2.5.2) eine Metrik auf der Menge Fn2 definiert, das heißt die Eigenschaften (2.20)–(2.23) besitzt. ¨ Ubung 2.43. Zeigen Sie, dass f¨ ur jeden linearen (n, k)-Code die Ungleichung wmin ≤ n − k + 1 gilt. ¨ Ubung 2.44. Zeigen Sie, dass jeder Hamming-Code das Minimalgewicht 3 besitzt. ¨ Ubung 2.45. Bestimmen Sie alle Erzeuger der multiplikativen Gruppe des K¨ orpers F2 [X]/hX 3 + X + 1i. ¨ Ubung 2.46. Bestimmen Sie Generatorpolynome f¨ ur die durch Hr gegebenen Hamming-Codes f¨ ur r = 2, 3, 4, 5, vgl. Definition 2.5.8.
Teil II Analysis
Kapitel 3
Reelle Zahlen und Folgen
Im Kapitel 1 wurden die algebraischen Eigenschaften der Zahlen studiert. Dies f¨ uhrt zu den abstrakten algebraischen Strukturen Gruppe, Ring und K¨ orper. In diesem Kapitel konzentrieren wir uns auf die analytischen Eigenschaften der reellen Zahlen. Diese haben ihren historischen Ursprung in der anschaulichen Vorstellung, dass es zu jedem Punkt einer Geraden eine entsprechende reelle Zahl gibt. Das wird im Begriff der Vollst¨andigkeit der reellen Zahlen mathematisch gefasst, der die Analysis von der rein algebraischen Betrachtungsweise der vorigen Kapitel unterscheidet. Das f¨ uhrt zu den f¨ ur die Analysis grundlegenden Begriffen Folge und Reihe und deren Konvergenz. In diesem Kapitel werden nicht nur die Grundlagen f¨ ur die im Kapitel 4 behandelte Differential- und Integralrechnung gelegt, sondern es wird auch diskutiert, wie reelle Zahlen in Computern dargestellt werden und warum 1 = 0,999 . . . ist. Am Ende dieses Kapitels gibt es eine kurze Einf¨ uhrung in die bei der Analyse der Laufzeit von Algorithmen gebr¨auchliche asymptotische Notation wie etwa O(n) oder O(ln(n)).
3.1 Reelle und komplexe Zahlen Wir setzen die reellen Zahlen als gegeben voraus. Statt u ¨ ber deren Existenz zu philosophieren, werden wir zun¨ achst die grundlegenden Eigenschaften der uns allen wohlbekannten“ reellen Zahlen zusammentragen. Diese Eigenschaften ” (auch als Axiome bezeichnet) sind so grundlegend, dass sich alles, was wir u ¨ ber reelle Zahlen sagen werden, daraus ableiten l¨asst. F¨ ur die Menge der reellen Zahlen hat sich das Symbol R eingeb¨ urgert. Die von ihnen erf¨ ullten Axiome lassen sich in drei Gruppen unterteilen: • algebraische Eigenschaften, • Ordnungseigenschaften, • Vollst¨andigkeitseigenschaft. 165
166
3 Reelle Zahlen und Folgen
Die erste Gruppe grundlegender Eigenschaften der reellen Zahlen besagt, dass die Menge der reellen Zahlen R ein K¨ orper1 ist. Das bedeutet, dass auf der Menge R zwei Verkn¨ upfungen definiert sind, die Addition + : R × R → R, die jedem Zahlenpaar (a, b) ihre Summe a + b zuordnet und die Multiplikation · : R × R → R, die jedem Zahlenpaar (a, b) ihr Produkt a · b zuordnet. F¨ ur diese Verkn¨ upfungen gelten die folgenden Axiome: Assoziativgesetze: F¨ ur beliebige a, b, c ∈ R gilt (a + b) + c = a + (b + c) und
(a · b) · c = a · (b · c).
(3.1)
Neutrale Elemente: Es gibt eine Null“ 0 ∈ R und eine von Null verschie” dene Eins“ 1 ∈ R , so dass f¨ ur jedes a ∈ R gilt: ” 0+a=a
und
1 · a = a.
(3.2)
Inverse Elemente: Zu jedem a ∈ R gibt es ein −a ∈ R und zu jedem b ∈ R mit b 6= 0 gibt es ein Inverses b−1 ∈ R, mit2 a + (−a) = 0 und b · b−1 = 1. (3.3) Kommutativgesetze:
F¨ ur beliebige a, b ∈ R gilt:
a+b=b+a
und
a · b = b · a.
(3.4)
Distributivgesetz: F¨ ur beliebige a, b, c ∈ R gilt: a · (b + c) = a · b + a · c.
(3.5)
Jede Menge mit zwei Verkn¨ upfungen, welche die Eigenschaften (3.1)–(3.5) besitzt, nennt man K¨orper . Dieser Begriff wurde detaillierter im ersten Teil des Buches studiert. Zwei weitere bekannte Beispiele von K¨ orpern sind die rationalen Zahlen Q und die komplexen Zahlen C, mit den bekannten Operationen · und +. Um anzudeuten, was mit der obigen Bemerkung, dass aus den Axiomen alles andere folgt, gemeint ist, wollen wir hier Folgendes beweisen:3 F¨ ur alle a ∈ R gilt
0 · a = 0.
(3.6)
Da 0 + 0 = 0 wegen (3.2), folgt (0 + 0) · a = 0 · a und mit Hilfe von (3.5) und (3.4) daraus 0 · a = 0 · a + 0 · a. Wenn wir nun das Element −(0 · a) auf beiden Seiten addieren (und das Assoziativgesetz der Addition anwenden), erhalten wir mit Hilfe von (3.3) die Gleichung 0 = 0 · a + 0, somit 0 = 0 · a, wie gew¨ unscht. 1
K¨ orper werden auch im Abschnitt 1.4 des Buches ab Seite 46 studiert.
2
Wir schreiben auch
3
siehe auch Seite 4
1 b
f¨ ur b−1 .
3.1 Reelle und komplexe Zahlen
167
Die gr¨oßte Schwierigkeit bei solchen Rechnungen, bei denen scheinbar selbst¨ verst¨andliche Dinge aneinandergereiht werden, ist, die Ubersicht dar¨ uber zu behalten, welche Aussagen benutzt werden d¨ urfen (die Axiome) und welche der selbstverst¨andlichen“ Aussagen erst gezeigt werden sollen. Weshalb eine ” derartige Exaktheit sowohl in der Mathematik als auch f¨ ur die Informatik von Bedeutung ist, ist im Kapitel 1 ausf¨ uhrlich erl¨autert. Eine oft benutzte Folgerung aus den K¨ orperaxiomen ist das allgemeine Distributivgesetz, welches mittels vollst¨andiger Induktion aus (3.5) folgt. Es besagt, wenn f¨ ur i = 1, 2, . . . n und j = 1, 2, . . . , m reelle Zahlen ai , bj gegeben sind, dann gilt: ! m n X m n X X X ai · b j . (3.7) bj = ai · i=1
i=1 j=1
j=1
Im Verlauf dieses Kapitels (Abschnitt 3.3, Satz 3.3.16) werden wir auch kl¨ aren, unter welchen Umst¨ anden eine solche Aussage f¨ ur unendlich große ” n, m“ gilt, und wie dies zu interpretieren ist. Als N¨achstes m¨ochten wir an die Potenzschreibweise erinnern. F¨ ur a ∈ R und n ∈ Z wird die n-te Potenz von a, an , wie folgt erkl¨art: a0 : = a1 : = n+1 a := a−n : =
1 (auch wenn a = 0) a a · an f¨ ur n ≥ 1 (a−1 )n f¨ ur alle a 6= 0 und n ≥ 1.
Die Potenz an ist damit f¨ ur jede reelle Zahl a 6= 0 und alle n ∈ Z definiert. Erneut mittels vollst¨ andiger Induktion ergeben sich aus dieser Definition die Potenzgesetze, die f¨ ur alle a, b ∈ R, a, b 6= 0 und m, n ∈ Z besagen: an am = an+m (an )m = an·m an · bn = (a · b)n . Jetzt wenden wir uns der zweiten Gruppe grundlegender Eigenschaften zu. Sie befasst sich mit den Ordnungseigenschaften der reellen Zahlen. Es ist allgemein bekannt, dass gewisse reelle Zahlen positiv, andere negativ sind. Auch dies wollen wir als gegeben voraussetzen. Wenn a ∈ R positiv ist, schreiben wir a > 0. Wenn −a positiv ist, sagen wir a ist negativ und schreiben a < 0. Die folgende Notation ist sehr praktisch: R>0 := {a ∈ R | a > 0}
und
R<0 := {a ∈ R | a < 0} .
Die grundlegenden Eigenschaften, die der Begriff der Positivit¨at erf¨ ullt, sind die beiden Anordnungs-Axiome:
168
3 Reelle Zahlen und Folgen
F¨ ur jede reelle Zahl a ∈ R gilt genau eine der drei Bedingungen: a>0
oder
a=0
oder
a < 0.
Wenn a > 0 und b > 0, so ist a + b > 0 und a · b > 0.
(3.8) (3.9)
Definition 3.1.1. F¨ ur beliebige reelle Zahlen a, b ∈ R schreiben wir a > b, falls a − b > 0 gilt. Wir schreiben a ≥ b, wenn a − b > 0 oder a = b gilt. Analog sind < und ≤ erkl¨ art. Aus den Axiomen (3.8) und (3.9) lassen sich einige bekannte Eigenschaften herleiten. Lemma 3.1.2 Wenn a < b und b < c, so folgt a < c (Transitivit¨at). Beweis. Nach Voraussetzung ist a − b < 0 und b − c < 0, woraus mit (3.9) die Ungleichung (a − b) + (b − c) < 0 folgt. Das ergibt a − c < 0, d.h. a < c. ⊓ ⊔ Ebenso lassen sich folgende Aussagen zeigen: falls a < b und c ∈ R, dann folgt a + c < b + c
(3.10)
falls a < b und c > 0, dann folgt a · c < b · c
(3.11)
falls a < b und c < 0, dann folgt a · c > b · c
(3.12)
falls a 6= 0, dann folgt a > 0
(3.13)
2
falls 0 < a < b oder a < b < 0, dann folgt b−1 < a−1 1>0
(3.14) (3.15)
Ausgehend von dem Begriff der Positivit¨ at k¨onnen wir den Betrag |a| einer reellen Zahl a ∈ R definieren: ( a falls a ≥ 0 |a| := −a falls a < 0. Satz 3.1.3 F¨ ur beliebige a, b ∈ R gilt: (1) |a · b| = |a| · |b|. (2) |a + b| ≤ |a| + |b| (3) |a − b| ≥ |a| − |b| .
(Dreiecksungleichung).
Beweis. (1) Wir f¨ uhren eine Fallunterscheidung durch, das heißt, wir untersuchen jede der vier M¨ oglichkeiten der Vorzeichen von a und b einzeln. Wenn a ≥ 0 und b ≥ 0 ist, dann gilt |a| = a, |b| = b und |ab| = ab und damit
3.1 Reelle und komplexe Zahlen
169
|a · b| = a · b = |a| · |b|. Wenn a ≥ 0 ist und b < 0, dann ist ab ≤ 0 und es gilt |a| = a, |b| = −b, |ab| = −ab. Daraus folgt |ab| = −ab = a · (−b) = |a||b|. Die anderen beiden F¨alle, a < 0 und b ≥ 0 bzw. a < 0 und b < 0, gehen analog. (2) Da a ≤ |a| und b ≤ |b| folgt mit Eigenschaft (3.10) a + b ≤ |a| + |b|. Ebenso folgt aus |a| ≥ −a, |b| ≥ −b auch |a| + |b| ≥ −(a + b) und somit |a + b| ≤ |a| + |b|. (3) Nach eventueller Vertauschung von a und b k¨onnen wir o.B.d.A. voraussetzen, dass |a| ≥ |b| gilt. Die Dreiecksungleichung f¨ ur u := a + b, v := −b liefert |a| = |u + v| ≤ |u| + |v| = |a − b| + |b| und somit |a − b| ≥ |a| − |b| = |a| − |b| . ⊓ ⊔
Bemerkung 3.1.4. Ein K¨ orper, in dem es einen Begriff der Positivit¨at gibt, f¨ ur den (3.8) und (3.9) gelten, heißt geordneter K¨orper . Auch Q ist ein geordneter K¨orper, aber f¨ ur C kann man keine solche Ordnung finden, denn, im Widerspruch zu (3.13), gibt es i ∈ C mit i2 = −1 < 0. Der Begriff des Betrages ist jedoch u ¨bertragbar auf C.
Eine wichtige Zusatzbedingung f¨ ur die Ordnung auf R wurde bisher noch nicht erw¨ahnt: R ist ein archimedisch geordneter K¨orper. Das heißt, dass zus¨atzlich zu den Axiomen (3.8) und (3.9) noch das Archimedische Axiom 4 gilt: F¨ ur a > 0 und b > 0 gibt es ein n ∈ N mit5
n · b > a.
(3.16)
Wenn wir im Archimedischen Axiom b = 1 setzen, erhalten wir zu jeder reellen Zahl a > 0 ein n ∈ N mit a < n. Daher gibt es ein eindeutig bestimmtes n ∈ N mit n ≤ a < n + 1. Wenn a < 0, d.h. −a > 0, dann gibt es aus demselben Grund eine eindeutig bestimmte nat¨ urliche Zahl n ∈ N mit n−1 < −a ≤ n, was sich auch als −n ≤ a < −n+1 schreiben l¨asst. Also l¨asst sich jede reelle Zahl a zwischen zwei benachbarte ganze Zahlen einschließen, d.h. es gibt ein n ∈ Z mit n ≤ a < n + 1. Definition 3.1.5. Wenn a ∈ R und n ∈ Z die eindeutig bestimmte Zahl mit n ≤ a < n + 1 ist, dann heißt ⌊a⌋ := n ganzer Teil von a. Statt ⌊a⌋ ist auch die Bezeichnung [a] gebr¨ auchlich. Satz 3.1.6 (Bernoullische Ungleichung) F¨ ur jede reelle Zahl a ≥ −1 und jedes n ∈ N gilt (1 + a)n ≥ 1 + n · a . (3.17) Beweis. Wir wenden hier das Prinzip der vollst¨andigen Induktion an. Induktionsanfang: F¨ ur n = 0 erhalten wir auf der linken Seite (1 +a)0 = 1 und 1 + 0 · a = 1 auf der rechten Seite der Ungleichung. 4
Archimedes von Syrakus (ca. 287–212 v.u.Z.), griechischer Mathematiker und Physiker.
5
Hier bezeichnet N = {0, 1, 2, . . . } die Menge der nat¨ urlichen Zahlen.
170
3 Reelle Zahlen und Folgen
Induktionsschritt: Wir nehmen an, die Behauptung gilt f¨ ur ein festes n ≥ 0 und wollen daraus die G¨ ultigkeit f¨ ur n + 1 zeigen. Voraussetzung. (1 + a)n ≥ 1 + n · a f¨ ur ein n ∈ N. Behauptung. (1 + a)n+1 ≥ 1 + (n + 1) · a. Beweis. Da a ≥ −1, ist a+1 ≥ 0 und somit folgt aus der Induktionsvoraussetzung (1 + a)n+1 ≥ (1 + a)(1 + na) = 1 + a + na + na2 = 1 + (n + 1) · a + n · a2 ≥ 1 + (n + 1) · a, da a2 ≥ 0 und n ≥ 0. ⊓ ⊔ Satz 3.1.7 Sei a ∈ R>0 beliebig.
(1) Wenn a > 1, dann gibt es zu jedem K > 0 ein n ∈ N mit an > K. (2) Wenn a < 1, dann gibt es zu jedem ε > 0 ein n ∈ N mit an < ε. Beweis. (1) Da a > 1, ist x := a − 1 > 0 und nach Satz 3.1.6 ist daher an = (1 + x)n ≥ 1 + n · x. Wegen des Archimedischen Axioms (3.16) gibt es ein n ∈ N mit n · x > K − 1, d.h. an ≥ 1 + nx > K. (2) Aus 0 < a < 1 folgt b = a1 > 1 und nach (1) gibt es n ∈ N mit bn > K := 1 n ⊓ ⊔ ε . Wegen (3.14) folgt daraus a < ε. Die letzte hier behandelte grundlegende Eigenschaft der reellen Zahlen ist ihre Vollst¨andigkeit. Anschaulich bedeutet sie, dass es auf der Zahlengeraden keine L¨ ucken gibt. Das ist die f¨ ur die Analysis wichtigste Eigenschaft. F¨ ur eine mathematisch korrekte Formulierung ben¨otigen wir einige neue Begriffe (siehe auch Def. 6.3.21). Definition 3.1.8. Sei M ⊂ R eine beliebige Teilmenge. (1) K ∈ R heißt obere Schranke von M , falls f¨ ur alle x ∈ M gilt: x ≤ K. Wenn ein solches K existiert, heißt M nach oben beschr¨ankt. (2) K ∈ R heißt untere Schranke von M , falls f¨ ur alle x ∈ M gilt: K ≤ x. Die Menge M heißt nach unten beschr¨ankt, falls eine untere Schranke K ∈ R f¨ ur M existiert. (3) M heißt beschr¨ankt, wenn diese Menge nach oben und nach unten beschr¨ankt ist. Dies ist ¨ aquivalent zur Existenz einer Zahl K ∈ R, so dass |x| ≤ K f¨ ur alle x ∈ M gilt. (4) a ∈ R heißt Infimum von M , falls a gr¨oßte untere Schranke von M ist. Wir schreiben dann a = inf(M ). Ausf¨ uhrlich bedeutet das • a ist eine untere Schranke von M und • wenn K eine untere Schranke von M ist, so ist K ≤ a. (5) b ∈ R heißt Supremum von M , falls b kleinste obere Schranke von M ist. Wir schreiben dann b = sup(M ). Ausf¨ uhrlich bedeutet das • b ist eine obere Schranke von M und • wenn K eine obere Schranke von M ist, so ist K ≥ b.
3.1 Reelle und komplexe Zahlen
171
Beispiel 3.1.9. (1) F¨ ur a < b ist inf([a, b]) = inf((a, b)) = a und sup([a, b]) = sup((a, b)) = b. Wie u ¨blich bezeichnen wir hier mit [a, b] = {x ∈ R | a ≤ x ≤ b} das abgeschlossene Intervall und mit (a, b) = {x ∈ R | a < x < b} das offene Intervall. (2) Sei M := n1 n ≥ 1, n ∈ N . Dann ist inf(M ) = 0 und sup(M ) = 1. Man beachte, dass in diesem Beispiel inf(M ) 6∈ M aber sup(M ) ∈ M gilt. Bemerkung 3.1.10. Wenn inf(M ) ∈ M , so heißt das Infimum inf(M ) auch Minimum der Menge M . Entsprechend heißt sup(M ) Maximum der Menge M , wenn sup(M ) ∈ M .
Definition 3.1.11. Wenn M ⊂ R nicht nach unten beschr¨ankt ist, so schreiben wir inf(M ) = −∞. Wenn M ⊂ R nicht nach oben beschr¨ankt ist, dann schreiben wir sup(M ) = +∞. Jetzt k¨onnen wir die wichtigste Eigenschaft der reellen Zahlen formulieren, das Vollst¨andigkeitsaxiom: Jede nichtleere, nach unten beschr¨ ankte Menge M ⊂ R besitzt ein Infimum inf(M ) ∈ R.
(3.18)
Eine Menge auf der eine Addition und eine Multiplikation definiert sind, f¨ ur welche die Axiome (3.1)–(3.5), (3.8), (3.9), (3.16) und (3.18) gelten, heißt archimedisch geordneter, vollst¨ andiger K¨ orper. Dadurch sind die reellen Zahlen vollst¨andig charakterisiert, d.h. jeder archimedisch geordnete, vollst¨andige K¨ orper ist isomorph zu R. Ein Beweis dieser Aussage w¨ urde den Rahmen dieses Buches sprengen, siehe z.B. [ReL]. Satz 3.1.12 Jede nichtleere, nach oben beschr¨ankte Menge M ⊂ R besitzt ein Supremum sup(M ) ∈ R. Beweis. Sei −M := {−x | x ∈ M } und a ∈ R eine obere Schranke f¨ ur M . Dann ist −a eine untere Schranke f¨ ur −M . Aus dem Vollst¨andigkeitsaxiom folgt, dass −M ein Infimum b = inf(−M ) besitzt. Dann ist −b das Supremum von M . ⊓ ⊔ Satz 3.1.13 Das Supremum (bzw. Infimum) einer nach oben (bzw. unten) beschr¨ankten Menge M ist eindeutig bestimmt. Beweis. Wenn m ≤ m′ Suprema von M sind, dann muss m = m′ sein, da m′ kleinste obere Schranke ist. Die Eindeutigkeit des Infimums folgt analog. ⊓ ⊔
172
3 Reelle Zahlen und Folgen
Der K¨orper der komplexen Zahlen6 C erweitert den von uns bisher studierten K¨orper der reellen Zahlen R. Die wichtigste Eigenschaft dieser K¨orpererweiterung ist, dass sich jedes Polynom mit Koeffizienten in C als Produkt linearer Polynome schreiben l¨ asst (die algebraische Abgeschlossenheit, Satz 1.4.21). Die komplexen Zahlen spielen in der Algebra, Analysis, Physik und Technik eine bedeutende Rolle. Hier werden wir sie vor allem nutzen, um sp¨ater die trigonometrischen Funktionen Sinus und Kosinus zu definieren. Die C zugrunde liegende Menge ist R2 , d.h. wir k¨onnen uns komplexe Zahlen als Punkte der Ebene vorstellen (siehe Abb. 3.1 und Beispiel 1.4.20). F¨ ur ein Im
b
(a, b) = a + bi
b
b
b
a
Re
Abb. 3.1 Die komplexe Zahlenebene
Zahlenpaar (a, b) ∈ R2 schreiben wir a + bi ∈ C, d.h. wir schreiben (a, b) = a · (1, 0) + b · (0, 1) und verwenden die Abk¨ urzungen 1 = (1, 0) und i = (0, 1). Die Zahlen a, b sind die Koordinaten bez¨ uglich der Basis (1, 0), (0, 1) des reellen Vektorraumes R2 . Die Addition und Multiplikation sind nun derart definiert, dass die gew¨ ohnlichen Gesetze (Assoziativit¨at, Kommutativit¨at und Distributivit¨at) gelten. Das einzig Neue ist i2 = −1 . F¨ ur beliebige a, b, c, d ∈ R ergibt sich: (a + bi) + (c + di) = (a + c) + (b + d)i
(3.19)
(a + bi) · (c + di) = ac − bd + (ad + bc)i
(3.20)
und falls a 6= 0 oder b 6= 0, dann gilt 1 a b a − bi a − bi = 2 − 2 i. = = 2 2 2 a + bi (a + bi) · (a − bi) a +b a +b a + b2 Bemerkung 3.1.14. C ist ein K¨ orper und R ⊂ C Teilk¨orper. 6
Siehe auch Seite 53.
(3.21)
3.1 Reelle und komplexe Zahlen
173
F¨ ur viele Rechnungen ist die Benutzung der konjugierten komplexen Zahl sehr n¨ utzlich. Wenn z = a + bi ∈ C, dann heißt z¯ := a − bi ∈ C die konjugierte komplexe Zahl, wobei stets a, b ∈ R. Es gilt dann z · z¯ = a2 + b2 ∈ R. Wir definieren den Betrag |z| der komplexen Zahl z = a + bi wie folgt: p √ |z| := z · z¯ = a2 + b2 (3.22)
F¨ ur z = a + bi ∈ C heißt a = Re(z) ∈ R der Realteil und b = Im(z) ∈ R z z−¯ z der Imagin¨arteil von z. Es gilt: Re(z) = z+¯ 2 und Im(z) = 2i . Der Betrag Im Im(z) b
z
|z|
Re(z)
Re
Abb. 3.2 Imagin¨ ar- und Realteil einer komplexen Zahl z
|z| einer komplexen Zahl z ∈ C ist der Abstand von z zum Nullpunkt der komplexen Zahlenebene (Abb. 3.2). Satz 3.1.15 F¨ ur alle z, z1 , z2 ∈ C gilt: z = z, z1 + z2 = z1 + z2 , z1 z2 = z1 · z2 |z| ≥ 0 und |z| = 0 ⇐⇒ z = 0
(3.23) (3.24)
|z1 z2 | = |z1 | · |z2 |
(3.26)
|z1 + z2 | ≤ |z1 | + |z2 |
(Dreiecksungleichung)
(3.25)
Beweis. Die Aussagen (3.23) und (3.24) folgen sofort aus den Definitionen. Zum Beweis von (3.26) benutzen wir die Kommutativit¨at der Multiplikation und (3.23): |z1 z2 |2 = z1 z2 · z1 z2 = z1 · z1 · z2 · z2 = |z1 |2 · |z2 |2 . Die Dreiecksungleichung (3.25)√ergibt sich folgendermaßen. Da f¨ ur a, b ∈ R ur z = a + bi ∈ C gilt stets stets a2 ≤ a2 + b2 , ist |a| ≤ a2 + b2 , d.h. f¨ | Re(z)| ≤ |z|. Also Re(z1 z2 ) ≤ | Re(z1 z2 )| ≤ |z1 z2 | = |z1 | · |z2 |. Damit erhalten wir: |z1 + z2 |2 = (z1 + z2 )(z1 + z2 ) = z1 z1 + z1 z2 + z1 z2 + z2 z2 = |z1 |2 + 2 Re(z1 z2 ) + |z2 |2 ≤ |z1 |2 + 2|z1 | · |z2 | + |z2 |2 = (|z1 | + |z2 |)2 und somit |z1 + z2 | ≤ |z1 | + |z2 |. ⊓ ⊔
Die geometrische Interpretation der Dreiecksungleichung ist in Abbildung 3.3 veranschaulicht.
174
3 Reelle Zahlen und Folgen
|z1 + z2 |
|z2 |
|z1 | Abb. 3.3 Dreiecksungleichung
Bemerkung 3.1.16. Ein K¨ orper mit einer Betragsfunktion, welche die im Satz 3.1.15 aufgef¨ uhrten Eigenschaften besitzt, nennt man einen bewerteten K¨orper. Die K¨orper Q, R, C sind bewertete K¨orper mit dem gew¨ohnlichen Betrag. Dabei ist R archimedisch geordnet und vollst¨andig, Q ist nicht vollst¨andig und C ist nicht geordnet.
Aufgaben ¨ Ubung 3.1. Beweisen Sie, dass jede nichtleere Menge A ⊂ N eine kleinste Zahl enth¨alt. ¨ Ubung 3.2. Sei A ⊂ Q>0 = {x ∈ Q | x > 0} eine nichtleere Menge, f¨ ur die inf(A) = 0 gilt. Beweisen Sie, dass es zu jedem n ∈ N eine Zahl pq ∈ A gibt, so dass q > n ist und p und q teilerfremde nat¨ urliche Zahlen sind. ¨ Ubung 3.3. Beweisen Sie mittels vollst¨ andiger Induktion: (a) n2 ≤ 2n f¨ ur jede nat¨ urliche Zahl n ≥ 4. (b) 2n < n! f¨ ur jede nat¨ urliche Zahl n ≥ 4. ¨ Ubung 3.4. Beweisen Sie f¨ ur beliebige Teilmengen A, B ⊂ R die Gleichung sup(A + B) = sup(A) + sup(B), wobei A + B := {a + b | a ∈ A, b ∈ B}. ¨ Ubung 3.5. Bestimmen Sie Real- und Imagin¨arteil der komplexen Zahlen (a)
2−i 2 − 3i
(b)
(1 + i)5 (1 − i)3
¨ Ubung 3.6. Skizzieren Sie folgende Mengen in der komplexen Zahlenebene: (a) {z ∈ C | |z − 1| + |z + 1| < 4} (b) {z ∈ C | Im((1 − i)z) = 0}.
3.2 Folgen Wegen des Vollst¨ andigkeitsaxioms ist es f¨ ur den Umgang mit reellen Zahlen erforderlich, Folgen und deren Grenzwerte zu beherrschen. Das ist bereits
3.2 Folgen
175
√ √ bei der Berechnung der irrationalen Zahl 2 erkennbar. Die Zahl 2 ist die positive L¨osung der Gleichung a2 = 2. Eine effiziente Methode, diese Zahl n¨ aherungsweise zu berechnen, beginnt damit, dass man a2 = 2 zu 2a = a + a2 umschreibt. Dies f¨ uhrt zu der Gleichung 2 1 a+ . a= 2 a Die Idee ist nun, den Wert der rechten Seite dieser Gleichung f¨ ur einen groben N¨ aherungswert a zu berechnen und so eine (hoffentlich) bessere N¨aherung 1 √ an 2 zu erhalten. Wenn wir zum Beispiel mit a = 1 beginnen, erhalten 1 3 2 1 wir a2 = 2 a1 + a1 = 2 . Bei nochmaliger Anwendung dieser Berechnung ergibt sich a3 = 21 a2 + a22 = 17 12 ≈ 1,4167. Im dritten Schritt erhalten wir 1 a4 = 2
2 577 a3 + = ≈ 1,4142 a3 408
und aherung. Wir werden sp¨ater sehen, dass an = eine gute N¨ dies ist bereits √ 2 1 f¨ u r wachsendes n immer dichter an 2 herankommt. Das a + n−1 2 an−1 √ f¨ uhrt zum Begriff der Zahlenfolge an und ihrem Grenzwert limn→∞ an = 2. Definition 3.2.1. Eine Folge reeller Zahlen ist eine Abbildung f : N → R, das heißt, f¨ ur jedes n ∈ N ist eine reelle Zahl fn := f (n) gegeben. Daher schreiben wir f¨ ur eine Folge (fn )n∈N oder (fn )n≥0 . Wir erlauben auch Folgen, die mit einem h¨oheren Index beginnen, z.B. (fn )n≥n0 f¨ ur beliebiges n0 ∈ N. Definition 3.2.2. Eine Folge (an )n∈N heißt monoton wachsend (bzw. streng monoton wachsend ), falls f¨ ur alle n ∈ N gilt: an+1 ≥ an (bzw. an+1 > an ). Eine Folge heißt monoton fallend (bzw. streng monoton fallend ), falls f¨ ur alle n ∈ N gilt: an+1 ≤ an (bzw. an+1 < an ). Eine Folge heißt (streng) monoton, falls sie (streng) monoton wachsend oder (streng) monoton fallend ist. Beispiel 3.2.3. (1) Die durch an = 0, 99 . . . 9} definierte Folge ist streng monoton wachsend. | {z n
(2) Sei a ∈ R eine reelle Zahl, dann nennen wir die Folge (an )n∈N mit an := a f¨ ur alle n ∈ N konstante Folge. Diese Folge ist monoton wachsend und monoton fallend. (3) an := n1 f¨ ur n ≥ 1 ergibt die Folge 1, 12 , 13 , 14 , . . . . Sie ist streng monoton fallend. (4) bn := (−1)n liefert die alternierende Folge (1, −1, 1, −1, . . .). (5) Sei a ∈ R beliebig, dann ist durch an := an (n ≥ 0) die Folge (1, a, a2 , a3 , a4 , . . .) definiert. Diese Folge ist f¨ ur a > 1 streng monoton wachsend, f¨ ur a = 1 monoton wachsend, f¨ ur 0 < a < 1 streng monoton fallend.
176
3 Reelle Zahlen und Folgen
(6) Die Fibonacci-Folge 7 ist rekursiv definiert durch f0 = 0, f1 = 1 und fn := fn−1 + fn−2 f¨ ur n ≥ 2. Das ergibt die monoton wachsende Zahlenfolge (0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, 233, 377, 610, . . .). Definition 3.2.4 (Konvergenz). Eine Folge reeller Zahlen (an )n∈N heißt konvergent gegen a ∈ R (Schreibweise limn→∞ an = a oder lim an = a), wenn es f¨ ur jedes ε > 0 ein N ∈ N gibt, so dass f¨ ur alle n ≥ N die Ungleichung |an − a| < ε gilt. Die Zahl a heißt Grenzwert der Folge. Eine Folge (an )n∈N , die nicht konvergent ist, heißt divergent. Aussagen wie in Definition 3.2.4 werden ab jetzt h¨aufiger auftreten, daher bedienen wir uns folgender Abk¨ urzungen, siehe auch Abschnitt 6.1: ∀ := f¨ ur alle“ ” ∃ := es gibt ein“ ” =⇒ := daraus folgt“ ” ⇐⇒ := genau dann, wenn“. ” Damit sieht die Definition der Konvergenz wie folgt aus: ∀ ε > 0 ∃ N ∈ N ∀ n ≥ N : |an − a| < ε .
(3.27)
Hierbei ist zu beachten, dass das N ∈ N von dem zuvor gew¨ahlten ε > 0 abh¨angen darf! Wir werden oft damit konfrontiert sein, eine Aussage dieser Art zu verneinen. Wenn A eine Aussage oder eine Aussageform ist (siehe Abschnitt 6.1), dann bezeichnet ¬A ihr logisches Gegenteil ( Verneinung“). So ist zum Beispiel ” ¬ (|an − a| < ε) ¨ aquivalent zu |an − a| ≥ ε. Das logische Gegenteil von (3.27) l¨asst sich am sichersten mit Hilfe der folgenden formalen Rechenregeln bestimmen (vgl. Seite 368): ¬ ∀ ε > 0 : A(ε) ⇐⇒ ∃ ε > 0 : ¬ A(ε) ¬ ∃ N ∈ N : B(N ) ⇐⇒ ∀ N ∈ N : ¬ B(N ) .
Damit erhalten wir zum Beispiel:
Die Folge (an )n∈N konvergiert nicht gegen a ⇐⇒ ¬ lim an = a n→∞
⇐⇒ ∃ ε > 0 ∀ N ∈ N ∃ n ≥ N :
|an − a| ≥ ε .
7
Leonardo von Pisa (ca. 1170 bis 1240) genannt Fibonacci (Kurzform von filius Bonacci) hat die Zahlenfolge am Beispiel eines Kaninchenz¨ uchters beschrieben, der herausfinden will, wie viele Paare aus einem einzigen Paar innerhalb eines Jahres entstehen, wenn jedes Paar nach zwei Lebensmonaten genau ein weiteres Paar pro Monat zur Welt bringt. Man kann √ ” √ ” “ “ beweisen, dass fn =
1+ 5 2
n
n − 1−2 5 √ 5
gilt (Formel von Binet, siehe Bsp. 2.4.26, S. 137).
3.2 Folgen
177
Neben der Beherrschung dieser formalen Sprache ist es auch wichtig und n¨ utzlich eine geometrische Anschauung vom Begriff der Konvergenz zu besitzen. Zu diesem Zweck ist es bequem und u ur jeden Punkt a ∈ R ¨blich, f¨ und jedes ε > 0, was man sich meist als sehr kleine positive Zahl vorstellt, die Menge (a − ε, a + ε) := {x ∈ R | a − ε < x < a + ε} als ε-Umgebung von a zu bezeichnen (vgl. Abb. 3.4). Das heißt, an ist in der ε-Umgebung von a ⇐⇒ |an − a| < ε
⇐⇒ an ∈ (a − ε, a + ε).
a−ε
a
a+ε
Abb. 3.4 ε-Umgebung
Damit hat Konvergenz gegen a“ folgende anschauliche Bedeutung: ” Die Folgenglieder an liegen f¨ ur hinreichend großes n in jeder noch so kleinen ε-Umgebung von a. Bemerkung 3.2.5. Das Ab¨ andern von endlich vielen Folgengliedern hat keinen Einfluss auf die Konvergenz und den Grenzwert einer Folge. Wenn z.B. (an )n∈N gegen a ∈ R konvergiert, so gilt das auch f¨ ur (an )n≥n0 f¨ ur jedes n0 ∈ N. Nat¨ urlich ver¨ andert auch eine Verschiebung der Nummerieur fixiertes n0 , dann ist (an )n≥0 genau rung nichts. Wenn bn := an+n0 f¨ dann konvergent, wenn (bn )n≥n0 konvergiert und im Fall der Konvergenz gilt limn→∞ an = limn→∞ bn . Beispiel 3.2.6. (1) Die Folge (an )n≥1 mit an = 0, 99 . . . 9} konvergiert gegen 1. | {z n
Beweis. Sei ε > 0 beliebig. Dann gibt es N ∈ N mit N > 1ε (Archimedisches Axiom). Nun ist 1 − an = 0, 0| . {z . . 01} = 10−n . Wenn 10n > N ist, n
folgt 10−n < ε, d.h. 1 − an = |1 − an | < ε. (2) Die Folge (an )n≥1 mit an =
1 n
⊓ ⊔
konvergiert gegen 0.
Beweis. Sei ε > 0 beliebig. Dann gibt es N ∈ N mit N > 1ε (Archimedisches Axiom) und f¨ ur n ≥ N gilt nun |an − 0| = | n1 − 0| = | n1 | = n1 ≤ 1 ⊓ ⊔ N < ε. (3) Die Folge (bn )n∈N mit bn := (−1)n divergiert. Beweis (Indirekt). Angenommen, es g¨ abe eine Zahl a ∈ R, so dass limn→∞ bn = a. Dann g¨ abe es f¨ ur ε = 12 > 0 ein N ∈ N, so dass
178
3 Reelle Zahlen und Folgen
|bn − a| < 21 f¨ ur alle n ≥ N . Da bn+1 − bn = ±2, g¨alte f¨ ur n ≥ N stets 2 = |bn+1 − bn | = |bn+1 − a − (bn − a)| ≤ |bn+1 − a| + |bn − a| < 12 + 21 = 1, ein Widerspruch. ⊓ ⊔ Definition 3.2.7. (1) Eine Folge (an )n∈N heißt nach oben beschr¨ankt , wenn A ∈ R existiert, so dass f¨ ur alle n ∈ N gilt: an ≤ A. (2) Eine Folge (an )n∈N heißt nach unten beschr¨ankt , wenn A ∈ R existiert, so dass f¨ ur alle n ∈ N gilt: an ≥ A. (3) Eine Folge (an )n∈N heißt beschr¨ankt , wenn sie nach oben und unten beschr¨ankt ist. Bemerkung 3.2.8. (an )n∈N ist beschr¨ ankt ⇐⇒ ∃ K ∈ R ∀ n ∈ N : |an | ≤ K . Satz 3.2.9 Jede konvergente Folge ist beschr¨ankt. Beweis. Sei (an )n∈N konvergent gegen a ∈ R, das heißt, es gibt ein N ∈ N, so dass |an − a| < 1 f¨ ur alle n ≥ N gilt, siehe Abb. 3.5. || |
| | | | ||||||||||||||| | | |
a−ε
a
|
||
|
|
a+ε
Abb. 3.5 Nur endlich viele Folgenglieder außerhalb der ε-Umgebung
Mit der Dreiecksungleichung folgt daraus f¨ ur alle n ≥ N : |an | = |a + (an − a)| ≤ |a| + |an − a| < |a| + 1 . Wenn K das Maximum der endlich vielen Zahlen |a1 |, |a2 |, . . . , |aN |, |a| + 1 ist, dann gilt f¨ ur alle n ∈ N : |an | ≤ K. ⊓ ⊔ Bemerkung 3.2.10. Es gibt beschr¨ ankte Folgen, die divergent sind, siehe Beispiel 3.2.6 (3). Satz 3.2.11 Jede beschr¨ankte monotone Folge reeller Zahlen konvergiert. Beweis. O.B.d.A. gen¨ ugt es, eine beschr¨ ankte, monoton wachsende Folge (an )n∈N zu betrachten. Sei a = sup{an | n ∈ N} und ε > 0. Da a − ε keine obere Schranke ist, existiert ein N ∈ N mit a − ε < aN ≤ a. Da (an )n∈N monoton wachsend ist, gilt a − ε < am ≤ a f¨ ur alle m ≥ N . Somit konvergiert die Folge gegen a. ⊓ ⊔
3.2 Folgen
179
Satz 3.2.12 Wenn die Folge (an )n∈N gegen a ∈ R und b ∈ R konvergiert, dann ist a = b. Beweis. Angenommen a 6= b, dann liefert die geometrische Anschauung einen Widerspruch, siehe Abb. 3.6. Dies setzen wir jetzt in einen formal korrekten | | | | ||||||||||||||| | | |
a−ε
a
a+ε
| | | |||||||||||||||| | | |
b−ε
b
b+ε
Abb. 3.6 Zwei verschiedene Grenzwerte sind nicht m¨ oglich.
Beweis um. Sei ε := 12 |b − a|, dann gilt nach Voraussetzung: ∃ N1 ∈ N ∀ n ≥ N1 : |an − a| < ε und ∃ N2 ∈ N ∀ n ≥ N2 : |an − b| < ε . Unter Benutzung der Dreiecksungleichung folgt daraus f¨ ur alle n ≥ N1 + N2 |b − a| = |(b − an ) + (an − a)| ≤ |an − b| + |an − a| < ε + ε = |b − a| , ein Widerspruch.
⊓ ⊔
Satz 3.2.13 (Rechenregeln f¨ ur konvergente Folgen) Wenn die Folgen (an )n∈N und (bn )n∈N konvergent sind, dann gilt: (an + bn )n∈N ist konvergent und lim(an + bn ) = lim an + lim bn . (an bn )n∈N ist konvergent und lim(an bn ) = lim an · lim bn .
(3.28) (3.29)
(λan )n∈N ist konvergent und lim(λan ) = λ · lim an f¨ ur λ ∈ R. (an − bn )n∈N ist konvergent und lim(an − bn ) = lim an − lim bn .
(3.30) (3.31)
Wenn an ≤ bn f¨ ur alle n ≥ n0 , so ist lim an ≤ lim bn .
(3.33)
Wenn lim bn 6= 0, dann gibt es ein n0 ∈ N mit bn 6= 0 f¨ u r n ≥ n0 lim an an an und = . (3.32) ist konvergent und lim bn n≥n0 bn lim bn
Bevor wir den Satz beweisen, betrachten wir ein Beispiel als Anwendung. Sei an = 0, 99 . . . 9}, dann gilt 10an − an−1 = 9. In Beispiel 3.2.6 (1) haben wir | {z n
gezeigt, dass (an )n≥1 konvergiert. Wenn a = limn→∞ an , dann gilt wegen (3.31) 10a − a = 9 und damit a = 1.
180
3 Reelle Zahlen und Folgen
Beweis (Satz 3.2.13). Sei a := lim an und b := lim bn . (3.28) Sei ε > 0. Nach Voraussetzung gilt ∃ N1 ∀ n ≥ N1 : |an − a| < ε2 und ur alle n ≥ N ∃ N2 ∀ n ≥ N2 : |bn − b| < 2ε . Sei N = max{N1 , N2 }, dann gilt f¨ |an + bn − (a + b)| ≤ |an − a| + |bn − b| <
ε ε + =ε. 2 2
(3.29) Nach Satz 3.2.9 gibt es ein K ∈ R, so dass |b| ≤ K und |an | ≤ K f¨ ur alle n ∈ N gilt. Nach Voraussetzung gibt es zu beliebigem ε > 0 nat¨ urliche ε Zahlen N1 , N2 ∈ N, so dass f¨ ur alle n ≥ N1 : |an − a| < 2K und f¨ ur alle ε ur alle n ≥ max{N1 , N2 } n ≥ N2 : |bn − b| < 2K gilt. Daraus ergibt sich f¨ |an bn − ab| = |an · (bn − b) + (an − a) · b| ≤ |an | · |bn − b| + |an − a| · |b| ε ε
|b| − Es bleibt die Konvergenz von
1 bn
n≥n0
|b| |b| = >0. 2 2
und lim b1n =
1 b
zu zeigen. Sei dazu
ε > 0 beliebig, dann gilt nach Voraussetzung: ∃ N1 ∀ n ≥ N1 : |bn −b| < F¨ ur alle n ≥ N := max{N1 , n0 } gilt damit 1 1 1 b − bn 1 2 1 ε · |b|2 · · |b − bn | < · · =ε. − = = bn b bn b |bn | |b| |b| |b| 2
ε·|b|2 2 .
(3.33) Angenommen a > b. Wir w¨ ahlen ε := a−b 2 > 0. Nach Voraussetzung gilt: ∃ N1 ∀ n ≥ N1 : |an − a| < ε und ∃ N2 ∀ n ≥ N2 : |bn − b| < ε. F¨ ur n ≥ N := max{N1 , N2 } folgt dann: a − ε < an < a + ε und b − ε < bn < b + ε. Da wir ε so gew¨ ahlt haben, dass b + ε = a − ε, ergibt sich: bn < b + ε = a − ε < an , im Widerspruch zu an ≤ bn . ⊓ ⊔ Bemerkung 3.2.14. Aus an < bn (f¨ ur alle n ∈ N) folgt im Allgemeinen nur lim an ≤ lim bn und nicht lim an < lim bn . Man betrachte dazu das ur n ≥ 1. Hier ist an < bn f¨ ur alle n ≥ 1, aber Beispiel an := − n1 , bn := n1 f¨ lim an = lim bn = 0. Satz 3.2.15 (Prinzip der zwei Polizisten) Seien (an )n∈N und (bn )n∈N zwei konvergente Folgen mit a = lim an = lim bn . Sei außerdem (cn )n∈N
3.2 Folgen
181
eine Folge mit der Eigenschaft, dass ein n0 ∈ N existiert, so dass f¨ ur alle n ≥ n0 gilt an ≤ cn ≤ bn . Dann ist (cn )n∈N konvergent und lim cn = a. Beweis. Nach Voraussetzung gibt es nat¨ urliche Zahlen N1 und N2 , so dass ∀ n ≥ N1 : a − ε < an < a + ε und ∀ n ≤ N2 : a − ε < bn < a + ε. Somit gilt f¨ ur n ≥ N := max{n0 , N1 , N2 } : a − ε < an ≤ cn ≤ bn < a + ε, also |cn − a| < ε. ⊓ ⊔ Beispiel 3.2.16. (1) Sei (an )n∈N eine Zahlenfolge mit 0 ≤ an ≤ n1 , dann ist limn→∞ an = 0.√ √ (2) Die Folge an = 2n − n ist divergent, weil √ √ ! √ √ √ √ 2n + n 2n − n an = 2n − n = 2n − n · √ =√ √ √ 2n + n 2n + n √ n n n √ ≥ √ = = √ 3 3 n 2+1 n ist und damit bei wachsendem n beliebig groß werden kann.
Definition 3.2.17. Eine Folge (an )n∈R heißt bestimmt divergent gegen +∞ (bzw. −∞), wenn gilt: ∀ K ∈ R ∃ N ∈ N ∀ n ≥ N : an > K (bzw. an < K). In diesem Fall schreiben wir limn→∞ an = +∞ (bzw. limn→∞ an = −∞). Beispiel 3.2.18. (1) Die Fibonacci-Folge divergiert bestimmt gegen +∞. (2) Die Folge an := n divergiert bestimmt gegen +∞. (3) Wenn (an )n∈N bestimmt gegen +∞ divergiert, so divergiert (−an )n∈N bestimmt gegen −∞. (4) Die Folge an := (−1)n · n divergiert, sie divergiert jedoch nicht bestimmt. (5) Sei limn→∞ an = +∞ oder limn→∞ an = −∞, dann gilt limn→∞ a1n = 0. Etwas pr¨aziser: ur alle n ≥ n0 und Es gibt ein n0 ∈ N, so dass an 6= 0 f¨ die Folge a1n gegen 0 konvergiert. n≥n0
Beweis. F¨ ur jedes ε > 0 gibt es ein N , so dass an > 1ε (falls limn→∞ an = 1 ur alle n ≥ N . In beiden +∞) bzw. a n < − ε (falls limn→∞ an = −∞) f¨ 1 F¨allen gilt an < ε f¨ ur jedes n ≥ N . Die Behauptung ergibt sich nun leicht aus den Definitionen. ⊓ ⊔
Definition 3.2.19. Sei (an )n∈N eine Folge reeller Zahlen und {n0 , n1 , n2 , . . .} eine Teilmenge von N, so dass n0 < n1 < n2 < . . .. Dann heißt die Folge (ank )k∈N Teilfolge der Folge (an )n∈N , vgl. Abb. 3.7. Bemerkung 3.2.20. Wenn (an )n∈N gegen a ∈ R konvergiert, so gilt dies auch f¨ ur jede Teilfolge von (an )n∈N .
182
3 Reelle Zahlen und Folgen Teilfolge
z
|
|
}| |
|
{
|||||
a1 a3 a5 a7 . . .
|
|
|
|
|||||
a2 a4 a6 a8 . . .
Abb. 3.7 Teilfolge
Definition 3.2.21. Eine Zahl a ∈ R heißt H¨aufungspunkt der Folge (an )n∈N , wenn es eine Teilfolge gibt, die gegen a konvergiert. Beispiel 3.2.22. Jede konvergente Folge besitzt genau einen H¨aufungspunkt, n¨amlich ihren Grenzwert (s. Bemerkung 3.2.20). Eine bestimmt divergente Folge besitzt keinen H¨ aufungspunkt. Die Folge an := n1 + (−1)n , n ≥ 1 besitzt zwei H¨ aufungspunkte, n¨ amlich +1 und −1. Wir haben im Satz 3.2.9 gesehen, dass jede konvergente Folge beschr¨ankt ist. Die Umkehrung dieser Tatsache gilt nicht, jedoch noch der ¨außerst wichtige Satz von Bolzano-Weierstraß. Satz 3.2.23 (Bolzano-Weierstraß8 ) Jede beschr¨ankte Folge reeller Zahlen (an )n∈N besitzt eine konvergente Teilfolge.
Beweis. Da (an )n∈N beschr¨ ankt ist, gibt es ein A ∈ R, so dass A ≥ an ≥ −A f¨ ur alle n ∈ N. Sei An = {am | m ∈ N, m ≥ n}, dann ist jede der Mengen An beschr¨ankt und es existiert xk = inf(Ak ). Da A0 ⊃ A1 ⊃ A2 ⊃ A3 ⊃ . . ., gilt xk ≤ xk+1 ≤ A f¨ ur alle k ≥ 0 . Nach Satz 3.2.11 ist die Folge (xk )k∈N konvergent mit Grenzwert z = lim xk . Dann ist z H¨aufungspunkt ur m ≥ N , von (an )n∈N . Sei n¨ amlich ε > 0, so existiert N mit |xm − z| < 2ε f¨ da lim xm = z. Weiterhin existiert M ≥ N mit aM ∈ AN und |xN − aM | < 2ε , da inf(AN ) = xN . Also ist |aM − z| ≤ |aM − xN | + |xN − z| < ε. ⊓ ⊔ Mit Hilfe der f¨ ur die Analysis wichtigsten Eigenschaft der reellen Zahlen, ihrer Vollst¨andigkeit, ist es m¨ oglich, eine f¨ ur praktische Anwendungen sehr n¨ utzliche Charakterisierung der Konvergenz anzugeben. Der zentrale Begriff ist dabei der einer Cauchy-Folge. Definition 3.2.24. Eine Folge (an )n∈N heißt Cauchy-Folge9 , wenn gilt ∀ ε > 0 ∃ N ∈ N ∀ m, n ≥ N : |am − an | < ε . Der entscheidende Unterschied zur Definition der Konvergenz ist, dass hier keine Zusatzinformation, der Grenzwert a, f¨ ur die Formulierung ben¨otigt wird. 8 Bernard Bolzano (1781–1848), b¨ ohmischer Mathematiker. Karl Weierstraß (1815–1897), deutscher Mathematiker. 9
Augustin Louis Cauchy (1789–1857), franz¨ osischer Mathematiker.
3.2 Folgen
183
Satz 3.2.25 Jede konvergente Folge ist eine Cauchy-Folge. Beweis. Sei (an )n∈N eine konvergente Folge und a = lim an . F¨ ur jedes ε > 0 gilt dann: ∃ N ∀ n ≥ N : |an − a| < 2ε . Wir erhalten f¨ ur m, n ≥ N : |am − an | = |am − a + (a − an)| ≤ |am − a| + |an − a| < 2ε + 2ε = ε, die Folge ist somit eine Cauchy-Folge. ⊓ ⊔ Satz 3.2.26 Jede Cauchy-Folge reeller Zahlen ist konvergent. Beweis. Wir zeigen zun¨ achst, dass jede Cauchy-Folge beschr¨ankt ist. Dazu w¨ ahlen wir ε = 1 f¨ ur eine gegebene Cauchy-Folge (an )n∈N . Dann existiert ein N ∈ N, so dass f¨ ur m, n ≥ N gilt |am −an | < 1. Insbesondere ist |am −aN | < 1 f¨ ur m ≥ N . Wegen Satz 3.1.3 bedeutet das |am | ≤ 1 + |aN | f¨ ur alle m ≥ N . Damit ist |am | ≤ max{1+|aN |, |a0 |, . . . , |aN −1 |} f¨ ur alle m ∈ N, d.h. die Folge ist beschr¨ankt. Nach Satz 3.2.11 existiert eine konvergente Teilfolge (ank )k∈N von (an )n∈N . Sei a = lim ank . Wir zeigen dass a = lim an . Sei ε > 0 gegeben. ur alle n, m ≥ N und |a− ank | < 2ε Wir w¨ahlen N ∈ N so, dass |an − am | < 2ε f¨ f¨ ur alle k ≥ N . Sei nun k, n ≥ N , dann gilt |a − an | = |a − ank + ank − an | ≤ |a − ank | + |ank − an | < ε, weil nk ≥ k ≥ N . ⊓ ⊔ Bemerkung 3.2.27. Wir haben in diesem Buch die reellen Zahlen als gegeben betrachtet. Man kann mit Hilfe von Cauchy-Folgen rationaler Zahlen die reellen Zahlen konstruieren. Dazu betrachtet man auf der Menge aller ¨ Cauchy-Folgen rationaler Zahlen die Aquivalenzrelation: (an )n∈N ∼ (bn )n∈N wenn (an − bn )n∈N eine Nullfolge ist, d.h. eine Folge, die gegen 0 ∈ R konver¨ giert. Allgemeines zu Aquivalenzrelationen ist in Abschnitt 6.3 zu finden. Jede reelle Zahl ist Grenzwert einer Cauchy-Folge rationaler Zahlen. Zwei verschiedene Cauchy-Folgen mit dem gleichen Grenzwert sind ¨aquivalent. Daher ¨ geh¨ort zu jeder reellen Zahl genau eine Aquivalenzklasse von Cauchy-Folgen rationaler Zahlen. Damit wird klar, warum 0,9999999 . . . = 1 ist: Auf der einen Seite haben wir schon gezeigt, dass die Folge an = 0, 99 . . . 9} eine Cauchy-Folge mit | {z n
dem Grenzwert 1 ist. Andererseits ist auch die konstante Folge bn = 1 eine Cauchy-Folge mit dem Grenzwert 1. Somit gilt (an )n∈N ∼ (bn )n∈N , d.h. 0,9999999 . . . = 1.
Als Anwendung m¨ ochten wir jetzt ein Verfahren zur Berechnung von Quadratwurzeln in R vorstellen. Sei a ∈ R≥0 gegeben. Wir suchen x ≥ 0 mit x2 = a. Wenn x 6= 0, dann ur jedes x > 0 das ist x = xa . Die Grundidee des Verfahrens besteht darin, f¨ √ a 1 x+ als N¨ aherung f¨ ur a zu betrachten. arithmetische Mittel 2 x
184
3 Reelle Zahlen und Folgen
Satz 3.2.28 Seien a > 0, x0 > 0 reelle Zahlen. Wir definieren eine Folge ur n ≥ 0. Diese Folge ist (xn )n∈N rekursiv durch xn+1 := 12 xn + xan f¨
konvergent und f¨ ur den Grenzwert x := limn→∞ xn gilt x > 0 und x2 = a.
Beweis. Zun¨achst zeigen wir xn > 0 f¨ ur alle n ∈ N. Das ergibt sich per Induktion, da x0 > 0 und wenn xn > 0, so ist auch xn+1 = 12 xn + xan > 0, da a > 0. Insbesondere ist die Folge (xn )n∈N nach unten beschr¨ankt. F¨ ur jedes n ≥ 1 ist x2n ≥ a, denn x2n
1 −a= 4
xn−1 +
a xn−1
2
1 −a= 4
xn−1 −
a xn−1
2
≥0.
Daraus ergibt sich, dass die Folge (xn )n∈N monoton fallend ist, denn a a 1 1 1 xn + xn − = = x2 − a ≥ 0 . xn − xn+1 = xn − 2 xn 2 xn 2xn n
Nach Satz 3.2.11 ist (xn )n∈N konvergent. Mit x = lim xn folgt aus Satz 3.2.13 a 1 a 1 1 xn−1 + = · lim xn−1 + · lim x = lim xn = lim n→∞ n→∞ 2 xn−1 2 n→∞ 2 n→∞ xn−1 a 1 x+ , = 2 x
d.h. 2x = x + xa , also x2 = a, wie behauptet.
⊓ ⊔ √ ur die eindeutig beDefinition 3.2.29. F¨ ur jedes a > 0 schreiben wir a f¨ stimmte positive L¨ osung x der Gleichung x2 = a.
Bemerkung 3.2.30. Das beschriebene Verfahren ist außerordentlich effek√ √ xn√ − a tiv. Mit dem relativen Fehler Fn := k¨onnen wir xn = a(1 + Fn ) a schreiben. Aus xn+1 = 12 xn + xan ergibt sich √ 1 a(1 + Fn+1 ) = 2
√ a a(1 + Fn ) + √ a(1 + Fn )
und daraus 1 + Fn+1 = Also Fn+1 =
1 2
(1 + Fn )2 + 1 1 + Fn
Fn2 2(1+Fn ) .
=
1 2
2 + 2Fn + Fn2 1 + Fn
=1+
1 Fn2 . · 2 1 + Fn
Wenn z.B. Fn < 10−1 , dann ist bereits Fn+3 < 10−10 .
Genauso wie in den reellen Zahlen kann man auch in den komplexen Zahlen Folgen betrachten und deren Konvergenz studieren.
3.2 Folgen
185
Definition 3.2.31. (1) Eine Folge komplexer Zahlen (zn )n∈N konvergiert gegen z ∈ C, falls ∀ε>0∃N ∈N∀n≥N :
|zn − z| < ε .
Wir schreiben dann: limn→∞ zn = z. Zu beachten ist hier, dass ε reell ist.
×
zN−1 ×
zN
×
× × × zN+3 z × N+2 ×
×
b
zN+1
z
ε × ×
zN+4
Abb. 3.8 Konvergenz in C
(2) Eine Folge komplexer Zahlen (zn )n∈N heißt Cauchy-Folge, falls gilt: ∀ ε > 0 ∃ N ∈ N ∀ m, n ≥ N :
|zm − zn | < ε .
Aus der Definition erhalten wir nun leicht: Eine Folge komplexer Zahlen (zn )n∈N mit zn = an + bn i, wobei an ∈ R und bn ∈ R, konvergiert genau dann, wenn die beiden Folgen reeller Zahlen (an )n∈N und (bn )n∈N konvergieren. Wenn a = limn→∞ an und b = limn→∞ bn , dann ist a + bi = limn→∞ zn . Daraus erhalten wir: • Eine Folge (zn )n∈N konvergiert genau dann, wenn die Folge (zn )n∈N der konjugiert komplexen Zahlen konvergiert. Es gilt: limn→∞ zn = limn→∞ zn . • Die Rechenregeln aus Satz 3.2.13, (3.28)–(3.32) und die Aussagen u ¨ ber Cauchy-Folgen, Satz 3.2.25 und Satz 3.2.26, gelten auch f¨ ur komplexe Zahlen. Eine Folge (zn )n∈N komplexer Zahlen heißt beschr¨ankt, falls: ∃ K ∈ R ∀ n ∈ N : |zn | < K . Konvergente Folgen komplexer Zahlen sind beschr¨ankt und auch der Satz von Bolzano-Weierstraß (Satz 3.2.23) gilt in C. Zu beachten ist allerdings, dass wir f¨ ur Folgen komplexer Zahlen keinen Monotoniebegriff haben, denn C ist kein geordneter K¨ orper!
186
3 Reelle Zahlen und Folgen
Aufgaben ¨ Ubung 3.7. Sei (an )n∈N definiert durch a0 = 1, an+1 = 2an − 12 a2n . Beweisen Sie, dass 0 ≤ an ≤ 2 und (an )n∈N monoton wachsend ist. Berechnen Sie a = limn→∞ an . cn ¨ Ubung 3.8. Sei c > 0 eine reelle Zahl, berechnen Sie lim . n→∞ n! ¨ Ubung 3.9. Beweisen Sie, dass jede Folge reeller Zahlen eine monoton wachsende oder eine monoton fallende Teilfolge besitzt. ¨ Ubung 3.10. Untersuchen Sie die nachstehenden Folgen auf Konvergenz und berechnen Sie gegebenenfalls den Grenzwert. p √ √ (a) an = n + n − n (b) a0 = a, a1 = b, √ an = 12 (an−1 + an−2 ) (c) a0 = 1, an+1 = 1 + an 1 (x0 + x1 + . . . + xn ), limn→∞ xi = x (d) an = n+1 (e) an = 1 − 12 1 − 13 · . . . · 1 − n1
¨ Ubung 3.11. Seien a0 = a, b0 = b reelle Zahlen mit 0 < b ≤ a. Die √ Folgen n (an )n∈N und (bn )n∈N sind rekursiv durch an+1 = an +b , bn+1 = an bn 2 definiert. Beweisen Sie, dass limn→∞ an = limn→∞ bn . bn ¨ Ubung 3.12. Beweisen Sie, dass lim k = ∞ f¨ ur b ∈ R, b > 1 und jede n→∞ n fixierte nat¨ urliche Zahl k gilt.
3.3 Reihen Wer m¨ochte nicht gern wissen, wie man die Zahl π n¨aherungsweise berechnen kann. Unter Benutzung der Theorie der Reihen und der Integralrechnung (Beispiele 4.4.24 und 4.5.37) l¨ asst sich zeigen, dass 1 1 1 1 1 1 1 π =1− + − + − + − + ··· 4 3 5 7 9 11 13 15 gilt. Den Ausdruck auf P der rechten Seite bezeichnet man als unendliche Reihe i 1 und man schreibt π4 = ∞ i=0 (−1) 2i+1 .
Definition 3.3.1. Sei (ai )i∈N eine Folge reeller Zahlen. Die Folge der PnPartialsummen (Sn )n∈N , deren Glieder die endlichen Summen S := n i=0 ai P∞ sind, heißt (unendliche) Reihe und wird mit i=0 ai bezeichnet. Wenn die Folge (Sn )n∈N konvergiert, so wird ihr Grenzwert ebenfalls mit P P P dem Symbol ∞ ai bezeichnet und man sagt die Reihe ∞ i=0 ai oder kurz i=0 ai konvergiert.
3.3 Reihen
187
Bemerkung 3.3.2. Wenn (cn )n∈N eine Folge ist und a0 := c0 , an := cn − cn−1 (∀ Pnn ≥ 1) die Folge der Differenzen ist, dann ist die zugeh¨orige Reihe ungliche Sn = k=0 ak = c0 + (c1 − c0 ) + · · · + (cn − cn−1 ) = cn die urspr¨ Folge. Reihen und Folgen sind also in gewissem Sinne ¨aquivalente (aber nicht gleiche) Begriffe! Beispiel 3.3.3. P∞ (1) Sei a ∈ R mit |a|P< 1, dann ist die geometrische Reihe k=0 ak konver∞ 1 . Ist |a| ≥ 1, dann ist sie divergent. gent und es gilt k=0 ak = 1−a
Pn n+1 Beweis. Per Induktion zeigt man leicht k=0 ak = 1−a 1−a . Da |a| < 1, ist limn→∞ an = 0 wegen Satz 3.1.7 (2) und Definition 3.2.4. Mit Satz 3.2.13 Pn Pn n+1 1 = 1−a . Ist a ≥ 1, dann ist k=0 ak ≥ k=0 1 = folgt nun limn→∞ 1−a 1−a P n n 1. DamitPist limn→∞ k=0 ak = ∞. Ist a ≤ −1 und b = −a, dann ist P+ n n k k k ⊓ ⊔ k=0 (−1) b . Diese Reihe konvergiert auch nicht. k=0 a = P∞ 1 (2) Die harmonische Reihe k=1 k ist divergent und zwar bestimmt divergent gegen ∞. Das sieht man durch folgende Gruppierung in Teilsummen 1+
1 1 1 1 1 1 1 1 1 1 1 + +··· + + + + + + + + ···+ + ···+ 2 |3 {z 4} |5 6 {z 7 8} |9 16 17 32 {z } | {z } > 42 = 12
> 48 = 21
8 = 21 > 16
1 > 16 32 = 2
F¨ ur jedes k > 0 finden wir eine ganze Zahl j ≥ 0, so dass 2j < k ≤ 2j+1 . P2j+1 1 −j−1 j+1 Dann ist k1 ≥ 2−j−1 und daher (2 − 2j ) = 12 . k=2j +1 k ≥ 2 n Daher ist S2n > 2 , d.h. die harmonische Reihe ist bestimmt divergent gegen +∞.P ∞ (3) Die Reihe k=1 k12 konvergiert, wie wir in 4.4.35 sehen werden. Es gilt P∞ 1 π2 2 = 6 . Pn Pk=1 ∞ k 1 1 1 = 1. Man zeigt per Induktion Sn = k=1 k(k+1) = 1 − n+1 , (4) k=1 k(k+1) woraus die behauptete Gleichheit folgt. Aus Satz 3.1.7 ergibt sich sofort der folgende Satz. P∞ P∞ Satz 3.3.4 Wenn Reihen k=0 ak undP k=0 bk konvergente P P und λ ∈ R sind, dann sind auch die Reihen (a + b ), (a − b ) und k k k k P P P P P λak konvergent und es gilt: (ak ± bk ) = ak ± bk und λak = λ ak . Wir stellen nun einige n¨ utzliche Konvergenzkriterien f¨ ur Reihen zusammen. Satz 3.3.5 (Cauchy-Kriterium) F¨ ur jede Folge reeller Zahlen (an )n∈N P∞ konvergiert die Reihe k=0 ak genau dann, wenn
188
3 Reelle Zahlen und Folgen
n X ∀ε>0∃N ∈N∀n≥m≥N : ak < ε . k=m
Beweis. Da Sn − Sm−1 = 3.2.26 und 3.2.25.
Pn
k=m
ak folgt die Behauptung aus den S¨atzen ⊓ ⊔
Satz 3.3.6 Sei (ak )n∈N eine Folge reeller Zahlen. Dann gilt: P∞ (1) Wenn k=0 ak konvergiert, dann ist limn→∞ an =P0. ∞ (2) Wenn an ≥ 0 f¨ ur alle n ∈ N, dann konvergiert k=0 ak genau dann, wenn die Partialsummenfolge (Sn )n∈N beschr¨ankt ist. (3) Wenn an ≥ an+1 ≥ 0 f¨ ur alle n ∈ N und limn→∞ an = 0, dann konP∞ k 10 ur alternierende vergiert die Reihe k=0 (−1) ak ( Leibniz-Kriterium f¨ Reihen). Beweis. (1) folgt sofort aus dem Cauchy-Kriterium, da an = Sn − Sn−1 . (2) Wenn an ≥ 0 f¨ ur alle n ∈ N, dann ist die Folge (Sn )n∈N monoton wachsend und somit wegen der S¨ atze 3.2.9 und 3.2.11 genau dann konvergent, wenn sie beschr¨ankt ist. (3) Zun¨achst betrachten wir nur die geraden Partialsummen. Da nach Voraussetzung a2k+2 ≤ a2k+1 , ist S2k+2 − S2k = −a2k+1 + a2k+2 ≤ 0 und somit S0 ≥ S2 ≥ S4 ≥ . . .. Ebenso ergibt sich S1 ≤ S3 ≤ S5 ≤ . . .. Da S2k+1 − S2k = −a2k+1 ≤ 0, ist S2k+1 ≤ S2k , insbesondere also S1 ≤ S2k+1 ≤ S2k und analog S0 ≥ S2k ≥ S2k+1 . Daher ist die Folge (S2k )k∈N monoton fallend und beschr¨ ankt und (S2k+1 )k∈N monoton wachsend und beschr¨ankt. Nach Satz 3.2.11 sind diese Folgen konvergent. Sei a := limk→∞ S2k und b = limk→∞ S2k+1 . Da nach Voraussetzung a − b = limk→∞ (S2k − S2k+1 ) = limk→∞ a2k+1 = 0, ist a = b. Sei nun ε > 0 beliebig, dann gibt es N1 , N2 ∈ N, so dass ∀ k ≥ N1 : |a− S2k | < ε und ∀ k ≥ N2 : |a − S2k+1 | < ε. Daraus folgt ∀ n ≥ N = max(2N1 , 2N2 + 1): |a − Sn | < ε, d.h. limn→∞ Sn = a. ⊓ ⊔ Beispiel 3.3.7. P∞ 1 (1) n=0 (−1)n n+1 = ln(2), vgl. Beispiel 4.3.10 (2). P∞ n 1 (2) n=0 (−1) 2n+1 = π4 , vgl. Beispiel 4.4.24. P∞ Definition P∞ 3.3.8. Eine Reihe k=0 ak heißt absolut konvergent , wenn die Reihe k=0 |ak | konvergiert. 10
Gottfried Wilhelm Leibniz (1646–1716), deutscher Mathematiker.
3.3 Reihen
189
P Beispiel 3.3.9. (1) Wenn an ≥ 0 f¨ ur alle n ∈ N, dann ist die Reihe ak genau dann konvergent, wenn sie absolut konvergent ist. n P ist nach dem Leibniz-Kriterium kon(2) Die alternierende Reihe n≥1 (−1) n vergent, aber nicht absolut konvergent (harmonische Reihe). Der Begriff der absoluten Konvergenz ist st¨ arker (d.h. es gibt weniger“ Rei” hen, die diese Eigenschaft haben) als der Begriff der Konvergenz, denn es gilt der folgende Satz. Satz 3.3.10 Wenn
P
ak absolut konvergiert, dann konvergiert diese Reihe.
P Beweis. Wir wenden Satz 3.3.5, das Cauchy-Kriterium, aufP die Reihe |ak | n |a | < ε. an und erhalten ∀ ε > 0 ∃ N ∀ n ≥ m ≥ N : k=m k P Pn Da | nk=m ak | ≤ |a | (Dreiecksungleichung), folgt daraus auch die k=m k gew¨ohnliche Konvergenz. ⊓ ⊔ Satz 3.3.11 Sei (an )n∈N eine Folge reeller Zahlen. P∞ (1) Majorantenkriterium: Wenn eine konvergente Reihe k=0 bk mit nicht-negativen Gliedern, d.h. bk ≥ 0P f¨ ur alle k ∈ N, existiert, so dass f¨ ur ∞ alle n ∈ N : |an | ≤ bn gilt, dann ist k=0 ak absolut konvergent. (2) Quotientenkriterium: Wenn es ein n0 ∈ N und eine reelle Zahl q mit ≤ q f¨ 0 < q < 1 gibt, so dass an 6= 0 und aan+1 ur alle n ≥ n0 gilt, dann n P∞ ist die Reihe k=0 ak absolut konvergent. (3) Wurzelkriterium: Wenn es eine reelle Zahl q mit 0 ≤pq < 1 und ein n0 ∈ N gibt, so dass f¨ ur alle n ≥ n0 die Ungleichung n |an | ≤ q gilt, P∞ dann ist die Reihe k=0 ak absolut konvergent.
P P Beweis. (1) Da nach Voraussetzung nk=0 |ak | ≤ nk=0 bk , folgt die Behauptung aus Satz 3.3.6 (2). (2) Aus an+1 ≤ q ergibt sich induktiv die Ungleichung |an0 +k | ≤ q k · |an0 | an
f¨ ur alle k ≥ 0. Die Behauptung folgt nun aus Teil (1) mit ck := q k · |an0 | und der geometrischen Reihe. p (3) Die Ungleichung n |an | ≤ q impliziert |an | ≤ q n . Damit konvergiert die Reihe absolut nach dem Majorantenkriterium und Beispiel 3.3.3 (1). ⊓ ⊔ Beispiel 3.3.12. (1) Die Reihe kriterium, denn es gilt
an+1 an
P∞
=
k2 k=1 2k konvergiert, nach dem 2 1 1 2 ≤ 12 1 + 31 = 89 . 2 1+ n ( −n
Quotienten-
2 n gerade (2) Die Folge (an )n∈N sei durch an = definiert. Da 2−n 2 n ungerade p p √ n ur ungerades n, gilt ur gerades n und n |an | = 21 n 4 f¨ |an | = 12 f¨
190
3 Reelle Zahlen und Folgen √ p P 3 n ur alle n ∈ N. Somit ist die Reihe an nach dem |an | ≤ 24 < 1 f¨ Wurzelkriterium absolut konvergent. Das Quotientenkriterium kann zum Konvergenzbeweis jedoch nicht bea2k+2 a 1 nutzt werden, weil 2k+1 a2k = 2 und 22k+1 = 8 ist.
Rechnungen mit absolut konvergenten Reihen sind wesentlich einfacher als mit Reihen allgemein. Das liegt vor allem daran, dass man sich im Fall der absoluten Konvergenz u ¨ber die Reihenfolge der Summanden keine Gedanken machen muss. Wenn keine absolute Konvergenz vorliegt, dann ist es m¨oglich, dass die Konvergenz verloren geht, wenn die Glieder einer Reihe in einer anderen Reihenfolge addiert werden. Um derartige Aussagen exakt fassen zu k¨onnen, ben¨otigen wir den Begriff der Umordnung einer Reihe. P∞ Definition 3.3.13. Wenn k=0 ak eine Reihe P∞ und σ : N → N eine bijektive Abbildung ist, dann heißt die Reihe k=0 aσ(k) eine Umordnung von P∞ a . k k=0 P Satz 3.3.14 Sei ∞ k=0 ak eine absolut konvergente Reihe mit Grenzwert a ∈ R. Dann ist jede Umordnung dieser Reihe ebenfalls absolut konvergent und sie hat denselben Grenzwert.
P∞ Beweis. Sei σ irgendeine Umordnung und ε > 0. Da k=0 |ak | konvergiert, P∞ Pn0 −1 P∞ | − k=0 |ak | = k=n0 |ak | < 2ε gilt. Daraus gibt es ein n 0 , so dass k=0 |a k P P P∞ ∞ n0 −1 ergibt sich a − k=0 ak = k=n0 ak ≤ k=n0 |ak | < 2ε . Sei N ∈ N so gew¨ahlt, dass alle Zahlen 0, 1, . . . , n0 − 1 in der Menge {σ(0), σ(1), . . . , σ(N )} auftreten. Dann ist f¨ ur jedes n ≥ N nX nX n n 0 −1 0 −1 X X aj − a aj + aσ(k) − a ≤ aσ(k) − k=0
j=0
k=0
≤
∞ X
k=n0
|ak | +
j=0
ε ε ε < + =ε 2 2 2
P und damit konvergiert auch aσ(k) gegen a. Zum Beweis der absoluten Konvergenz verwenden wir das Cauchy-Kriterium. Es liefert ein n1 , so dass Pm |a | < ε f¨ u r alle m ≥ n . Wenn nun N so groß ist, dass alle nat¨ urlichen k 1 k=n1 Zahlen die kleiner als n1 sind, in der Menge {σ(0), σ(1), . . . , σ(N )} enthalten sind, dann ist f¨ ur alle n > m > N n X
k=m
|aσ(k) | ≤
m1 X
k=n1
|ak | < ε ,
wobei m1 = max{σ(m), σ(m + 1), . . . , σ(n)} ist. Mit dem Cauchy-Kriterium folgt die absolute Konvergenz. ⊓ ⊔
3.3 Reihen
191
P Bemerkung 3.3.15. Die konvergente Reihe ∞ k=1 ordnen, dass sie bestimmt gegen +∞ divergiert: > 14
(−1)n+1 n
l¨asst sich so um-
> 14
}| { z }| { z 1 1 1 1 1 1 1 1 1 1 1 1− + − + + − + + + + − + ··· , 2 3 4 5 7 6 9 11 13 15 8 das heißt, dass wir f¨ ur n ≥ 2 jeweils zwischen die beiden negativen Terme 1 1 und − 2n+2 die positive Summe − 2n 1 1 1 1 1 + + . . . + n+1 > 2n−1 · n+1 = 2n + 1 2n + 3 2 −1 2 4 einf¨ ugen. Auf diese Weise kommt jeder negative und jeder positive Summand der urspr¨ unglichen Reihe genau einmal in der umgeordneten Reihe vor. Da 1 1 1 − ur n ≥ 3, wachsen die Partialsummen u ¨ ber jede Schranke, d.h. 4 2n+2 > 8 f¨ die umgeordnete Reihe divergiert bestimmt gegen +∞. Mit einer ¨ahnlichen Idee l¨ asst sich zeigen, dass man diese Reihe so umordnen kann, dass sie gegen einen beliebig vorgegebenen Grenzwert konvergiert. Bei Reihen, die nicht absolut konvergent sind, ist die Reihenfolge der Summanden entscheidend f¨ ur den Grenzwert. Das steht im krassen Gegensatz zu Satz 3.3.14 f¨ ur absolut konvergente Reihen. Satz 3.3.16 (Cauchy-Produkt) Seien vergente Reihen und cn :=
n X
k=0
P∞
k=0
ak und
P∞
k=0 bk
absolut kon-
ak · bn−k = a0 bn + a1 bn−1 + a2 bn−2 + . . . + an−1 b1 + an b0 .
Dann ist die Reihe
P∞
k=0 ck
absolut konvergent und es gilt ! ! ∞ ∞ ∞ X X X ck = bk . ak ·
k=0
k=0
k=0
P P∞ Pn Beweis. Sei a := ∞ . Wir zeik=0 ak und b := k=0 bk , sowie Sn := k=0 ckP n ′ gen zun¨ a chst, dass (S ) gegen a·b konvergiert. Sei dazu S := ( n n∈N n Pnk=0 ak )· Pn 3.2.13 (3.29) ( k=0 bk ), Pndann ist nach SatzP Pna · b = (limn→∞ k=0 ak ) · n (limn→∞ k=0 bk ) = limn→∞ (( k=0 ak ) · ( k=0 bk )) = limn→∞ Sn′ . Wegen Satz 3.2.13 (3.28) gen¨ ugt es daher zu zeigen, dass die Folge (Sn′ − Sn )n∈N gegen 0 konvergiert. Mit den Bezeichnungen aus Abbildung 3.9 erhalten wir
192
3 Reelle Zahlen und Folgen
Sn′ − Sn = =
n X
ak
k=0
X
n X
k=0
(k,l)∈Qn
bn b
bc
bc
bn−1 bc
b
bc
bc
bc
b
b
b
b
b2 b1 b0
bn b
bc
bc
bc
bn−1 b
b
bc
bc
b
b
b
b
b
b
b
b
b
b
bc
bc bc
bc
bc
bc
bc
bc b
b
b
b
bc
bc
bc
b
bc
bc
bc
b
an
a0 a1 a2
Bereich Dn f¨ ur
n P
b2 b1 b0
ak bn−k
b
b
bc
bn b
b
b
bc
bc
bn−1 b
b
b
bc
b
b
b
b
b
b
b
b
b
b
b
b
b b
b
b
b
b
b b
b
b
ak b l .
bc
bc
b
X
(k,l)∈Qn rTn
b
b
bc
bc
b
b
bc
b
b
b
an
a0 a1 a2 Tn f¨ ur
k=0
ak b l =
(k,l)∈Tn
bc
b
b
X
bc
b
b
ak b l −
ai bk−i
k=0 i=0
bc
bc
b
n X k X
bk −
k n P P
b2 b1 b0
ai bk−i
k=0 i=0
Abb. 3.9 Veranschaulichung der verschiedenen Summen
b
b
b
b
b
b b
b b
b
b
b
b
b
b
b b
b
b
b
b
b b
b
b
b
b
b
b
b
b
b
b
b
b
an a0 a1 a2 n n P P bk ak Qn f¨ ur k=0
k=0
P∞ P∞ Da P k=0 ak und P k=0 bk absolut P konvergent sind, konvergiert auch die Folge n n tn := k=0 |ak | · k=0 |bk | = (k,l)∈Qn |ak bl |, also gibt es nach dem CauchyKriterium zu beliebigem ε > 0 ein N ∈ N, so dass f¨ ur alle n ≥ N die Ungleichung |tn − tN | < ε gilt. Wenn n > 2N , dannPist QN ⊂ Tn , d.h. Qn r Tn ⊂ Qn r QN , vgl. Abb. 3.10. Mit tn − tN = (k,l)∈Qn rQN |ak bl |, Qn r Tn n 2
QN N
n
Abb. 3.10 QN ⊂ Tn
erhalten wir daher X X ′ |ak bl | |Sn − Sn | = ak bl ≤ (k,l)∈Qn rTn (k,l)∈Qn rTn X |ak bl | = |tn − tN | < ε , ≤ (k,l)∈Qn rQN
d.h. limn→∞ (Sn′ − Sn ) = 0 und somit limn→∞ Sn = a · b.
3.3 Reihen
193
P Die behauptete absolute Konvergenz der Reihe ∞ k=0 cn ergibt sich nun aus Satz 3.3.11 (1) wie folgt: Anwendung des bereits Gezeigten auf die beiP∞ P∞ |a | und den absolut konvergenten Reihen k k=0 |bk | liefert die Konk=0 P∞ ′ Pn ′ vergenz der Reihe c , wobei c := |a n n k=0 k | · |bn−k |. Da |cn | = Pn Pn k=0 | k=0 ak bn−k | ≤ k=0 |ak | · |bn−k | = c′n , folgt die Behauptung. ⊓ ⊔ Beispiel 3.3.17 (Exponentialfunktion). P∞ 1 k x heißt Exponentialfunktion. Diese Die Funktion ex = exp(x) := k=0 k! Definition ist gerechtfertigt, denn es gilt: Die Reihe
∞ X 1 k x ist f¨ ur jedes x ∈ R absolut konvergent. k!
(3.34)
k=0
∀ x, y ∈ R : Beweis. Wegen
|x|k+1 (k+1)! |x|k k!
=
|x| k+1
exp(x) · exp(y) = exp(x + y) .
(3.35)
folgt mit dem Quotientenkriterium die absolute
Konvergenz der Exponentialreihe f¨ ur jedes x ∈ R. Die Funktionalgleichung Pn Pn (x+y)n n 1 k n−k 1 k n−k = = mit (3.35) folgt aus k=0 k n! x y k=0 k!(n−k)! x y n! Hilfe des Cauchy-Produktes ∞ n ∞ ∞ X ∞ X X X xk X y k (x + y)n xk y n−k · = = . k! k! k! (n − k)! n=0 n! n=0
k=0
k=0
k=0
⊓ ⊔ Definition 3.3.18. Die Zahl e := exp(1) heißt Eulerzahl . n und e ≈ 2,7182818284. Bemerkung 3.3.19. Es gilt e = limn→∞ 1 + n1
Ebenso wie f¨ ur reelle Zahlen k¨ onnen auch zu einer Folge komplexer ZahPwir ∞ len (zk )k∈N die zugeh¨ orige Reihe k=0 zk bilden. Pn Darunter verstehen wir wieder die Folge ihrer Partialsummen Sn = k=0 zk und (im Fall seiner Existenz) den Grenzwert limn→∞ Sn ∈ C. Erneut u ¨ bertragen sich die Rechenregeln (Satz 3.2.13), das Cauchy-Kriterium (Satz 3.3.5) und Satz 3.3.6 (1) (Konvergenz impliziert limk→∞ zk = 0)P auf Reihen komplexer Zahlen. Wir nennen eine Reihe komplexer Zahlen zk absolut konvergent, falls die P Reihe reeller Zahlen |zk | konvergiert. Es gelten dann wieder Satz 3.3.10 (absolute Konvergenz zieht Konvergenz nach sich) und Satz 3.3.11 (Majorantenkriterium, Quotientenkriterium und Wurzelkriterium). Auch Satz 3.3.14 (Umordnen absolut konvergenter Reihen) und Satz 3.3.16 (Cauchy-Produkt) gelten. Insbesondere wir f¨ ur z ∈ C mit |z| < 1 die konvergente geoP erhalten 1 n . Die Menge {z | |z| < 1} ist das Innere des metrische Reihe ∞ z = n=0 1−z Einheitskreises (Abb. 3.11). Neben der geometrischen Reihe ist f¨ ur uns hier die komplexe Exponentialreihe die wichtigste absolut konvergente Reihe. F¨ ur beliebiges z ∈ C definieren wir
194
3 Reelle Zahlen und Folgen
i b
b
b
b
−1
0
1
b
−i
Abb. 3.11 Der Einheitskreis in C
exp(z) :=
∞ X zn . n! n=0
Nach dem Quotientenkriterium ist diese Reihe f¨ ur alle z ∈ C absolut konvergent. Ebenso wie im Reellen erhalten wir f¨ ur alle z1 , z2 ∈ C die wichtige Funktionalgleichung exp(z1 + z2 ) = exp(z1 ) · exp(z2 ) . Da exp(0) = 1, ergibt sich mit der Funktionalgleichung 1 = exp(z − z) = exp(z) · exp(−z) und somit ist exp(z) 6= 0 f¨ ur alle z ∈ C. Aus der Definition folgt leicht exp(¯ z ) = exp(z). Bemerkung 3.3.20. Der aufmerksame Leser hat sicher bemerkt, dass wir die meisten Aussagen, die nicht die Ordnungsrelation benutzen, von R auf Cu ¨ bertragen konnten. Im Zusammenhang mit der Exponentialfunktion entsteht die Frage, ob es im Komplexen ein Analogon f¨ ur die f¨ ur alle z ∈ R geltende Ungleichung exp(z) > 0 gibt. Wir haben schon gezeigt, dass stets exp(z) 6= 0 gilt. Die Null ist interessanterweise die einzige komplexe Zahl, die nicht als Wert der komplexen Exponentialfunktion auftreten kann. Wir werden sp¨ater beweisen, dass exp : Hα → C r {0} f¨ ur alle α ∈ R bijektiv ist, wobei Hα := {a + bi ∈ C | a, b ∈ R, α ≤ b < α + 2π} ⊂ C ein horizontaler Streifen der H¨ ohe 2π in der komplexen Zahlenebene ist. Insbesondere gibt es komplexe Zahlen z ∈ C, so dass exp(z) eine negative reelle Zahl ist, z.B. exp(πi) = −1.
3.4 Zahlen im Computer
195
Aufgaben ¨ Ubung 3.13. Untersuchen Sie die folgenden Reihen auf Konvergenz. −1 k ∞ ∞ ∞ P P P 4k k k! (a) (b) (c) 3k k + 1 (2k)! k=1 k=1 k=1 ∞ k! P k k=1 k
(d)
(e)
∞ P
k=1
1 k(k + 1)(k + 2)
P∞ ¨ Ubung 3.14. Beweisen Sie, dass die Reihe n=0 aan+1 − 1 f¨ ur jede monon ton wachsende und beschr¨ ankte Folge (an )n∈N positiver reeller Zahlen konvergiert. k ∞ P 1−z ¨ Ubung 3.15. F¨ ur welche komplexen Zahlen z 6= −1 konvergiert ? 1+z k=0
¨ Ubung 3.16. P Bestimmen Sie die MengePaller x ∈ R, f¨ ur die die Reihe kon∞ ∞ vergiert: (a) k=0 k!(x − 1)k (b) k=1 kk1·k! xk
P∞ (−1)n ¨ Ubung 3.17. Zeigen Sie, dass die Reihe n=1 √ konvergiert, und dass n+1 das Cauchy-Produkt der Reihe mit sich selbst nicht konvergiert. ¨ Ubung 3.18. Sei ϕ : N → N eine bijektive Abbildung und d P eine positive ∞ nat¨ urliche Zahl, so dass |n − ϕ(n)| ≤ dPist f¨ ur alle n ∈ N. Sei k=1 ak eine ∞ konvergente Reihe. Beweisen Sie, dass k=1 aϕ(k) konvergiert.
3.4 Zahlen im Computer Zahlen werden im Computer meist bin¨ ar (d.h. bez¨ uglich der Basis 2) dargestellt. Wir wollen hier zun¨ achst etwas allgemeiner die b-adische Darstellung reeller Zahlen betrachten, wobei b ≥ 2 eine nat¨ urliche Zahl ist. Eine Reihe der Gestalt ±
∞ X
n=−k
an · b−n = ± a−k bk + . . . + a−1 b + a0 + a1 b−1 + a2 b−2 + . . .
heißt b-adischer Bruch, wenn k ≥ 0 und die an ganze Zahlen mit 0 ≤ an < b sind. Im Fall b = 10 handelt es sich um die vertrauten Dezimalbr¨ uche. Wenn b = 2, dann spricht man von einem dyadischen Bruch. Satz 3.4.1 (1) Jeder b-adische Bruch konvergiert gegen eine reelle Zahl.
196
3 Reelle Zahlen und Folgen
(2) Jede reelle Zahl l¨asst sich als b-adischer Bruch darstellen. (3) Zu jeder reellen Zahl r ≥ P 0 gibt es genau einen b-adischen Bruch ohne an b−n mit ∀ N ∈ N, ∃ n ≥ N : an 6= b − 1. (b − 1)-Periode, d.h. r = n≥−k
(4) Ein b-adischer Bruch konvergiert genau dann gegen eine rationale Zahl r, wenn er periodisch ist, d.h. wenn es ganze Zahlen N und p ≥ 1 gibt, so dass an+p = an f¨ ur alle n ≥ N . Das kleinste derartige p heißt dann L¨ange der Periode und wir schreiben r = ± [a−k a−k+1 . . . a0 , a1 a2 . . . aN aN +1 . . . aN +p−1 ]b .
P∞ Beweis. (1) Da b > 1, ist die geometrische Reihe j=0 b−j konvergent, also P ∞ nach Multiplikation mit bk+1 auch n=−k b−n+1 . Da 0 ≤ an ≤ b−1, ist |an | < −n −n+1 b und somit |an b | < b . Daher erhalten wir die absolute Konvergenz P∞ der Reihe n=−k an b−n aus dem Majorantenkriterium, Satz 3.3.11 (1). (2) F¨ uP r beliebiges a ∈ R≥0 konstruieren wir induktiv die Partialsummenfolge n achst bestimmen wir den StartSn = j=−k aj b−j mit 0 ≤ aj ≤ b − 1. Zun¨ punkt der Reihe, die Zahl k ≥ 0. Da b > 1, gibt es nach dem Archimedischen Axiom ein k ∈ N mit 0 ≤ a < bk+1 . Wir w¨ ahlen das kleinstm¨ogliche solche k ≥ 0. Induktionsanfang (Bestimmung von a−k ): Da 0 ≤ a < bk+1 , gibt es genau eine ganze Zahl 0 ≤ a−k ≤ b − 1, f¨ ur die a−k · bk ≤ a < (a−k + 1) · bk gilt. Wir w¨ahlen dieses a−k und setzen S−k := a−k bk . Induktionsschritt: Sei f¨ ur ein festes n ≥ −k bereits Sn , d.h. aj f¨ ur −k ≤ j ≤ n, konstruiert, so dass Sn ≤ a < Sn + b−n gilt. Dann gibt es erneut genau eine nat¨ urliche Zahl an+1 mit 0 ≤ an+1 ≤ b − 1, so dass Sn+1 := Sn + an+1 b−(n+1) ≤ a < Sn + (an+1 + 1)b−(n+1) = Sn+1 + b−(n+1) und dieses an+1 w¨ ahlen wir. Damit ist auch Sn+1 ≤ a < Sn+1 + b−(n+1) . Insbesondere ist |a−Sn | < b−n und somit limn→∞ Sn = a. F¨ ur a < 0 erhalten wir die gew¨ unschte Darstellung aus der von −a > 0. (3) (Indirekter wir haben zwei verschiedene b-adische P∞ P∞ Beweis) Angenommen, Br¨ uche n=−k an b−n = n=−k a′n b−n , von denen keiner die Periode (b − 1) hat. Wir setzen cn := an − a′n und w¨ ahlen N so, dass cn = 0 f¨ ur n < N und cN 6= 0 ist. O.B.d.A. k¨ onnen wir 1 ≤ cN ≤ b − 1 annehmen. Dann ist 0=
∞ X
n=−k
an b−n −
∞ X
a′n b−n =
n=−k
∞ X
cn b−n .
n=N
Da −(b − 1) ≤ cn ≤ b − 1 f¨ ur alle n ≥ N und f¨ ur mindestens ein n0 > N sogar −(b − 1) < cn0 < b − 1 gilt, ist f¨ ur jedes M > n0 b−M − b−N = −
M X
(b − 1)b−n ≤
n=N +1
M X
n=N +1
cn b−n − b−n0 ,
3.4 Zahlen im Computer
197
woraus durch Grenz¨ ubergang M → ∞ nach Satz 3.2.13 (3.33) −b−N ≤
∞ X
n=N +1
cn b−n − b−n0 <
∞ X
cn b−n
n=N +1
folgt. Daraus erhalten wir den folgenden Widerspruch: 0=
∞ X
cn b
−n
= cN b
n≥N
−N
+
∞ X
n=N +1
cn b−n > (cN − 1)b−N ≥ 0 .
(4) Ein endlicher b-adischer Bruch ist durch eine endliche Summe der Gestalt PN −n gegeben. Man kann einen solchen Bruch auch als unendlichen n=−k an b periodischen b-adischen Bruch mit Periode 0 der L¨ange 1 auffassen. Da p := P −n bN · N a b eine ganze Zahl ist, stellt er die rationale Zahl bpN dar. n n=−k Ein beliebiger periodischer b-adischer Bruch mit Periodenl¨ange p ≥ 1 l¨asst sich als P Summe eines endlichen b-adischen Bruches und eines Bruches der −n Gestalt ∞ schreiben, bei dem an+p = an f¨ ur alle n ≥ −k gilt. F¨ ur n=−k an b P∞ Pp−1 P∞ solch eine Reihe erhalten wir n=−k an b−n = j=0 a−k+j bk−j · i=0 b−ip . P∞ P∞ p Da b > 1 ist, gilt i=0 b−ip = 1−b1−p = bpb−1 und somit n=−k an b−n = Pp−1 bp k−j ∈ Q. j=0 a−k+j · b bp −1 · p Sei schließlich a = q ∈ Q mit p, q ∈ N, q 6= 0, eine positive rationale Zahl. Wir haben zu zeigen, dass f¨ ur ein solches a die in (2) konstruierte Reihe ein periodischer b-adischer Bruch ist. F¨ ur n ≥ −k erf¨ ullen die Partialsummen Sn die Ungleichungen Sn ≤ pq < Sn + b−n und an+1 ist durch die Bedingungen
Sn+1
0 ≤ an+1 < b und p = Sn + an+1 b−(n+1) ≤ < Sn + (an+1 + 1)b−(n+1) q
festgelegt. Multiplikation mit q und Subtraktion von qSn liefert 0 ≤ p − qSn < qb−n
und
an+1 qb−(n+1) ≤ p − qSn < (an+1 + 1)qb−(n+1) .
Sei Nn := (p−qSn )bn , dann ist 0 ≤ Nn < q f¨ ur alle n und Nn ∈ N, falls n ≥ 0. Außerdem ist Nn+1 = (p − qSn+1 ) bn+1 = p − qSn − qan+1 b−(n+1) bn+1 = Nn · b − q · an+1 . Insbesondere ist, bei fixiertem b und q, Nn+1 durch Nn und an+1 eindeutig bestimmt. Schließlich ist die ganze Zahl an+1 durch die Ungleichung an+1 qb−1 ≤ Nn < (an+1 + 1)qb−1 eindeutig festgelegt. Daher ist an+1 und somit auch Nn+1 allein durch Nn bestimmt. Da Nn ∈ N f¨ ur n ≥ 0 und 0 ≤ Nn < q, gibt es nur q verschiedene m¨ogliche Werte f¨ ur Nn , d.h. sp¨atestens nach q Schritten wiederholt sich der Wert f¨ ur Nn , wenn n ≥ 0. Aus dem Gesagten folgt nun, dass sich auch die ai sp¨atestens bei i = q wiederholen, dass wir also einen periodischen b-adischen Bruch erhalten. ⊓ ⊔
198
3 Reelle Zahlen und Folgen
Aus dem vorigen Satz erhalten wir folgenden Algorithmus zur Bestimmung der b-adischen Darstellung rationaler Zahlen: Sei a ∈ Q eine positive rationale Zahl. Wir zerlegen a = g + pq in seinen ganzen Teil g ∈ N und den gebrochenen Teil pq mit teilerfremden nat¨ urlichen Zahlen 0 < p < q. Die b-adische Darstellung von g kann man auf folgende Weise bestimmen. Wenn g = 0 ist, ist das trivial. Sei g 6= 0. Zuerst ermittelt man die ganze Zahl k ≥ 0, f¨ ur die bk ≤ g < bk+1 gilt. Dann setzt man Rk := g und bestimmt nacheinander die Zahlen a−k , a−k+1 , . . . , a−1 , a0 , so dass f¨ ur jedes k ≥ n ≥ 0 gilt: a−n bn ≤ Rn < (a−n + 1)bn
und
Rn−1 := Rn − a−n bn .
Zur Bestimmung der b-adische Darstellung des gebrochenen Teils pq setzen wir als Startwert N0 = p. F¨ ur jedes n ≥ 1 ermitteln wir nacheinander die eindeutig bestimmte nat¨ urliche Zahl an f¨ ur die die Ungleichung an ·
q q ≤ Nn−1 < (an + 1) · b b
gilt. Diese Zahl gibt an, in welchem der b gleichen Teilst¨ ucke des Intervalls [0, q] die ganze Zahl Nn−1 liegt (Abb. 3.12). F¨ ur die Fortsetzung des Algo0 0
1 q b
2 2
q b
b−1
3 3
q b
4
q b
...
(b − 1)
q b
q
Abb. 3.12 Bestimmung von an
rithmus berechnen wir noch Nn = b · Nn−1 − q · an . Die ganzen Zahlen an und Nn erf¨ ullen stets 0 ≤ an < b und 0 ≤ Nn < q. Beim ersten Auftreten eines Wertes Nn , der bereits fr¨ uher auftrat, d.h. Nn = Nn−t f¨ ur ein t ≥ 1, haben wir die Periodenl¨ ange t und damit den gesamten b-adischen Bruch gefunden. Aus dem Beweis von Satz 3.4.1 wissen wir, dass t ≤ q ist. Beispiel 3.4.2. Im Fall b = 2 ergibt sich die jeweils n¨achste Ziffer an ∈ {0, 1} nach der folgenden einfachen Regel: • Wenn 0 ≤ Nn−1 < q2 , so ist an = 0 und Nn = 2Nn−1 . • Wenn q2 ≤ Nn−1 < q, so ist an = 1 und Nn = 2Nn−1 − q. (1) Sei a = 17 . Da 0 < 71 < 1, geschieht die Bestimmung der dyadischen Darstellung von 71 nach dem angegebenen Algorithmus f¨ ur den gebrochenen Teil einer rationalen Zahl. Hier haben wir p = 1 und q = 7. Daher starten wir mit N0 = 1. F¨ ur 2Nn−1 < 7 ist an = 0 und f¨ ur 2Nn−1 ≥ 7 setzen wir an = 1. Das f¨ uhrt zu folgender Rechnung:
3.4 Zahlen im Computer
199
2N0 = 2
=⇒
a1 = 0
=⇒
N1 = 2N0 = 2
2N1 = 4 2N2 = 8
=⇒ =⇒
a2 = 0 a3 = 1
=⇒ =⇒
N2 = 2N1 = 4 N3 = 2N2 − 7 = 1 = N0
Damit erhalten wir eine Periode der L¨ ange 3 und es gilt an+3 = an f¨ ur n ≥ 1. Konkret ergibt sich 17 = [0,001001001 . . .]2 = [0,001]2 . (2) Die Berechnung der dyadischen Darstellung von 15 geschieht wie in (1), mit dem Unterschied, dass hier q = 5 ist und daher 2Nn−1 mit 5 zu vergleichen ist. 2N0 = 2
=⇒
a1 = 0
=⇒
N1 = 2N0 = 2
2N1 = 4 2N2 = 8
=⇒ =⇒
a2 = 0 a3 = 1
=⇒ =⇒
2N3 = 6
=⇒
a4 = 1
=⇒
N2 = 2N1 = 4 N3 = 2N2 − 5 = 3
N4 = 2N3 − 5 = 1 = N0
Damit erhalten wir eine Periode der L¨ ange 4 und 15 = [0,0011]2 . Das ist ein Beispiel daf¨ ur, dass ein endlicher Dezimalbruch 15 = 0,2 als dyadischer Bruch unendlich periodisch ist und damit im Computer nur n¨aherungsweise in der dyadischen Darstellung vorhanden sein kann. (3) Die rationale Zahl zum periodischen dyadischen Bruch [0,01]2 berechnet sich folgendermaßen unter Benutzung der geometrischen Reihe. [0,01]2 = 2−2 + 2−4 + 2−6 + . . . =
X
2−2k =
k≥1
P
2−mk = . . . 01}]2 = Allgemeiner gilt [0,000 | {z k≥1 m
1 1− 21m
1 1−
1 4
−1=
−1=
1 . 3
1 2m −1 .
F¨ ur den endlichen dyadischen Bruch [0,11011]2 erhalten wir [0,11011]2 = 2−1 + 2−2 + 2−4 + 2−5 =
1 1 27 1 1 + + + = . 2 4 16 32 32
Im Computer ist es nat¨ urlich unm¨ oglich, reelle Zahlen als unendliche 2adische Br¨ uche zu speichern. Man verwendet die Fließkomma-Darstellung, bei der Zahlen von großem und von kleinem Betrag mit derselben relativen Genauigkeit dargestellt werden. Der IEEE-Standard (Institute of Electrical and Electronics Engineering) verwendet zum Beispiel 64 Bits (s, e10 , e9 , . . . , e0 , a1 , . . . , a52 ) ∈ {0, 1}64 zur Darstellung einer reellen Zahl P10 x ∈ R. Dabei ist e = j=0 ej 2j ein Exponent mit 0 ≤ e ≤ 2047 und s e−1023
x = (−1) 2
1+
52 X
k=1
ak 2
−k
!
.
200
3 Reelle Zahlen und Folgen
In dieser Darstellung ist die Null die betragsm¨aßig kleinste Zahl (−1)s 2−1023 , es gibt also eine positive Null und eine negative Null.
Aufgaben ¨ Ubung 3.19. Berechnen Sie die 2-adische Darstellung von 0,3. ¨ Ubung 3.20. Berechnen Sie die 16-adische Darstellung f¨ ur die Zahl 71 , d.h. die Darstellung im Hexadezimalsystem. Hier verwendet man die Buchstaben A bis F f¨ ur die Ziffern 10 bis 15.
3.5 Asymptotische Notation Edmund Landau11 hat beim Vergleich des Wachstums von Funktionen Bezeichnungen benutzt und bekannt gemacht, die sich f¨ ur viele Bereiche der Mathematik als sehr n¨ utzlich erwiesen haben. In der Informatik spielen sie eine Rolle beim Vergleich von Algorithmen bez¨ uglich Laufzeit und Speicherbedarf. So ist die Zeitkomplexit¨ at eines Algorithmus eine Folge {an } von Zahlen, die f¨ ur jedes n ∈ N die maximale Schrittzahl gibt. Man spricht von der Raumkomplexit¨ at, wenn man den Speicherbedarf betrachtet. Hierbei k¨onnen die einzelnen Schritte arithmetische Operationen, Vergleiche oder Zugriffe auf bestimmte Speicherpl¨ atze sein. Die Komplexit¨at kann oft nicht genau berechnet werden. Man verwendet die Landauschen Symbole, um ihr Wachstum abzusch¨atzen. Definition 3.5.1. F¨ ur Folgen positiver Zahlen A = (an )n∈N und B = (bn )n∈N • schreiben wir A = O(B) und sagen12 A ist groß O von B“, wenn abnn ” n∈N eine beschr¨ankte Folge ist; • schreiben wir A = o(B) und sagen13 A ist klein o von B“, wenn abnn ” n∈N eine Nullfolge ist. Bemerkung 3.5.2. A = o(B) bedeutet, dass A echt langsamer w¨achst als B. A = O(B) bedeutet, dass A nicht schneller w¨achst als B. Statt O((an )n∈N ), bzw. o((an )n∈N ) ist es u urzend O(an ) bzw. o(an ) zu schreiben. ¨ blich, abk¨ 11
Edmund Landau (1877–1938), deutscher Mathematiker Die O-Notation wurde schon 1894 von Paul Bachmann (1837–1920), deutscher Mathematiker, benutzt.
12
13 Das Symbol o taucht bereits 1871 bei dem deutschen Mathematiker Paul Du Bois– Reymond (1831–1889) auf.
3.5 Asymptotische Notation
201
Man muss sich bei der Schreibweise A = O(B) (bzw. A = o(B)) im Klaren sein, dass sie nur von links nach rechts zu lesen ist. Pr¨aziser w¨are es, A ∈ O(B) zu schreiben, wobei O(B) dann die Menge der Folgen mit der Gr¨oßenordnung B ist. Beispiel 3.5.3. (1) Wenn A = (3n2 +5)n∈N , B = (n2 )n∈N und C = (n3 )n∈N , dann gilt A = O(B), A = o(C). P (2) Sei p = kj=0 aj xj ein Polynom mit aj > 0 f¨ ur alle j. F¨ ur die Folge p(n) k der Funktionswerte gilt (p(n))n∈N = O((n )n∈N ), kurz: p(n) = O(nk ). (3) Sei p wie√in (2), gilt p(n) = o(an ) und loga (n) = o(p(n)) f¨ ur a > 1. dann n n wegen der Stirlingschen Formel (Satz 4.4.28). (4) n! = O n e ¨ (5) Wenn k ∈ N und c > 1 reell, dann ist nk = o(cn ), vgl. Ubung 3.12. Bemerkung 3.5.4. Die Algorithmen der Komplexit¨at O(nk ) heißen polynomial und haben sich in der Praxis als effizient gezeigt. Im Gegensatz dazu stehen Algorithmen mit exponentiellem Wachstum O(an ), a > 1. Satz 3.5.5 F¨ ur Zahlenfolgen A = (an )n∈N , B = (bn )n∈N und C = (cn )n∈N mit positiven Folgengliedern gilt: (1) (2) (3) (4) (5) (6)
A = O(A) c · O(A) = O(A) und c · o(A) = o(A) f¨ ur c > 0 O(A) + O(A) = O(A) und o(A) + o(A) = o(A) O(A) · O(B) = O(A · B) und o(A) · o(B) = o(A · B) A · O(B) = O(A · B) und A · o(B) = o(A · B) Ist A = O(B) und B = O(C), dann ist A = O(C). Ist A = o(B) und B = o(C), dann ist A = o(C). (7) O(A) + O(B) = O(C) mit cn = max{an , bn }
ist durch 1 beschr¨ankt. Beweis. (1) Die Folge aann n∈N (2) Wenn die Folge abnn durch K beschr¨ankt (bzw. eine Nullfolge) ist, n∈N n ist auch die Folge cb durch cK beschr¨ankt (bzw. eine Nullfolge). a n n∈N (3) Wenn die Folgen abnn und acnn beschr¨ankt (bzw. Nullfolgen) n∈N n∈N n . sind, dann gilt das auch f¨ ur die Folge bna+c n n∈N (4) Wenn die Folgen acnn und dbnn beschr¨ankt (bzw. Nullfolgen) n∈N n∈N sind, dann gilt das auch f¨ ur die Produktfolge canndbnn .
(5) folgt aus (4) und (1). (6) Wenn die Folgen abnn
n∈N
und
sind, ist es auch deren Produkt
bn cn
n∈N an . cn n∈N
beschr¨ankt (bzw. Nullfolgen)
202
3 Reelle Zahlen und Folgen
⊓ ⊔
(7) Siehe Aufgabe 3.21.
Bemerkung 3.5.6. Die Aussage (3) im Satz 3.5.5 ist folgendermaßen zu interpretieren: Wenn B ∈ O(A) und C ∈ O(A), dann ist auch B + C ∈ O(A). Entsprechendes gilt f¨ ur die Aussagen (2), (4), (5) und (7). In der Informatik ist die Laufzeitanalyse eines Algorithmus das Studium des Wachstums der Laufzeit, gemessen in der Anzahl der Schritte, in Abh¨angigkeit von den Eingabegr¨ oßen. Deklarationen, Zuweisungen, arithmetische und logische Operationen haben konstante Laufzeit O(1). Bei einer Folge von Algorithmen addieren sich die Laufzeiten. Verzweigungen (if B then A1 else A2 ) werden wie Folgen (B, A1 , A2 ) behandelt. Schleifen mit n Durchl¨aufen der Einzellaufzeit O(k) haben die Laufzeit O(n · k). Das folgt aus Satz 3.5.5. In Tabelle 3.1 sind u ur spezielle, h¨aufig auftretende ¨ bliche Bezeichnungen f¨ Laufzeiten aufgelistet. Laufzeit
Bezeichnung
Laufzeit
Bezeichnung
O(1) O(log(n))
konstant logarithmisch
O(n2 ) O(nk )
quadratisch polynomial
O(n)
linear
O(cn )
exponentiell
O(n log(n))
quasilinear
Tabelle 3.1 Namen f¨ ur spezielles Wachstumsverhalten
Beispiel 3.5.7. Als erstes Beispiel betrachten wir die Berechnung von n!. Wir schreiben dazu die einzelnen Schritte des Algorithmus als Zeilen einer Tabelle und dahinter die jeweilige Laufzeit. Fakult¨ at(n) r := 1 while n > 0 do r := r · n n := n − 1 end while return r
Laufzeit O(1) O(1) O(1) O(n) O(1) O(1)
Daraus folgt, dass der Algorithmus zur Berechnung von n! eine Laufzeit von O(n) hat, seine Laufzeit also linear ist. Beispiel 3.5.8. In diesem Beispiel vergleichen wir das Laufzeitverhalten Pn zweier Algorithmen, die f¨ ur gegebenes q und n die Summe k=0 q k berechnen. Die eine Variante benutzt eine bereits implementierte Funktion f , die mit Laufzeit O(k) den Wert f (q, k) = q k berechnet. Der andere Algorithmus benutzt keine schon implementierte Funktion. ur jedes k mit Hilfe der gegebenen 1. Variante: Der Algorithmus berechnet f¨ Funktion den Wert f (q, k) = q k und addiert diese.
3.5 Asymptotische Notation
Schritt k := 0 r := 1 while n > k do k := k + 1 r := r + f (q, k) end while return r
203
Laufzeit O(1) O(1) O(1) O(1) O(n2 ) O(k) O(1)
Die while-Schleife hat eine Laufzeit von O(n ), weil f¨ ur k ≥ n2 die Laufzeit zur Berechnung von f (q, k) gleich O(n) ist. Damit ist der Algorithmus quadratisch, er hat eine Laufzeit von O(n2 ). 2. Variante: Der Algorithmus benutzt keine schon implementierte Funktion, sondern verwendet in jedem Schritt den bereits zuvor berechneten Wert q k−1 . 2
Schritt k := 0 r := 1 s := 1 while n > k do k := k + 1 s := s · q r := r + s end while return r
Laufzeit O(1) O(1) O(1) O(1) O(1) O(n) O(1) O(1) O(1)
Dieser Algorithmus ist linear, hat eine Laufzeit von O(n). Wenn man die Gleichung 1 + q + q 2 + q 3 + . . . + q n = 1 + q 1 + q + q 2 + q 3 + . . . + q n−1 verwendet, kann man in diesem Algorithmus die Variable s einsparen. Statt der beiden Schritte s := s · q und r := r + s w¨ urde man dann r := r · q und r := r + 1 abarbeiten. Dadurch wird das Laufzeitverhalten zwar nicht wesentlich ver¨andert, aber der Speicherbedarf ist geringer. Moral: Bevor man bei der Implementierung eines Algorithmus schon implementierte Teile benutzt ist es gut, dar¨ uber nachzudenken, ob ihr Einsatz effizient ist. Neben den in Definition 3.5.1 eingef¨ uhrten Symbolen O und o (asymptotisch obere Schranken) gibt es auch Symbole f¨ ur asymptotisch untere Schranken beziehungsweise asymptotisch scharfe Schranken. Definition 3.5.9. F¨ ur Folgen positiver Zahlen A = (an )n∈N und B = (bn )n∈N • sagen wir A ist Ω von B“ und schreiben A = Ω(B), wenn abnn eine ” n∈N beschr¨ankte Folge ist; eine • sagen wir A ist ω von B“ und schreiben A = ω(B), wenn abnn ” n∈N Nullfolge ist;
204
3 Reelle Zahlen und Folgen
• sagen wir ”A ist Θvon B“ und schreiben A = Θ(B), wenn beide Folgen, an und abnn , beschr¨ ankt sind. bn n∈N
n∈N
Bemerkung 3.5.10. Offensichtlich gilt
(1) A = Ω(B) genau dann, wenn B = O(A); (2) A = ω(B) genau dann, wenn B = o(A); (3) A = Θ(B) genau dann, wenn A = O(B) und B = O(A); (4) A = Θ(B) genau dann, wenn A = O(B) und A = Ω(B). Beispiel 3.5.11. (1) Sei k ∈ N, dann gilt nk = Θ(nk ), weil lim
n→∞
nk
(nk)
= k!.
(2) n + ln(n) = Θ(n), weil 0 ≤ ln(n) ≤ n ist.
Aufgaben ¨ Ubung 3.21. Beweisen Sie Satz 3.5.5 (7). ¨ Ubung 3.22. Welche Laufzeit hat der Algorithmus zur Berechnung von
?
n k
¨ Ubung 3.23. Sei f : N → N die Funktion, die jeder nat¨ urlichen Zahl n die L¨ange ihrer 2-adischen Darstellung zuordnet. Zeigen Sie (f (n))n∈N = O(ln(n)) .
Kapitel 4
Funktionen
Obwohl viele mathematische Sachverhalte, die wir heute mit Hilfe von Funktionen ausdr¨ ucken, bereits in der Antike bekannt waren, tritt das Konzept der Funktion erst im 14. Jahrhundert auf, als man versuchte Naturgesetze als Abh¨angigkeiten einer Gr¨ oße von einer anderen zu beschreiben. Der heutige Funktionenbegriff, der sich erst im vergangenen Jahrhundert durchgesetzt hat, beruht auf der Mengenlehre (vgl. Abschnitt 6.3). Die Ideen der Ableitung und des Integrals einer Funktion wurden bereits im 17. Jahrhundert entwickelt, obwohl der Begriff der Funktion zu dieser Zeit noch nicht in der heutigen Form entwickelt war. Bereits Barrow1 erkannte, dass Differentiation und Integration zueinander inverse Operationen sind, das ist heute der Hauptsatz der Differential- und Integralrechnung (Satz 4.4.15). Bevor wir uns dieser Perle der Analysis zuwenden, befassen wir uns mit dem wichtigen Begriff der stetigen Funktion. F¨ ur die st¨ uckweise stetigen Funktionen werden wir einen Integralbegriff definieren. Als Anwendung wird beschrieben, wie Funktionen durch Polynome bzw. wie periodische Funktionen durch trigonometrische Polynome approximiert werden k¨onnen. Das f¨ uhrt uns schließlich zu den Fourier-Transformationen, die uns erlauben, am Ende auf Datenkompressionen (JPEG, MP3) einzugehen.
4.1 Stetigkeit Die Anwendungen der Methoden aus dem vorigen Kapitel auf Funktionen f¨ uhrt zum Begriff des Grenzwertes einer Funktion und, darauf aufbauend, auf den f¨ ur die Analysis zentralen Begriff der Stetigkeit. Ein erfolgreiches Studium dieses Abschnittes ist die Grundlage f¨ ur das Verst¨andnis der folgenden, mehr anwendungsorientierten Abschnitte dieses Kapitels. 1
Isaac Barrow (1630–1677), englischer Mathematiker.
205
206
4 Funktionen
Unter einer Funktion wollen wir in Kapitel 4 immer eine Abbildung f : D → R mit Definitionsbereich D ⊂ R verstehen. Das bedeutet, dass f¨ ur jedes x ∈ D genau ein Wert f (x) ∈ R gegeben ist. Die Menge Γf = {(x, f (x)) | x ∈ D} ⊂ D × R heißt Graph der Funktion f . Allgemeine Betrachtungen zum Begriff der Abbildung sind im Abschnitt 6.3 zu finden. Beispiel 4.1.1. Aus bekannten Funktionen k¨onnen wir mit einfachen Operationen neue Funktionen gewinnen. (1) Man kann Summe, Produkt und Komposition von Funktionen bilden: • Wenn f, g : D → R Funktionen sind, so sind f + g, f · g : D → R durch (f + g)(x) := f (x) + g(x) bzw. (f · g)(x) := f (x) · g(x) f¨ ur alle x ∈ D definiert. Wenn f (x) = λ konstant ist, dann erhalten wir als Spezialfall (λg)(x) = λ · g(x). • Wenn f : D → R, g : D′ → R und f (D) ⊂ D′ ⊂ R, dann ist die Komposition g ◦ f : D → R durch (g ◦ f )(x) := g f (x) f¨ ur alle x ∈ D definiert. (2) Eine Funktion f : R → R, die f¨ ur alle x ∈ R durch eine Formel der Gestalt Pn f (x) = i=0 ai xi gegeben ist, wobei ai ∈ R beliebige reelle Zahlen sind, heißt Polynomfunktion. Genau solche Funktionen erhalten wir aus der identischen Funktion IdR und den konstanten Funktionen durch Addition und Multiplikation von Funktionen. (3) Bei der Bildung von Quotienten ist Vorsicht geboten. ur Funktionen F¨ f, g : D → R ist der Definitionsbereich des durch
nierten Quotienten
′
f g
f g
(x) :=
f (x) g(x)
defi-
′
: D → R im Allgemeinen nicht die gesamte Menge
D, sondern nur D := {x ∈ D | g(x) 6= 0} ⊂ D ⊂ R. Der Quotient heißt rationale Funktion, wenn f und g Polynomfunktionen sind.
f g
Definition 4.1.2 (Grenzwerte bei Funktionen). Sei f : D → R eine Funktion und a ∈ R eine Zahl, so dass es mindestens eine Folge (an )n∈N mit an ∈ D f¨ ur alle n ∈ N gibt, die gegen a konvergiert. Wenn es ein c ∈ R, c = ∞ oder c = −∞ gibt, so dass f¨ ur jede Folge (an )n∈N mit an ∈ D, die gegen a konvergiert, limn→∞ f (an ) = c gilt, dann schreiben wir limx→a f (x) = c und nennen c den Grenzwert der Funktion f f¨ ur x gegen a. Analog definieren wir limx→∞ f (x) = c unter Benutzung von Folgen (an )n∈N mit an ∈ D und limn→∞ an = ∞. Beispiel 4.1.3. (1) Sei f : R → R eine Polynomfunktion und a ∈ R beliebig. Dann gilt limx→a f (x) = f (a). Denn f¨ ur jede Folge (xn )n∈N mit limn→∞ xn = a gilt nach Satz 3.2.13: limn→∞ f (xn ) = f (limn→∞ xn ) = f (a), siehe Abb. 4.1.
4.1 Stetigkeit
207 y b
f (xn ) b
b b b
f (a) b
xn
a
x
Abb. 4.1 Stetigkeit: limn→∞ f (xn ) = f (limn→∞ xn ) = f (a)
(2) Sei f : R>0 → R die Funktion f (x) = 1 f¨ ur alle x > 0. Dann ist limx→0 f (x) = 1, denn f¨ ur jede Folge (xn )n∈N mit xn > 0 ist f (xn ) = 1 und somit limn→∞ f (xn ) = limn→∞ 1 = 1. Aber f (0) ist nicht definiert. ( 1 x>0 (3) Die Funktion f : R → R, die durch f (x) := gegeben ist, hat −1 x ≤ 0 bei x = 0 einen Sprung (Abb. 4.2). Deshalb ist limx→0 f (x) nicht definiert, y
1 bc
x b
−1
Abb. 4.2 Funktion mit Sprung bei x = 0
denn f¨ ur xn := n1 ist limn→∞ f (xn ) = 1 und mit yn = − n1 erhalten wir limn→∞ f (yn ) = −1. In der Definition haben wir jedoch gefordert, dass der Grenzwert f¨ ur jede Folge, die gegen Null konvergiert, der gleiche sein muss. Bei der Betrachtung dieser Beispiele f¨ allt auf, dass wir mit Hilfe dieses Grenzwertbegriffes das Vorhandensein von Spr¨ ungen“ mathematisch fassen ” k¨ onnen. Funktionen ohne Spr¨ unge“ werden durch folgende Definition pr¨azise ” gefasst.
208
4 Funktionen
Definition 4.1.4 (Stetigkeit). Sei f : D → R eine Funktion und a ∈ D. Die Funktion f heißt stetig in a, falls limx→a f (x) = f (a) gilt. Wir nennen f stetig in D, falls f in jedem Punkt a ∈ D stetig ist. Beispiel 4.1.5. (1) Aus Beispiel 4.1.3 (1) folgt, dass alle Polynomfunktionen in R stetig sind. (2) Mit Hilfe von Satz 3.2.13 erhalten wir: Wenn D ⊂ R und f, g stetig in D sind, so sind auch die Funktionen f + g und f · g stetig in D. Die Funktion f ′ g ist stetig in D := {x ∈ D | g(x) 6= 0}. Insbesondere sind alle rationalen Funktionen in ihrem Definitionsbereich stetig. (3) Die Exponentialfunktion exp :P R → R ist stetig. Diese Funktion ist den ∞ finiert durch ex = exp(x) := n=0 xn! . Sie erf¨ ullt f¨ ur alle x, y ∈ R die Funktionalgleichung exp(x + y) = exp(x) · exp(y) und es gilt nach Definition exp(0) = 1, vgl. Beispiel 3.3.17. Beweis. Wir zeigen zuerst die Stetigkeit der Funktion exp in 0 ∈ R. Dazu zeigen wir zun¨ achst, dass f¨ ur alle x mit |x| ≤ 1 die Ungleichung | exp(x) − 1| ≤ 2 · |x| Pm gilt. F¨ ur m ≥ 1 ist n=1
xn n! n
≤ |x| ·
Pm
|x|n n=0 (n+1)!
≤ |x| ·
Pm
n=0
|x| 2
n
, da
f¨ ur n ≥ 0 stets (n + 1)! ≥ 2 gilt, was man leicht per Induktion beweist. Somit ist m n ∞ n X x X x = lim | exp(x) − 1| = m→∞ n! n! n=1 n=1 n m X |x| 1 ≤ lim |x| · = |x| · ≤ 2 · |x|. m→∞ 2 1 − |x| n=0 2
Die letzte Ungleichung gilt wegen |x| ≤ 1. F¨ ur jede beliebige Nullfolge (xn )n∈N ergibt sich aus der soeben gezeigten Ungleichung lim | exp(xn ) − 1| ≤ lim 2|xn | = 2 lim |xn | = 0 ,
n→∞
n→∞
n→∞
somit ist limn→∞ exp(xn ) = 1, d.h. exp ist stetig in 0. Zum Beweis der Stetigkeit von exp in a ∈ R betrachten wir eine beliebige Folge (xn )n∈N , die gegen a konvergiert. Das heißt, limn→∞ (xn − a) = 0, woraus mit der bereits gezeigten Stetigkeit in 0 auch limn→∞ exp(xn − a) = 1 folgt. Die Funktionalgleichung liefert exp(xn ) = exp(xn − a) · exp(a), also gilt lim exp(xn ) = exp(a) · lim exp(xn − a) = exp(a)
n→∞
wie f¨ ur die Stetigkeit erforderlich.
n→∞
⊓ ⊔
4.1 Stetigkeit
209
(4) Seien f : D → R und g : E → R Funktionen mit f (D) ⊂ E. Wenn f in a ∈ D und g in f (a) ∈ E stetig sind, so ist g ◦ f : D → F in a ∈ D stetig. Die Vollst¨andigkeit der reellen Zahlen bedeutet nicht nur, dass die Punkte einer Geraden l¨ uckenlos reellen Zahlen entsprechen, sondern auch, dass der Graph einer stetigen Funktion keine L¨ ucke hat. Das ist in dem folgenden Satz mathematisch exakt formuliert. Satz 4.1.6 (Zwischenwertsatz) Sei a < b und f : [a, b] → R stetig, so dass f (a) < 0 und f (b) > 0 gilt. Dann gibt es ein x ∈ (a, b) mit f (x) = 0. Beweis. Wir konstruieren durch Intervallhalbierung eine Folge, deren Grenzwert eine Nullstelle von f ist. Wir definieren dazu induktiv Folgen (an )n∈N und (bn )n∈N , f¨ ur die 0 < bn − an ≤ b−a 2n und f (an ) < 0 < f (bn ) gilt. Wir starten mit a0 := a und b0 := b. Wenn an , bn bereits konstruiert sind, dann definieren wir M := 12 (an + bn ), das ist die Intervallmitte. Wenn F (M ) = 0, dann setzen wir x := M und sind mit dem Beweis fertig. Ansonsten definieren wir an+1 und bn+1 wie folgt: an+1 := M an+1 := an
bn+1 := bn bn+1 := M
falls falls
f (M ) < 0, f (M ) > 0.
Wenn niemals der Fall f (M ) = 0 eintritt, erhalten wir zwei Folgen (an )n∈N und (bn )n∈N mit den gew¨ unschten Eigenschaften, da stets 0 < bn+1 − an+1 =
1 b−a (bn − an ) ≤ n+1 2 2
gilt. Nach Konstruktion ist (an )n∈N eine monoton wachsende Folge, die durch b nach oben beschr¨ ankt ist. Sie konvergiert daher nach Satz 3.2.11. Ebenso ist die Folge (bn )n∈N monoton fallend und beschr¨ankt, somit konvergent. Aus |bn − an | ≤ b−a 2n erhalten wir limn→∞ an = limn→∞ bn =: x ∈ (a, b). Da f stetig ist, folgen aus 0 < f (bn ) und f (an ) < 0 die Ungleichungen 0 ≤ lim f (bn ) = f (x) = lim f (an ) ≤ 0 , n→∞
also f (x) = 0.
n→∞
⊓ ⊔
Bemerkung 4.1.7. Durch Betrachtung der Funktion −f statt f erh¨alt man die gleiche Aussage, wenn f (a) > 0 und f (b) < 0. Definition 4.1.8. Eine Funktion f : D → R heißt beschr¨ankt, falls die Menge f (D) := {f (x) | x ∈ D} ⊂ R ihrer Werte beschr¨ankt ist. Funktionen, die auf abgeschlossenen Intervallen [a, b] definiert sind, besitzen n¨ utzliche Eigenschaften, die u ¨ ber offenen Intervallen im Allgemeinen nicht gelten. Hier ist nat¨ urlich immer a < b vorausgesetzt.
210
4 Funktionen
Satz 4.1.9 Jede stetige Funktion f : [a, b] → R ist beschr¨ankt und nimmt ihr Maximum und Minimum an, d.h. es existieren x+ , x− ∈ [a, b], so dass f (x+ ) = sup{f (x) | x ∈ [a, b]} und f (x− ) = inf{f (x) | x ∈ [a, b]}. Beweis. Wir besch¨ aftigen uns zun¨ achst mit dem Maximum. Sei M := sup{f (x) | x ∈ [a, b]}. Wenn f nicht nach oben beschr¨ankt ist, dann ist M = ∞, sonst ist M ∈ R. In beiden F¨ allen gibt es eine Folge (xn )n∈N mit xn ∈ [a, b] und limn→∞ f (xn ) = M . Da a ≤ xn ≤ b f¨ ur alle n ∈ N, ist die Folge (xn )n∈N beschr¨ankt, besitzt also nach dem Satz von Bolzano-Weierstraß eine konvergente Teilfolge mit Grenzwert x+ ∈ [a, b]. Da f stetig ist, folgt f (x+ ) = M . Weil das Minimum von f gerade das Maximum von −f ist, folgt auch die Behauptung u ⊓ ⊔ ¨ber das Minimum. Bemerkung 4.1.10. Neben der Stetigkeit von f ist die Abgeschlossenheit des Intervalls [a, b] eine wesentliche Voraussetzung, denn zum Beispiel ist die Funktion f : (0, 1) → R, f (x) := x1 zwar stetig, jedoch nicht beschr¨ankt. Andererseits nimmt die stetig und beschr¨ ankte Funktion g : (0, 1) → R, die durch g(x) = x2 gegeben ist, weder ihr Maximum, noch ihr Minimum im offenen Intervall (0, 1) an. Satz 4.1.11 (ε-δ-Definition der Stetigkeit) Sei D ⊂ R, f : D → R eine Funktion und a ∈ D. Dann ist f genau dann stetig in a, wenn f¨ ur jedes ε > 0 ein δ existiert, so dass f¨ ur alle x ∈ D mit |x − a| < δ die Ungleichung |f (x) − f (a)| < ε gilt. Kurz: ∀ε>0 ∃δ ∀x∈D:
|x − a| < δ =⇒ |f (x) − f (a)| < ε .
Beweis. Das ε-δ-Kriterium sei erf¨ ullt. Wir wollen die Stetigkeit von f in a zeigen. Sei dazu (xn )n∈N eine beliebige Folge mit xn ∈ D, die gegen a konvergiert. Wir haben zu zeigen, dass limn→∞ f (xn ) = f (a) gilt. Sei ε > 0, dann gibt es nach Voraussetzung ein δ > 0, so dass aus |x − a| < δ stets |f (x) − f (a)| < ε folgt. Wegen limn→∞ xn = a, gibt es ein, m¨oglicherweise von δ abh¨ angiges N ∈ N, so dass f¨ ur alle n ≥ N : |xn − a| < δ gilt. Dann folgt f¨ ur alle n ≥ N die Ungleichung |f (xn ) − f (a)| < ε, d.h. limn→∞ f (xn ) = f (a). Sei nun umgekehrt angenommen, dass f in a stetig ist. Wir m¨ochten nun das ε-δ-Kriterium beweisen. Wir f¨ uhren den Beweis indirekt, d.h. wir nehmen an, das Gegenteil von ∀ ε > 0 ∃ δ > 0 ∀ x ∈ D: |x − a| < δ =⇒ |f (x) − f (a)| < ε gilt. Dieses Gegenteil2 lautet: 2 Wenn A und B zwei Aussagen sind, dann ist ¬(A ⇒ B) aquivalent zu (A und ¬B). Genau ¨ das liegt dem indirekten Beweis zugrunde, vgl. Satz 6.1.1.
4.1 Stetigkeit
211
∃ ε > 0 ∀ δ > 0 ∃ x ∈ D : |x − a| < δ und |f (x) − f (a)| ≥ ε . In Worten: Es existiert ein ε > 0, so dass f¨ ur jedes δ > 0 ein x ∈ D existiert, f¨ ur welches |x − a| < δ und |f (x) − f (a)| ≥ ε gilt. Sei nun ε > 0 ein solches. Das heißt insbesondere, dass es zu jeder nat¨ urlichen Zahl n ≥ 1 ein xn ∈ D mit |xn −a| < n1 =: δ und |f (xn )−f (a)| ≥ ε gibt. F¨ ur diese Folge (xn )n∈N gilt limn→∞ xn = a und wegen der vorausgesetzten Stetigkeit von f im Punkte a dann auch limn→∞ f (xn ) = f (a). Dies widerspricht jedoch der f¨ ur alle n ≥ 1 geltenden Ungleichung |f (xn ) − f (a)| ≥ ε. ⊓ ⊔ Als Anwendung des Satzes 4.1.11 ergibt sich ein ε-δ-Kriterium f¨ ur die Stetigkeit einer Funktion im gesamten Definitionsbereich. Eine Funktion f : D → R ist genau dann in D stetig, wenn ∀ a ∈ D ∀ ε > 0 ∃ δ > 0 ∀ x ∈ D : |x − a| < δ ⇒ |f (x) − f (a)| < ε . Hierbei darf δ von a und ε abh¨ angig sein. Wenn wir die Abh¨angigkeit von a nicht mehr zulassen, erhalten wir den folgenden sch¨arferen Stetigkeitsbegriff, der bei der Integralrechnung eine wichtige Rolle spielt. Definition 4.1.12. f : D → R heißt gleichm¨aßig stetig in D, wenn ∀ ε > 0 ∃ δ > 0 ∀ a, x ∈ D : |x − a| < δ =⇒ |f (x) − f (a)| < ε . Den Unterschied zwischen stetigen und gleichm¨aßig stetigen Funktionen versteht man am besten an Beispielen. aßig stetig in R>0 . (1) f : R>0 → R, f (x) := x1 ist nicht gleichm¨ (2) g : R → R, g(x) := x2 ist nicht gleichm¨ aßig stetig in R. In beiden Beispielen ist der anschauliche Grund, dass es im Definitionsbereich Punkte gibt, wo der Anstieg der Funktion beliebig groß wird. √ aßig stetig in R≥0 . (3) h : R≥0 → R, h(x) := x ist gleichm¨ Der folgende Satz zeigt eine weitere Besonderheit stetiger Funktionen auf abgeschlossenen Intervallen. Satz 4.1.13 Jede stetige Funktion f : [a, b] → R ist gleichm¨aßig stetig. Beweis. W¨are f nicht gleichm¨ aßig stetig, dann g¨alte ∃ ε > 0 ∀ δ > 0 ∃ a, x ∈ D : |x − a| < δ und |f (x) − f (a)| ≥ ε . F¨ ur ein solches ε > 0 gibt es Folgen an , xn ∈ D, f¨ ur die |xn − an | < n1 und |f (xn )−f (an )| ≥ ε gilt. Nach dem Satz von Bolzano-Weierstraß (Satz 3.2.23) besitzt die Folge (xn )n∈N eine konvergente Teilfolge (xki )i∈N , die wegen xn ∈
212
4 Funktionen
[a, b] beschr¨ankt ist. Ihr Grenzwert x := limi→∞ xki liegt im Intervall [a, b], da es sich um ein abgeschlossenes Intervall handelt. Da |xn − an | < n1 , folgt auch lim i→∞ aki = x und wegen der Stetigkeit von f gilt limi→∞ f (xki ) − ur alle f (aki ) = f (x) − f (x) = 0, im Widerspruch zu |f (xki ) − f (aki )| ≥ ε f¨ i ∈ N. ⊓ ⊔ Um einige der bekannten, in der Praxis h¨ aufig benutzten Funktionen bequem konstruieren zu k¨ onnen, beweisen wir nun den Satz u ¨ber die Umkehrfunktion. Definition 4.1.14. Sei D ⊂ R. Eine Funktion f : D → R heißt • • • •
monoton wachsend, wenn ∀ a, b ∈ D : a < b =⇒ f (a) ≤ f (b); streng monoton wachsend, wenn ∀ a, b ∈ D : a < b =⇒ f (a) < f (b); monoton fallend, wenn ∀ a, b ∈ D : a < b =⇒ f (a) ≥ f (b); streng monoton fallend, wenn ∀ a, b ∈ D : a < b =⇒ f (a) > f (b).
Satz 4.1.15 Sei f : [a, b] → R eine stetige und streng monoton wachsende Funktion und A := f (a), B := f (b). Dann ist f : [a, b] → [A, B] bijektiv und f −1 : [A, B] → [a, b] ⊂ R ist stetig und streng monoton wachsend. Die gleichen Aussagen gelten, wenn man ¨ uberall wachsend“ durch fallend“ ersetzt ” ” und A := f (b), B := f (a) definiert. Beweis. Aus der Monotonie folgt f ([a, b]) ⊂ [A, B] und aus der strengen Monotonie folgt sofort die Injektivit¨ at.3 Wenn wir f¨ ur beliebiges C ∈ [A, B] den Zwischenwertsatz (Satz 4.1.6) auf f − C anwenden, erhalten wir die Surjektivit¨at von f . Somit ist f : [a, b] → [A, B] bijektiv. Die Umkehrabbildung f −1 ist offenbar wieder streng monoton wachsend. Zum Beweis der Stetigkeit von g := f −1 : [A, B] → [a, b] sei y ∈ [A, B] und (yn )n∈N eine Folge mit yn ∈ [A, B] und limn→∞ yn = y. Wir haben zu zeigen, dass die durch xn := g(yn ) definierte Folge (xn )n∈N gegen x := g(y) ∈ [a, b] konvergiert. Angenommen, dies g¨alte nicht. Dann g¨abe es ein ε > 0, so dass f¨ ur eine Teilfolge (xni )i∈N gilt: |xni − x| ≥ ε. Nach dem Satz von Bolzano-Weierstraß k¨ onnen wir diese Teilfolge sogar so w¨ahlen, dass sie konvergiert. Wegen der Stetigkeit von f gilt y = limn→∞ yn = limi→∞ yni = limi→∞ f (xni ) = f (limi→∞ xni ) und somit x = g(y) = g (f (limi→∞ xni )) = ur alle i ∈ N g¨ ultigen Ungleichung limi→∞ xni . Das widerspricht jedoch der f¨ |xni − x| ≥ ε. ⊓ ⊔ Beispiel 4.1.16 (Umkehrfunktionen). (1) Die Wurzelfunktionen sind die Umkehrfunktionen der f¨ ur ganzes k ≥ 2 definierten Potenzfunktionen f : R −→ R, die durch f (x) := xk definiert sind. F¨ ur x ≥ 0 sind diese Funktionen streng monoton wachsend und 3
Die Begriffe injektiv, surjektiv und bijektiv werden in Kapitel 6, Definition 6.3.3 erkl¨ art.
4.1 Stetigkeit
213
stetig. Wir erhalten eine Bijektion f : R≥0 → R≥0 und daher eine stetige √ Umkehrfunktion f −1 : R≥0 → R≥0 . Die u ¨ bliche Bezeichnung ist k x := f −1 (x), das heißt √ ⇐⇒ y k = x. y= kx F¨ ur ungerades √ k besitzen die Wurzelfunktionen einen gr¨oßeren Definitionsbereich k · : R → R. (2) Der nat¨ urliche Logarithmus ist die Umkehrfunktion der Exponentialfunktion exp : R → R>0 , die streng monoton wachsend ist. Das ergibt sich mit Hilfe der Funktionalgleichung aus exp(x) > 1 f¨ ur x > 0, was unmittelbar aus der Definition folgt. Da f¨ ur n ∈ N stets exp(n) > 1 + n gilt, ist 1 limx→∞ exp(x) = ∞. Entsprechend ergibt sich aus exp(−n) = exp(n) < 1 1+n , dass limx→−∞ exp(x) = 0 gilt. Daher ist exp(R) = R>0 und wir erhalten eine stetige Umkehrabbildung ln : R>0 → R, den nat¨ urlichen Logarithmus. Aus der Funktionalgleichung f¨ ur exp folgt f¨ ur alle x, y ∈ R>0 die Funktionalgleichung ln(x · y) = ln(x) + ln(y) . (3) Die allgemeine Potenz definiert man f¨ ur reelles a > 0 mit Hilfe der Exponentialfunktion wie folgt: ax := exp x · ln(a) . n Diese Definition ist durch die Gleichung exp n·ln(a) = exp ln(a) = an motiviert, die wegen der Funktionalgleichung der Exponentialfunktion f¨ ur alle n ∈ Z und alle reellen a > 0 gilt. Wenn wir x ∈ R auf die Potenz ax abbilden, erhalten wir eine stetige Funktion R → R>0 (Komposition stetiger Funktionen). Aus der Funktionalgleichung f¨ ur exp folgt f¨ ur alle x, y ∈ R: ax+y = ax · ay .
n Da f¨ ur alle nat¨ urlichen Zahlen n ≥ 2 und alle t ∈ R exp(t) = exp(nt) 1 n n √ 1 gilt, folgt a n = exp n1 (a) = exp (ln(a)) = a und somit a n = n a f¨ ur a > 0 und n ≥ 2, n ∈ N. Es gilt allgemeiner f¨ ur beliebige a > 0, x, y ∈ R (ax )y = ax·y , denn weil ln die Umkehrfunktion von exp ist, folgt aus der Definition x x y ax = exp x · ln(a) die Gleichung ln(ax·y) = x · ln(a). Somit ist (a ) = x exp y · ln(a ) = exp y · x · ln(a) = a . (4) Der allgemeine Logarithmus ist die Umkehrfunktion zu x 7→ ax . Er wird mit loga : R>0 → R bezeichnet. Das heißt, loga (ax ) = x f¨ ur x ∈ R und . aloga (x) = x f¨ ur x > 0. Es gilt loga (x) = ln(x) ln(a)
214
4 Funktionen
Der Begriff der stetigen Funktion l¨ asst sich leicht von R auf C u ¨ bertragen. Definition 4.1.17. Eine Funktion f : D → C mit Definitionsbereich D ⊂ C heißt stetig in z ∈ D, falls f¨ ur jede gegen z konvergente Folge (zn )n∈N mit zn ∈ D gilt: lim f (zn ) = f (z) . n→∞
¨ Aquivalent dazu ist die ε-δ-Definition der Stetigkeit, die besagt, dass f genau dann in z ∈ D stetig ist, wenn ∀ ε > 0 ∃ δ > 0 ∀ w ∈ D:
|z − w| < δ =⇒ |f (z) − f (w)| < ε .
In Worten: F¨ ur alle ε > 0 existiert ein δ > 0, so dass f¨ ur alle w ∈ D mit |z − w| < δ die Ungleichung |f (z) − f (w)| < ε gilt. Satz 4.1.18 Die Exponentialfunktion exp : C → C r {0} ist stetig. Der Beweis ist der gleiche wie f¨ ur die reelle Exponentialfunktion. Bemerkung 4.1.19. Die Exponentialfunktion exp : C → C r {0} ist nicht bijektiv. Daher ist die Definition der Logarithmusfunktion im Komplexen mit Schwierigkeiten verbunden. Mit Hilfe der komplexen Exponentialfunktion definieren wir jetzt die trigonometrischen Funktionen sin(x) und cos(x). Definition 4.1.20. F¨ ur x ∈ R definieren wir cos(x) := Re exp(ix) und sin(x) := Im exp(ix) .
Das heißt, die Eulersche Formel exp(ix) = cos(x) + i · sin(x) gilt.
Eine geometrische Interpretation dieser Definition ergibt sich wie folgt. Da ix = −ix f¨ ur x ∈ R gilt, erhalten wir 1 = exp(ix − ix) = exp(ix) exp(−ix) = exp(ix) exp(ix) = exp(ix) · exp(ix) = | exp(ix)|2 .
Das bedeutet, dass exp(ix) auf dem Einheitskreis in C = R2 liegt und die reellen Koordinaten (cos(x), sin(x)) besitzt (Abb. 4.3). Aus der Definition erhalten wir leicht f¨ ur alle x ∈ R: cos(x) =
exp(ix) − exp(−ix) exp(ix) + exp(−ix) sin(x) = 2 2i cos2 (x) + sin2 (x) = 1 .
4.1 Stetigkeit
215 i
cos(x) + i sin(x) b
sin(x)
x 0 cos(x)
−1
1
−i Abb. 4.3 Definition der Trigonometrischen Funktionen cos(x) und sin(x).
Die Funktionen cos : R → R und sin : R → R sind stetig, da eine komplexwertige Funktion genau dann stetig ist, wenn ihr Real- und ihr Imagin¨arteil stetig sind. Satz 4.1.21 (Additionstheoreme) F¨ ur alle x, y ∈ R gilt: cos(x + y) = cos(x) · cos(y) − sin(x) · sin(y) sin(x + y) = sin(x) · cos(y) + cos(x) · sin(y) . Beweis. Es gilt cos(x + y) + i sin(x + y)= exp i(x + y) = exp(ix) · exp(iy) = cos(x) + i sin(x) · cos(y) + i sin(y) = cos(x) cos(y) − sin(x) sin(y) + i sin(x) cos(y) + cos(x) sin(y) . Durch Vergleich der Real- und Imagin¨arteile folgt die Behauptung. ⊓ ⊔ Nun wollen wir die trigonometrischen Funktionen etwas genauer untersuchen. Als erstes erhalten wir den folgenden Satz. Satz 4.1.22 F¨ ur alle x ∈ R gilt: cos(x) = sin(x) =
∞ X
(−1)n
n=0 ∞ X
(−1)n
n=0
x2n (2n)!
=1−
x2 x4 x6 x8 + − + − ... 2! 4! 6! 8!
x3 x5 x7 x9 x2n+1 = x− + − + − ... (2n + 1)! 3! 5! 7! 9!
und beide Reihen sind absolut konvergent. Beweis. Die absolute Konvergenz folgt wegen | Re(z)| ≤ |z|, | Im(z)| ≤ |z| aus der absoluten Konvergenz der Exponentialreihe. Da i2 = −1, i3 = −i und i4 = 1 ist, gilt i4k+l = il und wir erhalten:
216
4 Funktionen
(ix)2n = i2n · x2n = (−1)n · x2n und
(ix)2n+1 = i2n+1 · x2n+1 = i · (−1)n · x2n+1 . Das liefert dann die Behauptung, da exp(ix) =
P∞
1 n n=0 n! (ix) .
⊓ ⊔
Satz 4.1.23 Die Kosinusfunktion hat genau eine Nullstelle im Intervall [0, 2]. Beweis. Wir wissen bereits cos(0) = Re exp(0) = 1. Zum Beweis der Existenz einer Nullstelle wenden wir den Zwischenwertsatz an. Dazu gen¨ ugt es zu zeigen, dass cos(2) < 0 gilt. x2n+2 x2n + (2n+2)! < 0 f¨ ur alle n ≥ 1 und x ∈ [0, 2]. Aus Zun¨achst zeigen wir − (2n)!
n ≥ 1 folgt (2n + 1)(2n + 2) > 2 · 2 ≥ x2 , somit x2n (2n)!
Multiplikation mit f¨ ur alle x ∈ [0, 2] ∞ X
x2 (2n+1)(2n+2)
− 1 < 0. Nach
ergibt sich die gew¨ unschte Ungleichung. Das liefert
x2 x4 x2n = 1− + + cos(x) = (−1) (2n)! 2 4! n=0 n
< 1−
X
n≥3 ungerade
x2n+2 x2n + − (2n)! (2n + 2)!
x2 x4 + . 2 4!
Die Glieder der Reihe darf man in der angegebenen Weise zusammenfassen, weil die Reihe absolut konvergiert (vgl. Satz 4.3.2). Daraus erhalten wir 2 4 16 cos(2) < 1 − 22 + 24! = 1 − 42 + 24 = 1 − 2 + 23 = − 31 < 0. Um auszuschließen, dass cos mehrere Nullstellen im Intervall [0, 2] besitzt, zeigen wir, dass cos : [0, 2] → R streng monoton fallend ist. Aus Satz 4.1.21 1 2 und y = x2 −x f¨ erh¨alt man mit x = x1 +x 2 2 ur beliebige x1 , x2 ∈ R die x2 −x1 1 · sin . Dabei wurde Gleichung cos(x2 ) − cos(x1 ) = −2 · sin x2 +x 2 2 x2 = x + y, x1 = x − y, sowie cos(−x) = cos(x) und sin(−x) = − sin(x) benutzt. 2 1 Wenn 0 ≤ x1 < x2 ≤ 2, dann ist x1 +x ∈ (0, 2) und x2 −x ∈ (0, 2) und es 2 2 gen¨ ugt f¨ ur die strenge Monotonie von cos : [0, 2] → R zu zeigen, dass f¨ ur x ∈ (0, 2) stets sin(x) > 0 gilt. Dies erh¨ alt man genau wie oben aus der Reihe ∞ X
x3 x2n+1 =x− + sin(x) = (−1) (2n + 1)! 3! n=0 n
>x− da x > 0 und x2 < 6.
x7 x5 − 5! 7!
+
x9 x11 − 9! 11!
+ ...
x3 x = (6 − x2 ) > 0 , 3! 6 ⊓ ⊔
4.1 Stetigkeit
217
Definition 4.1.24. Wenn x0 ∈ [0, 2] die eindeutig bestimmte Nullstelle von cos : [0, 2] → R bezeichnet, dann definieren wir die sogenannte Kreiszahl π := 2 · x0 . Eine Berechnung mittels obiger Reihe ergibt π = 3,141592653589793 . . . . Mit Hilfe der Integralrechnung werden wir sp¨ ater (Bsp. 4.4.19) zeigen, dass π der Fl¨acheninhalt des Einheitskreises ist. Man kann auch zeigen, dass π die L¨ange des Halbkreises mit Radius 1 ist. Wir haben per definitionem cos π2 = 0. Da cos2 π2 + sin2 π2 = 1 und sin π2 > 0, erhalten wir sin π2 = 1. Daraus ergibt sich exp i · π2 = i. Also ist −1 = i2 = exp(iπ), −i = i3 = exp 3iπ und da i4 = 1, schließlich exp(2πi) = 1. Mit Hilfe 2 des Additionstheorems folgt daraus exp(z + 2πi) = exp(z) ∀ z ∈ C und exp i(x + 2π) = exp(ix) ∀ x ∈ R. Somit haben sin und cos die Periode 2π. (Siehe Abb. 4.4 und Tabelle 4.1.) y sin(x)
cos(x) 2 −2π
− π2
−π
− 3π 2
π
π 2
3π 2
Abb. 4.4 Die Funktionen sin(x) und cos(x)
x
0
π 6
π 4
π 3
π 2
cos(x)
1
1√ 3 2
1√ 2 2
1 2
0 −1
sin(x)
0
1 2
1√ 2 2
1√ 3 2
1
π
0
2π 3
2π
0
1
−1
0
Tabelle 4.1 Spezielle Werte der Funktionen sin(x) und cos(x)
Wir k¨onnen nun alle Nullstellen von sin und cos bestimmen: sin(x) = 0 ⇐⇒ ∃ k ∈ Z : x = k · π π cos(x) = 0 ⇐⇒ ∃ k ∈ Z : x = + kπ . 2
2π
x
218
4 Funktionen
Dazu bemerken wir zun¨ achst, dass cos(x) > 0 f¨ ur alle x ∈ − π2 , π2 gilt, weil cos(x) = cos(−x) und cos in [0, 2] streng monoton f¨allt. Da exp(iπ) = −1, gilt exp i(x + π) = − exp(ix) und daher auch cos(x + π) = − cos(x). Also π 3π . , cos(x) < 0 f¨ ur alle x ∈ 2 2 Daher sind die Nullstellen von cos : − π2 , 3π → R genau die drei Zah2 . Wegen cos(x + 2π) = cos(x) folgt die Behauptung f¨ ur die len − π2 , π2 , 3π 2 π Nullstellen der Kosinusfunktion. Schließlich ist sin x + = cos(x) wegen 2 ber die Nullstellen exp i π2 = i und somit erhalten wir auch die Behauptung u ¨ der Sinusfunktion. ¨ Aus diesen Uberlegungen k¨ onnen wir nun wichtige Informationen u ¨ ber die komplexe Exponentialfunktion herleiten. Seien z1 , z2 ∈ C, dann gilt: exp(z1 ) = exp(z2 ) ⇐⇒ z2 = z1 + 2πik f¨ ur ein k ∈ Z. Um das zu zeigen, bemerken wir zuerst, dass exp(z1 ) = exp(z2 ) genau dann gilt, wenn exp(z2 − z1 ) = 1 ist (Additionstheorem der Exponentialfunktion). Wenn exp(z) = 1, dann ist exp(z + z¯) =1 und exp(z − z¯) = 1. Daraus ergibt sich exp 2 Re(z) = 1 und exp 2i Im(z) = 1. Damit erhalten wir Re(z) = 0 und cos 2 · Im(z) = 1, sin 2 · Im(z) = 0, woraus z = iπk mit k ∈ Z folgt. Da exp(iπk) = cos(πk) + i sin(πk) = cos(πk) = (−1)k , muss k gerade sein und wir sehen, dass genau dann exp(z) = 1 gilt, wenn z ∈ 2πi Z. Dies erkl¨art, warum wir uns auf einen Streifen Hα der H¨ohe 2π beschr¨anken m¨ ussen, um im Komplexen eine Umkehrfunktion f¨ ur exp zu erhalten. Zu den trigonometrischen Funktionen geh¨ oren noch zwei weitere Funktionen: die Tangensfunktion tan : Rr π2 + kπ | k ∈ Z → R und die Kotangensfunksin(x) tion cot : R r {kπ | k ∈ Z} −→ R (Abb. 4.5). Sie sind durch tan(x) := cos(x) , bzw. cot(x) := cos(x) sin(x) definiert. Diese Funktionen sind stetig und sowohl tan : − π2 , π2 → R als auch cot : (0, π) → R sind streng monoton wachsend und surjektiv. Ihre Um kehrfunktionen heißen Arcus-Tangens arctan : R → π2 , π2 bzw. ArcusKotangens arccot : R → (0, π). Analog haben wir die Umkehrfunktion arccos : [−1, 1] → [0, π] zur streng monoton fallenden stetigen Funktion cos : [0, π] → R und arcsin :[−1, 1]→ − π2 , π2 zur streng monoton wachsenden stetigen Funktion sin : − π2 , π2 → R. Abschließend m¨ ochten wir noch die Darstellung komplexer Zahlen mit Hilfe von Polarkoordinaten erl¨ autern:
Satz 4.1.25 F¨ ur jede komplexe Zahl z ∈ C gibt es reelle Zahlen r ≥ 0 und ϕ, so dass z = r ·exp(iϕ) = r(cos(ϕ)+ i sin(ϕ)). Wenn z 6= 0, so ist r > 0 und ϕ ist bis auf einen Summanden der Form 2πk (k ∈ Z) eindeutig bestimmt.
4.1 Stetigkeit
219
y
y
tan(x)
−π 2
0
π 2
π
cot(x)
3π 2
x
−π
−π 2
0
π 2
π
x
Abb. 4.5 Die Funktionen tan(x) und cot(x)
Beweis. Sei r := |z|, dann 0 fertig. wir mit beliebigem sind ϕ ∈ R im Fall z = z z z und b := Im |z| , dann Sei nun z 6= 0, dann ist |z| = 1. Sei a := Re |z| z gilt a2 + b2 = |z| = 1, insbesondere |a| ≤ 1, |b| ≤ 1. Wenn α := arccos(a), d.h. cos(α) = a und 0 ≤ α ≤ π, dann ist sin(α) = ±b und wir definieren ( α falls sin(α) = b ϕ := −α falls sin(α) = −b. Damit ist cos(ϕ) = a und sin(ϕ) = b, d.h. dem bereits Gezeigten.
z |z|
= exp(iϕ). Der Rest folgt aus ⊓ ⊔
Bemerkung 4.1.26. • Mit der Polardarstellung ist die Multiplikation komplexer Zahlen besonders einfach (vgl. Abb. 1.4, Seite 54). • Die Gleichung z n = 1 hat genau n verschiedene komplexe L¨osungen. Dies sind die Zahlen zk = exp 2kπi , 0 ≤ k < n, die man auch Einheitswurzeln n nennt (Abb. 4.6). • Aus der Gleichung r · exp(iϕ) = exp (ln(r) + iϕ), die f¨ ur reelle r > 0 und ϕ gilt, sehen wir, dass exp : C → C r {0} surjektiv ist. Wenn wir Hα := {z ∈ C | α ≤ Im(z) < α + 2πi} setzen, ergibt sich die Bijektivit¨at von exp : Hα → C r {0}.
220
4 Funktionen z1 b
z2
zk = z1k = exp
b
b
z3
“
2kπi 5
”
z0 = 1
b
b
z4 Abb. 4.6 Die komplexen L¨ osungen der Gleichung z 5 = 1.
Aufgaben ¨ Ubung 4.1. Berechnen Sie folgende Grenzwerte: x+2 3x2 + 1 tan(x) (a) lim 2 (b) lim (c) lim . x→∞ 4x2 + 3 x→0 x − 1 x→0 x ¨ Ubung 4.2. Sei f : [0, 1] → [0, 1] eine stetige Funktion. Beweisen Sie, dass f einen Fixpunkt hat, d.h., dass ein x ∈ [0, 1] mit f (x) = x existiert. Geben Sie ein Beispiel f¨ ur eine stetige Funktion f : (0, 1) → (0, 1) an, die keinen Fixpunkt hat. ¨ Ubung 4.3. Beweisen Sie, dass aus lim f (x) = ∞ stets lim x→∞
1 x→∞ f (x)
= 0 folgt.
¨ Ubung 4.4. Seien f, g : [a, b] → R stetige Funktionen und sei die Funktion h : [a, b] → R durch h(x) = max{f (x), g(x)} definiert. Beweisen Sie, dass h stetig ist. ( x falls x ∈ Q ¨ Ubung 4.5. Sei f : R → R definiert durch f (x) := 0 falls x 6∈ Q . Zeigen Sie, dass f genau an der Stelle 0 ∈ R stetig ist. ¨ Ubung 4.6. Seien f, g : R → R stetige Funktionen, f¨ ur die f (x) = g(x) f¨ ur alle x ∈ Q ist. Beweisen Sie, dass f (x) = g(x) f¨ ur alle x ∈ R gilt. ¨ Ubung 4.7. Eine Funktion f : (a, b) → R hat in x0 ∈ (a, b] einen linksseitigen Grenzwert c ∈ R, wenn es zu jedem ε > 0 ein δ > 0 gibt, so dass f¨ ur alle x ∈ (a, x0 ) mit |x − x0 | < δ die Ungleichung |f (x) − c| < ε gilt. Analog definiert man einen rechtsseitigen Grenzwert in x0 ∈ [a, b) durch obige Bedingung f¨ ur x ∈ (x0 , b). Beweisen Sie, dass jede beschr¨ ankte monotone Funktion f : (a, b) → R in jedem Punkt von [a, b] linksseitige und rechtsseitige Grenzwerte besitzt.
4.2 Differentialrechnung
221
4.2 Differentialrechnung Viele in der Praxis anzutreffende Funktionen sind nicht nur stetig, sondern sogar differenzierbar. Dadurch ist es m¨ oglich, bei Anwendungen der Mathematik auf Probleme der realen Welt die vielf¨ altigen Werkzeuge der Differentialund Integralrechnung anzuwenden. Die wichtigsten werden wir in den folgenden Abschnitten entwickeln. Wir beginnen mit einer mathematisch exakten Fassung des Begriffes der Ableitung einer Funktion. Diese basiert wesentlich auf dem Grenzwertbegriff, den wir deshalb im Kapitel 3 studiert haben. Definition 4.2.1. Sei D ⊂ R, f : D → R eine Funktion und x ∈ D. Wir nennen f differenzierbar in x, falls der Grenzwert f ′ (x) := lim
h→0
f (x + h) − f (x) h
existiert. Wir nennen f differenzierbar in D, wenn f in jedem x ∈ D differenzierbar ist. Hierbei ist zu beachten, dass wir dies, entsprechend unseren fr¨ uheren Definitionen, folgendermaßen zu verstehen haben: (1) Es gibt mindestens eine Folge (hn )n∈N von Null verschiedener reeller Zahlen mit limn→∞ hn = 0 und x + hn ∈ D f¨ ur alle n ∈ N. (2) F¨ ur jede Folge (hn )n∈N von Null verschiedener reeller Zahlen, f¨ ur die lim h = 0 und x + h ∈ D f¨ u r alle n ∈ N gilt, ist die Folge n→∞ n n f (x+hn )−f (x) konvergent und ihr Grenzwert ist immer ein und diehn n∈N
selbe Zahl, die wir f ′ (x) nennen.
Als alternative Schreibweisen sind manchmal f ′ (x0 ) =
df dx (x0 )
=
df (x) dx
x=x0
anzutreffen. Die geometrische Interpretation (Abb. 4.7) der Ableitung f ′ (x0 ) als Anstieg der Tangente an den Graphen Γf im Punkte x0 , f (x0 ) ergibt sich unmittelbar aus der Definition. Wenn wir f¨ ur x0 ∈ D den Differenzenquotienten mit x = x0 + h schreiben, erhalten wir f (x) − f (x0 ) f ′ (x0 ) = x→x lim . 0 x − x0 x6=x 0
Existiert f¨ ur jedes x ∈ D der Grenzwert f ′ (x), dann heißt die so definierte Funktion f ′ Ableitung von f . Beispiel 4.2.2. (1) Die konstante Funktion f : R → R, die durch f (x) := c f¨ ur ein festes c ∈ R gegeben ist, ist u ¨ berall differenzierbar, denn f (x + h) − f (x) c−c = lim = lim 0 = 0 . h→0 h→0 h h→0 h
f ′ (x) = lim
222
4 Funktionen y f ′ (x0 )
b
}
f (x)
f (x) − f (x0 ) x − x0
f (x0 )
|
{z
f (x) − f (x0 )
b
|
{z x − x0
x0
}
x
x
Abb. 4.7 Ableitung als Anstieg der Tangente
(2) F¨ ur jedes a ∈ R ist die durch f (x) = a · x definierte lineare Funktion f : R → R differenzierbar, denn f ′ (x0 ) = lim
x→x0
f (x) − f (x0 ) ax − ax0 = lim =a. x→x0 x − x0 x − x0
(3) F¨ ur jede nat¨ urliche Zahl n ≥ 1 ist die durch f (x) = xn definierte Funktion f : R → R differenzierbar, denn ! n−1 X f (x) − f (x0 ) xn − xn0 ′ k n−1−k f (x0 ) = lim = lim = lim x x0 x→x0 x→x0 x − x0 x→x0 x − x0 k=0
=
n−1 X k=0
x0n−1 = n · x0n−1 .
(4) Die Exponentialfunktion exp : R → R ist differenzierbar, denn exp′ (x) = lim
h→0
exp(h) − 1 exp(x + h) − exp(x) = exp(x) · lim = exp(x) . h→0 h h exp(h)−1 h
= 1 benutzt. Das zeigt man folgenderma n n h |h| ßen: Da f¨ ur n ∈ N stets (n + 2)! ≥ 2 · 3n , gilt (n+2)! . Wenn ≤ 12 3 Hier haben wir limh→0
|h| ≤ 23 , dann folgt mit Hilfe der Exponentialreihe
n ∞ ∞ X hn h2 X |h| h2 1 = · ≤ h2 . | exp(h)−1−h| ≤ h (n + 2)! ≤ 2 3 2 1 − |h| n=0 n=0 3 2
4.2 Differentialrechnung
223
− 1 Das ergibt exp(h)−1 ≤ |h|, woraus die ben¨otigte Konvergenz folgt. h Die Ableitung der Exponentialfunktion ist wieder die Exponentialfunktion! Das bedeutet, dass exp eine L¨ osung der Differentialgleichung f ′ = f ist. Derartige Gleichungen treten bei der mathematischen Modellierung nat¨ urlicher Prozesse in Physik, Technik, Biologie, Chemie . . . h¨aufig auf. Daher spielt die Exponentialfunktion eine sehr große Rolle bei solchen Anwendungen. (5) Es gilt sin′ = cos und cos′ = − sin. (6) Die Betragsfunktion f : R → R, die durch f (x) = |x| gegeben ist, ist in 0 |h| nicht differenzierbar, da −1 = limh→0 |h| h 6= limh→0 h = 1. h<0
h>0
Satz 4.2.3 Sei D ⊂ R, a ∈ D und f : D → R eine Funktion, so dass mindestens eine gegen a konvergente Folge (an )n∈N mit an ∈ D r {a} existiert. Dann ist f genau dann in a differenzierbar, wenn es eine reelle Zahl c ∈ R und eine Funktion ϕ : D → R mit limx→a ϕ(x) x−a = 0 gibt, so dass ∀x∈D:
f (x) = f (a) + c · (x − a) + ϕ(x)
gilt. Es ist dann f ′ (a) = c. Beweis. (1) Sei f differenzierbar in a und c := f ′ (a). Wir definieren eine Funktion ϕ : D → R durch ϕ(x) := f (x) − f (a) − c · (x − a). Dann erhalten wir aus der Definition von f ′ (a) wie behauptet lim
x→a
ϕ(x) f (x) − f (a) = lim −c=0. x→a x−a x−a
(2) Nun setzen wir die Existenz von c und ϕ mit den angegebenen Eigenschaf(a) = c + ϕ(x) ten voraus. Dann erhalten wir f (x)−f x−a x−a und somit die Konvergenz dieses Differenzenquotienten f¨ ur x → a und limx→a
c+
limx→a ϕ(x) x−a
′
= c, d.h. c = f (a).
f (x)−f (a) x−a
= ⊓ ⊔
Folgerung 4.2.4. Wenn f : D → R in a ∈ D differenzierbar ist, so ist f auch in a stetig. Beweis. Nach Satz 4.2.3 gibt es eine Funktion ϕ : D → R mit f (x) = f (a) + f ′ (a) · (x − a) + ϕ(x) und limx→a ϕ(x) x−a = 0. Da limx→a (x − a) = 0, erhalten wir limx→a ϕ(x) = 0 und damit limx→a f (x) = f (a). Das ist die Stetigkeit von f in a. ⊓ ⊔ Bemerkung 4.2.5. Satz 4.2.3 besagt, dass eine Funktion f in a ∈ D genau dann differenzierbar ist, wenn man sie dort durch eine lineare Funktion gut approximieren kann.
224
4 Funktionen
Satz 4.2.6 (Rechenregeln) Seien f, g : D → R in a ∈ D differenzierbar und λ ∈ R beliebig. Dann gilt:
(1) f + g : D → R ist in a ∈ D differenzierbar und (f + g)′ (a) = f ′ (a)+ g ′ (a). (2) λ · f : D → R ist in a ∈ D differenzierbar und (λf )′ (a) = λ · f ′ (a). (3) (Produktregel) f · g : D → R ist in a ∈ D differenzierbar und (f g)′ (a) = f ′ (a) · g(a) + f (a) · g ′ (a) . (4) (Quotientenregel) Wenn g(x) 6= 0 f¨ ur alle x ∈ D ist, so ist in a ∈ D differenzierbar und ′ f f ′ (a)g(a) − f (a)g ′ (a) (a) = . g g(a)2
f g
:D→R
Beweis. (1) und (2) folgen aus Satz 3.2.13. (3) Wir schreiben den Differenzenquotienten f¨ ur f · g in folgender Weise: 1 f (a + h)g(a + h) − f (a)g(a) = h 1 = f (a + h)g(a + h) − f (a + h)g(a) + f (a + h)g(a) − f (a)g(a) h 1 = f (a + h) g(a + h) − g(a) + f (a + h) − f (a) g(a) h g(a + h) − g(a) f (a + h) − f (a) + · g(a) . = f (a + h) · h h Damit ergibt sich die erforderliche Konvergenz. Unter Ausnutzung der Stetigkeit von f an der Stelle a ergibt ein Grenz¨ ubergang h → 0 die Produktregel. (4) Wir betrachten zun¨ achst den Spezialfall der konstanten Funktion f (x) = 1. Der Differenzenquotient lautet hier 1 g(a) − g(a + h) 1 1 g(a + h) − g(a) 1 = − =− · h g(a + h) g(a) h · g(a + h) · g(a) h g(a + h)g(a) 1 woraus nach Grenz¨ ubergang h → 0 die gew¨ unschte Formel −g ′ (a)· g(a) 2 folgt.
Die Produktregel (3) liefert nun die Differenzierbarkeit von
f g
und
′ ′ ′ 1 1 1 f (a) = f · (a) = f ′ (a) · (a) + f (a) · g g g(a) g f ′ (a) f (a)g ′ (a) f ′ (a) · g(a) − f (a) · g ′ (a) = = . − g(a) g(a)2 g(a)2 ⊓ ⊔
4.2 Differentialrechnung
225
Beispiel 4.2.7. (1) F¨ ur jedes n ∈ Z ist die Ableitung der Funktion f (x) = xn ′ gleich f (x) = n · xn−1 . 1 2 (2) tan′ = cos 2 = 1 + tan Beweis. (1) Wir f¨ uhren den Beweis f¨ ur n ≥ 0 induktiv. Die F¨alle n = 0 und n = 1 wurden bereits in Beispiel 4.2.2 (1) bzw. (2) behandelt. Wir hatten zwar in Beispiel 4.2.2 (3) die Ableitung der Funktion f f¨ ur n ≥ 0 schon bestimmt, wollen aber hier mit Hilfe der Produktregel einen alternativen Beweis angeben. Wir nehmen an, die Behauptung sei schon f¨ ur ein gewisses n ≥ 1 bewiesen. Mit g(x) = xn , f (x) = xn+1 und h(x) = x gilt dann g ′ (x) = nxn−1 und h′ (x) = 1. Da f = g · h, erhalten wir, wie behauptet, mit der Produktregel f ′ (x) = g ′ (x)h(x) + g(x)h′ (x) = n · xn−1 · x + xn · 1 = (n + 1) · xn . Wenn n > 0 und f (x) = x−n = x1n , dann erhalten wir aus der Quotienn−1 = −n · x−n−1 und die Formel ist f¨ ur alle n ∈ Z tenregel f ′ (x) = − n·x x2n bewiesen. (2) Folgt aus der Quotientenregel und 4.2.2 (5). ⊓ ⊔ Satz 4.2.8 (Kettenregel) Seien f : D → R, g : D′ → R Funktionen mit f (D) ⊂ D′ ⊂ R und x ∈ D ⊂ R. Wenn f in x ∈ D und g in f (x) ∈ D′ differenzierbar sind, dann ist g ◦ f : D → R in x differenzierbar und es gilt (g ◦ f )′ (x) = g ′ f (x) · f ′ (x) . Beweis. Um bequem mit dem Differenzenquotienten von g arbeiten zu k¨ onnen, definieren wir eine Funktion r : D′ → R durch g(y) − g (f (x)) falls y 6= f (x) y − f (x) r(y) := ′ g f (x) falls y = f (x).
Da g in f (x) ∈ D′ differenzierbar ist, gilt limy→f (x) r(y) = g ′ f (x) , d.h. r ist in f (x) ∈ D′ stetig. Der Differenzenquotient f¨ ur g ◦ f bei x ∈ D lautet damit g f (x + h) − g f (x) r f (x + h) · f (x + h) − f (x) = , h h auch wenn f (x + h) = f (x) gilt. Da r in f (x) und f in x stetig sind, haben wir limh→0 r f (x + h) = r f (x) = g ′ f (x) . Weil f in x differenzierbar (x) und es ist, ergibt sich die Konvergenz des Differenzenquotienten f (x+h)−f h folgt
226
4 Funktionen
g f (x + h) − g (f (x) ′ (g ◦ f ) (x) = lim h→0 h f (x + h) − f (x) = lim r f (x + h) · lim h→0 h→0 h ′ ′ = g f (x) · f (x) ,
⊓ ⊔
wie behauptet.
Beispiel 4.2.9. (1) Sei f : R → R durch f (x) = exp(ax) mit a ∈ R gegeben. Diese Funktion fassen wir als Komposition von exp mit der Funktion g(x) := ax auf. Da g ′ (x) = a und exp′ = exp, erhalten wir f ′ (x) = a · exp(ax) = a · f (x) f¨ ur alle x ∈ R. (2) Die allgemeine Potenz xa (siehe Beispiel 4.1.16) ist durch die Gleichung a x = exp a · ln(x) definiert. Mit derKettenregel erhalten wir als Ableitung dieser Funktion xa · exp a · ln(x) . Damit ergibt sich in Verallgemei′ nerung von Bsp. 4.2.7 (1) f¨ ur x > 0 und alle a ∈ R: (xa ) = a · xa−1 . 2 (3) Die Funktion f (x) = sin (x) ist die Komposition von sin und g(x) = x2 . Wir erhalten unter Benutzung von Satz 4.1.21 und der Kettenregel f ′ (x) = 2 · sin(x) · cos(x) = sin(2x). (4) Die durch f (x) = cos(xn ) gegebene Funktion f : R → R ist die Komposition von cos und xn , also f ′ (x) = −nxn−1 sin(xn ). Um auch noch solche Funktionen wie ln und arcsin ableiten zu k¨onnen, ben¨otigen wir den folgenden Satz. Satz 4.2.10 (Ableitung der Umkehrfunktion) Sei D = [a, b] ⊂ R mit a < b und f : D → R eine stetige, streng monotone Funktion. Sei außerdem D′ := f (D) = [A, B] ⊂ R und g : D′ → R die Umkehrfunktion zu f . Wenn f in x ∈ D differenzierbar ist und f ′ (x) 6= 0 gilt, dann ist g in y := f (x) ∈ D′ differenzierbar und g ′ (y) = ′ 1 . f
g(y)
Beweis. Die Voraussetzungen und Satz 4.1.15 liefern die Stetigkeit der Umkehrfunktion g : D′ → R. Um die Differenzierbarkeit von g in y := f (x) ∈ D′ zu zeigen, untersuchen wir den Differenzenquotienten g(yynn)−g(y) , wobei −y (yn )n∈N eine gegen y konvergente Folge mit yn ∈ D′ und yn 6= y ist. Wegen der Stetigkeit von g konvergiert die durch xn := g(yn ) gegebene Folge (xn )n∈N gegen x. Weil f und g nach Satz 4.1.15 bijektiv sind, ist xn ∈ D und xn 6= x −x 1 = f (xxnn)−f f¨ ur alle n ∈ N. Da f ′ (x) 6= 0, ist somit g(yynn)−g(y) −y (x) = f (xn )−f (x) konvergent mit Grenzwert
1 f ′ (x)
=
f′
1 , g(y)
siehe Satz 3.2.13 (3.32).
xn −x
⊓ ⊔
Beispiel 4.2.11. (1) Die Logarithmusfunktion ln : R>0 → R ist als Umkehrfunktion von exp : R → R definiert. Wenn wir g(y) = ln(y) und
4.2 Differentialrechnung
227
f (x) = exp(x) setzen, erhalten wir wegen f ′ = f = exp aus Satz 4.2.10: 1 = 1 , oder anders geschrieben ln′ (y) = y exp ln(y)
d ln(x) 1 = . dx x (2) Die Funktion arctan : R → − π2 , π2 ist die Umkehrfunktion der Tangensfunktion tan : − π2 , π2 → R. Da tan′ (x) = cos21(x) , ergibt Satz 4.2.10 arctan′ (y) =
1 = cos2 arctan(y) . tan arctan(y) ′
Wenn x := arctan(y), dann ist y = tan(x) = 1−cos2 (x) cos2 (x) .
2
1 1+y 2
sin(x) cos(x) ,
also y 2 =
sin2 (x) cos2 (x)
1 und somit arctan (y) = 1+y 2. ′ 1 erhalten wir arcsin (x) = √1−x 2
Daher gilt cos (x) = (3) Mit Hilfe einer ¨ ahnlichen Rechnung −1 f¨ ur −1 < x < 1. −1 < x < 1 und arccos′ (x) = √1−x 2
=
′
f¨ ur
Definition 4.2.12. Wenn f : D → R eine in D differenzierbare Funktion ist, deren Ableitung f ′ : D → R in x0 ∈ D differenzierbar ist, dann heißt die 2 Ableitung von f ′ zweite Ableitung von f . Sie wird durch f ′′ (x0 ) = ddxf2 (x0 ) bezeichnet. Induktiv definiert man f¨ ur jedes n ≥ 2 die n-te Ableitung n f (n) (x0 ) = ddxnf (x0 ). Wir sagen f ist stetig differenzierbar (bzw. n-mal stetig differenzierbar), wenn f differenzierbar ist (bzw. n-mal differenzierbar ist) und f ′ (bzw. f (n) ) stetig ist. Einer der wichtigsten S¨ atze der Differentialrechnung ist der Mittelwertsatz. Sein Beweis wird durch das vorgelagerte Studium eines Spezialfalls vereinfacht. Satz 4.2.13 (Satz von Rolle4) Sei a < b und f : [a, b] → R eine stetige Funktion, die auf dem offenen Intervall (a, b) differenzierbar ist. Wenn f (a) = f (b) = 0, dann gibt es ein x0 ∈ (a, b) mit f ′ (x0 ) = 0 (Abb. 4.8). Beweis. Wenn f (x) = 0 f¨ ur alle x ∈ (a, b), dann ist f ′ (x) = 0 f¨ ur alle x ∈ (a, b) und nichts ist zu beweisen. Indem wir notfalls −f statt f betrachten, k¨ onnen wir annehmen, dass es ein x ∈ (a, b) mit f (x) > 0 gibt. Nach Satz 4.1.9 nimmt die Funktion f auf [a, b] ihr Maximum an. Sei x0 ∈ [a, b] ein Punkt mit maximalem f (x0 ). Dann ist f (x0 ) > 0, x0 ∈ (a, b) und f¨ ur alle x ∈ (a, b) gilt f (x) ≤ f (x0 ). Daher erhalten wir f (x) − f (x0 ) ≤ 0, falls x > x0 x − x0 4
und
f (x) − f (x0 ) ≥ 0, falls x < x0 . x − x0
Michel Rolle (1652–1719), franz¨ osischer Mathematiker.
228
4 Funktionen y f ′ (x0 ) = 0 b
a
x0
x
b
Abb. 4.8 Satz von Rolle
F¨ ur jede gegen x0 konvergente Folge (xn )n∈N>0 mit xn > x0 erhalten wir (x0 ) daher f ′ (x0 ) = limn→∞ f (xxnn)−f ≤ 0. F¨ ur gegen x0 konvergente Folgen −x0
(x0 ) ≥ 0. Damit mit xn < x0 ergibt sich hingegen f ′ (x0 ) = limn→∞ f (xxnn)−f −x0 ′ ist gezeigt, dass f (x0 ) = 0 ist und somit ist x0 der gesuchte Punkt. ⊓ ⊔
Satz 4.2.14 (Mittelwertsatz) Sei a < b und f : [a, b] → R eine stetige Funktion, die auf dem offenen Intervall (a, b) differenzierbar ist. Dann gibt es ein x0 ∈ (a, b) mit f (b) − f (a) = f ′ (x0 ) . b−a Beweis. Hier handelt es sich nur um eine gekippte“ Variante des vorigen ” Satzes, so auch der Beweis, vgl. Abb. 4.9. Wir definieren uns eine Hilfsfunky b
b
b
a
x0
b
x
Abb. 4.9 Mittelwertsatz der Differentialrechnung
tion h : [a, b] → R, welche die Voraussetzungen des Satzes von Rolle erf¨ ullt und die Gestalt h(x) = f (x) − r · x − s hat. Um h(a) = h(b) = 0 zu erhalten, (a) muss r · a + s = f (a) und r · b + s = f (b) gelten. Das ist f¨ ur r = f (b)−f und b−a
4.2 Differentialrechnung
229
(b) a s = f (a) − b−a erf¨ ullt. Nach dem Satz von Rolle f (b) − f (a) = bf (a)−af b−a ′ gibt es ein x0 ∈ (a, b) mit h (x0 ) = 0, d.h. f ′ (x0 ) − r = 0 und das bedeutet (a) . ⊓ ⊔ f ′ (x0 ) = r = f (b)−f b−a Bemerkung 4.2.15. Achten Sie genau auf die Voraussetzungen des Satzes! Es ist wichtig, dass die Funktion auf dem gesamten abgeschlossenen Intervall stetig ist, also auch in den Randpunkten. Ansonsten k¨onnte man eine neue Funktion konstruieren, indem man die Werte bei a oder b willk¨ urlich ab¨andert, f¨ ur die die Behauptung des Satzes dann nicht mehr gilt. Die Differenzierbarkeit in den Randpunkten wird dagegen nicht ben¨otigt. √ Dazu betrachten wird das Beispiel f (x) = x, f : [0, 1] → R. Da g(y) = y 2 in [0, 1] differenzierbar und g ′ (y) 6= 0 f¨ ur y ∈ (0, 1] gilt, ist f : (0, 1] → R nach Satz 4.2.10 differenzierbar. Da g : [0, 1] → [0, 1] streng monoton w¨achst, ist f : [0, 1] → R stetig. Die Funktion f : [0, 1] → R ist jedoch nicht differenzierbar √ in 0 ∈ [0, 1], denn f¨ ur jede Nullfolge (xn )n∈N mit xn ∈ (0, 1] gilt √
xn xn
√1 xn
√ √ x − 0 limn→∞ xnn −0
limn→∞ √1xn
√ xn − 0 xn −0
=
= = und somit ist = ∞, es liegt also bestimmte Divergenz und keine Konvergenz vor. Trotzdem k¨onnen wir den Mittelwertsatz anwenden und erhalten ein x0 ∈ (0, 1) mit f ′ (x0 ) = 1.
Bemerkung 4.2.16. Der Mittelwertsatz l¨ asst sich wie folgt verallgemeinern. Seien f, g : [a, b] → R stetig und in (a, b) differenzierbar, so dass g ′ (x) 6= 0 f¨ ur alle x ∈ (a, b) gilt. Dann ist g(b) 6= g(a) und es gibt ein x0 ∈ (a, b) mit f ′ (x0 ) f (b) − f (a) = ′ . g(b) − g(a) g (x0 ) Der Beweis ergibt sich, genau wie der des Mittelwertsatzes, aus dem Satz von Rolle mit der Hilfsfunktion h(x) = f (x) −
f (b) − f (a) g(x) − g(a) . g(b) − g(a)
Die beiden folgenden S¨ atze zeigen die N¨ utzlichkeit des Mittelwertsatzes. Satz 4.2.17 Sei a < b und f : [a, b] → R eine stetige Funktion, die auf dem offenen Intervall (a, b) differenzierbar ist. Dann gilt: (1) Wenn f ′ (x) = 0 f¨ ur alle x ∈ (a, b), dann ist f konstant. (2) Wenn es ein c ∈ R gibt, so dass f ′ (x) = c · f (x) f¨ ur alle x ∈ (a, b) gilt, dann gibt es ein d ∈ R mit f (x) = d · exp(c · x). Beweis. (1) Angenommen, f w¨ are nicht konstant, dann g¨abe es a′ , b′ mit ′ ′ ′ a ≤ a < b ≤ b und f (a ) 6= f (b′ ). Der Mittelwertsatz lieferte uns dann die ′ (a′ ) 6= 0, im WiderExistenz eines Punktes x ∈ (a′ , b′ ) mit f ′ (x) = f (bb)−f ′ −a′ spruch zur Voraussetzung.
230
4 Funktionen
(2) Sei F : [a, b] → R durch F (x) := f (x) · exp(−c · x) definiert. Dann ist F nach Satz 4.2.6 (3) in (a, b) differenzierbar und es gilt nach der Produktregel F ′ (x) = f ′ (x)·exp(−cx)+f (x)·exp(−cx)·(−c) = exp(−cx)· f ′ (x)−c·f (x) . Nach Voraussetzung ergibt sich daraus F ′ (x) = 0 f¨ ur alle x ∈ (a, b). Somit ist F (x) = d nach (1) f¨ ur ein d ∈ R, d.h. f (x) = d · exp(cx) f¨ ur alle x ∈ (a, b). ⊓ ⊔ Bemerkung 4.2.18. Die beiden Aussagen im Satz 4.2.17 sind auch f¨ ur Funktionen f : R → R richtig. Um das zu beweisen, betrachtet man die Einschr¨ankungen von f auf Intervalle [−n, n] f¨ ur alle n ∈ N. Satz 4.2.19 Sei a < b und f : [a, b] → R eine stetige Funktion, die auf dem offenen Intervall (a, b) differenzierbar ist. Wenn f ′ (x) > 0 f¨ ur alle x ∈ (a, b), dann ist f in [a, b] streng monoton wachsend. Beweis. Angenommen, f w¨ are nicht streng monoton wachsend, dann g¨abe es a′ , b′ mit a ≤ a′ < b′ ≤ b und f (a′ ) ≥ f (b′ ). Der Mittelwertsatz f¨ ur f auf dem Intervall [a′ , b′ ] liefert uns die Existenz von x ∈ (a′ , b′ ) mit ′ (a′ ) f ′ (x) = f (bb)−f ≤ 0, im Widerspruch zur Voraussetzung. ⊓ ⊔ ′ −a′ Bemerkung 4.2.20. Ebenso beweist man die folgenden Aussagen: f ′ (x) ≥ 0 f¨ ur alle x ∈ (a, b) =⇒ f monoton wachsend in [a, b] ′ f (x) ≤ 0 f¨ ur alle x ∈ (a, b) =⇒ f monoton fallend in [a, b]
f ′ (x) < 0 f¨ ur alle x ∈ (a, b) =⇒ f streng monoton fallend in [a, b] Bemerkung 4.2.21. Mit Hilfe von Satz 4.2.19 lassen sich die S¨atze 4.1.15 und 4.2.10 mit leichter nachpr¨ ufbaren Voraussetzungen wie folgt formulieren: Wenn f : [a, b] → R eine stetige, auf dem offenen Intervall (a, b) differenzierbare Funktion mit stetiger Ableitung f ′ ist, f¨ ur die f ′ (x) 6= 0 f¨ ur alle x ∈ (a, b) gilt, dann existiert die Umkehrfunktion g von f . Sie ist differenzierbar und somit auch stetig in (a, b) und erf¨ ullt g ′ (y) = ′ 1 . f
g(y)
Bemerkung 4.2.22. Die Umkehrung von Satz 4.2.19 gilt nicht. So ist zum Beispiel die Funktion f (x) = x3 auf dem Intervall x ∈ [−1, 1] streng monoton wachsend, aber f ′ (0) = 0. Als N¨achstes wollen wir uns der Untersuchung der Extremwerte von Funktionen zuwenden. Viele Optimierungsprobleme aus dem Alltagsleben lassen sich mathematisch als Extremwertproblem modellieren. F¨ ur differenzierbare Funktionen gibt es effektive Methoden zur Bestimmung der Extremwerte, f¨ ur die wir hier die grundlegenden Techniken bereitstellen.
4.2 Differentialrechnung
231
Definition 4.2.23. Sei D ⊂ R und f : D → R eine Funktion. Wir sagen, f hat in x0 ∈ D ein lokales Maximum, falls ∃ ε > 0 ∀ x ∈ (x0 − ε, x0 + ε) ∩ D : f (x) ≤ f (x0 ) gilt (bzw. lokales Minimum, wenn f (x) ≥ f (x0 )). Außerdem sagt man, f hat in x0 ∈ D ein lokales Extremum, wenn dort ein lokales Maximum oder lokales Minimum vorliegt. Bemerkung 4.2.24. Wir hatten fr¨ uher (Satz 4.1.9) bereits den Begriff des (globalen) Maximums bzw. Minimums kennen gelernt. Der Unterschied ist, dass bei einem globalen Maximum x0 die Ungleichung f (x) ≤ f (x0 ) f¨ ur alle x ∈ D gelten muss, nicht nur f¨ ur x in einer kleinen Umgebung von x0 . Beispiel 4.2.25. (1) Die Funktion f : [−1, 1] → R, f (x) = x2 hat ein lokales Maximum bei ±1 und bei 0 ein lokales Minimum. Ebenso hat f ihr globales Maximum bei ±1 und ihr globales Minimum bei 0. y 1 b
b
b
−1
1
x
(2) Ein graphisches Beispiel: y b
lokales Maximum
Maximum b
b
lokales Minimum
x b
lokales Minimum
b
Minimum (3) Die Sinusfunktion sin : R → R hat ihre lokalen und globalen Maxima bei x = π2 + 2kπ und ihre Minima bei x = 3π 2 + 2kπ. (4) Die Tangensfunktion tan : − π2 , π2 → R hat weder lokale noch globale Extremwerte. Satz 4.2.26 Sei a < b und f : (a, b) → R eine differenzierbare Funktion. (1) Wenn f in x ∈ (a, b) ein lokales Extremum besitzt, dann ist f ′ (x) = 0. (2) Wenn f ′ (x) = 0 f¨ ur ein x ∈ (a, b), in dem auch f ′′ existiert und f ′′ (x) < 0 ist, dann ist x ein lokales Maximum von f . Wenn f ′ (x) = 0, f ′′ (x) > 0, dann liegt ein lokales Minimum vor.
232
4 Funktionen
Beweis. (1) Das haben wir bereits beim Beweis des Satzes von Rolle gezeigt. (2) Falls n¨otig gehen wir zu −f u ussen also nur den Fall f ′′ (x) < 0 ¨ ber, wir m¨ f ′ (y)−f ′ (x) ′′ , folgt aus f ′′ (x) < 0, dass es ein betrachten. Da f (x) = limy→x y−x ′
′
(x) ε > 0 gibt, so dass f¨ ur alle y ∈ (x−ε, x+ε) mit y 6= x gilt: f (y)−f < 0. Also y−x ′ ′ muss f¨ ur solche y, f¨ ur die zus¨ atzlich y −x > 0 ist, f (y)−f (x) > 0 sein. Daher ist f¨ ur y ∈ (x − ε, x) stets f ′ (y) > f ′ (x) = 0. Ebenso ist f ′ (y) < f ′ (x) = 0 f¨ ur y ∈ (x, x + ε). Nach Satz 4.2.19 ist daher f auf (x − ε, x) streng monoton wachsend und auf (x, x + ε) streng monoton fallend. Das heißt, f hat in x ein lokales Maximum. ⊓ ⊔
Bemerkung 4.2.27. Auch hier gilt nicht die Umkehrung von Teil (1) oder (2). So hat zum Beispiel die Funktion f (x) = x4 ein lokales Minimum in x = 0, aber es gilt f ′ (0) = f ′′ (0) = 0. Ebenso ist f¨ ur f (x) = x3 zwar ′ f (0) = 0, aber x = 0 ist kein lokaler Extrempunkt. Als weitere Anwendung des Mittelwertsatzes beweisen wir die Regel von de l’Hospital5 zur Berechnung von Grenzwerten. Satz 4.2.28 (Regel von de l’Hospital) Seien f, g : (a, b) → R differenzierbar, −∞ ≤ a < b ≤ ∞. F¨ ur alle x ∈ (a, b) sei g ′ (x) 6= 0 und es existiere ′ (x) ∈ R. Dann gilt der einseitige Grenzwert c := x→a lim fg′ (x) x>a
(1) Falls x→a lim f (x) = x→a lim g(x) = 0, dann ist g(x) 6= 0 f¨ ur alle x ∈ (a, b) und x>a
es gilt
lim f (x) x→a g(x) x>a
x>a
= c.
(2) Falls x→a lim f (x) = x→a lim g(x) = ±∞, dann ist g(x) 6= 0 f¨ ur x ∈ (a, b), und x>a
x>a
(x) = c. es gilt x→a lim fg(x) x>a
Analoge Aussagen gelten f¨ ur den Grenz¨ ubergang nach b. Beweis. Wir wollen hier nur (1) beweisen. Aus dem verallgemeinerten Mittelwertsatz (Bemerkung 4.2.16) folgt, dass zu jedem x ∈ (a, b) ein tx ∈ (a, x) ′ (tx ) (x) = fg′ (t . Wenn x gegen a konvergiert, muss auch tx gegen existiert mit fg(x) x) a konvergieren und es folgt die Behauptung. ⊓ ⊔ Beispiel 4.2.29. (1) limx→0 sin(x) = limx→0 cos(x) = 1, da sin′ = cos und x 1 x′ = 1. 1 = limx→0 −x1 = limx→0 (−x) = 0. (2) limx→0 (x ln(x)) = limx→0 ln(x) 1 x
x2
5 Guillaume Francois Antonie, Marquis de L’Hospital (1661–1704), franz¨ osischer Mathematiker.
4.2 Differentialrechnung
233
Zum Abschluss stellen wir das Newton-Verfahren zur Berechnung von Nullstellen einer Funktion vor. Sei f : [a, b] → R stetig differenzierbar mit f ′ (x) 6= 0 f¨ ur alle x ∈ [a, b]. Sei f (a) < 0 und f (b) > 0. Dann besitzt f nach dem Zwischenwertsatz (Satz 4.1.6) eine Nullstelle t ∈ (a, b). Das Newton Verfahren zur n¨aherungsweisen ¨ Berechnung einer Nullstelle beruht auf folgender Uberlegung (Abb. 4.10). Als ersten N¨aherungswert w¨ ahlt man irgendein x0 ∈ [a, b]. Die Tangente an den Graphen von f im Punkt (x0 , f (x0 )) hat die Gleichung y = f (x0 ) + f ′ (x0 )(x − x0 ). Ihr Schnittpunkt mit der x-Achse ergibt sich als f (x0 ) . f ′ (x0 )
x1 = x0 −
Jetzt verf¨ahrt man mit x1 analog. Sei xn definiert, dann schneidet die Tann) gente im Punkt (xn , f (xn )) die x-Achse an der Stelle xn+1 = xn − ff′(x (xn ) . Falls y
b
b
x2
x1
x0
x
Abb. 4.10 Das Newton-Verfahren
die Folge (xn )n∈N gegen t ∈ (a, b) konvergiert, dann folgt aus der Stetigkeit von f und f ′ , dass t=t−
f (t) , also f (t) = 0 gilt. f ′ (t)
Das Verfahren, d.h. die Folge (xn )n∈N , muss im Allgemeinen nicht konvergieren. Ohne Beweis geben wir folgenden Satz an, der die Konvergenz des Verfahrens impliziert.
234
4 Funktionen
Satz 4.2.30 Sei f : [a, b] → R zweimal differenzierbar, f (a) < 0, f (b) > 0 und f ′′ (x) ≥ 0 f¨ ur alle x ∈ [a, b]. Dann gilt: (1) Es gibt genau ein t ∈ [a, b] mit f (t) = 0. (2) Ist x0 ∈ [a, b], f (x0 ) ≥ 0, so ist die f¨ ur n ≥ 0 induktiv durch xn+1 = xn −
f (xn ) f ′ (xn )
definierte Folge wohldefiniert und sie konvergiert gegen die Nullstelle t. Beispiel 4.2.31. (1) Sei f : [0, 2] → R die durch f (x) = x2 − 2 definierte Funktion. Dann setzen wir x0 = 1 und erhalten mit x2n−1 − 2 2 1 xn = xn−1 − xn−1 + = 2xn−1 2 xn−1 √ die Werte x1 = 1,5, x2 = 1,4167, x3 = 1,4142 als N¨aherung f¨ ur 2. (2) Der Fall f (x) = x2 − a wurde in Satz 3.2.28 behandelt.
Aufgaben ¨ Ubung 4.8. Berechnen Sie die Ableitung der folgenden Funktionen: (a) f : R>0 → R mit f (x) = xx ln(x) (b) f : R → R mit f (x) = arccot(x) ¨ Ubung 4.9. Untersuchen Sie Differenzierbarkeit und Stetigkeit der Funktion f : R → R, die wie folgt definiert ist: ( |x| + 1 f¨ ur x ≤ 0 f (x) := cos(x) f¨ ur x > 0 . ¨ Ubung 4.10. Beweisen Sie, dass es genau eine reelle Zahl x mit cos(x) = 2x − 3 gibt. 1 ¨ − x1 . Ubung 4.11. Berechnen Sie limx→0 sin(x)
√ ¨ Ubung 4.12. Sei f : R≥0 → R definiert durch f (x) = x e−x . Bestimmen Sie die lokalen Extrema von f und alle Intervalle, auf denen f eine stetige Umkehrfunktion besitzt. ¨ Ubung 4.13. Berechnen Sie limx→ π2 x − π2 tan(x).
4.3 Potenzreihen
235
¨ Ubung 4.14. Eine Funktion f : [a, b] → R ist in x0 ∈ [a, b] rechtsseitig (bzw. linksseitig) differenzierbar, wenn der rechtsseitige (bzw. linksseitige) (x0 ) existiert. Diesen Grenzwert Grenzwert des Differenzenquotienten f (x)−f x−x0 nennt man auch rechtsseitige bzw. linksseitige Ableitung. (a) Beweisen Sie, dass die Funktion f (x) = |x| in 0 rechtsseitig und linksseitig differenzierbar ist. √ (b) Zeigen Sie, dass die Funktion f (x) = x in 0 nicht rechtsseitig differenzierbar ist.
4.3 Potenzreihen Wir haben bisher nur eine sehr eingeschr¨ ankte Menge von Funktionen kennengelernt: Polynomfunktionen, trigonometrische Funktionen, die Exponentialfunktion und deren Umkehrfunktionen, bzw. weitere Funktionen, die man durch Addition, Multiplikation, Division oder Komposition daraus gewinnen kann. Funktionen, die sich durch Potenzreihen darstellen lassen, bilden eine sehr große Klasse von Funktionen, die f¨ ur die meisten praktischen Belange ausreichend ist. Durch die Betrachtung von Potenzreihen erweitern wir einerseits das Repertoire, erhalten aber andererseits auch neue Methoden zum Studium und zur Approximation bekannter Funktionen. Definition P∞ 4.3.1. Sei (cn )n∈N eine Folge reeller Zahlen und a ∈ R. Der Ausdruck n=0 cn (x − a)n heißt Potenzreihe um a (mit der Variablen x).
Wenn man x als formale Variable betrachtet und keine reelle Zahl daf¨ ur einsetzt, somit Konvergenzfragen außer Acht l¨ asst, dann sprechen wir von einer formalen Potenzreihe. Die formalen Potenzreihen bilden einen Ring (eine mathematische Struktur, die im Teil I studiert wurde). Wir werden hier nicht die Eigenschaften dieses Ringes untersuchen, sondern die Frage, f¨ ur welche x ∈ R eine solche Potenzreihe konvergiert. P∞ n Satz 4.3.2 Wenn die Reihe ur eine reelle Zahl x0 6= a n=0 cn (x − a) f¨ konvergiert, dann konvergiert sie absolut f¨ ur alle x ∈ R mit |x − a| < |x0 − a|. P∞ n Beweis. Da die Reihe n=0 cn (x0 − a) nach Voraussetzung konvergiert, n muss die Folge (cn (x0 − a) )n∈N eine Nullfolge, insbesondere also beschr¨ankt sein (siehe Satz 3.3.6). Das heißt, es gibt ein M ∈ R mit |cn (x0 − a)n | < M ur alle ur beliebiges x ∈ R mit |x − a| < |x0 − a| gilt dann 0 ≤ q := f¨ n ≥ 0. F¨ x−a n ur ein solches x folgt |cn (x − a)n | = |cn (x0 − a)n | · xx−a x0 −a < 1. F¨ < 0 −a P∞ n n M · q . Die absolute Konvergenz von cn (x − a) ergibt sich damit n=0 P n aus der Konvergenz der geometrischen Reihe ∞ ur |q| < 1 und dem n=0 q f¨ Majorantenkriterium (Satz 3.3.11). ⊓ ⊔
236
4 Funktionen
Definition 4.3.3. Die reelle Zahl oder das Symbol ∞ ) ( X ∞ n cn (x − a) konvergiert r := sup |x − a| n=0
heißt Konvergenzradius der Potenzreihe
P∞
n=0 cn (x
− a)n .
P∞ Beispiel 4.3.4. (1) Die geometrische Reihe n=0 xn hat den Konvergenzradius 1, d.h. sie konvergiert f¨ ur alle x ∈ (−1, 1). Hier ist a = 0. P∞ absolut n (2) Die Exponentialreihe n=0 xn! hat Konvergenzradius ∞, sie konvergiert absolut f¨ ur alle x ∈ R. n| (3) Wenn der Grenzwert r := limn→∞ |c|cn+1 | existiert oder ∞ ist, dann ist der P∞ Konvergenzradius der Reihe n=0 cn (x−a)n gleich r. Das ergibt sich mit Hilfe des Quotientenkriteriums, Satz 3.3.11 (2). P n Satz 4.3.5 Sei r > 0P der Konvergenzradius der Reihe ∞ n=0 cn (x−a) , dann ∞ n ist die durch f (x) := n=0 cn (x−a) gegebene Funktion f : (a−r, a+r) → R differenzierbar. Wenn r = ∞, setzen wir (a − r, a + r) R. P P= ∞ 1 n+1 n−1 Es gilt f ′ (x) = ∞ und F (x) := n=1 ncn (x − a) n=0 n+1 cn (x − a) ′ erf¨ ullt F (x) = f (x). Beide Potenzreihen haben ebenfalls Konvergenzradius r. Dieser Satz wird erst in Abschnitt 4.5 (Folgerungen 4.5.13 und 4.5.14) bewiesen, da f¨ ur einen einfachen Beweis Kenntnisse u ¨ ber Funktionenfolgen und die Integralrechnung ben¨ otigt werden. Bemerkung 4.3.6. Aus Satz 4.3.5 ergibt sich sofort, dass eine durch eine Potenzreihe gegebene Funktion f beliebig oft differenzierbar ist. Im Konvergenzintervall d¨ urfen wir gliedweise differenzieren und integrieren. Der folgende Satz gibt uns Aufschluss dar¨ uber, unter welchen Bedingungen sich eine Funktion als Potenzreihe darstellen l¨asst. Satz 4.3.7 Sei D = [A, B] ⊂ R ein Intervall (A < B) und f : D → R (n + 1)-mal stetig differenzierbar6 . Dann gilt f¨ ur alle a, x ∈ D: f (x) =
n X f (k) (a) k=0
wobei Rn+1 (x) =
k!
(x − a)k + Rn+1 (x)
(x−a)n+1 (n+1) (c) (n+1)! f
Taylor-Formel 7 ,
f¨ ur ein c ∈ (a, x).
6
das heißt, f ist (n + 1)-mal differenzierbar und f (n+1) ist stetig.
7
Brook Taylor (1685–1731), englischer Mathematiker.
4.3 Potenzreihen
237
Beweis. F¨ ur n = 0 ist dies der Mittelwertsatz. Sei g(t) := f (x) −
n X f (k) (t)
k=0
k!
(x − t)k −
(x − t)n+1 d, (n + 1)!
wobei d durch die Gleichung g(a) = 0 definiert ist. Offenbar ist g(x) = 0. Nach dem Mittelwertsatz existiert somit ein c zwischen a und x mit g ′ (c) = 0. Da g ′ (t) = −
1 1 (n+1) f (t)(x − t)n + (x − t)n d , n! n!
folgt f (n+1) (c) = d.
⊓ ⊔
Definition 4.3.8. Wenn f : D → R beliebig oft differenzierbar ist, dann P∞ (k) heißt k=0 f k!(a) (x − a)k Taylorreihe von f mit Entwicklungspunkt a.
Bemerkung 4.3.9. (1) Der Konvergenzradius einer Taylorreihe kann 0 sein. (2) Wenn der Konvergenzradius der Taylorreihe einer Funktion f positiv ist, dann muss diese Reihe nicht gegen f (x) konvergieren. P∞ (3) Wenn eine Funktion f durch eine Potenzreihe n=0 cn (x − a)n gegeben ist, dann ist diese Potenzreihe die Taylorreihe von f . ( 1 e− x2 x 6= 0 ist beliebig oft Beispiel 4.3.10. (1) Die Funktion f (x) = 0 x=0 differenzierbar und es gilt f (n) (0) = 0 f¨ ur alle n ≥ 0, ihre Taylorreihe ist also gleich 0. (2) Die Logarithmusreihe ist die Taylorreihe der durch f (x) = ln(1 + x) gegebenen Funktion f : R>−1 → R. Die n-te Ableitung dieser Funktion ist gleich (−1)n−1 (n − 1)!(x + 1)−n . Damit ergibt sich mit der Taylor-Formel ln(x + 1) =
n X
1 xn+1 (−1)k−1 xk + (−1)n+1 k (n + 1)(c + 1)n+1
k=0
x < 1. Daraus folgt f¨ ur ein geeignetes c ∈ (0, x). Falls x ≥ 0 ist, gilt 0 ≤ c+1 limn→∞ Rn+1 (x) = 0. Das gilt auch f¨ ur x ∈ (−1, 0) und wir erhalten f¨ ur x ∈ (−1, 1)
ln(1 + x) =
∞ X
(−1)n−1
n=1
xn x2 x3 x4 x5 =x− + − + − ... . n 2 3 4 5
(3) Die Sinusreihe (vgl. 4.1.22) lautet sin(x) =
P∞
k x2k+1 k=0 (−1) (2k+1)! P∞ k x2k k=0 (−1) (2k)! α
f¨ ur x ∈ R.
f¨ ur x ∈ R. (4) Die Kosinusreihe (vgl. 4.1.22) lautet cos(x) = (5) Die binomische Reihe ist die Taylorreihe des Binoms (1 + x)Pf¨ ur α ∈ R. ∞ Sie hat Konvergenzradius 1. F¨ ur x ∈ (−1, 1) gilt (1 + x)α = k=0 αk xk ,
238
4 Funktionen
wobei αk := α(α−1)·...·(α−k+1) . Das hatte schon Newton8 im Jahre 1669 k! herausgefunden. Speziell gilt: ∞ X √ 1+x= k=0
1 2 xk = 1 + 1 x − 1 x2 + 3 x3 − 15 x4 + . . . . 2 8 48 384 k
(6) Die Arcustangensreihe (vgl. 4.4.24) arctan(x) = Konvergenzradius 1.
P∞
k x2k+1 k=0 (−1) 2k+1
hat den
Aufgaben ¨ Ubung 4.15. Bestimmen Sie die Konvergenzradien der folgenden Potenzreihen: ∞ ∞ P P x2k 3k (x − 2)k (−1)k (b) (a) (2k)! k=0 k=0 √ ¨ Ubung 4.16. Bestimmen Sie die Taylorreihe von f (x) = 1 + x2 mit Entwicklungspunkt 0 bis zur Ordnung 3. ¨ Ubung 4.17. Zeigen Sie ∞ x2k+1 P 1+x (a) ln =2 f¨ ur |x| < 1. 1−x k=0 2k + 1 ∞ x2k P exp(x) + exp(−x) = f¨ ur x ∈ R. (b) 2 k=0 (2k)!
¨ Ubung 4.18. Sei (an )n∈N eine monoton fallende Nullfolge. Zeigen Sie, dass P∞ der Konvergenzradius der Potenzreihe n=0 an xn gr¨oßer oder gleich 1 ist.
4.4 Integralrechnung Als Perle der Analysis kann man den sogenannten Hauptsatz der Differentialund Integralrechnung (Satz 4.4.15) bezeichnen. Er sagt im Wesentlichen aus, dass Differentiation und Integration zueinander inverse Operationen sind. Dies war bereits vor den grundlegenden Arbeiten von Newton8 und Leibniz9 , die als V¨ater der Differential- und Integralrechnung gelten, bekannt. Die rigorose Grundlegung in moderner Sprache erfolgte schließlich durch Cauchy10 . In diesem Abschnitt werden wir einen Integralbegriff f¨ ur eine spezielle Klasse 8
Isaac Newton (1643–1727), englischer Mathematiker.
9
Gottfried Wilhelm von Leibniz (1646–1716), deutscher Mathematiker. Augustin Louis Cauchy (1789–1857), franz¨ osischer Mathematiker.
10
4.4 Integralrechnung
239
von Funktionen einf¨ uhren, den Hauptsatz beweisen und einige interessante Anwendungen (Wallissches Produkt und Stirlingsche Formel) studieren. In der Informatik ist die Integralrechnung eine wichtige mathematische Grundlage f¨ ur verschiedene Signalverarbeitungstechniken. Die anschauliche Definition, die dem Integralbegriff zugrunde liegt, ist die Folgende: Wenn f : [a, b] → R eine Funktion mit f (x) ≥ 0 f¨ ur alle x ∈ [a, b] Rb ist, dann soll das Integral a f (x)dx die Fl¨ ache zwischen x-Achse, den durch x = a beziehungsweise x = b definierten Senkrechten und dem Graphen Γf von f sein (Abb. 4.11). y Γf
Fl¨ ache =
Rb a
f (x)dx
a
b
x
Abb. 4.11 Das bestimmte Integral
Diese anschauliche Definition suggeriert die folgenden grundlegenden Eigenschaften, denen eine mathematisch exakte Definition des Integralbegriffes gen¨ ugen soll: Rb (1) Rechtecksfl¨ache (Abb. 4.12): a 1 · dx = b − a; y
Rb a
a
1dx
b
x
Abb. 4.12 Rechtecksfl¨ ache
Rb Rt Rb (2) Zerschneiden (Abb. 4.13): a f (x)dx = a f (x)dx + t f (x)dx a < t < b; Rb (3) Positivit¨at: f (x) ≥ 0 ∀ x ∈ [a, b] =⇒ a f (x)dx ≥ 0;
f¨ ur
240
4 Funktionen y
Rt a
Rb
f (x)dx
a
t
t
f (x)dx
b
x
Abb. 4.13 Vertikales Zerschneiden
(4) Linearit¨at:
Rb Rb Rb f (x) + g(x) dx = a f (x)dx + a g(x)dx a Rb Rb (λf )(x)dx = λ · a f (x)dx. a
und
Rb Aus (3) und (4) folgt: Wenn f (x) ≤ 0 f¨ ur alle x ∈ [a, b], so ist a f (x)dx ≤ 0. Im Folgenden werden wir zun¨ achst festlegen, f¨ ur welche Klasse von Funktionen f wir u ¨berhaupt ein Integral definieren wollen. Danach werden wir eine mathematisch exakte Definition des Integrals geben, wobei wir wieder auf den Grenzwertbegriff zur¨ uckgreifen. Schließlich beweisen wir die vier oben aufgef¨ uhrten Eigenschaften. Definition 4.4.1. Sei a < b und f : [a, b] → R eine Funktion. Wir nennen f st¨ uckweise stetig, wenn es endlich viele Punkte x0 , x1 , . . . , xn mit a = x0 < x1 < · · · < xn = b gibt, so dass f in jedem der Intervalle (xi−1 , xi ) f¨ ur 1 ≤ i ≤ n stetig ist und zu einer stetigen Funktion fi : [xi−1 , xi ] → R fortsetzbar ist. Das heißt, dass stetige Funktionen fi : [xi−1 , xi ] → R existieren, die mit f auf den offenen Intervallen (xi−1 , xi ) u ¨ bereinstimmen. Beispiel 4.4.2. (1) Jede stetige Funktion f : [a, b] → R ist st¨ uckweise stetig. (2) Wenn g : [a, b] → R stetig ist, a = x0 < x1 < · · · < xn = b beliebige Punkte sind und f dadurch entsteht, dass man g an den Stellen x0 , x1 , . . . , xn beliebig ab¨andert, dann ist f st¨ uckweise stetig. ur x ∈ [0, 1] und f (0) = 0 ist (3) Die Funktion f : [0, 1] → R mit f (x) := x1 f¨ nicht st¨ uckweise stetig, da limx→0 f (x) = ∞. (4) Seien a = x0 < x1 < · · · < xn = b beliebig und ci ∈ R (1 ≤ i ≤ n) beliebige reelle Zahlen. Dann heißt jede Funktion T : [a, b] → R mit T (x) = ci falls xi−1 < x < xi eine Treppenfunktion. Die Werte T (xi ), 0 ≤ i ≤ n sind dabei beliebig. Jede Treppenfunktion ist st¨ uckweise stetig. Wir werden f¨ ur alle st¨ uckweise stetigen Funktionen ein Integral definieren. Wir beginnen dabei mit dem einfachsten Fall, den Treppenfunktionen. Sei T : [a, b] → R eine Treppenfunktion mit T (x) = ci f¨ ur xi−1 < x < xi , wobei a = x0 < x1 < · · · < xn = b. Dann definieren wir das Integral von T
4.4 Integralrechnung
241
Z
b
T =
a
Z
b
T (x)dx :=
a
n X i=1
ci · (xi − xi−1 ) .
Dies ist die vorzeichenbehaftete Fl¨ ache unter der Treppe T , genauso wie wir es anschaulich haben wollen. Die Idee f¨ ur die allgemeine Definition besteht darin, zu versuchen, beliebige st¨ uckweise stetige Funktionen durch Treppenfunktionen so zu approximieren, dass man die gew¨ unschte Fl¨ache beliebig genau erreicht. Dazu dient der folgende Satz. Satz 4.4.3 F¨ ur jede st¨ uckweise stetige Funktion f : [a, b] → R und jedes ε > 0 gibt es eine Unterteilung a = x0 < x1 < · · · < xn = b des Intervalls [a, b] und zwei dazu passende Treppenfunktionen T+ und T− , so dass f¨ ur alle 1 ≤ i ≤ n und alle x ∈ (xi−1 , xi ) die Ungleichungen T− (x) ≤ f (x) ≤ T+ (x) und |T+ (x) − T− (x)| ≤ ε gelten (Abb. 4.14). y
T+
T−
x0
x1
x2
x3
x4
x
Abb. 4.14 T− (x) ≤ f (x) ≤ T+ (x)
Beweis. Es gen¨ ugt, diesen Satz f¨ ur stetiges f : [a, b] → R zu beweisen, denn wir k¨onnen bei einer st¨ uckweise stetigen Funktion die Treppenfunktionen der endlich vielen Teilst¨ ucke einfach zusammensetzen. Hierbei ist wichtig, dass wir bei der Definition der st¨ uckweisen Stetigkeit gefordert haben, dass es stetige Fortsetzungen auf die abgeschlossenen Teilintervalle [xi−1 , xi ] gibt. Sei nun f : [a, b] → R stetig und ε > 0 beliebig. Dann gibt es ein δ > 0, so dass f¨ ur x, y ∈ [a, b] mit |x − y| < δ stets |f (x) − f (y)| < 2ε gilt. Diese
242
4 Funktionen
Eigenschaft von f kennen wir als gleichm¨aßige Stetigkeit (Def. 4.1.12), da das δ nur noch von ε und nicht mehr von y ∈ [a, b] abh¨angt. Nun definieren wir die Punkte xi durch ¨ aquidistante Unterteilung des Intervalls [a, b], d.h. n ∈ N wird so gew¨ ahlt, dass n · δ > b − a (Archimedisches ur 0 ≤ i ≤ n. Dann ist xi+1 − xi = b−a Axiom) und xi := a + i · b−a n , f¨ n < δ. Sei zus¨atzlich ti ∈ (xi−1 , xi ) beliebig gew¨ ahlt f¨ ur 1 ≤ i ≤ n (z.B. der Mittelpunkt dieses Intervalls). Wir setzen ci := f (ti ), dann ist f¨ ur x ∈ (xi−1 , xi ) stets |x − ti | < δ, also |f (x) − f (ti )| = |f (x) − ci | < ε2 , d.h. ci − 2ε < f (x) < ci + 2ε . Mit T± (x) := ci ± 2ε f¨ ur x ∈ (xi−1 , xi ) haben wir somit die gew¨ unschten Treppenfunktionen erhalten. Sie erf¨ ullen sogar |T+ (x) − T− (x)| = ε f¨ ur alle x ∈ (xi−1 , xi ). ⊓ ⊔ Bemerkung 4.4.4. F¨ ur Treppenfunktionen T+ , T− , die T+ (x) − T− (x) ≤ ε Rb Rb erf¨ ullen, gilt 0 ≤ a T+ − a T− ≤ ε · (b − a).
Zur Definition des Integrals betrachten wir zwei Mengen: T+ ist Treppenfunktion zu einer Unterteilung R P b + (f ) := a T+ a = x0 < x1 < · · · < xn = b, so dass ∀ i ≥ 1 ∀ x ∈ (xi−1 , xi ) : f (x) ≤ T+ (x) gilt. und
P
− (f )
:=
R
b a
T−
T− ist Treppenfunktion zu einer Unterteilung . a = x0 < · · · < xn = b, so dass ∀ i ≥ 1 ∀ x ∈ (xi−1 , xi ) : f (x) ≥ T− (x) gilt.
P P Lemma 4.4.5 F¨ ur A+ ∈ + (f P A+ ≥ A− . P) und A− ∈ − (f ) gilt stets: Somit existieren I+ (f ) := inf + (f ) und I− (f ) := sup − (f ). Es gilt I+ (f ) = I− (f ). P P Beweis. Seien T+ ∈ + (f ) und T− ∈ − (f ) beliebige Treppenfunktionen und sei a = x0 < x1 < · · · < xn = b die Vereinigung der beiden Unterteilungen zu diesen Treppenfunktionen. Da dann f¨ ur alle i ≥ 1 und x ∈ (xi−1 , xi ) Rb Rb T− (x) ≤ f (x) ≤ T+ (x) gilt, folgt P aus der Definition sofort T ≤ T . − a a + P Da nach Satz 4.4.3 beide Mengen (f ) und (f ) nicht leer sind, ist somit + − P P (f ) nach oben beschr¨ a nkt. Daher existiert I (f ) nach unten und + (f ) − + und I− (f ) und es gilt I+ (f ) ≥ I− (f ). Schließlich gibt es zu jedem n > 0 nach Rb Rb P Satz 4.4.3 Treppenfunktionen T± ∈ ± (f ), so dass 0 ≤ a T+ − a T− ≤ n1 1 ist (man w¨ahle ε = n·(b−a) ). Das liefert schließlich I+ (f ) = I− (f ). ⊓ ⊔ Definition 4.4.6. F¨ ur jede st¨ uckweise stetige Funktion f : [a, b] → R heißt Rb Rb f = f (x)dx := I (f ) = I + − (f ) das bestimmte Integral von f . a a
4.4 Integralrechnung
243
Bemerkung 4.4.7. Diese Definition kann man auf eine gr¨oßere Klasse von Funktionen ausdehnen. F¨ ur jede beschr¨ ankte Funktion f : [a, b] → R k¨ onnen wir (wie in Lemma 4.4.5) I+ (f ) und I− (f ) definieren. Stets gilt I+ (f ) ≥ I− (f ). Man nennt eine beschr¨ ankte Funktion f integrierbar , wenn Rb I+ (f ) = I− (f ) ist, und schreibt a f (x)dx = I+ (f ) = I− (f ). In diesem Sinne haben wir im Lemma 4.4.5 bewiesen, dass eine st¨ uckweise stetige Funktion integrierbar ist. Die Klasse der beschr¨ ankten integrierbaren Funktionen umfasst viel mehr als nur st¨ uckweise stetige Funktionen. Bemerkung 4.4.8. Mit den bisherigen Resultaten l¨asst sich leicht zeigen, Rb dass wir a f durch sogenannte Riemannsche Summen 11 approximieren k¨ onnen, das heißt, dass es f¨ ur jedes ε > 0 ein δ > 0 gibt, so dass f¨ ur jede Unterteilung a = x0 < · · · < xn = b, f¨ ur die |xi+1 − xi | < δ gilt, f¨ ur beliebi Pn R b ge ti ∈ (xi−1 , xi ) die Ungleichung a f (x)dx − i=1 f (ti ) · (xi − xi−1 ) < ε erf¨ ullt ist. Das auf diese Weise eingef¨ uhrte Integral nennt man auch Riemannsches Integral. Satz 4.4.9 (Rechenregeln) Seien f, g : [a, b] → R st¨ uckweise stetige Funktionen, a < t < b und λ, k ∈ R beliebig. Dann gilt: Rb (1) a k · dx = k · (b − a). Rb Rt Rb (2) a f = a f + t f . Rb Rb Rb Rb Rb (3) a (f + g) = a f + a g und a λf = λ · a f . Rb Rb (4) Wenn f (x) ≥ g(x) f¨ ur alle x ∈ [a, b], so ist a f (x)dx ≥ a g(x)dx. Beweis. (1) Die konstante Funktion f (x) = k ist selbst eine Treppenfunktion. Rb Aus Lemma 4.4.5 folgt, dass a T = I+ (T ) = I− (T ) f¨ ur jede Treppenfunktion T gilt, daher die Behauptung. (2) Dies folgt aus der entsprechenden Regel f¨ ur Treppenfunktionen, die offensichtlich wahr ist. (3) F¨ ur Treppenfunktionen sind diese Gleichungen leicht einzusehen. Wenn T1 und T2 Treppenfunktionen sind, f¨ ur die f (x) ≤ T1 (x) und g(x) ≤ T2 (x) außerhalb der Unterteilungspunkte gilt, dann ist f (x) + g(x) ≤ T1 (x) + T2 (x) und λg(x) ≤ λT1 (x). Da die behaupteten Gleichungen f¨ ur Treppenfunktionen gelten, ergibt sich I+ (f ) + I+ (g) ≥ I+ (f + g) und λI+ (g) ≥ I+ (λg). Analog sieht man I− (f ) + I− (g) ≤ I− (f + g) und λI− (g) ≤ I− (λg). Die Behauptung folgt nun aus Definition 4.4.6, da auch f + g und λg st¨ uckweise stetig sind. (4) Es gen¨ ugt, wegen (3) den Fall der konstanten Funktion g(x) = 0 zu betrachten. Dies ist eine Treppenfunktion. Wegen f (x) ≥ g(x) folgt daher Rb Rb f = I− (f ) = sup Σ− (f ) ≥ a g = 0. ⊓ ⊔ a 11
Bernhard Riemann (1826–1866), deutscher Mathematiker.
244
4 Funktionen
¨ Bemerkung 4.4.10. In Ubereinstimmung mit den Rechenregeln in Satz Ra Rb Ra 4.4.9 setzen wir a f := 0 und a f := − b f f¨ ur a > b. Satz 4.4.11 (Mittelwertsatz der Integralrechnung) Sei f : [a, b] → R stetig, dann gibt es ein t ∈ [a, b] mit Z
a
b
f (x)dx = f (t) · (b − a) .
Beweis. Sei m := inf{f (x) | x ∈ [a, b]} und M := sup{f (x) | x ∈ [a, b]}. Dann gilt m ≤ f (x) ≤ M f¨ ur alle x ∈ [a, b]. Mit Satz 4.4.9 folgt daraus m(b − a) =
Z
b
mdx ≤
a
Z
a
Z
b
f (x)dx ≤
b
a
M dx = M (b − a).
Da f stetig ist, liefert uns der Zwischenwertsatz (Satz 4.1.6) die Existenz Rb 1 eines t ∈ [a, b] mit f (t) = b−a f (x)dx, wie behauptet. ⊓ ⊔ a
Bemerkung 4.4.12. Wenn man im Beweis des Mittelwertsatzes mit der Ungleichung m · g(x) ≤ f (x)g(x) ≤ M · g(x) startet, wobei g : [a, b] → R≥0 eine st¨ uckweise stetige Funktion ist, dann ergibt sich der verallgemeinerte Mittelwertsatz, der besagt, dass es ein t ∈ [a, b] gibt, so dass Z
a
b
f (x)g(x)dx = f (t) ·
Z
b
g(x)dx.
a
Die Berechnung von Integralen durch direkte Anwendung der Definition 4.4.6 ist nicht besonders praktikabel. Neben den bereits bewiesenen Rechenregeln f¨ ur Integrale, ist der Hauptsatz der Differential- und Integralrechnung das m¨achtigste Werkzeug zur Berechnung von Integralen. Er handelt von der engen Beziehung zwischen Integration und Differentiation, die bereits von den V¨atern der Infinitesimalrechnung am Ende des 17. Jahrhunderts erkannt wurde. Zur Formulierung dieses Satzes ben¨ otigen wir einige vorbereitende Begriffsbildungen. Definition 4.4.13. Sei a < b und f : [a, b] → R eine Funktion. Eine Funktion F : [a, b] → R heißt Stammfunktion Rvon f , falls F differenzierbar ist und F ′ = f gilt. Wir schreiben dann F (x) = f (x)dx und nennen F ein unbestimmtes Integral von f . Wenn F und G Stammfunktionen f¨ ur f sind, dann ist ihre Differenz F − G, wegen Satz 4.2.17 (1), eine konstante Funktion. Wenn man umgekehrt zu einer Stammfunktion F von f eine Konstante c ∈ R addiert, erh¨alt man erneut eine Stammfunktion von f . Wenn es eine Stammfunktion f¨ ur f gibt, dann ist sie also nur bis auf eine additive Konstante eindeutig bestimmt. In
4.4 Integralrechnung
245
diesem Sinne ist die Schreibweise F (x) = zu benutzen.
R
f (x)dx mit sehr großer Vorsicht
Satz 4.4.14 Sei f : [a, b] → R stetig, dann ist die durch F (x) := definierte Funktion F : [a, b] → R eine Stammfunktion von f .
Rx a
f (t)dt
Beweis. Zum Beweis der Differenzierbarkeit von F betrachten wir f¨ ur jedes F (x+h)−F (x) x ∈ [a, b] den Differenzenquotienten . F¨ ur jede Nullfolge (hn )n∈N h mit hn 6= 0 und x + hn ∈ [a, b] erhalten wir F (x + hn ) − F (x) =
Z
a
x+hn
f (t)dt −
Z
x
f (t)dt =
Z
x+hn
f (t)dt .
x
a
Nach dem Mittelwertsatz der Integralrechnung (Satz 4.4.11) gibt es ein xn ∈ R x+h [x, x + hn ] (bzw. xn ∈ [x + hn , x] falls hn < 0) mit x n f (t)dt = hn · f (xn ). Da limn→∞ hn = 0, folgt limn→∞ xn = x und wir erhalten aus der Stetigkeit von f im Punkt x, dass lim
n→∞
hn · f (xn ) F (x + hn ) − F (x) = lim = lim f (xn ) = f (x) n→∞ n→∞ hn hn
gilt. Somit ist F differenzierbar und F ′ = f .
⊓ ⊔
Satz 4.4.15 (Hauptsatz der Differential- und Integralrechnung) Wenn f : [a, b] → R stetig mit Stammfunktion F ist, dann gilt Z
a
b
b f (x)dx = F (b) − F (a) =: F . a
Beweis. Nach Satz 4.4.14 und der Bemerkung davor gibt es ein c ∈ R, so Rx dass f¨ ur alle x ∈ [a, b] gilt: F (x) = c + a f (t)dt. Also ist F (b) − F (a) = Rb Ra Rb c + a f (t)dt − c + a f (t)dt = a f (x)dx. ⊓ ⊔
Um in einem konkreten Fall diesen Satz anwenden zu k¨onnen, ist die Kenntnis einer Stammfunktion der gegebenen Funktion notwendig. Wir werden hier einige der bekanntesten Techniken zum Auffinden von unbestimmten Integralen vorstellen. Gewissermaßen handelt es sich dabei um die Umkehrungen der Ableitungsregeln aus Abschnitt 4.2. Zun¨ achst ein einfaches Beispiel.
246
4 Funktionen
Beispiel 4.4.16. π Z π sin(x)dx = − cos(x) = − cos(π) + cos(0) = 1 + 1 = 2 Z
0 2π
0
0
2π sin(x)dx = − cos(x) = − cos(2π) + cos(0) = 0 0
Aufgrund der Beispiele 4.2.2, 4.2.7, 4.2.9 und 4.2.11 aus Kapitel 4.2 erhalten wir sofort die folgenden elementaren Stammfunktionen. R
R
R
R
R
R
R
R
1 a+1
· xa+1
xa dx
=
dx x
= ln |x|
f¨ ur a ∈ R, a 6= −1 und x > 0 falls a 6∈ N f¨ ur x 6= 0
sin(x)dx = − cos(x) cos(x)dx = sin(x) exp(x)dx = exp(x) dx 1+x2
= arctan(x)
dx cos2 (x)
= tan(x)
√ dx 1−x2
f¨ ur x 6=
= arcsin(x)
f¨ ur |x| < 1 .
π 2
+ kπ, k ∈ Z
R1√ 1 − x2 dx, welches die Fl¨ache des Einheitskrei0 Rb ses berechnet, oder ein Integral der Gestalt a ln(x)dx berechnen zu k¨onnen, reicht die obige Liste nicht aus. Mit dem folgenden Satz, der in gewissem Sinne eine Umkehrung der Ketten- und Produktregel darstellt, erhalten wir zwei sehr n¨ utzliche Werkzeuge, mit deren Hilfe man die genannten Integrale berechnen kann. Um jedoch das Integral 4
Satz 4.4.17 (1) (Substitutionsregel) Sei ϕ : [a, b] → R eine stetig differenzierbare12 Funktion, D ⊂ R ein Intervall mit ϕ([a, b]) ⊂ D und f : D → R stetig. Dann gilt: Z
b
a
f ϕ(t) · ϕ′ (t)dt =
Z
ϕ(b)
f (x)dx .
ϕ(a)
(2) (Partielle Integration) Wenn f, g : [a, b] → R stetig differenzierbare Funktionen sind, dann gilt: Z
a
b
b Z f (x) · g (x)dx = f (x) · g(x) − ′
a
a
b
g(x) · f ′ (x)dx .
4.4 Integralrechnung
247
Beweis. (1) Sei F : D → R eine Stammfunktion ur f . Dann gilt nach der f¨ Kettenregel f¨ ur t ∈ [a, b]: (F ◦ ϕ)′ (t) = F ′ ϕ(t) · ϕ′ (t) = f ϕ(t) · ϕ′ (t). Nach Satz 4.4.15 (Hauptsatz) erhalten wir daraus: Z
b
a
b Z f ϕ(t) ϕ′ (t)dt = (F ◦ ϕ)(t) = F ϕ(b) − F ϕ(a) =
ϕ(b)
f (x)dx .
ϕ(a)
a
(2) Sei F (x) := f (x) · g(x), dann erhalten wir aus der Produktregel f¨ ur alle x ∈ [a, b] die Gleichung F ′ (x) = f ′ (x) · g(x) + f (x) · g ′ (x) und daraus Z
b
′
f (x)g (x)dx +
a
=
Z
a
wie behauptet.
Z
b
′
g(x)f (x)dx =
a
b
Z
b
a
f (x)g ′ (x) + f ′ (x)g(x) dx
b b F ′ (x)dx = F (x) = f (x)g(x) = f (b)g(b) − f (a)g(a) , a
a
⊓ ⊔
Bemerkung 4.4.18. Sei a ∈ R, R > 0 reell und f : (a − R,P a + R) → R eine ∞ n Funktion, die durch die konvergente Potenzreihe f (x) = n=0 an (x − a) P∞ an gegeben ist. Dann ist F (x) = n=0 n+1 (x−a)n+1 in (a−R, a+R) konvergent und F ist eine Stammfunktion von f . Das wird in Folgerung 4.5.14 bewiesen. Beispiel 4.4.19. Jetzt werden wir den Fl¨ acheninhalt des Einheitskreises bestimmen. Dazu berechnen wir durch Integration den Inhalt eines Viertelkreises, das ist√ die Fl¨ ache zwischen der x-Achse und dem Graphen der durch f (x) = 1 − x2 gegebenen Funktion f : [0, 1] → R (Abb. 4.15). Der y 1 y=
0
1
√
1 − x2
x
Abb. 4.15 Viertelkreisfl¨ ache
R1√ Fl¨acheninhalt des Einheitskreises ist gleich 4 0 1 − x2 dx. Wir wenden die Substitutionsregel an mit ϕ(t) := sin(t), d.h. wir ersetzen x durch sin(t). Da ϕ(0) = 0 und ϕ π2 = 1, sollten wir a = 0, b = π2 w¨ahlen. 12
d.h. ϕ ist differenzierbar und ϕ′ ist stetig
248
4 Funktionen
4
Z
1
Z Z ϕ( π2 ) p 2 1 − x dx = 4 f (x)dx = 4 ϕ(0)
0
=4
Z
π 2
0
f ϕ(t) ϕ′ (t)dt
Z q 1 − sin2 (t) · cos(t)dt = 4
π 2
0
π 2
cos2 (t)dt .
0
Letztere Gleichung gilt, da f¨ ur t ∈ 0, π2 stets cos(t) ≥ 0 ist. Zur Berechnung dieses Integrals verwenden wir das Additionstheorem (Satz 4.1.21) f¨ ur die Kosinusfunktion, woraus wir cos(2t) = cos2 (t) − sin2 (t) = 2 cos2 (t) − 1 erhalten. Daher ist cos2 (t) = 12 cos(2t) + 1 und als Fl¨acheninhalt des Einheitskreises ergibt sich 4
Z
π 2
2
cos (t)dt = 2
0
Z
0
π 2
cos(2t) + 1 dt =
Z
π 2
2 cos(2t)dt +
0
Z
π 2
2dt
0
π2 π2 = sin(2t) + 2t = sin(π) − sin(0) + π − 0 = π . 0
0
Beispiel 4.4.20. Als zweites illustrierendes Beispiel berechnen wir das verRb sprochene Integral a ln(x)dx f¨ ur 0 < a < b. Wir wenden partielle Integration mit f (x) = ln(x) und g(x) = x an, denn damit gilt ln(x) = f (x) · g ′ (x). Wir erhalten b Z b Z b Z b ln(x)dx = f (x)g ′ (x)dx = f (x)g(x) − f ′ (x)g(x)dx a
a
a
a
b Z b 1 = x · ln(x) − · xdx = b ln(b) − a ln(a) − (b − a) a x a b = x ln(x) − 1 . a
Daran sehen wir unter anderem, dass F (x) = x·ln(x)−x eine Stammfunktion von f (x) = ln(x) ist. Beispiel 4.4.21. Die in diesem Beispiel betrachteten Integrale trigonometrischer Funktionen werden im Abschnitt 4.5 zur Berechnung von Fourierreihen ben¨otigt. F¨ ur jede ganze Zahl k ≥ 1 gilt nach partieller Integration 2π Z 2π Z 2π 1 sin2 (kx)dx = − cos(kx) sin(kx) + cos2 (kx)dx k 0 0 0 2π Z 2π = x − sin2 (kx)dx. 0
Daraus folgt
R 2π 0
0
sin2 (kx)dx = π. Ebenso gilt
4.4 Integralrechnung
Z
249
2π
sin(kx) cos(kx)dx =
0
R 2π
2π Z 2π 1 sin(kx) sin(kx) − cos(kx) sin(kx)dx . k 0 0
2 2 sin(kx) cos(kx)dx = 0. Wenn l, k ganze Zahlen mit l 6= k sind, dann gilt sin(kx) · cos(lx) = 21 sin (k + l)x + sin (k − l x) . Daraus R 2π folgt 0 sin(kx) cos(lx)dx = 0.
Daraus folgt
0
Beispiel 4.4.22. Als viertes Anwendungsbeispiel wollen wir eine interessante Formel herleiten, mit deren Hilfe man π ann¨ aherungsweise berechnen kann: ∞ Y 4n2 4 16 36 64 100 π = = · · · · ·..., 2 2 4n − 1 3 15 35 63 99 n=1
das sogenannte Wallissche13 Produkt . Hier ist f¨ ur jede Zahlenfolge (an )n≥1 das Qk Q unendliche Produkt als Grenzwert definiert ∞ n=1 an , n=1 an := limk→∞ falls dieser Limes existiert. Die entscheidende Beobachtung zur Herleitung des Wallisschen Produktes besteht darin, dass die beiden Faktoren der Zerlegung 4n2 2n 2n 4n2 −1 = 2n−1 · 2n+1 in den Rekursionsformeln A2n =
2n − 1 · A2n−2 2n
A2n+1 =
2n · A2n−1 2n + 1
(4.1)
Rπ f¨ ur die bestimmten Integrale Am := 02 sinm (x)dx auftreten. Aus diesen Formeln folgt f¨ ur alle j ≥ 1 durch vollst¨ andige Induktion: A2j = A0 ·
j Y 2n − 1 2n n=1
A2j+1 A2j
A1 A0
·
und
A2j+1 = A1 ·
Qj
j Y
2n . 2n + 1 n=1
4n2 n=1 4n2 −1
und f¨ ur den Beweis der Walliss A chen Formel gen¨ ugt es neben (4.1) zu zeigen, dass die Folge A2j+1 gegen 2j j∈N π R A0 = π2 gilt. Letzteres folgt sofort aus A0 = 02 1dx = π2 1 konvergiert und A 1 und π2 Z π2 π + cos(0) = 1 . A1 = sin(x)dx = − cos(x) = − cos 2 0 0
Daraus ergibt sich
=
Zum Beweis der f¨ ur alle m ≥ 2 g¨ ultigen Rekursionsformel Am = m−1 m · Am−2 , wovon die beiden Formeln (4.1) Spezialf¨ alle sind, verwenden wir partielle Integration mit f (x) = sinm−1 (x) und g(x) = − cos(x), so dass f (x)g ′ (x) = sinm (x). Es ergibt sich unter Benutzung von cos2 (x) = 1 − sin2 (x) 13
John Wallis (1616–1703), englischer Mathematiker.
250
4 Funktionen
Am =
Z
π 2
sinm (x)dx
0 m−1
= − sin =
Z
0
π 2
π2 Z (x) cos(x) +
π 2
0
0
(m − 1) sinm−2 (x)dx −
(m − 1) sinm−2 (x) cos2 (x)dx
Z
π 2
0
(m − 1) sinm (x)dx
= (m − 1)Am−2 − (m − 1)Am , A
woraus die ben¨ otigte Rekursionsformel folgt. Um schließlich limj→∞ A2j+1 2j zu bestimmen, starten wir mit der Beobachtung, dass f¨ ur alle x ∈ 0, π2 die Ungleichungen 0 ≤ sin(x) ≤ 1 gelten. Daher gilt f¨ ur alle j ≥ 0 und x ∈ 0, π2 2j+2 2j+1 2j auch 0 ≤ sin (x) ≤ sin (x) ≤ sin (x). Mit Satz 4.4.9 (4) erhalten wir daraus 0 < A2j+2 ≤ A2j+1 ≤ A2j . Unter Verwendung von (4.1) folgt daraus A2j+2 A 2j+1 2j+1 = 1 und Satz 3.2.15 ≤ A2j+1 ≤ 1, was wegen limj→∞ 2j+2 2j+2 = A2j 2j A A2j+1 mit limj→∞ A2j+1 = 1 und damit die die Konvergenz der Folge A2j 2j j∈N
Wallissche Formel liefert.
Bei der Bestimmung von Integralen, in denen rationale Funktionen auftreten, kann die Methode der Partialbruchzerlegung von Nutzen sein. Sie erlaubt, Ausdr¨ ucke, in deren Nenner Polynome hohen Grades stehen, in eine Summe von Ausdr¨ ucken mit Nennern kleineren Grades zu zerlegen. Dies geschieht dadurch, dass man f¨ ur Polynome P1 (x), P2 (x), . . . , Pk (x), von denen keine zwei einen gemeinsamer Teiler positiven Grades besitzen, die Gleichung 1 A1 (x) A2 (x) Ak (x) = + + ... + P1 (x) · . . . · Pk (x) P1 (x) P2 (x) Pk (x) mit Polynomen Ai (x) l¨ ost, deren Grad kleiner als der von Pi (x) ist. Beispiel 4.4.23. (1) Zur Partialbruchzerlegung von x21−1 beginnen wir mit der Zerlegung des Nenners in lineare Faktoren x2 − 1 = (x − 1)(x + 1). A B + x+1 mit Konstanten A, B ∈ R zu Nun ist die Gleichung x21−1 = x−1 l¨osen. Das f¨ uhrt auf die Gleichung 1 = A · (x + 1) + B · (x − 1), aus der 1 1 man durch Einsetzen von x= ±1 die L¨ osung A = 2 , B = − 2 erh¨alt. 1 Damit ergibt sich x21−1 = 12 x−1 − R dx Integrals x2 −1 verwenden kann:
, was man zur Bestimmung des
Z 1 dx dx = ln(x − 1) − ln(x + 1) − x−1 x+1 2 r 1 x−1 x−1 = ln = ln f¨ ur x > 1. 2 x+1 x+1 R dx (2) Um das Integral 1+x 4 zu bestimmen, schreiben wir Z
1 dx = 2 x −1 2
Z
1 x+1
4.4 Integralrechnung
251
√ √ 1 + x4 = (1 + x2 )2 − 2x2 = 1 − 2x + x2 · 1 + 2x + x2 .
Da das Polynom x4 + 1 keine reelle Nullstelle besitzt, k¨onnen wir dies nicht weiter zerlegen. Zur Partialbruchzerlegung suchen wir somit reelle Zahlen a, b, c, d, so dass cx + d ax + b 1 √ √ + = 1 + x4 1 + 2x + x2 1 − 2x + x2 gilt. Nach dem Ausmultiplizieren und √ einem Koeffizientenvergleich erhalten wir b = d = 12 und a = −c = 41 2, d.h. ! √ √ 2x + 2 2x − 2 1 1 √ √ − = 1 + x4 4 x2 + 2x + 1 x2 − 2x + 1 R
dx 1+x4
1 4
R
√
2x+2 √ 2x+1
−
√
2x−2 √ 2x+1
dx zu berechnen, √ √ schreiben wir die Z¨ ahler in der Form 2x ± 2 = 2x ± 1 ± 1. Dadurch reduziert sich das Problem auf die Berechnung der Integrale √ Z Z 1 2x ± 1 √ √ dx und dx . 2 2 x ± 2x + 1 x ± 2x + 1 √ Mit Hilfe der Substitution u = x2 ± 2x + 1 erh¨alt man √ Z Z √ du 1 1 2x ± 1 √ dx = √ = √ ln x2 ± 2x + 1 . u x2 ± 2x + 1 2 2 Um damit
=
x2 +
x2 −
Zur Berechnung des zweiten Integrals nutzen wir die Gleichung 2 √ 1 √ 2 2x ± 1 + 1 , x ± 2x + 1 = 2 √ aus der wir sehen, dass die Substitution u = 2x ± 1 zum Ziel f¨ uhrt: Z √ √ Z √ 1 du √ 2 arctan 2x ± 1 dx = 2 = . u2 + 1 x2 ± 2x + 1 Insgesamt haben wir damit erhalten: Z √ √ 1 1 dx = √ ln x2 + 2x + 1 − √ ln x2 − 2x + 1 4 1+x 4 2 4 2 √ √ 1 1 + √ arctan 2x + 1 + √ arctan 2x − 1 2 2 2 2 ! ! √ √ 2 1 x + 2x + 1 2x 1 √ + √ arctan . = √ ln 1 − x2 4 2 x2 − 2x + 1 2 2
252
4 Funktionen
P∞ n x2n+1 Beispiel 4.4.24. Um die Formel arctan(x) = n=0 (−1) 2n+1 zu zeigen, P ∞ 1 1 n 2n wenden wir gliedweise Integration auf 1+t an: = = 2 n=0 (−1) t 1−(−t2 ) arctan(x) =
Z
x
0
Z x ∞ ∞ X X dt x2n+1 n 2n = (−1) . t dt. = (−1)n 2 1+t 2n + 1 0 n=0 n=0
uher erw¨ahnte Formel, der wir Da arctan(1) = π4 , folgt jetzt die bereits fr¨ nochmals im Bsp. 4.5.37 begegnen werden: π 1 1 1 1 1 1 1 =1− + − + − + − + ··· . 4 3 5 7 9 11 13 15 Satz 4.4.25 (Trapezregel) Sei f : [0, 1] → R zweimal stetig differenzierbar, dann gibt es ein t ∈ [0, 1], so dass Z
1
f (x)dx =
0
f (0) + f (1) 1 − f ′′ (t) . 2 12
. Beweis. Wir definieren eine Funktion g : [0, 1] → R durch g(x) := x(1−x) 2 Diese erf¨ ullt g ′ (x) = 21 − x und g ′′ (x) = −1. Zweimalige partielle Integration 1 R1 R1 R1 ′′ ′ liefert: 0 f (x)dx = − 0 f (x)g (x)dx = −f (x)g (x) + 0 f ′ (x)g ′ (x)dx = 0 1 R1 R 1 (1) f (0)+f (1) + f ′ (x)g(x) − 0 f ′′ (x)g(x)dx = f (0)+f − 0 f ′′ (x)g(x)dx. 2 2 0
Da g(x) ≥ 0 f¨ ur alle x ∈ [0, 1], folgt aus dem verallgemeinerten Mittelwertsatz (Bemerkung 4.4.12) die Existenz eines t ∈ [0, 1] mit Z
0
1
′′
′′
f (x)g(x)dx = f (t) ·
Z
1 0
′′
g(x)dx = f (t) ·
und die Behauptung ist gezeigt.
1 1 ′′ 1 2 1 3 x − x = f (t) 4 6 12 0
⊓ ⊔
Wir werden die Trapezregel nutzen, um die ber¨ uhmte Stirlingsche Formel zu beweisen, mit deren Hilfe man f¨ ur große n N¨ aherungswerte f¨ ur n! berechnen kann. Definition 4.4.26. Wenn (an )n∈N , (bn )n∈N zwei Zahlenfolgen sind, die nicht notwendig konvergieren m¨ ussen, dann schreiben wir an ∼ bn und nennen die beiden Folgen asymptotisch gleich 14 , wenn limn→∞ abnn = 1 gilt. Beispiel 4.4.27. n2 + 4n + 8 ∼ n2 − 17n − 13. 14 Notwendig, aber nicht hinreichend daf¨ ur, dass die Folgen asymptotisch gleich sind, ist (an ) = O((bn )) und (bn ) = O((an )), vgl. Abschnitt 3.5.
4.4 Integralrechnung
253
Satz 4.4.28 (Stirlingsche15 Formel) Mit der Eulerschen Zahl e gilt: n n √ . n! ∼ 2πn · e Beweis. Wir haben zu zeigen, dass der Quotient beider Seiten gegen 1 konvergiert. Sei dazu cn := √nnn!n e−n = n! exp n − n + 12 ln(n) . Wir werden die Konvergenz der Folge (cn )n≥1 mit√ Hilfe der Trapezregel zeigen und danach ihren Grenzwert limn→∞ cn = 2π unter Benutzung des Wallisschen Produktes bestimmen. Da ln(x) und exp(x) stetig sind, folgt die KonvergenzP von (cn )n≥1 aus der n von ln(cn ) = ln(n!) − n + 12 ln(n) + n = n − n ln(n) + k=1 ln(k) − 21 ln(n). Pn P n−1 ln(k)+ln(k+1) 1 Da , wenden wir die Trapezk=1 ln(k) − 2 ln(n) = k=1 2 regel auf die Funktion f (x) = ln(x) an. Mit ln′′ (x) = − x12 ergibt sich R k+1 1 + 12t ln(x)dx = ln(k)+ln(k+1) ur gewisse tk ∈ [k, k + 1]. Daraus er2 f¨ 2 k k halten wir ln(cn ) = n − n ln(n) +
Z
1
n
ln(x)dx −
n−1 1 X 1 . 12 t2k k=1
n = n ln(n)−n+1, vgl. Bsp. 4.4.20, vereinfacht ln(x)dx = x ln(x)−x 1 1 P n−1 1 sich Obiges zu ln(cn ) = 1− 12 k=1 t12 . Somit ist die Folge ln(cn ) n≥1 streng k monoton fallend. P 1 Da 0 < t12 ≤ k12 wegen tk ∈ [k, k + 1] und weil die Reihe ∞ k=1 k2 konvergiert, k P P P n−1 1 n−1 1 ∞ 1 1 1 1 folgt aus ln(cn ) = 1 − 12 k=1 t2k ≥ 1 − 12 k=1 k2 > 1 − 12 k=1 k2 , dass ln(cn ) n≥1 nach unten beschr¨ ankt und somit konvergent ist. Damit ist auch die Konvergenz der Folge (cn )n≥1 gezeigt. Zur Berechnung des Grenzwertes limn→∞ cn betrachten wir den Ausdruck v u n Qn u Y 4k 2 (n!) · 2n k=1 2k t √ p Q = = , Q n n 4k 2 − 1 2n + 1 k=1 (2k − 1) · k=1 (2k − 1)(2k + 1) k=1 Da
Rn
Qn Qn wobei die zweite Gleichung aus k=1 (2k − 1)(2k + 1) = k=1 (2k − 1) · Qn+1 Qn Qn (2n)! 2 k=1 (2k − 1) = k=1 (2k − 1) · (2n + 1) folgt. Da k=1 (2k − 1) = n!2n , ergibt sich v u n u Y 4k 2 (n!)2 · 22n t √ . = 4k 2 − 1 (2n)! 2n + 1 k=1 15
James Stirling (1692–1770), schottischer Mathematiker.
254
Da
4 Funktionen c2n c2n
=
(n!)2 n·n2n ·e−2n
·
√
2n(2n)2n e−2n (2n)!
=
2n ·(n!)·2n (n!) √ √ 2, (2n)!· n
c2 limn→∞ c2n = lim n = lim cn = n→∞ c2n n→∞ limn→∞ c2n
r
erhalten wir schließlich
v u n Y 4k 2 √ 2n + 1 u · t2 = 2π , n 4k 2 − 1 k=1
unter Benutzung von Beispiel 4.4.22 (Wallissches Produkt). √ √ n n 1 Bemerkung 4.4.29. 2πn ne < n! < 2πn ne · exp 12(n−1)
⊓ ⊔
Beweis. Wir benutzen die Bezeichnungen aus dem Beweis von Satz 4.4.28. √ Da ln(cn ) monoton f¨ allt, ist ln( 2π) = ln (limn→∞ (cn )) < ln(cn ). Anderer Pn−1 1 P∞ 1 1 1 = seits gilt ln(cn ) − limn→∞ ln(cn ) = 1 − 12 − 1 − 2 k=1 tn k=1 2 12 P∞ tk 1 P∞ 1 P∞ 1 1 1 k=n k2 < k=n t2k ≤ 12 k=n k2 . Man kann zeigen (Bem. 4.4.34), dass 12 √ √ 1 1 n−1 gilt. Damit ergibt sich ln( 2π) < ln(cn ) < ln( 2π) + 12(n−1) , woraus nach Anwendung der Exponentialfunktion und der Definition von cn die Behauptung folgt. ⊓ ⊔ Zum Abschluss dieses Abschnittes betrachten wir uneigentliche Integrale und nutzen sie, um ein weiteres Konvergenzkriterium f¨ ur Reihen anzugeben. RN Definition 4.4.30. Sei f : [a, ∞) → R stetig. Falls limN →∞ a f (x)dx exisR∞ tiert, sagen wir: das Integral a f (x)dx konvergiert und setzen Z
∞
f (x)dx := lim
N →∞
a
Z
N
f (x)dx .
a
Beispiel 4.4.31. Sei s > 1 und f : [1, ∞) → R durch f (x) = x−s gegeben, N R N dx 1 1 1 −s+1 dann ist 1 xs = (−s+1) · x = s−1 1 − N s−1 . Da s − 1 > 0, existiert eine nat¨ urliche Zahl q mit
1 q
1
≤ s − 1. F¨ ur diese Zahl gilt 0 ≤
1
s−1
RN∞
≤
1 √ q N 1 s−1
1 1 und wegen limN →∞ √ = 0 folgt limN →∞ N s−1 = 0. Also ist 1 dx q xs = N f¨ ur s > 1. N R ∞ dx R N dx Andererseits ist 1 x nicht konvergent, denn 1 x = ln(x) = ln(N ) und
das divergiert f¨ ur N → ∞ bestimmt gegen +∞.
1
Bemerkung 4.4.32. Die Γ -Funktion, die auf Euler zur¨ uckgeht, kann man R∞ durch das uneigentliche Integral Γ (x) = 0 tx−1 e−t dt f¨ ur x > 0 definieren. Dieses Integral konvergiert, weil limt→∞ tx+1 e−t = 0. Gauß hat gezeigt, dass n!nx n→∞ x(x + 1) . . . (x + n)
Γ (x) = lim
4.4 Integralrechnung
255
gilt. Die Γ -Funktion ist eine Interpolation von n!, denn es gilt Γ (1) = 1 und xΓ (x) = Γ (x + 1). Sie spielt eine wichtige Rolle in der Statistik und Wahrscheinlichkeitsrechnung. Satz 4.4.33 (Integralkriterium) Sei f : [1, ∞) → R>0 eine P∞ monoton fallende und stetige Funktion. Dann konvergiert die Reihe n=1 f (n) genau R∞ dann, wenn das Integral 1 f (x)dx konvergiert. Beweis. Da f f¨allt,R ist f¨ ur 1 ≤ n − 1 ≤ x ≤ n stets f (n) ≤ f (x) ≤ f (n − 1). n Somit gilt f (n) ≤ n−1 f (x)dx ≤ f (n − 1) und es folgt f¨ ur alle N ≥ 2 N X
n=2
f (n) ≤
Z
N −1 X
N
1
f (x)dx ≤
f (n) .
n=1
Da die Summanden der Reihe positiv sind, ist sie genau dann konvergent, wenn sie nach oben beschr¨ ankt ist. Somit impliziert die Konvergenz des Integrals die der Reihe. Konvergenz der Reihe impliziert umgekehrt die KonRN vergenz des Integrals, da auch 1 f (x)dx monoton w¨achst. ⊓ ⊔
Bemerkung 4.4.34. Wir erhalten sogar Z
∞
1
f (x)dx ≤
∞ X
n=1
f (n) ≤ f (1) +
Z
∞
f (x)dx
1
und f¨ ur strikt monoton fallendes f f¨ ur alle n ≥ 2 Z
∞
n
Mit f (x) =
1 x2 ,
f (x)dx <
∞ X
f (k) <
k=n
ergibt sich zum Beispiel
Z
∞
f (x)dx .
n−1
P∞
1 k=n k2
<
1 n−1 .
P Beispiel 4.4.35. F¨ ur reelle Zahlen s > 1 konvergiert die Reihe ∞ n=1 R∞ 1 das Integral 1 xs dx konvergiert (vgl. Bsp. 4.4.31). Die Funktion
1 ns ,
da
∞ X 1 ζ(s) := s n n=1
heißt Riemannsche16 Zeta-Funktion. Sie spielt eine wichtige Rolle in der Funktionentheorie, wo sie ins Komplexe fortgesetzt wird. Sie hat eine Reihe bemerkenswerter Eigenschaften und birgt noch viele Geheimnisse in sich. Sie hat alle negativen geraden ganzen Zahlen als Nullstellen. Es wird vermutet, 16
Bernhard Riemann (1826–1866), deutscher Mathematiker.
256
4 Funktionen
dass alle weiteren Nullstellen den Realteil 12 besitzen (Riemannsche Vermutung 17 ). Viele Rechnungen belegen diese Vermutung, sie konnte aber noch nicht bewiesen werden. Wenn (pk )k≥1 die Folge der Primzahlen ist, dann gilt f¨ ur s ∈ C mit Re(s) > 1 ζ(s) = lim
n→∞
n Y
k=1
1 . 1 − p−s k
Aufgaben ¨ Ubung 4.19. Berechnen Sie die folgenden bestimmten Integrale: x Rπ 2 Re R ∞ ln(x) dx (a) 0 x cos dx (b) 1 p dx (c) 1 3 x2 x ln(x) R2 1 R π2 R ∞ −x (e) 1 (x−1)2 dx (d) − π x sin(2x)dx (f) 1 xe dx . 2
¨ Ubung 4.20. Berechnen Sie f¨ ur jede der folgenden Funktionen eine Stammfunktion x 1 (b) f (x) = 2 im Intervall (1, 2) (a) f (x) = 4 x −1 x − 3x + 2 exp(x) 1 (c) f (x) = (d) f (x) = (e) f (x) = |x| . 3 + 2 exp(x) sin(x)
¨ Ubung 4.21. Beweisen Sie R 2π (a) 0 cos(kx) cos(lx)dx = 0 R 2π (b) 0 sin(kx) sin(lx)dx = 0 ¨ Ubung 4.22. Berechnen Sie
f¨ ur alle k, l ∈ Z, |k| 6= |l| f¨ ur alle k, l ∈ Z, |k| 6= |l|.
R 2π 0
cos2 (kx)dx f¨ ur alle ganzen Zahlen k ≥ 1.
x2 y2 ¨ Ubung 4.23. Berechnen sie den Fl¨ acheninhalt der durch 2 + 2 = 1 defia b nierten Ellipse. P∞ 1 ¨ konvergiert. Ubung 4.24. Untersuchen Sie, ob die Reihe n=2 n ln(n)
4.5 Approximation von Funktionen Da polynomiale Funktionen relativ leicht zu berechnen sind, ist es sinnvoll, stetige Funktionen durch Polynome zu approximieren. Auf einem gegebenen 17
Im Jahr 2000 hat das Clay Mathematics Institute einen Preis von einer Million Dollar auf den Beweis ausgesetzt.
4.5 Approximation von Funktionen
257
Intervall ist dies mit beliebig hoher Genauigkeit m¨oglich. Dabei kann allerdings der Grad der ben¨ otigten Polynome sehr hoch werden, was f¨ ur praktische Berechnungen ung¨ unstig ist. In der Praxis verwendet man deshalb meist Splines, das sind Funktionen, die st¨ uckweise aus Polynomen kleineren Grades zusammengesetzt sind. Bei der Approximation von periodischen Funktionen kann man trigonometrische Polynome verwenden. Das sind Summen von Termen der Gestalt ¨ an cos(nx) + bn sin(nx). Durch Ubergang zum Grenzwert f¨ uhrt das zu den Fourier-Reihen. Wir werden bei dieser Gelegenheit auf die schnellen FourierTransformationen eingehen, die bei der Bildkompression (JPEG-Verfahren) oder Audiokompression (MP3-Verfahren) eine wichtige Rolle spielen. Definition 4.5.1. Sei I ⊂ R ein Intervall, fn : I → R eine Folge beschr¨ankter Funktionen. (1) Die Folge (fn ) konvergiert auf I punktweise gegen f , wenn f¨ ur alle x ∈ I gilt: limn→∞ fn (x) = f (x). (2) Die Folge (fn ) konvergiert auf I gleichm¨aßig gegen f , wenn f¨ ur jedes ε > 0 ein N (ε) existiert, so dass |f (x) − fn (x)| < ε f¨ ur alle x ∈ I und n ≥ N (ε). Satz 4.5.2 Sei I ⊂ R ein Intervall und fn : I → R eine Folge beschr¨ankter, stetiger Funktionen, die auf I gleichm¨aßig gegen f konvergiert. Dann ist f stetig. Beweis. Sei ε > 0 gegeben. Wegen der gleichm¨ aßigen Konvergenz existiert ein ur alle x ∈ I und alle n ≥ N . Sei jetzt x ∈ I und N , so dass |fn (x)−f (x)| < 3ε f¨ δ > 0 so gew¨ahlt, dass f¨ ur x′ ∈ I mit |x − x′ | < δ folgt |fN (x) − fN (x′ )| < 3ε . Ein solches δ existiert wegen der Stetigkeit von fN . Nun gilt f¨ ur x′ ∈ I mit ′ |x − x | < δ |f (x) − f (x′ )| = |f (x) − fN (x) + fN (x) − fN (x′ ) + fN (x′ ) − f (x′ )| ≤ |f (x) − fN (x)| + |fN (x) − fN (x′ )| + |fN (x′ ) − f (x′ )| < ε . ⊓ ⊔ Beispiel 4.5.3. Sei I = [0, 1] und fn (x) = xn . Da limn→∞ fn (1) = 1 und limn→∞ fn (x) = 0 f¨ ur 0 ≤ x < 1, konvergiert die Folge ( (fn )n∈N punktweise 0 x<1 gegen die Funktion f : [0, 1] → R, die durch f (x) = gegeben ist. 1 x=1 Da die Grenzfunktion f nicht stetig ist, konvergiert die Folge (fn )n∈N nicht gleichm¨aßig. Definition 4.5.4. Sei I ⊂ R ein Intervall und f : I → R eine Funktion. Dann definieren wir kf kI := sup{|f (x)| | x ∈ I}. Wenn I aus dem Zusammenhang klar ist, schreiben wir auch kf k statt kf kI .
258
4 Funktionen
Beispiel 4.5.5. F¨ ur die Funktion f : I → R, die auf dem Intervall I = [−1, 1] durch f (x) = x2 gegeben ist, gilt kf kI = 1. Definition 4.5.6. Sei I ⊂ R ein Intervall und fnP: I → R eine Folge stetiger, beschr¨ankter Funktionen. Die Funktionenreihe n fnP heißt gleichm¨aßig absolut konvergent auf I, wenn die Reihe reeller Zahlen n kfn kI konvergiert.
Beispiel 4.5.7.
P (1) Sei I = R und fn = sin(nx) dann ist kfn kR ≤ n12 und damit ist n sin(nx) n2 n2 gleichm¨aßig absolut konvergent auf R. P (2) Sei I = [x0 −r, x0 +r] und fn = an (x−x0 )n , so dass |an |rn konvergiert, P n dann ist kfn kI = |an |r und die Potenzreihe n an (x − x0 )n ist auf I gleichm¨aßig absolutP konvergent. Wenn R = sup {r | |an |rn ist konvergent}, dann ist R der Konvergenzradius der Potenzreihe und die Reihe ist auf jedem abgeschlossenen Teilintervall von (x0 − R, x0 + R) gleichm¨ aßig absolut konvergent. Satz 4.5.8 Sei I ⊂ R ein Intervall P und fn : I → R eine Folge stetiger, beschr¨ankter Funktionen. Wenn fn auf I gleichm¨aßig absolut konvergiert, P dann konvergiert fn auf I gleichm¨aßig gegen eine beschr¨ankte, stetige Funktion. P Beweis. Sei P x ∈ I. Wegen |fn (x)| ≤ kfP n kI folgt, dass n |fn (x)| konvergiert. f konvergiert punktweise gegen F . Sei F (x) := n fn (x), d.h. die Reihe n P Wir wollenP zeigen, dass die Reihe fn gleichm¨aßig gegenP F konvergiert. Sei ε > 0. Da n kfn kI konvergiert, existiert ein N , so dass ∞ k=n+1 kfk kI < ε f¨ ur alle n ≥ N . Nun gilt f¨ ur jedes x ∈ I : ∞ ∞ ∞ n X X X X fk (x) ≤ |fk (x)| ≤ kfk kI < ε . fk (x) = F (x) − k=n+1
k=1
k=n+1
k=n+1
P
Daraus folgt, dass fn gleichm¨ aßig gegen F konvergiert. Wegen Satz 4.5.2 folgt, dass F stetig ist. ⊓ ⊔
P∞ Folgerung 4.5.9. Sei f (x) = n=0 an (x − x0 )n eine Potenzreihe mit Konvergenzradius R, dann ist f in (x0 − R, x0 + R) stetig. Bemerkung 4.5.10. Wenn die Potenzreihe in x0 + R noch konvergiert, ist f (x) in (x0 − R, x0 + R] stetig. Dieses Resultat wird auch Abelscher18 Grenzwertsatz genannt. 18
Niels Henrik Abel (1802–1829), norwegischer Mathematiker.
4.5 Approximation von Funktionen
259
Satz 4.5.11 Sei fn : [a, b] → R eine Folge stetiger Funktionen, die gleichm¨aßig gegen f : [a, b] → R konvergiert, dann gilt Z
b
f (x)dx = lim
n→∞
a
Z
b
fn (x)dx .
a
Beweis. Die Funktionen fn sind stetig und beschr¨ankt (Satz 4.1.9). Damit ist nach Satz 4.5.2 auch die Funktion f stetig und die Funktionen sind integrierbar. Es gilt: Z Z Z b b b |f (x) − fn (x)|dx fn (x)dx ≤ f (x)dx − a a a Z b ≤ kf (x) − fn (x)kdx = (b − a)kf (x) − fn (x)k . a
Sei jetzt ε > 0 gegeben. Aus der gleichm¨ aßigen Konvergenz folgt, dass ein N ε f¨ ur alle n ≥ N . Damit gilt f¨ ur n ≥ N existiert mit kf (x) − fn (x)k < b−a Z Z b b f (x)dx − fn (x)dx < ε a a
und die behauptete Vertauschbarkeit von Integral und Limes ist gezeigt. ⊓ ⊔ Satz 4.5.12 Sei fn : [a, b] → R eine Folge stetig differenzierbarer Funktionen, die punktweise auf [a, b] gegen die Funktion f konvergiert. Die Folge fn′ der Ableitungen konvergiere gleichm¨aßig auf [a, b]. Sei x ∈ (a, b). Dann ist f differenzierbar in x und f ′ (x) = limn→∞ fn′ (x). Beweis. Sei g = limn→∞ fn′ . Wegen der gleichm¨aßigen Konvergenz fn′ R x der ′ und ihrer Stetigkeit ist g auf [a, b] stetig. Es gilt fn (x) = fn (a) + a fn (t)dt Rx f¨ ur x ∈ (a, b) wegen Satz 4.4.15. Nach Satz 4.5.11 konvergiert a fn′ (t)dt Rx Rx gegen a g(t)dt. Daraus folgt f (x) = f (a) + a g(t)dt. Durch Differenzieren erhalten wir mit Satz 4.4.14 daraus f ′ (x) = g(x). ⊓ ⊔ P∞ Folgerung 4.5.13. Sei f (x) = n=0 an (x − x0 )n eine Potenzreihe und R ihr Konvergenzradius. Dann ist f in (x0 − R, x0 + R) differenzierbar mit f ′ (x) =
∞ X
n=0
nan (x − x0 )n−1 .
260
4 Funktionen
P∞ Folgerung 4.5.14. Sei f (x) = n=0 an (x − x0 )n eine Potenzreihe und R ihr Konvergenzradius. Dann hat f in (x0 − R, x0 + R) eine Stammfunktion F mit ∞ X an F (x) = (x − x0 )n+1 . n + 1 n=0 Wir haben gesehen, dass eine Funktion f , die in der Umgebung des Punktes P x0 in eine Potenzreihe f (x) = ∞ a (x − x0 )k entwickelt werden kann, im k=0 k Konvergenzbereich (x0 − R, x0 + R) stetig ist. Die Potenzreihe konvergiert auf jedem abgeschlossenen Teilintervall K ⊂ (x0 − R, x0 +P R) gleichm¨aßig. Damit kann die Funktion dort durch die Polynome pn (x) := nk=0 ak (x−x0 )k beliebig genau approximiert werden, denn f¨ ur jedes ε > 0 existiert wegen der gleichm¨aßigen Konvergenz ein N , so dass kf (x)−pn (x)kK < ε f¨ ur alle n ≥ N . Wir wollen jetzt zeigen, dass dies auch f¨ ur jede stetige Funktion gilt. Satz 4.5.15 (Weierstraßscher19 Approximationssatz) F¨ ur jede stetige Funktion f : [a, b] → R und jedes ε > 0 existiert ein Polynom p, so dass kf − pk < ε .
Bemerkung 4.5.16. Die Intervalle [0, 1] und [a, b] werden durch die lineare Funktion h : [0, 1] → [a, b], die durch h(x) = (b − a)x + a gegeben ist und das 1 a Inverse h−1 (y) = b−a y − b−a besitzt, bijektiv aufeinander abgebildet. Daher gen¨ ugt es, den Satz 4.5.15 f¨ ur das Intervall [0, 1] zu beweisen. Die Approximation einer Funktion durch ihre Taylorpolynome20 ist f¨ ur relativ kleine Grade vor allem in der N¨ ahe des Entwicklungspunktes sehr gut. Im Gegensatz dazu kann man mit Hilfe von sogenannten Bernsteinpolynomen global eine gute N¨ aherung erreichen. Wir werden einen konstruktiven Beweis des Weierstraßschen Approximationssatzes mit Hilfe solcher Polynome geben. Zur Vorbereitung ben¨ otigen wir das folgende Lemma. Lemma 4.5.17 F¨ ur alle x ∈ [0, 1] und n > 0 gilt
2 n X x(1 − x) 1 k n k = ≤ . x (1 − x)n−k x − n n 4n k
k=0
19
Carl Weierstraß (1815–1897), deutscher Mathematiker.
20
Das n-te Taylorpolynom ist die n-te Partialsumme der Taylorreihe.
4.5 Approximation von Funktionen
261
Beweis. F¨ ur x ∈ [0, 1] gilt x(1 − x) ≤ 14 , weil die Funktion f (x) = x(1 − x) in [0, 1] ihr Maximum bei x = 12 annimmt (f ′ (x) = 1 − 2x, f ′′ (x) = −2). Damit 1 gilt x(1−x) ≤ 4n . Aus der binomischen Formel erhalten wir n 1 = (x + 1 − x)n =
n X n k x (1 − x)n−k . k k=0
Mit Hilfe der leicht nachzupr¨ ufenden Gleichungen 1 n−1 n−2 k2 n 1 n−1 k n = + und = 1− n k n2 k n n k−1 k−2 k−1 ergibt sich daraus n X n k x = x (1 − x)n−k x2 k k=0 n X 2k n k −2x2 = x (1 − x)n−k − x n k k=0 n X k2 n k 1 x x2 = x (1 − x)n−k 2 , + 1− n n n k 2
k=0
woraus die Behauptung folgt.
⊓ ⊔
Definition 4.5.18. Wenn f : [0, 1] → R eine stetige Funktion ist, dann heißt n X n k xk (1 − x)n−k Bn (f ) = f n k k=0
das n-te Bernsteinpolynom 21 von f . Beispiel 4.5.19. (1) Wenn f (x) = x − 12 , dann ist B2 (f ) =
1 1 1 (1 − x)2 + 2 · 0 · x(1 − x) + x2 = − x + x2 . 2 2 2
(2) F¨ ur f (x) = x ist B2 (f ) = 0 · (1 − x)2 + 2 · 12 x(1 − x) + x2 = x. 1 (3) Mit f (x) = ex gilt B2 (f ) = (1 − x)2 + 2e 2 x(1 − x) + e x2 = √ 2 (1 + ( e − 1) x) . Beweis (Satz 4.5.15). Sei ε > 0 gegeben. Da f : [0, 1] → R stetig ist, existiert wegen Satz 4.1.9 ein c ∈ R mit |f (x)| ≤ c f¨ ur alle x ∈ [0, 1]. Wegen Satz 4.1.13 ur alle x, y ∈ [0, 1] mit |x − y| < δ gibt es ein δ ∈ R, so dass |f (x) − f (y)| < 2ε f¨ gilt. Wir w¨ahlen n > εδc2 und zeigen kf − Bn (f )k < ε. F¨ ur x ∈ [0, 1] gilt 21
Sergei Natanowitsch Bernstein (1880–1968), russischer Mathematiker.
262
4 Funktionen
n X n k k |Bn (f )(x) − f (x)| = − f (x) x (1 − x)n−k f n k k=0 n X n k k − f (x) . ≤ x (1 − x)n−k f n k k=0
F¨ ur diejenigen k, f¨ ur die x − nk < δ gilt, ist f ( nk ) − f (x) < 2ε . Wenn x − k ≥ δ, dann ist δ 2 ≤ x − k 2 und somit f (x) − f k ≤ 2c ≤ n n n k 2 2c ur alle 0 ≤ k ≤ n und x ∈ [0, 1] δ 2 x − n . Daher gilt f¨ 2 f k − f (x) < ε + 2c x − k . 2 δ2 n n
2 P P Wegen k nk xk (1 − x)n−k = 1 und k nk xk (1 − x)n−k x − nk ≤ Lemma 4.5.17, folgt nun f¨ ur alle x ∈ [0, 1]
1 4n ,
vgl.
X n ε xk (1 − x)n−k 2 k k 2 X n k ε c 2c ≤ + <ε, + xk (1 − x)n−k 2 x − δ n 2 2nδ 2 k
|Bn (f )(x) − f (x)| ≤
k
das heißt kf − Bn (f )k < ε, wie behauptet.
⊓ ⊔
Beispiel 4.5.20. Um zu demonstrieren, dass die im Beweis gefundene ur den Grad des Bernsteinpolynoms sehr groß sein kann, beSchranke εδc2 f¨ 1 trachten wir die Funktion f : [0, 1] → R, die durch f (x) = 1+25x 2 definiert ist. (Abb. 4.16). Da f (x) ≤ 1 f¨ ur alle x ∈ [0, 1], k¨onnen wir c = 1
Abb. 4.16 f (x) =
1 1+25x2
f¨ ur −1 ≤ x ≤ 1
w¨ahlen. Um diese Funktion durch ein Bernsteinpolynom im Intervall [0, 1] mit der Genauigkeit ε = 0, 001 zu approximieren, suchen wir ein δ > 0, so dass |f (x) − f (y)| < ε f¨ ur alle |x − y| < δ gilt. Da x + y ≤ 2 und 1 ≤ 1, erhalten wir 2 2 (1+25x )(12+25y )
4.5 Approximation von Funktionen
263
1 25(y + x) |y − x| 1 1 + 25x2 − 1 + 25y 2 = (1 + 25x2 )(1 + 25y 2 ) ≤ 50|y − x| .
ε w¨ ahlen, erhalten wir |f (x) − f (y)| < ε f¨ ur alle x, y ∈ [0, 1] Wenn wir δ = 50 mit |y − x| < δ. Das heißt, die im Beweis gefundene Schranke f¨ ur den Grad n des Bernsteinpolynoms Bn (f ), welches diese Funktion f mit der Genauigkeit 12 = 2 500 000 000 000. ε = 0, 001 approximiert, ist gleich εδc2 = 2500 ε3 = 2,5 · 10
Eine weitere Methode zur Approximation einer Funktion f : [a, b] → R besteht darin, dass man ein Polynom p vom Grad h¨ochstens n bestimmt, welches an n+1 sogenannten St¨ utzstellen a = x0 < x1 < . . . , < xn = b dieselben Werte wie die Funktion f annimmt. Wenn y0 = f (x0 ), y1 = f (x1 ) . . . , yn = f (xn ), dann wird ein solches Polynom p = pn wie folgt rekursiv definiert: p0 (x) = y0 k Y pk+1 (x) = pk (x) + yk+1 − pk (xk+1 )
j=0
x − xj xk+1 − xj
f¨ ur k ≥ 0.
Obwohl p und f an den St¨ utzstellen x0 , . . . , xn u ¨ bereinstimmen, kann der Fehler kf − pk sehr groß werden. Auch wenn man durch geschickte Wahl der St¨ utzstellen den Fehler kf − pk bei vorgegebenem Grad minimiert, wird man im Allgemeinen kein optimales Ergebnis erhalten. 1 F¨ ur die Funktion f (x) = 1+25x 2 aus Beispiel 4.5.20 erhalten wir mit dieser Methode bei gleichm¨ aßig verteilen St¨ utzstellen xk = nk , k = 0, . . . , n im Intervall [0, 1] eine bessere Approximation als durch das entsprechende Bernsteinpolynom vom gleichen Grad. Trotzdem ist die Approximation am Rand des Intervalls [−1, 1] nicht gut, wie in Abb. 4.17 zu sehen ist. Die Funktion 1 f (x) = 1+25x anomen von Runge22 bekannte 2 hat die in der Literatur als Ph¨ Eigenschaft, dass sie sich schlecht u ber dem gesamten Intervall [−1, 1] durch ¨ ein Polynom approximieren l¨ asst. Um dieses Ph¨anomen zu vermeiden, werden sogenannte Splines eingef¨ uhrt, d.h. man verwendet st¨ uckweise Polynome von kleinerem Grad, die an den St¨ utzstellen glatt zusammenpassen. So sind zum Beispiel Splines erster Ordnung die Verbindungen der Funktionswerte in den St¨ utzstellen durch Geradenst¨ ucke. In Abb. 4.17 ist zu sehen, dass bereits mit linearen Splines eine gute Approximation erreicht werden kann. Splines k-ter Ordnung sind Funktionen, die auf den Intervallen [xi , xi+1 ] durch Polynome pi+1 vom Grad k gegeben sind, die an den St¨ utzstellen x0 , . . . , xn glatt zusammenpassen. F¨ ur vorgegebene Funktionswerte y0 = f (x0 ), . . . , yn = f (xn ) bedeutet das konkret 22
Carl David Tolm´ e Runge (1856–1927), deutscher Mathematiker.
264
4 Funktionen
Approximation
Bernsteinpolynom vom Grad 12
durch ein Polynom mit 13 St¨ utzstellen
Taylorpolynom vom Grad 12
Approximation durch lineare Splines Abb. 4.17 Verschiedene Approximationen f¨ ur f (x) =
1 1 + 25x2
p1 (x0 ) = y0 , p1 (x1 ) = y1 , p2 (x1 ) = y1 , p2 (x2 ) = y2 , (k−1)
(x1 ) = p1
(k−1)
(x2 ) = p2
p′2 (x1 ) = p′1 (x1 ), . . . , p2
(k−1)
(x1 ) ,
(k−1)
(x2 ) ,
p3 (x2 ) = y2 , p3 (x3 ) = y3 , p′3 (x2 ) = p′2 (x2 ), . . . , p3 .. . pn (xn−1 ) = yn−1 , pn (xn ) = yn ,
(k−1)
p′n (xn−1 ) = p′n−1 (xn−1 ), . . . , pn(k−1) (xn−1 ) = pn−1 (xn−1 ) .
4.5 Approximation von Funktionen
265
¨ Die Glattheit an den St¨ utzstellen wird also durch die Ubereinstimmung der Ableitungen der benachbarten Polynome bis zur Ordnung k − 1 erreicht. Durch diese Bedingungen werden die Polynome p1 , . . . , pn erst nach Wahl (k−1) von beliebigen Werten f¨ ur die Ableitungen p′1 (x0 ), . . . , p1 (x0 ) von p1 im Anfangspunkt x0 = a eindeutig festgelegt. F¨ ur lineare Splines ist k − 1 = 0 und eine solche zus¨ atzliche Wahl ist nicht n¨ otig. In Abb. 4.18 ist die Approximation durch lineare Splines im Intervall [−1, 1] mit St¨ utzstellen x0 = −1, x1 = 0, x2 = 1 und Funktionswerten y0 = 1, y1 = 0, y2 = 1 zu sehen.
bc
bc
1
bc
−1
0
1
Abb. 4.18 Lineare Splines
Interessanter ist bereits die Approximation durch Splines 2. Ordnung. Die Bedingungen p1 (−1) = 1, p1 (0) = 0 und p2 (0) = 0, p′2 (0) = p′1 (0), p2 (1) = 1 sind f¨ ur die beiden quadratischen Polynome p1 (x) = (b + 1)x2 + bx p2 (x) = (1 − b)x2 + bx f¨ ur jede reelle Zahl b erf¨ ullt. Die Wahl der Zahl b ist zur Fixierung von p′1 (0) a¨quivalent, denn p′1 (0) = −b − 2. F¨ ur die Werte b = −4, −3, −2, −1, 0 ergeben sich die in Abb. 4.19 angegebenen Funktionen. In der Praxis werden vorwiegend Splines 3. Ordnung verwendet. Wir werden als N¨ achstes untersuchen, wie periodische Funktionen approximiert werden k¨onnen. Definition 4.5.21. Eine Funktion f : R → R heißt periodisch mit Periode L > 0, falls f (x + L) = f (x) f¨ ur alle x ∈ R gilt. Beispiel 4.5.22. (1) Die Funktionen sin(x) und cos(x) sind periodisch mit Periode 2π. L (2) Sei f eine periodische Funktion mit Periode L, dann ist g(x) := f x 2π eine Funktion mit Periode 2π. Beispiel 4.5.22 (2) zeigt, dass man sich bei der Behandlung periodischer Funktionen auf den Fall der Periode 2π beschr¨ anken kann. Das wollen wir im Folgenden stets tun.
266
4 Funktionen
bc
bc
bc
1
−1
1
1
bc
−1
bc
bc
1
−1
bc
1
bc
0
p′1 (−1) = 2 bc
bc
0
p′1 (−1) = 1 1
1
p′1 (−1) = 0
bc
bc
1
−1
bc
1
bc
bc
0
−1
0
p′1 (−1) = −1
0
1
p′1 (−1) = −2
Abb. 4.19 Splines 2. Ordnung
Definition 4.5.23. Eine Funktion f : R → R heißt trigonometrisches Polynom der Ordnung n, falls es reelle Zahlen a0 , . . . , an , b1 , . . . , bn gibt, so dass n a0 X + f (x) = ak cos(kx) + bk sin(kx) . 2 k=1
Pn Satz 4.5.24 Wenn f (x) = a20 + k=1 (ak cos(kx) + bk sin(kx)) ein trigonometrisches Polynom ist, dann gilt ak =
1 π
1 bk = π
Z
2π
f (x) cos(kx) dx
f¨ ur k = 0, . . . , n
f (x) sin(kx) dx
f¨ ur k = 1, . . . , n .
und
0
Z
2π
0
Beweis. Aus Kapitel 4.4 (Bsp. 4.4.21, Aufg. 4.21 und 4.22) wissen wir
4.5 Approximation von Funktionen
Z
267
2π
cos(kx) sin(lx) dx = 0
f¨ ur alle k, l ∈ Z
cos(kx) cos(lx) dx = 0
f¨ ur alle k, l ∈ Z mit k 6= l
sin(kx) sin(lx) dx = 0
f¨ ur alle k, l ∈ Z mit k 6= l
0
Z
2π
0
Z
2π
0
Z
2π
cos2 (kx) dx =
0
Z
2π
sin2 (kx) dx = π
f¨ ur alle k ≥ 1 ,
0
⊓ ⊔
woraus die Behauptung folgt. Bemerkung 4.5.25. Entsprechend unserer Def. 4.1.20 haben wir cos(x) =
eix + e−ix 2
und
sin(x) =
eix − e−ix . 2i
Damit lassen sich trigonometrische Polynome auch mit Hilfe von komplexwertigen Funktionen schreiben. Mit c0 := a20 und ck := 21 (ak − ibk ), c−k := ur k ≥ 1 ergibt sich n¨ amlich ck = 12 (ak + ibk ) f¨ f (x) =
n n X a0 X + ak cos(kx) + bk sin(kx) = ck eikx . 2 k=1
k=−n
Insbesondere gilt ck =
1 2π
Z
2π
f (x)e−ikx dx ,
0
wobei das Integral einer komplexwertigen Funktion f = u + iv : [a, b] → C durch Integration von Real- und Imagin¨ arteil definiert ist, das heißt Z
a
b
f (x)dx :=
Z
b
u(x)dx + i
a
Z
b
v(x)dx ,
a
falls die reellen Funktionen u, v integrierbar sind. Wir werden zun¨achst periodische Funktionen durch trigonometrische Polynome approximieren. Satz 4.5.26 Sei f : R → R eine stetige, periodische23 Funktion. Dann gibt es f¨ ur jedes ε > 0 ein trigonometrisches Polynom p, so dass kf − pkR < ε. Zum Beweis ben¨otigen wir zwei Hilfss¨ atze. Wir bezeichnen die Menge aller stetigen, periodischen Funktionen f : R → R, die sich im Sinne des obigen Satzes durch reelle trigonometrische Polynome approximieren lassen, mit T . 23
Nach unserer Vereinbarung mit Periode 2π.
268
4 Funktionen
Lemma 4.5.27 Wenn f, g ∈ T , dann gilt (1) f + g ∈ T und f · g ∈ T , sowie (2) |f | ∈ T , max{f, g} ∈ T und min{f, g} ∈ T . Beweis. Sei ε > 0 gegeben. Wir w¨ ahlen trigonometrische Polynome p, q, so dass kf − pk < 2ε und kg − qk < 2ε gilt. Dann ist kf + g − (p + q)k ≤ kf − pk + kg − qk < ε, d.h. f + g ∈ T . Wenn wir p und q so w¨ahlen, dass ε ε und kg − qk < 2kpk gilt, dann folgt kf − pk < 2kgk kf g − pqk = kf g − pg + pg − pqk ≤ kgk · kf − pk + kpk · kg − qk < ε . Damit ist (1) bewiesen. Um (2) zu beweisen, bemerken wir zun¨ achst, dass max{f, g} = 21 f + g + |f − g| und min{f, g} = 21 f + g − |f − g| ist. Damit gen¨ ugt es wegen (1) f¨ ur jedes f ∈ T zu zeigen, dass auch |f | ∈ T gilt. Wenn f ∈ T und kf k < c, dann ist 1c f ∈ T . Damit k¨onnen wir ohne Beschr¨ankung der Allgemeinheit voraussetzen, dass kf k < 1 ist. Aus der bino1 mischen Reihe (Bsp. 4.3.10 (5)) folgt wegen f (x)2 2 = |f (x)| ≤ kf k < 1 die Formel ∞ 1 X 2 (f (x)2 − 1)k . |f (x)| = k k=0
Wegen der gleichm¨ aßigen Konvergenz der binomischen Reihe auf jedem abgeschlossenen Intervall in ihrem Konvergenzbereich, existiert f¨ ur jedes ε > 0 Pn 1 ein n ∈ N, so dass k|f | − gn k < ε2 mit gn (x) := k=0 k2 (f (x)2 − 1)k gilt. Da es sich um eine endliche Summe handelt, folgt aus dem ersten Teil des Satzes gn ∈ T , das heißt, es existiert ein trigonometrisches Polynom p, so dass kgn − pk < ε2 gilt. Dann ist k|f | − pk ≤ k|f | − gn k + kgn − pk < ε , das heißt |f | ∈ T .
⊓ ⊔
Lemma 4.5.28 F¨ ur jede periodische Funktion f : R → R, jedes x0 ∈ [0, 2π] und ε > 0 existiert ein p ∈ T mit p(x0 ) = f (x0 ) und p(x) ≤ f (x) + ε f¨ ur alle x ∈ [0, 2π]. Beweis. Zu jedem z ∈ [0, 2π] gibt es ein trigonometrisches Polynom pz mit pz (z) = f (z) und pz (x0 ) = f (x0 ). Wegen der Stetigkeit von pz − f existiert ein offenes Intervall Iz , welches z enth¨ alt, so dass pz (x) ≤ f (x) + ε f¨ ur alle x ∈ Iz ∩ [0, 2π] .
4.5 Approximation von Funktionen
269
Da jeder Punkt aus dem abgeschlossenen Intervall [0, 2π] in mindestens einer der offenen Mengen Iz enthalten ist, gen¨ ugen endlich viele Intervalle Iz1 , . . . , Izn um [0, 2π] zu u ¨berdecken: [0, 2π] ⊂ ∪nk=1 Izk . Denn, w¨are dies nicht der Fall, dann k¨ onnte man wenigstens eine der beiden H¨alften des Intervalls [0, 2π] nicht mit endlich vielen der Iz u ¨ berdecken. Sei H1 eine solche H¨ alfte. Durch immer weiteres Halbieren f¨ anden wir eine Folge von Intervallen H1 ⊃ H2 ⊃ H3 ⊃ · · · , von denen keines durch endlich viele der Iz u ur k ≥ 1. Da jedes der Intervalle Hk die L¨ange ¨ berdeckt wird. Sei tk ∈ Hk f¨ 21−k π besitzt und das Intervall [0, 2π] abgeschlossen ist, konvergiert die Folge (tk )k≥1 gegen ein t ∈ [0, 2π]. Daraus folgt, dass es ein k0 gibt, so dass Hk ⊂ It f¨ ur alle k ≥ k0 , im Widerspruch zur Konstruktion der Hk . Sei nun p := min{pz1 , . . . , pzn }, dann ist p ∈ T (Lemma 4.5.27) und nach Konstruktion gilt sowohl p(x0 ) = f (x0 ) als auch p(x) ≤ f (x) + ε f¨ ur alle x ∈ [0, 2π]. ⊓ ⊔ Beweis (Satz 4.5.26). Sei ε > 0 gegeben. Nach Lemma 4.5.28 gibt es f¨ ur jedes z ∈ [0, 2π] ein qz ∈ T , so dass qz (z) = f (z) und qz (x) ≤ f (x) + 2ε f¨ ur alle x ∈ [0, 2π] gilt. Da qz − f stetig ist, gibt es ein offenes Intervall Iz , welches z enth¨alt, so dass f¨ ur alle x ∈ Iz ∩ [0, 2π] die Ungleichung qz (x) ≥ f (x) − 2ε gilt. Da [0, 2π] ein abgeschlossenes Intervall ist, gen¨ ugen wieder endlich viele In¨ d.h. [0, 2π] ⊂ ∪m tervalle Iz1 , . . . , Izm zur Uberdeckung, k=1 Izk . Wegen Lemma ullt f (x) − 2ε ≤ 4.5.27 gilt g := max{qz1 , . . . , qzm } ∈ T . Diese Funktion erf¨ ε ur alle x ∈ [0, 2π] und es existiert ein trigonometrisches g(x) ≤ f (x) + 2 f¨ Polynom p mit kg − pk < 2ε . Daraus folgt kf − pk ≤ kf − gk + kg − pk < ε. ⊓ ⊔ Dieser Beweis von Satz 4.5.26 ist ein abstrakter Existenzbeweis, der f¨ ur konkrete Rechnungen wenig Information liefert. Daher werden wir uns als N¨ achstes mit dem Problem der expliziten Konstruktion einer Approximation durch trigonometrische Polynome befassen. Dabei lassen wir uns von Satz 4.5.24 leiten. Definition 4.5.29. Sei f : R → R eine periodische, u ¨ ber [0, 2π] integrierbare Funktion. Dann heißen die Zahlen Z 1 2π ak = f (x) cos(kx)dx f¨ ur k ≥ 0 π 0 Z 2π 1 f (x) cos(kx)dx f¨ ur k ≥ 1 bk = π 0 die Fourier-Koeffizienten 24 von f und die Reihe ∞ a0 X + ak cos(kx) + bk sin(kx) 2 k=1
heißt Fourier-Reihe von f . 24
Jean Baptiste Joseph Fourier (1768–1830), franz¨ osischer Mathematiker.
270
4 Funktionen
Bemerkung 4.5.30. Wenn a, b reelle Zahlen mit b − a = 2π und f : Rb R 2π R → R eine periodische Funktion ist, dann gilt a f (x)dx = 0 f (x)dx. Deshalb werden die Fourier-Koeffizienten auch oft in der Form an = R R 1 π 1 π f (x) cos(nx)dx bzw. b = f (x) sin(nx)dx geschrieben. n π −π π −π Wie in Bemerkung 4.5.25 k¨ onnen wir auch komplexwertige, periodische Funktionen → C betrachten. Dann heißen die komplexen Zahlen R 2πf : R −ikx 1 f (x)e dx, k ∈ Z die Fourier-Koeffizienten von f und die ck := 2π 0 P ikx Fourier-Reihe hat die Gestalt ∞ . k=−∞ ck e Satz 4.5.31 Wenn die stetigen, periodischen Funktionen f, g : R → R die gleichen Fourier-Koeffizienten haben, dann gilt f = g. Beweis. Ohne Beschr¨ ankung der Allgemeinheit sei g = 0. Dann besagt die Voraussetzung, dass alle Fourier-Koeffizienten von f verschwinden. Wegen R 2π Definition 4.5.29 hat das die Gleichung 0 p(x)f (x)dx = 0 f¨ ur jedes trigonometrisches Polynom p zur Folge. Nach Satz 4.5.26 existiert eine Folge (pn )n∈N trigonometrischer Polynome, die auf [0, 2π] gleichm¨aßig gegen f konvergiert. F¨ ur diese Folge gilt Z
0
2π
2
f (x) dx =
Z
0
2π
f (x) lim pn (x)dx = lim n→∞
n→∞
Z
2π
f (x)pn (x)dx = 0 .
0
Da f 2 eine auf [0, 2π] stetige Funktion ist und f (x)2 ≥ 0 gilt, folgt f = 0. ⊓ ⊔ Satz 4.5.32 Wenn f : R → ist, deren PR eine stetige, periodische Funktion a cos(kx) + b sin(kx) auf dem Intervall Fourier-Reihe g(x) := a20 + ∞ k k k=1 [0, 2π] gleichm¨aßig konvergiert, dann ist f = g. Beweis. Wegen der gleichm¨ aßigen Konvergenz ist g eine stetige Funktion, die dieselben Fourier-Koeffizienten wie f hat. Nach Satz 4.5.31 folgt f = g. ⊓ ⊔ Bemerkung 4.5.33. Die Voraussetzung von Satz 4.5.32 ist nicht f¨ ur jede stetige Funktion erf¨ ullt. Im Allgemeinen konvergiert die Fourier-Reihe von f selbst f¨ ur stetige Funktionen weder gleichm¨aßig noch punktweise gegen f . Paul Du Bois–Reymond25 fand im Jahre 1873 eine stetige Funktion, deren Fourier-Reihe divergiert. Bevor wir zu Beispielen kommen, stellen wir ohne Beweis noch einige Resultate u ¨ ber die Konvergenz der Fourier-Reihe zusammen (vgl. [Koe]). 25
Paul Du Bois–Reymond (1831–1889), deutscher Mathematiker.
4.5 Approximation von Funktionen
271
Satz 4.5.34 (1) Wenn f : R → R eine st¨ uckweise stetig differenzierbare26 , periodische Funktion ist, dann konvergiert die Fourier-Reihe auf jedem Intervall, in dem keine Unstetigkeitsstelle von f liegt, gleichm¨aßig gegen f. (2) Wenn f in den Unstetigkeitsstellen links- und rechtsseitige Ableitungen besitzt, dann konvergiert die Fourier-Reihe an diesen Stellen gegen das arithmetische Mittel des links- und rechtsseitigen Grenzwertes von f . Das Taylorpolynom approximiert die Funktion in der N¨ahe des Entwicklungspunktes. Im Gegensatz dazu gibt die Fourier-Reihe f¨ ur eine große Klasse von Funktionen global eine gute N¨ aherung. Satz 4.5.35 Wenn f : R → R eine periodische, ¨ uber [0, 2π] integrierbare Funktion ist, dann konvergiert die Fourier-Reihe von f im quadratischen Mittel gegen f , d.h. lim
n→∞
Z
2π
0
2 f (x) − fn (x) dx = 0 ,
wobei fn (x) die n-te Partialsumme der Fourier-Reihe von f ist. Kommen wir jetzt zu einigen Beispielen. Beispiel 4.5.36. Sei f die periodische Funktion, die durch f (x) = |x| f¨ ur alle x ∈ [−π, π] definiert ist, siehe Abb. 4.20. Diese Funktion ist st¨ uckweise stetig
π
−3π
−2π
−π
π
2π
3π
Abb. 4.20 Eine st¨ uckweise stetig differenzierbare periodische Funktion
differenzierbar. Ihre Fourier-Koeffizienten berechnen sich unter wiederholter Verwendung der partiellen Integration f¨ ur k 6= 0 wie folgt: 26 Eine Funktion f heißt st¨ uckweise stetig differenzierbar auf [0, 2π], wenn es eine Zerlegung 0 = x0 < x1 < . . . < xn = 2π dieses Intervalls und stetig differenzierbare Funktionen fk auf [xk−1 , xk ] gibt, die mit f auf (xk−1 , xk ) u ¨bereinstimmen. Weiterhin sollen die rechtsund linksseitigen Grenzwerte von f in den xk existieren.
272
4 Funktionen
ak =
1 π
Z
2π
f (x) cos(kx)dx
0
Z Z 1 2π 1 π x cos(kx)dx + (−x + 2π) cos(kx)dx π 0 π π π Z 1 π 1 x sin(kx) − sin(kx)dx = π k k 0 0 ! 2π Z 2π 1 1 2π − x sin(kx) + + sin(kx)dx π k k π π π 2π 1 1 1 cos(kx) − 2 cos(kx) = cos(kπ) − 1 − 1 + cos(kπ) = 2 2 πk πk πk 0 π ( 0 f¨ ur k gerade 2 = (cos(kπ) − 1) = πk 2 ur k ungerade. − πk4 2 f¨ =
Eine analoge Rechnung liefert bk = 0 f¨ ur alle k > 0. Da a0 = π, ergibt sich als Fourier-Reihe von f die Reihe f (x) =
1 π
R 2π 0
f (x)dx =
∞ 4X 1 π cos((2k + 1)x) − 2 π (2k + 1)2 k=0
π 4 = − 2 π
cos(3x) cos(5x) cos(7x) cos(x) + + + + ... , 9 25 49
die gleichm¨aßig gegen f konvergiert. Da f (0) = 0 ergibt sich daraus das interessante Resultat ∞
X π2 1 1 1 1 1 1 1 =1+ + = + + + + + ... . 8 (2k + 1)2 9 25 49 81 121 169 k=0
Beispiel 4.5.37. Sei f die periodische Funktion, die durch ( 1 f¨ ur x ∈ (0, π) f (x) = −1 f¨ ur x ∈ (−π, 0) definiert ist (Abb. 4.21). Auch diese Funktion ist st¨ uckweise stetig differen-
1 −3π
−2π
−π
π −1
2π
Abb. 4.21 Noch eine st¨ uckweise stetig differenzierbare, periodische Funktion
3π
4.5 Approximation von Funktionen
273
R 2π zierbar. Offenbar ist a0 = π1 0 f (x)dx = 0. F¨ ur k > 0 berechnen sich die Fourier-Koeffizienten wie folgt: Z Z Z 1 2π 1 π 1 2π ak = f (x) cos(kx)dx = cos(kx)dx − cos(kx)dx π 0 π 0 π π π 2π 1 1 sin(kx) − sin(kx) = 0 , = kπ kπ 0 π Z 2π 1 bk = f (x) sin(kx)dx π 0 π 2π Z Z 1 π 1 1 2π 1 = cos(kx) + cos(kx) sin(kx)dx − sin(kx)dx = − π 0 π π kπ kπ 0 π ( 0 f¨ u r k gerade 1 1 − (−1)k + 1 − (−1)k = 4 = kπ f¨ ur k ungerade. kπ Damit ergibt sich als Fourier-Reihe f¨ ur die Funktion f die Reihe ∞ 4X 1 sin((2k + 1)x) π 2k + 1 k=0 4 sin(3x) sin(5x) sin(7x) sin(9x) = sin(x) + + + + + ... . π 3 5 7 9
Sie konvergiert in jedem abgeschlossenen Teilintervall von (kπ, (k + 1)π) gleichm¨aßig gegen f . In den Unstetigkeitsstellen konvergiert sie gegen 0, das ist das arithmetische Mittel des rechtsseitigen und linksseitigen Grenzwertes. sin(3x) sin(5x) 4 kann man das bereits gut erkenAm Bild von π sin(x) + 3 + 5 π nen (Abb. 4.22). Da f 2 = 1 und sin (2k + 1) π2 = (−1)k ergibt sich aus 1
π
−π −1 Abb. 4.22 Fourierpolynom p5
der Konvergenz in x = ∞
π 2
die interessante Formel:
π X 1 1 1 1 1 1 1 = (−1)k =1− + − + − + − ... , 4 2k + 1 3 5 7 9 11 13 k=0
274
4 Funktionen
der wir bereits in Beispiel 4.4.24 begegnet sind. Zum Abschluss dieses Abschnittes werden wir, aufbauend auf die hier dargestellte Theorie der Fourier-Reihen, einen kurzen Einblick in die diskrete Fourier-Transformation geben, die bei der Datenkompression in der modernen Bild- und Tonverarbeitung zur Anwendung kommt. Zur Motivation und Erkl¨arung der Idee der Fourier-Transformation starten wir mit der Beobachtung, dass eine 2π-periodische Funktion f : R → R unter hinreichend guten Voraussetzungen mit Hilfe ihrer (komplexen) Fourier-Reihe f (x) =
∞ X
ck eikx
k=−∞
R 2π 1 aus der diskreten Menge von komplexen Zahlen ck = 2π f (x)e−ikx dx, 0 k ∈ Z rekonstruierbar ist. F¨ ur Funktionen mit Periode 1, d.h. f (x+1) = f (x), erh¨alt man durch die Substitution ϕ(x) = 2πx die folgende Formel f¨ ur die Fourier-Koeffizienten Z 1 f (t)e−2πikt dt . ck = 0
In der reellen Darstellung einer Funktion mit Periode 2π f (x) =
∞
a0 X + (ak cos(kx) + bk sin(kx)) 2 k=1
sieht man, dass die Gr¨ oße der Koeffizienten ak , bk bestimmt, welchen Einfluss die Funktionen cos(kx), sin(kx) in der Darstellung der Funktion f haben. Wenn wir, wie es in der Praxis oft der Fall ist, die Variable x als Zeitva¨ riable ansehen, dann ist der Ubergang von einer Funktion zu ihren FourierKoeffizienten eine Abbildung vom Zeitbereich in den Frequenzbereich. Als Frequenz einer Funktion mit Periode T > 0 bezeichnet man die reelle Zahl 2π 2π T . Da die Funktionen sin(kx) und cos(kx) die Periode k besitzen, ist ihre Frequenz gleich k. Wenn man etwa bei der Tonverarbeitung bestimmte Frequenzen im Ton nicht haben will, z.B. weil der Mensch sie sowieso nicht wahrnimmt, kann man die entsprechenden Fourier-Koeffizienten einfach Null setzen. Aus den Fourier-Koeffizienten kann man die Funktion mittels der Fourier-Reihe wieder zur¨ uckgewinnen. Das ist die klassische Methode, ein Signal in seine einzelnen Frequenzen zu zerlegen, zu bearbeiten und anschließend wieder zu rekonstruieren. Heute benutzt man dazu oft die sogenannten Wavelets (vgl. [BEL]), die f¨ ur den Computer besser geeignet sind. ¨ Die Ubertragung dieser Idee von Funktionen der Periode 1 auf nichtperiodische Funktionen, die man sich als Funktionen mit der Periode ∞ vorstellt, f¨ uhrt zu den Fourier-Transformationen. Dazu betrachten wir eine st¨ uckweise stetig Funktion f : R → R, R ∞die absolut integrierbar ist, das heißt, f¨ ur die das uneigentliche Integral −∞ |f (x)|dx existiert. Man kann
4.5 Approximation von Funktionen
275
zeigen, dass dann auch fb(x) :=
Z
∞
f (t)e−2πixt dt
−∞
konvergiert. Die Funktion fb(x) wird die Fourier-Transformierte von f genannt. Die Normierung istRin der Literatur nicht einheitlich. Manchmal wird ∞ fb auch durch fb(x) = √12π −∞ f (t)e−ixt dt definiert. Beispiel 4.5.38. Die Fourier-Transformierte der durch f (x) =
(
1 |x| ≤ 1 0 sonst
definierten Funktion f , berechnet sich wie folgt: fb(x) = =
Z
1
−1
e
−2πixt
dt =
Z
1
−1
cos(2πxt)dt − i
Z
1
sin(2πxt)dt
−1
1 1 i sin(2πx) 1 sin(2πxt) + cos(2πxt) = . 2πx 2πx πx −1 −1
Wie in diesem Beispiel kann man die Fourier-Transformierte fb(x) ganz allgemein in Real- und Imagin¨ arteil zerlegen: fb(x) = fbc (x) − ifbs (x), wobei fbc und b fs reelle Funktionen sind. Man nennt fbc die Kosinus-Transformierte und fbs Sinus-Transformierte von f . ¨ Die Fourier-Transformation kann, wie beim Ubergang von den FourierKoeffizienten zu den Fourier-Reihen, umgekehrt werden, denn f¨ ur jeden Punkt x ∈ R, in dem f stetig ist, gilt Z a fb(t)e2πixt dt . f (x) = lim a→∞
−a
In den Unstetigkeitsstellen liefert dieser Ausdruck das arithmetische Mittel der rechts- und linksseitigen Grenzwerte der Funktionswerte. Bei dieser inversen Fourier-Transformation ist zu beachten, dass das unbeR −b R∞ stimmte Integral −∞ fb(t)e2πixt dt = lima,b→∞ −a fb(t)e2πixt dt, in dem beide Grenzen unabh¨ angig voneinander R a gegen ±∞ gehen, nicht immer existieren muss, selbst wenn lima→∞ −a fb(t)e2πixt dt, der sogenannte CauchyR∞ sche Hauptwert, existiert. Zum Beispiel existiert das Integral fb(t)e2πixt dt −∞
nicht, wenn fb(x) = sin(2πx) die Fourier-Transformierte der im Beispiel 4.5.38 πx betrachteten Funktion f ist. Bei praktischen Anwendungen, wie zum Beispiel in der Ton- oder Bildverarbeitung, hat man in der Regel eine Funktion f durch endlich viele f0 , . . . , fN −1 gegeben. Die Fourier-Transformation fb(x) = RFunktionswerte ∞ 2πixt dt wird dann durch die diskrete Fourier-Transformation −∞ f (t)e
276
4 Funktionen
fbn :=
N −1 X
fk e
−2πink N
k=0
ersetzt. Die inverse diskrete Fourier-Transformation ist durch die Gleichung fn =
N −1 1 X b 2πink fk e N N k=0
gegeben. Zum Beweis, dass diese beiden Transformationen wirklich invers 2πink zueinander sind, benutzt man, dass ist und e N eine N -te Einheitswurzel 2πink 1 2πink − N N zeigt, dass die Matrizen e und N e zu0≤n,k≤N −1
0≤n,k≤N −1
einander invers sind (siehe Kapitel 2). Die diskreten Fourier-Transformationen haben ein breites Anwendungsspektrum. Sie werden zum Beispiel zur Datenkompression bei der Bild- und Tonverarbeitung eingesetzt. F¨ ur JPEG benutzt man die diskrete Kosinustransformation N −1 X π 1 fbn = fk cos n k+ N 2 k=0
und bei dem MP3-Format wird fbn =
N −1 X k=0
fk cos
π N
1 1 n+ k+ 2 2
benutzt. Die Idee der Datenkompression im Audiobereich besteht darin, dass der Mensch nur T¨ one in einem bestimmten Frequenzbereich wahrnehmen27 kann. Die anderen Frequenzen, die in den T¨ onen der Musik enthalten sind, kann man beruhigt weglassen, ohne dass sich die Wahrnehmung ¨andert. Deshalb transformiert man das zeitabh¨ angige Tonsignal, das man bei der Aufnahme der Musik erh¨ alt und welches aus endlich viele Funktionswerten besteht, mit Hilfe der diskreten Fourier-Transformation in den Frequenzbereich. Das bedeutet, nach der Fourier-Transformation kann man direkt die Frequenzen ablesen und die nicht wahrnehmbaren Frequenzen herausfiltern, was dadurch erreicht wird, dass die entsprechenden Fourierkoeffizienten Null gesetzt werden. Man kann mit dieser Methode auch gewisse Effekte verst¨arken (z.B. die B¨asse in einer Aufnahme), indem man die entsprechenden Frequenzen verst¨arkt. Auf diese Weise erh¨ alt man eine wesentlich kleinere Datenmenge. Diese transformiert man mit der inversen Fourier-Transformation zur¨ uck und erh¨alt schließlich T¨ one beziehungsweise Musik, die sich f¨ ur den Menschen von der urspr¨ unglichen nicht unterscheidet, aber wesentlich weniger Speicherplatz beansprucht. 27
von etwa 20 Hz bis 18 kHz (1Hz=1 Periode pro Sekunde)
4.5 Approximation von Funktionen
277
¨ Ahnlich funktioniert es in der Bildverarbeitung. Das Bild wird in kleine Quadrate (8 × 8 Bildpunkte) aufgeteilt. Die Bildpunkte sind charakterisiert durch Helligkeit und Farbwerte. Das menschliche Auge nimmt Fehler bei der Helligkeit st¨arker wahr als Fehler bei den Farben. Deshalb kann man auf einen Teil der Farbinformation verzichten. Die diskrete Kosinustransformation ist die am weitesten verbreitete Transformation zur Redundanzreduktion von Bildsignalen. Die diskrete Fourier-Transformation wird auch zur Trennung von Nutz- und St¨ordaten im Audio- und Videobereich verwendet28 . Die St¨orungen lassen sich nach der Transformation leichter erkennen. Wenn zum Beispiel ein Satellitenbild St¨orungen aufweist, kann man sie nach der Fourier-Transformation als Streifen erkennen. F¨ ur die genannten Anwendungen besteht die Notwendigkeit, die diskrete Fourier-Transformation sehr schnell durchzuf¨ uhren. Sie w¨ urde bei normaler Ausf¨ uhrung in einer Zeit von O(N 2 ) erfolgen. Deshalb wurde die sogenannte schnelle Fourier-Transformation entwickelt, die in der Zeit O(N log(N )) abl¨auft. Der diesbez¨ uglich verbreitete Algorithmus stammt von CooleyTukey29 und geht eigentlich auf Gauß zur¨ uck. Die Idee besteht darin, eine Zerlegung N = N1 · N2 zu betrachten und den Algorithmus rekursiv f¨ ur N1 und N2 aufzurufen. In der Regel benutzt man bei den Anwendungen N = 2k . 2πi Zur Beschreibung des Algorithmus sei ω = e N . Dann ist ω eine sogenannte primitive N -te Einheitswurzel, das heißt, ω N = 1 und ω k 6= 1 f¨ ur 1 ≤ k < N . N Es gilt auch ω 2 = −1. Es werden zun¨achst die Komponenten mit geradem Index berechnet gn := fb2n =
N −1 X
fk ω 2kn .
k=0
Dazu wird die Summe in zwei Teile zerlegt N 2
N 2
gn =
−1 X
fk ω
k=0 N 2
=
−1
X
k=0
2kn
+
−1 X
fk+ N ω 2n(k+ 2 ) N
2
k=0
N −1 X fk + fk+ N ν kn fk + fk+ N ω 2kn = 2
2
k=0
mit ν = ω 2 und N = N2 . Nun ist ν eine primitive N -te Einheitswurzel und gn ist die n-te Komponente der Fourier-Transformation des Vektors mit den ur k = 0, . . . , N − 1. Komponenten fk + fk+ N f¨ 2 Analog werden die Komponenten mit ungeradem Index berechnet. 28
Frequenzfilter, Trennung von gesprochener Sprache und Musik.
29
J.W. Tukey (1915–2000), US-amerikanischer Mathematiker.
278
4 Funktionen
hn := fb2n+1 =
N −1 X
fk ω k(2n+1) =
k=0
N −1 X k=0
ω k fk + fk+ N ν kn , 2
d.h. hn ist die n-te Komponente der Fourier-Transformation des Vektors mit k ur k = 0, . . . , N − 1. Damit k¨onnen wir den Komponenten ω · fk − fk+ N f¨ 2 den Algorithmus rekursiv auf Vektoren der halben L¨ange anwenden, wodurch er sehr schnell wird.
Aufgaben ¨ Ubung 4.25. Ersetzen Sie den konstruktiven Beweis des Weierstraßschen Approximationssatzes f¨ ur stetige Funktionen durch einen Beweis analog dem Beweis des Satzes 4.5.26 f¨ ur periodische Funktionen. ¨ Ubung 4.26. Berechnen Sie die Fourier-Reihe f¨ ur die 2π-periodische Funktion f , die durch f (x) = | sin(x)| auf [−π, π] definiert ist. ¨ Ubung 4.27. Zeigen Sie, dass jede gerade P∞2π-periodische Funktion f : R → R eine Fourier-Reihe der Gestalt a20 + k=1 ak cos(kx) besitzt. Wir nennen eine Funktion gerade, wenn f (−x) = f (x) f¨ ur alle x ∈ R gilt. Wie lautet der entsprechende Satz f¨ ur ungerade Funktionen, das sind solche, f¨ ur die f (−x) = −f (x) gilt? ¨ Ubung 4.28. Berechnen Sie die Fourierreihe der 2π-periodischen Funktion f , die durch f (x) = π 2 − x2 auf [−π, π] definiert ist. ∞
x X sin(kx) ¨ Ubung 4.29. Beweisen Sie = (−1)k+1 f¨ ur alle x ∈ (−π, π). 2 k k=1
¨ Ubung 4.30. Berechnen Sie die Fourier-Reihe f¨ ur die 2π-periodische Funktion f , die durch f (x) = ex f¨ ur x ∈ (0, 2π) definiert ist.
Teil III Diskrete Strukturen
Kapitel 5
Diskrete Mathematik
Dieses Kapitel stellt die elementaren Grundlagen der Kombinatorik, Wahrscheinlichkeitstheorie und Graphentheorie bereit. Dabei handelt es sich um unverzichtbares R¨ ustzeug eines jeden Informatikers, wie an den behandelten Beispielen unschwer zu erkennen ist. In diesem Zusammenhang werden hier diskutiert: die Funktionsweise von Spamfiltern, die Verwaltung großer Datenmengen mit Hashtabellen, Eigenschaften großer Netzwerke wie z.B. des Internets, wie Suchmaschinen effizient Informationen im Internet finden und wie ein Routenplaner einen optimalen Weg bestimmt. Am Ende dieses Kapitels werden effiziente Primzahltests, die auf Methoden der Wahrscheinlichkeitstheorie beruhen, vorgestellt. Solche Tests kommen in der Kryptographie zur Anwendung, wo sehr große Primzahlen ben¨otigt werden (Abschnitt 1.5).
5.1 Kombinatorik Die Kombinatorik ist die Wissenschaft vom systematischen Z¨ahlen. Der Name r¨ uhrt daher, dass es oft darum geht, zu ermitteln, wie viele M¨oglichkeiten es gibt, bestimmte Objekte zu kombinieren. Es folgen einige typische Fragen dieser Art: (1) Wie viele Tipps gibt es beim Lotto 6 aus 49“? ” (2) Wie viele M¨oglichkeiten gibt es f¨ ur die Zielreihenfolge beim 100-MeterLauf mit 8 Teilnehmern? (3) Wie viele M¨oglichkeiten der Medaillenverteilung (Gold, Silber Bronze) gibt es beim 100-Meter-Lauf mit 8 L¨ aufern? (4) Wie viele M¨oglichkeiten gibt es, ein Zahlenschloss mit 3 Ringen einzustellen? (5) Wie viele verschiedene (auch nicht sinnvolle) W¨orter kann man aus den Buchstaben Entenei“ bilden? ” (6) Wie viele Farbzusammenstellungen gibt es, wenn aus einer großen T¨ ute Gummib¨archen mit 7 verschiedenen Farben, 3 ausgew¨ahlt werden? 281
282
5 Diskrete Mathematik
Diese Fragen klingen alle irgendwie ¨ ahnlich, geh¨oren jedoch zu verschiedenen Kategorien. Ein wichtiges Werkzeug zu ihrer Beantwortung sind Binomialkoeffizienten, deren Eigenschaften wir deshalb zu Beginn untersuchen. Definition 5.1.1. Seien n und k nat¨ urliche Zahlen mit n ≥ k ≥ 0. Dann ist n! (n-Fakult¨at) durch 0! := 1 und n! := n · (n − 1)! induktiv definiert und der ( nu ¨ ber k“ gesprochene) Ausdruck ” n! n := k (n − k)!k! heißt Binomialkoeffizient . Die im folgenden Lemma angegebene Rekursionsgleichung ist ¨aquivalent zu unserer Definition der Binomialkoeffizienten. Deshalb werden wir in vielen Rechnungen darauf zur¨ uckgreifen. Lemma 5.1.2 n (1) nk = n−k f¨ ur n, k ∈ N, n ≥ k, n−1 n−1 (2) k−1 + k = nk f¨ ur n ≥ k ≥ 1 und n, k ∈ N. Beweis. (1) folgt unmittelbar aus der Definition. F¨ ur (2) berechnen wir (n − 1)! n−1 (n − 1)! n−1 + + = (n − k)! · (k − 1)! (n − k − 1)! · k! k−1 k (n − 1)! · k + (n − 1)! · (n − k) = (n − k)! · k! n n! = . = (n − k)! · k! k ⊓ ⊔ Bemerkung 5.1.3. Die rekursive Berechnung der Binomialkoeffizienten mit Hilfe der Gleichung (2) kann man besonders u ¨ bersichtlich in Form des Pascalschen1 Dreiecks durchf¨ uhren. Wenn man darin die Zeilen von oben nach unten mit Null beginnend dann sind in Zeile n die Binomi nummeriert, alkoeffizienten n0 n1 n2 . . . nn in dieser Reihenfolge eingetragen. Jeder Eintrag ergibt sich als Summe der beiden benachbarten Eintr¨age der direkt dar¨ uberliegenden Zeile. Die Eigenschaft (1) aus Lemma 5.1.2 besagt, dass das Pascalsche Dreieck symmetrisch bez¨ uglich der vertikalen Mittellinie ist. 1
Blaise Pascal (1623–1662), franz¨ osischer Mathematiker.
5.1 Kombinatorik
283
1 1 1 1 1 1 ·
3 4
5 ·
1 2 6
10 ·
1 3
1 4
10 ·
1 5
·
1 ·
·
n X n k n−k Satz 5.1.4 (Binomische Formel) (x + y) = x y . k n
k=0
¨ Beweis. Siehe Ubung 1.5.
⊓ ⊔
Durch Einsetzen von x = 1, y = 1 bzw. x = 1, y = −1 erhalten wir zwei interessante und n¨ utzliche Gleichungen: n X n
n n n n 2 = = + + + ...+ k 0 1 2 n k=0 n X n n n k n n n . = − 0= (−1) + − . . . + (−1) n k 0 1 2 n
(5.1) (5.2)
k=0
Aufbauend auf diese einfachen Eigenschaften lassen sich auch kompliziertere Gleichungen herleiten. Satz 5.1.5 k X n m n+m = (1) i k−i k i=0 n 2 X n 2n = (2) i n i=0 n n+1 (3) (n + 1) = (k + 1) f¨ ur n ≥ k und n, k ∈ N. k k+1 Beweis. Aus Satz 5.1.4 und (1 + x)n (1 + x)m = (1 + x)n+m folgt n X n i=0
i
xi ·
n+m m X n + m X m j x = xk . j k j=0
Koeffizientenvergleich ergibt
k=0
284
5 Diskrete Mathematik
k X nm n + m X n m = = i k−i i j k i=0 i+j=k
n und das ist (1). Mit m = n = k und n−i = ni ergibt sich daraus (2). Die Gleichung (3) ist eine unmittelbare Konsequenz von Definition 5.1.1. ⊓ ⊔ Um die binomische Formel (Satz 5.1.4) auf r Variablen zu verallgemeinern, definieren wir n n! (5.3) := k1 ! · k2 ! · . . . · kr ! k1 , k2 , . . . , kr
n xk1 · xk22 · . . . · xkr r k1 , k2 , . . . , kr 1
X
n
Satz 5.1.6 (x1 + . . . + xr ) =
k1 ,...,kr k1 +...+kr =n
Beweis. Der Beweis wird mittels Induktion nach r gef¨ uhrt. Der Induktionsanfang bei r = 2 ist der Satz 5.1.4. Wir nehmen an, die Behauptung ist f¨ ur r − 1 Variablen bereits bewiesen. Nun gilt (x1 + . . . + xr )n = ((x1 + . . . + xr−1 ) + xr )n n X X n i kr−1 n−i = xr xk11 · . . . · xr−1 i k , . . . , k 1 r−1 i=0 k1 ,...,kr−1 k1 +...+kr−1 =i
X
=
k1 ,...,kr k1 +...+kr =n
X
=
k1 ,...,kr k1 +...+kr =n
weil
n n−kr
n−kr k1 ,...,kr−1
Folgerung 5.1.7.
=
n n − kr
n xk1 · . . . · xkr r , k1 , . . . , kr 1
n! kr !(n−kr )!
X
k1 ,...,kr k1 +...+kr =n
n − kr xk1 · . . . · xkr r k1 , . . . , kr−1 1
·
(n−kr )! k1 !·...·kr−1 !
n k1 , . . . , kr
=
n! k1 !·...·kr !
=
n k1 ,...,kr
.
⊓ ⊔
= rn
Beweis. Man setze x1 = . . . = xr = 1 in Satz 5.1.6.
⊓ ⊔
Bei den verschiedenen M¨ oglichkeiten die Elemente einer Menge anzuordnen, unterscheiden wir zwischen Kombinationen, Variationen und Permutationen.
5.1 Kombinatorik
285
Definition 5.1.8. Sei M eine Menge mit n Elementen. (1) Eine Kombination K von k Elementen von M ist eine Auswahl von k Elementen dieser Menge, bei der es nicht auf die Reihenfolge ankommt. (2) Eine Variation K von k Elementen von M ist eine Auswahl von k Elementen dieser Menge in einer bestimmten Reihenfolge. (3) Wir sprechen von Kombinationen bzw. Variationen ohne Wiederholung, wenn jedes Element h¨ ochstens einmal gew¨ ahlt werden kann. Wenn dagegen die Elemente mehrmals gew¨ ahlt werden d¨ urfen, handelt es sich um Kombinationen bzw. Variationen mit Wiederholung. Bemerkung 5.1.9. Die eingangs gestellte Frage (1) beinhaltet eine Kombination ohne Wiederholung, Frage (6) eine Kombination mit Wiederholung. Die Frage (3) ist eine Frage u ¨ ber eine Variation ohne Wiederholung und die Frage (4) eine Variation mit Wiederholung. Satz 5.1.10 (1) Die Anzahl aller Kombinationen ohne Wiederholung von k Elementen einer n-elementigen Menge betr¨agt nk . (2) Die Anzahl aller Kombinationen mit Wiederholung von k Elementen ei ner n-elementigen Menge ist gleich n+k−1 . k (3) Die Anzahl aller Variationen ohne Wiederholung von k Elementen einer n! n-elementigen Menge betr¨agt (n−k)! . (4) Die Anzahl aller Variationen mit Wiederholung von k Elementen einer n-elementigen Menge ist gleich nk . Beweis. F¨ ur k = 1 sind alle diese Anzahlen gleich n und der Satz ist klar. Wir k¨onnen daher n ≥ k ≥ 2 annehmen. (1) Wir f¨ uhren den Beweis durch Induktion nach n. Der Induktionsanfang n = 2 ist klar. Wir setzen voraus, die Behauptung ist f¨ ur jede Menge mit n − 1 Elementen bereits bewiesen. Die Anzahl aller Kombinationen von k Elementen der Menge M = {a1 , . . . , an }, in denen a1 enthalten ist, ist gleich der Anzahl der Kombinationen von k −1 Elementen aus derMenge M r{a1 }. Nach Induktionsvoraussetzung ist diese Anzahl gleich n−1 k−1 . Andererseits ist die Anzahl der Kombinationen von k Elementen von M r {a1 } gerade n−1 k . Beide zusammen ergeben die Anzahl aller Kombinationen von k Elementen, n−1 n also n−1 + = k−1 k k nach Lemma 5.1.2. (2) Hier ben¨otigen wir Induktion nach n + k. Der Induktionsanfang (n + k = 4, d.h. n = k = 2) ist klar. Wir setzen voraus, die Formel ist f¨ ur kelementige Kombinationen einer (n − 1)-elementigen Menge und f¨ ur (k − 1)-elementige Kombinationen einer n-elementigen Menge richtig. Sei M = {a1 , . . . , an }, dann ist die Anzahl der Kombinationen von k Elementen mit Wiederholung, die a1 enthalten, gleich der Anzahl der Kombinationen von k− 1 Elementen aus M . Deren Anzahl ist n+k−2 nach Induktionsvoraussetzung. k−1
286
5 Diskrete Mathematik
Die Kombinationen, die a1 nicht enthalten, sind die Kombinationen von k Elementen mit Wiederholung der Menge M r {a1 }. Davon gibt es n−1+k−1 , k nach Induktionsvoraussetzung. Beides zusammen ergibt n+k−2 n+k−2 n+k−1 + = . k−1 k k (3) Wir f¨ uhren den Beweis durch Induktion nach n. Erneut ist der Induktionsanfang klar. Wir setzen voraus, die Anzahl der k-elementigen Variationen ei(n−1)! . Sei jetzt M = {a1 , . . . , an }. ner (n−1)-elementigen Menge ist gleich (n−1−k)! Dann ist die Anzahl der Variationen von k Elementen aus M , bei denen a1 an der i-ten Stelle steht, gleich der Anzahl der Variationen von k − 1 Elementen (n−1)! (n−1)! der Menge M r {a1 }. Deren Anzahl ist gleich (n−1−(k−1))! = (n−k)! . Damit ist die Anzahl der Variationen von k Elementen von M ohne Wiederholung, (n−1)! . Die Anzahl der k-elementigen Variabei denen a1 vorkommt, gleich k (n−k)! tionen von M r {a1 } ohne Wiederholung ist nach Induktionsvoraussetzung (n−1)! gleich (n−1−k)! . Beides zusammen ergibt k
(n − 1)! (n − 1)! (n − 1)!k + (n − 1)!(n − k) n! + = = . (n − k)! (n − 1 − k)! (n − k)! (n − k)!
(4) Wir f¨ uhren den Beweis durch Induktion nach k. Der Fall k = 2 ist klar. Wir setzen voraus, dass die Anzahl der Variationen mit Wiederholung von k − 1 Elementen einer n-elementigen Menge gleich nk−1 ist. Die Anzahl der Variationen mit Wiederholung von k Elementen der Menge M = {a1 , . . . , an }, bei denen ai an der k-ten Stelle steht, ist dann gleich der Anzahl der Variationen mit Wiederholung von k − 1 Elementen der Menge M , also gleich nk−1 . Da es n verschiedene M¨oglichkeiten f¨ ur die Besetzung der k-ten Position gibt, ist die Anzahl der Variationen mit Wiederholung von k Elementen der Menge M gleich n · nk−1 = nk . ⊓ ⊔ Neben Kombinationen und Variationen werden in der Kombinatorik auch Permutationen gez¨ ahlt. Das ist ein Spezialfall von Variationen. Definition 5.1.11. Sei M eine n-elementige Menge. Eine Permutation von M ist eine Variation (ohne Wiederholung) aller n Elemente von M . Bei der Zielankunft eines 100-Meter-Laufs handelt es sich um eine Permutation der teilnehmenden L¨ aufer. Aus Satz 5.1.10 (3) ergibt sich, dass die Anzahl der m¨oglichen Permutationen einer n-elementigen Menge gleich n! ist. Mit den bisherigen Ergebnissen lassen sich bereits f¨ unf der sechs eingangs gestellten Fragen beantworten.
5.1 Kombinatorik
287
Folgerung 5.1.12. (1) Bei der Ziehung der Lottozahlen 6 aus 49“ gibt es ” 49 = 13 983 816 verschiedene M¨oglichkeiten. 6 (2) Es gibt 8! = 40 320 verschiedene M¨oglichkeiten f¨ ur die Zielankunft von 8 L¨aufern beim 100-Meter-Lauf. 8! (3) Beim 100-Meter-Lauf von 8 L¨aufern gibt es (8−3)! = 8! 5! = 8 · 7 · 6 = 336 M¨oglichkeiten, Gold, Silber und Bronze zu verteilen. (4) Bei einem Zahlenschloss mit drei Ringen gibt es 103 = 1000 verschiedene m¨ogliche Einstellungen (10 ist die Anzahl der Ziffern von 0 bis 9). (5) F¨ ur die Farbzusammenstellung einer Auswahl von 3 Gummib¨archen aus einer großen T¨ ute, die jeweils viele Gummib¨archen in 7 verschiedenen Farben enth¨alt, gibt es 7+3−1 = 93 = 84 M¨oglichkeiten. 3 Beispiel 5.1.13. In einer Urne befinden sich 6 verschiedenfarbige Kugeln. Wie viele M¨oglichkeiten gibt es, 3 Kugeln ohne (bzw. mit) Zur¨ ucklegen ohne Beachtung der Reihenfolge oder mit Beachtung der Reihenfolge zu ziehen? Das sind vier verschiedene Fragen. Wenn wir die Reihenfolge außer Acht lassen, handelt es sich um Kombinationen, wenn wir die Reihenfolge beachten um Variationen. Wir erhalten mit Satz 5.1.10 Reihenfolge Reihenfolge beachten nicht beachten 8 mit Zur¨ ucklegen 63 = 216 3 = 56 6 6! ohne Zur¨ ucklegen 3! = 120 3 = 20
In komplizierteren Situationen ist es oftmals sinnvoll, die anschaulichen Begriffe Kombination, Variation und Permutation durch abstrakte und damit pr¨azisere Begriffsbildungen aus der Mengenlehre zu ersetzen. Das geschieht zum Beispiel dadurch, dass man die Auswahl von k Elementen aus einer Menge M als Abbildung ϕ : {1, 2, . . . , k} → M interpretiert, wobei ϕ(i) das i-te ausgew¨ahlte Element ist. Folgerung 5.1.14. Sei N eine k-elementige und M eine n-elementige Menge, n ≥ k. Wir bezeichnen mit Abb(N, M ) = {ϕ : N → M } die Menge der Abbildungen von N nach M und mit Inj(N, M ) = {ϕ : N → M | ϕ injektiv} die Menge aller injektiven Abbildungen (vgl. Abschnitt 6.3). Außerdem bezeichne Pk (M ) = {T | T ⊂ M und |T |S= k} die Menge aller k-elementigen n Teilmengen von M . Dann ist P(M ) = k=0 Pk (M ) die Potenzmenge von m und es gilt n! n | Inj(N, M )| = |Pk (M )| = (n − k)! k | Abb(N, M )| = nk
|P(M )| = 2n .
288
5 Diskrete Mathematik
Beweis. Sei N = {n1 , . . . , nk }. Eine Abbildung ϕ : N → M ist festgelegt durch die Bilder ϕ(n1 ), . . . , ϕ(nk ) der k Elemente von N . Jede Variation von k Elementen aus M mit Wiederholung definiert eine solche Abbildung. Bei einer injektiven Abbildung darf es keine Wiederholung geben, d.h. sie entspricht einer Variation ohne Wiederholung. Eine k-elementige Teilmenge von M ist eine Kombination ohne Wiederholung von k Elementen aus M . Damit folgen die behaupteten Gleichungen aus Satz 5.1.10 und Gleichung (5.1). ⊓ ⊔ Folgerung 5.1.14 legt die folgenden, in der Literatur mitunter verwendeten N Bezeichnungen nahe: M := Abb(N, M ) und 2M := P(M ). k := Pk (M ), M Wenn M und N die gleiche (endliche) Anzahl n von Elementen besitzen, dann ist jede injektive Abbildung ϕ : N → M automatisch bijektiv und Inj(N, M ) = Bij(N, M ) = {ϕ : N → M | ϕ ist bijektiv} ist die Menge aller bijektiven Abbildungen von N nach M . Aus Folgerung 5.1.14 erhalten wir | Bij(N, M )| = n! . Eine Permutation von M ist eine bijektive Abbildung von M auf sich selbst. Die Anzahl der surjektiven Abbildungen zwischen zwei Mengen wird in Folgerung 5.1.19 bestimmt. Um nicht nur Variationen, sondern auch Kombinationen in dieser mengentheoretischen Sprache beschreiben zu k¨ onnen, f¨ uhren wir auf der Menge der ¨ Abbildungen Abb(N, M ) die folgende Aquivalenzrelation ein. ϕ ∼ ψ genau dann, wenn σ ∈ Bij(N, N ) mit ϕ = ψ ◦ σ existiert . ¨ Auch auf der Teilmenge Inj(N, M ) ⊂ Abb(N, M ) ist dadurch eine Aquivalenzrelation definiert. Zwei Abbildungen liegen genau dann in derselben ¨ Aquivalenzklasse, wenn sich ihre Bildelemente nur in der Reihenfolge unterscheiden. Zusammen mit dem Beweis von Folgerung 5.1.14 zeigt das, dass wir f¨ ur jede n-elementige Menge M und jede k-elementige Menge N auf folgende Weise die mengentheoretischen Konstruktion mit Variationen bzw. Kombinationen von k Elementen aus M identifizieren k¨onnen: Abb(N, M ) = Inj(N, M ) = Abb(N, M )/ ∼ = Inj(N, M )/ ∼ =
Variationen mit Wiederholung, Variationen ohne Wiederholung, Kombinationen mit Wiederholung, Kombinationen ohne Wiederholung.
Von den sechs einleitenden, auf Seite 281 gestellten Fragen ist noch Frage (5) zu beantworten. Dazu studieren wir die Zahl der m¨oglichen Anordnungen von Objekten aus mehreren Klassen, wobei angenommen wird, dass die Objekte innerhalb einer Klasse nicht unterscheidbar sind. Solche Anordnungen werden auch als Permutationen mit Wiederholung bezeichnet. Als typisches Beispiel kann man sich als Objekte farbige Kugeln vorstellen und Kugeln gleicher Farbe in einer Klasse zusammenfassen.
5.1 Kombinatorik
289
Satz 5.1.15 Sei M eine n-elementige Menge, die in r Klassen 1 , . . . , Kr PK r mit jeweils k1 , . . . , kr Elementen unterteilt ist, so dass n = i=1 ki . Die Objekte innerhalb einer Klasse seien nicht unterscheidbar. Die Anzahl der verschiedenen Anordnungen (unter Beachtung der Reihenfolge) dieser n Ob n . jekte ist gleich k1 ,...,k r Wir beweisen diesen Satz am Ende des Abschnittes. Beispiel 5.1.16. Sei K1 die Klasse, die aus 3 Exemplaren des Buchstaben e besteht, K2 die Klasse aus 2 Exemplaren von n, K3 die Klasse, die nur den Buchstaben i und K4 die Klasse, die nur t enth¨alt. Dann ist k1 = 3, k2 = 2, k3 = 1, k4 = 1 und n = 7. Die Anzahl der verschiedenen Worte, die man aus dem Wort Entenei“ durch Vertauschen der Buchstaben bilden kann, ist ” nach Satz 5.1.15 gleich 7! 7 = 420 . = 3! · 2! · 1! · 1! 3, 2, 1, 1 Das Prinzip der Inklusion und Exklusion ist ein Hilfsmittel, welches nicht nur f¨ ur den Beweis von Satz 5.1.15 n¨ utzlich ist, sondern auch zur L¨osung anderer komplexer Z¨ahlprobleme. Die einfachste Version ist die f¨ ur zwei Teilmengen A und B einer Menge M : |A ∪ B| = |A| + |B| − |A ∩ B| .
(5.4)
Satz 5.1.17 (Prinzip der Inklusion und Exklusion) Wenn A1 , A2 , . . . , Ar beliebige Teilmengen einer Menge M sind, dann gilt r r X [ X = |Aj1 ∩ Aj2 | |A | − A j j j=1 j=1 j1 <j2 X |Aj1 ∩ Aj2 ∩ Aj3 | − . . . + (−1)r−1 |A1 ∩ . . . ∩ Ar | . + j1 <j2 <j3
Beweis. Wir f¨ uhren den Beweis durch Induktion nach r. F¨ ur r = 1 ist der Satz offensichtlich richtig und f¨ ur r = 2 handelt es sich um die Formel (5.4). Wir setzen voraus, dass der Satz f¨ ur r−1 ≥ 2 Teilmengen einer Menge bereits gezeigt ist. Aus (5.4) erhalten wir zun¨ achst
290
5 Diskrete Mathematik
r r−1 r−1 [ [ r−1 [ [ A A ∪ A ∩ A = A = A + |A | − j j r r j j r j=1 j=1 j=1 j=1 r−1 r−1 [ [ = Aj + |Ar | − (Aj ∩ Ar ) . j=1 j=1
(5.5)
Nach Induktionsvoraussetzung gilt r−1 r−1 X [ X |Aj1 ∩ Aj2 | + . . . + (−1)r |A1 ∩ . . . ∩ Ar−1 | (5.6) |Aj | − Aj = j=1 j=1 j1 <j2
Durch Einsetzen von (5.6) und (5.7) in (5.5) ergibt sich die Behauptung. ⊓ ⊔ Beispiel 5.1.18. Bei der Vorbereitung einer studentischen Weihnachtsfeier wird verabredet, dass jeder ein Geschenk erhalten soll. Dazu werden kleine Zettelchen mit den Namen der Teilnehmer in einen Lostopf gelegt. Jeder zieht nun ein Los und wird zur Weihnachtsfeier ein Geschenk f¨ ur die Person mitbringen, deren Namen er auf dem gezogenen Los gefunden hat2 . Wie viele M¨oglichkeiten gibt es, dass bei der Ziehung keiner der Teilnehmer das Los mit seinem eigenen Namen zieht? Mathematisch gesehen ist das die Frage nach der Anzahl der Permutationen ohne Fixpunkt, d.h. solcher Permutationen, die kein Element der Menge an seiner Position belassen. Um diese Zahl zu bestimmen, bezeichnen wir mit Sn die Menge der Permutationen der Menge M = {a1 , . . . , an } und mit Ai ⊂ Sn die Teilmenge der Permutationen, die ai S fest lassen d.h. bei den nen ai wieder an der i-ten Stelle steht. Dann ist i=1 Ai die S Menge der n Permutationen mit Fixpunkt und wir interessieren uns f¨ u r |S r n i=1 Ai | = Sn n! − | A |. Mit dem Prinzip der Inklusion und Exklusion erhalten wir i i=1 Sn Pn P | i=1 Ai | = j=1 |Aj |− j1 <j2 ≤n |Aj1 ∩ Aj2 |+. . .+(−1)n−1 |A1 ∩ . . . ∩ An |. Die Menge Aj1 ∩ . . . ∩ Ajk besteht aus den Permutationen von M , bei denen aj1 , . . . , ajk fest bleiben, bei denen also nur die Elemente von M r {aj1 , . . . , ajk } permutiert werden. Daraus folgt |Aj1 ∩ . . . ∩ Ajk | = (n − k)!. Summation u oglichen derartigen Durchschnitte von k Teilmengen ¨ber alle m¨ ergibt: 2
Dieser Brauch ist in manchen Regionen als Julklapp oder Wichteln bekannt.
5.1 Kombinatorik
291
X
j1 <...<jk
n |Aj1 ∩ . . . ∩ Ajk | = (n − k)! k
und somit n [ n n n · 0! · (n − 1)! − · (n − 2)! + . . . + (−1)n−1 Ai = n 1 2 i=1 1 1 n−1 1 = n! 1 − + − . . . + (−1) . 2! 3! n! Das bedeutet
n n X [ (−1)j . Ai = n! Sn r j! j=0
i=1
Pn
j
f¨ ur große n etwa den Wert Bemerkenswert ist hier, dass der Faktor j=0 (−1) j! 0,368 besitzt, denn die Taylorreihe der Exponentialfunktion (siehe Beispiel P xj −1 ≈ 0,367879441. 3.3.17) lautet ex = ∞ j=0 j! und es gilt e Bei einer Gruppe von n = 12 Studenten gibt es bereits 479 001 600 − 239 500 800 + 79 833 600 − 19 958 400 + 3 991 680 − 665 280 + 95 040 − 11 880 + 1 320 − 132 + 12 − 1 = 302 594 015 M¨ oglichkeiten, dass jemand seinen eigenen Namen zieht. Das sind etwa 63,2% aller 12! = 479 001 600 M¨oglichkeiten wie die Lose gezogen werden k¨ onnen. Nur bei etwa 36,8% aller M¨oglichkeiten zieht keiner ein Los mit seinem eigenen Namen. Folgerung 5.1.19. Wenn M und N Mengen mit |M | = n ≥ k = |N | Elementen sind, dann bezeichne Sur(M, N ) = {ϕ : M → N | ϕ surjektiv} die Menge aller surjektiven3 Abbildungen von M nach N . Es gilt | Sur(M, N )| =
k X i=0
(−1)i
k (k − i)n . i
Beweis. Sei N = {n1 , . . . , nk } und Aj = {ϕ : M → N | nj 6∈ im(ϕ)}, dann ist S Sur(M, N ) = Abb(M, N )r kj=1 Aj und mit Folgerung 5.1.14 | Sur(M, N )| = S k n − kj=1 Aj . Wir k¨ onnen Aj mit der Menge Abb (M, N r{nj }) der Abbil-
dungen von M nach N r{nj } identifizieren. Daher ist |Aj | = (k − 1)n . Auf ahnliche Weise sieht man |Aj1 ∩ Aj2 ∩ . . . ∩ Aji | = (k − i)n . Damit folgt wie im ¨ Sk Beispiel 5.1.18, dass j=1 Aj = k1 (k − 1)n − k2 (k − 2)n + . . . + kk (k − k)n P und somit | Sur(M, N )| = ki=0 (−1)i ki (k − i)n gilt. ⊓ ⊔ 3
Siehe Definition 6.3.3.
292
5 Diskrete Mathematik
Beweis (von Satz 5.1.15). Eventuell vorhandene leere Klassen Ki k¨onnen ignoriert werden, da sie weder die Z¨ ahlung noch die angegebene Formel beeinflussen. Wir nehmen daher f¨ ur 1 ≤ i ≤ r an, dass ki > 0 gilt. Wir beweisen den Satz durch Induktion nach n. Der Induktionsanfang n = 1 ist klar. Der Satz sei f¨ ur ein n ≥ 1 bereits bewiesen. Mit Aj bezeichne wir die Menge der Anordnungen von Objekten aus K1 , . S . . , Kr , bei denen an der n+1 j-ten Stelle ein Element aus K1 steht. Da k1 > 0, ist j=1 Aj die Menge aller Anordnungen von Objekten aus M = K1 ∪ . . . ∪ Kr . Aus Satz 5.1.17 folgt n+1 n+1 X X [ |Aj1 ∩ Aj2 | + . . . |Aj | − Aj = j=1 j=1 j1 <j2 X . . . + (−1)k1 −1 |Aj1 ∩ . . . ∩ Ajk1 | , j1 <...<jk1 ≤n+1
denn nach Definition der Aj ist der Durchschnitt von mehr als k1 der Mengen n+1−i Aj leer. Da nach Induktionsvoraussetzung |Aj1 ∩ . . . ∩ Aji | = k1 −i,k 2 ,...,kr P S n+1 k1 n+1 n+1−i i+1 . Aus der Gleichung (−1) ist, folgt j=1 Aj = i=1 i k1 −i,k2 ,...,kr
n+1 n+1−i (n + 1)! (n + 1 − i)! = · i k1 − i, k2 , . . . , kr i!(n + 1 − i)! (k1 − i)!k2 ! · . . . · kr ! k1 ! n+1 k1 (n + 1)! · = = k1 ! · . . . · kr ! i!(k1 − i)! k1 , . . . , kr i ergibt sich n+1 X k1 [ n+1 n+1 i+1 k1 = A = , (−1) j i k1 , . . . , kr k1 , . . . , kr i=1 j=1
da
Pk1
v+1 k1 v=0 (−1) v
= 0 nach Gleichung (5.2).
⊓ ⊔
Aufgaben ¨ Ubung 5.1. Wie viele dreistellige Zahlen gibt es im Dezimalsystem? ¨ Ubung 5.2. Wie viele verschiedene Tippreihen gibt es beim Fußballtoto (11 Tipps, jeweils Spiel unentschieden, verloren oder gewonnen)? ¨ Ubung 5.3. An einem Pferderennen nehmen 20 Pferde teil. Wie viele M¨oglichkeiten gibt es, die ersten drei Pl¨ atze zu besetzen? ¨ Ubung 5.4. Wie viele Bitfolgen der L¨ ange 5 kann man im Morsealphabet (Punkt, Strich, ohne Pause) bilden?
5.2 Wahrscheinlichkeit
293
¨ Ubung 5.5. Beweisen Sie
Pn−2 i=1
n−i 2
=
n 3
f¨ ur alle n ≥ 3.
¨ Ubung 5.6. Wie viele M¨ oglichkeiten gibt es, die 36 Karten eines Kartenspiels auf 8 Stapel S1 , . . . , S8 zu verteilen, so dass der i-te Stapel i Karten enth¨alt? ¨ Ubung 5.7. Die Stirling-Zahl 4 S(n,k) zweiter Art ist definiert als die Anzahl der verschiedenen M¨ oglichkeiten, eine Menge mit n Elementen in k nichtleere disjunkte Teilmengen zu zerlegen. So ist offenbar S(n,n) = 1 und S(n,k) = 0, wenn k > n ist. Es wird auch oft die Notation nk = S(n,k) benutzt, die an die Schreibweise der Binomialkoeffizienten angelehnt ist. Beweisen Sie: S(n,k) = S(n−1,k−1) + k · S(n−1,k) k 1 X k−j k jn . (−1) = j k! j=0
5.2 Wahrscheinlichkeit Durch die Fernsehsendung Geh aufs Ganze“ ist das sogenannte Ziegenpro” blem bekannt geworden. Bei der Quizshow soll der Kandidat eines von drei Toren w¨ahlen. Hinter einem Tor steht der Gewinn (z.B. ein Auto), hinter den anderen beiden jeweils eine Ziege (in der Sendung wurde die Ziege durch den Zonk, eine Stoffpuppe, ersetzt). Nach der Wahl des Kandidaten wird das Tor noch nicht ge¨ offnet. Der Moderator ¨ offnet eines der anderen Tore, und zwar eins, hinter dem nicht der Gewinn steht. Der Kandidat darf sich dann noch einmal entscheiden. Entweder bleibt er bei seiner Wahl oder er w¨ahlt das andere verschlossene Tor. Wie soll der Kandidat entscheiden, um seine Gewinnchance zu maximieren? Dieses Problem taucht schon im 19. Jahrhundert in der Literatur auf. Wir werden diese Frage in diesem Abschnitt beantworten. Mit Hilfe der Wahrscheinlichkeitstheorie lassen sich exakte Aussagen u ¨ ber zuf¨allige Ereignisse machen. Ein solches Ereignis ist zum Beispiel der Wurf eines fairen W¨ urfels, bei dem keine Zahl bevorzugt gew¨ urfelt wird. Wenn nach n-maligem W¨ urfeln ni -mal die Zahl i ∈ {1, . . . , 6} auftrat, dann nennen wir den Quotienten nni die relative H¨aufigkeit von i. Obwohl wir den Ausgang eines Wurfs nicht vorhersehen k¨ onnen, ist f¨ ur großes n die Aussage, dass nni 1 ungef¨ahr gleich 6 ist, meist korrekt. Die Wahrscheinlichkeitstheorie wird den mathematischen Rahmen f¨ ur derartige Aussagen liefern. Als Anwendung werden wir unter anderem die Frage beantworten, wie wahrscheinlich es ist, dass in einer Schulklasse zwei Sch¨ uler am gleichen Tag Geburtstag haben. Außerdem werden wir auf das sogenannte Hashing eingehen 4
James Stirling (1692–1770), schottischer Mathematiker.
294
5 Diskrete Mathematik
und zeigen, wie man mit Hilfe der Wahrscheinlichkeitstheorie große Datenmengen effizient verwalten kann. Konzeptionell wird als Grundlage der mathematischen Betrachtung von einem Zufallsexperiment ausgegangen. Laplace5 definierte als Wahrscheinlichkeit eines Ereignisses die Anzahl der positiven Ausg¨ange eines Experiments dividiert durch die Anzahl der m¨ oglichen Ergebnisse. Ein Zufallsexperiment liefert ein Ergebnis, das nicht exakt vorhersehbar ist. Jedes m¨ogliche Ergebnis nennt man elementares Ereignis. Die Menge aller elementaren Ereignisse eines Zufallsexperiments heißt Ereignisraum. Wir befassen uns hier nur mit endlichen oder abz¨ ahlbaren6 Ereignisr¨ aumen. Definition 5.2.1. Ein Paar (S, P ), bestehend aus einer endlichen oder abz¨ahlbaren Menge S und einer Abbildung P : A = P(S) → [0, 1], heißt diskreter Wahrscheinlichkeitsraum, wenn gilt: (1) P (S) = 1 und P (A ∪ B) = P (A) + P (B) f¨ urS alle A, B ⊂ SPmit A ∩ B = ∅. ∞ ∞ ur (2) Wenn S nicht endlich ist, gilt zus¨ atzlich P ( n=1 An ) = n=1 P (An ) f¨ beliebige paarweise disjunkte Mengen An ⊂ S. Die Menge S heißt Ereignisraum, ihre Elemente nennt man Elementarereignisse und die Potenzmenge A := P(S) ist die Menge aller Ereignisse. Demnach ist jede Teilmenge von S ein Ereignis. Die Abbildung P bezeichnet man als Wahrscheinlichkeitsverteilung. Bemerkung 5.2.2. Aus der Definition folgt unmittelbar P (∅) = 0, denn P (∅) = P (∅ ∪ ∅) = P (∅) + P (∅). Allgemeiner ergibt sich P (S r A) = 1 − P (A) aus 1 = P (S) = P ((S r A) ∪ A) = P (S r A) + P (A). Bemerkung 5.2.3. Da S eine endliche oder abz¨ahlbare Menge ist, folgt aus den Eigenschaften (1) und (2) der Definition 5.2.1, dass die Wahrscheinlichkeitsverteilung P durch die Angabe der Werte P ({e}) ∈ [0,P 1] f¨ ur alle e ∈ S vollst¨andig festgelegt ist. Diese Werte haben die Bedingung e∈S P ({e}) = 1 P zu erf¨ ullen. F¨ ur A ⊂ S gilt dann P (A) = e∈A P ({e}).
Bemerkung 5.2.4. F¨ ur nicht-abz¨ ahlbare Mengen, wie zum Beispiel die Menge der reellen Zahlen, gibt es auch den allgemeineren Begriff des (nichtdiskreten) Wahrscheinlichkeitsraumes. Die Menge der Ereignisse A ist dann nur noch eine Teilmenge von P(S), die bestimmte Eigenschaften zu erf¨ ullen hat (eine sogenannte σ-Algebra). Da das Studium solcher Verteilungen ein tieferes Eindringen in die Maß- und Integrationstheorie erfordert, werden wir außerhalb dieser Bemerkung nicht weiter darauf eingehen. In wichtigen Beispielen nicht-diskreter Wahrscheinlichkeitsr¨aume ist S = R und die Wahrscheinlichkeitsverteilung P ist durch eine st¨ uckweise stetige 5 Pierre-Simon, marquis de Laplace (1749–1827), franz¨ osischer Mathematiker und Astronom. 6
eine Menge S heißt abz¨ ahlbar, wenn es eine bijektive Abbildung N → S gibt, siehe Abschnitt 6.3
5.2 Wahrscheinlichkeit
295
Dichtefunktion f : R → R≥0 gegeben, f¨ ur die
R∞
f (x)dx = 1 gilt. F¨ ur Rb abgeschlossene Intervalle [a, b] definiert man P ([a, b]) = a f (x)dx. Unter Verwendung einer geeigneten Integrationstheorie kann man P (A) auch f¨ ur allgemeinere Mengen A ⊂ R definieren. In diese Beispielklasse fallen die Normalverteilung mit der Dichte (Abb. 5.1) fa,σ (x) =
−∞
(x−a)2 1 √ e− 2σ σ 2π
und die Exponentialverteilung mit der Dichte ( λe−λx wenn x ≥ 0 fλ (x) = 0 wenn x < 0 .
√1 2π
a=0 Abb. 5.1 Dichte der Standardnormalverteilung (a = 0, σ = 1)
Definition 5.2.5. Sei (S, P ) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A, B ∈ A = P(S) heißen unabh¨angig, wenn P (A ∩ B) = P (A) · P (B). Beispiel 5.2.6. (1) Beim einmaligen W¨ urfeln ist S = {1, 2, . . . , 6} und nach der Laplaceschen ur jedes Ereignis A ⊂ {1, 2, . . . , 6}. Definition erhalten wir P (A) = |A| 6 f¨ Die Ereignisse A1 = {1, 4} und A2 = {2, 4} sind nicht unabh¨angig, denn P (A1 ) = 26 = 31 = P (A2 ), aber P (A1 ∩ A2 ) = P ({4}) = 16 . Wenn A3 = {2, 4, 6}, dann ergibt sich P (A3 ) = 36 , P (A1 ) · P (A3 ) = 16 = P ({4}) = P (A1 ∩ A3 ), da A1 ∩ A3 = {4}. Die Ereignisse A1 und A3 sind also unabh¨angig. Unabh¨ angigkeit ist nicht mit Disjunktheit zu verwechseln. (2) Beim Lotto 6 aus 49“ ist ein elementares Ereignis ein Tipp von 6 Zahlen, ” also S = {A ⊂ {1, . . . ,49} | |A| = 6}. In Folgerung 5.1.12 haben wir gesehen, dass |S| = 49 ist. Nach Laplace ergibt sich damit f¨ ur jeden 6 Tipp A ∈ S P (A) =
1
=
49 6
1 ≈ 0,00000007 . 13 983 816
296
5 Diskrete Mathematik
Die Wahrscheinlichkeit, dass man bei einem Tipp 6 Richtige hat, ist damit verschwindend gering. Zum Vergleich kann man die Sterbetafeln [ST] heranziehen. Aus ihnen geht hervor, dass ein 20-j¨ahriger m¨annlicher Bewohner Deutschlands mit einer Wahrscheinlichkeit von etwa 0,0006 innerhalb der kommenden 12 Monate verstirbt. Diese Zahl ist etwa das 10 000-fache der Wahrscheinlichkeit, bei 6 aus 49“ mit einem Tipp 6 ” Richtige zu erzielen. F¨ ur den zweiten Vergleich entnehmen wir der Unfallstatistik f¨ ur das Jahr 2007, dass es in jenem Jahr 4 970 Verkehrstote in Deutschland gab. Wenn wir von circa 82 Millionen Menschen in Deutschland ausgehen, erhalten wir hierf¨ ur eine relative H¨ aufigkeit von 4970/82000000 ≈ 0,00006, was etwa tausendmal so groß ist wie die Wahrscheinlichkeit, bei 6 aus 49“ ” mit einem Tipp 6 Richtige zu erzielen. Wesentlich seltener tritt Blitzschlag als Todesursache auf. In Deutschland werden pro Jahr durchschnittlich 3 Menschen vom Blitz erschlagen. Die Wahrscheinlichkeit, innerhalb der n¨ achsten 12 Monate auf diese Weise ums Leben zu kommen, betr¨ agt daher etwa 3/82000000 ≈ 0,00000004. Sie liegt somit in der Gr¨ oßenordnung der Wahrscheinlichkeit, bei 6 aus ” 49“ mit einem Tipp 6 Richtige zu erzielen. Im Jahr 2007 wurden u ¨ brigens in Deutschland rund 4,975 Milliarden Euro f¨ ur die Teilnahme am Lotto 6 aus 49“ ausgegeben. Das entspricht etwa ” ebenso vielen Tipps. In dieser Zeit gab es 436-mal 6 Richtige. Die relative H¨aufigkeit 436/4975000000 ≈ 0,000000088 liegt dicht bei dem theoretisch vorhergesagten Ergebnis. (3) In Verallgemeinerung der Beispiele (1) und (2) spricht man von einer Laplace-Verteilung wenn der Ereignisraum S endlich ist und alle Ele¨ mentarereignisse gleichberechtigt sind. Man kann zeigen (Ubungsaufgabe 1 5.13), dass f¨ ur eine Laplace-Verteilung P immer P ({e}) = |S| f¨ ur alle e ∈ S gelten muss. F¨ ur jedes Ereignis A ⊂ S ist dann nach Bem. 5.2.3 P (A) =
X
e∈A
P ({e}) =
|A| . |S|
Die folgenden Wahrscheinlichkeitsverteilungen treten h¨aufig in der Praxis auf. Beispiel 5.2.7 (Binomialverteilung). Diese Verteilung beschreibt ein Zufallsexperiment, welches aus einer Folge von n gleichartigen (unabh¨angigen) Versuchen besteht, die jeweils nur zwei m¨ ogliche Ergebnisse (Erfolg oder Misserfolg) haben. Die Zahl n ist fest vorgegeben. Es kommt hierbei nicht auf die Reihenfolge der n Versuche an, sie k¨ onnen auch gleichzeitig stattfinden. Solche Versuche werden auch Bernoulli-Versuche 7 genannt. Man denke etwa an das W¨ urfeln mit n W¨ urfeln, mit dem Ziel eine Sechs zu erhalten. Die Binomialverteilung f¨ ur n = 1 heißt auch Bernoulli-Verteilung. 7
Jacob Bernoulli (1654–1705), Schweizer Mathematiker.
5.2 Wahrscheinlichkeit
297
Ein Elementarereignis ist die Anzahl der Erfolge, d.h. S = {0, 1, 2, . . . , n}. Die Binomialverteilung ist f¨ ur k ∈ S durch n k P ({k}) = p (1 − p)n−k (5.8) k gegeben, wobei p ∈ [0, 1] die Wahrscheinlichkeit ist, mit der das gew¨ unschte Ergebnis bei jedem der n Versuche eintritt. Da wegen der binomischen Formel Pn P n k n−k = (p + 1 − p)n = 1 gilt, handelt es k∈S P ({k}) = k=0 k p (1 − p) sich tats¨achlich um eine Wahrscheinlichkeitsverteilung. Wir beweisen nun durch Induktion nach n, dass (5.8) tats¨achlich die Wahrscheinlichkeit ist, mit der sich bei n Versuchen, deren Erfolgswahrscheinlichkeit gleich p ist, genau k Erfolge einstellen. F¨ ur n = 1 ist k ≤ 1 und die Formel offensichtlich richtig. Wir nehmen als Induktionsvoraussetzung an, dass bei n − 1 unabh¨ angigen Bernoulli-Versuchen mit Erfolgswahrscheinlichkeit p die Wahrscheinlichkeit, genau k-mal Erfolg zu habe, gleich k n−1−k Pn−1 ({k}) := n−1 ist k p (1 − p) Wegen Def. 5.2.1 (1) ist die Wahrscheinlichkeit, bei n Versuchen genau k-mal Erfolg zu haben, gleich der Summe der folgenden beiden Ausdr¨ ucke • Pn−1 ({k}) · (1 − p) = Wahrscheinlichkeit bei n − 1 Versuchen k-mal Erfolg zu haben und im n-ten Versuch keinen Erfolg zu haben; • Pn−1 ({k − 1}) · p = Wahrscheinlichkeit bei n − 1 Versuchen (k − 1)-mal Erfolg zu haben und im n-ten Versuch Erfolg zu haben. Das ergibt Pn ({k}) = Pn−1 ({k}) · (1 − p) + Pn−1 ({k}) · p. Aus der Induktionsvoraussetzung folgt mit Lemma 5.1.2 (2) n−1 k n − 1 k−1 Pn ({k}) = p (1 − p)n−1−k (1 − p) + p (1 − p)n−k p k k−1 n−1 n−1 = + pk (1 − p)n−k k k−1 n k = p (1 − p)n−k . k Damit ist induktiv gezeigt, dass die Binomialverteilung wirklich zum beschriebenen Modell von n unabh¨ angigen Bernoulli-Versuchen geh¨ort. Als Beispiel einer Anwendung der Binomialverteilung k¨onnen wir die Frage beantworten, wie groß die Wahrscheinlichkeit P ({k}) ist, dass bei n W¨ urfen eines (fairen) W¨ urfels genau k-mal die 2 auftritt. Hier ist p = 16 und wir erhalten mit (5.8) n−k n−k n 1 n 5 5 P ({k}) = = · . 6 k 6k k 6n Beispiel 5.2.8 (Geometrische Verteilung). Diese Verteilung beschreibt die Wahrscheinlichkeit daf¨ ur, dass bei einer Folge von Bernoulli-Versuchen
298
5 Diskrete Mathematik
der erste Erfolg im k-ten Versuch eintritt. Man betrachtet also wie bei der Binomialverteilung eine Folge gleichartiger (unabh¨angiger) Versuche, die jeweils nur zwei m¨ ogliche Ergebnisse haben. Im Unterschied zu Beispiel 5.2.7 ist die Zahl der Versuche nicht vorgegeben oder beschr¨ankt. Die BernoulliVersuchen werden nacheinander durchgef¨ uhrt, bis der erste Erfolg eintritt. Man denke etwa an ein W¨ urfelspiel, bei dem es gilt mit einem W¨ urfel eine Sechs zu w¨ urfeln, um mit den eigentlichen Aktionen zu beginnen. Ein Elementarereignis ist die Anzahl der Versuche bis zum ersten Erfolg, d.h. S = N ist eine unendliche Menge. F¨ ur k ∈ N ist die Geometrische Verteilung durch P ({k}) = (1 − p)k−1 p (5.9) gegeben, wobei 0 < p < 1 wieder die Erfolgswahrscheinlichkeit der Versuche ist. Unter Benutzung P∞ Reihe (Bsp. 3.3.3(1)) ergibt sich die P der geometrischen n¨otige Gleichung k∈S P ({k}) = k=1 (1 − p)k−1 p = 1.
Beispiel 5.2.9 (Poisson-Verteilung8). Diese Verteilung eignet sich als Approximation der Binomialverteilung, wenn die Erfolgswahrscheinlichkeit p der Versuche sehr klein, deren Anzahl n jedoch sehr groß ist. Der Ereignisraum ist wieder die Menge der nat¨ urlichen Zahlen S = N und f¨ ur k ∈ N ist P ({k}) =
λk −λ e , k!
(5.10)
wobei λ > 0 eine reelle Zahl ist. Wenn λ = np ist, wird bei großem n und kleinem p die Binomialverteilung approximiert (Poissonscher Grenzwertsatz). Ein Beispiel f¨ ur die Anwendung der Poisson-Verteilung ist die Frage nach der Wahrscheinlichkeit des Vorhandenseins von Druckfehlern auf einer bestimmten Anzahl von Seiten in einem Buch, wenn pro Seite durchschnittlich λ = 0,2 Druckfehler vorkommen. Beispiel 5.2.10 (Geburtstags-Paradoxon). Wie groß ist die Wahrscheinlichkeit, dass zwei Sch¨ uler einer Schulklasse am gleichen Tag Geburtstag haben? Der Einfachheit halber schließen wir den 29. Februar aus und nehmen an, dass jeder Tag im Jahr mit gleicher Wahrscheinlichkeit als Geburtstag in Frage kommt. Wenn die Anzahl der Sch¨ uler gleich k ist, dann enth¨alt der Ereignisraum S alle Folgen aus k m¨ oglichen Geburtstagen, d.h. S = {1, 2, . . . , 365}k und |S| = 365k (vgl. Satz 5.1.10, Variationen mit Wiederholung). Das uns interessierende Ereignis A, dass zwei Sch¨ uler am gleichen Tag Geburtstag haben, ist dann die Menge aller Folgen aus S, in denen mindestens ein Tag doppelt vorkommt. Das komplement¨ are Ereignis S r A besteht aus allen Folgen, in denen alle Tage verschieden sind. Es handelt sich hier um Variationen ohne Wiederholung, nach Satz 5.1.10 ist daher |S r A| = 365 · (365 − 1) · . . . · r A| . Wir (365 − k + 1) und damit P (S r A) = |S|S| = 365(365−1)·...·(365−k+1) 365k 8
Sim´ eon Poisson (1781–1840), franz¨ osischer Physiker und Mathematiker.
5.2 Wahrscheinlichkeit
299
erhalten P (A) = 1 − P (S r A) = 1 −
365(365 − 1) · . . . · (365 − k + 1) . 365k
Durch Einsetzen sieht man nun, dass f¨ ur k ≥ 23 bereits P (A) ≥ 12 gilt. Das heißt, dass mit Wahrscheinlichkeit gr¨ oßer als 12 in einer Klasse mit mindestens 23 Sch¨ ulern, zwei der Sch¨ uler am gleichen Tag Geburtstag haben. Diese verbl¨ uffende Tatsache ist als Geburtstags-Paradoxon bekannt. Um das eingangs angesprochene Ziegenproblem zu behandeln, ben¨otigen wir noch den Begriff der bedingten Wahrscheinlichkeit. Definition 5.2.11. Seien (S, P ) ein Wahrscheinlichkeitsraum, A, B ⊂ S Ereignisse und P (B) > 0. Die bedingte Wahrscheinlichkeit des Eintretens des Ereignisses A unter der Bedingung, dass das Ereignis B eingetreten ist, ist definiert durch P (A|B) := P P(A∩B) (B) . Beispiel 5.2.12. Wie groß ist die Wahrscheinlichkeit, dass bei zwei W¨ urfen eines W¨ urfels mindestens eine Sechs auftrat, wenn bereits bekannt ist, dass die Summe der beiden W¨ urfe mindestens 7 ist? Das Ereignis A ist hier das Auftreten von mindestens einer Sechs bei 2 W¨ urfen. Das Ereignis B besteht aus allen Paaren gew¨ urfelter Zahlen, deren Summe mindestens 7 betr¨ agt, d.h. S = {1, . . . , 6}2 A = {(1, 6), (2, 6), . . . , (5, 6), (6, 6), (6, 5), . . . , (6, 2), (6, 1)}
B = {(6, 6), (6, 5), . . . , (6, 1), (5, 6), (5, 5), . . . , (5, 2), (4, 6), (4, 5), . . . , (4, 3), (3, 6), (3, 5), (3, 4)(2, 6), (2, 5), (1, 6)} und P ist die Laplace-Verteilung (Bsp. 5.2.6). Daraus erhalten wir A ∩ B = A,
P (A) =
woraus sich P (A|B) =
11 21
11 |A| = |S| 36
und
P (B) =
|B| 21 = , |S| 36
ergibt.
Bemerkung 5.2.13. Wenn A und B unabh¨ angige Ereignisse sind, dann gilt wie erwartet P (A|B) = P (A), denn P (A ∩ B) = P (A) · P (B). Beispiel 5.2.14 (Ziegenproblem). In einer Quizshow sind drei Tore aufgebaut (kurz mit 1, 2 und 3 bezeichnet). Hinter einem Tor steht ein Auto, hinter den beiden anderen je eine Ziege. Der Kandidat entscheidet sich f¨ ur ein Tor. Dann o¨ffnet der Moderator ein nicht vom Kandidaten gew¨ ahltes Tor, hinter dem das Auto nicht steht. Der Kandidat hat die M¨ oglichkeit, seine Entscheidung zu revidieren. Mit welcher Strategie ist die Wahrscheinlichkeit am gr¨ oßten, das Auto zu gewinnen?
300
5 Diskrete Mathematik
Folgende Argumentation ist falsch: Nachdem der Moderator ein Tor ge¨ offnet hat, muss sich das Auto hinter einem den beiden anderen Toren befinden. Die Wahrscheinlichkeit, dass es sich hinter einem bestimmten Tor befindet ist jeweils 12 . Es ist also sinnlos, sich umzuentscheiden. Um die korrekte Antwort zu finden, analysieren wir die Situation mit den bisher dargelegten Methoden der Wahrscheinlichkeitstheorie. Dazu stellen wir zun¨achst die Menge aller Elementarereignisse auf. Ein Elementarereignis ist hier ein Tripel (i, j, k), wobei dies so interpretiert wird, dass sich das Auto hinter Tor i befindet, der Kandidat sich f¨ ur Tor j entscheidet und der Moderator das Tor k ¨ offnet. Nicht alle Tripel sind nach den Spielregeln sinnvoll. In Tabelle 5.1 sind alle Elemente von S ⊂ {1, 2, 3}3 mit ihren Wahrscheinlichkeiten aufgelistet. Die Wahrscheinlichkeiten der Elementarereignisse sind nicht gleich, es handelt sich nicht um eine Laplace-Verteilung. Wenn der Kandidat das Tor w¨ ahlt, hinter dem das Auto steht, hat der Moderator die Wahl zwischen 2 Toren. Im anderen Fall hat er keine Wahl, d.h. die Wahrscheinlichkeit f¨ ur (i, i, k) ist halb so groß wie die Wahrscheinlichkeit f¨ ur (i, j, k) mit i 6= j. Man beachte, dass die Summe aller Wahrscheinlichkeiten 1 ergeben muss, wodurch sie dann festgelegt sind. Tor des Torwahl des Torwahl des Gewinns Kandidaten Moderators 1
1
2
1
1
3
1
2
3
1
3
2
2
1
3
2
2
1
2
2
3
2
3
1
3
1
2
3
2
1
3
3
1
3
3
2
P 1 18 1 18 1 9 1 9 1 9 1 18 1 18 1 9 1 9 1 9 1 18 1 18
Tabelle 5.1 Wahrscheinlichkeitsverteilung beim Ziegenproblem
Um herauszufinden, ob die Gewinnchance des Kandidaten h¨oher ist, wenn er sich umentscheidet, betrachten wir als Beispiel das Ereignis A, das darin besteht, dass der Kandidat Tor 1 gew¨ ahlt und der Moderator Tor 2 ge¨offnet hat. In diesem Fall kann sich das Auto nur hinter Tor 1 oder Tor 3 befinden, d.h. A = {(1, 1, 2), (3, 1, 2)}. Andererseits ist das Ereignis das Auto befindet sich hinter Tor 3“ durch die ” Menge B = {(3, 1, 2), (3, 2, 1), (3, 3, 1), (3, 3, 2)} beschrieben. Wir berechnen
5.2 Wahrscheinlichkeit
301
die bedingte Wahrscheinlichkeit P (B|A), dass B unter Voraussetzung von A eintritt, wie folgt: P (B|A) =
P (B ∩ A) P ((3, 1, 2)) = = P (A) P (A)
1 9 1 18
+
1 9
=
2 . 3
Da die Rechnung bei jeder anderen Nummerierung der Tore die Gleiche ist, ist die Gewinnstrategie klar: Der Kandidat muss sich immer umentscheiden9 . Satz 5.2.15 (Bayes10 ) Wenn A, B Ereignisse mit P (B) > 0 sind, dann gilt P (A|B) =
P (A) · P (B|A) . P (B)
Beweis. Nach Definition gilt P (A ∩ B) = P (B) · P (A|B) und P (A ∩ B) = P (A) · P (B|A), woraus die Behauptung folgt. ⊓ ⊔ Bemerkung 5.2.16. Eine aktuelle Anwendung des Satzes von Bayes ist der sogenannte bayessche Spamfilter zum Herausfiltern unerw¨ unschter E-Mails. Dabei werden gewissen charakteristischen W¨ ortern Wahrscheinlichkeiten zugeordnet, mit denen sie in Spam-Mail oder Nicht-Spam-Mail vorkommen. Von der eingehenden Mail wird dann die Wahrscheinlichkeit daf¨ ur berechnet, ob sie Spam ist oder nicht. Wenn diese einen gegebenen Wert u ¨ berschreitet, wird die Mail aussortiert. So kann zum Beispiel der Filter die Information erhalten, dass in einer Spam-Mail das Wort Erotik“ mit 18% Wahrscheinlichkeit ” enthalten ist, in einer Nicht-Spam-Mail mit 0,5%. Weiterhin sei bekannt, dass z.B. 20% der Mails Spam sind. Wie hoch ist die Wahrscheinlichkeit, dass eine an uns gerichtete E-Mail, die das Wort Erotik“ enth¨alt, eine Spam-Mail ist? ” Das ist die bedingte Wahrscheinlichkeit P (S|E), wobei S f¨ ur Spam und E f¨ ur Erotik steht. Wenn wir außerdem N S f¨ ur Nicht-Spam schreiben, dann lauten die Voraussetzungen P (E|S) = 0,18
P (S) = 0,2
P (E|N S) = 0,005
P (N S) = 0,8 .
Mit Satz 5.2.15 und P (E) = P (E|S) · P (S) + P (E|N S) · P (N S) ergibt sich P (S|E) =
0,18 · 0,2 P (E|S) · P (S) = = 0,9 . P (E) 0,18 · 0,2 + 0,005 · 0,8
9 Es wird gemunkelt, dass dies den Produzenten der Quizsendungen zu Beginn nicht klar war. Die Sendungen wurden jedenfalls nach einiger Zeit modifiziert. 10
Thomas Bayes (1702–1761), englischer Mathematiker.
302
5 Diskrete Mathematik
Das bedeutet, wenn wir eine Mail erhalten, die das Wort Erotik“ enth¨alt, ” handelt es sich (unter den obigen Voraussetzungen) mit 90%-iger Wahrscheinlichkeit um eine Spam-Mail. In der Praxis ist das so organisiert, dass der Benutzer den Filter dadurch trainiert, dass er etwa die ersten 500 E-Mails manuell nach Spam oder Nicht-Spam klassifizieren muss. Dabei werden automatisch die entsprechenden Wahrscheinlichkeiten f¨ ur charakteristische Spam-Worte vergeben. Die Erfahrung zeigt, dass Spam-Mails mit dieser Methode etwa mit 95% Wahrscheinlichkeit richtig erkannt werden. Als N¨achstes besch¨ aftigen wir uns mit einer wichtigen, in der Praxis h¨aufig verwendeten Methode, statistische Eigenschaften von Ereignissen zu untersuchen und zu beschreiben. Definition 5.2.17. Sei (S, P ) ein (diskreter) Wahrscheinlichkeitsraum. (1) Eine Zufallsvariable X ist eine Abbildung X : S → R. (2) Die Wahrscheinlichkeit, dass X den Wert a annimmt, ist X P ({e}) . P (X = a) = e∈X −1 ({a})
Bemerkung 5.2.18. Die Wahrscheinlichkeit, dass X einen Wert, der gr¨oßer oder gleich a ist, annimmt, betr¨ agt X P (X ≥ a) = P (X = b) . b≥a
Das folgt aus dem Axiom der Additivit¨ at. Wenn S eine endliche Menge ist, handelt es sich um eine endliche Summe. Wenn jedoch S unendlich ist, kann dies eine unendliche ReihePsein. Die Konvergenz solcher Reihen ist dadurch gesichert, dass die Reihe a∈S P (a) = 1, die keine negativen Summanden enth¨alt, wegen Def. 5.2.1 (2) konvergiert. Wenn nicht-diskrete Wahrscheinlichkeitsr¨aume untersucht werden, dann muss an dieser Stelle ein Integral verwendet werden. Beispiel 5.2.19. Beim W¨ urfeln mit zwei W¨ urfeln ist der Ereignisraum S = {1, . . . , 6}2 die Menge aller m¨ oglichen W¨ urfelergebnisse. Bei zwei fairen W¨ urfeln haben wir f¨ ur jedes Paar (a, b) ∈ S als Wahrscheinlichkeitsverteilung 1 P (a, b) = 36 . Die durch X(a, b) = max{a, b} definierte Funktion X : S → R ist eine Zufallsvariable. Die Wahrscheinlichkeit P (X = 4) berechnet sich z.B. wie folgt P (X = 4) =
X
e∈X −1 ({4})
P ({e}) =
7 1 · |X −1 (4)| = , 36 36
denn X −1 (4) = {(1, 4), (2, 4), (3, 4), (4, 4), (4, 3), (4, 2), (4, 1)}.
5.2 Wahrscheinlichkeit
303
Mit Hilfe einer Zufallsvariablen X : S → R k¨onnen wir einen neuen Wahrscheinlichkeitsraum (SX , PX ) definieren. Dazu setzen wir SX := X(S) ⊂ R, das ist die Bildmenge der Abbildung X, und PX (a) := P (X = a) f¨ ur a ∈ SX , sowie PX (∅) := 0. Satz 5.2.20 (SX , PX ) ist ein Wahrscheinlichkeitsraum. Beweis. Wir m¨ ussen zeigen, dassP die EigenschaftenP(1) und (2) aus Definition 5.2.1 erf¨ ullt sind. Da PX (SX ) = a∈SX PX (a) = a∈SX P (X = a), gilt PX (SX ) =
X
X
P ({e}) =
X
P ({e}) = 1 .
e∈S
a∈X(S) e∈X −1 ({a})
Seien jetzt A, B ⊂ SX mit A ∩ B = ∅, dann gilt X X X PX (A ∪ B) = PX (a) = PX (a) + PX (a) a∈A∪B
a∈A
a∈B
= PX (A) + PX (B) .
Damit ist Teil (1) gezeigt. Zum Beweis von Teil (2) sei An eine Folge von paarweise disjunkten Teilmengen von SX . Wegen der Disjunktheit gilt ! ∞ ∞ ∞ X [ X X X PX An = PX (a) = P (X = a) = PX (An ) , n=1
a∈∪∞ n=1 An
n=1 a∈An
n=1
⊓ ⊔
wie erforderlich.
Eine wichtige Kenngr¨ oße einer Zufallsvariablen X ist ihr Erwartungswert. Er entspricht dem Mittelwert bei unendlich h¨ aufiger Versuchswiederholung und stellt sich bei oftmaligem Wiederholen des zugrunde liegenden Experiments etwa als Mittelwert der Ergebnisse ein. Definition 5.2.21. Sei (S, P ) ein diskreter Wahrscheinlichkeitsraum und X eine Zufallsvariable f¨ ur S. Der Erwartungswert von X ist definiert durch X a · P (X = a) , E(X) = a∈X(S)
falls die Summe endlich ist bzw. die Reihe konvergiert. Beispiel 5.2.22. Sei S = {0, . . . , n} und P die Binomialverteilung, d.h. P ({k}) = nk pk (1 − p)n−k f¨ ur ein 0 < p < 1. F¨ ur die Zufallsvariable X, die jedes Ereignis von S (d.h. n unabh¨ angige Bernoulli-Versuche mit Erfolgswahrscheinlichkeit p) auf die Anzahl der erfolgreichen Versuche abbildet, gilt P (X = k) = P ({k}), da X(k) = k f¨ ur alle k ∈ S. Ihr Erwartungswert ist:
304
5 Diskrete Mathematik
n n X X n n−1 k n k p (1 − p)n−k k k· p (1 − p)n−k = k k−1 k k=1 k=1 n n−1 X n−1 X n − 1 = n·p pk−1 (1 − p)n−k = n · p pk (1 − p)n−1−k k−1 k
E(X) =
k=1
k=0
= n·p.
Das bedeutet zum Beispiel, dass bei 600 W¨ urfen eines fairen W¨ urfels der Erwartungswert f¨ ur eine Zwei bei 600 · 61 = 100 W¨ urfen liegt. Beispiel 5.2.23. Wir f¨ uhren Beispiel 5.2.19 fort und berechnen den Erwartungswert der dort definierten Zufallsvariablen X(a, b) = max{a, b} f¨ ur (a, b) ∈ S = {1, . . . , 6}2 . Wie im Beispiel 5.2.19 f¨ ur a = 4 berechnen wir dazu ¨ f¨ ur alle a die folgende Tabelle (Ubungsaufgabe 5.8): a
1 2 3 4 5 6
P (X = a)
1 3 5 7 9 11 36 36 36 36 36 36
Damit ergibt sich f¨ ur den Erwartungswert von X X a · P (X = a) E(X) = a∈{1,...,6}
=
1 160 40 (1 + 6 + 15 + 28 + 45 + 66) = = ≈ 4,44 . 36 36 9
Aus der Tabelle ergibt sich außerdem z.B. X P (X ≥ 3) = P (X = b) b≥3
= P (X = 3) + P (X = 4) + P (X = 5) + P (X = 6) 32 8 = = . 36 9
Beispiel 5.2.24. Sei S = N und P die geometrische Verteilung (Bsp. 5.2.8), d.h. P ({k}) = p(1 − p)k−1 . Durch X(k) = k f¨ ur alle k ∈ N ist eine Zufallsvariable X definiert, f¨ ur die P (X = k) = p(1 − p)k−1 gilt. Diese Zufallsvariable beschreibt die Anzahl der n¨ otigen Versuche im Bernoulliexperiment bis zum ersten Mal Erfolg eintritt. Unter Benutzung der Gleichung P∞ 1 k−1 kx = mit x = 1 − p, die sich als Ableitung der geometrischen 2 k=1 (1−x) P∞ 1 Reihe k=0 xk = 1−x f¨ ur alle |x| < 1 ergibt (Folg. 4.5.13), erhalten wir E(X) =
∞ X
k=1
kp(1 − p)k−1 = p
∞ X
k=1
k(1 − p)k−1 = p
1 1 = . p2 p
5.2 Wahrscheinlichkeit
305
Das ist ein plausibles Ergebnis: Wenn die Erfolgswahrscheinlichkeit f¨ ur einen Versuch gleich p ist, braucht man im Mittel 1p Versuche, bis sich der Erfolg einstellt. Beispiel 5.2.25. In einer Urne befinden sich w weiße und s schwarze Kugeln. Man zieht nacheinander Kugeln, die jeweils gleich wieder zur¨ uckgelegt werden. Die Wahrscheinlichkeit f¨ ur die Ziehung einer weißen Kugel ist dann w . Nach Beispiel 5.2.24 erh¨ alt man 1 + ws als Erwartungswert immer gleich s+w f¨ ur die Anzahl der Ziehungen, bis man eine weiße Kugel erh¨alt. Satz 5.2.26 Sei (S, P ) ein diskreter Wahrscheinlichkeitsraum und X, Y Zufallsvariablen, deren Erwartungswerte E(X) und E(Y ) definiert11 sind. Dann gilt f¨ ur alle c ∈ R E(X + Y ) = E(X) + E(Y )
(5.11)
E(cX) = c · E(X) .
(5.12)
Beweis. Es gilt E(X) =
X
aP (X = a) =
a∈X(S)
=
X
X
X
X
aP ({e})
a∈X(S) e∈X −1 ({a})
X(e)P ({e}) =
X
X(e)P ({e})
e∈S
a∈X(S) e∈X −1 ({a})
und analog E(Y ) =
X
Y (e)P ({e})
und
e∈S
E(X + Y ) =
X
(X(e) + Y (e))P ({e}) .
e∈S
Daraus ergibt sich E(X) + E(Y ) =
X
(X(e) + Y (e))P ({e}) = E(X + Y )
e∈S
und (5.11) ist bewiesen, (5.12) folgt analog.
⊓ ⊔
Definition 5.2.27. Sei (S, P ) ein Wahrscheinlichkeitsraum und X, Y Zufallsvariablen. Das Ereignis {e ∈ S|X(e) = x und Y (e) = y} wird kurz als 11
Der Erwartungswert existiert nur, wenn die ihn definierende Summe endlich oder eine konvergente Reihe ist.
306
5 Diskrete Mathematik
X = x und Y = y bezeichnet. Die Wahrscheinlichkeit, dass dieses Ereignis eintritt, ist gleich X P (X = x und Y = y) = P ({e}) . e∈S X(e)=x Y (e)=y
Die Variablen X, Y heißen unabh¨angig, wenn f¨ ur alle x, y ∈ R gilt: P (X = x und Y = y) = P (X = x) · P (Y = y) . Satz 5.2.28 Sei (S, P ) ein diskreter Wahrscheinlichkeitsraum und X, Y unabh¨angige Zufallsvariablen, deren Erwartungswerte E(X) und E(Y ) definiert sind. Dann gilt E(X · Y ) = E(X) · E(Y ). Beweis. Unter Benutzung der Rechnung im Beweis von Satz 5.2.26 erhalten wir X X E(XY ) = (XY )(e)P ({e}) = X(e)Y (e)P ({e}) e∈S
=
X X x,y
=
X
e∈S
xyP ({e}) =
e X(e)=x Y (e)=y
x
X x
xyP (X = x und Y = y)
y
xyP (X = x)P (Y = y)
x,y
=
XX
xP (X = x) ·
= E(X) · E(Y ) ,
X
wegen der Unabh¨angigkeit
yP (Y = y)
y
⊓ ⊔
wie gew¨ unscht.
Satz 5.2.29 (Markoffsche12 Ungleichung) Sei (S, P ) ein Wahrscheinlichkeitsraum, a > 0 eine reelle Zahl und X eine Zufallsvariable mit X(s) ≥ 0 f¨ ur alle s ∈ S. Dann gilt P (X ≥ a) ≤
Beweis. Da 1 ≤ 12
b a
E(X) . a
f¨ ur b ≥ a und P (X = b) = 0 f¨ ur b < 0 gilt, erhalten wir
Andrei Andrejewitsch Markoff (1856–1922), russischer Mathematiker.
5.2 Wahrscheinlichkeit
P (X ≥ a) =
307
X b≥a
P (X = b) ≤
Xb P (X = b) a b≥a
1X 1X 1 = bP (X = b) ≤ bP (X = b) = E(X) , a a a b≥a
b
⊓ ⊔
wie behauptet.
Beispiel 5.2.30. F¨ ur die Zufallsvariable aus Beispiel 5.2.23 hatten wir den 4 Erwartungswert E(X) = 40 9 und P (X ≥ 3) = 9 berechnet. Die Markoffsche 40 4 1 Ungleichung besagt in diesem Fall 3 E(X) = 27 ≥ 12 27 = 9 = P (X ≥ 3). Der Erwartungswert E(X) reicht zur Charakterisierung einer Zufallsvariablen X meist nicht aus. Es ist notwendig, auch die Ausbreitung oder Streuung der Zufallsvariablen um ihren Erwartungswert zu ber¨ ucksichtigen. Das entsprechende Maß ist die Varianz, bzw. mittlere quadratische Abweichung. Definition 5.2.31. Sei (S, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable, f¨ ur die E(X) definiert ist. Die Varianz Var(X) ist definiert durch Var(X) = E (X − E(X))2
und die Standardabweichung (oder Streuung) durch p σ(X) = Var(X) .
Satz 5.2.32 Sei (S, P ) ein Wahrscheinlichkeitsraum und X eine Zufallsvariable, f¨ ur die E(X) definiert ist. Dann gilt Var(X) = E X 2 − E(X)2 . Beweis. Mit c = E(X) folgt aus Satz 5.2.26 (5.12) E(XE(X)) = E(X)2 . Daraus und mit (5.11) folgt aus der Definition der Varianz Var(X) = E (X − E(X))2 = E X 2 − 2XE(X) + E(X)2 = E X 2 − 2E (XE(X)) + E(X)2 = E X 2 − E(X)2 , ⊓ ⊔
wie behauptet.
Folgerung 5.2.33. Sei (S, P ) ein diskreter Wahrscheinlichkeitsraum und X, Y unabh¨angige Zufallsvariablen. Dann gilt Var(X + Y ) = Var(X) + Var(Y ) 2
Var(aX) = a Var(X)
f¨ ur alle a ∈ R.
und
308
5 Diskrete Mathematik
¨ Beweis. Ubungsaufgaben 5.9 und 5.12.
⊓ ⊔
Beispiel 5.2.34. Um die Varianz der Zufallsvariablen aus Beispiel 5.2.23 zu P berechnen, ben¨otigen wir noch E(X 2 ) = a∈{1,4,9...,36} aP (X 2 = a). Da die m¨oglichen Werte f¨ ur X alle nicht-negativ sind, gilt P (X = a) = P (X 2 = a2 ). Aus der Tabelle in Beispiel 5.2.23 ergibt sich daher sofort a 2
P X =a
1 4 9 16 25 36 1 3 5 7 9 11 36 36 36 36 36 36
40 1 (1 + 12 + 45 + 112 + 225 + 396) = 791 und somit E X 2 = 36 36 . Mit E(X) = 9 40 2 719 erhalten wir schließlich Var(X) = 791 ≈ 2,2. = 324 36 − 9 Statt mit Hilfe des Satzes 5.2.32, kann man die Varianz auch direkt, unter Benutzung der Definition 5.2.31, berechnen. Das f¨ uhrt zu folgender Rechnung, 2 in der benutzt wird, dass k − 40 f¨ u r k = 1, 2, . . . , 6 sechs verschiedene 9 Werte annimmt: 2 ! 40 2 X− Var(X) = E (X − E(X)) = E 9 ! 2 X 40 aP X− = =a 9 40 2 40 2 a∈{(1−
9
) ,...,(6−
9
) }
2 X 40 P (X = k) k− = 9 k∈{1,...,6} 2 2 2 31 1 3 5 22 13 = · · · + + 9 36 9 36 9 36 2 2 2 7 9 11 5 14 4 · · · + + . + 9 36 9 36 9 36
Beispiel 5.2.35 (Varianz der Binomialverteilung). In Beispiel 5.2.22 hatten wir f¨ ur die Zufallsvariable X(k) = k und die Binomialverteilung P ({k}) = nk pk (1 − p)n−k mit 0 < p < 1 und S = {0, . . . , n} den Er m−1 wartungswert E(X) = np berechnet. Da k m k = m k−1 , erhalten wir unter Benutzung der binomischen Formel
5.2 Wahrscheinlichkeit
309
n n X X n k n − 1 k−1 k p (1 − p)n−k = np p (1 − p)n−k k2 E X2 = k k−1 k=1 k=0 n−1 X n−1 k = np (k + 1) p (1 − p)n−k−1 k k=0 n−1 n−1 X n − 1 X n − 1 k n−1−k = np k p (1 − p) + np pk (1 − p)n−1−k k k k=1 k=0 n−1 X n − 2 = np(n − 1) pk (1 − p)n−1−k + np k−1 k=1 n−2 X n − 2 = np2 (n − 1) pk (1 − p)n−2−k + np = np((n − 1)p + 1) . k k=0
Damit folgt Var(X) = E X 2 − E(X)2 = np(1 − p). F¨ ur n = 20 und p = 12 enth¨alt die folgende Tabelle die auf drei Stellen hinter dem Komma gerundeten Werte von P (X = k). k P (X = k)
0 0
1 0
2 3 4 5 6 7 8 9 10 0 0,001 0,005 0,015 0,037 0,074 0,12 0,16 0,176
Da P (X = 10 + k) = P (X = 10 − k) f¨ ur 0 ≤ k ≤ 10, ergibt sich daraus die Abb. 5.2. Der Erwartungswert ist E(X) = np = 20 · 21 = 10, die Varianz P (X = e) 0,18 •
•
•
• •
0,07
0,02 0,01
• • • • •
•
1 2
•
·
E(X) = 10 V (X) = 5 • •
10 Abb. 5.2 Binomialverteilung (n = 20, p = 0,5)
Var(X) = np(1 − p) = 20 ·
•
1 2
•
• • • • • 20 e
= 5 und die Standardabweichung
√
5 ≈ 2,2.
Beispiel 5.2.36 (Varianz der Geometrischen Verteilung). Sei S = N und P die geometrische Verteilung: P ({k}) = p(1 − p)k−1 mit 0 < p < 1. F¨ ur die Zufallsvariable X(k) = k aus Beispiel 5.2.24 gilt P (X = e) = p(p − 1)e−1 und E(X) = p1 . Mit Hilfe der zweiten Ableitung der geometrischen Reihe
310
5 Diskrete Mathematik
P∞
k 2 xk−1 = zu Beispiel 5.2.24, E X 2 =
erhalten wir
k=1
2x 1 (1−x)3 + (1−x)2 , woraus mit x = 1 − p, analog 2−p 1−p p2 folgt. Mit Satz 5.2.32 folgt Var(X) = p2 .
Satz 5.2.37 (Ungleichung von Tschebyscheff13 ) Sei (S, P ) ein Wahrscheinlichkeitsraum, X eine Zufallsvariable und c > 0, c ∈ R. Dann gilt P (|X − E(X)| ≥ c) ≤
Var(X) . c2
Beweis. Da P (|X − E(X)| ≥ c) = P ((X − E(X))2 ≥ c2 ), folgt die Behauptung aus der Ungleichung von Markoff (Satz 5.2.29). ⊓ ⊔ Als N¨achstes werden wir das schwache Gesetz der großen Zahlen ableiten. Es liefert die theoretische Rechtfertigung daf¨ ur, die relative H¨aufigkeit in großen Stichproben zur Sch¨ atzung unbekannter Wahrscheinlichkeitsverteilungen zu verwenden. Satz 5.2.38 (Gesetz der Großen Zahlen) Gegeben seien ein diskreter Wahrscheinlichkeitsraum (S, P ) und eine Folge (Xi )i∈N von Zufallsvariablen mit dem gleichen Erwartungswert E(Xi ) = c, f¨ ur die gilt: (1) Es existiert eine positive reelle Zahl M , so dass Var(Xi ) ≤ M f¨ ur alle i. (2) F¨ ur jedes n sind X1 , . . . , Xn unabh¨angige Zufallsvariablen. Pn ur jedes ε > 0 Sei Yn := n1 i=1 Xi das arithmetische Mittel, dann gilt f¨ lim P (|Yn − c| > ε) = 0 .
n→∞
Man sagt auch: Yn konvergiert stochastisch gegen c. Beweis. Aus der Tschebyscheffschen Ungleichung folgt E (Yn − c)2 P (|Yn − c| > ε) ≤ . ε2 Pn Pn Da E(Xi ) = c f¨ ur alle i, gilt E(Yn ) = E n1 i=1 Xi = n1 i=1 E(Xi ) = c. Damit ist E (Yn − c)2 = Var(Yn ). Andererseits ist wegen der Unabh¨angigkeit der Xi nach Folgerung 5.2.33 ! n n 1 X 1X Var (Yn ) = Var Xi = 2 Var (Xi ) . n i=1 n i=1 13
Pafnuti Lwowitsch Tschebyscheff (1821–1894), russischer Mathematiker.
5.2 Wahrscheinlichkeit
311
Da Var(Xi ) ≤ M f¨ ur alle i, folgt Var (Yn ) ≤ M n . Wir erhalten insgesamt M ⊓ ⊔ P (|Yn − c| > ε) ≤ ε2 · n1 und das konvergiert gegen 0 wenn n → ∞.
Es gibt auch ein starkes Gesetz der großen Zahlen. Mit den Bezeichnungen von Satz 5.2.38 besagt es, dass unter geeigneten Voraussetzungen P (limn→∞ Yn = c) = 1 ist. Man sagt, die Folge (Yn ) konvergiert fast sicher gegen c. Bemerkung 5.2.39. Wenn in Satz 5.2.38 f¨ ur alle Zufallsvariablen Xi P (Xi = 1) = p
und
P (Xi = 0) = 1 − p
gilt, dann ist E(Xi ) = p. Es handelt sich dann um eine Folge unabh¨angiger Bernoulliexperimente mit Erfolgswahrscheinlichkeit p. Wenn bei n solchen Experimenten b Erfolge eingetreten sind, dann besagt die Rechnung im Beweis des Gesetzes der großen Zahlen, dass f¨ ur die relative H¨aufigkeit b/n gilt: b 1 P − p > ε ≤ 2 , n 4ε n
2 denn wegen Var(Xi ) = E Xi2 − E(Xi )2 = p− p2 = 14 − p − 12 ≤ 41 k¨onnen wir M = 14 w¨ahlen. Das Gesetz der großen Zahlen besagt also, dass sich (mit sehr hoher Wahrscheinlichkeit) die relative Erfolgsh¨aufigkeit bei einem Zufallsexperiment immer weiter an die Erfolgswahrscheinlichkeit ann¨ahert, je h¨aufiger das Zufallsexperiment durchgef¨ uhrt wird. Das bedeutet jedoch nicht, dass ein Ergebnis, das bisher nicht so h¨ aufig eintrat, demn¨achst h¨aufiger auftreten muss. Das ist ein weit verbreiteter Irrtum beim Lottospielen. Man glaubt, wenn gewisse Zahlen lange nicht gezogen wurden, dass sie dann mit h¨oherer Wahrscheinlichkeit kommen m¨ ussen. Solange man 6 aus 49 Kugeln zieht, betr¨agt 6 die Gewinnchance f¨ ur jede der Kugeln 49 (Beispiel 5.2.6), unabh¨angig davon, wann die Kugel das letzte Mal gezogen wurde. Das gleiche gilt f¨ ur das Roulette. Auch hier hat die Kugel kein Ged¨ achtnis. Sie weiß“ nicht, welche Zahlen ” seltener gekommen sind. Bei jeder Runde k¨ onnen alle Zahlen gleichberechtigt 1 kommen. mit der Wahrscheinlichkeit 37 Wenn wir einen M¨ unzwurf ( Kopf“ oder Zahl“) sehr oft durchf¨ uhren, k¨onnte ” ” zum Beispiel folgendes Bild entstehen: Nach 100 W¨ urfen kam 47-mal Zahl (theoretisch sollten es 50-mal sein). Das ist ein absoluter Abstand von 3 und 3 ein relativer Abstand von 100 = 0,03. Nach 1000 W¨ urfen kam 490-mal Zahl (es sollten 500-mal sein). Das ist ein absoluter Abstand von 10 und ein relativer Abstand von 0,01. Nach 10000 W¨ urfen kam 4960-mal Zahl (es sollte 5000 sein). Das ist ein absoluter Abstand von 40 und ein relativer Abstand von 0,004. Man sieht, der relative Abstand wird immer kleiner (Gesetz der großen Zahlen), w¨ahrend der absolute Abstand gr¨ oßer werden kann. Die M¨ unze holt ihren R¨ uckstand bez¨ uglich des Auftretens von Zahl“ nicht auf und trotzdem ” pendelt sich die relative H¨ aufigkeit nach sehr vielen Wiederholungen meist gut auf die Wahrscheinlichkeit ein.
312
5 Diskrete Mathematik
Bemerkung 5.2.40. Im Beweis von Satz 5.2.37 haben wir die folgende Ungleichung erhalten: ! ! n n 1X M 1X Var Xi − c = Var Xi ≤ . n i=1 n i=1 n
q Pn ur die Wenn man die Standardabweichung Var n1 i=1 Xi − c als Maß f¨ mittlere Abweichung auffasst, sieht man daraus, dass die mittlere Genauigkeit 1 √ bei Erh¨ohung der Zahl der Versuche nur wie O besser wird. Eine Forden rung nach einer zus¨ atzlichen Stelle Genauigkeit erfordert eine Vergr¨oßerung von n um den Faktor 100. Bei der Verwaltung großer Datenmengen verwendet man heute oft sogenannte Hashtabellen. Da die Zahl der Vorg¨ ange dabei sehr groß ist, eignet sich die Wahrscheinlichkeitsrechnung zur Analyse. Die Grundidee besteht in der Benutzung von Hashfunktionen. Eine Hashfunktion 14 ist eine einfach zu berechnende Funktion, die beliebige Strings bzw. Zahlen auf Strings bzw. Zahlen beschr¨ankter L¨ ange bzw. Gr¨ oße abbildet. Nat¨ urlich werden dabei einige Elemente den gleichen Hashwert haben, aber bei einer guten“ Hashfunktion ” kommen solche Kollisionen selten“ vor und folgen keinem vorhersagbaren ” Muster. In der Anwendung dient der Hashwert eines Strings als dessen nahezu eindeutige Kennzeichnung. Hashfunktionen spielen eine wichtige Rolle in der Kryptographie. Eine Analogie sind Fingerabdr¨ ucke. Man kann sie leicht abnehmen. Es gibt praktisch keine zwei Personen mit gleichen Fingerabdr¨ ucken, obwohl das nicht ¨ v¨ollig ausgeschlossen ist. Beim Ubergang vom Individuum zum Fingerabdruck gehen sehr viele Informationen verloren, trotzdem kann man Personen anhand von Fingerabdr¨ ucken identifizieren. Ein Beispiel einer einfachen Hashfunktion f¨ ur Zahlen ist die Funktion h : Z → Z/pZ, die durch h(a) = a mod p gegeben ist. Dabei ist p eine feste nat¨ urliche Zahl. F¨ ur p = 10 ist h(a) die letzte Ziffer der nat¨ urlichen Zahl a. Ein Beispiel welches auf Strings angewendet wird, ist die Hashfunktion MD5, die jeder auf seinem Computer ausprobieren kann. Unter Linux geht das so: Wenn wir eine Datei mit Namen test haben, in der nur Oscar (gefolgt von return) steht, liefert md5sum test als Ergebnis die Hexadezimalzahl 8edfe37dae96cfd2466d77d3884d4196. Wenn man Strings sucht oder vergleicht, ist es viel schneller, statt der langen Strings nur die kurzen Fingerabdr¨ ucke“ zu vergleichen. Eine praktische ” Anwendung dieser Idee finden wir bei der Kontrolle heruntergeladener Dateien auf ihre Unversehrtheit. Die Datei und ihr Hashwert (z.B. durch MD5 gegeben) liegen auf einem Server. Nachdem man beides heruntergeladen hat, wird der Hashwert der heruntergeladenen Datei berechnet und mit dem ur14
to hash ist englisch und heißt zerhacken.
5.2 Wahrscheinlichkeit
313
spr¨ unglichen Hashwert verglichen. Unterscheiden sich beide, liegt ein Fehler vor und die Datei sollte erneut heruntergeladen werden. Eine wichtige Anwendung im Rahmen der Informatik sind die Hashtabellen. Sie werden benutzt, um Daten in großen Datenmengen zu finden. Dazu werden die Daten in einer Hashtabelle gespeichert. Die Hashfunktion definiert dabei zu jedem Datum einen Hashwert, der als Index in der Tabelle verwendet wird. Jedem Datum ist ein sogenannter Schl¨ ussel15 aus einer Schl¨ usselmenge S = {0, . . . , m − 1} zugeordnet. Die Schl¨ usselmenge muss nicht unbedingt in der Menge der nat¨ urlichen Zahlen enthalten sein, sie kann aber stets injektiv in sie abgebildet werden. Ein Beispiel f¨ ur derartige Schl¨ ussel sind Paare (Nachname, Vorname) als Schl¨ ussel f¨ ur die im Telefonbuch enthaltenen Daten Telefonnummer und Adresse. Wichtig ist, dass verschiedenen Daten verschiedene Schl¨ ussel zugeordnet sind. Bei direkter Adressierung, d.h. wenn keine Hashtabellen verwendet werden, ist die Position des Datums in der Tabelle durch den Schl¨ ussel gegeben. Wenn die Anzahl m der m¨ oglichen Schl¨ ussel sehr groß im Verh¨altnis zur Anzahl der tats¨achlich auftretenden Schl¨ ussel ist, dann ist die Verwendung von Hashtabellen g¨ unstig. Ein Datum mit dem Schl¨ ussel k wird in der Tabelle nun nicht an Position k, sondern an der Position h(k) gespeichert, wobei h : S → {0, . . . , p − 1} eine Hashfunktion ist. Wenn in einer Hashtabelle mit t Pl¨atzen gerade n Elemente gespeichert sind, dann nennt man nt den Auslastungsfaktor. Sobald m > p ist, wird es Kollisionen geben, d.h. h(k) = h(l) f¨ ur l 6= k ist m¨oglich. Eine gute Hashfunktion zeichnet sich dadurch aus, dass die Anzahl der Kollisionen so gering wie m¨ oglich ist. Wenn p eine Primzahl in der Gr¨oßenordnung der tats¨ achlich auftretenden Schl¨ ussel ist und 1 < x < p, dann ist h : Z → Z/pZ, definiert durch h(a) = xa mod p, ein Beispiel f¨ ur eine gute Hashfunktion. Beispiel 5.2.41. Es seien 23 Dinge gegeben, die in 365 Schubf¨acher zuf¨allig einsortiert werden sollen. Dann ist die Wahrscheinlichkeit, dass zwei Dinge im gleichen Schubfach landen, gr¨ oßer als 0,5 (Geburtstags-Paradoxon, Bsp. 5.2.10). Folglich wird es bei einer zuf¨ alligen Hashfunktion mit 365 Werten und 23 Schl¨ usseln mit Wahrscheinlichkeit gr¨ oßer 0,5 zu einer Kollision kommen, obwohl die Hashtabelle nur zu etwa 6% ausgelastet ist. Dieses Beispiel illustriert die Notwendigkeit der Behandlung von Kollisionen bei der Verwendung von Hashtabellen. Wir werden hier die Kollisionsbehandlung durch das sogenannte Chaining und durch die offene Adressierung mit der linearen Sondierung und dem doppelten Hashing als Sondierungsverfahren besprechen. Bei der Kollisionsbehandlung durch Chaining steht in der Hashtabelle an jeder Stelle eine Liste. Tritt beim Einf¨ ugen eine Kollision auf, so wird der neue 15 Ein Beispiel f¨ ur einen Schl¨ ussel f¨ ur die Gesamtheit aller Informationen u ¨ber einen Studenten ist seine Matrikelnummer.
314
5 Diskrete Mathematik
Eintrag in die dortige Liste (z.B. am Ende) eingetragen. Beim Suchen muss dann nach Berechnen des Hashwertes die entsprechende Liste durchsucht werden. Wir nehmen jetzt an, dass die Hashfunktion die Daten gleichm¨aßig verteilt, d.h. die Wahrscheinlichkeit daf¨ ur, dass ein Datum auf eine bestimmte Stelle in der Hashtabelle mit t Pl¨ atzen abgebildet wird, ist 1t , unabh¨angig von dieser Stelle und unabh¨ angig davon, was schon in der Hashtabelle steht. Der Erwartungswert f¨ ur die L¨ ange der Liste an jeder Stelle der Tabelle ist dann gleich nt (Bsp. 5.2.22). Wenn wir außerdem annehmen, dass der Wert der Hashfunktion in konstanter Zeit berechnet werden kann, dann wird die Dauer der Suche von der L¨ ange der Listen ur die dominiert und der Zeitaufwand f¨ Suche betr¨agt im Mittel O 1 + nt . Eine weitere Methode der Kollisionsbehandlung ist die sogenannte offene Adressierung. Hier werden alle Elemente in der Hashtabelle gespeichert, ohne dass Listen verwendet werden. Wenn dabei ein Eintrag an eine schon belegte Stelle in der Tabelle abgelegt werden soll, wird nach einem bestimmten Sondierungsverfahren ein freier Platz gesucht, d.h. die Kollisionsbehandlung erfolgt so, dass auf eine bestimmte Weise eine Sondierungssequenz zur Suche nach einer Ersatzadresse angegeben wird. Als einfachstes Beispiel betrachten wir die lineare Sondierung. Sei h : S → {0, 1, . . . , t − 1} eine Hashfunktion. Wir erweitern h zu einer Hashfunktion H : S × {0, . . . , t − 1} → {0, 1, . . . , t − 1} , definiert durch16 H(k, j) = h(k) + c · j mod t, wobei das zweite Argument die Anzahl der erfolgten Sondierungen sein soll. Die so entstehende Folge {H(k, 0), . . . , H(k, t−1)} nennt man Sondierungsfolge. Wenn t eine Primzahl ist, dann bilden die Elemente einer solchen Sondierungsfolge stets eine Permutation von {0, . . . , t−1}. Analog kann man durch H(k, i) = h(k)+c1 i+c2 i2 mod t quadratische Sondierungen beschreiben. Als vorteilhafter hat sich das sogenannte doppelte Hashing erwiesen. Hier startet man mit zwei Hashfunktionen h1 , h2 : S → {0, 1, . . . , t − 1} und kombiniert sie durch H(k, i) = h1 (k) + i · h2 (k) mod t zu einer Hashfunktion H : S × {0, . . . , t − 1} → {0, . . . , t − 1} . Damit die Sondierungsfolge {H(k, 0), . . . , H(k, t − 1)} eine Permutation von {0, . . . , t − 1} ist, gen¨ ugt es, dass h2 (k) und t f¨ ur alle k teilerfremd sind. Das ist zum Beispiel f¨ ur h1 (k) = k mod 17 und h2 (k) = (k mod 13) + 2 erf¨ ullt. Zur Untersuchung des Aufwandes bei der offenen Adressierung mit doppeltem Hashing nehmen wir wieder an, dass jede Sondierung eine Adresse mit der ahlt. Wenn der Auslastungsfaktor nt < 1 ist, gleichen Wahrscheinlichkeit 1t w¨ dann ist die erwartete Anzahl der Sondierungen beim Einf¨ ugen in die Tabelle 16
Im Zusammenhang mit Hashfunktionen verstehen wir unter a mod t stets den eindeutigen Repr¨ asentanten dieser Restklasse, der in {0, 1, . . . , t − 1} liegt.
5.2 Wahrscheinlichkeit
315
t gleich t−n . Das sieht man mit Hilfe des in Bsp. 5.2.25 betrachteten Urnenmodells. Dem Ziehen einer weißen Kugel entspricht das Finden einer leeren Stelle in der Tabelle durch die Hashfunktion. Dem Ziehen einer schwarzen Kugel entspricht das Finden einer besetzten Stelle in der Hashtabelle. Das darauffolgende Ziehen mit Zur¨ ucklegen entspricht der zuf¨alligen Wahl eines neuen Platzes. Damit ist gezeigt, dass die Anzahl der Sondierungen in doppeltem t ist. Hashing t−n
Beispiel 5.2.42. Als Schl¨ ussel verwenden wir die Buchstaben des Alphabets A, B, C, . . . , Y, Z, die wir mit den Zahlen 0, 1, 2, . . . , 24, 25 identifizieren. Die gegebenen Daten sind die Namen {Alfons, Claus, Doris, Helga, Inge, Lutz, Max, Otto, Wilfred} , die der Reihe nach in eine Liste mit elf Eintr¨agen {0, . . . , 10} einzuordnen sind. Der Schl¨ ussel eines Namens ist die Zahl, die gem¨aß unserer Konvention seinem Anfangsbuchstaben entspricht. Die Hashfunktion h : {0, . . . , 25} → {0, . . . , 10} sei definiert durch h(k) = k mod 11. Das ergibt Name Schl¨ ussel Hashwert Alfons 0 0 Claus 2 2 Doris 3 3 7 7 Helga Inge 8 8
Name Schl¨ ussel Hashwert Lutz 11 0 Max 12 1 Otto 14 3 22 0 Wilfred
Damit sieht die Hashtabelle mit Chaining folgendermaßen aus: Hashwert 0 1 2 3 4 5
Liste der Daten Alfons, Lutz, Wilfred Max Claus Doris, Otto
Hashwert Liste der Daten 6 7 Helga 8 Inge 9 10
Die erweiterte Hashfunktion H : {0, . . . , 25} × {0, . . . , 10} → {0, . . . , 10} f¨ ur die lineare Sondierung ist durch H(k, i) = k + i mod 11 definiert. Damit erhalten wir folgende Hashtabelle: Hashwert Sondierungen Daten 0 0 Alfons 1 Lutz 1 2 0 Claus 3 0 Doris 3 Max 4 5 2 Otto
Hashwert Sondierungen Daten 6 6 Wilfred 0 Helga 7 8 0 Inge 9 10
316
5 Diskrete Mathematik
Am schwersten war es, Wilfred einzusortieren. Sein Hashwert war durch Alfons besetzt, Lutz, Claus, Doris, Max und Otto nahmen ihm bei der linearen Suche die jeweils n¨ achsten Pl¨ atze weg. Erst nach dem 6. Versuch wurde f¨ ur ihn ein freier Platz gefunden. Wenn wir f¨ ur das Doppel-Hashing neben h1 = h als zweite Hashfunktion die durch h2 (k) = (k mod 7)+1 gegebene Funktion h2 : {0, . . . , 25} → {1, . . . , 7} verwenden, erhalten wir die folgende Hashtabelle: Hashwert Sondierungen Daten 0 0 Alfons 0 Max 1 2 0 Claus 3 0 Doris 4 1 Otto 5 1 Lutz
Hashwert Sondierungen Daten 6 3 Wilfred 0 Helga 7 8 0 Inge 9 10
Wieder war es am schwersten, Wilfred einzusortieren. Sein Hashwert war durch Alfons besetzt, der erweiterte Hashwert H(22, 1) = ((22
mod 11) + (22 mod 7) + 1) mod 11 = 2
war durch Claus und H(22, 2) = ((22 mod 11) + 2 · (22
mod 7) + 1) mod 11 = 3
durch Otto besetzt. Erst im dritten Versuch ergab sich ein freier Platz. Man ¨ sieht bereits an diesem einfachen Beispiel die Uberlegenheit des doppelten Hashings gegen¨ uber dem linearen Sondieren: beim doppelten Hashing waren maximal 3 Sondierungen n¨ otig, hingegen beim linearen Sondieren bis zu 6.
Aufgaben ¨ Ubung 5.8. Berechnen Sie die Tabelle in Beispiel 5.2.23. ¨ Ubung 5.9. Seien X, Y unabh¨ angige Zufallsvariablen. Beweisen Sie, dass Var(X + Y ) = Var(X) + Var(Y ) gilt. ¨ Ubung 5.10. Seien X, Y nicht-negative Zufallsvariablen. Beweisen Sie, dass E(max(X, Y )) ≤ E(X) + E(Y ) gilt. ¨ Ubung 5.11. Berechnen Sie E(aX). ¨ Ubung 5.12. Berechnen Sie Var(aX). ¨ Ubung 5.13. Beweisen Sie die im Beispiel 5.2.6 (3) aufgestellt Behauptung, 1 dass f¨ ur eine Laplace-Verteilung immer P ({e}) = |S| gelten muss.
5.3 Graphentheorie
317
¨ Ubung 5.14. Berechnen Sie den Erwartungswert der Zufallsvariablen, die beim W¨ urfeln mit einem fairen W¨ urfel dem Wurf die Augenzahl zuordnet. ¨ Ubung 5.15. Bei einer Serienproduktion von LED’s gibt es einen gleich bleibenden Ausschussanteil von 2%. Wie groß ist die Wahrscheinlichkeit, dass unter 100 (mit Zur¨ ucklegen) entnommenen LED’s h¨ochstens 3 fehlerhafte sind? ¨ Ubung 5.16. Ein Tipp beim Lotto 6 aus 49“ koste 1 Euro. Bei einem Sech” ser erhalten Sie 200 000 Euro. Wie hoch ist der erwartete Gewinn bei einem Tipp (wir nehmen hier zur Vereinfachung der Rechnung an, dass es keinen Gewinn bei F¨ unfer und Vierer gibt)? ¨ Ubung 5.17. Berechnen Sie Erwartungswert und Varianz der Zufallsvariaa blen X bez¨ uglich der Poisson-Verteilung P (X = a) = λa! e−λ , λ > 0.
5.3 Graphentheorie Zu Beginn dieses Abschnittes werden einige der klassischen Probleme vorgestellt, die wesentlich zur Entwicklung der Graphentheorie beigetragen haben. Danach besch¨aftigen wir uns mit den moderneren Fragen, wie ein Routenplaner seinen Weg sucht und wodurch Google in der Lage ist, in Sekundenschnelle relevante Information in einer sehr großen Menge von weltweit verstreuten Daten zu finden. Das wohl bekannteste der klassischen Probleme der Graphentheorie ist das K¨onigsberger Br¨ uckenproblem. Diese Fragestellung geht auf den bekannten Mathematiker Euler17 zur¨ uck. In der Stadt K¨ onigsberg18 in Preußen f¨ uhrten Mitte des 18. Jahrhunderts sieben Br¨ ucken u ber den Fluss Pregel (Abb. ¨ 5.3). An Euler wurde die Frage herangetragen, ob es einen Rundgang durch K¨ onigsberg g¨abe, der jede der Br¨ ucken genau einmal benutzt. Versuchen Sie einen solchen zu finden. Es wird Ihnen nicht gelingen, aber k¨onnen Sie sicher sein, dass es keinen gibt? Wenn wir den Br¨ ucken Linien und den Gebieten Punkte zuordnen, erhalten wir dieses u ¨bersichtliche Schema: V3 • V2 • V1
• V4
•
17
Leonard Euler (1707–1783), Schweizer Mathematiker.
18
heute Kaliningrad in Russland.
318
5 Diskrete Mathematik V3 = Altstadt Kr¨ amerbr¨ ucke Schmiedebr¨ ucke Holzbr¨ ucke V2 = Kneiphof Honigbr¨ ucke19 Gr¨ une Br¨ ucke
K¨ ottelbr¨ ucke V4 = Lomse
V1 = Vorstadt
Hohe Br¨ ucke
Abb. 5.3 Die Br¨ ucken von K¨ onigsberg im 18. Jahrhundert
Das ist das erste Beispiel f¨ ur einen Graphen. Weitere Meilensteine der Anf¨ange der Graphentheorie sind: • 1847 f¨ uhrte Kirchhoff20 bei der Untersuchung von elektrischen Netzwerken Graphen ein. • 1857 betrachtete Cayley21 Graphen im Zusammenhang mit der Aufz¨ahlung der Isomere ges¨ attigter Kohlenwasserstoffe. • Hamilton22 untersuchte im Jahre 1857 Graphen im Zusammenhang mit dem von ihm erfundenen Spiel Traveller’s Dodecahedron“. Ziel dieses ” Spiels ist es, eine Reiseroute entlang der Kanten eines Dodekaeders zu finden, die jede der 20 Knoten genau einmal trifft und dort endet, wo sie 19
Dies ist die einzige heute noch erhaltene Br¨ ucke. Alle anderen wurden w¨ ahrend des 2. Weltkrieges zerst¨ ort und nur teilweise durch moderne Br¨ ucken ersetzt.
20 21 22
Gustav Robert Kirchhoff (1824–1887), deutscher Physiker. Arthur Cayley (1821–1895), englischer Mathematiker. William Rowan Hamilton (1805–1865), irischer Mathematiker.
5.3 Graphentheorie
319
beginnt. Ein regul¨ ares Dodekaeder ist ein Plantonischer23 K¨orper, dessen Oberfl¨ache aus 12 Fl¨ achen (F¨ unfecke) besteht, die 30 Kanten und 20 Ecken haben (Abb. 5.4).
Abb. 5.4 Dodekaeder
• Mitte des 19. Jahrhunderts stellte Guthrie24 beim F¨arben der Karte von England das Vierfarbenproblem auf: Kann man jede Landkarte mit vier Farben so einf¨arben, dass Nachbarl¨ ander verschieden gef¨arbt sind? Diese Frage erwies sich als mathematisch sehr schwieriges Problem, das erst 1976 durch K. Appel und W. Haken gel¨ ost werden konnte. Definition 5.3.1. Ein Graph (bzw. gerichteter Graph) G ist ein Tripel (E, K, ϕ). Dabei ist E die endliche Menge der Knoten 25 , K die endliche Menge der Kanten und ϕ : K → E (2) (bzw. ϕ : K → E 2 ) eine Abbildung. Hier bezeichnen wir mit E (2) = {{e, e′} | e, e′ ∈ E} die Menge aller zweielementigen Teilmengen von E und mit E 2 = {(e, e′ ) | e, e′ ∈ E} die Menge aller Paare von Elementen aus E. Wenn ϕ(k) = {e, e′ } (bzw. ϕ(k) = (e, e′ )), dann heißen e und e′ die Knoten der Kante k und wir fordern stets e 6= e′ . Beispiel 5.3.2. Zur graphischen Veranschaulichung kann man f¨ ur jeden Knoten einen Punkt in der Ebene zeichnen und die Kanten durch Verbindungslinien der zugeh¨ origen Knoten darstellen. Hier ein Beispiel eines ungerichteten Graphen 23
Platon (427–347 v.u.Z.), griechischer Philosoph.
24
Francis Guthrie (1831–1899), s¨ udafrikanischer Mathematiker.
25
Knoten werden auch oft Ecken genannt.
320
5 Diskrete Mathematik
e1 •
k5
k6
e5 •
k7
k1
k4
k2
e4 •
• e3
k3
E = {e1 , . . . , e5 }
• e2
K = {k1 , . . . , k7 } ϕ(k6 ) = ϕ(k7 ) = {e2 , e5 }
ϕ(k3 ) = {e3 , e4 } etc.
und hier ein Beispiel eines gerichteten Graphen, wobei durch die Pfeilrichtungen angegeben ist, welches der Anfangs- und welches der Endknoten einer Kante ist: e1 • k5
k1
k6
e5 •
k7
k4
E = {e1 , . . . , e5 } K = {k1 , . . . , k7 }
• e2
ϕ(k6 ) = (e5 , e2 ) ϕ(k7 ) = (e2 , e5 )
k2
e4 •
k3
ϕ(k3 ) = (e4 , e3 ) etc.
• e3
Definition 5.3.3. Sei (E, K, ϕ) ein Graph. Kanten k1 6= k2 heißen Mehrfachkanten26 , wenn ϕ(k1 ) = ϕ(k2 ). Ein Graph heißt schlicht , wenn er keine Mehrfachkanten hat. • k1
•
k2
Mehrfachkanten
•
•
•
•
• schlicht
Ein Graph heißt vollst¨andig, wenn jedes Paar verschiedener Knoten durch eine Kante verbunden ist (Abb. 5.5). Der vollst¨andige Graph mit n Knoten wird oft als Kn bezeichnet. Jeder Graph (E, K, ϕ) wird eindeutig durch seine Inzidenzmatrix beschrieben. Das ist die |E| × |K|-Matrix M = (mij ), die wie folgt definiert ist. Wenn E = {e1 , . . . , es } und K = {k1 , . . . , kℓ }, dann ist 26
Kanten, die nur einen Knoten haben, sogenannte Schlingen, sind bei unserer Definition nicht zugelassen.
5.3 Graphentheorie
321 •
•
•
•
• •
•
•
•
K4
•
•
•
•
•
K5
K6
•
Abb. 5.5 Drei vollst¨ andige Graphen
mij =
(
0 1
wenn ei nicht Knoten von kj wenn ei Knoten von kj .
Die Spalten einer Inzidenzmatrix entsprechen den Kanten des Graphen, die Zeilen dagegen den Knoten. In jeder Spalte gibt es genau zwei von Null verschiedene Eintr¨ age in solch einer Matrix. Die Summe der Eintr¨age einer Zeile gibt an, wie viele Kanten mit dem entsprechenden Knoten verbunden sind. Zu dem Graphen in Abb. 5.6 geh¨ ort die nebenstehende Matrix M . e4
•
k5
k3
e3
k4
•
k2
e1 • k1
• e2
0
1 B1 B M =@ 0 0
0 1 1 0
0 0 1 1
1 0 0 1
1 0 1C C 0A 1
Abb. 5.6 Inzidenzmatrix eines Graphen
F¨ ur gerichtete Graphen wird die Inzidenzmatrix M = (mij ) wie folgt definiert: wenn ei nicht Knoten von kj 0 mij = −1 wenn ei Anfangsknoten von kj 1 wenn ei Endknoten von kj .
Auch hier entsprechen die Spalten den Kanten und die Zeilen den Knoten. Durch die zus¨atzlichen Vorzeichen werden die Pfeilrichtungen codiert. Zu dem in Abb. 5.7 abgebildeten gerichteten Graphen geh¨ort die danebenstehende Matrix M . Definition 5.3.4. Sei (E, K, ϕ) ein Graph mit E = {e1 , . . . , es } und M = (mij ) seine Inzidenzmatrix. Dann nennt man die Summe der Eintr¨age der
322
5 Diskrete Mathematik e4
•
k5
k3
e3
k4
•
k2
e1 • 0
1 −1 0 0 1 0 B 1 1 0 0 1C C M =B @ 0 −1 −1 0 0 A 0 0 1 −1 −1
k1
• e2
Abb. 5.7 Inzidenzmatrix eines gerichteten Graphen
P i-ten Zeile d(ei ) := j mij den Knotengrad des Knoten ei . Jeder Knoten vom Grad 1 heißt Endknoten des Graphen. Bemerkung 5.3.5. Sei (E, K, ϕ) ein Graph mit |K| = ℓ Kanten und Knotenmenge E = {e1 , . . . , es }. Dann gilt: (1) Die Spaltensummen in der Inzidenzmatrix sind alle gleich 2, weil jede Kante zwei Knoten hat. Ps Ps P (2) i=1 d(ei ) = 2ℓ, wegen (1) und i=1 d(ei ) = i,j mij . (3) Die Zahl der Knoten mit ungeradem Grad ist gerade (folgt aus (2)). Definition 5.3.6. Sei (E, K, ϕ) ein Graph mit E = {e1 , . . . , es } und K = {k1 , . . . , kℓ }. (1) Eine Kantenfolge ist eine Folge e0 k1 e1 k2 . . . es−1 ks es , so dass ϕ(ki ) = {ei−1 , ei } f¨ ur i = 1, . . . , s gilt. (2) Ein Kantenzug ist eine Kantenfolge mit paarweise verschiedenen Kanten. (3) Ein Weg ist ein Kantenzug mit paarweise verschiedenen Knoten (außer eventuell e0 = es ). Der Knoten e0 heißt Anfang, und es heißt Ende des Weges. (4) Ein Kreis (oder Zyklus) ist ein Kantenzug e0 k1 e1 k2 . . . es−1 ks es mit e0 = es und paarweise verschiedenen Knoten e1 , e2 , . . . , es . (5) Ein Graph heißt zusammenh¨angend, wenn es f¨ ur je zwei verschiedene Knoten u, v des Graphen einen Weg von u nach v gibt. In einem schlichten Graphen ist jede Kantenfolge e0 k1 e1 k2 . . . es−1 ks es durch die Folge der Knoten e0 e1 . . . es−1 es bereits festgelegt. Beispiel 5.3.7. F¨ ur den abgebildeten zusammenh¨angenden Graphen gilt: k5
e4 • k3
e3 •
k4 k6
k2
• e1 k1
• e2
5.3 Graphentheorie
323
e2 k1 e1 k4 e4 k5 e1 k1 e2
ist eine Kantenfolge, aber kein Kantenzug,
e2 k1 e1 k4 e4 k5 e1 k6 e3 e2 k1 e1 k4 e4 k3 e3
ist ein Kantenzug, aber kein Weg, ist ein Weg,
e2 k1 e1 k4 e4 k3 e3 k2 e2
ist ein Kreis.
Definition 5.3.8. Ein gewichteter Graph ist ein Graph (E, K, ϕ) zusammen mit einer Gewichtsfunktion wP: K → N. Wenn C = e0 k1 e1 k2 . . . es−1 ks es ein s Weg ist, dann heißt ℓ(C) := i=1 w(ki ) die L¨ange des Weges C.
Beispiel 5.3.9. Die Zahlen in den Klammern hinter den Kantenbezeichnern ki sind die Gewichte w(ki ).
k1 (1)
e1 • k6 (3)
e2 •
k2 (4)
k7 (4)
• e6
e3 • k8 (3)
k5 (1)
• e5
k3 (5)
• e4 k4 (2)
In diesem Graphen gibt es die folgenden Wege von e1 nach e5 : C1 = e1 k1 e2 k7 e5 C2 = e1 k1 e2 k2 e3 k8 e6 k5 e5
ℓ(C1 ) = 5, ℓ(C2 ) = 9,
C3 = e1 k1 e2 k2 e3 k3 e4 k4 e5 C4 = e1 k6 e6 k5 e5
ℓ(C3 ) = 12, ℓ(C4 ) = 4,
C5 = e1 k6 e6 k8 e3 k3 e4 k4 e5 C6 = e1 k6 e6 k8 e3 k2 e2 k7 e5
ℓ(C5 ) = 13, ℓ(C6 ) = 14.
Sei (E, K, ϕ, w) ein schlichter, zusammenh¨ angender, gewichteter Graph und u0 ∈ E ein Knoten. Das sogenannte K¨ urzeste-Wege-Problem besteht darin, f¨ ur jedes v ∈ E einen k¨ urzesten Weg von u0 nach v zu finden. Das wird durch den Algorithmus von Dijkstra 27 (vgl. Algorithmus 5.1) gel¨ost. Die Idee dieses Algorithmus besteht darin, dass man mit einer in u0 endenden Kante minimalen Gewichts beginnt und bei jedem weiteren Schritt eine neue Kante hinzunimmt, die das Minimum aller Wegl¨ angen von u0 zu den noch nicht betrachteten Knoten realisiert. Satz 5.3.10 Die Prozedur Dijkstra findet f¨ ur jedes v ∈ E r {u0 } einen k¨ urzesten Weg von u0 nach v. Beweis. Wir beweisen den Satz durch Induktion nach der Anzahl der Iterationen der While-Schleife des Algorithmus. Nach einer Iteration ist ein 27
Edsger Wybe Dijkstra (1930–2002), niederl¨ andischer Informatiker.
324
5 Diskrete Mathematik
Input: Ein schlichter, zusammenh¨ angender, gewichteter Graph (E, K, ϕ, w) und ein Knoten u0 ∈ E. Output: Eine Tabelle P , die f¨ ur jeden Knoten v ∈ E r {u0 } einen k¨ urzesten Weg P (v) von u0 nach v enth¨ alt. procedure(Dijkstra(E, K, ϕ, w, u0 ) 0 falls v = u0 ℓ(v) := ∞ falls v 6= u0 S := {u0 }; S := E r S; P (u0 ) := u0 while S 6= ∅ do for all v ∈ S do ℓ(v) := min{ℓ(u) + w(u, v) | u ∈ S} end for m := min{ℓ(v)|v ∈ S} W¨ ahle u ∈ S, v ∈ S mit m = ℓ(u) + w(u, v). P (v) := P (u)v S := S ∪ {v} S := E r S end while return P end procedure
Algorithmus 5.1: Bestimmung des k¨ urzesten Weges nach Dijkstra
v1 ∈ E r {u0 } gefunden (Induktionsanfang). Da der Graph schlicht ist, gibt es nur eine Kante von u0 nach v1 und weil w(u0 , v1 ) minimal unter allen Gewichten von Kanten mit Endpunkt u0 ist, ist sie der k¨ urzeste Weg von u0 nach v1 . Wir setzen jetzt voraus, dass nach k − 1 Schritten k¨ urzeste Wege von u0 nach v1 , . . . , vk−1 gefunden wurden (Induktionsvoraussetzung). Dann ist S = {u0 , v1 , . . . , vk−1 }. In der k-ten Iteration wird zun¨achst f¨ ur alle v ∈ E r S, die durch eine Kante mit einem Knoten u ∈ S verbunden sind, ℓ(v) = min{ℓ(u) + w(u, v) | u ∈ S} berechnet und m = min{ℓ(v) | v ∈ E r S} gesetzt. Dann werden u ∈ S, vk ∈ E r S so gew¨ahlt, dass u und vk durch eine Kante verbunden sind und m = ℓ(u) + w(u, vk ) gilt. Der Weg P (vk ) von u0 nach vk ist der um die Kante von u nach vk verl¨ angerte, bereits gefundene Weg P (u) von u0 nach u. Wir haben zu zeigen, dass es keinen k¨ urzeren Weg von u0 nach vk gibt. Wir tun dies mit einem indirekten Beweis, d.h. wir nehmen an, es g¨abe es einen Weg von u0 nach vk dessen L¨ ange kleiner als m ist. Solch ein Weg muss mindestens einen von vk verschieden Knoten enthalten, der nicht in S liegt, sonst w¨are dieser Weg durch den Algorithmus gew¨ahlt worden. Daher enth¨alt solch ein Weg einen Weg, der in einem nicht in S enthaltenem Knoten endet, ansonsten aber nur durch Knoten aus S f¨ uhrt. Da die Gewichte nicht negativ sind, kann die L¨ ange dieses Teilweges nicht gr¨oßer als die L¨ange des ihn enthaltenden Weges sein, sie ist hier also kleiner als m. Das steht im
5.3 Graphentheorie
325
Widerspruch zur Definition von m als Minimum, woraus die Behauptung folgt. ⊓ ⊔ Beispiel 5.3.11. F¨ ur den Graphen aus Beispiel 5.3.9 und u0 = e1 beginnt der Algorithmus mit der Initialisierung: ℓ(e1 ) = 0, ℓ(e2 ) = · · · = ℓ(e6 ) = ∞, S = {e1 }, S = {e2 , . . . , e6 }, P (e1 ) = e1 . 1. Iteration: ℓ(e1 ) = 0, ℓ(e2 ) = 1, ℓ(e6 ) = 3, ℓ(e3 ) = · · · = ℓ(e5 ) = ∞ und damit m = 1, also S = {e1 , e2 }, S = {e3 , . . . , e6 } und P (e2 ) = e1 e2 . 1
e2 • 4
e1 • 3
e3 ◦
4
◦ e6
5
3
◦ e4 ◦ e5
1
2
2. Iteration: ℓ(e1 ) = 0, ℓ(e2 ) = 1, ℓ(e3 ) = 5, ℓ(e5 ) = 5, ℓ(e4 ) = ∞, ℓ(e6 ) = 3 und m = 3. Wir erhalten S = {e1 , e2 , e6 }, S = {e3 , e4 , e5 } und P (e6 ) = e1 e6 . 1
e2 • 4
e1 • 3
e3 ◦
4
• e6
5
3
◦ e4 ◦ e5
1
2
3. Iteration: Hier ist ℓ(e3 ) = 5, ℓ(e5 ) = 4 und m = 4, somit S = {e1 , e2 , e6 , e5 }, S = {e3 , e4 } und P (e5 ) = e1 e6 e5 . 1
e2 • 4
e1 • 3
• e6
e3 ◦
4
5
3
1
◦ e4 • e5
2
4. Iteration: ℓ(e1 ) = 0, ℓ(e2 ) = 1, ℓ(e3 ) = 5, ℓ(e4 ) = 6, ℓ(e5 ) = 4, ℓ(e6 ) = 3 und m = 5. Daher ist S = {e1 , e2 , e6 , e5 , e3 }, S = {e4 } und P (e3 ) = e1 e2 e3 .
326
5 Diskrete Mathematik
1
e2 • 4
e1 • 3
e3 •
4
• e6
5
3
◦ e4 • e5
1
2
5. Iteration: ℓ(e1 ) = 0, ℓ(e2 ) = 1, ℓ(e3 ) = 5, ℓ(e4 ) = 6, ℓ(e5 ) = 4, ℓ(e6 ) = 3 und m = 6. Daher ist S = E, S = ∅, P (e4 ) = e1 e6 e5 e4 1
e2 • 4
e1 • 3
• e6
e3 •
4
5
3
1
• e4 • e5
2
Definition 5.3.12. Sei (E, K, ϕ) ein Graph. Ein Graph (E ′ , K ′ , ϕ′ ) heißt Untergraph von (E, K, ϕ), wenn E ′ ⊂ E, K ′ ⊂ K und ϕ′ = ϕ|K ′ . Ein Untergraph heißt aufspannend , wenn E = E ′ . Beispiel 5.3.13. Der Graph •
• •
• •
•
ist ein aufspannender Untergraph von •
•
•
• •
•
Definition 5.3.14. (1) Ein Graph ohne Kreise heißt Wald . (2) Ein nichtleerer, zusammenh¨ angender Wald heißt Baum. (3) Die Knoten vom Grad 1 (Endknoten) in einem Baum nennt man Bl¨atter . Bemerkung 5.3.15. Jeder Wald ist Vereinigung von B¨aumen. In einem Baum gibt es genau einen Weg zwischen zwei vorgegebenen Knoten. Die Zahl der Kanten in einem Baum ist gleich der Zahl der Knoten minus Eins (Aufgabe 5.22). Jeder zusammenh¨ angende Graph mit n Knoten und n − 1
5.3 Graphentheorie
327
Kanten ist ein Baum (Aufgabe 5.23). Der Algorithmus von Dijkstra berechnet einen aufspannenden Baum, dessen Kanten gerade die Kanten aller durch den Algorithmus gefundenen k¨ urzesten Wege sind. Satz 5.3.16 (Cayley) Der vollst¨andige Graph Kn besitzt genau nn−2 aufspannende B¨aume. Beweis. Seien E = {e1 , . . . , en } die Knoten des vollst¨andigen Graphen Kn und B = (E, K, ϕ) ein aufspannender Baum. Wir ordnen B ein (n − 2)-Tupel (t1 , . . . , tn−2 ) ganzer Zahlen 1 ≤ ti ≤ n wie folgt zu: Sei s1 minimal, so dass der Knoten es1 den Knotengrad 1 im Baum B hat. Dazu geh¨ort eine eindeutig bestimmte Kante k1 von B, die es1 mit einem zweiten Knoten et1 verbindet. Jetzt entfernen wir aus dem Baum B die Kante k1 und den Knoten es1 , wodurch wir einen neuen Baum B (1) erhalten. Iteration des Verfahrens liefert eine Folge von B¨aumen B (i) mit jeweils n − i Knoten und ein (n − 2)-Tupel (t1 , . . . , tn−2 ) ganzer Zahlen. In jedem Schritt ist si die kleinste Nummer eines Endknotens von B (i−1) und ti die Nummer des einzigen Knotens, der im verbliebenen Baum mit esi durch eine Kante verbunden ist. Der letzte Baum, aus dem ein Knoten entfernt wird, hat 3 Knoten (vgl. Bsp. 5.3.17). Sei umgekehrt (t1 , . . . , tn−2 ) gegeben. Die Zahlen ti geben an, mit welchem Knoten der jeweils n¨ achste zu bearbeitende Knoten zu verbinden ist. Wir starten mit dem minimalen s1 6∈ {t1 , . . . , tn−2 } (vgl. Bsp. 5.3.18) und w¨ahlen als k1 die Kante, die es1 mit et1 verbindet. Im n¨achsten Schritt suchen wir das minimale s2 6∈ {t2 , . . . , tn−2 , s1 } und w¨ ahlen als k2 die Kante, die es2 mit et2 verbindet. Wir setzen das Verfahren fort bis wir Kanten k1 , . . . , kn−2 definiert haben. In jedem Schritt wir der kleinste Index si ausgew¨ahlt, der nicht in der Menge {ti , . . . , tn−2 , s1 , . . . , si−1 } enthalten ist. F¨ ur den n¨achsten Schritt der Iteration wird in dieser Menge ti durch si ersetzt. Die letzte Kante kn−1 ist die Verbindung der letzten beiden unbenutzten Knoten {esn−1 , esn } = E r {es1 , . . . , esn−2 }. Der so entstandene Graph ist zusammenh¨angend, da f¨ ur jedes i ≤ n − 2 die Knoten esi und eti miteinander verbunden sind und ti ∈ {si+1 , si+2 , . . . , sn } gilt. Da er n Knoten und n − 1 Kanten enth¨alt, ¨ handelt es sich um einen Baum (Ubungsaufgabe 5.23). Offensichtlich sind die beiden Konstruktionen zueinander invers, woraus die Behauptung folgt. ⊓ ⊔ Beispiel 5.3.17. Die Zuordnung eines Zahlenpaares zu dem aufspannenden Baum B (siehe Abb. 5.8) des vollst¨ andigen Graphen K4 geschieht wie folgt. Zun¨achst ist s1 = 1 und k1 ist die Kante, die e1 mit e3 verbindet (Abb. 5.8). Damit ist t1 = 3 und der restliche Baum B (1) ist in Abb. 5.8 zu sehen. In B (1) w¨ahlen wir als erstes e3 und damit t2 = 2. Das heißt, dem Baum wird das Zahlenpaar (3, 2) zugeordnet.
328
5 Diskrete Mathematik e4
e3
•
•
•
•e
e1
2
e4
e4
e3
•
•
•
•e
e1
e3
•
•
•
•e
k1 e1
2
e4
•
•e
2.
2
Abb. 5.8 Graph K4 , Baum B, Kante k1 und Baum
e3
•
B (1)
Beispiel 5.3.18. Um den zum Zahlenpaar (t1 , t2 ) = (4, 4) geh¨origen aufspannenden Baum des vollst¨ andigen Graphen K4 zu finden, bestimmen wir zuerst s1 = 1 als Minimum der nicht in {t1 , t2 } = {4} enthaltenen Nummern von Knoten. Die Kante k1 verbindet es1 = e1 mit et1 = e4 (vgl. Abb. 5.9). Der kleinste, nicht in {t2 , s1 } = {4, 1} enthaltene Index ist s2 = 2. Das f¨ uhrt zur Kante k2 , die es2 = e2 mit et2 = e4 verbindet. Es verbleiben die Knoten e3 und e4 , deren Verbindung somit die Kante k3 ist (Abb. 5.9). e4
e3
•
◦
•
◦e
e4
•
k1 e1
2
e3
k2
◦
e1
e4
•
◦
•e
2.
◦
e1
k3
e4
e3
•
◦e
•
•
•e
e1
2
e3
•
2.
Abb. 5.9 Die Kanten k1 , k2 , k3 und der Baum zum Paar (4, 4)
Beispiel 5.3.19. Der vollst¨ andige Graph K4 besitzt die folgenden 16 aufspannenden B¨aume •
• •
• •
• •
• •
• •
• •
• •
•
•
• •
• •
• •
• •
• •
• •
• •
•
•
• •
• •
• •
• •
• •
• •
• •
•
•
• •
• •
• •
• •
• •
• •
• •
•
Aufspannende B¨ aume von minimalem Gewicht haben viele Anwendungen in der Praxis. Man braucht sie, um effizient zusammenh¨angende Netzwerke (z.B. Telefonnetz, elektrisches Netz, Straßennetz) zu erstellen. Wenn man zum Beispiel in der St¨adteplanung einige Punkte f¨ ur Bushaltestellen ausgew¨ahlt hat, kann man mit Hilfe eines aufspannenden Baumes von minimalem Gewicht die g¨ unstigste L¨ osung f¨ ur den Straßenbau ermitteln, so dass die Busse alle Punkte erreichen k¨ onnen. Daher ist es eine wichtige Aufgabe, f¨ ur einen gegebenen zusammenh¨ angenden gewichteten Graphen (E, K, ϕ, w) einen aufspannenden Baum von minimalem Gewicht zu finden. Eine L¨osung gibt der Algorithmus von Kruskal (vgl. Algorithmus 5.2). Die Idee dieses Algorithmus besteht darin, dass man mit einer Kante kleinsten Gewichts beginnend, in jedem Schritt eine solche Kante jeweils kleinstm¨oglichen Gewichts hinzuf¨ ugt,
5.3 Graphentheorie
329
durch die kein Kreis entsteht. Wenn es keine solche Kante mehr gibt, dann wurde ein aufspannender Baum minimalen Gewichts gefunden. Input: Ein zusammenh¨ angender gewichteter Graph (E, K, ϕ, w). Output: Ein aufspannender Baum von minimalem Gewicht. procedure Kruskal(E, K, ϕ, w) EB := ∅; KB := ∅; ϕB := ∅ B := (EB , KB , ϕB ) S := K while S 6= ∅ do w¨ ahle ein k ∈ S mit minimalem w(k) KB := KB ∪ {k} EB := EB ∪ ϕ(k) ϕB := ϕ|K B B := (EB , KB , ϕB ) S := {k ∈ K r KB | durch Hinzunahme von k zu B entsteht kein Kreis} end while return B end procedure
Algorithmus 5.2: Der Algorithmus von Kruskal
Satz 5.3.20 Die Prozedur Kruskal berechnet einen aufspannenden Baum von minimalem Gewicht. Beweis. Sei B = (EB , KB , ϕB ) ein aufspannender Baum von minimalem GeAlgorithmus erwicht und B ∗ = (EB ∗ , KB ∗ , ϕB ∗ ) der Baum,Pder durch den P zeugt wird. Wir m¨ ussen zeigen, dass w(B) = k∈KB w(k) = k∈KB∗ w(k) = w(B ∗ ) ist. Wir beweisen das durch absteigende Induktion u ¨ ber das maximale r ≥ 0, f¨ ur welches die ersten r Kanten k1 , . . . , kr aus der Konstruktion von B ∗ s¨amtlich in B liegen. Wenn r = n − 1, dann ist B = B ∗ und nichts ist zu zeigen. Wenn r < n − 1, dann ist die n¨achste Kante k = kr+1 in der Konstruktion von B ∗ nicht in B enthalten. Nach Konstruktion ist k eine Kante von minimalem Gewicht, unter denen, die mit den Kanten k1 , . . . , kr keinen Kreis bilden. Da B ein aufspannender Baum ist, enth¨ alt der Graph, der durch Hinzunahme der Kante k zum Graphen B entsteht, einen Kreis C. Sei k ′ irgendeine Kante dieses Kreises, die nicht in B ∗ enthalten ist. Wir definieren nun einen neuen Graphen B ′ , der aus B durch Entfernen von k ′ und Hinzunahme von k entsteht. Er hat die Kantenmenge (KB r {k ′ }) ∪ {k}.
330
5 Diskrete Mathematik
•
•
• k
•
B
•
•
• k
k
•
∗
•
k′
B
•
•
B
′
•
Offenbar gilt w(B ′ ) = w(B) + w(k) − w(k ′ ). Da k1 , . . . , kr und k ′ in dem Baum B liegen, k¨ onnen sie keinen Kreis bilden. Nach der Konstruktion von B ∗ bedeutet das w(k ′ ) ≥ w(k) und somit w(B ′ ) ≤ w(B). Wenn wir zeigen k¨onnen, dass auch B ′ ein aufspannender Baum ist, dann muss sogar w(B ′ ) = w(B) sein, da B minimales Gewicht hat. Da B ′ und B ∗ mindestens die Kanten k1 , k2 , . . . , kr+1 gemeinsam haben, folgt der Satz dann aus der Induktionsvoraussetzung. Es bleibt also zu zeigen, dass B ′ ein aufspannender Baum ist. Dazu m¨ ussen wir beweisen, dass B ′ zusammenh¨ angend ist und keine Kreise enth¨alt. Nehmen wir zun¨achst an, dass B ′ einen Kreis enth¨alt. Weil B keine Kreise enth¨alt muss k eine Kante dieses Kreises sein. Da k ′ nicht in B ′ enthalten ist, ist k ′ keine Kante dieses Kreises, der somit vom Kreis C verschieden ist. Das bedeutet, dass der Graph, der durch Hinzunahme der Kante k zum Graphen B entsteht, zwei verschiedene Kreise enth¨ alt. Nach Entfernung der gemeinsamen Kante k aus beiden Kreisen liefert uns das einen Kreis in B, was nach Voraussetzung ausgeschlossen ist. Somit kann B ′ keinen Kreis enthalten. Um zu zeigen, dass B ′ zusammenh¨ angend ist, w¨ahlen wir zwei Knoten e und e′ und einen Weg von e nach e′ in B. Wenn dieser Weg die Kante k ′ nicht enth¨alt, handelt es sich sogar um einen Weg in B ′ . Wenn dieser Weg jedoch die Kante k ′ enth¨ alt, ersetzen wir sie durch C r {k ′ } und erhalten in B ′ einen ′ Weg, der e und e verbindet. Das zeigt, dass B ′ zusammenh¨angend ist. ⊓ ⊔ Beispiel 5.3.21. F¨ ur den gewichteten Graphen aus Beispiel 5.3.9 ergibt sich w(k) 1 2 3 4 5 k k1 , k5 k4 k6 , k8 k2 , k7 k3 Der Algorithmus von Kruskal w¨ ahlt die Kanten k1 , k5 , k4 , k6 , k8 aus und liefert den aufspannenden Baum minimalen Gewichts (welches gleich 10 ist):
k1 (1)
e3 •
e2 •
k8 (3)
e1 • k6 (3)
• e6
k5 (1)
• e5
• e4 k4 (2)
Definition 5.3.22. Ein Hamiltonkreis ist ein Kreis durch alle Knoten eines Graphen. Ein Graph heißt hamiltonsch, wenn er einen Hamiltonkreis enth¨alt.
5.3 Graphentheorie
331
Beispiel 5.3.23. Die drei Graphen e4 •
e3 •
e4 •
e3 •
e4 •
e3 •
e1•
•e 2
e1•
•e 2
e1•
•e 2
repr¨asentieren Hamiltonkreise des vollst¨ andigen Graphen K4 mit vier Knoten. Satz 5.3.24 Jeder schlichte Graph G mit n ≥ 3 Knoten, in dem jeder Knoten mindestens den Grad n2 besitzt, enth¨alt einen Hamiltonkreis. Beweis. Wir f¨ uhren einen indirekten Beweis. Es ist klar, dass der vollst¨andige Graph mit n Knoten einen Hamiltonkreis enth¨ alt. Außerdem ist jeder Graph, der einen hamiltonschen Teilgraphen besitzt, selbst hamiltonsch. Sei G = (E, K, ϕ) ein schlichter Graph mit maximaler Kantenzahl, bei dem jeder Knoten den Grad mindestens n2 hat, und der nicht hamiltonsch ist. Jeder Graph, der auch nur eine zus¨ atzliche Kante besitzt, ist dann hamiltonsch. Seien u, v ∈ E zwei Knoten, zwischen denen es keine Kante in G gibt. Sei k die Verbindungskante von u und v und G′ der durch Hinzunahme der Kante k zu G entstehende Graph. Dann ist G′ hamiltonsch, da er G als echten Teilgraphen enth¨ alt. Sei uk1 e2 . . . en−1 kn−1 v ein Weg in G, der nach Hinzuf¨ ugen von k in G′ einen Hamiltonkreis liefert.
k1
e2 •
ei •
ki
• ei+1
u• k
• v
kn−1
• en−1
Wenn wir en+1 = e1 = u und en = v setzen, dann ist E = {e1 , . . . , en }. Sei S = {ei | u, ei+1 sind Knoten einer Kante von G} T = {ei | v, ei sind Knoten einer Kante von G}. Es ist v 6∈ S ∪ T und damit ist die Anzahl der Elemente von S ∪ T kleiner als n. Auf der anderen Seite ist S ∩ T = ∅. W¨ are n¨amlich ei ∈ S ∩ T f¨ ur ein i, erhalten wir durch Weglassen der Kante von ei nach ei+1 und Hinzuf¨ ugen der Kante, die u und ei+1 verbindet und der Kante, die v und ei verbindet, einen Hamiltonkreis in G (Abb. 5.10). Damit erhalten wir |S ∪ T | = |S| + |T | < n.
332
5 Diskrete Mathematik
ei •
e2 • k1
u = e1 •
v = en •
ki
kn−1
• ei+1
• en−1
Abb. 5.10 Hamiltonkreis
Das ist ein Widerspruch zu der Annahme, dass der Knotengrad von u und der Knotengrad von v mindestens n2 sind, denn der Knotengrad von u ist |S| und der Knotengrad von v ist |T |. ⊓ ⊔ Der Begriff des Hamiltonkreises spielt bei der Behandlung des Rundreiseproblem des Vertreters eine Rolle: Ein Vertreter soll eine vorgegebene Zahl von Kunden besuchen und dann nach Hause zur¨ uckkehren. Der Weg soll so gew¨ahlt werden, dass jeder Kunde genau einmal erreicht wird und dabei die Gesamtl¨ange des Weges minimal wird. ¨ Die graphentheoretische Ubersetzung dieses Problems lautet: Gegeben sei ein vollst¨andiger gewichteter Graph (E, K, ϕ, w). Gesucht ist ein Hamiltonkreis von kleinstem Gewicht. Wir stellen hier einen Greedy-Algorithmus 28 vor, der n¨aherungsweise einen solchen Hamiltonkreis konstruiert (vgl. Algorithmus 5.3). Die Idee dieses Algorithmus besteht darin, schrittweise immer mehr Knoten in den Kreis einzubeziehen, wobei als N¨achstes immer ein solcher Knoten gew¨ahlt wird, durch den eine Kante k1 minimal m¨oglichen Gewichts hinzukommt. Um den Umweg u ¨ber den neuen Knoten zu realisieren, entfernt man eine Kante k maximal m¨ oglichen Gewichts aus dem bereits konstruierten Weg. Allerdings ist eine weitere Kante k2 hinzuzunehmen, deren Gewicht nicht kontrolliert wird (siehe Abb. 5.11). Satz 5.3.25 Sei (E, K, ϕ, w) ein vollst¨andiger gewichteter Graph, so dass die Gewichtsfunktion der Dreiecksungleichung w(u, w) ≤ w(u, v) + w(v, w) f¨ ur alle u, v, w ∈ E gen¨ ugt. Dann liefert die Prozedur HamiltonKreis einen Hamiltonkreis, dessen Gewicht h¨ochstens doppelt so groß ist, wie das eines optimalen Hamiltonkreises. 28 Das englische Wort greedy heißt gierig auf deutsch und spiegelt die Grundidee des Algorithmus wieder. Der Begriff steht f¨ ur eine spezielle Klasse von Algorithmen. Sie zeichnen sich dadurch aus, dass sie schrittweise immer die M¨ oglichkeit w¨ ahlen, die zur Zeit der Wahl als die beste erscheint. Dadurch wird oft nur eine lokal optimale L¨ osung gefunden.
5.3 Graphentheorie
333 v b
min
k1
k2 k
b
b
z
max
u
EC
Abb. 5.11 Die Idee, die Algorithmus 5.3 zugrunde liegt Input: Ein vollst¨ andiger gewichteter Graph und n Knoten Output: Ein Hamiltonkreis procedure HamiltonKreis(E, K, ϕ, w) w¨ ahle e ∈ E EC := {e} KC := ∅ n := |E| while |EC | < n do w¨ ahle v ∈ E r EC mit min{w(v, y) | y ∈ EC } minimal w¨ ahle z ∈ EC mit w(v, z) = min{w(v, y) | y ∈ EC } w¨ ahle k ∈ KC mit ϕ(k) = {z, u} und w(z, u) maximal k1 := Kante von v und z k2 := Kante von v und u EC := EC ∪ {v} KC := (KC r {k}) ∪ {k1 , k2 } end while w¨ ahle eine Kante k ∈ K, die den Kreis schließt KC := KC ∪ {k} return (EC , KC , ϕ |KC ) end procedure
Algorithmus 5.3: Ein Greedy-Algorithmus zur Bestimmung eines Hamiltonkreises kleinen Gewichts Dieser Satz soll hier nicht bewiesen werden (vgl. [La]). Beispiel 5.3.26. Gegeben sei der wie folgt gewichtete vollst¨andige Graph K4 e4
1000
•
e3
•
5 1
e1
3
•
4 2
•
e2
Wenn wir mit dem Knoten e1 starten, liefert der Algorithmus nacheinander
334
5 Diskrete Mathematik e4 k1
•
◦
e3
e4
•
•e2
e1
•
◦
e3
e4
•
◦e2
e1
e1
Schritt 1
e3
•
•
•
•e2 .
Schritt 3
Schritt 2
Durch Schließen des Kreises erhalten wir den Hamiltonkreis H1 vom Gewicht 1006, besser w¨are jedoch der Kreis H2 vom Gewicht 13. Er wird vom GreedyAlgorithmus nicht gefunden: e4
•
•
e3
e4
•
•e2 .
e1
e1
H1
e3
•
•
•
•e2 .
H2
Definition 5.3.27. Eine Eulertour ist ein geschlossener Kantenzug der jede Kante des Graphen genau einmal enth¨ alt. Ein Graph in dem es eine Eulertour gibt, heißt eulerscher Graph. Beispiel 5.3.28. Die Zahlen geben die Reihenfolge des Kantendurchlaufs an. •
3
•
2
4 7
5
•
8 6
•
7
•
5
8
1 6
• 9
nicht eulersch
2
4
• 1
•
•
3
• 10
• eulersch
Satz 5.3.29 Ein zusammenh¨angender Graph (E, K, ϕ) ist genau dann eulersch, wenn jeder Knoten einen geraden Knotengrad hat. Beweis. Sei der Graph eulersch und u ∈ E irgendein Knoten. Da der Graph zusammenh¨angend ist, ist u Knoten einer Kante. Diese Kante ist Bestandteil einer Eulertour und wird genau einmal durchlaufen. Deshalb gibt es eine zweite Kante in dieser Eulertour mit Knoten u. Das bedeutet, dass der Knotengrad von u mindestens 2 ist. Da jede Kante nur einmal durchlaufen wird, gibt es bei jeder Ankunft in u eine neue Kante, die wieder wegf¨ uhrt. Damit muss der Knotengrad von u gerade sein. Nehmen wir jetzt an, dass alle Knoten des Graphen einen geraden Knotengrad haben. Nehmen wir weiter an, dass der Graph keine Eulertour besitzt und minimale Kantenzahl mit dieser Eigenschaft hat. Da jeder Knoten min-
5.3 Graphentheorie
335
destens vom Grad 2 ist, gibt es einen geschlossenen Kantenzug. Sei C ein geschlossener Kantenzug maximaler L¨ ange, der keine Kante mehrfach enth¨alt. Wegen unserer Annahme kann C nicht alle Kanten des Graphen enthalten. Sei (E ′ , K ′ , ϕ′ ) ein maximaler, nichttrivialer, zusammenh¨angender Untergraph von (E, K, ϕ), der keine Kante von C enth¨alt, also eine Zusammenhangskomponente des Graphen, aus dem C entfernt wurde. Der Graph (E ′ , K ′ , ϕ′ ) hat nur Knoten von geradem Knotengrad, weil das f¨ ur (E, K, ϕ) und C gilt und damit aus (E, K, ϕ) f¨ ur einen festen Knoten immer eine gerade Anzahl von Kanten entfernt werden. Wegen der Minimalit¨ at von (E, K, ϕ) ist (E ′ , K ′ , ϕ′ ) eulersch und besitzt daher eine Eulertour C ′ . Weil der Graph (E, K, ϕ) zusammenh¨angend ist, haben C und C ′ einen Knoten gemeinsam. Damit ist C ∪ C ′ ein geschlossener Kantenzug in (E, K, ϕ), der jede Kante genau einmal enth¨alt. Das ist ein Widerspruch zur Wahl von C. ⊓ ⊔ Folgerung 5.3.30 (K¨ onigsberger Br¨ uckenproblem). Es gibt keinen Rundgang durch K¨onigsberg, der jede der Br¨ ucken genau einmal benutzt. Beweis. Zu Beginn dieses Abschnittes wurde gezeigt, dass der zugeh¨orige Graph Knoten von ungeradem Knotengrad hat. Damit folgt die Behauptung aus Satz 5.3.29. ⊓ ⊔ Zum Studium des eingangs erw¨ ahnten Vierfarbenproblems wird der Begriff der F¨arbung eines Graphen eingef¨ uhrt. Francis Guthrie stellte sich 1852 beim Einf¨arben der Landkarte von England die Frage, wie viele Farben ausreichen, um eine Karte so einzuf¨ arben, dass benachbarte L¨ander verschiedene Farben haben. Diese Frage wurde an Augustus De Morgan29 herangetragen, der daf¨ ur sorgte, dass das Problem publik wurde. Obwohl man damals nur beweisen konnte, dass immer f¨ unf Farben gen¨ ugen, reichten in allen Beispielen vier Farben aus. Zur mathematischen Behandlung kann man das Problem in die Sprache der Graphentheorie u ¨ bersetzen. Dazu betrachtet man die L¨ander der Landkarte als Knoten eines Graphen, die man genau dann durch eine Kante verbindet, wenn die entsprechenden L¨ ander eine gemeinsame Grenze besitzen. Auf diese Weise erh¨alt man einen planaren Graphen, d.h. einen Graphen, den man in der Ebene so zeichnen kann, dass sich die Kanten nicht u ¨ berschneiden. Definition 5.3.31. Sei G = (E, K, ϕ) ein Graph und F = {1, . . . , l} eine Menge von Farben“. Eine Abbildung f : E → F heißt l-F¨arbung von G, ” wenn f¨ ur jede Kante k ∈ K mit ϕ(k) = {e, e′ } gilt: f (e) 6= f (e′ ). Das heißt, benachbarte Knoten m¨ ussen verschiedene Farben erhalten. Die kleinste Zahl l, f¨ ur die der Graph eine l-F¨ arbung besitzt, heißt chromatische Zahl von G. Sie wird mit χ(G) bezeichnet. 29
Augustus De Morgan (1806–1871), englischer Mathematiker.
336
5 Diskrete Mathematik
Beispiel 5.3.32. Zur Landkarte in Abbildung 5.12 geh¨ort der Graph K4 , der offenbar eine 4-F¨ arbung, aber keine 3-F¨ arbung besitzt. Damit ist χ(K4 ) = 4.
B
D
L
F
•
•
•
•
Abb. 5.12 Ein Ausschnitt der Europakarte und eine planare Version des Graphen K4
In der Sprache der Graphentheorie lautet das Vierfarbenproblem: Gilt f¨ ur jeden planaren Graphen G die Ungleichung χ(G) ≤ 4? Dass dies tats¨achlich der Fall ist, wurde 1976 von Kenneth Appel und Wolfgang Haken mit Hilfe eines Computers gezeigt. Sie reduzierten die Fragestellung auf 1936 Spezialf¨ alle, die dann per Computer abgearbeitet wurden. Die Beweismethode war vor 40 Jahren umstritten. Auch heute w¨are ein Beweis ¨ ohne Computer, der vom Menschen nachvollziehbar ist, vorzuziehen. Uber den Beweis des Vierfarbensatzes hat jemand gesagt: Ein guter Beweis liest sich wie ein Gedicht, ” dieser Beweis sieht wie ein Telefonbuch aus.“
Zu bemerken ist, dass die Verallgemeinerung des Vierfarbenproblems f¨ ur Landkarten, die nicht in der Ebene, sondern auf einer anderen Fl¨ache liegen, zum Beispiel auf einem Torus (Abb. 5.13) oder einem M¨obiusband (Abb. 5.14), einfacher und ohne Computer l¨ osbar war. F¨ ur den Torus gen¨ ugen stets 7 und f¨ ur Karten auf dem M¨ obiusband stets 6 Farben. Die F¨arbung von Graphen spielt in vielen Anwendungen eine Rolle, so auch bei einem der zur Zeit popul¨ arsten Logikr¨ atsel, dem Sudoku30 . Ein Sudoku (Abb. 5.15) ist ein 9×9-Gitter, in dem gewisse Zahlen von 1 bis 9 bereits vorgegeben sind. Das Gitter ist so zu vervollst¨andigen, dass jede Ziffer von 1 bis 9 in jeder Reihe, jeder Spalte und jedem der 9 ausgezeichneten 3×3Bl¨ocke genau einmal vorkommt. Ein korrekt gestelltes Sudoku ist eindeutig l¨ osbar. 30
Sudoku ist im Japanischen die Abk¨ urzung f¨ ur eine Zahl bleibt immer allein“. ”
5.3 Graphentheorie
337
Abb. 5.13 Torus
Abb. 5.14 M¨ obiusband
Schon Leonard Euler31 betrachtete lateinische Quadrate, das sind ¨ahnliche Zahlengitter, allerdings ohne die zus¨ atzliche Struktur der 3 × 3-Bl¨ocke. Das heute popul¨are Sudoku wurde 1979 in den USA von Howard Garms32 unter dem Namen Number Place“ eingef¨ uhrt und kam erst Ende der achtziger ” Jahre nach Japan. Das Sudokugitter kann durch einen Graphen GS = (ES , KS , ϕS ) dargestellt werden. Die 81 Knoten des Graphen entsprechen den Feldern des Sudokus. Wir nummerieren dazu die Felder Zeile f¨ ur Zeile durch: In der ersten Zeile von 1 bis 9, in der zweiten Zeile von 10 bis 18 und so weiter bis zu 73 bis 81 in der letzten Zeile. Somit ist ES = {1, 2, . . . , 81}. Zwei Knoten sind genau dann durch eine Kante verbunden, wenn die entsprechenden Felder in derselben Reihe, derselben Spalte oder im selben 3×3-Block liegen. Das heißt 31 32
Leonard Euler (1707–1783), Schweizer Mathematiker. Howard Garns (1905–1989), US-amerikanischer Architekt.
338
5 Diskrete Mathematik
5 6 2 6
4
7 5 2 3 6 3 1 5 8 6 1
8 5
7 9 6 6 1 4 7 4
Abb. 5.15 Sudoku
KS =
i und j liegen in einer Reihe, einer Spalte . {i, j} oder einem 3 × 3-Block.
Jeder Knoten hat den Grad 20. Daher gibt es insgesamt 81·20 = 810 Kanten 2 in der Menge KS . Die 20 Kanten, die mit dem Knoten 1, der linken oberen Ecke des Sudokus, verbunden sind, sind in folgendem Schema aufgelistet: {1, 2} {1, 3} {1, 4} {1, 5} {1, 6} {1, 7} {1, 8} {1, 9} {1, 10} {1, 11} {1, 12} {1, 19} {1, 20} {1, 21} {1, 28} {1, 37} {1, 46} {1, 55} {1, 64} {1, 73}
5.3 Graphentheorie
339
Das Ausf¨ ullen eines Sudokugitters entspricht einer 9-F¨arbung des Graphen GS . Bei einem Sudokur¨ atsel ist eine partielle F¨ arbung des Sudoku-Graphen“ ” GS vorgegeben, d.h. gewissen Knoten sind bereits Farben 1, 2, . . . , 9 zugeordnet. Gesucht ist eine Vervollst¨ andigung zu einer 9-F¨arbung von GS . Es gibt verschiedene Algorithmen zur Berechnung einer F¨arbung eines Graphen (vgl. [Di]). Ihre Behandlung w¨ urde den Rahmen dieses Buches sprengen. Die optimale F¨arbung eines Graphen ist eine schwierige Aufgabe, wovon sich der Leser beim L¨osen eines Sudokus selbst u ¨ berzeugen kann. Zum Abschluss dieses Abschnittes besch¨ aftigen wir uns mit drei Aspekten der aktuellen Forschung, die sich mit komplexen Netzwerken, d.h. Graphen mit sehr vielen Knoten und Kanten, befassen. Dies sind das Kleine-WeltPh¨anomen, die Routenplanung und schließlich die Suche von Information im Internet.
Kleine Welt Auf dem Internationalen Mathematikerkongress in Madrid 2006 hat Jon Kleinberg den Nevanlinna Preis33 f¨ ur seine Forschung auf dem Gebiet komplexer Netzwerke erhalten [Kl]. Ein Aspekt seiner Arbeit ist das sogenannte Kleine-Welt-Ph¨anomen. Ein Graph wird kleine Welt“ genannt, wenn fast ” jedes Paar von Knoten durch einen Weg extrem kurzer L¨ange verbunden werden kann. Dieses Problem geht auf die Untersuchung sozialpsychologischer Fragen zur¨ uck. Vereinfacht betrachtet man dort Graphen, deren Knoten die Menschen repr¨asentieren und deren Kanten bedeuten, dass die entsprechenden Personen einander kennen. Man sagt, zwei Personen kennen sich u ¨ ber n Knoten, wenn ihre Knoten im Graphen durch einen Weg der L¨ange n verbunden werden k¨onnen. Dabei muss der Begriff kennen“ nat¨ urlich pr¨azisiert werden. ” Wenn kennen“ zum Beispiel heißt, dass man sich gegenseitig vorgestellt und ” ein paar Worte miteinander gewechselt hat, dann kennt einer der Autoren den Pr¨asidenten der USA u ¨ber 4 Knoten (eventuell sogar weniger): Er kennt den Pr¨asidenten seiner Universit¨ at, der kennt den Ministerpr¨asidenten seines Bundeslandes, der kennt die Bundeskanzlerin und sie den Pr¨asidenten der USA. Unsere Freunde und Kollegen kennen also den Pr¨asidenten u ¨ber 5 Knoten. Das wird in vielen L¨ andern so sein. Man kennt den B¨ urgermeister seines Wohnortes, nach ein paar Schritten ist man in der Hierarchie ganz oben in der Regierung. Damit kann man in grober N¨aherung annehmen, dass sich fast alle Menschen u ¨ber 10 Knoten kennen. Der amerikanische Sozialpsychologe Stanley Milgram hat in den sechziger Jahren das folgende Experiment durchgef¨ uhrt [Mi], [MT]. Er definierte: ken” 33 Seit 1983 wird zu Ehren des finnischen Mathematikers Rolf Herman Nevanlinna (1895–1980) auf dem internationalen Mathematikerkongress neben der Fields-Medaille auch der Nevanlinna Preis f¨ ur herausragende Arbeiten auf dem Gebiet der theoretischen Informatik verliehen.
340
5 Diskrete Mathematik
nen“ heißt, man redet sich mit Vornamen an. Er w¨ahlte eine Person in Boston und bat eine Reihe zuf¨ allig ausgew¨ ahlter Personen in den USA einen Brief an die Zielperson zu schicken. Das war aber nicht auf direktem Weg erlaubt, sondern nur u ¨ber den Umweg u ¨ber Personen, die sich gegenseitig kennen. Bekannt waren Name, Adresse und Beruf der Zielperson sowie einige pers¨onliche Informationen. Das Ziel jedes Teilnehmers war es, den Brief auf k¨ urzestem Weg an die Zielperson zu schicken. Das hat nat¨ urlich nicht immer funktioniert, zum Beispiel weil die zwischengeschalteten Personen keine Lust hatten, an dem Experiment teilzunehmen und daher der Brief h¨ angen blieb. Milgrams Versuch zeigte, dass durchschnittlich 6 Schritte n¨ otig waren, um die Zielperson zu erreichen. Jeder kann heute selbst an solchen Experimenten teilnehmen, die im Internet durchgef¨ uhrt werden. Was k¨onnen die Mathematiker tun, um die so gefundene magische“ Zahl ” 6, vgl. [Gu], zu best¨ atigen? Warum sollte ein soziales Netzwerk die Kleine” Welt“-Eigenschaft haben? Das sind Fragen, die wir im Rahmen dieses Buches nicht beantworten k¨ onnen. Wir begn¨ ugen uns hier damit, einen Satz zu zitieren [BV], der in diese Richtung geht. Satz 5.3.33 (Bollob´ as, de la Vega) Wenn man zuf¨allig (gleich verteilt) aus der Menge der Graphen mit n Knoten, deren Knoten s¨amtlich den gleichen Knotengrad k ≥ 3 haben, einen Graphen ausw¨ahlt, dann ist mit hoher Wahrscheinlichkeit jedes Paar von Knoten durch einen Weg der L¨ange O(log(n)) verbunden. Ein weiteres Beispiel in dieser Richtung ist die sogenannte Erd˝ os-Zahl 34 . Dazu wird der Graph betrachtet, dessen Knoten alle Mathematiker repr¨asentieren. Zwei Knoten sind durch eine Kante verbunden, wenn die entsprechenden Mathematiker eine gemeinsame Ver¨ offentlichung haben. Die Erd˝ os-Zahl eines Mathematikers ist die L¨ ange (Anzahl der Kanten) des k¨ urzesten Weges in diesem Graphen von seinem Knoten zu dem von Erd˝ os. Auch hier ist es verbl¨ uffend, dass diese Zahl meist sehr klein ist. Die Autoren haben momentan die Erd˝ os-Zahlen 5 bzw. 4 u ¨ ber folgende Wege: B. Kreußler → H. Kurke → T. Friedrich → R. Sulanke → A. Renyi → P. Erd˝ os G. Pfister → W. Decker → D. Eisenbud → P.W. Diacouis → P. Erd˝ os
Die Erd˝ os-Zahl kann man auf der Homepage der AMS35 berechnen. Das ist nat¨ urlich nur eine Spielerei, auf der anderen Seite eine sch¨one Illustration des Kleine-Welt-Ph¨anomens. 34
˝ s (1913–1996) war ein ungarischer Mathematiker, der in den f¨ Paul Erdo unfziger Jahren grundlegende Arbeiten auf diesem Gebiet geschrieben hat. Er hat etwa 1500 wissenschaftliche Arbeiten ver¨ offentlicht. 35
http://www.ams.org/mathscinet/freeTools.html.
5.3 Graphentheorie
341
Routenplanung Das Problem der Routenplanung kann man theoretisch mit dem Algorithmus von Dijkstra bew¨ altigen, da er das K¨ urzeste-Weg-Problem l¨ost. Dieser Algorithmus berechnet von einem festen Knoten (dem Ausgangspunkt) den k¨ urzesten Weg zum Ziel, indem er auch zu allen anderen Punkten des Graphen k¨ urzeste Wege berechnet. Man kann sich vorstellen, dass dies in dem Graphen, der das Verkehrsnetz von Europa repr¨asentiert, eine sehr umfangreiche Arbeit ist, die abh¨angig vom Rechner mehrere Stunden dauern kann. Vereinfachend k¨onnen wir sagen, dass die Knoten dieses Graphen den D¨ orfern und St¨adten entsprechen und die Kanten den Straßen. Eine solch lange Rechenzeit ist nicht akzeptabel, denn wir wollen h¨ochstens eine Minute warten, um die Abreise nicht unn¨otig zu verz¨ogern. Man muss also einen Kompromiss eingehen und als Zugest¨andnis f¨ ur eine schnelle L¨osung auf eine exakte L¨ osung verzichten. Wie man eine L¨osung n¨ aherungsweise Berechnen kann, werden wir im Folgenden grob erl¨autern. Wir werden hier nur das Prinzip vorstellen, ohne auf m¨ogliche Verfeinerungen einzugehen, wie etwa solche Kanten, die offensichtlich nicht zum Ziel f¨ uhren, so zu gewichten, dass die anderen bevorzugt werden, oder die Suche differenzierter auf mehreren Ebenen durchzuf¨ uhren. Die Suche wird auf mehreren Ebenen durchgef¨ uhrt. Man schließt zun¨achst die Punkte außerhalb einer geeigneten Umgebung um Ausgangs- und Zielpunkt aus. Innerhalb dieser Umgebungen werden mit Hilfe des Algorithmus von Dijkstra genaue Berechnungen durchgef¨ uhrt, um z.B. zu den jeweils n¨achsten Autobahnauffahrten zu finden. Dann wird der Graph ausged¨ unnt“, d.h. man ” betrachtet nur noch das Netz der Autobahnen (in einer Vorstufe, falls n¨otig, mit Bundesstraßen) und die dazugeh¨ origen Knoten. Damit wird der Graph stark vereinfacht und man kann erneut mit Dijkstra suchen. Die Routenplaner haben einiges schon berechnet und gespeichert. Ein Land wird in Regionen (z.B. auf Postleitzahlbasis) eingeteilt und es ist gespeichert, wie man von einer Region in eine andere kommen kann. Dadurch wird die Berechnung darauf reduziert, dass man nur noch einen k¨ urzesten Weg zu einem geeigneten Punkt am Rand einer Region finden muss. Wir wollen das an einem konkreten Beispiel erl¨autern und eine Route von der TU Kaiserslautern an das Mary Immaculate College in Limerick planen. Die Routenplaner haben gespeichert, dass von Deutschland nach Irland durch Frankreich, Belgien oder die Niederlande und dann durch Großbritannien gefahren werden muss. Das schr¨ ankt den Europagraphen“ schon wesentlich ein. ” Die drei Regionen Irland, Großbritannien und die Vereinigung von Frankreich und den Benelux-Staaten haben nur wenige Knoten an den R¨andern (die F¨ahrh¨afen), die in die n¨ achste Region f¨ uhren. Im Computer ist gespeichert, dass von S¨ uddeutschland nach Calais zur F¨ahre nach Dover und von dort nach Fishguard zur F¨ ahre nach Rosslare gefahren werden muss. Damit sind die Strecken
342
5 Diskrete Mathematik
TU Kaiserslautern–Calais Hafen, Dover–Fishguard und Rosslare–Mary Immaculate College Limerick zu optimieren. In einer geeigneten Umgebung um Kaiserslautern bzw. Limerick sucht man mit Dijkstra den k¨ urzesten Weg zur Autobahn bzw. Landstraße. Dann verd¨ unnt man den Graphen und wendet Dijkstra auf das Autobahnnetz S¨ uddeutschland/Nordfrankreich an, um einen k¨ urzesten Weg u ¨ ber die Autobahn von Kaiserslautern nach Calais zu finden. Analog verf¨ahrt man in England und Irland.
Suche im Internet Wenn wir die einzelnen Seiten im Internet als Knoten eines (gerichteten) Graphen auffassen, dessen Kanten die Links von einer Seite zur anderen sind, dann erhalten wir einen Graphen mit mehr als 25 Milliarden Knoten. Wir werden auf den n¨ achsten Seiten grob erl¨ autern, wie es der bekannten Suchmaschine Google gelingt, sich darin zurechtzufinden. Das World Wide Web (www) ist nicht so entstanden wie andere große Netzwerke, wie etwa das Telefonnetzwerk, Elektrizit¨atsnetzwerk, oder Autobahnnetz, die ingenieurm¨ aßig geplant und errichtet wurden. Es ist weit von einer solchen Architektur entfernt. Es ist ein virtuelles Netzwerk von zur Zeit mehr als 25 Milliarden verlinkten Seiten, geschaffen durch die unkoordinierte Aktion mehrerer Millionen Personen. Sch¨ atzungen besagen, dass zur Zeit der Drucklegung dieses Buches ca. 1,23 Milliarden Menschen das Internet nutzten. Die Geschichte des Internet beginnt in den sechziger Jahren des vergangenen Jahrhunderts. Netze f¨ ur milit¨ arische Zwecke standen am Anfang, sp¨ater kamen die Wissenschaftsnetze dazu. Das World Wide Web von heute hat seinen Ursprung im CERN 1989. David Austin gibt in seinem Artikel Wie findet Google deine Nadel im Heu” haufen?“ [Au] einen treffenden Vergleich. Man stelle sich eine Bibliothek ohne zentrale Verwaltung und ohne Bibliothekare vor, in der mehr als 25 Milliarden Dokumente lagern. Jeder kann, ohne Bescheid zu sagen, ein Dokument hinzuf¨ ugen und auch manche Dokumente wegnehmen. Wie kann man sich da zurechtfinden – und das in Sekundenschnelle? Die Grundlage f¨ ur das effektive Arbeiten einer Internet-Suchmaschine ist eine Armee von Computern, die Tag und Nacht systematisch das World Wide Web durchforsten, jedes Dokument durchsehen und die darin enthaltenen wichtigen Worte in einen Index aufnehmen und effizient speichern. Das allein gen¨ ugt jedoch nicht, denn wenn wir die gespeicherte Information abrufen w¨ urden, bek¨ amen wir die Internetseiten mit den von uns angegebenen Suchbegriffen unsortiert geliefert und damit im schlechtesten Fall am Anfang die weniger wichtigen oder gar unwichtigen. Es w¨are auf diese Weise sehr m¨ uhsam, die gesuchten Seiten zu finden. Um dieses Problem zu umgehen,
5.3 Graphentheorie
343
muss man definieren, was wichtig bzw. unwichtig ist, und ein Ranking der Seiten durchf¨ uhren. Google sagt selbst: The heart of our software is Page ” Rank.“ Daf¨ ur hat Google eine geniale L¨ osung gefunden. Keine Person, keine Jury, sondern das World Wide Web selbst entscheidet u ¨ber die Wichtigkeit der Seiten. Als Maßstab wird die Menge und Qualit¨at der Links, die zu einer Seite f¨ uhren, benutzt. Die Wichtigkeit einer Seite h¨angt also von der Wichtigkeit der Seiten ab, von denen es Links auf diese Seite gibt. Daher scheint die Wichtigkeit einer Seite schwer zu bestimmen. Die Philosophie, die der exakten Definition zugrunde liegt, ist die folgende. Wenn es l Links von einer Seite P auf andere Seiten gibt, von denen einer auf die Seite Q zeigt, dann u agt die Seite P das 1l -fache ihrer Wichtigkeit ¨bertr¨ auf die Seite Q. Definition 5.3.34. F¨ ur eine Internetseite Q sei lQ die Zahl der Links von Q auf andere Seiten und BQ die Menge aller Seiten, die Links auf Q haben. Die Wichtigkeit I(P ) einer Seite P des World Wide Web ist eine positive reelle Zahl, f¨ ur die gilt: X I(Q) . I(P ) = lQ Q∈BP
Damit I(P ) > 0 f¨ ur alle P gilt, brauchen wir zu jeder Seite mindestens einen Link von einer anderen Seite. Das stimmt in der Realit¨at nat¨ urlich nicht. Wir f¨ uhren deshalb eine zus¨ atzliche dummy Seite“ ein, die auf jede andere ” Seite (auch auf sich selbst) einen Link hat. Das ¨andert die Situation f¨ ur das Ranking nicht, wohl aber f¨ ur das mathematische Modell. Zur Berechnung der Wichtigkeiten I(P ) bezeichnen wir mit {P1 , . . . , Pn } die Seiten des World Wide Web und setzen li := lPi . Die sogenannte Hyperlinkmatrix H = (Hij ) ist durch ( 1 Pj ∈ BPi Hij = lj 0 sonst definiert. Die j-te Spalte dieser Matrix enth¨ alt genau in den Zeilen einen von Null verschiedenen Eintrag, die zu solchen Seiten geh¨oren, auf die ein Link von der Seite Pj zeigt. Lemma 5.3.35 H ist eine n × n-Matrix mit folgenden Eigenschaften.
(1) Alle Eintr¨age sind nicht negativ. (2) Wenn eine Spalte nicht die Nullspalte ist, dann ist die Summe aller ihrer Eintr¨age gleich 1. (3) Wenn I = (I(Pi ))i=1,...,n der Vektor der Wichtigkeiten ist, dann gilt H ·I = I , d.h. I ist Eigenvektor der Matrix H zum Eigenwert 1 (siehe Def. 2.4.19).
344
5 Diskrete Mathematik
Beweis. Die Eigenschaften (1) und (2) folgen unmittelbar aus der Definition. Zum Beweis von (3) erinnern wir uns (S. 82) daran, dass sich der i-te Eintrag von H · I durch Multiplikation P der i-ten Zeile (Hi1 , . . . , Hin ) der Matrix H n mit I ergibt, er ist also gleich j=1 Hij I(Pj ). Da Hij = ℓ1j falls Pj ∈ BPi und ansonsten Hij = 0 gilt, erhalten wir mit Hilfe von Definition 5.3.34 n X j=1
Hij I(Pj ) =
X I(Pj ) = I(Pi ) . ℓj
Pj ∈BPi
Daher ist der i-te Eintrag von H · I gleich I(Pi ), d.h. H · I = I.
⊓ ⊔
Dieser Satz legt nahe, den Vektor I mit den in Abschnitt 2.4 entwickelten Methoden als einen Eigenvektor der Matrix H zum Eigenwert 1 zu berechnen. Das ist jedoch zun¨ achst nur eine theoretische M¨oglichkeit, da H eine n × n-Matrix mit n ≈ 25 000 000 000 ist. Diese Matrix ist zwar sehr d¨ unn besetzt (Studien haben gezeigt, dass durchschnittlich 10 von Null verschiedene Eintr¨age in jeder Spalte stehen), doch ohne neue Methoden kommt man hier nicht weiter. Mit dem folgenden Satz kann man Eigenvektoren sehr großer Matrizen n¨aherungsweise berechnen. Allerdings muss die Matrix speziellen Bedingungen gen¨ ugen. Satz 5.3.36 Sei S eine reelle n × n-Matrix, deren Eigenwerte λ1 , . . . , λn die Ungleichungen 1 = λ1 > |λ2 | ≥ |λ3 | ≥ · · · ≥ |λn | erf¨ ullen und I0 ∈ Rn ein zuf¨allig gew¨ahlter Vektor. Dann konvergiert die durch I1 = S ·I0 , Ik = S ·Ik−1 induktiv definierte Folge gegen einen Eigenvektor I von S zum Eigenwert 1. Beweis. Wir beweisen hier den Satz nur f¨ ur den Spezialfall, dass Rn eine Basis besitzt, die aus Eigenvektoren v1 , . . . , vn zu den Eigenwerten Pn λ1 , . . . , λn besteht. Da I0 zuf¨ allig gew¨ ahlt ist, k¨ onnen wir annehmen, I = 0 i=1 ai vi mit P Pn n a1 6= 0. Da Svi =Pλi vi , erhalten wir I1 = SI0 = i=1 ai Svi = i=1 λi ai vi n k k und analog Ik = i=1 λi ai vi . Da |λi | < 1 f¨ ur i > 1, gilt limk→∞ λi = 0. Da λ1 = 1 folgt daraus, dass die Folge (Ik )k≥1 gegen I := a1 v1 konvergiert. Es gilt I 6= 0 und I = HI. ⊓ ⊔ Diesen Satz k¨onnen wir nicht direkt zur Berechnung des Eigenvektors zum Eigenwert 1 auf die Matrix H anwenden, da die Bedingung an die Eigenwerte im Allgemeinen nicht erf¨ ullt ist. So kann H zum Beispiel Nullspalten enthalten. Die j-te Spalte von H ist genau dann eine Nullspalte, wenn Pj keinen Link enth¨alt, d.h. Pj ∈ / BPi f¨ ur alle i. Wenn eine solche Seite so ver¨ andert wird, dass sie Links auf alle anderen Seiten hat, dann ¨ andert sich nichts an der Relation der Wichtigkeiten der Seiten untereinander. Daher ¨ andern wir die Matrix H dadurch ab, dass wir Nullspalten durch Spalten ersetzen, in denen jeder Eintrag gleich n1 ist. Die so erhaltene Matrix bezeichnen wir mit S, sie hat folgende Eigenschaften:
5.3 Graphentheorie
345
Alle Eintr¨age von S sind nicht-negativ.
(5.13)
Die Summe der Eintr¨ age einer jeden Spalte von S ist gleich 1.
(5.14)
Definition 5.3.37. Eine Matrix mit den Eigenschaften (5.13) und (5.14) heißt stochastische Matrix. Satz 5.3.38 Stochastische Matrizen haben immer den Eigenwert 1. Beweis. Die Eigenschaft (5.14) besagt v · S = v, wenn v = (1, 1, . . . , 1) der Zeilenvektor mit n Eintr¨ agen ist, die alle gleich 1 sind. Daraus folgt S t ·v t = v t , t d.h. S hat den Eigenwert 1. Die Eigenwerte einer Matrix sind die Nullstellen ihres charakteristischen Polynoms. Da das charakteristische Polynom von S mit dem der transponierten Matrix S t u ¨ bereinstimmt, muss auch S den Eigenwert 1 besitzen. ⊓ ⊔ Da nicht f¨ ur jede stochastische Matrix die f¨ ur die Anwendung von Satz 5.3.36 n¨ otige Voraussetzung 1 = λ1 > |λ2 | ≥ |λ3 | ≥ · · · ≥ |λn | erf¨ ullt ist, muss S noch weiter modifiziert werden. Der folgende Satz (vgl. [GR], [Hu]) zeigt, dass es gen¨ ugt, die Matrix so abzu¨ andern, dass alle ihre Eintr¨age positiv sind. Satz 5.3.39 (Perron-Frobenius36 ) Sei A = (aij ) eine reelle n × n-Matrix mit positiven Eintr¨agen aij > 0 und bezeichne λ1 , . . . , λn die Eigenwerte von A, so dass |λ1 | ≥ |λ2 | ≥ · · · ≥ |λn |. Dann gilt: (1) λ1 > |λ2 | ≥ · · · ≥ |λn | (2) Der Eigenraum zu λ1 ist eindimensional. (3) Es gibt einen Eigenvektor zu λ1 , dessen Eintr¨age alle positiv sind.
Bemerkung 5.3.40. Wenn A eine stochastische Matrix mit ausschließlich positiven Eintr¨agen ist, folgt zus¨ atzlich λ1 = 1. Um das einzusehen, betrachten wir einen Eigenvektor v zum Eigenwert λ1 , dessen Eintr¨age v1 , . . . , vn alle positiv sind. Wenn A stochastisch ist, dann gilt (5.14), d.h. (1, . . . , 1)A = (1, . . . , 1). Damit ergibt sich n X
vi = (1, . . . , 1)v = (1, . . . , 1)Av = (1, . . . , 1)λ1 v = λ1
i=1
i=1
Da alle vi positiv sind, ist 36
n X
Pn
i=1
vi > 0 und es folgt λ1 = 1.
Oskar Perron (1880–1975), deutscher Mathematiker. Ferdinand Georg Frobenius (1849–1917), deutscher Mathematiker.
vi .
346
5 Diskrete Mathematik
Um die Matrix S so zu modifizieren, dass sie die Voraussetzungen des Satzes 5.3.39 erf¨ ullt, betrachten wir die stochastische n × n-Matrix L, deren Eintr¨age alle gleich n1 sind. Sie entspricht dem Modell eines Internets, bei dem alle Seiten direkt miteinander verlinkt sind. Der zugeh¨orige Graph ist der vollst¨andige Graph Kn . F¨ ur jede reelle Zahl 0 ≤ α ≤ 1 setzen wir Gα := αS + (1 − α)L . F¨ ur α = 1 erhalten wir die Matrix G1 = S, die das World Wide Web repr¨asentiert. F¨ ur α = 0 erhalten wir G0 = L, das Modell des Kn -Internets. F¨ ur jedes 0 ≤ α ≤ 1 ist Gα eine stochastische Matrix und wenn α 6= 0, dann hat sie ausschließlich positive Eintr¨ age. Man kann beweisen: • Sind 1, λ2 , . . . , λn die Eigenwerte von S, dann sind 1, αλ2 , . . . , αλn die Eigenwerte von Gα . • Die Konvergenzgeschwindigkeit der Folge der Vektoren Ik im Satz 5.3.36 h¨angt von der Gr¨ oße von |λ2 | ab (je kleiner desto besser). Um eine schnelle Konvergenz zu erhalten, wird man deshalb ein m¨oglichst kleines α w¨ahlen. Das World Wide Web wird jedoch bei großem α am besten angen¨ahert. Der von Google verwendete Kompromiss ist der Wert α = 0,85. Mit der so erhaltenen Google-Matrix Gα wird einmal im Monat (mit einem Rechenaufwand von mehreren Tagen bei 50-100 Iterationen) mit dem im Satz 5.3.36 beschriebenen Verfahren der Eigenvektor zum Eigenwert 1 angen¨ahert berechnet. Die Eintr¨age dieses Eigenvektors liefern das Page-Ranking. Dazu bildet Google die Wichtigkeit der einzelnen Seiten u ¨ ber eine logarithmische Skala gerundet ganzzahlig auf Werte zwischen 0 und 10 ab. Auf der Internetseite www.database-search.com/sys/pre-chek.phd kann jeder diesen Wert f¨ ur seine Seite ermitteln. Die Seiten der Autoren haben z.B. den Wert 4. Die Seite der Deutschen Mathematikervereinigung hat den Wert 6. Beispiel 5.3.41. Zur Illustration betrachten wir das folgende kleine Web: P1
P2
P6
P3
P4
P5
Hier gilt l1 = 2, l2 = 2, l3 = 1, l4 = 1, l5 = 3, l6 = 0 und somit ist
5.3 Graphentheorie
0 1 21 2 H= 0 0 0
347
00000 0 0 0 13 0 1 2 0 1 0 0 0 1 0 31 0 0 0 0 0 0 1 1 2 0 0 3 0
0 1 21 2 S= 0 0 0
und
0000 0 0 0 13 1 2 0 1 0 0 1 0 13 0000 1 1 2 0 0 3
1
6 1 6 1 6 1 6 1 6 1 6
.
Die Googlematrix G = 0,85 · S + 0,15 · L hat den folgenden Eigenvektor zum Eigenwert 1: 0,035 0,060 0,408 0,392 0,035 0,070 Damit ergibt sich, dass die Seite P3 die wichtigste ist. Tats¨achliche gehen 3 Links zu ihr. Es gibt drei Seiten, auf die 2 Links zeigen: P4 , P6 und P2 . Hier wird P4 bevorzugt, weil sie einen Link von der wichtigsten Seite P3 hat.
Aufgaben ¨ Ubung 5.18. (1) Bezeichnen Sie die Knoten und Kanten der Graphen •
•
•
•
•
•
•
•
•
•
und stellen Sie jeweils die Inzidenzmatrix auf. (2) Gegeben sei der gewichtete Graph mit dem ausgezeichneten Knoten e: 1
•
2
4
• 2
• 1
3
2
•
1
•
e
Geben Sie f¨ ur alle anderen Knoten v k¨ urzeste Wege von e nach v an.
348
5 Diskrete Mathematik
¨ Ubung 5.19. Zwei Graphen (E1 , K1 , ϕ1 ) und (E2 , K2 , ϕ2 ) heißen isomorph, wenn es bijektive Abbildungen α : E1 → E2 undβ : K1 → K2 gibt, so dass f¨ ur alle k ∈ K1 mit ϕ1 (k) = {e, e′ } stets ϕ2 β(k) = {α(e), α(e′ )} gilt.
(1) Geben Sie bis auf Isomorphie alle zusammenh¨angenden schlichten Graphen mit vier Knoten an. (2) Beweisen Sie, dass der Knotengrad eine Invariante unter Isomorphie ist. ¨ Ubung 5.20. Stellen Sie die Inzidenzmatrix f¨ ur den Graphen des K¨onigsberger Br¨ uckenproblems auf. ¨ Ubung 5.21. Beweisen Sie, dass ein zusammenh¨angender Graph mit n Knoten mindestens n − 1 Kanten hat. ¨ Ubung 5.22. Beweisen Sie: In einem Baum (E, K, ϕ) gibt es zwischen zwei gegebenen Knoten genau einen Weg. Außerdem gilt |E| = |K| + 1.
¨ Ubung 5.23. Beweisen Sie, dass ein zusammenh¨angender Graph mit n Knoten und n − 1 Kanten stets ein Baum ist. ¨ Ubung 5.24. Gegeben sei der gewichtete Graph
k7 (1)
e5 •
e1 • k6 (4) k5 (2)
k3 (3)
k8 (2)
• e2 k2 (2)
k4 (1)
e4 •
k1 (1)
• e3
mit den in Klammern angegebenen Gewichten w(k1 ) = 1, w(k2 ) = 2, w(k3 ) = 3, w(k4 ) = 1, w(k5 ) = 2, w(k6 ) = 4, w(k7 ) = 1 und w(k8 ) = 2. Geben Sie alle aufspannenden B¨ aume von minimalem Gewicht an. ¨ Ubung 5.25. Geben Sie einen vollst¨ andigen Graphen an, der die Graphen aus Aufgabe 5.18 als Untergraphen besitzt. Wie viele aufspannende B¨aume hat dieser Graph? ¨ Ubung 5.26. L¨ osen Sie das Sudoku in Abbildung 5.15 auf Seite 338.
5.4 Primzahltests Durch die modernen Entwicklungen in der Kryptographie sind Primzahlen f¨ ur die Praxis sehr wichtig geworden, vgl. Abschnitt 1.5. Bei vielen Verfahren
5.4 Primzahltests
349
arbeitet man dort mit derartig großen Zahlen, dass ein schneller Primzahltest mit herk¨ommlichen Mitteln kaum m¨ oglich ist. Primzahltests, die Methoden der Wahrscheinlichkeitsrechnung benutzen, sind in diesem Zusammenhang ein sinnvoller Ausweg. Wir werden in diesem Abschnitt zwei der sogenannten probabilistischen Primzahltests vorstellen. Diese beruhen auf der folgenden Idee: F¨ ur eine Reihe zuf¨alliger Zahlen wird ein mathematischer Sachverhalt u uft, der immer ¨berpr¨ richtig ist, wenn die zu testende Zahl eine Primzahl ist, der jedoch f¨ ur Nichtprimzahlen meist falsch ist. Ein Beispiel eines solchen Sachverhalts ist in dem folgenden Satz enthalten. Die mathematischen Grundlagen f¨ ur diesen und die folgenden S¨atze sind in den Abschnitten 1.3 und 1.4 zu finden. Insbesondere sei hier daran erinnert, dass wir [a] oder [a]n f¨ ur die Restklasse a mod n einer ganzen Zahl a in Z/nZ schreiben (vgl. Def. 1.2.1). Satz 5.4.1 Sei p > 2 eine Primzahl und h ≥ 1, q ungerade so gew¨ahlt, dass p − 1 = 2h · q. Dann gilt f¨ ur jede, nicht durch p teilbare, nat¨ urliche Zahl a aq ≡
a
2i q
1 mod p,
≡ −1 mod p
oder f¨ ur ein i mit 0 ≤ i ≤ h − 1 . h
Beweis. Nach Satz 1.3.24 (kleiner Satz von Fermat) gilt ap−1 ≡ a2 q ≡ 1 mod p. Angenommen aq 6≡ 1 mod p, dann existiert ein 0 ≤ i ≤ h − 1, so dass
a
a2
i
q
i+1
q
2
6≡ 1
mod p
≡1
mod p
und
i
gilt. Das heißt, b = a2 q ist eine L¨ osung der Kongruenz b2 ≡ 1 mod p. Da die ∗ Gruppe (Z/pZ) zyklisch ist (Satz 1.4.27), ist [b]p = [−1]p die einzige von 1 i verschiedene Restklasse mit b2 ≡ 1 mod p. Daher gilt a2 q ≡ −1 mod p. ⊓ ⊔ Dieser Satz ist die Grundlage des Miller-Rabin-Tests (vgl. Algorithmus 5.4). Die Idee dieses Tests besteht darin, f¨ ur mehrere, zuf¨allig gew¨ahlte Zahlen a i festzustellen, ob aq ≡ 1 mod m oder a2 q ≡ −1 mod m f¨ ur ein i gilt, wobei m die zu testende Zahl ist und m − 1 = 2h · q wie im Satz zerlegt ist. Wenn dabei ein a gefunden wird, bei dem das nicht der Fall ist, dann ist m sicher keine Primzahl. Ansonsten ist m vermutlich prim“ und wir sagen m hat ” ” den Miller-Rabin-Test mit a bestanden“. Bemerkung 5.4.2. Es gibt keine Zahl < 25 · 109 , die den Miller-Rabin-Test mit a = 2, 3, 5, 7, 11 besteht und nicht prim ist. Beispiel 5.4.3. Sei m = 101 · 181 = 18 281, das ist offenbar keine Primzahl. Dann ist m − 1 = 18 280 = 2 285 · 23 , d.h. q = 2 285 und h = 3. Wird
350
5 Diskrete Mathematik
Input: m ≥ 3 die zu testende ungerade nat¨ urliche Zahl, k die Anzahl der Iterationen Output: nicht prim“ oder vermutlich prim“ ” ” procedure MillerRabin(m, k) i := 0 berechne q ungerade und h ≥ 1 mit m − 1 = 2h · q while i < k do i := i + 1 w¨ ahle a ∈ {2, . . . , m − 1} zuf¨ allig d := ggT(a, m) f := am−1 mod m if (d 6= 1 or f 6= 1) then return nicht prim“ ” end if b := aq mod m if (b 6= 1 and b 6= −1) then j := 0 while (j < h − 1 and b 6= −1) do j := j + 1 b := b2 mod m end while if b 6= −1 then return nicht prim“ ” end if end if end while return vermutlich prim“ ” end procedure
j
⊲ b ≡ a2
q
mod p
Algorithmus 5.4: Primzahltest nach Miller und Rabin a = 12 475 als zuf¨ allige Zahl gew¨ ahlt, so ergibt sich b = aq ≡ 3 215 6≡ ±1 2 mod m. Da auch b ≡ 7 460 6≡ −1 mod m und b4 ≡ 4 236 6≡ −1 mod m, liefert der Miller-Rabin-Test tats¨ achlich, dass m nicht prim ist. Da der Miller-Rabin-Test kein Test ist, den nur Primzahlen bestehen, ist f¨ ur die praktische Anwendung die Frage relevant, mit welcher Wahrscheinlichkeit eine Zahl m, die keine Primzahl ist, den Miller-Rabin-Test mit k Wiederholungen besteht. Sei dazu wieder m − 1 = 2h q mit ungeradem q. Die Zahl m besteht genau dann eine Runde des Miller-Rabin-Tests mit der zuf¨allig gew¨ahlten Zahl a, i wenn aq ≡ 1 mod m oder wenn es ein 0 ≤ i ≤ h − 1 gibt, so dass a2 q ≡ −1 mod m ist. Das bedeutet insbesondere, dass am−1 ≡ 1 mod m und somit [a] ∈ (Z/mZ)∗ gilt (vgl. Beispiel 1.3.2). Die Zahl m besteht also den Test genau dann, wenn eine Restklasse [a] aus der Menge ∗
i
G := {[a] ∈ (Z/mZ) | aq ≡ 1 mod m oder a2
q
≡ −1 mod m f¨ ur ein i }
verwendet wird. Wenn m Primzahl ist, dann ist G = (Z/mZ)∗ nach Satz 5.4.1.
5.4 Primzahltests
351
Satz 5.4.4 Wenn m keine Primzahl ist, dann gilt |G| ≤
m−1 2 .
Beweis. Es ist leicht zu sehen, dass B := {[a] ∈ (Z/mZ)∗ | am−1 ≡ 1 mod m} eine Untergruppe von (Z/mZ)∗ ist. Wenn B eine echte Untergruppe ist, dann gilt |B| ≤ 12 |(Z/mZ)∗ | wegen Satz 1.3.23 (1). Da G ⊂ B und |(Z/mZ)∗ | ≤ m − 1, ergibt sich |G| ≤ |B| ≤ 12 (m − 1). Damit bleibt der Fall B = (Z/mZ)∗ zu untersuchen. Das ist ein seltener Fall, der jedoch eintreten kann (siehe Bem. 5.4.5). Als erstes schließen wir aus, dass m die Potenz einer Primzahl ist. G¨ abe es eine Primzahl p und eine ganze Zahl e > 1, so dass m = pe , dann w¨ are B = (Z/mZ)∗ nach Folgerung 1.4.30 eine zyklische Gruppe der Ordnung ϕ(m) = pe − pe−1 . F¨ ur ein erzeugendes Element [g] ∈ (Z/mZ)∗ gilt dann sowohl ord(g) = pe − pe−1 , als auch g m−1 ≡ 1 mod m, da [g] ∈ B. Daraus folgt, dass pe − pe−1 = pe−1 (p − 1) ein Teiler von m − 1 = pe − 1 sein m¨ usste, was f¨ ur e > 1 jedoch unm¨oglich ist. Damit besitzt m mindestens zwei verschiedene Primteiler, das heißt, es gibt teilerfremde ganze Zahlen m1 , m2 , so dass m = m1 · m2 . Sei q ungerade und h ≥ 0, so dass m − 1 = 2h q. Da (m − 1)q ≡ −1 mod m, ist [m − 1] ∈ G j und es gibt ein maximales j ∈ {0, . . . , h}, f¨ ur das die Kongruenz x2 q ≡ −1 mod m eine L¨osung [x] ∈ G besitzt. Offensichtlich ist j
C := {[x] ∈ (Z/mZ)∗ | x2
q
≡ ±1 mod m}
eine Untergruppe von (Z/mZ)∗ und es gilt G ⊂ C. Wir werden zeigen, dass C eine echte Untergruppe von (Z/mZ)∗ ist. Daraus folgt dann wie zuvor |G| ≤ |C| ≤ 12 |(Z/mZ)∗ | ≤ 21 (m − 1). j Nach Wahl von j gibt es ein [v] ∈ G mit v 2 q ≡ −1 mod m. Dann ist j auch v 2 q ≡ −1 mod m1 . Der Chinesische Restsatz (Satz 1.4.23) besagt, dass es ein [w] ∈ Z/mZ mit w ≡ v mod m1 und w ≡ 1 mod m2 gibt. Es j j j folgt w2 q ≡ −1 mod m1 und w2 q ≡ 1 mod m2 , somit muss w2 q 6≡ ±1 mod m gelten. Das bedeutet [w] ∈ / C. Andererseits ist [w] ∈ (Z/mZ)∗ , weil ggT(w, m2 ) = 1 und ggT(w, m1 ) = ggT(v, m1 ) = 1. Daher ist C eine echte Untergruppe von (Z/mZ)∗ , woraus die Behauptung folgt. ⊓ ⊔ Bemerkung 5.4.5. Eine zusammengesetzte ganze Zahl m heißt CarmichaelZahl 37 , wenn f¨ ur jede zu m teilerfremde Zahl a gilt: am−1 ≡ 1 mod m. Solche Zahlen sind ungerade, da f¨ ur gerades m stets (−1)m−1 ≡ −1 mod m gilt. Die kleinste Carmichael-Zahl ist 561 = 3 · 11 · 17, sie wurde 1910 von Carmichael gefunden. Die n¨ achsten drei Carmichael-Zahlen sind 1105 = 5 · 13 · 17, 1729 = 7 · 13 · 19 und 2465 = 5 · 17 · 29. Es gibt genau 16 CarmichaelZahlen, die kleiner als 100 000 sind. Erst 1994 wurde bewiesen, dass unendlich viele solcher Zahlen existieren, siehe [AGP]. 37
Robert Daniel Carmichael (1879–1967), US-amerikanischer Mathematiker.
352
5 Diskrete Mathematik
Folgerung 5.4.6. Eine zusammengesetzte Zahl m besteht den Miller-RabinTest mit k Iterationen nur mit einer Wahrscheinlichkeit kleiner als 2−k . Beweis. F¨ ur eine zusammengesetzte Zahl m liefert der Test mit einer Zahl a genau dann vermutlich prim“, wenn a ∈ G ist, wobei G wie im Satz 5.4.4 ” die Menge derjenigen Klassen [x] ∈ (Z/mZ)∗ bezeichnet, mit denen m den Miller-Rabin-Test besteht. Wir nehmen an, dass die zuf¨ allig (und unabh¨angig) gew¨ahlten Testelemente a1 , . . . , ak ∈ {2, 3, . . . , m − 1} im Miller-Rabin-Test gleich verteilt sind. Da keines der ai gleich 1 gew¨ ahlt wird, jedoch [1] ∈ G gilt, ist die Wahrscheinlichkeit, dass m den Miller-Rabin-Test bez¨ uglich a1 , . . . , ak besteht gleich k |G|−1 m−2 m−1 und . Da nach Satz 5.4.4 |G| ≤ 2 , ist |G| − 1 ≤ m−1 m−2 2 −1< 2 k k ⊓ ⊔ < 21 , wie behauptet. somit |G|−1 m−2 Der zweite probabilistische Primzahltest, der hier vorgestellt wird, beruht auf Eigenschaften des sogenannten Legendre-Symbols 38 . Dieses Symbol wurde zun¨achst f¨ ur Primzahlen definiert. Die Verallgemeinerung f¨ ur beliebige ungerade Zahlen wird Jacobi-Symbol 39 genannt. Definition 5.4.7. Das Jacobi-Symbol na ist f¨ ur jede ganze Zahl a und jede positive ungerade ganze Zahl n wie folgt definiert: a := 1 • 1 • Wenn p > 2 eine Primzahl ist, spricht man auch vom Legendre-Symbol : 0 falls p | a a := 1 falls p ∤ a und es gibt ein x mit x2 ≡ a mod p . p −1 sonst • Wenn n = pe11 · . . . · pekk mit paarweise verschiedenen Primzahlen p1 , . . . , pk : k ei Y a a := . n p i i=1 Bemerkung 5.4.8. Wir nennen eine zu n teilerfremde ganze Zahl a ∈ Z bzw. ihre Restklasse [a] ∈ (Z/nZ)∗ einen quadratischen Rest modulo n, wenn es ein ∗ [x] ∈ (Z/nZ) mit x2 ≡ a mod n gibt. Wenn n = p eine Primzahl ist, dann ist a ∈ Z genau dann quadratischer Rest modulo p, wenn ap = 1. Das gilt 2 nicht f¨ ur zusammengesetzte Zahlen, denn es ist zum Beispiel 15 = 32 52 = 38
Adrien Marie Legendre, (1752–1833), franz¨ osischer Mathematiker.
39
Carl Gustav Jacob Jacobi (1804–1851), deutscher Mathematiker.
5.4 Primzahltests
353
(−1)(−1) = 1, aber die Kongruenz x2 ≡ 2 mod 15 hat keine L¨osung. Da aus x2 ≡ a mod n f¨ ur jeden Primteiler p von n auch x2 ≡ a mod ullt p folgt, erf¨ jeder quadratische Rest a modulo n noch die Gleichung na = 1. Satz 5.4.9 (Euler) Wenn a ∈ Z und p > 2 eine Primzahl ist, dann gilt p−1 a mod p . ≡a 2 p Beweis. Wenn p | a, dann gilt ap = 0 und a ≡ 0 mod p, also gilt die behauptete Kongruenz. ∗ Von nun an sei p ∤ a vorausgesetzt, d.h. [a] ∈ (Z/pZ) . F¨ ur alle p−1 Elemente ∗ p−1 [x] ∈ (Z/pZ) gilt x ≡ 1 mod p (Satz 1.3.24, kleiner Satz von Fermat). Daher hat das Polynom p(T ) = T p−1 − 1 im K¨orper Fp genau p − 1 verschiedene Nullstellen. Da ein Polynom vom Grad k in einem K¨orper maximal k Nullstellen besitzen kann (vgl. Schritt 3 im Beweis 1.4.27), haben von Satz somit die beiden Faktoren der Zerlegung p(T ) = T
p−1 2
+1
T
p−1 2
p−1 2
− 1 je-
weils Nullstellen in Fp . Das bedeutet, dass f¨ ur genau p−1 2 Elemente [a] p−1 ∗ 2 aus (Z/pZ) die Kongruenz a ≡ 1 mod p und f¨ ur genau p−1 2 Elemente p−1
die Kongruenz a 2 ≡ −1 mod p gilt. Da x2 = (−x)2 ist und das Polynom T 2 − a maximal zwei Nullstellen in Fp haben kann, zeigt eine Betrachtung aller Quadrate von Elementen aus ∗ ∗ (Z/pZ) , dass es genau p−1 ur jeden 2 quadratische Reste in (Z/pZ) gibt. Da f¨ p−1 p−1 ≡ 1 mod p gilt, sind die quadratischen Rest a die Kongruenz a 2 ≡ x p−1 quadratischen Reste genau die Nullstellen des Polynoms T 2 − 1. Aus dem ∗ a zuvor Gesagten folgt nun, dass die a ∈ (Z/pZ) , f¨ ur die p = −1 ist, gerade die Nullstellen von T
p−1 2
+ 1 sind. Daraus folgt die Behauptung.
Satz 5.4.10 F¨ ur beliebige ganze Zahlen a, b und ungerade positive Zahlen m, n erf¨ ullt das Jacobi-Symbol die folgenden Eigenschaften: ab a b = · n n n a b = falls a ≡ b mod n n n a a a = · m·n m n 0 =0 n
⊓ ⊔
ganze
(5.15) (5.16) (5.17) (5.18)
354
5 Diskrete Mathematik
n−1 −1 = (−1) 2 n n2 −1 2 = (−1) 8 n m−1 n−1 n m · 2 2 = (−1) n m
(5.19) (5.20) (5.21)
Beweis. Die Eigenschaften (5.15)–(5.18) sind leicht zu beweisen und dem ¨ Leser als Ubungsaufgabe u ¨berlassen. Aussage (5.19) ergibt sich aus Satz 5.4.9 n−1 mit a = −1 unter Verwendung der Tatsache, dass mn−1 ≡ m−1 mod 2 2 2 + 2 f¨ ur ungerade ganze Zahlen m, n gilt. Die Eigenschaften (5.20) und (5.21) nennt man quadratisches Reziprozit¨atsgesetz. Einen Beweis findet der Leser zum Beispiel in [Bu]. ⊓ ⊔ Aus Satz 5.4.10 ergibt sich ein einfacher Algorithmus zur Berechnung des Jacobi-Symbols (Algorithmus 5.5). Input: a, `n ∈ ´ Z, n ≥ 1 ungerade a Output: n
procedure Jacobi(a, n) if n = 1 then return 1 end if a := a mod n if a = 0 then return 0 end if Berechne q ungerade und h ≥ 0 mit a = 2h · q if h > 0 then n2 −1
return (−1)h 8 Jacobi(q, n) else q−1 n−1 return (−1) 2 2 Jacobi(n, q) end if end procedure
Algorithmus 5.5: Rekursive Berechnung des Jacobi-Symbols
Beispiel 5.4.11. Wenn man in der Lage ist, die gegebenen Zahlen in Primfaktoren zu zerlegen, dann kann man mit Hilfe (5.17), (5.16), (5.19) und (5.20) von wie folgt rechnen: 49−1 7−1 26 26 26 1 −2 −1 2 = = = = (−1) 2 (−1) 8 = −1 . 35 5 7 5 7 7 7
5.4 Primzahltests
355
Unter ausschließlicher Abspaltung des Faktors 2 und ohne weitere Faktorisierung verl¨auft die Rechnung wie im Algorithmus 5.5: 26 2 13 13 35 9 = · =− =− =− 35 35 35 35 13 13 2 4 2 13 =− =− = −1 . =− 9 9 9 Als Grundlage des Primzahltests von Solovay-Strassen (vgl. Algorithmus 5.6) verwenden wir Satz 5.4.9 und den Algorithmus 5.5 zur Berechnung des JacobiSymbols. Dabei ist wesentlich, dass das Jacobi-Symbol ohne Verwendung einer Primfaktorzerlegung berechnet werden kann. Bei diesem Test wird f¨ ur mehrere, zuf¨ allig gew¨ahlte Zahlen a gepr¨ uft, ob m−1 a a 2 ≡ m mod m gilt. Wenn das nicht erf¨ ullt ist, dann ist m sicher keine Primzahl. Ansonsten ist m vermutlich prim“ und wir sagen m hat den ” ” Solovay-Strassen-Test mit a bestanden“. Input: m ≥ 3 die zu testende Zahl, k die Anzahl der Iterationen Output: nicht prim“ oder vermutlich prim“ ” ” procedure SolovayStrassen(m, k) i := 0 while i < k do i := i + 1 w¨ ahle a ∈ {2, . . . , m − 1} zuf¨ allig if ggT(a, m) 6= 1 then return nicht prim“ ” end ´ ` aif m−1 if m 6≡ a 2 mod m then return nicht prim“ ” end if end while return vermutlich prim“ ” end procedure
Algorithmus 5.6: Primzahltest nach Solovay-Strassen
Beispiel 5.4.12. Wenn wir den Test von Solovay-Strassen auf die bereits im Beispiel 5.4.3 betrachtete Zahl m = 18281 mit zuf¨allig gew¨ahltem a = 17318 anwenden, erhalten wir erneut, dass m sicher keine Primzahl ist, denn m−1 a 2 ≡ 173189140 ≡ 6559 6≡ ±1 mod m.
Wie beim Algorithmus von Miller und Rabin ist zu kl¨aren, mit welcher Wahrscheinlichkeit eine Zahl m, die nicht prim ist, den Solovay-Strassen-Test mit k Iterationen besteht. Dazu setzen wir m−1 x ∗ 2 mod m . ≡x G = [x] ∈ (Z/mZ) m
356
5 Diskrete Mathematik
Aus den Eigenschaften des Jacobi-Symbols (Satz 5.4.10) folgt, dass G eine ∗ Untergruppe von (Z/mZ) ist. Wenn m eine Primzahl ist, dann gilt wegen ∗ des Satzes von Euler sogar G = (Z/mZ) . Satz 5.4.13 Wenn m keine Primzahl ist, dann ist G eine echte Untergruppe ∗ von (Z/mZ) . Beweis. Wir betrachten zun¨ achst den Fall, dass es eine Primzahl p gibt, so dass m = p · n und p ∤ n gilt. Die Gruppe (Z/pZ)∗ ist nach Satz 1.4.27 zyklisch. Wir w¨ ahlen eine Zahl g, deren Restklasse modulo p diese Gruppe erzeugt. Der Chinesische Restsatz (Satz 1.4.23) garantiert die Existenz einer Zahl a, f¨ ur die a ≡ g mod p und a ≡ 1 modn gilt.F¨ ur diese Zahl erhalten a = ap · na = pg · n1 = gp = −1. Die wir mit Hilfe von Satz 5.4.10 m letzte Gleichung folgt aus Satz 5.4.9, da f¨ ur das erzeugende Element [g] der p−1 ∗ 2 ≡ 1 mod p gelten kann. W¨are G = (Z/mZ)∗ , Gruppe (Z/pZ) nicht g m−1 a dann w¨ urde [a] ∈ G und somit a 2 ≡ m ≡ −1 mod m sein. Da n | m, m−1 2 g¨alte dann auch a ≡ −1 mod n, im Widerspruch zur Wahl von a. Im zweiten zu betrachtenden Fall gibt es eine Primzahl p und ganze Zahlen e > 1 und n, so dass p ∤ n und m = pe · n gilt. Erneut haben wir wegen ∗ Folgerung 1.4.30 eine zyklische Gruppe (Z/pe Z) mit Erzeuger [g] und k¨onnen a so bestimmen, dass a≡g
mod pe
und
a ≡ 1 mod n m−1
gilt. Aus der Annahme G = (Z/mZ)∗ folgt diesmal nur a 2 ≡ ±1 mod m, woraus wir am−1 ≡ 1 mod m erhalten. Da pe ein Teiler von m ist, folgt am−1 ≡ 1 mod pe und damit auch g m−1 ≡ 1 mod pe . Da ord(g) = ϕ(pe ) = pe − pe−1 , erhalten wir pe − pe−1 | m − 1. Da e > 1 ist, muss p eine Teiler von m − 1 = pe · n − 1 sein, was unm¨ oglich ist. Damit ist in jedem Fall gezeigt, dass G nicht gleich (Z/mZ)∗ sein kann. ⊓ ⊔ Folgerung 5.4.14. Eine zusammengesetzte Zahl m besteht den SolovayStrassen-Test mit k Iterationen mit Wahrscheinlichkeit h¨ochstens 2−k . Beweis. Da mit Satz 1.3.23 aus Satz 5.4.13 die Ungleichung |G| ≤ m−1 folgt, 2 k¨onnen wir exakt in der gleichen Weise wie im Beweis von Folgerung 5.4.6 vorgehen, wobei diesmal G dieselbe Bedeutung wie im Satz 5.4.13 hat. ⊓ ⊔
5.4 Primzahltests
357
Aufgaben ¨ Ubung 5.27. Sei p > 3 eine Primzahl, so dass 2p − 1 und 3p − 2 Primzahlen sind. Beweisen Sie, dass m = p(2p − 1)(3p − 2) eine Carmichael-Zahl ist. ¨ Ubung 5.28. Untersuchen Sie, ob 453 quadratischer Rest modulo 1239 ist. 547 ¨ . Ubung 5.29. Berechnen Sie 3389 m ¨ Ubung 5.30. Sei m ≥ 1 eine ganze Zahl, so dass p = 22 + 1 eine Primzahl p−1 ist. Beweisen Sie, dass 3 2 ≡ −1 mod p gilt.
Kapitel 6
Grundlagen der Mathematik
In diesem Abschnitt sind grundlegende Begriffsbildungen zusammengestellt, die zum Standardvokabular der modernen Mathematik geh¨oren. Die Kenntnis und das Verst¨andnis dieser Begriffe ist eine wichtige Voraussetzung, um mathematische Ideen anderer korrekt zu verstehen und um eigene Ideen nachvollziehbar ausdr¨ ucken zu k¨ onnen. Das ist vergleichbar damit, dass fundierte Kenntnisse von Syntax und Semantik einer Programmiersprache unabdingbar sind, um eigene, korrekt funktionierende Programme zu erzeugen bzw. fremde Programme zu verstehen. Wir haben diesen Abschnitt so angelegt, dass er mehr als nur eine trockene, ¨ kurze und knappe Ubung zur Sprachbildung ist. Er ist so konzipiert, dass er unabh¨angig vom u ¨ brigen Teil dieses Buches zu jeder Zeit gelesen werden kann. Durch die Darstellung einiger Bez¨ uge zur Arbeit mit Datenbanken haben wir auch hier versucht, die Relevanz der Grundbegriffe der Mathematik in der Informatik in das Blickfeld des Lesers zu r¨ ucken. In vielen anderen Mathematiklehrb¨ uchern werden die Grundlagen der Mathematik ganz zu Beginn, meist im ersten Kapitel, abgehandelt. Dies erscheint logisch und zwangsl¨ aufig, denn wie soll man einen (Programm-)Text ohne Kenntnis der verwendeten (Programmier-)Sprache verstehen? Das Dilemma jedes Hochschullehrers und Lehrbuchautors besteht jedoch darin, dass das Verst¨andnis abstrakter Begriffe oft erst auf der Basis ausreichender praktischer Erfahrung mit konkreten Objekten m¨ oglich ist. Die grundlegenden Begriffe der Mathematik lassen sich nur durch deren Benutzung innerhalb der Mathematik verstehen. Es ist eine Illusion, zu erwarten, dass Verst¨andnis allein durch das korrekte Definieren abstrakter Begriffe erworben wird. Daher gehen wir nicht davon aus, dass nach einem einmaligen Studium dieses Grundlagenkapitels zu Beginn der Lekt¨ ure dieses Buches alles klar“ ist. Statt ” dessen empfehlen wir unseren Lesern, zu diesem Abschnitt bei Bedarf immer wieder zur¨ uckzukehren. Bei jedem erneuten Lesen kann dann das Verst¨andnis auf der Basis der inzwischen gesammelten mathematischen Erfahrung vertieft werden.
359
360
6 Grundlagen der Mathematik
6.1 Aussagenlogik ¨ In der Offentlichkeit wird Mathematik mit Attributen wie exakt, korrekt und zuverl¨assig in Verbindung gebracht. In der Tat geh¨ort es zur Berufsehre eines Mathematikers, keine falschen oder unwahren mathematischen Aussagen zu machen. Um auch in komplizierten und abstrakten Situationen keinen Irrt¨ umern ausgeliefert zu sein, ist es sowohl f¨ ur Mathematiker als auch f¨ ur Informatiker unverzichtbar, einige Grundregeln des logischen Schließens zu beherrschen. Bei der formal logischen Analyse mathematischer Aussagen werden die in der folgenden Tabelle aufgef¨ uhrten Symbole verwendet. F¨ ur einige davon gibt es entsprechende logische Operatoren in den meisten Programmiersprachen. logisches Symbol ∧ ∨ ¬, =⇒ ⇐⇒ ∃ ∃! ∀
verbale Beschreibung und oder nicht aus . . . folgt . . . . . . gilt genau dann, wenn . . . es existiert (mindestens) ein es existiert genau ein f¨ ur alle
Programmierung AND, && OR, || NOT, !
Diese Symbole werden im Zusammenhang mit mathematischen Aussagen verwendet. Beispiele f¨ ur mathematische Aussagen sind A: Wenn x eine gerade nat¨ urliche Zahl ist, dann ist auch x + 2 eine gerade nat¨ urliche Zahl. B: Es gibt unendlich viele Primzahlen. C: F¨ ur alle Primzahlen p ist p2 + 1 eine ungerade Zahl. D: Es gibt eine Primzahl p, so dass auch p2 + 2 und p3 + 2 Primzahlen sind. E: Es gibt positive ganze Zahlen a, b, f¨ ur die a2 = 2b2 gilt. Der entscheidende Punkt ist hier, dass jede mathematische Aussage entweder wahr (wie etwa A, B und D) oder falsch (Aussagen C und E) ist. Weitere M¨oglichkeiten wie etwa vielleicht oder manchmal werden in der (gew¨ohnlichen1 ) Aussagenlogik nicht zugelassen. Auch bei den folgenden Beispielen handelt es sich nicht um Aussagen: a: b: c: d: 1
Dieser Satz ist falsch! 13 M¨ochten Sie noch etwas Tee? An der n¨achsten Kreuzung bitte rechts abbiegen!
Auch eine mehrwertige Logik, in der es mehr als zwei Wahrheitswerte gibt, l¨ asst sich formalisieren. Es gibt sogar eine Theorie, die als Fuzzy-Logik bekannt ist. Darin ist jede reelle Zahl zwischen 0 und 1 als Wahrheitswert zugelassen.
6.1 Aussagenlogik
361
Etwas weniger offensichtlich ist es bei Ausdr¨ ucken folgender Art: F (x): x ist eine gerade nat¨ urliche Zahl. G(x): x2 ≥ 0 H(p): p ist eine Primzahl und p2 + 2 ist eine Primzahl. I(p): p3 + 2 ist eine Primzahl. Solange nichts u ¨ ber x bzw. p bekannt ist, handelt es sich hier nicht um Aussagen. Man spricht von Aussageformen, wenn durch Einsetzen konkreter Elemente f¨ ur die auftretenden Variablen eine Aussage, die wahr oder falsch sein kann, entsteht. Zum Beispiel ist die Aussage F (8) wahr, dagegen ist F (9) falsch. Ebenso ist I(1) wahr, jedoch I(2) eine falsche Aussage. Oft ist die Frage interessant, ob es wenigstens ein x gibt, f¨ ur das die betreffende Aussage wahr ist, oder ob sie gar f¨ ur alle x wahr ist. Um dies zu formalisieren wird der Existenzquantor ∃ bzw. der Allquantor ∀ verwendet. Mit ihrer Hilfe werden aus den obigen Aussageformen echte Aussagen. ∃x : F (x) ∀x : G(x)
im Klartext:
Es gibt eine Zahl x, die gerade ist.
im Klartext:
F¨ ur jede Zahl x gilt x2 ≥ 0.
Bereits an diesen einfachen Beispielen ist ersichtlich, dass Aussagen dieser Form nur dann sinnvoll sind, wenn klar ist, welches die erlaubten Werte f¨ ur x sind. Wenn wir ausschließlich u ¨ ber ganze Zahlen reden, dann sind beide Aussagen wahr. Wenn wir aber bei der zweiten Aussage f¨ ur x die komplexe Zahl i zulassen, dann ist sie nicht mehr wahr. Daher ist es besser, solche Aussagen mit Angabe der zugelassenen Wertemenge f¨ ur die Variable zu schreiben: ∃x ∈ Z : F (x)
∀x ∈ Z : G(x) .
Mit Hilfe der logischen Symbole aus der obigen Tabelle k¨onnen aus einfachen Aussagen kompliziertere zusammengesetzt werden. So l¨asst sich zum Beispiel die Aussage D auch wie folgt schreiben ∃p ∈ Z : H(p) ∧ I(p) . Unabh¨angig davon, ob die Aussage D wahr ist oder nicht2 , haben wir die folgende wahre Aussage erhalten: D ⇐⇒ ∃p ∈ Z : H(p) ∧ I(p) . Eine andere Aussage, die man aus den oben gegebenen bilden kann, ist: ∀p ∈ Z : H(p) =⇒ I(p) . Im Klartext w¨are dies: Wenn p eine Primzahl ist und p2 + 2 eine Primzahl ist, dann ist auch p3 + 2 eine Primzahl. 2
Geben Sie eine Zahl p an, die zeigt, dass die Aussage D wahr ist!
362
6 Grundlagen der Mathematik
Handelt es sich hierbei um eine wahre Aussage? Auf den ersten Blick scheint dies sehr merkw¨ urdig und wer ein wenig Erfahrung im Umgang mit Primzahlen hat, wird wohl eher erwarten, dass diese Aussage falsch ist. Die Aussage ∃p : H(p) ∧ I(p) ist im Allgemeinen nicht zur Aussage ∀p : H(p) =⇒ I(p) aquivalent. Daher kann man also nicht mit Mitteln der Aussagenlogik allein ¨ entscheiden, ob es sich um eine wahre Aussage handelt. In dem betrachteten Beispiel kann man jedoch mit Mitteln der elementaren Zahlentheorie beweisen, dass außerdem die Aussage K: ∃!p : H(p)
wahr ist. Es gibt also genau eine Primzahl p, f¨ ur die auch p2 +2 eine Primzahl ist. Aus den beiden Aussagen D und K folgt nun in der Tat die Aussage H(p) =⇒ I(p). Symbolisch sieht das wie folgt aus: (D ∧ K) =⇒ (∀p : H(p) =⇒ I(p)) . Das besagt, dass es f¨ ur den Beweis der Aussage ∀p : H(p) =⇒ I(p) gen¨ ugt, zu zeigen, dass sowohl D als auch K wahre Aussagen sind.
Terme Im Hauptteil dieses Buches finden Sie eine Vielzahl mathematischer Aussagen, die Sie auf ¨ ahnliche Weise logisch analysieren k¨onnen. Dort haben wir eine verbale Formulierung mathematischer Aussagen bevorzugt. Hier konzentrieren wir uns auf die logische Struktur, unabh¨angig vom mathematischen Inhalt der betrachteten Aussagen. Wir verwenden daher Symbole zur Bezeichnung von Aussagen, wie z.B. A, B, C, D oder x, y, z. Dabei gehen wir davon aus, dass jedes dieser Symbole f¨ ur eine Aussage steht, die entweder wahr oder falsch ist. Wir werden solche Symbole oft als Variablen betrachten. Sie k¨onnen dann den Wert 1 (wahr ) oder den Wert 0 (falsch) annehmen. Diesen nennen wir den Wahrheitswert der Aussage. Außerdem setzen wir voraus, dass der Wahrheitswert einer zusammengesetzten Aussage nur von der logischen Struktur der Zusammensetzung und von den Wahrheitswerten der beteiligten Aussagevariablen abh¨ angt, nicht jedoch von den mathematischen Inhalten von Aussagen, die f¨ ur diese Variablen eingesetzt werden. Im Folgenden bezeichnen wir einen Ausdruck als (logischen) Term 3 , wenn er aus Variablen (z.B. x, y, z), logischen Symbolen wie ∧, ∨, =⇒, ⇐⇒ , ¬ und Klammern zusammengesetzt ist. Dabei gehen wir davon aus, dass die Variablen die Werte 0 und 1 annehmen k¨ onnen. Wenn in einem Term die Variablen durch Aussagen ersetzt werden, dann entsteht eine Aussage. Die Aussagenlogik befasst sich mit der Aufgabe, den Wahrheitswert zu bestimmen, den ein Term nach Belegung seiner Variablen durch Werte 0 oder 1 erh¨alt. 3
auch: Formel oder boolescher Term.
6.1 Aussagenlogik
363
Der Operator ∧ (AND, &&) ist vollst¨ andig beschrieben, wenn f¨ ur jede m¨ogliche Wahrheitswertbelegung der Variablen x und y bekannt ist, welchen Wert der Term x∧y besitzt. Da wir als Wahrheitswerte nur 0 und 1 erlauben, beschreibt die folgende Tabelle den Operator ∧ vollst¨ andig: x
y
0 0 1 1
0 1 0 1
x∧y 0 0 0 1
Wir sehen also, dass x ∧ y dann und nur dann den Wahrheitswert 1 erh¨alt (also wahr ist), wenn sowohl x als auch y den Wert 1 haben. Dies stimmt mit dem Gebrauch des Wortes und“ in der Umgangssprache u ¨ berein. Auch ” andere logische Operatoren werden auf eine solche Weise pr¨azise beschrieben: x
y
0 0 1 1
0 1 0 1
x∨y 0 1 1 1
x =⇒ y 1 1 0 1
x ⇐⇒ y 1 0 0 1
Die Beschreibung von x ∨ y und x ⇐⇒ y entspricht hier wieder dem intuitiven Alltagsgebrauch. Etwas merkw¨ urdig kommt manchem beim erstmaligen Betrachten die Beschreibung der Implikation x =⇒ y vor. In der Tabelle wird gesagt, dass x =⇒ y nur dann falsch ist, wenn x wahr und y falsch ist. Wenn jedoch x falsch ist, dann ist die Implikation x =⇒ y immer wahr. Wenn man also lediglich weiß, dass die Aussage y aus der Aussage x folgt und dass die Aussage x falsch ist, dann kann man nicht entscheiden kann, ob die Aussage y wahr oder falsch ist. So betrachtet scheint es dann vielleicht nicht mehr so merkw¨ urdig. Hier zwei Beispiele. Zum einen ist die Implikation: wenn n gerade ist, dann ist auch 3n gerade zweifelsohne f¨ ur jede nat¨ urliche Zahl n wahr. Also gilt sie auch f¨ ur n = 3: wenn 3 gerade ist, dann ist auch 9 gerade. Zum anderen ist folgende Implikation ebenfalls ohne Zweifel richtig: wenn m gerade ist, dann ist auch 4m gerade. F¨ ur m = 3 erhalten wir daraus die korrekte Aussage: wenn 3 gerade ist, dann ist auch 12 gerade. Wesentlich f¨ ur das Verst¨ andnis ist, dass es sich hier um den Wahrheitsgehalt der Implikation x =⇒ y und nicht um den Wahrheitsgehalt der Schlussfol” gerung“ y (9 ist gerade, bzw. 12 ist gerade) handelt. Obwohl die Aussage 9 ist gerade“ falsch ist, ist die Implikation wenn 3 gerade ist, dann ist 9 ” ” gerade“ ein logisch richtiger Schluss. Wenn man eine falsche Aussage (versehentlich) f¨ ur wahr h¨ alt, kann man durch logisch korrekte Argumente daraus alles schlussfolgern, nicht nur wahre Aussagen. Daher ist es von fundamen-
364
6 Grundlagen der Mathematik
taler Wichtigkeit, dass jedes einzelne Detail eines mathematischen Beweises richtig ist. Falls sich eine falsche Aussage eingeschlichen haben sollte, ist es m¨oglich, dass die daraus korrekt gezogenen Schl¨ usse zu unwahren Aussagen f¨ uhren. Bei der Analyse komplizierterer logischer Terme kann es hilfreich sein, eine vollst¨andige Wertetabelle anzulegen. Diese erzeugt man, indem man schrittweise die Wahrheitswerte immer umfangreicherer Teilausdr¨ ucke berechnet. Dazu benutzt man die oben angegebenen Tabellen, in denen die grundlegenden logischen Operatoren definiert wurden. Am Beispiel des Terms (x ∧ (x =⇒ y)) =⇒ y sieht das folgendermaßen aus: x 0 0 1 1
y 0 1 0 1
x =⇒ y 1 1 0 1
x ∧ (x =⇒ y) 0 0 0 1
(x ∧ (x =⇒ y)) =⇒ y 1 1 1 1
Aus dieser Tabelle entnehmen wir, dass der Term (x ∧ (x =⇒ y)) =⇒ y f¨ ur jede Belegung der Variablen den Wert 1 besitzt. Einen derartigen Term nennt man Tautologie. Im Klartext bedeutet das: Wenn wir wissen, dass die Aussage x wahr ist und dass aus x die Aussage y folgt, dann muss auch die Aussage y wahr sein. Diese Schlussweise wird in fast jedem mathematischen Beweis angewendet und sie ist vermutlich jedem Leser auch ohne diese logische Analyse klar. Angesichts der Gefahren, auf die wir weiter oben hingewiesen hatten, ist eine solche formale Absicherung als vertrauensbildende Maßnahme jedoch nicht von der Hand zu weisen. Mittels einer Wertetabelle k¨ onnen wir leicht zwei Terme bez¨ uglich ihrer Wahrheitswerte vergleichen: x
y
x =⇒ y
0 0 1 1
0 1 0 1
1 1 0 1
¬x 1 1 0 0
(¬x) ∨ y 1 1 0 1
In dieser Tabelle sehen wir, dass die Terme x =⇒ y und (¬x) ∨ y gleichwertig sind. Mit anderen Worten (x =⇒ y) ⇐⇒ ((¬x) ∨ y) ist eine Tautologie. Ebenso kann man zeigen, dass (x ⇐⇒ y) ⇐⇒ ((x =⇒ y) ∧ (y =⇒ x))
(6.1)
6.1 Aussagenlogik
365
eine Tautologie ist. Wenn man beide zusammensetzt, erhalten wir, dass die ¨ Aquivalenz x ⇐⇒ y stets denselben Wert hat wie der Term ((¬x) ∨ y) ∧ (x ∨ (¬y)) . ¨ Damit sehen wir, dass sich alle Implikationen und Aquivalenzen mit Hilfe der drei logischen Symbole ¬, ∨, ∧ ausdr¨ ucken lassen. Das ist der Grund daf¨ ur, dass es in Programmiersprachen, die nicht auf Logik spezialisiert sind, meist keine Operatoren f¨ ur die logischen Symbole =⇒ und ⇐⇒ gibt. Zus¨atzlich zu den angegebenen Tautologien gibt es noch viele andere, mit deren Hilfe man versuchen kann, gegebene logische Terme zu vereinfachen oder zu verk¨ urzen. Ein Dutzend davon ist im folgenden Satz aufgelistet, dessen Beweis durch Aufstellen einer Wertetabelle gef¨ uhrt werden kann (siehe ¨ Ubungsaufgaben). Satz 6.1.1
(1) (2) (3) (4) (5) (6) (7) (8) (9) (10) (11) (12)
(x ∧ y) ∧ z ⇐⇒ x ∧ (y ∧ z) (x ∨ y) ∨ z ⇐⇒ x ∨ (y ∨ z) x∧y ⇐⇒ y∧x x∨y ⇐⇒ y∨x (¬(¬x)) ⇐⇒ x ¬(x ∧ y) ⇐⇒ (¬x) ∨ (¬y) ¬(x ∨ y) ⇐⇒ (¬x) ∧ (¬y) ¬(x =⇒ y) ⇐⇒ x ∧ (¬y) x ∧ (y ∨ z) ⇐⇒ (x ∧ y) ∨ (x ∧ z) x ∨ (y ∧ z) ⇐⇒ (x ∨ y) ∧ (x ∨ z) x ∧ (x ∨ y) ⇐⇒ x x ∨ (x ∧ y) ⇐⇒ x
Die Tautologien (1) und (2) sind die Assoziativgesetze f¨ ur die Operatoren ∧ und ∨, (3) und (4) die Kommutativgesetze. Beide gelten auch f¨ ur ⇐⇒. Oft vereinbart man, dass ∧ st¨ arker bindet als ∨. Dadurch kann man einige Klammern einsparen. Wenn man dann noch die abk¨ urzende Schreibweise xy f¨ ur x∧y einf¨ uhrt, wird die Arbeit mit komplizierteren Termen viel u bersichtlicher. ¨ Die Formeln (9). . . (12) haben dann die folgende Gestalt: (9’) (10’) (11’) (12’)
x(y ∨ z) ⇐⇒ xy ∨ xz x ∨ yz ⇐⇒ (x ∨ y)(x ∨ z) x(x ∨ y) ⇐⇒ x x ∨ xy ⇐⇒ x
Wenn wir außerdem vereinbaren, dass die Negation ¬ noch st¨arker bindet als ∧ oder ∨, dann lassen sich auch noch die Klammern auf den rechten Seiten der Formeln (6), (7) und (8) einsparen. Die Tautologie (8) und unsere Vereinbarung, dass jede mathematische Aussage entweder wahr oder falsch ist, stellen die logische Grundlage f¨ ur die
366
6 Grundlagen der Mathematik
Methode des indirekten Beweises dar. Diese Methode besteht ja bekanntlich darin, dass man zum Beweis einer Implikation x =⇒ y wie folgt vorgeht: Man nimmt an, dass die Aussage x gilt und dass y nicht richtig ist. Dann versucht man unter Verwendung dieser Annahmen einen Widerspruch zu erzeugen, zum Beispiel eine Aussage der Gestalt x ∧ ¬x. Wenn das gelingt, dann ist gezeigt, dass die Aussage x ∧ ¬y falsch ist. Wegen (8) heißt das, dass ¬(x =⇒ y) falsch ist, also ist gezeigt, dass x =⇒ y wahr ist. Aus (1). . . (12) kann man viele neue Formeln herleiten. Man kann sie auch benutzen, um gegebene Terme zu vereinfachen. Beispiel 6.1.2. Um den Term (x =⇒ z)∧(¬x∨y∨z) zu vereinfachen, k¨onnen wir unter Benutzung der Tautologie (x =⇒ z) ⇐⇒ (¬x ∨ z) und der Formeln (4), (11) und (2) die folgenden Ersetzungen vornehmen: (x =⇒ z) ∧ (¬x ∨ y ∨ z) ⇐⇒ (¬x ∨ z) ∧ (¬x ∨ y ∨ z)
⇐⇒ (¬x ∨ z) ∧ ((¬x ∨ z) ∨ y) ⇐⇒ (¬x ∨ z) ⇐⇒ x =⇒ z .
Der gegebene Term ist also gleichwertig zur Implikation x =⇒ z, sein Wahrheitswert h¨angt nicht von y ab. Wir k¨ onnten auch eine Wertetabelle f¨ ur den gegebenen Term aufstellen, darin die Unabh¨angigkeit von y erkennen und schließlich feststellen, dass wir die Wertetabelle f¨ ur die Implikation x =⇒ z vor uns liegen haben.
Disjunktive Normalform Unter den vielen verschiedenen ¨ aquivalenten Beschreibungen eines Terms spielen sogenannte Normalformen eine besondere Rolle. Wir beschr¨anken uns hier auf die Betrachtung einer Normalform, die in enger Beziehung zur Wertetabelle eines Terms steht. Beispiel 6.1.3. Die Vereinfachung des Terms ¬(((x ∨ y) ∨ z) ∧ (¬x ∨ z)) geschieht mit Hilfe der Formeln (3), (4), (6), (7), (9), (10) und der Tautologien (x ∧ ¬x) ⇐⇒ 0 und (0 ∨ x) ⇐⇒ x. Im Folgenden verwenden wir oft die ur ¬x und die Abk¨ urzung xy f¨ ur x ∧ y. bequemere Schreibweise x f¨
6.1 Aussagenlogik
367
¬(((x ∨ y) ∨ z) ∧ (¬x ∨ z))
⇐⇒ ¬(((x ∨ y) ∧ ¬x) ∨ z) ⇐⇒ ¬(((x ∧ ¬x) ∨ (y ∧ ¬x)) ∨ z)
⇐⇒ ¬((y ∧ ¬x) ∨ z) ⇐⇒ ¬(y ∧ ¬x) ∧ ¬z ⇐⇒ (x ∨ ¬y) ∧ ¬z ⇐⇒ x z ∨ y z
Obwohl der vorletzte Term jede Variable nur einmal enth¨alt und damit der k¨ urzeste ist, ist der letzte Term auch sehr n¨ utzlich, da man aus ihm sofort die Wahrheitswerttabelle ablesen kann. Wenn man n¨amlich beachtet, dass (x ∨ x) ⇐⇒ 1 eine Tautologie ist, dann kann man unter Verwendung der Formel (10) die letzte Zeile auch noch in der etwas l¨angeren Gestalt xyz ∨ xyz ∨ xyz schreiben. Es handelt sich hier um die disjunktive Normalform. Aus ihr liest man sofort ab, dass es genau drei Belegungen der Variablen x, y, z gibt, f¨ ur die dieser Term den Wert 1 hat, diese sind (1, 1, 0), (1, 0, 0) und (0, 0, 0). Definition 6.1.4. Ein Term z befindet sich in disjunktiver Normalform bez¨ uglich der Variablen x1 , x2 , . . . , xn , wenn • z = z1 ∨ z2 ∨ . . . ∨ zk , wobei f¨ ur j = 1, . . . , k • zj = y1 y2 · · · yn paarweise verschieden sind und • yi = xi oder yi = xi = ¬xi ist. Ein Term der Gestalt y1 y2 · · · yn hat genau dann den Wahrheitswert 1, wenn y1 = y2 = . . . = yn = 1 gilt. F¨ ur yi = xi heißt dies xi = 1, und f¨ ur yi = xi bedeutet das xi = 0. Jedenfalls hat y1 y2 · · · yn f¨ ur genau eine Belegung der Variablen x1 , . . . , xn den Wert 1. Die Wertetabelle f¨ ur z erh¨alt man also dadurch, dass genau in den k Zeilen der Wert 1 eingetragen wird, deren Belegung einen der Terme zj zu 1 werden l¨ asst. So ist zum Beispiel der Term z = x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 in disjunktiver Normalform. Unten sehen wir die Zeilen der Wertetabelle, in denen z den Wert 1 hat. F¨ ur alle anderen Kombinationen von Werten f¨ ur die Variablen x1 , x2 , x3 hat z den Wert 0. x1 0 0 1
x2 0 1 0
x3 1 0 0
z 1 1 1
Der Term z = x1 ∨ x2 ∨ x3 ist nicht in disjunktiver Normalform. Am einfachsten ermittelt man die disjunktive Normalform von z, indem man eine Wertetabelle f¨ ur z aufstellt und die Terme bildet, die den Zeilen entsprechen, in denen z den Wert 1 hat. Die Wertetabelle ist
368
6 Grundlagen der Mathematik
x1
x2
x3
z
0 0 0 0 1 1 1 1
0 0 1 1 0 0 1 1
0 1 0 1 0 1 0 1
0 1 1 1 1 1 1 1
und daher lautet die disjunktive Normalform von x1 ∨ x2 ∨ x3 x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 ∨ x1 x2 x3 . Die Angabe der Wertetabelle ist gleichwertig mit der Angabe der disjunktiven Normalform. Die Anzahl der durch ∨ verbundenen Terme in der disjunktiven Normalform eines Terms z ist gleich der H¨ aufigkeit des Wertes 1 als Wert f¨ ur z in der Wertetabelle. Den Term zj der disjunktiven Normalform, der einer Tabellenzeile entspricht, in der z den Wert 1 hat, erh¨alt man dadurch, dass xi f¨ ur die mit 1 belegten Variablen xi und xi f¨ ur die mit 0 belegten Variablen xi geschrieben wird. Damit ist auch der Beweis f¨ ur den folgenden Satz klar, da die Wertetabelle immer existiert und eindeutig bestimmt ist. Satz 6.1.5 Jeder Term, der sich aus den Variablen x1 , x2 , . . . , xn und den logischen Symbolen ¬, ∧, ∨, =⇒, ⇐⇒ bilden l¨asst, ist zu genau einem Term in disjunktiver Normalform bez¨ uglich x1 , x2 , . . . , xn ¨aquivalent. Die behauptete Eindeutigkeit ist hier bis auf die Reihenfolge der Terme zj zu verstehen. Alternativ k¨ onnte man die Eindeutigkeit durch eine bestimmte Ordnung dieser Terme erreichen, zum Beispiel eine lexikographische Ordnung bei der immer xi vor xi kommt.
Quantoren F¨ ur den sicheren Umgang mit den sogenannten Quantoren ∃ und ∀ ist die Kenntnis der folgenden beiden Grundregeln unabdingbar. ¬(∀x : P (x)) ⇐⇒ (∃x : ¬P (x))
¬(∃x : P (x)) ⇐⇒ (∀x : ¬P (x))
Beide Aussagen sind Tautologien, man kann also den linken Ausdruck stets durch den auf der rechten Seite ersetzen. Beide Regeln entsprechen unseren
6.1 Aussagenlogik
369
Alltagserfahrungen: Wenn eine Aussageform nicht f¨ ur jedes x gilt, dann heißt dies, dass sie f¨ ur mindestens ein solches x nicht erf¨ ullt ist. Andererseits, wenn kein x existiert, f¨ ur welches eine bestimmte, von x abh¨angige Aussageform wahr ist, dann bedeutet das, dass diese Aussageform f¨ ur alle x falsch ist. Beachtenswert ist, dass die Reihenfolge verschiedener Quantoren in der Regel wichtig ist. Eine Vertauschung kann zu nicht-¨ aquivalenten Aussagen f¨ uhren. So ist zum Beispiel die Aussage ∀a ∈ Z ∃b ∈ Z : a − b = 0 eine wahre Aussage, da wir ja immer b den Wert a geben k¨onnen. Dagegen ist die Aussage, die daraus durch Vertauschen der Quantoren entsteht ∃b ∈ Z ∀a ∈ Z : a − b = 0 falsch, denn man kann kein b finden, so dass sowohl 0−b = 0 als auch 1−b = 0 ist. Die Negation dieser Aussage, also ¬(∃b ∈ Z ∀a ∈ Z : a − b = 0) ist nach obigen Regeln gleichwertig zu ∀b ∈ Z ¬(∀a ∈ Z : a − b = 0) und somit auch zu ∀b ∈ Z ∃a ∈ Z : ¬(a − b = 0) oder besser ∀b ∈ Z ∃a ∈ Z : a − b 6= 0 . Dies ist tats¨achlich eine wahre Aussage, da wir ja stets a = b + 1 w¨ahlen k¨ onnen. Das beweist nochmals, dass die Aussage ∃b ∈ Z ∀a ∈ Z : a − b = 0 falsch ist, da ja ihre Negation wahr ist. Also: Vorsicht bei der Reihenfolge von Quantoren. Formale Logik kam bereits in der ersten H¨ alfte des vorigen Jahrhunderts zur Anwendung in der Elektrotechnik. Als Startpunkt4 gilt heute die Masterarbeit von Claude Shannon5 aus dem Jahre 1936 mit dem Titel A Symbolic ” Analysis of Relay and Switching Circuits“. Darin benutzte er das Kalk¨ ul der formalen Logik zum Entwurf und zur Analyse von digitalen Schaltkreisen. Man spricht in diesem Zusammenhang von Schaltalgebra. 4 Paul Ehrenfest (1880–1933), osterreichischer Physiker, wies bereits 1910 in [Eh] auf ¨ die Anwendbarkeit der formalen Logik bei der Analyse elektrischer Schaltungen hin. 5 Claude Shannon (1916–2001), US-amerikanischer Mathematiker.
370
6 Grundlagen der Mathematik
Aufgaben ¨ Ubung 6.1. Beweisen Sie, dass alle Terme in Satz 6.1.1 Tautologien sind. ¨ Ubung 6.2. Berechnen Sie die Wertetabelle f¨ ur (x =⇒ y) =⇒ (y =⇒ x). Handelt es sich um eine Tautologie? Diskutieren Sie m¨ogliche Fehler im logischen Schließen bei Unkenntnis dieser Aufgabe. ¨ Ubung 6.3. Zeigen Sie: ((x =⇒ y) =⇒ z) =⇒ (x =⇒ (y =⇒ z)) ist eine Tautologie. ¨ Ubung 6.4. (a) Finden Sie eine verbale Formulierung f¨ ur die Aussagen, die dadurch entstehen, dass die Variablen x, y, z in den beiden Termen (i) (x =⇒ y) =⇒ z (ii) x =⇒ (y =⇒ z) durch folgende Aussagen ersetzt werden: x: Ich arbeite seit 5 Jahren mit demselben PC. y: Auf meinem PC ist Linux installiert. z: Ich benutze die Programmiersprache Perl. (b) Zeigen Sie, dass die aus den Termen (i) und (ii) im Teil (a) gebildeten Aussagen auch dann verschiedene Wahrheitswerte besitzen k¨onnen, wenn auf Ihrem PC nicht Linux l¨ auft. (c) Zeigen Sie, dass die aus den Termen (i) und (ii) im Teil (a) gebildeten Aussagen nur dann verschiedene Wahrheitswerte besitzen k¨onnen, wenn Sie die Programmiersprache Perl nicht benutzen. ¨ Ubung 6.5. Erf¨ ullt die Implikation =⇒ das Assoziativgesetz analog zu (1) f¨ ur ∧ und (2) f¨ ur ∨ im Satz 6.1.1? ¨ Ubung 6.6. (a) Zeigen Sie, dass (x ∧ y) =⇒ z und (x =⇒ z) ∨ (y =⇒ z) ¨aquivalent sind. (b) Zeigen Sie, dass die Terme x =⇒ (y ∧ z) und (x =⇒ y) ∧ (x =⇒ z) ¨aquivalent sind. ¨ Ubung 6.7. In einem Programm, in dem die Variablen $x, $y und $z die Werte 0 (false) und 1 (true) annehmen k¨ onnen, finden Sie folgenden Programmcode if ($x && $y || !$x && $y || !$x && !$z || $x && !$z) ... In der verwendeten Programmiersprache bindet ! (die Negation ¬) st¨arker als && (die Konjunktion ∧) und diese bindet st¨arker als || (die Alternative ∨). Vereinfachen Sie diese Bedingung! ¨ Ubung 6.8. Welche der folgenden vier Terme sind ¨aquivalent? (i) x =⇒ y (ii) ¬y =⇒ ¬x (iii) y =⇒ ¬x (iv) ¬(y =⇒ x)
6.2 Mengen
371
6.2 Mengen Die mathematische Logik besch¨ aftigt sich mit mathematischen Aussagen. ¨ Aber wor¨ uber wird darin etwas ausgesagt? Uber Mathematik? Nein, es wird etwas u ¨ ber mathematische Objekte ausgesagt. Diese haben sich u ¨ ber viele Jahrtausende durch das Bestreben der Menschen herausgebildet, die sie umgebende Realit¨ at zu verstehen, zu modellieren und zu beeinflussen. F¨ ur manche dieser Objekte, zum Beispiel die Zahlen 1, 2, 3, . . ., ist dieser Realit¨atsbezug leicht erkennbar. W¨ ahrend dieser langen Entwicklung haben sich jedoch auch Begriffe entwickelt, die scheinbar sehr entfernt von einem Bezug zur Realit¨at sind. Als Ende des 19. und Anfang des 20. Jahrhunderts versucht wurde, die Grundbegriffe der Mathematik mit mathematischen Methoden zu fassen, stellte sich heraus, dass man dabei an un¨ uberwindbare Grenzen st¨oßt. Ein Meilenstein der Entwicklung ist der 1933 ver¨ offentlichte Unvollst¨andigkeitssatz von G¨odel6 . Aus diesem Satz folgt, dass es in jeder vern¨ unftigen mathematischen Theorie Aussagen gibt, die zwar wahr sind, sich aber nicht aus den der Theorie zugrunde liegenden Axiomen logisch folgern lassen. Eine exaktere Formulierung und viel mehr u ¨ ber die Grundlagen der Mathematik findet der interessierte Leser in [Ma], [Da]. Um der Mathematik im Ganzen eine logisch klare Struktur zu geben und um ihre Widerspruchsfreiheit abzusichern (mathematisch beweisen l¨asst sie sich nicht), ist eine sorgf¨ altige Definition der Grundbegriffe erforderlich. Eine h¨ aufig anzutreffende Vorgehensweise stellt den Begriff der Menge an den Anfang und baut dann alle weiteren mathematischen Konstruktionen darauf auf. So wollen auch wir hier verfahren. Wenn man auf diese Weise vorgeht, dann entsteht die Frage: Was ist eine Menge? Da wir diesen Begriff hier an den Anfang stellen wollen, k¨onnen wir zu seiner Definition auf keinen anderen mathematischen Begriff zur¨ uckgreifen. Der Ausweg besteht dann darin, dass der Begriff der Menge durch ein System von Axiomen definiert“ wird. Damit werden alle grundlegenden Eigenschaften ” beschrieben und es wird festgelegt, nach welchen Regeln neue Mengen gebildet werden k¨onnen. Im Grunde genommen erf¨ahrt man also nicht, was eine Menge ist, man lernt lediglich, wie man mit Mengen umzugehen hat. Diese Situation ist uns aus dem Alltagsleben sehr vertraut. Wer weiß denn heute wie genau ein Fernseher funktioniert, wie es in einem Handy innen aussieht oder aus welchen Teilen ein Computer zusammengebaut ist? Trotzdem wissen die meisten Menschen mit diesen technischen Ger¨aten umzugehen. Alle Axiome eines der etablierten Axiomensysteme zu formulieren und zu erkl¨aren, w¨ urde hier zu weit f¨ uhren. Der interessierte Leser sei auf [Hal], [De], [Eb] verwiesen. Wir beschr¨ anken uns hier darauf, mit dem sogenannten 6
Kurt G¨ odel (1906–1978), o ¨sterreichischer Mathematiker.
372
6 Grundlagen der Mathematik
naiven“ Mengenbegriff zu arbeiten, der von Georg Cantor7 im Jahre 1877 ” etwa so formuliert wurde: Unter einer Menge verstehen wir eine Gesamtheit bestimmter wohl” unterschiedener Objekte unserer Anschauung oder unseres Denkens.“ Damit soll im wesentlichen Folgendes zum Ausdruck gebracht werden: (M1) Wir d¨ urfen jegliche mathematische Objekte zu Mengen zusammenfassen. Sie heißen dann Elemente dieser Menge. (M2) F¨ ur ein mathematisches Objekt a gibt es genau zwei, einander ausschließende M¨ oglichkeiten bez¨ uglich einer Menge M : • Entweder a ∈ M (a ist ein Element von M ) • oder a 6∈ M (a ist kein Element von M ). Damit ist a ∈ M“ eine Aussage im Sinne von Abschnitt 6.1 und a 6∈ M ” ist gleichwertig mit ihrer Negation ¬(a ∈ M ). (M3) Alle Elemente einer Menge sind voneinander verschieden. Wenn a ∈ M ist, dann gibt es kein weiteres Element in M , welches gleich a ist. Insbesondere gilt eine Menge als bekannt, wenn auf irgendeine Weise unzweideutig beschrieben ist, welches die Elemente dieser Menge sind. Zwei Mengen A und B sind gleich, wenn sie dieselben Elemente enthalten, also A=B
⇐⇒
(c ∈ A ⇐⇒ c ∈ B) .
Wer sich Mengen als Kisten, S¨ acke oder ¨ ahnliche Beh¨alter mit Inhalt vorstellt, der muss beachten, dass es nicht auf das Beh¨ altnis, sondern nur auf den Inhalt ankommt: Ein leerer gr¨ uner Sack mit goldener Kordel w¨are dann das gleiche wie eine leere rote Kiste mit gelben Punkten. Beispiel 6.2.1. (i) M = {0, 1} ist eine Menge. Sie enth¨alt zwei Elemente. Auf die Reihenfolge kommt es nicht an, also ist {0, 1} = {1, 0}. Mehrfaches Aufz¨ ahlen ¨ andert ebenfalls nichts, also {0, 1} = {1, 0, 1, 1, 1, 0}. Mengen werden oft, wie hier, durch eine in geschweiften Klammern eingeschlossene Liste ihrer Elemente beschrieben. (ii) Die leere Menge ist die einzige Menge, die kein Element enth¨alt. Sie wird durch das Symbol ∅ bezeichnet. (iii) Wenn sehr viele Elemente in einer Menge enthalten sind oder nur eine indirekte Beschreibung ihrer Elemente zur Verf¨ ugung steht, trennt man die Liste der Bedingungen vom beschreibenden Term durch einen senkrechten Strich ab. So ist zum Beispiel die durch {a ∈ Z | 3 ≤ a2 ≤ 17} beschriebene Menge gleich der Menge {−4, −3, −2, 2, 3, 4}. Es handelt sich um die Menge aller ganzen Zahlen, deren Quadrat zwischen 3 und 17 liegt. 7
Georg Cantor, (1845–1918), deutscher Mathematiker.
6.2 Mengen
373
(iv) Die Auflistung der Elemente der Menge K = {x2 | x ∈ Z, −2 ≤ x ≤ 2} ergibt K = {4, 1, 0, 1, 4} = {0, 1, 4}. Obwohl es f¨ unf x ∈ Z gibt, die der Bedingung −2 ≤ x ≤ 2 gen¨ ugen, n¨ amlich −2, −1, 0, 1, 2, sind nur drei Elemente in der Menge K. Beim Z¨ ahlen von Elementen einer Menge werden nur verschiedene Elemente gez¨ ahlt. Der gar zu freiz¨ ugige Umgang mit diesem naiven Mengenbegriff f¨ uhrt zu Widerspr¨ uchen. Der ber¨ uhmteste ist wohl die Russellsche Antinomie, sie wurde Anfang des 20. Jahrhunderts von Bertrand Russell8 entdeckt: Sei M die Menge aller Mengen, die sich nicht selbst als Element enthalten. Also M = {X | X 6∈ X}. Wenn dies eine Menge ist, dann m¨ usste M ∈ M und M 6∈ M gelten. Denn, wenn M ∈ M ist, dann ist nach Definition von M auch M 6∈ M . Wenn aber M 6∈ M gilt, sagt die Definition von M , dass M ∈ M gelten muss.
Etwas anschaulicher wurde dies von Russell 1918 formuliert: Der Barbier von Sevilla rasiert alle M¨ anner von Sevilla, außer denen, die sich selbst rasieren. Wenn dem so ist, rasiert der Barbier von Sevilla sich dann selbst? Um derartige Widerspr¨ uche zu vermeiden, sind gewisse Einschr¨ankungen f¨ ur die erlaubten Konstruktionen von Mengen festzulegen. Dies geschieht in der Regel durch ein umfangreiches Axiomensystem. Heute ist das Axiomensystem ZFC (Zermelo-Fraenkel9 mit Auswahlaxiom) weithin anerkannt, siehe zum Beispiel [De]. Es ist nicht unsere Aufgabe, hier eine Grundlegung der Mathematik zu schaffen, die allen Belangen der modernen Mathematik gerecht wird. Wir wollen vielmehr eine solide Basis f¨ ur den sicheren Umgang mit mengentheoretischen Grundbegriffen legen, die f¨ ur den Gebrauch in vielen Teilgebieten der Mathematik und der Informatik ausreichend ist. Eine praktikable M¨oglichkeit, der Russellschen Antinomie aus dem Weg zu gehen, besteht darin, dass man annimmt, dass alle Elemente von Mengen, die wir jemals betrachten werden, in einer von vornherein feststehenden (riesigen) Menge enthalten sind. Solch eine Menge nennt man ein Universum. Dieser Standpunkt ist f¨ ur alle mathematischen Konstruktionen dieses Lehrbuches v¨ollig ausreichend. In Abwesenheit eines Axiomensystems sollten wir jedoch immer die Russellsche Antinomie als Warnung im Kopf behalten. Wir werden im Folgenden bei der Beschreibung einer Menge in der Gestalt {x | Bedingungen an x} immer voraussetzen, dass wir dabei nur solche x ber¨ ucksichtigen, die in einer Menge enthalten sind, von der wir zumindest eine klare Vorstellung haben. 8
Bertrand Russell (1872–1970), britischer Philosoph, Mathematiker und Logiker. Ernst Zermelo (1871–1953), deutscher Mathematiker. Abraham Fraenkel (1891–1965), deutsch-israelischer Mathematiker.
9
374
6 Grundlagen der Mathematik
Die Menge der geraden Zahlen k¨ onnen wir zum Beispiel wie folgt beschreiben: {2k | k ∈ Z} = {a ∈ Z | ∃k ∈ Z : a = 2k} . Alle ihre Element sind ganze Zahlen. F¨ ur einige oft benutzte Mengen (unsere Zahlbereiche) haben sich feststehende Bezeichnungen eingeb¨ urgert. Diese sind N = Menge aller nat¨ urlichen Zahlen, Z = Menge aller ganzen Zahlen, Q = Menge aller rationalen Zahlen, R = Menge aller reellen Zahlen, C = Menge aller komplexen Zahlen. Der Begriff der nat¨ urlichen Zahl wird in der Literatur nicht einheitlich gebraucht. Manche Autoren betrachten die 0 (Null) als nat¨ urliche Zahl, andere tun dies nicht. Wir werden sie hier als nat¨ urliche Zahl betrachten, also N = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, . . .} . Dies scheint uns im Kontext der Informatik die richtige Wahl zu sein, denn in vielen Programmiersprachen beginnen Abz¨ ahlungen mit 0. Ein detailliertes Studium all dieser Zahlbereiche befindet sich im Hauptteil dieses Buches. Um aus gegebenen Mengen neue Mengen zu bilden, werden die sechs Operationen Vereinigung (∪), Durchschnitt (∩), Differenz (r), Komplement ( ), Potenzmenge (P) und kartesisches Produkt (×) benutzt. Bis auf die letzte Operation (das kartesische Produkt) haben sie eine Entsprechung im Rahmen der Aussagenlogik. Daher ergeben sich viele Gesetze der Mengenalgebra direkt aus den entsprechenden Tautologien des vorigen Kapitels. Definition 6.2.2. Seien A und B zwei Mengen, dann definieren wir: (1) A ∪ B = {c | c ∈ A ∨ c ∈ B} (2) A ∩ B = {c | c ∈ A ∧ c ∈ B} (3) A r B = {c | c ∈ A ∧ c 6∈ B}
Vereinigung Durchschnitt Differenz
Wenn A ∩ B = ∅, dann sagen wir: A und B sind disjunkt.
Oft ist es hilfreich, solche Mengen durch sogenannte Venn-Diagramme darzustellen (Abb. 6.1). Die logischen Operatoren =⇒ und ⇐⇒ entsprechen den Relationen10 Teilmenge (⊂) und Gleichheit (=) zwischen Mengen. Definition 6.2.3. Eine Menge A heißt Teilmenge einer Menge M (A ⊂ M ), wenn jedes Element von A auch in M enthalten ist. In Kurzform: A ⊂ M ⇐⇒ (∀a ∈ M : a ∈ A ⇒ a ∈ M ) . 10
siehe Abschnitt 6.3.
6.2 Mengen
375 A
B
A∪B
ArB
A∩B
Abb. 6.1 Venn-Diagramme f¨ ur Vereinigung, Durchschnitt und Differenz
Unsere Zahlbereiche erf¨ ullen die folgende Kette von Teilmengenrelationen: N⊂Z⊂Q⊂R⊂C. Die Menge M = {0, 1} hat genau vier Teilmengen: ∅, {0}, {1}, {0, 1}. Wir k¨ onnen diese vier Teilmengen zu einer neuen Menge, der Potenzmenge von M , zusammenfassen: P(M ) = {A | A ⊂ M }. F¨ ur M = {0, 1} ergibt das P({0, 1}) = {∅, {0}, {1}, {0, 1}} . Wenn man nur Teilmengen einer fest gegebenen Menge M betrachtet, dann nennt man f¨ ur jede Teilmenge A ⊂ M die Menge A=M rA
das Komplement von A in M .
F¨ ur zwei Teilmengen A, B ∈ P(M ) ist stets A∪B, A∩B, A ∈ P(M ). Jede der Tautologien von Satz 6.1.1 hat eine Entsprechung f¨ ur Mengen. So erhalten wir zum Beispiel aus den Regeln (5), (7) und (11) f¨ ur A, B ∈ P(M ): A = A,
A ∪ B = A ∩ B,
A ∩ (A ∪ B) = A .
Auch die Tautologie (x =⇒ y) ⇐⇒ (x ∨ y) l¨ asst sich in eine mengentheoretische Aussage u berf¨ u hren. Dazu setzen wir f¨ ur x und y die Aussageformen ¨ c ∈ A bzw. c ∈ B ein und benutzen auf beiden Seiten den Quantor ∀c ∈ M . Wir erhalten (∀c ∈ M : c ∈ A =⇒ c ∈ B) ⇐⇒ (∀c ∈ M : c 6∈ A ∨ c ∈ B) , was wir mittels der mengentheoretischen Begriffe Teilmenge, Komplement ¨ und Durchschnitt in die folgende Aquivalenz, die f¨ ur beliebige A, B ∈ P(M ) gilt, u ¨ bersetzen k¨onnen:
376
6 Grundlagen der Mathematik
A ⊂ B ⇐⇒ M = A ∪ B . Dieser direkten Entsprechung zwischen Logikregeln und Rechenregeln der Mengenalgebra kann man in der Sprache der booleschen Algebren bzw. Verb¨ande sogar eine strenge mathematische Form geben. Der interessierte Leser sei auf [CK] verwiesen. Wenn M1 und M2 Mengen sind, dann ist ihr kartesisches Produkt M1 × M2 = {(a, b) | a ∈ M1 , b ∈ M2 } ebenfalls eine Menge. Es handelt sich dabei um die Menge aller geordneten Paare (a, b), wobei a ∈ M1 und b ∈ M2 . Bei einem geordneten Paar kommt es auf die Reihenfolge an! Wenn z.B. M1 = Z und M2 = Z, dann ist (1, 2) ∈ Z×Z von (2, 1) ∈ Z × Z verschieden. Auch (1, 1) ∈ Z × Z ist erlaubt. Diese Konstruktion ist nicht direkt mit einem der logischen Operatoren verwandt. Daher ist es vielleicht die wichtigste Konstruktion dieses Abschnittes. Das kartesische Produkt wird auch im folgenden Abschnitt und bei Anwendungen in der Informatik eine wesentliche Rolle spielen. Ein aufmerksamer Leser k¨ onnte an dieser Stelle einwenden, dass hier der Begriff des geordneten Paares“ einfach vom Himmel f¨allt, obwohl wir zu” vor versprochen hatten, dass jegliche mathematische Konstruktion auf der Grundlage des Mengenbegriffes erkl¨ arbar sein soll. Dies w¨are ein sehr scharfsinniger Einwand. Dieser l¨ asst sich durch eine ebenso scharfsinnige Antwort entkr¨aften. Wenn wir n¨ amlich (a, b) als Abk¨ urzung f¨ ur {{a, b}, a} ansehen, dann ist geordnetes Paar“ durch eine rein mengentheoretische Konstruktion ” erkl¨art. Die Idee ist hier, dass man ein geordnetes Paar kennt, wenn man die beiden Bestandteile kennt, also die (ungeordnete) Menge {a, b} und außerdem weiß, welches dieser beiden Elemente das erste“ ist, hier also das Element ” a. Da a ∈ {a, b}, aber nicht {a, b} ∈ a, ist auch klar, welcher der beiden Bestandteile der Menge {{a, b}, a} = {a, {a, b}} den ersten Eintrag des Paares beschreibt und welcher die beiden Komponenten des Paares enth¨alt. Obwohl diese Erkl¨arung f¨ ur Anwendungen eher von untergeordneter Bedeutung ist, scheint die zugrunde liegende Idee durchaus praktikabel zu sein. Schließlich sei hier noch bemerkt, dass wir auch das kartesische Produkt von mehr als zwei Mengen bilden k¨ onnen. Wenn die Mengen M1 , M2 , . . . , Mk gegeben sind, dann bezeichnet M1 × M2 × . . . × Mk das schrittweise gebildete kartesische Produkt (· · · ((M1 × M2 ) × M3 ) × . . . × Mk−1 ) × Mk . Es ist unwesentlich, in welcher Weise man die Klammern setzt, auch M1 × (M2 × . . . × (Mk−2 × (Mk−1 × Mk )) · · · )
6.2 Mengen
377
oder (· · · ((M1 × M2 ) × (M3 × M4 )) × . . . × Mk und viele weitere M¨ oglichkeiten w¨ aren denkbar. Die Elemente dieser Menge nennt man k-Tupel. Sie werden in der Form (a1 , a2 , . . . , ak ) geschrieben, wobei a1 ∈ M1 , a2 ∈ M2 , . . . , ak ∈ Mk gilt. Wenn die Mengen Mi alle gleich sind, also M1 = M2 = . . . = Mk = M , dann schreiben wir abk¨ urzend M k f¨ ur deren kartesisches Produkt. Dies ist uns allen vertraut aus der analytischen Geometrie, in der R2 f¨ ur die Ebene und R3 f¨ ur den dreidimensionalen Raum steht. Ohne diese Abk¨ urzung zu verwenden, haben wir bereits im Abschnitt 6.1 mit der Menge {0, 1}2 gearbeitet. Die Elemente dieser Menge traten als Eintr¨age der ersten beiden Spalten der Wahrheitswerttabelle f¨ ur die logischen Operatoren ∧, ∨ etc. auf. Die ersten drei Spalten der Wertetabelle eines von drei Variablen x, y, z abh¨ angigen Terms enthalten gerade die Elemente der Menge {0, 1}3.
Aufgaben ¨ Ubung 6.9. Stellen Sie f¨ ur jede der folgenden Mengen fest, wie viel Elemente sie enth¨alt: (a) {{1, 2, 3, 5}} (f) {a2 | a ∈ Z ∧ −5 ≤ a ≤ 6} (b) {{1, 5}, {2, 3}} (g) {a3 | a ∈ Z ∧ −5 ≤ a ≤ 6} (c) {1, 2, 2, 5} (h) {{1, 1, 1}, {2, 3, 2}, {5, 3, 5}, {3, 5, 3}} (d) P({0, 1, 2, 3, 4}) (i) {(1, 1, 1), (2, 3, 2), (5, 3, 5), (3, 5, 3)} (e) P(∅) (k) {∅, {7}, {7, 7}, {7, 7, 7}, {7, 7, 7, 7}} ¨ Ubung 6.10. Welche der folgenden Aussagen sind wahr, welche sind falsch? (i) (2, 1) ∈ Z (ii) {2, 1} ∈ Z (iii) {2, 1} ∈ P(Z) (iv) {2, 1} ⊂ Z (v) (2, 1) ⊂ Z (vi) {2, 1} ⊂ P(Z) ¨ Ubung 6.11. Machen Sie sich anhand mehrerer Venn-Diagramme klar, dass f¨ ur Teilmengen A, B einer Menge M wirklich A ⊂ B ⇐⇒ M = A ∪ B gilt. ¨ Ubung 6.12. Formulieren und beweisen Sie f¨ ur jede Tautologie aus Satz 6.1.1 eine entsprechende Beziehung zwischen Mengen. ¨ Ubung 6.13. Stellen Sie die Wertetabelle f¨ ur den logischen Operator XOR (entweder-oder) auf. Er kann durch den Term xy ∨ xy beschrieben werden. Finden Sie eine m¨ oglichst kurze Beschreibung seiner Negation ¬(x XOR y) mit Hilfe anderer logischer Operatoren.
378
6 Grundlagen der Mathematik
6.3 Relationen Jede Teilmenge des kartesischen Produktes M × N zweier Mengen M und N nennt man eine Relation zwischen M und N . Woher stammt diese merkw¨ urdige Bezeichnung? Schauen wir uns dazu die folgende Tabelle an Student
Autor
Peter Dieter Dieter Friederike Berti Berti Berti Helga
Lang Lang Kofler Kofler Kofler Mandelbrot Codd Lang
Darin werden Vornamen mit Autorennamen in Beziehung gesetzt. Man sagt auch, dass damit eine Relation zwischen Vornamen und Autorennamen hergestellt wird. Diese Tabelle k¨ onnte mir zum Beispiel als Erinnerung daran dienen, wem ich welches Buch verliehen habe. Da es sich hier um eine kleine Zahl kurzfristig verliehener B¨ ucher handelt, gen¨ ugt mir der Name des Autors um zu wissen, welches Buch ich an wen verliehen habe. Wenn wir mit M die Menge der m¨ oglichen Vornamen und mit N die Menge der m¨oglichen Autorennamen bezeichnen, dann repr¨asentiert jede Zeile dieser Tabelle ein Element des kartesischen Produktes M × N . Um dieses Beispiel zu mathematisieren, k¨ onnen wir die auftretenden Vornamen und Autorennamen nummerieren und die durch die Tabelle gegebene Relation durch Zahlenpaare repr¨ asentieren. Dadurch erhalten wir die folgenden Tabellen: Std.-Nr.
Vorname
Titel-Nr.
1 2 3 4 5
Peter Dieter Friederike Berti Helga
1 2 3 4
Autor Lang Kofler Mandelbrot Codd
Std.-Nr. Titel-Nr. 1 2 2 3 4 4 4 5
1 1 2 2 2 3 4 1
Das heißt, dass unsere Relation nun durch die Menge R = {(1, 1), (2, 1), (2, 2), (3, 2), (4, 2), (4, 3), (4, 4), (5, 1)} ⊂ N × N beschrieben wird. Hierbei haben wir als Menge der erlaubten Schl¨ usselnummern einfach die Menge N aller nat¨ urlichen Zahlen verwendet. In einer rea-
6.3 Relationen
379
len Datenbank wird man sich dabei jedoch oft auf eine endliche Menge beschr¨anken. In praktischen Anwendungen k¨ onnten die ersten beiden Tabellen noch weitere Daten enthalten, ohne dass die dritte Tabelle, welche die Relation beschreibt, ver¨andert werden muss. Zum Beispiel w¨are es in einer ¨offentlichen Bibliothek sicher erforderlich, ausf¨ uhrlichere Daten u ¨ber die Bibliotheksbenutzer und auch u ucher zu speichern. In Erweiterung ¨ ber die ausleihbaren B¨ des obigen Beispiels mag das folgendermaßen aussehen. In dieser Situation wird ein mehrfaches Auftreten des gleichen Buches desselben Autors, anders als im Beispiel der Privatbibliothek, bedeuten, dass in der Bibliothek mehrere Exemplare des entsprechenden Buches ausleihbar sind. Std.-Nr. 1 2 3 4 5
Vorname Peter Dieter Friederike Berti Helga
Titel-Nr. Autor 1 2 3 4
Name Pingelig Datenhai Fuchs Bitter Hell
Ort 04509 53547 84405 39517 27467
Peterwitz Dattenberg Fuchsbichl Bittkau Hellwege
Titel
Lang Algebra Kofler Linux Mandelbrot Die Fraktale Geometrie der Natur Codd The Relational Model for Database Managment
Straße Parkallee 16 Dunkelgasse 4 Friedrichstraße 6 Bruchweg 2 Hinterhof 8
Verlag
Jahr
Springer 1997 Addison-Wesley 2007 Birkh¨auser 1987 Addison-Wesley 1990
Jede dieser Tabellen stellt selbst eine Relation dar. Es handelt sich hier allerdings um mehrstellige Relationen. Eine n-stellige Relation ist eine Teilmenge eines kartesischen Produktes M1 × M2 × . . . × Mn , an dem n Mengen M1 , M2 , . . . , Mn beteiligt sind, die nicht voneinander verschieden sein m¨ ussen. Relationen, wie sie eingangs dieses Kapitels definiert wurden, treten nunmehr als Spezialfall n = 2 auf. Man nennt sie auch 2-stellige oder bin¨are Relationen. Die beiden Tabellen sind Beispiele 5-stelliger Relationen. Die Eintr¨age jeder Spalte geh¨oren dabei zu einer bestimmten Menge Mi , dem Wertebereich (domain) des durch diese Spalte beschriebenen Attributes. Ehe der Leser in kurzschl¨ ussiger Weise an dieser Stelle verinnerlicht, dass Relationen nichts anderes als Tabellen sind, m¨ochten wir auf einen ernst zu nehmenden Unterschied hinweisen. Bei einer Relation handelt es sich um eine Menge, die darin enthaltenen Elemente sind also nicht geordnet. Bei einer Tabelle sind die Zeilen stets in einer gewissen Reihenfolge geordnet. In diesem Sinne ist eine Tabelle nicht das gleiche wie eine Relation. Eine Tabelle stellt die Elemente einer Relation in einer bestimmten Reihenfolge dar. Durch
380
6 Grundlagen der Mathematik
Vertauschen von Zeilen einer Tabelle ¨ andert man nicht die Relation, die durch sie dargestellt wird. Die hier benutzten Beispiele sind der Welt der Datenbanken entlehnt. Das heute sehr popul¨ are relationale Datenbankmodell basiert tats¨achlich auf dem mathematischen Begriff der Relation. Um die Theorie relationaler Datenbanken zu verstehen, sind sichere Grundkenntnisse im Umgang mit Relationen in der Mathematik ein erleichternder Faktor. Insbesondere ist das Studium der folgenden Seiten eine gute Grundlage f¨ ur das Verst¨andnis von Begriffen wie (1 : 1)-Relation, (1 : n)-Relation und (n : m)-Relation, sowie von Datenbankoperationen wie Vereinigung, Schnitt, Differenz, Produkt, Restriktion, Projektion oder Verbund (join). Im Unterschied zu den Relationen in einem Datenbankmodell wollen wir hier keine Zeitabh¨ angikeit bei unseren Relationen zulassen. Mehr u ¨ ber die Theorie des relationalen Datenbankmodells findet der interessierte Leser in [C2], geschrieben von E.F. Codd11 , dem Vater dieses Modells, der bereits 1969 die erste Arbeit [C1] dazu ver¨ offentlicht hat.
Abbildungen Der Begriff der Abbildung wird in fast allen Teilgebieten der Mathematik benutzt. Neben dem Begriff der Menge ist das Konzept der Abbildung eines der grundlegendsten in der Mathematik. In verschiedenen Zweigen der Mathematik werden Abbildungen studiert, die spezielle Eigenschaften besitzen. In der linearen Algebra sind dies die linearen Abbildungen, in der Analysis die stetigen oder differenzierbaren Abbildungen. Generell werden bei algebraisch orientierten Untersuchungen strukturerhaltende Abbildungen studiert. Beispiele dazu befinden sich im Hauptteil dieses Buches. Hier wollen wir uns auf mengentheoretische Aspekte beschr¨ anken. Die Idee ist die, dass eine Abbildung f von einer Menge A in eine Menge B jedem a ∈ A genau ein Bild f (a) ∈ B zuordnet. Um dies symbolisch auszudr¨ ucken, schreiben wir f :A→B. Wir stellen uns Abbildungen oft als Aktion, Operation oder Vorgang vor. Der wesentliche Punkt ist dabei, dass es f¨ ur jedes m¨ogliche Startelement a ∈ A ein einziges wohlbestimmtes Bildelement in B geben muss. Es ist unwichtig, in welcher Weise die Abbildung beschrieben ist. Bei einer Abbildung f : A → B heißt die Menge A der Definitionsbereich von f . Es ist erlaubt, dass verschiedene Elemente aus dem Definitionsbereich A auf dasselbe Bild abgebildet werden oder dass nicht jedes Element aus B als Bildelement auftritt. 11
Edgar F. Codd (1923–2003), britischer Mathematiker und Datenbanktheoretiker.
6.3 Relationen
381
Beides ist zum Beispiel bei der Abbildung f : Z → Z der Fall, die durch die Formel f (n) = n2 gegeben ist. Keine negative Zahl tritt als Bildelement von f auf. Außerdem ist f (−1) = f (1), es werden Elemente, die sich nur im Vorzeichen unterscheiden, auf dasselbe Bildelement abgebildet. Die Menge derjenigen Elemente aus B, die tats¨achlich als Bildelement von f auftreten, bilden eine Teilmenge von B. Sie heißt das Bild der Abbildung f und wird wie folgt notiert: f (A) = {b ∈ B | ∃ a ∈ A : f (a) = b} . Die logischen Terme, die wir im Abschnitt 6.1 untersucht haben, k¨onnen wir als Abbildungen ansehen. So entspricht zum Beispiel die Konjunktion ∧ der Abbildung k : {0, 1}2 → {0, 1}, die durch die Formel k(x, y) = x ∧ y gegeben ist. Abbildungen f : {0, 1}n → {0, 1}
nennt man (n-stellige) boolesche Funktionen nach George Boole12 , dem Begr¨ under der modernen mathematischen Logik. Um eine boolesche Funktion wie die Konjunktion k zu definieren, hatten wir uns einer Wertetabelle bedient. Aus dem vorigen Abschnitt wissen wir, dass eine solche Tabelle als Relation interpretiert werden kann. In diesem Fall handelt es sich um eine dreistellige Relation W ⊂ {0, 1}3. Sie enth¨alt vier Elemente, n¨amlich die vier Zeilen der fr¨ uher angegebenen Tabelle. Es handelt sich dabei um alle Tripel der Gestalt (x, y, x ∧ y), wobei wir alle M¨oglichkeiten f¨ ur x und y aus der Menge {0, 1} ber¨ ucksichtigen. Auf diese Weise werden wir zu der folgenden Definition gef¨ uhrt, die uns eine solide mengentheoretische Definition des Begriffes der Abbildung gibt. Definition 6.3.1. Eine Abbildung A → B ist eine Relation G ⊂ A × B f¨ ur die gilt, dass es zu jedem a ∈ A genau ein b ∈ B gibt, f¨ ur welches (a, b) ∈ G. Wenn wir uns eine Relation als Tabelle vorstellen, dann heißt das, dass eine solche Tabelle nur dann eine Abbildung definiert, wenn es keine zwei Zeilen in dieser Tabelle gibt, die dasselbe Element a ∈ A in der dem Definitionsbereich entsprechenden Spalte enthalten und wenn außerdem jedes Element a ∈ A auch wirklich in dieser Spalte anzutreffen ist. An die Elemente b ∈ B, die in der anderen Spalte auftreten, wird keine derartige Bedingung gestellt, auch nicht wenn A = B ist. In der Sprache der Datenbanken heißt dies, dass die zu A geh¨orige Spalte ein potentieller Schl¨ ussel f¨ ur diese Relation ist und dass wir in die Menge A nur diejenigen Elemente aufgenommen haben, die bereits in der Tabelle vorhanden sind. Wenn wir A = M1 ×M2 ×. . .×Mk und B = Mk+1 ×. . .×Mn setzen, dann erkennen wir, dass Abbildungen sehr wichtig sind f¨ ur Relationen ganz allgemein in der Datenbankwelt. Die Zuordnung von Werten zu einem gegebenen Schl¨ ussel ist gerade eine Abbildung im mathematischen Sinne. 12
George Boole (1815–1864), englischer Mathematiker.
382
6 Grundlagen der Mathematik
In der Mathematik nennt man die Menge G aus Definition 6.3.1 den Graphen der Abbildung f : A → B. Diese Bedeutung des Wortes Graph“ sollte nicht ” mit der im Abschnitt 5.3 u ¨ ber Graphentheorie benutzten verwechselt werden. Die folgende Gleichung beschreibt die Beziehung zwischen einer Abbildung f : A → B und ihrem Graphen G ⊂ A × B: G = {(a, f (a)) | a ∈ A} ⊂ A × B . Wenn f durch eine Formel oder Berechnungsvorschrift gegeben ist, dann ergibt sich daraus eine explizite Beschreibung des zugeh¨origen Graphen G. Wenn umgekehrt eine Abbildung f : A → B durch ihren Graphen G gegeben ist, dann k¨onnen wir den Wert f (a) dadurch finden, dass wir das eindeutig bestimmte Element (a, b) ∈ G aufsuchen, dessen erste Komponente gleich dem gegebenen Element a ist. Die zweite Komponente b liefert dann den gesuchten Wert, also f (a) = b. Beispiel 6.3.2. Eine Abbildung f : A × B → C, die von zwei Variablen abh¨angt, f¨ ur die jeweils nur endlich viele Werte in Frage kommen, kann durch eine Matrix spezieller Art effizienter dargestellt werden. Jeder Zeile einer solchen Matrix entspricht ein Element von A und jeder Spalte ein Element von B. Das Element f (a, b) ∈ C wird in der durch a bestimmten Zeile in die durch b bestimmte Position eingetragen. Die entsprechende Matrix f¨ ur die Konjunktion k(x, y) = x ∧ y hat die folgende Gestalt: ∧01 0 00 1 01 Wenn M = {1, i, −1, −i} als Menge von vier komplexen Zahlen aufgefasst wird und die Abbildung f : M × M → M durch Multiplikation gegeben ist, d.h. f (a, b) = a · b, dann erhalten wir die folgende Multiplikationstabelle zur vollst¨andigen Darstellung der Abbildung f f 1 i −1 −i 1 1 i −1 −i i i −1 −i 1 −1 −1 −i 1 i −i −i 1 i −1
Eine derartige Matrix wird in der Gruppentheorie als Cayley-Tabelle13 bezeichnet. Wie aus der Schreibweise f : A → B ersichtlich ist, sind die beiden Mengen A und B nicht gleichberechtigt. In gewissem Sinne ist A prim¨ar und B sekund¨ar. Um auszuloten, ob es m¨ oglich ist, bei Beibehaltung der Relation G (des Graphen von f ) die Rolle von A und B zu vertauschen, hat es sich als n¨ utzlich erwiesen, die folgenden Begriffe zu benutzen. 13
Arthur Cayley (1821–1895), englischer Mathematiker.
6.3 Relationen
383
Definition 6.3.3. (i) Eine Abbildung f : A → B heißt injektiv , wenn es keine zwei verschiedenen Elemente in A mit dem gleichen Bild gibt. In mathematischer Kurzform: ∀ a1 , a2 ∈ A : a1 6= a2 =⇒ f (a1 ) 6= f (a2 ) , oder ¨aquivalent ∀ a1 , a2 ∈ A : f (a1 ) = f (a2 ) =⇒ a1 = a2 . (ii) Eine Abbildung f : A → B heißt surjektiv , wenn jedes Element aus B im Bild von f liegt. In mathematischer Kurzform: f (A) = B, oder B = {f (a) | a ∈ A} . (iii) Eine Abbildung f : A → B heißt bijektiv , wenn f injektiv und surjektiv ist. Ausf¨ uhrlich heißt dies: ∀ b ∈ B ∃! a ∈ A : f (a) = b. Wenn eine Abbildung bijektiv ist, dann folgt aus dieser Definition sofort, dass ihr Graph G ⊂ A × B auch eine Abbildung f −1 : B → A definiert, die man die inverse Abbildung zu f nennt. Genau genommen ist der Graph von f −1 nicht G, sondern die Teilmenge von B × A, die man durch Vertauschung der Komponenten von G erh¨ alt. Beispiel 6.3.4. (i) f : Z → Z, f (n) := 2n ist injektiv, aber nicht surjektiv. (ii) g : Z → Z, g(n) := −n ist bijektiv. (iii) h : Z → {0, 1}, h(n) := 0, wenn n ungerade, h(n) := 1, wenn n gerade. Diese Abbildung ist surjektiv, aber nicht bijektiv. Eine Abbildung, die nur die Werte 0 und 1 annimmt, nennt man charakteristische Abbildung. Durch sie wird der Definitionsbereich in zwei disjunkte Teilmengen zerlegt. Hier wird die Menge Z in die geraden Zahlen, f¨ ur die h immer den Wert 1 annimmt, und die ungeraden Zahlen, f¨ ur die h gleich 0 ist, zerlegt. Die Zugeh¨origkeit zu einer Teilmenge A ⊂ M kann man allgemein durch eine charakteristische Abbildung χA : M → {0, 1} beschreiben, die genau f¨ ur die Elemente aus A gleich 1 ist und f¨ ur alle anderen Elemente von M den Wert 0 annimmt. (iv) Wenn A und B beliebige nichtleere Mengen sind, dann ist die Projektion auf A, pA : A × B → A, durch pA (a, b) = a definiert. Eine solche Projektion ist immer surjektiv. Sie ist genau dann injektiv, wenn die Menge B nur aus einem einzigen Element besteht. In einem Datenbank-Kontext ist hervorzuheben, dass man bei einer Projektion immer mit einem Informationsverlust rechnen muss, da eine Projektion die Zahl der Spalten in einer Tabelle reduziert. Bijektive Abbildungen kennt jeder aus dem Alltag: Immer wenn irgendwelche Dinge gez¨ahlt werden, dann stellen wir eine bijektive Abbildung zwischen den zu z¨ahlenden Objekten und einer Menge von nat¨ urlichen Zahlen her.
384
6 Grundlagen der Mathematik
Ein Sch¨afer, auch wenn man ihm nie das Z¨ahlen beigebracht hat, kann mit derselben Technik feststellen, ob am Abend alle seine Schafe wieder in die sichere Umz¨ aunung zur¨ uckgekehrt sind. Er muss sich nur am Morgen einen Steinhaufen anlegen, indem er f¨ ur jedes Schaf, welches die Umz¨aunung verl¨asst, einen Stein hinzutut. Bei der R¨ uckkehr am Abend legte er dann f¨ ur jedes ankommende Schaf einen Stein dieses Haufens zur Seite. Wenn Steine u ¨ brigblieben, weiß er, dass noch Schafe fehlen. Auf dieser Erfahrung basiert die folgende Definition. Definition 6.3.5. Zwei Mengen A und B heißen genau dann gleichm¨achtig, wenn es eine bijektive Abbildung f : A → B gibt. Wenn es sich dabei um endliche Mengen handelt, dann entspricht diese Definition unserer Intuition und Alltagserfahrung. Sie wird jedoch universell in der Mathematik angewendet, also auf beliebige Mengen. Eine erste verbl¨ uffende Folge dieser Definition besagt, dass es ebenso viele ganze Zahlen gibt wie rationale Zahlen. Dies scheint irgendwie der Intuition zu widersprechen, die uns sagt, dass es viel mehr rationale Zahlen als ganze Zahlen gibt. Dies kommt daher, dass wir intuitiv davon ausgehen, dass eine Teilmenge A ⊂ B, die nicht gleich der Menge B ist, sicher weniger Elemente enthalten muss. Wie wir nach dem Beweis des folgenden Satzes wissen, ist dies f¨ ur Mengen mit unendlich vielen Elementen im Allgemeinen nicht richtig. Satz 6.3.6 Es gibt eine bijektive Abbildung Z → Q. Beweis. Es ist ausreichend, eine bijektive Abbildung f zwischen den positiven ganzen Zahlen und den positiven rationalen Zahlen anzugeben, da sich eine solche ohne weiteres durch die Vereinbarung f (−n) = −f (n) und f (0) = 0 zu einer bijektiven Abbildung Z → Q ausdehnen l¨asst. Zur Beschreibung solch einer Abbildung f stellen wir die positiven rationalen Zahlen in einem unendlichen quadratischen Schema dar: 1
1 2
2
2 2
3
3 2
4
4 2
5
5 2
6
6 2
1 3
1 4
2 3
2 4
3 3 4 3
5 3 6 3
3 4 4 4 5 4
6 4
1 5
1 6
2 5
2 6
3 5
3 6
4 5
4 6
5 5 6 5
5 6 6 6
1 7
1 8
2 7
2 8
3 7
3 8
4 7
4 8
5 7
5 8
6 7
6 8
6.3 Relationen
385
Darin finden wir in Zeile p und Spalte q den Eintrag pq , den wir in Klammern gesetzt haben, wenn p und q nicht teilerfremd sind. Dadurch erreichen wir, dass jede positive rationale Zahl genau einmal ohne Klammern aufgef¨ uhrt ist, und zwar als unk¨ urzbarer Bruch. Die gesuchte bijektive Abbildung f wird nun folgendermaßen definiert: Wir laufen, wie durch die Pfeile angedeutet, entlang der Diagonalen durch dieses Schema und nummerieren in dieser Reihenfolge alle nicht eingeklammerten Zahlen. Diese Nummerierung ist die gew¨ unschte Abbildung f . Ihre ersten Werte sind f (1) = 1, f (2) = 2, f (3) = 12 , f (4) = 1 3 2 ⊓ ⊔ 3 , f (5) = 3, f (6) = 4, f (7) = 2 , f (8) = 3 etc. Dieser Beweis geht auf Georg Cantor14 (1867) zur¨ uck und er geh¨ort sicher zu den wichtigsten Erkenntnissen der Mathematik. Die in diesem Beweis verwendete Methode der Abz¨ ahlung nennt man das erste Cantorsche Diagonalverfahren. Es gibt auch noch ein zweites Diagonalverfahren von Cantor. Damit kann man zeigen, dass es keine bijektive Abbildung Z → R geben kann, dass also die Menge der reellen Zahlen tats¨achlich mehr Elemente als die Mengen der ganzen oder rationalen Zahlen enth¨alt. Satz 6.3.7 Es gibt keine bijektive Abbildung Z → R. Beweis. Da es eine bijektive Abbildung g : Z → N gibt (z.B. g(n) := 2n f¨ ur n ≥ 0 und g(n) := −2n − 1 f¨ ur n < 0.), gen¨ ugt es zu zeigen, dass es keine bijektive Abbildung f : N → R gibt. Der Beweis wird indirekt gef¨ uhrt. Angenommen es g¨ abe eine bijektive Abbildung f : N → R, dann w¨ urde jede reelle Zahl in der Folge an := f (n), n = 0, 1, 2, . . . vorkommen. Wir schreiben diese Zahlen an in Dezimaldarstellung ordentlich untereinander und markieren die auf der Diagonale stehenden Ziffern. Das ist bei a0 die direkt vor dem Komma stehende Ziffer und f¨ ur n > 0 in an die n-te Ziffer hinter dem Komma. Wir bezeichnen die markierte Ziffer in an mit wn und definieren ( 0 falls wn 6= 0 zn := 1 falls wn = 0 . Die Zahl z = z0 ,z1 z2 z3 z4 . . ., deren n-te Ziffer hinter dem Komma gleich zn ist, ist eine reelle Zahl. Sie kommt jedoch nicht in der Folge (an )n≥0 vor, da sich z von an an der n-ten Stelle hinter dem Komma unterscheidet. ⊓ ⊔ Eine g¨angige Technik der Probleml¨ osung besteht darin, dass man versucht, das Problem in einfachere Teilprobleme zu zerlegen. So geht man auch bei der Untersuchung von komplizierteren Abbildungen vor. In der Analysis kennt man zum Beispiel die Kettenregel zur Berechnung der Ableitung zusammengesetzter Funktionen. In analoger Weise werden bei der Bildung bestimmter 14
Georg Cantor (1845–1918), deutscher Mathematiker.
386
6 Grundlagen der Mathematik
Normalformen nach Codd bei der Konstruktion und Analyse von Datenbanken die Relationen (Tabellen) in elementare, nicht weiter zerlegbare Relationen zerlegt. Der Operation des Verbundes (join) zweier Relationen in der Theorie der Datenbanken entspricht dabei dem Begriff des Faserproduktes in der Geometrie. Diesen kann man mit Hilfe der Begriffe Projektion, Urbild und kartesisches Produkt beschreiben. Es handelt sich also um einen zusammengesetzten Begriff, weshalb ein eingehendes Studium hier nicht unbedingt erforderlich scheint. Den interessierten Leser verweisen wir dazu auf die einschl¨agige Literatur u ¨ber Datenbanken beziehungsweise moderne Geometrie. Wir beschr¨ anken uns hier auf die Definition der Komposition von Abbildungen. Definition 6.3.8. Wenn f : A → B und g : B → C zwei Abbildungen sind, dann ist ihre Komposition g ◦ f : A → C durch die Vorschrift (g ◦ f )(a) := g(f (a)) definiert. Wir sagen g nach f“ f¨ ur g ◦ f . ” Aus dieser Definition folgt sofort, dass die Komposition dem Assoziativgesetz gen¨ ugt, also dass f ◦(g ◦h) = (f ◦g)◦h gilt, wenn f, g, h Abbildungen sind, f¨ ur die die entsprechenden Kompositionen definiert sind. Wir m¨ochten explizit darauf hinweisen, dass es im Allgemeinen nicht m¨oglich ist, die Komposition zweier beliebig gegebener Abbildungen zu bilden. Dies ist nur m¨oglich, wenn das Bild der ersten Abbildung im Definitionsbereich der nachfolgenden Abbildung enthalten ist. Wir k¨ onnen also in der obigen Definition als Definitionsbereich von g eine beliebige Menge zulassen, in der das Bild f (A) enthalten ist. Das bringt technisch aber keinerlei Vorteile, denn diese Menge kann man dann auch an Stelle von B als Zielmenge f¨ ur f benutzen. F¨ ur das Studium von Abbildungen und Relationen gleichermaßen sind die Begriffe des Urbildes und der Faser von Nutzen. Definition 6.3.9. Sei f : A → B eine Abbildung, b ∈ B ein Element und C ⊂ B eine Teilmenge. Dann heißt (i) f −1 ({b}) := {a ∈ A | f (a) = b} die Faser von f u ¨ ber b und (ii) f −1 (C) := {a ∈ A | f (a) ∈ C} das Urbild von C unter der Abbildung f .
Das Urbild der einelementigen Menge C = {b} ist nichts anderes als die Faser von f u ¨ber b. Andererseits ist das Urbild f −1S(C) gerade die Vereinigung aller Fasern f −1 ({b}) mit b ∈ C, also f −1 (C) = b∈C f −1 ({b}). Die Bezeichnung Faser“ wurde durch folgendes Bild suggeriert: ”
6.3 Relationen
387
f −1 (C)
f −1 ({b})
f b
b
C
In der Mathematik sind diese Begriffe n¨ utzlich, weil sie es erlauben, Eigenschaften von Abbildungen in eine geometrische Sprache zu u ¨bersetzen. Weiteres dazu ist in den Aufgaben am Ende dieses Kapitels zu finden. Beispiel 6.3.10. Auch in der Theorie der Datenbanken ist man sehr oft an Fasern von Abbildungen interessiert. Dazu betrachten wir eine Relation R ⊂ M1 ×M2 ×. . .×Mn und fragen nach einer mathematischen Interpretation der Datenbankabfrage nach allen Datens¨ atzen (x1 , x2 , . . . , xn ) ∈ R dieser Relation, die den Bedingungen x1 = m1 und x2 = m2 gen¨ ugen. In den g¨angigen Sprachen zur Datenbankabfrage wird dies meist mittels einer select Operation umgesetzt. Um dies in mathematischer Sprache auszudr¨ ucken, betrachten wir zun¨achst die Projektion p : M1 × M2 × . . . × Mn → M1 × M2 . Sie ist gegeben durch p(x1 , x2 , . . . , xn ) = (x1 , x2 ). Nun betrachten wir die Abbildung f : R → M1 × M2 , die durch die gleiche Vorschrift gegeben ist, bei der jedoch der Definitionsbereich auf die Teilmenge R des kartesischen Produktes eingeschr¨ankt wurde. Die gesuchten Datens¨atze bilden dann genau die Elemente der Faser f −1 (m1 , m2 ) = R ∩ p−1 (m1 , m2 ). Wenn die Abfrage statt m1 mehrere verschiedene Werte f¨ ur x1 zul¨ asst, dann handelt es sich um das Urbild f −1 (C) einer mehrelementigen Menge C. Beispiel 6.3.11. Sei M eine Menge und A ⊂ M eine Teilmenge. Die charakteristische Abbildung χA : M → {0, 1} ist vollst¨andig durch die Angabe ihrer Faser u urlich ist dann χ−1 ¨ ber 1 bestimmt: χ−1 A ({1}) = A. Nat¨ A ({0}) = A das Komplement von A in M . Diese Betrachtungsweise kann sehr n¨ utzlich sein, wenn wir Mengen durch Datenstrukturen beschreiben m¨ ussen.
388
6 Grundlagen der Mathematik
¨ Aquivalenzrelationen Außer den Abbildungen, die wir als Sonderf¨alle von Relationen ansehen k¨onnen, gibt es noch weitere spezielle Relationen, die mathematisch relevant sind. Es handelt sich dabei um bin¨ are Relationen einer Menge mit sich selbst, also um Teilmengen des kartesischen Produktes M × M = M 2 . F¨ ur solche Relationen lassen sich zus¨ atzliche Bedingungen formulieren, die wir im Folgenden studieren wollen. Es sei M eine Menge und R ⊂ M × M eine Relation auf der Menge M . F¨ ur ein Paar (a, b) ∈ M × M von Elementen aus M sagen wir a steht in ” Relation zu b“, falls (a, b) ∈ R. Wir sagen a steht nicht in Relation zu b“, ” falls (a, b) 6∈ R. Weil dies unseren Gewohnheiten und Denkweisen n¨aher liegt, schreiben wir a ∼ b, wenn a in Relation zu b steht. Wenn (a, b) 6∈ R, dann schreiben wir a 6∼ b. Wir m¨ochten hier nochmals hervorheben, dass diese Schreibweise nur bei bin¨aren Relationen einer Menge mit sich selbst angewendet wird. Definition 6.3.12. Eine Relation R bzw. ∼ auf einer Menge M heißt ¨ Aquivalenzrelation, wenn f¨ ur beliebige Elemente a, b, c ∈ M die folgenden Eigenschaften erf¨ ullt sind: Reflexivit¨ at Symmetrie Transitivit¨ at
a∼a
a ∼ b =⇒ b ∼ a a ∼ b und b ∼ c =⇒
(6.2) a∼c
(6.3) (6.4)
¨ Definition 6.3.13. Wenn M eine Menge mit Aquivalenzrelation ∼ ist, dann heißt f¨ ur jedes a ∈ M die Menge [a] := {m ∈ M | m ∼ a} die zu a geh¨orige ¨ ¨ Aquivalenzklasse. Die Menge aller Aquivalenzklassen wird mit M/ ∼ bezeichnet. Zu M/ ∼ sagen wir manchmal M modulo ∼“. ” Beispiel 6.3.14. Sei M = Z. Wir definieren a ∼ b ⇐⇒ a + b ist gerade. Das bedeutet, dass zwei ganze Zahlen als ¨ aquivalent angesehen werden, wenn sie dieselbe Parit¨ at haben, also entweder beide gerade oder beide ungerade ¨ sind. Es gibt daher genau zwei Aquivalenzklassen. Dies sind die Mengen [0] und [1]. Offenbar ist [0] = [2] = [4] und [1] = [3] = [5] etc. Statt a ∼ b schreibt man in diesem Fall a ≡ b mod 2. Mehr zu diesem Beispiel und Verallgemeinerungen findet der Leser im Kapitel 1.2. Beispiel 6.3.15. Wir wollen es gibt eine bijektive Abbildung“ zu einer ” ¨ Aquivalenzrelation machen, da wir zuvor am Beispiel des klugen Sch¨afers gesehen hatten, dass wir damit dem Begriff der (Kardinal-)Zahl n¨aher kommen k¨onnen. Wegen der Russellschen Antinomie k¨onnen wir dies aber nicht
6.3 Relationen
389
auf der Menge aller Mengen“ tun. Daher beschr¨anken wir uns auf die Men” ge aller Teilmengen einer beliebigen Menge U . Wenn U groß genug ist, dann sollte dies f¨ ur alle unsere Belange gen¨ ugen. Sei also M = P(U ). Dann ist auf dieser Menge M durch die Vorschrift A∼B
⇐⇒
∃ f : A → B bijektiv
¨ eine Aquivalenzrelation definiert. Zwei Mengen A, B liegen in derselben ¨ Aquivalenzklasse (d.h. sind ¨ aquivalent), wenn es eine bijektive Abbildung zwischen ihnen gibt, also wenn sie gleichm¨ achtig sind. Alle Mengen mit drei ¨ Elementen sind also in derselben Aquivalenzklasse enthalten. Daher ist diese ¨ Aquivalenzklasse das, was wir intuitiv unter der Zahl drei verstehen. Des¨ halb nennen wir die so erhaltenen Aquivalenzklassen auch Kardinalzahlen. ¨ Abweichend von der allgemeinen Bezeichnung einer Aquivalenzklasse durch eckige Klammern schreiben wir |A| f¨ ur die durch eine Menge A definierte Kardinalzahl. Wir sagen: |A| ist die Anzahl der Elemente in A. ¨ Satz 6.3.16 Sei M eine Menge mit einer Aquivalenzrelation ∼. Dann ist ¨ jedes Element aus M in genau einer Aquivalenzklasse enthalten. Beweis. Wir m¨ ussen f¨ ur jedes a ∈ M die Existenz und Eindeutigkeit einer ¨ Aquivalenzklasse, die a enth¨ alt, beweisen. Da wegen der Reflexivit¨at (6.2) sicher a ∈ [a] gilt, ist die Existenz gekl¨ art. F¨ ur die Eindeutigkeit ist zu zeigen, ¨ dass kein Element a ∈ M in zwei verschiedenen Aquivalenzklassen enthalten ist. Dies beweisen wir indirekt. Nehmen wir also an, es g¨abe a, b, c ∈ M mit a ∈ [b] und a ∈ [c]. Dann gilt a ∼ b und a ∼ c. Wegen Symmetrie (6.3) folgt dann b ∼ a. Transitivit¨ at (6.4) liefert nun b ∼ c. Wegen Symmetrie (6.3) folgt daraus auch c ∼ b, d.h. b ∈ [c] und c ∈ [b]. Unter Benutzung der Transitivit¨at (6.4) ergibt sich daraus [b] ⊂ [c] und [c] ⊂ [b], also [c] = [b]. ⊓ ⊔ Die Aussage von Satz 6.3.16 lautet in mathematischer Kurzform: Die Abbildungsvorschrift a 7→ [a] definiert eine surjektive Abbildung M → M/ ∼ . ¨ Es ist sehr wichtig, die Idee der Aquivalenzklassenbildung richtig zu verstehen, da sie die Grundlage f¨ ur viele mathematische Konstruktionen ist. Es handelt sich dabei um eine mathematisch exakte Formulierung des Prinzips der Abstraktion.
390
6 Grundlagen der Mathematik
Ordnungsrelationen Eine weitere spezielle Sorte von Relationen sind die Ordnungsrelationen. Wir alle kennen zum Beispiel die Relation ≤ ( kleiner oder gleich“). Im Sinne des ” in diesem Kapitel bisher Gesagten ist dies eine Relation auf der Menge der ganzen Zahlen, die durch R = {(x, y) ∈ Z2 | x ≤ y} ⊂ Z × Z beschrieben wird. Da Ordnungsrelationen normalerweise nicht symmetrisch sind (aus x ≤ y folgt nicht y ≤ x), benutzt man auch nicht das symmetrische Symbol ¨ ∼ wie es f¨ ur Aquivalenzrelationen im Gebrauch ist. Wir verwenden hier 4 als allgemeines Symbol f¨ ur eine Ordnungsrelation, schreiben also a 4 b f¨ ur (a, b) ∈ R. Definition 6.3.17. Eine Relation R bzw. 4 auf einer Menge M heißt Ordnungsrelation, wenn f¨ ur beliebige Elemente a, b, c ∈ M die folgenden Eigenschaften erf¨ ullt sind: Reflexivit¨ at
a4a
Antisymmetrie Transitivit¨ at
a 4 b und b 4 a a 4 b und b 4 c
(6.5) =⇒ =⇒
a=b a4c
(6.6) (6.7)
Ebenso wie f¨ ur ganze Zahlen a < b gleichwertig zu a ≤ b ∧ a 6= b ist, benutzen wir gelegentlich die abk¨ urzende Schreibweise a≺b
⇐⇒
(a 4 b ∧ a 6= b) ,
wenn 4 eine Ordnungsrelation ist. Die drei Eigenschaften (6.5), (6.6) und (6.7) sind eine Minimalforderung. Die uns vertraute Ordnung der ganzen Zahlen erf¨ ullt außerdem noch die folgende Eigenschaft ∀a, b ∈ M : a 4 b oder b 4 a . (6.8) Wenn eine Ordnungsrelation die Bedingung (6.8) erf¨ ullt, nennt man sie eine totale Ordnung oder lineare Ordnung. Eine Menge mit einer Totalordnung heißt auch Kette. Um hervorzuheben, dass eine Ordnung keine Totalordnung sein muss, sprechen manche Autoren auch von Teilordnung (partial order) oder Halbordnung. Diese Autoren sagen dann aber mitunter Ordnung“ statt totale Ord” ” nung“. In der englischsprachigen Literatur wird eine Menge mit Halbordnung oft als poset bezeichnet. Wir benutzen die Begriffe hier jedoch so wie sie oben eingef¨ uhrt wurden. Eine Wohlordnung ist eine totale Ordnung, bei der jede nichtleere Teilmenge ein kleinstes Element (Def. 6.3.21) besitzt. Dieser Begriff ist beim Studium bestimmter Algorithmen der Computeralgebra von Nutzen, er spielt aber auch im Zusammenhang mit Grundlagenfragen der Mathematik eine Rolle. Wir werden darauf hier nicht wieder zur¨ uckkommen.
6.3 Relationen
391
Beispiel 6.3.18. Sei U eine Menge, dann ist die Teilmengenrelation auf ihrer Potenzmenge M = P(U ) eine Ordnungsrelation. In diesem Fall ist also A 4 B ⇐⇒ A ⊂ B . Im Rahmen des Studiums von Ordnungen scheint es nat¨ urlicher, statt A ⊂ B die Bezeichnung A ⊆ B zu verwenden, da ja Gleichheit nicht ausgeschlossen ist. Da wir jedoch hier die ordnungstheoretischen Eigenschaften dieser Relation nicht im Detail studieren wollen, verzichten wir darauf, von der ansonsten praktizierten bequemen Schreibweise abzuweichen. Beispiel 6.3.19. Auf der Menge N der nat¨ urlichen Zahlen ist durch die Teilbarkeit (siehe Abschnitt 1.1) eine Ordnungsrelation definiert: a 4 b ⇐⇒ a | b Dies l¨asst sich nicht so ohne weiteres auf die Menge Z der ganzen Zahlen ausweiten, da dann die Antisymmetrie (6.6) verletzt wird. Beispiel 6.3.20. Wenn wir aus einer geordneten Menge (N, 4) eine Teilmenge M ⊂ N ausw¨ahlen, dann erbt diese die Ordnungsrelation. Mengentheoretisch bedeutet das, dass wir von R ⊂ N × N zu R ∩ M × M ⊂ M × M u ¨ bergehen. Wenn eine geordnete Menge endlich ist und nicht zu viele Elemente enth¨alt, kann man sie durch ein sogenanntes Hasse-Diagramm 15 darstellen. Das ist wesentlich platzsparender als die Darstellung der Relation durch eine Tabelle. F¨ ur die Menge M = {0, 1, 2, 3, 4, 5, 6} ⊂ N mit der Ordnung der Teilbarkeit aus Beispiel 6.3.19 sieht das wie folgt aus: 0
4
6
2
3
5
1 Jeder Pfeil a → b in solch einem Diagramm besagt, dass a 4 b gilt. Um das Diagramm u ¨bersichtlich zu halten, wird nur dann ein Pfeil a → b eingezeichnet, wenn a 6= b ist und wenn es kein von a und b verschiedenes c mit a 4 c 4 b gibt. So sehen wir zum Beispiel keinen Pfeil 1 → 6. Das ist wegen der Transitivit¨at auch nicht n¨ otig, denn es gibt ja sogar zwei Wege in diesem Graphen, entlang derer man von 1 zu 6 gelangen kann. 15
Helmut Hasse (1898–1979), deutscher Mathematiker.
392
6 Grundlagen der Mathematik
F¨ ur kleine endliche Mengen werden Ordnungsrelationen oft durch solche leicht u ¨berschaubare Hasse-Diagramme angegeben. Bei einer Speicherung im Computer sollte man sich jedoch bewusst sein, dass die Speicherplatzersparnis durch eine erh¨ ohte Rechenzeit erkauft wird. Sowohl in der Analysis als auch beim Entwurf von Algorithmen k¨onnen die folgenden Begriffe von Nutzen sein. Definition 6.3.21. Sei (M, 4) eine geordnete Menge und A ⊂ M eine Teilmenge. (1) Ein Element s ∈ M heißt untere Schranke von A, falls ∀a ∈ A : s 4 a . (2) Ein Element m ∈ A heißt minimales Element von A, falls ∀a ∈ A : a 4 m =⇒ a = m . (3) Ein Element k ∈ A heißt kleinstes Element von A, falls ∀a ∈ A : k 4 a . (4) Ein Element i ∈ M heißt Infimum von A, falls i untere Schranke von A ist und f¨ ur jede untere Schranke s von A gilt s4i. V¨ollig analog definiert man die Begriffe obere Schranke, maximales Element , gr¨oßtes Element und Supremum. Aus diesen Definitionen folgt sofort, dass ein Infimum nichts anderes als eine gr¨ oßte untere Schranke ist, also ein gr¨oßtes Element in der Menge aller unteren Schranken. Wir sehen sofort aus der Definition, dass jedes kleinste Element auch eine untere Schranke ist. Es gilt sogar, dass ein Element x ∈ M genau dann kleinstes Element von A ist, wenn es eine untere Schranke ist, die in A enthalten ist. Die Definition des Begriffes des minimalen Elements ist hier am kompliziertesten. Sie ist etwas indirekter als die u ¨ brigen. Sie besagt, dass jedes Element aus A minimal ist, wenn es in A nichts Kleineres“ gibt. Es ist dabei unwich” tig, ob dieses Element mit den u ¨ brigen Elementen aus A vergleichbar ist. Wenn eine totale Ordnung vorliegt, dann ist jedes minimale Element automatisch auch ein kleinstes Element. F¨ ur allgemeine Ordnungen ist dies jedoch nicht immer der Fall. Andererseits ist jedes kleinste Element von A automatisch auch minimales Element. Es kann h¨ ochstens ein kleinstes Element von A geben. Interessant sind Beispiele von geordneten Mengen, die kein kleinstes Element, jedoch mehrere minimale Elemente enthalten. Ein solches Beispiel ist die Menge A = {2, 3, 4, 5, 6} mit der Teilbarkeitsordnung aus Beispiel 6.3.19. Das zugeh¨orige Hasse-Diagramm entsteht aus dem obigen durch Entfernen
6.3 Relationen
393
der Zahlen 0 und 1 und aller in ihnen beginnenden oder endenden Pfeile. Diese Menge enth¨alt drei minimale {2, 3, 5} und drei maximale {4, 5, 6} Elemente, aber kein kleinstes oder gr¨ oßtes Element. Die minimalen Elemente sind diejenigen, in denen kein Pfeil endet. In den maximalen startet kein Pfeil. Wie wir hier sehen, ist es nicht ausgeschlossen, dass ein Element sowohl minimal als auch maximal ist. In einem Hasse-Diagramm sind das genau die Elemente, die mit keinem anderen durch einen Pfeil verbunden sind. Die Zahl 1 ist das kleinste Element in der durch Teilbarkeit geordneten Menge N der nat¨ urlichen Zahlen. Die Zahl 0 ist das gr¨oßte Element in dieser Ordnung! Dies gilt ebenso f¨ ur die Menge M in Beispiel 6.3.19. Wenn wir diese Zahlen 0 und 1 aus der Menge der nat¨ urlichen Zahlen entfernen, dann ist jede Primzahl ein minimales Element der verbleibenden Menge, die dann kein kleinstes, kein gr¨ oßtes und auch kein maximales Element mehr enth¨alt. Die Frage nach der Existenz von kleinsten, minimalen, gr¨oßten etc. Elementen einer Menge A ist oftmals eine knifflige Frage, bei deren Beantwortung gute Algorithmen und Computerprogramme helfen k¨onnen. Beispiel 6.3.22. Das Ordnungsprinzip, nach dem W¨orter in einem Lexikon oder W¨orterbuch geordnet werden, l¨ asst sich auf kartesische Produkte geordneter Mengen u ¨ bertragen. Die lexikographische Ordnung der Menge Nn ist wie folgt definiert: (a1 , a2 , . . . , an ) ≺lex (b1 , b2 , . . . , bn ) ⇐⇒ ∃ k : ak > bk ∧ (∀ i < k : ai = bi ) . ¨ Die rechte Seite dieser Aquivalenz besagt im Klartext, dass wir beim ersten Eintrag beginnend die erste Stelle suchen, an der die beiden Tupel sich unterscheiden und diese dann vergleichen. Basierend auf dem ersten Cantorschen Diagonalverfahren kann man auf der Menge Nn auch die gradlexikographische Ordnung erkl¨aren: (a1 , a2 , . . . , an ) ≺dlex (b1 , b2 , . . . , bn )
⇐⇒ a1 + a2 + . . . + an < b1 + b2 + . . . + bn oder a1 + a2 + . . . + an = b1 + b2 + . . . + bn und ∃ k : ak > bk ∧ (∀ i < k : ai = bi ) . Das bedeutet, dass zuerst die Summe der Eintr¨age verglichen wird. Nur bei Gleichheit dieser Summe wird lexikographisch geordnet. In dieser Ordnung (besonders anschaulich im Fall n = 2) ist gr¨ oßer, was auf einer entfernteren Diagonale liegt oder auf derselben Diagonale weiter unten. Beide Ordnungen sind mit der Addition vertr¨ aglich, das heißt dass f¨ ur beliebige a, b, c ∈ Nn die Implikation a4b
=⇒
a+c4b+c.
394
6 Grundlagen der Mathematik
gilt. Solche Ordnungen kommen beim Studium von Polynomringen mit mehreren Variablen zur Anwendung. Dort werden die Tupel a = (a1 , a2 , . . . , an ) als Exponenten interpretiert, sie entsprechen dann Monomen der Gestalt xa1 1 xa2 2 · · · xann . Die hier eingef¨ uhrten lexikographischen Ordnungen sind Monomordnungen, mit deren Hilfe sich der Euklidische Algorithmus f¨ ur Polynome in einer Variablen (siehe Kapitel 1.4) auf Polynome in mehreren Variablen verallgemeinern l¨ asst. Als Einstieg in diese Thematik eignet sich [GP]. ¨ Zum Abschluss empfehlen wir unseren Lesern, sich einen Uberblick u ¨ber die verschiedenen, im Text genannten Darstellungsformen von Funktionen, Abbildungen und Relationen zu verschaffen. Stichworte dazu: Graph (in zwei Bedeutungen), verschiedene Tabellen, Formel, Faser.
Aufgaben ¨ Ubung 6.14. Was bedeutet es f¨ ur eine boolesche Funktion, nicht surjektiv zu sein? ¨ ¨ Ubung 6.15. Uberpr¨ ufen Sie f¨ ur die folgenden Abbildungen, ob sie injektiv, surjektiv oder bijektiv sind: (Die Notation ist in Abschnitt 1.2 erkl¨art.) (a) f : Z × Z → Z, gegeben durch f (x, y) := x + y. (b) g : Z/5Z → Z/5Z, gegeben durch g([a]) := [a2 ]. (c) h : Z/13Z → Z/13Z, gegeben durch h([a]) := [5 · a]. ¨ Ubung 6.16. Seien f : A → B und g : B → C Abbildungen. Zeigen Sie, dass g ◦ f injektiv ist, wenn f und g beides injektive Abbildungen sind. Gilt dies auch, wenn das Wort injektiv“ u ¨berall durch surjektiv“ ersetzt wird? ” ” ¨ Ubung 6.17. Beweisen Sie: Wenn f : A → B und g : B → C Abbildungen sind, so dass g ◦ f : A → C injektiv ist, dann ist f injektiv. Muss auch g injektiv sein? ¨ Ubung 6.18. Beweisen Sie: Wenn f : A → B und g : B → C Abbildungen sind, so dass g ◦ f : A → C surjektiv ist, dann ist g surjektiv. Muss auch f surjektiv sein? ¨ Ubung 6.19. Sei f : A → B eine Abbildung. Beweisen Sie: f ist injektiv ⇐⇒
∀ b ∈ B : |f −1 ({b})| ≤ 1 .
f ist bijektiv ⇐⇒
∀ b ∈ B : |f −1 ({b})| = 1 .
f ist surjektiv ⇐⇒
∀ b ∈ B : |f −1 ({b})| ≥ 1 .
6.3 Relationen
395
¨ Ubung 6.20. Sei f : A → B eine Abbildung. Beweisen Sie, dass f genau dann bijektiv ist, wenn es eine Abbildung g : B → A gibt, f¨ ur die f ◦ g = IdB und g ◦ f = IdA gilt. Dabei bezeichnet IdA : A → A die identische Abbildung. Sie ist durch IdA (a) = a f¨ ur jedes a ∈ A gegeben. Entsprechend ist IdB : B → B die identische Abbildung von B. ¨ Ubung 6.21. Beweisen Sie, dass die Gleichm¨achtigkeit (Beispiel 6.3.15) ¨ wirklich eine Aquivalenzrelation ist. ¨ Ubung 6.22. Ist die lexikographische bzw. gradlexikographische Ordnung auf Nn eine totale Ordnung? ¨ Ubung 6.23. Sei (T, 4) eine total geordnete Menge und A ⊂ T eine nichtleere, endliche Teilmenge. Zeigen Sie, dass A ein kleinstes Element enth¨alt. Geben Sie ein Beispiel einer total geordnete Menge an, die eine (nicht endliche) Teilmenge enth¨ alt, in der es kein kleinstes Element gibt.
Lo ¨sungen
1.1 (a) Der Euklidische Algorithmus liefert hier: 54321 − 4 · 12345 = 4941 4941 − 2 · 2463 = 15 15 − 5 · 3 = 0 ,
also
12345 − 2 · 4941 = 2463 2463 − 164 · 15 = 3
ggT(12345, 54321) = 3 .
R¨ uckw¨arts Einsetzen: 3 = 2463 − 164 · 15 = 329 · 2463 − 164 · 4941 = 329 · 12345 − 822 · 4941 = 3617 · 12345 − 822 · 54321. (b) Es ergibt sich ggT(338169, 337831) = 169 = 1000 · 337831 − 999 · 338169. (c) Wir erhalten ggT(98701, 345) = 1 = 25462 · 345 − 89 · 98701. 1.2 Da d > 0, folgt aus c | d stets auch c ≤ d, also folgt aus (ii) die Eigenschaft (ii’). Wenn umgekehrt d die Eigenschaften (i) und (ii’) erf¨ ullt und d′ = ggT(a, b) ist, dann folgt d | d′ aus der zweiten Eigenschaft f¨ ur den gr¨oßten gemeinsamen Teiler, woraus wir d ≤ d′ erhalten. Andererseits ergibt sich aus (ii’) d′ ≤ d und daher schließlich d = d′ . 1.3 Induktionsanfang. Wenn n = 1, dann erhalten wir auf beiden Seiten der Gleichung den Wert 1. Induktionsschritt. Wir setzen voraus, dass f¨ ur ein festes n ≥ 0 die Gleichung 2 Pn n(n+1) 3 gilt. Dann haben wir f¨ ur dasselbe n zu beweisen, dass k=1 k = 2 Pn+1 3 (n+1)(n+2) 2 ist. auch k=1 k = 2 2 2 Pn+1 3 Pn Beweis: k=1 k = k=1 k 3 + (n + 1)3 = n(n+1) + (n + 1)3 = n+1 · 2 2 2 . (n2 + 4(n + 1)) = (n+1)(n+2) 2 1.4 Induktionsanfang. F¨ ur n = 0 erhalten wir auf beiden Seiten der ersten Formel den Wert 1. Bei der zweiten Formel ergeben sich verschiedene Werte!
397
398
L¨ osungen
Pn Induktionsschritt. Unter der Annahme, dass k=0 q k = Pn+1 n+2 n ≥ 0 gilt, ist zu zeigen, dass k=0 q k = q q−1−1 . Pn+1 Pn n+1 Beweis: k=0 q k = k=0 q k + q n+1 = q q−1−1 + q n+1 =
Auch bei der zweiten Formel funktioniert diese
qn+1 −1 q−1
f¨ ur ein festes
qn+2 −1 q−1 . n+1 2 +q−1 Rechnung, da q −q q−1
+
qn+2 −q2 +q−1 . q−1
Da sich jedoch kein Induktionsanfang finden l¨asst, folgt q n+1 = daraus nicht die G¨ ultigkeit der zweiten Formel. Der Ausdruck auf der rechten Seite der ersten Formel ist einem bekannterem n+1 n+1 2 +q−1 + q = q q−1−1 , die rechte Seite der zweiten Formel weicht gleich: q −q q−1 davon jedoch um den Wert q ab. 1.5 Induktionsanfang. F¨ ur n = 0 ergibt sich auf beiden Seiten der Wert 1. Induktionsschritt. Wir setzen voraus, dass f¨ ur ein n ≥ 0 die Gleichung n X n k n−k (a + b) = a b k n
k=0
gilt, und haben zu zeigen, dass auch (a + b)n+1 =
n+1 X
n + 1 k n+1−k a b k
k=0
Beweis: Unter Benutzung von
n k−1
+
n k
=
(a + b)n+1 = (a + b) · (a + b)n = (a + b) ·
n+1 k
ergibt sich
n X n k=0
k
ist.
ak bn−k
n n X n k+1 n−k X n k n+1−k a b = a b + k k k=0 k=0 n n+1 X X n n k n+1−k a b ak bn+1−k + = k k−1 k=0 k=1 n n n+1 X n n n n+1 k n+1−k = a + + a b + b n k−1 k 0 k=1 n n + 1 n+1 X n + 1 k n+1−k n + 1 n+1 = a + a b + b n+1 k 0 k=1 n+1 X n + 1 = ak bn+1−k . k k=0
1.6 Induktionsanfang. Wenn n = 0, dann ist k = 0 und die Formel ist offenbar korrekt.
L¨ osungen zu Kapitel 1
399
(n−1)! Induktionsschritt. Wir setzen voraus, dass n−1 = k!·(n−k−1)! f¨ ur ein festes k n undalle k mit 0 ≤ k ≤ n − 1 gilt. Zu beweisen ist die behauptete Formel f¨ ur nk mit 0 ≤ k ≤ n. n−1 Beweis. Da nach Definition n0 = n−1 und nn = n−1 , ist die behauptete 0 Formel f¨ ur k = 0 und k = n richtig. Da n! = n(n − 1)!, k! = k(k − 1)! und (n − k)! = (n − k)(n − k − 1)!, folgt f¨ ur 0 < k < n aus der Definition und Induktionsvoraussetzung (n − 1)! n n−1 (n − 1)! n−1 + = + = k! · (n − k − 1)! (k − 1)! · (n − k)! k k k−1 1 1 (n − 1)! + = (k − 1)! · (n − k − 1)! k n − k (n − 1)! n n! = · = . (k − 1)! · (n − k − 1)! k(n − k) k! · (n − k)! Wenn n = p prim ist, dann ist jedes k mit 1 ≤ k ≤ p − 1 zu p teilerfremd. Da nach der soeben bewiesenen Formel p! = kp ·(p − k)! · k! gilt, muss wegen Satz 1.1.7 (a) die Primzahl p ein Teiler von kp sein.
1.7 Der Induktionsanfang (n = 2) wurde im Satz 1.1.7 bewiesen. F¨ ur den Induktionsschritt m¨ ussen wir die behauptete Aussage f¨ ur den Fall von n + 1 Faktoren beweisen, wobei wir deren G¨ ultigkeit f¨ ur n ≥ 2 Faktoren voraussetzen. Sei dazu p Teiler eines Produktes a1 · . . . · an · an+1 = a · an+1 mit a = a1 ·. . .·an . Aus Satz 1.1.7 folgt jetzt p | a oder p | an+1 . Da a ein Produkt von n Faktoren ist, folgt die Behauptung aus der Induktionsvoraussetzung. 1.8 √ Der Beweis wird indirekt gef¨ uhrt. Wir nehmen√an, dass 26 rational ist, das onnen m und heißt, dass es ganze Zahlen m, n gibt, so dass 26 = m n . Wir k¨ n teilerfremd w¨ahlen. Quadrieren liefert m2 = 26n2 . Nach Satz 1.1.7 muss 2 ein Teiler von m sein, also gibt es k ∈ Z mit m = 2k. Dann ist 4 ein Teiler von 26n2 , d.h. 2 teilt 13n2 . Nach Satz 1.1.7 (a) und Satz 1.1.7 muss dann aber auch n durch 2 teilbar sein, was im Widerspruch zur Teilerfremdheit von m und n steht. 1.9 (a) Entsprechend Definition 1.1.10 ist ϕ(pq) = |{k | 1 ≤ k < pq, ggT(k, pq) = 1}| . F¨ ur k mit 1 ≤ k < pq kann ggT(k, pq) nur drei m¨ogliche Werte annehmen, n¨amlich 1, p, q. Wir haben ggT(k, pq) = p genau f¨ ur die q − 1 Zahlen p, 2p, 3p, . . . , (q − 1)p. Analog gibt es p − 1 Zahlen k mit ggT(k, pq) = q. Da p und q verschiedene Primzahlen sind, u ¨berschneiden sich beide Listen nicht. Von den pq −1 m¨oglichen Zahlen k werden daher genau q −1+p−1 = p+q −2 nicht ber¨ ucksichtigt. Das ergibt ϕ(pq) = pq − 1 − (p + q − 2) = (p − 1)(q − 1).
400
L¨ osungen
(b) ϕ(101) = 100, ϕ(141) = ϕ(3)ϕ(47) = 92, ϕ(142) = ϕ(2)ϕ(71) = 70, ϕ(143) = ϕ(11)ϕ(13) = 120, ϕ(169) = ϕ(132 ) = 156, ϕ(1024) = ϕ(210 ) = 512. p−1 (c) Aus Satz 1.1.11 erhalten wir ϕ(pk ) = pk f¨ ur jede Primzahl p und p k ≥ 1. Durch Zerlegung von n in ein Produkt Q von Potenzen verschiedener Primzahlen ergibt sich daraus ϕ(n) = n p|n p−1 p . Somit erhalten wir Q 1 = gilt. Damit diese Gleichung gel2ϕ(n) = n genau dann, wenn p|n p−1 p 2 ten kann, muss einer der Nenner des Produktes auf der linken Seite gleich 2 ur p > 2, folgt nun, dass n durch keine sein, das heißt 2 | n. Da p−1 p < 1 f¨ Primzahl p > 2 teilbar ist. Also gilt n = 2k f¨ ur ein k ≥ 1. Da ϕ(2k ) = 2k−1 , sind damit alle Zahlen n gefunden, f¨ ur die n = 2ϕ(n) gilt. 1.10 Wenn n ungerade ist, dann gibt es k ∈ Z mit n = 2k + 1. Es ergibt sich n2 − 1 = (2k + 1)2 − 1 = 4k(k + 1). Da von den zwei Zahlen k, k + 1 genau eine gerade ist, ist 4k(k + 1) durch 8 teilbar. 1.11 Wenn wir den ersten und letzten, den zweiten und vorletzten, oder allgemein den k-ten Summanden und den Summanden, der sich an k-ter Stelle vom Ende gez¨ahlt befindet, zueinander addieren, dann haben wir den Ausdruck k 13 + (2001 − k)13 vor uns. Da 2001 − k ≡ −k mod 2001 und 13 eine ungerade Zahl ist, erhalten wir k 13 + (2001 − k)13 ≡ 0 mod 2001. Da die Gesamtzahl der Summanden gerade ist, ergibt sich daraus die gew¨ unschte Teilbarkeitsaussage. 1.12 F¨ ur 3-423-62015-3 ist die Pr¨ ufgleichung ur eine ISBN-10 erf¨ ullt. Im Fall von P10 f¨ 3-528-28783-6 erhalten wir jedoch i=1 i · ai ≡ 1 mod 11. Wir bezeichnen die gegebenen Ziffern mit a1 , . . . , a10 . Wenn ak fehlerhaft und der korrekte Wert gleich bk ist, dann ergibt die Pr¨ ufgleichung k(ak − bk ) ≡ 1 mod 11. Wenn [r] ∈ Z/11Z die Gleichung [r][k] = [1] erf¨ ullt, dann ergibt sich der korrekte Wert bk aus [bk ] = [ak ] − [r]. Auf diese Weise kann man folgende Tabelle erzeugen: [k] [ak ] [r] [bk ]
1 2 3 3 5 2 1 6 4 2 10 9
45 82 39 54
6 7 89 8 7 83 2 8 75 6 10 1 9
10 6 10 7
Da der Wert 10 an den Positionen 2 und 7 nicht zugelassen ist, ergeben sich 8 verschiedene M¨ oglichkeiten, die fehlerhafte ISBN-10 zu korrigieren. Falls das Pr¨ ufzeichen a10 fehlerhaft war, ergibt sich die neue Pr¨ ufziffer der entsprechenden ISBN-13 zu 2. Wenn hingegen eine andere Ziffer ak durch bk ersetzt wurde, dann lesen wir das entsprechende r aus der Tabelle ab und erhalten die neue Pr¨ ufziffer [r + 2] f¨ ur gerades k und [3r + 2] f¨ ur ungerades k. Nur 3-528-26783-6 ist tats¨ achlich die ISBN eines Buches. Die entsprechende ISBN-13 lautet 9783528267834.
L¨ osungen zu Kapitel 1
401
1.13 Die additive Gruppenstruktur auf der Menge Z×Z ist durch (x, y)+(x′ , y ′ ) = (x + x′ , y + y ′ ) gegeben. Da f (x + x′ , y + y ′ ) = (x + x′ ) − (y + y ′ ) = (x − y) + (x′ − y ′ ) = f (x, y) + f (x′ , y ′ ), ist f ein Homomorphismus. Er ist surjektiv, da f¨ ur jedes x ∈ Z f (x, 0) = x gilt. Daher ist im(f ) = Z. Andererseits ist genau dann (x, y) ∈ ker(f ), wenn x − y = 0. Somit ist f nicht injektiv und ker(f ) = {(x, x) | x ∈ Z}. 1.14 Ein Zyklus der L¨ange k hat die Ordnung k in jedem Sn . F¨ ur die sechs Elemente von S3 ergibt sich: ord(Id) = 1, ord(1 2) = ord(1 3) = ord(2 3) = 2 und ord(1 2 3) = ord(1 3 2) = 3. 1.15 Sei d = ggT(a, n) und n′ := nd , a′ := ad . Dann ist ggT(a′ , n′ ) = 1. F¨ ur eine ganze Zahl k gilt [ka] = [0] in Z/nZ genau dann, wenn n | ka und dies ist aquivalent zu n′ | ka′ . Wegen Satz 1.1.7 (a) ist dies zu n′ | k ¨aquivalent. ¨ ur die k[a] = [0] ist. Daher ist n′ = nd die kleinste positive ganze Zahl, f¨ 1.16 (a) Jede zyklische Gruppe ist abelsch, da stets g k ∗ g l = g l ∗ g k . Daher sind D5 und S3 nicht zyklisch. Die Gruppe Z/5Z ist zyklisch mit Erzeuger [1]: Z/5Z = {[1], 2 · [1], 3 · [1], 4 · [1], 5 · [1]}. Dabei ist die additive Schreibweise zu ∗ ∗ beachten. Auch (Z/5Z) ist zyklisch. Ein Erzeuger ist [2], denn (Z/5Z) = {[2], [2]2 , [2]3 , [2]4 , [2]5 }. (b) Wenn p = ord(G) eine Primzahl ist, dann ist p > 1 und es gibt ein Element e 6= g ∈ G. Da e das einzige Element mit Ordnung 1 ist, muss ord(g) > 1 sein. Weil nach Satz 1.3.23 ord(g) ein Teiler von p = ord(G) ist, ergibt sich ord(g) = p, d.h. G ist zyklisch. 1.17 Da ϕ(17) = 16, folgt die Wohldefiniertheit der Abbildung g aus Satz 1.3.24. Da 7a+b = 7a · 7b , ist g ein Homomorphismus.Die multiplikative Ordnung von [7] muss ein Teiler von 16 = ord (Z/17Z)∗ sein. Wegen [7]8 = [−1] ist ord ([7]) = 16, woraus die Surjektivit¨ at und die Injektivit¨at von g folgt. 1.18 Da f (ak ) = f (a)k , folgt aus ak = e stets f (a)k = e. Wenn f injektiv ist, dann hat f (a)k = e auch ak = e zur Folge. Somit ist das kleinste positive k mit dem man ak = e erh¨ alt auch das kleinste positive k mit dem man f (a)k = e erh¨alt. F¨ ur jeden injektiven Gruppenhomomorphismus ist daher ord(a) = ord(f (a)). Wenn f nicht injektiv ist, dann gilt f¨ ur jedes a 6= e aus dem Kern von f : ord(a) 6= ord(f (a)) = 1. Ein konkretes Beispiel ist der durch f (a) = [a] gegebene Homomorphismus f : Z −→ Z/2Z, dessen Kern 2Z ist. 1.19 Die Gruppe Z/4Z ist zyklisch. Die beiden Elemente [1] und [3] haben Ordnung vier. In der Gruppe Z/2Z × Z/2Z haben hingegen alle Elemente die Ordnung 1 oder 2. Nach Aufgabe 1.18 k¨ onnen sie also nicht isomorph sein. Da 2 und 3 teilerfremd sind, folgt aus Satz 1.3.34, dass durch [a]6 7→ ([a]2 , [a]3 ) ein Isomorphismus Z/6Z −→ Z/2Z × Z/3Z definiert ist.
402
L¨ osungen
1.20 Weil K(x) ∗ K(y) = g ∗ x ∗ g −1 ∗ g ∗ y ∗ g −1 = g ∗ x ∗ (g −1 ∗ g) ∗ y ∗ g −1 = g ∗ x ∗ y ∗ g −1 = K(x ∗ y), ist K ein Homomorphismus. Er ist bijektiv, da g ∗ x ∗ g −1 = z ¨aquivalent zu x = g −1 ∗ z ∗ g ist. Wenn die Gruppe G abelsch ist, dann ist K = Id. 1.21 Es ist zu zeigen, dass gU = U g f¨ ur alle g ∈ G gilt. Wenn g ∈ U , dann folgt aus der Definition von Untergruppe (Def. 1.3.8), dass gU = U = U g. Da verschiedene Nebenklassen disjunkt sind (Satz 6.3.16) und U genau die H¨alfte aller Elemente von G enth¨ alt, ist gU = G r U und U g = G r U f¨ ur jedes g ∈ G r U . 1.22 Nach Satz 1.3.23 kommen nur die Teiler 1, 2, 3, 6 von 6 = ord (S3 ) als Ordnung einer Untergruppe U ⊂ S3 in Betracht. Wenn ord(U ) = 1, dann ist U = {Id} und dies ist ein Normalteiler. Wenn ord(U ) = 6, dann ist U = S3 und dies ist ebenfalls ein Normalteiler. Da 2, 3 Primzahlen sind, ist jede Untergruppe dieser Ordnungen zyklisch (Aufg. 1.16). Jedes der drei Elemente der Ordnung 2 erzeugt eine Untergruppe mit 2 Elementen: {Id, (1 2)}, {Id, (1 3)}, {Id, (2 3)}. Da (1 3)(1 2)(1 3) = (1 2)(1 3)(1 2) = (2 3), ist keine dieser Untergruppen Normalteiler. Da (1 2 3)2 = (1 3 2) , hat S3 nur die eine Untergruppe {Id, (1 2 3), (1 3 2)} der Ordnung 3. Sie ist nach Aufgabe 1.21 Normalteiler. 1.23 Zu beachten ist, dass xσ(y) 6= yσ(x) nicht zu y −1 σ(y) 6= x−1 σ(x) ¨aquivalent ist. Wir m¨ ussen also tats¨ achlich alle Produkte xσ(y) berechnen. Tabelle A.1 ist so aufgebaut, dass im Kopf der Spalte i das Element σ(x) steht, wenn x in Zeile i ganz links zu finden ist. Die Behauptung folgt dann daraus, dass es in dieser Tabelle kein Element aus D5 gibt, welches gleichzeitig an den Positionen (i, j) und (j, i) auftritt. t 1 t t2 t3 t4 s st st2 st3 st4 x
t2 t3 t4 1 st st2 st3 st4 s
Tabelle A.1 Aufgabe 1.23
s st3 st4 s st3 st4 st2 st3 st3 st2 st2 s st st4 s 1 t3 t4 t4 t2 t3 t3 t t2 t2 1 t t t4 1
t2 t2 t3 t4 1 st2 st3 st4 s st
st2 st2 st s st4 st3
t4 t4 1 t t2 t3 st4
st st s st4 st3 st2 t 1
1 1 t t2 t3 t4 s st st2
t 1 st t4 st2 t3 t3 st3 t2 st4
t3 t3 t4 1 t t2 st3 st4 s st
σ(y)
xσ(y)
L¨ osungen zu Kapitel 1
403
1.24 Ersetzen wir G durch 2 und L durch 4, dann ergibt sich Tabelle A.2. Das Position i Ziffer a Potenz von σ σi (a) Element in D5
1 2 σ 7 st3
2 4 σ2 7 st3
3 0 σ3 8 st2
4 7 σ4 8 st2
5 6 σ5 3 t3
6 9 σ6 5 s
7 9 σ7 8 st2
8 4 1 4 t4
9 7 σ 0 1
10 2 σ2 0 1
11 2 1 2 t2
Tabelle A.2 Aufgabe 1.24
Produkt der Elemente der letzten Zeile berechnet sich zu st3 · st3 · st2 · st2 · t3 · s · st2 · t4 · 1 · 1 · t2 = t, die Pr¨ ufgleichung ist nicht erf¨ ullt. 1.25 Die vollst¨andige Nummer lautet DY3333333Z7. 1.26 Die Gleichung a ∗ a = e bedeutet a−1 = a. Wegen Bemerkung 1.3.7 haben wir a ∗ b = (a ∗ b)−1 = b−1 ∗ a−1 = b ∗ a f¨ ur a, b ∈ G, d.h. G ist abelsch. 1.27 Der Euklidische Algorithmus liefert ggT(f, g) = X − 1. 1.28 Es gilt X 5 + X 3 + X 2 + 1 − X 4 + X 3 − X 2 (X + 2) = 1 in F3 [X]. 1.29 Da f¨ ur f, g ∈ I und r ∈ Z[X] sowohl (f + g)(1) = f (1) + g(1) = 0 als auch (r · f )(1) = r(1) · f (1) = r(1) · 0 = 0 gilt, ist I ein Ideal in Z[X]. Mit Hilfe von Division durch X − 1 mit Rest kann man jedes Polynom f ∈ Z[X] in der Gestalt f = (X − 1) · g − r mit r ∈ Z und g ∈ Z[X] schreiben. Daraus ergibt sich I = hXi, d.h. I ist ein Hauptideal in Z[X]. 1.30 Da K[X]/hf i ein Ring ist, ist nur zu zeigen, dass jede von Null verschiedene Restklasse ein multiplikatives Inverses besitzt. Ein Polynom g ∈ K[X] ist genau dann durch f teilbar, wenn seine Restklasse in K[X]/hf i gleich Null ist. Da f irreduzibel ist, gilt ggT(f, g) = 1 f¨ ur jedes nicht durch f teilbare Polynom g ∈ K[X]. Wenn ggT(f, g) = 1, dann liefert der Euklidische Algorithmus Polynome r, s ∈ K[X], so dass rf + sg = 1 gilt. Die Restklasse von s ist das multiplikative Inverse der Klasse von g. 1.31 Da X 2 + X + 1 = 1 + X(X − 1), hat dieses Polynom keine Nullstelle in F2 . Das gen¨ ugt, um zu zeigen, dass dieses quadratische Polynom irreduzibel im Ring F2 [X] ist. Nach Aufgabe 1.30 ist K = F2 [X]/hX 2 + X + 1i ein K¨orper. Wenn ξ ∈ K die Restklasse von X bezeichnet, dann besteht K aus den vier Elementen 0, 1, ξ, 1 + ξ und es gilt ξ 2 = 1 + ξ, ξ 3 = 1. Die zyklische Gruppe K ∗ wird von ξ erzeugt.
404
L¨ osungen
1.32 Wenn ggT(a, n) = 1, dann liefert der Euklidische Algorithmus ganze Zahlen r, s, so dass ra + sn = 1, also [r] · [a] = [1] und [a] ist Einheit in Z/nZ. Falls jedoch ggT(a, n) = d > 1, so ist a = a′ · d und n = n′ · d mit [n′ ] 6= 0. Das ergibt a · n′ = a′ · d · n′ = a′ · n, d.h. [a] ist Nullteiler in Z/nZ. 1.33 Da 7, 8, 9 paarweise teilerfremd sind, k¨ onnen wir den im Text beschriebenen Algorithmus verwenden. Es ergibt sich x = 499 als kleinste positive L¨osung: x1 = 2
y ≡ (b2 − x1 )m−1 1
y ≡ (3 − 2)7 x2 = x1 + 7y = 51
y≡7
−1
mod 8
mod 8
y ≡ (b3 − x2 )(m1 m2 )−1
y ≡ (4 − 51)56 x3 = x2 + 56y = −5
mod m2
−1
mod m3
mod 9
y ≡ −1 mod 9 =⇒ x = −5 + 7 · 8 · 9 · k = −5 + 504k .
1.34 Da 7, 11, 13 Primzahlen sind, verfahren wir wie in der vorigen Aufgabe. x1 = 5
y ≡ (b2 − x1 )m−1 1
y ≡ (7 − 5)7 x2 = x1 + 7y = 40
−1
mod 11
y ≡ 5 mod 11
y ≡ (b3 − x2 )(m1 m2 )−1 y ≡ (11 − 40)77
x3 = x2 + 77y = 271
mod m2
−1
mod m3
mod 13
y ≡ 3 mod 13 =⇒ x = 271 + 7 · 11 · 13 · k = 271 + 1001k .
1.35 Q Offenbar ist a∈Fp (X − a) ein solches Polynom. Ebenso X p − X, da nach Satz 1.3.23 jedes Element von F∗p Nullstelle von X p−1 − 1 ist. Da sich zwei Polynome vom selben Grad, die die gleichen Nullstellen haben, h¨ochstens um einen konstanten Faktor unterscheiden k¨ onnen, sind die beiden angegebenen Polynome sogar gleich. Wenn a ∈ F5 , dann ist a2 ∈ {[−1], [0], [1]}. Daher haben die beiden Polynome X 2 +2 und X 2 +3 keine Nullstelle in F5 . Da f¨ ur p > 2 immer zwei verschiedene Elemente, [a] und [−a], dasselbe Quadrat [a2 ] in F∗p haben, gibt es f¨ ur jede Primzahl p > 2 immer (p − 1)/2 Elemente [b] ∈ F∗p , f¨ ur die X 2 − b keine Nullstelle in F∗p hat. Eine systematische Untersuchung dieser sogenannten quadratischen Reste mit Hilfe des Legendre-Symbols findet der interessierte Leser zum Beispiel in [Se].
L¨ osungen zu Kapitel 1
405
1.36 (a) Da (K, +) eine abelsche Gruppe ist, folgt dass dies auch f¨ ur leicht, P P (I(K), +) gilt. Da (f · g)(n) := d|n f (d)g nd = a·b=n f (a) · g(b), ergibt sich leicht die Assoziativit¨ at und Kommutativit¨at der Multiplikation. Dass e das Einselement ist, pr¨ uft man ebenso wie das Distributivgesetz durch eine direkte Rechnung nach. (b) Aus f · g = e folgt f (1) · g(1) = e(1) = 1, also ist f (1) ∈ K ∗ . Wenn umgekehrt f (1) ∈ K ∗ , dann definieren wir g(1) = f (1)−1 . F¨ uP r n > 1 definieren wir g(n) mit Hilfe der Gleichung 0 = e(n) = (f · g)(n) = a·b=n f (a) · g(b), P n¨ amlich rekursiv g(n) := −f (1)−1 a·b=n,b
und somit f ∈ I(K)∗ . P P (c) Es gilt (u · ϕ)(n) = (ϕ · u)(n) = d|n ϕ(d)u nd = d|n ϕ(d) = n, siehe Schritt 2 im Beweis von Satz 1.4.27. 1.37 Entsprechend Satz 1.4.27 ist F∗17 eine zyklische Gruppe der Ordnung 16. Die Elemente dieser Gruppe k¨ onnen damit nur die Ordnung 1, 2, 4, 8 oder 16 haben. Wie im Schritt 5 des Beweises von Satz 1.4.27 gezeigt, gibt es genau ϕ(d) Elemente der Ordnung d f¨ ur jede der m¨oglichen Ordnungen. ∗ 2 8 Da jedes a ∈ F17 die Gleichung a = a16 = 1 erf¨ ullt, hat keines der Quadrate die Ordnung 16. Die Quadrate der Elemente [1], [2], . . . , [8] sind [1], [4], [9], [16], [8], [2], [15], [13]. Daher haben genau die acht restlichen Elemente [5], [6], [7], [10], [11], [12], [13], [14] die Ordnung 16. Wenn wir die gefundenen Quadrate in der Form [±1], [±2], [±4], [±8] schreiben, dann sehen wir leicht, dass die Quadrate dieser Elemente gerade [1], [4], [16], [13] 4 sind. Da a4 = a16 = 1, hat keines dieser Elemente die Ordnung 8. Die Elemente der Ordnung 8 sind daher [2], [8], [9], [15]. Da ord ([1]) = 1 und ord ([16]) = ord ([−1]) = 2, haben schließlich [4] und [13] die Ordnung 4. 1.38 2 Quadratische Erg¨anzung ergibt 2X 2 − 2X + 5 = 2 X − 12 + 92 . Damit, oder mit einer bekannten L¨ osungsformel, ergibt sich a = 12 + 23 i und b = 21 − 23 i. Man erh¨alt nun a + b = 1, a − b = 3i, ab = 52 und ab = − 54 + 53 i. 1.39 (i) Es gilt 493 = 17 ·29, ϕ(493) = 448 und 45 ·229 − 23 ·448 = 1, also d = 229. (ii) Da 10201 = 1012 , ergibt sich ϕ(10201) = 10100. Aus 8773 · 137 − 119 · 10100 = 1, folgt d = 8773. (iii) Hier ist 13081 = 103·127, damit ϕ(13081) = 12852 und wegen 3·12852− 701 · 55 = 1 schließlich d = −55. (iv) Aus 349 · 727 = 253723 erhalten wir 252648 = ϕ(253723) und mit 1 = 19 · 252648 − 1759 · 2729 dann d = −2729. 1.40 (a) Es gilt 717 ≡ 13876 mod 31991, 727 ≡ 12225 mod 31991 und 717·27 ≡ 1387627 ≡ 15530 mod 31991.
406
L¨ osungen
(b) Die gesuchten Logarithmen sind a = 123 und b = 345, da 7123 ≡ 4531 mod 31991 und 7345 ≡ 13270 mod 31991. Also ist 7123·345 ≡ 14360 mod 31991 der gesuchte Schl¨ ussel. 1.41 Es gilt 9119 = 11 · 829, also ϕ(9119) = 8280. Mit Hilfe des Euklidischen Algorithmus ergibt sich 1 = 8280 − 17 · 487, der geheime Schl¨ ussel ist also d ≡ −487 ≡ 7793 mod 8280 . In Tabelle A.3 sind die Dezimalwerte m der gegebenen Zeichenpaare und ¨ der Wert md mod 9119 nebst Ubertragung in ASCII-Zeichen zu finden. Das L¨osungswort lautet FERTIG. +T T& @/ chiffriert m 43 84 84 38 64 47 md mod 9119 70 69 82 84 73 71 Klartext FE RT IG Tabelle A.3 Aufgabe 1.41
L¨ osungen zu Kapitel 2
407
2.1 Wenn wir zuerst die erste Zeile von allen anderen subtrahieren, im zweiten Schritt das doppelte der zweiten Zeile von der dritten Zeile und das dreifache der zweiten Zeile von der vierten Zeile subtrahieren, im dritten Schritt die erste von der zweiten Zeile subtrahieren und danach die ersten beiden Zeilen vertauschen, ergibt sich: 01234 01234 01234 1 0 −1 −2 −3 1 2 3 4 5 1 1 1 1 1 1 1 1 1 1 0 1 2 3 4 2 3 4 5 6 2 2 2 2 2 0 0 0 0 0 0 0 0 0 0 . 34567 33333 00000 00 0 0 0 Damit sind x3 = λ1 und x4 = λ2 die freien Variablen und die Zeilenstufenform besagt x1 = −3 + λ1 + 2λ2 und x2 = 4 − 2λ1 − 3λ2 . Das ergibt L¨ os(A| b) = {u + λ1 v1 + λ2 v2 | λ1 , λ2 ∈ R} mit 2 1 −3 −3 −2 4 u= 0 , v1 = 1 , v2 = 0 . 1 0 0 2.2 Zuerst (II) − (I) und (III) − (IV) und im zweiten Schritt (I) − (III), (IV) − (II) und Vertauschung von (II) und (III) liefert 1 1 0 0 10 1 1 0 0 10 10002 1 1 1 0 17 0 0 1 0 7 0 1 0 0 8 0 1 1 1 20 0 1 0 0 8 0 0 1 0 7 , 0 0 1 1 12 0 0 1 1 12 00015
woraus L¨os(A| b) = {(2, 8, 7, 5)} folgt. 2.3 Durch die Operationen (II) − (I), (III) − 12 (I) und (III) − (II) ergibt sich 2 4 2 12t 0 8 5 7 . Wenn t 6= −1 gibt es keine L¨osung. F¨ ur t = −1 ergibt sich 0 0 0 t+1 31 1 −4 4 als L¨osungsmenge 87 + λ − 85 λ ∈ R . 0 1 2.4 F¨ ur verschiedene Werte von b erh¨ alt man parallele Geraden (III) und f¨ ur verschiedene Werte von a ergeben sich Geraden die durch den Schnittpunkt (3, 2) der beiden Geraden (I) und (II) gehen.
408
L¨ osungen
a = −2
(3, 2) b
(III)
(I) a = 1,5 b=4
a = 0,5
b=0 b = −4
(II)
2.5 Die erweiterte Koeffizientenmatrix des gegebenen Systems lautet 0011000 1 1 1 1 1 1 0 0 1 1 0 1 0 1 1 0 1 0 0 1 1 . 0 1 0 1 1 0 1 1000011
Wenn wir die Zeilen 4 und 5 zur Zeile 2 addieren erhalten wir eine Nullzeile, die wir streichen k¨ onnen. Ebenso bei Addition der Zeilen 1 und 3 zur Zeile 5. Nun addieren wir noch Zeile 6 zu Zeile 4 und erhalten die linke Matrix 1000011 0011000 0 1 0 0 1 0 1 0 1 1 0 1 0 1 0 0 1 0 0 0 0 . 0 0 1 0 0 0 0 1000011 0001000
Die Zeilenstufenform auf der rechten Seite ergab sich durch Vertauschung der Zeilen 1 und 4, gefolgt von der Addition der Zeile 3 zu den (neuen) Zeilen 2 und 4. Die L¨osungsmenge wird mit zwei Parametern λ1 , λ2 ∈ F2 beschrieben, sie enth¨alt somit vier Elemente. Dies sind (1, 1, 0, 0, 0, 0), (1, 0, 0, 0, 1, 0), (0, 1, 0, 0, 0, 1) und (0, 0, 0, 0, 1, 1). 2.6 Da 7 eine Primzahl ist, handelt es sich hier um ein System linearer Gleichungen u orper F7 mit erweiterter Koeffizientenmatrix wie unten ange¨ ber dem K¨ geben. Nacheinander werden folgende Operationen durchgef¨ uhrt: (II) − (I), (III) + 3(II), Multiplikation der Zeile (III) mit 3, (II) − (III), (I) + 2(II) und schließlich Multiplikation von Zeile (II) mit −1. Man beachte hierbei, dass 3 · 5 ≡ 1 mod 7 gilt, d.h. der Division durch 5 entspricht in F7 die Multiplikation mit 3.
L¨ osungen zu Kapitel 2
1204 1 1 1 4 0326
409
1 2 04 0 −1 1 0 0 3 26
1 2 04 0 −1 1 0 0 0 56
1003 0 1 0 4 . 0014
Die einzige L¨osung ist somit x ≡ 3 mod 7 und y ≡ z ≡ 4 mod 7. 2.7 (a) Das ist die L¨osungsmenge eines linearen Gleichungssystems, also linearer Unterraum. (b) Das ist kein Unterraum, denn z.B. ist (0, 0) nicht darin enthalten. (c) Wenn die Spalten einer Matrix A mit v1 , v2 . . . , vn bezeichnet werden, dann ist A in der betrachteten Menge, wenn v1 = vn gilt. Da aus v1 = vn und w1 = wn stets v1 + w1 = vn + wn und λv1 = λvn folgt, handelt es sich tats¨achlich um einen Unterraum. (d) Da die Anzahl der von Null verschiedenen Eintr¨age eines Vektors aus Fn2 genau dann gerade ist, wenn die Summe seiner Eintr¨age in F2 gleich Null ist, handelt es sich erneut um die L¨ osungsmenge eines linearen Gleichungssystems. Daher ist die angegebene Menge ein linearer Unterraum. 2.8 Pr Pr Pr Wenn v = P i=1 λi vi und w = i=1 µi vi , dann folgt v + w = i=1 (λi + µi )vi r und λv = i=1 (λλi )vi , woraus mit Def. 2.2.4 die Behauptung folgt. 2.9 Diese Frage ist ¨aquivalent zur Frage, ob die Gleichung Ax = 0 nur die L¨osung x = (0, 0, 0) besitzt, wobei A die Matrix ist, deren Spalten die drei gegebenen Vektoren sind. Anwendung von elementaren Zeilenumformungen liefert tats¨achlich eine Zeilenstufenform mit drei Pivotelementen (vgl. L¨osung zu Aufgabe 2.10), woraus die Behauptung folgt. 2.10 Als Zeilenumformungen kann man anwenden: (III) − 4(II), (III) − (I), (II) − 3(III), (II) − 5(I) gefolgt von einer geeigneten Zeilenvertauschung: 0 1 8 01 8 01 8 10 0 3 5 34 3 5 34 0 0 −6 0 1 8 . 13 21 144 10 0 10 0 0 0 −6
Da 6 = 2 · 3, sind genau dann alle drei Diagonaleintr¨age in Fp von Null verschieden, wenn p 6= 2 und p 6= 3 ist. Wenn p = 2, dann ist der dritte der gegebenen Vektoren der Nullvektor. Wenn p = 3, dann ist die Summe der letzten beiden der gegebenen Vektoren der Nullvektor. 2.11 Wir wenden auf die zweigeteilte Matrix, deren Spalten im ersten Teil aus den Vektoren von B und im zweiten Teil aus den drei Vektoren f (ai ) = Aai bestehen, elementare Zeilenumformungen an, mit dem Ziel im linken Teil die Einheitsmatrix zu erhalten. Die Matrix im rechten Teil ist dann die gesuchte Matrix MBA (f ):
410
L¨ osungen
11 1 1 0 1 00
00 10 11 11
211 3 2 1 5 1 2 402
1 0 0 0
00 10 01 00
0 0 0 1
1 1 1 3
0 1 1 0 . 1 0 −1 2
2.12 (a) Da dimQ (im(f )) = rk(f ) = rk(A) und nach Satz 2.2.28 dimQ (ker(f )) = 3 − rk(f ), gen¨ ugt es den Rang der Matrix A zu bestimmen. Durch elementare Zeilenumformungen erh¨ alt man rk(A) = 3. −5 −8 (b) Es gilt B ◦ A = −3 3 4 5 . 2.13 1 1 A = B = ( 00 10 ) oder A = ( 11 11 ) und B = −1 erf¨ ullen AB = 0. All−1 gemeiner kann man f¨ ur A eine n × n-Matrix, deren Zeilen s¨amtlich gleich (n − 1, 1, 1, . . . , 1) sind und f¨ ur B eine n × n-Matrix, deren Spalten alle gleich (−1, 1, 1, . . . , 1) sind, w¨ ahlen. 2.14 F¨ ur n = 2 liefert A = ( 10 11 ) und B = ( 01 00 ) ein Beispiel. Wenn man diese Matrizen als linke obere Ecke einer n × n-Matrix verwendet, die ansonsten mit Nullen aufgef¨ ullt ist, ergibt sich ein Beispiel f¨ ur beliebiges n ≥ 2. Da die Multiplikation in einem K¨ orper kommutativ ist, gibt es f¨ ur n = 1 kein Beispiel. 2.15 Wegen Satz 2.2.26 und Bem. 1.3.9 gen¨ ugt es zu zeigen, dass 1n ∈ T und f¨ ur A, B ∈ T stets auch A ◦ B ∈ T und A−1 ∈ T gilt. Offenbar ist 1n ∈ T. Wenn A = (aij ) ∈ T und B = (bij ) ∈ T, dann ist P aij = bij = 0 f¨ ur i > j. Das n Produkt A◦ B hat an der Stelle (i, j) den Eintrag k=1 aik bkj . Da aik bkj = 0 f¨ ur i > k und f¨ ur k > j, tragen h¨ ochstens solche Summanden zur Summe bei, f¨ ur die i ≤ k ≤ j gilt. Wenn i > j, dann gibt es keinen solchen Summanden, also ist A ◦ B ∈ T. F¨ ur den Beweis von A−1 ∈ T bemerken wir Q zun¨achst, dass f¨ ur jede obere Dreiecksmatrix A ∈ T die Gleichung det(A) = ni=1 aii 6= 0 gilt. Insbesondere ist aii 6= 0 f¨ ur jedes i. Nun beweisen wir A−1 ∈ T indirekt, wir nehmen also −1 an, A = (bij ) w¨ are nicht in T. Dann sei i maximal mit der Eigenschaft, dass es ein j < i gibt, so dass bij 6= 0. Das heißt bi+1,j = bi+2,j = . . . = bn,j = 0. Der Eintrag derP Matrix 1n = A ◦ A−1 an der Stelle (i, j) ist somit gleich P n n k=1 aik bkj = k=i aik bkj = aii bij 6= 0, im Widerspruch dazu, dass die Einheitsmatrix dort einen Eintrag gleich Null hat. 2.16 Jedem Getr¨ank ordnen wir einen Vektor gi ∈ R3 zu, dessen Komponenten die Prozents¨atze der Bestandteile sind: 0,2 0,2 0 g1 = 0,2 , g2 = 0,7 , g3 = 0,5 . 0,6 0,1 0,5
L¨ osungen zu Kapitel 2
411
Wenn eine Mischung aus λi × 10 Litern von Getr¨ank i (i = 1, 2, 3) hergeP3 stellt wird, dann geben die Komponenten a, w, s des Vektors i=1 λi gi ∈ R3 an, wie viel Liter von jedem Bestandteil in dem P3Mixgetr¨ank enthalten sind. Die Gesamtmenge betr¨ agt g := a + w + s = i=1 λi (×10 Liter). F¨ ur die gew¨ unschte Mischung soll die Gleichung a 0,1 w = g · 0,4 und g = 10 s 0,5
gelten. Die erweiterte Koeffizientenmatrix dieses Gleichungssystems und die durch das Gauß-Jordan-Verfahren erzeugte Zeilenstufenform lauten: 0,2 0,2 0 1 100 4 0,2 0,7 0,5 4 0 1 0 1 . 0,6 0,1 0,5 5 001 5
Damit ist λ1 = 4, λ2 = 1 und λ3 = 5. Da diese drei Zahlen positiv sind, l¨asst sich wirklich ein solches Mixgetr¨ ank herstellen. Es besteht aus 40 Litern von Getr¨ankt 1, 10 Litern von Getr¨ ank 2 und 50 Litern von Getr¨ank 3. Prost! 2.17 Aus der gegebenen Matrix erhalten wir nacheinander durch elementare Zeilenumformungen: 12283 3 12283 3 12 2 8 3 3 0 0 1 3 2 0 0 0 1 3 2 0 0 0 −1 −3 −2 0 0 0 0 0 1 −1 . 0 0 0 0 1 −1 0 0 2 6 5 −1 00000 0 0 0 0 0 2 −2 0 0 −1 −3 0 −2
Die Spalten 1, 3 und 5 der urspr¨ unglichen Matrix bilden somit eine Basis. Man kann statt der ersten auch die zweite, statt der dritten auch die vierte und statt der f¨ unften auch die sechste Spalte verwenden, woraus sich insgesamt 8 verschiedene M¨oglichkeiten ergeben, aus den Spalten der gegebenen Matrix eine Basis auszuw¨ ahlen. 2.18 Die Matrix, deren Spalten die gegebenen Vektoren v2 , v4 und e1 , . . . , e5 sind, wird wie folgt durch elementare Zeilentransformationen in Zeilenstufenform u uhrt: ¨ berf¨ 1110000 11 1 0000 11 1 0 000 1 1 0 1 0 0 0 0 0 −1 1 0 0 0 0 2 −2 0 0 0 1 1 1 0 0 1 0 0 0 0 −1 0 1 0 0 0 0 1 −1 0 0 0 1 1 0 0 0 1 0 0 0 −1 0 0 1 0 0 0 0 −1 1 0 0 2400001 0 2 −2 0 0 0 1 0 0 0 −1 0 1 0
412
L¨ osungen
1 0 0 0 0
1 1 0 0 00 2 −2 0 0 0 1 0 1 −1 0 0 0 . 0 0 1 −1 0 0 0 0 0 −1 1 0
Hieraus sehen wir, dass v1 = e1 , v3 = e2 , v5 = e3 eine m¨ogliche Basiserg¨anzung ist. Eine andere M¨ oglichkeit w¨ are v1 = e1 , v3 = e2 , v5 = e4 . 2.19 1 0 −1 1 0 0 1 −1 A−1 = −1 1 0 0 1 −1 0 1 2.20 7 −1 7 B −1 = 0 1 0 ∈ GL(3, F13 ) 7 −1 6 2.21 Da (1n − A)(1n + A) = 1n − A + A − A2 = 1n − A2 , gilt (1n − A)−1 = 1n + A falls A2 = 0. Allgemeiner gilt (1n −A)(1n +A+A2 +A3 . . .+Ak−1 ) = 1n −Ak und somit ist 1n − A invertierbar, sobald es ein k ≥ 2 mit Ak = 0 gibt. Eine Matrix A ∈ Mat(n × n, K) mit A2 = 0 ist zum Beispiel: 1 −1 1 −1 1 −1 1 −1 A= −1 1 −1 1 . −1 1 −1 1
2.22
21 0 4 1 7 6 2 8 8 2 17 0 1 −6 2 0 0 0 0
x1 x2 x3 x4 x5
1 0 −1 7 0 1 0 0 0 0
2 1 0 x1 2 1 0 x1 0 −1 7 x2 − 2x1 0 −1 7 x2 − 2x1 0 −1 8 x3 − 3x1 0 0 1 x3 − x2 − x1 0 −2 17 x4 − 4x1 0 0 3 x4 − 2x2 x5 0 1 −6 0 0 1 x5 + x2 − 2x1 x1 x2 − 2x1 3 1 −3 1 0 x3 − x2 − x1 =⇒ A = −1 2 −1 0 1 x4 − 3x3 + x2 + 3x1 x5 − x3 + 2x2 − x1
Die gesuchten Gleichungen lauten 3x1 + x2 − 3x3 + x4 = 0 und −x1 + 2x2 − x3 + x5 = 0 mit der angegebenen Koeffizientenmatrix A. 2.23 Wie in der vorigen Aufgabe bestimmt man eine Gleichung f¨ ur die Ebene U . Man erh¨alt x1 + 4x2 − 9x3 = 0 mit Koeffizientenmatrix A = (1 4 − 9). Wenn B die Matrix ist, deren Spalten die beiden gegebenen Basisvektoren v1 , v2 von
L¨ osungen zu Kapitel 2
413
2 41
V sind, dann ist A◦B = (1 4 −9) 1 28 = (−12 144). Somit ist ein Vektor 2 1 der Gestalt λ1 v1 + λ2 v2 genau dann in U , wenn λ1 = 12λ2 . Als Basis f¨ ur U ∩ V ergibt sich daraus der Vektor (13, 8, 5) bzw. jedes nichtverschwindende Vielfache davon. 2.24 Wenn An die Matrix mit den Spaltenvektoren v1 , v2 , . . . , vn bezeichnet, dann sieht man durch eine kurze Rechnung, dass rk(A3 ) = 3 gilt. Die Rechnung in der L¨osung von Aufgabe 2.11 zeigt, dass rk(A4 ) = 4 gilt. Daher handelt es sich f¨ ur n = 3, 4 um eine Basis. Wenn n = 1, dann ist v1 = e1 eine Basis. Im Fall n = 2 ist jedoch v1 = e1 + e2 = v2 , es handelt sich also nicht um eine Basis. Wie beweisen jetzt durch Induktion u ¨ber n ≥ 4, dass genau dann eine Basis vorliegt, wenn n 6≡ 2 mod 3. Dazu definieren wir ′ vn−1 := vn−1 − vn = en−2 ′ ′ vn−2 := vn−2 − vn−1 = en−1 + en−3
vn′ ′ vn−3
′ := vn − vn−2 = en − en−3 ′ := vn−3 − vn−1 = en−4 + en−3 .
′ Die Vektoren v1 , . . . , vn−4 , vn−3 werden nur unter Verwendung der Vektoren n e1 , e2 , . . . , en−3 ∈ R gebildet, und zwar genau nach derselben Vorschrift wie die vi im Rn−3 . Daher sind diese Vektoren nach Induktionsvoraussetzung genau dann linear unabh¨ angig, wenn n − 3 6≡ 2 mod 3. Da en , en−1 , en−2 linear unabh¨angig sind und da der von ihnen aufgespannte Unterraum mit ′ dem von v1 , . . . , vn−4 , vn−3 aufgespannten Unterraum nur den Nullvektor gemeinsam hat, ergibt sich aus der Definition der vi′ , dass auch die Vektoren ′ ′ ′ v1 , . . . , vn−4 , vn−3 , vn−2 , vn−1 , vn′ genau dann linear unabh¨angig sind, wenn n − 3 6≡ 2 mod 3. Daraus folgt die Behauptung f¨ ur v1 , . . . , vn . Unter Benutzung von Determinanten (Abschnitt 2.4) kann man folgenden wesentlich einfacheren Beweis f¨ uhren: Es ergibt sich leicht det(A1 ) = 1 und det(A2 ) = 0. Außerdem erh¨ alt man mit Hilfe von Def. 2.4.1 f¨ ur n ≥ 3 die Rekursionsgleichung det(An ) = det(An−1 ) − det(An−2 ). Daraus sieht man, dass det(An ) genau dann gleich Null ist, wenn n ≡ 2 mod 3. 2.25 Die Ergebnisse lauten 9, −3, −29, 20. 2.26 Offenbar ist det(V2 ) = x2 − x1 . Wir beweisen die gew¨ unschte Formel induktiv. Wenn man die letzte von jeder anderen Spalte von Vn subtrahiert und anschließend die erste Zeile und letzte Spalte streicht, erh¨alt man eine Matrix ′ Vn−1 , die an der Position (i, j) den Eintrag xij − xin hat:
414
L¨ osungen
1 ... 1 1 0 x1 . . . xn−1 xn x1 − xn 2 2 2 2 2 det x1 . . . xn−1 xn = det x1 − xn .. .. .. .. . . . . n−1 n−1 x1n−1 . . . xn−1 xn x1n−1 − xnn−1
= (−1)n−1 det
x1 − xn x21 − x2n .. .
... 0 . . . xn−1 − xn . . . x2n−1 − x2n
1 xn x2n .. .
n−1 . . . xn−1 − xnn−1 xnn−1
. . . xn−1 − xn . . . x2n−1 − x2n .. .
.
n−1 x1n−1 − xnn−1 . . . xn−1 − xnn−1 Qn−1 ′ ′′ Damit folgt det(Vn ) = (−1)n−1 det(Vn−1 ) = j=1 (xn − xj ) det(Vn−1 ), denn
i X i−2 i−1 = (x − x ) xi−k xnk−1 , xij − xin = (xj − xn ) xi−1 + x x + . . . + x j n n n j j j k=1
′′ wobei die Matrix Vn−1 an der Stelle (i, j) den Eintrag
aij :=
i X
xi−k xnk−1 = xi−1 + xn ai−1,j j j
k=1
besitzt. Alle Eintr¨ age der ersten Zeile sind gleich 1. Wenn man, unten ′′ beginnend, von jeder Zeile von Vn−1 das xn -fache der dar¨ uberliegenden Zeile subtrahiert, erh¨ a lt man die Matrix V . Somit haben wir gezeigt: n−1 Qn−1 det(Vn ) = j=1 (xn − xj ) det(Vn−1 ). Daraus folgt mit Hilfe der Induktionsvoraussetzung die behauptete Gleichung. 2.27 Der Vektor P (σ)ek ist die k-te Spalte von P (σ), er hat also genau an der Stelle σ(k) den Eintrag 1 und besteht ansonsten aus Nullen. Damit erh¨alt man sofort P (στ )ek = eσ(τ (k)) = P (σ) (P (τ )ek ) f¨ ur alle k. 2.28 (a) Wenn P eine Elementarmatrix ist, die der Addition eines Vielfachen einer Zeile zu einer anderen entspricht, dann gilt wegen (i)–(iii) f¨ ur jede Matrix A eine Gleichung f (P A) = βf (A), wobei der Faktor β ∈ K nur von P abh¨angt. Gleiches gilt wegen (ii), wenn P eine Diagonalmatrix ist. Dann ist der Faktor β gerade das Produkt der Diagonaleintr¨age von P . Im Beweis von Satz 2.4.3 (4) hatten wir gesehen, dass die Vertauschung zweier Zeilen durch die soeben betrachteten Elementarmatrizen ausgedr¨ uckt werden kann. Daher kann man jede Matrix A als Produkt A = P T schreiben, wobei T eine obere Dreiecksmatrix mit Nullen u ¨ber den Pivotelementen ist und P ein Produkt von Diagonalmatrizen und von Elementarmatrizen der Gestalt Qλ (k, i) ist. Das beweist f (A) = βf (T ) mit einem nur von P abh¨angigen Faktor β ∈ K. Da T quadratisch ist, enth¨ alt T entweder eine Nullzeile, und dann ist f (T ) = 0 wegen (iii), oder T ist eine Diagonalmatrix. Im letzteren Fall ist
L¨ osungen zu Kapitel 2
415
f (T ) = f (T 1n ) = γf (1n ) = 0 nach Voraussetzung. Somit ist f (A) = 0 f¨ ur jedes A. (b) Sei g(A) = f (A) − det(A). Diese Funktion erf¨ ullt die Eigenschaften (i)– (iii). Da nach Voraussetzung g(1n ) = f (1n ) − det(1n ) = 0, folgt die Behauptung aus (a). 2.29 P ullt (i)– Sei f (A) := σ∈Sn sgn(σ)a1σ(1) a2σ(2) · · · anσ(n) . Diese Abbildung erf¨ (iii) aus Aufgabe 2.28. Dabei sind (i) und (ii) leicht einzusehen und (iii) folgt aus det(P (i, j)) = −1, vgl. Aufgabe 2.27. Schließlich ist f (1n ) = 1, da in diesem Fall nur der Summand mit σ = Id von Null verschieden ist. Somit folgt die Behauptung aus Aufgabe 2.28 (b). 2.30 Wir erhalten det(A) = 8, det(A1 ) = 56, det(A2 ) = −104 und det(A3 ) = 56, woraus sich die eindeutige L¨ osung x = (7, −13, 7) ergibt. Hier ist: 1 10 2 1 0 2 1 1 A1 = −26 2 1 , A2 = −1 −26 1 und A3 = −1 2 −26 . 1 12 0 1 2 0 1 1
2.31 Da hv1 , v2 i = 10, kv1 k = 3 und kv2 k = 5, erf¨ ullt der Winkel α zwischen v1 hv1 ,v2 i 2 und v2 : cos(α) = kv1 k·kv2 k = 3 . Mit einen Taschenrechner erh¨alt man die N¨ aherung α ≈ 0,841, das entspricht etwa 48,189◦. Da hw1 , w2 i = 1, kw1 k = 2 und kw2 k = 1 ergibt sich f¨ ur den Winkel β zwischen w1 und w2 : cos(β) = 12 , also β = π3 , das entspricht 60◦ . 2.32 Die gew¨ unschte ON-Basis v1 , v2 , v3 ergibt sich mit Gram-Schmidt wie folgt: z1 = u1 = (2, 2, 1, 0) 1 1 1 kz1 k = 3, v1 = z1 = z1 = (2, 2, 1, 0) kz1 k 3 3 1 hu2 , v1 i = hu2 , z1 i = 3 3 z2 = u2 − hu2 , v1 iv1 = u2 − 3v1 = u2 − z1 = (1, 0, −2, 2) 1 1 1 z2 = z2 = (1, 0, −2, 2) kz2 k = 3, v2 = kz2 k 3 3 1 1 hu3 , v1 i = hu3 , z1 i = 3, hu3 , v2 i = hu3 , z2 i = 3 3 3 z3 = u3 − hu3 , v1 iv1 − hu3 , v2 iv2 = u3 − z1 − z2 = (−2, 1, 2, 3) √ 1 v3 = √ (−2, 1, 2, 3). kz3 k = 3 2, 3 2
416
L¨ osungen
2.33 Der Unterraum U ⊥ ist die L¨ osungsmenge des Gleichungssystems mit Koeffizientenmatrix ( 23 01 03 21 ). Durch Subtraktion des Dreifachen der ersten Zeile vom Doppelten der zweiten, gefolgt von einer Division aller Eintr¨age durch 2, 1 ergibt sich 10 01 03 −2 . Daraus ergeben sich als Basis f¨ ur die L¨osungsmenge U ⊥ die beiden Vektoren (0, −3, 1, 0) und (−1, 2, 0, 1). Mit Gram-Schmidt ergibt sich daraus die ON-Basis v1 = √110 (0, −3, 1, 0), v2 = 4√115 (−10, 2, 6, 10). 2.34 01 Die Matrix besitzt die Eigenwerte λ1 = 1 und λ2 = −1 mit den 10 zugeh¨origen Eigenvektoren v1 = (1, 1) und v2 = (1, −1). Die gesuchte Matrix P hatv1 und v2 als Spalten. 3 −2 1 F¨ ur −1 2 −3 erhalten wir die Eigenwerte λ1 = −4, λ2 = 0 und 1 2 −5 λ3 = 4 mit zugeh¨ origen Eigenvektoren v1 = (0, 1, 2), v2 = (1, 2, 1) und v3 = (2, −1, 0). F¨ ur die andere 3 × 3-Matrix sind die Eigenwerte λ1 = λ2 = 1 und λ3 = −1 mit Eigenvektoren v1 = (1, 1, 0), v2 = (0, 0, 1) und v3 = (−1, 1, 1). Die Eigenwerte der 4 × 4-Matrix sind λ1 = −2, λ2 = 0, λ3 = 2 und λ4 = 3 mit Eigenvektoren v1 = (1, 1, 0, 0), v2 = (1, 0, 0, 1), v3 = (1, 0, 2, 1) und v4 = (1, 0, 1, 0). 2.35 −33 Als Eigenwerte der Matrix A = 32 10 und λ2 = −1. Als 22 −23 sind λ1 = 3 1 Eigenvektoren findet man v = und v = . Daher ist P −1 AP = 1 2 2 1 1 −1 10 0 −1 3 1 = −2 3 . Das ergibt 0 −1 =: D, wobei P = ( 2 1 ) und somit P 200
A
= PD
200
P
−1
3 · 10200 − 2 = 2 · 10200 − 2
−3 · 10200 + 3 . −2 · 10200 + 3
2.36 2 (i) Die symmetrische Matrix 12 −2 besitzt die Eigenwerte λ1 = −3 und λ2 = 2. Zugeh¨orige orthonormierte Eigenvektoren sind v1 = √15 (1, −2) und v2 = √15 (2, 1). Daher ist die gesuchte Kurve eine Hyperbel mit der Gleichung −x′2 + 32 y ′2 = 1, deren Symmetrieachsen durch die beiden Vektoren v1 und v2 gegeben sind. Hier ist x′ = √15 (x − 2y) und y ′ = √15 (2x + y).
L¨ osungen zu Kapitel 2
417
y y′
′
y
v2
x
x′
v1
′
x
5 −3 (ii) Die symmetrische Matrix −3 besitzt die Eigenwerte λ1 = 2 und 5 λ2 = 8. Zugeh¨orige orthonormierte Eigenvektoren sind v1 = √12 (1, 1) und v2 = √12 (−1, 1). Daher ist die gesuchte Kurve eine Ellipse mit der Glei ′ 2 ′ 2 chung x4 + y2 = 1, deren Halbachsen durch die Vektoren √42 (1, 1) und gegeben sind mit Koordinaten x′ =
√1 (x+y) 2
und y ′ = y
√1 (−x+y) 2
x′
√2 (−1, 1) 2
y′
y′
v2 x′
v1 x
(iii) Die symmetrische Matrix ( 93 31 ) besitzt die Eigenwerte λ1 = 10 und λ2 = 0. Zugeh¨orige orthonormierte Eigenvektoren sind v1 = √110 (−3, −1) und v2 = √110 (1, −3). Daher ist die gesuchte Kurve eine Parabel mit der √ Gleichung 10y ′ = 10x′2 − 1, wobei x′ = √110 (−3x− y) und y ′ = √110 (x− 3y). Der Scheitel der Parabel liegt bei (x, y) = (−1, 3) und die Symmetrieachse ist ¨ durch den Vektor (1, −3) gegeben, der in Richtung der Offnung der Parabel zeigt.
418
L¨ osungen
y
′
y
x′
x′
v1
x v2
y′ 2.37 Da diese drei Matrizen symmetrisch sind, k¨ onnen wir Satz 2.4.29 anwenden. Die Determinante der ersten beiden Matrizen ist jeweils gleich −1, somit sind diese nicht positiv definit. Die Hauptminoren der letzten Matrix sind gleich 2, 1, 1 und 8, somit ist die gegebene Matrix der Gr¨oße 4 × 4 positiv definit. 2.38 (i) kx + yk2 + kx − yk2 = hx + y, x + yi + hx − y, x − yi = kxk2 + 2hx, yi + kyk2 + kxk2 − 2hx, yi + kyk2 = 2kxk2 + 2kyk2. (ii) Wenn kxk = kyk, dann ist hx + y, x − yi = kxk2 − kyk2 = 0. 2.39 a−λ b χA (λ) = det = (a− λ)(d− λ)− bc = λ2 − (a+ d)λ+ (ad− bc) = c d−λ λ2 − tr(A)λ + det(A). Die zweite Behauptung ergibt sich damit wie folgt λ2 − tr(P −1 AP )λ + det(P −1 AP ) = χP −1 AP (λ) = det(P −1 AP − λ12 ) = det(P −1 (A − λ12 )P ) = det(P −1 ) det(A − λ12 ) det(P )
= det(A − λ12 ) = χA (λ) = λ2 − tr(A)λ + det(A) .
2.40 Wenn A symmetrisch ist, dann gilt hAv, wi = hv, Awi f¨ ur beliebige Vektoren v, w. Wenn v, w Eigenvektoren mit Av = λv und Aw = µw sind, dann folgt λhv, wi = hAv, wi = hv, Awi = µhv, wi, somit ist (λ − µ)hv, wi = 0, was im Fall λ 6= µ nur m¨ oglich ist, wenn hv, wi = 0. 2.41 cos(ϕ) − sin(ϕ) F¨ ur jedes Element T (ϕ) = von SO(2) gilt T (ϕ)n = T (nϕ). sin(ϕ) cos(ϕ) Somit sind die Elemente der Ordnung n in SO(2) genau diejenigen T (ϕ), f¨ ur die n die kleinste positive ganze Zahl ist, so dass nϕ = 2kπ f¨ u r ein k ∈ Z. mit 0 ≤ k < n und k teilerfremd zu n. Es handelt sich daher um die T 2kπ n Wenn n = 1, dann heißt das k = 0. Die Anzahl der Elemente der Ordnung n in SO(2) ist somit gleich dem Wert der Eulerfunktion ϕ(n), vgl. Def. 1.1.10.
L¨ osungen zu Kapitel 2
419
2.42 F¨ ur x = (x1 , . . . , xn ), y = (y1 , . . . , yn ) ∈ Fn2 ist der Hamming-Abstand durch d(x, y) = |{i | xi 6= yi }| definiert. Damit sind die Eigenschaften (2.20) und (2.21) sofort klar. Wenn x = y, dann ist offenbar d(x, y) = 0. Wenn d(x, y) = 0, dann stimmen x und y in jeder Komponente u ¨ berein, also gilt auch (2.22). F¨ ur den Beweis der Dreiecksungleichung (2.23) sei zus¨atzlich z = (z1 , . . . , zn ) ∈ Fn2 gegeben. Wenn i ein Index ist, der weder bei d(x, y) noch bei d(y, z) mitgez¨ ahlt wird, dann ist xi = yi = zi . Damit wird i auch bei d(x, z) nicht mitgez¨ ahlt. Daraus folgt die Behauptung. 2.43 Wie auf Seite 153 erl¨ autert, k¨ onnen wir jeden linearen (n, k)-code durch eine Generatormatrix G der Gestalt (M t | 1k ) beschreiben, wobei M t eine (n − k) × k-Matrix ist. In jeder Zeile von G sind maximal n − k + 1 von Null verschiedene Eintr¨ age vorhanden, da jede Zeile im hinteren Teil genau eine 1 enth¨alt. Damit ist w(v) ≤ n − k + 1 f¨ ur jeden Erzeuger v, also auch wmin ≤ n − k + 1. 2.44 Als Kontrollmatrix eines Hamming-Codes (vgl. Def. 2.5.8) k¨onnen wir eine Matrix Hr w¨ahlen, deren erste r Spalten die Vektoren ei ∈ Fr2 sind. Die restlichen n − r Spalten bilden eine Matrix M, in der wegen r ≥ 2 Spalten vorkommen, die genau zwei von Null verschiedene Eintr¨age besitzen. Die zugeh¨orige Generatormatrix G = (M t | 1n−r ) enth¨alt somit Zeilen, in denen genau drei Eintr¨age von Null verschieden sind. Daher ist wmin ≤ 3. Da keine zwei Spalten von Hr linear abh¨ angig sind (d.h. keine Spalte ist Null und keine zwei Spalten sind gleich), muss wmin > 2 gelten. 2.45 Wenn wir mit ξ = [X] die Klasse von X ∈ F2 [X] in K = F2 [X]/hX 3 + X + 1i bezeichnen, dann gilt K = {0, 1, ξ, 1 + ξ, ξ 2 , 1 + ξ 2 , 1 + ξ + ξ 2 , ξ + ξ 2 }. In dem endlichen K¨orper K mit 8 Elementen gilt die Relation ξ 3 = 1 + ξ und f¨ ur r ∈ K gilt stets r + r = 0. Die multiplikative Gruppe K ∗ besteht aus den 7 von Null verschiedenen Elementen von K. Nach Aufgabe 1.16 (b) ist jede Gruppe der Ordnung 7 zyklisch, vgl. auch Bem. 1.4.28. Wie im Schritt 1 des Beweises von Satz 1.4.27 gezeigt wurde, enth¨alt jede zyklische Gruppe der Ordnung 7 genau ϕ(7) = 6 Erzeuger. Somit ist jedes von 0 und 1 verschiedene Element von K ein Erzeuger der multiplikativen Gruppe K ∗ .
420
L¨ osungen
2.46 In F2 [X] gilt: X 3 − 1 = (X + 1)(X 2 + X + 1) ,
X 7 − 1 = (X + 1)(X 3 + X + 1)(X 3 + X 2 + 1) ,
X 15 − 1 = (X + 1)(X 2 + X + 1)(X 4 + X + 1)·
· (X 4 + X 3 + X 2 + X + 1)(X 4 + X 3 + 1) ,
X 31 − 1 = (X + 1)(X 5 + X 4 + X 3 + X 2 + 1)(X 5 + X 3 + X 2 + X + 1)· · (X 5 + X 3 + 1)(X 5 + X 4 + X 3 + X + 1)·
· (X 5 + X 4 + X 2 + X + 1)(X 5 + X 2 + 1) . Die Polynome g2 = X 2 + X + 1, g3 = X 3 + X + 1, g4 = X 4 + X + 1 und g5 = X 5 + X 2 + 1 sind Generatorpolynome zyklischer Codes mit zugeh¨origen Kontrollpolynomen h2 = X + 1 h3 = X 4 + X 2 + X + 1 h4 = X 11 + X 8 + X 7 + X 5 + X 3 + X 2 + X + 1 h5 = X 26 + X 23 + X 21 + X 20 + X 17 + X 16 + X 15 + X 14 + X 13 + X9 + X8 + X6 + X5 + X4 + X2 + 1 . Nach Spaltenumordnung ist die aus hr entstehende Kontrollmatrix genau die Kontrollmatrix Hr des Hamming-Codes. Somit kann man die oben aufgef¨ uhrten gr als deren Generatorpolynome verwenden.
L¨ osungen zu Kapitel 3
421
3.1 Sei a ∈ A und A0 := {1, . . . , a} ∩ A. Dann ist A0 endlich. Durch endlich viele Vergleiche finden wir eine kleinste Zahl x ∈ A0 . Sei y ∈ A. Wenn y ∈ A0 , folgt x ≤ y. Wenn y ∈ / A0 , folgt a < y und damit x < y. 3.2 Nach Voraussetzung ist 0 die gr¨ oßte untere Schranke von A. F¨ ur jedes n ∈ N existiert somit pq ∈ A mit pq < n1 . Daraus folgt n ≤ np < q. 3.3 (a) Der Beweis wird durch Induktion nach n ≥ 4 gef¨ uhrt. F¨ ur n = 4 ist die Behauptung offenbar wahr. Wenn n2 ≤ 2n , dann ist (n + 1)2 ≤ 2n + 2n + 1. Nun ist f¨ ur n ≥ 4 stets 2n + 1 ≤ n2 , da 2 ≤ (n − 1)2 . Daraus folgt (n + 1)2 ≤ n 2 2 + n ≤ 2n + 2n = 2n+1 . (b) Der Beweis wird durch Induktion nach n ≥ 4 gef¨ uhrt. F¨ ur n = 4 ist die Behauptung offenbar wahr. Wenn 2n < n!, dann ist 2n+1 < 2 · n! < (n + 1)n! = (n + 1)!. 3.4 Sei x = sup(A) und y = sup(B). Daraus folgt a ≤ x f¨ ur alle a ∈ A und b ≤ y f¨ ur alle b ∈ B und somit a + b ≤ x + y f¨ ur alle a ∈ A, b ∈ B. Damit ist x + y (bzw. ∞) obere Schranke von A + B. Wenn sup(A) = ∞ und z < ∞, b ∈ B beliebig gew¨ahlt, dann existiert ein a ∈ A mit z − b < a < ∞. Daraus folgt f¨ ur diesen Fall die Behauptung. Analog geht es im Fall sup(B) = ∞. Wenn x + y < ∞, sei z gegeben mit z < x + y, d.h. z − y < x. Dann existiert ein a ∈ A mit z − y < a ≤ x, d.h. z < a + y ≤ x + y. Daraus folgt z − a < y. Damit existiert b ∈ B mit z − a < b ≤ y. Daraus folgt z < a + b ≤ y + a ≤ x + y und somit ist z keine obere Schranke von A + B. 3.5 2−i 7 4 (1 + i)5 (a) =2 = + i (b) 2 − 3i 13 13 (1 − i)3 3.6 (a) Sei z = x + p yi, dann ist |z − 1| + |z + 1| < 4 gleichbedeutend mit p (x − 1)2 + y 2 + (x + 1)2 + y 2 < 4 und das ist ¨aquivalent zu (x − 1)2 + y 2 + (x + 1)2 + y 2 + 2|z 2 − 1| < 16, d.h. x2 + y 2 + |z 2 − 1| < 7. Daraus folgt |z 2 − 1| < 7 − (x2 + y 2 ) und damit |z 2 − 1|2 < 49 − 14(x2 + y 2 ) + (x2 + y 2 )2 . Das bedeutet (x2 − y 2 − 1)2 + 4x2 y 2 < 49 − 14x2 − 14y 2 + (x2 + y 2 )2 . Daraus 2 2 folgt schließlich 12x2 + 16y 2 < 48, d.h. x4 + y3 < 1. Das sind die Punkte im √ Innern der Ellipse mit Halbachsen 2 und 3, siehe Abb. A.1. (b) Sei z = x+yi, dann ist (1−i)z = x+y +(y −x)i. Damit ist die Bedingung Im((1 − i)z) = 0 gleichbedeutend mit x = y (Abb. A.1). 2 1 3.7 Es gilt a0 = 1, a1 = 2 − 12 = 23 , a2 = 3 − 21 32 = 15 8 = 2 − 23 . Allgemein k+1 erhalten wir, wenn es zu n ≥ 0 ein k > 0 gibt, so dass an = 2 2k−1 = 2 − 21k , 2k+2
1 . Das zeigt, dass an ≤ 2 und dass die dann folgt an+1 = 2 22k+1−1 = 2 − 22k+1 Folge (an )n∈N monoton wachsend ist. Somit ist sie konvergent (Satz 3.2.11). Sei a = limn→∞ an , dann folgt a = a 2 − a2 nach Satz 3.2.13, d.h. a = 2.
422
L¨ osungen y √
y
3
2
|z − 1| + |z + 1| < 4
x
x
Im((1 − i)z) = 0
Abb. A.1 L¨ osung von Aufgabe 3.6
3.8 n cn+1 Es gilt cn! > (n+1)! genau dann, wenn n + 1 > c. Ein solches n existiert f¨ ur jedes c (Archimedisches Axiom 3.16). Damit ist die Folge f¨ ur hinreichend große n streng monoton fallend und durch 0 nach unten beschr¨ankt, also n n konvergent (Satz 3.2.11). Sei a = limn→∞ cn! und xn := cn! . Dann gilt: xn+1 = c c . Daraus folgt limn→∞ xn+1 = limn→∞ xn · limn→∞ n+1 nach Satz xn · n+1 3.2.13, also a = a · 0 = 0. 3.9 Sei (an )n∈N eine Folge. Wenn sie nicht beschr¨ankt ist, existiert eine Teilfolge (ank )k∈N mit streng monoton wachsendem Betrag. Je nachdem, ob sie unendlich viele positive oder negative Glieder enth¨alt, k¨onnen wir daraus eine Teilfolge w¨ahlen, die monoton w¨ achst oder f¨ allt. Wenn die Folge beschr¨ ankt ist, k¨ onnen wir nach Satz 3.2.23 o.B.d.A. annehmen, dass sie konvergiert. Sei a = limn→∞ an und A+ := {an | an ≥ a}, A− := {an | an < a}. Mindestens eine dieser beiden Mengen ist unendlich. Wenn A+ unendlich ist, dann findet man in A+ durch Weglassen st¨orender Folgenglieder eine monoton fallende Folge, die gegen a konvergiert. Wenn A− unendlich ist, findet man in A− eine monoton wachsende Folge. 3.10 p 2 √ √ √ √ √ n + 12 = n + n + 14 ≥ n + n, folgt 12 ≥ n + n − n. (a) Da q p p √ √ √ √ Sei bn := 12 − an = 21 + n − n + n = n + n + 14 − n + n. Da ur jedes ε > 0 ein n > 0 bn ≥ 0, gen¨ ugt es f¨ ur limn→∞ an = 12 zu zeigen, dass √ f¨ existiert, so dass bn < ε.q Dazu setzen wir x = n+ n und sehen dass f¨ ur jedes √ √ 1 1 2 ε > 0 genau dann bn = x + 4 − x < ε gilt, wenn x + 4 < ε + 2ε x + x. 2 2 √ 1 1 Das ist ¨aquivalent zu 8ε − 21 ε < x. F¨ ur n > 8ε − 12 ε ist x = n + n > 2 1 − 21 ε und somit bn < ε, wie gew¨ unscht. n > 8ε (b) Wenn a = b, gilt an = a f¨ ur alle n und damit limn→∞ an = a. Wir betrachten hier den Fall a < b. Der andere Fall geht analog. Zun¨achst u ¨berlegen
L¨ osungen zu Kapitel 3
423
wir uns, dass a2k ≤ a2k+1 ist. Das sieht man durch Induktion und an der folgenden Abbildung a2k−2
a2k a2k+2 a2k+1
a2k−1
Daraus folgt, dass die Folge (a2k )k∈N monoton wachsend ist und die Folge (a2k+1 )k∈N monoton fallend ist. Beide Teilfolgen sind offensichtlich beschr¨ankt. Nach Satz 3.2.11 existieren die Grenzwerte x = limk→∞ a2k und y = limk→∞ a2k+1 und es gilt x ≤ y. Da a2k < x ≤ y < a2k+1 und a2k+1 − a2k = b−a 4k , muss x = y sein. Daraus folgt, dass die Folb−a ge (an )n∈N konvergent ist. Da a2k+2 − a2k = 12 (a2k+1 − a2k ) = 2·4 k , ist P k b−a −i a2k+2 = a + 2 i=0 4 x a = a0 a2 a4 a6 b und somit (vgl. Bsp. 3.3.3) x = lim a2k = a + k→∞
∞
2 2 1 b − a X −i 4 = a + (b − a) = b + a . 2 i=0 3 3 3
(c) Wenn die Folge konvergiert, mit a√ := limn→∞ an , dann gilt wegen Satz √ √ √ 1+ 5 1+ 5 3.2.13 a = 1 + a und damit a = 2 . Da a0 = 1 < 2 = a = 1 + a, folgt per Induktion an√< a f¨ ur alle n ≥ 0. Da an ≥ 0, folgt daraus a2n −an −1 ≤ 0, woraus wir an ≤ 1 + an = an+1 erhalten, d.h. die Folge ist monoton wachsend und beschr¨ ankt. Damit konvergiert die Folge nach Satz 3.2.11. (d) Da limn→∞ xn = x, existiert f¨ ur jedes ε > 0 ein N , so dass f¨ ur n ≥ N PN 1 ε gilt: |x − xn | < 2ε . Wir w¨ ahlen n so groß, dass n+1 |x − x | < i i=0 2 . Dann P N 1 n−N +1 1 (x0 + . . . + xn ) ≤ n+1 · 2ε < ε, d.h. gilt x − n+1 i=0 |x − xi | + n+1 limn→∞ an = x. n 1 an = n+1 an . Wegen (e) Aus der Definition von an folgt an+1 = 1 − n+1
a2 = 12 ergibt sich daraus induktiv an = n1 . Diese Folge konvergiert gegen 0. 3.11 Da (an − b2n ) ≥ 0 f¨ ur alle n ≥ 0, gilt auch (an + bn )2 √ ≥ 4an bn , woraus wegen n ≥ an bn = bn+1 . Da auch der Positivit¨at von an und bn folgt: an+1 = an +b 2 a0 ≥ b0 , gilt an ≥ bn f¨ ur alle n ≥ 0. Daraus erhalten wir, dass die Folge √ √ (bn )n∈N monoton wachsend ist: bn+1 = an bn ≥ bn bn = bn und dass die n n Folge (an )n∈N monoton fallend ist: an+1 = an +b ≤ an +a = an . Es gilt 2 2 insbesondere b ≤ bn ≤ an ≤ a f¨ ur alle n ≥ 0. Daraus folgt mit Satz 3.2.11, dass beide Folgen konvergieren. Sei b′ := limn→∞ bn und a′ = limn→∞ an , ′ ′ ′ ′ n und Satz 3.2.13 a′ = a +b dann folgt aus an+1 = an +b 2 2 , woraus a = b folgt.
424
L¨ osungen
3.12 Es gen¨ ugt zu zeigen,√ dass f¨ ur gen¨ ugend großes n stets bn ≥ nk+1 ist. Da k+1 wegen b > 1 auch b > 1, gen¨ ugt es zu beweisen, dass f¨ ur jedes b > 1 und jedes M > 0 ein n existiert, so dass bn ≥ M ist. Das ist Satz 3.1.7 (1). 3.13 −1 −1 k−r k−r ≤ 4k−r−3r = 14 f¨ ur 0 ≤ r ≤ k − 1, folgt 4k = 4k = (a) Da 4k−r 3k k k! 1 ≤ und somit konvergiert die Reihe nach Satz 3.3.11. 4k(4k−1)·...·(3k+1) 4k k k k+1 k = e nach Bem. 3.3.19, folgt limk→∞ k+1 = 1e > 0. (b) Da limk→∞ k Die Reihe divergiert nach Satz 3.3.6. (k+1)! (2k)! k+1 1 1 (c) Da (2k+2)! k! = (2k+2)(2k+1) = 2(2k+1) < 2 , konvergiert die Reihe nach Satz 3.3.11 (2). k (k+1)! k kk nach Bem. 3.3.19 gegen 1e ≤ 21 (d) Da die Folge (k+1) k+1 · k! = k+1
konvergiert, konvergiert die Reihe nach Satz 3.3.11 (2). 1 1 < k(k+1) f¨ ur jedes k > 0, konvergiert die Reihe nach Satz (e) Da k(k+1)(k+2) 3.3.11 (1) und Bsp. 3.3.3 (4). 3.14 Da die Folge (an )n∈N monoton wachsend ist, gilt ≥ a0 und somit an P PN an+1 N an+1 −an an+1 −an an+1 −an ≤ . Damit ist = ≤ n=0 n=0 an a0 an − 1 an P N 1 1 n=0 (an+1 − an ) = a0 (aN − a0 ). Da die Folge (an )n∈N monoton wachsend a0 und beschr¨ankt ist, existiert a = limn→∞ an und es ist aN ≤ a f¨ ur alle N , d.h. a10 (aN − a0 ) ≤ a10 (a − a0 ) und somit konvergiert die Reihe nach Satz 3.3.6 (2). 3.15 ur z = x+yi genau Es gilt genau dann 1−z 1+z < 1, wenn |1−z| < |1+z|. Das ist f¨ dann erf¨ ullt, wenn (1 − x)2 + y 2 < (1 + x)2 + y 2 , d.h. 1 − 2x + x2 < 1 + 2x + x2 gilt. Das ist genau dann der Fall, wenn x > 0. Die Reihe konvergiert somit nach Satz 3.3.10 und Bsp. 3.3.3 (1), wenn der Realteil von z gr¨oßer als 0 ist. 3.16 (a) Die Reihe konvergiert f¨ ur x = 1. Wenn x 6= 1, ist die Folge k!(x − 1)k keine Nullfolge (Aufg. 3.8) und die Reihe divergiert nach Satz 3.3.6. (b) Nach Satz 3.3.11 (1) konvergiert die Reihe absolut ur alle x, weil die f¨ P∞ 1 k xk xk Reihe k=0 k! x dies nach Bsp. 3.3.17 tut und kk k! ≤ k! gilt. 3.17 Diese Reihe konvergiert nach Satz 3.3.6 (3). Das Cauchy-Produkt hat P∞ P∞ (−1)n P∞ (−1)m k √ √ die Gestalt m=0 m+1 = k=0 (−1) ck , wobei hier ck = n=0 n+1 · P P Pk 1√ 1√ √ √ √1 √ m+n=k m+1 n+1 . Aber m+n=k m+1 n+1 = n=0 n+1 k+1−n ≥ 1,
1 . Damit ist die Folge (cn )n∈N keine Nullfolge und denn √n+1√1k+1−n ≥ k+1 P∞ n die Reihe n=0 (−1) cn divergiert nach Satz 3.3.6 (1).
L¨ osungen zu Kapitel 3
425
3.18 P∞ ε Sei A = Pk=0 ak und ε > 0 gegeben. Dann existiert ein N , so dass |an | < 2d n ε ur alle n ≥ N gilt. Da ϕ bijektiv und |k−ϕ(k)| ≤ d ist, und |A− k=0 ak | < 2 f¨ muss {1, 2, . . . , n} ⊂ {ϕ(1), ϕ(2), . . . , ϕ(n+d)} gelten. Wenn ϕ(n1 ), . . . , ϕ(nd ) P die Werte oßer als n sind, dann ergibt sich |A − n+d k=0 aϕ(k) | ≤ Pn sind, die gr¨ |A − k=0 ak | + |aϕ(n1 ) | + . . . + |aϕ(nd ) | < ε. 3.19 0,3 = [0,010011]2 3.20 1 7 = [0,249]16 3.21 ur alle n und (yn )n∈N eine Folge, Sei (xn )n∈N eine Folge, so dass xann ≤ M f¨ yn xn +yn xn mit bn ≤ N f¨ ur alle n. Dann ist cn ≤ an + ybnn ≤ M + N f¨ ur alle n. 3.22 , hat der Algorithmus die Laufzeit O(n) wie der AlgorithDa nk = n!(n−k)! k! mus zur Berechnung von n!. 3.23 Die L¨ange der 2-adischen Darstellung von n ist gleich [log2 (n)]+1, denn wenn n = 2k + εk−1 2k−1 + . . . + ε0 mit εi ∈ {0, k + 1 > log2 (n) ≥ k. 1}, dann ist 2 1 1 · ln(n) ≤ ln(2) + ln(n) · ln(n) Daraus folgt 0 < f (n) ≤ log2 (n) + 1 = ln(2) und somit (f (n))n∈N = O((ln(n))n∈N ).
426
L¨ osungen
4.1 (a) limx→0
x+2 x2 −1 = −2 tan(x) (b) limx→0 x = limx→0 sin(x) x 2 +1 3 (c) limx→∞ 3x = 2 4x +3 4
· limx→0
1 cos(x)
=1
4.2 Sei g(x) = f (x) − x. Dann ist g(0) = f (0) ≥ 0 und g(1) = f (1) − 1 ≤ 0. Nach dem Zwischenwertsatz (Satz 4.1.6) existiert a ∈ [0, 1] mit g(a) = 0, d.h. f (a) = a. Die Funktion f (x) = x2 hat im Intervall (0, 1) keinen Fixpunkt. 4.3 limx→∞ f (x) = ∞ bedeutet: ∀M > 0 ∃N so dass f (x) ≥ M f¨ ur alle x ≥ N . 1 Sei ε > 0 und M := 1ε , dann ist f (x) ≥ 1ε f¨ ur x ≥ N , d.h. f (x) ≤ ε. 4.4 Sei ε > 0, x0 ∈ [a, b] und o.B.d.A. f (x0 ) ≥ g(x0 ). Da f und g stetig sind, existiert ein δ > 0, so dass |f (x) − f (x0 )| < ε und |g(x) − g(x0 )| < ε f¨ ur alle x mit |x − x0 | < δ gilt. Wenn f (x0 ) = g(x0 ), dann ist h(x0 ) = f (x0 ) = g(x0 ) und die Behauptung folgt. Wenn f (x0 ) > g(x0 ), kann man δ so w¨ahlen, dass f¨ ur alle x mit |x − x0 | < δ zus¨ atzlich f (x) > g(x) gilt. Dann ist h(x) = f (x) f¨ ur alle x mit |x − x0 | < δ und die Behauptung folgt. 4.5 F¨ ur den Beweis der Stetigkeit an der Stelle x = 0 sei ε > 0 gegeben. Mit δ := ε erhalten wir |f (x) − f (0)| = |x| < ε, falls |x| < δ und x ∈ Q. Wenn x 6∈ Q, dann gilt ohnehin |f (x) − f (0)| = 0 < ε, daher ist f stetig in 0. Wenn 0 6= a ∈ Q, dann w¨ ahlen wir 0 < ε < |a|. Es folgt |f (x)−f (a)| = |a| > ε, falls x 6∈ Q. Da es beliebig nahe an jeder rationalen Zahl a auch irrationale Zahlen gibt, ist f in a nicht stetig. Wenn schließlich a 6∈ Q, dann w¨ahlen wir 0 < 2ε < |a| und erhalten f¨ ur jedes x mit |x − a| < ε mit Hilfe von Satz 3.1.3 (3) |x| = |a − (a − x)| ≥ |a| − |x − a| ≥ |a| − |x − a| > 2ε + ε = ε. Da es beliebig nahe an a rationale Zahlen x gibt, folgt |f (x) − f (a)| = |x| > ε und f ist in a nicht stetig. 4.6 Sei h(x) := f (x) − g(x) und x ∈ R. Sei (xn )n∈N eine Folge mit limn→∞ xn = x und xn ∈ Q. Aus der Stetigkeit von h folgt limn→∞ h(xn ) = h(x). Da h(xn ) = 0, folgt h(x) = 0. 4.7 Wir betrachten hier den Fall, dass f monoton wachsend und x0 ∈ (a, b] ist und zeigen, dass der rechtsseitige Grenzwert existiert. Die anderen F¨alle gehen analog. Sei s = sup{f (x) | x ∈ (a, x0 )}. Wir wollen zeigen, dass s der rechtsseitige Grenzwert von f (x) f¨ ur x gegen x0 ist. Sei ε > 0. Dann existiert ein y ∈ (a, x0 ) mit s − ε < f (y). Dann gilt wegen der Monotonie s − ε < f (x) ≤ s, also |f (x) − s| < ε f¨ ur alle x ∈ (y, x0 ). Daraus folgt die Behauptung. 4.8 2 (a) f ′ (x) = ex(ln(x)) · (ln(x))2 + 2x ln(x) · x1 = xx ln(x) ln(x)(ln(x) + 2). 1 1 = − 1+x (b) f ′ (x) = − 1+cot2 (arccot(x)) 2.
L¨ osungen zu Kapitel 4
427
4.9 F¨ ur x ≤ 0 ist f (x) = 1 − x und f¨ ur x > 0 ist f (x) = cos(x). Daher ist die Funktion f stetig und differenzierbar f¨ ur alle x 6= 0. F¨ ur x gegen 0 ist der rechtsseitige und linksseitige Grenzwert von f (x) gleich 1 und damit ist f (x) in 0 stetig. (0) = limh→0 1−h−1 = −1, f¨ ur F¨ ur negatives h erhalten wir limh→0 f (h)−f h h f (h)−f (0) cos(h)−1 positives h jedoch limh→0 = limh→0 = 0. Damit sind die h h rechtsseitigen und linksseitigen Grenzwerte der Differenzenquotienten in 0 nicht gleich und die Funktion f ist dort nicht differenzierbar. 4.10 Sei f (x) = cos(x) − 2x + 3. Dann ist f ′ (x) = − sin(x) − 2 und damit f ′ (x) < 0 f¨ ur alle x ∈ R. Daraus folgt, dass f streng monoton fallend ist. Da f (0) = 4 und f (3) = cos(3) − 3 < 0, gibt es genau eine reelle Zahl x ∈ (0, 3) mit cos(x) = 2x − 3. 4.11 “ ” 2 x3 1− x20 +... 6 x−sin(x) 1 1 ” “ limx→0 sin(x) − x = 0, da x·sin(x) = 2 wegen Satz 4.1.22. x2 x
1−
6
+...
4.12 √ √ 1 1 − 1 , ist genau dann f ′ (x) = 0, Da f ′ (x) = 2√ e−x − xe−x = xe−x 2x x 1 x> gilt wenn x = 21 . Wenn 0 < x < 12 , dann ist f ′ (x) > 0 und wenn 1 2 , dann 1 ′ f (x) < 0. Daraus folgt, dass auf den Intervallen 0, 2 und 2 , ∞ stetige Umkehrfunktionen von f existieren und dass ein lokales Maximum in x = 12 und ein lokales Minimum in x = 0 vorliegt. 4.13 x− π x 2 = · limx→ π2 sin(x) = limx→0 cos x+ limx→ π2 x − π2 tan(x) = limx→ π2 cos(x) ( π2 ) x limx→0 − sin(x) = −1. 4.14 |x| (a) limx→0,x≥0 |x| x = 1 und limx→0,x≤0 x = −1. Damit existiert die rechtsseitige Ableitung von f (x) = |x| und sie ist gleich −1 und es existiert die linksseitige Ableitung und sie ist gleich 1. √ (b) limx→0,x≥0 xx = limx→0,x≥0 √1x = ∞. 4.15 (2n+2)! n| (a) Da |c|cn+1 | = (2n)! = (2n + 1)(2n + 2), ist der Konvergenzradius nach Bsp. 4.3.4 (3) gleich ∞. 3n 1 1 n| (b) Da |c|cn+1 | = 3n+1 = 3 , ist der Konvergenzradius gleich 3 (Bsp. 4.3.4 (3)). 4.16 x und damit f ′ (0) = 0. Man erh¨alt f ′′ (x) = Es gilt f (0) = 1, f ′ (x) = √1+x 2 3 − − 5 1 + x2 2 und damit f ′′ (0) = 1 und auch f ′′′ (x) = −3x 1 + x2 2 , woraus f ′′ (0) = 0 folgt. Somit ist die Taylorreihe von f (x) bis zur Ordnung 3 durch das Polynom f (0) + f ′ (0)x + 21 f ′′ (0)x2 + 16 f ′′′ (0)x3 = 1 + 21 x2 gegeben.
428
L¨ osungen
4.17 P∞ x2k+1 1−x 2 ′ (a) Sei g(x) := ln 1+x k=0 2k+1 , dann ist g (x) = 1+x · (1−x)2 − 1−x − 2 P P∞ 2k ∞ 2 2k = 0 (geometrische Reihe). Daraus folgt, dass 2 k=0 x = 1−x 2 −2 k=0 x g(x) konstant ist. Da g(0) = ln(1) − 0 = 0 folgt die behauptete P∞ 1 kGleichung. −x x = (b) Die Behauptung folgt durch Einsetzen von e = k=0 k! x und e P∞ k 1 k (−1) x . k=0 k! 4.18 ≤ 1, da die Folge (an )n∈N monoton f¨allt. Damit konvergiert die Es gilt aan+1 n Reihe nach Bsp. 4.3.4 (3) f¨ ur alle |x| < 1. 4.19 π R π Rπ 2 x x 2 (a) 0 x cos 3 dx = 3x sin 3 − 0 6x sin x3 dx 0 √ √ √ π Rπ x 3 2 = 2 π 3 − −18x cos 3 + 18 0 cos x3 dx = 23 3π 2 + 9π − 27 3. e 0 p R e dx √ = 2 ln(x) = 2. (b) 1 x ln(x) 1 ∞ ∞ R∞ R ∞ ln(x) 1 (c) 1 x2 dx = − x ln(x) + 1 x12 dx = − x1 = 1, da nach Satz 4.2.28 1
1
1
x limx→∞ ln(x) x = limx→∞ 1 = 0. π2 R π2 1 (d) − π x sin(2x)dx = − 2 x cos(2x) 2
R2
1 1 (x−1)2 dx
2
1 − (x−1)
−π 2
+
1 2
R
π 2
−π 2
cos(2x)dx =
π 2.
= ∞. ∞1 ∞ R ∞ −x R ∞ −x 1 −x −x (f ) 1 xe dx = −xe + 1 e dx = e − e = 2e . 1 1 4.20 1 1 1 1 (a) Unter Benutzung von x4 −1 = − 4 x+1 − x−1 − 21 · x21+1 erh¨alt man R 1 1 x+1 + 2 arctan(x) + C. ln dx = − 4 x −1 4 x−1 R R 2 x 1 (b) x2 −3x+2 dx = − x−2 x−1 dx = 2 ln |x − 2| − ln |x − 1| + C. R ex 1 x (c) 3+2ex dx = 2 ln(3 + 2e ) + C. ′ = (d) Da sin(x) = 2 sin x2 cos x2 = 2 cos2 x2 tan x2 und tan x2 R 1 x dx = ln | tan( )| + C. , ergibt sich sin(x) 2 2 cos2 ( x 2) ( 1 2 R x>0 2x + C (e) |x|dx = 1 2 −2x + C x ≤ 0 . 4.21 (a) Aus der Gleichung cos(kx) cos(lx) = 21 cos((k − l)x) + cos((k + l)x) 2π R 2π = 0. ergibt sich 0 cos(kx) cos(lx)dx = sin((k−l)x) + sin((k+l)x) 2(k−l) 2(k+l) 0 (b) Folgt ebenso aus sin(kx) sin(lx) = 12 cos((k − l)x) − cos((k + l)x) . (e)
=
L¨ osungen zu Kapitel 4
429
4.22 R 2π Mit Hilfe von cos2 (kx) = 12 1 + cos(2kx) , ergibt sich 0 cos2 (kx)dx = 2π R 1 2π 1 sin(2kx) = π. 1 + cos(2kx) dx = 12 x + 2k 2 0 0
4.23 Da die Gleichung der Ellipse auch als y 2 = b2 1 −
x2 a2
geschrieben werden Ra q 2 kann, ist der gesuchte Fl¨ acheninhalt durch den Ausdruck 2 −a b 1 − xa2 dx √ R√ gegeben. Weil a2 − x2 dx = 12 x a2 − x2 + a2 arcsin xa + C, erhalten a q √ Ra 2 wir 2 −a b 1 − xa2 dx = 2 ab · 21 (x a2 − x2 + a2 arcsin xa ) und das ist gleich −a
ab(arcsin(1) − arcsin(−1)) = abπ. 4.24 R R∞ 1 1 dx = ln(ln(x))+C. Daraus folgt, dass das Integral 2 x ln(x) dx Es ist x ln(x) P∞ 1 nicht konvergiert und nach Satz 4.4.33 auch die Reihe n=2 n ln(n) nicht. 4.25 Der Beweis l¨asst sich im Prinzip w¨ ortlich u ¨ bertragen. 4.26 ∞ P F¨ ur die Fourier-Koeffizienten von | sin(x)| = a20 + (ak cos(kx) + bk sin(kx)) k=1
u ¨ ber dem Intervall [−π, π] gilt Z 1 π | sin(x)| cos(kx)dx , ak = π −π
1 bk = π
Z
π
−π
| sin(x)| sin(kx)dx .
Rπ Rπ R0 Wir erhalten a0 = π1 −π | sin(x)|dx = π1 0 sin(x)dx − π1 −π sin(x)dx = π4 R R R π π 0 und a1 = π1 −π | sin(x)| sin(x)dx = π1 0 sin2 (x)dx − π1 −π sin2 (x)dx = 0. F¨ ur k > 1 gilt sin(x) cos(kx) = 12 sin((k + 1)x) + sin((1 − k)x) und somit R 1 1 cos((k + 1)x) + 1−k cos((1 − k)x) + C. Darsin(x) cos(kx)dx = − 21 k+1 aus folgt, dass ak = 0 f¨ ur ungerades k und ak = − π4 ·
1 ur gerades k ist. k2 −1 f¨ P∞ 2 = π − π4 k=1 cos(2kx) 4k2 −1 .
Analog zeigt man bk = 0 f¨ ur alle k. Damit ist | sin(x)| 4.27 Zun¨achst bemerken wir, dass durch die Substitution −x f¨ ur x (Satz 4.4.17) R0 Rπ folgt: −π F (x)dx = 0 F (−x)dx. Wenn F eine ungerade Funktion ist, also Rπ R0 Rπ F (−x) = −F (x) gilt, dann ist −π F (x)dx = −π F (x)dx + 0 F (x)dx = Rπ (F (−x) + F (x)) dx = 0. 0 Da sowohl F (x) = f (x) cos(kx) f¨ ur eine ungerade Funktion f als auch F (x) = f (x) sin(kx) f¨ ur gerades f und k > 0 ungerade Funktionen sind, R 2π Rπ folgt bk = π1 0 f (x) sin(kx)dx = π1 −π f (x) sin(kx)dx = 0, wenn f geraR 2π Rπ de ist und ak = π1 0 f (x) cos(kx)dx = π1 −π f (x) cos(kx)dx = 0, wenn f ungerade ist. Daher hat die Fourier-Reihe f¨ ur gerades, 2π-periodisches f die
430
L¨ osungen
P∞ a0 Gestalt ur ungerades, 2π-periodisches f die Form k=1 ak cos(kx) und f¨ 2 + P∞ b sin(kx). k k=1 4.28 R R Es gilt (π 2 − x2 ) cos(kx)dx = (π 2 − x2 ) k1 sin(kx) − (−2x) k1 sin(kx)dx = 2 ur alle l ∈ Z, (π 2 − x2 ) k1 sin(kx)− 2x k2 cos(kx)+ π k3 sin(kx)+ C. Da sin(lπ) = 0 f¨ 4π k ergibt sich πak = − k2x2 cos(kx) = − 4π ur k > 0. Da k2 cos(kπ) = − k2 (−1) f¨ −π
π 2 − x2 eine gerade Funktion ist, gilt bk = 0 f¨ ur alle k (Aufgabe 4.27). Da Rπ P∞ 2 2 a0 = −π (π 2 − x2 )dx = 4π3 , gilt π 2 − x2 = 2π3 + k=1 k42 (−1)k+1 cos(kx) f¨ ur x ∈ [−π, π]. 4.29 ur alle k (Aufgabe 4.27). Die Funktion f (x) = x2 ist ungerade, somit ak = 0 f¨ Außerdem ist ! π Z Z π x 1 π x 1 1 − cos(kx) + bk = sin(kx)dx = cos(kx)dx π −π 2 π 2k 2k −π −π π ! π (−1)k+1 1 x 1 = − cos(kx) + 2 sin(kx) = . π 2k 2k k −π −π P∞ Daraus folgt x2 = k=1 (−1)k+1 k1 sin(kx) in [−π, π]. 4.30 R 2π Es gilt a0 = π1 0 ex dx = π1 (e2π − 1). Da Z Z x x e sin(kx)dx = e sin(kx) − ex k cos(kx)dx und Z Z kex cos(kx)dx = kex cos(kx) + ex k 2 sin(kx)dx , ergibt sich Z ex ex sin(kx)dx = 2 sin(kx) − k cos(kx) + C und analog k +1 Z ex ex cos(kx)dx = 2 cos(kx) + k sin(kx) + C . k +1
e2π − 1 k(1 − e2π ) und a = . Damit lautet die k π(k 2 + 1) π(k 2 + 1) x Fourierreihe f¨ ur e auf [0, 2π] ! ∞ ∞ X k e2π − 1 1 X 1 + cos(kx) − sin(kx) . π 2 k2 + 1 k2 + 1 Daraus erhalten wir bk =
k=1
k=1
L¨ osungen zu Kapitel 5
431
5.1 Es handelt sich hier um eine Variation von 3 Elementen der Menge {0, . . . , 9} mit Wiederholung. Damit gibt es 1 000 = 103 dreistellige Zahlen im Dezimalsystem. Dabei sehen wir als dreistellige Zahl eine Zahl mit 3 oder weniger Ziffern. Wenn wir die Anzahl aller Zahlen mit genau drei Ziffern bestimmen wollen, erhalten wir 900, da die erste der drei Ziffern nicht Null sein darf. 5.2 Es handelt sich hier um eine Variation von 11 Elementen der Menge {1, 0, −1} mit Wiederholung. Hier steht 1 f¨ ur ein gewonnenes Spiel, 0 f¨ ur unentschieden und −1 f¨ ur ein verlorenes Spiel. Damit gibt es 311 = 177 147 M¨oglichkeiten. 5.3 Es handelt sich hier um eine Variation von 3 Elementen der Menge {1, . . . , 20} 20! ohne Wiederholung. Damit gibt es (20−3)! = 18·19·20 = 6 840 M¨oglichkeiten. 5.4 Es handelt sich hier um eine Variation von 5 Elementen der Menge {·, −} mit Wiederholung. Hier gibt es 25 = 32 M¨ oglichkeiten. 5.5 Wir f¨ uhren den Beweis mittels vollst¨ andiger Induktion nach n. Der Induktionsanfang bei n = 3 ist klar. Wir nehmen als Induktionsvoraussetzung an, dass n−3 X n − i − 1 n − 1 = 2 3 i=1 gilt. Durch Addition von n−1 Seiten dieser Gleichung folgt unter 2 auf beiden n−1 n Verwendung von n−1 + = die Behauptung. 3 2 3 5.6 Es gibt 36 oglichkeiten, die Karte f¨ ur den ersten Stapel zu w¨ahlen. 1 = 36 M¨ Dann bleiben 35 M¨ o glichkeiten, 2 Karten f¨ u r den zweiten Stapel zu w¨ahlen, 2 33 oglichkeiten f¨ ur den dritten Stapel und so weiter bis 15 oglichkeiten 3 M¨ 7 M¨ f¨ ur den 7. Stapel. Dann bleiben 8 Karten u ¨ brig, die auf den 8. Stapel kommen. Damit ergibt sich als Gesamtzahl der M¨ oglichkeiten das Produkt 36 35 33 30 26 21 15 = 73 566 121 315 513 295 589 120 000 . 1 2 3 4 5 6 7 5.7 Wenn n = k, dann ist die erste Gleichung offenbar richtig. Zum Beweis im Fall 1 ≤ k ≤ n − 1 setzen wir M = {1, . . . , n}. F¨ ur jede disjunkte Zerlegung M = M1 ∪ . . . ∪ Mk gibt es zwei M¨ oglichkeiten: (1) Es gibt ein i, so dass n ∈ Mi und |Mi | = 1, d.h. Mi = {n}. (2) Es gibt ein i, so dass n ∈ Mi und |Mi | ≥ 2. Im ersten Fall ist M1 ∪ . . . ∪ Mi−1 ∪ Mi+1 ∪ . . . ∪ Mk = M r {n} eine disjunkte Zerlegung in k − 1 Teilmengen. Es gibt S(n−1,k−1) solcher Zerlegungen. Im zweiten Fall ist M1 ∪ . . . ∪ Mi−1 ∪ Mi r {n} ∪ . . . ∪ Mk = M r {n} eine
432
L¨ osungen
disjunkte Zerlegung in k Teilmengen. Es gibt S(n−1,k) solche Zerlegungen. Bei einer derartigen Zerlegung kann n zu jeder der k Mengen hinzugef¨ ugt werden, was zu k · S(n−1,k) Zerlegungen von M im zweiten Fall f¨ uhrt. Daraus folgt die behauptete Gleichung S(n,k) = S(n−1,k−1) + kS(n−1,k) . Da M eine endliche Menge ist, gilt | Sur(M, M )| = | Bij(M, M )| = n! und 1 Pk k−j k n somit folgt die Formel S(n,k) = k! ur k = n aus Folgerung j=0 (−1) j j f¨ 5.1.19. F¨ ur 1 ≤ k ≤ n − 1 beweisen wir diese Gleichung per Induktion u ¨ ber n. Der Induktionsanfang mit n P = k = 1 ist klar. Im Induktionsschritt setzen k 1 k−j k n−1 f¨ ur alle 1 ≤ k ≤ n − 1 wir voraus, dass S(n−1,k) = k! j=0 (−1) j j gilt. Nach Voraussetzung ist also S(n−1,k−1)
S(n−1,k)
k−1 X 1 k−1−j k − 1 = j n−1 (−1) j (k − 1)! j=0
k 1 X k−j k (−1) j n−1 . = j k! j=0
Mit Hilfe der bereits bewiesenen Rekursionsgleichung folgt nun S(n,k) = S(n−1,k−1) + kS(n−1,k) =
=
=
=
k−1 k X 1 X 1 n−1 k−j−1 k − 1 k−j k j +k· j n−1 (−1) (−1) j j (k − 1)! j=0 k! j=0 k−1 X 1 k − 1 k (−1)k−j − + j n−1 + k n−1 j j (k − 1)! j=0 k−1 X 1 (−1)k−j k − 1 j n−1 + k n−1 j−1 (k − 1)! j=0 k−1 X 1 k k−1 · · j n + kn (−1)k−j j−1 k! j=0 j
k 1 X k−j k jn . (−1) = j k! j=0
5.8 Die Rechnung geht analog zum Fall a = 4.
L¨ osungen zu Kapitel 5
433
5.9 Mit den S¨atzen 5.2.32 und 5.2.26 ergibt sich Var(X + Y ) = E (X + Y )2 − (E(X + Y ))2 2 = E X 2 + 2XY + Y 2 − (E(X) + E(Y )) = E X 2 + 2E(XY ) + E Y 2 − E(X)2 − 2E(X)E(Y ) − E(Y )2 .
Da X und Y unabh¨ angig sind, gilt nach Satz5.2.28 E(XY ) = E(X) · E(Y ), also Var(X + Y ) = E X 2 − E(X)2 + E Y 2 − E(Y )2 = Var(X) + Var(Y ). 5.10 Wie im Beweis von Satz 5.2.26 haben wir E(X) P P+ E(Y ) = E(X + Y ) = (X + Y )(e)P ({e}) und E(max(X, Y )) = e∈S e∈S max(X, Y )(e)P ({e}). Da X, Y nicht negativ sind, gilt max(X, Y )(e) ≤ (X + Y )(e) f¨ ur alle e ∈ S, woraus die Behauptung folgt. 5.11 P P E(aX) = b∈aX(S) b · P (aX = b) = b ∈X(S) a · ab · P X = ab = aE(X). a 5.12 Var(aX) = E (aX − E(aX))2 = E a2 (X − E(X))2 = a2 Var(X). 5.13 Wenn P ({e}) = P ({e′ }) f¨ ur alleP e, e′ ∈ S, dann ist die f¨ ur (1) wegen (2) in De1 finition 5.2.1 n¨otige Gleichung e∈S P ({e}) = 1 zu P ({e}) = |S| ¨aquivalent. 5.14 Hier haben wirPS = {1, . . . , 6} und P ({k}) = 16 f¨ ur alle k ∈ S. Da X(k) = k, 7 folgt E(X) = k∈S X(k)P ({k}) = 61 + 26 + 63 + 64 + 65 + 66 = 21 6 = 2. 5.15 Es handelt sich um eine Binomialverteilung mit n = 100 und p = 0,02. Es ist P (X ≤ 3) = P (X = 0) + P (X = 1) + P (X = 2) + P (X = 3) zu berechnen. 100 0 P (X = 0) = p (1 − p)100 ≈ 0,13262 0 100 P (X = 1) = p(1 − p)99 ≈ 0,27065 1 100 2 P (X = 2) = p (1 − p)98 ≈ 0,27341 2 100 3 P (X = 3) = p (1 − p)97 ≈ 0,18228 3 Damit ist die Wahrscheinlichkeit etwa 0,86, dass unter 100 mit Zur¨ ucklegen entnommenen LED’s h¨ ochstens 3 fehlerhafte sind. 5.16 In Beispiel 5.2.6 wurde gezeigt, dass die Wahrscheinlichkeit, bei einem Tipp 1 ist. Daher ist der zu erwartende Gewinn 6 Richtige zu haben, gleich 49 (6)
434
1
L¨ osungen
· 199 999 +
49 6
1−
1
49 6
!
200 000 200 000 −1= − 1 ≈ −0,99 . 49 13 983 816 6
(−1) =
5.17 Bei der Poisson-Verteilung ist S = N und P (X = k) = P ({k}) = k ∈ N. Damit ist (vgl. Beispiel 3.3.17) E(X) =
∞ X
kP (X = k) =
k=0
∞ X
λk −λ k! e
f¨ ur
∞ X λk k e−λ k!
kP (X = k) =
k=1
k=1
∞ ∞ X X λk−1 λk = λe−λ = λe−λ = λe−λ eλ = λ . (k − 1)! k! k=1
k=0
Damit ergibt sich nun in ¨ ahnlicher Weise ∞ X Var(X) = E (X − E(X))2 = E (X − λ)2 = (k − λ)2 P (X = k) k=0
=
∞ X
k=0
= e−λ
λk −λ k 2 − 2λk + λ2 e k!
∞ X
k=0
= e−λ = e−λ
∞ X
k=0 ∞ X
k=2
2
k2
∞
k=0
k4
e5 •
e4 • k6
k5
e1 •
k1
k3
k=0
∞
X λk λk − λ2 = e−λ − λ2 (k(k − 1) + k) k2 k! k! k=0
k
λ + e−λ (k − 2)! 2
=λ +λ−λ =λ. 5.18 (1)
∞
X λk X λk λk − 2λe−λ + λ2 e−λ k k! k! k!
100 • e3 1 1 0 0 1 1 k2 0 0 1 000 e • 2
01 00 00 10 11
0 0 1 0 1
∞ X
k=1
λk − λ2 (k − 1)!
k4
e5 •
e4 • k6 k8
k5
e1 •
k7 k1
k3
10 • e3 1 1 0 1 k2 0 0 00 e • 2
00 00 10 11 01
101 000 011 000 110
0 1 0 0 1
L¨ osungen zu Kapitel 5
435
(2) 1
e4 •
2
4
e3 • 2
1
3
2
e1 • 5.19 (a)
e→ e→ e→ e→
• e2
e1 e1 → e2 e3 e3 → e4
: : : :
1 2 2 3
• e
1
•
• •
• •
• •
• •
• •
•
•
• •
• •
• •
• •
• •
•
(b) Sei e ∈ E1 ein Knoten vom Grad r und k1 , . . . , kr alle Kanten mit Knoten e. Außerdem bezeichnen wir mit ei den von e verschiedenen Knoten der Kante ki , d.h. ϕ1 (ki ) = {e, ei }. Dann gilt ϕ2 (β(ki )) = {α(e), α(ei )} und somit hat α(e) die Kanten β(k1 ), . . . , β(kr ). Daher ist der Knotengrad von α(e) mindestens r. Durch Betrachtung der inversen Abbildungen α−1 : E2 → E1 und β −1 : K2 → K1 erh¨ alt man auf die gleiche Weise, dass der Knotengrad von α(e) gleich r ist. 5.20 V3 • k6 1100001 k3 k4 1 1 1 1 1 0 0 k5 0 0 1 1 0 1 0 • • V2 V4 0000111 k k 2
1
k7
•
V1 5.21 Wir beweisen den Satz durch Induktion u ¨ber die Anzahl der Knoten. Ein zusammenh¨angender Graph mit 2 Knoten hat mindestens eine Kante. Sei jetzt ein zusammenh¨ angender Graph mit n Knoten gegeben. Durch Weglassen von Kanten k¨ onnen wir o.B.d.A. annehmen, dass der Graph folgende Eigenschaft hat. Er ist zusammenh¨ angend, aber das Weglassen eine beliebigen Kante f¨ uhrt dazu, dass der Graph in 2 zusammenh¨angende Graphen zerf¨allt, die untereinander nicht zusammenh¨ angen. •
•
•
•
•
•
•
•
•
Nach Induktionsvoraussetzung ist die Summe der Anzahl der Kanten beider Graphen mindestens n − 2. Daraus folgt die Behauptung.
436
L¨ osungen
5.22 Ein Baum ist ein zusammenh¨ angender Graph ohne Zyklen. Da der Graph zusammenh¨angend ist, lassen sich zwei gegebene Knoten durch einen Weg verbinden. Zwei verschiedene Wege w¨ urden zu einem Zyklus f¨ uhren. Zum Beweis, dass |E| = |K| + 1 gilt, verwenden wir Induktion u ¨ ber n = |E|, die Anzahl der Knoten. F¨ ur n = 2 ist die Behauptung klar. F¨ ur den Induktionsschritt nehmen wir an, dass jeder Baum mit k < n Knoten genau k − 1 Kanten besitzt. Wenn wir aus einem Baum mit n Knoten eine Kante entfernen, dann entstehen zwei zusammenh¨angende Teilgraphen, die nicht miteinander verbunden sind (genau wie bei der L¨osung von Aufgabe 5.21), denn sonst g¨abe es einen Zyklus im urspr¨ unglichen Graphen. Nach Induktionsvoraussetzung ist die Summe der Anzahl der Kanten beider Teilgraphen gleich n − 2, der betrachtete Baum mit n Knoten hatte also n − 1 Kanten. 5.23 Wir beweisen diese Aussage durch Induktion u ur n = 2 ist die Be¨ber n. F¨ hauptung klar. Sei nun n ≥ 3 und die Behauptung bereits f¨ ur Graphen mit n − 1 Knoten gezeigt. Der Graph muss mindestens einen Endknoten besitzen, da wegen Bemerkung 5.3.5 (2) sonst |K| ≥ |E| = n w¨ are. Nach Entfernung dieses Endknotens und seiner zugeh¨origen Kante verbleibt ein Graph mit n − 1 Knoten und n − 2 Kanten. Dieser ist nach Induktionsvoraussetzung ein Baum. Daher ist auch der urspr¨ ungliche Graph ein Baum. 5.24 e1 e1 • • k7 (1)
e5 •
k8 (2)
k6 (4) k5 (2)
k3 (3)
• e2 k2 (2)
k7 (1)
e5 •
5.25
k1 (1)
k6 (4) k5 (2)
k3 (3)
k4 (1)
e4 •
k8 (2)
• e2 k2 (2)
k4 (1)
• e3
e4 •
k1 (1)
• e3
•
•
•
•
•
Der Graph hat 53 = 125 aufspannende B¨aume.
L¨ osungen zu Kapitel 5
437
5.26
3 8 6 2 4 9 5 1 7
4 7 5 1 8 3 9 2 6
1 9 2 7 5 6 3 4 8
7 1 4 3 2 8 6 5 9
5 6 3 4 9 7 2 8 1
9 2 8 5 6 1 7 3 4
2 3 7 9 1 4 8 6 5
8 4 9 6 3 5 1 7 2
6 5 1 8 7 2 4 9 3
5.27 Wir m¨ ussen f¨ ur jede zu m teilerfremde Zahl a ∈ Z zeigen: am−1 ≡ 1 mod m. Weil p, 2p − 1 und 3p − 2 Primzahlen sind, gilt nach dem kleinen Satz von Fermat ap−1 ≡ 1 mod p, a2p−2 ≡ 1 mod 2p − 1 und a3p−3 ≡ 1 mod 3p − 2. Es gilt m − 1 = p(2p − 1)(3p − 2) − 1 = (p − 1)(6p2 − p + 1). Da p > 3 eine Primzahl ist, ist p − 1 gerade, woraus 2|6p2 − p + 1 folgt. Außerdem gilt auch 3|6p2 − p + 1. W¨are das nicht der Fall, dann m¨ usste p 6≡ 1 mod 3 sein. Da p > 3 prim ist, w¨are dann p ≡ −1 mod 3, woraus 2p − 1 ≡ 0 mod 3 folgen w¨ urde. Da aber auch 2p − 1 > 5 eine Primzahl ist, ist dies unm¨oglich. Daraus folgt insgesamt 6(p − 1)|m − 1. Durch Potenzieren der zuvor aus dem kleinen Satz von Fermat erhaltenen Kongruenzen erhalten wir deshalb am−1 ≡ 1 mod p, am−1 ≡ 1 mod 2p − 1 und am−1 ≡ 1 mod 3p − 2, woraus sich mit der Eindeutigkeitsaussage aus dem Chinesischen Restsatz ergibt, dass auch am−1 ≡ 1 mod m gilt. 5.28 W¨are 453 quadratischer Rest modulo 1239, dann auch modulo jeden Teilers dieser Zahl. Da 1239 = 3 · 7 · 59 durch 7 teilbar ist, 453 ≡ 5 mod 7 und wegen Satz 5.4.10 57 = 57 = 52 = −1 gilt, ist 453 kein quadratischer Rest modulo der Primzahl 7 und damit auch nicht modulo 1239. 5.29 3389 107 12 3 107 2 547 = = =− =− = = = −1 3389 547 547 107 107 3 3 5.30 p−1 Aus Satz 5.4.9 wissen wir 3 2 ≡ p3 mod p. Aus dem quadratischen Rezi m 3−1 p−1 2m −1 prozit¨atsgesetz folgt p3 = p3 ·(−1) 2 · 2 . Da p = 22 + 1, ist p−1 2 = 2 m m−1 + 1 ≡ 2 mod 3 gerade und somit p3 = p3 . Wegen p = 22 + 1 = (22 )2 p−1 p 3 2 ergibt sich p = 3 = −1, also tats¨ achlich 3 ≡ −1 mod p. p−1
ur jede Primzahl p, f¨ ur die Der gleiche Beweis liefert 3 2 ≡ −1 mod p f¨ p ≡ 5 mod 12, d.h. p ≡ 1 mod 4 und p ≡ 2 mod 3 gilt.
438
L¨ osungen
6.1 Wir geben hier nur die drei Wertetabellen f¨ ur (1), (8) und (10) exemplarisch an. Die anderen sind analog oder viel einfacher. x 0 0 0 0 1 1 1 1
y 0 0 1 1 0 0 1 1
x 0 0 1 1 x y
z
0 0 0 0 1 1 1 1
0 1 0 1 0 1 0 1
0 0 1 1 0 0 1 1
x∧y (x ∧ y) ∧ z y∧z x ∧ (y ∧ z) 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 1 ¬y x ∧ (¬y) x =⇒ y ¬(x =⇒ y) 1 0 1 0 0 0 1 0 1 1 0 1 0 0 1 0 y ∧ z x ∨ (y ∧ z) x ∨ y x ∨ z (x ∨ y) ∧ (x ∨ z) z 0 1 0 1 0 1 0 1
y 0 1 0 1
0 0 0 1 0 0 0 1
0 0 0 1 1 1 1 1
0 0 1 1 1 1 1 1
0 1 0 1 1 1 1 1
0 0 0 1 1 1 1 1
6.2 (x =⇒ y) =⇒ (y =⇒ x) ist keine Tautologie, sondern zu y =⇒ x ¨aquivalent. x
y
x =⇒ y
y =⇒ x
(x =⇒ y) =⇒ (y =⇒ x)
0 0 1 1
0 1 0 1
1 1 0 1
1 0 1 1
1 0 1 1
6.3 Mit den Abk¨ urzungen u := ((x =⇒ y) =⇒ z) und v := (x =⇒ (y =⇒ z)) ergibt sich folgende Wertetabelle, woraus die Behauptung folgt:
L¨ osungen zu Kapitel 6
439
x
y
z
x =⇒ y
u
y =⇒ z
v
u =⇒ v
0 0 0 0 1 1 1 1
0 0 1 1 0 0 1 1
0 1 0 1 0 1 0 1
1 1 1 1 0 0 1 1
0 1 0 1 1 1 0 1
1 1 0 1 1 1 0 1
1 1 1 1 1 1 0 1
1 1 1 1 1 1 1 1
6.4 (a)(i) Unter Benutzung der Tautologie (6.1) sieht man, dass (x =⇒ y) =⇒ z a ¨quivalent ist zu ((¬x) ∨ y) =⇒ z, d.h.: Wenn ich nicht seit 5 Jahren mit ” demselben PC arbeite oder auf meinem PC Linux installiert ist, dann benutze ich die Programmiersprache Perl.“ (ii) Wie bei (i) folgt unter Verwendung von Satz 6.1.1 (2) und (6), dass x =⇒ (y =⇒ z) a¨quivalent ist zu (x ∧ y) =⇒ z, d.h.: Wenn ich seit 5 Jahren ” mit demselben PC arbeite und auf meinem PC Linux installiert ist, dann benutze ich die Programmiersprache Perl.“ (b) Wenn y = 0, dann hat der Term (x∧y) =⇒ z immer den Wert 1, wogegen ((¬x) ∨ y) =⇒ z f¨ ur x = y = z = 0 den Wert 0 hat. (c) Wenn z = 1, dann haben beide Terme den Wert 1. 6.5 Nein, denn nach Aufgabe 6.4 (b) sind (x =⇒ y) =⇒ z und x =⇒ (y =⇒ z) nicht ¨aquivalent. 6.6 (a) Das ergibt sich aus (6.1) und Satz 6.1.1 (2), (4) und (6). (b) Das ergibt sich aus (6.1) und Satz 6.1.1 (10). 6.7 Mit Satz 6.1.1 (9) sieht man, dass (x ∧ y) ∨ ((¬x) ∧ y) ∨ ((¬x) ∧ ¬z) ∨ (x ∧ ¬z) zu y ∨ ¬z ¨aquivalent ist. Der Programmcode kann somit verk¨ urzt werden zu if ($y || !$z) ... 6.8 Nur die Terme x =⇒ y und ¬y =⇒ ¬x sind ¨ aquivalent, wie aus der folgenden Wertetabelle zu ersehen ist: x 0 0 1 1 6.9 (a) 1 (f ) 7
y ¬x ¬y x =⇒ y 0 1 1 1 1 1 0 1 0 0 1 0 1 0 0 1 (b) 2 (g) 12
(c) 3 (h) 3
y =⇒ ¬x 1 1 1 0 (d) 32 (i) 4
¬y =⇒ ¬x 1 1 0 1 (e) 1 (k) 2
y =⇒ x 1 0 1 1
¬(y =⇒ x) 0 1 0 0
440
L¨ osungen
6.10 Wahre Aussagen sind (iii), (iv) und falsch sind (i), (ii), (v), (vi). 6.11 B A A 6.12 (1) (A ∩ B) ∩ C = A ∩ (B ∩ C) (2) (A ∪ B) ∪ C = A ∪ (B ∪ C) (3) A ∩ B = B ∩ A (4) A ∪ B = B ∪ A (5) A = A (6) A ∩ B = A ∪ B 6.13 x 0 0 1 1
y 0 1 0 1
x∧y 0 0 1 0
(7) (8) (9) (10) (11) (12) x∧y 0 1 0 0
A∪B = A∩B A 6⊂ B ⇐⇒ A ∩ B 6= ∅ A∩(B∪C) = (A∩B)∪(A∩C) A∪(B∩C) = (A∪B)∩(A∪C) A ∩ (A ∪ B) = A A ∪ (A ∩ B) = A (x ∧ y) ∨ (x ∧ y) 0 1 1 0
Daraus, oder aus Satz 6.1.1 folgt, dass ¬(x XOR y) ¨aquivalent ist zu x ⇐⇒ y. 6.14 Da nur zwei Werte m¨ oglich sind, ist sie konstant. Der entsprechende Term oder seine Negation ist dann eine Tautologie. 6.15 (a) Die Abbildung f ist surjektiv, da f¨ ur beliebiges x ∈ Z stets f (x, 0) = x gilt. Sie ist nicht injektiv, da f (0, 1) = f (1, 0) = 1, somit auch nicht bijektiv. (b) Da g([0]) = [0], g([1]) = [1], g([2]) = [4], g([3]) = [4] und g([4]) = [1], ist g weder injektiv noch surjektiv oder bijektiv. (c) Man kann diese Aufgabe wie Teil (b) durch das Aufstellen einer Wertetabelle l¨osen. Eleganter ist jedoch die Anwendung des Euklidischen Algorithmus, der uns nach Folgerung 1.2.8 mit genau einer L¨osung der Gleichung [5] · [x] = [1] in Z/13Z versorgt. Man erh¨ alt hier [x] = [−5] = [8]. Daher ist [8] · h([a]) = [8] · [5] · [a] = [a], woraus leicht die Bijektivit¨at von h folgt. 6.16 Da g injektiv ist, folgt f (x1 ) = f (x2 ) aus g(f (x1 )) = g(f (x2 )). Da auch f injektiv ist, folgt dann x1 = x2 . Die analoge Aussage bez¨ uglich Surjektivit¨at ist ebenfalls wahr, denn wenn g surjektiv ist, gibt es zu jedem c ∈ C ein b ∈ B mit g(b) = c. Die Surjektivit¨ at von f impliziert die Existenz von a ∈ A mit f (a) = b, also g(f (a)) = c.
L¨ osungen zu Kapitel 6
441
6.17 Wenn f (a1 ) = f (a2 ), dann ist auch g(f (a1 )) = g(f (a2 )) und somit a1 = a2 wegen Injektivit¨at von g ◦ f . Die Abbildung g muss nicht injektiv sein, wie das Beispiel A = {0}, B = {0, 1}, C = {0} mit f (0) = 0 und g(0) = g(1) = 0 zeigt. 6.18 Wenn c ∈ C, dann gibt es wegen der Surjektivit¨at von g ◦ f ein a ∈ A mit g(f (a)) = c. Dann ist b := f (a) ∈ B ein Element mit g(b) = c gilt. Die Abbildung f muss nicht surjektiv sein, wie das Beispiel aus der L¨osung von Aufgabe 6.17 zeigt. 6.19 Eine Abbildung f ist genau dann injektiv, wenn es zu jedem b ∈ B h¨ochstens ein a ∈ A mit f (a) = b gibt, d.h. wenn in der Faser f −1 (b) h¨ochstens ein Element enthalten ist. Eine Abbildung f ist genau dann surjektiv, wenn es zu jedem b ∈ B mindestens ein a ∈ A mit f (a) = b gibt, d.h. wenn in jeder Faser f −1 (b) mindestens ein Element enthalten ist. Da eine Abbildung genau dann bijektiv ist, wenn sie injektiv und surjektiv ist, folgt auch die dritte Behauptung. 6.20 Wenn f bijektiv ist, dann erf¨ ullt ihre Inverse g = f −1 die geforderten Eigenschaften. Wenn umgekehrt eine Abbildung g : B → A mit den angegebenen Eigenschaften existiert, dann folgt aus den Aufgaben 6.17 und 6.18, da die identischen Abbildungen bijektiv sind, dass f sowohl injektiv als auch surjektiv sein muss. 6.21 Da IdA bijektiv ist, ergibt sich die Reflexivit¨at. Die Symmetrie folgt aus Aufgabe 6.20 und die Transitivit¨ at aus den Aufgaben 6.17 und 6.18. 6.22 Ja. 6.23 Wir beweisen das per Induktion u ¨ ber die Anzahl der Elemente in A. Wenn |A| = 1, dann ist das einzige Element von A auch das kleinste. Wenn |A| > 1, dann w¨ahlen wir irgendein b ∈ A. Nach Induktionsvoraussetzung gibt es in der nichtleeren Menge A r{b} ein kleinstes Element k. Wenn k 4 b, dann ist k kleinstes Element von A. Wenn b 4 k, dann folgt aus der Transitivit¨at (und Reflexivit¨at), dass b 4 a f¨ ur alle a ∈ A. Somit ist b kleinstes Element von A. In der total geordneten Menge (Z, ≤) besitzt die Teilmenge A = Z kein kleinstes Element. In der total geordneten Menge (R, ≤) besitzt das offene Intervall (vgl. Bsp. 3.1.9) A = (0, 1) kein kleinstes Element, obwohl diese Teilmenge ein Infimum besitzt (0 6∈ A ist das Infimum).
Literaturverzeichnis
[Abb]
Abbott, E.A.: Flatland – a romance of many dimensions. Seely & Co 1884; dt. ¨ Ubersetzung: Fl¨ achenland. Teubner 1929. [AGP] Alford, W.R.; Granville, A.; Pomerance, C.: There are Infinitely Many Carmichael Numbers. Annals of Mathematics 139, 703–722, 1994. [Au] Austin, D.: How Google finds your Needle in the Web’s Haystack. American Mathematical Society, http://www.ams.org/featurecolumn/archive/pagerank.html Zugriff: 30. November 2008. [Bau] Bauer, F.L.: Entzifferte Geheimnisse. Springer 2000. [BEL] Bergh, J.; Ekstedt, F.; Lindberg, M.: Wavelets mit Anwendungen in Signal– und Bildverarbeitung. Springer 2007. [Bet] Betten, A.: Codierungstheorie. Springer 1989. [Beu] Beutelspacher, A.: Kryptologie. Vieweg 2002. [BSW] Beutelspacher, A.; Schwenk, J.; Wolfenstetter, K.-D.: Moderne Verfahren der Kryptographie. Vieweg 2001. [Bu] Bundschuh, P.: Einf¨ uhrung in die Zahlentheorie. Springer 1988. [BV] Bollob´ as, B.; De La Vega, W.F.: The diameter of random regular graphs. Combinatorica 2, 125–134, 1982. [BC] Bose, R.C.; Ray–Chaudhuri, D.K.: On a class of error correcting binary group codes. Information and Control 3, 68–79, 1960. [Br] Br¨ ocker, T.: Lineare Algebra und analytische Geometrie. Birkh¨ auser 2004. [CK] Clote, P.; Kranakis, E.: Boolean Functions and Computation Models. Springer 2002. [C1] Codd, E.F.: Derivability, Redundancy, and Consistency of Relations stored in Large Data Banks. San Jose, IBM Research Report RJ599, 1969. [C2] Codd, E.F.: The Relational Model for Database Management. Addison-Wesley 1990. [Da] Dalen, D. van: Logic and Structure. Springer 2004. [De] Deiser, O.: Einf¨ uhrung in die Mengenlehre. Springer 2004. [Di] Diestel, R.: Graphentheorie. Springer 2000. [DH] Diffie, W.; Hellman, M.F.: New Directions in Cryptography. IEEE Transations on Information Theory 22, 644–654, 1976. [Eb] Ebbinghaus, H.-D.: Einf¨ uhrung in die Mengenlehre. Spektrum 2003. [EbZ] Ebbinghaus, H.-D. et al: Zahlen. Springer 1992. [EH] Ebeling, W.; Hirzebruch, F.: Lattices and Codes. Vieweg 1994. [Eh] Ehrenfest P.: Review of L. Couturat ’The Algebra of Logic’. Journal Russian Physical & Chemical Society, Section of Physics, vol. 42, 382–387, 1910.
P. renfest, Re enzi na knigu L. Kutra Algebra logiki. urnal Russkogo fiziko-himiqeskogo obwestva, sek i fiziki, 42, 382{387, 1910.
443
444 [EG]
Literaturverzeichnis
ElGamal, T.: A Public Key Cryptosystem and a Signature Scheme Based on Discrete Logarithms. In: Blakley, G.R.; Chaum, D.C. (eds.): Advances in Cryptology: Proceedings of CRYPTO 84, Lecture Notes in Computer Science, volume 196, pp. 10–18, Springer 1985. [GrYe] Gross, J.; Yellen, J.: Graph Theory and its Applications. CRC Press 1999. [Fi] Fischer, G.: Lineare Algebra. Vieweg 2005. [Fr] Fricker, F.: Neue Rekord-Faktorisierung. Spektrum der Wissenschaft 11, 38–42, 1990. [GH] Gago–Vargas, J.; Hartillo–Hermoso, I.; Martin–Morales, J.; Ucha–Enriquez J.M.: Sudokus und Gr¨ obner Bases: not only a Divertimento. to appear. [GP] Greuel, G.-M.; Pfister G.: A Singular Introduction to Commutative Algebra. Springer 2008. [GR] Godsil, C.; Royle, G.: Algebraic Graph Theory. Springer 2001. [Gu] Guare, J.: Six Degrees of Separation: A play. Vintage Books 1990. [Hal] Halmos, P.R.: Naive Mengenlehre. Vandenhoeck & Ruprecht 1968. [Ha] Hamming, R.W.: Error detecting and error correcting codes. Bell Syst. tech. J. 29, 147–160, 1950. [Ho] Hocquenghem, P.A.: Codes correcteurs d’erreurs. Chiffres 2, 147–156, 1959. [HP] Huffman, W.C.; Pless, V.: Fundamentals of Error-Correcting Codes. Cambridge 2003. [Hu] Huppert, B.: Angewandte lineare Algebra. de Gruyter 1990. [Ju] Jungnickel, D.: Codierungstheorie. Spektrum 1995. [Ju1] Jungnickel, D.: Graphen, Netzwerke und Algorithmen. BI 1994. [Kl] Kleinberg, J.: Complex Networks and Decentralized Search Algorithms. In: Sanz– Sol´ e, M. (ed.) et al.: Proceedings of the ICM, Vol. III, pp. 1019–1044, EMS 2006. [Ko1] Koblitz, N.: A course in number theory and cryptography. Springer 1994. [Ko2] Koblitz, N.: Algebraic aspects of cryptography. Springer 1999. [Koe] K¨ onigsberger, K.: Analysis 1. Springer 1990. [Kow] Kowalsky, H.J.; Michler, G.O.: Lineare Algebra. Walter de Gruyter 2003. [La] Lau, D.: Algebra und Diskrete Mathematik. Springer 2004. [Li] Lint, J.H. van: Introduction to coding theory. Springer 1999. [L¨ u] L¨ utkebohmert, W.: Codierungstheorie: Algebraisch-geometrische Grundlagen und Algorithmen. Vieweg 2003. [Ma] Manin, Yu.I.: A Course in Mathematical Logic. Springer 1977. [Mi] Milgram, S.: The small world problem. Psychology Today 1, 60–67, 1967. [MT] Milgram, S.; Travers, J.: An experimental study of the small world problem. Sociometry 32, 425–443, 1969. [ReL] R´ edei, L.: Algebra. Geest & Parlig K.-G. 1959. [RS] Reed, I.S.; Solomon, G.: Polynomial codes over certain finite fields. J. Soc. Ind. Appl. Math. 8, 300–304, 1960. [RSA] Rivest, R.; Shamir, L.; Aldeman, L.: A Method for Obtaining Digital Signatures and Public-Key Cryptosystems. Comm. of the ACM 21 (2), 120–126, 1978. [Rok] Rokicki, T.: Twenty-Five Moves Suffice for Rubik’s Cube. arXiv:0803.3435, 2008. [Se] Serre, J.-P.: A Course in Arithmetic. Springer 1973. [Sch] Schulz, R.-H.: Codierungstheorie. Vieweg 1991. [ST] Periodensterbetafeln f¨ ur Deutschland. Statistisches Bundesamt, www.destatis.de, 28.3.2008. [We] Werner, A.: Elliptische Kurven in der Kryptographie. Springer 2002. [WD] Williams, H.C.; Dubner, H.: The primality of R1031. Math. Comp. 47, 703–711, 1986.
Symbolverzeichnis
N 374 Z 3, 374 Q 26, 374 R 26, 165, 374 C 26, 172, 374 ggT 6, 50 ϕ(n) 13, 34 [a] 17, 33 Z/nZ 18 (Z/nZ)∗ 27 Id 27, 395 Sn 27 hgi 32 G/U 33 ord(G) 34 ord(g) 34 ker(f ) 36, 100 im(f ) 36, 100 Fp 46 R[X] 47 deg(f ) 48 R∗ 53 Rn 74 L¨ os(A| b) 82 K n 95 Mat(m × n, K) 95 Lin(v1 , . . . , vr ) 96 dimK V, dim V 99 HomK (V, W ) 100 f −1 (w) 101 GL(n, K) 105 rk(A) 105 V /U 107 T 109 U + V 118 det(A) 121 SL(n, K) 124
hx, yi 126 kxk 127 U ⊥ 128 O(n) 132 SO(n) 132 H 133 χA (λ) 135 Br (x) 149 dmin (C) 150 wmin (C) 152 ⌊a⌋ 169 inf(M ) 170 sup(M ) 170 [a, b] 171 (a, b) 171 i 53, 172 limn→∞ an 176 P∞ 186 i=0 ai exp(x), ex 193, 208 e 193 O(B) 200 o(B) 200 Ω(B) 203 ω(B) 203 Θ(B) 204 Γf 206 g ◦ f 206, 386 ln 213 loga 213 cos(x) 214 sin(x) 214 π 186, 217, 248, 249, 272, 273 tan(x) 218 cot(x) 218 f ′ (x) 221 df (x0 ) 221 dx 445
446 d2 f (x0 ) dx2 f ′′ (x0 ) f (n) (x)
227 227 227 Rb Ra f (x)dx 239 f (x)dx 244 Γ (x) 254 ζ(s) 255 k f kI 257 n! `n´ 27, 282 282 ´ `k n 284 k1 ,k2 ,...,kr Abb(N, M ) 287 Inj(N, M ) 287 Pk (M ) 287 Bij(N, M ) 288 P (A|B) 299 P (X = a) 302 P (X ≥ a) 302 E(X) 303 Var(X) 307 Kn 320 χ(G) 336 `a´ 352 p
Symbolverzeichnis ∧ 360, 363 ∨ 360, 363 360 ¬, =⇒ 176, 360, 363 ⇐⇒ 176, 360, 363 ∃ 176, 360 ∃! 360 ∀ 176, 360 ∅ 372 A ∪ B 374 A ∩ B 374 A r B 374 P(M ) 375 A × B 376 f −1 ({b}) 386 f −1 (C) 386 χA 135, 387 ∼ 388 M/ ∼ 388 |A| 389 4 390 ≺lex 393 ≺dlex 393
Personenverzeichnis
A Abbott 75 Abel 26, 258 Adleman 66 Antonie 232 Appel 336 Archimedes 169 Argand 54 B Bachmann 200 Barrow 205 Bayes 301 Bernoulli 296 Bernstein 261 Binet 138 Bois–Reymond 200, 270 Bollob´ as 340 Bolzano 182 Boole 381
de la Vega 340 Dedekind 51 Descartes 73 Diffie 66 Dijkstra 323 Dubner 69 E Ehrenfest 369 ElGamal 66 Erd˝ os 340 Euklid 3, 6–8, 12, 19, 50, 67, 76, 394 Euler 13, 193, 254, 317, 337 F Fermat 21, 34 Fourier 269 Fraenkel 373 Franke 68 Frobenius 345 G
C Cantor 372, 385, 393 Carmichael 351 Cauchy 54, 128, 182, 238 Cayley 318, 382 Codd 379, 380, 386 Cole 69 Cooley 277 Cramer 126 D de L’Hospital
232
Garns 337 Gauß 7, 42, 54, 73, 85, 86, 88, 110, 111, 254, 277 G¨ odel 371 Gram 127, 129 Guthrie 319 H Haken 336 Hamilton 133, 318 Hamming 149, 156 Hasse 391 Hellman 66
447
448
Personenverzeichnis
J Jacobi Jordan
R Rabin 349 Riemann 243, 255 Rivest 66 Rolle 227 Rubik 43 Runge 263 Russell 373, 388
352 88, 139
K Kirchhoff 318 Kruskal 328
S
L Lagrange Landau Laplace Legendre Leibniz Leonardo
33 200 294, 296 352 188, 238 von Pisa
Schmidt Schwarz Shamir Shannon Stirling Sylvester
129 128 66 369 253, 293 142
176 T
M Markoff 306 Mersenne 69 Milgram 339 Miller 349 Morgan 335 N Nevanlinna 339 Newton 238 P Pascal 15, 282 Perron 345 Platon 319 Poisson 298
Taylor 236 Tschebyscheff Tukey 277
310
V Vandermonde Vigen` ere 65
144
W Wallis 249 Weierstraß 182, 260 Wessel 54 Williams 69 Z Zermelo
373
Sachverzeichnis
A Abbildung 380, 381 charakteristische 387 lineare 100 abelsche Gruppe 26, 94 Abelscher Grenzwertsatz 258 Ableitung 221 der Umkehrfunktion 226 linksseitig 235, 271 Rechenregeln 224 rechtsseitig 235, 271 absolut konvergent 188, 258 abz¨ ahlbar 294 Addition Assoziativgesetz 4, 166 inverses Element 4, 166 Kommutativgesetz 4, 166 neutrales Element 4, 166 Additionstheorem 193, 215 additives inverses Element 4 additives neutrales Element 4 adische Darstellung reeller Zahlen 195 adischer Bruch 195 Adjunkte 126 affiner Raum 88 Algorithmus siehe Primzahltests b-adische Darstellung 198 Cooley-Tukey 277 Euklidischer 7, 19, 50, 67 Gaußscher 86, 111 Gram-Schmidt 129 Hamiltonkreis 333 Jacobi-Symbol 354 simultane Kongruenzen 56, 59 von Dijkstra 324 von Kruskal 329
allgemeine lineare Gruppe 105 Allquantor ∀ 361 Alphabet 39, 69, 148 alternierende Reihe 188 Anordnungs-Axiome 167 antisymmetrisch 390 Anzahl 389 Approximationssatz Weierstraß 260 ¨ Aquivalenz 365 ¨ Aquivalenzklasse 388 ¨ Aquivalenzrelation 33, 107, 388 Archimedisches Axiom 169 Arcustangens 238 ASCII 69, 148, 152 Assoziativgesetz 26, 166 Addition 4 Gruppe 26 Komposition 386 Logik 365 Multiplikation 4, 47 Ring 47 asymptotisch gleich 252 asymptotische Schranke 200, 203 aufspannende B¨ aume 327 Auslastungsfaktor 313 Aussage 360 Aussageform 361 Axiome 5, 371 B Barbier von Sevilla 373 Basis 91, 97, 98, 102, 152 Basiswechselmatrix 137 Baum 326 aufspannender 327
449
450 bayesscher Spamfilter 301 bedingte Wahrscheinlichkeit 299 Bernoulli-Versuche 296 Bernoulli-Verteilung 296 Bernoullische Ungleichung 169 Bernsteinpolynom 261 beschr¨ ankt 170, 178, 185, 209 nach oben 170, 178 nach unten 170, 178 bestimmt divergent 181 bestimmtes Integral 242 Betrag 168, 173 Beweis Fallunterscheidung 168 indirekter 12, 366 induktiver 8 bewerteter K¨ orper 174 bijektiv 383 Bild 36, 100, 381 Bildelement 380 Binomialkoeffizient 282 Binomialverteilung 296, 303, 308 binomische Formel 15, 283 binomische Reihe 237 Blatt 326 boolesche Funktion 381 Bruch adischer 195 Dezimal- 195 dyadischer 195 C Carmichael-Zahlen 351 Cauchy-Folge 182, 185 Cauchy-Kriterium 187 Cauchy-Produkt 191 Cauchy-Schwarz Ungleichung 128 Cayley-Tabelle 382 Chaining 313 charakteristische Abbildung 383 charakteristisches Polynom 135 chiffrieren 64 Chinesischer Restsatz 55, 59, 351, 356 chromatische Zahl 335 Code 148 Generatormatrix 152 Generatorpolynom 158 Gewicht 152 Hamming- 156 Kontrollmatrix 152 Kontrollpolynom 159 linearer 152 Minimalabstand 150
Sachverzeichnis Minimalgewicht 152 (7, 4)-Code 154, 155, 160 (n, k)-Code 152 Reed-Solomon- 161 r-fehlererkennend 150 r-fehlerkorrigierend 150 r-perfekt 150 Wiederholungs- 147, 154, 156 zyklischer 158 Codierungstheorie 147, 161 Cofaktor 125 Cramersche Regel 126 D Datenbank 380 Datenkompression 276 JPEG 276 MP3 276 dechiffrieren 64 Definitionsbereich 380 Determinante 121 Dezimalbruch 195 Diagonalverfahren 385 Diedergruppe 29 Differentialrechnung Mittelwertsatz der 228, 237 Differenz 374 Differenzenquotient 221 differenzierbar 221 linksseitig 235 rechtsseitig 235 Diffie-Hellman 66 Dijkstra-Algorithmus 324 Dimension 99 Dimensionsformel 105 disjunkt 374 disjunktive Normalform 367 Diskrepanz 40 diskrete Fourier-Transformation 275 diskrete Kosinustransformation 276 diskreter Logarithmus 66 Distributivgesetz 4, 46, 47, 166 divergent 176 Division mit Rest 6, 17, 33, 49, 160 doppeltes Hashing 314 Dreiecksmatrix 109 Dreiecksungleichung 128, 149, 168, 173, 189 Durchschnitt 374 dyadischer Bruch 195 E EAN
22
Sachverzeichnis European Article Number 22 International Article Number 23 Eigenraum 135 Eigenvektor 134 Eigenwert 134 Eindeutige Primfaktorzerlegung 11 Einheit 52 Einheitsmatrix 102 Einheitswurzel 219 primitive 277 Einsetzungshomomorphismus 49 Einwegfunktion 66 elementare Zeilenumformungen 85, 110 Elementarereignis 294 Elementarmatrix 110 elliptische Kurven 71 Endknoten 322 Erd˝ os-Zahl 340 Ereignis 294 unabh¨ angig 295 Erwartungswert 303 erweiterte Koeffizientenmatrix 81, 85 Erzeugendensystem 97, 102 Euklidischer Algorithmus 7, 19, 50, 67, 394 Eulerfunktion 13, 34, 56, 64, 67 Eulersche Formel 214 eulerscher Graph 334 Eulertour 334 Eulerzahl 193 Existenzquantor ∃ 361 Exklusion 289 Exponentialfunktion 193, 208, 291 Exponentialreihe 193 Exponentialverteilung 295 Extremum lokales 231 Extremwerte 230
451 kleiner Satz 34, 349, 353 Fibonacci-Folge 176 Fixpunkt 220 Flatland 75 Folge 175, 187 beschr¨ ankt 178, 185 bestimmt divergent 181 Cauchy- 182, 185 H¨ aufungspunkt 182 konvergent 176, 185 Rechenregeln 179 Teilfolge 181 Formel binomische 15, 283 Dimensions- 105 Eulersche 214 Stirlingsche 253 Taylor- 236 Fourier-Koeffizienten 269 Fourier-Reihe 269 Fourier-Transformation 274 diskrete 275 schnelle 277 Fourier-Transformierte 275 freie Variablen 83 Fundamentalsatz der Algebra Funktion 206 beschr¨ ankt 209 boolesche 381 Γ 254 gerade 278 Grenzwert 206 periodische 265 rationale 206 trigonometrische 214 ungerade 278 Zeta ζ(s) 255
54
G F Factoring Challenge 67 Faktorisierung 66 Fakult¨ at 27, 282 fallend monoton 175 streng monoton 175, 212 F¨ arbung 335 Faser 101, 386 fehlererkennend 150 Fehlererkennung 39 Fehlerkorrektur 147, 155, 160 fehlerkorrigierend 150 Fermat
Γ -Funktion 254 ganze Zahlen Z 3 ganzer Teil 169 Gauß-Jordan-Verfahren 88 Gaußscher Algorithmus 86, 111 gebundene Variablen 83 Geburtstags-Paradoxon 298 gemeinsamer Teiler 5 Generatormatrix 152 Generatorpolynom 158 geometrische Reihe 187, 298 geometrische Verteilung 297, 304, 309 geordneter K¨ orper 169 geordnetes Paar 376
452 gerade Funktion 278 gerichteter Graph 319 Gesetz der großen Zahlen 310 Gewicht 152 gewichteter Graph 323 gleichm¨ achtig 384 gleichm¨ aßig absolut konvergent 258 gleichm¨ aßig stetig 211 Google 342 Grad 48 gradlexikographische Ordnung 393 Gramsche Matrix 127 Graph 319 eulerscher 334 F¨ arbung 335 gerichteter 319 gewichteter 323 hamiltonscher 330 isomorph 348 planarer 335 schlichter 320 vollst¨ andiger 320 zusammenh¨ angender 322 Graph einer Abbildung 382 Greedy-Algorithmus 332 Grenzwert 176 linksseitig 220, 271 rechtsseitig 220 Grenzwerte bei Funktionen 206 gr¨ oßter gemeinsamer Teiler 5, 10, 50 gr¨ oßtes Element 392 Gruppe 26, 105 abelsche 26, 94 additive 26 allgemeine lineare GL(n, K) 105 Erzeuger 32 Homomorphiesatz 37 Homomorphismus 31 Isomorphismus 31 multiplikative 26, 53 Normalteiler 36 Ordnung 34 orthogonale O(n) 132 spezielle lineare SL(n, K) 124 spezielle orthogonale SO(n) 132 symmetrische 27 Untergruppe 31 zyklische 32, 60, 160 H Halbordnung 390 Hamiltonkreis 330 Hamming-Abstand 149
Sachverzeichnis Hamming-Code 156 harmonische Reihe 187 Hashfunktion 71, 312 Hashtabelle 312 Chaining 313 doppeltes Hashing 314 Kollisionsbehandlung 313 lineare Sondierung 314 offene Adressierung 314 Sondierungsfolge 314 Hashwert 312 Hasse Diagramm 391 H¨ aufungspunkt 182 Hauptachsentransformation 141 Hauptideal 52, 63 Hauptidealring 52, 158 Hauptminorenkriterium 142 Hauptsatz der Differential- und Integralrechnung 245 hermitesches Skalarprodukt 140 Hexadezimalsystem 200 Homomorphiesatz 37, 55, 107, 155 Homomorphismus Gruppe 31 K¨ orper 48 Matrix 103 Ring 48 Vektorraum 100 Hyperlinkmatrix 343 I Ideal 51, 95, 158 Hauptideal 52 identische Abbildung 27, 101 IEEE-Standard 199 Imagin¨ arteil 173 Implikation 363 indirekt 12 indirekter Beweis 366 Induktion 8, 167 Infimum 170, 392 Informationsrate 157 injektiv 101, 383 Inklusion 289 Integral 242 bestimmtes 242 Rechenregeln 243 unbestimmtes 244 uneigentliches 254 Integralkriterium 255 Integralrechnung Mittelwertsatz der 244 Integration
Sachverzeichnis
453
partielle 246 integrierbar 243 Intervall 171 inverse Abbildung 27, 383 inverse Matrix 105, 125 inverses Element 4, 26, 166 invertierbar 104 Inzidenzmatrix 320 irreduzibel 51, 160 ISBN 23 International Standard Book Number 23 Isomorphismus 31, 101, 348 J Jacobi-Symbol 352 Jordansche Normalform JPEG 276 Julklapp 290
139
K kanonische Abbildung 107 Kante 319 Kantenfolge 322 Kantenzug 322 Kardinalzahl 389 kartesisches Produkt 27, 376 Kern 36, 100 Kette 390 Kettenregel 225 Kleine-Welt-Ph¨ anomen 339 kleinstes Element 392 Knoten 319 Knotengrad 322 Koeffizienten 47, 77, 81, 269 Koeffizientenmatrix 81 Kollisionsbehandlung 313 Kombination 285 kommutatives Diagramm 103 Kommutativgesetz 4, 26, 47, 166 Addition 4 Gruppe 26 Logik 365 Multiplikation 4, 47 Ring 47 Komplement 375 orthogonales 128 Komplement¨ armatrix 126 komplexe Zahlen C 53, 172, 184, 193, 214 Komplexit¨ at 200 Komposition von Abbildungen 27, 206, 386
kongruent 17 K¨ onigsberger Br¨ uckenproblem 317, 335 konjugierte komplexe Zahl 173 konstante 175 Kontrollmatrix 152 Kontrollpolynom 159 Konvergenz 176, 185, 186 absolut 188 gleichm¨ aßig 257 gleichm¨ aßig absolut 258 punktweise 257 stochastisch 310 Konvergenzradius 236 Koordinaten 73, 131 Koordinatenfunktion 102 Koordinatensystem 102 K¨ orper 46, 92, 94, 166 bewerteter 174 Homomorphismus 48 Teilk¨ orper 48 Kosinus 214, 237 Kosinustransformation diskrete 276 Kotangens 218 Kreis 322 Kreiszahl 217 Kruskal-Algorithmus 329 Kugel 149 K¨ urzeste-Wege-Problem 323 L Landausche Symbole 200 L¨ ange 127, 149, 323 L¨ ange des Weges 323 Laplace-Verteilung 296 leere Menge 372 Legendre-Symbol 352 Leibniz-Kriterium 188 Leitkoeffizient 48 Leitterm 48 lexikographische Ordnung 393 linear abh¨ angig 96 linear unabh¨ angig 96, 102 lineare Abbildung 100 Matrixdarstellung 103 lineare Gleichung 77 lineare H¨ ulle 96 lineare Ordnung 390 lineare Sondierung 314 linearer Code 152 linearer Unterraum 90 Linearkombination 96 Linksnebenklasse 33
454 linksseitige Ableitung 235 Liste 97 Logarithmus 213, 237 nat¨ urlicher 213 logische Operatoren 360 lokales Extremum 231 lokales Maximum 231 lokales Minimum 231 L¨ osungsmenge 77, 82 M Majorantenkriterium 189 Markoffsche Ungleichung 306 Matrix 81, 95, 103 algebraisches Komplement 125 Elementarmatrix 110 inverse 105 invertierbar 104 Inzidenzmatrix 320 orthogonale 131 Permutationsmatrix 145 Produkt 104 quadratische 120 stochastisch 345 symmetrische 127 transponierte 104 Matrixdarstellung 103 maximales Element 392 Maximum 171 lokales 231 Menge 371 abz¨ ahlbar 294 beschr¨ ankt 170 Differenz 374 Durchschnitt 374 gleichm¨ achtig 384 kartesisches Produkt 376 Komplement 375 leere 372 Potenzmenge 287, 375 Teilmenge 374 Vereinigung 374 Metrik 149 Hamming-Abstand 149 Miller-Rabin-Test 349 Minimalabstand 150 minimales Element 392 Minimalgewicht 152 Minimum 171 lokales 231 Mittelwertsatz der Differentialrechnung 228, 237 der Integralrechnung 244
Sachverzeichnis modulo 17, 388 monoton 175 monoton fallend 175, 212 monoton wachsend 175, 212 MP3 276 Multiplikation Assoziativgesetz 4, 47, 166 inverses Element 166 Kommutativgesetz 4, 47, 166 neutrales Element 4, 47, 166 skalare 94 multiplikatives neutrales Element
4, 47
N nach oben beschr¨ ankt 170 nach unten beschr¨ ankt 170 nat¨ urliche Zahlen N 169, 374 nat¨ urlicher Logarithmus 213 Nebenklasse 33, 107 neutrales Element 4, 26, 36, 47, 166 Newton-Verfahren 233 Normalteiler 36, 37 Normalverteilung 295 Nullring 47 Nullstelle 55 Nullteiler 52 nullteilerfrei 52 O obere Schranke 170, 392 offene Adressierung 314 ON-Basis 129 Ordnung 34, 390 Element 34 gradlexikographische 393 Gruppe 34 Halbordnung 390 lexikographische 393 lineare 390 Polynomordnung 394 Teilordnung 390 totale 390 Wohlordnung 390 Ordnungsrelation 390 orthogonal 127, 131 orthogonale Gruppe 132 orthogonale Matrix 131 orthogonales Komplement 128 Orthonormalbasis 129 Ortsvektor 76
Sachverzeichnis
455
P Parallelogrammregel 146 Parameterdarstellung 77, 82 Partialbruchzerlegung 250 Partialsummenfolge 186 partielle Integration 246 Pascalsches Dreieck 15, 282 perfekt 150 periodisch 265 Permutation 27, 144, 286 Permutationschiffre 65 Permutationsmatrix 145 Pivotelement 86 planarer Graph 335 Poisson-Verteilung 298 Polarkoordinaten 218 Polynom Grad 48 irreduzibel 51 Leitkoeffizient 48 Leitterm 48 trigonometrisches 266 Polynomfunktion 206 Polynomring 47, 95, 394 poset 390 positiv definit 127, 142 Hauptminorenkriterium 142 Positivit¨ at 167 Potenzmenge 287, 375 Potenzreihe 235 Konvergenzradius 236 Primfaktorzerlegung 67 eindeutige 11 Primzahl 5, 11 probabilistische Tests 349 Primzahltests 349 Miller-Rabin 349 Solovay-Strassen 355 Prinzip der Inklusion und Exklusion 289 zwei Polizisten 180 Produkt kartesisches 27, 76, 376 Matrix und Matrix 104 Matrix und Vektor 81 Skalarprodukt 127 Produktregel 224 Projektion 101, 383 Pr¨ ufgleichung 23, 39, 41, 42 Pr¨ ufziffer 23, 148, 152 Q quadratischer Rest
352
quadratisches Reziprozit¨ atsgesetz Quaternion 133 Quersumme 21 alternierende 21 Quotientenkriterium 189 Quotientenraum 107 Quotientenregel 224
354
R Rang 105 rationale Funktion 206 rationale Zahlen Q 46, 166 Raum 74 Realteil 173 rechtsseitige Ableitung 235 Reed-Solomon-Codes 161 reelle Ebene 74 reelle Zahlen R 74, 165 reelle Zahlengerade 74 reflexiv 388, 390 Regel von de l’Hospital 232 Reihe 186, 187 alternierende 188 geometrische 187, 298 harmonische 187 Integralkriterium 255 Konvergenzradius 236 Potenzreihe 235 Taylorreihe 237 Umordnung 190 Relation 378 n-stellig 379 relationale Datenbank 380 relative H¨ aufigkeit 293 relativer Fehler 184 Repr¨ asentant 17 Repunit 69 Restklasse 17 Riemannsche Summen 243 Riemannsche Vermutung 256 Riemannsche Zeta-Funktion ζ(s) Riemannsches Integral 243 Ring 46, 92 Hauptidealring 52, 158 Homomorphiesatz 55 Homomorphismus 48 Ideal 51, 95, 158 nullteilerfrei 52 Unterring 48 Routenplanung 341 RSA Factoring Challenge 67 RSA-200 68 RSA-576 68
255
456 RSA-Verfahren 66 Rundreiseproblem 332 Russellsche Antinomie 373 S Satz Bayes 301 Bolzano-Weierstraß 182 Cayley 327 Cramer 126 Fermat 34 l’Hospital 232 Lagrange 33 Perron-Frobenius 345 Rolle 227 Stirling 253 Weierstraß 260 Sch¨ afer 384 Schaltalgebra 369 schnelle Fourier-Transformation 277 Schranke asymptotische 200, 203 gr¨ oßte untere 170 kleinste obere 170 obere 170, 392 untere 170, 392 senkrecht 127 Sinus 214, 237 skalare Multiplikation 94 Skalarprodukt 127 hermitesches 140 Solovay-Strassen-Test 355 spezielle lineare Gruppe SL(n, K) 124 spezielle orthogonale Gruppe SO(n) 132 Splines 263 Spur 146 Stammfunktion 244 Standardabweichung 307 Standardskalarprodukt 126 stetig 205, 208, 214 ε-δ-Definition 210 gleichm¨ aßig 211 st¨ uckweise 240 stetig differenzierbar 236, 246 Stirling-Zahlen 293 Stirlingsche Formel 253 stochastische Konvergenz 310 stochastische Matrix 345 streng monoton fallend 175, 212 streng monoton wachsend 175, 212 st¨ uckweise stetig 240 st¨ uckweise stetig differenzierbar 271 Substitutionsregel 246
Sachverzeichnis Sudoku 336 Supremum 170, 392 surjektiv 101, 383 Symmetriegruppe 29 symmetrisch 127, 388 symmetrische Bilinearform 127 symmetrische Gruppe 27 symmetrische Matrix 127, 139 Syndrom 152, 160 T Tangens 218 Tangente 221 Tautologie 364 Taylor-Formel 236 Taylorreihe 237 Teilbarkeitsregeln 21 Teilbarkeitsrelation 391 Teiler 5, 50, 158, 391 gemeinsamer 5 gr¨ oßter gemeinsamer 5, 10, 50 teilerfremd 5 Teilfolge 181 Teilk¨ orper 48, 95 Teilmenge 374 Teilmengenrelation 391 Teilordnung 390 Term 362 totale Ordnung 390 transitiv 168, 388, 390 Transponierte 104 Trapezregel 252 Treppenfunktion 240 trigonometrische Funktion 214 trigonometrisches Polynom 266 Tschebyscheff Ungleichung 310 Tupel 95, 377 U Umkehrfunktion 212, 230 Ableitung 226 Umordnung 190 unabh¨ angig 295 unbestimmtes Integral 244 uneigentliches Integral 254 ungerade Funktion 278 Ungleichung Bernoulli 169 Cauchy-Schwarz 128 Dreiecks- 128, 149, 168, 173, 189 Markoff 306 Tschebyscheff 310
Sachverzeichnis
457
Universum 373 untere Schranke 170, 392 Untergraph 326 aufspannend 326 Untergruppe 31 Normalteiler 36 Unterraum 95 Unterring 48 Untervektorraum 95 Summe 118 Urbild 386 V Vandermodesche Determinante Varianz 307 Variation 285 Vektor 74, 75 L¨ ange 127 Vektorraum 94 Homomorphismus 100 Isomorphismus 101 Quotientenraum 107 Untervektorraum 95 Venn-Diagramm 374 Vereinigung 374 Verschiebechiffre 65 Vierfarbenproblem 319 vollst¨ andige Induktion 8, 167 vollst¨ andiges Restsystem 18 Vollst¨ andigkeitsaxiom 171 W wachsend monoton 175 streng monoton 175, 212 Wahrheitswert 362 Wahrscheinlichkeit 156 bedingte 299 Wahrscheinlichkeitsraum 294 diskreter 294
144
Wahrscheinlichkeitsverteilung 294 Wald 326 Wallissches Produkt 249 Waschmaschine 57 Wavelets 274 Weg 322 L¨ ange 323 Weierstraßscher Approximationssatz Wertetabelle 27 Wichteln 290 Wichtigkeit 343 Wiederholungscode 147, 154, 156 Winkel 127 wohldefiniert 18 Wohlordnung 390 World Wide Web 342 Wichtigkeit einer Seite 343 Wurzelfunktion 212 Wurzelkriterium 189 Z Zahlbereiche 374 Zahlen ganze Z 3 komplexe C 53, 172 nat¨ urliche N 169 rationale Q 46, 166 reelle R 165 Zahlenfolge 175 Zeilenstufenform 82, 111 reduzierte 111 Zeilenumformungen 85 Ziegenproblem 293, 299 Zufallsexperiment 294 Zufallsvariable 302 unabh¨ angig 306 zusammengesetzt 5 zweite Ableitung 227 Zwischenwertsatz 209 Zyklenschreibweise 28 zyklischer Code 158
260