Vorwort
In diesem Bande erkl¨are ich die Differentialrechnung f¨ ur Abbildungen zwischen endlichdimensionalen reellen ...
298 downloads
2736 Views
2MB Size
Report
This content was uploaded by our users and we assume good faith they have the permission to share this book. If you own the copyright to this book and it is wrongfully on our website, we offer a simple DMCA procedure to remove your content from our site. Start by pressing the button below!
Report copyright / DMCA form
Vorwort
In diesem Bande erkl¨are ich die Differentialrechnung f¨ ur Abbildungen zwischen endlichdimensionalen reellen Vektorr¨aumen sowie die Grundlagen der Maß- und Integrationstheorie. Die Differentialrechnung zeigt sich großenteils als Verbindung der Analysis f¨ ur Funktionen einer Ver¨anderlichen mit dem Kalk¨ ul der Linearen Algebra. Erst der Satz u ¨ber die Umkehrabbildung f¨ uhrt zu etwas Neuem, zu einer geometrischen Sicht. Ich sage, was Untermannigfaltigkeiten und ihre Tangentialr¨aume sind, und erkl¨are damit die Methode der Multiplikatoren zur Bestimmung kritischer Punkte auch bei nicht holonomen Nebenbedingungen. Auch der Begriff der Enveloppe wird erst in diesem Zusammenhang verst¨andlich. Die Integralrechnung ist nicht so eng mit der Differentialrechnung verbunden, wie man es aus dem ersten Semester kennt. Ich erkl¨are die Anfangsgr¨ unde der Maßtheorie. Der Leitgedanke zur Kennzeichnung der integrablen Funktionen ist hier, daß man einen f¨ ur die L1 -Norm kompletten Raum von Funktionen herstellen will. Die Konstruktion bliebe im wesentlichen w¨ortlich dieselbe f¨ ur Funktionen mit Werten in einem Banachraum. Am Ende kommt die Transformationsformel, und damit werden die beiden Themen des Bandes wieder zusammengef¨ uhrt. Der Hauptsatz der Differential- und Integralrechnung im H¨oherdimensionalen, der Satz von Stokes, wird ein Thema des dritten Bandes sein. Am Schluß habe ich ein Kapitel angef¨ ugt, in dem ich unter anderem das Morselemma, den Rangsatz und den Satz von Sard vorf¨ uhre und etwas u ¨ber konvexe Funktionen und Jensens Ungleichung sage. Das sind heute jedem Mathematiker vertraute Hilfsmittel, und sie dienen auch dem Verst¨andnis der klassischen S¨atze u ¨ber die Hesseform und u ¨ber die Umkehrabbildung.
ii
Vorwort
In vielen F¨allen u ¨bertragen sich S¨atze und Beweise unmittelbar vom Ein- aufs Mehrdimensionale. Das gilt zum Beispiel f¨ ur den Umgang mit ε und δ , f¨ ur Folgen und Reihen, f¨ ur die Diskussion der verschiedenen Konvergenzbegriffe f¨ ur Folgen von Funktionen, f¨ ur die Vertauschbarkeit von Ableitungen mit Grenzwertbildung, f¨ ur den Satz von Borel u ¨ber Funktionen mit vorgeschriebener Taylorreihe, f¨ ur Dirac- und Weierstraßapproximation. Derartiges habe ich nicht eigens wiederholt, um die Aufmerksamkeit nicht zu erm¨ uden. Dies ist ein Skriptum f¨ ur das zweite Semester, ein Kompendium soll es nicht werden. Die Aufgaben, die ich am Ende gesammelt habe, will ich besonders empfehlen. Sie werden zwar im Text nicht benutzt, aber sie helfen doch, durch Beispiele, Gegenbeispiele und Anwendungen, manches zu erhellen und zu erl¨autern, und sie sind vergn¨ uglich. Herr Martin Lercher hat die Figuren des letzten Kapitels hergestellt, Herr Michael Prechtel hat zahlreiche Verbesserungen des Manuskripts angeregt und Frau Martina Hertl hat den Drucksatz f¨ ur die erste Auflage besorgt. Ihnen bin ich herzlich dankbar. F¨ ur die zweite Auflage habe ich die Schrift vergr¨oßert und bei der Gelegenheit das Manuskript etwas geputzt. Auch sind einige Hinweise im Text und in den Aufgaben hinzugekommen. Regensburg, zu Neujahr 1994
Theodor Br¨ocker
Inhaltsverzeichnis
Kapitel I: Differentialrechnung mehrerer Variablen . . . . . . 1 1. Kurven im euklidischen Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2. Differenzierbare Abbildungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3. Taylorentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 4. Das lokale Verhalten einer Funktion . . . . . . . . . . . . . . . . . . . . . . . . 29 5. Vertauschbarkeit von Ableitung und Integral . . . . . . . . . . . . . . . . 35
Kapitel II: Der Satz u ¨ ber die Umkehrfunktion . . . . . . . . . . 38 1. Normen und Fixpunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 2. Der Satz u ¨ber die Umkehrabbildung . . . . . . . . . . . . . . . . . . . . . . . . 43 3. Gleichungen und Mannigfaltigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 49 4. Der Tangentialraum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5. Die Einh¨ ullende einer Schar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Kapitel III: Maß und Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 1. Meßr¨aume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2. Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 3. Konstruktion des Integrals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 4. Konvergenzs¨atze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 5. Das Integral nichtnegativer Funktionen . . . . . . . . . . . . . . . . . . . . 103
iv
Inhaltsverzeichnis
Kapitel IV: Das euklidische Lebesgueintegral . . . . . . . . . . . 106 1. Produkte von Maßr¨aumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 2. Die Transformationsformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 3. Nullmengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120 4. Polar- und Zylinderkoordinaten . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Kapitel V: Allerleirauh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 1. Eine nicht meßbare Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 2. Der Rangsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 3. Das Morse-Lemma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135 4. Der Satz von Sard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5. Konvexe Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Kapitel I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Kapitel II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 Kapitel III . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 Kapitel IV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160 Kapitel V . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164 Symbolverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 Namen- und Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
Kapitel I
Differentialrechnung mehrerer Variablen
Ja, saadan var det, saadan vokser Ens Væsen med Ens Viden, klares deri, samles igjennem den. Det er saa skjønt at lære som at leve. Vær ikke bange for at miste dig selv i større Aander end din egen. Niels Lyhne.
Wir erkl¨aren die grundlegenden Regeln der Differentialrechnung f¨ ur Abbildungen zwischen endlichdimensionalen reellen Vektorr¨aumen. Es erweist sich, daß alle eigentlich analytische Arbeit schon im Eindimensionalen getan ist. Wenn die Definition der Ableitung einmal richtig gefaßt ist, kommt es hier vor allem darauf an, den Kalk¨ ul der Linearen Algebra f¨ ur unsere Zwecke zu interpretieren und zu benutzen.
§ 1. Kurven im euklidischen Raum. Eine Abbildung X → Y × Z in ein Produkt von topologischen R¨aumen ist genau dann stetig, wenn die beiden Komponenten X → Y und X → Z stetig sind, und ganz genau so verh¨alt es sich mit differenzierbaren Abbildungen. Daher ist noch nichts Bedenkliches geschehen, wenn wir jetzt als ersten Blick auf das H¨oherdimensionale Abbildungen D → Rn betrachten, wo D ein Intervall und eben nur der Bildraum h¨oherdimensional, n¨amlich das n-fache Produkt von R mit sich selbst ist. Mit solchen Abbildungen, die wir im stetigen
2
I. Differentialrechnung mehrerer Variablen
Falle Wege genannt haben und in dem hier betrachteten Zusammenhang auch Kurven nennen, hat man es in Anwendungen oft zu tun. Etwa in der Mechanik wird einem System von n Massenpunkten eine Kurve R → R6n zugeordnet, n¨amlich jedem Zeitpunkt t ∈ R ordnet man drei Ortskoordinaten und drei Geschwindigkeitskoordinaten jedes Massenpunktes zu. Wenn wir hernach auch zum Beispiel Abbildungen studieren, deren Definitionsgebiet h¨oherdimensional ist, so wird eine wichtige Methode sein, daß wir allerlei Kurven durch das Definitionsgebiet legen, und die Einschr¨ankung der Abbildung auf diese Kurven also aufs Eindimensionale betrachten. Kommen wir nun zu genaueren und auch etwas technischen Erkl¨arungen. Sei also D ⊂ R ein Intervall mit mindestens zwei Punkten, so daß also D weder leer ist, noch zu einem Punkt degeneriert. Sei γ : D → Rn , t 7→ γ(t) = γ1 (t), . . . , γn (t) eine Abbildung. Wie gesagt, ist γ stetig, genau wenn alle Komponenten γi : D → R stetig sind; eine stetige solche Abbildung heißt eine Kurve in Rn oder auch ein Weg. Sie heißt stetig differenzierbar, wenn jede Komponente γi von γ diese Eigenschaft hat. Sie heißt st¨ uckweise stetig differenzierbar, falls es eine Zerlegung a = t0 ≤ t1 ≤ · · · ≤ tm = b von D ⊂ [a, b] gibt, so daß γ | [ti , ti+1 ] ∩ D stetig differenzierbar ist. Ganz entsprechend erkl¨art man komponentenweise, wann die Kurve k-mal stetig differenzierbar (C k ), st¨ uckweise k-mal stetig differenzierbar oder an der Stelle τ ∈ D differenzierbar heißt. Ist letzteres der Fall, so heißt der Vektor γ(τ ˙ ) :=
d/dt γ1 (τ ), . . . , d/dt γn (τ )
der Geschwindigkeitsvektor oder die Ableitung von γ bei τ und die reellen Vielfachen von γ(τ ˙ ) heißen Tangentialvektoren von γ
1. Kurven im Rn
3
in τ . Die Geschwindigkeit von γ in τ ist |γ(τ ˙ )|, und wir deuten gern den Parameter t als Zeit. Statt “an der Stelle” heißt es dann entsprechend “zur Zeit τ ”. Hier ist immer die euklidische Norm in Rn zum Standard-Skalarprodukt gemeint. Im allgemeinen schreiben wir Geschwindigkeitsvektoren und Tangentialvektoren wie hier als Zeilentupel; nur wenn wir in Rechnungen vom Matrizenkalk¨ ul der Linearen Algebra Gebrauch machen, sind die Geschwindigkeits- und Tangentialvektoren als Spalten zu notieren. Sind die Komponenten γi von γ integrabel, so setzen wir f¨ ur [a, b] ⊂ D Rb a
γ(t) dt :=
Rb
Rb γ1 (t), . . . , γn (t) ∈ Rn .
a
a
Eine st¨ uckweise stetig differenzierbare Kurve γ in Rn d¨ urfen wir uns n durch ihr Bild im R , also etwa
veranschaulichen. Wir nennen γ(a) den Anfangs- und γ(b) den Endpunkt der Kurve und sagen: Die Kurve l¨auft von γ(a) nach γ(b), oder sie verbindet diese Punkte miteinander, wenn D = [a, b] ist. Das Bild von γ nennt man auch die Spur, aber wir nennen es meist einfach wieder die Kurve γ . Beispiele. γ(t) = p + r (cos t, sin t),
p ∈ R2 ,
r ∈ R+ ,
0 ≤ t ≤ 2π,
beschreibt den Kreis um p mit Radius r . Die Tangentialvektoren des Kreises (− sin t, cos t) stehen senkrecht auf dem Ortsvektor γ(t) − p . Durch affine Verzerrung von R2 erh¨alt man aus dem Kreis eine Ellipse, z.B. durch eine Gleichung γ(t) = (a cos t, b sin t)
4
I. Differentialrechnung mehrerer Variablen
beschrieben.
Die Funktion γ(t) = p + t · v,
p, v ∈ Rn
beschreibt eine Gerade durch p mit Geschwindigkeitsvektor v . Die Funktion γ(t) = (t2 , t3 ) beschreibt die Neilsche Parabel mit einer Spitze im Ursprung, wo der Geschwindigkeitsvektor verschwindet. Die Funktion γ(t) = (cos t, sin t, t) ist eine Schraubenlinie in R3 . Ihre Projektion auf die (x, y)-Ebene ist der Kreis.
Den Geschwindigkeitsvektor γ(t) ˙ zeichnen wir gerne an den Punkt γ(t), obwohl es nat¨ urlich ein Vektor in Rn ist.
1. Kurven im Rn
5
Wir wollen auch von der L¨ ange einer Kurve im euklidischen Raum reden. Ist γ : [a, b] → Rn die Kurve und w¨are s(t) die L¨ange zwischen a und t, so w¨are ds/dt die Geschwindigkeit, also s˙ = ds/dt = |γ|, ˙ oder in sinnf¨alliger Schreibweise: γ(t) = x1 (t), . . . , xn (t) , und r dx 2 dx1 2 ds n = + ··· + , dt dt dt
q oder ds =
dx21 + · · · + dx2n .
Wir erkl¨aren daher: Definition. Die Bogenl¨ ange einer st¨ uckweise stetig differenziern baren Kurve γ : [a, b] → R ist Z
b
s(γ) =
|γ(t)| ˙ dt. a
Weil der Integrand st¨ uckweise stetig ist, ist das Integral wohldefiniert, und die Funktion Zt s : [a, b] → R,
t 7→
|γ(τ ˙ )| dτ = s(γ|[a, t]) a
(die wir auch Bogenl¨ ange nennen) ist stetig, monoton wachsend, und wenn γ stetig differenzierbar ist, ist auch s stetig differenzierbar mit der Ableitung ds/dt =: s(t) ˙ = |γ(t)|. ˙ Beispiel. Der Kreis mit Radius 1 ist gegeben durch γ : [0, 2π] → R2 , t 7→ (cos t, sin t), also Z2π s(γ) = 0
|(cos t, sin t). | dt =
Z2π |(− sin t, cos t)| dt 0
Z2πp Z2π 2 2 = sin t + cos t dt = 1 · dt = 2π. 0
0
6
I. Differentialrechnung mehrerer Variablen
Ist eine Kurve in R2 durch die x-Achse parametrisiert, also ist p γ(x) = x, f (x) , so ist d/dx γ = 1, f 0 (x) , also |γ| ˙ = 1 + (f 0 )2 , und damit Zb p s(γ) = 1 + f 0 (x)2 dx. a
(1.1) Satz. Die Bogenl¨ange einer st¨ uckweise stetig differenzierbaren Kurve ist unabh¨angig von der Parametrisierung. Das heißt genauer folgendes: Gegeben sei die Kurve γ : [a, b] → Rn und eine stetig differenzierbare Parametertransformation ϕ : [α, β] → [a, b],
ϕ(α) = a,
ϕ(β) = b,
so daß stets ϕ0 ≥ 0, dann haben γ und γ ◦ ϕ gleiche Bogenl¨ange. Beweis: Nach geeigneter Zerlegung α = τ0 ≤ τ1 ≤ · · · ≤ τn = β ist γ stetig differenzierbar auf [ϕ(τi ), ϕ(τi+1 )] — hier wurde der Zwischenwertsatz auf ϕ angewandt und ϕ0 ≥ 0 benutzt. Man darf also annehmen, daß γ stetig differenzierbar ist, und hat dann ϕ(β) Z
Zb s(γ) = a
Zβ α
d/dt γ ϕ(τ ) dϕ(τ ) =
|γ(t)| ˙ dt =
d/dt γ ϕ(τ ) ϕ0 (τ ) dτ =
ϕ(α)
Zβ |d/dτ γ ◦ ϕ(τ )| dτ = s(γ ◦ ϕ).
α
Die Geschwindigkeit und der Geschwindigkeitsvektor sind nat¨ urlich abh¨angig von der Parametrisierung, aber ist ϕ0 (τ ) 6= 0, so besagt
1. Kurven im Rn
7
f¨ ur ϕ(τ ) = t die Gleichung d (γ ◦ ϕ), dτ
γ(t) ˙ · ϕ0 (τ ) =
daß γ und γ ◦ ϕ gleiche Tangentialvektoren in t = ϕ(τ ) bzw. τ haben, der Tangentialraum {λ · γ(t) ˙ | λ ∈ R} von γ zur Zeit t ist unabh¨angig von der Parametrisierung. Am nat¨ urlichsten ist es, eine Kurve durch ihre Bogenl¨ange zu parametrisieren. Sei also γ : [a, b] → Rn eine stetig differenzierbare Kurve, und sei stets γ˙ 6= 0 auf [a, b] . Dann ist die Bogenl¨ange s : [a, b] → [0, s(γ)] stetig differenzierbar mit der Ableitung |γ| ˙ > 0, also besitzt diese Transformation eine differenzierbare Umkehrung s−1 : [0, s(γ)] → [a, b] . [a, b] ∼ = s
γ
Rn
γ ˜
[0, s(γ)] Und wenn man γ˜ = γ ◦ s−1 setzt, so folgt |γ| ˙ = |d˜ γ /ds| · |ds/dt| = |d˜ γ /ds| · |γ|, ˙ also γ˜ hat Einheitsgeschwindigkeit, der Parameter ist die Bogenl¨ange. Diese Parametrisierung benutzt man, um das Integral einer Funktion auf einer Kurve zu erkl¨aren, genauer: Definition. Sei γ : [a, b] → X ⊂ Rn eine st¨ uckweise stetig differenzierbare Kurve und f : X → Rk eine Funktion, so daß f ◦ γ integrabel ist, dann ist Z
s(γ) Z
Zb
0
a
f γ˜ (s) ds :=
f := γ
f ◦ γ(t) |γ(t)| ˙ dt.
Jedes St¨ uckchen dt wird also beim Integrieren mit |γ(t)| ˙ gewichtet, also soviel gez¨ahlt, wie die L¨ange der Kurve zunimmt. Auch dieses Integral ist unabh¨angig von der Parametrisierung, und der Wert ist in unserem Falle ein Punkt in Rk .
8
I. Differentialrechnung mehrerer Variablen
Ist n¨amlich t = ϕ(τ ), so dt = dϕ/dτ · dτ , also Z
Z (f ◦ γ) · |γ| ˙ dt =
Z (f ◦ γ ◦ ϕ) · |γ˙ ◦ ϕ| · dϕ dτ dτ =
dτ. (f ◦ γ ◦ ϕ) · dγ◦ϕ dτ
F¨ ur das Integral l¨angs γ hat man folgende plausible (1.2) Integralabsch¨ atzung. Sei γ : [a, b] → X ⊂ Rn eine st¨ uckweise stetig differenzierbare Kurve und f : X → Rk eine Funktion, so daß |f ◦ γ(t)| ≤ M f¨ ur alle t ∈ [a, b]. Dann ist Z Z |f | ≤ s(γ) · M. f ≤ γ
γ
Beweis: Es bezeichne hu, vi das euklidische Skalarprodukt von u und v in Rk , dann ist f¨ ur eine Funktion ϕ : [a, b] → Rk und einen Vektor v ∈ Rk offenbar Rb h ϕ(t) dt, vi = a
Zb hϕ(t), vi dt , a
wegen der Linearit¨at des Integrals. Setzen wir daher
R γ
f = v, so ist
Zb Zb Z 2 R |v| = f = h f, vi = hf ◦ γ, vi |γ| ˙ dt ≤ |f ◦ γ| · |v| · |γ| ˙ dt 2
γ
γ
a
Zb = |v| ·
a
Z |f ◦ γ| · |γ| ˙ dt = |v| ·
a
Z |f |,
γ
also |v| ≤
|f |. γ
Hier habe ich die Schwarzsche Ungleichung |hf, vi| ≤ |f | · |v| benutzt. Ist nun |f | ≤ M , so k¨onnen wir weiter absch¨atzen: Z
Zb |f | =
γ
Zb |f ◦ γ(t)| |γ(t)| ˙ dt ≤ M
a
|γ(t)| ˙ dt = M · s(γ). a
1. Kurven im Rn
9
(1.3) Anwendung. Ist γ : [a, b] → Rn eine st¨ uckweise stetig differenzierbare Kurve, so ist s(γ) ≥ |γ(b) − γ(a)|, das heißt, die Gerade ist die k¨ urzeste Verbindung zweier Punkte. Beweis: Wir wenden die Integralabsch¨atzung an und w¨ahlen dabei f = γ˙ als Funktion auf der Kurve id : [a, b] → [a, b] , dann folgt: Zb Zb ˙ dt = s(γ). |γ(b) − γ(a)| = γ(t) ˙ dt ≤ |γ(t)| a
a
n
Daß eine Kurve γ : D → R an der Stelle τ ∈ D differenzierbar ist heißt, wenn man alle Komponenten wieder zu einem Vektor zusammenfaßt: γ(τ + h) = γ(τ ) + h · Γ(h),
Γ(0) =: γ(τ ˙ ),
mit einer bei 0 stetigen Funktion Γ : D − τ → Rn . Daraus erh¨alt man leicht folgende (1.4) Rechenregeln. (i) Sind γ, ϕ : D → Rn differenzierbar an der Stelle τ ∈ D , und ist hγ, ϕi : D → R durch hγ, ϕi(t) = hγ(t), ϕ(t)i erkl¨art, so ist d/dt | hγ(t), ϕ(t)i = hγ(τ ˙ ), ϕ(τ )i + hγ(τ ), ϕ(τ ˙ )i. t=τ
(ii) Ist γ wie eben und ϕ : D → R differenzierbar bei τ , so ist dort (ϕ · γ). = ϕγ ˙ + ϕγ. ˙ Beweis: Wir schreiben: γ(τ + h) = γ(τ ) + h Γ(h) und ϕ(τ + h) = ϕ(τ ) + h Φ(h), wie oben, und erhalten: hγ, ϕi(τ + h) = hγ, ϕi(τ ) + h hγ(τ ), Φ(h)i + hΓ(h), ϕ(τ )i + h2 (. . . ), und daraus sogleich die erste Behauptung. Ebenso die zweite.
10
I. Differentialrechnung mehrerer Variablen
§ 2. Differenzierbare Abbildungen Jetzt werden wir Abbildungen Rn ⊃ U → Rp betrachten, deren Definitionsgebiet auch h¨oherdimensional ist. Wir wollen uns darauf besinnen, was lineare Abbildungen Rn → Rp sind, und wollen diese ohne weiteres mit (p × n)-Matrizen identifizieren, sodaß also der Matrix A = (aij ) die Abbildung X A : Rn → Rp , x 7→ y, yi = aij xj j
entspricht. Um die Ableitung einer Abbildung f an der Stelle x zu erkl¨aren, konnte man im Eindimensionalen vom Differenzenquotienten ∆(h) ausgehen, der durch die Gleichung f (x + h) − f (x) = ∆(h) · h eindeutig definiert ist. Ist nun aber U offen in Rn und eine Abbildung f : U → Rp gegeben, so ist f¨ ur h entsprechend ein Vektor aus n R zu nehmen, durch den man nicht dividieren kann. Auch ist eine lineare Abbildung ∆ : Rn → Rp f¨ ur n > 1 keineswegs durch einen Wert ∆ · h bestimmt. Es kommt allerdings eben auch gar nicht auf die Eindeutigkeit des ∆(h) an, sondern nur auf die Existenz, und wie es schon im Eindimensionalen oft geschickter ist, die Definitionsgleichung so stehen zu lassen, ohne durch h zu dividieren, so ist es hier unumg¨anglich notwendig. Definition (Differenzierbarkeit). Sei U offen in Rn und f: U → Rp eine Abbildung. Sie heißt differenzierbar bei x ∈ U mit dem Differential oder der Ableitung Df (x) , wenn folgendes gilt: Es gibt eine Abbildung A : U → Hom( Rn , Rp ) ∼ = Rp·n von U in den Raum der linearen Abbildungen Rn → Rp (also in den Raum der reellen (p × n)-Matrizen), so daß f¨ ur alle h ∈ Rn mit x + h ∈ U gilt: f (x + h) = f (x) + A(x + h) · h,
2. Differenzierbare Abbildungen
11
und zwar so, daß A am Punkt x stetig ist, mit dem Wert A(x) =: Df (x) ∈ Hom( Rn , Rp ). Das Differential Df (x) ist also eine lineare Abbildung; in Koordinaten wird sie durch eine (p × n)-Matrix gegeben, die wir noch genauer betrachten werden. Wenn wir den Matrizenkalk¨ ul der linearen Algebra benutzen, m¨ ussen wir die Vektoren, wie hier h ∈ Rn , als Spalten schreiben und entsprechend auch die Komponenten von f (x). Die Definition zeigt unmittelbar, daß eine am Punkt x differenzierbare Abbildung dort auch stetig ist, die rechte Seite der Formel ist stetig bei h = 0 . Auch ist f genau dann an der Stelle x differenzierbar, wenn alle Komponenten fj , j = 1, . . . , p von f dort differenzierbar sind: Die Matrix A(x + h) ist das p-Tupel der Zeilen von A , und A ist genau dann stetig bei x , wenn dasselbe f¨ ur jede Zeile gilt. Oft faßt man die Definition der Differenzierbarkeit etwas anders — etwas weniger geschickt, wie mir scheint, und etwas weniger verallgemeinerungsf¨ ahig, daf¨ ur vielleicht etwas verst¨andlicher — n¨amlich wie in der folgenden (2.1) Bemerkung. Die Abbildung f : U → Rp ist genau dann differenzierbar bei x ∈ U , wenn es eine (feste) lineare Abbildung A : Rn → Rp gibt, so daß f (x + h) = f (x) + A · h + ϕ(h),
mit
lim ϕ(h)/|h| = 0.
h→0
Beweis: Ist f differenzierbar bei x nach unserer Definition, so setze A = A(x), dann ist f (x + h) = f (x) + A · h + A(x + h) − A(x) · h. Setze ϕ(h) = A(x + h) − A(x) · h, dann ist lim ϕ(h)/|h| = lim A(x + h) − A(x) · (h/|h|) = 0, h→0
h→0
12
I. Differentialrechnung mehrerer Variablen
weil alle Komponenten der Matrix gegen 0 gehen und die von h/|h| h¨ochstens 1 sind. Erf¨ ullt die Funktion umgekehrt die Bedingung von (2.1), so schreibe f¨ ur h 6= 0 nun: f (x + h) = f (x) + A · h + hh, hi · |h|−2 · ϕ(h), und erkl¨are die lineare Abbildung A(x + h) : Rn → Rp durch v 7→ Av + hh, vi · |h|−2 · ϕ(h) (:= Av falls h = 0). Dann ist offenbar f (x+h) = f (x)+A(x+h)·h , und die Stetigkeit von A(x + h) bei h = 0 ist zu zeigen; aber f¨ ur alle v ∈ Rn ist lim hh, vi · |h|−2 ϕ(h) = lim h|h|−1 h, vi · |h|−1 ϕ(h) = 0.
h→0
h→0
H¨aufig fassen wir die Definition auch mit einer Formel f (x + h) = f (x) + A(h) · h, dann ist A : U − x → Hom( Rn , Rp ) = Rpn stetig am Nullpunkt. Bemerkung. Das Differential ist durch f eindeutig bestimmt. Ist n¨amlich f (x + h) = f (x) + A(h)h = f (x) + B(h)h, so folgt A(h) − B(h) · h = 0 f¨ ur alle gen¨ ugend kleinen h . Ist also v irgendein Vektor in Rn , so gilt f¨ ur kleine t > 0 demnach A(tv) − B(tv) · tv = 0, also A(tv) − B(tv) · v = 0 . Nun bilde den Limes f¨ ur t → 0 , dann ergibt sich A(0) − B(0) · v = 0 , also A(0) = B(0) . Wie in der Dimension eins ergeben sich unmittelbar aus der Definition folgende (2.2) Rechenregeln. Sind f, g : U → Rp differenzierbar bei x ∈ U ⊂ Rn und λ, µ Konstanten, so ist auch λf + µg : U → Rp differenzierbar bei x , und es gilt:
2. Differenzierbare Abbildungen
Linearit¨ at:
13
D(λf + µg)(x) = λDf (x) + µDg(x) .
Seien U offen in Rn und V offen in Rm , und es seien Abbildungen U− →V − → Rp , f
f (x) = y,
g
gegeben. Ist dann f differenzierbar an der Stelle x und g an der Stelle y , so ist g ◦ f differenzierbar bei x, und es gilt die Kettenregel:
D(g ◦ f )(x) = Dg(y) · Df (x).
Die lineare Approximation der Zusammensetzung ist die Zusammensetzung der linearen Approximationen. Beweis: Beides folgt unmittelbar aus der Definition, die Kettenregel so: Es ist f (x + h) = f (x) + A(h)h,
A(0) = Df (x),
g(y + k) = g(y) + B(k)k,
B(0) = Dg(y),
wobei A und B bei 0 stetig sind. Daher ist (mit y = f (x) und k = A(h) · h): g ◦ f (x + h) = g f (x) + A(h)h = g ◦ f (x) + B A(h)h · A(h) · h, und limh→0 B A(h)h A(h) = B(0)A(0) = Dg(y) · Df (x). Eine affine Abbildung f : Rn → Rp ,
x 7→ Ax + b,
hat konstantes Differential Df = A, denn f (x + h) = A · (x + h) + b = f (x) + Ah. Das Differential einer Abbildung f , als lineare Abbildung Rn → Rp , wird auf kanonische Weise durch eine Matrix gegeben. Wie berechnet man die Komponenten dieser Matrix? Das wollen wir jetzt beschreiben. Wir betrachten eine offene Menge U in Rn und eine Abbildung f : U → Rp , x 7→ f1 (x), . . . , fp (x)
14
I. Differentialrechnung mehrerer Variablen
mit den Komponenten fi : U → R,
i = 1, . . . , p.
Die j-te partielle Ableitung von f (bzw. fi ) in einem Punkte u ∈ U ist Dj f (u) := lim h−1 f (u + hej ) − f (u) h→0
=:
∂f (u), ∂xj
beziehungsweise dasselbe f¨ ur die i-te Komponente ∂fi Dj fi (u) = lim h−1 fi (u + hej ) − fi (u) = (u). h→0 ∂xj Dabei ist ej der j-te Standard-Basisvektor von Rn mit j-ter Komponente 1 und Null sonst. Mit anderen Worten, Dj fi erh¨alt man so: Man betrachtet alle Variablen xν bis auf die j-te als konstant und nimmt fi als Funktion der einen Ver¨anderlichen xj , dann ist Dj fi die Ableitung. Wenn Dj fi (u) existiert, heißt fi bei u partiell nach xj differenzierbar. (2.3) Satz. Sei U offen in Rn und f : U → Rp sei an der Stelle u ∈ U differenzierbar. Dann existieren alle partiellen Ableitungen ∂fi Dj fi (u) = ∂x (u), und die lineare Abbildung Df (u) ist durch die j Matrix Df (u) = ∂fi /∂xj (u) gegeben. Diese Matrix heißt auch Jacobi-Matrix von f bei u . Im Matrizenkalk¨ ul sind die Vektoren aus Rn und Rp hier als Spalten zu schreiben. Beweis: Die partiellen Ableitungen kann man auch so beschreiben: F¨ ur ein Intervall I um 0 ∈ R existiert die Zusammensetzung von Abbildungen κj
ϕij : I −−−→ U t 7−−→ u + tej ,
f
−−→
Rp y
pri
−−−→ 7−−→
R, yi ,
2. Differenzierbare Abbildungen
15
und es ist Dj fi (u) = Dϕij (0) = d/dt ϕij (0). Nun sind die Inklusionen und Projektionen κj , pri affin, wenn also Df (u) existiert, so existiert nach der Kettenregel auch Dϕij (0), und es ist Dϕij (0) = D pri ◦ Df (u) ◦ Dκj . Aber Dκj : λ 7→ λej ,
D pri : (v1 , . . . , vp ) 7→ vi ,
also Dϕij (0) = i-te Komponente von Df (u) · ej = Df (u)ij .
Eine Formel wie f (x + h) − f (x) = Df (x) · h + ϕ(h) in der Erkl¨arung der Differenzierbarkeit bedeutet also, wenn man sie in Komponenten und Matrizen expliziter aufschreibt:
f1 (x + h) − f1 (x)
=
.. . fp (x + h) − fp (x)
∂f1 ∂x1 (x)
···
.. .
∂f1 ∂xn (x) .. .
∂fp ∂x1 (x)
···
h1
ϕ1 (h)
. · .. +
.. .
hn
ϕp (h)
∂fp ∂xn (x)
¨ In allgemeinen Uberlegungen, mit denen es ja dieser Text meist zu tun hat, soll man sich aber unter einem Symbol wie Df (x)·v das Bild des Vektors v unter der linearen Abbildung Df (x) ∈ Hom( Rn , Rp ) denken, wie auch immer diese Gegenst¨ande notiert sein m¨ogen. Und so notieren wir, wie schon im ersten Abschnitt, meist die Vektoren aus Rn als Zeilen, weil die chinesische Notation unbequem zu schreiben und zu lesen ist. In einem Symbol wie Df (x) · v ist dann v = (v1 , . . . , vn ), Df (x) · v = Df1 (x) · v, . . . , Dfp (x) · v , Dfi (x) · v =
n X j=1
∂fi /∂xj (x) · vj .
16
I. Differentialrechnung mehrerer Variablen
Wo wir aber den Matrizenkalk¨ ul verwenden, sind Vektoren als Spaltentupel zu schreiben, und das ist insbesondere der Fall, wenn wir das Differential Df (x) als Matrix auffassen und u ¨ber Eigenschaften ¨ dieser Matrix, ihrer Zeilen und Spalten, reden. Ubrigens bezeichne t A die transponierte der Matrix A , dann k¨onnen wir gelegentlich, wo es der Kalk¨ ul verlangt, eine Zeile durch Transponieren in eine Spalte t (v1 , . . . , vn ) verwandeln. Man hat etwas M¨ uhe mit den Bezeichnungen, denn einerseits ist einem Punkt x die Matrix Df (x) zugeordnet, und andererseits ist ja auch dies eine (lineare) Abbildung, die dann einem Vektor v den Bildvektor Df (x) · v zuordnet. Wir schreiben zur Unterscheidung diese letztere Abbildung als Multiplikation, weil wir uns Df (x) als Matrix denken. Andere schreiben x als Index, also Dfx oder Dx f statt Df (x) , und dann Dfx (v) oder Dx f (v) statt Df (x) · v . Die Kettenregel zum Beispiel erh¨alt jetzt folgende Gestalt: Hat man eine Zusammensetzung Rn ∪ U
− → f
Rm ∪ V
− → g
Rp ,
f (u) = v,
und existieren Df (u) und Dg(v), so existiert auch D(g ◦ f )(u), und die Kettenregel besagt explizit: X ∂gi ∂fj ∂(g ◦ f )i (v) · (u) = (u). ∂yj ∂xk ∂xk j Dies kann man auch bei der Berechnung der Ableitung von Funktionen einer Variablen mit Gewinn anwenden. Betrachte zum Beispiel eine Zusammensetzung R ∪ I − → γ
Rn ∪ U
− → R. f
2. Differenzierbare Abbildungen
Dann ist Kurz:
d dt (f
Pn ◦ γ)(τ ) = Df γ(τ ) γ(τ ˙ ) = j=1
17
∂f ∂xj
dγ γ(τ ) dtj (τ ).
n X df ∂f dxj = . dt ∂xj dt j=1
Ist zum Beispiel γ(t) = u + tv f¨ ur ein u ∈ U und einem Vektor n v ∈ R , so ist n X ∂f d (f ◦ γ)(0) = (u) vi =: Dv f (u). dt ∂x i i=1
Ist f : U → R differenzierbar am Punkt u , so heißt der Vektor grad f (u) :=
D1 f (u), . . . , Dn f (u)
auch der Gradient von f am Punkt u, und Dv f (u) = hgrad f (u), vi heißt die Richtungsableitung von f in Richtung v . Ist |v| = 1, so ist |Dv f (u)| ≤ |gradf (u)| nach der Schwarzschen Ungleichung, also ist |Dv f | maximal, falls v = grad f /|grad f |. Der Gradient zeigt die Richtung des st¨arksten Anstiegs der Funktion. Die Existenz der Jacobischen ∂fi /∂xj (u) ist notwendig aber nicht hinreichend f¨ ur die Differenzierbarkeit. Zum Beispiel die Funktion xy f : R2 → R, (x, y) 7→ 2 , f (0) := 0, x + y2 ist am Ursprung nicht einmal stetig, also erst recht nicht differenzierbar, sie hat dort aber die Jacobimatrix 0 , denn f | R×0 = f |0× R = 0. Es gilt aber folgender wichtiger (2.4) Satz. Die Funktion f : U → Rp sei u ¨berall partiell differenzierbar, und die partiellen Ableitungen Dj fi : U → R seien am
18
I. Differentialrechnung mehrerer Variablen
Punkte x ∈ U stetig, dann ist f bei x differenzierbar mit dem Differential Df (x) = ∂fi /∂xj (x) . Beweis: Wir d¨ urfen p = 1 annehmen. Wir schreiben h ∈ Rn als h = h1 e1 + · · · + hn en , und erhalten f (x + h) − f (x) n X f (x + h1 e1 + · · · + hk ek ) − f (x + h1 e1 + · · · + hk−1 ek−1 ) . = k=1
Auf jeden Summanden k¨onnen wir den Mittelwertsatz der Differentialrechnung einer Variablen — n¨amlich der k-ten Komponente im k-ten Summanden — anwenden und erhalten: f (x + h) − f (x) =
n X
hk Dk f (x + h1 e1 + · · · + hk−1 ek−1 + ϑk hk ek ),
k=1
mit 0 < ϑk < 1. Und dies ist schon die Behauptung, denn es ist ja limh→0 Dk f (. . . ) = Dk f (x), weil Dk f bei x stetig ist. In der Regel werden wir also die Differenzierbarkeit einer Funktion dadurch feststellen, daß wir die partiellen Ableitungen berechnen — das l¨auft auf den Kalk¨ ul der Differentialrechnung einer Variablen hinaus — und feststellen, ob die partiellen Ableitungen stetig sind. Zum Beispiel ein Polynom in mehreren Variablen ist stets differenzierbar. Mit diesem Satz u ¨bertr¨agt man vieles unmittelbar vom Ein- aufs Mehrdimensionale. Zum Beispiel die Grenzfunktion einer Folge stetig differenzierbarer Funktionen ist wieder stetig differenzierbar, wenn die Ableitungen gleichm¨aßig konvergieren. Aus dem Eindimensionalen u ¨bertr¨agt sich auch, ¨ahnlich wie im Beweis des Satzes benutzt, ein (2.5) Mittelwertsatz. Sei U offen in Rn und f : U → R sei eine differenzierbare Funktion. Es sei x + th ∈ U f¨ ur 0 ≤ t ≤ 1 , dann ist f (x + h) − f (x) = Df (x + τ h) · h,
0 < τ < 1.
2. Differenzierbare Abbildungen
19
Beweis: Setze g(t) = f (x + th) und wende den Mittelwertsatz f¨ ur eine Variable an: d f (x + h) − f (x) = g(1) − g(0) = g(τ ) = Df (x + τ h) · h. dt
Beachte jedoch, daß die Dimension des Bildraumes eins ist. Wenn f mehrere Komponenten hat, f = (f1 , . . . , fp ) : U → Rp , so muß man im allgemeinen f¨ ur jede Komponente einen anderen Wert τ nehmen. Zum Beispiel bei der Schraubenlinie γ(t) = (cos t, sin t, t) zeigt der Vektor γ(t) ˙ = (− sin t, cos t, 1) niemals in Richtung γ(2π) − γ(0) = (0, 0, 2π). Allgemein muß man, statt Df an einer Zwischenstelle, vielmehr einen Mittelwert von Df w¨ahlen, n¨amlich: (2.6) Mittelwertsatz. Sei U offen in Rn und f : U → Rp stetig differenzierbar. Auch sei x + th ∈ U f¨ ur 0 ≤ t ≤ 1, dann ist Z1 f (x + h) − f (x) =
Df (x + th) dt · h. 0
Das Ingtegral wird komponentenweise gebildet. Das Ergebnis der Integration ist wieder ein Matrix, der Mittelwert von Df auf der Strecke von x nach x + h. R1 d f (x + th) dt. Beweis: Beide Seiten sind gleich 0 dt Diese Formel hat die Gestalt f (x + h) = f (x) + A(x + h) · h , mit Z1 A(x + h) =
Df (x + th) dt. 0
20
I. Differentialrechnung mehrerer Variablen
Sie gibt also eine explizitere Beschreibung einer matrizenwertigen Funktion A, wie sie in der Definition der Differenzierbarkeit auftritt. Das wird sich noch oft als n¨ utzlich erweisen, wenn wir etwa den Zuwachs von f absch¨atzen oder die Differenzierbarkeit eines geeigneten A untersuchen wollen.
§ 3. Taylorentwicklung F¨ ur den Kalk¨ ul der Differentialrechnung machen wir nun die wichtige Bemerkung, daß die h¨oheren Ableitungen einer Funktion vertauschbar sind. Die genaue Behauptung ist: (3.1) Satz (¨ uber die Vertauschbarkeit der Ableitungen). Sei U offen in Rn und f : U → R eine Funktion; sie besitze Ableitungen Di f, Dj f nach der i-ten und j-ten Variable auf U , und es existiere die Ableitung Di Dj f : U → R und sei stetig. Dann existiert auch Dj Di f , und Di Dj f = Dj Di f. Beweis: Sei u ∈ U . Um das Schreiben zu vereinfachen setzen wir ϕ(s, t) = f (u + sei + tej ). Dann sagt die Voraussetzung, daß lokal um den Ursprung (0, 0) die Ableitung D1 D2 ϕ existiert und stetig ist, und es ist zu zeigen: D1 D2 ϕ(0, 0) = D2 D1 ϕ(0, 0). Nach Definition ist nun D2 D1 ϕ(0, 0) = d/dt | lim
t=0 s→0
ϕ(s, t) − ϕ(0, t) s
1 ϕ(s, t) − ϕ(0, t) − ϕ(s, 0) − ϕ(0, 0) = lim lim · . t→0 s→0 s t
3. Taylorentwicklung
21
Auf den Bruch, einen Differenzenquotienten bez¨ uglich der zweiten Variablen, wenden wir den Mittelwertsatz der Differentialrechnung an und schreiben daf¨ ur 1 D2 ϕ(s, ϑ2 t) − D2 ϕ(0, ϑ2 t) , s
0 < ϑ2 < 1,
und dies ist wieder ein Differenzenquotient bez¨ uglich der ersten Variablen, auf den wir, weil D1 D2 existiert, ebenfalls den Mittelwertsatz anwenden k¨onnen. Wir erhalten: D1 D2 ϕ(ϑ1 s, ϑ2 t),
0 < ϑ1 , ϑ2 < 1,
und weil D1 D2 ϕ stetig ist, folgt lim lim D1 D2 ϕ(ϑ1 s, ϑ2 t) = D1 D2 ϕ(0, 0).
t→0 s→0
Wir geben sogleich eine Anwendung des Satzes: Gegeben sei eine Abbildung v : R2 → R2 , die wir uns als Vektorfeld vorstellen, das heißt, jedem Punkt (x, y) ∈ R2 ist ein Vektor v1 (x, y), v2 (x, y) zugeordnet, den wir mit Fußpunkt in (x, y) abtragen. Beispiel. v(x, y) = 12 (−y, x).
Frage: Gibt es zu dem Vektorfeld ein Potential, das heißt, gibt es eine Funktion P : R2 → R , so daß ∂P/∂x = v1 , ∂P/∂y = v2 ? In
22
I. Differentialrechnung mehrerer Variablen
unserem Beispiel ist die Antwort: Nein, denn es w¨ urde folgen: −
1 ∂v1 ∂v2 1 = = = . 2 ∂y ∂x 2
Nachdem wir nun wissen, daß die partiellen Ableitungen unter vern¨ unftigen Voraussetzungen vertauschbar sind, machen wir uns folgende bequeme Schreibweise zu eigen: Wir setzen ∂ f, ∂xi Dik f := Di Dik−1 f =: ∂ k /∂xki f, Di f =:
Di0 f := f.
Dann schreiben wir Zusammensetzungen partieller Ableitungen mit einem Multiindex α , wir benutzen folgende Bezeichnungen: α
= (α1 , · · · , αn ) ∈ N n0 heißt ein Multiindex,
|α| := α1 + · · · + an
seine Ordnung,
α! := α1 ! · α2 ! · . . . · αn !
α-fakult¨ at,
xα :=
1 xα 1
n · . . . · xα n
heißt das Monom vom Exponent α ,
β ≤ α :⇐⇒ βi ≤ αi f¨ ur i = 1, . . . , n ,
kleinergleich,
α ± β := (α1 ± β1 , · · · , αn ± βn ), Dα f := D1α1 D2α2 . . . Dnαn f =:
1 ∂xα 1
∂ |α| f, n · · · ∂xα n
D0 f := f.
Solange die Zusammensetzungen partieller Ableitungen von f auf der offenen Menge U ⊂ Rn stetig bleiben, sind sie vertauschbar, und wir k¨onnen die Reihenfolge so festlegen, wie in dem Symbol Dα f . Eine Funktion f : U → R heißt C k -Funktion oder k-mal stetig differenzierbar, falls Dα f f¨ ur |α| ≤ k existiert und stetig ist. Und C k (U ) sei die Menge der C k -Funktionen auf U . Wir lassen auch k = ∞ zu, also ∞ \ C ∞ (U ) = C k (U ) k=0
ist die Menge der beliebig oft stetig differenzierbaren Funktionen. Dies ist u ¨brigens ein kommutativer Ring mit Eins.
3. Taylorentwicklung
23
Eine Abbildung f : U → Rp heißt k-mal stetig differenzierbar, wenn ihre Komponenten fi : U → R aus C k (U ) sind. Die Menge der k-mal stetig differenzierbaren Abbildungen U → Rp wird mit C k (U, Rp ) = C k (U )p bezeichnet. Ist f ∈ C k (U )p , so ist Dα f das p-Tupel Dα f = (Dα f1 , . . . , Dα fp ). Man rechnet leicht aus β!/(β − α)! xβ−α α β D x = 0
falls α ≤ β, sonst,
denn ∂ α1 ∂ αn β1 βn x x · · · · · 1 1 n ∂xα ∂xα n 1 β1 −α1 = β1 !/(β1 − α1 )! x1 · · · · · βn !/(βn − αn )! xβn −αn
Dα xβ =
falls α ≤ β , und Null sonst. Insbesondere folgt: Im Punkte x = 0 ist α β
D x =
α! falls α = β, 0 sonst.
Das sind dieselben Formeln, die schon fr¨ uher am Anfang der Erkl¨arung der Taylorentwicklung standen. Sie bedeuten jetzt etwas mehr als fr¨ uher, aber der Kalk¨ ul macht keinen Unterschied. Definition (Jet). Die Funktion f : U → R sei k-mal stetig differenzierbar. Der k-Jet oder das k-te Taylorpolynom von f bei u ∈ U ist das Polynom juk f (x) =
X Dα f (u) xα . α!
|α|≤k
24
I. Differentialrechnung mehrerer Variablen
Ist k = ∞ , so ist der Jet von f bei u die Potenzreihe ju∞ f (x) =
∞ X Dα f (u) α x . α!
|α|=0
Ist f : U → Rp aus C k (U )p , so wird juk f durch die gleiche Formel definiert. In diesem Fall ist jedes Dα f ein p-Tupel, also juk f das p-Tupel von Polynomen juk f = (juk f1 , . . . , juk fp ). Wir nennen ein p-Tupel von Polynomen in n-Variablen kurzerhand wieder ein Polynom. Entsprechendes gilt f¨ ur ju∞ f und Potenzreihen. Wie fr¨ uher k¨onnen wir den k-Jet von f folgendermaßen charakterisieren: Das Polynom j k f (x) hat am Punkte 0 ∈ Rn die gleichen Ableitungen der Ordnung ≤ k wie die Abbildung f (u+x) , oder j k f (x−u) hat bei u gleiche Ableitungen der Ordnung ≤ k wie f . In der Tat ist n¨amlich f¨ ur |β| ≤ k am Punkte x = 0 Dβ
X Dα f (u) X Dα f (u) xα = Dβ xα = Dβ f (u). α! α!
|α|≤k
|α|≤k
Diese Eigenschaft charakterisiert auch den k-Jet. Ist p(x) =
X
aα xα
|α|≤k
ein Polynom vom Grad ≤ k , und Dβ p(0) = Dβ f (u) f¨ ur |β| ≤ k , so ist aβ = Dβ p(0)/β! = Dβ f (u)/β! . Wie im Fall der Dimension eins finden wir folgende (3.2) Rechenregeln. Sind f, g ∈ C k (U ) und sind λ, µ Konstanten, so ist juk (λf + µg) = λjuk f + µjuk g.
3. Taylorentwicklung
25
Allgemeine Produktregel. juk (f · g) = j0k (juk f · juk g) . Allgemeine Kettenregel. Hat man eine Zusammensetzung von C k -Abbildungen U− →V − → Rm , g
f
g(u) = v,
juk (f ◦ g) = j0k jvk f ◦ (juk g − v) .
so ist
Beweis: Die erste Regel ist trivial, weil die Abbildungen Dα : C k (U ) → C k−|α| (U ) linear sind. Die zweite folgt so: Setze f (u + x) = juk f (x) + ϕ(x), g(u + x) = juk g(x) + ψ(x). Dann ist Dα ϕ(0) = Dα ψ(0) = 0
f¨ ur |α| ≤ k ,
und f · g(u + x) = juk f (x) · juk g(x) + ϕ(x) · (. . . ) + ψ(x) · (. . . ), und man sieht sofort: Dα (ϕ · h)(0) = 0 = Dα (ψ · h)(0) f¨ ur alle k h ∈ C (U ) . Also folgt die zweite Regel. Im Beweis der dritten Regel wollen wir die Koordinaten in U und V so verschieben, daß u = v = 0 , dann haben wir g(0) = 0 und m¨ ussen zeigen j0k (f ◦ g) = j0k (j0k f ◦ j0k g). ur |α| ≤ k , so findet man durch Ist j0k f = 0 , also Dα f (0) = 0 f¨ Induktion nach |α|, daß j0k (f ◦ g) = 0 , das heißt Dα (f ◦ g)(0) = 0 f¨ ur |α| ≤ k . Allgemein setzt man wieder f (x) = j0k f (x) + ϕ(x), mit j0k ϕ = 0 , und erh¨alt j0k (f ◦ g) = j0k (j0k f ◦ g + ϕ ◦ g) = j0k (j0k f ◦ g),
26
I. Differentialrechnung mehrerer Variablen
aber weil j0k f ein Polynom und der Jet mit Summen und Produkten nach den beiden ersten Regeln vertr¨aglich ist, so ist j0k (j0k f ◦ g) = j0k (j0k f ◦ j0k g).
Betrachten wir zum Beispiel die Zusammensetzung D− →V − → R, g
f
wobei D ein Intervall ist, g(s) = x + sh , und v = g(τ ) . Ist dann f ∈ C k (V ), so ist f¨ ur k ≥ 1 jτk g(t) = v + th,
also
also jτk (f ◦ g)(t) = jvk f (th) =
jτk g − v = th,
X Dα f (v) · hα · t|α| , α!
|α|≤k
und ein Koeffizientenvergleich mit der Definition von jτk (f ◦ g) zeigt explizit (3.3)
X Dα f (x + τ h) · hα 1 dk | f (x + sh) = . k! dsk s=τ α! |α|=k
Man kann sich der M¨ uhe unterziehen, dies direkt durch Induktion nach k zu zeigen. Nachdem wir uns soweit u ¨ber die Eigenschaften des Jets unterhalten haben, k¨onnen wir unmittelbar die Taylorsche Formel auf Funktionen von n Variablen u ¨bertragen, die angibt, wie gut eine Funktion durch ihren k-Jet approximiert wird. Ist U offen in Rn und f : U → R eine Funktion, so erhalten wir die Taylorformel f¨ ur f (x + h) aus der Taylorformel f¨ ur Funktionen einer Ver¨anderlichen, indem wir f auf die Verbindungsstrecke zwischen x und x + h ein-
3. Taylorentwicklung
27
schr¨anken.
(3.4) Taylorsche Formel. Sei U offen in Rn und f ∈ C k+1 (U ) ; die Verbindungsstrecke {x + sh | 0 ≤ s ≤ 1} zwischen x und x + h sei ganz in U enthalten. Dann gilt f¨ ur eine Zahl 0 < τ < 1 : f (x + h) = jxk f (h) +
X |α|=k+1
Dα f (x + τ h) α h . α!
Beweis: Sei ϕ(s) := f (x + sh), dann sagt die Taylorformel mit der Restglieddarstellung von Lagrange ϕ(1) =
k X 1 dj 1 dk+1 ϕ(0) + ϕ(τ ), j! dsj (k + 1)! dsk+1 j=0
0 < τ < 1,
und setzen wir die Ableitungen von ϕ(s) = f (x + sh) nach (3.3) mit τ = 0 bzw. τ = τ ein, so ergibt sich: ϕ(1) = f (x + h) =
k X Dα f (x) α h + α!
|α|=0
was die Behauptung ist.
X |α|=k+1
Dα f (x + τ h) α h , α!
28
I. Differentialrechnung mehrerer Variablen
Nat¨ urlich u ¨bertr¨agt man ¨ahnlich auch andere Restglieddarstellun¨ gen auf h¨ohere Dimension. Uber die Gr¨oßenordnung des Restgliedes belehrt uns die Absch¨atzung: (3.5)
|hα | ≤ |h||α| ,
denn |hi | ≤ |h|, also |hα | = |h1 |α1 · . . . · |hn |αn ≤ |h|α1 +···+αn = |h||α| . Wir finden damit (3.6) Restgliedabsch¨ atzung. Unter den Voraussetzungen der Taylorschen Formel gilt: f (x + h) = jxk+1 f (h) + ϕ(h),
lim ϕ(h)/|h|k+1 = 0.
h→0
P Beweis: Es ist ϕ(h) = |α|=k+1 Dα f (x + τ h) − Dα f (x) hα /α!, |hα /|h|k+1 | ≤ 1 , und limh→0 Dα f (x + τ h) − Dα f (x) = 0 . So ist der k-Jet in nat¨ urlicher Weise eine Verallgemeinerung der Ableitung. Daß f bei x differenzierbar ist, heißt: f (x + h) = f (x) + A · h + ϕ(h),
lim ϕ(h)/|h| = 0.
h→0
Der k-Jet ist — statt der affinen Abbildung h 7→ f (x) + Ah = f (x) + a1 h1 + · · · + an hn , was ja ein Polynom erster Ordnung in h ist — nun ein Polynom k-ter Ordnung, das auch f (x+h) von k-ter Ordnung approximiert, n¨amlich f (x + h) = jxk f (h) + ϕ(h),
lim ϕ(h)/|h|k = 0.
h→0
Eine stetig differenzierbare, also differenzierbare Funktion kann man als Polynom erster Ordnung f (x + h) = f (x) + A(h) · h
4. Das lokale Verhalten einer Funktion
29
schreiben, bei dem nur die Koeffizienten h¨ochster — n¨amlich erster — Ordnung von h abh¨angen. Entsprechend schreibt sich eine (k+1)mal stetig differenzierbare Funktion als Polynom (k +1)-ter Ordnung X Dα f (x + τ h) f (x + h) = jxk f (h) + hα , α! |α|=k+1
wo nur die Koeffizienten h¨ochster, n¨amlich (k + 1)-ter Ordnung von h abh¨angen. P Der k-Jet eines Polynoms p(x) = |α|≤k aα xα im Punkte u ist P nat¨ urlich das Polynom juk p(h) = |α|≤k aα (u + h)α , insbesondere — so kann man ja die Koordinaten auch immer legen — j0k p(x) = p(x). Ein Polynom ist gleich seiner Taylorreihe.
§ 4. Das lokale Verhalten einer Funktion α P f (u) α ¨ x ist in allgemeinen UberleDie Formel juk f (x) = |α|≤k D α! gungen leicht zu handhaben, weil man wie im eindimensionalen Fall rechnen kann. Man tut aber gut, auch etwas expliziter aufzuschreiben, was sie bedeutet, zum Beispiel:
ju2 f (x) = f (u) + = f (u) +
n X i=1 n X i=1
Di f (u)xi +
1 2
X
Di Dj f (u)xi xj
i,j
∂ f (u)xi + ∂xi
1 2
X i,j
∂2f (u)xi xj . ∂xi ∂xj
Die α mit |α| = 2 sind n¨amlich α = (0, . . . , 0, 2, 0, . . . 0), α! = 2 , und die mit zwei Einsen α = (0, . . . , 0, 1, 0, . . . 0, 1, 0, . . . 0), α! = 1, und P uhrt, an den Stellen letztere sind in der Summe ijPzweimal aufgef¨ (i, j) und (j, i), treten aber in |α|=2 nur einmal auf. Das Studium des Zweijets einer Funktion gen¨ ugt meistens, um das lokale Verhalten der Funktion um einen Punkt aufzukl¨aren. Definition. Sei U offen in Rn und f : U → R eine stetig differenzierbare Funktion. Ein Punkt u ∈ U heißt kritisch, wenn
30
I. Differentialrechnung mehrerer Variablen
Df (u) = 0 , und in diesem Fall heißt f (u) ein kritischer Wert von f . Offenbar ist u genau dann kritisch, wenn die Richtungsableitund f ◦ γ(0) = 0 f¨ ur gen Dv f (u) f¨ ur alle v verschwinden, d.h. wenn dt jede stetig differenzierbare Kurve t 7→ γ(t) mit γ(0) = u . Definition. Der Punkt u ∈ U heißt ein lokales Maximum von f , wenn es ein ε > 0 gibt, so daß f (u + h) ≤ f (u) f¨ ur |h| < ε . Ein lokales Minimum ist analog mit ≥ statt ≤ definiert, und ein lokales Extremum ist ein lokales Maximum oder Minimum. Hat eine stetig differenzierbare Funktion f : U → R bei u ∈ U ein lokales Extremum, so ist u kritisch. Offenbar hat dann n¨amlich insbesondere f ◦ γ f¨ ur jede stetig differenzierbare Kurve γ mit γ(0) = u ein lokales Extremum an der Stelle 0 , also D(f ◦ γ)(0) = 0 . Umgekehrt braucht ein kritischer Punkt kein Extremum zu sein. Im Gegensatz zum eindimensionalen Fall findet man jetzt eine reichere Geometrie des lokalen Verhaltens einer Funktion, die nicht nur durch die Begriffe von Monotonie und Extremalit¨at beschrieben wird. Typisch sind folgende Beispiele.
f (x, y) = x2 + y 2
Diese Funktion zeigt ein (lokales) Minimum am Nullpunkt.
4. Das lokale Verhalten einer Funktion
31
f (x, y) = x2 − y 2 .
Hier ist der Ursprung ein kritischer Punkt, aber kein Extremum, sondern ein sogenannter Sattelpunkt. Und schließlich hat die Funktion f (x, y) = −x2 − y 2 , das Negative der ersten, ein (lokales) Maximum am Ursprung, man erh¨alt ihren Graphen, wenn man das erste Bild auf den Kopf stellt. Zu den Bildern wollen wir uns folgende Begriffe machen, um das lokale Verhalten einer Funktion zu beschreiben: Definition. Sei U offen in Rn , und f : U → R eine C 2 -Funktion, dann nenne ich f bei u ∈ U lokal positiv (negativ) definit, falls es ein ε > 0 und λ > 0 gibt, so daß gilt: f (u + h) − f (u) ≥ λ|h|2
(bzw. ≤ −λ|h|2 ), f¨ ur |h| < ε .
Der Punkt u heiße Sattelpunkt von f , falls es eine orthogonale Zerlegung Rn = V ⊕ W gibt, so daß dim V 6= 0, n , und so daß f | u + V lokal positiv definit, f | u + W lokal negativ definit ist. Eine bei u lokal positiv definite Funktion hat dort ein lokales Minimum, eine lokal negativ definite Funktion hat ein lokales Maximum,
32
I. Differentialrechnung mehrerer Variablen
und ein Sattel hat weder das eine noch das andere. Meistens, wenn auch nicht immer, wird eine Funktion in einem kritischen Punkt eine der drei genannten Verhaltensweisen zeigen, und man erkennt das lokale Verhalten an dem Term zweiter Ordnung der Taylorentwicklung. Definition (Hessesche). Sei u ein kritischer Punkt der C 2 -Funktion f : U → R , dann heißt die symmetrische Matrix Hu = ∂ 2 f /∂xi ∂xj (u) , i, j = 1, . . . , n, die Hessematrix von f bei u , und die Abbildung X x 7→ Hu (x) := txHu x := ∂ 2 f /∂xi ∂xj (u) xi xj i,j
heißt die Hesseform von f bei u. Das t bedeutet “transponiert”. Hier schreiben wir die Vektoren als Spalten- n-tupel. (4.1) Satz (¨ uber das lokale Verhalten). Sei U offen in Rn und u ein kritischer Punkt der C 2 -Funktion f : U → R . Die Determinante der Hessematrix in u sei ungleich 0 . Dann hat f bei u dasselbe lokale Verhalten wie die Hesseform Hu von f am Ursprung. Ist also die Hesseform x 7→ txHx positiv (negativ) definit, so gilt dasselbe lokal f¨ ur f um u , und hat die Hesseform einen Sattel, so auch f , mit derselben Zerlegung Rn = V ⊕ W . Erl¨ auterung. Wir d¨ urfen nach Verschiebung der Koordinaten annehmen: u = 0, und f (0) = 0 . Ist A ein linearer Endomorphismus von Rn , so ist j02 (f ◦ A)(x) = j02 f (Ax) =
1 t 2 (Ax)HAx
=
1 t t 2 x( AHA)x,
wenn H die Hessematrix von f bei 0 ist. Man erkennt, daß f ◦ A die Hessematrix tAHA hat. Nun lehrt die lineare Algebra: Durch Wahl einer geeigneten orthonormalen Abbildung A kann man H auf Diagonalgestalt transformieren: H = Diag (λ1 , . . . , λk , µ1 , . . . , µ` , 0, . . . , 0)
4. Das lokale Verhalten einer Funktion
33
sei die quadratische Matrix mit den genannten Koeffizienten λi > 0 und µj < 0 und 0 in der Diagonale und verschwindenden Koeffizienten außerhalb der Diagonale. Sei dann λ = min{λi } , µ = min{−µj } . Nach orthonormaler Transformation des Koordinatensystems findet man daher die koordinatenweise Zerlegung Rn = V ⊕ W ⊕ N = Rk ⊕ R` ⊕ Rm , so daß H|V positiv definit und H|W negativ definit ist, n¨amlich f¨ ur Pk ur W ; und x ∈ V ist H(x) = i=1 λi x2i ≥ λ|x|2 , und entsprechend f¨ auf N verschwindet H(x). Ist also det(H) 6= 0 , so ist Rn = V ⊕ W , und es gilt: Erg¨ anzung. Ist V der Teilraum, auf dem die Hesseform positiv definit ist (also f ist auf u + V positiv definit), so ist dim V gleich der Anzahl der positiven Eigenwerte von H . Ist det(H) = 0 , so kann man f auf V ⊕ W einschr¨anken, und das lokale Verhalten von f |V ⊕ W ist dasselbe wie das der Hesseform auf V ⊕W. F¨ ur das Verhalten der Funktion auf dem Unterraum N , wo die Hesseform verschwindet, lehrt der Satz nichts. Beachte auch, da zwar die Dimensionen von V und W , nicht aber diese R¨aume selbst durch die Eigenschaften in der Definition eines Sattelpunktes eindeutig bestimmt sind. Beweis (4.1): Die Taylorformel lehrt, falls u = f (u) = Df (u) = 0 : f (x) = txAx + |x|2 ϕ(x), lim ϕ(x) = 0, x→0
mit A = 12 H .
Wir denken uns nun die Zerlegung Rn = V ⊕ W gegeben, dann existiert ein λ > 0 , so daß f¨ ur alle v ∈ V gilt: t
vAv ≥ λ|v|2 ,
also
t
vAv ≥ λ
f¨ ur alle v ∈V mit |v| = 1. Weil nun limx→0 ϕ(x) = 0, so folgern wir, daß es zu jedem λ1 < λ ein ε > 0 gibt, so daß t
vAv + ϕ(x) ≥ λ1
f¨ ur |v| = 1,
|x| < ε.
34
I. Differentialrechnung mehrerer Variablen
Ersetzen wir v durch x/|x| und multiplizieren mit |x|2 , so erhalten wir t
xAx + |x|2 ϕ(x) ≥ λ1 |x|2
f¨ ur x ∈ V
mit 0 < |x| < ε.
Das heißt aber f (x) ≥ λ1 |x|2 f¨ ur x ∈ V mit |x| < ε . Entsprechend schließt man f¨ ur W . Um also Rechner auf den rechten Weg zu bringen: Will man das lokale Verhalten in einem kritischen Punkt bestimmen, so berechne man die Vorzeichen der Eigenwerte der Hessematrix. Dazu braucht man die Eigenwerte selbst nicht auszurechnen, was auch im allgemeinen sehr aufwendig w¨are. Ein gangbarer Weg ist die Diagonalisierung der Hesseform durch simultane Zeilen- und Spaltenumformungen. Im Falle der Funktionen in 2 Variablen zeigt die Betrachtung einer Hessematrix in Diagonalgestalt unmittelbar: det(H) < 0 =⇒ Der Punkt ist ein Sattelpunkt. det(H) > 0 =⇒ Der Punkt ist ein lokales Extremum. Ob das Extremum ein Maximum oder Minimum ist, erkennt man dann nat¨ urlich am Vorzeichen der Diagonalelemente der Hessematrix. Dazu braucht man nicht zu transformieren. Beispiel. Zu bestimmen ist das lokale Verhalten der Funktion f (x, y) = 3x + 4y + sin(xy) 2x + y − cos(x)(1 − cos y) am Nullpunkt. Wir berechnen den Zwei-Jet: j02 f (x, y) = (3x + 4y)(2x + y), denn sin(xy) und (1 − cos y) verschwinden schon von mindestens zweiter Ordnung, also haben sie keinen Einfluß auf den 2-Jet des Produkts. Ist nun A : R2 → R2 durch A : (x, y) 7→ (ξ, η),
ξ = 3x + 4y,
η = 2x + y,
5. Vertauschbarkeit von Ableitung und Integral
35
gegeben, so ist j02 f (x, y) = p A(x, y) , mit p(ξ, η) = ξ ·η . Also haben wir j02 (f ◦ A−1 ) = xy . Daher hat j02 f ◦ A−1 einen Sattel, also auch j02 f , also auch f . Das Polynom xy wird u ¨brigens durch x = ξ − η , y = ξ + η in ξ 2 − η 2 transformiert. ¨ Die Behandlung des Beispiels zeigt, daß man durch etwas Uberlegung viel Rechnung sparen kann. Wir werden sp¨ater das sogenannte Morselemma kennenlernen, das in gewissem Sinne eine Versch¨arfung des hier Bewiesenen enth¨alt: Eine gen¨ ugend oft differenzierbare Funktion sieht lokal um einen kritischen Punkt mit nicht entarteter Hesseform nach geeigneter Koordinatentransformation ebenso aus, wie die Hesseform f¨ ur diesen Punkt (V, § 3 und Bd. 3, III, 2.5).
§ 5. Vertauschbarkeit von Ableitung und Integral Da wir u ¨ber Integration noch wenig wissen, sagen wir zum Thema erst etwas Vorl¨aufiges, das uns unmittelbar hilfreich f¨ ur die Differentialrechnung ist (vergl. III, 4.7). (5.1) Satz. Sei U offen in Rn und D = [a, b] ein kompaktes Intervall. Die Funktion f : D × U → R sei stetig, dann ist die Funktion Zb F : U → R,
x 7→
f (t, x) dt a
stetig. Hat f stetige Ableitungen ∂/∂xi f : D × U → R , so ist auch F stetig nach xi differenzierbar, und ∂ ∂xi
Zb
Zb f (t, x) dt =
a
a
∂ f (t, x) dt. ∂xi
36
I. Differentialrechnung mehrerer Variablen
Beweis: Die Menge D × {x} ⊂ D × U ist kompakt, und daher ist f auf D × {x} gleichm¨aßig stetig (Bd. 1, VI, 7.12). Also gibt es zu ε > 0 stets ein δ > 0, so daß |f (t, x + h) − f (t, x)| < ε/|b − a| f¨ ur |h| < δ. Rb Rb Daher |F (x+h)−F (x)| = | a f (t, x+h)−f (t, x) dt| ≤ a ε/|b−a| dt = ε f¨ ur |h| < δ . Das ist die Stetigkeit. Jetzt setze f¨ ur festes x ∈ U und gen¨ ugend kleine h ∈ R f (t, x + he ) − f (t, x) i h g(t, x, h) = ∂/∂xi f (t, x)
falls h 6= 0 falls h = 0.
Dann ist g stetig in allen Variablen. Das ist nur in den Punkten nicht klar, wo h = 0, aber nach dem Mittelwertsatz der Differentialrechnung schreibt sich der Differenzenquotient als ∂ f (t, x + ϑh · hei ), ∂xi was f¨ ur (x, t, h) → (x0 , t0 , 0) gegen ∂/∂xi f (x0 , t0 , 0) geht. Nach dem ersten Fall ist also Zb ∂/∂xi F (x) = lim
Zb g(t, x, h) dt =
h→0 a
Zb g(t, x, 0) dt =
a
∂/∂xi f (t, x) dt, a
und dies h¨angt stetig von x ab.
Beachte, daß in dem Beweis nichts u ¨ber U benutzt wird; das h¨angt an der zitierten angemessen gefaßten Aussage, daß stetige Funktionen auf kompakten Mengen gleichm¨aßig stetig sind. Hat die Funktion f stetige Ableitungen der Ordnung ≤ k nach den xi , so sieht man induktiv Zb α
D F (x) = D
α
Zb D0,α f (t, x) dt
f (t, x) dt = a
a
f¨ ur |α| ≤ k,
5. Vertauschbarkeit von Ableitung und Integral
37
mit 0, α = (0, α1 , . . . , αn ). Wir geben gleich eine Anwendung, die eigentlich eine wesentliche Aussage u ¨ber die algebraische Struktur des Ringes der differenzierbaren Funktionen macht: (5.2) Satz. Sei U offen in Rn und f : U → R eine C k -Funktion, dann ist f¨ ur alle u und x , so daß u + tx ∈ U f¨ ur 0 ≤ t ≤ 1, f (u + x) − f (u) =
n X
ϕi (x) · xi
i=1
mit C k−1 -Funktionen ϕi . Beweis: Nach dem Mittelwertsatz (2.6) setze Z1 ϕi (x) :=
Di f (u + tx) dt.
0
Die Aussage geht insoweit u ¨ber die Definition der Differenzierbarkeit hinaus, als die durch (ϕ1 , . . . , ϕn ) definierte lineare Abbildung eben nicht nur an der Stelle x = 0 stetig ist, sondern als Funktion von x sogar (k − 1)-mal stetig differenzierbar — f¨ ur k = ∞ also auch beliebig oft differenzierbar. In Aufgabe 12 zu diesem Kapitel weisen wir auf eine Verallgemeinerung dieser Aussage f¨ ur die h¨oheren Restglieder der Taylorentwicklung hin, die man leicht ebenso, oder durch Induktion aus (5.2) erh¨alt.
Kapitel II
Der Satz u ¨ ber die Umkehrfunktion
Mathematica accipiuntur ut abstracta secundum rationem, cum tamen non sint abstracta secundum esse. Thomas, S.Th.I, Qu XLIV, I.
Wir erkl¨aren, wann eine differenzierbare Abbildung lokal eine differenzierbare Umkehrabbildung hat. Damit h¨angt auch die Untersuchung der L¨osungsmengen nicht linearer regul¨arer Gleichungssysteme eng zusammen. Diese L¨osungsmengen sind Mannigfaltigkeiten, und so kommen wir auf den Begriff einer Mannigfaltigkeit und ihrer Tangentialr¨aume.
§ 1. Normen und Fixpunkte Wir wollen dem folgenden Abschnitt einige erinnernde Bemerkungen u ¨ber lineare und metrische R¨aume vorausschicken. Seien V und W endlichdimensionale reelle euklidische Vektorr¨aume, dim V = m, dim W = n, und es sei H = Hom R (V, W ) der Raum der linearen Abbildungen V → W . G = Aut(V ) die Gruppe der linearen Isomorphismen V → V . Auf dem Vektorraum H , den wir als Raum der (n × m)-Matrizen ansehen k¨onnen, f¨ uhren wir eine Norm ein, n¨amlich |A| := max |Ax| |x| = 1 .
1. Normen und Fixpunkte
39
Dabei bezeichnet |x| die euklidische Norm in V . Weil die Sph¨are S = x ∈ V |x| = 1 kompakt ist, existiert das Maximum. F¨ ur beliebiges x ∈ V , x 6= 0, ist offenbar |Ax| = |x| · Ax/|x| ≤ |x| · |A|. Die Absch¨atzung gilt auch f¨ ur x = 0 . Insbesondere erh¨alt man f¨ ur eine Zusammensetzung V −→ W −→ U die Absch¨atzung B
A
|ABx| ≤ |A| · |Bx| ≤ |A| · |B| · |x|, was f¨ ur |x| = 1 bedeutet: (1.1)
|AB| ≤ |A| · |B|.
Auch ist offenbar (1.2)
|A + B| ≤ |A| + |B|,
|λA| = |λ| · |A|.
Ist (An ) eine Folge aus H und limn→∞ |An | = 0, so folgt (An ) → 0. Die Norm induziert eine Topologie auf H = Hom(V, W ), die mit der von H als Vektorraum der Dimension m · n u ¨bereinstimmt. F¨ uhren wir orthonormale Koordinaten ein, so daß V = Rm und W = Rn ist, so schreibt sich A ∈ H als Matrix A = (aij ) , und wir k¨ onnen erkl¨aren: kAk := max |aij | i = 1, . . . , n; j = 1, . . . , m , kxk := max |xi | i = 1, . . . , m . Dann gilt: Ist |x| = 1 und kAk = α , so ist f¨ ur jede Zeile a von A of√ fenbar |a| ≤ m α , also hat nach Schwarz jede Komponente von Ax √ √ √ den Betrag ≤ m α , also |Ax| ≤ mn α , das heißt, |A| ≤ mnkAk . Umgekehrt ist kAk ≤ |A|, weil aij die i-te Komponente von Aej ist, also |aij | ≤ |Aej | ≤ |A|. Also hat man die Absch¨atzung, die unmittelbar angibt, wie die Komponenten mit der Norm konvergieren und umgekehrt: √ (1.3) kAk ≤ |A| ≤ mn kAk.
¨ber die Umkehrfunktion II. Der Satz u
40
Die Menge G der invertierbaren linearen Endomorphismen von V ist offen, denn die Determinante det : End(V ) := Hom(V, V ) −→ R ist eine stetige Funktion, und G = det−1 ( R r {0}) . Eine genauere Aussage liefert das (1.4) Lemma. Ist |A| < 1, so ist id − A invertierbar. Beweis: In der Tat, w¨are x − Ax = 0 f¨ ur ein x 6= 0, so setze v = |x|−1 x , dann ist |v| = 1 und Av = v , also |A| ≥ 1. Man kann das Inverse folgendermaßen explizit angeben: Die Reihe P∞ P∞ k k konvergiert, also konvergiert auch die Reihe k=0 |A| k=0 A nach dem Cauchy-Kriterium. Aber (1 − A) ·
∞ X
Ak = 1 := id ∈ End(V ).
k=0
¨ Der Ubergang zum Inversen definiert eine beliebig oft stetig differenzierbare Abbildung inv : G → G,
A 7→ A−1 ,
e , wobei die Komponenten der zu A addenn A−1 = det(A)−1 · A e sich als Determinanten gewisser Untermatrizen jungierten Matrix A von A durch Polynome in den Koeffizienten von A berechnen. Die linearen Abbildungen, die wir betrachten werden, sind Differentiale Df . Ist die Norm von Df beschr¨ankt, so ist das Wachstum von f beschr¨ankt. (1.5) Lemma. Sei U offen in Rn und f : U → Rp stetig differenzierbar, und sei x + th ∈ U f¨ ur 0 ≤ t ≤ 1 . Ist dann |Df | ≤ d auf {x + th | 0 ≤ t ≤ 1}, so ist |f (x + h) − f (x)| ≤ d · |h|.
1. Normen und Fixpunkte
41
Beweis: Dies folgt aus dem Mittelwertsatz (I, 2.6): Z1 d Z1 |f (x + h) − f (x)| = f (x + th) dt = Df (x + th) h dt dt 0
0
Z1 ≤
|Df | · |h| dt ≤ d |h|.
0
Schließlich sei hier eine Schlußweise erkl¨art, die man als Fixpunktsatz von Banach zitiert, obwohl sie wohl schon von Newton verwendet wurde. Wir erinnern an den Begriff eines vollst¨andigen metrischen Raumes. Jede abgeschlossene Teilmenge des Rn ist ein Beispiel, weil Rn vollst¨andig ist. Zun¨achst weniger naheliegend aber ebenso wichtig ist folgendes Beispiel: Sei X ein topologischer Raum, Y ⊂ Rn abgeschlossen, und C der Raum der beschr¨ankten stetigen Funktionen f : X → Y mit der Supremumsnorm (und induzierten Metrik) kf k = sup |f (x)| x ∈ X . Dann ist C vollst¨andig. Ist n¨amlich (fn ) eine Cauchyfolge in C , so ist fn (x) f¨ ur jedes x ∈ X eine Cauchyfolge in Y, es existiert also die Grenzfunktion f : X → Y , und die Folge (fn ) konvergiert gleichm¨aßig gegen f , das heißt kfn − f k geht gegen 0 . Aber ein gleichm¨aßiger Limes stetiger Funktionen ist stetig. Beweis: Ist x ∈ X und ε > 0 , so w¨ahle n so, daß kfn − f k < ε/3 und die Umgebung U von x so, daß |fn (y) − fn (x)| < ε/3 f¨ ur y ∈ U, dann folgt: |f (x) − f (y)| ≤ |f (x) − fn (x)| + |fn (x) − fn (y)| + |fn (y) − f (y)| < ε. Eine Abbildung f : X → X eines metrischen Raumes in sich heißt kontrahierend mit Kontraktionskonstante λ , 0 ≤ λ < 1 , wenn f¨ ur alle x, y ∈ X gilt: d f (x), f (y) ≤ λ · d(x, y).
¨ber die Umkehrfunktion II. Der Satz u
42
(1.6) Kontraktionslemma. Eine kontrahierende Abbildung eines vollst¨andigen metrischen Raumes in sich besitzt genau einen Fixpunkt, also es gibt genau einen Punkt x des Raumes, sodaß f (x) = x . Breitet man zum Beispiel hier im H¨orsaal einen vorz¨ uglichen Plan von Regensburg aus, so stimmt genau ein Punkt auf dem Plan mit dem dort abgebildeten Punkt der Stadt u ¨berein, er liegt ungef¨ahr dort, wo der Plan den H¨orsaal abbildet, genauer wo der Plan den Plan abbildet, genauer wo der Plan das Bild des Plans abbildet ... Beweis: Sei λ die Kontraktionskonstante. Angenommen, x und y sind Fixpunkte, also f (x) = x und f (y) = y , dann ist d(x, y) = d f (x), f (y) ≤ λd(x, y), und weil λ < 1 , folgt d(x, y) = 0 , die Eindeutigkeit. Die Existenz erh¨alt man so: Sei f n = f ◦ · · · ◦ f : X → X die n-fache Zusammensetzung von f mit sich, dann konvergiert f¨ ur n jedes x ∈ X die Folge f (x) , wie wir gleich zeigen. Ist dann a = lim f n (x) , so f (a) = f lim f n (x) = lim f n+1 (x) = a, weil eine kontrahierende Abbildung offenbar stetig ist. Die Folge f n (x) konvergiert, denn sie ist eine Cauchyfolge. Man schließt n¨amlich induktiv d f n (x), f n (y)
≤ λn d(x, y),
und daraus erh¨alt man: k−1 X d f n (x), f n+k (x) ≤ λn d x, f k (x) ≤ λn d f i (x), f i+1 (x) i=0
≤ λn
k−1 X
λ d x, f (x) → 0 f¨ ur n → ∞. λi d x, f (x) ≤ 1−λ i=0 n
¨ ber die Umkehrabbildung 2. Der Satz u
43
Der Satz beschreibt eigentlich, wann ein naheliegendes Iterationsverfahren zur L¨osung einer Gleichung f (x) = x zum Ziele f¨ uhrt, das Verfahren, das mit einem ersten Versuch x1 beginnt, und dann xn+1 = f (xn ) setzt. Wir werden das Kontraktionslemma mehrfach anwenden. Im folgenden Abschnitt wird der metrische Raum eine euklidische Kugel sein, sp¨ater aber, wenn wir uns mit Differentialgleichungen befassen, wird der metrische Raum immer ein Raum stetiger Funktionen mit Supremumsnorm sein, und wir werden ohne weitere Erinnerung benutzen, daß ein gleichm¨aßiger Limes stetiger Funktionen stetig ist.
§ 2. Der Satz u ¨ ber die Umkehrabbildung Sei U offen in Rn und V offen in Rp , und sei f : U → V eine stetig differenzierbare Abbildung. Dann heißt f : U → V diffeomorph oder ein Diffeomorphismus, falls f eine differenzierbare Umkehrabbildung f −1 : V → U besitzt, so daß also f −1 ◦ f = idU ,
f ◦ f −1 = idV .
Das bedeutet: f ist bijektiv, und f −1 ist differenzierbar. Ist f dann k-mal stetig differenzierbar, so gilt f¨ ur f −1 dasselbe. Ist n¨amlich u ∈ U und f (u) = v , so ist D(f −1 )(v) ◦ Df (u) = id Rn , Df (u) ◦ D(f −1 )(v) = id Rp , −1 also n = p und Df −1 f (u) = Df (u) . Damit also f diffeomorph sein kann, muß jedenfalls Df berall eine regul¨are Matrix sein. Dann ist D(f −1 ) ◦ f = (Df )−1 : U → End( Rn ), D(f
−1
−1
) = (Df )
◦f
−1
n
: V → End( R ).
also
44
¨ber die Umkehrfunktion II. Der Satz u
Mit (Df )−1 ist hier inv◦Df , also die inverse Matrix von Df gemeint. Man sieht: Ist f eine C k -Abbildung und f −1 eine C ` -Abbildung mit 1 ≤ ` < k , so ist (Df )−1 ◦ f −1 auch C ` , also D(f −1 ) eine C ` Abbildung, also ist f −1 eine C `+1 -Abbildung. Induktiv ergibt sich so, daß f −1 auch k-mal stetig differenzierbar ist. Wir sagen kurz: f ist invertierbar, wenn wir meinen: f −1 existiert und ist differenzierbar. Wir wissen schon: Ist f invertierbar, so ist Df (u) f¨ ur alle u eine regul¨are (linear invertierbare) Matrix. Nun ist folgendes eine sinnvolle Frage: Sei f : U → V stetig differenzierbar, surjektiv, und sei Df (u) regul¨ar f¨ ur alle u ∈ U . Ist dann f diffeomorph? Im Fall der Dimension 1 ist die Antwort: ja — f ist ja dann streng monoton, also injektiv. Aber im H¨oherdimensionalen kann man so nicht schließen. Betrachten wir zum Beispiel die Polarkoordinaten der Ebene. f : R+ × R → C r {0} = R2 r {0},
(r, ϕ) 7→ reiϕ = r(cos ϕ, sin ϕ).
Die Jacobische der Abbildung f ist cos ϕ −r sin ϕ sin ϕ r cos ϕ und hat die Determinante r 6= 0 . f (r, ϕ) = f (r, ϕ + 2π) .
Jedoch ist f nicht injektiv,
Aber f l¨aßt sich lokal, in einer geeigneten Umgebung jedes Punktes (r, ϕ) ∈ R+ × R umkehren, zum Beispiel in der Umgebung R+ × (ϕ − π, ϕ + π) . Die Jacobische so einer lokalen Umkehrung p k¨ onnen wir jetzt berechnen: Ist f (r, ϕ) = (x, y), so ist r = x2 + y 2 , x/r = cos ϕ, y/r = sin ϕ und −1 Df −1 (x, y) = Df (r, ϕ) x y cos ϕ sin ϕ p p x2 + y 2 x2 + y 2 = sin ϕ cos ϕ = −y x − r r x2 + y 2 x2 + y 2
¨ ber die Umkehrabbildung 2. Der Satz u
45
mit der Determinante r−1 = (x2 + y 2 )−1/2 . Aufs Allgemeine zur¨ uckzukommen: Wir nennen eine C k -Abbildung f : U → V lokal um u ∈ U invertierbar, wenn es offene Umgebungen U1 von u und V1 von v = f (u) gibt, so daß die Einschr¨ankung f | U1 : U1 → V1 definiert und invertierbar ist. (2.1) Satz u ¨ ber die Umkehrfunktion. Seien U und V offen in n R , sei u ∈ U und f : U → V eine C k -Abbildung. Genau dann ist f um u lokal invertierbar, wenn Df (u) regul¨ar ist. Die lokale Umkehrung ist in diesem Fall auch eine C k -Abbildung. Beweis: Wie gesagt, ist nur der Fall k = 1 zu betrachten. Auch darf man nach Translation des Koordinatensystems u = f (u) = 0 annehmen. Schließlich darf man Df (0) = id = Einheitsmatrix annehmen. Ist n¨amlich Df (0) = A , so hat f ◦ A−1 das Differential id bei 0 , und f ◦ A−1 ist genau dann lokal umkehrbar, wenn f es ist. Nach diesen Maßnahmen ist f (0) = 0 und Df (0) = id. Wir wollen insbesondere die Gleichung y = f (x) f¨ ur kleine y ∈ Rn nach x aufl¨osen. Wegen Df (0) = id ist f nahe am Ursprung ungef¨ahr die Identit¨at. Die gesuchte L¨osung sollte daher ungef¨ahr x = y sein. Dies schreiben wir hin und addieren die Berichtigung, wir schreiben also die Gleichung y = f (x), die wir nach x aufl¨osen sollen, in der Form x = y + x − f (x) =: gy (x). Diese Gleichung x = gy (x) werden wir f¨ ur gen¨ ugend kleines y ∈ Rn mit dem Kontraktionslemma l¨osen. Ist denn die Abbildung x 7→ gy (x) kontrahierend? Setzen wir g(x) := g0 (x) = x − f (x), so ist gy (x1 ) − gy (x2 ) = g(x1 ) − g(x2 ).
¨ber die Umkehrfunktion II. Der Satz u
46
Das y f¨allt heraus. Wir m¨ ussen also nur schauen, ob g kontrahiert. Nun ist Dg(0) = 0, und daher aus Stetigkeit |Dg(x)| < 1/2 f¨ ur gen¨ ugend kleine x . Ist also B(r) = x |x| ≤ r die Kugel vom Radius r und r > 0 gen¨ ugend klein gew¨ahlt, so folgt aus (1.5): (i) Notiz. Sind x1 , x2 ∈ B(r) , so ist |g(x1 ) − g(x2 )| ≤ 12 |x1 − x2 |. Setzt man hier x1 = 0 , so sieht man, daß g eine Abbildung g : B(r) → B(r/2) induziert, und f¨ ur |y| ≤ r/2 induziert gy = y + g daher eine Abbildung gy : B(r) → B(r), die nach dem Gesagten wie g mit Kontraktionskonstante 1/2 kontrahiert. Nach dem Kontraktionslemma hat die Gleichung gy (x) = x folglich f¨ ur |y| ≤ r/2 in B(r) genau eine L¨osung. Das besagt: (ii) Zu jedem y ∈ B(r/2) existiert genau ein x ∈ B(r) , mit f (x) = y . Sei also U1 = x |x| < r und |f (x)| < r/2 , dann ist U1 offen. Sei V1 = f (U1 ), dann ist f : U1 → V1 bijektiv, und wir haben das Paar inverser Abbildungen f : U1 → V1 ,
f −1 =: ϕ : V1 → U1 .
(iii) Wir m¨ ussen zeigen, daß V1 offen und ϕ differenzierbar ist. Ersteres und die Stetigkeit von ϕ folgt unmittelbar aus folgender Absch¨atzung: Sind u, x ∈ B(r) , so ist |x − u| = |g(x) + f (x) − g(u) + f (u) | ≤ |g(x) − g(u)| + |f (x) − f (u)| ≤ 12 |x − u| + |f (x) − f (u)|. Also gilt: (iv)
|x − u| ≤ 2 |f (x) − f (u)|.
¨ ber die Umkehrabbildung 2. Der Satz u
47
Setzt man hier u = 0 , so ergibt sich |f (x)| < r/2 =⇒ |x| < r f¨ ur x ∈ B(r) . Folglich ist V1 = y |y| < r/2 , und dies ist offen in Rn . Jetzt sagt aber die Ungleichung (iv) mit y = f (x), v = f (u), ϕ = f −1 |ϕ(y) − ϕ(v)| ≤ 2 |y − v|, also f −1 = ϕ ist stetig. Um zu sehen, daß ϕ differenzierbar ist, bemerke zun¨achst, daß Df (u) f¨ ur alle u ∈ U1 invertierbar ist, weil Df (u) = 1 − Dg(u) und |Dg(u)| ≤ 12 . Die Differenzierbarkeit von f bei u bedeutet: f (x) − f (u) = A(x)(x − u) f¨ ur kleine |x − u|, mit einer von x stetig abh¨angenden Matrix A , und es ist dann A(u) = Df (u) . Ist nun f (u) = v und y nahe v , so ist f −1 (y) = x und x nahe u — das ist die Stetigkeit von ϕ = f −1 , die wir schon wissen; also besagt die letzte Gleichung f¨ ur kleines |y − v|: y − v = A ϕ(y) ϕ(y) − ϕ(v) . Weil aber A ϕ(v) = A(u) invertierbar ist, gilt dasselbe f¨ ur A ϕ(y) wenn y nahe v ist, und wir k¨onnen schreiben ϕ(y) − ϕ(v) = A−1 ϕ(y) (y − v), und weil wir die Stetigkeit von ϕ schon wissen, ist A−1 ϕ(y) stetig an der Stelle y = v . Das zeigt, daß ϕ = f −1 differenzierbar ist, und zwar stetig, weil Df −1 = (Df )−1 ◦ f −1 . Also: Ob eine stetig differenzierbare Abbildung lokal invertierbar ist, entscheidet sich allein daran, ob die lineare Approximation invertierbar ist. Der Satz u ¨ber die Umkehrfunktion ist das klassische Hilfsmittel der elementaren Geometrie differenzierbarer Abbildungen
48
¨ber die Umkehrfunktion II. Der Satz u
neben zwei anderen: Der Taylorschen Formel und dem Existenzsatz f¨ ur L¨osungen von Differentialgleichungen, auf den wir im n¨achsten Band kommen. Der erste Teil des Beweises liefert in Wahrheit etwas genauere Information u ¨ber die Gr¨oße der Umgebungen, auf denen f umkehrbar ist, n¨amlich: (2.2) Zusatz. Sei U offen in Rn und f : U → Rn stetig differen zierbar, und f¨ ur ein u ∈ U und r > 0 sei x |x − u| ≤ r ⊂ U , und es gelte: |Df (x) − id| ≤ 1/2, falls |x − u| ≤ r. Dann gibt es zu jedem y mit |y − f (u)| ≤ r/2 genau ein x mit |x − u| ≤ r , so daß f (x) = y . Nun ist auf x |x − u| ≤ r stets |Df | ≤ |Df − id| + |id| ≤ 23 , also |f (x) − f (u)| ≤ 23 |x − u|, also folgt: (2.3) Korollar. Unter den Voraussetzungen von (2.2) gilt: Ist ρ < r/3 , so ist f |Uρ (u) injektiv, und f Uρ (u) ⊃ Uρ/2 f (u) .
Der Witz des Korollars ist folgender: Um ρ zu bestimmen, muß man nur wissen: |Df − id| ≤ 12 auf einer Kugel mit Radius 3ρ . Dann kann man zugleich f¨ ur alle diese f Umgebungen Uρ (u), auf denen f injektiv ist, und Uρ/2 f (u) , die im Bild liegen, angeben. Lokal invertierbare differenzierbare Abbildungen haben f¨ ur uns grunds¨atzliche Bedeutung. Wir fassen solche Abbildungen als nicht lineare lokale Koordinatentransformationen auf, so wie man in der linearen Algebra einen linearen Isomorphismus A : Rn → Rn als ¨ Anderung des linearen Koordinatensystems auffassen kann. Man sprach fr¨ uher, wenn man U durch eine invertierbare Transformation f : U → Rn auf eine offene Menge des Rn abbildete, auch von krummlinigen Koordinaten auf U . Den Koordinatenlinien {x + tei | t ∈ R} auf Rn entsprechen ja hier im allgemeinen krumme Kurven {f −1 (x + tei ) | t ∈ R} .
3. Gleichungen und Mannigfaltigkeiten
49
Manches von Natur krumme Ph¨anomen der lokalen Geometrie sieht, wenn man es in geeignet angepaßten krummlinigen Koordinaten betrachtet, viel einfacher aus, als in linearen Koordinaten. Der Satz u ¨ber die Umkehrfunktion dient, zu erkennen, welche Abbildungen als lokale Koordinatentransformationen geeignet sind, und Probleme der Differentialrechnung — die schwer durchschaubar sind — in solche der linearen Algebra zu verwandeln, die man gut versteht.
§ 3. Gleichungen und Mannigfaltigkeiten Wo heute in der Mathematik vornehmlich von Abbildungen die Rede ist, da sah man fr¨ uher zun¨achst Gleichungen, die es zu l¨osen galt. Auch der Satz u ¨ber die Umkehrabbildung hat eine solche Inkarnation. (3.1) Satz (Aufl¨osen von Gleichungen). Sei U offen in Rn und V offen in Rk , und sei f : U × V → Rk ,
(x, y) 7→ f (x, y)
eine C ` -Abbildung, so daß f (u, v) = 0
und
det ∂fi /∂yj (u, v) = 6 0
f¨ ur ein (u, v) ∈ U × V . Dann l¨aßt sich die Gleichung f (x, y) = 0 lokal um (u, v) ∈ U × V eindeutig durch C ` -Funktionen nach y
¨ber die Umkehrfunktion II. Der Satz u
50
aufl¨osen, das heißt, auf einer Umgebung U1 ⊂ U von u existiert eine C ` -Abbildung η : U1 → V1 ⊂ V , so daß f¨ ur x ∈ U1 f x, η(x) = 0,
η(u) = v;
und wenn f (x, y) = 0 f¨ ur (x, y) ∈ U1 × V1 , so ist y = η(x) .
Beweis: Die Abbildung ϕ : U × V → Rn × Rk ,
(x, y) 7→ x, f (x, y)
hat die Jacobimatrix 1 Dϕ =
..
.
0 1
∂fi /∂xj
∂fi /∂yj
n Zeilen o k Zeilen
und diese ist im Punkt (u, v) regul¨ar. Auch ist das Diagramm U × V
ϕ
Rn × Rk pr2
f
Rk
3. Gleichungen und Mannigfaltigkeiten
51
kommutativ (f = pr2 ◦ ϕ), und durch die Transformation ϕ wird das Problem, f (x, y) = 0 zu l¨osen, lokal in das Problem, pr2 (x, y) = 0 zu l¨osen, u ¨berf¨ uhrt. Und dies wird durch y = 0 gel¨ost.
Explizit gesagt: Wir d¨ urfen nach dem Satz u ¨ber die Umkehrfunktion annehmen, daß ϕ diffeomorph ist. Dann setze x, η(x) := ϕ−1 (x, 0); es ergibt sich f x, η(x) = pr2 ϕ x, η(x) = pr2 (x, 0) = 0 , und wenn f (x, y) = 0 , so pr2 ϕ(x, y) = 0 , das heißt ϕ(x, y) = (x, 0), oder y = pr2 ϕ−1 (x, 0) = η(x). Damit haben wir also jedenfalls eine Umgebung W von (u, v) mit f (x, y) = 0 ⇐⇒ y = η(x) f¨ ur (x, y) ∈ W . Jetzt w¨ahle eine Umgebung U1 × V1 ⊂ W von (u, v) so, daß η(U1 ) ⊂ V1 . Merke: Die stetig differenzierbare Gleichung f (x, y) = 0 ist lokal eindeutig durch stetig differenzierbare Funktionen nach y l¨osbar, falls ihre lineare Approximation Df (u, v) · (x, y) = 0 eindeutig nach y l¨osbar ist. Die lineare Approximation hat ja in Matrizenschreibweise die Gestalt ∂fi /∂xs (u, v) · x + ∂fi /∂yj (u, v) · y = 0, und dies ist genau dann eindeutig nach y aufl¨osbar, wenn die Matrix ∂fi /∂yj (u, v) regul¨ar ist. Nat¨ urlich kann eine Gleichung eindeutig l¨osbar sein, obwohl ihre lineare Approximation im Ursprung nicht eindeutig l¨osbar ist. Beispiel. (x − y)2 = 0 hat nur die L¨osung y = x , aber die lineare Approximation 0 = 0 , was von jedem Paar (x, y) gel¨ost wird. Der Satz u ¨ber das L¨osen von Gleichungen hat viele Anwendungen.
52
¨ber die Umkehrfunktion II. Der Satz u
Pn Beispiel. Sei f : Rn × R → R das Polynom f (x, t) = k=0 xn−k tk , mit x0 = 1 . Sei ξ ∈ Rn und α eine einfache Wurzel von f (ξ, t), also sei f (ξ, t) = (t − α) · g(ξ, t) , mit g(ξ, α) 6= 0. Dann gilt: In einer Umgebung U von ξ in Rn gibt es genau eine (beliebig oft stetig dif ferenzierbare) Funktion η : U → R , η(ξ) = α , sodaß f x, η(x) = 0. Solche Funktionen η nennt man algebraisch. Wir d¨ urfen uns die Situation wie in folgender Figur vorstellen:
Es ist ja f (ξ, α) = 0, aber folgt aus dem Satz.
∂ ∂t f (ξ, α)
= g(ξ, α) 6= 0, die Behauptung
Betrachtet man das entsprechende Polynom f (x, t) mit komplexen Koeffizienten x und Werten in C , so bilden die ξ ∈ C n , wo f (ξ, t) mehrfache Wurzeln hat, die Diskriminante. Außerhalb der Diskriminante hat das Polynom f (x, t) jeweils n verschiedene Wurzeln, die lokal durch differenzierbare Funktionen gegeben sind, aber nicht global! Sei f : U × V → Rk , (x, y) 7→ f (x, y) eine Abbildung wie in (3.1) und η : U → V die (lokal) eindeutig bestimmte L¨osung der Gleichung f (x, y) = 0. Seien U , V schon so gew¨ahlt, daß U = U1 und V = V1 wie im Satz. Dann kann man Dη leicht berechnen. Sei n¨amlich Dx f := (∂fi /∂xj ),
Dy f := (∂fi /∂yj ),
3. Gleichungen und Mannigfaltigkeiten
53
dann erh¨alt man aus f x, η(x) = 0 durch Anwenden der Kettenregel die Gleichung Dx f + Dy f · Dη = 0, also wenn, wie vorausgesetzt, Dy f regul¨ar ist, Dη = −(Dy f )−1 · Dx f. Um es genau zu sagen: Wende die Kettenregel auf die Zusammensetzung U →U ×V − → Rk , x 7→ x, η(x) 7→ 0 f
an. Die Differentiale sind
id Dη
und Df = (Dx f, Dy f ) , also:
0 = (Dx f, Dy f ) ·
id Dη
= Dx f + Dy f · Dη.
Im Falle einer Funktion von 2 Variablen spezialisiert sich die Formel zu dy ∂f /∂x = − , wenn y = η(x), f x, η(x) = 0. dx ∂f /∂y Der Satz besagt insbesondere, daß das Nullstellengebilde {(x, y) | f (x, y) = 0} =: M ⊂ Rn+k lokal um (u, v) durch eine offene Menge U ⊂ Rn parametrisiert wird; die Abbildung U → M , x 7→ x, η(x) trifft M ∩ (U × V ) surjektiv, und die Abbildung pr1 : Rn × Rk → Rn induziert eine Umkehrung M ∩ (U × V ) → U .
Definition. Eine Teilmenge M ⊂ Rn heißt eine k-dimensionale C ` -Untermannigfaltigkeit von Rn , wenn gilt:
54
¨ber die Umkehrfunktion II. Der Satz u
Jeder Punkt p ∈ M besitzt eine offene Umgebung U ⊂ Rn mit einem C ` -Diffeomorphismus h : U → U 0 ⊂ Rk × Rn−k = Rn , sodaß h(U ∩ M ) = U 0 ∩ ( Rk × {0}). Eine solche Abbildung h heißt eine Karte der Untermannigfaltigkeit M , und eine Familie {hλ : Uλ → Uλ0 | λ ∈ Λ} von Karten heißt ein S Atlas der Untermannigfaltigkeit M , wenn M ⊂ Uλ . λ∈Λ
Die Mannigfaltigkeit M ⊂ Rn sieht also lokal in geeigneten “krummen” C ` -Koordinaten wie Rk ⊂ Rn aus. Nach Voraussetzung besitzt M einen Atlas. Der Satz u ¨ber das Aufl¨osen von Gleichungen besagt: Ist f : U × V → Rk wie im Satz, so gilt lokal um (u, v), also f¨ ur eine offene Umgebung W ⊂ U × V : W ∩ {(x, y) | f (x, y) = 0} =: M ist eine Untermannigfaltigkeit der Dimension n . Die Abbildung ϕ im Beweis des Satzes ist eine Karte. In etwas allgemeinerer Situation ist die allgemeine L¨osung eines Gleichungssystems eine Mannigfaltigkeit. Sei U offen in Rn und f : U → Rk differenzierbar bei u ∈ U , dann ist der Rang von f in u der Rang des Differentials: rgu f := rg Df (u).
3. Gleichungen und Mannigfaltigkeiten
55
Der Punkt u heißt ein kritischer Punkt von f , wenn rgu (f ) < k , und in diesem Fall heißt f (u) ∈ Rk ein kritischer Wert von f . Ist x ∈ Rk kein kritischer Wert, so heißt x ein regul¨ arer Wert von f , auch wenn x vielleicht gar kein Wert von f ist. Statt kritisch sagt man auch singul¨ ar. Ein kritischer Wert kann durchaus der Bildpunkt vieler regul¨arer Punkte sein. Es gen¨ ugt, daß in seinem Urbild ein kritischer Punkt liegt. Im Urbild eines regul¨aren Wertes hingegen liegen nur regul¨are Punkte, es kann jedoch leer sein. Die leere Menge gilt hier als Untermannigfaltigkeit jeder beliebigen Dimension. (3.2) Satz. Sei U offen in Rn und f : U → Rk eine C ` -Abbildung. Ist w ∈ Rk ein regul¨arer Wert von f , so ist f −1 {w} eine Untermannigfaltigkeit der Kodimension k , das heißt der Dimension n − k . Beweis: Sei u ∈ f −1 {w} , dann hat die Abbildung g : U → Rk , x 7→ f (x) − w , den Rang k in u , und wir interessieren uns f¨ ur das Nullstellengebilde {x ∈ U | g(x) = 0} := M. Nun ist rg ∂gi /∂xj (u) = k , also nach geeigneter Umordnung der Koordinaten xj oBdA 0 6= det ∂gi /∂xj (u) i,j=1,...,k . Jetzt sind wir in der Situation von (3.1), explizit gesagt: Die Abbildung ϕ : U → Rn , x 7→ g1 (x), . . . , gk (x), xk+1 , . . . , xn hat die Jacobimatrix
Dϕ(u) =
∂gi /∂xj 1 0
..
. 1
o k n−k
Zeilen
Zeilen
weiße Stellen sind Null,
56
¨ber die Umkehrfunktion II. Der Satz u
vom Rang n, und M = ϕ−1 ({0} × Rn−k ) . Also ist ϕ eine Karte von M um u . Ein Beispiel f¨ ur diese Mannigfaltigkeiten bilden die H¨ohenlinien einer Landkarte. Da sei etwa U offen in R2 und f : U → R die (hoffentlich) stetig differenzierbare H¨ohenfunktion. F¨ ur jeden regul¨aren Wert t ∈ R ist f −1 {t} eine H¨ohenlinie in U . Besonders aufkl¨arend ist die Betrachtung dieser Linien in der Umgebung eines Extremums oder Sattels — in diesen Punkten selbst ist f nat¨ urlich singul¨ar.
In der linearen Algebra begegnet man den Fl¨achen zweiter Ordnung, wie zum Beispiel F = {x ∈ Rn | txAx = b}. Dabei sei A symmetrisch, b 6= 0 , und t x die transponierte Zeile zur Spalte x . Dann ist F ⊂ Rn eine 1-kodimensionale Mannigfaltigkeit. Die Abbildung f : Rn → R,
x 7→ txAx − b
hat n¨amlich das Differential Df (x) = 2 txA, wie man leicht sieht, wenn man die Definition des Differentials direkt anwendet. Und
4. Der Tangentialraum
57
t
xA 6= 0 falls x ∈ F , denn sonst w¨are txAx = 0 , f (x) = 0, also b = 0 . Ein Spezialfall ist uns schon oft begegnet: die Sph¨ are S n−1 := x ∈ Rn |x|2 = 1 ist eine solche Fl¨ache, w¨ahle f¨ ur A die Einheitsmatrix und b = 1 . Sie war den Alten das Urbild von Symmetrie und Vollkommenheit und gibt uns Heutigen noch tiefe R¨atsel auf, besonders die dreidimensionale.
§ 4. Der Tangentialraum Sei M ⊂ Rm+n eine C ` -Untermannigfaltigkeit der Dimension m. Nach Definition haben wir einen Atlas der Untermannigfaltigkeit {hλ : Uλ → Uλ0 ⊂ Rm × Rn | λ ∈ Λ},
m 0 M ∩ Uλ = h−1 λ (Uλ ∩ R ),
wobei wir der Einfachheit halber Rm := Rm × {0} ⊂ Rm × Rn setzen.
¨ Ahnlich wie f¨ ur Kurven wollen wir den Raum der Tangentialvektoren in einem Punkt p ∈ M erkl¨aren. Definition. Ein Tangentialvektor in p ∈ M ist ein Vektor v = γ(0), ˙ wo γ : D = (−ε, ε) → M ⊂ Rm+n eine stetig differenzierbare Kurve mit γ(0) = p ist. Die Menge Tp M aller Tangentialvektoren heißt der Tangentialraum von M in p .
¨ber die Umkehrfunktion II. Der Satz u
58
Also Tp M ist der Raum aller Geschwindigkeitsvektoren von Kurven, die durch p laufen und in M bleiben, in p . Wir zeichnen wieder den zugeh¨origen affinen Raum Tp M + p , die Tangente an p , haben aber zu zeigen, daß Tp M u ¨berhaupt ein Vektorraum ist. Wie immer sind Vektoren in expliziten Rechnungen im Matrizenkalk¨ ul als Spalten zu schreiben, wenn das Differential als JacobiMatrix geschrieben wird. (4.1) Satz. In der beschriebenen Situation gilt: Der Tangentialraum Tp M ist ein m-dimensionaler Untervektorraum von Rn+m . Ist ϕ : U → U 0 ⊂ Rm × Rn eine Karte um p mit ϕ(p) = 0 , so ist Tp M =
−1 Dϕ(p) · Rm = D(ϕ−1 )(0) Rm .
Ist U eine offene Umgebung von p in Rm+n und g : U → Rn differenzierbar vom Rang rgp g = n, und ist g|U ∩ M = 0, so ist Tp M = ker Dg(p). Beweis: Wir wollen uns zun¨achst beide Aussagen klar machen: Ist U ∩ M =: V , U 0 ∩ Rm =: V 0 , und ϕ|U ∩ M = ψ , so ist ψ : V → V 0 ⊂ Rm ein Hom¨oomorphismus der Umgebung V von p in M mit der Umgebung V 0 von 0 in Rm , und ψ besitzt die stetig differenzierbare Umkehrung ψ −1 = ϕ−1 |U 0 ∩ Rm : V 0 → V , welche M lokal um p durch Koordinaten in V 0 ⊂ Rm parametrisiert.
4. Der Tangentialraum
59
Die erste Aussage ist: Dψ −1 (0) Rm = Tp (M ). In der Tat: Ist γ eine Kurve wie in der Definition von Tp M , so ist ψ ◦ γ lokal um t = 0 definiert und eine stetig differenzierbare Kurve in Rm mit ψγ(0) = 0. Ist umgekehrt γ : (−ε, ε) → Rm , γ(0) = 0 stetig differenzierbar, so ist ψ −1 ◦ γ lokal um 0 definiert, verl¨auft in M , und ψ −1 ◦ γ(0) = p . Als Kurven in der Definition von Tp M hat man also die Kurven ψ −1 ◦ γ zu betrachten, wo γ : (−ε, ε) → Rm , γ(0) = 0 . Ihre Geschwindigkeitsvektoren sind die Vektoren Dψ −1 (0) γ(0), ˙ und γ(0) ˙ durchl¨auft offenbar ganz Rm — w¨ahle γ(t) = tv , dann ist γ(0) ˙ = v . Das ist die erste Behauptung, insbesondere dim Tp M = m, denn Dψ −1 (0) = Dϕ−1 (0) | Rm hat den Rang m. Ist nun g wie im Satz, und γ eine Kurve wie in der Definition von Tp M , so ist g ◦ γ lokal um t = 0 definiert und konstant 0, also D(g ◦ γ)(0) = Dg(p) γ(0) ˙ = 0,
d.h. v ∈ ker Dg(p)
f¨ ur jeden Tangentialvektor v ∈ Tp M . Also Tp M ⊂ ker Dg(p). Aber dim Tp M = m und rg Dg(p) = n, und daher ergibt sich: dim ker Dg(p) = m + n − n = m, also Tp M = ker Dg(p).
¨ber die Umkehrfunktion II. Der Satz u
60
Also, es nocheinmal zusammenzufassen: Die Mannigfaltigkeit M wird lokal um p durch eine Karte Rm ⊃ V 0 −−→ V ⊂ M ψ −1
parametrisiert, und der Tangentialraum dann durch die lineare Approximation Rm −−−−−→ Tp (M ) ⊂ Rm+n . Dψ −1 (0)
Ist M lokal um p durch Gleichungen g beschrieben, p ∈ U → Rn , m+n
so wird Tp M ⊂ R chungen beschrieben:
M ∩ U = {x | g(x) = 0},
rgp g = n,
durch die lineare Approximation der Glei-
Tp M = {v ∈ Rm+n | Dg(p)v = 0}. Ist insbesondere g eine Funktion nach R , so kann man Dg · v = 0 in der Form schreiben: hgradp (g), vi = 0,
also
Tp M = gradp (g)⊥
ist der Orthogonalraum von gradp (g). Beispiel. Die Einheitssph¨are S n−1 in Rn ist die Mannigfaltigkeit M = {x | hx, xi − 1 = 0} . Ist f (x) = hx, xi − 1, so ist gradx f = 2x , also Tx M = {v | hx, vi = 0} . Der Tangentialraum an S n−1 in x ist orthogonal zum Ortsvektor.
Ist U offen in Rm und f : U → Rn eine C ` -Abbildung, so ist der Graph von f M = {(x, y) | y − f (x) = 0} ⊂ U × Rn
4. Der Tangentialraum
61
eine m-dimensionale Mannigfaltigkeit, denn ist g(x, y) = y − f (x), so ist (∂gi /∂yj ) = (δij ) eine regul¨are Matrix, und Satz (3.2) anwendbar.
Der Tangentialraum von M in (x, y) ist {(u, v) | (−Df, id) · t(u, v) = 0} = {(u, v) | v = Df (x) · u}. Mit anderen Worten: Das Differential Df (x) beschreibt den Tangentialraum an den Graphen. F¨ uhrt man um p ∈ M lokale Koordinaten, das heißt, f¨ uhrt m n 0 man eine Karte p ∈ U − → U ⊂ R × R , und damit ϕ
U ∩ M = V −−−−→ V 0 ⊂ Rm , ψ=ϕ|V
ψ(p) = 0,
ein, so ist Tp M = Dψ −1 (0) · Rm .
Also Tangentialvektoren sind bez¨ uglich einer Karte durch reelle
62
¨ber die Umkehrfunktion II. Der Satz u
m-Tupel v ∈ Rm gegeben. Physiker beschreiben gerne alles in lokalen Koordinaten, und manchmal bleibt einem auch nichts anderes u ¨brig, um etwa einen bestimmten Vektor explizit hinzuschreiben. Dann muß man nat¨ urlich angeben, wie das, was man f¨ ur eine Karte beschrieben hat, nun aussieht, wenn man die Karte wechselt. Schaun wir mal, was sich da bei den Tangentialvektoren tut:
Hat man außer dem lokalen Koordinatensystem ϕ beziehungsweise ψ um p noch ein anderes Koordinatensystem U1 −→ U10 ⊂ Rm × Rn , ϕ1
und damit entsprechend V1 −−−−−−→ V10 ⊂ Rm , ψ1 =ϕ1 |V1
ψ1 (p) = 0,
so entspricht einem m-Tupel v ∈ Rm bez¨ uglich der Koordinaten ψ der Tangentialvektor Dψ −1 (0) · v ∈ Tp M , und diesem das m-Tupel Dϕ1 (p)Dψ −1 (0) · v = D(ψ1 ψ −1 )(0) · v ∈ Rm
4. Der Tangentialraum
63
bez¨ uglich der Koordinaten ψ1 . Die Abbildung ψ1 ◦ ψ −1 bezeichnet man als Kartenwechsel (Koordinatentransformation) zwischen ψ und ψ1 . Sie ist auf einer Umgebung des Ursprungs definiert. Wir k¨onnen daher den Tangentialraum auch so beschreiben: Bez¨ uglich lokaler Koordinaten ist ein Tangentialvektor in Tp M m durch ein m-Tupel v ∈ Rm gegeben (n¨amlich als Dψ −1 (0)v ). Wechselt man das Koordinatensystem, so wird das m-Tupel mit der Jacobischen des Koordinatenwechsels transformiert. Physiker sagen daf¨ ur kurz: Ein Vektor ist ein m-Tupel, das sich kontravariant transformiert. Ist U offen in Rn und p ∈ U , so hat man einen kanonischen Isomorphismus Tp U = Rn . Man ordnet jedem Vektor v ∈ Rn den Weg γ(t) = p + tv und damit den Tangentialvektor γ(0) ˙ ∈ Tp U zu. Ist W ⊂ Rk offen und f : U → W differenzierbar, so ordnet f jedem Weg γ durch p den Weg f ◦ γ durch f (p) ∈ W zu, und definiert so eine Abbildung Tp f : Tp U → Tf (p) W,
γ(0) ˙ 7→ (f ◦ γ). (0),
und die Kettenregel zeigt (f ◦ γ). (0) = Df (p)γ(0), ˙ also Tp f = Df (p) : Rn → Rk . Das Differential, als lineare Abbildung, ist die durch f induzierte Abbildung der Tangentialr¨aume. Durch Einf¨ uhren lokaler Koordinaten (Karten) kann man dies, wie viele andere Begriffe, von offenen Mengen des Rn auf Mannigfaltigkeiten u ¨bertragen; wir werden das im n¨achsten Band systematisch tun. Hier nur ein einfaches Beispiel: Definition. Sei M eine C 1 -Untermannigfaltigkeit einer offenen Teilmenge U von Rn , und sei f : U → R stetig differenzierbar. Dann heißt p ∈ M ein kritischer Punkt von f |M , wenn f¨ ur jede C 1 n Kurve γ : (−ε, ε) → M ⊂ R mit γ(0) = p gilt, daß 0 ein kritischer
¨ber die Umkehrfunktion II. Der Satz u
64
Punkt von f ◦γ : (−ε, ε) → R ist. Man sagt auch: p ist ein kritischer Punkt von f unter der Nebenbedingung M . Ist p ein lokales Extremum von f |M , so ist p ein kritischer Punkt von f |M , weil f ◦ γ zur Zeit τ lokal extremal, also kritisch ist, f¨ ur jede Kurve γ mit γ(τ ) = p . Nehmen wir zum Beispiel ein mechanisches System, wie das Pendel. Hier unterliegt der sich bewegende Massenpunkt x der Nebenbedingung, daß er sich auf einer Sph¨are {x | |x − 0| = r} aufh¨alt, und man m¨ochte nun etwa den Punkt minimalen Potentials unter dieser Nebenbedingung bestimmen. Die Bedingung an einen kritischen Punkt besagt offenbar: Df (p) γ(0) ˙ = 0 f¨ ur die betrachteten Kurven γ , und die sind gerade so gew¨ahlt, daß γ(0) ˙ ∈ Tp (M ). Demnach also ist f genau dann kritisch in p, wenn Df (p) | Tp (M ) = 0 . Wird M durch Gleichungen beschrieben, so ergibt sich folgendes Rechenverfahren: (4.2) Methode der Multiplikatoren von Lagrange. Sei U offen in Rm+n , und die Mannigfaltigkeit M ⊂ U sei durch M = {x | g(x) = 0},
g = (g1 , . . . , gn ) : U → Rn ,
rgp (g) = n
gegeben. Dann ist f : U → R kritisch in p unter der Nebenbedingung M , genau wenn es λ1 , . . . , λn ∈ R gibt, so daß D(f + λ1 g1 + · · · + λn gn )(p) = 0. Beweis: wenn
f ist kritisch in p unter der Nebenbedingung M , genau Df (p)|Tp (M ) = 0,
4. Der Tangentialraum
65
aber Tp (M ) = ker Dg(p), also lautet die Bedingung: Df (p) · v = 0
f¨ ur alle v , f¨ ur die Dg(p) · v = 0 .
Es ist reine lineare Algebra, daß dies bedeutet: Df (p) ist linear abh¨angig von den Dgi (p), was der Satz nur besagt. In der Tat, dim Tp M = m, auf Tp M verschwinden die n unabh¨angigen Linearformen Dgi (p), und der Raum aller Linearformen, die auf Tp M verschwinden, hat die Dimension n . Also ist Df (p) genau dann in diesem Raum, wenn Df (p) linear von den Dgi (p) abh¨angt. Zur Bestimmung des gesuchten kritischen Punktes kommen zu den Gleichungen im Satz noch die Gleichungen g(p) = 0 hinzu, die sagen, daß p in M gesucht ist. Im ganzen hat man so m + 2n Gleichungen f¨ ur die m + 2n Unbekannten (p, λ). Die Nebenbedingungen, welche die Gleichungen g(x) = 0 aussprechen, induzieren die infinitesimalen Nebenbedingungen G(x) · v = 0,
mit
G(x) := Dg(x),
f¨ ur die Tangentialvektoren an M in x . Daß p kritisch f¨ ur f |M ist, heißt, wie gesehen: Df (p) · v = 0 f¨ ur alle v , die den infinitesimalen Nebenbedingungen G(p) · v = 0 gen¨ ugen, und das ist genau dann der Fall, wenn Df (p) Linearkombination der Zeilen von G(p) ist. Das habe ich hier nocheinmal wiederholt, weil in der Physik auch Nebenbedingungen von vornherein als infinitesimale Bedingungen G : U → Hom( Rm+n , Rn ) auftreten, ohne daß es eine Mannigfaltigkeit M ⊂ U g¨abe, sodaß Tp M = {v | G(p) · v = 0}. Dann ist f in p kritisch unter den infinitesimalen Nebenbedingungen G, wenn Df (p) | {v | G(p)v = 0} = 0.
66
¨ber die Umkehrfunktion II. Der Satz u
Auch in diesem Fall infinitesimaler oder nicht integrabler, nicht holonomer Nebenbedingungen gilt: (4.3) Satz. Genau dann ist p ein kritischer Punkt von f unter der infinitesimalen Nebenbedingung G , wenn Df (p) eine Linearkombination der Zeilen von G(p) ist. In diesem Fall hat man keine Gleichungen g(p) = 0 f¨ ur den gesuchten kritischen Punkt und man findet oft nicht isolierte kritische Punkte. Beispiel. Eine Studentin f¨ahrt auf dem Einrad vom Radius 1 u ¨ber die Ebene. Die Lage des Rades wird durch zwei Winkel:
und einen Punkt x ∈ U ⊂ R2 , den Punkt, wo das Rad den Boden ber¨ uhrt, beschrieben. Also die Lage des Rades wird durch (α, β, x) ∈ S 1 × S 1 × U ⊂ R2 × R2 × R2 beschrieben; der Tangentialraum dieser Mannigfaltigkeit ist R4 in ˙ x˙ 1 , x˙ 2 ) jedem Punkt, aber f¨ ur den Geschwindigkeitsvektor v = (α, ˙ β, der Bewegung gibt es eine Koppelung: Die Bewegung u ¨ber U geschieht in Richtung α mit Geschwindigkeit β˙ , also x˙ 1 − β˙ cos α = 0, x˙ 2 − β˙ sin α = 0, 0 − cos α 1 0 das heißt G(α, β, x1 , x2 ) = beschreibt die in0 − sin α 0 1 finitesimale Nebenbedingung.
4. Der Tangentialraum
67
Unterwirft man das Rad einer Zentralkraft mit einem Potential f (α, β, x) = ϕ(|x|2 ) , ϕ0 6= 0, so bleibt es von dieser unbewegt, wenn das Potential unter den Nebenbedingungen kritisch ist, das heißt Df = 2ϕ0 · (0, 0, x1 , x2 ) = λ1 (0, − cos α, 1, 0) + λ2 (0, − sin α, 0, 1), also wenn x1 cos α + x2 sin α = 0 , was bedeutet: Die Fahrtrichtung ist senkrecht zum Ortsvektor. Auch der linearen Algebra k¨onnen wir wieder einmal dienen, indem wir zeigen: (4.4) Anwendung der Methode der Multiplikatoren. Sei A eine symmetrische (n × n)-Matrix und µ = max | txAx| |x| = 1 , dann ist µ oder −µ ein Eigenwert von A . Beweis: Das Maximum wird auf S n−1 := {x| txx =: g(x) = 1} angenommen und zwar in einem Punkt, wo die Funktion f : Rn → R,
x 7→ txAx
kritisch unter der Nebenbedingung g = 1 ist; also gilt in diesem x Df (x) = 2 txA = λDg(x) = 2λt x, und das heißt Ax = λx , λ ist ein Eigenwert mit Eigenvektor x . Es folgt µ = | txAx| = |λ| · |x|2 = |λ|. Es ist nicht schwer, induktiv fortfahrend zu zeigen, daß sich A orthonormal in Diagonalgestalt transformieren l¨aßt. Die Rechnung gibt zugleich eine analytische Deutung der Eigenvektoren: Sie bezeichnen die Richtungen, wo die quadratische Form x 7→ txAx auf der Einheitssph¨are kritisch wird. In der Physik ist die Funktion f , deren kritische Werte man sucht, oft ein Potential, also Df = grad f eine Kraft, und man deutet daher die Vektoren λi · grad gi auch als durch die Bewegung auftretende Zwangskr¨afte, normal zur Mannigfaltigkeit M , die das System
68
¨ber die Umkehrfunktion II. Der Satz u
auf der Mannigfaltigkeit halten. Ein Tangentialvektor wird in der klassischen Mechanik in diesem Zusammenhang auch als virtuelle Verr¨ uckung bezeichnet.
§ 5. Die Einh¨ ullende einer Schar Im Rn betrachten wir 1-kodimensionale Untermannigfaltigkeiten Mc , und zwar eine durch den Parameter c indizierte ganze Schar solcher Untermannigfaltigkeiten, wobei der Parameter c seinerseits in einer Untermannigfaltigkeit C ⊂ Rk variiert. Die Mannigfaltigkeit Mc sei durch eine regul¨are Gleichung definiert, also Mc = {x ∈ U | f (x, c) = 0}. Dabei ist U offen in Rn und c ∈ C ⊂ V , was eine offene Menge in Rk ist. Die Funktion f :U ×V → R sei stetig differenzierbar, und die Regularit¨atsforderung ist Dx f (x, c) 6= 0
auf Mc f¨ ur alle c ∈ C .
Die Gleichung f (x, c) = 0 ist also eine durch c ∈ C parametrisierte Schar von Gleichungen, und jede Gleichung definiert eine Hyperfl¨ache, eine Mannigfaltigkeit der Kodimension 1 in U . Die Einh¨ ullende oder Enveloppe der Schar (Mc | c ∈ C) ist folgendermaßen erkl¨art: Die Gleichung f (x, c) = 0 definiert auch eine 1-kodimensionale Untermannigfaltigkeit M ⊂ U × C ⊂ U × Rk , M = {(x, c) | c ∈ C, f (x, c) = 0},
¨ llende einer Schar 5. Die Einhu
69
weil D(f |U × C) in Punkten (x, c) ∈ M nicht verschwindet, schon Dx f verschwindet ja nicht. Die Enveloppe ist nach Definition die Menge der kritischen Werte der Projektion p : M → U,
(x, c) 7→ x.
Sie besteht also aus denjenigen x ∈ U , wo f¨ ur ein c ∈ C die Abbildung p : M = {(x, c) | f (x, c) = 0} → U nicht vollen Rang hat. Diese Abbildung hat notwendig einen Rang ≥ (n − 1), denn M enth¨alt ja die Untermannigfaltigkeiten {(x, c) | c = c0 , f (x, c) = 0}, die durch p diffeomorph auf Mc0 ⊂ U abgebildet werden. Daß p in (x, c) kritisch ist, kann man so deuten, daß eine Variation des Scharparameters c von erster Ordnung zu Verschiebungen f¨ uhrt, die in x tangential zu Mc sind, der Scharparameter verschiebt die Schar tangential zu ihren Mannigfaltigkeiten. Zerlegen wir die Ableitung von f nach ihrer x- und c-Komponente in Rn × Rk , so erhalten wir: T(x,c) M = {(a, b) | Dx f · a + Dc f · b = 0} ⊂ Rn × Tc C, T p : T(x,c) M −→ Tx Rn = Rn ,
(a, b) 7→ a.
¨ber die Umkehrfunktion II. Der Satz u
70
Weil nun nach Voraussetzung Dx f 6= 0, ist diese Abbildung genau dann nicht surjektiv im Punkte (x, c) ∈ M , wenn Dc f · b = 0
f¨ ur alle b ∈ Tc C.
Daher ergibt sich die (5.1) Enveloppenbedingung. Die Enveloppe der durch f (x, c) definierten Schar Mc = {x | f (x, c) = 0},
c ∈ C,
in der offenen Menge U ⊂ Rn besteht aus denjenigen x ∈ Rn , wo f¨ ur einen Parameter c ∈ C gilt f (x, c) = 0,
Dc f (x, c) · b = 0
f¨ ur alle Tangentialvektoren b ∈ Tc C der Parametermannigfaltigkeit C. Angenommen, die Parametermannigfaltigkeit besteht aus der ganzen offenen Menge V ⊂ Rk , so ist Tc C = Rk , und die Enveloppengleichungen sind einfach (5.2)
f (x, c) = 0,
Dc f (x, c) = 0.
Ein wichtiger Fall ist aber auch, daß die Untermannigfaltigkeit C ihrerseits durch ein regul¨ares Gleichungssystem definiert ist: C = {c ∈ V | g(c) = 0},
g : V → Rr ,
rg Dg|C = r.
In diesem Fall besagt die zweite Enveloppengleichung Dc f · b = 0
f¨ ur alle b ∈ Rk , f¨ ur die Dg · b = 0,
und das heißt wie im Fall der Lagrange-Multiplikatoren: (5.3) Korollar. Ist C = g −1 {0} , und 0 ein regul¨arer Wert der stetig differenzierbaren Abbildung g = (g1 , . . . , gr ) : V → Rr ,
¨ llende einer Schar 5. Die Einhu
71
so liegt x in der Enveloppe der Schar (Mc | c ∈ C) , wenn gilt: f (x, c) = 0,
Dc f (x, c) =
r X
λi Dgi (c)
i=1
f¨ ur ein c ∈ C und ein r-tupel (λ1 , . . . , λr ) ∈ Rr .
Meist rechnet man damit, daß die Enveloppengleichungen wenigstens ein regul¨ares Gleichungssystem in U ×C bilden, jedoch braucht das nicht der Fall zu sein, und die Enveloppe kann sehr wild aussehen. In der Optik und der Theorie der Wellengleichung ordnet man einer Anfangswellenfront, die durch eine Hyperfl¨ache C ⊂ Rn mit n = 2 oder 3 gegeben sei, als Front nach der Zeit t die Enveloppe der Schar der Sph¨aren um Punkte c ∈ C mit Radius t zu (Huygenssches Prinzip). Ist C durch die regul¨are Gleichung g = 0 beschrieben, so erhalten wir f¨ ur die Enveloppe die Gleichungen g(c) = 0,
|x − c|2 = t2 ,
x − c = λ · grad g(c).
Sie ist also der geometrische Ort der Punkte, die auf zu C senkrechten “Strahlen” den Abstand t von C haben.
Bildet man in der Ebene nun die Enveloppe der Schar der Strahlen {x | x − c = λ · grad g(c)},
c ∈ C,
so erh¨alt man die sogenannte Evolute der Kurve C .
72
¨ber die Umkehrfunktion II. Der Satz u
In der Optik ist dies die Kaustik, die man als Lichtfigur zum Beispiel in der Kaffeetasse sehen kann.
Man kann nach demselben Muster auch die Enveloppe von Scharen von Untermannigfaltigkeiten h¨oherer Kodimension erkl¨aren und ¨ berechnen. Uberhaupt w¨are in diesem Abschnitt wohl manches ge¨ nauer auszuf¨ uhren. Dazu lade ich in den Ubungen ein. Im dritten Band werden wir den Mannigfaltigkeiten wieder begegnen und einen etwas freieren und vom Rechnerischen gel¨osten Zugang gewinnen. Da muß sich manches R¨atsel l¨osen.
Kapitel III
Maß und Integral
Da mußt er mit dem frommen Heer durch ein Gebirge, w¨ ust und leer. Daselbst erhub sich große Not, viel Steine gab’s und wenig Brot. Ludwig Uhland
Wir kennen das Riemannintegral f¨ ur Funktionen einer Variablen auf einem Intervall [a, b] , und wir haben den zugeh¨origen Raum Fab der auf dem Intervall integrablen Funktionen mit verschiedenen Halbnormen (Seminormen) versehen, wie insbesondere der L1 -Norm, die wir jetzt so bezeichnen: Zb kf k1 :=
|f (x)| dx. a
Durch Faktorisieren nach dem Unterraum der Funktionen der Norm 0 erh¨alt man damit einen normierten reellen Vektorraum. Ein wesentlicher Mangel des Riemannintegrals ist, daß dieser Raum nicht vollst¨andig ist: Cauchyfolgen brauchen nicht zu konvergieren. Dem wollen wir jetzt abhelfen. Wir entwickeln die Integrationstheorie in abstrakter Allgemeinheit. Alles ginge ebenso auch f¨ ur Funktionen mit Werten in Banachr¨aumen. Der Leitgedanke ist schon, daß man eben den Raum der integrablen Funktionen komplettiert, indem man Grenzwerte f¨ ur jede L1 Cauchyfolge hinzunimmt, aber man muß auch diese hinzugenommenen Elemente als Funktionen realisieren. Warum? Gen¨ ugt es nicht,
74
III. Maß und Integral
einfach formal mit Cauchyfolgen umzugehen? In vielen F¨allen gen¨ ugt 1 das in der Tat nicht. Schon zum Beispiel, um eine L -Cauchyfolge Riemannintegrabler Funktionen anzugeben, die nicht gegen eine Riemannintegrable Funktion konvergiert, wird man, von h¨oherer Warte, die wir jetzt besteigen wollen, den Grenzwert als Funktion beschreiben, die eben auch nach Ab¨anderung um eine Nullfunktion nie Riemannintegrabel wird.
§ 1. Meßr¨ aume Auf der reellen Geraden haben wir als nat¨ urliche Definitionsgebiete von Funktionen und als Teilmengen, die zu messen waren, immer Intervalle mit ihrer L¨ange betrachtet. Darauf beruhte die Definition und insbesondere die Normierung des Integrals. Aber im H¨oherdimensionalen ist es nat¨ urlich, weniger einfach aussehende Mengen M zu betrachten, denen man dann statt einer L¨ange entsprechend ein Maß µ(M ) zuordnen will. Im R2 sollte man sich unter µ(M ) etwa den Fl¨acheninhalt von M und in R3 das Volumen vorstellen. Man kann nicht erwarten, daß jeder Menge so auf sinnvolle Weise ein Maß zugeordnet wird. Wir beginnen also mit Forderungen an das System aller Teilmengen M eines Raumes X — uns interessiert dann haupts¨achlich X = Rn — die man messen kann. Dann formulieren wir Forderungen an das Maß µ(M ). Definition. Ein Meßraum besteht aus einer Menge X 6= ∅ , deren Elemente wir Punkte nennen, und einer σ-Algebra auf X . Die σ-Algebra ist eine Menge M von Teilmengen von X , die meßbar heißen, dergestalt, daß folgendes gilt: (i) ∅ ist meßbar. (ii) Ist M meßbar, so auch das Komplement {M = X r M . (iii) Ist (Mj | j ∈ N ) eine abz¨ahlbare Familie meßbarer Mengen, so S∞ ist auch ihre Vereinigung j=1 Mj meßbar.
¨ ume 1. Meßra
75
¨ Durch Ubergang zum Komplement folgt, daß auch X meßbar ist, und daß abz¨ahlbare Durchschnitte meßbarer Mengen meßbar sind. Sj−1 Setzt man Mj0 = Mj r k=1 Mk , so ist ∞ [ j=1
Mj =
∞ G
Mj0
j=1
eine disjunkte Vereinigung. Enth¨alt also M die leere Menge, mit jeder Menge das Komplement, mit zwei Mengen den Durchschnitt, und mit einer Familie (Aj | j ∈ N ) von paarweise disjunkten Mengen die Vereinigung, so ist M eine σ-Algebra. Eine Abbildung f : X → Y zwischen Meßr¨aumen heißt meßbar, wenn f −1 (N ) meßbar in X ist, f¨ ur jede meßbare Teilmenge N in Y . Zusammensetzungen meßbarer Abbildungen sind meßbar, und wir haben so die Kategorie der Meßr¨aume und meßbaren Abbildungen. Es gibt viele triviale Beispiele. Ist X 6= ∅ eine beliebige Menge, so kann die σ-Algebra M nur aus ∅ und X bestehen. Das ist die kleinste σ-Algebra auf X . Oder sie kann aus allen Teilmengen bestehen. Das ist die gr¨oßte σ-Algebra auf X . Ist X ein Meßraum mit σ-Algebra M und f : X → Y eine Abbildung von Mengen, so hat man auf Y die σ-Algebra f∗ M der Teilmengen N ⊂ Y , f¨ ur die f −1 N in M ist. Diese Algebra heißt das direkte Bild von M unter f . Dies ist die gr¨oßte σ-Algebra auf Y , f¨ ur die f meßbar ist. Ist S irgendein System von Teilmengen von Y , also eine Teilmenge der Potenzmenge P(Y ), so gibt es eine kleinste σ-Algebra auf Y , die S enth¨alt: Der Durchschnitt aller σ-Algebren, die S enthalten: Sie heißt das Erzeugnis M(S) von S . Um festzustellen, ob eine Abbildung f : X → Y meßbar ist, braucht man nur zu pr¨ ufen, ob die Urbilder der Mengen M ∈ S eines Erzeugendensystems S der σ-Algebra von Y in X meßbar sind. Liegen n¨amlich die Erzeugenden im direkten Bild der σ-Algebra von X , so das ganze Erzeugnis.
76
III. Maß und Integral
Als Erzeugnis entsteht der Meßraum, auf den wir eigentlich hinauswollen. Ist X ein topologischer Raum, so erzeugt die Topologie, also das System aller offenen Teilmengen, eine σ-Algebra auf X . Sie heißt die Borelalgebra auf X . Wenn wir nun hinfort einen topologischen Raum ohne weiteres als Meßraum ansprechen, so ist immer diese Struktur, die Borelalgebra gemeint. Stetige Abbildungen zwischen topologischen R¨aumen sind dann auch meßbar. Das gilt insbesondere f¨ ur den Rn , und in diesem Sinne sprechen wir von meßbaren Abbildungen X → Rn und von meßbaren Funktionen X → R . Ist X ein Meßraum, so ist eine Abbildung f : X → Rn genau dann meßbar, wenn das Urbild jeder offenen Menge meßbar ist, weil die offenen Mengen ja die Borelalgebra auf Rn erzeugen. Es gibt noch kleinere Erzeugendensysteme, zum Beispiel das aller Elementarw¨ urfel (1.1)
{x ∈ Rn | zj /2k ≤ xj ≤ (zj + 1)/2k
f¨ ur j = 1, . . . , n},
mit zj ∈ Z , k ∈ N und x = (x1 , . . . , xn ).
Jede offene Teilmenge des Rn ist die Vereinigung der (abz¨ahlbar ¯ = R ∪ {±∞} kann vielen) in ihr enthaltenen Elementarw¨ urfel. In R man als Erzeugendensystem das System aller Intervalle (1.2)
(a, ∞],
a∈Q
w¨ahlen, denn durch Differenzbildung erh¨alt man daraus alle Intervalle (a, b], a, b ∈ Q, und daraus durch abz¨ahlbare Vereinigung alle offenen. Eine meßbare Funktion ϕ : X → R , die nur endlich viele Werte annimmt, heißt eine Stufenfunktion. Das bedeutet, daß X in endlich viele meßbare Mengen M1 , . . . , Mk disjunkt zerlegt ist, auf denen
¨ ume 1. Meßra
77
ϕ jeweils konstant ist. Die fr¨ uher von uns betrachteten Treppenfunktionen auf R sind Beispiele. Hieraus gewinnen wir nun viele weitere meßbare Funktionen: (1.3) Satz. Sei X ein Meßraum. ¯ ist genau dann meßbar, wenn f¨ (i) Eine Funktion f : X → R ur jedes a ∈ Q die Mengen {x | f (x) > a} in X meßbar sind. (ii) Eine Abbildung f : X → Rn ist genau dann meßbar, wenn ihre Komponenten f1 , . . . , fn meßbar sind. (iii) Die meßbaren Abbildungen X → Rn bilden einen Vektorraum. (iv) Ist f : X → Rn meßbar, so auch |f | : X → R . Sind f, g : X → C meßbar, so auch f · g . Statt {x | f (x) > a} schreiben wir wie u ¨blich kurz {f > a}. ¯ das Erzeugendensystem (1.2) hat, und (ii) Beweis: (i) folgt, weil R ergibt sich analog mit (1.1). Das u ¨brige folgt, weil die Abbildungen Rn × Rn → Rn , (x, y) 7→ λx + µy , ebenso wie Rn → R, x 7→ |x|, ... stetig sind. Bemerkenswert ist, daß Meßbarkeit sich auf Grenzwerte u ¨bertr¨agt. (1.4) Satz. ¯ , so (i) Ist (fj | j ∈ N ) eine Folge meßbarer Funktionen X → R sind auch die punktweise gebildeten Funktionen sup(fj | j ∈ N ),
inf(fj | j ∈ N ),
lim (fj ),
j→∞
lim (fj )
j→∞
meßbar. Konvergiert (fj ) punktweise gegen f , so ist auch f meßbar. (ii) Konvergiert eine Folge meßbarer Funktionen fj : X → Rn punktweise gegen die Funktion f , so ist f meßbar. (iii) Ist f : X → [0, ∞] meßbar, so gibt es eine aufsteigende Folge ϕ1 ≤ ϕ2 ≤ · · · von Stufenfunktionen ϕj , die punktweise gegen f konvergiert, also f = sup(ϕj | j ∈ N ) und insbesondere |ϕj | ≤ |f |. S∞ Beweis: (i) Die Menge {supj fj > a} = j=1 {fj > a} ist meßbar, und f¨ ur inf j fj analog. Daraus folgt dann, daß auch limj→∞ (fj ) =
78
III. Maß und Integral
inf j supk≥j (fk ) meßbar ist. Konvergiert (fj ) punktweise, so ist demnach auch lim(fj ) = lim(fj ) meßbar. Das zeigt (i), und (ii) folgt nach (1.3, ii). F¨ ur (iii) setze ϕj (x) = (k − 1) · 2−j f¨ ur (k − 1) · 2−j ≤ f (x) < k · 2−j , k ∈ N , k < j2j , ϕj (x) = j
f¨ ur f (x) ≥ j.
Beachte u ¨brigens, daß die Folge (ϕj ) auf jeder Menge {f < a} gleichm¨aßig gegen f konvergiert, denn schließlich ist j > a , und dann f − ϕj ≤ 2−j . (1.5) Folgerung. Genau dann ist f : X → Rn meßbar, wenn f punktweiser Limes einer Folge von Stufenfunktionen ist. Beweis: Der Limes von Stufenfunktionen ist meßbar nach (1.4, ii). F¨ ur die Umkehrung darf man nach (1.3, ii) eine meßbare Funktion f : X → R betrachten. Sie zerlegt man: f = f+ − f− ,
f+ = max(f, 0).
Die Summanden sind meßbar nach (1.3, iv). Auf sie wendet man (1.4, iii) an. Der Unterschied zwischen Funktionen mit Werten in R oder in ¯ ¯ ist ja hom¨oomorph zu einem abgeR ist nicht wesentlich, denn R schlossenen Intervall in R .
2. Maße
79
Stufenfunktionen nennt man auch einfach oder elementar. Das Wort “Treppenfunktionen” brauchen wir sp¨ater f¨ ur integrable Stufenfunktionen.
§ 2. Maße Meßbare Mengen wollen wir messen, wir wollen ihnen im Eindimensionalen eine L¨ange, im Zweidimensionalen einen Fl¨acheninhalt, im Dreidimensionalen ein Volumen zuordnen. Definition. Ein Maß auf einem Meßraum (X, M) ist eine Funktion µ : M → [0, ∞] mit den Eigenschaften: (i) µ(∅) = 0 . (ii) Die Funktion µ ist σ-additiv, das heißt: Ist (Mj | j ∈ N ) eine Folge paarweise disjunkter meßbarer Mengen, so ist ∞ ∞ [ X µ Mj = µ(Mj ). j=1
j=1
Ein Maßraum (X, M, µ) ist ein Meßraum mit einem Maß. Dabei rechnen wir mit ∞ nach den Regeln ∞ · 0 = 0 · ∞ = 0, ∞·a=a·∞=∞
f¨ ur 0 < a ≤ ∞,
∞+a=a+∞=∞
f¨ ur 0 ≤ a ≤ ∞.
Die Summe der Reihe in der Definition ist entsprechend in [0, ∞] zu nehmen, wo jede Reihe mit nicht negativen Gliedern konvergiert. Es gibt sehr einfache Beispiele. Ist M = {∅, X} die kleinste σ-Algebra, so kann man µ(X) beliebig festsetzen. F¨ ur die gr¨oßte σ-Algebra, bei der alle Mengen meßbar sind, hat man: (2.1) Das Dirac-Maß δp f¨ ur p ∈ X : Es ist δp (M ) = 1 falls p ∈ M , und δp (M ) = 0 sonst.
80
III. Maß und Integral
(2.2) Das Z¨ ahlmaß ζ : Es ist ζ(M ) die Anzahl der Elemente von M , wenn diese endlich ist, und sonst ζ(M ) = ∞ . Das sind in ihrer Art ganz n¨ utzliche Maße, aber doch nicht das, worauf wir hinauswollen. Vielmehr m¨ochten wir Borelmengen in Rn messen und dabei f¨ ur einen W¨ urfel W ⊂ Rn als µ(W ) das Produkt der Kantenl¨angen erhalten. Gibt es so ein Maß? Das ist nicht selbstverst¨ andlich. In diesem Abschnitt wollen wir eine allgemeine Konstruktion vorf¨ uhren, die insbesondere f¨ ur R dieses Maß liefert. Im n¨achsten Kapitel behandeln wir dann Produkte von Maßr¨aumen, und damit auch Rn . Zun¨achst wollen wir die Axiome f¨ ur Maße etwas n¨aher betrachten. Das Maß µ ist additiv, das heißt, f¨ ur A1 , A2 ∈ M ist µ(A1 ∪ A2 ) = µ(A1 ) + µ(A2 ),
wenn A1 ∩ A2 = ∅.
Das folgt aus (ii), wenn man alle folgenden Aj gleich ∅ w¨ahlt. Man erh¨alt daraus allgemein: µ(A1 ∪ A2 ) + µ(A1 ∩ A2 ) = µ(A1 ) + µ(A2 ), indem man alles in die disjunkten Teile A1 r A2 , A2 r A1 , A1 ∩ A2 zerlegt. Das Maß ist monoton, d. h. f¨ ur A ⊂ B aus M ist µ(A) ≤ µ(B), denn µ(A) + µ(B r A) = µ(B). F¨ ur eine beliebige Folge (An ) in M gilt die Absch¨atzung ∞ ∞ [ X µ An ≤ µ(An ).
(2.3)
n=1
n=1
Setze n¨amlich A0n = An r (A1 ∪ · · · ∪ An−1 ), dann gilt: ∞ ∞ ∞ ∞ [ G X X µ An = µ A0n = µ(A0n ) ≤ µ(An ). n=1
n=1
n=1
n=1
2. Maße
81
Ist (An ) eine aufsteigende Folge in M, also An ⊂ An+1 f¨ ur alle n ∈ N , so ist (2.4)
µ(A) = lim µ(An ) f¨ ur A = n→∞
∞ [
An .
n=1
Setze n¨amlich Bn = An r An−1 , dann ist An = B1 ∪ · · · ∪ Bn eine Pn ur n → ∞ kondisjunkte Zerlegung, und µ(An ) = j=1 µ(Bj ). F¨ S∞ P∞ vergiert letzteres gegen j=1 µ(Bj ) = µ( j=1 Bj ) = µ(A). Ist µ : M → [0, ∞] eine additive Funktion, so ist sie genau dann σ-additiv, wenn sie eine der Eigenschaften (2.3) oder (2.4) hat. Das sieht man leicht, indem man die Argumente zur¨ uckspult. Jetzt wollen wir schauen, was das Riemannintegral auf dem Wege zu einem Maß auf R schon liefert. Sei also X = R und sei A das System aller endlichen Vereinigungen endlicher Intervalle in R . F¨ ur A ∈ A sei Z∞ µ(A) = χA (x) dx, −∞
wobei χA die charakteristische Funktion ist ( χA (x) = 1 f¨ ur x ∈ A und χA (x) = 0 sonst). Diese Funktionen f¨ ur A ∈ A sind ja offenbar Riemann-integrabel. Wir nennen µ auch das Maß auf A , obwohl (X, A, µ) noch kein Maßraum ist, denn A ist keine σ-Algebra. Immerhin erf¨ ullt (X, A, µ) folgende (2.5) Maßregeln. (i) Das System A von Teilmengen von X ist eine Mengenalgebra, d.h. ∅ ∈ A und mit A, B ∈ A sind auch A ∪ B , A ∩ B , A r B in A . (ii) Das Maß µ : A → [0, ∞] ist additiv, d.h. µ(∅) = 0 , und µ(A ∪ B) = µ(A) + µ(B) , falls A ∩ B = ∅. (iii) Das Maß ist σ-additiv, d.h. ist (An ) eine Folge paarweise disS∞ junkter Mengen in A und ist auch A = n=1 An in A , so ist ∞ ∞ [ X µ An = µ(An ). n=1
n=1
82
III. Maß und Integral
(iv) Das Maß ist σ-endlich, d.h. es gibt eine Folge (Sn ) in A mit X =
∞ [
Sn
und µ(Sn ) < ∞.
n=1
Wir werden zeigen, daß sich ein Maß auf einer Mengenalgebra A , das den Maßregeln gen¨ ugt, eindeutig fortsetzen l¨aßt zu einem Maß auf der von A erzeugten σ-Algebra M = M(A). Das liefert in unserem Beispiel dann das Maß auf R mit der Borelalgebra. F¨ ur die Existenz der Fortsetzung braucht man nur die Maßregeln (i) - (iii); man spricht hier auch von einem Pr¨ amaß auf A . Die σ-Endlichkeit wird erst gebraucht, damit die Fortsetzung eindeutig bestimmt ist. Beweis (2.5): Nur (iii) ist nicht trivial. Sei Bn = Ar(A1 ∪· · ·∪An ), dann ist ∞ \ Bn ∈ A, Bn ⊃ Bn+1 , Bn = ∅, n=1
und wir m¨ ussen zeigen: µ(Bn ) → 0. Sei also ε > 0 gegeben. Zu jedem Bn verschafft man sich ein Kompaktum Cn ⊂ Bn in A mit µ(Bn r Cn ) < ε/2n , zum Beispiel als Vereinigung von endlich vielen kompakten Intervallen. F¨ ur Dn = C1 ∩ · · · ∩ Cn ist dann auch Dn ⊂ Bn und Bn r Dn = Sn Sn k=1 (Bn r Ck ) ⊂ k=1 (Bk r Ck ) , also µ(Bn r Dn ) <
n X
ε/2k < ε.
k=1
Nun sind die Mengen Dn alle kompakt, die Folge (Dn ) steigt also Dn ⊃ Dn+1 , und weil Dn ⊂ Bn und der Durchschnitt der leer ist, ist auch der Durchschnitt der Dn leer, also schließlich ist leer, und von dann an ist µ(Bn ) < ε .
ab, Bn Dn
Damit kommen wir zum Hauptergebnis dieses Abschnitts. (2.6) Satz (von Hahn u ¨ber Maßerweiterung). Sei (X, A, µ) eine Mengenalgebra mit einem Maß, und die Maßregeln (2.5) seien erf¨ ullt.
2. Maße
83
Dann l¨aßt sich µ auf genau eine Weise erweitern zu einem Maß auf der von A auf X erzeugten σ-Algebra M = M(A) , und zwar ist ∞ X
µ(M ) = inf
µ(An ),
n=1
wobei das Infimum u ¨ber alle Folgen (An ) in A zu nehmen ist, f¨ ur S∞ die M ⊂ n=1 An . Setzt man nicht voraus, daß das gegebene Pr¨amaß σ-endlich ist, so bildet man hier und im folgenden Lemma (2.7) gelegentlich das Infimum u ¨ber die leere Menge. Das liefert dann immer passend ∞ , wie man im einzelnen u ¨berpr¨ ufen mag, aber wir wollen das nicht immer eigens erw¨ahnen. Der Beweis des Satzes besteht im wesentlichen aus den folgenden beiden Aussagen (2.7), (2.8) u ¨ber ¨außere Maße, die auch f¨ ur sich nicht ohne Interesse sind. Sei N eine σ-Algebra auf X . Ein ¨ außeres Maß auf N ist eine Funktion µ∗ : N → [0, ∞] mit den Eigenschaften: (i) µ∗ (∅) = 0 . (ii) Monotonie: Sind A ⊂ B in N , so ist µ∗ (A) ≤ µ∗ (B) . (iii) Ist (An ) eine Folge in N , so ist µ∗
∞ [
An
∞ X
≤
n=1
µ∗ (An ).
n=1
(2.7) Lemma. Unter den Voraussetzungen des Satzes definiert µ∗ (Y ) := inf
∞ X
µ(An ),
n=1
S∞ wobei das Infimum u ¨ber alle Folgen (An ) in A mit Y ⊂ n=1 An genommen wird, ein ¨außeres Maß auf der σ-Algebra P(X) aller Teilmengen von X , und es ist µ∗ (A) = µ(A)
f¨ ur alle A ∈ A .
84
III. Maß und Integral
Beweis: Aus
Zuerst zeigen wir die letzte Gleichung. Sei also A ∈ A . A ⊂ A ∪ ∅ ∪ ∅ ∪ ···
folgt µ∗ (A) ≤ µ(A). Jetzt w¨ahle zu ε > 0 eine Folge (An ) in A mit S∞ A ⊂ n=1 An und ∞ X
µ(An ) ≤ µ∗ (A) + ε.
n=1
Weil A =
S∞
n=1 (An
∩ A), folgt:
∞ X
µ(A) ≤
µ(An ∩ A) ≤
n=1
∞ X
µ(An ) ≤ µ∗ (A) + ε.
n=1
Weil das f¨ ur alle ε > 0 gilt, folgt µ(A) ≤ µ∗ (A) . Also µ(A) = µ∗ (A) f¨ ur alle A aus A . Die Eigenschaften (i), (ii) eines ¨außeren Maßes sind offenbar. Und (iii) folgt mit dem immer wiederkehrenden ε/2n -Beweis: Sei (Yj ) eine Folge von Teilmengen von X und ε > 0 gegeben. W¨ahle eine Folge S (Ajn | n ∈ N ) in A mit Yj ⊂ n Ajn und ∞ X
µ(Ajn ) ≤ µ∗ (Yj ) + ε/2j .
n=1
Dann ist Y :=
S j
Yj ⊂
S
µ∗ (Y ) ≤
n,j
X n,j
Ajn , und µ(Ajn ) ≤
∞ X
µ∗ (Yj ) + ε.
j=1
Beachte, daß man auch (Ajn | n, j ∈ N ) als Folge abz¨ahlen kann. P∞ Dies zeigt µ∗ (Y ) ≤ j=1 µ∗ (Yj ), und damit die Behauptung. Jetzt sei µ∗ ein ¨außeres Maß auf der Potenzmenge von X . Wir nennen eine Teilmenge A von X dann µ∗ -meßbar, wenn f¨ ur jede Teilmenge Z von X gilt µ∗ (Z) = µ∗ (Z ∩ A) + µ∗ (Z r A).
2. Maße
85
(2.8) Lemma (von Carath´eodory). Sei µ∗ ein ¨außeres Maß auf der Potenzmenge von X . Sei M das System der µ∗ -meßbaren Teilmengen von X . Dann ist M eine σ-Algebra und µ∗ ein Maß auf M . Beweis: Wir zeigen, daß M eine σ-Algebra ist. Offenbar ist ∅ ∈ M, und mit A ist auch X r A in M . Seien nun A, B ∈ M . Wir zeigen A ∩ B ∈ M . Sei also Z ⊂ X eine beliebige Teilmenge. F¨ ur Teilmengen C von X setze C 0 = Z ∩ C . Weil B µ∗ -meßbar ist, haben wir:
µ∗ (A0 ∩ B 0 ) + µ∗ (A0 r B 0 ) = µ∗ (A0 ). Addiere beidseits µ∗ (Z r A0 ), dann steht rechts µ∗ (Z), weil A ∈ M , also µ∗ (A0 ∩ B 0 ) + µ∗ (A0 r B 0 ) + µ∗ (Z r A0 ) = µ∗ (Z), und wir m¨ ussen zeigen: µ∗ (A0 r B 0 ) + µ∗ (Z r A0 ) = µ∗ (Z r (A0 ∩ B 0 )). Das aber gilt, weil A meßbar ist, w¨ahle Z r (A0 ∩ B 0 ) statt Z . Damit wissen wir, daß M eine Mengenalgebra ist.
86
III. Maß und Integral
Seien nun A, B ∈ M disjunkt. Dann folgt f¨ ur jede Teilmenge Z von X µ∗ (Z ∩ (A ∪ B)) = µ∗ (Z ∩ A) + µ∗ (Z ∩ B). W¨ahle n¨amlich Z ∩ (A ∪ B) statt Z in der Definition der µ∗ -Meßbarkeit. Induktiv folgt f¨ ur paarweise disjunkte A1 , . . . , An ∈ M dann: µ∗ (Z ∩ (A1 ∪ · · · ∪ An )) =
n X
µ∗ (Z ∩ Ak ).
k=1
Nun sei (An ) eine Folge paarweise disjunkter Teilmengen in M mit Vereinigung A . Dann gilt f¨ ur jede Teilmenge Z von X : µ∗ (Z) = µ∗ (Z ∩ (A1 ∪ · · · ∪ An )) + µ∗ (Z r (A1 ∪ · · · ∪ An )) n X ≥ µ∗ (Z ∩ Ak ) + µ∗ (Z r A) k=1
f¨ ur alle n ∈ N . Daher, weil µ∗ ein ¨außeres Maß ist, µ∗ (Z) ≥
∞ X
µ∗ (Z ∩ Ak ) + µ∗ (Z r A) ≥ µ∗ (Z ∩ A) + µ∗ (Z r A).
k=1
Die umgekehrte Ungleichung µ∗ (Z) ≤ µ∗ (Z ∩ A) + µ∗ (Z r A) gilt allgemein, weil µ∗ ein ¨außeres Maß ist. Also gilt Gleichheit und A ist meßbar. Damit ist M eine σ-Algebra, und aus n X k=1
µ∗ (Ak ) = µ∗
n [ k=1
∞ ∞ [ X Ak ≤ µ∗ Ak ≤ µ∗ (Ak ) k=1
k=1
¨ folgt durch Ubergang n → ∞ , daß µ∗ auch σ-additiv auf M ist. Beweis (2.6): F¨ ur die Existenzaussage bleibt A ⊂ M zu zeigen. Sei also A ∈ A und Z eine beliebige Teilmenge von X . Die Ungleichung µ∗ (Z) ≤ µ∗ (Z ∩ A) + µ∗ (Z r A)
2. Maße
87
gilt, weil µ∗ ein ¨außeres Maß ist. F¨ ur die Umkehrung sei ε > 0 und S∞ (An ) eine Folge in A mit Z ⊂ n=1 An und ∞ X
µ(An ) ≤ µ∗ (Z) + ε.
n=1
Dann ist Z ∩ A ⊂ Folglich
S∞
n=1 (An
∩ A) und Z r A ⊂
µ∗ (Z ∩ A) + µ∗ (Z r A) ≤ =
∞ X n=1 ∞ X
µ(An ∩ A) +
S∞
∞ X
n=1 (An
r A).
µ(An r A)
n=1
µ(An ) ≤ µ∗ (Z) + ε.
n=1
Das zeigt die Existenz der Erweiterung von µ zu einem Maß auf der von A erzeugten σ-Algebra M . Soweit haben wir noch gar nicht benutzt, daß µ ein σ-endliches Maß auf A ist. Nun zur Eindeutigkeit. Sei µ das eben konstruierte Maß und ν ein anderes, die beide auf A u ¨bereinstimmen. Jetzt sei (Sn ) die Folge S∞ ugt nach (2.4), f¨ ur in A mit X = n=1 Sn und µ(Sn ) < ∞ . Es gen¨ jedes Y ∈ M zu zeigen: ν(Y ∩ Sn ) = µ(Y ∩ Sn ). Also gen¨ ugt zu zeigen: Hat A ∈ A endliches Maß und ist Y ∈ M , Y ⊂ A, so ist ν(Y ) = µ(Y ). Nach Definition ist µ(Y ) = inf
∞ X n=1
µ(An ) = inf
∞ X
ν(An ),
n=1
S∞ wobei das Infimum f¨ ur alle Folgen (An ) in A mit Y ⊂ n=1 An P∞ genommen wird. Weil ν(Y ) ≤ n=1 ν(An ) , folgt ν(Y ) ≤ µ(Y ). Aber auch ν(A r Y ) ≤ µ(A r Y ) . Jedoch µ(A) = ν(A) = ν(A r Y ) + ν(Y ) ≤ µ(A r Y ) + µ(Y ) = µ(A).
88
III. Maß und Integral
Das zeigt, daß u ¨berall Gleichungen stehen, ν(Y ) = µ(Y ). Damit ist (2.6) vollst¨andig bewiesen.
Das Maß, das wir auf R aus (2.5) und (2.6) gewonnen haben, heißt das eindimensionale Lebesguemaß. Man kann ganz analog auf Rn mit dem Elementarvolumen, dem Produkt der Kantenl¨angen f¨ ur achsenparallele Quader also Produkte endlicher Intervalle, beginnen und auf dem Wege u ¨ber (2.5) und (2.6) das n-dimensionale Lebesguemaß definieren. Zu jedem Maß µ auf einem Meßraum (X, M) hat man das ¨ auße∗ re Maß µ von (2.7) f¨ ur beliebige Teilmengen von X . Teilmengen Y ⊂ X mit µ∗ (Y ) = 0 heißen Nullmengen. Sie liegen nach Definition in einer meßbaren Menge Mn mit µ(Mn ) < 1/n , und damit T∞ auch in n=1 Mn , einer meßbaren Menge vom Maß 0. Also die Nullmengen sind genau die Teilmengen einer Menge vom Maß Null. Sie brauchen ansich selbst nicht zu M geh¨oren, aber sie sind µ∗ -meßbar vom Maß Null. Ist n¨amlich Z ⊂ X beliebig und N eine Nullmenge, so ist µ∗ (Z) ≤ µ∗ (Z ∩ N ) + µ∗ (Z r N ) = µ∗ (Z r N ) ≤ µ∗ (Z), also die Ungleichungen sind Gleichungen. Man kann die σ-Algebra M um die Nullmengen erweitern: eine Teilmenge Y von X heißt µ-meßbar, wenn Y Vereinigung einer meßbaren Menge und einer Nullmenge ist. Man pr¨ uft sofort nach, daß die µ-meßbaren Mengen wieder eine σ-Algebra bilden, auf die sich µ offenbar eindeutig fortsetzt. Den so entstehenden Maßraum nennt man auch die Lebesgue-Komplettierung von (X, M, µ). ¨ Der Ubergang zu dieser Komplettierung ist oft bequem und gl¨attet ¨ die Formulierungen in der Integralrechnung. Ubrigens sind die µ∗ meßbaren Mengen genau die im obigen Sinne µ -meßbaren (warum?). Man sagt, eine Eigenschaft von Punkten x ∈ X gilt fast u ¨ berall oder f¨ ur fast jedes x , eigentlich µ-fast u ¨berall, wenn die Ausnahmemenge eine Nullmenge ist.
3. Konstruktion des Integrals
89
Blicken wir noch einmal auf die Konstruktion des Maßes zur¨ uck, so kann man die Idee wie folgt beschreiben: Wir wollen eine Teilmenge Y messen, und wir wollen annehmen, daß Y in einer Menge S liegt, die wir schon messen k¨onnen; etwa in einem großen W¨ urfel im Falle des Lebesguemaßes. Der Ansatz von Riemann und eigentlich schon von Archimedes ist, daß man Y von außen durch Mengen aus A einschließt, die man schon messen kann. Als Infimum der so gewonnenen oberen Absch¨atzungen des Volumens erh¨alt man µ∗ (Y ). Ebenso kann man Y von innen durch abz¨ahlbare disjunkte Vereinigungen von Mengen aus A aussch¨opfen und gewinnt als Supremum der so gewonnenen unteren Absch¨atzungen des Volumens µ∗ (Y ). Ist nun µ∗ (Y ) = µ∗ (Y ), so h¨atte man das Maß µ(Y ). Jedoch f¨ uhrt dieser Ansatz nicht zu einem Maß auf einer σ-Algebra. Ist etwa Q die Menge der rationalen Punkte des Einheitsintervalls, so ist Q abz¨ahlbar, also µ(Q) = 0 , wenn ein Punkt das Maß 0 hat. Folglich sollte die Menge Y der irrationalen Punkte im Einheitsinvervall das Maß 1 haben, aber diese Menge enth¨alt nur punktf¨ormige Intervalle, man kann sie nicht passend durch Intervalle aussch¨opfen. Der Ansatz von Lebesgue ist nun, daß man zwar die obere Absch¨atzung µ∗ (Y ) wie zuvor gewinnt, jedoch f¨ ur die untere Absch¨atzung bildet man das ¨außere Maß des Komplements µ∗ (S r Y ), also man setzt µ∗ (Y ) := µ(S) − µ∗ (S r Y ). Der Erfolg rechtfertigt die Mittel.
§ 3. Konstruktion des Integrals In diesem Abschnitt sei (X, M, µ) ein Maßraum, auf den sich dann alle Aussagen u ¨ber meßbare Mengen und Maße beziehen. Eine Funktion ϕ : X → R heißt eine Treppenfunktion, wenn ϕ nur endlich viele Werte annimmt, und f¨ ur jedes c ∈ R r {0} die Stufe
90
III. Maß und Integral
ϕ−1 {c} meßbar mit endlichem Maß ist. Die gewohnten Treppenfunktionen ϕ : R → R sind Beispiele, aber auch die charakteristische Funktion von Q. Die s¨amtlichen Treppenfunktionen auf X bilden einen reellen Vektorraum T (µ) , sogar eine Algebra mit der gew¨ohnlichen Multiplikation von Funktionen. Ist n¨amlich ϕ auf den meßbaren Teilmengen Mi und ψ auf den Nj konstant, so sind ϕ+ψ und ϕ·ψ auf den Teilmengen Mi ∩ Nj konstant. Das gegebene Maß liefert sofort ein wohlbestimmtes Integral f¨ ur Treppenfunktionen. Ist n¨amlich ϕ|Mi = ci , i = 1, . . . , k , konstant und Mi ∩ Mj = ∅ f¨ ur i 6= j , so setzen wir Z (3.1)
ϕ dµ := X
k X
ci µ(Mi ).
i=1
F¨ ur ci = 0 ist hier nach unserer Konvention ci · µ(Mi ) = 0, auch f¨ ur µ(Mi ) = ∞. Dies ist unabh¨angig von der Zerlegung (Mi | i = 1, . . . , k) von X, denn hat man eine andere Zerlegung (Nj | j = 1, . . . , `), so gehe man zur gemeinsamen Verfeinerung (Mi ∩ Nj ) u ¨ber. So haben wir das Integral als lineares Funktional, d.h. als lineare Abbildung Z Z : T (µ) → R, ϕ 7→ ϕ dµ. X
Zur Ausdehnung auf eine gr¨oßere Funktionenklasse haben wir fr¨ uher die Monotonie des Integrals gefordert und benutzt. Auch das hier betrachtete Integral ist monoton, aber wir haben auch gelernt, daß ein anderer Gesichtspunkt sehr wesentlich ist: Ein Integral liefert verschiedene Halbnormen (Seminormen) auf dem Raum der integrablen Funktionen, und es w¨are erw¨ unscht, auf diese Weise vollst¨andige Vektorr¨aume zu erhalten. Diesen Gedanken verfolgen wir jetzt. Das Integral (3.1) liefert uns auf dem reellen Vektorraum T (µ) die L1 -Norm Z (3.2) kϕk1 := |ϕ| dµ. X
3. Konstruktion des Integrals
91
Dies ist (nur) eine Seminorm auf T (µ) , wir haben die (3.3) Eigenschaften einer Seminorm. (i) kϕk1 ≥ 0. (ii) Positive Homogenit¨at: F¨ ur λ ∈ R ist kλϕk1 = |λ| · kϕk1 . (iii) Dreiecksungleichung: kϕ + ψk1 ≤ kϕk1 + kψk1 . Zur Norm fehlt die Eigenschaft kϕk1 = 0 =⇒ ϕ = 0, aber wir wissen schon, daß das nicht so schlimm ist, denn die Dreiecksungleichung und positive Homogenit¨at liefern, daß die ϕ mit kϕk1 = 0 einen Unterraum von T (µ) bilden, den Unterraum N (µ) der Nullfunktionen. Auf dem Quotienten T (µ)/N (µ) hat man dann eine genuine L1 -Norm. Jedenfalls wissen wir, was eine L1 -Cauchyfolge in T (µ) ist, n¨amlich eine Folge (ϕn | n ∈ N ) mit der Eigenschaft: Zu jedem ε > 0 existiert ein n ∈ N , sodaß kϕn+k − ϕn k1 < ε f¨ ur alle k ≥ 0 . Grundlegend f¨ ur die Konstruktion des Integrals ist das folgende (3.4) Konstruktionslemma. Eine L1 -Cauchyfolge (ϕn ) von Treppenfunktionen hat stets eine Teilfolge, die fast u ¨berall punktweise gegen eine Funktion f : X → R konvergiert, und zwar so, daß zu jedem ε > 0 eine Menge Z vom Maß kleiner ε existiert, außerhalb von der die Teilfolge gleichm¨aßig konvergiert. Beweis: Bestimme rekursiv eine Teilfolge, die wir der Einfachheit halber auch mit (ϕn ) bezeichnen, so daß kϕn − ϕk k1 ≤ 2−2k
f¨ ur alle k und n ≥ k .
Die Mengen Yk = {|ϕk+1 − ϕk | ≥ 2−k } sind meßbar, und es gilt Z 2−k µ(Yk ) ≤ |ϕk+1 − ϕk | dµ ≤ 2−2k , also µ(Yk ) ≤ 2−k . Setzen wir daher Zk =
∞ [ n=k
Yn ,
so ist µ(Zk ) ≤ 2 · 2−k .
92
III. Maß und Integral
F¨ ur x 6∈ Zk gilt dann |ϕn+1 (x) − ϕn (x)| ≤ 2−n
f¨ ur alle n ≥ k .
P Das zeigt, daß die zur Folge (ϕn ) assoziierte Reihe n (ϕn+1 − ϕn ) auf X r Zk gleichm¨aßig konvergiert, und µ(Zk ) ≤ 2 · 2−k wird f¨ ur große k beliebig klein. Insbesondere konvergiert die Reihe in jedem T∞ T∞ x 6∈ k=1 Zk , und µ( k=1 Zk ) = 0 . Ist (ϕn ) eine L1 -Cauchyfolge von Treppenfunktionen, so liefert R ( ϕn dµ) eine Cauchyfolge also konvergente Folge reeller Zahlen, denn Z Z Z Z |ϕj − ϕ` | dµ. ϕj dµ − ϕ` dµ = (ϕj − ϕ` ) dµ ≤ Das Lemma ermutigt daher zu folgender Definition. Eine Funktion f : X → R heißt integrabel (genauer: Lebesgue-integrabel), wenn es eine L1 -Cauchyfolge (ϕn | n ∈ N ) von Treppenfunktionen gibt, die fast u ¨berall punktweise gegen f konvergiert. Die Zahl Z Z f dµ := lim ϕn dµ n→∞
X
X
heißt das Integral von f u ¨ber X . Ist Y in X meßbar, so ist Z Z f dµ := (χY · f ) dµ. Y
X
Daß das so erkl¨arte Integral wohldefiniert ist, folgt aus (3.5) Lemma. Es seien (ϕn ) und (ψn ) zwei L1 -Cauchyfolgen von Treppenfunktionen, die beide fast u ¨berall punktweise gegen dieselbe Funktion f : X → R konvergieren. Dann gilt: Z Z lim kϕn − ψn k1 = 0, also lim ϕn dµ = lim ψn dµ. n→∞
n→∞
n→∞
3. Konstruktion des Integrals
93
Beweis: Die L1 -Cauchyfolge τn = ϕn − ψn von Treppenfunktionen konvergiert fast u ¨berall punktweise gegen 0 und wir m¨ ussen limn→∞ kτn k1 = 0 zeigen. Weil (τn ) ja eine L1 -Cauchyfolge ist, gen¨ ugt es, dies f¨ ur eine Teilfolge zu zeigen, und wir gehen zu einer Teilfolge wie in (3.4) u ¨ber, die wir wieder mit (τn ) bezeichnen. Sei nun ε > 0 und k so groß gew¨ahlt, daß kτn − τk k1 < ε
f¨ ur alle
n ≥ k,
und es sei eine meßbare Menge Z in X so gew¨ahlt, daß (τn ) auf X r Z gleichm¨aßig konvergiert und µ(Z) < kτk k−1 · ε
(Supremumsnorm).
Beachte, daß τk nur endlich viele Werte annimmt. Sei M ⊂ X die Menge, wo τk nicht verschwindet, dann ist µ(M ) < ∞ , und wir haben die Absch¨atzung: Z Z Z Z |τn | dµ + |τn | dµ. kτn k1 = |τn | dµ ≤ |τn | dµ + X
Z |τn | dµ ≤ Z
Z
Z |τn −τk | dµ + Z
Z
M rZ
|τk | dµ ≤ kτn −τk k1 +µ(Z)·kτk k < 2ε. Z
|τn | dµ ≤ kτn kXrZ · µ(M ) < ε M rZ
Z
|τn | dµ ≤ XrM
XrM
Z
Z
f¨ ur gen¨ ugend große n .
Z |τn − τk | dµ +
XrM
|τk | dµ ≤ kτn − τk k1 < ε
XrM
f¨ ur n ≥ k , der zweite Summand verschwindet. Zusammen: kτn k1 < 4ε
f¨ ur gen¨ ugend große n .
(3.6) Regeln f¨ ur das Integral. (i) Die integrablen Funktionen f : X → R bilden einen reellen Vektorraum L1 (µ) und das Integral ist eine lineare Abbildung Z : L1 (µ) → R.
94
III. Maß und Integral
(ii) Monotonie: Sind f, g integrabel und f ≥ g fast u ¨berall, so ist Z Z f dµ ≥ g dµ. X
X
(iii) Ist Y meßbar von endlichem Maß, so ist χY integrabel und Z Z χY dµ = dµ = µ(Y ). X
Y
(iv) Zerlegungseigenschaft: Sind Y, Z disjunkt und meßbar, und ist f : Y ∪ Z → R integrabel (d.h. χY ∪Z · f integrabel auf X ), so sind f |Y und f |Z integrabel und Z Z Z f dµ = f dµ + f dµ. Y ∪Z
Y
Z
(v) Ist f integrabel, so auch |f |, und Z Z |f | dµ =: kf k1 f dµ ≤ X
X
1
(vi) Die L -Norm Z L1 (µ) → [0, ∞),
f 7→ kf k1 :=
|f | dµ X
ist eine Seminorm auf L1 (µ) und das Integral ist stetig f¨ ur diese Seminorm auf L1 (µ) . (vii) Ab¨anderung einer Funktion auf einer Nullmenge ¨andert weder die Integrierbarkeit noch gegebenenfalls das Integral. Beweis: Dies geht ganz von selbst; zum Beispiel f¨ ur (i) seien f, g integrabel und (ϕn ), (γn ) seien L1 -Cauchyfolgen von Treppenfunktionen, die fast u ¨berall gegen f beziehungsweise g punktweise konvergieren. Dann geht die L1 -Cauchyfolge (ϕn + γn ) fast u ¨berall punktweise gegen f + g , und Z Z Z Z Z Z (f + g) := lim (ϕn + γn ) = lim ϕn + lim γn =: f + g. n
n
n
3. Konstruktion des Integrals
95
F¨ ur (v) sei (ϕn ) eine L1 -Cauchyfolge, die fast u ¨berall punktweise gegen f geht. Dann geht (|ϕn |) eben da gegen |f | , und wegen
|ϕn | − |ϕm | ≤ |ϕn − ϕm |, also |ϕn | − |ϕm | ≤ kϕn − ϕm k1 , 1 ist auch (|ϕn |) eine L1 -Cauchyfolge. Das weitere u ¨bertr¨agt sich von den Treppenfunktionen. (ii) und (vi) folgen aus (v) und der Rest ist leicht anzuf¨ ugen. Aus (v) hat man, daß auch (3.7)
f+ :=
1 2 (|f |
+ f ),
f− := f+ − f,
und max(f, g) = 12 (f + g) + 12 |f − g| mit f und g integrabel sind. (3.8) Satz. Integrable Funktionen sind µ-meßbar, also meßbar nach ¨ Anderung auf einer Nullmenge. Ist f integrabel, so ist genau dann kf k1 = 0, wenn f fast u ¨berall verschwindet. Beweis: Die erste Behauptung folgt nach (1.4), weil f fast u ¨berall punktweiser Limes von Treppenfunktionen ist. Auch |f | ist integrabel, und wir d¨ urfen nach (1.4) annehmen, daß |f | Limes einer aufsteigenden Folge (ϕn ) von nirgends negativen Stufenfunktionen ist. Dies sind Treppenfunktionen. Es ist ja |f | außerhalb einer Menge Z vom Maß µ(Z) < 1 gleichm¨aßiger Limes von Treppenfunktionen, und w¨are ϕn = c > 0 auf einer Menge M vom Maß µ(M ) = ∞, so w¨are schließlich eine Treppenfunktion auf M r Z gr¨oßer als c/2, was wegen µ(M r Z) = ∞ nicht sein kann. Ist R R nun kf k1 = 0 , so ϕn dµ ≤ |f | = 0 , also µ{ϕn > 0} = 0 , also S∞ µ{f > 0} = µ n=1 {ϕn > 0} = 0 . Die Umkehrung ist trivial. Wir entnehmen dem Beweis die (3.9) Bemerkung. Ist f integrabel, ϕ eine Stufenfunktion und 0 ≤ ϕ ≤ f , so ist ϕ eine Treppenfunktion. Insbesondere ist f fast u ¨berall der punktweise Limes einer aufsteigenden Folge von Treppenfunktionen.
96
III. Maß und Integral
Und nun schließen wir den Weg zur Konstruktion des Integrals, indem wir auf den Anfang zur¨ uckkommen. (3.10) Normkonvergenzsatz. Sei (fn ) eine L1 -Cauchyfolge integrabler Funktionen, dann gilt: (i) Es gibt eine fast u ¨berall punktweise konvergente Teilfolge, die außerhalb einer Teilmenge von beliebig kleinem Maß gleichm¨aßig konvergiert. (ii) Je zwei solche Grenzfunktionen stimmen fast u ¨berall u ¨berein und sind integrabel. (iii) Ist f eine solche Grenzfunktion, so folgt kfn − f k1 → 0 , also (fn ) → f f¨ ur die L1 -Norm, und insbesondere Z Z lim fn dµ = f dµ. n→∞
X
X
Beweis (i): W¨ortlich derselbe wie f¨ ur das Konstruktionslemma (3.4), bis auf die Feststellung, daß Yk = {|fk+1 − fk | ≥ 2−k } meßbar ist nach (3.8). F¨ ur (ii), (iii) beginnen wir mit der Vorbemerkung. Ist die integrable Funktion g fast u ¨berall Limes 1 einer L -Cauchyfolge (ϕn ) von Treppenfunktionen, so folgt: lim kϕn − gk1 = 0,
n→∞
denn nach Definition ist kϕn − gk1 = limk→∞ kϕn − ϕk k1 , und limn→∞ limk→∞ kϕn − ϕk k1 = 0 nach der Cauchybedingung. Nun zum Beweis, daß eine Grenzfunktion f integrabel ist, d¨ urfen wir annehmen: f (x) = limn→∞ fn (x) punktweise, und gleichm¨aßig außerhalb einer Menge vom Maß < ε . Zu jedem n w¨ahle eine Treppenfunktion τn mit |fn − τn | < 1/n außerhalb einer Menge Zn vom Maß µ(Zn ) < 2−n , und kfn − τn k1 < 1/n . Das geht nach der Vorbemerkung mit fn = g . Dann ist auch (τn ) eine L1 -Cauchyfolge, denn kτ` − τn k1 ≤ kτ` − f` k1 + kf` − fn k1 + kfn − τn k1 .
3. Konstruktion des Integrals
97
Auch konvergiert τn fast u ¨berall gegen f , n¨amlich u ¨berall außerhalb T∞ S∞ von k=1 n=k Zn =: Z , und ∞ ∞ ∞ [ X X 2−n = 2 · 2−k , µ(Zn ) ≤ µ Zn ≤ n=k
n=k
n=k
also µ(Z) = 0 , weil µ(Z) ≤ 2−k f¨ ur alle k . Damit ist f = lim(τn ) integrabel. Nach der Vor¨ uberlegung mit g = f folgt dann kτn −f k1 → 0, und daher f¨ ur die entsprechende Teilfolge (fn ) nach der Dreiecksungleichung auch kfn −f k1 → 0 . Aber (fn ) ist eine L1 -Cauchyfolge, daher kfn − f k1 → 0 allgemein. Ist nun auch g fast u ¨berall Grenzfunktion einer weiteren Teilfolge von (fn ) nach (i), so folgt kfn − f k1 → 0 und kfn − gk1 → 0, also kf − gk1 = 0 , also f = g fast u ¨berall nach (3.8). Jetzt haben wir den reellen Vektorraum L(µ) der integrablen Funktionen mit der L1 -Norm. Darin liegt der Unterraum N (µ) der Nullfunktionen, d.h. der Funktionen der L1 -Norm 0. Dies sind die Funktionen, die fast u ¨berall verschwinden. Nach (3.10, iii) ist der Raum L(µ) vollst¨andig f¨ ur die L1 -Norm, Cauchyfolgen konvergieren. Wir bilden den Quotienten L1 (µ) = L1 (µ)/N (µ) und erhalten so einen vollst¨andigen normierten Raum mit der induzierten L1 -Norm kf k1 f¨ ur Funktionenklassen f ∈ L1 (µ), die wir aber ebenso bezeichnen, wie ihre Repr¨asentanten in L1 (µ). Also L1 (µ) ist ein Banachraum, und die Elemente haben wir (bis auf Vieldeutigkeit auf einer Nullmenge) wieder als Funktionen beschrieben. Eine Warnung jedoch: F¨ ur f ∈ L1 (µ) hat f (p) im allgemeinen keinen Sinn, wenn n¨amlich µ{p} = 0 . Die L1 -Konvergenz bezeichnen wir durch L1 - lim (fn ) = f ⇐⇒ lim kfn − f k1 = 0. n→∞
n→∞
98
III. Maß und Integral
§ 4. Konvergenzs¨ atze Das Lebesgueintegral ist unter ziemlich schwachen Voraussetzungen mit Grenzwertbildung vertauschbar. Das ist ein großer Vorzug dieses Integrals. (4.1) Satz u ¨ ber monotone Konvergenz (Beppo Levi). Sei (fn ) eine fast u ¨berall monoton steigende Folge integrabler Funktionen, und R die Folge der Integrale ( X fn dµ) sei beschr¨ankt. Dann konvergiert (fn ) fast u ¨berall gegen eine integrable Funktion f = L1 - lim(fn ) , und insbesondere Z Z f dµ = lim fn dµ. n→∞
X
X
Beweis: Nach dem Normkonvergenzsatz gen¨ ugt zu zeigen, daß (fn ) 1 eine L -Cauchyfolge ist. Nun, f¨ ur ε > 0 und k ≥ n ist Z kfk − fn k1 =
Z (fk − fn ) dµ =
Z fk dµ −
fn dµ < ε
R f¨ ur gen¨ ugend große n , weil die Folge ( fn dµ) monoton und beschr¨ankt, also eine Cauchyfolge ist. Man sagt, eine Funktion g : X → R dominiert eine Folge von Funktionen (fn | n ∈ N ), wenn |fn (x)| ≤ g(x) f¨ ur alle n und fast alle x ∈ X gilt. (4.2) Satz u ¨ ber dominierte Konvergenz (Lebesgue). Die Folge (fn ) integrabler Funktionen sei von der integrablen Funktion g dominiert, und (fn ) konvergiere fast u ¨berall gegen f . Dann ist f integrabel und L1 - lim(fn ) = f . Insbesondere Z lim
Z fn dµ =
n→∞ X
f dµ. X
Beweis: Nach dem Normkonvergenzsatz gen¨ ugt zu zeigen, daß (fn ) eine L1 -Cauchyfolge ist. Wir d¨ urfen annehmen, daß (fn ) u ¨berall
4. Konvergenzstze
99
punktweise gegen f konvergiert und |fn | ≤ g u ¨berall gilt. F¨ ur k ≥ 1 bilde die Hilfsfunktion hk (x) = sup{|fn (x) − fm (x)| | n, m ≥ k} ≤ 2g(x). Behauptung. Die Funktionen hk sind integrabel. In der Tat, sei n, m ≥ k ; jede Funktion |fn − fm | ist integrabel, also auch max{|fn − fm | | n, m ≤ `} = v` , und weil die Folge (v` ) monoton steigt und von 2g dominiert ist, ist auch ihr Supremum integrabel nach dem Satz u ¨ber monotone Konvergenz. Das zeigt die Behauptung. Nun bildet (hk ) eine monoton fallende Folge integrabler Funktionen, und sie konvergiert punktweise gegen Null. Wieder nach dem Satz u ¨ber monotone Konvergenz ist Z lim hk dµ = 0. k→∞
Ist also ε > 0 und k gen¨ ugend groß, so ist Z Z kfn − fk k1 = |fn − fk | dµ ≤ hk dµ < ε.
Durch die Konvergenzs¨atze gewinnen wir nun eine etwas bessere Vorstellung u ¨ber die Gesamtheit der integrablen Funktionen. Wir beginnen mit einem Grundvorrat von Funktionen, von denen wir wissen, daß sie integrabel sind. Auf dem Rn sind das die stetigen Funktionen, die außerhalb eines Kompaktums verschwinden, und nat¨ urlich Treppenfunktionen. Von diesen ausgehend gewinnt man weitere als Grenzfunktionen nach den Konvergenzs¨atzen. ¨ Uber das Riemannintegral im H¨oherdimensionalen haben wir nie genauer geredet. Es ginge ¨ahnlich wie im Eindimensionalen. (4.3) Bemerkung. Riemann-integrable Funktionen sind Lebesgueintegrabel, und beide Integrale sind in diesem Fall gleich. Beweis: Das Lebesgueintegral erf¨ ullt die Integralaxiome (Bd. 1, III, § 1). Man muß also nur zeigen, daß Riemann-integrable Funktionen
100
III. Maß und Integral
u ¨berhaupt Lebesgue-integrabel sind. Ist f Riemann-integrabel, so hat man eine aufsteigende Folge (ϕn ) und eine absteigende Folge (ψn ) von Treppenfunktionen, mit ϕn ≤ f ≤ ψn , und (kψn − ϕn k1 ) → 0. Punktweise konvergiert (ϕn ) → ϕ und (ψn ) → ψ , und nach dem Satz u ¨ber monotone Konvergenz sind ϕ und ψ integrabel. Dann ist ϕ ≤ f ≤ ψ und kψ − ϕk1 = 0 , also fast u ¨berall ϕ = f = ψ, und f ist integrabel. Das Lebesgueintegral existiert f¨ ur viel mehr Funktionen, als das Riemannintegral. Zum Beispiel die charakteristische Funktion von Q ∩ [0, 1] hat das Lebesgueintegral 0 und kein Riemannintegral. Das ist noch nicht sehr bemerkenswert, weil dies nur eine Nullfunktion ist; nach denen will man ja sowieso faktorisieren. Ein besseres Beispiel erh¨alt man wie folgt: Sei Q = Q ∩ (0, 1) = {qn | n ∈ N } und sei Un ein offenes Intervall in (0, 1) um qn der L¨ange h¨ochstens ε/2n mit ε < 1. Dann haben wir Q ⊂ U :=
∞ [
Un ⊂ (0, 1),
µ(U ) ≤ ε.
n=1
Sei f die charakteristische Funktion von U . Dann ist f punktweise und f¨ ur die L1 -Norm der Limes der monotonen Folge (fn ) der Riemann-integrablen charakteristischen Funktionen von U1 ∪· · ·∪Un , aber f kann auch nach Ab¨anderung um eine Nullfunktion nicht Riemann-integrabel werden. Die Menge U ist ja offen und dicht und bleibt dicht, wenn man eine Nullmenge herausnimmt, denn da darf man kein Intervall ganz herausnehmen. Also auch nach Ab¨anderung von f um eine Nullfunktion bleibt das Riemann-Oberintegral stets mindestens 1, w¨ahrend doch das Lebesgueintegral h¨ochstens ε ist. (4.4) Aussch¨ opfungssatz. Sei (Mn ) eine aufsteigende Folge meßS∞ barer Mengen, und auf M = n=1 Mn sei eine Funktion f : M → R gegeben. Dann ist f genau dann u ¨ber M integrabel, wenn f u ¨ber
4. Konvergenzstze
101
R jedem Mn integrabel ist und die Folge ( Mn |f | dµ) konvergiert. Ist das der Fall, so ist Z Z f dµ = lim f dµ. n→∞ Mn
M
Beweis: Ist f u ¨ber M integrabel, so auch f und |f | u ¨ber jedem R Mn , und alle Integrale sind durch M |f | dµ beschr¨ankt, also konR vergiert ( Mn |f | dµ ). Nun zur interessanten Umkehrung: Die Folgen (χMn · f ) und (χMn · |f |) konvergieren punktweise gegen χM · f bzw. R χM · |f | . Wenn nun die Folge der Integrale ( Mn |f | dµ) beschr¨ankt bleibt, ist nach dem Satz u ¨ber monotone Konvergenz χM · |f | integrabel und nach dem Satz u ¨ber dominierte Konvergenz auch χM · f , und die Integralformel gilt. (4.5) Beispiel. Ist f : (a, b) → R integrabel auf jedem kompakten Teilintervall (z.B. stetig), so ist f genau dann Lebesgue-integrabel, Rb wenn das uneigentliche Integral a |f (x)| dx konvergiert. Zum Beweis sch¨opfe man (a, b) durch die Mj = [a + 1/j, b − 1/j] aus. Das uneigentliche Integral ist hier wie f¨ ur das Riemannintegral definiert. Hat man ein Integral f¨ ur Funktionen f : X → R , so kann man damit das Integral f¨ ur Abbildungen f = (f1 , . . . , fn ) : X → Rn einfach komponentenweise erkl¨aren: Z Z Z (4.6) f dµ := f1 dµ, . . . , fn dµ ∈ Rn . X
X
X
Dies ist mit linearen Abbildungen A : Rn → Rm ,
y 7→ Ay,
(Ay)i =
X j
aij yj ,
102
III. Maß und Integral
vertr¨aglich, also
Z A
Z f dµ =
X
Af dµ, X
denn das Integral ist linear; es steht ja da: Z Z X X aij fj dµ = aij fj dµ. j
X
X
j
Daher ist mit (4.6) das Integral auch wohldefiniert f¨ ur Abbildungen f : X → V in einen endlichdimensionalen Vektorraum V . Man f¨ uhrt Basen ein, das Ergebnis ist davon unabh¨angig. Das hilft zum Beispiel f¨ ur V = C . Tats¨achlich sind aber die zentralen Beweise bisher so gefaßt, daß V auch ein Banachraum sein darf, oder noch Allgemeineres — aber wir wollens nicht u ¨bertreiben. Der Satz u ¨ber monotone Konvergenz setzt nat¨ urlich die Anordnung in R voraus; er ist nur f¨ ur Funktionen mit Werten in R sinnvoll. Konvergens¨atze sind Stetigkeitss¨atze, sie f¨ uhren zu Aussagen u ¨ber Parameterabh¨angigkeit von Integralen, die wesentlich st¨arker sind, als unsere fr¨ uheren vorl¨aufigen Feststellungen. (4.7) Satz (¨ uber Parameterabh¨angigkeit von Integralen). Sei X ein Maßraum und p ein Punkt in einer offenen Menge U in Rn . Es sei eine Funktion f :X ×U → R gegeben, und f¨ ur jedes u ∈ U sei die Funktion fu : X → R,
x 7→ f (x, u)
integrabel. Das Integral definiert die Funktion Z Z g : U → R, u 7→ fu dµ =: f (x, u) dx. X
X
(i) Angenommen alle Funktionen u 7→ f (x, u) , x ∈ X , sind stetig bei p , und es existiert eine integrable Funktion h : X → R mit |f (x, u)| ≤ h(x) f¨ ur alle
(x, u) ∈ X × U.
5. Das Integral nichtnegativer Funktionen
103
Dann ist g stetig bei p . (ii) Angenommen alle Funktionen u 7→ f (x, u) , x ∈ X haben stetige partielle Ableitungen Dj f (x, u) nach der j-ten Koordinate in Rn und es existiert eine integrable Funktion h : X → R mit |Dj f (x, u)| ≤ h(x) f¨ ur alle (x, u) ∈ X × U. Dann existiert Dj g , ist stetig, und Z Dj g(p) = Dj f (x, p) dx. X
Beweis: (i) folgt unmittelbar aus dem Satz u ¨ber dominierte Konvergenz, weil in U Stetigkeit dasselbe wie Folgenstetigkeit ist. (ii) folgt mit dem Mittelwertsatz: Z g(p + tej ) − g(p) = Dj f (x, p + ϑtej ) dx. t X R Die rechte Seite konvergiert f¨ ur t → 0 nach (i) gegen X Dj f (x, p) dx. So lang der Satz ist, er ist in dieser Form in vielen typischen F¨allen der Analysis noch gar nicht anwendbar. Man verlangt ja in (i), daß f¨ ur jede Folge (un ) → p in U die Folge der Funktionen f (x, un ) auf X punktweise gegen f (x, p) konvergiert. Es gen¨ ugt, daß das fast u ¨berall gilt, außerhalb einer von der Folge abh¨angenden Nullmenge in X . Wir wollen nicht versuchen, allen Eventualit¨aten in einem noch l¨angeren Satz zu gen¨ ugen, es kommt nur darauf an zu verstehen, was die Konvergenzs¨atze leisten.
§ 5. Das Integral nichtnegativer Funktionen In diesem Abschnitt betrachten wir einen Maßraum (X, M, µ), und alle betrachteten Funktionen sind meßbare Funktionen f : X → [0, ∞].
104
III. Maß und Integral
Diesen Funktionen kann man stets sinnvoll ein Integral Z f dµ ∈ [0, ∞] zuordnen. Es geht nur darum, in angemessener Weise mit dem Wert ∞ umzugehen. Ist zun¨achst ϕ : X → [0, ∞] eine Stufenfunktion, so setzen wir Z X ϕ dµ = c · µ{ϕ = c}, c∈ R
X
wie es naheliegt; dies ist eine endliche Summe. F¨ ur beliebige meßbare Funktionen f : X → [0, ∞] ist dann Z nZ o (5.1) f dµ := sup ϕ dµ 0 ≤ ϕ ≤ f ∈ [0, ∞], X
X
wobei das Supremum u ¨ber alle Stufenfunktionen unter f gebildet wird. Diese Erkl¨arung erlaubt ganz allgemein, Maße durch Integrale zu erkl¨aren: Z µ(M ) = χM dµ, X
und darin liegt ihr Nutzen. Die Regeln (3.6), soweit sinnvoll, lassen sich u ¨bertragen. Man kann in (5.1) eine Folge (ϕn ) von Stufenfunktionen w¨ahlen, soda 0 ≤ ϕn ≤ f und Z Z lim ϕn dµ = f dµ, n→∞
und zwar eine aufsteigende Folge, ϕn ≤ ϕn+1 , ersetze nur ϕn durch max{ϕ1 , . . . , ϕn } . Auch kann man die Folge (ϕn ) so w¨ahlen, daß sie punktweise gegen f konvergiert: W¨ahle nach (III, 1.4) eine aufsteigende Folge (ψn ) von Stufenfunktionen, die punktweise gegen f konvergiert, und ersetze ϕn durch max{ϕn , ψn } . (5.2) Bemerkung. Das Integral (5.1) ist genau dann endlich, wenn f fast u ¨berall endlich und nach § 3 dort integrabel ist, und in diesem Fall stimmen beide Integrale u ¨berein.
5. Das Integral nichtnegativer Funktionen
105
Beweis: Ist f nach § 3 integrabel, so sind die Stufenfunktionen ϕn der eben beschriebenen Folge alle Treppenfunktionen, und nach dem R R Satz u ¨ber monotone Konvergenz gilt ϕn dµ → f dµ ∈ R , also gilt die Behauptung. Ist umgekehrt das Integral (5.1) endlich, so ist insbesondere f fast u ¨berall endlich, und wir d¨ urfen annehmen, u ¨berall. Dann sind wieder alle ϕn Treppenfunktionen, und die Behauptung folgt nach dem Satz u ¨ber monotone Konvergenz. Der Satz u ¨ber monotone Konvergenz u ¨bertr¨agt sich wie folgt: (5.3) Satz. Sei fn : X → [0, ∞] eine aufsteigende Folge meßbarer Funktionen mit Supremum f , dann ist Z Z lim fn dµ = f dµ. n→∞
X
X
Beweis: Ist die linke Seite endlich, so sind alle fn nach eventueller Ab¨anderung auf einer Nullmenge endlich, und die Behauptung folgt R nach dem Satz u ¨ber monotone Konvergenz. Ist aber die Folge fn dµ R R unbeschr¨ankt, so ist ja f dµ ≥ fn dµ f¨ ur jedes n, also ist R f dµ = ∞ . Nach wie vor heißt auch eine nicht negative Funktion nur dann integrabel, wenn ihr Integral endlich ist. Man kann den Zugang zur Integralkonstruktion wie in diesem Abschnitt nehmen, indem man eine beliebige reelle Funktion kanonisch in nicht negative zerlegt: f = f+ − f− . Aber eigentlich ist das eher ein Hintereingang. Allemal ist die Integralkonstruktion erst mit dem Normkonvergenzsatz am Ziel. Er zeigt, da das Lebesgueintegral nicht nur gut ist, und besser als zum Beispiel das Riemannintegral, sondern vollendet: Der Raum L1 (µ) ist vollst¨andig.
Kapitel IV
Das euklidische Lebesgueintegral
Voran, voran! nur immer im Lauf, voran, als woll es ihn holen! Vor seinem Fuße brodelt es auf, es pfeift ihm unter den Sohlen. Annette
Hier kehren wir aus allgemeinen Maßgefilden zur¨ uck zum euklidischen Raum. Ein Abschnitt u ¨ber Produktmaße f¨ uhrt insbesondere von R zu Rn mit dem Lebesguemaß. Integrale sind als iterierte Integrale einer Variablen mit Gl¨ uck wirklich zu berechnen. Ein Hauptergebnis ist die Transformationsformel, und damit f¨ uhren wir die Integralrechnung zum selben Punkt, wo wir mit der Differentialrechnung aufgeh¨ort haben: Wir stehen am Ende, wo die globale Analysis beginnen kann.
§ 1. Produkte von Maßr¨ aumen In diesem Abschnitt konstruieren wir aus zwei σ-endlichen Maßr¨aumen (X, A, µ) und (Y, B, ν) einen Produktraum (X × Y, A ⊗ B, µ ⊗ ν). Induktiv entsteht so aus R mit dem eindimensionalen Lebesguemaß dann Rn mit dem n-dimensionalen Lebesguemaß.
¨ umen 1. Produkte von Maßra
107
Auf dem cartesischen Produkt X × Y der gegebenen Maßr¨aume betrachten wir die Algebra A×B der s¨amtlichen endlichen disjunkten Vereinigungen von Rechtecken A × B mit A ∈ A und B ∈ B .
Mit zwei Mengen M, N ∈ A × B sind auch M ∩ N und das Komplement {M in A × B , wie man leicht nachpr¨ uft. Es sei A ⊗ B die von A × B auf X × Y erzeugte σ-Algebra. Sind z.B. A und B die Borelalgebren topologischer Teilr¨aume X und Y eines Rn , so ist A ⊗ B die Borelalgebra des topologischen Produkts X ×Y . Eigentlich benutzt man hier nur, daß die betrachteten topologischen R¨aume eine abz¨ahlbare Basis der Topologie haben. Darauf werden wir in (Bd.3, IV, §1) genauer eingehen. Wir wollen aus σ-endlichen Maßen µ auf A und ν auf B ein σendliches Produktmaß µ⊗ν auf A⊗B konstruieren, das f¨ ur Rechtecke das Naheliegende liefert: (µ ⊗ ν)(A × B) = µ(A) · ν(B). Bevor wir uns dem zuwenden, m¨ ussen wir nun doch etwas genauer hinsehen, wie die erzeugte σ-Algebra aus einer gegebenen Algebra entsteht. Wir gehen von einer Situation aus, wie wir sie hier vorgefunden haben: Gegeben sei eine Menge Z mit einer Algebra R von Teilmengen von Z , f¨ ur die gilt: A, B ∈ R =⇒ A ∩ B, und {A ∈ R. Ein System M von Teilmengen von Z heißt monoton, wenn gilt: S∞ (i) Sind Y1 ⊂ Y2 ⊂ · · · alle in M, so auch n=1 Yn . T∞ (ii) Sind Y1 ⊃ Y2 ⊃ · · · alle in M, so auch n=1 Yn .
108
IV. Das euklidische Lebesgueintegral
(1.1) Lemma (¨ uber monotone Klassen). Sei R eine Mengenalgebra auf Z wie oben, und sei M das kleinste monotone System von Teilmengen von Z , das R enth¨alt. Dann ist M die von R erzeugte σ-Algebra. Beweis: Das System M0 = {Y ∈ M | {Y ∈ M} und ebenso f¨ ur jedes B ∈ M das System MB = {Y ∈ M | Y ∩ B ∈ M} sind wieder monoton. Ist nun A ∈ R , so auch {A ∈ R , also A ∈ M0 . Das zeigt R ⊂ M0 , also M0 = M , und das heißt: Mit Y ist auch {Y in M. Sind aber A, B ∈ R , so ist A ∩ B ∈ R , und das sagt A ∈ MB . Weil das f¨ ur alle A ∈ R gilt, folgt R ⊂ MB , also M = MB f¨ ur alle B ∈ R . Das wiederum sagt: Ist Y ∈ M und B ∈ R, so ist Y ∩ B ∈ M . Das heißt B ∈ MY , und weil das f¨ ur alle B ∈ R gilt, folgt M = MY , und das bedeutet: Mit Y, Z ist auch Y ∩ Z in M . Damit ist M eine σ-Algebra. Auf unser Ziel zur¨ uckzukommen: Die Algebra A ⊗ B entsteht also aus A × B als kleinstes monotones System von Teilmengen von X × Y , das A × B enth¨alt. Weil die Maße µ, ν auf X und Y in diesem Abschnitt ein f¨ ur allemal gegeben sind, werden wir in den zugeh¨origen Integralen im folgenden oft dx, dy
statt
dµ, dν
schreiben. Auch µ(dx) ist sonst u ¨blich. Wir setzen im folgenden voraus, daß beide Maßr¨aume σ-endlich, also jeweils die Vereinigung einer Folge von Teilmengen von endlichem Maß sind. Der Konstruktion des Produktmaßes und des zugeh¨origen Integrals dient folgendes (1.2) Lemma. Sei f : X×Y → [0, ∞] eine A⊗B-meßbare Funktion. Dann gilt: (i) Jede Funktion fx : Y → [0, ∞], y 7→ f (x, y) , ist B-meßbar. R R (ii) Durch x 7→ Y fx dν =: Y f (x, y) dy wird eine A-meßbare Funktion auf X definiert.
¨ umen 1. Produkte von Maßra
109
Beweis: Wir nehmen zun¨achst an, daß ν(Y ) endlich ist, und betrachten charakteristische Funktionen f = χM . Sei M = {M ∈ A ⊗ B | f = χM erf¨ ullt (i) und (ii)}. Dieses System von Teilmengen M ⊂ A ⊗ B enth¨alt alle Rechtecke, also A × B ⊂ M , und es ist monoton: Sind M1 ⊂ M2 ⊂ · · · alle S∞ in M , so auch n=1 Mn , denn das Supremum einer Folge meßbarer Funktionen ist meßbar, und das Integral ist mit Grenzwerten aufsteigender Folgen vertauschbar (Hier ist das Integral nach III, § 5 in [0, ∞] zu nehmen). Ebenso wenn M1 ⊃ M2 ⊃ · · · alle in M sind, so R T∞ auch n=1 Mn . Hier bleiben die Integrale χMn (x, y)dy alle durch ν(Y ) beschr¨ ankt, und wir k¨onnen den Satz u ¨ber dominierte Konvergenz anwenden. Somit ist M = A ⊗ B , jedenfalls wenn ν(Y ) endlich ist. Ist dies nicht der Fall, so w¨ahle eine steigende Folge Y1 ⊂ Y2 ⊂ · · · S∞ in Y mit ν(Yn ) < ∞ f¨ ur alle n und n=1 Yn = Y . Setzt man dann Mn = M ∩ (X × Yn ), so ist M1 ⊂ M2 ⊂ · · · und alle Mn ∈ M , nach S∞ dem schon Gezeigten. Also n=1 Mn = M ∈ M , wieder nach demselben Argument u ¨ber monotone Konvergenz. Damit ist M = A⊗B , also das Lemma gilt f¨ ur alle charakteristischen Funktionen meßbarer Mengen in X × Y , damit auch f¨ ur alle Stufenfunktionen, und wieder nach dem Satz u ¨ber monotone Konvergenz, und weil Meßbarkeit sich auf Grenzfunktionen vererbt, gilt das Lemma allgemein. (1.3) Cavalieris Prinzip. Es gibt auf X ×Y genau ein Produktmaß µ ⊗ ν : A ⊗ B → [0, ∞] mit der Eigenschaft: F¨ ur Rechtecke A × B ∈ A × B ist (µ ⊗ ν)(A × B) = µ(A) · ν(B). F¨ ur eine meßbare Menge M ∈ A ⊗ B ist Z Z Z Z (µ ⊗ ν)(M ) = χM (x, y) dy dx = χM (x, y) dx dy. X
Y
Y
X
110
IV. Das euklidische Lebesgueintegral
Setzen wir so ist (1.4)
My = {x ∈ X | (x, y) ∈ M },
R X
χM (x, y) dx = µ(My ), und die Formel besagt: Z (µ ⊗ ν)(M ) = µ(My ) dy. Y
Beweis: Nach (1.2), mit vertauschten Faktoren auf χM f¨ ur f angewendet, wird durch die rechte Seite von (1.4) eine additive Mengenfunktion auf A ⊗ B definiert, die nach dem Satz (III, 5.3) u ¨ber monotone Konvergenz auch σ-additiv ist, und sie hat den behaupteten Wert auf Rechtecken. Die Eindeutigkeit folgt nach der Eindeutigkeitsaussage im Satz von Hahn (III, 2.6). Nat¨ urlich folgt die andere Integralformel f¨ ur µ ⊗ ν aus Symmetrie der Voraussetzungen. Dies erlaubt nun eine neue Beschreibung des Integrals. Sei n¨amlich X ein σ-endlicher Maßraum, den wir uns f¨ ur sein Maß µ vervollst¨andigt, also um die Nullmengen erweitert denken. Dann ist auch X × R ein Maßraum, der Produktraum von X mit R, wobei R das Lebesguemaß λ tr¨agt. Sei µ ⊗ λ das Produktmaß auf X × R . (1.5) Bemerkung. Ist f : X → R eine meßbare nie negative Funktion, so ist die Menge M f := {(x, t) | t < f (x)} ⊂ X × [0, ∞) meßbar in X × [0, ∞) , und ihr Maß ist
¨ umen 1. Produkte von Maßra
111
Z f
f dx.
(µ ⊗ λ)(M ) = X
Beweis: Die Funktion (x, t) 7→ f (x) − t ist meßbar, daher ist M f meßbar, und nach Cavalieri ist Z Z f f f (x) dx. (µ ⊗ λ)(M ) = λ(Mx ) dx = X
X
Jetzt betrachten wir zwei σ-endliche Maßr¨aume X und Y und zeigen, daß man das Integral einer Funktion f : X × Y → R als iterier R R tes Integral Y X f (x, y) dx dy berechnen kann (wenn u ¨berhaupt). Das entsprechende gilt nat¨ urlich in umgekehrter Reihenfolge. (1.6) Satz von Fubini. Seien X und Y zwei σ-endliche Maßr¨aume, und sei X ×Y ihr Produkt mit dem Produktmaß. Sei f : X ×Y → R integrabel. Dann ist f¨ ur fast jedes y ∈ Y auch die Funktion X → R,
x 7→ f (x, y)
integrabel. Die damit fast u ¨berall definierte Funktion Z Y → R, y 7→ f (x, y) dx X
ist integrabel, und es gilt: Z Z Z f = f (x, y) dx dy. X×Y
Y
X
112
IV. Das euklidische Lebesgueintegral
Die analoge Aussage und Formel hat man nat¨ urlich aus Symmetrie der Voraussetzungen f¨ ur die Integration in umgekehrter Reihenfolge, und man schreibt: Z Z Z f (x, y) dx dy = f (x, y) dy dx. X×Y
X Y
Beweis: Ist f meßbar und nie negativ, so ist die Integralformel ein Spezialfall von Cavalieris Prinzip, angewandt auf M f wie in der Bemerkung (1.5), denn Z Z f f = (µ ⊗ ν ⊗ λ)(M f ). f (x, y) dx = (µ ⊗ λ)(My ) und X
X×Y
Ist dabei f integrabel, also das Integral endlich, so muß auch die R Funktion y 7→ X f (x, y) dx fast u ¨berall endlich sein, damit ihr Integral endlich bleibt. Das zeigt die Behauptung in diesem Fall und durch Zerlegung f = f+ − f− dann f¨ ur beliebige meßbare Funktionen f . Das sind alle integrablen bis auf eine Nullmenge. Ist aber N ⊂ X × Y meßbar vom Maß Null, so ist auch Ny ⊂ X meßbar, und muß nach Cavalieris Prinzip f¨ ur fast jedes y das Maß Null haR ben, weil Y µ(Ny ) dy = 0 . Ersetzt man f also auf so einer Menge durch 0, so ¨andert sich nirgends im Satz die Integrabilit¨at oder das Integral. Auf dem euklidischen Raum Rn = R×· · ·× R haben wir jetzt das n-dimensionale Lebesguemaß λn als Produktmaß auf der Borel-
¨ umen 1. Produkte von Maßra
113
algebra, das dadurch bestimmt ist, daß es f¨ ur ein achsenparalleles Quader das elementare Volumen liefert: λn [a1 , b1 ] × · · · × [an , bn ] = (b1 − a1 ) · · · · · (bn − an ). Das Integral einer Funktion f : Rn → R ist als iteriertes Integral u ¨ber eine Variable zu berechnen: Z Z Z f (x) dx = · · · f (x1 , . . . , xn ) dx1 · · · dxn . Bildet man Quader mit beliebigen endlichen aber nicht notwendig abgeschlossenen Intervallen, so bilden die s¨amtlichen endlichen disjunkten Vereinigungen von Quadern eine Mengenalgebra Q, und das Lebesguemaß stimmt auf dieser Algebra mit dem elementaren Volumen u ¨berein. Allgemein entsteht es aus diesem elementaren Maß auf Q dann durch Erweiterung nach dem Hahnschen Erweiterungssatz, denn Q erzeugt als σ-Algebra die Borelalgebra. Das Lebesguemaß λ(A) = λn (A) einer beliebigen meßbaren Menge A ⊂ Rn ist folglich das mit λ|Q gebildete ¨außere Maß (1.7)
λ(A) = inf
∞ X
λ(Qj ),
j=1
S∞ wo das Infimum u ¨ber alle Folgen von Quadern Qj mit A ⊂ j=1 Qj gebildet wird. Weil jedes Quader Q zu jedem ε > 0 in einer VereiniP alt man gung von W¨ urfeln Wk mit k λ(Wk ) ≤ λ(Q) + ε liegt, erh¨ mit einem ε/2j -Schluß, daß man statt Quadern bei der Bildung des ¨außeren Maßes auch immer nur W¨ urfel nehmen kann. Man entnimmt daraus, daß das Lebesguemaß durch seinen Wert auf abgeschlossenen W¨ urfeln bestimmt ist. (1.8) Invarianz des Integrals. Sei A ⊂ Rn eine Lebesgue-meßbare Menge. (i) Translationsinvarianz: F¨ ur v ∈ Rn ist λ(A) = λ(A + v), also Z Z f (x) dx = f (x + v) dx. Rn
Rn
114
IV. Das euklidische Lebesgueintegral
(ii) Homogenit¨at: F¨ ur t ∈ R ist λ(tA) = |t|n λ(A) , f¨ ur t 6= 0 also Z Z |t|n f (tx) dx = f (x) dx. Rn
Rn
Beweis: Die Aussage u ¨ber die Maße gilt f¨ ur W¨ urfel, also allgemein. Daraus folgt die Aussage u ¨ber die Integrale zun¨achst f¨ ur charakteristische Funktionen. Beachte χtA (x) = χA (t−1 x) . Dann folgt sie f¨ ur Treppenfunktionen, also allgemein. Man kann mit dieser Bemerkung und Cavalieris Prinzip das Volumen hinreichend regelm¨aßiger K¨orper ausrechnen. Sei zum Beispiel cn das Volumen der n-dimensionalen Kugel Dn = x ∈ Rn |x| ≤ 1 . Der Durchschnitt von Dn mit der Hyperebene Rn−1 × {s} ist dann √ ur −1 ≤ s ≤ 1, und daher ist 1 − s2 · Dn−1 × {s} f¨
Mit der Substitution s = sin t erh¨alt man die Rekursion Zπ/2 (1.9)
cn = cn−1
cosn t dt.
−π/2
Das Integral werden wir sp¨ater weiter untersuchen, siehe (4.11). Der Schnellweg von Cavalieris Prinzip zum Satz von Fubini, den wir hier beschritten haben, w¨are f¨ ur Funktionen mit Werten in einem
2. Die Transformationsformel
115
Banachraum so nicht mehr gangbar, man m¨ ußte da etwas aufwendiger mit dem Normkonvergenzsatz argumentieren.
§ 2. Die Transformationsformel Ein wesentliches Hilfsmittel zur Berechnung eindimensionaler Integrale ist die Transformationsformel: Ist ϕ : [a, b] → [ϕ(a), ϕ(b)] eine stetig differenzierbare Parametertransformation, so ist ϕ(b) Z
Zb 0
f ◦ ϕ(t) · ϕ (t) dt = a
f (x) dx. ϕ(a)
F¨ ur uns bedeutet das: Z (f ◦ ϕ) · ϕ0 dt =
Z
[a,b]
[ϕ(a),ϕ(b)]
f (x) dx.
Hat man eine orientierungsumkehrende Transformation ϕ0 ≤ 0,
ϕ : I = [a, b] → [ϕ(b), ϕ(a)] = ϕI, so ergibt sich: Z
ϕ(b) Z
Zb 0
0
(f ◦ ϕ) · ϕ =
(f ◦ ϕ) · ϕ = a
I
ϕ(a) Z
f = − ϕ(a)
Z
f = −
ϕ(b)
f,
ϕI
0
also f¨ ur eine Transformation ϕ mit ϕ 6= 0 allgemein: Z Z (2.1) (f ◦ ϕ) · |ϕ0 | dt = f (x) dx. I
ϕI
Dies ist die Transformationsformel im Eindimensionalen, und die entsprechende Aussage f¨ ur das Lebesgueintegral im H¨oherdimensionalen lautet wie folgt: (2.2) Transformationsformel. Sei U offen in Rn und ϕ : U → V ein C 1 -Diffeomorphismus mit einer offenen Menge V in Rn . Dann
116
IV. Das euklidische Lebesgueintegral
ist eine Funktion f : V → R genau dann integrabel, wenn die Funktion (f ◦ ϕ) · | det Dϕ| : U → R integrabel ist. Und es gilt: Z
Z f (y) dy =
V
fϕ(x) · | det Dϕ(x)| dx. U
Als Rezept zur Transformation hat man also bei der Transformation y = ϕ(x), dy = | det Dϕ(x)| dx einzusetzen. Man schreibt daher auch dy d(y1 , . . . , yn ) = := det Dϕ. dx d(x1 , . . . , xn ) Die Transformation ϕ ist ja ein Hom¨oomorphismus und induziert daher einen Isomorphismus ϕ : A 7→ ϕA der Borelalgebren. Nimmt man f¨ ur f die charakteristische Funktion einer meßbaren Menge ϕA ⊂ V , und bezeichnet λ das Lebesguemaß, so besagt der Satz: (2.3) Maßtransformation. Unter den Voraussetzungen von (2.2) ist f¨ ur jede meßbare Menge A in U Z λ(ϕA) = | det Dϕ(x)| dx. A
Beachte, daß dies eine Gleichung von Maßen auf U ist. Zun¨achst wollen wir uns anschaulich machen, was der Satz eigentlich bedeutet. Denken wir uns A als kleinen W¨ urfel um x , so ist ϕ|A nahezu affin, mit linearem Anteil Dϕ(x), und Dϕ(x) · A ist ein Spat vom Volumen | det Dϕ(x)| · λ(A). Wem aus der Linearen Algebra die Deutung der Determinante als orientiertes Volumen des Bildspats des Einheitsw¨ urfels nicht vertraut ist, der sollte sich darauf besinnen, daß die definierenden Eigenschaften der Determinante naheliegende Forderungen an so ein Volumen aussprechen.
2. Die Transformationsformel
117
Beweis der Transformationsformel in sechs Schritten (i) - (vi): (i) Gilt (2.3) f¨ ur ϕ : U → V , so gilt (2.2) f¨ ur dasselbe ϕ . Ist f eine Treppenfunktion so folgt aus (2.3) und Linearit¨at sofort, daß (f ◦ ϕ) · | det Dϕ| integrabel ist, und die Formel gilt. Daraus erh¨alt man diese Richtung allgemein zum Beispiel mit dem Normkonvergenzsatz. Ist umgekehrt (f ◦ ϕ) · | det Dϕ| integrabel, so transformiere mit ϕ−1 zur¨ uck, und nach dem schon Gesagten folgt, daß f integrabel ist, und die Formel gilt. (i) (ii) Es gen¨ ugt, folgende lokale Aussage zu zeigen: Jeder Punkt p ∈ U hat eine offene Umgebung W , sodaß die Behauptung (2.3) f¨ ur die Transformation ϕ|W : W → ϕW gilt. ¨ Man hat dann n¨amlich eine abz¨ahlbare Uberdeckung (Wj | j ∈ N ) von U mit solchen offenen Mengen Wj , etwa Kugeln mit rationalem Radius und Mittelpunkt. Dann zerlegt man A disjunkt in Teile Aj ⊂ Wj und bemerkt, daß beide Seiten von (2.3) f¨ ur solche Zerlegungen σ-additiv sind. (ii) (iii) (2.3) gilt, wenn ϕ eine Permutation von Koordinaten ist. (iii) (iv) (2.3) gilt f¨ ur n = 1 , also U ⊂ R . R Die Maße A 7→ λ(ϕA) und A 7→ A |ϕ0 | dx auf U stimmen (nach (2.1) mit f = 1) f¨ ur Intervalle A u ¨berein, also auch f¨ ur endliche disjunkte Vereinigungen von Intervallen, und sie haben endlichen Wert f¨ ur kompakte Intervalle, also U ist f¨ ur beide Maße σ-endlich. Daher stimmen sie nach dem Satz von Hahn (III, 2.6) u ¨berein. (iv)
118
IV. Das euklidische Lebesgueintegral
(v) Gilt (2.3) und damit (2.2) f¨ ur die Transformationen ψ : U → W und f¨ ur ρ : W → V , so gilt (2.2) und damit (2.3) auch f¨ ur die Zusammensetzung ρ ◦ ψ : U → V . Dies folgt f¨ ur (2.2) aus det D(ρ ◦ ψ) = det(Dρ) · det(Dψ). (v) (vi) Beweis der lokalen Aussage (ii) durch Induktion nach n. Der Anfang ist (iv). F¨ ur den Induktionsschritt betrachte ϕ : U → V ⊂ Rn lokal um einen Punkt p ∈ U und ϕ(p) ∈ V . Weil Dϕ 6= 0, d¨ urfen wir nach Permutation der Koordinaten in U und V annehmen: ∂ϕ1 /∂x1 (p) 6= 0. Dann zerlege ϕ lokal um p wie folgt: U
ϕ
V ρ=ϕψ −1
ψ
W ψ(x1 , . . . , xn ) = ϕ1 (x), x2 , . . . , xn ,
ρ(y) = y1 , ρ2 (y), . . . , ρn (y) .
Dies ψ ist in der Tat lokal um p invertierbar, denn die Jacobische ist
?
∂ϕ1 /∂x1
1 0
..
. 1
(weiße Stellen sind Null).
Die Zerlegung des Diagramms lehrt mit (v): Man darf annehmen, daß ϕ eine Koordinate festl¨aßt, und dann nach Permutation der Koordinaten wieder ohne Beschr¨ankung der Allgemeinheit die erste. Also: ϕ : (t, x) 7→ t, ϕt (x) , ϕt : Ut := U ∩ {x1 = t} → {t} × Rn−1 ⊂ Rn .
2. Die Transformationsformel
119
Dann hat die Jacobische von ϕ die Gestalt 1 0 ··· 0 Dϕ = ? Dϕt det Dϕ(t, x) = det Dϕt . In diesem Fall hilft nat¨ urlich die Induktionsannahme und der Satz von Fubini: Z λn (ϕA) = λn−1 (ϕA)t dt (Cavalieri) R
Z =
λn−1 (ϕt At ) dt R
Z Z = R
| det(Dϕt )| dλn−1 dt
Z Z
χAt · | det Dϕ(t, x)| dλn−1 dt
= R
Z =
(Induktionsannahme)
At
Rn−1
χA · | det Dϕ| dλn
(Fubini).
Rn
Wenden wir die Transformationsformel auf eine affine Transformation ϕ : x 7→ D · x + v,
D ∈ Aut( Rn ),
v ∈ Rn
an, so ist Dϕ = D , also wenn λ das Lebesguemaß bezeichnet, ist (2.4)
λ(ϕA) = | det(D)| · λ(A)
120
IV. Das euklidische Lebesgueintegral
f¨ ur jede meßbare Teilmenge A von Rn . Dies gibt die geometrische Deutung der Determinante wieder, von der wir bei der Einf¨ uhrung der Transformationsformel ausgegangen sind. Wenn W ein W¨ urfel der Kantenl¨ange 1 ist, ist danach λ(D · W + v) = | det(D)|. Das Vorzeichen der Determinante beschreibt die Orientierung der Abbildung. Das geht uns hier verloren, aber es wird auch in der Analysis wieder erscheinen, wenn es darum geht, den Hauptsatz der Differential- und Integralrechnung im H¨oherdimensionalen zu formulieren. Eine Bewegung ist eine affine Abbildung, deren linearer Anteil D orthogonal ist. Dann ist | det D| = 1 , also sagt die Transformationsformel: (2.5) Bewegungsinvarianz des Integrals. Ist ϕ : Rn → Rn eine Bewegung, so ist λ(ϕA) = λ(A) f¨ ur jede meßbare Teilmenge A von Rn , und allgemein Z Z f (x) dx = f ϕ(x) dx. ϕA
A
Es gibt nat¨ urlich noch viele andere Diffeomorphismen mit Jacobideterminante 1. In der Theorie der Differentialgleichungen werden uns solche als divergenzfreie Fl¨ usse begegnen. Immerhin zeigt sich hier, daß das Lebesgueintegral auf einem endlichdimensionalen euklidischen Raum wohldefiniert, und unabh¨angig von der Wahl eines euklidischen Koordinatensystems ist.
§ 3. Nullmengen In geometrischen Untersuchungen treten maßtheoretische Argumente oft nur in der Form auf, daß gewisse Ausnahmemengen als Nullmengen zu erweisen sind. Daf¨ ur braucht es weiter keine Maßtheorie. Eine Nullmenge nennt man auch d¨ unn; sie hat das ¨außere Maß Null, und das heißt nach (1.6):
3. Nullmengen
121
(3.1) Erinnerung. Eine Teilmenge A von Rn ist genau dann d¨ unn, n wenn es zu jedem ε > 0 eine Folge von W¨ urfeln (Wj ) in R gibt, mit ∞ ∞ [ X A ⊂ Wj und λ(Wj ) < ε. j=1
j=1
Dabei ist hier λ(W ) das Produkt der Kantenl¨angen. Statt W¨ urfeln kann man auch achsenparallele W¨ urfel, Quader oder auch Kugeln nehmen, denn jeder W¨ urfel vom Durchmesser 2r liegt in einer Kugel vom Radius r und jede Kugel vom Radius r in einem W¨ urfel der Kantenl¨ange 2r , sodaß man immer ein Volumen bis auf eine Konstante durch das andere absch¨atzen kann. (3.2) Satz. Ist A eine Nullmenge in Rn und f : A → Rn Lipschitzstetig, so ist auch f (A) eine Nullmenge in Rn . Beweis: Sei (Wj | j ∈ N ) eine W¨ urfel¨ uberdeckung von A mit P∞ urfel Wj enthalte einen Punkt aj ∈ A . j=1 λ(Wj ) < ε. Jeder W¨ √ Hat Wj die Kantenl¨ange s , so ist λ(Wj ) = sn und |x − aj | ≤ n · s f¨ ur x ∈ Wj . Ist dann |f (x) − f (y)| ≤ L|x − y| f¨ ur alle x, y , so √ insbesondere |f (x) − f (aj )| ≤ L n s f¨ ur x ∈ Wj ∩ A . Daher liegt √ f (Wj ∩ A) in einem W¨ urfel der Kantenl¨ange 2L n s mit dem Vo√ lumen k · sn = k · λ(Wj ), wo k = (2L n)n eine vom W¨ urfel unabh¨angige Konstante ist. Also liegt f (A) in der Vereinigung einer Folge von W¨ urfeln mit Volumensumme h¨ochstens k · ε. (3.3) Folgerung. Ist A eine Nullmenge in Rn und f : U → Rn stetig differenzierbar in einer offenen Umgebung U von A , so ist auch f (A) eine Nullmenge in Rn . Beweis: Man muß nur zeigen, daß f lokal einer Lipschitzbedingung gen¨ ugt. Das folgt aus dem Mittelwertsatz Z1 f (x + h) − f (x) =
Df (x + th) dt · h, 0
wenn man L so w¨ahlt, daß |Df | ≤ L. Vergleiche (II, 1.5).
122
IV. Das euklidische Lebesgueintegral
Demnach sind zum Beispiel differenzierbare Untermannigfaltigkeiten M ⊂ Rn kleinerer Dimension d¨ unn in Rn , weil die Einbettung ja lokal u ¨ber Rk mit k < n faktorisiert. Eine ¨ahnliche Quelle d¨ unner Mengen bietet die (3.4) Bemerkung. Ist A meßbar in Rn und f : A → R meßbar, so ist der Graph { a, f (a) | a ∈ A} d¨ unn in Rn+1 . Beweis: Es gen¨ ugt, dies f¨ ur A = Rn zu zeigen, setze f durch 0 außerhalb A fort. Der Graph {(x, y) | y − f (x) = 0} ist jedenfalls meßbar, und schneidet jede Gerade {x = const} in genau einem Punkt, also in einer Nullmenge. Die Behauptung folgt daher nach Cavalieri. Die Behauptung (3.2) gilt nicht f¨ ur beliebige stetige Abbildungen, denn eine stetige Kurve kann einen W¨ urfel ausf¨ ullen. Es gibt auch Hom¨oomorphismen der Ebene auf sich, die eine Strecke auf eine Menge von positivem Maß abbilden.
§ 4. Polar- und Zylinderkoordinaten Wenn die Mengen oder Funktionen, die man messen oder integrieren will, besondere Symmetrien aufweisen, wird man die Koordinaten entsprechend symmetrisch w¨ahlen. Daf¨ ur bringen wir einige wichtige Beispiele. (4.1) Polarkoordinaten der Ebene. Dies ist die Transformation P : [0, ∞) × [0, 2π] → C = R2 ,
(r, ϕ) 7→ r · eiϕ = r(cos ϕ, sin ϕ).
Die Jacobimatrix von P ist
cos ϕ DP = sin ϕ
−r sin ϕ , r cos ϕ
det(DP ) = r.
4. Polar- und Zylinderkoordinaten
123
Die Transformation ist zwar am Ursprung singul¨ar und hat f¨ ur ϕ = 0 und ϕ = 2π den gleichen Wert, aber f¨ ur die Integralrechnung macht das nichts, weil die Mengen, die man im Bild- und Urbildraum herausnehmen muß, damit die Voraussetzungen der Transformationsformel erf¨ ullt werden, das Maß Null haben. Das gilt ebenso f¨ ur die folgenden Koordinatensysteme. Im H¨oherdimensionalen kann man zun¨achst die weiteren Koordinaten unver¨ andert lassen. So erh¨alt man f¨ ur R3 die (4.2) Zylinderkoordinaten. (r, ϕ, z) 7→ (r cos ϕ, r sin ϕ, z) mit Jacobi-Determinante r . Polarkoordinaten gehen aus Koordinaten f¨ ur die Sph¨are bis auf eine Nullmenge hervor. Von der Sph¨are S n−1 kommt man dann zum Rn durch die Transformation (4.3)
R+ × S n−1 → Rn r {0},
(r, ξ) 7→ r · ξ.
Koordinaten f¨ ur die Sph¨are entstehen induktiv durch die Transformation (4.4)
S n−1 × [0, π] → S n ,
(ξ, ϑ) 7→ (sin ϑ · ξ, cos ϑ),
die den Rand S n−1 × {0, π} auf den Nord- und S¨ udpol (0, ±1) von n S abbildet und im u ¨brigen regul¨ar ist.
124
IV. Das euklidische Lebesgueintegral
So erh¨alt man, von den ebenen Polarkoordinaten ausgehend, auf dem euklidischen Raum R3 die (4.5) Kugelkoordinaten. Φ : (r, ϕ, ϑ) 7→ r(sin ϑ cos ϕ, sin ϑ sin ϕ, cos ϑ), f¨ ur r ≥ 0 , 0 ≤ ϕ ≤ 2π , 0 ≤ ϑ ≤ π det DΦ = −r2 sin ϑ. So geht es induktiv weiter, und f¨ ur Rn hat man die (4.6) Polarkoordinaten f¨ ur Rn . Φn (r, ϕ, ϑ1 , . . . , ϑn−2 )
= sin ϑn−2 · Φn−1 (r, ϕ, ϑ1 , . . . , ϑn−3 ), r cos ϑn−2 ,
f¨ ur r ≥ 0 , 0 ≤ ϕ ≤ 2π , 0 ≤ ϑj ≤ π . Die Jacobimatrix hat die Gestalt sin ϑ n−2 DΦn−1 DΦn = cos ϑn−2 , 0, . . . , 0
cos ϑn−2 Φn−1 −r sin ϑn−2
4. Polar- und Zylinderkoordinaten
125
F¨ ur die Funktionaldeterminante dn von Φn entnimmt man daraus durch Entwicklung nach der letzten Zeile unter Ber¨ ucksichtigung von r ∂/∂r Φn−1 = Φn−1 die Rekursionsformel: dn = −(cos ϑn−2 )2 r(sin ϑn−2 )n−2 dn−1 − r(sin ϑn−2 )n dn−1 = −r(sin ϑn−2 )n−2 dn−1 , (4.7)
also
dn = (−)n rn−1 · sin ϑ1 · (sin ϑ2 )2 · . . . · (sin ϑn−2 )n−2 .
Wir wollen uns den Nutzen solcher Transformation in einigen Anwendungen vor Augen f¨ uhren. Zylinderkoordinaten sind angebracht, wenn die zu integrierende Funktion rotationssymmetrisch um die zAchse ist. Betrachten wir zum Beispiel eine meßbare Menge in der positiven Halbebene: A ⊂ R2+ := {(r, z) | r > 0}. Durch Rotation um die z-Achse entsteht daraus der Rotationsk¨orper V = {(r cos ϕ, r sin ϕ, z) | (r, z) ∈ A, 0 ≤ ϕ ≤ 2π}.
Das Volumen von V ist Z Z λ3 (V ) = χA (r, z) r dr dz dϕ = 2π r dr dz. A
126
IV. Das euklidische Lebesgueintegral
F¨ ur eine Menge A ⊂ Rn heißt der Punkt Z 1 S = · x dx ∈ Rn λn (A) A
der Schwerpunkt von A. Beachte, daß dieser Punkt invariant unter affinen Koordinatentransformationen ist. Bei unserem Ergebnis f¨ ur λ3 (V ) ist also das Integral Z 1 R = r dr dz λ2 (A) A
der Abstand vom Schwerpunkt von A zur z-Achse. Die Rechnung hat damit ergeben: (4.8) Guldinsche Regel. λ3 (V ) = 2πR · λ2 (A) , R = Abstand des Schwerpunkts von A zur Rotationsachse.
Als Anwendung der Polarkoordinaten f¨ ur die Ebene berechnen wir ein wichtiges uneigentliches Integral auf dem Weg u ¨bers Zweidimensionale: Z∞ 2
e−x dx =
(4.9)
√
π.
−∞
Beweis: R∞ 2 R∞ R∞ R −(x2 +y2 ) 2 2 2 e−x dx = e−x dx · e−y dy = e dx dy −∞
=
R∞ 2π R
−∞
−∞
2
e−r · r dϕ dr = π
0 0
R∞ 0
R2
2 2 ∞ 2re−r dr = π −e−r 0 = π .
Das Integral ist uns schon im ersten Semester begegnet. Transformation x2 = t, 2x dx = dt , zeigt: Z∞ e −∞
Z∞
Z∞ −x2
−x2
dx = 2
e 0
t−1/2 e−t dt = Γ( 12 ).
dx = 0
Die
4. Polar- und Zylinderkoordinaten
127
Schauen wir mal, was derselbe Gedanke allgemeiner u ¨ber die Gammafunktion lehrt: Aus Z∞ xu−1 e−x dx
Γ(u) = 0
wird durch die Transformation x = s2 /2, dx = s ds: Z∞ Γ(u) = 2
1−u
s2u−1 exp(−s2 /2) ds. 0
Das Produkt Γ(u) · Γ(v) ist also Z∞ Z∞ Γ(u)Γ(v) = 22−u−v 0
Z∞ 2−u−v
2
r
2(u+v)−1
s2u−1 t2v−1 exp −(s2 + t2 )/2 ds dt =
0
Zπ/2 exp(−r /2) dr (cos ϕ)2u−1 (sin ϕ)2v−1 dϕ. 2
0
0
Das erste Integral im letzten Term ist 2u+v−1 Γ(u+v), und man setzt Zπ/2 B(u, v) := 2 (cos ϕ)2u−1 (sin ϕ)2v−1 dϕ. 0
Dies ist die Eulersche Betafunktion. Wir haben gefunden: (4.10)
B(u, v) =
Γ(u)Γ(v) . Γ(u + v)
R π/2 F¨ ur u = v = 1/2 ergibt sich B(u, v) = 2 0 dϕ = π , also Γ(1/2)2 = πΓ(1) = π wie in (4.9). Aber auch an ein anderes noch loses Ende k¨onnen wir jetzt ankn¨ upfen: F¨ ur das Volumen cn des n-Balls vom Radius 1 hatten wir in (1.9) die Rekursionsformel Zπ/2 cn = cn−1 −π/2
Zπ/2 cos t dt = cn−1 · 2 cosn t dt n
0
128
IV. Das euklidische Lebesgueintegral
1 gefunden. Der Faktor nach cn−1 ist B( n+1 2 , 2 ) , also:
cn = cn−1 · Auch ist c1 = 2 , und mit Γ( 12 ) = induktiv: (4.11)
cn =
Γ( 12 )Γ( n+1 2 ) . n Γ( 2 + 1) √
π , Γ(x + 1) = x Γ(x), erh¨alt man
π n/2 . (n/2)Γ(n/2)
F¨ ur gerades n = 2k ist Γ(n/2 + 1) = Γ(k + 1) = k!, also: c2k = π k /k! . F¨ ur ungerades n = 2k + 1 erh¨alt man entsprechend: c2k+1 =
2k+1 π k . 1 · 3 · . . . · (2k + 1)
Aus beidem zusammen ergibt sich die auf den ersten Blick verwunderliche Feststellung, daß das Volumen des n-Balls vom Radius 1 f¨ ur ¨ n → ∞ gegen Null geht. Beim Ubergang vom n-Dimensionalen zum (n + 1)-Dimensionalen wird eben jedesmal vom Zylinder u ¨ber dem n-Ball etwas weggeschnitten, um zum (n + 1)-Ball zu kommen, und wie sich zeigt, bleibt so auf die Dauer nichts u ¨brig. Die Kugel vom Radius r in Rn hat nach (IV, 1.8) das Volumen r cn , und es liegt nahe, in der Ableitung dieses Volumens nach r das (n − 1)-dimensionale Volumen der Randsph¨are r · S n−1 zu sehen. So erhalten wir n
(4.12)
vol (r · S n−1 ) = n · rn−1 cn
f¨ ur diese Gr¨oße. Wir werden darauf in der globalen Integrationstheorie zur¨ uckkommen (vergl. Bd. 3, VI, 5.7).
Kapitel V
Allerleirauh
Als der Tanz zuende war, ließ sich der K¨ onig die Suppe bringen und aß sie, und sie schmeckte ihm so gut, daß er meinte, niemals eine bessere Suppe gegessen zu haben. Br¨ uder Grimm
Hier tragen wir einiges nach, was doch auch jeder gebildete Mathematiker weiß und oft, wenn er die Anfangsgr¨ unde der Analysis erkl¨art, als Leitstern vor Augen hat. Da ließe sich noch mancherlei anf¨ ugen.
§ 1. Eine nicht meßbare Menge Wir betrachten R als Maßraum. Zu den meßbaren Mengen soll jedenfalls das Einheitsintervall I = [0, 1) geh¨oren, und sein Maß sei µ(I) = 1 . Auch soll das betrachtete Maß µ translationsinvariant und σ-additiv sein. Wir zeigen, daß es eine Menge M ⊂ I gibt, die f¨ ur kein solches Maß meßbar ist. Freilich kann man diese Menge nicht wirklich vorzeigen, konstruieren: Man w¨ahlt mit dem Auswahlaxiom, Sie werden schon sehen. Die additive Gruppe R/ Z hat die Untergruppe Q/ Z , und sie zerf¨allt in Restklassen nach dieser Untergruppe, also in Restklassen
130
V. Allerleirauh
¨ f¨ ur die Aquivalenzrelation auf R/ Z x ∼ y :⇐⇒ x − y ∈ Q. Aus jeder Klasse w¨ahlen wir genau ein Element in I aus. Die Klasse trifft ja I, weil x ∼ x − q f¨ ur alle q ∈ Q. Die so ausgew¨ahlte Menge M ist eine Teilmenge von I ⊂ R . Nun hat jedes r ∈ R einen wohlbestimmten Repr¨asentanten r0 ∈ I modulo Z , n¨amlich r0 = r−[r]. Insbesondere wird Q/ Z durch Q∩I repr¨asentiert, also modulo Z erh¨alt man eine disjunkte Zerlegung R/ Z =
[
M + q,
q ∈ Q ∩ I.
q
Zwar ist M + q noch nicht in I , aber das korrigieren wir, wir setzen M + q = Aq t Bq ,
Aq = (M + q) ∩ I,
und wir haben die disjunkte Zerlegung (1.1)
[0, 1) =
[
Aq t (Bq − 1),
q ∈ Q ∩ I.
q
Nun beachte, daß M + q aus M durch Translation mit q hervorgeht. W¨are M meßbar, so mit gleichem Maß auch M +q also auch Aq tBq und schließlich w¨are (1.2)
µ(M ) = µ(Aq ) + µ(Bq − 1).
Ist nun µ(M ) = 0 , so w¨are µ(I) = 0 , und ist µ(M ) > 0, so w¨are µ(I) = ∞ nach (1.1), und daher kann M u ¨berhaupt nicht meßbar sein. Die Konstruktion ist leichter zu durchschauen, wenn man den eigentlichen Ursprung des Gedankens aufsucht: Das Intervall I ist als Parametrisierung der Kreislinie, der multiplikativen Gruppe S 1 ,
2. Der Rangsatz
131
durch t 7→ exp(2πit) anzusehen. Diese Gruppe hat die abz¨ahlbare Untergruppe Q = {exp(2πit) | t ∈ Q} der rationalen Drehungen. Die b¨ose Menge ist ein Repr¨asentantensystem M der Zerlegung von S 1 in Restklassen modulo Q. F¨ ur ein unter Drehungen invariantes Maß µ auf S 1 mit 0 < µ(S 1 ) < ∞ kann M nicht meßbar sein. Es h¨atten ja alle Mengen qM f¨ ur q ∈ Q gleiches Maß weil sie durch Drehungen aus M hervorgehen. Die Mengen qM sind f¨ ur verschiedene q ∈ Q disjunkt, und ihre Vereinigung ist 1 ganz S . W¨are nun µ(M ) = 0 , so folgt µ(S 1 ) = 0 , weil Q abz¨ahlbar ist. W¨are µ(M ) > 0, so folgt µ(S 1 ) = ∞, weil Q unendlich ist. Von diesem Beispiel kommt man zum zuerst erkl¨arten, wenn man u ¨berall den Kreis S 1 und seine Punkte durch das Parameterintervall I und die entsprechenden Punkte ersetzt. So ist der Erweiterung von Maßen eine prinzipielle Grenze gesetzt, wenn man es mit dem Ausw¨ahlen so h¨alt, wie es in der Mathematik gebr¨auchlich ist. Freilich, sagen die Logiker, f¨ uhrt es auch nicht zu Widerspr¨ uchen, wenn man das Auswahlaxiom aufgibt und daf¨ ur postuliert, daß jede Teilmenge von Rn meßbar ist ...
§ 2. Der Rangsatz Die Elementargeometrie der differenzierbaren Abbildungen beruht zun¨achst vor allem auf dem Satz u ¨ber die Umkehrabbildung. Er sagt, welche Transformationen lokale Koordinatentransformationen sind: diejenigen n¨amlich, deren Differential als lineare Abbildung umkehrbar ist. Die wesentliche Invariante einer linearen Abbildung ist ihr Rang. Ist A : V → W linear vom Rang r , so gibt es lineare Isomorphismen ∼ ∼ = = (Basisisomorphismen) B : V → Rm und C : W → Rn , sodaß die
132
V. Allerleirauh
transformierte Abbildung A
V −−−−→ W ∼ B y∼ = =yC Rm −−−−→ Rn die Gestalt CAB −1 : Rm → Rn ,
(x1 , . . . , xm ) 7→ (x1 , . . . , xr , 0, . . . , 0)
hat. Man w¨ahlt eine Basis v1 , . . . , vm von V , so daß vr+1 , . . . , vm den Kern von A aufspannen, und eine Basis w1 , . . . , wn von W mit wj = Avj f¨ ur j ≤ r . Auch f¨ ur eine lokale Beschreibung differenzierbarer Abbildungen bis auf Koordinatentransformationen ist der Rang die erste Invariante, aber hier ist auch der Rang eine Funktion, und ist sie nicht konstant, so kann man die gegebene Funktion auch nicht in ein so einfaches Musterexemplar, das ja konstanten Rang hat, transformieren. (2.1) Rangsatz. Sei U offen in Rm und V offen in Rn , und sei f : U → V eine C ` -Abbildung, ` ≥ 1 , von lokal um p ∈ U konstantem Rang r . Dann gibt es C ` -Karten h : U1 → Rm und k : V1 → Rn von Umgebungen U1 von p in U und V1 von q = f (p) in V , mit h(p) = 0 , k(q) = 0 , und k ◦ f ◦ h−1 : (x1 , . . . , xm ) 7→ (x1 , . . . , xr , 0, . . . , 0) lokal um 0 in Rm . Lokal um die betrachteten Punkte p und q sieht es so aus: U h
Rm
f
V k
Rn , (x1 , . . . , xm ) 7→ (x1 , . . . , xr , 0, . . . , 0).
2. Der Rangsatz
133
Der Satz u ¨ber die Umkehrabbildung ist der Spezialfall m = n = r . Beweis: Wir d¨ urfen gleich annehmen: p = 0 ∈ Rm , q = 0 ∈ Rn . Wir finden eine regul¨are (r × r)-Untermatrix von Df (0), und nach Vertauschen der Koordinaten von Rm und Rn ist (∂fi /∂xj ),
1 ≤ i, j ≤ r
am Ursprung regul¨ar. Die lokal um den Ursprung definierte Transformation h : (x1 , . . . , xm ) 7→ f1 (x), . . . , fr (x), xr+1 , . . . , xm
hat die Jacobimatrix
∂fi /∂xj 1 0
..
. 1
)
r m−r weiße Stellen sind Null.
Ihre Determinante ist det(∂fi /∂xj )i,j≤r 6= 0, also h ist eine zul¨assige Koordinatentransformation am Ursprung, und das Diagramm (x1 , . . . , xm ) h
f
f1 (x), . . . , fn (x) f ◦h−1 =:g
f1 (x), . . . , fr (x), xr+1 , . . . , xm = (z1 , . . . , zr , zr+1 , . . . , zm )
zeigt: g := f ◦ h−1 : (z1 , . . . , zm ) 7→ z1 , . . . , zr , gr+1 (z), . . . , gn (z) .
134
V. Allerleirauh
Soweit f¨ uhrt die Transformation im Urbildraum. Bisher haben wir erst rgp f ≥ r benutzt. Die Jacobimatrix von g hat die Gestalt 1 .. r . 0 1 o m−r A(z) = (∂gi /∂zj )i,j>r . ? A(z) Die Abbildung g = f ◦h−1 hat den gleichen Rang r wie f , und daher muß die Teilmatrix A(z) lokal um den Ursprung verschwinden, also ∂gi /∂zj = 0 f¨ ur i, j > r . Betrachten wir die Funktionen auf einem W¨ urfel {|zj | < ε} um den Ursprung, so h¨angen die Funktionen gi , i > r damit von den letzten Komponenten zj , j > r nicht ab, wir k¨ onnen schreiben gi = gi (z1 , . . . , zr ). Dann aber haben wir lokal um den Ursprung von Rn die invertierbare Transformation k: (z1 , . . . , zn ) 7→
z1 , . . . , zr , zr+1 − gr+1 (z1 , . . . , zr ), . . . , zn − gn (z1 , . . . , zr ) ,
deren inverse ebenso mit + statt − aussieht, und k ◦ g = k ◦ f ◦ h−1 hat die verlangte Gestalt. Der Rang rgx f kann in einer Umgebung von p nicht kleiner als rgp f sein. Ist rgp f = r , so hat die Jacobimatrix Df (p) eine (r × r)Untermatrix mit nicht verschwindender Determinante, und die bleibt in einer Umgebung von p ungleich Null. Wohl aber kann rgx f > rgp f f¨ ur x nahe p sein, wie die Abbildung f (x) = x2 f¨ ur p = 0 zeigt. Der Rangsatz beschreibt also lokal eine Abbildung bis auf Koordinatentransformation, falls der Rang der Funktion lokal nicht steigt. Zwei F¨alle gibt es, wo man dessen sicher sein kann, n¨amlich wenn rgp f = m und wenn rgp f = n ist. Eine Abbildung wie im Satz vom Rang m in jedem Punkt heißt eine Immersion (immersiv), eine Abbildung vom Rang n heißt Submersion (submersiv). Eine Immersion ist lokal injektiv, wie der Rangsatz zeigt. Im Großen muß sie nicht injektiv sein:
3. Das Morse-Lemma
135
Eine Submersion ist nach dem Rangsatz offen: Bilder von offenen Mengen sind offen.
§ 3. Das Morse-Lemma Manches grundlegende Theorem heißt Lemma, wie manche w¨ urdige Person noch mit ihrem Kindernamen gerufen wird; so auch dieses. Wir haben gelernt, daß eine C 2 -Funktion lokal um einen singul¨aren Punkt mit nicht ausgearteter Hesseform ebenso aussieht, wie diese Hesseform. Das Lemma von Morse sagt, daß in der Tat die Funktion sich lokal durch eine differenzierbare Koordinatentransformation in ihre Hesseform u ¨berf¨ uhren l¨aßt. (3.1) Theorem (M. Morse). Sei U offen in Rn und f : U → R sei eine C ∞ -Funktion. Sei p ∈ U ein kritischer Punkt von f mit nicht ausgearteter Hessematrix 2H . Dann gibt es eine Umgebung V von p in U und einen C ∞ -Diffeomorphismus ϕ : V → V 0 mit ϕ(p) = 0 ∈ Rn und Dϕ(p) = id, sodaß f ◦ ϕ−1 (x) = f (p) + txHx. Zun¨achst wollen wir die Transformationen der symmetrischen Matrizen selbst, also der quadratischen Formen, betrachten. (3.2) Lemma. Sei H eine regul¨are symmetrische reelle (n × n)Matrix, dann gibt es eine Umgebung U von H im Raum S aller symmetrischen reellen (n × n)-Matrizen und eine C ∞ -Abbildung
136
V. Allerleirauh
P : U → End( Rn ) , mit P (H) = id und t
P (A) · A · P (A) = H
f¨ ur alle A ∈ U . Mit anderen Worten: Wenn A sich wenig von H unterscheidet, l¨aßt sich A in H transformieren, und die Transformation h¨angt C ∞ von A ab. Beweis: Jedenfalls gibt es ja eine Transformation T , sodaß tT HT eine Diagonalmatrix ist. Es gen¨ ugt also, das Lemma f¨ ur Diagonalmatrizen H zu zeigen. In diesem Fall schreiben wir A = H + X , wobei X eine Umgebung von 0 im Raum S der symmetrischen Matrizen durchlaufen soll, und wir suchen P (A) = 1 + Y mit einer oberen Dreiecksmatrix Y . Hier ist 1 = id die Einheitsmatrix. Erreichen wollen wir: F (X, Y ) := t(1 + Y ) · (H + X) · (1 + Y ) − H = 0. Dies ruft nach dem Satz u ¨ber das Aufl¨osen von Gleichungen: Sei also S der Vektorraum der symmetrischen (n × n)-Matrizen, V der Vektorraum der oberen Dreiecksmatrizen (gleicher Dimension 12 n(n+1)), und F : S × V → S, (X, Y ) 7→ F (X, Y ), wie oben definiert. Wir wollen die Gleichung F (X, Y ) = 0 lokal um (0, 0) durch Y = Y (X) l¨osen. F¨ ur den Satz u ¨ber das Aufl¨osen von Gleichungen m¨ ussen wir also DY F (0, 0) ∈ Hom R (V, S) berechnen. Nun, f¨ ur X = 0 ist F (0, Y ) = tY H + HY + tY HY, also DY F (0, 0) : Y 7→ tY H + HY. Wir m¨ ussen zeigen, daß diese lineare Abbildung den Kern 0 hat, also t Y H + HY = 0 =⇒ Y = 0 . Weil aber H regul¨ar diagonal, Y eine
3. Das Morse-Lemma
137
obere und damit tY eine untere Dreiecksmatrix ist, stimmt das. Weil hier nur quadratische Gleichungen gel¨ost werden, kann man die L¨osung auch durch eine Folge quadratischer Erg¨anzungen hinschreiben. Beweis (3.1). Wir k¨onnen p = 0, f (0) = 0 annehmen und f (x) =
n X
aij (x) xi xj ,
aij (0) = hij ,
i,j=1
mit C ∞ -Funktionen aij und (hij ) = H schreiben. Das zeigt zum Beispiel die Integraldarstellung des Restglieds zweiter Ordnung der Taylorentwicklung. Setzen wir A(x) = aij (x) und w¨ahlen P wie im Lemma, und Q(x) := P A(x) , so steht da f (x) = tx · A(x) · x,
t
Q(x) · A(x) · Q(x) = H,
also lokal um Null f (x) = t(Q(x)−1 · x) · H · (Q(x)−1 · x). Bleibt also, ϕ(x) = Q(x)−1 · x zu setzen, was wegen Q(0) = P A(0) = P (H) = id in der Tat bei Null die Ableitung id hat. Siehe unsere Definition der Ableitung. Auch hier braucht man nicht, daß f eine C ∞ -Funktion ist: Die Differenzierbarkeitsordnung von ϕ h¨angt an der von x 7→ A(x), und diese kann h¨ochstens zwei geringer als die von f sein. Betrachten wir noch einmal Funktionen einer Variablen, etwa lokal um den Ursprung. Verschwindet der (k − 1)-Jet von f am Ursprung, so ist, wie gesagt: k
f (x) = ϕ(x) · x ,
1 ϕ(x) = (k − 1)!
Z1 (1 − t)k−1 f [k] (tx) dt, 0
138
V. Allerleirauh
wie man sieht, wenn man die Integraldarstellung des Restglieds der Taylorentwicklung (Bd. 1, IV, 2.5) auf die Funktion x 7→ f (x · h) f¨ ur x = 1 anwendet, und dann wieder x statt h schreibt. Uns interessiert nur, daß jedenfalls ϕ eine C ∞ -Funktion ist, falls dasselbe f¨ ur f gilt, und a := ϕ(0) ist der k-te Taylorkoeffizient von f . Ist a 6= 0 , so k¨ onnen wir schreiben: p k f (x) = a · ψ(x) , ψ(x) := x · k ϕ(x)/a. Weil ϕ(0)/a = 1 , ist ψ lokal um Null eine C ∞ -Funktion, und es ist ψ 0 (0) = 1 , also haben wir gezeigt: (3.3) Bemerkung. Ist die reelle C ∞ -Funktion f lokal um p ∈ R definiert und beginnt ihre Taylorentwicklung mit dem Term a · xk , a 6= 0 , k > 0 , so gibt es lokal um p eine invertierbare Transformation ϕ mit ϕ(p) = 0 , ϕ0 (p) = 1 , sodaß f (x) = a · ϕ(x)k .
Auch in h¨oherer Dimension sind fast alle Funktionen lokal durch ein endliches Taylorpolynom an der betreffenden Stelle bis auf Transformation bestimmt, aber das ist nicht so leicht zu zeigen, ja nicht einmal leicht zu sagen, was das heißen soll. Immerhin: Das Morselemma ist ein erster und der wichtigste Schritt.
§ 4. Der Satz von Sard Ist U offen in Rn und f : U → Rp stetig differenzierbar, so hat die Gleichung f (x) = q eine p-kodimensionale Untermannigfaltigkeit von U als L¨osungsmenge, falls q ein regul¨arer Wert von f ist. Wie groß aber ist die Aussicht, daß man bei zuf¨alliger Wahl von q einen regul¨aren Wert von f trifft? Sehr groß, das sagt eben der
4. Der Satz von Sard
139
(4.1) Satz von Sard. Sei U offen in Rn , sei f : U → Rp eine C ∞ -Abbildung, und sei D ⊂ U die Menge der kritischen Punkte der Abbildung f , dann hat f (D) ⊂ Rp das Maß Null. Beweis: Induktion nach n; f¨ ur n = 0 ist Rn ein Punkt, f (U ) h¨ochstens ein Punkt, der Satz also richtig. Da er jedenfalls auch f¨ ur p = 0 gilt, nehmen wir jetzt p > 0 an. F¨ ur den Induktionsschritt sei Di ⊂ U die Menge der Punkte u ∈ U , wo alle partiellen Ableitungen von f der Ordnung ≤ i verschwinden. Die Di bilden eine absteigende Folge abgeschlossener Teilmengen D ⊃ D1 ⊃ D2 ⊃ · · · von U , und wir zeigen: (i) f (D r D1 ) ist d¨ unn, d.h. ist eine Nullmenge. (ii) f (Di r Di+1 ) ist d¨ unn. (iii) f (Dk ) ist d¨ unn f¨ ur gen¨ ugend große k . Alle diese Aussagen m¨ ussen wir nur lokal zeigen, also jeder Punkt u ∈ D r D1 hat eine Umgebung V , so daß f (V ∩ (D r D1 )) d¨ unn ist, und so auch in den anderen F¨allen. Abz¨ahlbar viele solche Umgebungen u ¨berdecken ja dann die betroffene Menge. Beweis (i): Man kann p ≥ 2 annehmen, denn f¨ ur p = 1 ist D = D1 . Sei u ∈ D r D1 , dann verschwindet eine partielle Ableitung von f nicht am Punkt u , und wir d¨ urfen annehmen ∂f1 /∂x1 (u) 6= 0. Dann ist die Abbildung h : U → Rn ,
x 7→ f1 (x), x2 , . . . , xn
bei u lokal invertierbar, ihre Einschr¨ankung auf eine Umgebung V von u ist ein Diffeomorphismus h : V → V 0 , und die transformierte Abbildung g := f ◦ h−1 hat lokal um h(u) die Gestalt g : (z1 , . . . , zn ) 7→ z1 , g2 (z), . . . , gp (z) .
140
V. Allerleirauh
Wir m¨ ussen die Behauptung f¨ ur g zeigen. Diese Abbildung u ¨berf¨ uhrt die Hyperebene {z | z1 = t} jeweils auf ihrem Definitionsgebiet in die Hyperebene {y | y1 = t}. Sei g t : {t} × Rn−1 ∩ V 0 → {t} × Rp−1 die Einschr¨ ankung von g . Dann ist ein Punkt aus {t} × Rn−1 ∩ V 0 genau dann kritisch f¨ ur g , wenn er kritisch f¨ ur g t ist, weil g die Jacobimatrix 1 0 ··· 0 Dg = ? Dg t hat. Nun hat aber nach Induktionsvoraussetzung die Menge der kritischen Werte von g t das Maß Null in {t} × Rp−1 , also hat die Menge der kritischen Werte von g d¨ unnen Durchschnitt mit jeder Hyperebene {y | y1 = t} , hat also selbst nach Fubini das Maß Null, und das zeigt (i). Beweis (ii): Hier verfahren wir ¨ahnlich wie im Beweis von (i). F¨ ur jeden Punkt u ∈ Dk r Dk+1 gibt es eine (k + 1)-te Ableitung, die im Punkt u nicht verschwindet, wir d¨ urfen annehmen: ∂ k+1 f1 /∂x1 ∂xν1 . . . ∂xνk (u) 6= 0. Sei w : U → R die Funktion w = ∂ k f1 /∂xν1 . . . ∂xνk . Dann ist also w(u) = 0 und ∂w/∂x1 (u) 6= 0, und wie eben definiert die Abbildung h : x 7→ w(x), x2 , . . . , xn ∼ =
eine Karte h : V → V 0 um u , und h(Dk ∩ V ) ⊂ {0} × Rn−1 ⊂ Rn .
4. Der Satz von Sard
141
Betrachten wir also wieder die transformierte Abbildung g := f ◦h−1 : V 0 → Rp und ihre Einschr¨ankung g 0 : {0} × Rn−1 ∩ V 0 → Rp , so hat die Menge der kritischen Werte von g 0 nach Induktionsvoraussetzung das Maß Null. Aber jeder Punkt aus h(Dk ∩ V ) ist kritisch f¨ ur g 0 , weil alle partiellen Ableitungen von g , also auch von g 0 , der Ordnung ≤ k , insbesondere erster Ordnung, verschwinden. Also ist f (Dk ∩ V ) = g ◦ h(Dk ∩ V ) d¨ unn. Beweis (iii): Sei W ⊂ U ein W¨ urfel der Kantenl¨ange a, und sei k>
n − 1. p
Dann zeigen wir, daß f (W ∩ Dk ) d¨ unn ist. Die Taylorformel liefert die Absch¨atzung f (u + h) = f (u) + R(u, h),
|R(u, h)| ≤ c · |h|k+1
f¨ ur u ∈ Dk ∩W und u+h ∈ W , wobei die Konstante c bei gegebenem f und W jetzt fest gew¨ahlt sei. Hier benutzen wir, daß f eine C k+1 Funktion ist, vergleiche (I, 3.6). Nun zerlege W in rn W¨ urfel der Kantenl¨ange a/r . Ist W1 ein W¨ urfel dieser Zerlegung, der einen Punkt u ∈ Dk enth¨alt, so schreibt √ sich jeder Punkt aus W1 als u + h mit |h| ≤ n a/r , und nach der obigen Restgliedabsch¨atzung liegt f (W1 ) in einem W¨ urfel der Kantenl¨ange √ ( n a)k+1 b 2·c· = k+1 , k+1 r r mit einer Konstante b, die nur von W und f , nicht aber von der Zerlegung abh¨angt. Alle diese W¨ urfel zusammen haben eine Volun p p(k+1) mensumme s ≤ r · b /r , und f¨ ur p(k + 1) > n konvergiert dieser Ausdruck mit wachsendem r gegen Null. Die Volumensumme kann also durch Wahl einer gen¨ ugend feinen Zerlegung beliebig klein gemacht werden.
142
V. Allerleirauh
Schauen wir den Beweis noch einmal an, so finden wir, daß wir zuletzt die Taylorentwicklung einer C k+1 -Funktion f benutzt haben, also voraussetzen m¨ ussen, daß f eine C ` -Funktion mit ` > n/p ist. Aber in der Induktion kommen dann ja auch die Dimensionspaare (n − 1, p − 1), . . . und schlimmstens (n − p + 1, 1) vor, sodaß wir also ` > max{0, n − p + 1} benutzt haben. Tats¨achlich gen¨ ugt ` > max{0, n − p}, aber das braucht man auch. H. Whitney hat eine C 1 -Funktion auf der Ebene konstruiert, die auf einer topologisch eingebetteten Strecke das Differential Null hat aber dort nicht konstant ist, sodaß also die Menge der kritischen Werte ein Intervall in R enth¨alt (Duke Math. J. 1 (1935), 514-517).
§ 5. Konvexe Funktionen Eine Teilmenge K ⊂ Rn heißt konvex, wenn sie mit je zwei Punkten p, q auch deren Verbindungsstrecke {λp + µq | λ, µ ≥ 0,
λ + µ = 1}
enth¨alt. Man kann auch (1 − t)p + tq = p + t(q − p), 0 ≤ t ≤ 1, als Parametrisierung der Verbindungsstrecke w¨ahlen.
Beliebige Durchschnitte konvexer Mengen sind offenbar konvex, und daher liegt jede Teilmenge A ⊂ Rn in einer kleinsten konvexen Teil-
5. Konvexe Funktionen
143
menge, n¨amlich dem Durchschnitt aller konvexen Teilmengen, in denen sie liegt. Diese Menge bezeichnet man als die konvexe H¨ ulle der Menge A . (5.1) Beispiel. Die konvexe H¨ ulle von k Punkten p1 , . . . , pk ist die Menge der Punkte λ1 p1 + · · · + λk pk , mit λ1 + · · · + λk = 1 und λj ≥ 0 f¨ ur j = 1, . . . , k .
Beweis: Die beschriebene Menge ist offenbar konvex und enth¨alt alle pj . Umgekehrt schließt man durch Induktion: Ist λk 6= 1 und µ := 1 − λk = λ1 + · · · + λk−1 , so setze λ0j := λj /µ , dann liegt λ1 p1 + · · · + λk pk = µ(λ01 p1 + · · · + λ0k−1 pk−1 ) + λk pk auf der Verbindungsstrecke von pk und einem Punkt der konvexen H¨ ulle von {p1 , . . . , pk−1 } , also in der konvexen H¨ ulle von p1 , . . . , pk . Sei nun K ⊂ Rn eine konvexe Menge. Eine Funktion f : K → R heißt konvex, wenn die Menge der Punkte u ¨ber f , also die Menge {(x, y) | y ≥ f (x)} konvex ist, und das bedeutet offenbar, wenn f¨ ur alle p, q ∈ K gilt: F¨ ur λ, µ ≥ 0 und λ + µ = 1 ist (5.2)
f (λp + µq) ≤ λf (p) + µf (q).
144
V. Allerleirauh
Die Definition einer konvexen Funktion ist nur sinnvoll, wenn das Definitionsgebiet der Funktion konvex ist, und das wollen wir jetzt immer voraussetzen. (5.3) Bemerkung. Ist f : K → R eine konvexe Funktion, so ist die Menge Kc = {x ∈ K | f (x) ≤ c} auch konvex. Beweis: Sind p, q ∈ Kc und λ, µ wie oben, so ist f (λp + µq) ≤ λf (p) + µf (q) ≤ λc + µc = c, also λp + µq ∈ Kc .
Die Definition zeigt unmittelbar, daß eine Funktion genau dann konvex ist, wenn ihre Einschr¨ankung auf jede Strecke konvex ist. Man kann sich daher in vielen Situationen auf das Eindimensionale zur¨ uckziehen, und konvexe Funktionen einer Variablen sind die wichtigsten. F¨ ur eine Funktion ϕ : (a, b) → R ist die Konvexit¨atsbedingung (5.2) ¨aquivalent zu der Bedingung
(5.4)
ϕ(t) − ϕ(s) ϕ(u) − ϕ(t) ≤ t−s u−t
f¨ ur
a < s < t < u < b.
Die Bedingung der Konvexit¨at sagt ja, daß zwischen beiden Termen die Steigung ϕ(u) − ϕ(s) /(u − s) der Strecke liegt, die s, ϕ(s) mit u, ϕ(u) verbindet.
5. Konvexe Funktionen
145
(5.5) Satz. Eine konvexe Funktion auf einer offenen Teilmenge von Rn ist stetig. Beweis: Sei f : K → R die Funktion und p ∈ K . Wir k¨onnen nach Abziehen einer Konstante und einer Translation in K annehmen: p = 0 und f (p) = 0 . Weil K offen ist, liegt noch ein W¨ urfel W der Kantenl¨ange 2s > 0 um 0 in K , und auf den (endlich vielen) Ecken dieses W¨ urfels sei f ≤ c f¨ ur ein c > 0 . Dann liegen diese Ecken in Kc , also ihre konvexe H¨ ulle W auch, also insbesondere f (x) ≤ c f¨ ur |x| = s. F¨ ur ein festes solches x betrachte die konvexe Funktion einer Variablen ϕ(t) := f (tx), −1 ≤ t ≤ 1. Es ist ϕ(0) = 0 und ϕ(1) ≤ c, ϕ(−1) ≤ c . Daraus folgt ϕ(t) ≤ ct,
ϕ(−t) ≥ −ct f¨ ur 0 ≤ t ≤ 1,
aus (5.4) mit 0, t, 1 bzw. −t, 0, 1 f¨ ur s, t, u. Weil aber ϕ(−t) dieselben Voraussetzungen wie ϕ(t) erf¨ ullt, gilt −ct ≤ ϕ(t) ≤ ct, also |ϕ(t)| ≤ ct, und das heißt: |f (tx)| ≤ ct
f¨ ur |x| = s und 0 ≤ t ≤ 1.
F¨ ur beliebiges x mit 0 < |x| ≤ s ist daher |f (x)| = f (|x|/s) · sx/|x| ≤ c|x|/s,
146
V. Allerleirauh
und f (0) = 0 , was die Behauptung zeigt.
Es ist wesentlich, daß K offen ist, siehe die Funktion ϕ : [0, 1] → R mit Wert 0 am Rand und −1 im Inneren. Aus (5.4) folgt mit dem Mittelwertsatz sofort: (5.6) Satz. Eine differenzierbare Funktion f : (a, b) → R ist genau dann konvex, wenn ihre Ableitung monoton w¨achst. Existiert f 00 u ¨berall, so ist f genau dann konvex, wenn stets f 00 ≥ 0 ist. Im H¨oherdimensionalen entnimmt man daraus: (5.7) Satz. Eine C 2 -Funktion f : K → Rn ist genau dann konvex, wenn die Matrix (∂ 2 f /∂xi ∂xj ) u ¨berall positiv semidefinit ist. Beweis: Die Funktion t 7→ f (x + th) hat nach (I, 3.3) bei t = 0 die zweite Ableitung n X
∂ 2 f /∂xi ∂xj (x) hi hj ,
i,j=1
und die Bedingung des Satzes ist, daß dieses nie negativ ist, was nach (5.6) dazu ¨aquivalent ist, daß die Einschr¨ankung von f auf jede Gerade konvex ist. Weil der Durchschnitt einer Familie konvexer Mengen konvex ist, ist das Supremum einer Familie konvexer Funktionen konvex. So haben wir alles in allem einen großen Vorrat konvexer Funktionen. Die wichtigste Aussage u ¨ber sie ist folgende: (5.8) Jensens Ungleichung. Sei X ein Maßraum mit Maß µ , sodaß µ(X) = 1 . Sei f : X → (a, b) integrabel und ϕ : (a, b) → R konvex. Dann gilt Z Z ϕ f dµ ≤ ϕ ◦ f dµ. X
X
Es kann a = −∞ oder b = ∞ sein, und die rechte Seite kann ∞ sein.
5. Konvexe Funktionen
147
R Beweis: Sei t = X f dµ , dann ist a < t < b . Sei β das Supremum u ¨ber s der Differenzenquotienten ϕ(t) − ϕ(s) /(t − s) auf der linken Seite von (5.4), dann steht dort: ϕ(t) − ϕ(s) ϕ(t) − ϕ(u) ≤β≤ , t−s t−u ϕ(t) − ϕ(s) ≤ (t − s)β,
s < t < u,
d.h.
ϕ(t) − ϕ(u) ≤ (t − u)β,
weil (t − u) < 0 . Demnach gilt f¨ ur alle s ∈ (a, b): ϕ(s) − ϕ(t) − β(s − t) ≥ 0.
Dies sagt nur, daß ϕ oberhalb der Geraden durch ϕ(t) mit Steigung β verl¨ auft. Eine solche St¨ utzhyperebene findet man auch im H¨oherdimensionalen durch jeden Punkt einer konvexen Funktion. Nun setze s = f (x), dann haben wir ϕf (x) − ϕ(t) − β f (x) − t ≥ 0, und weil die so als nicht negativ erkannte Funktion µ-meßbar ist, k¨ onnen wir integrieren, und wegen µ(X) = 1 ergibt sich Z Z ϕ ◦ f dµ ≥ ϕ(t) + β f dµ − t , was nach Bestimmung von t die Behauptung ist.
Der Satz gilt mit gleichem Beweis auch im H¨oherdimensionalen. R Das Integral ϕ◦f dµ ist so zu deuten, daß jedenfalls (ϕ◦f )− immer endliches Integral hat, wenn f integrabel ist.
148
V. Allerleirauh
Man kann die Idee im Satz und Beweis so fassen: Die Menge K := {(s, y) | ϕ(s) ≤ y} ist konvex, und die Abbildung X → (a, b) × R , x 7→ f (x), ϕf (x) R R f¨ uhrt in diese Menge, also liegt auch ihr Mittelwert ( f, ϕf ) in K , R R und das heißt ϕ f ≤ ϕf . Jedoch weiß man die Ungleichung erst durch ihre Anwendungen und Spezialisierungen zu w¨ urdigen. Die Funktion ϕ(s) = es ist konvex weil ϕ00 > 0, also Z Z (5.9) exp f dµ ≤ ef dµ. X
X
W¨ahlt man X = {p1 , . . . , pn } mit µ(pj ) = λj und λ1 + · · · + λn = 1 und schreibt f (pj ) = xj , so besagt die Jensensche Ungleichung: (5.10)
ϕ(λ1 x1 + · · · + λn xn ) ≤ λ1 ϕ(x1 ) + · · · + λn ϕ(xn ).
In unserem Fall also: exp(λ1 x1 + · · · + λn xn ) ≤ λ1 exp(x1 ) + · · · + λn exp(xn ), oder wenn wir yj = exp(xj ) setzen: (5.11)
y1λ1 · . . . · ynλn ≤ λ1 y1 + · · · + λn yn , f¨ ur 0 ≤ λj und λ1 + · · · + λn = 1.
Das ist die Ungleichung zwischen dem geometrischen und arithmetischen Mittel. Man nennt darum allgemein in der Ungleichung Z Z (5.12) exp log(g) dµ ≤ g dµ X
X
die linke Seite das geometrische und die rechte das arithmetische Mittel.
5. Konvexe Funktionen
149
Zwei positive reelle Zahlen p und q bilden ein Paar konjugierter Exponenten, wenn 1 1 + = 1, p q
d.h. p + q = pq .
Es ist dann 1 < p, q < ∞, und weil p gegen ∞ geht f¨ ur q gegen 1 , nennt man auch (1, ∞) und (∞, 1) ein konjugiertes Paar. Ein wichtiger Spezialfall ist p = q = 2, und die vertraute Dreiecksungleichung und Schwarzsche Ungleichung in diesem Fall verallgemeinern sich wie folgt: (5.12) Satz. Sei X ein Maßraum und seien p, q konjugierte Exponenten mit 1 < p, q < ∞. Seien f, g : X → [0, ∞] meßbare Funktionen. Dann gilt: (i) H¨ olders Ungleichung. Z Z 1/p Z 1/q f · g dx ≤ f p dx · g q dx . X
X
X
(ii) Minkowskis Ungleichung. Z 1/p Z 1/p Z 1/p p p (f + g) dx ≤ f dx + g p dx . X
X
X
R
Wir schreiben hf, gi := X f · g dx und kf kp = dann heißt das f¨ ur nicht negative Funktionen f und g : (i)
hf, gi ≤ kf kp · kgkq ,
(ii)
kf + gkp ≤ kf kp + kgkp .
R X
1/p f p dx ,
Beweis (i): Ist kf kp = 0 so ist f = 0 fast u ¨berall, also gilt die Ungleichung, ebenso falls kgkq = 0 . Andernfalls kann man f durch f /kf kp und g durch g/kgkq ersetzen, und es gen¨ ugt, die Behauptung f¨ ur kf kp = kgkq = 1 zu zeigen. Nun ist f (x) · g(x) ≤ p−1 f (x)p + q −1 g(x)q
150
V. Allerleirauh
f¨ ur alle x ∈ X nach (5.11), und daraus ergibt sich (i) durch IntegraR R tion, es ist ja jetzt f p = g q = 1 . Beweis (ii): Sei h = (f + g)p−1 , dann gilt:
p ( ∗ ) f +g p = hf +g, hi = hf, hi+hg, hi ≤ kf kp · khkq + kgkp · khkq Nun ist hq = (f + g)p , also Z khkq =
h Z
=
q
1/q
Z =
(f + g)p
p
(f + g)
(1/p)(p−1)
1/q
Z =
(f + g)p
(1/p)·(p/q)
p−1 = f + g p .
, so folgt Setzt man dies in (∗) ein und dividiert durch kf + gkp−1 p die Behauptung jedenfalls, wenn kf + gkp nicht 0 oder ∞ ist. Ist kf + gkp = 0, so ist die Behauptung trivial, ebenso wie wenn kf kp + kgkp = ∞ ist. Aber weil die Funktion t 7→ tp f¨ ur t ≥ 0 konvex ist, gilt 2−p (f + g)p ≤ 21 (f p + g p ), also wenn kf kp + kgkp endlich ist, so ist auch kf + gkp endlich, und damit gilt die Behauptung immer. Wie die Argumente schon zeigen, die Zuordnung
f 7→ kf kp := |f | p definiert eine Norm, die p-Norm. Man bildet dazu die Lp -R¨aume, wie wir den Raum L1 (µ) gebildet haben. Sie spielen eine wichtige Rolle in der Analysis.
Aufgaben Kommen Sie, meine Herren, wir m¨ ussen denken, ungest¨ ort denken! Der Mensch hat mich vorhin konfus gemacht, ich muß mir wieder heraushelfen. K¨ onig Peter
Zu Kapitel I 1. Skizziere folgende ebenen Kurven und berechne ihre Bogenl¨ange: (i) γ : [0, 2π] → R2 , γ(t) = (1 − cos t) cos t, (1 − cos t) sin t , die Kardioide, und (ii) δ : [0, ∞) → C = R2 , δ(t) = eat , a ∈ C , Re(a) < 0, die logarithmische Spirale. 2. Seien γ : [0, 1] → Rn und δ : [0, 1] → Rm differenzierbar, und sei α : Rn × Rm → Rk eine bilineare Abbildung. Formuliere und beweise eine Produktregel f¨ ur die Ableitung von t 7→ α γ(t), δ(t) . 3. Eine differenzierbare Funktion f : Rn r{0} → R heißt homogen vom Grad α > 0, wenn gilt: f (tx) = tα f (x) f¨ ur alle x ∈ Rn r {0} und t > 0. Zeige, daß f genau dann homogen vom Grad α ist, wenn die Eulersche Relation αf (x) =
n X j=1
xj
∂f (x) ∂xj
u ¨berall erf¨ ullt ist. Hinweise: i) Differenziere g(t) := f (tx) bei t = 1 nach t. ii) Zeige: tg˙ = αg lokal um t = 1 =⇒ g(t) = c · tα .
152
Aufgaben
4. Betrachte die Funktion f : R2 → R , ( f (x, y) =
x3 x2 +y 2
0
f¨ ur (x, y) 6= (0, 0), sonst.
Zeige: i) f ist am Ursprung stetig aber nicht differenzierbar. ii) F¨ ur jede differenzierbare Kurve γ : [a, b] → R2 ist auch f ◦ γ differenzierbar. Insbesondere ist f u ¨berall partiell differenzierbar. iii) F¨ ur die Kurve γ(t) = γ1 (t), γ2 (t) = (t, t) gilt am Ursprung nicht die Kettenregel ∂f ∂f d (f ◦ γ)(t) = γ(t) · γ˙ 1 (t) + γ(t) · γ˙ 2 (t). dt ∂x ∂y 5. Zeige, daß die Abbildung f : Rn → Rn , f (x) = |x| · x , u ¨berall differenzierbar ist, und berechne ihre Jacobimatrix. 6. Sei U eine zusammenh¨angende offene Menge in Rn , seien K und a positive reelle Zahlen, und sei f : U → Rp eine Abbildung, sodaß |f (x) − f (y)| ≤ K · |x − y|a f¨ ur alle x, y ∈ R . (i) Sei a > 1. Ist f differenzierbar? Welche Funktionen f erf¨ ullen dies? (ii) Sei a ≤ 1. Muß f differenzierbar sein? 7. Eine offene Menge U ⊂ Rn heißt sternf¨ ormig mit Zentrum p , wenn gilt: F¨ ur jedes u ∈ U und 0 ≤ t ≤ 1 ist auch p + t(u − p) ∈ U . Dies sei nun der Fall, und sei v = (v1 , . . . , vn ) : U → Rn stetig differenzierbar. Zeige: Ist ∂vi /∂xj = ∂vj /∂xi f¨ ur alle i, j , so t 2 ist v = grad(f ) f¨ ur eine C -Funktion f : U → R mit f (p) = 0. Hinweis: d/dt f (p + tx) = ? Die Bedingung, daß f sternf¨ormig ist, ist nicht u ¨berfl¨ ussig, Beispiel? Hinweis: Die Polarkoordinate ϕ ist keine wohldefinierte Funktion, wohl aber grad ϕ = ?
Zu Kapitel I
153
8. Berechne den Jet der Funktion f mit f (x, y) =
x−y x+y
an der Stelle (1, 1). Was ergibt sich f¨ ur ∂ 3 f /∂x2 ∂y(1, 1) ? 9. Sei f : Rn → R eine rotationssymmetrische C ∞ -Funktion, also konstant auf Sph¨aren um den Ursprung. Zeige, daß es eine Potenzreihe p(t) einer Variablen gibt, sodaß j0∞ f (x) = p(|x|2 ). 10. Untersuche die Funktion f (x, y) = x2 + y 2 − xy − 2x + y auf lokale Extrema und Sattelpunkte. 11. Finde alle kritischen Punkte der Funktion: f : R2 → R, f (x, y) = ey cos x + ex cos y . 12. Sei f eine C ∞ -Funktion auf einer offenen Kugel U um den Ursprung von Rn . Zeige: f (x) = j0k f (x) +
X
ϕα (x) · xα
|α|=k+1
f¨ ur C ∞ -Funktionen ϕα : U → R . Hinweis: Integraldarstellung des Restglieds der Taylorentwicklung. 13. Sei f : Rn → R eine C α -Funktion und homogen vom Grad α . Zeige, daß f ein Polynom vom Grad α ist. 14. Sei f : Rn → R eine k-mal stetig differenzierbare Funktion und p ein Polynom vom Grad k , so daß limh→0 f (h) − p(h) /|h|k = 0. Zeige: p = j0k f . 15. Die C k -Funktion f habe am Ursprung den (homogenen!) k-Jet p(x) =
X |α|=k
aα xα ,
154
Aufgaben
und es sei k > 0 und p(x) > 0 f¨ ur x 6= 0 . Zeige, daß f am Ursprung ein lokales Minimum hat. 16. Zeige, daß die Funktion f (x, y) = 3x4 − 4x2 y + y 2 , eingeschr¨ankt auf eine beliebige Gerade durch den Ursprung, dort ein lokales Minimum hat. Ist der Ursprung auch ein lokales Minimum von f : R2 → R ? 17. Bestimme alle lokalen Extrema der Funktion f : R2 → R , f (x, y) = sin(x) · sin(y) · sin(x + y) .
Zu Kapitel II 1. Gegeben sei eine Abbildung f : Rn → Rn , die in folgendem Sinne nahe der Identit¨at ist. F¨ ur g(x) := x − f (x) sei |g(x) − g(z)| ≤ λ · |x − z| f¨ ur alle x, z ∈ Rn , mit einer Konstante λ < 1 . Zeige, daß die Abbildung f : Rn → f ( Rn ) ein Hom¨oomorphismus ist. 2. Zeige, daß f (x) := x + f : Rn → Rn definiert.
1 2n (|x|, . . . , |x|)
eine bijektive Abbildung
3. Seien f, g : Rn → Rn stetig differenzierbar, sei f ein Diffeomorphismus und g(x) = 0 f¨ ur x außerhalb von einem Kompaktum. Zeige, daß es ein ε > 0 gibt, sodaß auch f +λg ein Diffeomorphismus ist, f¨ ur alle λ ∈ R , |λ| < ε . Hinweis: Reduziere die Behauptung auf den Fall f = id . 4. Sei f eine C 2 -Funktion und u ein kritischer Punkt von f mit nicht ausgearteter Hessematrix. Zeige, daß f in einer Umgebung von u keinen weiteren kritischen Punkt hat. 5. (i) F¨ ur f : R2 → R2 , f (x, y) = (x2 − y 2 , 2xy) bestimme die Punkte von R2 , wo f lokal invertierbar ist. Ist f surjektiv? Ist f injektiv? (ii) Ebenso f¨ ur f (x, y) = ex+y cos(x − y), ex+y sin(x − y) .
Zu Kapitel II
155
6. Zeige, daß durch das Gleichungssystem x2 − y cos(uv) + z 2 = 0, x2 + y 2 − sin(uv) + 2z 2 = 2, xy − sin(u) · cos(v) + z = 0, lokal um (x0 , y0 , z0 , u0 , v0 ) = (1, 1, 0, π/2, 0) die Werte von x, y, z in R5 als Funktionen von u und v eindeutig bestimmt sind, und berechne ∂x ∂x (π/2, 0) und (π/2, 0). ∂u ∂v 7. Sei f : R2 → R2 eine stetig differenzierbare Abbildung, deren Jacobimatrix u ¨berall regul¨ar ist und nicht negative Koeffizienten hat. Zeige, daß f injektiv ist. Zeige, daß eine analoge Behauptung f¨ ur R3 falsch w¨are. Hinweis: Beides ist nicht einfach. 8. Zeige, daß M := {(x, y, z) | x2 + y 4 + z 4 = 1} eine 2-dimensionale Untermannigfaltigkeit des R3 ist. Gib eine Karte um den Punkt p = (0, 0, 1) von M und eine lineare Gleichung f¨ ur den Tangentialraum Tp M ⊂ R3 an. Zeige, daß M hom¨oomorph zur Sph¨are S 2 ist. 9. Sei M = {(x, y, z) ∈ R3 | x3 + y 3 + z 3 = 3}. Zeige, daß M eine zweidimensionale Untermannigfaltigkeit von R3 ist und beschreibe den Tangentialraum Tp (M ) an p = (1, 1, 1) durch eine lineare Gleichung. Zeige, daß M hom¨oomorph zu R2 ist. 10. Sei f : Rn+1 → R differenzierbar und grad f (x) = g(x) · x f¨ ur n+1 eine Funktion g : R → R . Zeige, daß f auf Sph¨aren um den Ursprung konstant ist. 11. Sei M ⊂ Rn eine differenzierbare Untermannigfaltigkeit, sei p ∈ Rn r M , und die Abbildung M → R , x 7→ |p − x| nehme im Punkte q ∈ M ein Minimum an. Zeige, daß der Vektor p−q zu Tq M orthogonal ist.
156
Aufgaben
12. Sei G eine symmetrische reelle (n × n)-Matrix, a ∈ Rn und b ∈ R . Betrachte die Abbildung f : Rn → R, f (x) = txGx + 2 t ax + b. (i) Gib ein lineares Gleichungssystem f¨ ur die Menge S der Punkte an, wo f = Df = 0 ist. (ii) Sei M = {x ∈ Rn | f (x) = 0, Df (x) 6= 0}. Dann ist M eine (n−1)-dimensionale Untermannigfaltigkeit von Rn . Sei p ∈ M . Gib eine lineare Gleichung f¨ ur die Tangente p + Tp M von M im Punkt p an. 13. Sei f : Rn → R eine stetig differenzierbare homogene Funktion, und sei M = {f = 0} ⊂ Rn . Sei V die Menge der Vektoren γ(0) ˙ f¨ ur n 1 C -Kurven γ : (−ε, ε) → M ⊂ R mit γ(0) = 0 . Zeige: M = V . 14. Sei G eine symmetrische reelle (n × n)-Matrix und sei f in Aufg. 13 durch f (x) = txGx gegeben. Zeige, daß V genau dann ein Vektorraum ist, wenn G semidefinit ist. 15. Bestimme die Punkte (x, y) ∈ R2 mit x4 + y 4 − 4xy = 9, die den gr¨oßten und die den kleinsten Abstand vom Ursprung haben. 16. Berechne das Maximum und das Minimum von f : R3 → R, f (x, y, z) = x − y + 2z auf dem Ellipsoid M = {(x, y, z) | x2 + y 2 + 2z 2 = 2}. 17. In der Situation von (4.2) der Methode der Multiplikatoren ist die Hesseform von f |M in p gegeben durch Hp (f |M ) = Hp (f + λ1 g1 + · · · + λn gn )|Tp M. Dies reduziert die Berechnung der Hesseform von f |M in p , wenn man die erforderlichen Ableitungen der beteiligten Funktionen in p berechnet hat, auf eine Aufgabe der linearen Algebra. Hinweis: Die Funktion f + λ1 g1 + · · · + λn gn ist in p kritisch, und sie stimmt auf M mit f berein. Transformiert man nun Rm+n lokal um p , so wird ihre Hesseform mit der Jacobischen der Transformation linear transformiert.
Zu Kapitel III
157
18. (i) Berechne die Enveloppe der Geradenschar in R2 : Mc = {(x, y) | y − 2cx + c2 = 0}. (ii) Gib eine Gleichung g(x, y, c) einer Geradenschar in R2 an, deren Enveloppe die Kurve y = x3 ist. Hinweis: Dies ist etwas t¨ uckisch. Das Naheliegende erweist sich als mangelhaft. Kann man den Mangel beheben? 19. F¨ uhre in § 3 einiges n¨aher aus, insbesondere: (i) Sei M ⊂ Rn eine C ` -Untermannigfaltigkeit und f : M → Rp eine Abbildung. Definiere “ f ist C k ”. Definiere rgx f f¨ ur x ∈ M . p Wann soll q ∈ R ein singul¨arer Wert von f heißen? Hinweis: Denke an die Tangentialabbildung von f . (ii) Begr¨ unde die Beschreibung von T(x,c) M auf Seite 69. Man kann z.B. annehmen: C = {c | f (c) = 0} f¨ ur ein regul¨ares Gleichungssystem f auf Rk . (iii) Warum hat die Tangentialabbildung der Projektion p : M → U stets mindestens den Rang n − 1 ?
Zu Kapitel III 1. Zeige, daß monotone Funktionen R → R meßbar sind. 2. Sei X ein abz¨ahlbarer Meßraum. Zeige, daß X die disjunkte Vereinigung von abz¨ahlbar vielen meßbaren Teilmengen An ist, wobei jedes An außer jeweils ∅ und An keine meßbaren Teilmengen hat (abz¨ahlbare Mengen k¨onnen auch endlich 6= ∅ sein). 3. Sei U eine offene Teilmenge von R×[0, ∞) und sei f : R → [0, ∞] definiert durch f (x) = max 0, sup{y | (x, y) ∈ U } . Zeige, daß f f¨ ur die Borelalgebren meßbar ist. 4. Zeige, daß die Menge der reellen Zahlen, deren Dezimalentwicklung die Ziffer 2 enth¨alt, in R Borel-meßbar ist.
158
Aufgaben
5. Sei (fn ) eine Folge meßbarer Funktionen auf dem Meßraum X . Zeige, daß die Menge {x ∈ X | fn (x) konvergiert} meßbar ist. 6. Sei (X, A, µ) eine Mengenalgebra mit einem Pr¨amaß, sodaß die Maßregeln erf¨ ullt sind, und sei µ∗ das induzierte ¨außere Maß auf der Potenzmenge von X . Sei M ∈ A , µ(M ) < ∞ , und Y ⊂ M eine Teilmenge, sodaß µ∗ (Y ) + µ∗ (M r Y ) = µ∗ (M ). Zeige, daß Y dann µ∗ -meßbar ist. 7. Sei (X, A, µ) ein Maßraum. Zeige, daß durch µ∗ (Y ) = min{µ(A) | Y ⊂ A ∈ A} ein ¨außeres Maß auf der Potenzmenge von X definiert wird. F¨ ur dieses gilt µ∗ (Y ∪ Z) + µ∗ (Y ∩ Z) ≤ µ∗ (Y ) + µ∗ (Z). Eine Teilmenge Y ⊂ X ist genau dann µ-meßbar, wenn sie µ∗ meßbar ist, und in diesem Fall ist µ(Y ) = µ∗ (Y ). 8. Gilt f¨ ur ein ¨außeres Maß auf der Potenzmenge einer Menge X stets µ∗ (Y ∪ Z) + µ∗ (Y ∩ Z) ≤ µ∗ (Y ) + µ∗ (Z) ? Hinweis: Untersuche kleine Mengen X . 9. (i) Eine Funktion F : R → R heißt rechts stetig, wenn f¨ ur alle p ∈ R stets limx&p F (x) = F (p) gilt. Nun sei µ ein Maß auf R und µ( R) endlich. Zeige, daß durch F (x) = µ(−∞, x] eine rechtsstetige monoton wachsende Funktion F : R → R definiert wird. Sie heißt die Verteilung von µ . (ii) Sei umgekehrt F : R → R monoton wachsend und rechtsstetig. Zeige, daß die endlichen disjunkten Vereinigungen von Intervallen der Gestalt (a, b] eine Mengenalgebra A auf R bilden und daß durch µ(a, b] = F (b) − F (a) ein Pr¨amaß auf A definiert wird. Das induzierte Maß und Integral auf R heißt nach Stieltjes.
Zu Kapitel III
159
10. Sei q : N → Q eine Bijektion. Erkl¨are ein Maß µ auf R durch µ=
∞ X
2−n δq(n) ,
n=1
wobei δq das Dirac-Maß f¨ ur q ist. An welchen Stellen in R ist die Verteilung von µ unstetig? 11. (i) Sei ϕ : R → [0, ∞) eine integrable Funktion und sei λ das Lebesgue-Maß auf R . Zeige, daß durch Z µ(Y ) := ϕ dλ Y
ein Maß auf R definiert wird. (ii) Konstruiere ein Maß µ auf R mit µ( R) = 1, f¨ ur das gilt: Genau dann ist Y ⊂ R eine Nullmenge f¨ ur µ , wenn Y eine Nullmenge f¨ ur das Lebesguemaß ist. 12. Sei X abz¨ahlbar, X 6= ∅, und µ das Maß auf X , f¨ ur das die einpunktigen Mengen meßbar vom Maß 1 sind. Zeige: (i) Es gibt genau ein solches Maß. (ii) Eine reelle Funktion f : X → R ist genau dann f¨ ur dieses P ur irgendeine (und dann f¨ ur jede) Maß integrabel, wenn x∈X f (x) f¨ Abz¨ahlung von X absolut konvergiert. P ur irgendeine Abz¨ahlung von (iii) Folgere: Ist die Reihe nm f¨ n,m aP P P N × N absolut konvergent, so ist n ( m anm ) = n,m anm . (großer Umordnungssatz, Doppelreihensatz). 13. Zeige mit einem Konvergenzsatz, daß die Zetafunktion ζ(s) =
∞ X
n−s
n=1
f¨ ur s > 1 stetig auf R ist. 14. Sei (X, M, µ) ein Maßraum und f : X → Y eine Abbildung von Mengen. Zeige, daß durch f∗ µ(A) := µ(f −1 A)
160
Aufgaben
ein Maßraum (Y, f∗ M, f∗ µ) erkl¨art wird. Zeige, falls eine Seite existiert: Z Z g ◦ f dµ = g d(f∗ µ). X
Y
15. Zeige, daß der Raum der Riemann-integrablen Funktionen auf dem Einheitsintervall f¨ ur die L1 -Norm nicht komplett ist. 16. Ein translationsinvariantes Maß f¨ ur die Borelalgebra des Rn , das f¨ ur den W¨ urfel im ersten Quadranten mit achsenparallelen Kanten der L¨ange 1 und 0 als Ecke das Maß 1 liefert, ist das Lebesguemaß. Hinweis: Zerlege den W¨ urfel in gleiche Teile, verschiebe sie, approximiere Quader.
Zu Kapitel IV 1. Berechne das Volumen der Teilmenge P ⊂ R3 der Punkte (x, y, z) mit 0 ≤ y ≤ sin x, 0 ≤ x ≤ (π/2)(1 − z), 0 ≤ z ≤ 1. Zeichne eine Skizze von P . 2. Berechne das Volumen der Menge P ⊂ R2 der Punkte (x, y), mit (x2 + y 2 )3 ≤ 9x2 . 3. Berechne das Volumen von P ⊂ Rn , wo P die Menge der Punkte t1 v1 + · · · + tn vn mit 0 ≤ tj und t1 + · · · + tn ≤ 1 ist und die Vektoren v1 , . . . , vn eine Basis von Rn bilden. 4. Eine Funktion f : Rn → R heißt Riemann-integrabel, wenn sie beschr¨ ankt ist, außerhalb einer beschr¨ankten Menge in Rn verschwindet, und fast u ¨berall stetig ist. Zeige, daß diese Funktionen Lebesgue-integrabel sind. 5. Berechne den Schwerpunkt und das Volumen der Menge P ⊂ R3 der Punkte (x, y, z) mit
Zu Kapitel IV
161
x2 + y 2 ≤ (1 − cos z)2 . R∞ 6. Mit Fubini und der Relation 1/x = 0 e−xt dt zeige: 0 ≤ z ≤ π/2,
Z∞ 0
sin x π dx = . x 2
7. Sei I das Einheitsintervall und gn : I → [0, ∞) definiert durch: gn (t) = n(n + 1)
f¨ ur
1 1 < t < , und gn (t) = 0 sonst. n+1 n
Definiere f : I × I → [0, ∞) durch f (x, y) =
∞ X
gn (x) − gn+1 (x) gn (y).
n=1
R1R1
R1R1 Berechne 0 0 f (x, y) dx dy und 0 0 f (x, y) dy dx . Wie vertr¨agt sich das Ergebnis mit dem Satz von Fubini? 8. Sei X = Y = [0, 1], sei λ das Lebesguemaß auf X und ζ das Z¨ahlmaß auf Y . Sei f die charakteristische Funktion der Diagonale {(x, x) | x ∈ [0, 1]} ⊂ X × Y . Berechne Z Z Z Z f (x, y) dζ dλ und f (x, y) dλ dζ. X
Y
Y
X
Wie vertr¨agt sich das Ergebnis mit dem Satz von Fubini? 9. Zeige, da auf Rn das Integral Z |x|α dx,
c > 0,
|x|≤c
genau dann endlich ist, wenn n + α > 0 , und berechne es. 10. Sei U offen in Rn , sei f : U → R stetig differenzierbar und f |A = 0 f¨ ur eine Teilmenge A ⊂ U . Zeige: Z ∂f /∂xj dx = 0, j = 1, . . . , n. A
162
Aufgaben
Zu Kapitel V 1. Sei B die Menge der Borel-meßbaren Teilmengen von R . Zeige, daß B die M¨achtigkeit von R hat; mit anderen Worten: B l¨aßt sich bijektiv auf P(N ) abbilden. 2. Sei C ⊂ [0, 1] die sogenannte Cantor-Menge der reellen Zahlen in deren Dezimalentwicklung nur die Ziffern 0 und 3 auftreten. Zeige: C ist kompakt; das Lebesguemaß λ1 (C) ist Null; es gibt eine stetige monotone Surjektion C → [0, 1] . Folgere mit Aufg. 1: Es gibt Nullmengen in R, die nicht Borel-meßbar sind. 3. Offenbar gibt es nach § 1 in R2 eine nicht Borel-meßbare Nullmenge, n¨amlich? 4. Sei C ⊂ R kompakt und f : C → R stetig. Zeige, daß sich f stetig auf R fortsetzen l¨aßt. Zeige mit Aufg. 2, daß es eine Nullmenge M in [0, 1] und eine stetige Abbildung f : [0, 1] → [0, 1] gibt, sodaß f (M ) nicht Lebesgue-meßbar ist. 5. Sei I das Einheitsintervall. Zeige, daß es eine nicht integrable Funktion f : I × I → I gibt, f¨ ur die das iterierte Integral Z1 Z1 0
f (x, y) dx dy
0
wohldefiniert und endlich ist. Man kann also den Satz von Fubini nicht umkehren. 6. Sei U nicht leer und offen in Rn+k und k ≥ 1. Zeige, daß eine stetig differenzierbare Abbildung f : U → Rn nicht injektiv sein kann. (Tats¨ achlich gilt dasselbe f¨ ur stetiges f ). 7. Sei U offen in Rn und f : U → U stetig differenzierbar, mit f ◦ f = f . Zeige, daß es lokal um jeden Punkt p ∈ U eine stetig ∼ = differenzierbare Koordinatentransformation ϕ : U ⊂ U1 → U10 ⊂ Rn gibt, sodaß
Zu Kapitel V
163
ϕ ◦ f ◦ ϕ−1 (x1 , . . . , xn ) = (x1 , . . . , xr , 0, . . . , 0). Beachte, daß hier im Bild- und Urbildraum die gleiche Transformation zu w¨ahlen ist. 8. Zeige, daß eine C ∞ -Abbildung f : Rn → Rn+1 nicht surjektiv sein kann. 9. Sei O(n) die Menge der orthogonalen Matrizen im Vektorraum V ∼ = Rn·n aller reellen (n × n)-Matrizen. Zeige, daß O(n) eine Untermannigfaltigkeit der Dimension 21 n(n − 1) von V ist. Hinweis: Sei S der reelle Vektorraum der symmetrischen (n × n)Matrizen. Zeige, daß die Einheitsmatrix E ∈ S ein regul¨arer Wert der Abbildung V → S , x 7→ tXX ist. Zeige, daß der Tangentialraum von O(n) am Punkt E der Vektorraum der schiefsymmetrischen reellen (n × n)-Matrizen ist. 10. Sei ϕ : U → V eine bijektive C ∞ -Abbildung offener Teilmengen von Rn und sei f : V → R integrabel. Zeige, daß die Transformationsformel Z Z f = f ◦ ϕ · | det Dϕ| V
U
immer noch gilt, auch wenn ϕ−1 nicht differenzierbar ist. 11. Sei U offen in Rn und f : U → R eine C ∞ -Funktion. F¨ ur a ∈ Rn erkl¨ are ga : U → R durch ga (x) = f (x) + ha, xi . Zeige, daß ga f¨ ur fast jedes a ∈ Rn nur kritische Punkte mit nichtentarteter Hesseform hat. 12. Sei U offen in Rn und f : U → R eine C 2 -Funktion. Sei p ∈ U ein kritischer Punkt mit positv definiter Hesseform. Zeige, daß f¨ ur gen¨ ugend kleines ε > 0 die Menge Dε = x ∈ U f (x) − f (p) < ε hom¨oomorph zum n-Ball Dn = x |x| ≤ 1 und ihr Rand hom¨oomorph zu S n−1 ist. ¨ 13. Zeige, daß jede offene Uberdeckung des Rn eine abz¨ahlbare Teil¨ uberdeckung enth¨alt. Pr¨azisiere und beweise die Aussage, daß eine lokal d¨ unne Teilmenge des Rn d¨ unn ist.
Literatur Außer dem schon im ersten Bande empfohlenen Buch: S. Lang: Undergraduate Analysis. Springer-Verlag, New York 1983, empfehle ich besonders auch die “gr¨ une Analysis” vom selben Autor: S. Lang: Real Analysis. Addison-Wesley, Reading, Mass. 1969. Hier findet man auch Grundlegendes u ¨ber Funktionalanalysis, Differentialgleichungen und globale Integrationstheorie. Als einf¨ uhrendes Lehrbuch u ¨ber Mannigfaltigkeiten mit vielen Figuren und Erkl¨arungen empfehle ich: ¨ cker, K. Ja ¨ nich: Einf¨uhrung in die Th. Bro Differentialtopologie. Springer Verlag, Heidelberg 1990. F¨ ur die Maß- und Integrationstheorie habe ich außer dem Buch von Lang auch W. Hackenbroch: Integrationstheorie. Teubner, Stuttgart 1987, H. Bauer: Wahrscheinlichkeitstheorie und Grundz¨uge der Maßtheorie, Berlin, de Gruyter 1968 ¨ nich zur¨uckgehen, und Notizen, die auf eine Vorlesung von K. Ja zu Rate gezogen. Dem Buch von
W.H. Fleming: Functions of Several Variables. Addison-Wesley, Reading, Mass. 1966 bin ich bei den Mitteilungen u ¨ber die Beta- und Gammafunktion und das Volumen der Kugel gefolgt. Man findet da auch sonst viel Konkretes und Ersprießliches. Bei der Erkl¨arung der Enveloppe hat mich R. Thom: Sur la th´eorie des enveloppes. Journ. de Math., tome XLI, Fasc. 2 (1962)
Literatur
165
angeregt. Dieser Gegenstand scheint aus den neueren Lehrb¨ uchern der Analysis verschwunden zu sein, obwohl er in der Theorie der Differentialgleichungen bedeutsam ist und auch etwas beschreibt, was man im t¨aglichen Leben, beim Wein und bei Lampenschein, unmittelbar sehen kann. Nicht holonome Nebenbedingungen in der Mechanik sind zum ersten Mal von ¨ A. Voss: Uber die Differentialgleichungen der Mechanik. Math. Ann. 25 (1885), 258-286 bemerkt und systematisch untersucht worden. Das Wort holonom hat wohl H. Hertz in seinem hinterlassenen Buch u ¨ber Mechanik gepr¨agt, und durch das Lehrbuch von A. Sommerfeld: Mechanik. Akademische Verlagsanstalt, Leipzig (viele Auflagen) ist der Begriff zum u ¨blichen Bestand der physikalischen Lehrb¨ ucher gekommen. Die eigentliche Quelle der Einsicht ist nat¨ urlich im Satz von Frobenius zu suchen. Die beliebteste Quelle f¨ ur den Beweis des Morselemmas und des Satzes von Sard sind die Schriften (und Perlen der mathematischen Literatur) von J. Milnor: Morse Theory. Annals of Math. Studies 51, Princeton Univ. Press 1963, J. Milnor: Topology from the Differentiable Viewpoint. The Univ. Press of Virginia, Charlottesville 1965. F¨ ur unseren Beweis des Morselemmas vergleiche: M.W. Hirsch: Differential Topology. Springer Verlag, New York 1976. Zu dem Abschnitt u ¨ber konvexe Funktionen vergleiche außer dem genannten Buch von Fleming auch das Buch von W. Rudin: Real and Complex Analysis. McGraw-Hill 1974, dem ich auch einige Aufgaben entnommen habe.
Symbolverzeichnis γ˙ Geschwindigkeitsvektor 2
{f > a} = {x | f (x) > a} 77
s(γ) Bogenl¨ange 5
lim = lim sup 77
Df Jacobimatrix 11
f+ = max(f, 0) , f− 78
∂fi /∂xj = Dj fi partielle Ableitung 14
µ Maß 79
t
t
∞ Unendlich 79
v , A transponiert 16
δp Dirac-Maß 79
Dα f , xα , α! Multiindex 22
ζ Z¨ ahlmaß 80
|α| Ordnung 22
χA charakter. Funktion 81
C k , C k (U ) 22
µ∗ ¨ außeres Maß 83
C ∞ , C ∞ (U ) 22
T (µ) Treppenfunktionen 90
jpk f Jet 23 Hp Hessematrix 32 |A| Operatornorm 38 kAk 39 inv inverse Matrix 40 d(x, y) Metrik 41 Dx f 52 rgp f Rang 54 S n Sph¨are 57 Tp M Tangentialraum 57 Tp f Tangentialabbildung 63 kf k1 L1 -Norm 73, 90, 94, 97 ∞ F disjunkte Vereinigung 75 j=1
M(S) erzeugte σ-Algebra 75
N (µ) Nullfunktionen 91 R f dµ Integral 92 Y
L1 (µ) integr. Funktionen 93 A ⊗ B, µ ⊗ ν Produkt-Maß 106 dx, dµ , µ(dx) 108 My = {x | (x, y) ∈ M } 110 M f = {(x, t) | 0 ≤ t < f (x)} 110 λn Lebesguemaß 113 d(y1 , . . . , yn ) = det Dϕ 116 d(x1 , . . . , xn ) Γ(u) Gammafunktion 127 B(u, v) Betafunktion 127 cn Volumen des Balls 114, 127
Namen- und Sachverzeichnis A ableiten, Integral 35 f, 103 Ableitung 2, 10 −, h¨ohere 22 abz¨ahlbar, Meßraum 157, 159 ¨ −, Uberdeckung 163 additiv 80 f σ-additiv 79, 81 adjungierte Matrix 40 affin 13, 28, 119 Algebra, Mengen 81, 107 σ-Algebra 74 ff algebraische Funktion 52 Anfangspunkt 3 Anordnung, Expon. 22 Approx., lineare 13, 47, 51, 60 Archimedes 89 arithmetisches Mittel 148 Atlas 54 Aufl¨osung, Gleichung 49 ff ¨außeres Maß 83, 88, 158 Aussch¨opfung 89, 100 Auswahlaxiom 129 Aut 38 B Ball, Kugel 127 f Banach, Fixpunktsatz 41 f −, Raum 73, 97 102, 115 Beppo Levi 98, 105 beschr¨ankte stetige Fktn 43 Betafunktion 127
Betrag integrabel 94 Beweggsinv., Integral 120, 129 Bild, direktes 75 Bildmaß 159 f Bogenl¨ange 5 Borelalgebra 76, 107, 162 C C k , C ∞ 2, 22, 157 Cantormenge 162 Carath´eodory 85 L1 -Cauchyfolge 73, 91 Cavalieris Prinzip 109, 114 charakteristische Funktion 81 chinesische Notation 15 D Df 10 definit 31, 146 det, Determinante 40, 116, 119 Diagonalisierung 34 diffeomorph 43 ff Diffeomorphismus 43 ff, 154 Differential 10, 12, 61 Differenzenquotient 10 differenzierbar 2, 10, 17 ff differenzieren, Integral 35, 102 Dimension 53 ff Dirac-Maß 79, 159 direktes Bild 75 Diskriminante 52 dominierte Konvergenz 98
168
Namen- und Sachverzeichnis
Doppelreihensatz 159 Dreiecksmatrix 136 Dreiecksungleichung 91 d¨ unn 120, 139, 163
−, −, −, −,
E Eigenwert 34, 67 einfache Funktion 79 einfache Wurzel 52 Einh¨ ullende 68 ff, 157 Einrad 66 elementare Funktion 79 Elementarw¨ urfel 76 Ellipse 3 f Enveloppe 68 ff, 157 −, Bedingung 70 End(V ) = Hom(V, V ) 40 σ-endlich 82, 87, 108 Endpunkt 3 Erzeugnis, σ-Algebra 75, 107 f Euler, B(u, v) 127 −, Relation 151 Evolute 71 exp konvex 148 Exponent 22 Extremum 30, 56 −, Nebenbdg. 64 ff, 156
G Gammafunktion 126 ff Gaußverteilung 126 geometrisches Mittel 148 Geschwindigkeit 2, 5 −, Vektor 2, 58 gleichm¨aßig stetig 36 −, Limes 18, 43 Gleichung, Aufl¨osung 49 ff grad, Gradient 17, 21, 60, 152 Graph 60, 122 Grenzfunktion diffbar 18 − integrabel 98 ff − meßbar 77 großer Umordnungssatz 159 gr¨oßte σ-Algebra 75, 78 Guldin, Regel 126
F fakult¨at 22 fast u ¨berall (jeder) 88, 103 ff Fixpunktsatz 42 Fl¨ache 2. Ordnung 56 f, 156 Fubini, Satz 111, 161 f Funktion, differenzierbar 10
elementar 79 integrabel 92 konvex 142 meßbar 76
H Hahn, Maßerw. 82 ff, 110, 113 Halbnorm 90 Hauptachsentrf. 32, 67, 135 Hesse, Form 32, 135, 156, 163 −, Matrix 32, 135, 154 H¨ohenlinie 56 h¨ohere Ableitungen 22 H¨older, Ungl. 149 holonom 66 Hom 10, 38 homogen 151, 153, 156
Namen- und Sachverzeichnis
169
−, Integral 114 −, positiv 91 H¨ ulle, konvexe 143 Huygens, Prinzip 71 hyperbolisches Paraboloid 31
J Jacobimatrix 14, 17 f −, Determinante 116 ff, 122 ff Jensen, Ungleichung 146 Jet 23, 28
I Immersion 143 immersiv 134 implizite Funktion 43 ff, 49 ff −, Ableitung 53 inf(fj | j ∈ N ) meßbar 77 infinitesimale Nebenbdg. 65 ff integrable Funktion 92, 105 −, nicht 100, 129 integrable Nebenbdg. 66 Integral 3, 89 ff, 110 −, Abschtzung 8 −, Abbildung 101, 110 f −, Invarianz 113, 129, 160 −, iteriertes 111 −, Konstruktion 89 ff − l¨angs einer Kurve 7 − monoton 94 −, nicht neg. Fktn. 103, 110 −, Regeln 93 −, Transformation 115 ff, 163 −, uneigentliches 101 inv, inverse Matrix 40 Invarianz, Integral 113, 129, 160 inverse Matrix 40 invertierbar 40, 44 Iterationsverfahren 42 f
K Kaffeetasse 72 Kardioide 151 Karte 54, 61, 62 ff Kartenwechsel 48, 63 Kaustik 72 Kettenregel 13, 16, 25, 152 kleinste σ-Algebra 75, 79 Kodimension 55 kompaktes Intervall 35 Komplement 74 komplett, vollst. 41, 96, 160 Komponente 2, 13 ff konjug. Exponenten 149 Konstruktionslemma 91 kontrahierend 41 Kontraktionslemma 42 kontravariant 63 Konvergenz, dominierte 98 −, gleichm¨aßige 18, 41 −, L1 97 −, monotone 98, 105 −, Norm 96 −, punktweise 77, 91, 96 konvex 142 ff −, Funktion stetig 145 Koordinaten 48, 54, 61 −, Transformation 48, 63
170
Kreis 3, 5, 130 kritisch 29, 55, 69, 135, 139 ff, 154 − unter Nebenbdg. 63 ff, 156 −− infinitesimal 66 −, Wert 30, 69, 138 ff krummlinig 48, 54 Kugel, Volumen 114, 127 f Kugelkoordinaten 124 Kurve 2 ff, 59 L L1 (µ) 93 L1 (µ) 97 Lagrange, Multipl. 64, 71, 156 −, Restglied 27 L¨ange 5 L1 -Cauchyfolge 73, 91, 97 Lebesgue, integrabel 92, 105 −, Integral 92 ff, 110 −, Komplettierung 88 −, Konvergenzsatz 98 −, Maß 88, 112, 160 Levi, monot. Konv. 98, 105 L1 -lim 97 leere Menge 55 lineare Abbildung 10, 131 Linearit¨at, Ableitung 13 −, Jet 24 Lipschitz-stetig 121 L1 -Norm 73, 90, 94, 97 Lp -Norm 150 logarithmische Spirale 151 lokale Koordinaten 61
Namen- und Sachverzeichnis
lokales Extremum 30 −− , Nebenbdg. 63 ff, 156 − Maximum 30 − Minimum 30, 154 −− , Nebenbdg. 63 ff − Verhalten 29, 138 lokal invertierbar 44 ff M Mannigfaltigkeit 53 ff Maß 79 ff −, ¨außeres 81, 88, 158 −, Beweggsinv. 120, 129, 160 −, Bild 159 f −, Dirac 79 −, Erweiterung 82 −, inneres µ∗ 89 −, Lebesgue 88, 112 −, Pr¨a 82 −, Produkt 106 ff − Raum 79 ff − Regeln 81 −, Stieltjes 158 −, Transformation 115 ff, 163 −, Translationsinvarianz 113, 129, 160 −, Z¨ahl 80 Matrizenkalk¨ ul 11, 15 Maximum 30 ff mehrfache Wurzel 52 Mengenalgebra 81, 107 meßbar 74 ff −, Abbildung 75 −, nicht 129 ff
Namen- und Sachverzeichnis
µ-meßbar 88 µ∗ -meßbar 84, 88 −, integrable Funktion 95 Meßraum 74 −, abz¨ahlbar 157, 159 metrischer Raum 41 Minimum 30 ff, 154 Minkowski, Ungl. 149 Mittelwertsatz 18 f, 37, 41, 121 Monom 22 monoton, a¨ußeres Maß 83 −, Funktion meßbar 157 −, Integral 90 −, Klassen 107 f −, Konvergenz 98, 105 −, Maß 80 −, Verteilung 158 Morselemma 35, 135 ff Multiindex 22 Multiplikatoren 64, 71, 156 N N (µ) 97 Nebenbedingung 64 ff, 156 −, holonome 66 −, infinitesimale 65 ff −, integrable 66 negativ definit 31 Neilsche Parabel 4 nicht meßbare Menge 129 ff nichtnegative Funktion 103 Norm, euklidisch 3 −, Konvergenzsatz 96 −, L1 73, 90, 97
171
−, Lp 150 −, Operator 38 f −, sup 41 Nullfunktion 97 Nullmenge 88, 94, 120 ff, 138 ff O oBdA, ohne Beschr¨ankung der Allgemeinheit Ordnung, Multiindex 22 −, Approximation 27 Orthogonale Gruppe 163 P Paraboloid 30 Parameterabh¨angigkeit, Integral 35, 102 Parametrisierung 6 −, durch Bogenl¨ange 7 −, Nullstellen 53 −, Schar von Mfktn. 68 ff −, Untermannigfaltigkeit 53 partiell diffbar 14 ff, 152 partielle Ableitung 14 Physiker 62 Plan, Stadt 42 Polarkoord. 44, 122 ff, 152 Polynom 18, 29, 52, 153 −, Taylor 23, 138 positiv definit 31 − semidefinit 146 positiver Teil f+ 78, 95, 105 Potential 21, 67 Potenzmenge 75, 83, 158 Potenzreihe 24
172
Pr¨amaß 82 Produkt von R¨aumen 1 Produktmaß 107 ff Produkt von Maßr¨aumen 106 ff Produktregel 9, 25 Punkt, kritisch, regul¨ar, singul¨ar 55, 63, 139 −, Meßraum 74 punktw. Konvergenz 77, 96 Q Quader 113 quadratische Erg¨anzung 137 − Form 32 f, 67 Quadrik 56 R Rang 54, 134 −, Satz 131 ff Rechner 34 Rechteck 107 rechtsstetig 158 regul¨ar, Matrix 40, 44 −, Wert 55, 70, 138 ff Restglied 27, 37, 153 −, Absch¨atzung 28 Retraktion f ◦ f = f 162 Richtungsableitung 17 Riemann-integrabel 73, 160 −, nicht 100 Riemannintegral 81, 99 Ring, C ∞ -Funktionen 22 Rotationsk¨ orper 125 rotationssymmetrisch 125, 153
Namen- und Sachverzeichnis
S Sard, Satz 138 ff Sattelpunkt 31, 56 Schar von Mannigf. 68 ff Schraubenlinie 4, 19 Schwerpunkt 126 semidefinit 146 Seminorm 90 f, 94 σ-additiv 79, 81 σ-Algebra 74 σ-endlich 82, 87, 108 Simplex 143, 160 singul¨ar 55, 157 Skalarprodukt 8 Sph¨ are 39, 57, 60 −, Tangentialraum 7, 60 −, Volumen 128 Spitze 4 Spur 3 Standardbasis 14 sternf¨ormig 152 stetig diffbar 2, 17, 22 ff Stetigkeit, diffb. Abb. 11, 152 −, Integral 35, 102 −, konvexe Abb. 145 Stieltjes 158 Strahl 71 Strecke 142 st¨ uckweise 2 Stufe 89 Stufenfunktion 76, − approx. meßbare 78 St¨ utzhyperebene 147
Namen- und Sachverzeichnis
Submersion 134 submersiv 134 Substitution, Integral 115 ff sup Norm 41 sup(fj | j ∈ N ) meßbar 77 symmetrische Matrix 32 ff, 56, 67, 135, 156 T T (µ) 90 t , transponiert 16 Tangente 58, 156 Tangentialraum 7, 57 ff −, Vektorraum 63 Tangentialvektor 2, 57 Taylor, Formel 20 ff, 27, 137 f −, Polynom 23, 138 Theo 27 Transform., Formel 115 ff, 163 translationsinv. Maß 113, 160 transponieren 16 Treppenfunktion 89, 95 U Umkehrabbildung 43 ff, 132 −, Def.-Gebiet 48 Umordnungssatz 159 uneigentliches Integral 101 unendlich ∞ 79 Ungleichung, H¨older 149 −, Jensen 146 −, Minkowski 149 Untermannigfaltigkeit 53 ff
173
V Vektor 57, 63 −, Feld 21 verbinden 3 Verbindung, k¨ urzeste 9 Verr¨ uckung, virtuelle 68 Vertauschbkt., Ableitgn. 20 −, Abltg. u. Intgr. 35 f, 102 −, Grenzw. u. Intgr. 35, 102 Verteilung 158 virtuelle Verr¨ uckung 68 vollst¨andig 41, 96, 160 W Weg 2 Wellenfront 71 Wert, kritischer 30, 55, 138 ff W¨ urfel 113, 120 f, 160 Wurzel, einfache 52 −, mehrfache 52 Z Z¨ahlmaß 80 Zeit 3 Zentralkraft 67 Zentrum 152 Zerlegung 90 −, Eigenschaft 94 Zetafunktion 159 Zusammens. f ◦ g 13, 16, 25 Zwangskraft 67 Zweijet 29 Zylinderkoordinaten 122