Processus stochastiques discrets et filtrages optimaux
© LAVOISIER, 2005 LAVOISIER
11, rue Lavoisier 75008 Paris www.hermes-science.com www.lavoisier.fr ISBN 2-7462-1201-3
Tous les noms de sociétés ou de produits cités dans cet ouvrage sont utilisés à des fins d’identification et sont des marques de leurs détenteurs respectifs.
Le Code de la propriété intellectuelle n'autorisant, aux termes de l'article L. 122-5, d'une part, que les "copies ou reproductions strictement réservées à l'usage privé du copiste et non destinées à une utilisation collective" et, d'autre part, que les analyses et les courtes citations dans un but d'exemple et d'illustration, "toute représentation ou reproduction intégrale, ou partielle, faite sans le consentement de l'auteur ou de ses ayants droit ou ayants cause, est illicite" (article L. 122-4). Cette représentation ou reproduction, par quelque procédé que ce soit, constituerait donc une contrefaçon sanctionnée par les articles L. 335-2 et suivants du Code de la propriété intellectuelle.
Processus stochastiques discrets et filtrages optimaux
Jean-Claude Bertein Roger Ceschi
A nos familles
TABLE DES MATIÈRES
Avant-propos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Chapitre 1. Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.1. Définitions et propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2. Les espaces L1(dP) et L2(dP) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2.2. Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3. Espérance mathématique et applications. . . . . . . . . . . . . . . . . . . . . . . . 1.3.1. Définitions. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3.2. Fonctions caractéristiques d’un vecteur aléatoire. . . . . . . . . . . . . . 1.4. Variables et vecteurs aléatoires du second ordre . . . . . . . . . . . . . . . . . . 1.5. Indépendance linéaire des vecteurs de L2(dP) . . . . . . . . . . . . . . . . . . . . 1.6. Espérance conditionnelle (cas des vecteurs à densité) . . . . . . . . . . . . . . 1.7. Exercices du chapitre 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
15 32 32 34 35 35 45 50 57 61 66
Chapitre 2. Vecteurs gaussiens. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Quelques rappels sur les variables aléatoires gaussiennes . . . . . . . . . . . 2.2. Définition et caractérisation des vecteurs gaussiens. . . . . . . . . . . . . . . . 2.3. Résultats relatifs à l’indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Transformation affine d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . 2.5. Existence des vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.6. Exercices du chapitre 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
71 71 73 75 79 81 90
8
Processus stochastiques et filtrages optimaux
Chapitre 3. Généralités sur les processus à temps discret . . . . . . . . . . . . . . 3.1. Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Processus stationnaires du deuxième ordre et mesure spectrale. . . . . . . 3.2.1. Densité spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Représentation spectrale d’un processus stationnaire du deuxième ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.1. Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2. Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2.1. Processus à accroissements orthogonaux et mesure associée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3.2.2. Intégrale stochastique de Wiener . . . . . . . . . . . . . . . . . . . . 3.3.2.3. Représentation spectrale . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Généralités sur le filtrage numérique . . . . . . . . . . . . . . . . . . . . . . . . . 3.5. Exemple important : processus autorégressif . . . . . . . . . . . . . . . . . . . 3.6. Exercices du chapitre 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. 99 . 99 111 111
Chapitre 4. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2. Estimation linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3. Meilleure estimation – Espérance conditionnelle. . . . . . . . . . . . . . . . . 4.4. Exemple : prédiction d’un processus autorégressif AR (1) . . . . . . . . . . 4.5. Processus multivariés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.6. Exercices du chapitre 4. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
143 143 146 156 164 166 174
Chapitre 5. Le filtre de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Résolution et calcul du filtre Finite Impulse Response (FIR) . . . . . . . . 5.3. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR) . . . . . . . . 5.5. Evaluation de l’erreur minimale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6. Exercices du chapitre 5. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
179 179 179 181 182 184 187 188
Chapitre 6. Filtrage adaptatif : algorithme du gradient et du LMS . . . . . . 6.1. Introduction. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3. Représentation des données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4. Minimisation de la fonction coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.4.1. Calcul du coût . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5. Algorithme du gradient. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
193 193 195 196 198 200 202
114 115 116 116 117 118 119 131 136
Table des matières
9
6.6. Estimation du gradient et algorithme LMS . . . . . . . . . . . . . . . . . . . . . 6.7. Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8. Stabilité et convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.8.1. Convergence de l’algorithme du LMS . . . . . . . . . . . . . . . . . . . . 6.9. Exemple d’application de l’algorithme LMS . . . . . . . . . . . . . . . . . . . 6.10. Exercice du chapitre 6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
205 207 211 215 215 223
Chapitre 7. Le filtre de Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.1. Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2. Approche de l’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.1. Cas scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2.2. Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3. Filtrage de Kalman. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.1. Equation d’état. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2. Equation d’observations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.3. Processus d’innovation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.4. Matrice de covariance du processus d’innovation . . . . . . . . . . . . 7.3.5. Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.6. Equation de Riccati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.7. Algorithme et résumé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.8. Equations du filtre de Kalman dans le cas non linéaire. . . . . . . . . 7.4. Exercices du chapitre 7. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
225 225 228 228 231 232 232 233 234 235 236 244 246 247 248
Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255 Table des symboles et notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 Bibliographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 269 Index . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
AVANT-PROPOS
Le filtrage optimal discret appliqué aux signaux stationnaires et non stationnaires permet de traiter de la manière la plus efficace possible, au sens du critère choisi, tous les problèmes que l’on peut rencontrer dans les situations d’extraction de signaux bruités. Il constitue la brique élémentaire nécessaire dans les domaines les plus divers : calcul des orbites ou de guidages d’aéronefs dans le domaine aérospatial ou aéronautique, calcul de filtres dans le domaine des télécommunications ou dans le domaine de la commande des systèmes ou encore dans celui des traitements de signaux sismiques, la liste est non exhaustive. De plus, l’étude et les résultats obtenus sur des signaux discrets permet une implémentation très facile sur calculateur. Dans leur ouvrage, les auteurs ont eu le souci permanent de la pédagogie et ils l’ont souvent préférée à l’érudition ; tous les préliminaires mathématiques et probabilistes utiles à la bonne compréhension du filtrage optimal ont été traités de façon rigoureuse. Il ne sera pas toujours nécessaire d’avoir recours à d’autres ouvrages pour acquérir une bonne connaissance des sujets étudiés. Grâce à cet ouvrage, le lecteur pourra non seulement comprendre le filtrage optimal discret mais pourra de plus approfondir aisément les différents aspects de ce large domaine.
INTRODUCTION
Cet ouvrage a pour but de présenter les bases du filtrage optimal discret d’une manière progressive et rigoureuse. Le caractère optimal s’entend au sens où nous choisissons toujours le critère qui minimise la norme –L2 de l’erreur. Le premier chapitre aborde les vecteurs aléatoires, ses principales définitions et propriétés. Le second chapitre traite des vecteurs gaussiens. Etant donné l’importance pratique de cette notion, les définitions et résultats sont accompagnés de nombreux commentaires et schémas explicatifs. Le troisième chapitre, « Généralités sur les processus à temps discrets », est de nature plus physique que les précédents et peut être considéré comme une introduction au filtrage numérique. Les résultats essentiels pour la suite seront donnés. Le chapitre 4, « Estimation », nous apporte les briques essentielles à la construction des filtres optimaux. Les résultats obtenus sur les projections dans les espaces de Hilbert constituent la clef de voûte des démonstrations à venir. Le chapitre 5 traite du filtre de Wiener, dispositif électronique bien adapté au traitement des signaux stationnaires du second ordre. Des calculs pratiques de tels filtres, à réponse impulsionnelle finie ou infinie, seront développés. Le filtrage adaptatif, qui est le sujet traité au chapitre 6, peut être considéré comme une application assez directe de la méthode du gradient déterministe ou stochastique. Au bout du processus d’adaptation ou de convergence, nous retrouvons le filtre de Wiener.
14
Processus stochastiques et filtrages optimaux
L’ouvrage s’achève avec l’étude du filtrage de Kalman qui permet le traitement des signaux stationnaires ou non stationnaires ; on peut dire que de ce point de vue, il généralise le filtre optimal de Wiener. Chaque chapitre est ponctué par une série d’exercices corrigés et des exemples résolus sont également fournis en utilisant le logiciel Matlab bien adapté aux problèmes de traitement de signaux.
CHAPITRE 1
Vecteurs aléatoires
1.1. Définitions et propriétés générales
{
On rappelle que ! n = x = ( x1 ,..., xn ) n -uples réels peut être muni de deux lois :
}
x j ∈ ! ; j = 1 a n , l’ensemble des
x, y → x + y et
( λ ,x ) → λ x
!n × !n
! × !n
!n
!n
qui en font un espace vectoriel de dimension n. La base implicitement considérée sur
!n
sera la base canonique
e1 = (1, 0,..., 0 ) ,..., en = ( 0,..., 0,1) et x ∈ ! exprimé dans cette base sera noté : n
⎛ x1 ⎞ ⎜ ⎟ x = ⎜ " ⎟ (ou xT = ( x1 ,..., xn ) ). ⎜x ⎟ ⎝ n⎠
Définition d’un vecteur aléatoire réel ⎛ X1 ⎞ ⎜ ⎟ On dit que le vecteur réel X = ⎜ " ⎟ lié à un phénomène physique, biologique, etc., ⎜X ⎟ ⎝ n⎠ est aléatoire si la valeur prise par ce vecteur est inconnue, tant que le phénomène ne s’est pas réalisé.
16
Processus stochastiques et filtrages optimaux
Pour des raisons typographiques, le vecteur sera plutôt écrit X T = ( X1 ,..., X n ) ou même X = ( X1 ,..., X n ) quand aucune confusion ne sera à craindre. Autrement dit, étant donné un vecteur aléatoire X et Β ⊂ ! n on ne sait pas si l’assertion (appelé événement) ( X ∈ Β ) est vraie ou fausse…
!n
Β .X
Par contre, on connaît en général la « chance » pour que X ∈ Β ; celle-ci est notée Ρ ( X ∈ B ) et est appelée probabilité de l’événement ( X ∈ Β ). Après la réalisation du phénomène, le résultat (appelé aussi réalisation) sera noté ⎛ x1 ⎞ ⎜ ⎟ x = ⎜ " ⎟ ou xT = ( x1 ,..., xn ) ou même x = ( x1 ,..., xn ) ⎜x ⎟ ⎝ n⎠
quand aucune confusion ne sera à craindre. Voici maintenant la définition rigoureuse d’un vecteur aléatoire réel de dimension n . On se donne : – Ω = espace fondamental. C’est l’ensemble de tous les résultats possibles (ou épreuves) ω liés à un phénomène aléatoire ; – a = une tribu (d’événements) sur Ω . On en rappelle les axiomes :
Vecteurs aléatoires
17
1) Ω ∈ a , 2) si Α ∈ a alors le complémentaire Ac ∈ a ,
(
)
3) si Α j , j ∈ J est une famille dénombrable d’événements
∪ A j est un j∈J
événement, c’est-à-dire
∪ Aj ∈ a ; j∈J
n
– ! = espace des observables ;
( )
– B ! n = tribu borélienne sur ! n ; c’est la plus petite tribu sur ! n qui contient tous les ouverts de ! n. DÉFINITION.– On dit que X est un vecteur aléatoire réel de dimension n défini sur
(Ω , a)
( )) mesurable, c’est-à-dire :
(
si X est une application ( Ω , a ) → ! n ,B ! n
( )
∀Β ∈ B ! n
Χ −1 ( Β ) ∈ a.
Quand n = 1 , on parlera de variable aléatoire ou plus rapidement de v.a. Dans la suite l’événement Χ −1 ( Β ) est noté également
{ω
}
X (ω ) ∈ B et
même plus simplement ( X ∈ B ) . PROPOSITION.– Pour que X soit un vecteur aléatoire réel de dimension n (c’est-àdire une application
(Ω , a) →
( ! ,B ( ! ) ) n
n
mesurable), il faut et il suffit que
chaque composante Χ j j = 1 à n soit une v.a. réelle (c’est-à-dire soit une application ( Ω , a ) → ( R,B ( R ) ) mesurable). DÉMONSTRATION ABRÉGÉE.– Il suffit de considérer :
Χ −1 ( Β1 × ... × Β n )
où
Β1 ,..., Β n ∈ B ( R )
( )
car on montre que B ! n = B ( R ) ⊗ ... ⊗ B ( R ) est égale à la tribu engendrée par les pavés mesurables Β1 × ... × Β n .
18
Processus stochastiques et filtrages optimaux
Or X −1 ( Β1 × ... × Β n ) = X1−1 ( Β1 ) ∩ ... ∩ X n−1 ( Β n ) , qui appartient à a si et seulement si chaque terme appartient à chaque X j est une v.a. réelle.
a , c’est-à-dire si
DÉFINITION.– On dit que X = X1 + iX 2 est une variable aléatoire complexe définie sur ( Ω , a ) si les parties réelles et imaginaires X1
c’est-à-dire
si
les
variables
aléatoires
( Ω, a ) → ( !, B ( ! ) ) mesurables. PAR
EXEMPLE.–
et
X 2 sont des variables réelles,
X1 et X 2
sont
des
applications
A un vecteur aléatoire réel X = ( X1 ,..., X n ) et à un n-uple réel
u = ( u1 ,..., un ) ∈ ! n , on peut associer la v.a. complexe : e
i∑ u j X j j
= cos
∑ u j X j + i sin∑ u j X j j
j
L’étude de cette variable aléatoire sera reprise quand nous définirons les fonctions caractéristiques. Loi Loi Ρ X du vecteur aléatoire X . On suppose d’abord que la tribu a est munie d’une mesure P , c’est-à-dire d’une application P : a → [ 0,1] vérifiant : 1) P ( Ω ) = 1
(
)
2) Pour toute famille A j , j ∈ J d’événements 2 à 2 disjoints : ⎛ ⎞ P ⎜ ∪ Aj ⎟ = ⎝ j∈J ⎠
∑ P ( Aj ) j∈J
Vecteurs aléatoires
19
DÉFINITION.– On appelle loi du vecteur aléatoire X, la « mesure image PX de P par l’application X », c’est-à-dire la mesure définie sur
( n)
B ( ! n ) de
la façon
suivante : ∀Β ∈ B !
(
PX ( Β ) = ∫ dPX ( x1 ,..., xn ) = P X −1 ( B ) Β
↑
)
Définition
(
)
X (ω ) ∈ Β = P ( X ∈ Β )
= P ω
Les termes 1 et 2 d’une part et les termes 3, 4 et 5 d’autre part sont des notations différentes de la même notion mathématique.
!n X X
−1
B ∈B ( ! n )
(B ) ∈ a
Ω
Figure 1.1. Application mesurable X
Il faut bien noter que la mesure P étant donnée sur
( )
a,
PX ( Β ) est calculable
pour tout Β ∈ B ! n parce que X est mesurable.
( )
L’espace ! n muni de la tribu B ! n et ensuite de la loi PX est noté :
( ! ,B ( ! ) , P ) n
n
X
20
Processus stochastiques et filtrages optimaux
REMARQUE.– Sur la définition naïve et sur la définition rigoureuse : la définition naïve des vecteurs aléatoires est évidemment beaucoup plus simple et plus intuitive et l’on peut s’en contenter dans les applications élémentaires du calcul des probabilités. Par contre dans les études plus théoriques ou plus sophistiquées et notamment dans celles faisant intervenir plusieurs vecteurs aléatoires, X , Y , Z ,... , considérer ces derniers comme des applications définies sur le même espace ( Ω, a ) ,
(soit X,Y,Z, ... : (Ω, a ) → ( ! ,B ( ! ))) n
n
se révélera souvent utile voire même indispensable.
X (ω ) Y (ω )
ω Ω
Z (ω )
!n
Figure 1.2. Famille d’applications mesurables
En effet, via l’espace
( Ω, a,P ) , les expressions et calculs faisant intervenir
plusieurs (ou l’ensemble) de ces vecteurs s’écrivent sans ambiguïté. Précisément, les événements liés à X , Y , Z ,... sont des éléments A de a (et les probabilités de ces événements sont mesurés par P ). Donnons deux exemples :
(
( )) et soit
1) soit deux vecteurs aléatoires X , Y : ( Ω, a, P ) → ! , B !
( )
n
n
B et B′ ∈ B ! n . L’événement ( X ∈ B ) ∩ (Y ∈ B′ ) (par exemple) se traduit par X −1 ( B ) ∩ Y −1 ( B ′ ) ∈ a ;
(
)
2) soit 3 v.a. X , Y , Z : ( Ω, a, P ) → !, B ( ! ) et soit a ∈ !*+ .
Vecteurs aléatoires
Cherchons à exprimer l’événement Posons U = ( X , Y , Z ) et B =
(Z ≥
21
a − X −Y ).
{( x, y, z ) ∈ !3
}
x+y+z ≥ a
B Borélien de !3, représente le demi espace délimité par le plan ( Π ) ne contenant pas l’origine 0 et s’appuyant sur le triangle A B C .
C (a)
0 B (a) A(a) Figure 1.3. Exemple de Borélien de
(
!3
( ) ) mesurable et :
U est ( Ω, a ) → !3 , B !3 U
( Z ≥ a − X − Y ) = (U ∈ B ) = U −1 ( B ) ∈ a .
REMARQUE SUR L’ESPACE ( Ω, a, P ) .– On a dit que l’on se donnait Ω et puis
a
sur Ω et puis P sur a et qu’ensuite, on considérait les vecteurs X , Y , Z ,... comme des applications mesurables :
( Ω, a, P ) → ( ! n ,B ( ! n ) ) Cette façon d’introduire les différents concepts est la plus simple à appréhender, mais elle correspond rarement aux problèmes probabilistes réels.
22
Processus stochastiques et filtrages optimaux
En général ( Ω, a, P ) n’est pas précisé ou bien donné antérieurement à « X , Y , Z ,... applications mesurables ». Au contraire, étant données des grandeurs n
aléatoires physiques, biologiques… X , Y , Z ,... de ! , c’est en partant de ces
dernières que l’on introduit simultanément ( Ω, a, P ) et X , Y , Z ,... applications mesurables définies sur
( Ω, a, P ) . ( Ω, a, P ) est un espace artificiel destiné à
servir de lien entre X , Y , Z ,... Ce qui vient d’être exposé peut sembler bien abstrait mais heureusement les vecteurs aléatoires généraux comme ils viennent d’être définis sont rarement utilisés dans la pratique. En tout cas et en ce qui nous concerne, nous n’aurons dans la suite à manipuler que la notion beaucoup plus particulière et plus concrète de « vecteur aléatoire à densité ». DÉFINITION.– On dit que la loi PX du vecteur aléatoire X est à densité si il existe
( ) ) → ( !, B ( ! ) ) telle que : ∀B ∈ B ( ! n ) .
une application densité de PX
(
f X : ! n ,B ! n
mesurable positive appelée
P ( X ∈ B ) = PX ( B ) = ∫ dPX ( x1 ,..., xn ) = ∫ f X ( x1 ,..., xn ) dx1 ,..., dxn B
B
VOCABULAIRE.– On écrit parfois dPX ( x1 ,..., xn ) = f X ( x1 ,..., xn ) dx1 ,..., dxn et on dit aussi que la mesure PX admet la densité f X par rapport à la mesure de n
Lebesgue sur ! . On dit aussi que le vecteur aléatoire X admet la densité f X . REMARQUE.–
∫B
(
)
f X ( x1 ,...xn ) dx1 ,...dxn = P X ∈ ! n = 1 .
Soit par exemple le vecteur aléatoire
X = ( X1 , X 2 , X 3 ) de densité
f X ( x1 , x2 , x3 ) = K x3 1∆ ( x1 , x2 , x3 ) où ∆ est la demi-sphère définie par x12 + x22 + x32 ≤ R 2 avec x3 ≥ 0 .
Vecteurs aléatoires
23
On obtient facilement par un passage en coordonnées sphériques : 1=
∫∆
Kx3 dx1 dx2 dx3 = K
π R4 4
d’où K =
4
π R4
.
Marginales ⎛ X1 ⎞ ⎜ ⎟ Soit le vecteur aléatoire X = ⎜ " ⎟ de loi PX et de densité de probabilité ⎜X ⎟ ⎝ n⎠
fX . DÉFINITION.– La v.a. X j
,
j ième composante de X , s’appelle j ième marginale de
X et la loi PX j de X j s’appelle loi de la
j
ième
marginale.
Si on connaît PX , on sait trouver les lois PX . j
En effet ∀B ∈ B ( ! ) .
(
)
(
)
P X j ∈ B = P ⎡⎣( X 1 ∈ ! ) ∩ ... ∩ X j ∈ B ∩ ... ∩ ( X n ∈ ! ) ⎤⎦ =
∫
(
)
f X x1 ,..., x j ,..., xn dx1 ...dx2 ...dxn
! ×...× B ×...× !
par le théorème de Fubini :
= ∫ dx j ∫ B
! n−1
(
)
f X x1 ,..., x j ,..., xn dx1...dxn $ %&% ' sauf dx j
L’égalité ayant lieu pour tout B , on obtient :
( )
fX j xj = ∫
! n−1
(
)
f X x1 ,..., x j ,..., xn dx1...dxn . $ %&% ' sauf dx j
24
Processus stochastiques et filtrages optimaux
ATTENTION.– Réciproquement, sauf dans le cas des composantes indépendantes, la connaissance des PX ⇒ / celle de PX . j
EXEMPLE.– Considérons : 1) Un couple gaussien Z T = ( X , Y ) de densité de probabilité : f Z ( x, y ) =
⎛ x2 + y2 ⎞ 1 exp ⎜ − ⎟. ⎜ 2π 2 ⎟⎠ ⎝
On obtient les densités des marginales : f X ( x) =
fY ( y ) =
+∞
∫ −∞
+∞
∫ −∞
f z ( x, y ) dy =
⎛ x2 exp ⎜ − ⎜ 2 2π ⎝
f z ( x, y ) dx =
⎛ y2 ⎞ exp ⎜ − ⎟. ⎜ 2 ⎟ 2π ⎝ ⎠
1
⎞ ⎟ et ⎟ ⎠
1
2) Un deuxième couple aléatoire (non gaussien) W T = (U , V ) dont la densité de probabilité fW est définie par : fW ( u, v ) = 2 f Z ( u, v ) si uv ≥ 0
fW ( u, v ) = 0 si uv < 0 .
Calculons les marginales fU ( u ) =
+∞
∫ −∞
fW ( u , v ) dv = =
D’où facilement
fU ( u ) =
+∞
∫ −∞ 2 f Z ( u, v ) dv +∞
∫ −∞ 2 f Z ( u, v ) dv
⎛ u2 ⎞ exp ⎜ − ⎟ . ⎜ 2 ⎟ 2π ⎝ ⎠ 1
si u ≤ 0 si u > 0
Vecteurs aléatoires
Et symétriquement
25
⎛ v2 ⎞ exp ⎜ − ⎟ . ⎜ 2 ⎟ 2π ⎝ ⎠ 1
fV ( v ) =
CONCLUSION.– On voit bien sur cet exemple que les densités marginales (elles sont identiques en 1 et 2) ne déterminent pas les densités des vecteurs (elles sont différentes en 1 et 2). Fonction de répartition
DÉFINITION.– On
appelle
fonction
X = ( X1 ,..., X n ) l’application :
de
répartition
du
vecteur
aléatoire
T
FX : ( x1 ,..., xn ) → FX ( x1 ,..., xn )
[0,1]
!n définie par :
FX ( x1 ,..., xn ) = P ( ( X1 ≤ x1 ) ) ∩ ... ∩ ( X n ≤ xn ) et sous forme intégrale puisque X est un vecteur à densité :
FX ( x1 ,..., xn ) = ∫
x1 xn ( −∞ −∞
∫
f X ( u1 ,.., un ) du1.. dun .
Quelques propriétés usuelles :
– ∀j = 1 à n l’application x j → FX ( x1 ,..., xn ) est non décroissante ; – FX ( x1 ,..., xn ) → ∞ quand toutes les variables x j → ∞ ; – FX ( x1 ,..., xn ) → 0 si l’une au moins des variables x j → −∞ ; – si ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue, alors
EXERCICE.– Déterminer la fonction de répartition du couple
∂ n FX = fX . ∂ xn ...∂ x1
( X ,Y )
de densité
f ( x, y ) = K xy sur le rectangle ∆ = [1,3] × [ 2, 4] et préciser la valeur de K .
26
Processus stochastiques et filtrages optimaux
Indépendance
DÉFINITION.– On dit qu’une famille de v.a. : X 1 , ..., X n est une famille indépendante
si ∀ J ⊂ {1, 2,..., n} et pour toute famille de B j ∈ B ( ! ) : ⎛ ⎞ P⎜ ∩ X j ∈ Bj ⎟ = P X j ∈ Bj ⎝ j∈J ⎠ j∈J
(
) ∏ (
)
Comme ! ∈ B ( ! ) , il est aisé de vérifier en égalant certains boréliens à ! , que la définition de l’indépendance est équivalente à la suivante : ⎛ n ∀B j ∈ B ( ! ) : P ⎜ X j ∈ Bj ⎜ ⎝ j =1
∩(
n ⎞ ⎟= P X j ∈ Bj ⎟ ⎠ j =1
) ∏ (
)
encore équivalente à : ∀B j ∈ B ( ! )
P ( X ∈ B1 × ... × Bn ) =
n
∏ P ( X j ∈ Bj ) j =1
C’est-à-dire en introduisant les lois de probabilités : ∀B j ∈ B ( ! )
PX ( B1 × ... × Bn ) =
n
∏ PX ( Bj ) . j =1
j
REMARQUE.– Cette dernière égalité est la définition de la loi de probabilité PX (définie sur
( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! ))
de probabilités PX j (définies sur
est le produit (tensoriel) des lois
B ( ! ) ).
Ce qu’on écrit symboliquement
PX = PX ⊗ ... ⊗ PX n . 1
ATTENTION.– Soit X 1 ,..., X n une famille de v.a. Si cette famille est indépendante, les v.a. sont indépendantes 2 à 2, mais la réciproque est fausse.
Vecteurs aléatoires
27
PROPOSITION.– Soit X = ( X 1 ,..., X n ) un vecteur aléatoire réel admettant la densité de probabilité f X et les composantes X 1 , ..., X n admettant les densités
f X ,..., f X n . 1
Pour que la famille des composantes soit une famille indépendante, il faut et il suffit que : f X ( x1 ,..., xn ) =
n
∏ fX (x j ) . j =1
j
DÉMONSTRATION.– Dans le cas simplifié où f X est continue : – si ( X1 ,..., X n ) est une famille indépendante : ⎛ n FX ( x1 ,..., xn ) = P ⎜ X j ≤ xj ⎜ ⎝ j =1
∩(
⎞
n
n
⎠
j =1
j =1
) ⎟⎟ = ∏ P ( X j ≤ x j ) = ∏ FX j ( x j )
en dérivant les deux membres extrêmes : f X ( x1 ,..., xn ) =
∂ n FX ( x1 ,..., xn ) ∂xn ...∂x1
n
=
∏ j =1
– réciproquement si f X ( x1 ,..., xn ) =
( )
n ∂FX j x j = fX j x j ; ∂x j
∏ j =1
( )
n
∏ fX (x j ) : j =1
j
soit B j ∈ B ( ! ) pour j = 1 à n : n ⎛ ⎞ ⎛ n ⎞ P⎜ ∩ X j ∈ Bj ⎟ = P⎜ X ∈ Bj ⎟ = ⎜ ⎟ ⎝ j =1 ⎠ J =1 ⎝ ⎠
(
)
n
=
j =1
∫ ∏n B j f X ( x1,..., xn ) dx1... dxn j =1
n
n
j =1
j =1
∏ j ( x j ) dx j = ∏ ∫ B j f X j ( x j ) dx j = ∏ P ( X j ∈ B j )
∫ ∏ B j j =1 n
∏
fX
28
Processus stochastiques et filtrages optimaux
REMARQUE.– L’égalité f X ( x1 ,..., xn ) =
n
∏ f X j ( x j ) est la définition de la fonction j =1
de n variables f X est le produit tensoriel des fonctions d’une variable f X . On écrit j
symboliquement
f X = f X ⊗ ... ⊗ f X n . (A ne pas confondre avec le produit 1
ordinaire : f = f1 f 2 i(i f n défini par : f ( x ) = f1 ( x ) f 2 ( x )i(i f n ( x ) ). EXEMPLE.– Soit le couple aléatoire X = ( X 1 , X 2 ) de densité : ⎛ x 2 + x22 1 exp ⎜ − 1 ⎜ 2π 2 ⎝
Comme
⎞ ⎟. ⎟ ⎠
⎛ x 2 + x22 1 exp ⎜ − 1 ⎜ 2π 2 ⎝
⎞ ⎟= ⎟ ⎠
⎛ x2 exp ⎜ − ⎜ 2 2π ⎝
1
⎞ 1 ⎛ x22 ⎜− ⎟ ⎟ 2π ⎜ 2 ⎠ ⎝
⎞ ⎟ ⎟ ⎠
⎛ x2 ⎞ ⎛ x2 ⎞ 1 exp ⎜ − 1 ⎟ et exp ⎜ − 2 ⎟ sont les densités de ⎜ 2 ⎟ ⎜ 2 ⎟ 2π 2π ⎝ ⎠ ⎝ ⎠ ces deux composantes X 1 et X 2 sont indépendantes.
et comme
1
X 1 et de X 2 ,
DÉFINITION.– On dit que deux vecteurs aléatoires :
X = ( X 1 ,..., X n ) et Y= (Y1 ,..., Yp ) sont indépendants si :
( )
( )
∀B ∈ B ! n et B ' ∈ B ! p
P ( ( X ∈ B ) ∩ (Y ∈ B ' ) ) = P ( X ∈ B ) P (Y ∈ B ' ) Somme de variables aléatoires indépendantes
REMARQUE.– On est souvent amené à calculer la probabilité P pour qu’une fonction de n v.a. données X 1 ,..., X n vérifie une certaine inégalité. Notons rapidement P (Inégalité) cette probabilité. Supposons que le vecteur aléatoire
Vecteurs aléatoires
29
X = ( X 1 ,..., X n ) possède une densité de probabilité f X ( x1 ,..., xn ). La
( n ) vérifiant
méthode pour obtenir P (Inégalité) consiste à déterminer B ∈ B !
( X1,..., X n ) ∈ B . On a alors : P (Inégalité) =
∫ B f X ( x1,..., xn ) dx1... dxn .
EXEMPLES.– 1) P ( X 1 + X 2 ≤ z ) = P où B =
{( x, y ) ∈ !
2
( ( X1, X 2 ) ∈ B ) = ∫ B f X ( x1, x2 ) dx1 dx2
}
x+ y ≤ z
y z 0
z 2) P ( X 1 + X 2 ≤ a − X 3 ) = P
x
( ( X1 , X 2 , X 3 ) ∈ B )
= ∫ f X ( x1 , x2 , x3 ) dx1 dx2 dx3 B
z
C 0
x
B A
y
30
Processus stochastiques et filtrages optimaux
B est le
1 2
espace contenant l’origine 0 et limité par le plan s’appuyant sur le
triangle A B C et d’équation x + y + z = a .
( X1 + X 2 ) ≤ z ) = P ( ( X1, X 2 ) ∈ B ) ( = ∫ f X ( x1 , x2 ) dx1 dx2 B
3) P Max
où B est le domaine non hachuré ci-contre.
y
z 0
z
x
En partant de l’exemple 1) nous allons montrer la : PROPOSITION.– Soit X et Y deux v.a. réelles indépendantes de densités de probabilités respectives f X et fY . La v.a. Z = X + Y admet une densité de probabilité f Z définie par :
f Z ( z ) = ( f X ∗ fY )( z ) = ∫
+∞ −∞
f X ( x ) fY ( z − x ) dx .
DÉMONSTRATION.– Partons de la fonction de répartition de
Z.
FZ ( z ) = P ( Z ≤ z ) = P ( X + Y ≤ z ) = P ( ( X , Y ) ∈ B ) (où B est défini dans l'exemple 1) ci-avant)
= ∫ f ( x, y ) dx dy = (Indépendance) ∫ B
B
f X ( x ) fY ( y ) dx dy
Vecteurs aléatoires
31
y
x+ y = z
z z−x 0
=∫
+∞ −∞
f X ( x ) dx ∫
z−x −∞
x
z
x
fY ( y ) dy.
En posant y = u − x :
=∫
+∞ −∞
f X ( x ) dx ∫
z −∞
L’application u →
fY ( u − x ) du = ∫ +∞
∫ −∞
z −∞
du ∫
+∞ −∞
f X ( x ) fY ( u − x ) dx.
f X ( x ) fY ( u − x ) dx étant continue, FZ ( z ) en est
une primitive et :
FZ′ ( z ) = f Z ( z ) = ∫
+∞ −∞
f X ( x ) fY ( z − x ) dx . +
REMARQUE.– Si (par exemple) f X et fY sont à support sur ! , c’est-à-dire si
f X ( x ) = f X ( x )1 [0,∞[ ( x ) et fY ( y ) = fY ( y ) 1 [0,∞[( y ) on a facilement : z
f Z ( z ) = ∫ f X ( x ) fY ( z − x ) dx . 0
EXEMPLE.– X indépendantes.
et Y
sont deux v.a. exponentielles de paramètre
λ
et
32
Processus stochastiques et filtrages optimaux
Posons Z = X + Y :
fZ ( z ) = 0 .
Pour z ≤ 0 Pour z ≥ 0
fZ ( z ) = ∫
+∞
−∞
et f Z ( z ) = λ z e
2 −λ z
z −λ z − x f X ( x ) fY ( z − x ) dx = ∫ λ e ( ) dx = λ 2 ze− λ z 0
1[0,∞[ ( z ) .
1.2. Les espaces L ( dP ) et L 1
2
( dP )
1.2.1. Définitions
La famille des v.a. X
:
ω
→
( !, B ( ! ) )
( Ω, a,P ) forme un espace vectoriel sur ! , noté Deux sous-espaces vectoriels de nous les définissons.
X (ω )
ε.
ε
jouent un rôle particulièrement important ;
Les définitions seraient en fait l’aboutissement de la construction de l’intégrale de Lebesgue des applications mesurables, mais cette construction ne sera pas donnée ici… et on pourra sans inconvénient s’en passer dans la suite. DÉFINITION.– On dit que deux variables aléatoires X et X ′ définies sur
( Ω, a )
sont égales presque sûrement et on écrit X = X ′ p.s. si X = X ' sauf éventuellement sur un événement N ( N élément de a ) de probabilité nulle ( c'est-à-dire N ∈ a et P ( N ) = 0 ) . On note : – X+ = {classe (d’équivalence) des v.a. X ′ égales presque sûrement à X } ; – O+ = {classe (d’équivalence) des v.a. égales presque sûrement à 0 }.
Vecteurs aléatoires
33
Nous pouvons maintenant donner la : – définition de L ( dP ) espace vectoriel de variables aléatoires du premier 1
ordre ; – et celle de L ( dP ) espace vectoriel de variables aléatoires du second 2
ordre :
{ L ( dP ) = {
L1 ( dP ) = v. a. X 2
v. a. X
} X (ω ) dP (ω ) < ∞ }
∫ Ω X (ω ) ∫Ω
dP (ω ) < ∞
2
où, dans ces expressions, les v.a. sont bien définies à un événement de probabilité nulle près, ou bien : les v.a. X sont des représentants quelconques des classes X+ , car, par construction les intégrales des v.a. ne sont pas modifiées si on modifie ces dernières sur des événements de probabilités nulles. Remarque sur l’inégalité
∫ Ω X (ω )
dP (ω ) < ∞ .
Introduisant les deux variables aléatoires positives :
X + = Sup ( X , 0 ) et X − = Sup ( − X , 0 ) On peut écrire X = X
+
− X − et X = X + + X − .
Soit X ∈ L ( dP ) , on a donc : 1
∫ Ω X (ω ) dP (ω ) < ∞ ⇔ ∫ Ω X (ω ) dP (ω ) < ∞ − ∫ Ω X (ω ) dP (ω ) < ∞. +
et
Donc, si X ∈ L ( dP ) , l’intégrale : 1
+ − ∫ Ω X (ω ) dP (ω ) = ∫ Ω X (ω ) dP − ∫ Ω X (ω ) dP (ω )
34
Processus stochastiques et filtrages optimaux
est définie sans ambiguïté. 2
REMARQUE.– L
( dP ) ⊂ L1 ( dP ) 2
En effet, soit X ∈ L
(∫
Ω
( dP ) , d’après l’inégalité de Schwarz :
X (ω ) dP (ω )
) ≤∫ 2
Ω
X 2 (ω ) dP ∫ dP (ω ) < ∞ Ω $ %&% ' 1 ⎛ 1 ⎛ x − m ⎞2 ⎞ exp ⎜ − ⎜ ⎟ ⎟ ). 2πσ ⎝ 2⎝ σ ⎠ ⎠ 1
EXEMPLE.– Soit X une v.a. gaussienne (densité Elle appartient à L ( dP ) et à L 1
2
soit Y une v.a. de Cauchy : (densité
( dP ) .
(
1
π 1 + x2
)
).
Elle n’appartient pas à L ( dP ) et elle n’appartient donc pas à L 1
2
( dP )
non
plus. 1.2.2. Propriétés
1) L ( dP ) est un espace de Banach ; nous n’utiliserons pas cette propriété 1
dans la suite ; 2
2) L
( dP )
est un espace de Hilbert. On donne ici les propriétés sans
démonstration. 2
*On peut munir L
( dP ) du produit scalaire défini par :
∀ X , Y ∈ L2 ( dP ) < X,Y > = ∫ X (ω ) Y (ω ) dP (ω ). Ω
Vecteurs aléatoires
35
Cette expression est bien définie car d’après l’inégalité de Schwarz : 2
X (ω ) Y (ω ) dP (ω ) ≤ ∫ X 2 (ω ) dP (ω ) ∫ Y 2 (ω ) dP (ω ) < ∞
∫Ω
Ω
Ω
et les axiomes du produit scalaire sont immédiats à vérifier. 2
*L
( dP ) est un espace vectoriel normé par : X = < X, X > =
2 ∫ Ω X (ω ) dP (ω ) .
Il est facile de vérifier que :
∀ X , Y ∈ L2 ( dP )
X +Y ≤ X + Y
∀ X ∈ L2 ( dP ) et ∀λ ∈ !
λX = λ
X
En ce qui concerne le dernier axiome : – si X = 0 ⇒ X – si 2
*L
X =
( dP )
(∫
Ω
=0;
)
(
X 2 (ω ) dP (ω ) = 0 ⇒ X = 0 p.s. ou X+ = 0+
est un espace complet pour la norme 2
suite de Cauchy X n converge vers une X de L
)
. définie ci-avant. (Toute
( dP )).
1.3. Espérance mathématique et applications 1.3.1. Définitions
On considère un vecteur aléatoire général (non nécessairement à densité) : X = ( X1 ,..., X n ) :
( Ω, a , P ) → ( ! n , B ( ! n ) ) .
36
Processus stochastiques et filtrages optimaux
On se donne par ailleurs une application mesurable :
(
( ) ) → ( !, B ( ! ) )
Ψ : ! n , B !n
Ψ , X (notée aussi Ψ ( X ) ou Ψ ( X 1 ,..., X n )) est une application mesurable (donc une v. a.) définie sur ( Ω, a ) .
DÉFINITION.– Sous
l’hypothèse
Ψ , X ∈ L1 ( dP ) , on appelle espérance
mathématique de la valeur aléatoire Ψ , X l’expression Ε ( Ψ , X ) définie par :
E (Ψ , X ) = ∫
Ω
( Ψ , X )(ω ) dP (ω )
ou, pour rappeler que X est un vecteur :
E ( Ψ ( X 1 ,..., X 2 ) ) = ∫ Ψ ( X1 (ω ) ,..., X n (ω ) ) dP (ω ) . Ω
REMARQUE.– Cette définition de l’espérance mathématique de Ψ , X est bien adaptée aux problèmes généraux ou à orientation théorique ; en particulier, c’est en 2
utilisant celle-ci que l’on construit L
( dP ) l’espace
de Hilbert des v.a. du
deuxième ordre. En pratique cependant, c’est la loi PX (image de la mesure P par l’application
X ) et non P que l’on connaît. On veut donc utiliser la loi PX pour exprimer
Vecteurs aléatoires
37
E ( Ψ , X ), on dit que l’on transfert le calcul de E ( Ψ , X ) de l’espace
( Ω, a, P ) à l’espace ( !n , B ( !n ) , PX ).
Pour simplifier l’écriture dans le théorème qui suit (et comme souvent dans la
suite) ( X 1 ,..., X n ) , ( x1 ,..., xn ) et dx1...dxn seront souvent notés respectivement
X , x et dx. Théorème de transfert
Supposons Ψ , X ∈ L ( dP ) , on a alors : 1
1) E ( Ψ , X ) =
∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x )
En particulier si PX admet une densité f X :
E (Ψ , X ) = ∫
!n
Ψ ( x ) f X ( x ) dx et E X = ∫ x f X ( x ) dx ;
2) Ψ ∈ L ( dPX 1
!
)
DÉMONSTRATION.– – l’égalité
du
2)
est
vraie
si
Ψ = 1B
avec
( )
B ∈ B !n
car
E ( Ψ , X ) = E (1B , X ) = PX ( B ) =∫
1 !n B
( x ) dPX ( x ) = ∫ !n Ψ ( x ) dPX ( x )
– l’égalité est encore vraie si Ψ est une fonction étagée c’est-à-dire si m
( )
Ψ = ∑ λ j 1B où les B j ∈ B ! n et sont disjoints 2 à 2. j =1
j
On a en effet :
38
Processus stochastiques et filtrages optimaux
(
m
)
m
Ε ( Ψ , X ) = ∑ λ j Ε 1B , X = ∑ λ j PX ( B j ) j =1
m
= ∑λj ∫ j =1
=∫
!
n
!
n 1B
j
j =1
⎛
m
⎞
⎝
j =1
⎠
( x ) dPX ( x ) = ∫ !n ⎜ ∑ λ j 1B j ( x ) ⎟ dPX ( x ) j
Ψ ( x ) dPX ( x )
Supposons maintenant que Ψ soit une fonction mesurable positive, on sait qu’elle est limite d’une suite croissante de fonctions étagées positives Ψ P .
⎛
On a donc ⎜
∫ Ω ( Ψ P , X )(ω ) = ∫ !n Ψ p ( x ) dPX ( x )
⎜ avec Ψ - Ψ ⎝ P
Ψ p , X est également une suite croissante positive qui converge vers Ψ , X et en prenant les limites des deux membres quand p ↑ ∞ , on obtient d’après le théorème de la convergence monotone :
∫ Ω ( Ψ , X )(ω ) dP (ω ) = ∫ !n Ψ ( x ) dPX ( x ) . Si Ψ est une application mesurable quelconque on utilise encore la +
décomposition Ψ = Ψ − Ψ
−
et Ψ = Ψ + + Ψ − . +
−
Il est par ailleurs clair que ( Ψ , X ) = Ψ , X et ( Ψ , X ) = Ψ , X . +
−
Il vient : +
−
(
) (
)
E Ψ , X = E (Ψ , X ) + E (Ψ , X ) = E Ψ+ , X + E Ψ− , X . C’est-à-dire d’après ce qui précède :
=∫
!n
Ψ + ( x ) dPX ( x ) + ∫
!n
Ψ − ( x ) dPX ( x ) = ∫
!n
Ψ ( x ) dPX ( x ) .
Vecteurs aléatoires
Comme Ψ , X ∈ L ( dP ) , on en déduit que Ψ ∈ L ( dPX 1
1
si Ψ ∈ L ( dPX ) alors Ψ , X 1
En particulier E ( Ψ , X )
39
) (réciproquement
∈ L1 ( dP ) ).
+
−
et E ( Ψ , X ) sont finis, et
(
) (
E ( Ψ , X ) = E Ψ+ , X − E Ψ− , X =∫
!n
Ψ + ( x ) dPX ( x ) − ∫
=∫
!n
Ψ ( x ) dPX ( x )
!n
)
Ψ − ( x ) dPX ( x )
REMARQUE.– (qui prolonge la remarque précédente) : Dans certains ouvrages la notion de « vecteur aléatoire comme application mesurable », jugée trop abstraite n’est pas développée.
∫ Ψ ( x ) dPX ( x ) = ∫ !n Ψ ( x ) f X ( x ) dx
Dans ce cas l’intégrale
(si PX
admet la densité f X ) est donnée comme définition de E ( Ψ , X ). EXEMPLES.– 1) Soit le « vecteur aléatoire gaussien » X
f X ( x1 , x2 ) = où
ρ ∈ ]−1,1[
1
exp
2π 1 − ρ 2
T
= ( X1 , X 2 ) de densité :
⎛ 1 1 ⎞ x12 − 2 ρ x1 x2 + x22 ⎟ ⎜− 2 ⎝ 2 1-ρ ⎠
(
)
et soit l’application Ψ : ( x1 , x2 ) → x1 x2 . 3
La condition :
∫!
x1 x23
1 2π 1 − ρ 2
⎛
exp ⎜ −
(
1
⎜ 2 1− ρ 2 ⎝
)
(x
2 1
⎞ − 2 ρ x1 x2 + x22 ⎟ dx1 dx2 < ∞ ⎟ ⎠
)
40
Processus stochastiques et filtrages optimaux
est facilement vérifiée et :
⎞ 2 2 ⎟ 2 x − ρ x x + x dx dx 1 2 2 ! ⎜ 2 1− ρ 2 1 ⎟ 1 2 2π 1 − ρ 2 ⎝ ⎠ 1 1 2) Soit une variable aléatoire de Cauchy de densité f X ( x ) = π 1 + x2
EX1 X 23 = ∫
1
⎛
1
x x3 2 1 2
1
x dx = +∞ π ∫ ! 1 + x2
exp ⎜ −
(
1
donc X ∉ L ( dP ) 1
)
(
)
et EX n’est pas définie.
Considérons ensuite la transformation Ψ qui consiste à « redresser et à écrêter » la v.a. X .
Ψ
K
−K
0
K
x
Figure 1.4. Opération de redressement et d’écrêtage
K
1
−K
K
∞
K
∫ ! Ψ ( x ) dPX ( x ) = ∫ − K x 1 + x 2 dx + ∫ −∞ 1 + x 2 dx + ∫ K 1 + x2 dx ⎛π ⎞ = ln 1 + K 2 + 2 K ⎜ − K ⎟ < ∞ ⎝2 ⎠
(
)
Donc Ψ , X ∈ L ( dP ) et : 1
Vecteurs aléatoires
E (Ψ , X ) = ∫
+∞ −∞
⎛π ⎞ Ψ ( x ) dPX ( x ) = ln 1 + K 2 + 2 K ⎜ − K ⎟ . ⎝2 ⎠
(
DÉFINITION.– Etant données np v.a.
X jK
)
( j = 1 à p, k = 1 à n ) de L1 ( dP ) ,
⎛ X 11 … X 1n ⎞ ⎜ ⎟ on définit l’espérance de la matrice ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟ par : ⎜ X p1 ( X pn ⎟ ⎝ ⎠ ⎛ EX 11 … EX1n ⎞ ⎜ ⎟ E ⎡⎣ X jk ⎤⎦ = ⎜ " " ⎟. ⎜ EX p1 ( EX pn ⎟ ⎝ ⎠ En particulier : étant donné un vecteur aléatoire :
⎛ X1 ⎞ ⎜ ⎟ X = ⎜ " ⎟ ou X T = ( X 1 ,..., X n ) vérifiant X j ∈ L1 ( dP ) ∀j = 1 à n ⎜X ⎟ ⎝ n⎠
(
)
⎛ EX 1 ⎞ ⎜ ⎟ ⎡ T⎤ On pose E [ X ] = ⎜ " ⎟ ou E ⎣ X ⎦ = ( EX1 ,..., EX n ) . ⎜ EX ⎟ ⎝ 2⎠
(
)
Espérance mathématique d’une v.a. complexe
DÉFINITIONS.– Etant donnée une v.a. complexe X = X 1 +i X 2 , on dit que :
X ∈ L1 ( dP ) si X1 et X 2 ∈ L1 ( dP ). Si X ∈ L ( dP ) on définit son espérance mathématique par : 1
E ( X ) = EX 1 + i EX 2 .
41
42
Processus stochastiques et filtrages optimaux
Transformation des vecteurs aléatoires
On considère un vecteur aléatoire réel X = ( X 1 ,..., X n ) de densité de probabilité f X ( x )1D ( x ) = f X ( x1 ,..., xn ) 1D ( x1 ,..., xn ) où D est un ouvert n
de ! . On se donne par ailleurs l’application :
α : x = ( x1 ,..., xn ) → y = α ( x ) = (α1 ( x1 ,..., xn ) ,...,α n ( x1 ,..., xn ) ) ∆
D On suppose que
α
1
est un C – difféomorphisme de D sur un ouvert ∆ de
! n , c’est-à-dire que α est bijective et que α et β = α −1 sont de classe C1.
X
α
Y =α (X )
∆
D Figure 1.5. Transformation d’un vecteur aléatoire
Le vecteur aléatoire Y = (Y1 ,..., Yn ) =
X
par un
C1 − difféomorphisme
(α1 ( X1,..., X n ) ,...,α n ( X1,..., X n ) )
prend ses valeurs sur ∆ et on veut déterminer fY ( y )1∆ ( y ) sa densité de probabilité. PROPOSITION.–
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y )
Vecteurs aléatoires
43
DÉMONSTRATION.– Soit :
Ψ ∈ L1 ( dy )
E ( Ψ ( y )) = ∫
!n
Ψ ( y ) fY ( y )1∆ ( y ) dy.
Par ailleurs :
E ( Ψ ( Y ) ) = E Ψ (α ( X ) ) = ∫
!n
Ψ (α ( x ) ) f X ( x )1D ( x ) dx.
Par application du théorème du changement de variables dans les intégrales
multiples et en notant par J β ( y ) la matrice jacobienne de l’application β , il vient :
=∫
!n
Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) dy.
Finalement, l’égalité :
∫ ! n Ψ ( y ) fY ( y )1∆ ( y ) dy = ∫ n Ψ ( y ) f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) dy ! ayant lieu pour tout Ψ ∈ L ( dy ) , on en déduit par le lemme de Haar la formule 1
cherchée :
fY ( y )1∆ ( y ) = f X ( β ( y ) ) Dét J β ( y ) 1∆ ( y ) . EN PARTICULIER.– Soit X est une v.a. et soit l’application
α : x → α ( x) D⊂!
l’égalité devient fY ( y )1∆ ( y ) = f X
( β ( y ))
β ′ ( y ) 1∆ ( y ) .
∆⊂!
44
Processus stochastiques et filtrages optimaux
EXEMPLE.– Soit le couple aléatoire Z = ( X , Y ) de densité de probabilité :
f Z ( x, y ) =
1 2
x y
2
1D ( x, y )
D = ]1, ∞[ × ]1, ∞[ ⊂ ! 2
où
1
On se donne par ailleurs le C – difféomorphisme
α
:
défini par :
⎛ ⎜ ⎜ ⎜ ⎜ ⎜⎜ ⎝
α : ( x, y ) → ( u = α1 ( x, y ) = xy , v = α 2 ( x, y ) = x y ) /
$%%%%%%% %&%%%%%%%% '
∈D
∈∆
($%%%%%%%%&%%%%%%%%')
β : ( u, v ) → x = β1 ( u, v ) = uv , y = β 2 ( u, v ) = u v / ∈∆
∈D
⎛ v ⎜ u 1 J β ( u, v ) = ⎜ 2⎜ 1 ⎜ uv ⎝
(
⎞ v ⎟ 1 ⎟ et Dét J β ( u, v ) = . u⎟ v 2 − 3 ⎟ v 2⎠ u
Le vecteur W = U = X Y , V = X
Y
) admet donc la densité de probabilité :
Vecteurs aléatoires
45
fW ( u , v ) 1∆ ( u , v ) = f Z ( β1 ( u , v ) , β 2 ( u , v ) ) Dét J β ( u , v ) 1∆ ( u , v )
=
1
(
uv
1
)
2
( ) u
1 2
2v
1∆ ( u , v ) =
1 2
2u v
1∆ ( u , v )
v
REMARQUE.– Réciproquement le vecteur W = (U , V ) de densité de probabilité
fW ( u , v ) 1∆ ( u , v ) et dont les composantes sont dépendantes est transformé par
β
en vecteur Z = ( X , Y ) de densité de probabilité f Z ( x, y ) 1D ( x, y ) et dont
les composantes sont indépendantes. 1.3.2. Fonctions caractéristiques d’un vecteur aléatoire
DÉFINITION.– On appelle fonction caractéristique du vecteur aléatoire :
X T = ( X1 ... X n ) l’application ϕ X : ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) définie par : 0 !n ⎛ n ⎞ ϕ X ( u1 ,..., un ) = E exp ⎜ i ∑ u j X j ⎟ ⎜ j =1 ⎟ ⎝ ⎠ ⎛ n ⎞ = ∫ n exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,...xn ) dx1... dxn ⎜ j =1 ⎟ ! ⎝ ⎠ (On a écrit la définition de E Ψ ( X 1 ,..., X n ) avec :
⎛ n ⎞ Ψ ( X 1 ,..., X n ) = exp ⎜ i ∑ u j X j ⎟ ⎜ j =1 ⎟ ⎝ ⎠ et on a appliqué le théorème sur l’intégration par rapport à la mesure image).
ϕX
est donc la transformée de Fourier de
f X (ϕ X = F ( f X ) ).
46
Processus stochastiques et filtrages optimaux
En analyse on écrirait plutôt :
F ( f X )( u1 ,..., un ) = ∫
!n
exp
n ⎛ ⎞ ⎜⎜ − i ∑ u j x j ⎟⎟ f X ⎝ j =1 ⎠
( u1 ,..., un ) dx1... dxn .
Quelques propriétés usuelles de la transformée de Fourier : –
ϕ X ( u1 ,...u2 ) ≤ ∫
!n
f X ( x1 ,..., xn ) dx1... dxn = ϕ X ( 0,..., 0 ) = 1 ;
– l’application ( u1 ,..., u2 ) → ϕ X ( u1 ,..., u2 ) est continue ;
0 !n – l’application F : f X → ϕ X est injective. Exemple très simple :
[
]n et il admet
Le vecteur aléatoire X prend ses valeurs dans l’hypercube ∆ = −1,1 une densité de probabilité :
f X ( x1 ,..., xn ) =
1 2n
1∆ ( x1,..., xn )
(noter que les composantes X j sont indépendantes).
1 exp i ( u1 x1 + ... + un xn ) dx1...dxn 2n ∫ ∆ n sin u 1 n +1 j = n ∏ ∫ exp ( iu j x j ) dx j = ∏ uj 2 j =1 −1 j =1
ϕ ( u1 ,..., un ) =
où, dans cette dernière expression et grâce aux prolongements par continuité, on remplace : sin u1
u1
par 1 si
u1 = 0 ,
sin u2
u2
par 1 si u2
= 0 ,...
Vecteurs aléatoires
47
Inversion de la transformée de Fourier
F F −1
fX
ϕX
On a, comme on le verra, de bonnes raisons (calculs simplifiés) d’étudier certaines questions en utilisant les fonctions caractéristiques plutôt que les densités de probabilités, mais on a souvent besoin de revenir aux densités ; le problème qui se pose est celui de l’inversibilité de la transformée de Fourier F , étudiée dans les cours spécialisés. Rappelons simplement ici une condition suffisante : PROPOSITION.– Si (c’est-à-dire
∫ !n ϕ X ( u1,..., un ) du1...dun < ∞
ϕ X ∈ L1 ( du1...dun ) ), alors F −1 existe et :
f X ( x1 ,..., xn ) =
1
( 2π )n
∫!
⎛ ⎜ ⎝
n exp ⎜ −i
⎞ u x ∑ j j ⎟⎟ ϕ X j =1 ⎠ n
( u1 ,..., un ) du1...dun
En outre l’application ( x1 ,..., xn ) → f X ( x1 ,..., xn ) est continue.
(
EXEMPLE.– Soit une v.a. gaussienne X ∼ Ν m, σ
2
).
⎛ 1 ⎛ x − m ⎞2 ⎞ 1 exp ⎜ − ⎜ ⎟ et supposons σ ≠ 0 ⎜ 2 ⎝ σ ⎟⎠ ⎟ 2πσ ⎝ ⎠ 2 2 ⎛ uσ ⎞ on obtient ϕ X ( u ) = exp ⎜ ium − ⎟. 2 ⎝ ⎠ C’est-à-dire que f X ( x ) =
Il est clair que ϕ X
∈ L1 ( du ) et f X ( x ) =
1 2π
+∞
∫ −∞ exp ( −iux ) ϕ X ( u ) du .
48
Processus stochastiques et filtrages optimaux
Propriétés et applications des fonctions caractéristiques
1) Indépendance PROPOSITION.– Pour que les composantes X j du vecteur aléatoire
X T = ( X 1 ,..., X n ) soient indépendants, il faut et il suffit que : n
ϕ X ( u1 ,..., un ) = ∏ ϕ X ( u j ) . j
j =1
DÉMONSTRATION.– Condition nécessaire :
ϕ X ( u1 ,..., un ) =
⎛ n ⎞ ⎜ i u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn . exp ⎜ ⎟ !n ⎝ j =1 ⎠
∑
∫
Grâce à l’indépendance : =
∫
⎛ n ⎞ ⎜i u j xj ⎟ exp ⎜ ⎟ !n ⎝ j =1 ⎠
∑
n
n
∏ j ( x j ) dx1... dxn = ∏ϕ X (u j ) . fX
j =1
j =1
j
CONDITION SUFFISANTE.– On part de l’hypothèse : ⎛ n ⎞ ⎜ i u j x j ⎟ f x ( x1 ,..., xn ) dx1... dxn exp ⎜ ⎟ !n ⎝ j =1 ⎠ ⎛ n ⎞ f X x j dx1... dxn = n exp ⎜ i u j x j ⎟ j ⎜ ⎟ ! ⎝ j =1 ⎠
∫
∑
∫
∑
∏
( )
D’où on déduit : f X ( x1 ,..., xn ) =
n
∏ f X j ( x j ) , c’est-à-dire l’indépendance,
puisque la transformation de Fourier f X
j =1
F
ϕX
est injective.
Vecteurs aléatoires
49
REMARQUE.– On ne confondra pas ce résultat avec celui qui concerne la somme de v.a. indépendantes et qui s’énonce de la manière suivante. Si X 1 ,..., X n sont des v. a. indépendantes alors
ϕ∑ X j
n
(u ) = ∏ϕ X j (u ) j j =1
Soient par exemple n variables aléatoires indépendantes :
(
)
(
X 1 ∼ Ν m1 , σ 2 ,..., X n ∼ Ν mn , σ 2
)
et soient n constantes réelles λ1 ,..., λn. n
La remarque nous permet de déterminer la loi de la valeur aléatoire
∑λj X j . j =1
En effet les v.a.
ϕ∑ j
λ X
=e
j
sont indépendantes et :
n
n
j =1
j =1
( )
n
( u ) = ∏ ϕλ j X j ( u ) = ∏ ϕ X j λ j u = ∏ e
1 iuλ j m j − u 2 λ 2j σ 2j 2
j =1
1 iu ∑ λ j m j − u 2 ∑ λ 2j σ 2j 2 j j
n
donc
j
λj X j
⎛ ⎜ ⎝
⎞ ⎟ ⎠
∑ λ j X j ∼ Ν ⎜ ∑ λ j m j , ∑ λ 2j σ 2j ⎟ . j =1
j
j
2) Calcul des moments (jusqu’au 2e ordre par exemple) Supposons
( )
ϕ X ∈ C 2 !n .
En appliquant une fois le théorème de Lebesgue de dérivation sous signe somme (dont les hypothèses sont immédiates à vérifier) il vient :
50
Processus stochastiques et filtrages optimaux
∂ϕ X ( 0,..., 0 ) ∂u X
∀K = 1 à n
⎛ ⎞ ⎛ ⎞ = ⎜ ∫ n ixK exp ⎜ i ∑ u j x j ⎟ f X ( x1 ,..., xn ) dx1...dxn ⎟ ⎜ j ⎟ ⎜ ! ⎟ ⎝ ⎠ ⎝ ⎠( u1 = 0,...,un = 0 ) = i∫ Soit
!n
xK f X ( x1 ,..., xn ) dx1...dxn = i E X K
E X K = −i
∂ϕ X ( 0, ..., 0 ) . ∂u K
En appliquant ce théorème une deuxième fois, il vient :
∀ k et 2 ∈ (1, 2, ..., n )
EX K X 2 =
∂ 2ϕ X ( 0,..., 0 ). ∂u2 ∂uK
1.4. Variables et vecteurs aléatoires du second ordre
Commençons par rappeler les définitions et propriétés usuelles relatives aux variables aléatoires du 2e ordre. DÉFINITIONS.– Etant donné
X ∈ L2 ( dP ) de densité de probabilité
fX ,
2
E X et E X ont un sens. On appelle variance de X l’expression : Var X = E X − ( E X ) = E ( X − E X ) . 2
2
2
On appelle écart type de X l’expression σ ( X ) = 2
Soit maintenant deux v.a. X et Y ∈ L
( dP ) . En utilisant le produit scalaire
< , > sur L ( dP ) défini en 1.2. on a : 2
E X Y = < X , Y > = ∫ X (ω ) Y (ω ) dP (ω ) Ω
Var X .
Vecteurs aléatoires
51
et, si le vecteur Z = ( X , Y ) admet la densité f Ζ , alors :
E XY =∫
!2
xy f Z ( x, y ) dx dy.
On a déjà constaté, en appliquant l’inégalité de Schwarz, que E X Y a bien un sens. DÉFINITION.– Soit deux v.a.
X , Y ∈ L2 ( dP ) on appelle covariance de X et Y :
L’expression Cov ( X , Y ) = E X Y − E X E Y . Quelques remarques ou propriétés faciles à vérifier :
Cov ( X , X ) = V ar X Cov ( X , Y ) = Cov (Y , X ) – si
λ
est une constante réelle Var ( λ X ) = λ Var X ; 2
– si X et Y sont deux v.a. indépendantes, alors Cov ( X , Y ) = 0 mais la réciproque n’est pas vraie ; – si X 1 ,..., X n sont des v.a. 2 à 2 indépendantes
Var ( X 1 + ... + X n ) = Var X1 + ... + Var X n Coefficients de corrélation
(
Les Var X j (toujours positives) et les Cov X j , X K
) (de signe quelconque)
peuvent prendre des valeurs algébriques très élevées. On préfère parfois utiliser les « coefficients de corrélation » (normalisés) :
ρ ( j, k ) =
Cov ( X j , X K ) Var X j
dont voici les propriétés :
Var X K
52
Processus stochastiques et filtrages optimaux
1)
ρ ( j , k ) ∈ [ −1,1]
En effet : supposons (uniquement pour simplifier l’écriture) que X j et X K soient centrées et considérons le trinôme du 2e degré en
λ.
Τ ( λ ) = E ( λ X j − X K ) = λ 2 EX 2j − 2λ E ( X j X K ) + E X K2 ≥ 0 2
Τ ( λ ) ≥ 0 ∀λ ∈ ! si et seulement si le discriminant :
(
∆ = E X jXK
)
2
− E X 2j E X K2
est négatif ou nul, soit
(
Cov X j , X K
)
2
≤ Var X j Var X K (c’est-à-dire
ρ ( j , k ) ∈ [ −1,1] ). Ce qui est aussi l’inégalité de Schwarz. On peut par ailleurs préciser que
ρ ( j , k ) = ±1
si et seulement si ∃ λ 0 ∈ !
tel que X K = λ 0 X j p.s. : en effet en remplaçant X K par définition de
λ 0 X j dans
la
ρ ( j , k ) , on obtient ρ ( j , k ) = ±1 .
Réciproquement, si
ρ ( j , k ) = 1 (par exemple), c’est-à-dire si :
∆ = 0 , ∃ λ 0 ∈ ! tel que X K = λ 0 X j p.s. Si X j et X k ne sont pas centrés, on remplace dans ce qui précède X j par
X j − Ε X j et X k par X k − E X k 2) Si X j et X k sont indépendantes, E X j X k = E X j E X k donc
(
)
Cov X j , X k = 0 et ρ ( j , k ) = 0 Mais la réciprocité est fausse dans le cas général comme le prouve l’exemple suivant.
Vecteurs aléatoires
[
Soit Θ une variable aléatoire uniformément répartie sur 0 , 2
f Θ (θ ) =
π
[
53
c’est-à-dire
1
1 0 , 2 π [ (θ ) . 2π [
Soit aussi deux v.a. X j = sin Θ et X k = cos Θ . On vérifie facilement que
(
)
E X j, E Xk , E X j Xk
sont nuls donc
Cov X j , X k et ρ ( j , k ) sont nuls. Cependant X j 2 + X k 2 = 1 et les v.a. X j et X k sont dépendantes. Vecteurs aléatoires du second ordre
DÉFINITION.– On dit qu’un vecteur aléatoire X 2
ordre si X j ∈ L
( dP )
DÉFINITION.– Etant
T
= ( X1 ,..., X n ) est du second
∀ j =1 à n .
donné
un
vecteur
aléatoire
du
second
ordre
X = ( X1 ,..., X n ) , on appelle matrice de covariance de ce vecteur, la matrice T
symétrique :
… Cov ( X 1 , X n ) ⎞ ⎛ Var X1 ⎜ ⎟ " " ΓX = ⎜ ⎟ ⎜ Cov ( X , X ) ( ⎟ Var X n 1 n ⎝ ⎠ Si on se reporte à la définition de l’espérance d’une matrice de v.a., on voit que T l’on peut écrire Γ X = E ⎡( X − E X )( X − E X ) ⎤ .
⎣
⎦
On constate aussi que Γ X −ΕX = Γ X . REMARQUE.– Variables et vecteurs aléatoires complexes du second ordre : on dit qu’une variable aléatoire complexe X = X 1 + i X 2 est du second ordre si X 1 et
X 2 ∈ L2 ( dP ) .
54
Processus stochastiques et filtrages optimaux
La covariance de deux variables aléatoires du second ordre et centrées X = X1 + i X 2 et Y = Y1 + iY2 a pour définition naturelle :
Cov ( X , Y ) = EXY = E ( X 1 + i X 2 )(Y1 − iY2 ) = E ( X 1Y1 + X 2Y2 ) + iE ( X 2Y1 − X 1Y2 ) et la condition de décorrelation est donc :
E ( X 1Y1 + X 2Y2 ) = E ( X 2Y1 − X 1Y2 ) = 0 . On dit qu’un vecteur aléatoire complexe X second ordre si pour tout
j ∈ (1,..., n )
T
(
= X 1 ,..., X j ,... X n
)
est du
X j = X 1 j + iX 2 j est une variable
aléatoire complexe du second ordre. La matrice de covariance d’un vecteur aléatoire complexe du second ordre et centré est définie par :
⎛ E X 1 2 … EX 1 X n ⎞ ⎜ ⎟ ΓX = ⎜ " " ⎟ ⎜⎜ 2⎟ ⎟ ⎝ EX n X 1 ( E X n ⎠ Si l’on ne craint pas les lourdeurs d’écriture, on peut sans difficulté écrire ces définitions pour des variables et vecteurs aléatoires complexes non centrés. Revenons aux vecteurs aléatoires réels. DÉFINITION.– On appelle matrice des moments du second ordre la matrice symétrique E ⎡⎣ X X ⎤⎦ . Si X est centré Γ X = E ⎡⎣ X X ⎤⎦ . T
T
Transformation affine d’un vecteur du 2e ordre
Notons par M ( p, n ) l’espace des matrices à p lignes et à n colonnes.
Vecteurs aléatoires
PROPOSITION.– Soit X
T
55
= ( X1 ,..., X n ) un vecteur aléatoire de vecteur espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X . Soit par ailleurs une matrice A ∈ M ( p, n ) et un vecteur certain
BT = ( b1 ,..., bP ) . Le vecteur aléatoire Y = AX + B possède Am + B pour vecteur espérance et
ΓY = AΓ X AΤ pour matrice de covariance. DÉMONSTRATION.–
E [Y ] = E [ AX + B ] = E [ AX ] + B = Am + B. Et aussi par exemple : Τ E ⎡( AX ) ⎤ = E ⎡⎣ X Τ AΤ ⎤⎦ = mΤ AΤ ⎣ ⎦ Τ ΓY = Γ AX +Β = Γ AX = E ⎡⎢ A ( X − m ) ( A ( X − m ) ) ⎤⎥ = ⎣ ⎦ Τ Τ E ⎡ A ( X − m )( X − m ) AΤ ⎤ = A E ⎡( X − m )( X − m ) ⎤ AΤ = AΓ X AΤ ⎣ ⎦ ⎣ ⎦
dans la suite, nous aurons aussi besoin du résultat facile suivant. PROPOSITION.– Soit X
T
= ( X 1 ,..., X n ) un vecteur aléatoire du 2e ordre, de
matrice de covariance Γ Χ . Alors :
∀ ΛT = ( λ1 ,..., λn ) ∈ ! n
⎛ n ⎞ Λ Τ Γ X Λ = var ⎜ ∑ λ j X j ⎟ . ⎜ j =1 ⎟ ⎝ ⎠
56
Processus stochastiques et filtrages optimaux
DÉMONSTRATION.–
(
)
Λ ΤΓ X Λ = ∑ Cov X j , X K λ j λK = ∑ E j,K
⎛ = E ⎜ ∑ λ j X j − EX j ⎜ j ⎝
(
)
j,K
(( X
j
− EX j
) ( X K − EX K ) )λ j λK 2
2
⎛ ⎞ ⎛ ⎞⎞ ⎛ ⎞ ⎟⎟ = E ⎜ ∑ λ j X j − E ⎜⎜ ∑ λ j X j ⎟⎟ ⎟ = Var ⎜⎜ ∑ λ j X j ⎟⎟ ⎜ j ⎟ ⎠ ⎝ j ⎠⎠ ⎝ j ⎠ ⎝ Τ
n
CONSÉQUENCE.– ∀Λ ∈ ! on a toujours Λ Γ Χ Λ ≥ 0 . Rappelons à ce propos ces définitions d’algèbre : T
– si, Λ Γ X Λ > 0
∀Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) , on dit que Γ X est
définie positive ; – si ∃
Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que Λ ΤΓ X Λ = 0 , on dit que Λ X
est semi-définie positive. REMARQUE.– Dans cet ouvrage la notion de vecteur apparaît dans deux contextes différents et afin d’éviter certaines confusions, revenons, en insistant, sur quelques points de vocabulaire. 1) On appelle vecteur aléatoire de !
n
(ou vecteur aléatoire à valeurs dans
⎛ X1 ⎞ ⎜ ⎟ ! ), tout n-uple de variables aléatoires X = ⎜ " ⎟ ⎜X ⎟ ⎝ n⎠ T ˆ X = ( X 1 ,..., X n ) ) . ( ou X = ( X1 ,..., X n ) ou meme n
X est un vecteur en ce sens que pour chaque ω ∈ Ω , on obtient un n-uple X (ω ) = ( X 1 (ω ) ,..., X n (ω ) ) qui appartient à l’espace vectoriel ! . n
2) On appelle vecteur aléatoire du second ordre, tout vecteur aléatoire de !
X = ( X 1 ,..., X n ) dont toutes les composantes X j appartiennent à L2 ( dP ) .
n
Vecteurs aléatoires
57
Dans ce contexte, les composantes X j elles-mêmes sont des vecteurs puisqu’elles appartiennent à l’espace vectoriel L ( dP ) . 2
Donc, dans la suite quand on parlera d’indépendance linéaire ou de produit scalaire ou d’orthogonalité, il faudra bien préciser à quel espace vectoriel, !
n
L ( dP ) , on fait référence.
ou
2
2
1.5. Indépendance linéaire des vecteurs de L
( dP ) 2
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X n de L
λ1 X 1 + ... + λn X n = 0
indépendants si
2
le vecteur nul de L
p.s.
⇒ λ1 = ... = λn = 0 (où ici, 0 est
( dP ) ). 2
DÉFINITION.– On dit que les n vecteurs X 1 ,..., X 2 de L
λ21 ,..., λn non tous nuls et ∃ λ1 X 1 (ω ) + ... + λn X n (ω ) = 0
dépendants si ∃ positive tel que
( dP ) sont linéairement
( dP ) sont linéairement
un événement A de probabilité
∀ω ∈ A .
En particulier : X 1 ,..., X n seront linéairement dépendants si ∃ tous nuls tel que
λ1 X 1 + ... + λn X n = 0
λ1 ,..., λn
p.s.
Exemples : soient les trois applications mesurables :
X1, X 2 , X 3 :
([0, 2] ,B [0, 2] , dω ) → ( !,B ( ! ) )
définies par :
X 1 (ω ) = ω X 2 (ω ) = 2ω X 3 (ω ) = 3ω
⎫ ⎪ ⎬ sur [ 0,1[ et ⎪ ⎭
X 1 (ω ) = e
− (ω −1)
⎫ ⎪⎪ X 2 (ω ) = 2 ⎬ sur [1, 2[ ⎪ X 3 (ω ) = −2ω + 5⎪⎭
non
58
Processus stochastiques et filtrages optimaux
Figure 1.6. Trois variables aléatoires
Les trois applications sont évidemment mesurables et appartiennent à L ( dω ) , 2
ce sont 3 vecteurs de L ( dω ) . 2
[ [
Ces 3 vecteurs sont linéairement dépendants car sur A = 0,1 de mesure de probabilité
1 2
: −5 X 1 ( ω ) + 1 X 2 ( ω ) + 1 X 3 ( ω ) = 0
∀ω ∈ A .
Matrice de covariance et indépendance linéaire
Soit donc Γ X la matrice de covariance de X = ( X 1 ,..., X n ) vecteur du 2e ordre. 1) Si Γ X est définie positive : X 1 = X 1 − EX 1 ,..., X n = X n − EX n sont *
*
alors des vecteurs linéairement indépendants de L ( dP ) . 2
En effet :
⎛ ⎛ ⎞ ⎛ ⎞⎞ Λ Γ X Λ = Var ⎜ ∑ λ j X j ⎟ = E ⎜ ∑ λ j X j − E ⎜ ∑ λ j X j ⎟ ⎟ ⎜ j ⎟ ⎝ j ⎠ ⎝ j ⎠⎠ ⎝ T
2
Vecteurs aléatoires
⎛ = E⎜ ⎜ ⎝
59
2
∑ λ j ( X j − EX j ) j
⎞ ⎟ =0 ⎟ ⎠
C’est-à-dire :
∑ λ j ( X j − EX j ) = 0
p.s.
j
Ce qui implique, puisque Γ X est définie positive, que
λ1 = ( = λn = 0
On peut dire aussi que X 1 ,..., X n engendrent un hyperplan de L ( dP ) de *
dimension n que l’on peut noter
*
2
H ( X 1* ,..., X n* ) .
En particulier, si les v.a. X 1 ,..., X n sont décorrelées 2 à 2 (donc a fortiori si elles sont stochatiquement indépendantes), on a :
ΛT Γ X Λ = ∑ Var X j .λ j2 = 0 ⇒ λ1 = ( = λn = 0 j
donc dans ce cas Γ X est définie positive et X 1 ,..., X n sont encore linéairement *
*
indépendantes. T
REMARQUE.– Si E X X , la matrice des moments d’ordre 2, est définie positive alors X 1 ,..., X n sont des vecteurs linéairement indépendants de L ( dP ) . 2
2) Si maintenant Γ X est semi-définie positive :
X 1* = X 1 − EX 1 , . . . , X n* = X n − EX n sont alors des vecteurs linéairement dépendants de L ( dP ). 2
En effet :
∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 )
60
Processus stochastiques et filtrages optimaux
(
)
⎛
tel que : Λ Γ X Λ = Var ⎜ T
⎝
∑λ j
j
⎞ Xj⎟=0 ⎠
C’est-à-dire :
∃ Λ = ( λ1 ,..., λn ) ≠ ( 0,..., 0 ) tel que
∑λ ( X j
j
Figure 1.7. Vecteur
j
− EX j ) = 0 p.s.
X ∗ (ω ) et vecteur X ∗
⎛ X1 ⎞ ⎜ ⎟ Exemple : on considère X = X 2 un vecteur aléatoire ⎜ ⎟ ⎜X ⎟ ⎝ 3⎠ ⎛ 3⎞ ⎛4 ⎜ ⎟ ⎜ admettant m = −1 pour vecteur espérance et Γ X = 2 ⎜ ⎟ ⎜ ⎜ 2⎟ ⎜0 ⎝ ⎠ ⎝
3
de ! du 2e ordre,
2
0⎞
1
0 pour matrice
⎟ ⎟ 0 3 ⎟⎠
Vecteurs aléatoires
61
de Covariance. On constate que Γ X est semi-définie positive. En prenant par exemple
ΛT = (1 , − 2 , 0 ) on vérifie que
( X1 − 2 X 2 + 0 X 3 ) = 0
et X 1 − 2 X 2 = 0 *
*
(Λ Γ Λ) = 0 . T
X
Donc Var
p.s.
1.6. Espérance conditionnelle (cas des vecteurs à densité)
Soit X une v.a. réelle et soit Y = (Y1 ,..., Yn ) un vecteur aléatoire réel. On
X et Y sont indépendants et que le que : Z = ( X , Y1 ,..., Yn ) admet une densité de probabilité f Z ( x, y1 ,..., yn ) .
suppose
vecteur
Dans ce paragraphe on emploiera selon les cas les notations (Y1 ,..., Yn ) ou
Y , ( y1 ,..., yn ) ou y. Rappelons pour commencer que fY ( y ) =
∫ ! f Z ( x, y ) dx .
Probabilité conditionnelle
On veut, pour tout B ∈ B ( ! ) et tout
( y1 ,..., yn ) ∈ ! n , définir et calculer la
probabilité pour que X ∈ B sachant que Y1 = y1 ,..., Yn = yn . On note cette quantité P
(
( ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
ou plus
)
simplement P X ∈ B y1 ,..., yn . Notons qu’on ne peut pas, comme le cas des variables discrètes, écrire :
(
)
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) =
Le quotient ici est indéterminé et égale
(
P ( X ∈ B ) (Y1 = y1 ) ∩ .. ∩ (Yn = yn )
0 0
P ( (Y1 = y1 ) ∩ .. ∩ (Yn = yn ) )
)
62
Processus stochastiques et filtrages optimaux
Pour j = 1 à n , posons I j = ⎡⎣ y j , y j + h ⎡⎣ On écrit :
(
P ( X ∈ B y1 ,..., yn ) = lim P ( X ∈ B ) (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) h →0
= lim
)
P ( ( X ∈ B ) ∩ (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) ) P ( (Y1 ∈ I1 ) ∩ .. ∩ (Yn ∈ I n ) )
h→0
∫ B dx ∫ I ×...×I f Z ( x, u1,..., un ) du1...dun ∫ I ×...×I f y ( u1,..., un ) du1...dun ∫ B f Z ( x, y ) dx = f Z ( x, y ) dx = ∫ B fY ( y ) fY ( y ) =
n
1
1
n
Il est donc naturel de dire que la densité conditionnelle de la v.a. X sachant
( y1 ,..., yn ) est la fonction : x → f ( x y) =
!
!
f Z ( x, y ) si fY ( y ) ≠ 0 fY ( y )
On peut négliger l’ensemble des y pour lesquels fY ( y ) = 0 car il est de n
mesure (dans ! ) nul. Posons en effet Α =
{( x, y ) fY ( y ) = 0} , on remarque :
P ( ( X , Y ) ∈ Α ) = ∫ f Z ( x, y ) dx dy = ∫ Α
=∫
{ y fY ( y )=0}
{y f
Y
( y )=0}
du ∫ f ( x, u ) dx !
fY ( u ) du = 0 , donc fY ( y ) est non nul presque partout.
Vecteurs aléatoires
63
Finalement, on a obtenu une famille (indiciée par les y vérifiant fY ( y ) > 0 )
(∫
de densités de probabilités f ( x y )
!
)
f ( x y ) dx = 1 .
Espérance conditionnelle
Soit toujours le vecteur aléatoire Z = ( X , Y1 ,..., Yn ) de densité f Z ( x, y ) et
f ( x y ) la densité de probabilité de X sachant y1 ,..., yn . DÉFINITION.– Etant donnée une application mesurable
Ψ : ( !, B ( ! ) ) → ( !, B ( ! ) ) , sous l’hypothèse
(c’est-à-dire
(
Ψ ∈ L1 f ( x y ) dx
Ψ ( X ) sachant
(
( y1 ,..., yn )
)
)
∫ ! Ψ ( x ) f ( x y ) dx < ∞
on appelle espérance conditionnelle de
l’espérance de Ψ ( X ) calculée avec la densité
(
)
conditionnelle f x y = f x y1 ,..., yn et on écrit :
E ( Ψ ( X ) y1 ,..., yn ) = ∫ Ψ ( x ) f ( x y ) dx . !
E ( Ψ ( X ) y1 ,..., yn ) est une valeur certaine, fonction de ( y1 ,..., yn ) , notons la gˆ ( y1 ,..., yn ) (cette notation prendra son sens dans le chapitre sur l’estimation). DÉFINITION.– On appelle espérance conditionnelle de Ψ ( X ) par rapport à
Y = (Y1 ,..., Yn ) la v.a. gˆ (Y1 ,..., Yn ) = E ( Ψ ( X ) Y1 ,..., Yn ) (notée aussi
E ( Ψ ( X ) Y ) qui prend la valeur gˆ ( y1 ,..., yn ) = E ( Ψ ( X ) y1 ,..., yn ) quand
(Y1 ,..., Yn )
prend la valeur
( y1,..., yn ).
REMARQUE.– Comme on ne distingue pas deux v.a. égales p.s., on appellera encore espérance conditionnelle de
Ψ ( X ) par rapport à Y1 ,..., Yn toute v.a.
gˆ ′ (Y1 ,..., Yn ) telle que gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) p.s.
64
Processus stochastiques et filtrages optimaux
C’est-à-dire gˆ ′ (Y1 ,..., Yn ) = gˆ (Y1 ,..., Yn ) sauf éventuellement sur Α tel que
P ( Α ) = ∫ fY ( y ) dy = 0 . Α
PROPOSITION.– Si Ψ ( X ) ∈ L ( dP ) (c’est-à-dire
∫ ! Ψ ( x ) f X ( x ) dx < ∞ ) 1 alors gˆ (Y ) = E ( Ψ ( X ) Y ) ∈ L ( dP ) (c’est-à-dire ∫ gˆ ( y ) fY ( y ) dy < ∞ . ! 1
n
DÉMONSTRATION.–
∫ ! gˆ ( y ) f ( y ) dy = ∫ ! E ( Ψ ( X ) y ) fY ( y ) dy = ∫ fY ( y ) dy ∫ Ψ ( X ) f ( x y ) dx ! ! n
n
n
Par le théorème de Fubini :
∫ ! Ψ ( x ) fY ( y ) f ( x y ) dx dy = ∫ ! Ψ ( x ) f Z ( x, y ) dx dy = ∫ Ψ ( x ) dx ∫ f Z ( x, y ) dy = ∫ Ψ ( x ) f X ( x ) dx < ∞ ! ! ! n+1
n+1
n
Principales propriétés de l’espérance conditionnelle
Les hypothèses d’intégrabilité étant vérifiées : 1)
(
)
(
2) Si X et Y sont indépendants E Ψ ( X ) Y = E Ψ ( X )
(
)
)
3) E Ψ ( X ) X = Ψ ( X ) 4) Conditionnements successifs
(
)
E E ( Ψ ( X ) Y1 ,..., Yn , Yn +1 ) Y1 ,..., Yn = E ( Ψ ( X ) Y1 ,..., Yn ) 5) Linéarité
E ( λ1Ψ1 ( X ) + λ2 Ψ 2 ( X ) Y ) = λ1E ( Ψ1 ( X ) Y ) + λ2 E ( Ψ 2 ( X ) Y )
Vecteurs aléatoires
65
Les démonstrations en général faciles sont laissées en exercice. Remarquons en particulier qu’en ce qui concerne la première propriété, il suffit de réécrire la démonstration de la dernière proposition en y ôtant les valeurs absolues. Le chapitre sur l’estimation en moyenne quadratique rendra plus concrète la notion d’espérance conditionnelle. Exemple : soit Z = ( X , Y ) un couple aléatoire de densité de probabilité
f Z ( x, y ) = 6 xy ( 2 − x − y )1∆ ( x, y ) où ∆ est le carré [ 0,1] × [ 0,1].
(
)
Calculons E X Y . On a successivement : – f ( y) = soit f –
1
1
∫ 0 f ( x, y ) dx = ∫ 0 6 xy ( 2 − x − y ) dx
avec
y ∈ [ 0,1]
( y ) = ( 4 y − 3 y 2 )1[0,1] ( y ) f ( x y) =
(
f ( x, y ) 6 x ( 2 − x − y ) = 1[0,1] ( x ) avec y ∈ [ 0,1] 4 − 3y f ( y)
) ∫ 0 xf ( x y ) dx ⋅1[0,1] ( y ) = 2 (54−−43yy ) 1[0,1] ( y ) 1
– E X y = Donc :
E(X Y) =
5 − 4Y
1 0,1 (Y ) . 2 ( 4 − 3Y ) [ ]
On a aussi :
(
)
E ( X ) = E E ( X Y ) = ∫ E ( X y ) f ( y ) dy =∫
1 0
5 − 4y
1
0
( 4 y − 3 y ) dy 2(4 − 3y) 2
=
7 12
66
Processus stochastiques et filtrages optimaux
1.7. Exercices du chapitre 1 Enoncé 1.1.
Soit X une v.a. de fonction de répartition
⎛0 ⎜ 1 F ( x) = ⎜ ⎜2 ⎜1 ⎝
si
x<0
si
0≤x≤2
si
x>2
Calculer les probabilités :
(
) (
) (
P X 2 ≤ X ; P X ≤ 2X 2 ; P X + X 2 ≤ 3
4
)
Enoncé 1.2.
Soit
le
vecteur
f Z ( x, y ) = K
1 yx
4
aléatoire
1∆ ( x, y )
où
Z = ( X ,Y ) K
⎧ ∆ = ⎨( x, y ) ∈ ! 2 x, y > 0 ; y ≤ x ; y > ⎩
est
de une
densité constante
de
probabilité
réelle
et
où
1⎫
⎬.
x⎭
Déterminer la constante K et les densités
f X et fY des v.a. X et Y .
Enoncé 1.3.
Soient X et Y deux variables aléatoires indépendantes et de densités uniformes sur l’intervalle [ 0,1] : 1) Déterminer la densité de probabilité
f Z de la v.a. Z = X + Y .
2) Déterminer la densité de probabilité fU de la v.a. U = X Y .
Vecteurs aléatoires
67
Enoncé 1.4.
Soient X et Y deux v.a. indépendantes et de densités uniformes sur l’intervalle [ 0,1] . Déterminer la densité de probabilité fU de la v.a. U = X Y . Solution 1.4.
U prend ses valeurs dans [ 0,1] Soit FU la fonction de répartition de
U :
– si
u ≤ 0 FU ( u ) = 0 ; si u ≥ 1 FU ( u ) = 1 ;
– si
u ∈ ]0,1[ : FU ( u ) = P (U ≤ u ) = P ( X Y ≤ u ) = P ( ( X , Y ) ∈ Bu )
où Bu = A ∪ B est l’aire hachurée de la figure. Donc FU ( u ) =
∫B
u
f( X ,Y ) ( x, y ) dx dy = ∫
Bu
f X ( x ) fY ( y ) dx dy
68
Processus stochastiques et filtrages optimaux
1
u
u
0
= ∫ dx dy + ∫ dx ∫ A
x
dy = u + u ∫ ⎛
0
Finalement fU ( u ) = FU′ ( u ) = ⎜
1 dx u
= u (1 − 2n u )
x
si x
⎜ − 2n u ⎝
x
∈ ]-∞,0] ∪ [1, ∞[ ∈ ]0,1[
Enoncé 1.5.
On considère trois v.a. réelles X , Y , Z indépendantes et de même loi c’est-à-dire admettant la même densité
Déterminer la densité de probabilité
1 ⎛ x2 ⎜− 2π ⎝ 2
⎞ ⎟. ⎠
(
fU de la v.a.r. U = X 2 + Y 2 + Z 2
Solution 1.5.
Soit
FU la fonction de répartition de U : – si
⎛ u ≤ 0 FU ( u ) = P ⎜ X 2 + Y 2 + Z 2 ⎝
– si
u > 0 FU ( u ) = P ( ( X + Y + Z ) ∈ Su )
Où
(
)
1
2
⎞ ≤ u⎟ = 0 ⎠
Su est la sphère de ! 3 centrée en ( 0, 0, 0 ) et de rayon u
= ∫ f( X ,Y , Z ) ( x, y, z ) dx dy dz Su =
⎛ 1
1
( 2π )
3
2
∫Su exp ⎜⎝ − 2 ( x
2
N ( 0,1),
) ⎞⎠
+ y 2 + z 2 ⎟ dx dy dz
)
1
2
.
Vecteurs aléatoires
69
et en utilisant un passage en coordonnées sphériques :
= =
1
eπ
( 2π )
3
∫0 2
( 2π )
u
⎛ 1
2
⎞ 2 ⎟ r sin ϕ dr ⎠
u ⎛ 1 ⎞ 2π ⋅ 2 ∫ r 2 exp ⎜ − r 2 ⎟ dr 0 ⎝ 2 ⎠
1 3
π
∫ 0 dϕ ∫ 0 exp ⎜⎝ − 2 r
dθ
2
2
⎛ 1 2⎞ r ⎟ est continue : ⎝ 2 ⎠
et comme r → r exp ⎜ −
⎛ 0 si u < 0 fU ( u ) = ⎜⎜ 2 ⎛ 1 ⎞ u 2 exp ⎜ − u 2 ⎟ si u ≥ 0 ⎜ FU′ ( u ) = 2π ⎝ 2 ⎠ ⎝ Enoncé 1.6.
1a) Vérifier que
∀a>0
fa ( x ) =
probabilité (appelée densité de Cauchy). 1b) Vérifier que la fonction
ϕ X ( u ) = exp ( − a u ) .
a π a + x2 1
caractéristique
1c) Soit une famille de v.a. indépendantes la densité de la v.a. Yn =
2
est une densité de
correspondante
est
X 1 ,..., X n de densité f a . Trouver
X 1 + ... + X n . n
Que constate-t-on ? 2) Par considération de variables aléatoires de Cauchy, vérifier que l’on peut avoir l’égalité
ϕ X +Y ( u ) = ϕ X ( u ) ϕY ( u )
avec X et Y dépendantes.
70
Processus stochastiques et filtrages optimaux
Enoncé 1.7.
⎛1 2 3⎞ ⎜ ⎟ Montrer que M = 2 1 2 n’est pas une matrice de covariance. ⎜ ⎟ ⎜3 2 1⎟ ⎝ ⎠ ⎛ 1 0, 5 0 ⎞ ⎜ ⎟ 1 0 est une matrice de covariance. Montrer que M = 0, 5 ⎜ ⎟ ⎜ 0 ⎟ 0 1 ⎝ ⎠ Vérifier sur cet exemple que la propriété « n’être pas corrélé avec » pour une famille de v.a. n’est pas transitive. Enoncé 1.8.
Montrer
que
le
vecteur
aléatoire
X T = ( X1, X 2 , X 3 )
d’espérance
⎛ 10 −1 4 ⎞ ΕX = ( 7, 0,1) et de matrice de covariance Γ X = ⎜ −1 1 −1 ⎟ appartient ⎜ ⎟ ⎜ 4 −1 2 ⎟ ⎝ ⎠ 3 presque sûrement (p.s.) à un plan de ! . T
Enoncé 1.9.
On considère le vecteur aléatoire
U = ( X , Y , Z ) de densité de probabilité
fU ( x, y, z ) = K x y z ( 3 − x − y − z ) 1∆ ( x, y, z ) où ∆ est le cube
[0,1] × [ 0,1] × [ 0,1] .
1) Calculer la constante K .
⎛ ⎝
2) Calculer la probabilité conditionnelle P ⎜ X ∈
(
3) Déterminer l’espérance conditionnelle Ε X
2
1 3⎞ ⎡1 1⎤ ⎢⎣ 4 , 2 ⎥⎦ Y = 2 , Z = 4 ⎟⎠.
)
Y,Z .
CHAPITRE 2
Vecteurs gaussiens
2.1. Quelques rappels sur les variables aléatoires gaussiennes DÉFINITION.– On dit qu’une v.a. réelle est gaussienne, d’espérance m et de variance
σ 2 si sa loi de probabilité PX
:
⎛ ( x − m )2 ⎞ ⎟ si σ 2 ≠ 0 – admet la densité f X ( x ) = exp ⎜ − 2 ⎜ ⎟ 2σ 2π σ ⎝ ⎠ (par un calcul d’intégrale double par exemple, on vérifie que ∫ f X ( x ) dx = 1) ; ! 1
– est la mesure de Dirac
δ m si σ 2 = 0 .
Figure 2.1. Densité gaussienne et mesure de Dirac
72
Processus stochastiques et filtrages optimaux
Si σ ≠ 0 , on dit que X est gaussienne non dégénérée. 2
Si σ = 0, on dit que X est gaussienne dégénérée ; X est dans ce cas une « v.a. certaine » prenant la valeur m avec la probabilité 1. 2
2
EX = m, Var X = σ . Ceci se vérifie facilement par utilisation de la fonction de répartition. Comme on l’a déjà noté, pour spécifier qu’une v.a. X d’espérance m et de variance
σ
2
(
, on écrira X ∼ N m, σ
(
Fonction caractéristique de X ∼ N m, σ Commençons
de X 0 ∼ N ( 0,1) :
d’abord
(
)
par
ϕ X ( u ) = E eiuX = 0
0
2
2π
∫!
est gaussienne
).
)
déterminer
1
2
eiux e
− x2
la
fonction
caractéristique
2 dx .
On voit facilement que l’on peut appliquer le théorème de dérivation sous signe somme et :
ϕ ′X ( u ) = 0
i 2π
∫!
eiux xe
− x2
2 dx
.
Ensuite par intégration par parties :
i = 2π
⎡⎛ iux − x 2 ⎞ +∞ ⎤ − x2 +∞ iux ⎢⎜ −e e 2 ⎟ + ∫ iue e 2 dx ⎥ = − uϕ X 0 ( u ). −∞ ⎠ −∞ ⎢⎣⎝ ⎥⎦
La résolution de l’équation différentielle condition
ϕ ′X ( u ) = − uϕ X ( u ) 0
ϕ X ( 0 ) = 1 nous conduit à la solution ϕ X ( u ) = e 0
0
0
−u
2
2
.
avec la
Vecteurs gaussiens
(
Pour X ∼ N m, σ
2
)
Par le changement de variable y = obtient Si
ϕ X (u ) = e
σ2 =0
ϕ X (u )
1
ϕ X (u ) =
2π σ
x−m
σ
∫
1 ⎛ x −m ⎞ +∞ iux − 2 ⎜ σ ⎟ ⎠ e e ⎝ −∞
73
2
dx .
qui nous ramène au cas précédent, on
1 ium − u 2σ 2 2 .
c’est-à-dire si PX = δ m :
(transformée de Fourier au sens des distributions de
si bien que dans tous les cas
(σ
2
≠ ou = 0 )
(
ϕ X (u ) =
REMARQUE.– Etant donnée la v.a. X ∼ N m, σ fX (u ) =
1
( 2π )
1
2
(σ )
⎛ ⎝
2
1
1
2
δm )
= e
ium
1 ium − u 2σ 2 . e 2
) , on peut écrire :
⎛ 1 ( x − m ) σ 2 −1 ( x − m ) ⎞ ( ) ⎟ ⎝ 2 ⎠
exp ⎜ − 2
⎞ ⎠
ϕ X ( u ) = exp ⎜ ium − u σ u ⎟ 2
2
Ce sont les écritures que l’on retrouvera pour les vecteurs gaussiens. 2.2. Définition et caractérisation des vecteurs gaussiens DÉFINITION.– On dit qu’un vecteur aléatoire réel X si ∀ ( a0 , a1 ,..., an ) ∈ !
n +1
la v.a. a0 +
T
= ( X 1 ,..., X n ) est gaussien
n
∑ajX j
est gaussienne. (On peut dans
j =1
cette définition supposer a0 = 0 ce que nous ferons en général).
74
Processus stochastiques et filtrages optimaux
Un vecteur aléatoire X trouver un n -uple
T
= ( X 1 ,..., X n ) n’est donc pas gaussien si on peut n
∑ a j X j ne soit pas
( a1 ,..., an ) ≠ ( 0,..., 0 ) tel que la v.a.
j =1 n
gaussienne et il suffit pour cela de trouver un n - uple tel que
∑ a j X j ne soit pas j =1
une v.a. à densité. EXEMPLE.– On se donne
X ∼ N ( 0,1) et une v.a. ε discrète,
une v.a.
indépendante de X et tel que :
P ( ε = 1) = On pose
1 2
et
1
P ( ε = −1) = . 2
Y = ε X.
En utilisant ce qui précède, on montrera en exercice que, bien que Y soit une
v.a. N ( 0,1) , le vecteur ( X , Y ) n’est pas un vecteur gaussien. PROPOSITION.– Pour qu’un vecteur aléatoire X
T
= ( X 1 ,..., X n ) d’espérance
mT = ( m1 ,..., mn ) et de matrice de covariance Γ X soit gaussien, il faut et il suffit que sa fonction caractéristique (f.c)
ϕ X soit définie par :
⎛ m ⎞ 1 ϕ X ( u1 ,..., un ) = exp ⎜ i ∑ u j m j − uT Γ X u ⎟ ⎜ j =1 ⎟ 2 ⎝ ⎠
( où u
T
)
= ( u1 ,..., un ) .
DÉMONSTRATION.–
⎛ ⎜ ⎝
⎞ ⎟ ⎠
n
⎛ ⎜ ⎝
n
⎞ ⎟ ⎠
ϕ X ( u 1,..., u n ) = E exp ⎜ i ∑ u j X j ⎟ = E exp ⎜ i.1.∑ u j X j ⎟ j =1
j =1
n
= fonction caractéristique de la v.a.
∑u j X j j =1
en la valeur 1.
Vecteurs gaussiens
C’est-à-dire :
et
ϕ
n
∑u j X j
ϕn
u jX j ∑ j =1
(1)
⎛
⎛
n
⎝
⎝
j =1
⎞ 1
(1) = exp ⎜⎜ i.1.E ⎜⎜ ∑ u j X j ⎟⎟ −
j =1
75
⎠ 2
⎛ n u ⎜∑ j = 1 ⎝
1 Var ⎜ 2
j
⎞⎞ X j ⎟⎟ ⎟⎟ ⎠⎠
n
∑u j X j
si et seulement si la v.a.
est gaussienne.
j =1
⎛ n ⎞ u j X j ⎟ = u T Γ X u , on a bien : ∑ ⎜ j =1 ⎟ ⎝ ⎠
Enfin, puisque Var ⎜
⎛ ⎜ ⎝
n
ϕ X ( u 1,..., u n ) = exp ⎜ i ∑ u j m j
−
j =1
⎞ u T Γ X u ⎟. ⎟ 2 ⎠
1
NOTATION.– On voit que la fonction caractéristique d’un vecteur gaussien X est entièrement déterminée quand on connaît son vecteur espérance m et sa matrice de
covariance Γ X . Si X est un tel vecteur, on écrira X ∼ N n ( m, Γ X ).
(
)
CAS PARTICULIER.– m = 0 et Γ X = I n (matrice identité), X ∼ N n ( 0, I n ) est alors appelé vecteur gaussien standard. 2.3. Résultats relatifs à l’indépendance PROPOSITION.– 1) si le vecteur X
T
= ( X 1 ,..., X n ) est gaussien, toutes ses composantes X j
sont alors des v.a. gaussiennes ; 2) si les composantes X j d’un vecteur aléatoire X sont gaussiennes et indépendantes, le vecteur X est alors gaussien.
76
Processus stochastiques et filtrages optimaux
DÉMONSTRATION.– 1) on écrit X j = 0 + ... + 0 + X j + 0... + 0 ; n
2)
ϕ X ( u 1,..., u n ) = ∏ ϕ X ( u j
j =1
⎛ ⎜ ⎝
que l’on peut encore écrire : exp ⎜ i
⎛σ ⎜ avec Γ X = ⎜ ⎜ 0 ⎝
2 1
n 1 2 2⎞ ⎛ = j ) ∏ exp ⎜ iu j m j − u jσ j ⎟ 2 ⎝ ⎠ j =1
n
1
⎞
∑ u j m j − 2 u T Γ X u ⎟⎟ ⎠
j =1
⎞
0
.
# 2
σn ⎠
ATTENTION.– Comme on le verra ultérieurement : « composantes X j gaussiennes et indépendantes » n’est pas une condition nécessaire pour que le vecteur aléatoire
(
)
X T = X 1 ,..., X j ,..., X n soit gaussien. PROPOSITION.– Si X
T
(
)
= X 1 ,..., X j ,..., X n est un vecteur gaussien de matrice
de covariance Γ X , on a l’équivalence : Γ X diagonale ⇔ les v.a. X j sont indépendantes. DÉMONSTRATION.–
⎛ σ 12 0 ⎞ ⎜ ⎟ ΓX = ⎜ # ⎟ ⎜ 0 2 ⎟ σn ⎠ ⎝
n
( j)
⇔ ϕ X ( u 1,..., u n ) = ∏ ϕ X j u j −1
Ce qui est une condition nécessaire et suffisante d’indépendance des v.a. X j . Résumons par un schéma ces deux résultats simples :
Vecteurs gaussiens
(
X T = X 1 ,..., X j ,..., X n
)
sont des v.a. gaussiennes Si (condition suffisante) les
Xj
Même si
sont
ΓX
indépendantes
Xj
est diagonale
indépendantes
⇔ ΓX
Xj
Les composantes
est un vecteur gaussien
(
77
(
est diagonale)
REMARQUE.– Un vecteur gaussien X
T
(
X j indépendantes ou X est gaussien)
)
= X 1 ,..., X j ,..., X n est évidemment du
2e ordre. En effet chaque composante X j est gaussienne et appartient donc à −( x − m ) ⎛ ⎞ 1 2 2σ 2 dx < ∞ ⎟ ⎜ x e ⎜ ∫! ⎟ 2πσ ⎝ ⎠ 2
L2 ( dP )
On peut généraliser la dernière proposition et remplacer les v.a. gaussiennes par des vecteurs gaussiens. Considérons par exemple trois vecteurs aléatoires :
(
X T = X ,..., X 1
) ; Y = (Y ,..., Y ) ; Z = ( X ,..., X , Y ,..., Y ) T
n
T
p
1
1
n
$ Cov( X , Y ) ⎞ ⎛ ΓX ⎜ ⎟ et posons Γ Z = $ % ⎜ % ⎟ ⎜ Cov(Y , X ) $ ⎟ Γ Y ⎝ ⎠
(
où Cov ( X , Y ) est ici la matrice des coefficients Cov X j , Y&
(
et où Cov ( X , Y ) = Cov ( X , Y )
)
T
.
)
1
p
78
Processus stochastiques et filtrages optimaux
PROPOSITION.– Si Z
T
(
= X 1 ,..., X n , Y1 ,..., Yp
)
est un vecteur gaussien de
matrice de covariance Γ Z , on a l’équivalence :
Cov ( X , Y ) = matrice nulle ⇔ X et Y sont 2 vecteurs gaussiens indépendants.
DÉMONSTRATION.–
⎛ ΓX ⎜ ΓZ = ⎜ % ⎜ 0 ⎝
⎞ ⎟ $ % ⇔ ⎟ $ ΓY ⎟⎠ $
0
ϕ Z ( u 1 ,..., u n, u n +1,..., u n + p )
(
⎛ n+ p ⎛ ΓX 1 T⎜ ⎜ = exp ⎜ i ∑ u j m j − u ⎜ % 2 ⎜ ⎜ j =1 ⎝ 0 ⎝
0 ⎞ ⎞ ⎟ ⎟ $ % ⎟u ⎟ $ ΓY ⎠⎟ ⎠⎟ $
)
= ϕ X ( u 1,..., u n ) ϕY u n +1,..., u n + p … Ce qui est une condition nécessaire et suffisante d’indépendance des vecteurs X et ATTENTION.– Soit Z
T
(
Y.
)
= X T , Y T , U T ,... où X , Y ,U ,... sont des v.a. ou des
vecteurs aléatoires. – Z est un vecteur gaussien est une hypothèse plus forte que – X gaussien et Y gaussien et U gaussien… – X gaussien et Y gaussien et U gaussien… et leurs covariances (ou matrices de covariances) sont nulles ⇒ que Z
T
(
)
= X T , Y T , U T ,... est un
vecteur gaussien. EXEMPLE.– Soient X , Y , Z trois v.a. ∼ N ( 0,1) , cherchons la loi du vecteur
W T = (U ,V ) ou U = X + Y + Z et V = λ X − Y avec λ ∈ ! : à cause de l’indépendance, le vecteur ( X , Y , Z ) est gaussien et
∀a, b ∈ ! aU + bV = ( a + λ b ) X + ( a − λ b ) Y + aZ est une v.a. gaussienne. Donc W
T
= (U ,V ) est un vecteur gaussien.
Vecteurs gaussiens
79
Pour le déterminer entièrement il faut connaître m = EW et ΓW et on aura
W ∼ N 2 ( m, ΓW ) .
Il vient facilement :
EW T = ( EU , EV ) = ( 0, 0 ) et Cov (U , V ) ⎞ ⎛ 3 ⎛ Var U λ −1 ⎞ ΓW = ⎜ ⎟=⎜ ⎟ 2 Var V ⎝ Cov (V ,U ) ⎠ ⎝ λ − 1 λ + 1⎠
En effet : Var U
= EU 2 = E ( X + Y + Z ) = EX 2 + EY 2 + EZ 2 = 3 2
Var V = Cov
EV 2 = E ( λ X − Y ) = λ 2 EX 2 + EY 2 = λ 2 + 1 2
(U ,V ) = E ( X + Y + Z )( λ X − Y ) = λ EX 2 − EY 2 = λ − 1 λ = 1 ⇔ ΓW
Cas particulier :
diagonale ⇔ U et V sont indépendants.
2.4. Transformation affine d’un vecteur gaussien On peut généraliser aux vecteurs le résultat suivant sur les v.a. gaussiennes :
(
Si Y ∼ N m, σ
2
) alors ∀a, b ∈ !
(
)
aY + b ∼ N am + b, a 2σ 2 .
En modifiant un peu l’écriture,
(
)
N am + b, a 2σ 2 devenant N ( am + b, a VarY a ), on imagine déjà comment ce résultat va s’étendre aux vecteurs gaussiens. PROPOSITION.– Soient un vecteur gaussien Y ∼ N n ( m, ΓY ) , A une matrice appartenant à M ( p, n ) et un vecteur certain B ∈ ! . p
Alors AY + B est un vecteur gaussien
(
)
∼ N p Am + B, AΓY AT .
80
Processus stochastiques et filtrages optimaux
DÉMONSTRATION.–
$ ⎛ ⎞ % a1n ⎞ ⎛ Y1 ⎞ ⎛ b1 ⎞ ⎜ ⎛ a11 ⎟ $ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎜ ⎟ $ $ $ ⎜ ⎟⎜ $ ⎟ ⎜ ⎟ ⎜ n ⎟ AY + B = ⎜ a&1 % a&i % a&n ⎟ ⎜ Yi ⎟ + ⎜ b& ⎟ = ⎜ ∑ a&iYi + b& ⎟ ⎜ ⎟⎜ ⎟ ⎜ ⎟ ⎟ $ ⎟ ⎜ $ ⎟ ⎜ $ ⎟ ⎜ i =1 ⎜ $ ⎜ ⎟ $ ⎜Y ⎟ ⎜ b ⎟ ⎜ ⎜ a p1 ⎟ % a ⎟⎟ pn ⎠ ⎝ n ⎠ ⎝ p ⎠ ⎜ ⎝ $ ⎝ ⎠ – ceci est bien un vecteur gaussien (de dimension p ) car toute combinaison linéaire de ses composantes est une combinaison affine des v.a. Y1 ,..., Yi ,..., Yn et par hypothèse Y
T
= (Y1 ,..., Yn ) est un vecteur gaussien ;
– par ailleurs on a vu que si Y est un vecteur de 2e ordre :
E ( AY + B ) = AEY + B = Am + B
et
Γ AY + B = AΓY AT .
EXEMPLE.– Soient ( n + 1) v.a. indépendantes Y j ∼ N Il vient Y
T
( µ ,σ ) 2
j = 0 à n.
= (Y0 , Y1 ,..., Yn ) ∼ N n +1 ( m, ΓY ) avec mT = ( µ ,..., µ ) et
⎛σ 2 0 ⎞ ⎜ ⎟ ΓY = ⎜ # ⎟. 2 ⎟ ⎜ 0 σ ⎠ ⎝ Soient par ailleurs les nouvelles v.a. X & définies par :
X1 = Y0 + Y1 ,..., X n = Yn −1 + Yn Le vecteur X
T
= ( X 1 ,..., X n )
⎛ X 1 ⎞ ⎛ 110...0 ⎞ ⎛ Y0 ⎞ ⎜ ⎟ ⎜ ⎟⎜ ⎟ est gaussien car ⎜ $ ⎟ = ⎜ 0110..0 ⎟ ⎜ $ ⎟ ⎜ X ⎟ ⎜ 0...011 ⎟ ⎜ Y ⎟ ⎝ n⎠ ⎝ ⎠⎝ n ⎠
(
)
plus précisément, d’après la proposition précédente, X ∼ N Am, AΓ AT . n Y
Vecteurs gaussiens
REMARQUE.– Si dans cet exemple nous supposons
µ =0
81
et σ = 1 , nous 2
constatons que le vecteur X est gaussien bien que ses composantes X j ne soient pas indépendantes. En effet, nous avons par exemple :
Cov ( X1 , X 2 ) ≠ 0 car EX 1 X 2 = E (Y0 + Y1 )(Y1 + Y2 ) = EY1 = 1 et 2
EX 1 EX 2 = E (Y0 + Y1 ) E (Y1 + Y2 ) = 0. 2.5. Existence des vecteurs gaussiens NOTATION.– u = ( u 1,..., u T
n
) , xT = ( x1 ,..., xn )
et
mT = ( m1 ,..., mn ).
On s’intéresse ici à l’existence des vecteurs gaussiens c’est-à-dire à l’existence n
des lois de probabilités sur ! ayant des transformées de Fourier de la forme :
⎛ ⎜ ⎝
exp ⎜ i
⎞ 1 T u m − u Γ u ⎟⎟ ∑ j j 2 j ⎠ mT = ( m1 ,..., mm ) et une matrice
PROPOSITION.– Etant donné un vecteur
Γ ∈ M ( n, n ) , symétrique et semi-définie positive, il existe une probabilité PX n
unique sur ! , de transformée de Fourier :
∫!
⎛ ⎜ ⎝
exp ⎜ i n
⎞ ⎛ n 1 T ⎞ u x dP x ,..., x = exp i u m − u Γu ⎟ . ( ) ⎟ ⎜ ∑ j j⎟ X 1 n j j ⎜ ∑ ⎟ 2 j =1 ⎠ ⎝ j =1 ⎠ n
En outre : 1) si
Γ est inversible, PX admet sur ! n la densité :
f X ( x1 ,..., xn ) =
1 n
( 2π ) 2 ( Det Γ )
1
2
⎛ 1 ( x − m )T Γ −1 ( x − m ) ⎞ ; ⎠ ⎝ 2
exp ⎜ −
82
Processus stochastiques et filtrages optimaux
2) si Γ est non inversible (de rang r < n ) les v.a. X 1 − m1 ,..., X n − mn sont linéairement dépendantes. On peut encore dire que
ω → X (ω ) − m
presque sûrement ses valeurs sur un hyperplan ( Π ) de !
n
prend
ou que la probabilité
PX charge un hyperplan ( Π ) et n’est donc pas à densité dans ! n . DÉMONSTRATION.– 1) Commençons par rappeler un résultat d’algèbre linéaire :
Γ étant symétrique, on peut trouver une base orthonormée de ! n formée de vecteurs propres de Γ ; appelons (V1 , ..., Vn ) cette base. En notant λ j les valeurs propres de Γ on a donc ΓV j = λ jV j où les
λj
sont solutions de l’équation
Det ( Γ − λ I ) = 0 . Quelques conséquences
⎛λ 1 ⎜ Posons d’abord Λ = ⎜ ⎜ ⎝ 0
⎞ ⎟ # ⎟ et V = (V1 ,..., Vn ) . ⎟ λn ⎠ 0
(où les VJ sont des vecteurs colonnes). – ΓV j = λ jV j
(
orthogonale VV
T
j = 1 à n équivaut à ΓV = V Λ et, la matrice V étant
)
= V T V = I , Γ = V ΛV T .
Démontrons que, si en outre Γ est inversible les
λj
λj
sont > 0. – Les
0 ≠ Dét
λj
sont
≠ 0. En effet, Γ étant inversible, n
Γ = Dét Λ = ∏ λ j j =1
sont ≠ 0 et ≥ 0, donc les
Vecteurs gaussiens
Les
λj
sont ≥ 0 : considérons en effet la forme quadratique u → u
T
83
Γu
( ≥ 0 puisque Γ semi définie positive). Dans la base (V1...Vn ) u s’écrit ( u 1,..., u
n
)
avec u j = < V j , u > et la forme
⎛u1⎞ ⎜ ⎟ 2 s’écrit u → ( u 1,..., u n ) Λ $ = ∑ λ j u j ≥ 0 d’où le résultat annoncé. ⎜ ⎟ ⎜u ⎟ j ⎝ n⎠ Démontrons maintenant la proposition. 2) Plaçons nous d’abord dans le cas général, c’est-à-dire celui dans lequel
Γ est non nécessairement inversible (c’est-à-dire encore que les valeurs propres λ j sont ≥ 0).
(
)
Considérons n v.a. indépendantes Y j ∼ N 0, λ j . On sait que le vecteur Y
X = VY + m
(
T
(proposition
= (Y1 ,..., Yn ) est gaussien ainsi que le vecteur
du
)
paragraphe
précédent) ;
plus
précisément
X ∼ N m , Γ = V ΛV T . L’existence des vecteurs gaussiens d’espérance et de matrice de covariance donnée est donc bien prouvée. Par ailleurs, on a vu que si X est N n ( m, Γ ) , sa fonction caractéristique
⎛ ⎜ ⎝
(transformée de Fourier de sa loi) est : exp ⎜ i
1
⎞
∑ u j m j − 2 uT Γu ⎟⎟. ⎠
j
On a donc bien :
∫!
n
exp
(i∑ u x ) dP j
j
X
⎛
( x1 ,..., xn ) = exp ⎜⎜ i ∑ u j m j − ⎝
j
1 T ⎞ u Γu ⎟ . ⎟ 2 ⎠
84
Processus stochastiques et filtrages optimaux
Unicité de la loi : elle découle de l’injectivité de la transformation de Fourier. 3) Précisons pour terminer le rôle joué par l’inversibilité de Γ .
λ j ( = VarY j ) sont > 0 et le
a) Si Γ est inversible toutes les valeurs propres vecteur Y
T
= (Y1...Yn ) admet la densité : n
fY ( y1 ,..., yn ) = ∏ j =1
1
=
( 2π )
n
2
⎛ n ⎞ ⎜⎜ ∏ λ j ⎟⎟ ⎝ j =1 ⎠
1
2
⎛ y 2j exp ⎜ − ⎜ 2λ j 2πλ j ⎝ 1
⎞ ⎟ ⎟ ⎠
⎛ 1 T −1 ⎞ y Λ y⎟ ⎝ 2 ⎠
exp ⎜ −
En ce qui concerne le vecteur X = VY + m : la transformation affine
y → x = Vy + m est inversible d’inverse y = V −1 ( x − m ) et de Jacobien Det V = ±1 ( V orthogonal). n
Par ailleurs
∏ λ j = Det Λ = Det Γ . j =1
En appliquant le théorème sur la transformée d’un vecteur aléatoire par un
C1 -difféomorphisme, on obtient enfin la densité de probabilité du vecteur X :
(
)
f X ( x1 ,..., xn ) = f X ( x ) = fY V −1 ( x − m ) =
↑ notation
1 n
( 2π ) 2 ( Det Γ ) Comme Γ = V ΛV
T
1
:
2
↑
↑
théorème
on explicite
( )
⎛ 1 ( x − m )T V T ⎝ 2
exp ⎜ −
−1
⎞ Λ −1V −1 ( x − m ) ⎟ ⎠
Vecteurs gaussiens
f X ( x1 ,..., xn ) =
1 n
( 2π ) 2 ( Det Γ )
1
2
85
⎛ 1 ( x − m )T Γ −1 ( x − m ) ⎞⎟ ; ⎝ 2 ⎠
exp ⎜ −
b) Si Rang Γ = r < n , rangeons les valeurs propres de Γ par ordre décroissant : λ1 ≥ λ2 ≥ ...λr > 0 et λr +1 = 0,..., λn = 0
Yr +1 = 0 p .s .,..., Yn = 0 p.s. et, presque sûrement, X = VY + m prend ses valeurs
dans
(Π )
la
sous
variété
affine
ε = { y = ( y1 ,..., yr , 0,..., 0 )} par l’application affine REMARQUE.– Soit un vecteur aléatoire X
T
de
!n
image
de
y → Vy + m .
= ( X 1 ,..., X n ) ∼ N n ( m, Γ X ) et
supposons qu’on ait à calculer une expression de la forme :
EΨ ( X ) = ∫
!n
Ψ ( x ) f X ( x ) dx =
∫ ! Ψ ( x1,..., xn ) f X ( x1,..., xn ) dx1...dxn . n
Dans le cas général, la densité f X et par suite le calcul proposé, sont rendus complexes par la dépendance des v.a. X 1 ,..., X n . Soit
λ1 ,..., λn
les valeurs propres de Γ X et V la matrice orthogonale qui
diagonalise Γ X . On a X = VY + m avec Y
(
)
T
= (Y1 ,..., Yn ) , les Y j étant indépendantes et
∼ N 0, λ j et le calcul proposé peut s’effectuer sous la forme plus simple : −yj ⎛ n 1 2λ ⎜ E Ψ ( X ) = E Ψ (VY + m ) = ∫ n Ψ (Vy + m ) ⎜ ∏ e j ! ⎜ j =1 2πλ j ⎝
2
EXEMPLES.– 1) Ecriture d’un cas usuel :
⎞ ⎟ dy ...dy . n ⎟ 1 ⎟ ⎠
86
Processus stochastiques et filtrages optimaux
Soit le vecteur gaussien X
⎛1
ρ⎞
⎝ρ
1⎠
où Γ X = ⎜
T
= ( X1 , X 2 ) ∼ N 2 ( 0, Γ X )
⎟ avec ρ ∈ ]−1,1[ .
Γ X est inversible et : f X ( x1 , x2 ) =
1 2π 1 − ρ 2
⎛ 1
1
exp ⎜ −
⎝ 2 1− ρ
2
(x
2 1
⎞ − 2 ρ x1 x2 + x22 ⎟ . ⎠
)
1
fx
2π 1 − ρ 2
ε 0
x1
x2
Les intersections du graphe de f X avec les places horizontaux sont les ellipses
x12
− 2 ρ x1 x2 +
x22
ε
d’équations
= C (constantes)
Figure 2.2. Exemple de densité d’un vecteur gaussien
2) On se donne le vecteur gaussien X
T
= ( X 1 , X 2 , X 3 ) avec :
⎛3 0 q⎞ ⎜ ⎟ m = (1, 0, −2 ) et Γ = ⎜ 0 1 0 ⎟ . ⎜q 0 1⎟ ⎝ ⎠ T
Vecteurs gaussiens
( Cov ( X1, X 2 ) )
A cause de l’inégalité de Schwarz doit supposer q ≤
2
87
≤ Var X 1 Var X 2 on
3.
Nous voulons étudier la densité f X ( x1 , x2 , x3 ) du vecteur X . Valeurs propres de Γ : 3−λ
0
q
0
1− λ
0
q
0
1− λ
Det ( Γ − λΙ ) =
(
= (1 − λ ) λ − 4λ + 3 − q 2
2
)
D’où les valeurs propres rangées dans l’ordre décroissant :
λ1 = 2 + 1 + q 2
, λ2 = 1 , λ3 = 2 − 1 + q 2
3 alors λ1 > λ2 > λ3 , Γ est inversible et X a une densité de
a) si q <
probabilité dans ! donnée par : 3
f X ( x1 , x2 , x3 ) = b) q =
1 3
( 2π ) 2 ( λ1λ2λ3 )
1
2
⎛ 1 ( x − m )T Γ −1 ( x − m ) ⎞⎟ ; ⎝ 2 ⎠
exp ⎜ −
3 alors λ1 = 4 ; λ2 = 1 ; λ3 = 0 et Γ est non inversible de rang 2.
Cherchons la matrice orthogonale V qui diagonalise Γ en écrivant ΓV j = λ j V j Pour
λ1 = 4 ; λ2 = 1 ; λ3 = 0
⎛ 3 ⎞ ⎜ 2⎟ V1 = ⎜ 0 ⎟ , V2 ⎜ ⎟ ⎜⎜ 1 ⎟⎟ ⎝ 2 ⎠
on obtient respectivement les vecteurs propres :
⎛− 1 ⎞ 2⎟ ⎜ , V3 = ⎜ 0 ⎟ ⎜ ⎟ ⎜⎜ 3 ⎟⎟ ⎝ 2⎠
⎛0⎞ ⎜ ⎟ = 1 ⎜ ⎟ ⎜0⎟ ⎝ ⎠
(
et la matrice orthogonale V = V1 V2 V3
)
(VV
T
)
= V TV = Ι .
88
Processus stochastiques et filtrages optimaux
Soit les v.a. indépendantes Y1 ∼ N ( 0, 4 ) et Y2 ∼ N ( 0,1) et soit la v.a.
Y3 = 0 p.s., on a : ⎛ 3 ⎛ X1 ⎞ ⎜ 2 ⎜ ⎟ X = X2 = ⎜ 0 ⎜ ⎟ ⎜ ⎜X ⎟ ⎝ 3 ⎠ ⎜⎜ 1 ⎝ 2
−1 ⎞ Y 2 ⎟⎛ 1 ⎞ ⎛ 1 ⎞
0
⎟⎜Y ⎟ + ⎜ 0 ⎟ ⎟ ⎜⎜ 2 ⎟⎟ ⎜⎜ ⎟⎟ 3 ⎟⎟ ⎝ 0 ⎠ ⎝ −2 ⎠ 2 ⎠
1
0
0
⎛ X 1∗ ⎞ ⎜ ∗⎟ ∗ ou, en appelant X = ⎜ X 2 ⎟ le vecteur X après centrage, ⎜⎜ ∗ ⎟⎟ ⎝ X3 ⎠ ⎛ X 1∗ ⎞ ⎛⎜ 3 2 ⎜ ∗⎟ ⎜ X 2 ⎟ = ⎜⎜ 0 ⎜⎜ ∗ ⎟⎟ ⎝ X 3 ⎠ ⎜⎜⎝ 1 2
0 1 0
−1 ⎞ Y 2 ⎟⎛ 1 ⎞
∗
X1 =
3 Y 2 1
⎟ ⎜ Y ⎟ soit X ∗ = Y 2 2 ⎟ ⎜⎜ 2 ⎟⎟ ∗ X 3 = 1 Y1 3 ⎟⎟ ⎝ 0 ⎠ 2 2 ⎠ 0
⎛ X 1∗ ⎞ ⎜ ∗ ⎟ ∗ On en déduit encore que X = ⎜ X 2 ⎟ . ⎜⎜ ∗ ⎟ ⎟ ⎝ 3 X1 ⎠
Figure 2.3. Plan
( Π ) chargé par la probabilité P
Vecteurs gaussiens
89
décrit presque sûrement le plan ( Π ) contenant l’axe '''( 0 x2 et le vecteur U T = ( 3, 0,1) . On dit que la loi PX charge le plan ( Π ). Donc, le vecteur X
∗
Probabilité et espérance conditionnelle
Développons un cas simple à titre d’exemple : Soit le vecteur Gaussien Z 2 Cov ( X , Y ) ) ( ρ=
VarX VarY
f Z ( x, y ) =
T
= ( X , Y ) ∼ N 2 ( 0, Γ Z ) . En posant
et Var X = σ12 , Var Y = σ 22 la densité Z s’écrit : ⎛ 1 exp ⎜ − ⎜ 2 ⎜ 2 1− ρ 2 2πσ1σ 2 1 − ρ ⎝ 1
(
)
⎞ ⎛ x2 xy y2 ⎞ ⎟ . + ⎜ 2 − 2ρ ⎟ ⎜ σ1σ 2 σ 22 ⎠⎟ ⎟⎟ ⎝ σ1 ⎠
Densité conditionnelle de X sachant Y = y , f ( x, y ) = f ( x y) = Z fY ( y )
f Z ( x, y )
∫ ! f Z ( x, y ) dx
⎡ ⎤ ⎛ x2 1 xy y 2 ⎞⎥ ⎢ − 2ρ + exp − ⎜ ⎟ ⎢ 2 1− ρ2 ⎜ σ 2 σ1σ 2 σ 22 ⎟⎠ ⎥ 2πσ1σ 2 1 − ρ 2 ⎝ 1 ⎢⎣ ⎥⎦ = 2 ⎡ 1 y ⎤ 1 exp ⎢ − 2⎥ 2πσ 2 ⎣⎢ 2 σ 2 ⎦⎥ 1
=
(
)
⎡ 2⎤ ⎛ σ1 ⎞ ⎥ 1 − ρ exp ⎢ − x y ⎟ ⎢ 2σ 2 1 − ρ 2 ⎜⎝ σ2 ⎠ ⎥ σ1 2π 1 − ρ 2 1 ⎥⎦ ⎣⎢ 1
(
)
(
)
x étant une variable réelle et y une valeur numérique fixée, on reconnaît une densité gaussienne. Plus précisément : la loi conditionnelle de X sachant Y = y est
⎛ σ1
N⎜ρ
⎝ σ2
2
(
y , σ1 1 − ρ
2
) ⎞⎟. ⎠
90
Processus stochastiques et filtrages optimaux
On voit en particulier que E ( X y ) = ρ
σ1
y et que E ( X Y ) = ρ
σ2
σ1 σ2
Y.
Dans le chapitre sur l’estimation, on verra plus généralement que si
( X , Y1 ,..., Yn )
(
est un vecteur gaussien, E X Y1 ,..., Yn
)
s’écrit sous la forme
n
λ0 + ∑ λ jY j . j =1
2.6. Exercices du chapitre 2 Enoncé 2.1.
On considère une cible circulaire D de centre 0 et de rayon R sur laquelle on
tire à l’arc . Le couple Z = ( X , Y ) représente les coordonnés du point d’impact de
la flèche sur le support de la cible ; on suppose que les v. a. X et Y sont
(
indépendantes et suivant la même loi N 0, 4 R
2
).
1) Quelle est la possibilité pour que la flèche atteigne la cible ? 2) Combien de fois faut-il lancer la flèche pour que, avec une possibilité
≥ 0, 9 , la cible soit atteinte au moins une fois (on donne &n 10 ≠ 2, 305 ) ?
3) Supposons que l’on tire 100 fois sur la cible, calculer la probabilité pour que la cible soit atteinte au moins 20 fois. Indication : utiliser le théorème central limite. Solution 2.1.
1) Les v.a. X et Y étant indépendantes, la densité de probabilité de
Z = ( X , Y ) est f Z ( x, y ) = f X ( x ) fY ( y ) =
1 8π R
⎛ x2 + y2 ⎞ et P ( Z ∈ D ) = exp ⎜ − ⎟ dx dy 2 ∫ 2 8π R D ⎝ 8R ⎠ 1
2
⎛ x2 + y2 ⎞ ⎟ 2 ⎝ 8R ⎠
exp ⎜ −
Vecteurs gaussiens
91
par un passage en coordonnées polaires : R −e ⎛ 1 ⎞ 2π =⎜ d θ ∫0 e 2 ⎟∫ ⎝ 8π R ⎠ 0
2
8 R 2 ede
=
1 8π R
⋅ 2π ⋅ 2
1 2
R2
∫0
e
−u
8 R 2 du
= 1− e
−1
8
2) A chaque lancé k , on associe une v.a. de Bernouilli U k ∼ b ( p ) définie
⎛ U k = 1 si la flèche atteint la cible (probabilité p ) ⎝ U k = 0 si la flèche n'atteint pas la cible (probabilité 1 - p ).
par ⎜
En n lancés, le nombre d’impact est donné par la v.a.
U = U1 + ... + U n ∼ B ( n, p )
P (U ≥ 1) = 1 − P (U = 0 ) = 1 − Cnk p k (1 − p )
= 1 − (1 − p )
n−k
( où k = 0 )
n
On cherche donc n qui vérifie 1 − (1 − p ) ≥ 0, 9 n
⇔ (1 − p ) ≤ 0,1 ⇔ n ≥ − n
&n10 &n (1 − p )
=−
&n10 &n (1 − p )
=−
&n10 &n e
soit n ≥ 19.
−1
8
#
2, 3 1
8
3) En utilisant les notations précédentes, on cherche à calculer P (U ≥ 20 ) avec U = U1 + % + U100 . C’est-à-dire :
⎛ U1 + % + U100 − 100 µ 20 − 100 µ ⎞ ≥ ⎟ 100σ 100σ ⎠ ⎝
P (U1 + % + U100 ≥ 20 ) = P ⎜
avec µ = 1 − e
−1
8
# 0,1175 et σ =
((
1− e
−1
8
) ) e
−1
8
1
2
# 0, 32
92
Processus stochastiques et filtrages optimaux
⎛ ⎝
soit P ⎜ S ≥
8, 25 ⎞ 3, 2
⎟ = P ( S ≥ 2, 58 ) = 1 − F0 ( 2, 58 ) ⎠
où S est une v.a. N ( 0,1) et F0 est la fonction de répartition des v.a. N ( 0,1) . Finalement P (U ≥ 20 ) = 1 − 0, 9951# 0, 005. Enoncé 2.2.
Soit X 1 ,… , X n
n v.a. indépendantes de loi N ( 0,1) et soit
a 1 ,… , a n ; b 1,… , b n 1) Montrer que les v.a. Y =
2n constantes réelles. n
n
j =1
j =1
∑ a j x j et Z = ∑ b j x j sont indépendantes si
n
et seulement si
∑ a jb j = 0 . j =1
2) En déduire que si X 1 ,..., X n sont n v.a. indépendantes de loi N ( 0,1) , les v.a. X =
1
n
n
∑Xj j =1
Pour K ≠ &
et YK = X K − X (où K ∈ {1, 2,..., n} ) sont indépendantes.
YK et Y& sont-elles des v.a. indépendantes ?
Solution 2.2.
1) U = (Y , Z ) est évidemment un vecteur gaussien. (∀λ et
µ ∈ !, la v.a. λY + µ Z
est évidemment une v.a. gaussienne).
Pour que Y et Z soient indépendants il est donc nécessaire et suffisant que :
Vecteurs gaussiens
0 = Cov (Y , Z ) = EYZ =
93
∑ a j b j EY j Z j = ∑ a j b j j
j
2) Uniquement pour simplifier l’écriture, faisons par exemple K = 1
X=
1
n
X1 + % +
n
1⎛
1 1 ⎛ 1⎞ X n ; Y1 = ⎜ 1 − ⎟ X 1 − X 2 − % − X n et n n n ⎝ n⎠ 1
1⎞
1
∑ a j b j = n ⎜⎝1 − n ⎟⎠ − ( n − 1) n = 0 j =1
Pour simplifier faisons K = 1 et & = 2
1 1 ⎛ 1⎞ Y1 = ⎜ 1 − ⎟ X1 − X 2 − % − X n ; n n ⎝ n⎠ 1 1 ⎛ 1⎞ Y2 = − X 1 + ⎜ 1 − ⎟ X 2 − % − X n n n ⎝ n⎠ n
et
⎛
1⎞1
1
∑ a j b j = −2 ⎜⎝1 − n ⎟⎠ n − ( n − 2 ) n < 0 j =1
donc Y1 et Y2 sont dépendantes. Enoncé 2.3.
On donne une v.a. réelle X ∼ N ( 0,1) et une v.a. discrète
P ( ε = −1) =
1 2
et P = ( ε = +1) =
On suppose X et
ε
1 2
.
indépendantes. On pose
Y = ε X.
1) En utilisant les fonctions de répartition, vérifier que 2) Montrer que
Cov ( X , Y ) = 0.
ε
Y ∼ N ( 0,1).
tel que
94
Processus stochastiques et filtrages optimaux
3) Le vecteur U = ( X , Y ) est-il gaussien ?
Solution 2.3.
1)
(
FY ( y ) = P (Y ≤ y ) = P ( ε X ≤ y ) = P ( ε X ≤ y ) ∩ ( ( ε = 1) ∪ ( ε = −1) ) =P
( ( (ε X ≤ y ) ∩ (ε = 1) ) ∪ ( (ε X ≤ y ) ∩ (ε = −1) ) )
)
A cause de l’incompatibilité des deux événements liés par la réunion,
= P ( ( ε X ≤ y ) ∩ ( ε = 1) ) + P ( ( ε X ≤ y ) ∩ ( ε = −1) ) = P ( ( X ≤ y ) ∩ ( ε = 1) ) + P ( ( − X ≤ y ) ∩ ( ε = −1) ) A cause de l’indépendance de X et
ε,
P ( X ≤ y ) P ( ε = 1) + P ( − X ≤ y ) P ( ε = −1) =
1 2
( P ( X ≤ y ) + P ( − X ≤ y ))
Enfin, grâce à la parité de la densité de la loi N ( 0,1) ,
= P ( X ≤ y ) = FX ( y ) ; EX Eε EX 2) Cov ( X , Y ) = EXY − EXEY = Eε X − *+ , Eε X = *, 2
0
2
= 0;
0
3) X + Y = X + ε X = X (1 + ε ) ;
(
)
Donc P ( X + Y = 0 ) = P X (1 + ε ) = P (1 + ε = 0 ) =
1 2
.
On déduit que la v.a. λ X + µY (avec λ = µ = 1 ) n’est pas gaussienne, car la loi n’est pas à densité (elle « charge » la valeur 0).
Vecteurs gaussiens
95
Donc le vecteur U = ( X , Y ) n’est pas gaussien.
Enoncé 2.4.
Soit une v.a.r. X ∼ N ( 0,1) et soit un réel a > 0 .
⎪⎧ X ⎪⎩− X
1) Montrer que la v.a.r. Y définie par Y = ⎨ v.a.r.
X ∼ N ( 0,1) .
si
X
si
X ≥a
est aussi une
(Indication : montrer l’égalité des fonctions de répartitions FY = FX ). 2) Vérifier que Cov ( X , Y ) = 1 −
4 2π
∞
∫a
x 2e
− x2
2 dx .
Solution 2.4.
1) FY ( y ) = P ( Y ≤ y ) = P
( (Y ≤ y ) ∩ ( X
< a) ∪ ( X ≥ a)
)
Distributivité et puis incompatibilité % ⇒
( P ( (Y ≤ y )
)
(
)
P (Y ≤ y ) ∩ ( X < a ) + P (Y ≤ y ) ∩ ( X ≥ a ) =
)
((
)
X < a P ( X < a) + P Y ≤ y X ≥ a P ( X ≥ a)
P ( X ≤ y ) P ( X < a ) + P (( − X ≤ y )) P ( X ≥ a ) *++++++++, P( X ≤ y ) car
1 2π
e
− x2
2
= f X ( x) est paire
(
)
= P ( X ≤ y ) P ( X < a ) + P ( X ≥ a ) = P ( X ≤ y ) = FX ( y )
)
96
Processus stochastiques et filtrages optimaux
2) EX = EY donc :
Cov ( X , Y ) = EXY = ∫ =∫ −∫
∞ −∞
−a −∞
a −a
x 2 f X ( x ) dx − ∫
x 2 f X ( x ) dx − ∫
−a −∞
−a −∞
∞
x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx a
∞
x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx a
∞
x 2 f X ( x ) dx − ∫ x 2 f X ( x ) dx a
2
Le 1er terme égale EX = VarX = 1 . La somme des 4 termes suivants, à cause de la parité de la fonction intégrée, égale −4
∞
∫a
x 2 f X ( x ) dx d’où le résultat.
Enoncé 2.5.
⎛X⎞ ⎛0⎞ ⎟ un vecteur gaussien de vecteur espérance m = ⎜ ⎟ ⎝1 ⎠ ⎝Y ⎠ 1 ⎞ ⎛ 1 2⎟ et de matrice de covariance Γ Z = ⎜ c’est-à-dire Z ∼ N 2 ( m, Γ Z ) . ⎜1 ⎟ ⎝ 2 1 ⎠ Soit Z = ⎜
1) Donner la loi de la variable aléatoire X − 2Y . 2) A quelles conditions sur les constantes a et b , la variable aléatoire
aX + bY est-elle indépendante de X − 2Y et de variance 1. Solutions 2.5.
1) X ∼ N ( 0,1) et Y ∼ N (1,1) ; comme en outre X et Y sont indépendants
X − 2Y est une v.a. gaussienne ; précisément X − 2Y ∼ N ( −2, 5 ) .
Vecteurs gaussiens
97
⎛ X − 2Y ⎞ ⎟ est un vecteur gaussien (… écrire la définition) ⎝ aX + bY ⎠ X − 2Y et aX + bY sont indépendants ⇔ Cov ( X − 2Y , aX + bY ) = 0 2) Comme ⎜
or Cov ( X − 2Y , aX + bY ) = aVarX − b Cov ( X , Y )
− 2a Cov ( X , Y ) − 2bVarY = 2 a− b−a =0 3
soit
b=0
Comme 1 = Var ( a X + b Y ) = Var aX = a Var X 2
: a = ±1 .
Enoncé 2.6.
On considère deux v.a. indépendantes X et Y et l’on suppose que X admet
une densité de probabilité f X ( x ) et que Déterminer la v.a.
(
Y ∼ N ( 0,1) .
)
E e XY X .
Solution 2.6.
(
E e =
XY
1 2π
)
xY
x2
−( y − x ) e 2
x =E e
(
E e
XY
e
− y2
2
dy
2
−( y − x ) 2
)
1 2π
!
1 e 2π
Comme y → on a finalement
∫!
2
=∫ e
xy
dy 2
X =e
est une densité de probabilité (v.a. ∼ N ( x,1) ), X2
2.
CHAPITRE 3
Généralités sur les processus à temps discret
3.1. Définition Un processus à discret est une famille de v.a.
{
}
XT = X t j t j ∈T ⊂ !
où T appelé base de temps est un ensemble dénombrable d’instants. X t est la v.a. i
de la famille considérée à l’instant t j . Ordinairement, les t j sont uniformément répartis et distants d’une unité de ∗
temps et dans la suite T sera égal à " ou # ou # et les processus seront encore notés X T ou, si l’on veut préciser, X " ou X # ou X
#∗
.
Pour pouvoir étudier correctement des groupes de v.a. X j de X T et non pas seulement les v.a. X j individuellement, on a intérêt à considérer ces dernières comme étant des applications définies sur un même ensemble et ceci nous conduit à la définition rigoureuse. DÉFINITION.– On appelle processus stochastique réel à temps discret toute famille X T d’applications mesurables :
100
Processus stochastiques et filtrages optimaux
Xj :
ω
⎯⎯ →
( Ω ,a )
X j (ω )
avec
j ∈T ⊂ "
( !, B ( ! ) )
On dit aussi que le processus est défini sur l’espace fondamental ( Ω, a ) .
En général un processus X T est associé à un phénomène réel, c’est-à-dire que les X j représentent des grandeurs (aléatoires) physiques biologiques… Par exemple l’intensité d’un bruit électromagnétique provenant d’une certaine étoile. Pour un
ω
donné, c’est-à-dire après réalisation du phénomène, on a obtenu des
valeurs numériques
x j = X j ( ω ).
{
}
DÉFINITION.– xT = x j j ∈ T s’appelle réalisation ou trajectoire du processus
XT .
Figure 3.1. Une trajectoire
Processus à temps discret
101
Lois Au chapitre 1 nous avons défini les lois PX des vecteurs aléatoires réels
X = ( X 1 ,..., X n ) , lois qui rappelons le, sont des mesures définies sur T
( )
B ! n = B ( ! ) ⊗ ... ⊗ B ( ! ) tribu borélienne de ! n . Les suites finies
( X i ,..., X j )
de v.a. de X T sont des vecteurs aléatoires et
comme dans la suite nous n’aurons à faire intervenir que de telles suites, les considérations du chapitre I seront suffisantes pour les études que nous envisageons. Mais X T ∈ !
T
et dans certains problèmes on ne peut éviter la sophistication
supplémentaire suivante :
( ) = ⊗ B ( ! ) sur !T ;
1) Construction d’une tribu B !
T
( )
2) Construction de lois sur B !
j
j∈T
T
(Théorème de Kolmogorov).
Stationnarité
{
}
DÉFINITION.– On dit qu’un processus X T = X j j ∈ "
∀i, j , p ∈ " les vecteurs aléatoires
( X i ,..., X j )
et
est stationnaire si
( X i+ p ,..., X j + p )
ont
même loi, c’est-à-dire ∀Bi ,..., B j ∈ B ( ! ) (sur le dessin les Boréliens sont des intervalles) :
P
(( X
i+ p
)
∈ Bi ) ∩ ... ∩ ( X j + p ∈ B j ) = P
(( X
i
∈ Bi ) ∩ ... ∩ ( X j ∈ B j )
)
102
Processus stochastiques et filtrages optimaux
Stationnarité du second ordre DÉFINITION.– On dit qu’un processus X T est centré si EX j = 0
∀j ∈ T .
DÉFINITION.– On dit qu’un processus X T est du 2e ordre si :
X j ∈ L2 ( dP ) ∀j ∈ T . 2
1
On rappelle que si X j ∈ L ∀j ∈ T alors X j ∈ L et ∀i, j ∈ T
EX i X j < ∞ . – La définition suivante a donc un sens. DÉFINITION.– Etant donné X " un processus réel du 2e ordre, on appelle fonction de covariance de ce processus, l’application :
(
Γ : i , j ⎯⎯ → Γ ( i, j ) = Cov X i , X j
" x"
)
!
On appelle fonction d’autocorrelation de ce processus, l’application :
R : i, j ⎯⎯ → R ( i, j ) = E X i X j " x"
!
Ces deux applications, coïncident évidemment si X " est centré. On reconnaît ici des notions introduites dans le cadre de vecteurs aléatoires mais ici les indices ...i,... j ,... représentant des instants, on peut s’attendre à ce qu’en général quand les écarts i − j croissent, les valeurs Γ ( i, j ) et R ( i, j ) décroissent. DÉFINITION.– On dit que le processus X " est stationnaire du 2e ordre si : – il est du 2e ordre ; – l’application – ∀ i, j , p ∈ "
j ⎯⎯ → m ( j ) = EX " !
est constante ;
Γ ( i + p, j + p ) = Γ ( i , j )
Dans ce cas Γ ( i, j ) s’écrit plutôt C ( j − i ) .
Processus à temps discret
103
Relation liant les deux types de stationnarités Un processus stationnaire n’est pas nécessairement du 2e ordre comme on le voit en considérant par exemple le processus X " dans lequel on choisit pour X j des v.a. indépendantes de loi de Cauchy :
fX j ( x) =
(
a
π a +x 2
)
2
2
et EX j et EX j ne sont pas définies.
Il ne faut pas confondre un « processus stationnaire et de 2e ordre » (ou de 2e ordre et stationnaire) avec un « processus stationnaire du 2e ordre ». Il est clair que si un processus du 2e ordre est stationnaire, il est alors stationnaire du 2e ordre. En effet :
EX j + p = ∫ xdPX !
( x ) = ∫ ! xdPX ( x ) = EX j j
j+ p
et :
Γ ( i + p, j + p ) = ∫ =∫
!
!
2
2
xy dPX
i+ p
xy dPX , X i
, X j+ p
j
( x, y ) − EX i + p
( x, y ) − EX i
EX j + p
EX j = Γ ( i, j )
L’implication inverse « stationnarité du 2e ordre ⇒ stationnarité » est fausse en général ; elle est cependant vraie dans le cas des processus gaussiens. Ergodicité Soit X " un processus stationnaire du 2e ordre. DÉFINITION.– On dit que l’espérance de X " est ergodique si :
EX 0 = lim
N ↑∞
1 2N + 1
N
∑
j =− N
X j (ω )
p.s. (presque sûrement).
On dit que la fonction d’autocorrelation de X " est ergodique si :
104
Processus stochastiques et filtrages optimaux
∀n ∈ " K ( j, j + n ) = EX j X j +n = lim
N ↑∞
N
1 2N + 1
∑
j =− N
X j (ω ) X j +n (ω ) p.s.
C’est-à-dire que, sauf éventuellement pour ω ∈ A ensemble de probabilité nulle ou encore à l’exception de trajectoires dont la probabilité d’apparition est nulle, on a pour une trajectoire quelconque x" .
EX 0 = lim
+N
1
N ↑∞
∑
2N + 1
j =− N
xj
(ergodicité du 1er ordre)
= EX j X j + n = lim N ↑∞
+N
1 2N + 1
∑
j =− N
x j x j +n
(ergocité du 2e ordre).
Sous réserve que le processus X " soit ergodique, on peut donc remplacer une moyenne probabiliste par une moyenne sur le temps. Voici une condition suffisante d’ergodicité du 1er ordre : PROPOSITION.– Loi forte des grands nombres : Si les X j ( j ∈ " ) forment une suite de v.a. indépendantes et de même loi . Et si
E X 0 < ∞ alors EX 0 =
lim
N ↑∞
1 2N + 1
+N
∑
X j (ω )
p.s.
j =− N
REMARQUE.– Supposons que les v.a. X j soient des v.a. indépendantes de Cauchy de densités de probabilité
1
a π a + x2 2
( a > 0).
En utilisant la technique des fonctions caractéristiques, on peut vérifier que la v.a. YN =
1
+N
∑
2 N + 1 j =− N
X j a la même loi que X 0 ; donc YN ne peut pas
converger p.s. vers la constante EX 0 … mais E X 0 = +∞ .
Processus à temps discret
105
EXEMPLE .– On considère le processus X " constitué des v.a.
X j = A cos ( λ j + Θ ) où A est une constante réelle et où Θ est une v.a. de
densité de probabilité uniforme fΘ (θ ) =
1 2π
1 [0,2π [(θ ) .
Vérifions que X " est
stationnaire du 2e ordre. EX j =
∫
2π 0
Acos ( λ j + θ ) fΘ (θ ) dθ =
Γ ( i , j ) = K ( i , j ) = EX i X j =
A
2
∫
2π
2π 0
∫
2π 0
A
∫ 2π
2π 0
cos ( λ j + θ ) dθ = 0
A cos ( λ j + θ ) A cos ( λ j+θ ) fΘ (θ ) dθ
cos ( λ i + θ ) cos ( λ j + θ ) dθ =
A
2
2
cos ( λ ( j − i ) )
Et X " est bien stationnaire du 2e ordre. Toujours sur cet exemple, nous allons voir l’ergodicité de l’espérance. Ergodicité de l’espérance
lim N
2N + 1
= lim N
= lim N
Si
+N
1
∑
Acos ( λ j + θ ) (avec θ fixé ∈ [ 0, 2π [ )
j =− N N
1 2N + 1
2A ⎛
N
1⎞
⎜ ∑ cosλ j − ⎟ ∑ cosλ j = lim N 2N + 1 2
j =− N
⎝ j =0
⎠
iλ N +1 N 1⎞ 2 A ⎛ 1- e ( ) 1 ⎞ iλ j e Ré lim Ré − = − ⎟ ⎜ ⎜ ∑ ⎟ 2 N + 1 ⎝ j =0 2 ⎠ N 2N + 1 ⎝ 2⎠ 1 − e iλ
2A ⎛
λ ≠ 2kπ ,
la parenthèse est bornée et la limite est nulle et égale à EX 0 .
Donc l’espérance est ergodique.
106
Processus stochastiques et filtrages optimaux
Ergodicité de la fonction d’autocorrelation
lim N
+N
1 2N + 1
∑
Acos ( λ j + θ ) Acos ( λ ( j + n ) + θ )
j =− N
(avec θ fixé ∈ [ 0, 2π [ )
= lim N
= lim N
A2
+N
2N + 1 1 A
∑ cosλ j cosλ ( j + n )
j =− N
2
2 2N + 1
+N
∑ ( cosλ ( 2j+n ) + cosλ n )
j =− N
+N ⎛ 1 A2 ⎛ ⎞ ⎞ A2 Ré ⎜ eiλ n ∑ eiλ 2 j ⎟ ⎟ + ⎜ 2 2N + 1 ⎟ 2 cosλ n j N =− ⎝ ⎠⎠ ⎝
= lim ⎜ N
La limite est encore nulle et
A2 cosλ n = K ( j , j + n ). Donc la fonction 2
d’autocorrelation est ergodique. Deux processus importants en traitement de signal Processus de Markov
DÉFINITION : On dit que X " est un processus de Markov discret si : – ∀B ∈ B ( ! ) ; – ∀t1 ,..., t j +1 ∈ " avec t1 < t2 < ... < t j < t j +1 ; – ∀x1 ,..., x j +1 ∈ ! . Alors
) (
(
P X t j+1 ∈ B X t j = x j ,..., X t1 = x1 = P X t j+1 ∈ B X t j = x j
égalité qu’on écrit plus brièvement :
(
) (
P X t j+1 ∈ B x j ,..., x1 = P X t j+1 ∈ B x j
).
)
;
Processus à temps discret
107
On peut dire que si t j représente l’instant présent, pour l’étude de X " vers le futur (instants > t j ), l’information
(
{( X
tj
) (
= x j ,..., X t 1 = x1
)
)} n’apporte rien de
plus que l’information X t = x j . j
Souvent les processus de Markov sont associés à des phénomènes débutant à l’instant 0 par exemple et l’on se donne alors la loi de probabilité Π 0 de la v.a.
X0 . Les probabilités conditionnelles
(
P X t j+1 ∈ B x j
)
portent le nom de
probabilités de transition. Dans la suite, on suppose t j = j . DÉFINITION.– On dit que la probabilité de transition est stationnaire si
(
)
(
)
P X j +1 ∈ B x j est indépendante de j = P ( X 1 ∈ B x0 ) . Voici un exemple de processus de Markov que l’on rencontre souvent dans la pratique.
108
Processus stochastiques et filtrages optimaux
(
X # est défini par la v.a. X 0 et la relation de récurrence X j +1 = f X j , N j
)
où les N j sont des v.a. indépendantes et indépendantes de la v.a. X 0 et où f est 2
une application : ! × ! → ! borélienne. Montrons donc que ∀B ∈ B ( ! ) .
( ) ( ) P ( f ( X , N ) ∈ B x , x ,..., x ) = P ( f ( X , N ) ∈ B x ) P ( f ( x , N ) ∈ B x , x ,..., x ) = P ( f ( x , N ) ∈ B x ) P X j +1 ∈ B x j , x j −1 ,..., x0 = P X j +1 ∈ B x j
⇔ ⇔
j
j
j
j −1
j
j
j
j −1
j
0
j
0
j
j
j
j
Et cette égalité sera vérifiée si la v.a. N j est indépendante de
( X j −1 = x j −1 ) ∩ ... ∩ ( X 0 = x0 ).
Or la relation de récurrence nous conduit à des expressions de la forme :
X 1 = f ( X 0 , N 0 ) , X 2 = f ( X 1 , N1 ) = f ( f ( X 0 , N 0 ) , N1 )
(
= f 2 ( X 0 , N 0 , N1 ) ,..., X j = f j X 0 , N1 ,..., N j −1
)
Ce qui prouve que : N j étant indépendante de X 0 , N1 ,..., N j −1 est aussi indépendante de X 0 , X 1 ,..., X j −1 (et même de X j ).
Processus gaussien DÉFINITION.– On dit qu’un processus X " est gaussien si ∀ S = ( i,..., j ) ∈ " , le
(
vecteur aléatoire X S = X i ,..., X j
(
)
)
est un vecteur gaussien, ce que l’on note
rappelons le : X S ∼ N n mS , Γ X . s
On voit en particulier que dès que l’on sait qu’un processus X " est gaussien, sa
loi est entièrement déterminée par sa fonction espérance j → m ( j ) et sa fonction covariance i, j → Γ ( i, j ) . Un tel processus est noté X " ∼ N ( m ( j ) , Γ ( i , j ) ) .
Processus à temps discret
109
Un processus gaussien est évidemment du 2e ordre, s’il est en outre stationnaire du 2e ordre il est alors stationnaire et il suffit pour s’en rendre compte d’écrire la probabilité :
fX
S
( x ,..., x ) = i
j
1
( 2π )
j −i +1 2
( Det Γ ) XS
1
⎛ 1 ( x − mS )T Γ −S1 ( x − mS ) ⎞⎟ 2 ⎝ ⎠
exp ⎜ −
2
d’un vecteur quelconque X S extrait du processus. Espace linéaire associé à un processus
Soit X " un processus stationnaire du 2e ordre. On note
H
X
la famille des
combinaisons linéaires finies de v.a. de X " .
C’est-à-dire :
H
⎧⎪ ⎫⎪ = ⎨ ∑ λ j X j S fini ⊂ " ⎬ ⎩⎪ j∈S ⎭⎪
X
DÉFINITION.– On appelle espace linéaire associé au processus X " la famille H 2
augmentée des limites dans L des éléments de H
H
X
X
X
. L’espace linéaire est noté par
.
REMARQUES.– 1) H
X
⊂H
X
⊂ L2 ( dP ) et H
X
est un sous espace vectoriel fermé de
L2 ( dP ). 2) Supposons que X " soit un processus gaussien stationnaire. Toutes les 2
combinaisons linaires de v.a. X j de X " sont gaussiennes et les limites dans L
sont également gaussiennes. En effet, on vérifie facilement que si la suite de v.a.
(
X n ∼ N mn , σ n2 variance
(
)
σ 2 , mn
X ∼ N m, σ
2
).
2
converge dans L et
σ m2
vers une v.a. X d’espérance m et de
convergent alors respectivement vers m et
σ
et
110
Processus stochastiques et filtrages optimaux
Opération retard
X " étant donné, on considère sur H
Le processus
(
)
X
l’opérateur
T n n ∈ #∗ défini par :
T n : ∑ λ j X j → ∑ λ j X ( j −n ) j∈S
H
X
DÉFINITION.– T
( S fini ⊂ " ).
j∈S
H
n
X
s’appelle opération retard d’ordre n .
Propriétés de l’opérateur retard : – T
n
est linéaire de H
– ∀ n et m ∈ # – T
n
∗
X
dans H
X
T n % T m = T n+m 2
conserve le produit scalaire de L , c’est-à-dire ∀ I et J finis ⊂ "
⎛
⎞
⎛
⎞
⎝ i∈I
⎠
⎝ j∈J
⎠
< T n ⎜ ∑ λi X i ⎟ , T n ⎜ ∑ µ j X j ⎟ > = < ∑ λi X i , ∑ µ j X j > . EXTENSION.– T Soit Z ∈ H
n X
se prolonge à tout et soit Z p ∈ H
H
X
X
i∈I
j∈J
de la façon suivante :
une suite de v.a. qui converge vers Z dans
L2 ; Z P est en particulier une suite de Cauchy de H
( )
Tn Zp
est aussi une suite de Cauchy de
converge dans
H
X
H
X
n
P
En conséquence : ∀Z ∈ H naturel de poser
T
n
X
T ( Z ) = lim P
( Z p ).
H
X
T n,
est complet,
( Z p ) est indépendante de
Z.
et la suite Z p ∈ H n
et par l’isométrie
qui, puisque
. Il est facile de vérifier que lim T
la suite particulière Z p qui converge vers
X
X
qui converge vers Z . Il est
Processus à temps discret
111
3.2. Processus stationnaires du deuxième ordre et mesure spectrale
Dans ce paragraphe, il sera intéressant de constater l’influence sur la densité spectrale de l’espacement temporel entre les v.a. Pour cette raison nous considérerons momentanément un processus stationnaire du 2e ordre
{
}
X "θ = X jθ j ∈ " où θ est une constante et où jθ a la dimension d’une durée. 3.2.1. Densité spectrale
DÉFINITION.– On dit que le processus X "θ possède une densité spectrale si sa
covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ − EX iθ EX jθ peut s’écrire sous la forme : C ( nθ ) =
1
∫ − 122θθ exp ( 2iπ ( inθ ) u ) S XX ( u ) du
et S XX ( u ) est alors appelée densité spectrale du processus X "θ . PROPOSITION.– +∞
Sous l’hypothèse
∑ C ( nθ ) < ∞ :
n =−∞
1) Le processus X "θ admet une densité spectrale S XX ; 2) S XX est continue, périodique de période
1
θ
, réelle et paire.
Figure 3.2. Fonction covariance et densité spectrale d’u processus
112
Processus stochastiques et filtrages optimaux
ATTENTION.– La fonction covariance C n’est pas définie (et en particulier ne vaut pas zéro) en dehors des valeurs nθ . DÉMONSTRATION.– Compte tenu des hypothèses, la série : +∞
∑ C ( pθ ) exp ( −2iπ ( pθ ) u )
p =−∞
converge uniformément sur ! et définit une fonction S ( u ) continue et
1
θ
-périodique. En outre :
∫ =∫
+∞ 2θ C −1 2θ p =−∞ 1
1
2θ −1 2θ
∑ ( pθ ) exp ( −2iπ ( pθ ) u ) exp ( 2iπ ( nθ ) u ) du
S ( u ) exp ( 2iπ ( nθ ) u ) du
(
2 La convergence uniforme et l’orthogonalité dans L − 1
2θ
,1
2θ
)
des
exponentielles complexes permettant de conclure que :
C ( nθ ) = ∫
1
2θ −1 2θ
exp ( 2iπ ( nθ ) u ) S ( u ) du et que S XX ( u ) = S ( u )
Pour terminer, C ( nθ ) est une fonction de covariance donc : C ( − nθ ) = C ( nθ )
et on en déduit que S XX ( u ) =
+∞
∑
C ( pθ ) exp ( −2iπ ( pθ ) u ) est réelle et paire
p =−∞
(on a aussi S XX ( u ) = C ( 0 ) + 2
∞
∑ C ( pθ ) cos2π ( pθ ) u ). p =1
EXEMPLE.– La covariance C ( nθ ) = σ e
2 − λ nθ
(λ > 0)
d’un processus X "θ vérifie bien la condition de la proposition et X "θ admet la densité spectrale.
Processus à temps discret
S XX ( u ) = σ 2 ⎛
∞
= σ 2 ⎜⎜ ∑ e
+∞
∑e
− λ nθ − 2iπ ( nθ )u
n =−∞
− λ nθ − 2iπ ( nθ )u
∞
+ ∑e
− λ nθ + 2iπ ( nθ )u
n =0 ⎝ n =0 1 1 ⎛ ⎞ =σ 2 ⎜ + − 1⎟ − λθ − 2iπθ u − λθ + 2iπθ u 1− e ⎝ 1− e ⎠
=σ 2
113
⎞
− 1⎟⎟ ⎠
1 − e−2λθ 1 + e−2λθ − 2e−λθ cos2πθ u
Bruit blanc
DÉFINITION.– On dit qu’un processus stationnaire du 2e ordre, centré X "θ est un bruit blanc si sa fonction de covariance C ( nθ ) = C ( ( j − i ) θ ) = EX iθ X jθ vérifie
⎛ C ( 0 ) = EX 2jθ = σ 2 ⎜ ⎝ C ( nθ ) = 0 si n ≠ 0
∀j ∈ "
La fonction C vérifie bien la condition de la proposition précédente et
S XX ( u ) =
+∞
∑
n =−∞
C ( nθ ) exp ( −2iπ ( nθ ) u ) = C ( 0 ) = σ 2
Figure 3.3. Fonction covariance et densité spectrale d’un bruit blanc
114
Processus stochastiques et filtrages optimaux
On rencontre souvent les « bruits blancs gaussiens » : ce sont des processus gaussiens qui sont aussi des bruits blancs ; les familles de v.a. extraites de tels
(
processus sont indépendantes et ∼ N 0, σ
2
).
On a plus généralement le résultat suivant et dont nous admettons la démonstration. Théorème d’Herglotz
Pour qu’une application
nθ → C ( nθ ) soit la fonction de covariance d’un
2e
ordre, il faut et il suffit qu’existe une mesure positive
processus stationnaire du
µX
sur
⎛⎡ 1
B ⎜ ⎢-
1 ⎤⎞
⎥ ⎟ appelée mesure spectrale tel que : ⎝ ⎣ 2θ 2θ ⎦ ⎠
C ( nθ ) = ∫
,
1
2θ −1 2θ
exp ( 2iπ ( nθ ) u ) d µ X ( u ) . ∞
Dans cet énoncé on ne suppose plus que
∑ C ( nθ ) < ∞ .
n =−∞ +∞
Si
∑ C ( nθ ) < ∞ , on retrouve l’énoncé du début avec :
n =−∞
d µ X ( u ) = S XX ( u ) du (énoncé que l’on peut compléter en disant que la densité spectrale S XX ( u ) est positive). 3.3. Représentation spectrale d’un processus stationnaire du 2e ordre
Dans ce paragraphe nous expliquons la démarche permettant d’aboutir à la représentation spectrale d’un processus. Afin de ne pas obscurcir cette démarche, les démonstrations des résultats, assez longues sans être difficiles, ne seront pas données.
Processus à temps discret
115
3.3.1. Problème
L’objet de représentation spectrale est : 1) d’étudier les intégrales (dites de Wiener) du type
∫S ϕ ( u ) dZu
obtenues
comme limites, en un sens à préciser, des expressions de la forme :
∑ ϕ ( u j ) ( Zu j
j
− Zu j−1
)
où S est un intervalle borné de ! , ϕ est une application à valeurs complexes (et
{
d’autres conditions), Z S = Z u u ∈ S
}
est un processus du 2e ordre à
accroissements orthogonaux (en abrégé p.a.o.) dont la définition précise sera donnée dans la suite ; 2) (la construction de l’intégrale de Wiener étant faite) de montrer que réciproquement, si on se donne un processus stationnaire du 2e ordre X "θ , on peut
{
trouver un p.a.o. Z S = ZU u ∈ S = ⎡ − 1
⎣
2θ
puisse s’écrire comme une intégrale de Wierner REMARQUE.–
∫ S ϕ ( u ) dZu
et
∫S e
2iπ ( jθ )u
,1
}
⎤
2θ ⎦
tel que ∀j ∈ " X jθ
2iπ jθ u X jθ = ∫ e ( ) dZu .
S
dZu ne seront pas des intégrales de
Stieljes ordinaires (et c’est ce qui motive une étude particulière). En effet :
⎛ ⎞ ⎜ ⎟ ⎜ σ = {,.., u j −1 , u j , u J +1} subdivision de S ⎟ ⎜ ⎟ posons ⎜ σ = sup u j − u j −1 module de la subdivision σ ⎟ j ⎜ ⎟ ⎜I = ⎟ ϕ ( u j ) Zu j − Zu j−1 ⎜ σ u∑ ⎟ j ∈σ ⎝ ⎠
(
)
∀σ , l’expression Iσ est bien définie, c’est une v.a. du 2e ordre à valeurs complexes. Pourtant, le processus Z S n’étant a priori pas à variation bornée, la
116
Processus stochastiques et filtrages optimaux
limite ordinaire lim Iσ , c’est-à-dire la limite, à trajectoire donnée σ →0 n’existe pas et
∫ S ϕ ( u ) dZu
Précisément la v.a.
u → Z u (ω ) ,
ne peut donc être une intégrale de Stieljes ordinaire.
∫ S ϕ ( u ) dZu
sera par définition la limite dans
L2 , si cette
limite existe de la famille Iσ quand σ → 0 , c’est-à-dire :
lim E Iσ −
σ →0
∫S
2
ϕ ( u ) dZ u = 0 .
Ce qu’on écrit encore parfois :
∫ S ϕ ( u ) dZu = σlim→0 L _ ( Iσ ) . 2
3.3.2. Résultats
3.3.2.1. Processus à accroissements orthogonaux et mesure associée
S désigne ici un intervalle borné de ! . DÉFINITION.– On appelle processus aléatoire à paramètre continu de base S , toute famille de v.a. Z u , le paramètre u décrivant S .
{
}
Ce processus sera noté Z S = Z u u ∈ S . Par ailleurs, on dira qu’un tel processus est : – centré si EZ u = 0
∀u ∈ S ;
2
2
– du 2e ordre si EZ u < ∞ (c’est-à-dire Z u ∈ L
( dP ) ) ∆u ∈ S ;
– continue dans L : si E ( Z u + ∆u − Z u ) → 0 2
2
quand ∆u → 0 ∀u et u + ∆u ∈ S (on parle aussi de continuité à droite ou à gauche 2
dans L ). Dans la suite Z S sera centré du 2e ordre et continu dans
L2 .
Processus à temps discret
117
DÉFINITION.– On dit que le processus Z S est à accroissements orthogonaux ( Z S est un p.a.o.) si ∀u1 , u2 , u3 , u4 ∈ S avec u1 < u2 ≤ u3 < u4
(
< Z u4 − Zu3 , Z u2 − Zu1 > L2 ( dP ) = E Zu4 − Z u3
) ( Zu
2
)
− Zu1 = 0
On dit que Z S est un processus à accroissements orthogonaux et stationnaires ( Z S est un p.a.o.s.) si Z S est un p.a.o. et si en outre ∀u1 , u2 , u3 , u4 avec
(
u4 − u3 = u2 − u1 ; on a E Zu4 − Z u3
)
2
(
)
2
= E Zu2 − Z u1 . 2
PROPOSITION.– A tout p.a.o. Z S continu à droite dans L , on peut associer : – une fonction F non décroissante sur S tel que :
F ( u ′ ) − F ( u ) = E ( Z u′ − Zu ) si u < u ′ ; 2
– une mesure
µ
sur B ( S ) qui est telle que ∀ u , u ′ ∈ S avec u < u ′ alors
( ) ( ).
µ ( ]u, u′]) = F u′+ − F u −
3.3.2.2. Intégrale stochastique de Wiener
µ
Soit toujours Z S un p.a.o. continu à droite et
la mesure associée.
PROPOSITION.– Soit ϕ ∈ L ( µ ) à valeurs complexes : 2
⎛ ϕ ( u j ) Zu − Zu ⎜ u∑ σ →0 σ ∈ ⎝ l’intégrale stochastique de Wiener ∫ ϕ ( u ) dZ u ; 1) La
lim
(
L2 _ ⎜
j −1
j
j
⎞
) ⎟⎟
existe. C’est par définition
⎠
S
2) Soit E
ϕ
et ψ ∈ L
2
∫ ϕ ( u ) dZ ∫ ψ ( u ) dZ S
u
en particulier E
S
( µ ) à valeurs complexes. On a la propriété : u
∫ ϕ ( u ) dZ S
= 2 u
∫ ϕ ( u )ψ ( u ) d µ ( u ) , S
=
∫ ϕ (u ) S
2
d µ ( u ).
118
Processus stochastiques et filtrages optimaux
Idée de la démonstration
Posons
ε = espace vectoriel des fonctions en escalier à valeurs complexes.
On commence par prouver la proposition pour les fonctions ϕ ,ψ ,... ∈ ε
(si
ϕ ∈ε
ϕ ( u ) = ∑ a j 1⎤U j
⎦
∫ S ϕ ( u ) dZu = ∑j ϕ ( u j ) ( ZU
j −1 ,U j ⎤ ⎦
( u ) et :
)
− ZU j−1 ).
j
On établit ensuite le résultat dans le cas général en utilisant le fait que
ε ( ⊂ L2 ( µ ) )
2
est dense dans L
trouver une suite
ϕn ∈ ε
(µ )
c’est-à-dire que ∀ϕ ∈ L
2
(µ )
on peut
tel que : 2
ϕ − ϕn L ( µ ) = ∫ ϕ ( u ) − ϕn ( u ) d µ ( u ) → 0 S 2
2
quand n → ∞
3.3.2.3. Représentation spectrale On se donne X "θ un processus stationnaire du 2e ordre. D’après le théorème d’Herglotz, on sait que sa fonction de covariance
nθ → C ( nθ ) s’écrit C ( nθ ) = où
µX
1
∫ − 1220θ e
(⎣
2iπ ( nθ )u
est la mesure spectrale sur B ⎡ −1
2θ
,1
d µX (u )
)
⎤ .
2θ ⎦
PROPOSITION.– Si X "θ est un processus stationnaire du 2e ordre, centré, de
fonction de covariance nθ → C ( nθ ) et de mesure spectrale
{
}
unique Z S = Z u u ∈ S = ⎡ −1 , 1 ⎤ tel que : ⎣ 2θ 2θ ⎦
∀j ∈ "
X jθ = ∫ e S
2iπ ( jθ )u
dZ u
µ X , il existe un p.a.o.
Processus à temps discret
En outre, la mesure associée à Z S est la mesure spectrale
119
µX .
L’écriture des X jθ comme intégrales de Wiener porte le nom de représentation spectrale du processus. 2iπ ( j + n )θ ) u 2iπ ( jθ )u REMARQUE.– EX jθ X ( j + n )θ = E e dZu e ( dZu S S et en appliquant la propriété énoncée au 2 de la proposition précédente.
∫
=
∫
S
e
−2iπ ( nθ )u
∫
dZ u = C ( − nθ ) = C ( nθ ) .
3.4. Généralités sur le filtrage numérique
Etant donné un processus stationnaire du 2e ordre X " et une suite de nombres
{
}
réels h = h j ∈ ! j ∈ " , on s’intéresse à l’opération qui à
X " fait
correspondre un nouveau processus Y" défini par :
∀K ∈ "
( h 0T
0
YK =
⎛ +∞ ⎞ h X = ∑ j K − j ⎜⎜ ∑ h jT j ⎟⎟ X K j =−∞ ⎝ j =−∞ ⎠ +∞
2
2
se note aussi h1 où 1 est l’application identique de L dans L ). +∞
Dans la suite on supposera toujours que
∑
j =−∞
h j < ∞ ; cette condition est
1
notée généralement h ∈ & et s’appelle (pour des raisons qui apparaîtront plus tard) condition de stabilité. DÉFINITION.– On dit que le processus
X " par le filtre H (T ) =
+∞
Y" est le transformé (ou filtré) du processus
∑ h jT j et on écrit Y" = H (T ) X " .
j =−∞
120
Processus stochastiques et filtrages optimaux
REMARQUE.– 1) Le filtre H (T ) est entièrement déterminé par la suite de pondérateurs
{
}
h = h j ∈ ! j ∈ " et selon les cas, on parlera du filtre H (T ) ou du filtre h ou encore du filtre (..., h− m ,..., h−1 , h0 ,..., hn ,...). 2) L’écriture « ∀K ∈ " de convolution (noté ∗ ) de
YK =
∑ hj X K − j
» est la définition du produit
j =−∞
X " par h et on écrit aussi :
Y" = h ∗ X " ou bien ∀K ∈ " 3) Soit
+∞
YK = ( h ∗ X " ) K .
X " un processus stationnaire du 2e ordre et H
associé. Il est clair que les v.a. YK =
+∞
∑ hj X K − j
∈H
X
X
l’espace linéaire
et que le processus
j =−∞
Y" est aussi stationnaire du 2e ordre. Filtre causal
YK ne peut dépendre que des v.a. antérieures au sens large à YK , c’est-à-dire que j ∈ # . Un filtre
Physiquement, pour
XK− j
K
donné quelconque,
H (T ) qui réalise cette condition est dit causal ou réalisable. Parmi les filtres causaux, on distingue encore deux grandes classes : 1) Les filtres à réponse impulsionnelle finie (ou RIF) qui sont tels que :
∀K ∈ "
N
YK = ∑ h j X K − j j =0
et dont voici la réalisation schématique suivante.
Processus à temps discret
121
Figure 3.4. Schéma d’un filtre RIF
2) Les filtres à réponse impulsionnelle infinie (ou R.I.I.) qui sont tels que :
∀K ∈ "
∞
YK = ∑ h j X K − j j =0
REMARQUES.– 1) Précisons bien le rôle joué par l’opérateur T : à un instant quelconque K , il remplace X K par X K −1 ; on peut dire aussi que T bloque la v.a. X K −1 pendant une unité de temps et la restitue à l’instant 2) Soit H (T ) un filtre R.I.I. A l’instant
K
;
K
∞
YK = ∑ h j X K − j = h0 X K + ... + hK X 0 + hK +1 X −1 + ... j =0
Pour un processus
∀K ∈ #
X # , donc commençant à l’instant 0 , on aura : K
YK = ∑ h j X K − j j =0
122
Processus stochastiques et filtrages optimaux
Exemple filtrage d’un processus gaussien
Considérons le processus gaussien X " ∼ N ( m ( j ) , Γ ( i , j ) ) et le filtre (RIF)
H (T ) défini par h = ( ...0,..., 0, h 0,..., hN , 0,...) . On vérifie immédiatement que
le processus Y" = H (T ) X " est gaussien. Considérons par exemple le filtrage spécifié par le schéma suivant :
K
∀K ∈ # YK = ∑ h j X K − j = − X K + 2 X K −1 j =0
Y" est un processus gaussien. Déterminons en les paramètres : mY ( i ) = EY j = 0
ΓY ( i, j ) = E Yi Y j = E
(( − X
i
)
+ 2 X i −1 ) ( − X j + 2 X j −1 ) =
E X i X j − 2 E X i −1 X j − 2 E X i X j −1 + 4 E X i −1 X j −1 = 5e
− j −i
− 2e
− j −i +1
Filtre inverse d’un filtre causal
DÉFINITION.– On dit qu’un filtre causal H ( T ) est inversible s’il existe un filtre noté
( H (T ) )−1
et appelé filtre inverse de H ( T ) tel que pour tout processus
stationnaire du 2e ordre X " = H (T )
X " on ait :
( ( H (T ) )
−1
)
X " = ( H (T ) )
−1
( H (T ) X " )
( ∗)
Processus à temps discret
123
Si un tel filtre existe l’égalité Y" = H ( T ) X " est équivalente à l’égalité X " = ( H ( T ) ) Y" . −1
Par
( H (T ) )−1 est
ailleurs
défini
par
une
h′ = {h′j ∈ ! j ∈ "} et on a le produit de convolution
(
Pour la recherche du filtre inverse H (T ) la suite de pondérateurs est équivalent à :
{
)
−1
suite
∀K ∈ "
de
pondérateurs
X " = h′ ∗ Y" .
c’est-à-dire pour la recherche de
}
h′ = h′j ∈ ! j ∈ " on écrit que la suite d’égalités ( ∗ )
∀K ∈ "
⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ ⎛ +∞ ⎞ ⎞ ⎛ ⎛ +∞ ⎞ X K = ⎜ ∑ h jT j ⎟ ⎜ ⎜ ∑ h′j T j ⎟ X K ⎟ = ⎜ ∑ h′j T j ⎟ ⎜ ⎜ ∑ h j T j ⎟ X K ⎟ ⎜ j =−∞ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟ ⎜ ⎜ j =−∞ ⎟ ⎟ ⎜ j =−∞ ⎟ ⎝ ⎠⎝⎝ ⎠ ⎠⎝⎝ ⎠ ⎠ ⎝ ⎠ ou encore à :
⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ ⎛ +∞ ⎞ j j j j ⎜⎜ ∑ h jT ⎟⎟ % ⎜⎜ ∑ h′j T ⎟⎟ = ⎜⎜ ∑ h′j T ⎟⎟ % ⎜⎜ ∑ h j T ⎟⎟ = 1 ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ ⎝ j =−∞ ⎠ EXEMPLE.– On considère le filtre Causal 1) Si h < 1
H (T ) = 1 − hT . ∞
H (T ) admet le filtre inverse ( H (T ) ) = ∑ h j T j . −1
j =0
On doit pour cela vérifier que étant donné stationnaire du 2e ordre
X K v.a. à l’instant
X " , on a :
⎛⎛ ∞ j j ⎞ ⎞ h T ⎟ X K ⎟ = X K (égalité dans L2 ) ∑ ⎟ ⎜ ⎜ j =0 ⎟ ⎠ ⎝⎝ ⎠
(1 − hT ) ⎜ ⎜
K
d’un processus
124
Processus stochastiques et filtrages optimaux
⎛ N ⎞ ⇔ lim (1 − hT ) ⎜ ∑ h j T j ⎟ X K = X K ⎜ j =0 ⎟ N ⎝ ⎠
(
)
⇔ 1 − h N +1 T N +1 X K − X K = h ce qui est vérifié si h < 1 puisque
(
N +1
X K −( N +1) → 0 quand N ↑ ∞
X K − ( N +1) = E X 02 .
On remarque en outre que H (T )
)
−1
est Causal.
⎛ ⎝
2) Si h > 1 écrivons (1 − hT ) = −hT % ⎜1 −
(1 − hT )
−1
1 −1 ⎞ T ⎟ donc : h ⎠
−1
⎛ 1 ⎞ ⎛ 1 ⎞ = ⎜1 − T −1 ⎟ % ⎜ − T −1 ⎟ . ⎝ h ⎠ ⎝ h ⎠
Comme les opérateurs commutent et que
(1 − hT )
−1
1 < 1, q
∞ T −1 ∞ 1 − j T ( ) =− %∑ T = −∑ j +1 h j =0 h j j =0 h − j +1
Mais cet inverse n’a pas de réalité physique, il n’est pas Causal (les « opérateurs − ( j +1) ne sont pas Causaux). avance » T 3) Si h = 1
(1 − T )
et (1 + T ) ne sont pas inversibles.
Fonction de transfert d’un filtre numérique
DÉFINITION.– On appelle fonction de transfert du filtre numérique
H (T ) =
+∞
∑
j =−∞
h j T j la fonction H ( z ) =
+∞
∑ hj z− j
j =−∞
z ∈ '.
Processus à temps discret
125
On reconnaît la définition donnée en analyse d’une série de Laurent, à la permutation z → z
−1
=
1
z
près. Comme conséquence de cette permutation les
fonctions de transfert (sommes des séries) seront écrites pratiquement en utilisant la
variable z . On dit aussi que H ( z ) est la transformée en z de la suite −1
numérique
h = (... h− m ,..., h 0,..., hn ,...).
H ( z ) ; c’est le domaine de convergence K de la série de Laurent. On sait déjà que K est une couronne de centre 0 et a Précisons le domaine de définition de
donc la forme K = { z 0 ≤ r < z < R}
Notons par ailleurs par C ( 0, ρ ) tout cercle du plan complexe de centre et de rayon
ρ.
K contient C ( 0,1) car à cause de l’hypothèse de stabilité du filtre à savoir +∞
∑
j =−∞
hj < ∞ ,
+∞
∑ hj z− j
converge absolument (et donc converge) en tout
j =−∞
z ∈ C ( 0,1) .
Figure 3.5. Domaine de convergence de la fonction de transfert d’un filtre numérique quelconque
H ( z)
126
Processus stochastiques et filtrages optimaux
Les singularités
σj
de H ( z ) vérifient
σj ≤r
ou
σj ≥R
et il y aura au
moins une singularité de H ( z ) sur C ( 0, r ) et une autre sur C ( 0, R ) (sinon on pourrait agrandir K le domaine d’holomorphie de H ( z ) ). Si maintenant le filtre est Causal : – s’il est à réponse impulsionnelle infinie (R.I.I.) soit H ( z ) =
∞
∑ hj z− j , j =0
{
alors H ( z ) est holomorphe dans K = z 0 ≤ r < z
} ( R = +∞ ) ; N
– s’il est à réponse impulsionnelle finie (R.I.F.) soit
H ( z ) = ∑ hj z− j , j =0
{
alors H ( z ) est holomorphe dans K = z 0 < z On constate notamment que les singularités
σj
} (plan pointé en 0). d’une fonction de transfert d’un
filtre causal et stable sont toutes de modules strictement inférieurs à 1.
Figure 3.6. Domaine de convergence du H (z) d’un filtre causal R.I.I. et domaine de convergence du H (z) d’un filtre causal R.I.F.
Processus à temps discret
127
+∞
∑ hj z− j
ATTENTION.– étant donnée une série de Laurent
(c’est-à-dire étant
j =−∞
donné un filtre numérique h = {... h− m ,..., h 0,..., hn ,...} ) son domaine de convergence K et donc sa somme H ( z ) sont déterminés de façon unique. C’est-
(
)
à-dire qu’au filtre est associé le coupe H ( z ) , K . Réciproquement, si étant donné H ( z ) , on veut obtenir le filtre h , il faudra commencer par préciser le domaine dans lequel on veut développer H ( z ) , car pour différents domaines K , on obtient des développements en séries de Laurent
différents ayant H ( z ) pour somme.
Ceci se résume par la double implication
(H ( z), K ) ( h .
Inversion de la transformée en z
(
)
Etant donné le couple H ( z ) , K , on veut retrouver le filtre h .
H étant holomorphe dans K on peut appliquer la formule de Laurent : ∀j ∈ " h j =
1 2iπ
∫Γ
H ( z) +
z − j +1
dz
où (argument d’homotopie) Γ est un contour quelconque de K et entourant 0 . L’intégrale peut être calculée par la méthode des résidus ou bien, puisqu’on a le choix du contour Γ en choisissant Γ = C ( 0,1) et en paramétrant et en calculant l’intégrale ∀j ∈ "
hj =
1 2iπ
iθ ijθ ∫Γ H ( e ) e dθ . +
On peut aussi, pour déterminer h j , développer en série de Laurent la fonction
H ( z ) en s’aidant des développements usuels connus.
128
Processus stochastiques et filtrages optimaux
EXEMPLE
RÉCAPITULATIF.–
Soit le filtre Causal et stable H (T ) = 1 − hT avec
h < 1 , de fonction de transfert H ( z ) = 1 − h z −1 définie sur ' − {0} . On a vu qu’il est inversible et que son inverse, également causal et stable, est ∞
R (T ) = ∑ h j T j j =0
La fonction de transfert du filtre inverse est donc : ∞
R ( z ) = ∑ h j z− j = j =0
{
1
définie sur z
1 − hz −1
(on remarque aussi que R ( z ) =
1
H ( z)
}
z >h
).
Figure 3.7. Domaine de définition H (z) et domaine de définition R (z)
Possédant R ( z ) =
1 1 − hz −1
sur
{z
}
z > h , retrouvons (à titre d’exercice) le
développement en série de Laurent de R ( z ) c’est-à-dire les h j coefficients des z
−j
.
Processus à temps discret
Par les formules de Laurent h j =
{
1
∫
2iπ
où Γ est un contour appartenant à z
Γ
+
R ( z )z
j −1
dz =
1 2iπ
∫
Γ
z +
129
j
z−h
−dz
}
z >h .
En appliquant le théorème des résidus, si j ≥ 0
h j = 2iπ .
si j < 0 :
h j = 2iπ .
1 ⎛
⎜ Résidu de
2iπ ⎝
⎞ zj zj = hj en h ⎟ = lim ( z − h ) z h → z-h z−h ⎠
1 ⎢⎡⎛
⎞ ⎤ ⎡⎛ ⎞⎤ 1 1 ⎜ Résidu de en 0 ⎟ ⎥ + ⎢⎜ Résidu de en h ⎟ ⎥ = 0 ⎟ ⎥ ⎢⎜ ⎟⎥ 2iπ ⎣⎢⎝⎜ z j ( z −h ) z j ( z −h ) ⎠ ⎦ )***** ⎠⎦ ⎣⎝ )***** *+****** , *+****** , −1 1 hj hj
PROPOSITION.– Soit X " un processus stationnaire du 2e ordre et soit l’espace linéaire associé ; on considère toujours le filtre transfert
H ( z) =
+∞
∑
j =−∞
h j z − j avec
+∞
∑
j =−∞
H
X
H (T ) de fonction de
hj < ∞ .
Alors : 1)
⎛ +∞ ⎞ ∀ K ∈ " ⎜ ∑ q jT j ⎟ X K = ⎜ j =−∞ ⎟ ⎝ ⎠
C’est dire que les v.a. YK =
+∞
∑
j =−∞
+∞
∑ q j X K − j converge dans H X .
j =−∞
h j X K − j du processus filtré restent dans H
on dit que le filtre est stable. 2) Le processus filtré Y" est stationnaire du 2e ordre. 3) Les densités spectrales de X " et de Y" sont liées par la relation :
SYY ( u ) = H ( −2iπ u )
2
S XX ( u )
X
;
130
Processus stochastiques et filtrages optimaux
DÉMONSTRATION.– 1) On doit montrer que ∀K ∈ " , il existe une v.a. YK que la suite N →
N
∑ hj X K − j
X
∈H
converge pour la norme de
H
X
⊂ L2 ( dP ) telle et quand N ↑ ∞
−N
vers YK . Or
H
X
étant un espace de Banach, il suffit de vérifier la convergence
normale, à savoir : +∞
∑
j =−∞
hj X K − j =
+∞
∑
J =−∞
(
h j E X K2 − j
)
1
2
<∞. +∞
Ce qui est vrai compte tenu de l’hypothèse de stabilité
∑
j =−∞
stationnarité de 2e ordre :
h j < ∞ et de la
E X (2K − j ) = σ 2 + m 2
2) Il faut vérifier que E YK est indépendant de K et que Cov ( Yi , Y j ) a la forme
CY ( j − i ) , ce qui est immédiat.
3) CY ( j − i ) = Cov ( Yi , Yj ) = ∑ h& h&′ Cov ( X j − & , X i − &′ ) & , &′
et, en utilisant la définition de 1
CY
( j − i ) = ∑ h& h&′ ∫ − 12
S XX ( u )
exp ( 2iπ ( j − & ) − ( i − & ' ) u ) S XX ( u ) du .
2
& ,& '
Il est facile de vérifier qu’on peut intervertir les symboles
CY ( j − i ) = ∫
1
2 −1 2
=∫ =∫
1
2
−1 1
2
2
−1
2
∑ et ∫, de sorte que :
⎛
⎞
exp ( 2iπ ( j − i ) u ) ⎜ ∑ h& h& ' exp 2iπ ( & '− & ) ⎟ S XX ( u ) du
⎝ & ,& '
exp ( 2iπ ( j − i ) u )
⎠
∑ h& exp ( 2iπ &u )
2
S XX ( u ) du
&
exp ( 2iπ ( j − i ) u ) H ( −2iπ u ) S XX ( u ) du 2
Processus à temps discret
131
et en se reportant à la définition de SYY ( u ) , on a bien :
SYY ( u ) = H ( −2iπ u )
2
S XX ( u ) .
3.5. Exemple important : processus autorégressif ∗
DÉFINITION.– On appelle processus autorégressif de degré d ∈ # tout processus stationnaire du 2e ordre, centré X " qui vérifie : ∀K ∈ ". d
X K = ∑ h j X K − j + BK où B" est un bruit blanc de puissance EBK2 = σ 2 . j =1
La famille des processus autorégressifs de degré
d est notée AR ( d ) .
∀ K , X K est obtenu à partir des K valeurs antérieures X K −d ,..., X K −1 à la v.a. BK près, ce que l’on peut réaliser par le montage Donc
suivant :
Figure 3.8. Filtre autorégressif
L’égalité de la définition s’écrit encore : H ( T ) X " = B" où on a posé d
H ( T ) = 1 − ∑ h jT j . j =1
132
Processus stochastiques et filtrages optimaux
C’est-à-dire qu’on peut obtenir X " par le filtrage de B" par le filtre
H (T )
dont le schéma est déjà donné ci-avant à la direction des flèches près. PROPOSITION.– 1) Tout processus X " ( AR ( d ) ) , généré par le bruit B" et par le filtre
H (T ) possède la densité spectrale S XX ( u ) =
σ
2
H ( exp ( −2iπ u ) )
2
(où le polynôme H ne possède pas de racine de module 1). 2) Réciproquement : tout processus stationnaire du 2e ordre, centré et possédant une densité spectrale de la forme précédente est auto-régressif de degré égal au degré de H . DÉMONSTRATION.– 1) La proposition sur le filtrage et la relation
B" = H (T ) X " avec
S B ( u ) = σ 2 conduisent au premier résultat annoncé. Par ailleurs, supposons que H possède la racine z0 = exp ( −2i π u0 ) de
module 1 et posons z = exp ( −2i π u ) .
Par le développement de Taylor au voisinage de z0 , on aurait :
H ( z ) = H ′ ( z0 )( z − z0 ) + ... ou encore : H ( exp ( −2i π u ) ) = constante × ( u − u0 ) + ... et l’application : u → S XX ( u ) =
σ2 H ( exp ( −2i π u ) )
2
ne serait pas intégrable au voisinage de u0 ... comme doit l’être une densité spectrale.
Processus à temps discret
X " admet une densité spectrale de la forme
2) Si le processus S XX ( u ) =
σ
2
H ( exp ( −2i π u ) )
spectrale constante
133
2
, le processus
H (T ) X " admet la densité
σ 2 et comme il est centré, c’est un bruit blanc B" .
CAS PARTICULIER.– Processus autorégressif de degré 1 :
X K = h X K −1 + BK
(Ε)
C'est-à-dire
(1 − hT ) X K
= BK
On remarque pour débuter que : 1) X " est un processus de Markov
∀B ∈ B ( ! ) : P ( X K ∈ B X K −1 = α , X K −2 = β ,...) = P ( hα1 + BK ∈ B X K −2 = β ,...) et comme BK est indépendant de X K − 2 , X K −1 ,...
= P ( h α1 + BK ∈ B )
= P ( h X K −1 + BK ∈ B X K −1 = α ) = P ( X K ∈ B X K −1 = α ) 2) Si B" est un bruit blanc gaussien, X " est lui-même gaussien. Expression de
X " , solution de ( E ) :
1) On recherche X " processus stationnaire du 2e ordre solution de ( E ) : – si h = 1, il n’existe pas de processus stationnaire du 2e ordre X " qui satisfasse à ( E ). En effet supposons par exemple h = 1 et réitérons n fois la relation de récurrence, il vient :
134
Processus stochastiques et filtrages optimaux
X K − X K −n −1 = BK + Bk −1 + ... + BK −n et E ( X K − X K − n −1 ) = E ( BK + BK −1 + ... + BK − n ) = ( n + 1) σ 2
2
2
Mais si le processus était stationnaire du 2e ordre, on aurait aussi ∀n ∈ " .
E ( X K − X K − n −1 ) = E X K2 + E X K2 − n −1 − 2 E X K X K − n −1 ≤ 4σ 2 2
Et on voit donc que X " ne peut pas être stationnaire du 2e ordre. Supposons maintenant
h ≠ 1, on cherche, si (1 − hT ) est un opérateur
inversible, à obtenir X K = (1 − hT ) BK ; −1
⎛ ⎝
– si h > 1 . En écrivant (1 − hT ) = − hT % ⎜ 1 − voit qu’on peut développer
(
1
1 − T −1 h
)
1 h
(donc aussi
T
−1
⎞ , comme 1 < 1, on ⎟ h ⎠
(1 − hT )−1 ) en série de
−1
puissance de T (opérateur avance) mais le filtre qu’on obtient étant non causal on rejette la solution X " obtenue ; – si
h < 1, c’est-à-dire si le zéro du polynôme H ( z ) = 1 − hz −1 a un
module inférieur à 1, on sait que l’opérateur
(1 − hT ) est inversible et que
∞
(1 − hT )−1 = ∑ h j T j
(filtre causal).
j =0
∞
X K = (1 − hT ) BK = ∑ h j BK − j est donc la solution unique de : −1
j =0
(1 − hT ) X K
= BK
Sous cette forme, la stationnarité du 2e ordre de X " est évidente. En effet les
B j étant centrés et orthogonaux.
Processus à temps discret
∞
Var X K
(
= ∑ E h BK − j j =0
Par ailleurs pour n ∈ #
E X i X i+n
j
)
2
=
σ2 1 − h2
cov ( X i , X i + n ) =
n ∞ ∞ ⎛ ∞ j ⎞ j j +n & 2 2 h = E ⎜ ∑ h Bi − j ∑ h Bi + n −& ⎟ = σ ∑ h h = σ ⎜ j =0 ⎟ 1− h j =0 & =0 ⎝ ⎠
Finalement ∀n ∈ "
n
h C ( n ) = Cov ( X i , X i + n ) = σ 1− h 2
( )
Figure 3.9. Graphe de C n , fonction de covariance d’un processus AR (1) ( h ∈ ] 0,1 [ )
Densité spectrale
S XX ( u ) de X " :
135
136
Processus stochastiques et filtrages optimaux
S XX ( u ) =
+∞
∑
C ( n ) exp ( −2iπ n u ) =
n =−∞
σ2 1− h
+∞
2
∑ hn
exp ( −2iπ n u )
n =−∞
⎤ σ2 ⎡ 1 1 = + − 1⎥ 2 ⎢ 1 − h ⎣1 − h exp ( −2iπ u ) 1 − h exp ( 2iπ u ) ⎦ =
σ2 1 − 2h cos 2 π u + h 2
2) Solution générale de ( E ) : C’est la somme de la solution trouvée de l’équation avec deuxième membre
X K − h X K −1 = BK soit Et
de
la
solution
∞
∑ h j BK − j . j =0
générale
de
l’équation
sous
deuxième
membre
K
X K − hX K −1 = 0 soit Α h où Α est une v.a. quelconque. La solution générale X K =
∞
∑ h j BK − j + Α h K
n’est plus stationnaire du 2e
j =0
ordre, sauf si Α = 0. 3.6. Exercices du chapitre 3 Enoncé 3.1.
Etudier la stationnarité du processus gaussien
E ( X K ) = m ( K ) est constante. Enoncé 3.2.
On considère la suite réelle
hn
hn = 2n si n < 0 et hn =
définie par :
1 4n
si n ≥ 0 .
X " ∼ N ( m ( K ) , min ( j , K ) ) où
Processus à temps discret
137
+∞
1) Déterminer le domaine de convergence de la série de Laurent
∑ hn z n
n =−∞
{
}
2) Si h = hn n ∈ " transfert
est un filtre numérique, déterminer sa fonction de
H ( z ) en précisant son domaine de définition.
Solution 3.2. +∞
1)
∑ hn z n =
n =∞
n
−1
La série converge si
{
K= z
1 2
n
n
∞ ∞ ∞ ⎛z⎞ ⎛ 1 ⎞ ⎛z⎞ + = + 2 z ∑ ( ) ∑ ⎜⎝ 4 ⎟⎠ ∑ ⎜⎝ 2 z ⎟⎠ ∑ ⎜⎝ 4 ⎟⎠ n =−∞ n =0 n =1 n =0
z >
}
1 2
et si
∞
n
n
z < 4 donc dans la couronne
< z <4 .
2) H ( z ) =
+∞
∑ hn z
−n
n =−∞
La série converge si
{
∞ ⎛z⎞ ⎛ 1 ⎞ = ∑⎜ ⎟ + ∑⎜ ⎟ n =1 ⎝ 2 ⎠ n =0 ⎝ 4 z ⎠
n
z < 1/ 4 donc dans la couronne
z > 2 et si
}
K′ = z 1 < z < 2 . 4 Dans K ′ :
H (z) =
1 1− z
−1+ 2
1 1 − ( 4z )
−1
=
7z
( 2 − z )( 4 z − 1)
.
Enoncé 3.3.
Développer H ( z ) =
16 − 6 z
( 2 − z )( 4 − z )
dans les trois domaines suivants :
en série (de Laurent) de puissances de z
−1
138
Processus stochastiques et filtrages optimaux
1) { z
z < 2}
2) { z 2 < z < 4} 3) { z
z > 4}
H ( z ) représentant à chaque fois une fonction de transfert, préciser dans les trois cas si le filtre correspondant est stable et s’il est causal. Solution 3.3.
H (z) =
2 2−z
+
4 4− z
=
1 1− z
+ 2
1 1− z
4
∞
0 ⎛ 1 1 ⎞ n 2n + 4n z − n + z = ∑ n n ⎟ 4 ⎠ n =0 ⎝ 2 n =−∞
(
H (z) = ∑⎜
– si z < 2
∞
Le filtre est stable car
⎛ 1
1 ⎞
∑ ⎜⎝ 2n + 4n ⎟⎠ < ∞
)
mais non causal puisque la série
n=0
contient des puissances positives de z . – si ∞
=∑ n =1
−2 z
n
n
2 < z < 4 on écrit H ( z ) = ∞
+∑ n =0
z
n
4
n
=
0
∞
n =−∞
n =1
(
−2
z 1− 2
z
)
+
1 1− z
4
∑ 4n z − n + ∑ −2n z n .
Le filtre n’est ni stable ni causal. – si ∞
(
z > 4 on écrit H ( z ) =
)
(
−2
z 1− 2
+
z
) z (1 − 4 z )
= ∑ − 2n + 4n z − n le filtre est instable et causal. n =1
−4
Processus à temps discret
139
Enoncé 3.4.
On considère un bruit blanc gaussien B" (rappelons que les BK sont des v.a. gaussiennes indépendantes ; EBK = 0 et deux réels
α et β
Var BK = 0 ). On se donne par ailleurs
différents et vérifiant α < 1 et β < 1.
1) Construire un processus stationnaire centré X " tel que :
X K = α X K −1 + BK − β BK −1
K ∈ " , et déterminer sa densité spectracle
S XX ( u ) .
2) Notons par Notons par
HB
Vérifier que
H
X
H
l’espace linéaire engendré par les v.a. X n , n ≤ 0 .
l’espace linéaire engendré par les v.a. Bn , n ≤ 0 . X
=H B .
3) On pose YK =
∞
∑ β n X K −n
K ∈"
n=0
Exprimer YK en fonction du bruit blanc et en déduire la meilleure approximation linéaire de YK exprimée à l’aide des X n , n ≤ 0 . 4) Montrer que les v.a. YK sont gaussiennes centrées et calculer leurs covariances.
Solution 3.4.
(1 − α T ) X K = (1 − β T ) BK et
1) L’égalité définissant X K permet d’écrire l’opérateur
(1 − α T ) étant inversible puisque
X K = (1 − α T )
−1
⎛
∞
α < 1.
⎞
(1 − β T ) BK = ⎜ ∑ α nT n ⎟ (1 − β T ) BK ⎝ n =0
⎠
140
Processus stochastiques et filtrages optimaux
Donc X K = BK +
∞
∑ α n−1 (α − β ) BK −n
et X " est bien stationnaire.
n =1
Par ailleurs, le processus X " est généré à partir de B" par le filtre −1
(1 − α T ) (1 − β T ) de fonction de transfert
1− β z 1+α z
. 2
Donc d’après le théorème sur le filtrage :
2) D’après 1)
∀K
X K ∈H
B
1 − β e2iπ u σ 2. (u ) = 2iπ u 1+ αe
S XX
donc H
X
⊆ H
Réciproquement, en partant de BK = (1 − β T ) analogues aux précédents, on obtient
3) YK
H B ⊆H
−1
B
(1 − α T ) X K
et par des calculs
X
∞ ⎛ ∞ ⎞ −1 = ∑ β n X K −n = ⎜ ∑ β nT n ⎟ X K = (1 − β T ) X K n =0 ⎝ n =0 ⎠
Donc YK = (1 − β T )
−1
(1 − α T )−1 (1 − β T ) BK ,
et comme on peut permuter
∞
les opérateurs, YK = (1 − α T )−1 BK = ∑ α n BK − n n =0
Puisque
H
X
= H B , la meilleure approximation linéaire de YK est :
⎛ ∞ ⎞ ∞ projH X YK = projH X YK = projH B ⎜ ∑ α n BK − n ⎟ = ∑ α n+ K B− n 0 ⎝ n =0 ⎠ n =0 ∞
∞
n =0
n =0
α K ∑ α n B− n = α k Y0 = α K ∑ β n X − n
Processus à temps discret
4) Puisque YK =
141
∞
∑ α n BK −n, les YK
sont des v.a. gaussiennes centrées. Par
n =0
ailleurs :
Cov (Y j , YK ) =
=α
K− j
∞
∑
∞
∞
∑ α m+ n E ( BK −n B j −m ) = ∑ α 2m+ K − j EB 2j −m
m =0 n =0
∞
∑ α 2mσ 2
=
m =0
m =0
α K− j 1−α 2
σ2.
Enoncé 3.5. ∞
∑ bn X K −n = BK ( bn ∈ ! )
Soit X " un processeur vérifiant
où B" est un
n =0
∞
bruit de puissance
σ 2 . On pose par ailleurs b ( z ) = ∑ bn z − n . n =0
z K − j −1
1
∫C b ( z ) dz (intégrale de la variable complexe z où C = { z z = 1} ). 1) Montrer que si j < K
2) Vérifier que si
{z
}
z < 1 alors ∀j < K
EX j BK =
2iπ
+
b ( z ) ne possède pas de zéro dans le disque X j ⊥ BK
( EX
j BK
= 0).
Solution 3.5. 1) EX j BK =
S X ( u ) de X " :
∞
∑ bn EX j X K −n
et par définition de la densité spectracle
n =0
EX j X K − n = cov ( X j , X K −n ) = ∫
1/ 2
−1/ 2
exp
( 2iπ ( j − K + n ) u ) S X ( u ) du
142
Processus stochastiques et filtrages optimaux
⎛ ∞ n⎞ ⎜ ∑ bnT ⎟ X K = BK , X " est obtenu par filtrage de B" ⎝ n =0 ⎠ 1 2 (de densité spectacle σ ), par le filtre de fonction de transfert et par le b( z) Par ailleurs, puisque
théorème sur le filtrage S X ( u ) =
d’où EX j BK = σ 2 ∫
1/ 2
−1/ 2
σ2∫
1/ 2
−1/ 2
=σ2∫
1/ 2
b ( exp ( −2iπ u ) ) b ( exp ( −2iπ u ) )
En posant z = exp ( −2iπ u ) ,
( )
2) Si b z
2
n =0
b ( exp ( −2iπ u ) )
σ2 2iπ
b ( exp ( −2iπ u ) ) ∞
exp ( 2iπ ( j − K ) u )
EX j BK =
2
exp ( 2iπ ( j − K ) u )∑ bn exp ( 2iπ nu )
exp ( 2iπ ( j − K ) u )
−1/ 2
σ
∫C
+
2
1 b ( exp ( −2iπ u ) )
2
du
du
du dz = −2iπ z du et finalement :
z K − j −1 dz b( z)
ne possède pas de zéro dans
{z
}
z < 1 , la fonction à intégrer
est holomorphe à l’intérieur du disque ouvert D ( 0,1) et par le théorème de Cauchy
EX j BK = 0.
CHAPITRE 4
Estimation
4.1. Position du problème On considère deux processus à temps discret :
(
)
X !∗ = X 1 ,..., X j ,... et Y!∗ = (Y1 ,..., Y j ,...) : – du 2e ordre ; – pas nécessairement stationnaires du 2e ordre (ils ne possèdent donc pas nécessairement une densité spectrale).
X !∗ est appelé processus d’état, c’est le processus (physique par exemple) que l’on cherche à estimer mais il est inaccessible directement.
Y!∗ est appelé processus d’observation, c’est le processus que l’on observe
(
)
(précisément on observe une trajectoire y!∗ = y1 ,..., y j ,... qui nous permettra
(
)
d’estimer la trajectoire correspondante x!∗ = x1 ,..., x j ,... ). Un exemple classique est le suivant :
(
X !∗ = X 1 ,..., X j ,...
(
)
)
Y!∗ = X !∗ + U !∗ = X 1 + U1 ,..., X j + U j ,... ,
144
Processus stochastiques et filtrages optimaux
où U !∗ est aussi un processus aléatoire. On dit alors que le processus d’état est perturbé par un bruit parasite U !∗ (perturbation due à la mesure, à la transmission, etc.). Dans la suite, les hypothèses et données suivantes seront admises : – ∀j ∈ !
X j et Y j ∈ L2 ( dP ) ;
∗
∗
(
∗
– ∀i, j ∈ ! × ! , on connaît EX j , cov X i , Y j
) , cov (Yi , Y j ).
PROBLÈME.– Ayant observé (ou enregistré) une trajectoire y!∗ de Y!∗ jusqu’à l’instant
K
− 1 , on veut, à un instant donné p , déterminer la valeur « xˆ p qui
approche au mieux x p (inconnue) ».
Figure 4.1. Trois trajectoires
(
y!∗ = y1 ,..., y j ,...
)
(
xˆ!∗ = xˆ1 ,..., xˆ j ,...
)
(
)
x!∗ = x1 ,..., x j ,... inconnue.
Si : – p<
− 1 on parle de lissage ; – p = K − 1 on parle de filtrage ; – p > K − 1 on parle de prédiction. K
REMARQUE 1.– Dans le cas de la prédiction, on peut n’avoir à considérer que le processus Y!∗ car prédire y p pour p > K − 1 est déjà un problème…
Estimation
145
REMARQUE 2.– A propos de l’expression « xˆ p approche au mieux x p ». Nous verrons que les hypothèses (connaissances des variances et covariances) nous permettent de déterminer Xˆ p , la v.a. du 2e ordre qui approche au mieux en moyenne quadratique la v.a. X p , c’est-à-dire la v.a. Xˆ P qui est telle que
(
E X p − Xˆ p
)
2
= Min2 E ( X p − Z ) , ce qui est un résultat sur les moyennes de 2
Z ∈L
v.a. et non sur les réalisations. Cependant, ne serait-ce qu’à cause de l’inégalité de Bienaymé-Tchebychev :
(
)
P X p − Xˆ p ≥ C ≤
(
E X p − Xˆ p C2
)
2
= A.
On voit que l’on obtient un résultat sur les réalisations puisque cette inégalité signifie exactement que à l’instant p , la valeur inconnue x p appartiendra à l’intervalle connu ⎤⎦ xˆ p − C , xˆ p + C ⎡⎣ avec une probabilité supérieur à 1 − A . Ce chapitre est une introduction au filtrage de Kalman pour lequel nous aurons à considérer la meilleure estimation de la v.a. X K (et aussi éventuellement de la v.a.
YK ) ayant observé Y1 ,..., YK −1 et nous supposerons donc p = K . RÉSUMONS.– Etant donné le processus d’observation Y!∗ , considéré jusqu’à l’instant
K
− 1 , toute estimation Z de X K aura la forme Z = g (Y1 ,..., Yk −1 ) où
g : " K −1 → " est une application borélienne. Le problème que nous nous poserons dans les paragraphes à venir est le suivant. Trouver la meilleure estimation en moyenne quadratique Xˆ K c’est-à-dire
trouver
la
Z → E( XK − Z )
L2 ( dP )
2
v.a.
Xˆ K
qui
K −1
rend
minimum
K −1
de X K ,
l’application
(c’est-à-dire encore trouver la fonction gˆ qui rend
"
(
minimum g → E X K − g (Y1 ,..., YK −1 )
)
2
. On a Xˆ K
K −1
= gˆ (Y1 ,..., YK −1 ) ).
146
Processus stochastiques et filtrages optimaux
4.2. Estimation linéaire L’espace fondamental que l’on définit ci-après a déjà été introduit, mais dans un contexte différent, au chapitre 3. DÉFINITION.– On appelle espace linéaire d’observation jusqu’à l’instant note
H KY−1
K −1
et on
(ou H (1, Y1 ,..., YK −1 ) ), l’espace vectoriel des combinaisons linéaires
des v.a. 1, Y1 ,..., YK −1 , c’est-à-dire : K −1 ⎧ ⎫ H KY−1 = ⎨λ01 + ∑ λ jY j λ 0 ,..., λK −1 ∈ " ⎬ . j =1 ⎩ ⎭ 2
Puisque les v.a. 1, Y1 ,..., YK −1 ∈ L
( dP ) 2
(fermé, car le nombre de v.a. est fini) de L On peut aussi dire que
, H KY-1 est un sous espace vectoriel
( dP ) .
H KY-1 est un sous espace de Hilbert de L2 ( dP ) .
Nous nous intéressons ici au problème énoncé au paragraphe précédent mais avec l’hypothèse simplificatrice : g est linéaire, c’est-à-dire que les estimateurs envisagés Z de X K sont de la forme : K −1
Z = g (Y1 ,..., YK −1 ) = λ0 + ∑ λ jY j et appartiennent donc à HKY−1. j =1
Le problème s’énonce alors : trouver la v.a., notée Xˆ K K −1 , qui rend minimum l’application :
Z → E( XK − Z )
H KY−1
2
"
(c’est-à-dire trouver les λˆ0 , λˆ1 ,..., λˆK −1 qui rendent minimum :
Estimation
147
2
K −1 ⎛ ⎛ ⎞⎞ λ0 , λ1 ,..., λK −1 → E ⎜⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟⎟ ). J =1 ⎝ ⎠⎠ ⎝
On aura Xˆ K K −1 = λˆ0 +
K −1
∑ λˆ jY j . j =0
DÉFINITION.– 2
K −1 ⎛ ⎛ ⎞⎞ C ( λ0 , λ1 ,..., λK ) = E ⎜ X K − ⎜ λ0 + ∑ λ jY j ⎟ ⎟ s’appelle « fonction coût ». ⎜ ⎟⎟ ⎜ j =1 ⎝ ⎠⎠ ⎝
La solution est donnée par le résultat suivant, relatif aux espaces de Hilbert. THÉORÈME.– – Il existe Xˆ K K −1 = λˆ0 +
Z → E( XK − Z )
H KY−1
"
K −1
∑ λˆ jY j
unique qui rend minimum l’application
j =1
2
;
– Xˆ K K −1 est la proposition orthogonale de X K sur
H KY−1
(on la note aussi
Y projH Y X K ). C’est-à-dire X K − Xˆ K K −1 ⊥ H K −1 . K −1
Figure 4.2. Projection orthogonale du vecteur
XK
sur
H KY-1
Ce théorème étant admis, on achève de résoudre le problème en calculant les
λˆ 0, λˆ 1,..., λˆ K −1 .
148
Processus stochastiques et filtrages optimaux
PROPOSITION.– 1) Les coefficients λˆ 0, λˆ 1,..., λˆ
K −1
de Xˆ K K −1 = λˆ 0 +
K −1
∑ λˆ jY j
vérifient :
j =1
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞ K −1 ⎜ ⎟ ⎜ ⎟ ˆ = EX − λˆ EY ΓY ⎜ # ⎟ = ⎜ # et λ ∑ j j K 0 ⎟ j =1 ⎜ λˆ ⎟ ⎜ Cov ( X , Y ) ⎟ K K −1 ⎠ ⎝ K −1 ⎠ ⎝
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞ ⎜ ⎟ ⎟ −1 ⎜ et si ΓY est inversible ⎜ # ⎟ = ΓY ⎜ # ⎟; ⎜ Cov ( X , Y ) ⎟ ⎜ λˆ ⎟ K K −1 ⎠ ⎝ ⎝ K −1 ⎠ 2) X$ K = X K − Xˆ K K −1
est une v.a. centrée qui représente l’erreur
d’estimation.
(
)
(
Var X$ K = Var X K − Xˆ K K −1 = E X K − Xˆ K K −1
On a
)
2
= Var X K − ∑ λˆi λˆ j cov ( Yi , Y j ). i, j
Et si ΓY est inversible =
Var X K − ⎡⎣Cov ( X K , Y j ) ⎤⎦ ΓY−1 ⎡⎣Cov ( X K , Y j ) ⎤⎦ . T
Démonstration : 1) X K − Xˆ K K −1 ⊥ H K −1 ⇔ X K − Xˆ K K −1 ⊥ 1, Y1 ,..., YK −1 Y
– X K − Xˆ K K −1 ⊥ 1 ⇔
(
)
⎛ ⎜ ⎝
⎛
K −1
⎝
j =1
⎞⎞ ⎟ ⎠⎠
E X K − Xˆ K K −1 1 = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ jY j ⎟ ⎟ = 0
Estimation
Soit EX K = λˆ 0 +
∑ λˆ j EY j
;
(1)
j
– X K − Xˆ K K −1 ⊥ Yi ⇔
(
)
⎛
⎛
⎝
⎝
⎞⎞
E X K − Xˆ K K −1 Yi = E ⎜ X K − ⎜ λˆ 0 + ∑ λˆ j Y j ⎟ ⎟ Yi = 0 . ⎜ ⎟ Soit EX K Yi
⎠⎠
j
= λˆ 0 EYi + ∑ λˆ j EY jYi .
(2)
j
− ∑ λˆ j EY j que l’on porte dans (2).
De (1) on tire λˆ 0 = EX K
j
Il vient :
⎛
⎞
EX K Yi = ⎜ EX K − ∑ λˆ j EY j ⎟ EYi + ∑ λˆ j EY j Yi
⎝
j
⎠
j
= EX K EYi − ∑ λˆ j ( EY j Yi − EY j EYi ) . j
C’est-à-dire :
∀i = 1 à
K
−1
∑ λˆ j Cov (Y j , Yi ) = Cov ( X K , Yi ) j
ou, sous forme matricielle
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞ ⎜ ⎟ ⎜ ⎟ # ΓY ⎜ # ⎟ = ⎜ ⎟. ⎜ˆ ⎟ ⎜ ⎟ ⎝ λ K −1 ⎠ ⎝ Cov ( X K , YK −1 ) ⎠
– Si ΓY est non inversible : Rappelons les équivalences :
149
150
Processus stochastiques et filtrages optimaux
ΓY
non inversible
⇔ ΓY
Y1 − EY1 ,..., YK −1 − EYK −1
sont
est semi-définie positive linéairement
⇔
dépendantes
les v.a.
dans
L2
⇔ dim H KY−1 < K − 1 ; Sous cette hypothèse, il existe une infinité de K-uples
( λˆ ,..., λˆ ) (et donc 1
K −1
aussi une infinité de λˆ 0 ) qui vérifient la dernière égalité matricielle mais toutes les expressions λˆ 0 +
∑ λˆ jY j
sont égales à la même v.a. Xˆ K K −1 d’après l’unicité de la
j
projection orthogonale sur un sous espace de Hilbert. – Si ΓY est inversible : Les v.a. Y − EY ,..., Y 1
K −1
1
− EY
sont linéairement indépendantes dans
K −1
L2 , les coefficients λˆ 0, λˆ 1,..., λˆ K −1 sont uniques et on obtient ⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞ K −1 ⎜ ⎟ ⎟ −1 ⎜ ˆ = EX − λˆ EY # = Γ # et λ ∑ j j 0 K Y ⎜ ⎜ ⎟ ⎟ j =1 ⎜ Cov ( X , Y ) ⎟ ⎜ λˆ ⎟ K K −1 ⎠ ⎝ ⎝ K −1 ⎠ 2) X K − Xˆ K K −1 est centrée (évident).
(
)
X K = X K − Xˆ K K −1 + Xˆ K K −1 et comme X K − Xˆ K K −1 ⊥ X K d’après le théorème de Pythagore.
(
E X K − Xˆ K K −1 et puisque λˆ 0 = EX K −
)
2
= EX K2 − EXˆ 2
∑ λˆ j EY j , j
K K −1
⎛ ⎞ = EX K2 − E ⎜ λˆ 0 + ∑ λˆ jY j ⎟ ⎜ ⎟ j ⎝ ⎠
2
Estimation
E ( X K − X K K −1 ) = 2
EX K2
⎛ ⎞ − E ⎜ EX K − ∑ λˆ j ( Y j − EY j ) ⎟ j ⎝ ⎠
(
= EX K − E ( EX K ) − 2 EX K ∑ λˆ j Y j − EY j 2
2
j
151
2
)
+ ∑ λˆi λˆ j (Yi − EYi ) ( Y j − EY j ) . i, j
(
D’où E X K − Xˆ K K −1
)
2
= Var X K − ∑ λˆ i λˆ j Cov (Yi , Y j ) . i, j
(
Soit sous forme matricielle = Var X K − λˆ 1,..., λˆ
K −1
)
⎛ λˆ1 ⎞ ⎜ ⎟ ΓY ⎜ # ⎟ . ⎜ˆ ⎟ ⎜ λK −1 ⎟ ⎝ ⎠
⎛ λˆ 1 ⎞ ⎛ Cov ( X K , Y1 ) ⎞ ⎜ ⎟ ⎟ −1 ⎜ Et si ΓY est inversible comme ⎜ # ⎟ = ΓY ⎜ # ⎟. ⎜ Cov ( X , Y ) ⎟ ⎜ λˆ ⎟ K K −1 ⎠ ⎝ ⎝ K −1 ⎠ Il vient :
(
E X K − Xˆ K K −1
)
2
= Var X K − ( Cov ( X K , Y1 ) , ... , Cov ( X K , YK −1 ) )
REMARQUE.– Si
ΓY−1
⎛ Cov ( X K , Y1 ) ⎞ ⎜ ⎟. # ⎜ ⎟ ⎜ Cov ( X , Y ) ⎟ K K −1 ⎠ ⎝
Cov ( X K , Y1 ) = 0,..., Cov ( X K , YK −1 ) = 0 , les v.a.
Yj
n’apportent aucune information pour estimer en moyenne quadratique la v.a. X K −1 . En nous reportant d’ailleurs aux formules précédents :
152
Processus stochastiques et filtrages optimaux
⎛ λˆ 1 ⎞ ⎛ 0⎞ ⎜ ⎟ −1 ⎜ ⎟ ⎜ # ⎟ = ΓY ⎜ # ⎟ ⎜ 0⎟ ⎜ˆ ⎟ ⎝ ⎠ ⎝ λ K −1 ⎠
et
Xˆ K K −1 = λˆ 0 = EX K .
2
On retrouve le résultat connu : étant donné une v.a. X ∈ L , la v.a. qui minimise Z → E ( X K − Z ) est 2
L2
Xˆ = EX .
"
DÉFINITION.– L’hyperplan de "
K
d’équation x = λˆ 0 +
K −1
∑ λˆ j y j
s’appelle plan de
j =1
régression de
X en Y1 ,..., YK −1.
Pratiquement : 1) Les hypothèses statistiques sur les processus X ∗ et Y ∗ nous ont permis ! ! de calculer les valeurs numériques régression x = λˆ 0 +
K −1
∑ λˆ j y j
(les
λˆ 0 , λˆ 1,..., λˆ K −1
et donc d’obtenir le plan de
y j et x parcourant " ).
j =1
xK prise par X K ; on recueille les et on déduit donc l’estimation cherchée xˆ K K −1 (cette fois
2) On veut connaître la valeur
y1 ,..., yk −1
observations
des valeurs déterminées). 3) On est assuré que la vraie valeur
xK prise par la v.a. X K est dans
l’intervalle ⎤ xˆ K K −1− C , xˆ K K −1+ C ⎡ avec une probabilité supérieure à : ⎦ ⎣
1−
(
E X K − X K K −1 C
2
)
2
,
valeur qui se calcule en utilisant la formule de la proposition précédente.
Estimation
153
CAS PARTICULIER.– Soit à estimer : X 2 à partir de la seule v.a. d’observation Y1 , c’est-à-dire, soit à trouver Xˆ 2 1 = λˆ 0 + λˆ 1Y1 , qui minimise
E ( X 2 − ( λ 0 + λ 1Y1 ) ) . D’après la proposition : 2
λˆ1 = (VarY1 ) Cov ( X 2 , Y1 ) et λˆ0 = EX 2 − (VarY1 ) Cov ( X 2 , Y1 ) EY1 . −1
−1
Donc Xˆ 2 1 = EX 2 +
Cov ( X 2 , Y1 ) VarY1
(Y1 − EY1 ).
Figure 4.3. Droite de régression
Valeur de la variance d’erreur d’estimation :
(
EX$ 2 2 = E X 2 − Xˆ 2 1
)
2
= VarX 2 − Cov ( X 2 , Y1 )(VarY ) Cov ( X 2 , Y1 ) −1
⎛ ( Cov ( X 2 , Y1 ) )2 ⎞ = VarX 2 ⎜ 1 − ⎟. ⎜ VarX 2 VarY1 ⎟ ⎝ ⎠ REMARQUE.– Il peut être intéressant de noter le parallèle existant entre le problème de la meilleure estimation en moyenne quadratique de X K et celui de la meilleure approximation dans
L2 d’une fonction h par un polynôme trigonométrique. Posons
154
Processus stochastiques et filtrages optimaux
B ([ 0,T ]) = tribu des boréliens de l’intervalle [ 0, T ] et donnons un tableau des correspondances.
H K −1 ⊂ L ( Ω, a, P ) y
2
{
L ( dP ) = v.a. X 2
2
H ∈L
}
2
EX < ∞
2
Produit scalaire : ∀X , Y ∈ L
( dP )
< X , Y > = EXY =
∫
Ω
X ( ω ) Y ( ω ) dP ( ω )
([ 0, T ] , B ([ 0, T ]) , dt )
L2 ( dt )
{
T
∫0
= f boréliennes
2
f ( t ) dt < ∞ 2
Produit scalaire : f , g ∈ L
< f , g >=
∫
T 0
}
( dt )
f ( t ) g ( t ) dt
Pour j = − K à K Pour j
=1 à
K −1
Y j ∈ L ( dP ) 2
e j (t ) =
Espace linéaire :
H
Y K −1
exp
T
H ( e− K ,..., e0 ,..., eK )
Problème :
Problème : 2
Etant donné la v.a. X K ∈ L K −1
( dP ) donc
trouver Xˆ K K −1 qui minimise
⎛ E ⎜ XK ⎝
2
Espace linéaire :
= H (1, Y1 , ..., YK −1 )
Trouver λˆ 0 , λˆ 1, ..., λˆ
( 2iπ jt T ) ∈ L ( dt )
k −1 ⎛ ⎞⎞ − ⎜ λ0 + ∑ λ j Y j ⎟ ⎟ j =1 ⎝ ⎠⎠
2
2
Etant donné la fonction h ∈ L Trouver λˆ
∫
T
0
−K
( dt )
donc trouver hˆ qui minimise
, ..., λˆ
h (t ) −
K
K
∑ λ e ( t ) dt j
j =− K
j
Estimation
155
Dans le problème de la meilleure approximation d’une fonction par un polynôme trigonométrique, les coefficients
λˆ j
forment une base orthonormée de
H ( e− K ,..., eK )
λˆ j =
1
T
T
∫0
h ( t ) e j ( t ) dt et C j =
ont une expression très simple car les
λˆ j T
ej
et on a :
coefficients de Fourier.
Variante de la proposition précédente
On considère l’espace linéaire d’observation on cherche donc la v.a. Xˆ K K −1 =
Z
⎫⎪
⎪⎩ j =1
⎪⎭
et
K −1
∑ λˆ jY j
qui minimise l’application
j =1
→ E( XK − Z ).
H KY−1 Posons M Y
⎧⎪ K −1
H KY−1 = ⎨ ∑ λ jY j λ j ∈ " ⎬
"
(
)
= ⎡⎣ E YiY j ⎤⎦ matrice des moments d’ordre 2 du vecteur aléatoire
Y1 ,..., YK −1 . On a la proposition suivante. PROPOSITION.–
⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞ ⎜ ⎟ ⎜ ⎟ et si M est inversible : # 1) Les λˆ j vérifient M Y ⎜ # ⎟ = Y ⎜ ⎟ ⎜ λK −1 ⎟ ⎜⎝ EX K YK −1 ⎟⎠ ⎝ ⎠ ⎛ λˆ1 ⎞ ⎛ EX K Y1 ⎞ ⎜ ⎟ ⎟. −1 ⎜ # ⎜ # ⎟ = MY ⎜ ⎟ ⎜ EX Y ⎟ ⎜ λK −1 ⎟ ⎝ ⎠ 1 − K K ⎝ ⎠
156
Processus stochastiques et filtrages optimaux
(
2) E X K − X K K −1
=
EX K2
)
2
= EX K2 − ∑ λˆi λˆ j EYiY j et si M Y est inversible i, j
− ( EX K Y1 ,..., EX K YK −1 )
M Y−1
⎛ EX K Y1 ⎞ ⎜ ⎟. # ⎜ ⎟ ⎜ EX Y ⎟ ⎝ K K −1 ⎠
Dorénavant et dans toute la suite de cet ouvrage, l’espace linéaire d’observation à l’instant
K −1
Y
⎧ K −1
⎫
⎩ j =1
⎭
sera H K −1 = ⎨
∑ λ1Y j λ j ∈ " ⎬ .
INNOVATION.– Soit un processus discret (YK ) K∈!∗ qui (comme ce sera le cas en filtrage de Kalman) peut être le processus d’observation d’un autre processus
( X K ) K∈!
∗
et posons YˆK K −1 = projH Y YK ; YˆK K −1 est donc la meilleure K −1
estimation linéaire et en moyenne quadratique de la v.a. YK . DÉFINITION.– On appelle innovation à l’instant K ( ≥ 2 ) , la v.a.
I K = YK − YˆK K −1 . On appelle processus d’innovation la famille de v.a. { I 2 ,..., I K ,...} . 4.3. Meilleure estimation – Espérance conditionnelle On cherche à améliorer le résultat en considérant comme estimation de X K non K −1
plus uniquement les fonctions linéaires
∑ λ jY j j =1
fonctions générales g (Y1 ,..., YK −1 ) . PROPOSITION.– La famille des v.a.
des v.a. Y1 ,..., YK −1 mais les
Estimation
157
{
H K′Y−1 = g (Y1 ,..., YK −1 ) g : " K −1 → " boréliennes, tel que g ( Y1 ,..., YK −1 ) ∈ L
2
} est un sous espace vectoriel fermé de L2 .
DÉMONSTRATION.–
{
}
Notons encore L ( dP ) = v.a.Z EZ < ∞ = espace de Hilbert muni du 2
2
produit scalaire : ∀Z1 , Z 2 ∈ L Par
ailleurs,
f
Y
(y
1
, ...,
2
( dP ) < Z1 , Z 2 > L ( dP ) = EZ1Z 2 ; 2
y
K −1
)
désignant
la
densité
du
vecteur
Y = (Y1 ,..., YK −1 ) , posons pour simplifier l’écriture : d µ = fY ( y1 ,..., yK −1 ) dy1...dyK −1 et introduisons le nouvel espace de Hilbert borélienne
∫"
K −1
{
L2 ( d µ ) = g : " K −1 → "
g 2 ( y1 ,..., yK −1 ) d µ < ∞} .
Il est muni du produit scalaire :
∀g1 , g 2 ∈ L2 ( d µ )
< g1 , g 2 > L2 ( d µ ) = ∫ K −1 g1 ( y1 ,..., yK −1 ) g 2 ( y1 ,..., yK −1 ) d µ . " Soit enfin l’application linéaire :
Ψ:g L2 ( d µ )
→ g (Y ) = g (Y1 ,..., YK −1 ) L2 ( dP ) .
On constate que ψ conserve le produit scalaire (et la norme) :
< g1 (Y ) g 2 (Y ) > L2 ( dP ) = Eg1 (Y ) g 2 (Y ) = ∫ =< g1 , g 2 > L2 ( d µ )
" K −1
g1 ( y ) g 2 ( y ) dy
158
Processus stochastiques et filtrages optimaux
Par hypothèse 2
vectoriel de L
H K′Y−1 ⊂ L2 ( dP ) ,
vérifions que H K′ −1 est un sous espace Y
( dP ) :
Soient Z1 et
Z 2 ∈ H K′Y−1 et soient deux constantes λ 1 et λ 2 ∈ " . Il existe
g1 ∈ L2 ( d µ ) tel que Z1 = g1 (Y ) et il existe g 2 ∈ L2 ( d µ ) tel que
Z2 = g2 ( µ ) . Donc
λ 1Z1 + λ 2 Z 2 = λ 1Ψ ( g1 ) + λ 2 Ψg 2 = Ψ ( λ 1 g1 + λ 2 Z 2 )
et comme
λ 1 g1 + λ 2 g 2 ∈ L2 ( d µ ) , H K′Y−1 est bien un sous espace vectoriel de L2 ( dP ). Montrons ensuite que Soit
H K′Y−1 est fermé dans L2 ( dP ).
( )
Z p = g p (Y ) = Ψ g p
une suite de
H K′Y−1
qui converge vers
Z ∈ L2 ( dP ) . Vérifions que Z ∈ H K′ −1 : Y
g p (Y ) est une suite de Cauchy de H K′Y−1 et à cause de l’isométrie, g p (Y ) 2
est une suite de Cauchy de L
(dµ )
et qui converge donc vers une fonction
g ∈ L ( d µ ) , c’est-à-dire : 2
gp − g
L2 ( d µ )
=∫
( g p ( y ) − g ( y ) ) d µ = E ( g p (Y ) − g (Y ) ) 2
" K −1
2
→ 0.
p ↑∞
Comme la limite de g p (Y ) est unique, g (Y ) = Z , c’est-à-dire que
Z ∈ H K′Y−1 et que H K′Y−1 est fermé. Finalement
H K′Y−1 est un sous espace de Hilbert de L2 ( dP ).
Revenons à notre problème : soit à estimer la v.a.
XK.
Estimation
Le meilleur estimateur Xˆ ′
K K −1
159
= gˆ (Y1 ,..., YK −1 ) ∈ H K′Y−1 de X K , c’est-à-dire
l’estimateur qui minimise E ( X K − g ( Y1 ,..., YK −1 ) )
2
est (toujours en vertu du
théorème déjà cité sur les espaces de Hilbert) la projection orthogonale de X K sur
H K′Y−1 . Soit : Xˆ ′
K K −1
= gˆ ( Y1 ,..., YK −1 ) = projH ′Y X K . K −1
Figure 4.4. Projection orthogonale du vecteur
(
)
XK
2 ⎛ ⎞ ⎜ E X K − Xˆ K′ K −1 ⎟ ⎝ ⎠
1
sur
H K′Y-1
2
H K′ Y−1 H KY−1
L ( dP ) 2
XK
Xˆ K′ K −1
Xˆ K K −1
(
)
2⎞ ⎛ ˆ ⎜ E X K − X K K −1 ⎟ ⎝ ⎠
1
2
Figure 4.5. Meilleure estimation linéaire et meilleure estimation
160
Processus stochastiques et filtrages optimaux
H KY−1 ⊂ H K′Y−1 ⊂ L2 ( dP )
Il est clair qu’on a les inclusions 2
étant donné X K ∈ L
( dP ) − H K′Y−1
, Xˆ ′
K K −1
donc a priori
sera une meilleure approximation
de X K que Xˆ K K −1 , ce que l’on visualise dans la figure 4.5. 2
Dans la figure 4.5, les v.a. (vecteur de L ) sont représentés par des points et les normes des erreurs d’estimation par des segments. Enfin, pour résoudre entièrement le problème posé, on cherche à calculer
Xˆ K′ K −1 . PROPOSITION.– Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K K −1
(
)
est l’espérance conditionnelle E X K Y1 ,..., YK −1 . DÉMONSTRATION.– 1) Vérifions pour commencer que la v.a.
g (Y1 ,..., YK −1 ) = E ( X Y1 ,..., YK −1 ) ∈ L2 ( dP ) or ( g ( y1 ,..., y K −1 ) ) = ( g ( y ) ) = 2
2
(∫
"
)
2
xi1 f ( x y ) dx ,
et par l’inégalité de Schwarz :
≤ ∫ x 2 f ( x y ) dx ∫ 12 f ( x y ) dx " " '('' &' ) =1
donc :
Eg (Y1 ,..., YK −1 ) = ∫ 2
" K −1
≤∫
g 2 ( y1 ,..., yk −1 ) fY ( y ) dy
f " K −1 Y
( y ) dy ∫" x 2 f ( x y ) dx.
En posant encore ici U = ( X , Y1 ,..., YK −1 ) et en rappelant que :
fU ( x, y ) = fY ( y ) f ( x y ) on a par le théorème de Fubini :
Estimation
161
E ( g (Y1 ,..., YK −1 ) ) ≤ ∫ x 2 dx ∫ K −1 fU ( x, y ) dy = EX 2 < ∞ . " " &'' ('') 2
fX ( x)
On a donc bien g (Y1 ,..., YK −1 ) ∈ L
2
de
( dP )
et aussi, étant donné la définition
H K′Y−1 , g (Y1 ,..., YK −1 ) ∈ H K′Y−1 .
(
)
2) Pour montrer que g (Y1 ,..., YK −1 ) = E X K Y1 ,..., YK −1 est la projection orthogonale Xˆ K′ K −1 = gˆ (Y1 ,..., YK −1 ) = projH ′Y X K , il suffit, comme cette K −1
projection est unique, de vérifier l’orthogonalité
X K − E ( X K Y1 ,..., YK −1 ) ⊥ H K′Y−1 . C’est-à-dire :
∀ g (Y1 ,..., YK −1 ) ∈ H K′Y−1
X K − E ( X K Y1 ,..., YK −1 ) ⊥ g (Y1 ,..., YK −1 )
(
)
⇔ EX K g (Y1 ,..., YK −1 ) = E E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) . Or, le premier membre EX K g (Y1 ,..., YK −1 ) =
=∫
"K
∫"
K
xg ( y ) f Z ( x, y ) dx dy
xg ( y ) f ( x y ) fY ( y ) dx dy
et en appliquant le théorème de Fubini : =
∫" ( ∫" xf ( x y ) dx ) g ( y ) fY ( y ) dy qui est égal au 2e membre K −1
E ( E ( X K Y1 ,..., YK −1 ) g (Y1 ,..., YK −1 ) ) et la proposition est démontrée. Pratiquement, le vecteur aléatoire U = ( X K , Y1 ,..., YK −1 ) étant associé à un phénomène physique, biologique, etc., la réalisation de ce phénomène nous donnera K − 1 valeurs numériques y1 ,..., y K −1 et les réponses finales au problème seront les valeurs numériques :
162
Processus stochastiques et filtrages optimaux K −1
xˆ K K −1 = ∑ λˆ j y j j =1
dans le cas de l’estimation linéaire ;
xˆ ′K K −1 = E ( X K y1 ,..., yK −1 ) dans le cas de l’estimation générale. On montre maintenant que dans le cas gaussien Xˆ K K −1 et Xˆ K′ K −1 coïncident. Plus précisément : PROPOSITION.– Si le vecteur U = ( X K , Y1 ,..., YK −1 ) est gaussien, on a l’égalité entre v.a. K −1 ⎛ ⎞ Xˆ K′ K −1 = Xˆ K K −1 + E ⎜ X K − ∑ λˆ jY j ⎟ . ⎜ ⎟ j =1 ⎝ ⎠
DÉMONSTRATION.–
⎛
K −1
⎞
⎝
j =1
⎠
( X K , Y1 ,..., YK −1 ) vecteur gaussien ⇒ ⎜⎜ X K − ∑ λˆ jY j , Y1 ,..., YK −1 ⎟⎟ est également gaussien. Posons V = X K −
K −1
∑ λˆ jY j . j =1
V est orthogonal à H KY−1 donc EVY j = 0 ∀
j =1
à
K −1
et les deux
vecteurs V et (Y1 ,..., YK −1 ) sont décorrélés.
(V , Y1 ,..., YK −1 ) est (Y1 ,..., YK −1 ) sont décorrélés, alors V et (Y1 ,..., YK −1 ) On sait que si le vecteur
gaussien et que V sont indépendants.
et
Estimation
FINALEMENT.–
⎛ K −1
⎞
⎝
⎠
E ( X K Y1 ,..., YK −1 ) = E ⎜ ∑ λˆ jY j + V Y1 ,..., YK −1 ⎟ j =1
K −1
= ∑ λˆ j Y j + E (V Y1 ,..., YK −1 ) . j =1
Et puisque V et Y1 ,..., YK −1 sont indépendants : K −1
E ( X K Y1 ,..., YK −1 ) = ∑ λˆ jY j + EV . j =1
EXEMPLE.– Soit U = ( X K , YK −1 ) = ( X , Y ) un couple gaussien de densité
fU ( x, y ) =
1
π 3
⎛ 2 2 ⎞ x − xy + y 2 ⎟ . ⎝ 3 ⎠
exp ⎜ −
(
(
)
)
On veut déterminer E X Y . La loi marginale de Y admet la densité : fY ( y ) = =
=
∫
1 "
π 3
1
π 3 1 2π
∫
"
⎛ 2 x 2 − xy + y 2 ⎞ dx ( ) ⎟⎠ ⎝ 3
exp ⎜ −
2 ⎛ y2 ⎞ ⎛ 2 ⎛ y⎞ ⎞ exp x − − ⎟ ⎟ dx ⎟ ⎜ ⎜ ⎝ 2 ⎠ ⎝ 3⎝ 2⎠ ⎠
exp ⎜ −
⎛ y2 ⎞ 1 ⎟ ⎝ 2 ⎠ 3π
exp ⎜ −
2 =
1 2π
⎛ y ⎞ ⎟ ⎝ 2 ⎠ 2
exp ⎜ −
∫
"
⎛ 2 2⎞ exp ⎜ − u ⎟ du ⎝ 3 ⎠
163
164
Processus stochastiques et filtrages optimaux
f Z ( x, y )
f ( x y) =
fY ( y )
π 3
2 ⎛ 2 x 2 − xy + y 2 ⎞ 2π exp ⎛ y ⎞ ( ) ⎟⎠ ⎜ ⎟ ⎝ 3 ⎝ 2 ⎠
exp ⎜ −
exp ⎜ −
3π
⎛
1
=
1
2 ⎛ 2⎛ y⎞ ⎞ ⎜x− ⎟ ⎟ ⎝ 3⎝ 2⎠ ⎠
2
=
=
2π i 3
1
exp ⎜ −
⎜ 2i 3 ⎝ 4
4
Donc : sachant Y = y , X suit une loi N
E ( X y) = y
et E ( X Y ) = Y
2
⎛ ⎝
2
⎞
( x − y 2 ) ⎟⎟ . 2
⎠
( y 2 , 34)
; c’est-à-dire :
1 (fonction linéaire de Y ; λˆ = ). 2
1 ⎞ Y ⎟ = 0 car X et Y sont centrés). 2 ⎠
(Ici EV = E ⎜ X −
4.4. Exemple : prédiction d’un processus autorégressif AR (1) Considérons le processus stationnaire du 2e ordre
∀K ∈ *
XK =
∞
∑ q j BK − j j =∞
X*
défini par
et solution de l’équation X K = qX K −1 + BK
avec q réel tel que q < 1 et où BZ est un bruit blanc de puissance EBK = σ . 2
2
Au chapitre précédent nous avons calculé sa fonction de covariance et obtenu :
EX i X i + n
n
q =σ . 1 − q2 2
Ayant observé les v.a. X 1 ,..., X K −1 , on cherche la meilleure estimation linéaire et en moyenne quadratique Xˆ K + + K −1 de X K + + ,
Estimation
165
K −1
Xˆ K ++ K −1 = ∑ λˆ jY j et les λˆ j vérifient : j =1
⎛ EX 1 X 1 … EX 1 X K −1 ⎞ ⎛ λˆ1 ⎞ ⎛ EX K ++ X 1 ⎞ ⎟ ⎜ ⎟ ⎜ ⎟⎜ # # # # ⎜ ⎟=⎜ ⎟ ⎜ ⎟ ⎜ EX X - EX X ⎟ ⎜ ˆ ⎟ ⎜ EX X ⎟ K −1 1 K −1 K −1 ⎠ ⎝ λK −1 ⎠ ⎝ K + + K −1 ⎠ ⎝ soit
⎛ 1 q - q K −2 ⎞ ⎛ λˆ1 ⎞ ⎛ q K + + −1 ⎞ ⎜ ⎟⎜ ⎟ ⎜ K ++−2 ⎟ K −3 ⎜q 1 -q ⎟⎜ ⎟ ⎟ ⎜q . =⎜ ⎜ # ⎟ ⎟ ⎜ ⎟ # # # ⎜ ⎟⎜ ⎟ ⎟ ⎜ ⎜ q K −2 - 1 ⎟ ⎜ λˆ ⎟ ⎜ q + +1 ⎟ ⎝ ⎠ ⎝ K −1 ⎠ ⎝ ⎠
) = ( 0,..., 0, q ) et cette solution est ≠ 0. unique car le déterminant de la matrice est égal à (1 − q ) On a la solution
( λˆ ,..., λˆ
ˆ
K − 2 , λK −1
1
+ +1
2 K −2
+ +1 Donc Xˆ K + + K −1 = λˆK −1 X K −1 = q X K −1 .
On voit que la prédiction de la v.a. X k ++ n’utilise que la dernière v.a. observée. C’est-à-dire ici X K −1 . La variance de l’erreur d’estimation vaut :
(
E X K ++ − Xˆ K ++ K −1
)
2
(
= E X K ++ − q + +1 X K −1
)
2
=
(
σ2 2 + +1 2( + +1) 1− q EX K2 ++ + q ( ) EX K2 −1 − 2q + +1EX K ++ X K −1 = 2 1− q
)
166
Processus stochastiques et filtrages optimaux
4.5. Processus multivariés Dans certains problèmes pratiques, on peut avoir à considérer des processus d’état X ∗ et des processus d’observation Y ∗ qui sont tels que : !
!
⎛ X 1j ⎞ ⎛ Y j1 ⎞ ⎜ ⎟ ⎜ ⎟ ⎜# ⎟ ⎜# ⎟ ⎜ +⎟ ⎜ ⎟ X j = ⎜ X j ⎟ et Y j = ⎜ Y j+ ⎟ ⎜# ⎟ ⎜# ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ X nj ⎟ ⎜ Y jm ⎟ ⎝ ⎠ ⎝ ⎠
∀j ∈ !∗
+
où ∀ j et + X j et
Y j+ ∈ L2.
On dira alors que : –
X j et Y j sont des multivecteurs (vecteurs parce que les X +j et les Y j+ L2 ; multi car X j et Y j sont des ensembles de
appartiennent à l’espace vectoriel plusieurs vecteurs) ;
X j et m est l’ordre du multivecteur Y j ;
– n est l’ordre du multivecteur –
( )
X j ∈ L2
n
et
( )
Y j = L2
m
;
X !∗ et Y!∗ sont des processus multivariés, les processus considérés jusqu’à présent (à valeur dans " ) étant dits scalaires. –
Opérations sur les multivecteurs : – on peut additionner deux multivecteurs de même ordre, et si
( )
2 n
X ′∈ L
alors
( )
2 n
X + X ′∈ L
X et
;
– on peut multiplier un multivecteur par une constante réelle. Et si
( )
X ∈ L2
n
et
λ ∈"
alors
( )
λ X ∈ L2
n
;
– produit scalaire de deux multivecteurs non nécessairement de même ordre : soient
( )
X ∈ L2
n
et
( )
Y ∈ L2
m
.
Estimation
167
On pose < X , Y >= EXY ∈ M ( n, m ) où M ( n, m ) est l’espace des T
matrices à n lignes et m colonnes. On note par Onm la matrice identiquement nulle de
X et Y sont orthogonaux si
DÉFINITION.– On dit que les multivecteurs < X , Y >= Onm et on écrit X ⊥ Y . REMARQUE.– Si On pose
X
2
X
M ( n, m ) .
X et Y sont orthogonaux, Y et X le sont aussi. 2
=< X , X >= EXX T .
étant une matrice définie positive, on sait qu’il existe une matrice
symétrique définie positive notée X tel que
X
Toutefois, dans la suite nous n’utiliserons que
2
⋅
X
= 2
X .
.
REMARQUE.– L’ensemble des multiplicateurs de même ordre (
(L )
2 m
par exemple)
pourrait être muni d’une structure d’espace vectoriel. Sur cet espace le symbole
⋅ défini ci-avant serait une norme. Ici nous considérerons l’ensemble des multivecteurs d’ordre n ou m. Cet ensemble n’est pas un espace vectoriel et ne peut donc pas être muni d’une norme. Donc pour nous, dans la suite
X
2
2
ne signifiera pas ( norme de X ) . Pour la
même raison, ce n’est que par abus de langage que l’on parlera du produit scalaire < X ,Y > . Espace linéaire d’observation
H KY−1
Soit donc le processus d’état multivarié X
!∗
vérifiant :
168
Processus stochastiques et filtrages optimaux
∀j ∈ !∗
∀j ∈ !∗
( ) et soit le processus d’observation multivarié Y Y ∈(L ) . X j ∈ L2
n
!∗
vérifiant
2 m
j
Par généralisation de la définition donné au 4.2, on note :
⎧⎪
⎫⎪ Λ Λ ∈ Y M n , m ( ) ⎬ ∑ j j j ⎩⎪ j =1 ⎭⎪
H KY−1 = H (Y1 ,..., YK −1 ) = ⎨ et on dira encore que
H KY−1
K −1
est l’espace linéaire d’observation jusqu’à l’instant
K −1.
REMARQUE.– Les éléments de
H KY−1
doivent être des multivecteurs d’ordre n , car
c’est parmi eux que l’on choisira la meilleure estimation de X K , multivecteur d’ordre n .
H KY−1 est donc adapté à X K .
NOTATIONS.–
H KY−1 : c’est l’ensemble noté H KY−,⊥1 des multivecteurs V Y si et seulement si V est orthogonal à H K −1 .
1) Orthogonal de vérifiant
V ∈ H KY−,⊥1
⎛0⎞ ⎜ ⎟ 2) 0H = # ⎜ ⎟ ⎜0⎟ ⎝ ⎠
⎫ ⎪ Y ⎬ n zéros, multivecteur nul de H K −1 . ⎪ ⎭
Problème de la meilleure estimation Généralisant le problème développé au 4.2. au cas des processus multivariés, on
⎛ X 1K ⎞ ⎛ Z1 ⎞ ⎜ ⎟ ⎜ ⎟ Y cherche à approximer X K = ⎜ # ⎟ par des éléments Z = ⎜ # ⎟ de H K −1 , ⎜Xn ⎟ ⎜Zn ⎟ ⎝ ⎠ ⎝ K⎠ la distance entre X K et Z étant :
Estimation
2
tr X K − Z (où tr X K − Z
2
K −1
= trE ( X K − Z )( X K − Z ) = ∑ E T
j =1
signifie « trace de la matrice X K − Z
2
(
X Kj
−Z
j
)
169
2
»).
Le résultat suivant généralise le théorème de projection sur les sous espaces de Hilbert et apporte la solution. THÉORÈME.– – Il existe Xˆ K K −1 =
K −1
∑ Λˆ jY j j =1
l’application Z → tr X K − Z
H KY−1
unique appartenant à
H KY−1
qui minimise
2
;
"
– Xˆ K K −1 est la projection orthogonale de X K sur
H KY−1 ,
c’est-à-dire
X K − Xˆ K K −1 ⊥ H KY−1 , c’est-à-dire encore : < X K − Xˆ K K −1 , Y j >= Onm ∀j = 1 à
K −1.
Nous pouvons imager ce théorème par le schéma suivant dans lequel tous les vecteurs apparaissant sont des multivecteurs d’ordre n :
Figure 4.6. Projection orthogonale du multivecteur
XK
sur
H KY-1
170
Processus stochastiques et filtrages optimaux
NOTATION.– Dans la suite toutes les projections orthogonales (sur
H KY −1
exclusivement) seront notées indifféremment :
Xˆ K K −1 ou projH Y X K K −1
;
YˆK K −1 ou projH Y YK etc. K −1
De ce théorème on déduit les propriétés suivantes :
( )
2 n
P1) Soit X K et X K ′ ∈ L
(
alors . X + X′
)
K K −1
= Xˆ K K −1 + Xˆ K′ K −1 .
En effet :
∀j = 1 à K − 1 < X K − Xˆ K K −1 , Y j >= Onm et < X K′ − Xˆ K′ K −1 , Y j >= Onm . Donc :
(
)
∀j = 1 à K − 1 < X K − X K′ − Xˆ K K −1 + Xˆ K′ K −1 , Y j >= Onm . Et puisque la projection orthogonale de X K + X K′ est unique, on a bien :
X + X ′) (.
= Xˆ K K −1 + Xˆ K′ K −1.
K K −1
( )
2 n
P2) Soit X K ∈ L
et une matrice H ∈ M ( m, n ) ;
alors (. HX ) K K −1 = HXˆ K K −1 . Il suffit de vérifier que HX K − HXˆ K
HXˆ K
K −1
= (. HX ) K
K −1
⊥ H KY−1 car cela entraînera que :
K −1
puisque la projection orthogonale (ici sur l’espace
H KY−1 ) est unique.
Estimation
Or par hypothèse < X K − Xˆ K
K −1
(
, Y j >= E X K − Xˆ K
K −1
)Y
T j
171
= Onm .
Donc aussi par associativité du produit matriciel :
(
Omm = HE X K − Xˆ K =< HX K − HXˆ K et on a bien HX K − HXˆ K
K −1
K −1 K −1
)Y
T j
(
= EH X K − Xˆ K
K −1
)Y
T j
, Y jT
⊥ H KY−1 .
Ces propriétés vont être utilisées dans la suite. Processus d’innovation I
!∗
Ayant en vue le filtrage de Kalman, nous supposons ici que X !∗ et Y ∗ sont ! les deux processus multivariés posés précédemment et liés par les équations d’état et d’observation :
⎛ X K +1 = A ( K ) X K + C ( K ) N K ⎜⎜ ⎝ YK = H ( K ) X K + G ( K ) WK où
A ( K ) ∈ M ( n , n ) ; C ( K ) ∈ M ( n , + ) ; H ( K ) ∈ M ( m, n ) ; G ( K ) ∈ M ( m , p ), et où N
!∗
et W!∗ sont des bruits (processus multivariés) satisfaisant à un certain
nombre d’hypothèses mais dont la seule qui soit nécessaire ici est :
∀j = 1 à K − 1 < WK , Y j >= EWK YjT = O pm . 1) Si n = m :
172
Processus stochastiques et filtrages optimaux
YK et YˆK K −1 sont deux multivecteurs de même ordre m . La différence YK − YˆK K −1 a donc un sens et en accord avec la définition donné en 4.2, on définit l’innovation à l’instant K ≥ 2 par I K = YK − YˆK K −1 . Exprimons maintenant I K sous la forme qui nous sera utile dans la suite. Par la deuxième équation d’état :
I K = YK − projH Y
K −1
( H ( K ) X K + G ( K )WK ),
en utilisant la propriété P1 d’abord et P2 ensuite
I K = YK − H ( K ) Xˆ K K −1 − (. G ( K ) WK ) K K −1 . Si p ≠ m ( et de n ) ,
G ( K ) W ) K K −1 (.
n’est pas égal à G ( K ) Wˆ K K −1 et
d’ailleurs ce dernier produit matriciel n’a pas de sens. Vérifions pour terminer que
G ( K )WK ) K K −1 = OH . (.
Par définition de la projection orthogonale :
( )W
G ( K )WK ) K K −1 , Y j > (.
= 0mm
∀ j = 1 à K − 1.
< G ( K ) WK , Y j >= G ( K ) < WK , Y j > = 0mm
∀ j = 1 à K − 1.
K
K −
Par hypothèse sur le bruit W!∗ :
On en déduit :
G ( K ) W ) K K −1 , Y j (.
= 0mm
∀ j = 1 à K − 1 , c’est-à-dire :
Estimation
173
. Y ,⊥ G ( K ) WK ∈ H" K −1 et ( G ( K ) WK ) K K −1 = 0H . Finalement I K = YK − YˆK K −1 = YK − H ( K ) Xˆ K K −1 . 2) Si n ≠ m :
YK et YˆK K −1 sont des multivecteurs d’ordre différent et YK − YˆK K −1 n’a pas de sens et on définit directement I K = YK − H ( K ) Xˆ K K −1 . Finalement et dans tous les cas ( n égal ou différent de m ) : DÉFINITION.– On appelle innovation à l’instant K ≥ 2 ;
(
Y, ⊥
le multivecteur I K ∈ H K -1
) d’ordre m , défini par I
K
= YK − H ( K ) Xˆ K K −1 .
REMARQUE.– On ne confondra pas l’innovation avec : DÉFINITION.– On appelle erreur de prédiction de l’état à l’instant K le multivecteur d’ordre n défini par X$ K
K −1
= X K − Xˆ K
K −1
.
Propriété de l’innovation : 1) I K ⊥ Y j 2) I K ′ ⊥ I K
∀j = 1 à K − 1 ; ∀K et K ′ ≥ 2 avec K ≠ K ′.
DÉMONSTRATION.– 1) I K = YK − H ( K ) Xˆ K K −1 = H ( K ) X K + G ( K ) WK − H ( K ) Xˆ K K −1 donc :
(
)
< I K , Y j > = < H ( K ) X K − Xˆ K K −1 + G ( K ) WK , Y j > en utilisant l’associativité du produit matriciel.
174
Processus stochastiques et filtrages optimaux
Puisque :
(
)
< H ( K ) X K − Xˆ K K −1 , Y j > = H ( K ) < X K − Xˆ K K −1 , Y j > 0mm et puisque :
< G ( K ) WK , Y j > = G ( K ) < WK , Y j > Omm on a bien < I K , Y j > = 0 et I K ⊥ Y j . 2) Sans perte de généralité supposons par exemple K ′ > K :
< I K ′ , I K > = < I K ′ , YK − H ( K ) Xˆ K K −1 > . Y ,⊥
Et ce produit scalaire égale Omm car I K ′ ∈ H K ′−1 et
YK − H
( K ) Xˆ K K −1 ∈HKY
(Y
K
)
∈ HKY et H ( K ) Xˆ K K −1 ∈ HKY−1 .
4.6. Exercices du chapitre 4 Enoncé 4.1.
Soit une famille de v.a. du second ordre X , Y1 ,..., YK ,... on veut estimer X à partir des Y j et on pose : Xˆ K = E ( X Y1 ,..., YK ) . Vérifier que E ( Xˆ K +1 Y1 ,..., YK ) = Xˆ K . (On dit que le processus Xˆ !∗ est une martingale par rapport à la suite des YK ). Enoncé 4.2.
Soit
{U j
}
j ∈ ! une suite de v.a. indépendantes, du second ordre, de loi
N (0, σ 2 ) et soit θ une constante réelle.
Estimation
{
On définit une nouvelle suite X j j ∈ !
∗
175
} par
⎛ X1=U1 ⎜ ⎝ X j =θU j−1+U J si j ≥ 2. ∗
1) Montrer que ∈∀k ∈ ! , le vecteur X
K
= ( X1 ,..., X K ) est gaussien.
2) Préciser l’espérance, la matrice de les variances et la densité de probabilité de ce vecteur. 3) Déterminer la meilleur prédiction en m.q de X k + P à l’instant K = 2 ;
(
)
c’est-à-dire calculer E X 2+ P X 1 , X 2 .
Solution 4.2.
⎛1 0 - 0 ⎞ ⎜θ 1 0 - 0 ⎟ ⎟ appartenant à M ( K , K ). 1) Considérons la matrice A= ⎜ ⎜# #⎟ ⎜ ⎟ ⎝ 0 - 0 θ 1⎠ En posant U
K
= (U1 ,...U K ) ,on peut écrire X K = AU K . Le vecteur U K
étant gaussien (composantes gaussiennes et indépendantes), il en va de même pour le vecteur X 2)
K
.
EX K = EAU K = AEU K = 0
( )
Γ X = A σ 2 I AT = σ 2 AAT
( I = matrice identité ).
Par ailleurs :
(
)
Det Γ X K = det
(σ
2
)
AAT = σ 2 n et Γ X K est inversible.
176
Processus stochastiques et filtrages optimaux
On obtient f X K ( x1 ,..., xK ) =
3) Le vecteur
1
( 2π ) σ n/2
n
⎛ 1 T −1 ⎞ x ΓX K x ⎟. ⎝ 2 ⎠
exp ⎜ −
( X1, X 2 , X 2+ P ) est gaussien ; donc la meilleure prédiction de
Xˆ 2+ P est la meilleure prédiction linéaire, c’est-à-dire : Xˆ 2+ P = E ( X 2+ P X 1 , X 2 ) = projH X 2+P où
H
est l’espace linéaire engendré par les v.a. X1 et X 2 .
Donc
⎛ λˆ ⎞ ⎛ C ov ( X 2+ P , X1 ) ⎞ Xˆ 2+ P = λˆ, X1 + λˆ2 X 2 avec ⎜ 1 ⎟ = Γ −X12 ⎜ ; ⎜ C ov ( X , X ) ⎟⎟ ⎜ λˆ ⎟ 2+ P 2 ⎠ ⎝ ⎝ 2⎠
or C ov ( X J , X K ) =
EX J X K = θ si K − j = 1 ;
C ov ( X J , X K ) = EX J X K = 0 si K − j > 1 ;
⎛ C ov ( X 2 P +1 , X 1 ) ⎞ ⎛ 0 ⎞ ⎟⎟ = ⎜ ⎟ et Xˆ 2+ P = 0 ; ⎜ C ov ( X X , ) 2 P+2 2 ⎠ ⎝0⎠ ⎝
donc si p > 1 ⎜
si p = 1
⎛ λˆ1 ⎞ 1 ⎛ 1 + θ 2 ⎜ ⎟= ⎜ λˆ ⎟ σ 2 ⎜⎝ −θ ⎝ 2⎠
−θ ⎞ ⎛ 0 ⎞
θ θ ⎟ ⎜ ⎟ et Xˆ 3 = − 2 Xˆ 1 + 2 Xˆ 2 . σ σ 1 ⎠ ⎝θ ⎠ 2
Enoncé 4.3.
On considère le système d’état
⎛ X K +1 = A ( K ) X K + C ( K ) N K ⎜⎜ ⎝ YK = H ( K ) X K + G ( K ) WK
(1) ( 2)
où
A ( K ) ∈ M ( n, n ) ; C ( K ) = M ( n, + ) ; H ( K ) = M ( m, n ) ; G ( K ) = M ( m, p )
Estimation
177
X 0 , N K ,WK ( pour K ≥ 0 ) sont des multivecteurs du second ordre tel que ∀j ≤ K WK est orthogonal à X 0 , N 0 ,..., N j −1 , W0 ,..., W j −1 .
et où
Montrer que
(
)
∀j ≤ K < H ( j ) X j − Xˆ j j −1 ,WK >= 0mp .
Solution 4.3.
(
)
< H ( j ) X j − Xˆ j j −1 , WK > = j −1 ⎛ ˆ ( H ( i ) X + G ( i ) W ) ⎞⎟ , W > < H ( j ) ⎜ A ( j − 1) X j −1 + C ( j − 1) Ν j −1 − ∑ Λ i i i K i =1 ⎝ ⎠
(où
ˆ sont les matrices optimales de M ( n, m )). Λ i Compte tenu des hypothèses d’orthogonalité de l’énoncé, ce produit scolaire se
⎛
réduit à < H ( j ) ⎜ A ( j − 1) X j −1 −
⎝
j −1
⎞
i −1
⎠
∑ Λˆ i H ( i ) X i ⎟ ,WK > .
Par ailleurs en réitérant la relation récurrences (1) ,on voit que X i s’exprime en fonction de
X i −1 et Ν i −1 et aussi de
X i −2 , Ni −2 , Ni −1... et aussi de
X 0 , N0 , N1 ,..., Ni −1 . H ( j ) A ( j − 1) X j −1 et H ( j ) Λˆ i H ( i ) X i sont des multivecteurs d’ordre m dont chacune des m « composantes » ne comporte que des v.a. orthogonales à chacune des p « composantes » de WK , multivecteur d’ordre p . Donc,
(
Finalement, on a bien < H ( j ) X j − Xˆ j
j −1
) ,W
K
> = 0 mp.
CHAPITRE 5
Le filtre de Wiener
5.1. Introduction Le filtrage de Wiener est une méthode d’estimation d’un signal perturbé par un bruit additif. La réponse de ce filtre au signal bruité, correlé avec le signal à estimer, est 2
optimale au sens du minimum dans L . Le filtre doit être pratiquement réalisable et stable si possible, en conséquence sa réponse impulsionnelle doit être causale et les pôles à l’intérieur du cercle unité. Le filtrage de Wiener est très utilisé en raison de sa simplicité, pour autant, les signaux à analyser doivent être des processus stationnaires du second ordre. Exemples d’applications : traitement de la parole, exploration pétrolière, mouvement de la houle, etc. 5.1.1. Position du problème Dans la figure 5.1, X K , WK et YK représentent les 3 processus d’entrée, h est ici la réponse impulsionnelle du filtre,
ZK
la sortie du filtre qui donnera Xˆ K
l’estimée à l’instant k, de X K quand le filtre sera optimal. Tous les signaux sont nécessairement des processus stationnaires du second ordre.
180
Processus stochastiques et filtrages optimaux
h
Figure 5.1. Représentation de la transmission, est la réponse impulsionnelle du filtre que l’on va rechercher
Nous appellerons :
(
Y = YK YK −1 !Y j !YK − N +1
)
T
le vecteur représentatif du processus de durée N à l’entrée du filtre de réalisation :
(
)
T
y = yK yK −1 ! y j ! yK − N +1 .
(
h = h 0 h 1! hN −1
)
T
le vecteur représentant les coefficients de la réponse
impulsionnelle que l’on pourrait identifier au vecteur
λ
du chapitre 4.
– XK
l’échantillon à estimer à l’instant K ;
– Xˆ K
l’échantillon estimé de X K à l’instant K ;
– ZK
sortie du filtre à cet instant
= hT Y .
Le critère utilisé est le critère quadratique classique. Le filtre est optimal quand :
(
Min E ( X K − Z K ) = E X K − Xˆ K 2
)
2
.
Le problème consiste à obtenir le vecteur h qui minimise cette erreur.
Le filtre de Wiener
181
5.2. Résolution et calcul du filtre Finite Impulse Response (FIR) L’erreur s’écrit :
ε K = X K − hT Y avec
h ∈ "N
( )
Y ∈ L2
et
N
.
Nous avons une fonction C : coût à minimiser qui est une application :
(
)
h 0 , h 1,! , hN −1 → C h 0 , h 1,! hN −1 = E (ε K2 ) "
N
→
.
"
Le vecteur hˆ = hoptimal est tel que ∇ h C = 0
(
soit
C = E X K − hT Y
alors
∇ hC = −2 E (ε K Y )
)
2
(scalaire) (vecteur Nx1).
REMARQUE.– C’est le théorème de projection sur les espaces de Hilbert. Nous retrouvons, bien évidemment le principe de l’orthogonalité. Cette erreur quadratique moyenne sera minimale quand :
E (ε K Y ) = 0
soit quand h = hˆ .
En utilisant l’expression de
εK
⎛
: E⎜ XK
⎝
−
⎞
hˆT Y ⎟ Y = 0 ;
⎠
(
toutes les composantes du vecteur sont nulles (ou E X K
(
Soit E ( X K Y ) = E Y Y Nous appellerons :
T
) hˆ .
−
)
Xˆ K Y = 0 ).
182
Processus stochastiques et filtrages optimaux
Le vecteur r d’intercorrélation :
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
R la matrice d’autocorrélation des données observables : ⎛ YK ⎞ ⎜ ⎟ Y R = E ⎜ K −1 ⎟ (YK YK −1 !YK − N +1 ) = E Y Y T ⎜ # ⎟ N ×N ⎜⎜ ⎟⎟ ⎝ YK − N +1 ⎠
(
)
et r = R hˆ équation de Wiener-Hopf sous forme matricielle. REMARQUE.– En prenant la ligne j ∈ [ K , K − N +1] nous obtenons :
(
)
N −1
rXY ( j ) = E X K YK − j = ∑ hˆi RYY ( j − i ) i =0
Equation de Wiener-Hopf. Si la matrice R est non singulière, on en tire :
hˆ = R −1 r . 5.3. Evaluation de l’erreur minimale D’après le théorème de projection :
(
−
Xˆ K Y = 0 et :
(
−
Xˆ K Xˆ K = 0.
E XK E XK
)
)
∀j ∈ [ K , K − N +1]
Le filtre de Wiener
183
Ainsi l’erreur minimale prend la forme :
C min = Min E
(ε ) = E ( X Xˆ ) = E(X Xˆ ) X = E(X Xˆ ) . 2 K
K −
K
K −
K
K
2 K −
2 K
2
T Mais Xˆ K = hˆ Y .
Ainsi C min = Min
E (ε K ) 2 = R XX
( 0 ) − hˆT
r.
Connaissant la matrice d’autocorrelation R des données à l’entrée du filtre et le vecteur r d’intercorrelation, nous pouvons en déduire le filtre optimal de réponse impulsionnelle hˆ et l’erreur quadratique moyenne minimale pour un ordre N donné du filtre.
Exemple d’application : donner les coefficients du filtre de Wiener pour N = 2 si la fonction d’autocorrélation du signal à estimer s’écrit RXX et celle du bruit : RWW
( K ) = δ ( K = 0) bruit blanc.
(K ) = a K
Le signal à estimer est non corrélé au bruit ( X ⊥ W ) .
⎛2 a⎞ ⎛1 ⎞ ⎟ ; r = ⎜ ⎟. ⎝ a 2⎠ ⎝a⎠
Soit R = ⎜
Car RYY = RXX + RWW . Nous en déduisons :
⎛ 2 − a2 ˆ h=⎜ 2 ⎝ 4−a
T
a ⎞ ⎟ 4 − a2 ⎠
et
Revenons à notre calcul de filtre FIR.
Min E
(ε ) = 4 −2a 2 K
2
.
; 0〈 a 〈1
184
Processus stochastiques et filtrages optimaux
Le filtre que nous venons d’obtenir est de la forme :
(
hˆ = hˆ 0 hˆ 1 ! hˆ N −1
)
T
de longueur N finie : sa fonction de transfert s’écrit : N −1
H ( z ) = ∑ hˆ i z −i i =0
avec une relation entrée-sortie de la forme Xˆ ( z ) = H ( z )Y ( z ) . Elargissons cette classe de filtres du type « FIR » et donnons une méthode d’obtention de filtres du type IIR. 5.4. Résolution et calcul du filtre Infinite Impulse Response (IIR) Pour ce faire nous allons procéder à un pré-blanchiement du signal d’observation. Tout d’abord rappelons une définition : on dit que Α( z ) fonction rationnelle représente un système à phase minimale si Α( z ) dans l’ensemble
{ z | z > 1}
et
1
Α( z )
c’est-à-dire si les zéros et pôles de Α( z ) sont à
l’intérieur du disque unité. De plus le système à phase minimale et son inverse sont stables. Théorème de Paley-Wiener Soit une fonction SYY ( z ) vérifiant quand z = e ∞
iω
:
SYY (eiω ) = ∑ sn e −inω fonction réelle et ≥ 0 ; −∞
sont analytiques
Le filtre de Wiener 2π
∫
185
ln SYY (eiω ) dω < ∞ .
0
Alors, il existe une suite an causale de transformée en z , Α( z ) qui vérifie :
( )
SYY ( z ) = σ ε2 A ( z ) A z −1 .
σ ε2
représente la variance d’un bruit blanc et Α( z ) représente en outre un système
à phase minimale. De plus la factorisation de SYY ( z ) est unique.
Α( z ) étant un système à phase minimale, 1
Α( z )
est causal et analytique dans
{ z | z > 1} . Puisque les an coefficients du filtre A ( z ) sont réels :
(
)
SYY (eiω ) = σ ε2 Α(eiω ) Α e−iω = σ ε2 Α(eiω ) Α(eiω ) = σ ε2 Α(eiω ) c’est-à-dire :
σ ε2 =
Donc le filtre
1 iω
Α(e ) 1
Α( z )
2
2
SYY (eiω ) .
blanchit le processus YK , K ∈ Z .
Schématiquement :
REMARQUE.– A ( z )
2
( )
= A ( z ) . A z −1 si les coefficients de A ( z ) sont réels.
186
Processus stochastiques et filtrages optimaux
A présent, ayant pré-blanchi l’entrée, le problème se ramène au calcul d’un filtre
B ( z ) de la manière suivante :
Ainsi B ( z ) = A ( z ) . H ( z )
A ( z ) , étant connue par SYY ( z ) et H ( z ) devant être optimal, alors B ( z ) doit aussi être optimal. Appliquons l’équation de Wiener-Hopf au filtre
B( z) :
r X ε ( j ) = ∑ bˆi R
εε ( j − i ) .
i
Soit rX ε
( j ) = bˆ j σ ε2 .
Ainsi bˆ j =
Et B ( z ) =
rX ε ( j ) 2
σε
.
∞
∑ bˆ j z − j
pour B ( z ) causale.
j =0
Ainsi B ( z ) =
1
σε
2
∞
∑
j =0
rX ε ( j ) z − j .
La somme représente la transformée en z de l’intercorrelation rX ε
les indices j ≥ 0 que nous écrirons ⎡⎣ S X ε ( z ) ⎤⎦ . +
( j)
pour
Le filtre de Wiener
Ainsi : B ( z ) =
∞
1
σε
2
∑ rX ε ( j ) z − j j =0
Il nous faut à présent établir une relation entre S X ε ( z ) et En effet nous pouvons écrire :
RXY ( K ) = E (( X n + K Yn )
)
∞ ⎛ ⎞ = E ⎜ X n + K ∑ ai ε n −i ⎟ i =0 ⎝ ⎠ ∞
RXY ( K ) = ∑ ai RX ε
( K + i)
i =0
Qui peut encore s’écrire : −∞
RXY ( K ) = ∑ a−i RX ε
( K − i)
0
= a− k ∗ RX ε
En prenant la transformée en z des 2 membres :
( )
S XY ( z ) = A z −1 S X ε ( z ) Il vient :
⎡ S ( z)⎤ ⎢ XY ⎥ H (Z ) = 2 σ ε A ( z ) ⎢ A z −1 ⎥ ⎣ ⎦+ 1
( )
5.5. Evaluation de l’erreur minimale Cette erreur minimale s’écrit :
C min = E (ε K X K ) = Rε X
( 0)
quand h = hˆ
(K )
S XY ( z ) .
187
188
Processus stochastiques et filtrages optimaux
qui peut également s’écrire :
C min = E ( X K soit C min = RXX
− Xˆ K ) X K ou
( 0 ) − hˆT
= RXX
⎛
⎞
⎝
⎠
( 0 ) − E ⎜⎜ hˆT YX K ⎟⎟
r déjà rencontrée dans le cas du filtre FIR.
Mais cette fois, le nombre d’éléments dans la somme est infini : ∞
C min = RXX ( 0 ) − ∑ hˆi RXY ( i ) i =0
ou : ∞
C min = RXX ( 0 ) − ∑ hˆi RYX ( −i ) i =0
En faisant apparaître une convolution :
C min = RXX ( 0 ) − hˆ j ∗ RYX ( j )
j =0
Expression qui peut également s’écrire, en prenant les transformées en z :
C min =
1 j 2π
∫C (0,1) ( S XX ( z ) − H ( Z ) SYX ( z ) ) z
−1
dz
5.6. Exercices du chapitre 5 Enoncé 5.1. Soit à estimer un signal X K , dont la fonction d’autocorrelation est : 1
1
RXX ( K ) = δ ( K =0) + ⎡⎣δ ( K =−1) + δ ( K =1) ⎤⎦ 2 4
Le filtre de Wiener
189
Les mesures y K = xK + nK du processus YK sont filtrées par un filtre de Wiener de réponse h . Le bruit N K est orthogonal au signal X K et : 1
Rnn ( K ) = δ ( K =0) 2
1) Donner la réponse du filtre de Wiener (FIR) d’ordre 2 ; 2) Donner l’erreur minimale obtenue. Solution 5.1. 1) hˆ = R r =(7 /15 −1
2 /15)T .
2 T 2) C min = σ X − r hˆ = 7 / 30
avec σ X2 = RXX (0) = 1/ 2 .
Enoncé 5.2. On se propose de calculer un filtre d’ordre 2 (FIR).
YK l’entrée du filtre a la forme YK = X K + WK où X K est le signal émis et où WK est un bruit blanc orthogonal à X K (les processus sont tous stationnaires du 2e ordre). Connaissant les autocorrélations statistiques :
RXX ( K ) = a
K
et R WW ( K ) = N δ ( K =0)
et sachant : -1 hˆ = R r
hˆ : h
optimal.
190
Processus stochastiques et filtrages optimaux
Avec :
⎛ YK ⎞ ⎜ ⎟ YK −1 ⎟ ⎜ R =E YK YK −1 !YK − N +1 ) = E Y Y T ( ⎜ # ⎟ N ×N ⎜⎜ ⎟⎟ ⎝ YK − N +1 ⎠
(
(
r = E X K (YK YK −1 !YK − N +1 )
N ×1
T
)
)
1) Donner les 2 composantes du vecteur hˆ impulsionnelle.
représentant la réponse
2) Donner l’erreur quadratique moyenne minimale. 3) Allure de cette erreur pour N = 1 et 0 < a < 1 . 4) On souhaite à présent calculer un filtre optimal du type IIR. En considérant les mêmes données que précédemment, donnez la fonction de transfert du filtre. 5) Donner la réponse impulsionnelle. 6) Donner l’erreur quadratique moyenne minimale. REMARQUE.– On pourra poser : b + b
−1
=
(a N 1
−1
Solution 5.2. 1) hˆ =
1 2
(1 + N ) − a
2) C min = 1 −
1+
2
(1 + N − a 2
N − a2 + a2 N
(1 + N ) 2 − a 2
aN )T
) (
− 1 + a −1 + a
)
Le filtre de Wiener
191
3)
Figure 5.2. Tracé de la fonction erreur ou coût en fonction du paramètre a
4) H ( z ) =
2 1− a Na A 2 avec = et σ ε = A 2 −1 b 1 − ab σ ε 1 − bz
1
(1 − a ) b 2
n
5) hn≥0 = cb avec c =
6) C min = 1 −
Na (1 − ab )
c 1 − ab
Enoncé 5.3. [SHA 88] Soit
{ X K | K = 1 à N}
un ensemble de
N variables aléatoires tel que
Ε( X K ) = 0 et var X K = σ x2 émises par une source.
192
Processus stochastiques et filtrages optimaux
A la réception, on obtient la suite numérique y K = xK + wK réalisation du processus YK = X K + WK
où
wK
est un bruit blanc centré de variance
1) Donner le filtre de Wiener en fonction de N et
γ
σ x2 , N et γ .
REMARQUE.– On pourra utiliser l’équation de Wiener-Hopf. Solution 5.3. 1) h j =
γ 1 + Nγ
2) C min =
σ x2
1 + Nγ
γ =σx
2
en posant
rapport signal à bruit. 2) Donner l’erreur minimale en fonction de
σ ω2 .
σ ω2
, le
CHAPITRE 6
Filtrage adaptatif : algorithme du gradient et du LMS
6.1. Introduction Par traitement adaptatif, on entend une classe particulière et pourtant très large d’algorithmes d’optimisation qui sont mis en œuvre en temps réel dans les systèmes de transmission d’information à distance. Les propriétés des algorithmes adaptatifs sont que, d’une part, ils permettent l’optimisation d’un système et son adaptation à son environnement sans intervention extérieure et que, d’autre part, cette optimisation est aussi assurée en présence de fluctuation de l’environnement au cours du temps. Il est à noter également que le succès des techniques adaptatives est tel qu’on ne les rencontre plus seulement en télécommunications mais aussi dans des domaines très divers tels que détection sous-marine, détection périmétrique, reconnaissance des formes, antennes réseaux, séismologie, instrumentation bio-médicale, traitement de la parole et des images, identification des systèmes en automatique, etc. Parmi les applications citées ci-dessus, différentes configurations se présentent, illustrées par les figures 6.1 à 6.4. Nous allons, au cours de ces quelques pages, expliquer le principe du filtrage adaptatif et établir les premiers résultats mathématiques.
194
Processus stochastiques et filtrages optimaux
Figure 6.1. Prédiction
Figure 6.2. Identification
Figure 6.3. Déconvolution
Figure 6.4. Annulation
Filtrage adaptatif
195
Nous nous limiterons, dans un premier temps, aux processus stationnaires du second ordre et aux algorithmes dits du gradient déterministe et du LMS (appelé aussi gradient stochastique). Dans un deuxième temps, nous étendrons ce concept aux signaux non stationnaires en présentant le filtrage de Kalman au chapitre suivant. 6.2. Position du problème [WID 85] A partir d’observations prises à l’instant K
(que nous noterons
yK :
réalisations) issues d’un capteur ou d’un système inconnu, on désire réaliser : – soit une prédiction sur le signal ; – soit une identification du système inconnu ; – soit une déconvolution (ou filtrage inverse) ; – soit une annulation d’échos. Pour y parvenir, on fera une optimisation, au sens des moindres carrés, en minimisant l’erreur obtenue dans les différents cas. EXEMPLE.– Soit le prédicteur suivant :
Figure 6.5. Prédicteur
Les 3 courbes ci-dessous représentent : 1) entrée X K observées par xK : signal à prédire ; 2) sortie du filtre Z K observées par z K ; 3) erreur résiduelle
ε K données par ε K .
Il apparaît nettement que
εK
bout duquel le filtre converge.
tend vers 0 à partir d’un certain temps, temps au
196
Processus stochastiques et filtrages optimaux
Figure 6.6. Tracés de l’entrée, sortie et erreur. Ces courbes ont été obtenues avec des processus à temps continu
6.3. Représentation des données La forme générale d’un filtre adaptatif peut être la suivante :
Figure 6.7. Schéma de principe avec entrées multiples
Filtrage adaptatif
197
Les signaux d’entrée peuvent être issus simultanément de capteurs (cas d’une antenne adaptative, par exemple), ou bien ils peuvent représenter les différents échantillons, pris à des instants différents, d’un seul signal. Nous prendrons comme notation : – entrées multiples : Y – entrée unique : Y
K
K
(
= YK0 YK1 ... YKm−1
)
T
= (YK YK −1 ... YK −m+1 )
T
Dans le cas d’une entrée unique que nous considérerons par la suite, nous aurions la configuration suivante.
Figure 6.8. Schéma de principe du prédicteur
Ecrivons la sortie Z K : Entrée unique : Z K = En appelant
(
λK
m −1
λK YK −i ∑ i =0 i
le vecteur poids ou coefficients, écrit aussi sous la forme :
λK = λK0 λK1 ... λKm−1
)
T
, nous pouvons utiliser une notation vectorielle unique :
Z K = Y K T λK = λKT Y K .
198
Processus stochastiques et filtrages optimaux
Notre système n’étant pas parfait, nous obtenons une erreur, celle-ci s’écrit :
ε K = DK − Z K avec DK qui représente la sortie désirée (ou X K ), c’est-à-dire, la variable aléatoire que l’on cherche à estimer. Le critère que nous avons choisi d’exploiter est le critère des moindres carrés : il consiste à choisir le meilleur vecteur λK , qui minimisera l’erreur quadratique moyenne E
(ε ) 2 K
, ou la fonction coût C
( λK ) .
6.4. Minimisation de la fonction coût Si notre système (filtre) est linéaire et non récursif, nous aurons toujours une fonction coût quadratique et elle pourra être représentée par une paraboloïde elliptique (dim 2) (ou un hyperparaboloïde si la dimension est supérieure). Les projections (isocoûts) représentées par les ellipses sur la figure ci-après sont de la forme : aλ0 + bλ1 + cλ0 λ1 + d λ0 + eλ1 + f = 0 2
2
Illustrons une telle fonction coût :
Figure 6.9. Représentation de la fonction coût ([MOK 00] pour le tracé)
Filtrage adaptatif
C ( λK ) = E
(ε ) = E {( D 2
K
K
− ZK )
2
199
}
Celle-ci peut encore s’écrire :
C ( λK ) = E
{(
DK − λKT Y K
)} 2
Le minimum de cette fonction est atteint lorsque :
∇ λ C ( λK ) =
∂C
=E
∂λK
K
pour
(λK )
λK = λoptimal = λˆ
{( D
K
− λKT Y K
)( −2Y )} = 0 (vect. nul de ( ! m ) K
avec : T ⎞
⎛
∇ λK C ( λK ) = grad C ( λK ) = ⎜⎜ ∂C ( λ0K ) ,..., ∂C (mλ−K1 ) ⎟⎟ ⎝
(
λˆ = λˆ 0 λˆ1 ... λˆ m−1
)
T
minimise
∂λK
∂λK
λ K → C ( λK )
⎠
et λˆ annule grad C
( λK )
Nous retrouvons le résultat classique : l’erreur est orthogonale à l’observation (principe de l’orthogonalité ou théorème de projection).
(
Posons R = E Y
(
K
(
K
le signal d’entrée.
)
Y KT la matrice d’autocorrélation du signal d’entrée.
R = E Y K Y KT
et p = E DK Y
εK ⊥ Y K
)
⎧ YK2 ⎪ ⎪ Y Y = E ⎨ K −1 K # ⎪ ⎪ ⎩YK −m +1 YK
YK YK −1 … YK2−1 " # YK − m+1 YK −1
YK YK −m+1 ⎫ ⎪ YK −1 YK − m+1 ⎪ ⎬ # ⎪ 2 YK −m+1 ⎭⎪
) le vecteur colonne d’intercorrélation entre la réponse désirée et
200
Processus stochastiques et filtrages optimaux
(
)
p = E DK Y K = E ( DK YK DK YK −1 ... DK YK −m+1 )
T
Ainsi le gradient de la fonction coût devient :
(
) (
)
E DK Y K − E Y K Y KT λK
=0
Soit p − Rλˆ = 0 . REMARQUE.– C’est aussi l’équation de Wiener-Hopf. Le vecteur qui satisfait cette équation est le vecteur optimal :
λˆ = R −1 p
si R est inversible.
6.4.1. Calcul du coût
( )
(
)
(
)
C ( λK ) = E DK2 + λKT E Y K Y KT λK − 2 E DK Y KT λK
( )
ainsi C ( λK ) = E DK + λK R λK − 2 p λK . 2
T
T
Pour λˆ la valeur optimale de
()
λK
l’erreur minimale s’écrit :
( )
C min = C λˆ = E DK2 − pT λˆ REMARQUE.– Il est intéressant de remarquer que l’erreur et le signal d’entrée Y ne sont pas corrélés quand
λK = λˆ . En effet :
ε K = DK − λKT Y K En multipliant les deux membres par mathématique, nous obtenons :
E
(ε
KY
K
) = p − E (Y
K
)
Y et en prenant l’espérance
Y KT λK = p − RλK .
Filtrage adaptatif
λK
Pour la valeur optimale de
nous avons : E
(ε
KY
K
201
)=0
Exemple de calcul du filtre : Le système suivant est un filtre adaptatif pouvant identifier un système déphaseur.
ϕ
est une grandeur déterministe
Figure 6.10. Schéma de principe d’un filtre adaptatif identifiant un système déphaseur
Si ∅ est équirépartie sur stationnaire du
2e
[0, 2π ]
on a montré au chapitre 3 que YK est
ordre. Calculons les éléments de la matrice R.
⎡ ⎣
⎛ 2π n ⎞ ⎛ 2π + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥ ⎝ N ⎠ ⎝ N ⎠⎦ 2π K
E ( Yn Yn − K ) = E ⎢sin ⎜ = 0, 5 cos
N ⎛ 2π n
K
∈ [ 0,1]
⎡ ⎞ ⎛ 2π − ϕ + ∅ ⎟ sin ⎜ ( n − K ) + ∅ ⎞⎟ ⎤⎥ ⎝ N ⎠ ⎝ N ⎠⎦ ⎣ ⎛ 2π K ⎞ = cos ⎜ −ϕ ⎟ ⎝ N ⎠
E ( Dn Yn − K ) = E ⎢ 2 sin ⎜
202
Processus stochastiques et filtrages optimaux
La matrice d’autocorrelation
p s’écrivent :
R des données d’entrée et le vecteur d’intercorrélation ⎛ ⎜ 0, 5 ⎟⎟ = ⎜ ⎠ ⎜⎜ 0, 5 cos 2π ⎝ N
⎛ YK2 R = E⎜ ⎜Y Y ⎝ K −1 K
YK YK −1 ⎞
p = E ( DK YK
DK YK −1 )
YK2−1
T
0, 5 cos 0, 5
2π ⎞ N ⎟
⎟ ⎟⎟ ⎠ T
⎛ 2π ⎞⎞ cos ⎜ −ϕ ⎟⎟ ⎝ N ⎠⎠
⎛ = ⎜ cos ϕ ⎝
Le coût s’écrit :
(
)
C ( λK ) = 0,5 (λ 0 )2 + (λ1 ) 2 + λ 0 λ1 cos
2π ⎛ 2π ⎞ − 2λ 0 cos ϕ − 2λ1 cos ⎜ −ϕ ⎟ + 2 N N ⎝ ⎠
Ainsi nous obtenons :
λˆ = R −1 p 2 2π sin N ˆ C λ =E
λˆ =
( )
⎛ ⎛ 2π ⎞ −ϕ ⎟ ⎜ sin ⎜ ⎠ ⎝ ⎝ N
T
⎞ sin ϕ ⎟ ⎠
( D ) − p λˆ 2 K
T
( )
et ici, le calcul nous donne : C λˆ = 0 .
6.5. Algorithme du gradient Nous avons vu précédemment que le vecteur minimise le coût C ( λK ) s’écrit :
λ
optimal, c’est-à-dire celui qui
λˆ = R −1 p . Or, pour résoudre cette équation, il nous faut inverser la matrice d’autocorrélation. Cela peut entraîner des calculs conséquents si cette matrice R
Filtrage adaptatif
203
n’est pas de Toeplitz,(c’est-à-dire que ses éléments sont de la forme R( i − j ) = R|i − j| et qu’elle est de type positif) d’où l’idée de résoudre cette équation par une méthode itérative. Examinons l’évolution du coût C
λK
Soit
parvenir au
( λK ) tracé précédemment.
le vecteur coefficients (ou poids) à l’instant K . Si nous voulons
λ
optimal, il nous faut faire évoluer
λK
à chaque itération, en tenant
compte de sa position relative entre l’instant K et K +1 . Pour un coût
(
C (λ j )
λ j = λ 0j λ1j ... λ mj −1
)
T
donné, le gradient de
est normal à C
C (λ j )
par rapport au vecteur
(λ j ) .
Pour que l’algorithme converge, il faut bien évidemment que pour : K>
j ; C ( λK ) < C ( λ j )
Et comme nous l’avons déjà écrit, le minimum sera atteint quand :
∇ λK C ( λK ) = 0 D’où l’idée d’écrire que, plus le gradient sera important, plus nous serons éloignés du minimum et qu’il suffit de modifier le vecteur des coefficients d’une manière récursive de la façon suivante
λK +1 = λK + µ ( −∇λ C ( λK ) ) K
m
(égalité dans ! )
et que l’on nomme : algorithme du gradient déterministe avec :
∇ λ C ( λK ) = −2 E K
avec Y
K
(
(ε
K
YK
)
)
= YK0 YK1 ...YKm−1 notation du processus multivarié que nous avons vu
au début du chapitre 4 et cette dernière écriture de ∇ λ C K
( λK )
est égale à :
204
Processus stochastiques et filtrages optimaux
= −2 ( p − R λK ) avec
µ
: paramètre qui agit sur la stabilité et la rapidité de convergence vers λˆ .
Justification théorique Si l’application
λ = (λK0 λK1 " λKm−1 ) → C ( λ K )
1
m
est de classe C ( ! ) on a
l’égalité :
C ( λK +1 ) − C ( λK ) = 〈∇ λ C ( λK ) , λK +1 − λK 〉 + o ( λK +1 − λK K
m
où : 〈, 〉 et Donc si
)
désignent respectivement le produit scalaire et la norme dans ! .
λK +1 est assez proche de λK , on a l’approximation :
C ( λK +1 ) − C ( λK ) $ 〈∇ λ C ( λK ) , λK +1 − λK 〉 K
C ( λK +1 ) - C ( λK ) de C ( λK ) λK +1 − λK sont colinéaires.
dont on déduit en particulier que la variation maximale si les vecteurs ∇ λ
K
C ( λK )
et
Pour atteindre le plus rapidement possible le minimum de donc dans ce cas là et ∀K on écrit :
λK +1 − λK = µ ( −∇λ C ( λK ) ) K
soit
Par ailleurs, en utilisant l’expression :
λK +1 = λK + 2 µ E (ε K Y K ) , on peut écrire : n −1
λK + n = λK + 2 µ ∑ E (ε K + jY K + j ) j =0
C ( λK )
on se place
λK +1 = λK + µ ( −∇λ C ( λK ) ) . K
est
Filtrage adaptatif
et si le processus multivarié d’ordre m ,
λ K + n = λK + 2 µ n E
(ε
K
205
ε K + jY K + j est stationnaire du 2e ordre
)
YK .
Mais cette dernière écriture est inexploitable sur un plan pratique sauf sous certaines conditions d’ergodicité, ce que nous allons voir dans le paragraphe suivant. 6.6. Estimation du gradient et algorithme LMS (LMS : Least Mean Square : moyenne quadratique minimale) Toutefois, il est difficile de résoudre l’expression ∇ λ
K
C ( λK ) = 0
la connaissance de lois des composantes du vecteur Y d’algorithmes permettant l’inversion de matrice.
%
%
K
qui nécessite
et l’utilisation
Aussi, nous pouvons considérer les estimées p et R de p et de R dans le calcul du gradient. En effet :
∇ λK C ( λK ) = −2 ( p − RλK ) % % % ∇ λK C ( λK ) = −2 p − RλK
(
)
Les grandeurs estimées seront les données observées.
%
Soit : p = y
%
et R = y
%
K
ainsi ∇ λ C K et
%
K
dK
y KT
( λK ) = -2 ε K %
λK +1 = λK + 2µε K y K
yK
206
Processus stochastiques et filtrages optimaux
Cette écriture récursive sur
λK
revient à supprimer le calcul de l’espérance, en
effet :
λK +1 = λK + 2 µ E
(ε
K
YK
)
devient :
%
%
λK +1 = λK + 2µ ε K y K appelé algorithme LMS qui appartient à la classe d’algorithmes dit du « gradient stochastique ». Or, il se trouve que les itérations successives de cet algorithme récursif réalisent d’elles-mêmes l’espérance mathématique incluse dans cette formule par moyennage statistique [MAC 81]. Pour être mis en œuvre, cet algorithme nécessite, à chaque pas d’incrémentation de connaître le couple DK et Z K . Or nous en avons la connaissance aux instants K grâce au filtrage
λK
car
Z K = λKT Y K et z K = λK y K en considérant les données, et nous connaissons, bien évidemment, la référence DK . ∗
Nous pouvons écrire pour n ∈ & :
%
%
λ K + n = λK + ( 2 µ n ) avec y si
µ
K+ j
1 n
n −1
∑ yK+ j εK+ j j =0
(
= yK + j yK −1+ j ... yK −m+1+ j
)
T
est constant à chaque pas d’itération.
On voit que si
µ
tend vers 0, n doit tendre vers l’infini de sorte que :
Filtrage adaptatif
1 n −1 K + j ∑ y εK+ j → E Y K n j =0
207
( ε )
si le processus
K
ε K + jY K + j est ergodique du 1er ordre. On retrouve la relation :
λ K + n = λK + 2 µ n E
(ε
K
YK
)
obtenue à la section 6.5. Ainsi, dans la recherche du vecteur optimal λˆ les algorithmes du gradient déterministe et du LMS conduisent au même résultat. 6.7. Interprétation géométrique Donnons une autre écriture au coût. Nous avions trouvé : C «C
( λK ) = E ( DK2 ) + λKT R λK − 2 pT λK
(λˆ ) = E ( D ) − p λˆ avec p = Rλˆ 2 K
T
solution de Wiener de ∇ λ C K
Le coût peut se mettre sous la forme :
() = C ( λˆ ) + (λˆ − λ = C ( λˆ ) + (λˆ − λ = C ( λˆ ) + (λˆ − λ = C ( λˆ ) + (λˆ − λ
C ( λK ) = C λˆ + λˆT p + λKT RλK − 2λKT p
ou C
( λK ) = C ( λˆ ) + ( λK − λˆ )
Posons il vient : C
T K)
p + λKT RλK − λKT p
T K)
p + λKT R(λK − λˆ )
T K)
Rλˆ + (λK − λˆ )T RλK
T K)
R(λˆ − λK )
T
(
avec :
)
R λK − λˆ .
α K = λK − λˆ .
( λK ) =C (λˆ + α K ) = C (λˆ ) + α KT
R αK
( λK ) = 0 »
208
Processus stochastiques et filtrages optimaux
Et facilement : ∇α
K
C ( λK ) = 2 R α K .
Par changement de base simplifions les expressions précédentes afin de trouver des interprétations géométriques simples. La matrice R étant symétrique, on sait qu’elle est diagonalisable par une matrice orthogonale Q, c’est-à-dire :
Γ = Q −1RQ .
T
Avec Q = Q
⎛γ 0 0 ⎞ ⎜ ⎟ i et Γ = ⎜ ' ⎟ où les γ sont les valeurs propres ⎜0 γ m −1 ⎟⎠ ⎝
−1
de R. Portons R = Q Γ Q
−1
dans la dernière écriture du coût :
()
C (α K ) = C λˆ + α KT Q Γ Q −1 α K et en posant u K = Q
−1
αK
()
()
m −1
C (uK ) = C λˆ + uTK Γ uK = C λˆ + ∑ γ i (uKi ) 2 i =0
et :
(
∇uK C (u K ) = 2 Γ uK = 2 γ 0 uK0 i
Avec u K : composante i
ème
γ 1 u1K
γ m−1 uKm−1
)
T
.
de u à l’instant K .
Cette écriture est intéressante car lorsqu’une seule des composantes de ∇u C ( λK ) sera non nulle, cette composante, normale à C ( λK ) , portera le K
vecteur gradient. Ainsi cette composante formera l’un des axes principaux des ellipses (ou des hyperellipses).
Filtrage adaptatif
Par conséquent les vecteurs u K
209
représentent les axes principaux des
hyperellipses. Ces axes principaux représentent également les vecteurs propres de R . En effet, quand on réduit une forme quadratique, ce qu’on réalise en diagonalisant, on établit les axes principaux de l’hyperellipse en calculant les vecteurs propres de la matrice
R quand l’expression du coût C est sous la forme : Cte + α KT R α K . REMARQUE.– Quand m=2 ou 3 la matrice orthogonale Q est associée à une rotation " 3
2
dans R"ou R muni de la base des vecteurs propres de R . REMARQUE 2.– ∇u
K
C (u K ) = Q −1 ∇α C (α K ) . K
Illustrons cette représentation par un exemple.
⎛3 1⎞ ⎟ ; ⎝1 3⎠
p = (5
Soit R = ⎜
7)
T
et
( ) 2
E DK = 10
Ainsi nous obtenons :
⎛2 0⎞ T ; λˆ = (1 2 ) et C ( λˆ ) = 1 . ⎟ ⎝0 4⎠
Γ=⎜
Les vecteurs propres de R nous permettent de construire une matrice Q unitaire. Soit Q =
et C
1 ⎛ 1 1⎞
⎜
⎟
2 ⎝ −1 1 ⎠
(α K ) = C ( λˆ ) + α KT R α K .
REMARQUE.– Q a toujours la même forme et prend toujours les mêmes valeurs si nous choisissons le vecteur unité comme vecteur de base. Ceci tient à la forme très particulière de R (Toeplitz). Voir tracé dans les repères
(λ
0
)(
, λ1 , α 0 , α 1
)
et
(u
0
)
, u1 ci-après.
210
Processus stochastiques et filtrages optimaux
Figure 6.11. Tracé de la fonction coût et des différents axes ([BLA 01] pour le tracé de l’ellipse)
Figure 6.12. Tracé des « repères importants »
Filtrage adaptatif
Avec u K = Q
−1
αK
⎧ 0 ⎪⎪u = soit ⎨ ⎪u 1 = ⎪⎩
(α 2
1
(α 2
1
0
− α1
)
0
+ α1
)
211
6.8. Stabilité et convergence Etudions à présent la stabilité et la convergence de l’algorithme du gradient déterministe. En prenant l’écriture récursive du vecteur coefficients et en opérant une translation :
α K = λK − λˆ . Les écritures suivantes :
λK +1 = λK + µ ( −∇ λ C ( λK ) ) K
λˆ = R p ∇ λ C ( λK ) = −2 ( p − RλK ) −1
K
nous permettent d’écrire : α K +1 = ( I d − 2 µ R ) α K En écrivant R sous la forme :
R = Q Γ Q −1 et en prémultipliant
α K +1 par Q −1 , nous obtenons :
Q −1α K +1 = uK +1 = ( I d − 2 µ Γ ) u K
(
et u K +1 = 1 − 2 µ γ i
i
)u
i K
Id : matrice identité.
212
Processus stochastiques et filtrages optimaux
soit u K = ( I d − 2 µ Γ ) u0 . K
Ainsi l’algorithme est stable et convergent si
( K →∞
lim 1 − 2 µ γ
i
)
K
=0
Si cette condition est obtenue alors : lim
K →∞
avec 0 <
µ<
λK = λˆ
1
γ max
L’illustration ci-après nous donne une idée de l’évolution du coût et de la convergence de λK .
Figure 6.13. Tracé de plusieurs fonctions coût et des axes principaux « u »
RÉCAPITULATIF.– Nous avons montré que l’algorithme du LMS (ou gradient stochastique), de par sa récursivité, résout l’équation de Wiener-Hopf en effectuant les calculs de moyenne.
Filtrage adaptatif
213
Cependant, il nécessite deux fois plus de calculs qu’un filtre transverse, car il lui faut calculer, d’une part :
ε K = d K − λKT y K
soit m multiplications et m additions.
et d’autre part :
%
%
λK +1 = λK + 2µε K y K soit m+1 multiplications et m additions. La complexité est donc de 2m. On montre également que l’algorithme du LMS est le plus simple de tous ceux qui optimisent le même critère des moindres carrés. Par contre, il convergera plus lentement que l’algorithme dit des moindres carrés exacts. Même exemple de calcul que précédemment mais avec entrée bruitée, il s’agit de construire un déphaseur avec annuleur de bruit.
∅ est uniformément répartie sur [ 0, 2π ] et ϕ , certain, illustre un déphasage connu.
Figure 6.14. Schéma de principe du déphaseur (voir figure 6.10) avec entrée bruitée
bK est un bruit blanc centré et indépendant de l’entrée :
214
Processus stochastiques et filtrages optimaux
(
)
E bK −i bK − j = σ 2 δ i , j ⎡⎛ ⎛ 2π ⎞⎛ ⎛ 2π ⎞⎤ ⎞ E (YK YK − n ) = E ⎢⎜ sin ⎜ K + ∅ ⎟ + bK ⎟⎜ sin ⎜ ( K − n ) + ∅ ⎞⎟ + bK −n ⎟ ⎥ ⎠ ⎠ ⎠⎝ ⎝ N ⎠⎦ ⎣⎝ ⎝ N 2π K = 0,5cos + σ 2δ 0,n N ⎡ ⎛ 2π K ⎞⎤ ⎞ ⎞ ⎛ ⎛ 2π ( K − n ) − ϕ + ∅ ⎟ ⎜ sin ⎜ + ∅ ⎟ + bK − n ⎟ ⎥ E ( DK YK − n ) = E ⎢sin ⎜ ⎟ N ⎠ ⎜⎝ ⎝ ⎢⎣ ⎝ N ⎠ ⎠ ⎥⎦ ⎛ 2π n ⎞ = cos ⎜ −ϕ ⎟ ⎝ N ⎠ Matrice d’autocorrélation des données YK :
⎛ 0, 5 + σ 2 ⎜ R=⎜ ⎜⎜ 0, 5 cos 2π ⎝ N
2π
⎞ N ⎟ ⎟ 2 ⎟⎟ 0, 5 + σ ⎠ 0, 5 cos
⎛ DK YK −1 ) = ⎜ cos ϕ ⎝
p = E ( DK YK
T
Ainsi nous obtenons :
λˆ = R
−1
p
⎛ 2 1 + 2σ 2 cos ϕ − ⎛ cos ϕ + cos ⎛ 4π − ϕ ⎞ ⎞ ⎞ ( ) ⎜ ⎜ ⎟⎟⎟ 1⎜ ⎝ ⎝N ⎠⎠ λˆ = ⎜ ⎟ 2π 2π ∆⎜ ⎛ ⎞ 2 ⎟ ⎜ −2 cos cos ϕ + 2 (1 + 2σ ) cos ⎜ − ϕ ⎟ ⎟ N ⎝ ⎝ N ⎠⎠ avec :
(
∆ = 1 + 2σ 2
)
2
− cos 2
2π N
T
⎛ 2π − ϕ ⎞ ⎞ cos ⎜ ⎟⎟ ⎝ N ⎠⎠
Filtrage adaptatif
215
et :
(1 + 2σ )(1 + 4σ ) − 2σ 2
C ( λˆ ) =
2
2
⎛ ⎛ 4π − 2ϕ ⎞ ⎞ − 1 2 ⎟⎟ ⎜ 2 cos ϕ + cos ⎜ ⎝ N ⎠⎠ ⎝ ∆
avec :
(
) (
)
C ( λK ) = 2 + 1 + 2σ 2 0, 5 (λ 0 ) 2 + (λ 1) 2 + λ 0 λ 1cos
2π N
− 2λ 0 cos ϕ
⎛ 2π ⎞ −ϕ ⎟ ⎝ N ⎠
− 2λ 1cos ⎜ et C
(α K ) = C ( λˆ ) + α KT R α K
Voir tracé dans les repères
(λ
ou C ( u K ) = C 0
(λˆ ) + u
)(
, λ1 , α 0 , α 1
)
et
T K
(u
Γ uK . 0
)
, u1 ci-avant.
6.8.1. Convergence de l’algorithme du LMS L’étude de la convergence de cet algorithme est beaucoup plus délicate que celle du gradient déterministe, le lecteur pourra se référer à la bibliographie [BOL 87]. 6.9. Exemple d’application de l’algorithme LMS Rappel sur la modélisation d’un processus AR.
216
Processus stochastiques et filtrages optimaux
Ainsi BK =
M
∑ an X K −n .
n =0
En multipliant les 2 membres par X K −l et en prenant les espérances, il vient : M ⎛ ⎞ E ⎜ X K −( ∑ an X K − n ⎟ = E ( X K −( BK ) . n =0 ⎝ ⎠
Si ( > 0 alors X K −( ⊥ BK . Car B K est un bruit blanc et seul BK est dépendant de X K . Ainsi, en posant :
(
)
E X j X m = rj − m M
∑ an rn−( = 0
pour l > 0
n =0
M ⎛ = = − a r E X B E B ( ) ⎜ K ∑ an X K − n ∑ nn K K n =0 n =1 ⎝ M
et
⎞ 2 ⎟ BK = σ B ⎠
En posant a0 = 1 et en utilisant l’écriture matricielle, il vient :
r1 " rM ⎞ ⎛ 1 ⎛ r0 ⎜r ⎟⎜ r0 rM −1 a1 ⎜1 ⎟⎜ ⎜# ⎟ ⎜# ⎟⎜ ⎜⎜ r r r0 ⎟⎠ ⎝ aM ⎝ M M −1
⎞ ⎛ σ B2 ⎞ ⎟ ⎜ ⎟ ⎟ = ⎜0 ⎟ ⎟ ⎜# ⎟ ⎟ ⎜⎜ ⎟⎟ ⎠ ⎝0 ⎠
← ( =0
⎫ ⎪ ⎬ ( ∈ [1, M ] ⎪ ⎭
Pour un processus AR d’ordre 1, soit le processus AR suivant :
X K = − a X K −1 + BK
Filtrage adaptatif
où BK est un bruit blanc centré de variance
217
σ B2 .
Le problème consiste à estimer la constante a par un filtre adaptatif.
Connaissant BK et X K −1 , le problème consiste à estimer X K (ou a ). Les résultats précédents nous permettent d’écrire :
⎧⎪r0 + a1 r1 = σ B2 ⎨ ⎪⎩r1 + a1 r0 = 0 d’où : a1 = a = −
et
(
r1 , r0
σ B2 = σ X2 1 − a 2
)
Estimons cette valeur du paramètre « a » à l’aide d’un prédicteur et en utilisant un algorithme LMS.
218
Processus stochastiques et filtrages optimaux
ε K = DK − Z K ou
et DK = X K
ε K = DK − λ X K −1
avec
ε K ⊥ ZK
YK = X K −1
principe d’orthogonalité
(
)
soit E X K − λˆ X K −1 X K −1 = 0 ou r1 = λˆr0
r d’où λˆ = 1 = − a r0
En utilisant directement la solution optimale de Wiener R λˆ = p avec R = r0 et
p = r1 nous obtenons R λˆ = p. r Soit λˆ = 1
r0
()
( )
C λˆ = E DK2 − pT λˆ nous donne :
()
C λˆ = σ X2 (1−a2 ) Ce coût minimum est aussi égal à
σ B2 .
Vous trouverez ci-dessous un exemple traité avec Matlab. Pour un processus AR d’ordre 2, nous aurions :
ε K = DK − λ 0 X K −1 − λ1 X K −2
Filtrage adaptatif
(
)
et E X K − λˆ X K −1 − λˆ X K − 2 ( X K −1 0
1
219
X K −2 )T = (0 0)T 2
rr −rr r r −r 1 0 Ainsi : λˆ = 1 02 12 2 et λˆ = 2 20 12 r0 − r1
r0 − r1
ou en utilisant la solution de Wiener :
⎛r R=⎜ 0 ⎝ r1
r1 ⎞ T ˆ ⎟ et p = ( r1 r2 ) avec R λ = p r0 ⎠
Voir exemple ci-après avec le logiciel Matlab. Exemples traités en utilisant le logiciel Matlab Exemple d’un filtrage adaptatif (AR d’ordre 1) L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 1 en utilisant l'algorithme du LMS d'un filtre adaptatif. Le processus est construit par un modèle AR du 1er ordre avec un bruit blanc, centré, gaussien et de variance (sigmav)^2. Le problème revient donc à trouver le meilleur coefficient qui nous donne l'échantillon à prédire. %Prédicteur d'ordre 1 clear all; close all; N=500; t=0:N; a=-rand(1);%valeur à estimer sigmav=0.1;%ecart type du bruit r0=(sigmav)^2/(1-a^2);%E[u(k)^2] r1=-a*r0;%représente P wopt=r1/r0;%solution optimale de Wiener Jmin=r0-r1*wopt; mu=0.1;%paramètre de convergence w(1)=0; u(1)=0; vk=sigmav*randn(size(t)); for k=1:length(t)-1; u(k+1)=-a*u(k)+vk(k+1);
220
Processus stochastiques et filtrages optimaux
e(k+1)=u(k+1)-w(k)*u(k); w(k+1)=w(k)+2*mu*u(k)*e(k+1); E(k+1)=e(k+1)^2;%erreur carrée instantanée J(k+1)=Jmin+(w(k)-wopt)'*r0*(w(k)-wopt); end %trace subplot(3,1,1) plot(t,w,'k',t,wopt,'k',t,a,'k');grid on title('estimation de lambda, lambda opt. et "a"') subplot(3,1,2) plot(t,E,'k',t,J,'k',t,Jmin,'k');grid on axis([0 N 0 max(E) ]) title('err.inst.,coût et cout min') subplot(3,1,3) plot(w,E,'k',w,J,'k');grid on axis([0 1.2*wopt 0 max(J)]) title('err.inst.et coût en fonct. de lambda ')
Figure 6.15. Tracés des données importantes du processus AR d’ordre 1
Filtrage adaptatif
221
Autre exemple (AR d’ordre 2) L'objectif consiste à estimer le coefficient d'un prédicteur d'ordre 2 en utilisant l'algorithme du gradient stochastique d'un filtre adaptatif. Le processus est construit par un modèle AR du 2e ordre avec un bruit blanc, centré, gaussien et de variance (sigmav)^2. Le problème revient donc à trouver les meilleurs coefficients qui nous donnent l'échantillon à prédire. Prédicteur d'ordre 2 clear all; close all; N=1000; t=0:N; a1=-0.75;%valeur à estimer a2=0.9;%idem sigmav=0.2;%ecart type du bruit r0=((1+a2)*((sigmav)^2))/(1+a2-a1^2+a2*(a1^2)-a2^2-a2^3);%E[u(k)^2] r1=(-a1*r0)/(1+a2);%représente P2 r2=(r0*(a1^2-a2^2-a2))/(1+a2);%représente P1 w1opt=(r0*r1-r1*r2)/(r0^2-r1^2); w2opt=(r0*r2-r1^2)/(r0^2-r1^2); wopt=[w1opt w2opt]';%solution optimale de Wiener p=[r1 r2]'; Jmin=r0-p'*wopt ; R=[r0 r1;r1 r0]; mu=0.2;%paramètre de convergence w1(1)=0;w2(1)=0;w1(2)=0; w2(2)=0; u(1)=0;u(2)=0; vk=sigmav*randn(size(t)); for k=2:length(t)-1; u(k+1)=-a1*u(k)-a2*u(k-1)+vk(k+1); e(k+1)=u(k+1)-w1(k)*u(k)-w2(k)*u(k-1); w1(k+1)=w1(k)+2*mu*u(k)*e(k+1); w2(k+1)=w2(k)+2*mu*u(k-1)*e(k+1); w(:,k)=[w1(k) w2(k)]'; J(k+1)=Jmin+(w(:,k)-wopt)'*R*(w(:,k)-wopt); end %tracé w(:,N) delta=a1^2-4*a2; z1=(-a1+(delta^.5))/2; z2=(-a1-(delta^.5))/2;
222
Processus stochastiques et filtrages optimaux
subplot(2,2,1) plot(t,w1,'k',t,w1opt,'b',t,a1,'r');grid on title('est. lambda0, lambda0.opt. et "a0"') subplot(2,2,2) plot(t,w2,'k',t,w2opt,'b',t,a2,'r');grid on title('est.lambda1, lambda1.opt et "a1"') subplot(2,2,3) plot(t,J,'-',t,Jmin,'r');grid on axis([0 N 0 max(J)]) title('Cout et Cout min') subplot(2,2,4) plot (w1,J,'b',w2,J,'r');grid on title('évolution des coefficients fonct. du coût ')
Figure 6.16. Tracés des données importantes du processus AR d’ordre 2
Filtrage adaptatif
223
6.10. Exercice du chapitre 6 Enoncé 6.1. [WID 85] Un filtre adaptatif est caractérisé par
⎛2 1⎞ ⎟ matrice de corrélation des données, ⎝1 2⎠
R=⎜
p = ( 7 8 ) vecteur d’intercorrélation T
( )
et E DK = 42 2
D K étant la sortie désirée.
1) Donner l’expression du coût C . 2) Calculer le vecteur optimal λˆ . 3) Donner l’expression du coût minimum C 4) Calculer les valeurs propres de
(λˆ ).
R.
5) Déterminer les vecteurs propres de telle sorte que la matrice Q de vecteurs propres soit « normalisée » (c’est-à-dire QQ = I . ), ces vecteurs représentant les axes principaux de la famille d’ellipses. 6) Donner les bornes de µ paramètre de convergence utilisé dans l’algorithme du LMS. T
Solution 6.1. 1) C = 2λ1 + 2λ2 + 2λ1λ2 − 14λ1 − 16λ2 + 42 2
2) λˆ = ( 2
2
3)
T
( )
3) C λˆ = 4 4) γ 1 = 1
γ2 = 3
5) u1 = 1
2 (1 − 1)
6) 0<µ <1 3
T
u2 = 1
2 (1 1)
T
CHAPITRE 7
Le filtre de Kalman
7.1. Position du problème Le but du filtrage que nous allons étudier consiste à « estimer au mieux » au sens du critère classique des moindres carrés, un processus discret X K gouverné par une équation de la forme :
X K +1 = A( K ) X K + C ( K ) N K (équation d’état). Ce processus (physique, biologique, etc.) appelé processus d’état est celui qui intéresse l’utilisateur. Il représente par exemple la position, la vitesse et l’accélération d’un mobile. Directement, ce processus est inaccessible et il est étudié par l’intermédiaire d’un processus YK gouverné par une équation de la forme :
YK = H ( K ) X K + G ( K ) WK (équation d’observation) YK est appelé processus d’observations. N K et WK sont respectivement les bruits de système et de mesures que nous qualifierons précisément par la suite. Le lecteur pourra retrouver les résultats des processus discrets avec la bibliographie [BER 98, GIM 82].
226
Processus stochastiques et filtrages optimaux
Le filtre de Kalman généralise par sa conception, le filtre optimal des systèmes non stationnaires. Il est aussi récursif : la prédite Xˆ K +1|K est obtenue à partir de la filtrée à l’instant précédent Xˆ K | K et la filtrée Xˆ K +1|K +1 , à partir de sa prédite Xˆ K +1|K et de la mesure du processus YK +1 à l’instant ou l’on fait son estimation. Par ailleurs, si le système observable est connu et linéaire, l’objectif consiste, à partir des mesures du système, à déterminer la meilleure estimée possible au sens du critère ci-dessus précisé. Si le système observable est connu mais non linéaire une solution approchée peut être donnée en opérant une linéarisation des équations d’état et d’observations autour de la dernière valeur estimée. Dans ce cas nous donnerons les équations de l’algorithme de Kalman en fin de chapitre sans les démontrer. Le lecteur pourra trouver des compléments dans la bibliographie [GIM 82, RAD 84]. Si le système n’est pas parfaitement connu et linéaire le problème est plus compliqué car il faut faire apparaître et estimer dans le vecteur d’état des composantes inhérentes de ce système. Ce cas ne sera pas étudié dans ce chapitre. De la même, manière, nous n’aborderons pas le cas où les bruits sont colorés ou celui dans lequel il y a une corrélation entre bruit de système et bruit de mesure [GIM 82, RAD 84]. Préliminaires dans le cas scalaire Nous avons démontré que la meilleure estimée d’un processus, à partir d’une
fonction g d’observation, c’est-à-dire Xˆ = gˆ (Y1 ,..., YK ) représentée par la projection orthogonale de X sur un espace de Hilbert que nous avons défini est l’espérance conditionnelle de la grandeur X , sachant l’ensemble des variables aléatoires d’observations Y1...YK c’est-à-dire :
Xˆ = gˆ (Y1 , ..., YK ) = Pr oj
H KY
Toutefois, si le vecteur
X = Ε ( X Y1 ,..., YK )
( X , Y1 ,..., YK )
est gaussien, alors nous avons vu que
l’estimée Xˆ de X est une fonction affine des vecteurs Y j .
Le filtre de Kalman
Xˆ = λˆ 0 +
K
∑
j =1
227
λˆ j Y j
Afin d’aborder le filtrage de Kalman d’une manière simple, nous allons commencer par aborder le problème de l’estimation linéaire dans le cas scalaire appliqué au prédicteur linéaire. La forme de l’estimation récursive obtenue nous permettra alors de mieux cerner le cas multivarié. Considérons un ensemble de variables aléatoires Y1 , Y2 ,..., Y j ..., YK −1
Y j : variable observée à l’instant j avec Y0 = 0 par convention.
H KY-1
Rappelons que nous notons par
l’espace vectoriel réel engendré par ces
variables aléatoires, c’est-à-dire :
H KY-1 =
{
}
K −1
∑ λ j Yj λ j ∈ !
j =1
Exemple de l’estimation linéaire [HAY 91] La meilleure estimation linéaire en m.q. d’une variable aléatoire YK , à partir d’observations constituant
H KY-1
peut se faire par le prédicteur linéaire suivant :
Figure 7.1. Schéma de principe de l’estimateur linéaire
228
Processus stochastiques et filtrages optimaux
L’erreur de prédiction s’écrit alors :
I K = YK − YˆK |K −1 (qu’on pourrait rapprocher de
εK
dans le filtre adaptatif)
pour un filtre prédicteur d’ordre K −1 et se construit facilement par le montage cidessus. Les sorties du filtre s’interprète comme : la meilleure estimée à l’instant K , connaissant les données du processus Y1 ,..., YK −1 . Ainsi nous pouvons interpréter yˆ K |K −1, réalisation de YˆK |K −1 comme la sortie d’un prédicteur d’ordre K − 1 dont l’entrée serait composée des observations y1 , y2 ,..., yK −1 : mesures des Y j . Le principe de l’orthogonalité nous montre que cette « erreur » I K est orthogonale à
H KY-1
et peut être interprétée comme une information apportée par
YK , d’où le nom « d’innovation ». Aussi nous appellerons cette erreur de prédiction : l’innovation. 7.2. Approche de l’estimation 7.2.1. Cas scalaire Il est clair que nous pouvons donner une estimée d’une grandeur d’un processus à partir d’observations passées de ce processus. Dans l’expression de l’innovation :
I K = YK −
K −1
∑ λˆi YK −i i =1
YK représente la grandeur à estimer (voir : prédicteur) K −1
et
∑ λˆ i YK −i i =1
représente l’estimation.
Le filtre de Kalman
= Pr oj
Y YK H K-1
229
= YˆK |K −1 et
I K = YK − YˆK |K −1 De la même manière, si nous appelons :
Xˆ K K = Pr oj
H KY
XK
l’estimée d’un processus à l’instant K , à partir des mesures y1 ,..., y K , ... du processus Y1 ,..., YK ,... , nous pouvons écrire : K
Xˆ K K = ∑ b j Y j estimée de X K . j =1
Ecrivons l’innovation aux instants 1, 2,…, K : K −1
I K = YK − ∑ λiK −1 YK −i avec λiK −1 : coefficients du prédicteur d’ordre i =1
I1 = Y1 avec
Yˆ1/ 0 = 0
I 2 = Y2 − λ11Y1 I 3 = Y3 − λ12 Y2 − λ22 Y1 ! I K = YK − λ1K −1YK −1 − ... − λKK−−11Y1 Cette écriture peut se mettre sous la forme : I = M Y avec M , matrice triangulaire inversible car det M = 1 . Ainsi Y = M
−1
I.
K −1
230
Processus stochastiques et filtrages optimaux
En conséquence, chaque vecteur I peut s’écrire en fonction des vecteurs
Y = (Y1 ,..., YK ) et inversement, (H KY = H KI ) . T
−1 Donc Xˆ K K = b′.Y = b′M I
ou : b ' = (b1′ ,..., bK′ ) vecteur de dimension K T
I = ( I1 ,..., I K )T vecteur Innovation. −1 Il est clair que l’égalité Xˆ K K = b′M I peut aussi se mettre sous la forme : K
Xˆ K K = ∑ d j I j j =1
Montrons maintenant que : d j =
Ε( XK I j )
j ∈ [1, K ]
Ε(I j I j )
Preuve : Y,⊥ Nous savons que : X K − Xˆ K |K ∈ H K
On a :
X K − Xˆ K |K ⊥ Y j
Yˆj| j −1 ∈ H jY−1 ⊂ H KY
∀j ∈ [1, K ] il vient aussi :
,
X K − Xˆ K |K ⊥ Yˆj| j −1
Donc X K − Xˆ K | K ⊥ Y j − Yˆj| j −1 = I j
(
(
)
C’est-à-dire : E X K I j = E Xˆ K | K I j
(
)
(
∀j ∈ [1, K ]
) K
) ∑d E (I I )
D’où finalement : E X K I j = E Xˆ K |K I j =
i =1
i
i j
Le filtre de Kalman
et puisque I i ⊥ I j si
i ≠ j il vient : d j =
231
( ) E (I jI j )
E XKI j
K
Exploitons l’écriture de la filtrée : Xˆ K K = ∑ d j I j j =1
et Xˆ K K =
K −1
∑ d j I j + dK IK . j =1
D’après nos premiers résultats, la somme des K −1 termes représente également une estimation et :
Xˆ K K = Xˆ K −1 K −1 + d K I K . Ce qui montre que l’estimée, à l’instant K s’écrit en fonction de l’estimée à l’instant K −1 et d’un terme correctif dépendant de l’instant K . Ce procédé d’estimation récursif est le fondement du filtrage de Kalman. 7.2.2. Cas multivarié Nous allons à présent considérer des grandeurs vectorielles vues au chapitre 4, c’est-à-dire :
( )
X K : multivecteur d’ordre n ∈ L2
( )
m
( )
m
YK : multivecteur d’ordre m ∈ L2 I K : multivecteur d’ordre m ∈ L2 Relation entre les Y j et les I j :
I K = YK − H ( K ) Xˆ K K −1
n
232
Processus stochastiques et filtrages optimaux K −1
ˆ Y ou I K = YK − H ( K ) ∑ Λ j j j =1
Réciproquement : En écrivant les YK en fonction des I K , il vient avec
Xˆ 1|0 = 0.
Y1 = I1 ˆ I Y2 = I 2 + H ( 2 ) Λ 1 1 ˆ ˆ I + H ( 3) Λ ˆ H ( 2) Λ ˆ I Y3 = I 3 + H ( 3) Λ1 I1 + H ( 3) Λ 2 2 2 1 1 ! Ainsi YK s’écrit en fonction des I K
, I K −1 ,..., I1 .
7.3. Filtrage de Kalman
Approche vectorielle ou multivariée soit : –
X K : multivecteur d’état ( n ×1)
– xK : vecteur d’état des réalisations – YK : multivecteur d’observations ( m × 1) – y K : vecteur d’observations des réalisations 7.3.1. Equation d’état
X K +1 = A ( K ) X K + C ( K ) N K avec A ( K ) = matrice d’état ( n × n) et N K
= vecteur bruit de système
(l × 1)
que nous choisirons centré, blanc et de matrice de corrélation.
Le filtre de Kalman
(
)
E N K N Tj = δ K , j QK
233
: ( "×" )
C ( K ) : Matrice déterministe (n × ") 7.3.2. Equation d’observations
YK = H ( K ) X K + G ( K ) WK avec H ( K ) : matrice de mesures ou d’observations ( m × n ) .
WK : vecteur bruit de mesures ou d’observations ( p × 1) que nous choisissons, comme N K , centré, blanc et de matrice de corrélation.
(
)
E WK W jT = δ K , j RK
( p × p)
G ( K ) : matrice déterministe (m × p ) Les bruits N K et WK sont indépendants, et , comme ils sont centrés :
(
)
E N K W jT = 0
∀K et j .
Nous supposerons, par la suite , que WK ⊥ X 0 . Par itération de l’équation d’état, nous pouvons écrire : K −1
X K = Φ ( K ,0 ) X 0 + ∑ Φ ( K ,i +1) Ni avec Φ ( K , j ) : matrice de transition. i =1
Il vient par cette équation de transition, en multipliant les 2 membres par W j
X K ⊥ Wj
K,
j > 0.
En utilisant l’équation d’observations :
234
Processus stochastiques et filtrages optimaux
et
Y j ⊥ WK
0 ≤ j ≤ K −1
Yj ⊥ NK
0≤ j≤K
Le problème de l’estimation peut maintenant s’énoncer simplement de la façon suivante.
A( K ) la matrice d’état du système, H ( K ) la matrice de mesures et les réalisations yi de Yi i ∈ [1,K ] ; obtenir les réalisations x j des X j . Connaissant
Si 1< j K on dira que l’estimation est une prédiction. REMARQUE.– Les matrices C ( K ) et G ( K ) ne jouent pas un rôle essentiel dans la mesure où les puissances de bruit apparaissent dans les éléments des matrices QK et RK respectivement. Cependant le lecteur pourra retrouver les analogies avec les notations utilisées dans « Processus stochastiques et filtrage de Kalman » des mêmes auteurs qui traite du cas continu. 7.3.3. Processus d’innovation
Le processus d’innovation a déjà été défini comme :
I K = YK − H ( K ) Pr oj
H KY −1
et :
⎪⎧
X K = YK − H ( K ) Xˆ K |K −1
: ( m×1)
⎪⎫
K −1
∑ Λ jY j Λj matrice n × m ⎬⎪ . ⎪ j =0
H KY-1 = ⎨ ⎩
⎭
Par ce choix des Λ j , l’espace d’état
X j et Pr oj
Ainsi
Y HK −1
XK
=
H KY−1
est adapté à l’ordre des multivecteurs
Xˆ K |K −1 a même ordre que X K .
I K représente l’apport d’informations entre les instants K − 1 et K .
Le filtre de Kalman
235
Rappel des propriétés précédemment établies :
I K ⊥ Y j ⎫⎪ ⎬ I K ⊥ I j ⎪⎭
pour j ∈ [1, K -1]
Nous reviendrons sur l’innovation pour donner l’importance de sons sens physique. 7.3.4. Matrice de covariance du processus d’innovation
Entre deux mesures, la dynamique du système fait évoluer les grandeurs d’état.
Aussi la prédite du vecteur d’état à l’instant K , connaissant les mesures (Y1...YK −1 ) c’est-à-dire Xˆ K |K −1 s’écrit en fonction de la filtrée à l’instant K − 1.
Xˆ K |K −1 = E ( X K | Y1 ,… , YK −1 ) = Pr oj
HY
= Pr oj
HY
K −1
K −1
XK
( A( K − 1) X K −1 + C ( K − 1) N K −1 | Y1 ,… , YK −1 )
= A( K − 1) Xˆ K −1|K −1 + 0
Xˆ
K K −1
= A ( K −1) Xˆ
K −1 K −1
Seule l’information provenant d’une nouvelle mesure à l’instant K permettra de réduire l’erreur d’estimation à ce même instant. Ainsi H ( K ) représentant en quelque sorte, l’appareil de mesures où pour le moins son effet :
YK − H ( K ) Xˆ
K K −1
représentera l’apport d’information entre 2 instants d’observations. C’est pour cette raison que cette information s’appelle l’innovation. Nous remarquons, par ailleurs que I K et YK ont mêmes ordres. En exploitant l’équation d’observations nous en déduisons :
236
Processus stochastiques et filtrages optimaux
⎛ ⎞ + G ( K ) WK I K = H ( K ) ⎜ X K − Xˆ K K −1 ⎟ ⎝ ⎠ et I K = H ( K ) X$
K K −1
+ G ( K ) WK
où X$ K |K −1 = X K − Xˆ K | K −1 est appelée erreur de prédiction. La matrice de covariance de l’innovation s’écrit finalement :
Cov I K = E
(
I K I KT
)
T
⎛ ⎞⎛ ⎞ = E ⎜ H ( K ) X$ + G ( K ) WK ⎟ ⎜ H ( K ) X$ + G ( K ) WK ⎟ K K −1 K K −1 ⎝ ⎠⎝ ⎠
c'est-à-dire ou Cov I K
= H ( K ) PK K −1 H T ( K ) + G ( K ) RK GT ( K )
⎛ ⎞ = Ε ⎜ X$ X$ T ⎟ est appelée matrice de covariance de l’erreur de ⎝ K K −1 K K −1 ⎠
où P
K K −1
prédiction. Une formule de récurrence sur les matrices P
K K −1
sera développée dans
l’annexe A. 7.3.5. Estimation
Dans le cas scalaire, nous avions établi une relation entre l’estimée d’une grandeur X K et les innovations I K . Nous pouvons, bien évidemment étendre cette approche au cas des processus multivariés, c’est-à-dire que l’on peut écrire :
Xˆ
K
iK
= ∑ d j (i ) I j j =1
d j ( i ) est une matrice ( n x m ) Déterminons les matrices d j ( i ) :
Le filtre de Kalman
(
Puisque E X$ i|K I j
(
T
on a : E X i I j
T
) = E (( X
) = E ( Xˆ
T i| K I j
) )
− Xˆ i|K I Tj = 0 ∀j ∈ [1, K ]
i
) et vu la forme de Xˆ
On a encore E X i I j
) = E ⎜⎜ ∑ d ⎝ p =1
⎞ T ( i ) I I . p p j ⎟ ⎟ ⎠
Soit, puisque I j ⊥ I p
∀j ≠ p
et
(
(
⎛
T
)
237
K
(
i| K
.
j , p ∈ [1, K ]
)
E X i I Tj = d j ( i ) E I j I Tj = d j ( i ) CovI j .
(
Finalement : d j ( i ) = E X i I j
T
) ( CovI )
−1
j
.
Nous obtenons ainsi : K
(
) ( Cov I )
(
) ( Cov I )
Xˆ i K = ∑ Ε X i I Tj j =1
K −1
= ∑ Ε X i I Tj j =1
(
+ Ε X i I KT
−1
j
) ( Cov I
−1
j
K
Ij Ij
)−1 I K
Nous allons maintenant donner les équations de Kalman. Appliquons l’égalité précédente à la filtrée Xˆ K +1 K +1 , il vient : K +1
Xˆ K +1 K +1 = ∑ Ε X K +1 I Tj
(
) ( Cov I )
K
(
) ( Cov I )
−1
+ Ε X K +1 I KT +1 ( Cov I K +1 )
−1
j =1
= ∑ Ε X K +1 I Tj j =1
(
)
−1
j
j
Ij Ij I K +1
238
Processus stochastiques et filtrages optimaux
L’équation d’état nous rappelle que :
X K +1 = Α ( K ) X K + C ( K ) N K et nous savons que N K
⊥ Ij .
Donc :
(
)
(
)
Ε X K +1 I Tj = Α ( K ) Ε X K I Tj . L’estimée de X K +1 connaissant la mesure à cet instant K+1 s’écrit alors : K
(
Xˆ K +1 K +1 = Α ( K ) ∑ Ε X K I Tj j =1
(
) ( Cov I ) j
)
−1
Ij
+ Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1 −1
Le terme sous le signe sigma (somme) peut s’écrire Xˆ K K Exploitons l’écriture :
I K +1 = H ( K +1) X$ K +1 K + G ( K +1) WK +1 . Ce qui nous donne :
(
)
−1 Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε X K +1 I KT +1 ( Cov I K +1 ) I K +1 .
qui s’écrit encore :
(
⎛ Xˆ K +1 K +1 = Α ( K ) Xˆ K K + Ε ⎜ X K +1 H ( K +1) X$ K +1 K + G ( K +1) WK +1 ⎝ . ( Cov I K +1 ) I K +1 −1
)
T
⎞ ⎟ ⎠
Le filtre de Kalman
239
Par ailleurs nous avons montré que la meilleure estimation à un instant donné, connaissant les mesures du passé, que nous écrivons Xˆ K +1 K , est égale à la projection de X K +1 sur
H KY
soit :
Xˆ K +1 K = ProjH Y X K +1 = Pr oj
HY
HY
( Α (K ) X K + C (K ) NK )
Xˆ K +1 K = Pr oj et comme : Y j
⊥
K
K
∀ j ∈[1, K ]
NK
Xˆ K +1 K = Α ( K ) Xˆ K K
il vient
( Α (K ) X K + C (K ) NK )
K
;
Α ( K ) carrée
On peut considérer cette équation comme celle décrivant la dynamique du système, indépendemment des mesures et comme l’une des équations du filtre de Kalman. Comme en outre X K
⊥ Wj
K , j > 0 : il vient pour la filtrée :
(
)
−1 Xˆ K +1 K +1 = Xˆ K +1 K + Ε X K +1 X$ KT +1 K H (TK +1) ( Cov I K +1 ) I K +1
Comme :
Xˆ K +1 K
⊥
X$ K +1 K
alors :
( (
)
Xˆ K +1 K +1 = Xˆ K +1 K + E X K +1 − Xˆ K +1 K X$ KT +1 K H T ( K +1) . ( Cov I K +1 ) I K +1 −1
Soit : −1 Xˆ K +1 K +1 = Xˆ K +1 K + PK +1 K H T ( K +1) ( Cov I K +1 ) I K +1
)
240
Processus stochastiques et filtrages optimaux
DÉFINITION.– On appelle Gain de Kalman la fonction K définie ( ici à l’instant K+1) par :
K ( K +1) = PK +1 K H T ( K +1) ( Cov I K +1 )
−1
avec : Cov I K +1
= H ( K + 1) PK +1 K H T ( K + 1) + G ( K +1) RK +1 GT ( K +1)
soit en reportant dans l’expression de K ( K + 1) nous obtenons :
(
K ( K+1) = PK+1K HT ( K+1) H ( K+1) PK+1K H(TK+1) + G( K+1) RK+1GT ( K+1)
)
−1
Nous remarquons que ce calcul ne nécessite pas la connaissance directe de la mesure du processus YK . Cette écriture du gain, intervient, bien évidemment, dans l’algorithme du filtre de Kalman et nous pouvons écrire :
(
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K
)
Cette expression de la meilleure filtrée représente une autre équation du filtre de Kalman. Nous remarquons que « l’effet » du gain est essentiel. En effet, si la mesure est très bruitée, ce qui signifie que les éléments de la matrice RK sont importants, alors le gain sera relativement faible, et l’impact de cette mesure sera minimisé pour le calcul de la filtrée. En revanche, si la mesure est peu bruitée, nous aurons l’effet inverse ; le gain sera important et son effet sur la filtrée sera appréciable. Nous allons à présent « apprécier » cette filtrée en calculant l’erreur que nous commettons, c’est-à-dire en calculant la matrice de covariance de l’erreur de filtrage.
Le filtre de Kalman
241
Rappelons que Xˆ K +1 K +1 est la meilleure des filtrées, au sens où elle minimise l’application :
Z
→ tr X K +1 − Z
Y ∈ H K+ 1
2
T = tr E ⎡( X K +1 − Z )( X K +1 − Z ) ⎤ ⎣ ⎦
∈!
Le minimum est donc :
tr X K +1 − Xˆ K +1 K +1
2
(
= tr E X$ K +1 K +1 X$ TK +1 K +1
(
NOTATION.– dans la suite la matrice E X$ K +1 K +1 X$ K +1 K +1 T
) ) est notée P
K +1 K +1
et est appelée matrice de covariance d’erreur de filtrage. Nous donnons maintenant une relation simple liant les matrices
P
K +1 K +1
et P
K +1 K
On remarque que, par utilisation de l’équation de la filtrée d’abord et de l’équation d’état ensuite :
X$ K +1|K +1 = X K +1 − Xˆ K +1 K +1
(
= X K +1 − Xˆ K +1 K − K ( K +1) YK +1 − H ( K +1) Xˆ K +1 K = X K +1 − Xˆ K +1 K − K ( K +1)
(H (
K +1) X K +1 + G ( K +1) WK +1 − H ( K +1) Xˆ K +1 K
= ( I d − K ( K +1) H ( K +1) ) X$ K +1|K − K ( K +1) G ( K +1) WK +1 où I d est la matrice identité.
)
)
242
Processus stochastiques et filtrages optimaux
En portant cette expression de X$ K +1|K +1 dans P
et en utilisant le fait
K +1 K +1
que : X$ K +1| K ⊥ WK +1 on a :
P
K +1 K +1
= ( I d − K ( K +1) H ( K +1) ) P
T I d − K ( K +1) H ( K +1) ) + ( K +1 K
K ( K +1) G ( K +1) R ( K +1) GT ( K +1) K T ( K +1) Expression qui, puisque : Cov I K +1
= G ( K +1) RK +1 GT ( K +1) + H ( K + 1) PK +1 K H T ( K + 1)
peut s’écrire :
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) ( CovI K +1 )
(
( CovI K +1 ) ( K ( K + 1) − PK +1 K
−1
)
H (TK +1) ( CovI K +1 ) −1
)
)
−1 T
+ I d − PK +1 K H T ( K +1) ( CovI K +1 ) H ( K +1) PK +1 K −1
Mais on a vu que : K ( K +1) = PK +1 K H ( K +1) ( Cov I K +1 ) . T
Donc le premier terme du deuxième membre de l’expression est nul et notre relation cherchée est finalement :
(
)
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K Cette « mise à jour » de la matrice de covariance par itération est une autre équation du filtre de Kalman. Autre approche pour calculer ce minimum [RAD 84]. On remarque que l’avant dernière écriture de PK +1|K +1 peut se mettre sous la forme :
Le filtre de Kalman
(
PK +1 K +1 = K ( K +1) − PK +1 K H T ( K +1) J −1 ( K +1)
(
)
J ( K +1) K ( K + 1) − PK +1 K H (TK +1) J (−K1 +1)
(
243
)
)
T
+ I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K avec :
J ( K +1) = H ( K +1) PK +1 K H T ( K +1) + G ( K +1) RK +1 GT ( K +1) = Cov I K +1 Seul le 1er terme de PK +1 K +1 dépend de K ( K +1) et est de la forme
M J M T avec J symétrique. Ainsi cette forme est de trace positive ou nulle et :
(
)
PK +1 K +1 = M J M T + I d − PK +1 K H T ( K +1) J −1 ( K +1) H ( K +1) PK +1 K Le minimum de la trace sera donc atteint quand M sera nul soit :
K ( K +1) = PK +1 K H T ( K +1) J −1 ( K +1) où :
(
K ( K +1) = PK +1 K H T ( K +1) H ( K +1) PK +1 K H (TK +1) + G ( K +1) RK +1G T ( K +1)
)
−1
résultat déjà obtenu ! et dans ces conditions quand :
(
)
PK +1 K +1 = I d − K ( K +1) H ( K +1) PK +1 K on obtient le minimum de la tr PK +1 K +1 . Il est important de noter que K , le gain de Kalman et la matrice de covariance de l’erreur d’estimation sont indépendants des grandeurs YK .
244
Processus stochastiques et filtrages optimaux
Nous pouvons aussi écrire la meilleure « prédite », à savoir Xˆ K +1 K en fonction de la précédente prédite :
(
Soit : Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1
)
Comme pour la « meilleure » filtrée, la meilleur prédite s’écrit en fonction de l’estimée prédite précédente pondérée du gain et de l’innovation apportée par la mesure YK . Cette équation de Kalman est utilisée non pas en filtrage mais en prédiction. Il nous faut à présent établir une relation sur l’évolution de la matrice de covariance des erreurs d’estimation. 7.3.6. Equation de Riccati
Ecrivons une relation d’évolution entre la matrice de covariance de l’erreur de filtrage et la matrice de covariance de l’erreur de prédiction :
(
PK K −1 = Ε X$ K K −1 X$ KT K −1
)
ou par incrémentation :
avec :
(
PK +1 K = Ε X$ K +1 K X$ KT +1 K
)
X$ K +1 K = X K +1 − Xˆ K +1 K
Par ailleurs nous savons que :
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + A ( K ) K ( K ) I K donnant la prédite à l’instant K +1 et X K +1 = Α ( K ) X K + C ( K ) N K ainsi que I K = YK − H ( K ) Xˆ K K −1 . La combinaison de ces écritures nous donne :
(
)
(
)
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 + C ( K ) N K
Le filtre de Kalman
245
Mais YK = H ( K ) X K + G ( K ) WK . Donc :
(
)
(
)
X$ K +1 K = Α ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) H ( K ) X K − Xˆ K K −1 − Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K
X$ K +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) X$ K K −1 − Α ( K ) K ( K ) G ( K ) WK + C ( K ) N K Nous pouvons à présent écrire PK +1 K en remarquant que :
X$ K K −1 ⊥ et
NK
X$ K K −1 ⊥ WK
REMARQUE.– Attention X$ K +1/ K n’est pas orthogonale à WK Donc :
PK +1 K = ( Α ( K ) − Α ( K ) K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C T ( K ) + Α ( K ) K ( K ) G ( K ) RK GT ( K ) K T ( K ) ΑT ( K ) Cette expression de la matrice de covariance de l’erreur de prédiction peut se mettre sous la forme :
PK +1 K = Α ( K ) PK K ΑT ( K ) + C ( K ) QK C T ( K ) . Cette égalité indépendante de YK porte le nom d’équation de Riccati. avec PK K = ( I d − K ( K ) H ( K ) ) PK K −1 qui représente la matrice de covariance de l’erreur de filtrage, également indépendante de YK . Voir Annexe A pour détails de calcul.
246
Processus stochastiques et filtrages optimaux
7.3.7. Algorithme et résumé
L’algorithme se présente donc sous la forme suivante , avec les conditions initiales :
P0 et Xˆ 0|0 données ainsi que les matrices : Α ( K ) , QK , H ( K ) , RK , C ( K )
et G ( K )
1) Phase de calcul indépendante des YK . En effet, à partir des conditions initiales, on s’aperçoit que la récursivité qui s’opère sur le gain K ( K + 1) et sur la matrice de covariance des erreurs de prédiction et de filtrage PK +1 K et PK +1 K +1 ne nécessite pas la connaissance du processus d’observations. Ainsi le calcul de ces matrices peut se faire en amont de tout calcul itératif. Quant aux observations, elles interviennent pour le calcul de l’innovation et de la filtrée ou de la prédite.
PK+1 K = Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
(
K ( K+1) = PK+1 K HT ( K+1) H ( K+1) PK+1 K HT ( K +1) + G ( K+1) RK+1 GT ( K+1) PK+1K+1 = ( Id − K ( K+1) H ( K+1) ) PK+1 K Xˆ K+1K = Α( K ) Xˆ K K T
(
T
ou K ( K + 1) = PK +1 K +1 H ( K + 1) G ( K +1) RK +1G ( K +1)
)
−1
T
si G ( K +1) RK +1G ( K +1) est inversible. 2) Phase de calcul tenant compte des réalisations y K du processus YK .
I K +1 = YK +1 − H ( K + 1) Xˆ K +1 K Xˆ K +1 K +1 = Xˆ K +1 K + K ( K + 1) I K +1
)
−1
Le filtre de Kalman
247
C’est par une nouvelle mesure que l’innovation calculée permettra, pondérée par le gain au même instant, de connaître la meilleure filtrée.
Figure 7.2. Schéma de principe du filtre de Kalman
Des compléments importants d’informations peuvent être obtenues dans [HAY 91]. REMARQUE.– Si nous avions conçu un prédicteur de Kalman, nous aurions obtenu l’écriture de la prédite.
(
)
Xˆ K +1 K = Α ( K ) Xˆ K K −1 + Α ( K ) K ( K ) YK − H ( K ) Xˆ K K −1 %&&&'&&&( IK
REMARQUE.– Lorsque les équations d’état et d’observations ne sont plus linéaires, une solution approchée existe et les résultats non démontrés sont donnés ci-après. Le filtre prend alors le nom de Filtre de Kalman étendu. 7.3.8. Equations du filtre de Kalman dans le cas non linéaire
Si :
X K +1 = A ( X K , K ) + C ( K ) N K et
YK
= H ( X K , K ) + G ( K ) WK
Les opérateurs A ( X K , K ) et H ( X K , K ) ne sont plus linéaires par rapport à la 1re variable X K .
248
Processus stochastiques et filtrages optimaux
Alors : °
°
= Α( K ) PK K ΑT ( K ) + C ( K ) QK CT ( K )
PK +1 K
−1
° ⎛° ⎞ ( ) ( ) ( ) K K +1 = PK +1 K Η K +1 ⎜ Η K +1 PK +1 K ΗT ( K +1) + G ( K +1) R ( K +1) GT ( K +1) ⎟ ⎜ ⎟ ⎝ ⎠ ° ⎛ ⎞ PK +1 K +1 = ⎜ Id − K ( K +1) Η ( K +1) ⎟ PK +1 K ⎝ ⎠ ) ⎛ ⎞ X K +1 K = A ⎜ Xˆ , K ⎟ K K ⎝ ⎠ , K +1 I = Y − H Xˆ ° T
K +1
(
K +1
K +1 K
)
Xˆ K +1 K +1 = Xˆ K +1 K + K ( K +1) I K +1 °
avec
Α (K )
=
∂A ( X K , K ) ∂X K X = Xˆ K K K
°
et
Η ( K +1) =
∂H ( X K +1, K +1) ∂X K +1 X
K +1
= Xˆ K +1 K
REMARQUE.– On utilise dans ce cas des dérivées de matrices, c’est-à-dire des matrices formées par les dérivées des coefficients. 7.4. Exercices du chapitre 7
Enoncé 7.1. Soit l’équation d’état
X K +1 = A X K + N K .
où la matrice d’état A est la matrice « identité » de dimension 2 et
N K le bruit de
système dont la matrice de covariance s’écrit Q = σ I d ( I d : matrice identité). 2
Le filtre de Kalman
249
Le système est observé par l’équation scalaire :
YK = X 1K + X K2 + WK où X 1K et X K2 sont les composantes du vecteur X K où
WK le bruit de mesure de variance R = σ 12 . P0|0 = Id et Xˆ 0|0 = 0 sont les conditions initiales. 1) Donner l’écriture du gain de Kalman K (1) à l’instant « 1 » en fonction de
σ
2
et
σ 12 .
2) Donner l’estimée de Xˆ 1|1 de X 1 à l’instant « 1 » en fonction de K (1) et de la 1re mesure de Y1 . Solution 7.1. 1) K (1) =
1+σ 2
⎛1⎞ ⎜ ⎟ 2 + 2σ 2 + σ 12 ⎝ 1 ⎠
2) Xˆ 1|1 = K (1)Y1 Enoncé 7.2.
On considère le mouvement d’une particule sur une droite.
x1 ( t ) représente la position de la particule et x2 ( t ) sa vitesse. t
x1 ( t ) = ∫ x2 (τ ) dτ + x1 ( 0 ) 0
En dérivant cette expression et en posant :
x2 (t ) =
dx1 ( t ) = dt
approximativement = x1 ( K +1) − x1 ( K ) .
On suppose que la vitesse peut être représentée par :
250
Processus stochastiques et filtrages optimaux
X K2 = X K2 −1 + N K −1 . Avec N K bruit stationnaire gaussien centré de variance 1. La position est mesurée par y K , réalisation du processus YK . Cette mesure ajoute un bruit stationnaire gaussien centré de variance 1 :
Y ( K ) = H ( K ) X ( K ) + WK On suppose que RK matrice de covariance (de dimension 1) du bruit de mesure égale à 1. 1) Donner les matrices A, Q (matrice de covariance de bruit de système) et H . 2) En prenant comme conditions initiales Xˆ 0 = Xˆ 0|0 = 0
P0|0 = I d
matrice identité, donner Xˆ 1|1 la 1re estimation du vecteur d’état. Solution 7.2.
⎛ 1 1⎞ ⎛0 0⎞ ; Q=⎜ ⎟ ⎟ ; H = (1 0 ) ⎝ 0 1⎠ ⎝0 1⎠
1) A = ⎜
⎛ 2) Xˆ 1|1 = ⎜
⎞ ⎟ Y1 ⎝1 3⎠ 23
Enoncé 7.3. [RAD 84]
On veut estimer deux positions de cibles par une seule mesure. Ces positions
X 1K
2
et X K forment le vecteur d’état :
(
X K = X 1K
X K2
)
T
Le bruit de système est nul.
Le filtre de Kalman
251
La mesure du processus Y est bruitée par W de valeur moyenne nulle et de variance R porte sur la somme des positions :
YK = X 1K + X K2 + WK Afin de simplifier les calculs, on se placera dans le cas d’une cible immobile :
X K +1 = X K = X . Les conditions initiales sont :
(
)
– P0|0 = C ov X$ , X$ = Id matrice identité ; – R = 0,1 ; – y = 2, 9 (mesure) et Xˆ 0|0 = ( 0
0) . T
1) Donner la matrice d’état A , et d’observation H . 2) Donner le gain de Kalman K . 3) Donner la matrice de covariance d’erreur d’estimation. 2
4) Donner l’estimée au sens du minimum dans L du vecteur d’état X K . 5) Si x = xK = (1
2 ) , donner l’erreur d’estimation T
x$ = x$K |K = xK − xˆ K |K . 6) Comparer les erreurs d’estimations aux variances de X$ K et X$ K et concluez. 1
Solutions 7.3. 1) A = I d
H = (1 1)
2) K = (1 2,1 1 2,1)
T
2
252
Processus stochastiques et filtrages optimaux
⎛ 1,1 2,1 3) P1|1 = ⎜ ⎜ −1 ⎝ 2,1
−1
2,1 ⎞
1,1
2,1 ⎠
4) xˆ1|1 = ( 2, 9 2,1
(
1
x$ K2
5) x$ K = x$ K
⎟⎟
2, 9 2,1)
T
)
T
= ( −0, 38 − 0, 62 )T
1 2 6) var X$ K = var X$ K = 0, 52
Enoncé 7.4.
Soit l’équation d’état de dimension 1 (le processus d’état est un processus scalaire) :
X K +1 = X K . L’état est observé par 2 mesures : Y1 W1 YK = ⎛⎜ YK2 ⎞⎟ bruitées avec WK = ⎛⎜ WK2 ⎞⎟ ⎝ K⎠ ⎝ K⎠
Le bruit de mesure est caractérisé par sa matrice de covariance :
σ2 RK = ⎛⎜ O1 σO2 ⎞⎟ . 2 ⎠ ⎝ Les conditions initiales sont :
P0|0 = 1 (covariance de l’erreur d’estimation à l’instant « 0 »), ˆ = 0 (estimée de X à l’instant « 0 »). et X 0|0
Posons D = σ 1 + σ 2 + σ 1 σ 2 . 2
2
2
2
Le filtre de Kalman
253
1) Donner l’écriture de K(1) gain de Kalman à l’instant « 1 » en fonction de σ 1 , σ 2 et D . 2) Donner l’estimée Xˆ 1|1 de X 1 à l’instant « 1 » en fonction des mesures de
Y11 , Y12
et σ 1,σ 2 et D .
σ 12 σ 22 3) En posant σ = 2 σ 1 +σ 22 l’instant « 1 » en fonction de σ . 2
donner P1|1 la covariance de l’erreur d’estimation à
Solutions 7.4.
⎛ σ 12 1) K (1) = ⎜ ⎝ D
(
2 σ2 ⎞ ⎟ D ⎠
2) Xˆ 1|1 = σ 2 Y1 + σ 1 Y1
3) P1|1 =
2 1
2
2
)/ D
σ2 1+σ
2
Enoncé 7.5.
La distance fixe d’un objet est évaluée par 2 mesures radar de qualités différentes. La 1re mesure donne le résultat :
y1 = r + n1 , mesure du processus Y = X + N1 où l’on sait que le bruit N1 est tel que :
E ( N1 ) = 0 et var ( N1 ) = σ 12 = 10-2 La 2e mesure donne : y 2 = r + n2
mesure du processus Y = X + N 2 .
254
Processus stochastiques et filtrages optimaux
E ( N 2 ) = 0 et var ( N 2 ) = w (scalaire) Les bruits N1 et
N 2 sont indépendants
1) Donner l’estimée rˆ1 de r que l’on obtient à partir de la 1re mesure. 2) Affiner cette estimée en utilisant la 2e mesure. Nous appellerons rˆ2 cette
nouvelle estimée que nous écrirons en fonction de w . 3) Tracer la courbe rˆ2 ( w) et justifier son allure. Solutions 7.5. 1) rˆ1 = xˆ1|1 = y1 2) rˆ2 = xˆ2|2 = y1 +
σ 12 σ 12
+w
( y2 − y1 ) =
100 wy1 + y2 100 w + 1
3) Voir figure 7.3.
Figure 7.3. Tracé de l’évolution de l’estimée en fonction de la puissance du bruit w, paramétrée selon les grandeurs des mesures
ANNEXES
Annexe A Résolution de l’équation de Riccati Montrons que : PK +1 K = A ( K ) PK K A ( K ) + C ( K ) QK C ( K ) T
T
Reprenons l’écriture développée de la matrice de covariance de l’erreur de prédiction du paragraphe 7.3.6.
PK +1 K = Α ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ( Α ( K ) − Α ( K ) K ( K ) H ( K ) )
T
+ C ( K ) QK C(TK ) + Α ( K ) K ( K ) G ( K ) RK G T ( K ) K T ( K ) ΑT ( K ) avec :
K ( K ) = PK K −1 H T ( K ) ( Cov I K )
−1
et :
Cov I K = H ( K ) PK K −1 H (TK ) + G ( K ) RK G T ( K ) En remplaçant K ( K ) et Cov I K , par leurs expressions, dans l’écriture récursive de PK +1 K , nous allons pouvoir simplifier l’expression de la matrice de covariance de l’erreur de prédiction.
256
Processus stochastiques et filtrages optimaux
Pour alléger les écritures, nous allons, supprimer les indice K quand il n’y aura pas d’ambiguïté en posant P1 = PK +1 K , P0 = PK K −1 et I = I K
(
)
P1 = A I d − KH P0 ( Α − ΑKH ) + C Q C T + Α K G R G T K T ΑT T
K = P0 H T ( Cov I )
−1
Cov I = H P0 H T + G R GT Ainsi :
G R G T = Cov I − H P0 H T K G R G T K T = P0 H T ( Cov I )
(
−1
( Cov I − H P
0
H T ) ( Cov I )
= P0 H T − P0 H T ( Cov I ) H P0 H T −1
KGRGT K T = P0 H T ( cov I )
−1T
−1T
) ( Cov I )
−1T
HP0T − P0 H T ( cov I ) HP0 H T ( cov I ) −1
H P0T H P0T
−1T
HP0T
P1 = AP0 AT − AKHP0 AT − AP0 H T K T AT + AKHP0 H T K T AT + CQC T + (+ P0 H T ( cov I )
−1T
−1
HP0T − P0 H T ( cov I ) HP0 H T ( cov I )
−1T
HP0T ) AT
soit en remplaçant K par son expression. −1
P1 = AP0 AΤ − A P0 H T ( Cov I ) HP0 AT − AP0 H T ( Cov I ) !""#""$
−1T
HP0T AT
K
+ AP0 H
(
Τ
( Cov I )
−1
+ A P0 H Τ ( Cov I )
HP0 H T ( Cov I )
−1T
−1T
HP0T AT + CQC T −1
HP0T − P0 H T ( Cov I ) HP0 H T ( Cov I )
−1T
)
HP0T AT
Le 3e et le 6e terme s’annulent le 4e et le 7e terme s’annulent également et il nous reste : P1 = AP0 A − AKHP0 A + CQC T
(
T
)
ou : P1 = A ⎡ I d − KH P0 ⎤ A + CQC ⎣ ⎦ T
T
T
Annexes
257
PK +1 K = A ( K ) ( I d − K ( K ) H ( K ) ) PK K −1 ) AT ( K ) + C ( K ) QK C T ( K ) !""""#"""" $ PK K Ainsi :
PK +1 K = A ( K ) PK K AT ( K ) + C ( K ) QK C T ( K ) = matrice de covariance de l’erreur de prédiction avec :
PK K = ( I d − K ( K ) H ( K ) ) PK K −1 = matrice de covariance de l’erreur de filtrage Résultat que nous allons démontrer dans l’annexe B. REMARQUE.– Comme il a été dit au paragraphe 7.3.7. connaissant les conditions initiales sur les matrices de covariance
PK |K −1
et
PK |K
la réactualisation du calcul
du gain permet les connaissances sur ces matrices de manière itérative. Annexe B Nous allons aboutir à ce résultat en partant de la définition de P
K K
et en
utilisant l’écriture de la fonction K déjà obtenue. REMARQUE.– A la différence du calcul développé au paragraphe 7.3.6. nous ne montrerons pas que la trP obtenue est minimale. K K
Une autre manière de montrer le résultat suivant :
(
)
PK K = Ε X% K K X% TK K = PK K −1 − K ( K ) H ( K ) PK K −1
(
)
= Id − K ( K ) H ( K ) P
K K −1
258
Processus stochastiques et filtrages optimaux
Preuve : En partant de la définition de la matrice de covariance de l’erreur de filtrage, soit :
PK |K
=
(
E X% K |K X% TK |K
)
Il vient avec X% K | K = X K − Xˆ K |K et Xˆ K K = Xˆ K K −1 + K ( K ) I K Soit X% K K = X K − Xˆ K K −1 − K ( K ) I K
!" "#"" $ X% K K −1
Utilisons à présent ces résultats pour le calcul de PK |K :
(
) (
)
PK K = PK K −1 − K ( K ) Ε I K X% KT K −1 − Ε X% K K −1 I KT K (TK ) + K ( K ) Ε ( I K I KT ) K T ( K ) Nous remarquons que :
(
) (
)
Ε X% K K −1 I KT = Ε X K − Xˆ K K −1 I KT Or I j ⊥ I K et I j ⊥ YK
j ∈ [1, K − 1]
donc Xˆ K K −1 ⊥ I K Soit :
(
) (
) (
Ε X% K K −1 I KT = Ε X K I KT = E A−1 ( K ) ( X K +1 − C ( K ) N K ) I KT
(
)
(
Alors : Ε X K I K = Ε A T
Car Ε ( N K ) = 0
−1
( K ) X K +1 I KT
)
)
Annexes
259
Mais nous avons vu par ailleurs que :
(
Ε ( X K +1 I KT ) = E ( A ( K ) X K + C ( K ) N K ) H ( K ) X% K |K −1 + G ( K )WK =
(
)
)
T
E A ( K ) X K X% TK |K −1 H T ( K )
car : N K ⊥ WK et N K ⊥ X% K |K −1 = X K
(
)
−
(
Xˆ K |K −1
)
T T Par ailleurs : E X K X% K |K −1 = E Xˆ K |K −1 + X% K |K −1 X% K |K −1 = PK |K +1
Car Xˆ K |K −1
⊥
X% K |K −1
Ainsi il vient :
(
)
Ε X% K K −1 I KT = PK K −1H T ( K ) donc :
PK K = PK K-1 − K ( K ) H ( K ) PKT K −1 − PK K −1H T ( K ) K T ( K ) + K ( K ) ( Cov I K ) K T ( K ) T avec K ( K ) = PK K −1 H ( K ) ( Cov I K )
−1
après simplification et en notant que
PK K = PK K matrice symétrique ou hermitienne si les éléments sont complexes : T
PK K = PK K −1 − K ( K ) H ( K ) PK K −1 ou :
PK K = [ I d − K ( K ) H ( K ) ] PK K −1 CQFD
260
Processus stochastiques et filtrages optimaux
Exemples traités en utilisant le logiciel Matlab : Premier exemple d’un filtrage de Kalman L'objectif est d'estimer une constante inconnue noyée dans le bruit. Cette constante est mesurée par un capteur bruité. Le bruit est centré, gaussien de variance égale = 1. Les conditions initiales sont égales à 0 pour l'estimée et égale à 1 pour la variance de l'erreur d'estimation. clear t=0:500; R0=1; constante=rand(1); n1=randn(size(t)); y=constante+n1; subplot(2,2,1) %plot(t,y(1,:)); plot(t,y,'k');% en N&B grid title('capteur') xlabel('temps') axis([0 500 -max(y(1,:)) max(y(1,:))]) R=R0*std(n1)^2 ;%variance du bruit de mesure P(1)=1;%conditions initiales sur la variance de l'erreur d'estimation x(1)=0; for i=2:length(t) K=P(i-1)*inv(P(i-1)+R); x(i)=x(i-1)+K*(y(:,i)-x(i-1)); P(i)=P(i-1)-K*P(i-1); end err=constante-x; subplot(2,2,2) plot(t,err,'k'); grid title('erreur'); xlabel('temps')
Annexes
261
axis([0 500 -max(err) max(err)]) subplot(2,2,3) plot(t,x,'k',t,constante,'k');% en N&B title('x extimée') xlabel('temps') axis([0 500 0 max(x)]) grid subplot(2,2,4) plot(t,P,'k');% en N&B grid,axis([0 100 0 max(P)]) title('variance erreur estimation') xlabel('temps')
Figure A 1. Tracé de la mesure, de l’erreur, de la meilleure filtrée et la variance de l’erreur
Second exemple du filtrage de Kalman L'objectif de cet exemple est d'extraire une sinusoîde amortie dans du bruit. Le vecteur d'état est un vecteur colonne à 2 composantes : X1=10*exp(-a*t)*cos(w*t) X2=10*exp(-a*t)*sin(w*t)
262
Processus stochastiques et filtrages optimaux
Le bruit de système est centré, gaussien et de variance var(u1) et var(u2). Le bruit de mesures est centré, gaussien et de variance var(v1) et var(v2). Conditions initiales : Les composantes du vecteur d'état sont nulles à l'origine et la matrice de covariance de l'erreur d'estimation est initialisée à 10* matrice identité. REMARQUE.– Le programme proposé n'est pas le plus court et le plus rapide au sens du temps CPU, il est détaillé pour permettre une meilleure compréhension. clear %simulation a=0.05; w=1/2*pi; Te=0.005; Tf=30; Ak=exp(-a*Te)*[cos(w*Te) -sin(w*Te);sin(w*Te) cos(w*Te)];%matrice d'état Hk=eye(2);%matrice d'observations t=0:Te:Tf; %X1 X1=10*exp(-a*t).*cos(w*t); %X2 X2=10*exp(-a*t).*sin(w*t); Xk=[X1;X2];% vecteur d'état %bruit de mesures sigmav1=100; sigmav2=10; v1=sigmav1*randn(size(t)); v2=sigmav2*randn(size(t)); Vk=[v1;v2]; Yk=Hk*Xk+Vk;%vecteur de mesures %matrice de covariance du bruit de mesures Rk=[var(v1) 0;0 var(v2)];%matrice de covariance des bruits %initialisation sigmau1=0.1;%bruit de système sigmau2=0.1;%idem
Annexes
u1=sigmau1*randn(size(t)); u2=sigmau2*randn(size(t)); %Uk=[sigmau1*randn(size(X1));sigmau2*randn(size(X2))]; Uk=[u1;u2]; Xk=Xk+Uk; sigq=.01; Q=sigq*[var(u1) 0;0 var(u2)]; sigp=10; P=sigp*eye(2);%matrice de covariance d'erreur d'estimation P(0,0) %tracé subplot(2,3,1) %plot(t,X1,t,X2); plot(t,X1,'k',t,X2,'k')% en N&B axis([0 Tf -max(abs(Xk(1,:))) max(abs(Xk(1,:)))]) title('sign. à filtrer x1 et x2') subplot(2,3,2) %plot(t,Vk(1,:),t,Vk(2,:),'r') plot(t,Vk(1,:),t,Vk(2,:));% en N&B axis([0 Tf -max(abs(Vk(1,:))) max(abs(Vk(1,:)))]) title('bruits de mes.w1 et w2') subplot(2,3,3) %plot(t,Yk(1,:),t,Yk(2,:),'r'); plot(t,Yk(1,:),t,Yk(2,:));% en N&B axis([0 Tf -max(abs(Yk(1,:))) max(abs(Yk(1,:)))]) title('sign.mesurés y1 et y2') Xf=[0;0]; %%estimation et prédiction par kalman for k=1:length(t); %%prediction Xp=Ak*Xf; % Xp=Xest(k+1,k) et Xf=Xest(k,k) Pp=Ak*P*Ak'+Q; % Pp=P(k+1,k) et P=P(k)
263
264
Processus stochastiques et filtrages optimaux
Gk=Pp*Hk'*inv(Hk*Pp*Hk'+Rk); % Gk=Gk(k+1) Ik=Yk(:,k)-Hk*Xp;% Ik=I(k+1)=innovation %meilleure filtrée Xf=Xp+Gk*Ik; % Xf=Xest(k+1,k+1) P=(eye(2)-Gk*Hk)*Pp;% P=P(k+1) X(:,k)=Xf; P1(:,k)=P(:,1);%1ère colonne de P P2(:,k)=P(:,2);%2eme colonne de P end err1=X1-X(1,:); err2=X2-X(2,:); %%traçé subplot(2,3,4) %plot(t,X(1,:),t,X(2,:),'r') plot(t,X(1,:),'k',t,X(2,:),'k')% en N&B axis([0*Tf Tf -max(abs(X(1,:))) max(abs(X(1,:)))]) title('estimées x1 et x2') subplot(2,3,5) %plot(t,err1,t,err2) plot(t,err1,'k',t,err2,'k')% en N&B axis([0 Tf -max(abs(err1)) max(abs(err1))]) title('erreurs') subplot(2,3,6) %plot(t,P1(1,:),'r',t,P2(2,:),'b',t,P1(2,:),'g',t,P2(1,:),'y') plot(t,P1(1,:),'k',t,P2(2,:),'k',t,P1(2,:),t,P2(1,:),'b') %rouge P11, blue P22, vert P21, jaune P12 axis([0 Tf/10 0 max(P1(1,:))]) title('covar.err.estimation.')% p11, p22, p21 et p12
Annexes
Figure A 2. Tracé des signaux sans bruits, des bruits de mesures, des mesures, des filtrées, des erreurs et des variances
265
TABLE DES SYMBOLES ET NOTATIONS
N, R, C
Ensembles numériques.
L2
Espace des fonctions de carré sommable.
p.s.
« presque sûrement ».
E
Espérance mathématique.
v.a.
variable aléatoire.
v.a.r.
variable aléatoire réelle.
p.s. X n ⎯⎯⎯ →X
Convergence p.s. de la suite X n vers X .
⋅, ⋅ L2 ( )
Produit scalaire dans L2 .
⋅
Norme L2 .
L2 (
)
Var
Variance.
Cov
Covariance.
⋅∧⋅
min ( ⋅ , ⋅) .
X ∼ N (m, σ 2 )
Loi normale de moyenne m et de variance
σ2.
268
Processus stochastiques et filtrages optimaux
AT
Matrice A transposée.
HKY
Espace de Hilbert engendré par YN , processus scalaires ou multivariés.
Pr ojHY
Projection sur l’espace de Hilbert engendré par Y( t ≤ K ) .
XT
Processus stochastique défini sur T ( le temps décrit T ).
p.a.o.
Processus à accroissements orthogonaux.
p.a.o.s.
Processus à accroissements orthogonaux et stationnaires.
Xˆ K |K −1
Prédite à l’instant
K
K
connaissant les mesures du
processus YK des instants 1 à K −1 .
X" K |K −1
Erreur de prédiction.
Xˆ K |K
Filtrée à l’instant K connaissant ses mesures des instants 1 à K.
X" K |K
Erreur de filtrage.
∇λ C
Gradient de la fonction C ( λ ) .
BIBLIOGRAPHIE
[BER 98] BERTEIN J.C., CESCHI R., Processus stochastiques et filtrage de Kalman, Editions Hermès, 1998. [BLA 01] BLANCHET G., CHARBIT M., Signaux et images sous Matlab, Editions Hermès, 2001. [BOL 87] BOLAND F.M., FOLEY J.B., « Stochastic Convergence of the LMS Algorithm in Adaptive Systems », Signal processing, North Holland 13, 1987. [CHU 87] CHUI C.K., CHEN G. Kalman filtering, Editions Springer-Verlag, 1987. [GIM 82] GIMONET B., LABARRERE M., KRIEF J.-P., Le filtrage et ses applications, Editions Cépadues, 1982. [HAY 91] HAYKIN S., Adaptive Filter Theory, Prentice Hall, 1991. [MAC 81] MACCHI O., « Le filtrage adaptatif en télécommunications », Annales des Télécommunications, 36, n° 11-12, 1981. [MET 72] METIVIER M., Notions fondamentales de la théorie des probabilités, Editions Dunod, 1972. [MOK 00] MOKHTARI M., Matlab et Simulink pour étudiants et ingénieurs, Editions Springer, 2000. [RAD 84] RADIX J.-C., Filtrages et lissages statistiques optimaux linéaires, Editions Cépadues, 1984. [SHA 88] SHANMUGAN K.S., BREIPOHL A.M., Random Signal, John Wiley & Sons, 1988. [THE 92] THERRIEN C.W., Discrete Random Signals and Statistical Signal Processing, Prentice Hall, 1992. [WID 85] WIDROW B., STEARNS S.D., Adaptive Signal Processing, Prentice Hall, 1985.
INDEX
A, B, C
adaptatif 193 aléatoire à densité 22 analytiques 184 annulation 195 auto-régressif 131 axes principaux 209 blanchiement 184 borélienne 17 bruit blanc 113, 183 de mesure 226 de système 226 causal 185 coefficients 180 de corrélation 51 colinéaires 204 convergence 204, 211 convergent 212 coût 203, 212 covariance 51 D, E, F
déconvolution 195 dégénérée 72 densité spectrale 111 déterministe 207, 211 équation de transition 233 ergodicité 103 erreur de prédiction 236 minimale 183
quadratique moyenne 198 espace de Hilbert 147, 181 linéaire 109 linéaire d'observation 167 estimation 236 filtrage 144, 234 filtrée 237, 240 Finite Impulse Response (FIR), 181 fonction caractéristique 18 coût 147, 198 covariance 112 d'autocorrelation 106 de répartition 25 de transfert 124, 184 G, I, J, L
gain de Kalman 240 gradient stochastique 205 gradient 202 identification 195 indépendance 26 indépendants 233, 254 Infinite Impulse Response (IIR), 184 innovation 228 intercorrelation 186 jacobien 84 lissage 144, 234
272
Processus stochastiques et filtrages optimaux
M, N, O
marginales 23 matrice 244 de covariance 74 de covariance de l'erreur de filtrage 240 de covariance de l'erreur de prédiction 236, 243, 244 de covariance du processus d'innovation 235 de mesures 233 d'état 232 orthogonale 209 Q unitaire 209 mesure P 18 multivariés 166 multivecteur 231, 232 non récursif 195 orthogonal 189 P, Q, R, S
phase minimale 184 plan de régression 152 prédicteur 195 prédiction 144, 195, 234 prédite 244 processus à temps discret 99 de Markov 106 d'innovation 171 multivarié 203, 236 stationnaire du second ordre 179, 180 projection 226
quadratique 209 moyenne 181 réponse impulsionnelle 179 Riccati 245 singulière 182 stabilité 211 stable 212 stationnarité 101 du second ordre 102, 195 stochastique 99, 213 T, V, W
théorème de Paley-Wiener 184 de projection 181, 199 Toeplitz 203, 209 trace 243 trajectoire 100 tribu 16 valeurs propres 82, 208 variables aléatoires 191, 226, 227 variance 50 vecteur aléatoire 17 bruit de mesures 233 bruit de système 232 d'état 232 d'observations 232 espérance 75 propre 82, 209 Wiener 179