Pratique du calcul bayesien
Springer Paris Berlin Heidelberg New York Hong Kong Londres Milan Tokyo
Jean-Jacques Boreux " Eric Parent Jacques Bernier
Pratique du calcul bayesien
~ Springer
Jean-Jacques Boreux
Universite de Liege (ULg) Departement des Sciences et Gestion de l' environnement 185, avenue de Longwy 6700 Arlon Belgique
Eric Parent
AgroParisTech 16, rue Claude-Bernard 75231 Paris Cedex 05
Jacques Bernier
Le Pech-de-Biaud 24250 Saint-Martial-de-Nabirat
ISBN-13 : 978-2-287-99666-5 Springer Paris Berlin Heidelberg New York © Springer-Verlag France, Paris, 2010
Imprime en France
Springer- Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits reserves, notamment la reproduction et la representation, la traduction, la reimpression, I'expose, la reproduction des illustrations et des tableaux, la transmission par voie d'enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conservation des banques de donnees. La loi francaise sur le copyright du 9 septembre 1965 dans la version en vigueur n' autorise une reproduction integrale ou partielle que dans certains cas, et en principe moyennant le paiement de droits. Toute representation, reproduction, contrefacon ou conservation dans une banque de donnees par quelque precede que ce soit est sanctionnee par Ia loi penale sur Ie copyright. L'utilisation dans cet ouvrage de designations, denominations commerciales, marques de fabrique, etc. meme sans specification ne signifie pas que ces termes soient libres de la legislation sur les marques de fabrique et Ia protection des marques et qu' ils puissent etre utilises par chacun. La maison d' edition decline toute responsabilite quant a I'exactitude des indications de dosage et des modes d' emploi, Dans chaque cas, il incombe a I' usager de verifier les informations donnees par comparaison ala litterature existante.
Maquette de couverture : Jean-Francois Montmarche
Collection
Statistique et probabilites appliquees dlrigee par Yadolah Dodge Professeur Honoraire Universite de Neuchatel Suisse
[email protected]
Comlte editorial : Christian Genest
Stephan Morgenthaler
Departement de Mathematiques et de statistique UniversiteLaval Quebec GIK 7P4 Canada
Ecole Polytechnique Federale de Lausanne Departement des Mathematiques 1015 Lausanne Suisse
Marc Hallin
Gilbert Saporta
Universite libre de Bruxelles Campus de la Plaine CP 210 1050 Bruxelles Belgique
Conservatoire national des arts et metiers 292, rue Saint-Martin 75141 Paris Cedex 3 France
Ludovic Lebart
Telecom-Paris'Iech 46, rue Barrault 75634 Paris Cedex 13 France
Dans la meme collection : - Statistique. La theorie et ses applications
Michel Lejeune, avril 2004 - Optimisation appliquee
Yadolah Dodge, octobre 2004 - Le choix bayesien. Principes et pratique
Christian P. Robert, novembre 2005 - Maitriser l' aleatoire. Exercices resolus de probabilites et statistique
Eva Cantoni, Philippe Huber, Elvezio Ronchetti, novembre 2006
- Regression. Theorie et applications Pierre-Andre Cornillon, Eric Matzner-Lober, janvier 2007 - Le raisonnementbayesien. Modelisation et inference Eric Parent, Jacques Bernier,juillet 2007 - Premiers pas en simulation Yadolah Dodge, Giuseppe Melfi, juin 2008 - Genetique statistique Stephan Morgenthaler, juillet 2008 - Maitriser l'aleatoire. Exercices resolusde probabiliteet statistique, deuxieme edition Eva Cantoni, Philippe Huber, Elvezio Ronchetti, septembre 2009
Preface Le troisicme millenaire sera, dit-on, celui de l'information. Aussi la statistique y sera-t-elle appelee a jouer un role important et le paradigme bayesien plus que tout autre, puisqu'il offre un cadre de raisonnement bien adapte a I'integration des opinions et des faits de toutes provenances qui interviennent dans la gestion des risques et la prise de decision en contexte d'incertitude. De la collecte de donnees a la prevision, l'analyse statistique pose plusieurs defis. L'elaboration du modele rcprcsentc sans doute la phase la plus delicate de l'exercice, car elle doit repondre a un double imperatif de realisme et de parcimonie. Hormis quelques cas de figure, une demarche bayesienne n'est envisageable qu'a charge de disposer d'outils efficaces pour la quantification et la mise a jour de l'information. Jouissant d'une expertise considerable dans le dornaine, les auteurs avaient deja brosse un tableau du Traitement bauesien de l'incertitude en sciences de l'environnement dans un ouvrage paru en 2000. Six ans plus tard, Christian Robert publiait chez Springer Le choix bayesien - Principes et pratique, expose des fondements de la theorie qu'Eric Parent et Jacques Bernier completaient plaisamment en 2007 avec Le raisonnement btnjesien - Modelisatiori et inference, paru dans la meme collection. Aujourd'hui, pour notre plus grand plaisir, Jean-Jacques Boreux, Eric Parent et Jacques Bernier joignent a nouveau leurs forces pour nous instruire dans la Pratique du calcul bayesien. A l'aide d'exemples concrets, nombreux et varies, ils nous initient a la construction de modeles bayesiens et au maniement de l'imposant arsenal de calcul necessaire a leur mise en oeuvre. Au passage, ils s'efforcent aussi d'aiguiser notre esprit critique! De l'halieutique a l'hydrometeorologie, en passant par la mesure des risques d 'avalanche, de pneumoconiose ou de pollution en milieu clos, les auteurs decortiquent et analysent pour nous divers jeux de donnees issus de la pratique. Partant de series temporelles, de valeurs extremes ou d'effectifs de capturerecapture, ils nous montrent tantot comment decrire des relations entre plusieurs variables au moyen de graphes acycliques orientes, tant6t comment batir ou affiner des modeles lineaires, generalises ou hierarchiques definis par conditionnements successifs. A l'occasion, ils font aussi appel au logiciel WinBUGS pour illustrer le calcul de lois a posteriori au moyen de l'algorithme de Metropolis-Hastings ou de techniques particulaires dernier cri.
Vlll
Pratique du calcul bayesien
Dans un souci didactique evident, les auteurs ont menage une gradation dans le degre de complexite des problemes etudies, Les premiers chapitres abordent des cas relativement simples, faciles a resoudre et bien adaptes a l'apprentissage des rudiments; les enseignants s'en inspireront avec bonheur. Les applications « grandeur nature» presentees en seconde partie font quant a elles un abondant usage de structures hierarchiques, de variables latentes et autres savantes constructions; le savoir-faire statistique et le genie du calcul numerique y apparaissent ici dans toute leur splendeur. Pour reprendre l'aimable locution des auteurs, le lecteur est ainsi progressivement amene « de la plume a la souris» et il en ressort ebloui et grandi. Gageons que specialistes et utilisateurs de la statistique s'approprieront rapidement ce beau livre et qu'ils reconnaitront en lui un guide sur et accessible des principes modernes du calcul bayesian. Bonne lecture! Christian Genest, professeur Universite Laval, Quebec President sortant de la Societe statistique du Canada et de l' Association des statisticiennes et statisticiens du Quebec
Avant-propos L'anticipation est une composante essentielle des capacites d'adaptation d 'une societe et la statistique peut etre definie comme « l' art de raisonner de facon quantitative en avenir incertain ». Elle intervient dans toutes les disciplines scientifiques OU se melent savoir et donnees. Elle est done utilisee par les physiciens, les economistes, les ingenieurs, les geographes, les biologistes, les assureurs, les psychologues, les metcorologues, les gestionnaires d'entreprises, etc., bref, par tous les praticiens soucieux de batir sur des fondations solides un pont entre theorie et donnees experimentales. Comme dans toutes les disciplines scientifiques, il faut d'emblee fixer le niveau qu'on se propose d'atteindre. II nous semble que quatre niveaux suffisent a preciser les compctcnces. - Comme son qualificatif l'indique, le niveau elementaire est une prise de contact avec la discipline en question. S'agissant de la statistique, l'etudiant saisit le sens general de la modelisation probabiliste, connait les distributions de base et est autonome dans des situations simples. - Le niveau suivant vise une qualification operationnelle, Ici I'etudiant est capable de construire un modele qui repond a un questionnement. II manie les outils modernes de l'inference statistique, interprete et critique lcs resultats obtenus. - Le niveau suivant est la maitrise des concepts mathematiqucs qui justifient les procedures utilisees, A ce niveau, le statisticien fait preuve d'une tres grande creativite, comprend pourquoi une procedure faillit et sait y remedier. - Enfin, le quatrieme niveau est celui de la recherche fondamentale qui, par definition, introduit des nouvelles idees et./ou generalise des concepts existants sans avoir neccssaircmcnt de visec operationnelle au moment des travaux. Bien sur, il n'existe pas de separation nette entre ces niveaux mais, pour cet ouvrage, notre ambition est clairement une qualification operaiumnelle en statistique baueeiemic avec, peut-etre, quelques incursions au niveau maitrise. Avant de preciser cette ambition, il nous semble utile de remonter aux origines de ce livre. Construire un modele statistique paromeirique a des fins decisionncllcs, c 'est oser avoir tort en maximisant ses chances d'avoir raison! Cette repartie
x
Pratique du calcul bayesien
vint un jour a l'esprit du premier auteur face a des etudiants en sciences de l'environnement, inquiets et perplexes. II faut bien le reconnaitre, la plupart des etudiants redoutent le cours de stat, notamment a cause du langage mathematique qui Ie sous-tend. II est done tentant dadherer a tout courant de pensec qui relativise sa portee, surtout si on confond la statistique avec les statistiques qui incluent les algorithmes de calcul et les techniques d'analyses de donnees. C'est pourquoi il nous semble indispensable de bien distinguer la phase creairice de la phase calculatoire. La premiere, la modelisaiion: consiste essentiellement a imaginer un mecanisme probabiliste susceptible de produire les donnees ou observations d'interet. Bien sur, dans cette phase, le modelisateur ne s'interdit pas d'avoir aussi recours aux techniques eprouvees d'analyses exploratoires des donnees, afin de mettre en evidence rapidement les traits saillants de l'echantillon. La seconde, l'inference, a pour objet de preciser les parametres du modele probabiliste retenu en remontant des effets (les observations) vers les causes (les parametres). C'est l'inference statistique, dont la mise en oeuvre implique un savoir-faire technique, qui permet l'aide a la decision sous incertitude. En effet, des qu'on dispose de la meilleure connaissance possible des quantites incertaines - il faut pour cela mobiliser toute l'information disponible, ce qui justifie le choix bayesien adopte dans cet ouvrage - on peut donner la distribution de probabilite de toute grandeur interessante pour Ie dccideur. II faut cependant bien reconnaitre que, hormis les maitrises et doctorats en statistique, la plupart des cursus scientifiques se contentent d'une formation assez basique - le niveau elemeniairc n' est pas toujours atteint! - ce qui est paradoxal si on admet son implication dans toutes les sciences experimentales. II faut en rechercher la raison dans le passe. Naguere, le statisticien devait brider sa creativite tout en etant tres bon en math. On peut donc comprendre la reticence des etudiants et des scientifiques non matheux, forces de retenir leur imagination et de s'exprimer dans une langue qu'ils ne maitrisaicnt pas. En particulier, le paradigme bayesien, grand consommateur de calcul integral, ri'etait accessible qu'a une elite, assez peu en prise avec les problemes rencontres par les praticiens des sciences experimentales : les premiers avaient les idees, les seconds les donnees. Les PC rapides ont modifie la donne puisqu'ils ont permis I'emergence des techniques de Monte-Carlo, lesquelles, reduisant fortement les difficultes calculatoires, liberent la creativite du modelisateur. Aujourd'hui, un modele statistique parametrique bayesien est efficacement represente par un assemblage de noeuds relies par des fleches indiquant des relations de cause a effet. Les reseaux bayesiens associent la theorie des graphes, pour la complexite, a la theorie bayesienne, pour la quantification des incertitudes. Les probabilites conditionnelles sont le ciment de ces assemblages. Une fois le roseau construit, l'inference bayesienne precise la distribution de probabilite des parametres (c'est-a-dire les causes) a partir de deux sources d'information : les observations (c'est-a-dire les effets) et l'expertise. Associes aux techniques de Monte-Carlo, les reseaux bayesiens favorisent le dialogue interdisciplinaire et, par la, des modeles innovants
Avant-propos
Xl
et utiles, Notre ambition est que ce livre apporte aux etudiants et aux praticiens synthese et savoir-faire. Pour les fondements plus theoriques, nous renvoyons Ie lecteur a des ouvrages specialises, notamment celui d'Eric Parent et de Jacques Bernier, Le raisonnement bayesien - Modelisaiion et inference et a celui de Christian Robert, Le choix bayesien - Principes et pratique, tous deux publics dans cette meme collection. Pratique du calcul bayesien suit un fil conducteur qui pourrait etre resume par la locution De la plume. . . a la souris. La premiere partie, De la plume, decrit des cas reels relativement simples pour lesquels l'approche bayesienne peut etre monee a la main, sans recours a l'ordinateur. La seconde partie, a la souris, presente des modeles statistiques parametriques plus elabores, impliquant souvent des variables latentes dans une structure hierarchique, Ici, l'inference bayesienne est difficile, voire impossible, sans recours a l'ordinateur. Les reseaux bayesiens et les techniques les plus utiles de Monte-Carlo (avec dependance ou independance) font lc lien entre ces deux parties. Remerciements L'idee de cet ouvrage est nee de l'experience acquise au cours de Statistique Pratique de la collecte et du traitement de l'information environnementale : traitement bayesien de l'incertitude dispense au departement des Sciences et Gestion de 1'Environnement de l'universite de Liege, site d'Arlon (ex-FUL). Sur cette base vinrent s'appuyer les cas reels d'etudes provenant de stagiaires, dingenieurs ou de candidats au doctorat de nos institutions. Un merci tout special a Etienne Prevost (INRA) et a Etienne Rivot (Agrocampus Rennes) qui nous ont permis d'utiliser leurs donnees et travaux pour la realisation des chapitres huit et douze Iondes sur la vie des saumons. Dans Ie me me etat d'esprit, le chapitre dix doit beaucoup aux investigations de M. Philippe Girard, aujourd'hui en poste chez Nestle. Cependant, sans l'appui de nos institutions respectives, I'universite de Liege et l'Ecole nationale du genie rural des eaux et des forets (aujourd'hui AgroParisTech), nous n' aurions pu mener cette tache a bien. Nous tenons a les en remercier. Enfin, Mme Germaine Gazano no us a permis de nous isoler dans son petit paradis Corse, a l'abri des derangements de toute sorte, pour le sprint final ayant construit cet ouvrage dans sa version definitive. Mme Catherine Heyman, secretaire au departement des Sciences et Gestion de l'Environnement de l'universite de Liege, a bien voulu assumer la lourde tache de relire ce livre en no us indiquant les fautes que nous ne voyions plus. M. Jean-Yves Catheland a peint le tableau reproduit en couverture. Nous pensons que l'Art non figuratif illustre bien l'abstraction des concepts mathematiques qui, a l'image des traits et des couleurs, conduisent a une certaine comprehension du monde qui no us entoure. Que toutes ces personnes veuillent bien trouver ici un ternoignage de notre reconnaissance et de notre amitie. Arlon, septembre 2009, Jean-Jacques Boreux, Eric Parent et Jacques Bernier
Sommaire vii
Preface
ix
Avant-propos
xix
Table des illustrations
xxiii
Liste des tableaux
I
De la plume...
1
1 La Statistique : son objet, ses outils 1.1 Le travail du statisticien . 1.2 Deux eccles pour l'inference statistique . 1.2.1 L'ecole classique 1.2.2 L'ecole bayesienne . 1.3 L'analyse statistique bayesienne 1.3.1 La regle de Bayes . . . . . 1.3.2 La distribution predictive a posteriori 1.3.3 Application numerique . . 1.3.4 Retour sur Ie prior 1.4 Le choix bayesien . 1.4.1 Un precede contestable? . 1.4.2 Avantages .
3 3
5 7 9 11
12 12
15 16 16
17 18
2 Decision en avenir incertain : l'avalanche de Montroc 2.1 L'avalanche de Montroc . 2.1.1 Les faits . 2.1.2 Mise en situation . 2.1.3 Un probleme de decision. 2.1.4 Quel(s) modelels) d'echantillounage ? 2.2 Imaginer un mecanisme generateur des observations 2.2.1
Le processus de Bernoulli
2.2.2
Le processus ponctuel de Poisson
.
.
21 21 21 22 22 23 24 24
25
Pratique du calcul bayesien
XIV
2.3
Inference bayesienne . 2.3.1 Le modele beta-binomial 2.3.2 Le modele gamma-Poisson
.
27 27 30
3 Introduction a la modelisation graphique . 3.1 Introduction 3.1.1 Une courte digression . 3.2 Principe de la modelisation graphique . . 3.2.1 L'independance conditionnelle .. 3.2.2 Du reseau bayesien a la loi conjointe 3.2.3 DAG et variables latentes 3.3 Le modele de capture-recapture 3.3.1 Mise en situation . 3.3.2 La modelisation . 3.3.3 Applications . . .
33 33 34
4 Calcul des lois a posteriori 4.1 Introduction . 4.2 Quand la vraisemblance fait Ie posterior. . . . . . . 4.2.1 Approximation asymptotique de la densite
49 49 52
a posteriori . Fondements de ces approximations . . . . . Estimation asymptotique des parametres d'une population gamma . . . . . . . . . . . . . . . . . . . . . 4.2.4 Estimation asymptotique des parametres d'une regression Iineaire . . . . . . . . . . . . . ..... 4.2.5 On retiendra . . . . . .. Methodes de Monte-Carlo par chaines de Markov . . . . . . . . . . . . . . . . . . . . . . . 4.3.1 Mise en contexte . 4.3.2 Algorithme (general) de Metropolis-Hastings (MH) 4.3.3 Echantillonnage de Gibbs . . . . . . . . . . . . Methodes de Monte-Carlo. . . . . . . . . . . . . . . . . . . 4.4.1 Simulation par la methode d'acceptation-rejet . . . . 4.4.2 L'echantillonnage et le re-echantillonnage ponderes . 4.4.3 Vers les methodes particulaires . . . . . . . . . . . .
4.2.2 4.2.3
4.3
4.4
5
Le cardinal sort du rang 5 .1 Introduction........... 5.2 Modelisation hierarchique . . . . 5.2.1 Le probleme du tramway 5.2.2 Le probleme des rangs de naissance ..
36 36 38
40 41 41 41 45
53 57 59
61 65
66 66 66 69
72 73 76 81 85 85 87 87 88
Sommaire
6 Les modeles GEV et POT . 6.1 Introduction . 6.2 Le modele GEV 6.2.1 La valeur de projet . 6.2.2 Sensibilite du modele GEV aux hypotheses 6.3 Le modele POT . . . . . . . . . . . . . . . 6.3.1 La distribution de Pareto generalisee . 6.3.2 Le modele POT. . . . . . . . . . 6.4 Du modele POT au modele GEV . . . 6.5 Inference bayesienne sur les parametres d'un modele GEV . 6.5.1 La distribution conjointe a posteriori. . . . . . . . . 6.5.2 Algorithme MH sequentiel applique au modele GEV 6.6 Inference bayesienne sur les parametres d'un modele POT . . . . . . . . . . . . . . . . . . . . 6.6.1 Distribution conjointe a posteriori et inference 6.6.2 Echantillonnage de Gibbs . . . . . . . . . . . 6.7 Trois applications numeriques reelles , . . . . . . . 6.7.1 Le niveau de la mer a Port Pirie (Australie) . 6.7.2 La vitesse du vent a Tunis (Tunisie) 6.7.3 La lame d'eau a Uccle (Belgique) 7 Construire Ie prior 7.1 Introduction........ 7.1.1 Prior non informatif 7.1.2 La conjugaison . 7.1.3 L'analogie . 7.1.4 La methode par introspections successives 7.1.5 L'incertitude n'est pas l'ignorance et la subjectivite n'est pas I'absurdite . 7.2 Definition constructive d'une probabilite subjective. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Caler un prior beta sur deux quantiles elicites du parametrc d'un modele d'observable binomial . 7.3.1 L'expert donne la valeur moyenne de 1r et une incertitude sur celle-ci. . . . . . . . . . . . . . . . . . . . . . . . . . 7.3.2 L'expert donne deux quantiles de 1r . 7.4 Caler un prior conjugue sur deux quantiles elicites des parametres d'un modele d'observable normal . 7.4.1 Dialogue avec l'expert . 7.4.2 Le parametre a elicitor est unidimensionnel 7.4.3 Le parametre a eliciter est bidimensionnel ..
xv
97
98 100 103 104 105 106 108 108 110 110 111 112 113 115 115 116 118 121
127 127 128 130 131 131 132 132 134 134 135 136 136 136 139
XVI
II
Pratique du calcul bayesien
...
a la souris
145
8 Modele de capture-recapture: application au cas des saumons147 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147 8.2 Presentation du probleme . . . . . . . . . . . . . . . . . . . . . 148 8.2.1 Les trois dernieres ctapes du cycle de vie du saumon... 148 8.2.2 Variables observees . . . . . . . . . . . . . . . . . . . . . 150 8.2.3 Expertise a priori sur le comportement du saumon . . . 150 8.2.4 Les variables latentes decrivent le phenomena biologique 153 8.3 Inference bayesienne . . . . . . . . . . . . . . 155 8.3.1 Echantillonnage de Gibbs . 156 8.3.2 DAG, nceuds parents, nceuds enfants . 157 8.3.3 Actualisation bayesienne par l'echantillonnage de Gibbs 157 8.4 Resultats numeriques . . . . . . 161 161 . 8.4.1 Annee 1995 163 8.4.2 Cinq annees de donnees 164 . 8.5 Discussion 164 8.5.1 Le role du prior . 165 8.5.2 Le choix du modele. . . 165 8.5.3 Confusion des effets et importance du prior 9 Le modele lineaire generalise 9.1 Introduction . . . . . . . . . . . . . . . 9.2 Retour sur le modele Iineaire classique. . . . . . 9.3 Le modele Iineaire generalise . . . . . . . 9.3.1 Le GLM repond a ces limitations. 9.3.2 D'un point de vue pratique 9.4 La regression logistique . . . . . 9.4.1 La transformation logit . . . 9.4.2 La regression logistique .. 9.4.3 Les prothesistes dentaires seraient-ils particulierement exposes aux pneumoconioses? . . . . . . . . . . . . . . . . 9.4.4 Evaluation de l'action conjointe de deux produits . . . . 9.4.5 Regression logistique avec Ie modele de Finney (1971) .
169
10 Assemblage de modules fonctionnels normaux 10.1 Introduction . . . . . . . . . . . . . . . . . . . 10.2 Construire un modele comme on joue au Lego 10.2.1 Les moyens a mettre en ceuvre . . . . . 10.2.2 Les modeles, leur definition, leurs liens .. 10.3 Regression lineaire (M 1). . . . . . . 10.3.1 Formulation du modele M1 .. 10.3.2 Les conditionnelles completes 10.3.3 Complements sur Ie prior . . . 10.4 Un AR1 pour representor la dependance temporelle (M2)
185
169 170 172 173 175 176 176 177 178 181 182
186 188 189 189 191 192 192 193 193
Sommaire 10.4.1 Formulation du modele M2 . . . . . . 10.4.2 Les conditionnelles completes . . . . . . . . . . . . . 10.5 Modele lineaire a residus autocorreles (M3) 10.5.1 Formulation du modele M3 . . . . . . 10.5.2 Prior des parametres du modele M3 . . . . . 10.5.3 Conditionnelles completes du modele M3 10.5.4 Specification des priors du modele M3 . . . . . . . . .. 10.5.5 Applications 10.6 Modele avec erreur sur variables explicatives (M4) 10.6.1 Formulation du modele M4 . . . . . . . . . . . . . 10.6.2 Specification du parametre ¢ . . . . . . . . 10.6.3 Influence de l'erreur sur la temperature . . . 10.7 Une brique de LEGO supplementaire d'expression multinomiale 10.7.1 Formulation du modele M5 . . . . . . . . . . . . . . 10.7.2 Conditionnelles completes du modele probit (M5) . . 10.7.3 Application du modele multinomial probit (M5)
XVll
194 194 195 195 196 196 197 198 200 200 202 202 202 203 206 207
211 11 Evaluation de la pollution indoor 11.1 Introduction . . . . . . . . . . . 212 11.2 Experimentation et approche classique 212 11.2.1 Modelisation du taux d'emission . . . . . . . . . . 213 11.2.2 Modelisation du changement de masse du polluant 213 11.2.3 Breve etude critique du travail public 214 215 11.2.4 Discussion. . . . . . . . . . . . . . . . . . . . . . 216 11.3 Bruiter Ie modele deterministe . . . . . . . . . . . . . . 11.3.1 Une strategic de modelisation des incertitudes. . 216 11.3.2 Application de la regle de Bayes . . . . . . .. 217 11.3.3 Hesultats . . . . . . . . . . . . . . . .. ..... 218 12 Les avantages de la modelisation hierarchique 12.1 Donnees. . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Modele de capture-marquage-recapture . . . . . . . . . 12.2.1 Modele Bernoulli d'alea pour la premiere phase 12.2.2 Modele Bernoulli d'alea pour la seconde phase 12.3 Modele bayesien hierarchique echangeable . . . . . . . . 12.4 Modele bayesien annuel . . . . . . . . . . . . . . . . . . 12.5 Choix des distributions a priori et analyse de sensibilite . . 12.5.1 Priors du modele avec independance annuelle 12.5.2 Priors a deux etagcs du modele hierarchique . 12.6 Resultats . . . . . . . . . . . . . . . . . . . . . . . .
221 222 222 223 224 225 228 229 229 230 231
13 Modeles de changements caches 13.1 Introduction . 13.1.1 Trois exemples hydrometeorologiques .. 13.2 La modelisation des changements .
237 238 239 240
xviii
13.3
13.4 13.5 13.6
13.7
13.8
Pratique du calcul bayesien 13.2.1 Modele M 1 : 1 seule rupture. . . . . . . 13.2.2 Modele M k : k ruptures . . . . . . . . . . . . . . 13.2.3 Modele M a (autoregressif, k ruptures) Representation des distributions a priori 13.3.1 Prior pour les dates 13.3.2 Prior pour les autres parametres Etude du modele M k Methode d'inference . . . . . . . . . Choix de k : ou selection bayesienne de modeles . . . . . . . . . . . . . . 13.6.1 Le facteur de Bayes 13.6.2 Facteur de Bayes et rapport de vraisemblance . 13.6.3 Choix de modele . . . . . . . . . . . . . . . . . 13.6.4 Note sur Ie choix de modele . . . . . . . . . . . . 13.6.5 Avantages et inconvenients des facteurs de Bayes Applications . . . . . . . . . . . . . . . . . . . . . . . . 13.7.1 Application aux modules annuels du Senegal . . . 13.7.2 Application aux apports energetiqucs annuels du SaintLaurent (1943-2000) . . . . . . . . . . . . . . . . . 13.7.3 Application du modele M a au Saint-Laurent . . . . 13.7.4 Debits maximaux annuels de la Dordogne a Cenac Discussion
14 Conclusion
240 241 243 243 244 246 247 249 250 250 250 251 251 252 253 253 254 256 258 260
263
Annexes
265
A Annexe du chapitre 1
267
B Annexe du chapitre 2
273
C Annexe du chapitre 6
279
D Annexe du chapitre 9
287
E Annexe du chapitre 10
293
F Annexe du chapitre 11
305
G Annexe du chapitre 12
307
H Annexe du chapitre 13
313
Bibliographie
325
Index
331
Table des illustrations 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
Taille d'un gar<;on age de 10 ans. . . . . . Le parametre est inconnu et incertain. . . La probabilite vue comme un pari. . . . . Principe de l' analyse statistique bayesienne.. Le modele normal. . . . . . . . . . . . . . DAG du modele normal. . Concentration du radon en Minnesota. . . . . . Le paradigme bayesien.
5 7 10 11 13 14 15 17
2.1 2.2 2.3
Modele beta-binomial. . Distribution de Polya. . . . . . . . . Avalanche de Montroc : regle de decision.
28 30 31
3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10
Le DAG Ie plus simple. . . . . . . . . . . . . . . Un reseau bayesien plus sophistique.. La troisicme loi de Kepler. . . . . . DAG : un heritage. .. DAG : une naissance. . . . . . DAG : une chaine. . . . . . DAG : distribution jointe. . . DAG : marginalisation .. DAG : modularite . . . . . . Le modele de capture-recapture.
34
4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9
56 Approximation asymptotique du posterior. Operation Sources: DAG. 60 Operation Sources : estimation asymptotique. 62 Le modele lineaire simple. . . . . . . . . . . . . . 63 64 Le modele Iineaire. . . . . . . . . . . . . . . . .. Approximation asymptotique des parametres du modele lineaire. 65 68 Algorithme de Metropolis-Hastings. Echantillonnage de Gibbs. . . . . . . 71 73 Utilisation d'une grille.
35 35 37 37 38 38 39 40 45
xx
Pratique du calcul bayesien 4.10 4.11 4.12 4.13 4.14 4.15
Methode d'acceptation-rejet. . . Echantillonnage ponder e. . . . . . . . . . . Distribution cumulative empirique de T . . Resultat de l'importance sampling. . . . . Resultat de l'importance sampling-resampling. Efficacite de l'importance sampling. . ....
5.1 5.2 5.3 5.4 5.5
Le probleme des rangs de naissance . . . . . . . . . . Algorithme MH pour les rangs de naissance. Le probleme des rangs de naissance :marche aleatoirc. Le probleme des rangs de naissance sous WinBUGS. . Le probleme des rangs de naissance. Code WinBUGS.
6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9 6.10 6.11 6.12 6.13 6.14
Graphe des niveaux de retour. . . . Lame d'eau journaliere a Uccle. . Port Pirie: maxima annuels et niveaux de retour. Port Pirie : profils des marches aleatoires, . . . . Port Pirie : marginales a posteriori. . . . . . . Tunis: maxima annuels et niveaux de retour . Tunis : marches aleatoires. . Tunis : marginales a posteriori. . . . . . . . . . Uccle : maxima annuels et niveaux de retour.. Uccle : profils des marches aleatoires, Uccle : marginales a posteriori du modele GEV. Uccle : choix du seuil u == 23 mm. . . Uccle : echantillonage de Gibbs. . . Uccle : marginales a posteriori d'un modele POT.
7.1 7.2
Determination du parametrc de forme d'un prior gamma. . . . representation 3D du prior de l'expert. . . . .
76 79 80
82 83 83 . . . . . . . . .
Le destin d'un saumon qui remonte le Scorff. . Loi a priori pour la taille du stock. 8.3 Prior des parametres descriptifs de comportement.. 8.4 La vie d'un saumon et le diagramme d'influence. . 8.5 La vie d'un saumon sous la forme d'un DAG ... 8.6 Echantillonneur de Gibbs pour le parametre Jr. 8.7 La taille du stock (1995). . . . . . . . . . . . . . 8.8 Les parametres de comportement (1995). . . . . 8.9 Les parametres de comportement (sachant 1995-1999). . 8.10 Taille du stock annuel sur 1995-1999 8.1
8.2
9.1 9.2 9.3 9.4
Population, modele, echantillon, regression lineaire. La transformation logit. . . . . . . . . . . . . . . . . . Code WinBUGS pour le probleme du prothesiste dentaire. Relations dose-effet paralleles, . . . . . . . . . . . . . . . .
.
89 91 93 94 95 104 106 116 117 118 119 120 120 121 122 123 124 124 125 139 142 149 153 154 156 157 159 163 164 166 167 171 177 180
182
Table des illustrations
XXI
9.5 9.6 9.7
chenille du tabac. IC95 a posteriori pour les parametres du modele de Finney. Probabilite de mort. . . . . . . . . . . . . .
183 184 184
10.1 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9
. . . . . Schema de fabrication du LCS. . . 150 fournees de fabrication. . .. La loi a priori pour le lait concentre . . Lois marginales a posteriori pour la fabrication du LCS Posterior du modele lineaire a residus autocorreles. Variables explicatives et variable categorielle a expliquer. Mecanisme aleatoire de reponse categorielle ordonnee. Posterior avec et sans autoregression des residus Verification du caractere de bruit blanc. . . .
187 188 198 199 203 204 205 208 209
11.1 11.2 11.3 11.4 11.5
Schema du dispositif experimental. . . . . . Concentrations et residus des estimateurs ponctuels. Distribution marginale a posteriori. Correlation interparametres. .. . . Profil temporel des taux d'emission.
213 215 218 219 220
12.1 12.2 12.3 12.4 12.5
Schema du piege de remontce des saumons adultes. Modele hierarchique . Modele annuel avec indepcndance. . . . . . . . Efficacite de capture et tailles de population. Predictives du modele hierarchique bayesien
224 226 228 233 234
13.1 13.2 13.3 13.4 13.5 13.6 13.7 13.8 13.9 13.10 13.11 13.12 13.13 13.14 13.15
Simulation de ruptures. . . . . . . . . . . . . . Debit maximal annuel de la Dordogne a Cenac. Debits moyens annuels du Senegal a Bakel. Apports energetiques du Saint-Laurent. . . Ruptures et changements de regime . Explicitation des conventions cl'ecriture. . . Senegal: chronologie a posteriori des sauts. . . Senegal: distribution a posteriori de la date de changement. . Distributions a posteriori des deux dates. . Chronologie des apports moyens.. Distribution a posteriori de T. . . . . . . . . . . . . Ddistribution a posteriori de <.p. . • . . • • • •••• Dordogne a Cenac : distribution cumulee des ponderations, Dordogne a Cenac : distribution de la date du changement. Dordogne a Cenac : visualisation de /11,/12,/13 dans Ie cas M 2 .
238 239 240 241 242 248 254 255 256 257 258 259 260 261 262
C.1
C.2
DAG du modele GEV sous WinBUGS. Code du modele GEV sous WinBUGS.
284 285
G.1
Transfert d'informations interannuelles.
309
Liste des tableaux 1.1
Concentrations en radon (Bq/rnd). . ...
13
2.1
Montroc: pertes associees aux decisions..
23
3.1 3.2 3.3 3.4 3.5 3.6 3.7
La troisicme loi de Kepler. . . . . . . . . . Une truite est capturee (c) ou manquce (m) .. Probabilites des etats, . . . . . . . . . . . . . Tuberculose pediatrique en Basse-Normandie. Estimation bayesienne de N. . . . . . . . . . . Paludisme dans les arrnees francaises (1994). Paludisme: estimation du nombre de cas.
36 44 44 46 46 47 47
4.1 4.2 4.3 4.4 4.5 4.6
Small data sets, probleme 115. . Taille (cm) de 15 garcons ages de Algorithme MH : IC90 . . . . . . Echantillonnage de Gibbs: IC90. Algorithme AR. . . . . . . . . . . Echantillonnage par importance :
64 67 69 71 76 81
5.1 5.2 5.3 5.4
Exoplanetes dans 209 systemes planet.aires. Rang de naissance de 1800 etudiants. . . . Rang de naissance : IC90. . . . . . . . . Rang de naissance : IC90 (WinBUGS) ...
6.1
Port Pirie: estimations ponctuelles des parametres du modele GEV. Port Pirie .reglages des lois instrumentales. Port Pirie: IC90 des parametres du modele GEV. Tunis: estimations ponctuelles des parametres du modele GEV. Tunis: reglages des lois instrumentales. Tunis: IC90 des parametres du modele GEV. . . . . . . . . .. Uccle: estimations ponctuelles des parametres du modele GEV. Uccle: reglages des lois instrumentales. . . . . Uccle: IC90 des parametres du modele GEV. . . . . . . . . ..
6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9
. 10 ans. . ..... . . . . . . intervalle de credibilite,
86 88 92 94
116 117 117 119 119 121 122 122 123
xxiv
Pratique du calcul bayesien
6.10 Uccle : IC90 des parametres du modele POT.
125
8.1 Donnees du Scorff. . . . . . . . . . . . . . . . 150 8.2 L'expertise a priori H est encodee via des distributions beta. . 152 8.3 Nceuds figurant dans les conditionnelles completes. . . . . . 158 8.4 Intervalles de credibilite pour les parametres (1995). . . . . .. 162 8.5 Matrice de correlation a posteriori entre parametres (1995). .. 162 8.6 Intervalles de credibilite pour les parametres (prise en compte des cinq annecs de donnees). 165 9.1
Enquete aupres des prothesistes dentaires au Grand-Duche de Luxembourg. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 9.2 Exposition globale aux poussieres toxiques et etat du patient.. 9.3 Pneumoconiose du prothesiste dentaire. 10.1 10.2 10.3 10.4 10.5 10.6
179 179 181
Viscosite du LCS : definition des trois variables exogenes retenues.186 Statistiques descriptives de la viscosite, . 187 Specifications. . . . . . . . . . . . . . . . . . . . . 188 Modele M1 : recapitulatif. 193 Modele M2 : recapitulatif. . . . . . 195 Modele M3 : recapitulatif, 196
11.1 Emissions de formaldehyde. 11.2 Taux d'emission : TC90. ..
214 218
12.1 Donnees de capture-marquage-recapture pour l'Oir. . .
223
13.1 Choix de modele. . . . . . . . . . . . . . . 13.2 Modeles de rupture et choix de modele.
252 253
C.1 Niveau de la mer
a Port
modele GEV. . . . . . E.1 Modele M1 : resume. E.2 Modele M2 : resume. . E.3 Modele M3 : resume. .
Pirie: IC90 pour les parametres d'un . . . . . . . . . .
285 296 298 301
Premiere partie
De la plume...
Chapitre 1
La Statistique : son objet, ses outils Prologue L'homme est curieux et c'est sans doute ce qui explique le mieux son cheminement depuis Ie debut de l'humanite jusqu'a nos jours. Ce besoin de comprendre les phenomenes observes et le desir de les anticiper est au CCBur de ses preoccupations. C'est ce qui explique l'emergence et le succes de la statistique, une discipline scientifique en plein essor. Pour definir son objet, on ne saurait mieux faire que Christian Robert (Robert, 2006) : «L 'objet principal de la statistique est de mener, grace a l' observation d 'un phenomcne aleaioire, une inference sur la distribution probabiliste a l' origine de ce phenomene, c'est-adire de fournir une analyse (ou une description) d 'un phenomene passe, au une prediction d 'un phenomene a venir de nature similaire », Ce premier chapitre introduit les notions fondamentales de la modelisation statistique parametrique sous le paradigme bayesien.
1.1
Le travail du statisticien
On peut resumer le travail du statisticien en quelques mots : imaginer un mecanisme probabiliste susceptible d'avoir produit les donnees dont il dispose. L'exemple le plus connu est certainement le modele lineaire a un seul facteur explicatif. Exemple 1.1 S'il est evident que la taille d'un enfant, disons y, augmente avec son age, disons t, la nature du lien entre ces deux variables n'est pas triviale, car des facteurs exogenes peuvent intervenir (sexe, race, milieu, etc.). Cependant, on peut essayer de transformer I'age en une nouvelle variable reelle, x == f(t). On verra dans l'exemple 1.3 un cas d'une telle transformation OU on
4
Pratique du calcul bayesien
peut raisonnablement postuler une relation lineaire entre celle-ci et la taille (la moyenne des y pour un age donne). • Un echantillon de n sujets fournit n couples (Xi, Yi) et le modele Iineaire s'ecrit : (1.1) Dans ce modele, chaque valeur Xi est supposee fixee : on travaille conditionnellement a leur connaissance et X est souvent appelee covariable. Ainsi, dans Ci on trouve tous les facteurs explicatifs autres que l'age qu'on ne sait pas (probleme d'identification) ou qu'on ne veut pas (problems de cout) prendre en consideration. Par nature, l'alea naturel e, est inobservable. Le modele le plus simple postule que tous les aleas e, sont independants et identiquement distribues (hypothese iid) selon une loi normale (voir annexe A), de moyenne nulle et de precision! invariante T. Ainsi, les parametres de ce modele constituent un vecteur tridimensionnel : () == (Q, {3, T). Revenons au travail du statisticien qui, on l'a dit, consiste essentiellement a imaginer un mecanisme probabiliste susceptible de produire les observations disponibles. En general, il ne le fait pas gratuitement, mais bien pour faire des previsions a des fins decisionnclles.
Exemple 1.2 Un fabriquant de prot-a-porter regle ses machines de telle sorte que les retouches sur les vetements soient minimes. En general, pour les enfants, l'etiquette traduit directement la taille en annees et l'on parle d'un enfant d'une taille tans. • Conditionnellement au parametre 0 == (a, {3, T) et a la transformation donnee de I'age, la taille Y d'un sujet d'age t* - t x* est incertaine, mais cette incertitude est quantifiee par une distribution de probabilite, en l'occurrence une loi normale de precision T, localisee sur J1 * == a + {3x* OU x* est fixee : YIO, j, t*
rv
dnorm (J1*, T)
(1.2)
Remarque 1.1 Dans cet ouvrage, nous privilegierons les notations du logiciel libre WinBUGS (Spiegelhalter et al., 1996b) qui sont generalement identiques a celles du logiciellibre R (R Development Core Team, 2009) interfacable avec WinBUGS. Par exemple, la fonction de densite de probabilite d'une loi normale, traditionnellement notee N, est notee dnorm sous R. En general, Ie nom de la distribution apparait dans sa notation R, ce qui enleve toute ambiguite. Dans le cas contraire, nous donnerons les indications ncccssaires. Exemple 1.3 On dispose de la taille et de l'age de 292 garcons frcquentant les eccles primaires de la province de Luxembourg (source: Observatoire de la sante de la province du Luxembourg (Belgique)). La transformation simple/ 1 2
C'est l'inverse de la variance: T == o :". D'autres choix, plus sophistiques, sont possibles.
1. La Stat isti que : son objet, ses out ils
5
x = t f (1 + t) rend Ie modele lineaire credible, du moins dans la tran che 6-14 ans (fig. 1.1) qui nous interesse ici. •
Anticipons quelque peu et considerons que Ie stat isticien bayesien a realise une inference sur () = (a , (3, T) a l'issue de laquelle il peut calculer la distribut ion predictive a post erio ri de la taille d'un garcon d'un age donne, par exemple 10 ans (fig. 1.1). En particulier, si le fabri cant doit prendre un pari , il y a neuf chances sur dix que la taille d'un gamin de 10 ans soit dans l'intervalle 131 151 cm. II est possible que le fabriquant de pret-a-porter ne se sat isfasse pas d 'un tel result at mais celui-ci est la consequence logique du modele (eq. 1.2) et d'un e demarche coherente qui a integre toute l'information disponible, dans notr e cas l'age et la taille de 292 garcons a l'ecole primaire. Ga r~ons
(n = 292)
0.07
1 70 ,-----~------,
160
, ----
,---~-~-~----,
0.06
.
0.05 150 .
0' -;; 0.04
..'""
'
~ 'iii
0.03
!::. 0.02
O O: j 0.9 iige I (1+iige)
0.95
120
~ 130
140
150
160
Taille (em)
Figur e 1.1 - Echantillon et dist ribution predict ive a post eriori de la taille d 'un garcon age de 10 ans .
On aurait pu reduire l'incerti tude sur la taille d 'un gamin de 10 ans en mobilisant une seconde source d'information. En effet , un expert du pret-apor ter sait des choses sur la stature des sujets qu'il habille et ce savoir est tout aussi uti le que les donnees pour preciser () et , par ricochet , reduire l'incerti tude sur la taille conditionnellement a l'age. Contrairement a l'ecole bayesienne, l'ecole classique refuse de considerer cette seconde source d'information , car cette connaissance est teintee de subjectivite ,
1.2
Deux ecoles pour Pinference statistique
Note 1.1 Dans la plupart des ouvrages de statist ique, les variables aleatoires sont representees par les dernieres lettres de l'alphabet latin ecrites en maju s-
6
Pratique du calcul bayesien
cule. Les minuscules correspondantes identifient des valeurs particulieres. Par exemple, on notera y une observation de la variable aleatoire Y comme dans Pr (Y < yIO). Comme le montre le conditionnement sur le parametre 0, les minuscules grecques designent les parametres. D'un point de vue bayesien, les jugements sur les valeurs possibles des parametres sont des variables aleatoires et la convention majuscule/minuscule est peu pratique sur ces lettres grecques. La plupart du temps, nous ne suivrons pas cette convention et nous ecrirons variables aleatoires et parametres en minuscule. C'est donc le contexte qui fixera l'interpretation de y (respectivement 0) en tant que variable aleatoire ou valeur particuliere prise par celle-ci. Par convention, on utilisera la notation crochets ([]) pour designer la distribution de probabilite d'une variable aleatoire, qu'elle soit continue (fonction de densite) ou discrete (probabilite). Ainsi la distribution de la variable aleatoire Y conditionnellement a ses parametres 0 sera notee
[yIO].
On dispose d'un modele statistique parametrique des qu'on pose qu'une observable Y est distribuee selon un modele ti'echomiillonnaqe [yIO] OU seulement le parameire 0 est inconnu, mais appartient a un espace 8, de dimension finie, que la Iitterature scientifique appelle souvent ensemble des etats de la nature. Toute conclusion sur une population statistique y implique d'une facon ou d'une autre le parametre du modele d'echantillonnage choisi pour la representor. Exemple 1.4 Si y est la concentration d'une substance indesirable dans un milieu donne. On dit qu'une norme Yo est respectee si la probabilite de depassement est infcrieurc a une tolerance fixec. Un modele statistique pararnetrique tres souple est la loi gamma (voir annexe B) dont la densite [yla,;3] implique un parametre de forme, a > 0, et un parametre d'echelle, ;3 > o. La probabilite de depasser la norme Yo est conditionnelle aux valeurs prises par ces parametres :
•
Pr (y ou
r
> yolo:, fJ)
=
r ;3et (0:)
1
00
Yo
ycx-l exp (-fJy) dy
(1.3)
(a) est la fonction eulerienne gamma (voir annexe B).
Remarque 1.2 On ecrira Y rv Ga (a,;3) ou Y rv dgamma (a,;3) (notation WinBUGS ou R) pour signifier qu'une variable aleatoire reelle, Y, a une distribution gamma de parametre 0 == (a,;3).
Certes, on ne peut pas calculer cette probabilite tant que le parametre
() == (G, (3) reste inconnu. Bien sur on peut, a l'aide d'une methode appropriee,
estimer une partie du plan IR 2 dans laquelle la vraie valeur de 0 a toutes les chances de se trouver. Evidemment, plus on restreint ce domaine, plus lc risque d'exclure la vraie valeur de 0 est grand (fig. 1.2). A contrario, plus on l'agrandit, plus on a d'incertitude, car on a une valeur de la probabilite de depassement
1. La St atistique : son obj et , ses ou til s
7
pour chaque valeur de e. Certaines seront sous le seuil de tolerance admis, les autres seront au-dess us. Finalement, comment decider ?
(0 ,0)
a
Figure 1.2 - Le par am et re d'un modele statistique bayesien est inconnu et incertain. Pend ant un e bonne partie du XX e siecle, deux eccles de pe nsee se sont opposees.
1.2 .1
L'ecole classique
Considerons un mod ele statist ique pa rametrique [yle]. L'ecole classique attribue a une vraie valeur , certes inconnue, mais conceptuellement unique, c'est-a-dire inconnu e, mais certaine. Pour l'estimer , l' an alyst e construit un e statistique3 don t les param etres depend ent de Pour bien voir la difference avec l'ecole bayesienne , nous pr endrons l'exemple de l'estimateur m oyenne arithmetique , Y = ~ L~ Yi , qui est certainement le plu s utilise. Soit un echa nt illon const it ue de n vari ables aleatoires ituiependonies et identi quement disiribu ees (hypo these iid). Leur distribut ion n 'est pas necessair ement connue, mais elle a une moyenne, u, et une var iance finie, a 2 > O. Pourvu que cet echant illon soit asse z grand" , l'estimat eur Y a un e distribu tion normale, de moyenn e fl et de vari an ce a2 In. II s'ag it de la probabilite approchee de Y sachant l' inconnue = (fl , a) . En fixant un risqu e 0:, souvent 5 % dan s la pr at ique, il est alors aise de calculer des valeurs critiques :
e
e.
e
(
Pr fl -
OU
Zl-a /2
Zl -a /2
vna ::; Y- ::; fl +
Z l -a /2
vna) = 1 -
0:
(1.4)
est le percentile 1 - 0:/2 d 'une loi normale standard.
C 'est-a- d ire une fonction d es d onnees qu 'on ap pe lle encore un esti mateur . T'heorerne central limite . To ute somme de n variables a leatoires in dependantes est un e va riable a leat oire asymptotiquement norm al e.
3 4
8
Pratique du calcul bayesien
Done si /1 et a etaient connus, on pourrait calculer l'intervalle de tolerance' (1.4). En realite les parametres /1 et a sont inconnus! Des lors, le statisticien classique, qui se refuse a considerer /1 comme une variable aleatoire, poursuit son raisonnement en trois temps.
1. II s'interroge sur la valeur inconnue de /1 en supposant qu'il connait a. Pour cela, il renverse la perspective en ecrivant un intervalle de confiance : f} - Zl-a/2
a
a
Vii : : : J.L ::::: f} + Zl-a/2 Vii
(1.5)
Pourquoi le changement de nom? C'est que, /1 etant ici inconnu, mais certain, ce sont les limites de l'intervalle qui sont aleatoircs, c'est-a-dire son amplitude. En consequence, l'intervalle calcule sur les donnees reellement disponibles n'est pas un jugement probabiliste sur /1, il traduit plutot la fiabilite de la procedure statistique : il s'agit de la probabilite (sachant /1) de recouvrement de /1 par un intervalle aleatoire !
a
2. Ensuite, il remplace l'ecart-type inconnu a par I'ecart-type estime, == JSCE/ (n - 1)6. Ce faisant, la theorie statistique de l'echantillonnagc veut qu'il remplace aussi le percentile normal z par le percentile de Student t. Des lors, il obtient l'intervalle de confiance bien connu :
ICa
= [V -
t(1-a/2),(n-l)
5n, V+
t(1-a/2),(n-l)
5nJ
OU t(1-a/2),(n-l) est Ie percentile 1 - a/2 d'une loi de Student degres de liberte.
(1.6)
an -
1
3. Bien entendu, rien ne garantit que le parametre /1 appartienne a cet intervalle reel (1.6) qui, on l'a dit, n'a pas de sens probabiliste direct. Pour l'interpreter, le statisticien classique est done oblige de faire preuve de souplesse intellectuelle, certains parleront meme d' entourloupette : il imagine la repetition de I'experience dans des conditions parfaitement comparables. Pour chaque echantillon genere dans sa tete, il « obtient » un nouvel intervalle de confiance (1.6). Des lors, la probabilite 1- a n'est que la limite de la frequence des cas OU chaque intervalle (d' amplitude aleatoire) recouvre la valeur inconnue, mais fixee de /1.
Exemple 1.5 Soit /1 la valeur attendue de la taille d'une jeune fille agee de 10 ans. Un echantillon de 54 eleves dans la classe d'agc [9.5,10.5] donne x ==
138.7 cm et a == 6.4 cm (source: Observatoire de la sante de la province de Luxembourg (Belgique)). Un intervalle de confiance a 95 % est [136.9,140.4] ern. •
5 Un intervalle de tolerance porte sur une observable; un intervalle de confiance porte sur un parametre, 6 SeE pour "L,(Yi - y)2, la somme des carres des ecarts a la moyenne.
1. La Statistique : son objet, ses outils
9
Le paradigme classique (resume) Quel que soit le parametre inconnu () a estimer, le mode de raisonnement du statisticien classique est toujours le meme. Dans sa tete, () a une valeur unique et son estimation requiert une statistique dont les parametres dependent de (). Les donnees disponibles permettent de calculer un intervalle de confiance correspondant a un risque a fixe. Le parametre inconnu () est ou n'est pas dans cet intervalle. Aussi, pour decrire son incertitude sur (), le statisticien classique realise un tour de passe-passe. II imagine une collection d'echantillons recueillis dans les memes conditions et, pour chacun d' entre eux, il « calcule » un intervalle de confiance et conclut en disant que 1 - a pour cent d'entre eux contiendraient (). C' est la vision frequentiste : tout est dans les donnees. Toutefois, que faire alors avec tous les problemes bien concrets OU ces repetitions imaginaires n'ont pas de sens? Comment accepter que plusieurs techniques d'estimation (methodes des moments, des moments ponderes, du maximum de vraisemblance, etc.) puissent produire des intervalles de confiance differents ? Pourquoi cette fiabilite est-elle quasi systematiquement donnee en situation asymptotique, alors que dans nombre de problemes la taille de l'echantillon est tres limitee ?
1.2.2
L'ecole bayesienne
Le statisticien bayesien raisonne differemment puisqu'il considere que le parametre du modele statistique, [yl()]' est incertain. II va donc chercher a quantifier son incertitude en mobilisant toutes les informations disponibles. C'est ce qui fait toute la difference puisque cela revient a conferer au parametrc () Ie statut de variable aleatoire, Des lors, il y a un sens a lui attribuer une distribution de probabilite a priori qui decrit le savoir actuel sur ce parametre. Cette distribution de probabilite, souvent appelee prior, est notee [0]. II faut bien comprendre que le prior quantifie l'etat de connaissance d'un expert (et donc son incertitude) sur le probleme en main. Cela signifie que l'expert parie plus volontiers sur certaines valeurs de () que sur d'autres (ne pas confondre incertitude et ignorance). Cette information a d'autant plus de valeur que les donnees sont rares. II doit etre clair que le savoir de l'expert encode dans le prior doit etre tout a fait independant de l'echantillon en main, sinon la meme source d'information interviendrait deux fois, ce qui ne serait pas coherent.
Exemple 1.6 D'apres une seric d'cnquetes, on estime a 39 Bq/rn'I la concentration moyenne en radon dans l'air intcrieur des habitations, avec des variations marquees d'une region a l'autre quand les maisons sont construites sur des sols tres riches en uranium et/ou tres perrneables (source: Organisation mondiale de la sante (OMS)). De nombreux pays ont fixe a 200-400 Bq/rn'I la valeur a partir de laquelle des mesures doivent etre prises pour diminuer la concentration en radon dans l'air a l'interieur des habitations. La concentration ambiante peut varier fortement d'un jour a l'autre. C'est pourquoi il faut laisser le detecteur sur place durant de 2 a 3 mois! Sans parler du cout, repeter dans
10
Pratique du calcul bayesien
les memes condit ions une experience qui dure 3 mois n'est pas chose aisee ! II est done plus qu 'int eressan t d'inclure de I'expertise dans Ie modele en postulant une distribution a priori pour Ie parametr e du modele d'echantillonnage retenu . • II faut insister sur Ie point suivant. Quand un statisticien bayesien parl e de probabilite, il ne la conceit pas comme une frequence limite dans une succession d'essais dans laquelle on rapporte Ie nombr e de cas favorables (sous-ente ndu equiproba bles) au nombr e d'essais effectivement realises. La probabilite bayesienne est Ie resultat d'un pari , propre a l'individu, done subjectif, mais pas arbitra ire. La const ruction du prior est I'obj et du chapitre 7. Des maintenant , la roue de la fortune permet d'eclairer l'idee de pari . Soit une roue munie d'un disposit if permet tant de regler l'angle au cent re a . Quand elle s'arrete de to urne r, la prob abilit e que l'index fixe iombe dans la partie ombree est simplement egale a a /2Jr (fig. 1.3). Rcce de la fortune
F igure 1.3 - La prob ab ilit e vue comme un pari .
On fait tourner la roue et on demand e a I'expert s' il prefere parier sur la valeur B :::; B1 plutot que sur la possibilit e que l'index fixe indique la partie ornbree a l'arret de la roue. S'il prefere Ie premier pari (B :::; Bd on augmente l'angle au centre a , sinon on Ie reduit . On repete l'operati on aut ant de fois qu 'il Ie faut jusqu 'au moment OU les deux paris sont indifferents aux yeux de I'expe rt . Ace moment , la probabili te qu 'il accorde a I'evenement B :::; B1 est exactement egale au rapp ort cq«. On recommence les operati ons avec B2 > B1 et B3 < B1 . Disposant des tro is couples (Bk ,pk = ak/2Jr ), I'an alyste peut deja essayer d'aj uster une courbe pour tradu ire la fonct ion de reparti tion cumulee des probabilites en fonct ion de B. Quelques valeurs suppl ementaires de B peuvent l'y aider. Enfin, la derivee de cette courbe est le prior recherche [B]. Remarque 1.3 La construction du prior de I'expert a l'aide de la roue de la fortune, c'est-a-dire une loterie, est appelee « elicitation». Cette operation
1. La Statistique : son objet, ses outils
e
11
e
n'est pas triviale, surtout si dim > 1, par exemple si == (/-l, (J") est Ie parametre d'une loi normale. Nous verrons bientot que d'autres representations, plus commodes, mais sans doute moins riches, sont possibles. Dans tous les cas, il faut interpreter le prior en termes de pari.
1.3
L'analyse statistique bayesienne
L' analyse statistique bayesienne se ramene fondamentalement a une inversion (Robert, 2006). En effet, elle vise a determiner les causes a partir des effets. II faut bien comprendre que les causes sont reduites aux parametres du mecanisme probabiliste generateur des donnees imagine par l'homme d'etude et que les effets sont resumes par les observations disponibles. En d'autres mots, le modelisateur voit les observations comme des tirages dans une loi statistique controlee par le parametre inconnu e. Une methode statistique permet de deduire de ces observations une inference sur e. A l'issue de cette inference, l'incertitude sur est quantifiee et la prevision des observations futures consiste alors a utiliser Ie mecanisme generateur de donnees conditionnellement a e.
e
La figure 1.4 synthetise ce qui vient d' etre dit. Elle represente de trois facons differentes la probabilite conjointe du parametre et de l'echantillon Y == (Yl' ... ,Yn) avant son observation. A gauche, on a une representation du prior qui peut etre interprete en termes causaux : la cause produit l'effet Y (fleche vers le bas). A droite, on a une representation du posterior : disposant de l'effet Y on infere la cause (fleche vers le haut).
e
e
e
000
[YIO][O]
[Y,O]
[0 I Y][Y]
Figure 1.4 - Principe de l'analyse statistique bayesienne.
12
Pratique du calcul bayesien
1.3.1
La regle de Bayes
Ainsi, dans sa forme la plus simple, la regle de Bayes est la consequence mathematique directe du theoreme des probabilites conditionnelles :
[yIO] [0] = [y,O] = [Oly] [y] ::::;, [Oly] = [yl[;][0]
(1.7)
Avant l'observation, [y] est la distribution predictive a priori
[y] =
Ie
=
[y, 0] dO
Ie
[yIO] [0] dO
(1.8)
Vne fois que l'on dispose des donnees, l'integrale (eq, 1.8) fournit un nombre reel, la constante de normalisation, qui garantit que le posterior [ely] est bien une distribution de probabilite.
1.3.2
La distribution predictive a posteriori
L'inference bayesienne quantifie l'incertitude sur e (et done la connaissance de la cause e) en mobilisant deux sources d'information : l'expertise et les donnees. On souhaite maintenant quantifier l'incertitude sur une observation future y* conditionnellement a l'echantillon deja observe y. La distribution de probabilite de l'observable y* est obtenue en multipliant sa densite d'echantillonnage [y* Ie] par la distribution a posteriori [ely] et en integrant ce produit par rapport a () :
[y*ly]
L
[y*, Bly] dB
L
[y* IB, y] [Bly] dB
L
[y* IB] [Bly] dB
(1.9)
La derniere egalite vient parce que l'observable y* est conditionnellement independante des observations passecs quand on dispose de e.
Note 1.2 L'independance se notant avec le signe 1.-, l'independance conditionnelle entre y* et y est notee y* Ie 1.- y Ie ou y* l.-e y. Exemple 1.7 Le tableau 1.1 donne la concentration en radon (Bq/rnd) dans treize maisons du comte de Goodhue (Minnesota, Etats-Unis). Toutes les mesures ont ete enregistrees dans la cave, sauf celles indiquees par un asterisque qui ont ete enregistrees au rez-de-chaussee ((Gelman et al., 2004), p. 195). Ce qui interesse le decideur c'est la probabilite qu'une observation future, c'est-adire la concentration en radon dans une maison non encore visitee, depasse une valeur guide fixec, •
1. La Statistique : son objet , ses outils
13
Tableau 1.1 - Concentrations en radon (Bqjm3). Soit y la concent ration en radon. Un modele d'echantillonnage realiste est ici une distribution log-normale. La tr ansformation z = log y nous ramene done au modele normal (voir annexe A).
(1.10) OU /-1 et T represent ant respectivement la moyenne et la precision. Inferer Ie paramet re = (/-1, T) d'un e loi normale it partir d 'un echantillon independant et identiquement distribue (hypothese iid est un probleme basique de la statistique. La figure 1.5 Ie resume bien. Les fleches rouges (trait continu) indiquent Ie lien causal entre Ie parametr e = (/-1, T) et les observations Zl, · · ·, Zi, · ·· , Zn : chaque observation est vue comme Ie result at d'un tirage aleatoire dans N (/-1, T) . L'inference renverse Ie lien causal et c'est ce qu'ind iquent les fleches vert es (tir ets ). A la difference du stat ist icien classique, Ie statisticien bayesien admet que = (/-1, T) est incertain. II y a done un sens it lui attribuer une distribution de probabilite a priori, que la regle de Bayes reactu alise it partir des observation s disponibles. La distribution a posteriori de = (/-1, T) quant ifie cette mise it jour des connaissances.
e
e
e
e
Prior
Figure 1.5 - Representation graphique simplifiee du modele normal. Le parametre d'un e loi normale a deux composantes . La forme du prior
14
Pratique du calcul bayesien
adopte dans les calculs ci-apres est detaillee dans l'annexe A. Pour la moyenne f-l sachant la precision T , on choisit un prior normal, localise sur m et de precision kr , avec 0 < k < 1, car il est prudent de degrader la precision. Pour Ie parametre
de precision T , le prior tres flexible communement adopte est une dist ribution gamma, de parametre de forme a > 0 et de parametre d 'inverse echelle b > O. Les hyperparametres m , k, a et b sont a determiner de telle facon que le prior conjoint reflete le savoir de l'expert , ici l'OMS . La figure 1.6 represente le modele normal sous la forme d'un reseau bayesien ou DA G (directed acyclic graph) . Nous aurons l'occasion de preciser cette notion dans les prochains chapitres. Les donnees apparaissent dans des carres (ou rectangles) alors que les quantites incertaines (parametres, observables) dans des cercles (ou ellipses). L'empilement de feuilles symbolise l'echantillon : une valeur par feuille. Dans un reseau bayesien, les fieches indiquent des relations causales. Le mecanisme generateur des donnees est done celui-ci : - fournir a > 0, b > 0, k E ]0, 1[ et mE lR (expertise) ; - tirer T dans Ga (a, b) puis tirer f-l dans N (m , kT) ; - pour i allant de 1 a n , tirer Zi dans N (f-l , T) .
~ k
[TI/
8
Figure 1.6 - DAG du model e normal.
D'un point de vue analytique, les calculs de la loi a posteriori sont relativement simples (voir annexe A, p. 267 et suiv.). En effet, a partir du modele (1.10), la vraisemblance d' un n-echantillon iid normal est triviale et l'app lication de la regle de Bayes conduit aux resultats suivants OU Z et s2 representent respectivement la moyenne et la variance empirique des observations. RappeIons l'essentiel des result at s donnes en ann exe A : - le posterior marginal de Test une loi gamma, de par ametre de forme a' =
1. La Statistique : son objet, ses out ils
~ (n + 2a) et de parametre d' inverse echelle b' = ~
[n s 2 + 2b +
15
n'tk
(z - m)2 ] ; le post erior marginal de J.L est une loi de Student a u' = 2a' degres de liberte, localisee sur m' = (nz + km) / (n + k) et de parametre d'echelle (J' = J b'/((n +k)a') ; - la distribution predictive a posteriori de l'observable est une loi de Student a v' degres de liberte, localisee sur m' et de para metre d'eche lle (J" (J\ /n + k + 1.
~
1.3.3
Application numerique
Revenant au probleme du radon (exemples 6 et 7), les choix m = 3.7, k = 0.5, a = 2, b = 1 donne nt un prior conjoint compatible avec les donnees de l'OMS (une concentration moyenne de l'ordre de 40 Bq/rnd , tres variable selon la nature du sol). Ce prior et toutes les donnees du tableau 1.1 conduisent aux resultats presentee a la figure 1.7 (l'axe des abscisses est en coordonnees logarithrn iques). En particulier, on voit que la probabilite de depasser la valeur guide de 400 Bq /rnd d'air est egale a 0.24. Un prior non informatif porte cette probabilite a 0.25. La difference est minime et ne modifie pas Ie risque de cancer . Cependant, si on refait le merne exercice avec seulement les deux donnees du rez-de-chaussee, on trouve respectivement 0.25 et 0.17 ! Dans ce cas, ignorer l'expertise revient a sous-estimer largement le risque.
2 -
-
Predictive : [z I y]
1\
c::::=J Pr(z > Zo I y) = 0.24
1.8
J\ J \
- - - Posterior : [Il l yJ
1.6
) l
J I
I I
1.4
}
I I f I I I I
1.2
:;
a0.8
J J J
0.6 0.4 0.2 0
.J 0
2
3
! I ! f
45
I
\ I I l I I I
1 I l
) \ \ 6
7
Log de la conc entra tion en rado n (Bq/m 3)
Figure 1.7 - Conc entration du radon en Minn esota.
8
16
Pratique du calcul bayesien
1.3.4
Retour sur Ie prior
Nous avons vu que la roue de la fortune permet d'illustrer le travail d'elicitation d'un prior. Sur de nombreux modeles et exemples, le chapitre 7 developpera les outils d'encodage du savoir de l'expert sous forme d'une distribution de probabilite. Les deux proprietes statistiques suivantes sont regulierement invoquees pour en faciliter la mise en ceuvre.
La conjugaison. L'analyste regarde la forme de la fonction de vraisemblance et choisit une famille de lois qui se « marie bien» avec elle. Par exemple, la structure de la vraisemblance d'un n echantillon iid selon une distribution exponentielle de parametre d'echelle p > 0 est en p" exp (-nyp). Le prior conjugue est une loi gamma dont la forme fonctionnelle s'ecrit pa-l exp (-bp). La distribution a posteriori de p suit immediaternent : pia, b,n, y rv gamma (a + n, b + ny). Dans le probleme du radon, nous avons utilise les proprietes de la conjugaison pour construire le prior conjoint. Application sequentielle de la regie de Bayes. Un prior peu ou non informat if sur un jeu de donnees fournit une distribution a posteriori qui peut servir de prior pour un autre jeu de donnees. Par exemple, on peut appliquer le modele developpe ci-dessus aux concentrations en radon relevces dans un comte voisin de celui de Goodhue (Minnesota, Etats-Unis). Le posterior obtenu sur ce jeu de donnees est un prior credible pour l'analyse des donnees du tableau 1.1.
Quel que soit le moyen utilise pour construire le prior, il doit etre interprete comme une succession de paris sur les valeurs du parametre, bien sur sans mobiliser les donnees impliquees dans la vraisemblance.
1.4
Le choix bayesian
La figure 1.8 synthetise Ie paradigme bayesien. Deux modeles doivent etre specifies. Le modele d'echantillonnage et le prior. C'est pourquoi les statisticiens bayesicns designent leurs modeles par des expressions du type priorvraisemblance (du moins quand le prior peut etre decrit par une distribution standard). Ainsi, on parlera des modeles beta-binomial, gamma-Poisson, normal-gamma-normal, etc. Qu'on soit classique ou bauesien, le choix du modele dechant.illonnage est decisif. II n'y a pas de recette, mais l'experience de l'analyste compte. La representation de la connaissance a priori est tout aussi delicate. L'expert passe en revue toutes les valeurs possibles du parametre et parie sur chacune d'entre elles. Ensuite, cette connaissance a priori est mise a jour par les donnees via la regle de Bayes.
1. La Statistique : son obj et , ses outils
17
Model. SIal d 'Occ urren ces
[yle] Connaissance a priori
Connaissan ce mi se it jo ur
(Exp erti •• ) Formule d. Bay••
[e]
~ L_"'-
-"-_.
e
[B] [Y IB] [BIY ] = J[B][Y IB]dB e
....
I'~I
~
A
~
Mei lleure prec ision sur les phenome nes mconnus
donnees Experime nt ales , Y~
{Y I' Y, • . . . Y k }
Figure 1.8 ~ Le paradigme bayesien : resume.
1.4.1
Un pro cede contestable?
L'analyse bayesienn e repose sur les donnees - c'e st la composant e dite objective - et sur les idees du chercheur - c'est la composante dite subject ive. Dans l' excellent livre d 'Alfred Renyi Calcul des probabilites (edition originale en langue allemande, © 1962, VEB Deutscher Verlag der Wiss enschaften, Berlin ; reimpression aut orisee de la traduction fran caise, © 1966, Dunod, Paris) on t rouve le comment aire suivant (p. 77) . [.. . ]Le theorem e de Bayes est parjaitem ent demontre, personne ne m et en dout e sa justesse; c 'est seulem ent de ses application s pratiques qu 'on dispute (sic) . [... ] Si on connait les probabilites dit es a priori , on peut appliquer le theorem e de B ayes et calculer les probabilites a posteriori . Cependant, les probabilii es a priori sont souvent inconnues et on leur att ribue qeneralem eni des valeurs arbitrai res ; c 'est ce precede qui est veritobleme nt contestable. Qu ar ante ans se sont ecoules depuis ce comment aire. Non ce n'est pas contest abl e d 'attribuer des probab ilite s a priori a des evenement s. Evaluer des chances sur la base de son exp erience est une activite int ellect uelle recurrente partagee par la majorite des et res pensan ts. Croire qu e seules les donnees garant issent l'objectivite du verdict est une erreur, car les donnees resul tent de choix, souvent impli cit es! Ainsi l'echelle europee nne de risque d 'aval an che comporte cinq indic es classes sa ns ambiguite suivant l'importan ce
18
Pratique du calcul bayesien
du risque auquel s'expose l'usager. Chaque niveau de risque est defini par une evaluation de la stabilite du manteau neigeux fondee sur une seric de criteres et des consequences a assumer en cas d'avalanches. L'expert peut attribuer a priori une probabilite Pk a l'indice k. Ce n'est pas plus arbitraire que de combiner des informations pour construire une telle echelle et la faire accepter par les pays concemcs ; ce n'est pas plus arbitraire que de selectionner quelques indicateurs parmi les dizaines qui auraient pu etre choisis. L' activite scientifique ne nie pas la subjectivite, mais elle vise son controls. Par consequent, tous les resultats generes par une demarche scientifique sont toujours conditionnels aux differents choix qui ont ete faits, qu'ils soient d'ailleurs peu ou prou justifies. Les statisticiens bayesiens se distinguent par leur volonte de les decrire clairement.
1.4.2
Avantages
Nous avons vu que le statisticien classique iuterprete son intervalle de confiance en se referant a une collection d'echant.illons qu'il aurait pu observer s'il avait reproduit son experience dans les memes conditions. Le statisticien bayesian ne rencontre pas cette difficulte. L'intervalle de confiance, qu'il appelle intervalle de credibilite pour le distinguer de son homologue classique, a une interpretation naturelle qui porte directement sur la valeur inconnue qu'il cherche a cerner. Pour un risque Q fixe, les limites de l'intervalle de credibilite sont les percentiles ()a/2 et ()1-a/2 du posterior tels que Pr (()a/2 ~ () ~ ()1-a/2) == 1- Q. Ce n'est pas seulement une question philosophique. Le concept de repetition d'cxperiences dans les memes conditions peut n'avoir aucun sens. La probabilite qu'un meteorite detruise la Terre dans les mille pro chaines annees ne peut etre fondee sur la notion de repetition. Outre les difficultes d'interpretation. le paradigme classique n'offre pas l'equivalent de la distribution predictive a posteriori. Or c'est bien le futur sachant le passe qui interesse le decideur. Par exemple, le conseil municipal de Chamonix (voir chap. 2) aurait pu se poser la question suivante : Quelle est la probabilite que le site de Montroc subisse au rnoins une avalanche dans les vingt prochaines omnees sachant qu'on y en a observe six depuis 1843? Pour repondre a cette question, il faut faire des hypotheses, postuler un modele dechantillonnage, questionner les experts, bref construire un modele statistique parametrique 7 . Cependant, le dccideur, par exemple le conseil municipal de Chamonix, n'a rien a faire des parametres du modele! Merrie s'il en ignore le nom, c'est la distribution predictive a posteriori qui I'interesse, distribution obtenue en integrant, par rapport au pararnetre, Ie produit de la probabilite de l'observable par la distribution a posteriori du parametre. Le statisticien classique ne peut pas realiser cette operation puisque, pour lui, Ie parametre ne varie pas! Enfin, les petits echantillons sont par definition peu informatifs et le theoreme central limite ne tient plus! Le statisticien classique est peu arme pour traiter ces cas difficiles. Le statisticien bayesien, lui, peut palier un manque de 7
la statistique bayesienne non parametrique n'est pas l'objet de ce livre.
1. La Statistique : son objet, ses outils
19
donnees en introduisant de l'expertise dans le modele. Ces situations ne sont pas rares en sciences et particulierement en sciences de l'environnement. Ainsi, on a vu que pour mesurer la concentration en radon dans une maison, il faut laisser le detccteur sur place (par exemple dans la piece la plus frequentee) durant une periode de 2 a 3 mois. Trois mois, une mesure ! Pourquoi se priver d'une seconde source d'information qu'est l'avis de l'expert (p. ex. l'OMS) ? La controverse philosophique ecole classique versus ecole bayesienne est finalement peu interessante. II faut faire un choix et le notre est clair: c'est le paradigme bayesien, La suite de ce livre est une collection de modeles utiles, car de portee assez generale. Chacun d'entre eux constitue un chapitre. Les difficultes calculatoires sont mises en evidence et une solution est proposee. II est possible que d'autres solutions, plus elegantes, existent. Tous ces modeles sont illustres avec des exemples concrets (donnees reelles). Nous postulons que le lecteur a une culture generale en mathematique du niveau du baccalaureat es sciences. La connaissance des distributions standards est indispensable. Elles sont reprises dans l'appendice A de (Gelman et al., 2004).
Epilogue Ce premier chapitre a introduit l'idee que construire un modele statistique parametrique revient a imaginer un mecanisme probabiliste susceptible de reproduire les observations. L'observable est une variable aleatoire pour laquelle on postule une distribution de probabilite souvent nommee modele de connaissance. II s'agit en fait d'une famille de lois de probabilite indexee par un parametre inconnu de dimension finie. On le notera souvent B. Le choix d'un modele de connaissanee est done une affaire dexperience matinee d'imagination et d'audace. Sous le paradigme bayesien, () est incertain mais prend ses valeurs dans un espace de dimension finie, 8, appele ensemble des ciats de la nature. Avant de disposer de l'echantillon de donnees, un specialiste du probleme etudie pourra souvent dire quelque chose sur (). II pariera plus volontiers sur telle plage de valeurs que sur telle autre. Ainsi, l'incertitude sur () peut etre decrite par une distribution de probobilite a priori ou prior. La regle de Bayes reactualise cette expertise en multipliant le prior par la vraisemblance de l'echantillon. Apres normalisation, le resultat obtenu est la distribution a posteriori de B (ou posterior). Toute utilisation ulterieure, notamment l' aide a la decision, sera fondee sur la distribution a posteriori de B. Le fil conducteur de cet ouvrage pourrait se resumer par l'aphorisme de la plume ala souris. En effet, naguere le modelisateur ne disposait que de ses idees, d'un porte-plume et d'une feuille blanche. Aujourd'hui, l'ordinateur personnel a remplace le porte-plume et demultiplie les capacites de traitement. Toutefois qu'on ne s'y trompe pas! L'imagination et la creativite constituent toujours les pierres angulaires du raisonnement conditionnel bayesien. Sans modele, le stockage des donnees dans un ordinateur, meme performant, est improductif!
20
Pratique du calcul bayesien
A contrario, l'art de la construction de modeles probabilistes ressemble a l'apprentissage de la musique : il faut commencer par le solfege. La premiere partie de cet ouvrage propose l'etude des gammes, la seconde nous entraine vers des partitions plus evoluees. Le chapitre 2 presente un probleme decisionnel complet, fonde sur un fait reel et tragique : I'avalanche de Montroc. Les modeles sous-jacents - Ie modele beta-binomial et le modele gamma-Poisson - sont calculables « a la plume »,
Chapitre 2
Decision en avenir incertain I'avalanche de Montroc
• •
Prologue Quand on s'interesse a une experience aleatoire dichotomique, l'hypothese que les observations successives constituent un processus de Bernoulli peut etre justifiee, tantot par la nature de l'experience aleatoire (p. ex. jeu de pile ou face), tantot constituer une hypothese de pure commodite «pour voir». Dans tous les cas, elle conduit au modele beta-binomial et, quand l'evenement d'interet est rare, au modele gamma-Poisson. Ces modeles, tres simples, nous permettent de construire un probleme fictif d'aide a la decision, fonde sur un drame reel ayant fait la une des journaux : A urions-nous pu eoiier La catastrophe de Montroc?
2.1 2.1.1
L'avalanche de Montroc Les faits
Le 9 fevrier 1999, une avalanche meurtriere (douze deces) a detruit une partie du hameau de Montroc pres de Chamonix. Cette coulee de neige a englouti vingt-trois chalets dans une zone declaree « constructible», car consideree comme hors d'atteinte d'apres la cartographie des risques etablie en 1992. En fait, avant la date fatidique, la derniere avalanche sur ce site avait ete observee en 1945. Toutefois, selon Le Dauphine libere, cinq avalanches survenues entre 1843 et 1945 n'auraient pas ete prises en compte", 1
Le maire de Chamonix a ete condamne
a 3 mois
de prison avec sursis le 17 juillet 2003.
22
Pratique du calcul bayesien
2.1.2
Mise en situation
Nous sommes en 1992 et le conseil municipal de Chamonix attend votre etude pour prendre sa decision, c'est-a-dire accepter ou refuser de declarer la zone constructible. Vous savez que la derniere avalanche a ete observee en 1945 et cinq autres avalanches ont affecte Ie site entre 1843 et 1945 (vous ignorez les annees}, II est clair que vous ne pouvez pas dire et faire n'importe quoi. Votre horoscope ou une analyse statistique naive ne constituent pas une methode devaluation des risques conforme aux regles de la demarche scientifique. En particulier, les chances qu'a un evenement de se produire demain ne sont pas insignifiantes simplement parce qu'il ne s'est pas produit depuis quarante-sept ans! L'avenir est incertain et le calcul des probabilites est l'instrument de mesure de toute incertitude. Avant de passer a l'action, il peut etre utile de se rememorer quelques pensees. - «La verite, ce n'est pas le certain et l'incertain, ce n'est pas l'ignorance », (Ilya Prigogine (1917-2003), prix Nobel de chimie (1977))
- «II est bon de suivre sa pente, pourvu que ce soit en montant », (Andre Gide (1869-1951), prix Nobel de Litteraturc (1947), Les faux-monnayeurs (1925))
- «All models are false, some are useful». (Bernardo & Smith, (Bernardo et Smith, 1994))
2.1.3
Un probleme de decision
En 1992, ce qui interesse le decideur, ici Ie conseil municipal de Chamonix, c'est le risque associe aux deux decisions qu'il peut prendre: d1
== declarer la zone constructible et perdre C 1 M
d2
== refuser lc projet et perdre C2 M
EUROS si le site subit au moins une avalanche grave dans les h pro chaines annees (indemnisation des victimes) ; EUROS si le site ne subit aucune avalanche dans les h prochaines annees (les non- recettes).
Le decideur doit donc fixer un horizon de prevision h et votre travail est d'evalucr la probabilite p (h) d'observer au moins une avalanche destructrice sur cette periode, Le tableau 2.1 resume ce probleme de decision en termes de perte associec a chaque decision selon que I'evenement redoute se realise dans les h annees, avec la probabilite p (h), ou ne se realise pas avec la probabilite complementaire. Selon la theorie de la decision, voir p. ex. (Bernier et al., 2000), une reqle de decision coherente consiste a opter pour la decision qui minimise la valeur attendue de la perte totale Ct E (Ctld 1 , h) E (C t ld2 , h)
p(h) X C 1 (1 - p (h))
(2.1) X
C2
(2.2)
2. Decision en avenir incertain : l'avalanche de Montroc Couts
d1 d2
23
Etat de la nature ()
p (h) 01 0
1-p(h) 0
C1
Tableau 2.1 - Montroc : pertes associees aux decisions. Par consequent le rapport (2.3) fournit une regle de decision rationnelle (2.4)
Remarque 2.1 II n'est pas necessaire d'estimer ces couts avec une grande precision. D'une part, le bon sens permet de soutenir que la destruction d'un site habite coute plus cher que les non-recettes : C1 > C 2 . D'autre part, il est recornmande de batir divers scenarii C 1/C2 et de considerer divers horizons de prevision
h.
Pour chaque couple
(h, g~)
Ie calcul du rapport r indique la
decision qui est rationnelle (voir fig. 2.3). Imaginons que le decideur fixe h == 30 ans et estime que 0 1/02
~
10. Si,
a l'issue d'un raisonnement coherent, vous trouviez p (30) ~ 0.08 alors vous devriez recommander la decision d 1 , car r ~ 0.87 < 1 (eq. 2.4). Et si l'an-
nee suivante une coulee de neige rasait le site, auriez-vous pour autant mal travaille ? La reponse est categorique : non, car la probabilite est un concept previsionnel, ante evenement. Si l'evenement rare se realise, vous n'avez tout simplement pas eu de chance et il faut l'accepter. De telles situations se presentent dans la vie de tous les jours. Par exemple, la perte des quatre moteurs d'un avion est un evcnement qui a une probabilite tres faible, mais cet evenement s'est produit et des gens sont morts. Bien entendu, le taux d'echec a l'issue de demarches folkloriques est incomparablement plus eleve.
Remarque 2.2 Bien sur, il est possible de discuter la valeur du rapport C 1/C2 , car r augmente avec lui. Ainsi, sous les memes hypotheses, des que le rapport des couts vaut 12 il faut recommander d 2 . On peut d'ailleurs faire une analyse de sensibilite sur ce rapport.
2.1.4
Quel(s) modelers] d'echantillonnage?
Convenons qu'une annec quelconque est « noire» (code 1) si on y observe au mains une avalanche importante sur le site d'interet. Elle est « blanche»
24
Pratique du calcul bayesien
(code 0) dans le cas contraire. A Montroc, on a releve six annees « noires» sur la periods 1843-1992. Le choix d'un modele d'echam.illonnagc (on dit aussi modele de population) fait partie des hypotheses de la modelisation, Entrent dans les raisons de ce choix des considerations de cornmodite mathematique, de realisme et de parcimonie des parametres. Tous les resultats obtenus sont necessairement conditionnels a l'adoption de ce modele. Ce chapitre se limite aux modeles de connaissance suivants : Ie modele binomial et le modele de Poisson.
Remarque 2.3 D'autres modeles d'echantillonnage sont possibles. En effet, il ne faut pas confondre l'absence d'information avec l'absence reelle d'avalanche, car on peut tres bien imaginer que des coulees de neige n'aient pas ete enregistrees. La modelisation de ce modele de donnees manquantes sort du cadre de cet expose.
2.2 2.2.1
Imaginer un mecanisme generateur des observations Le processus de Bernoulli
A chaque annee t, on associe une variable aleatoire de Bernoulli, disons Yt, qui prend la valeur 1 avec la probabilite 7rt si le site de Montroc subit au moins une avalanche grave et la valeur 0 avec la probabilite complementaire dans Ie cas contraire. Si on postule que ces variables aleatoires sont ituiependanies et identiquement disiribuees (Vt : 7rt == 7r), la suite {Yt} constitue un processus de Bernoulli:
Remarque 2.4 Conceder que le modele d'echantillonnage est un processus de Bernoulli est d'abord un choix de commodite, En effet, on sait que le climat a change depuis Ie milieu du XIX e sieclc (c'est-a-dire la composition de l'urne a change) et il est meme possible qu'il y ait de la memoire dans Ie systeme. Cependant, en acceptant ce modele, au moins pour un temps, on va pouvoir quantifier Ie risque associe a chaque decision. Ensuite, il faudra discuter les resultats a I' aulne des hypotheses qui y ont conduit. Le modele binomial Puisque chaque annee est representee par une variable aleatoirc de Bernoulli, leur somme n
x ==
LYt t=l
2. Decision en avenir incertain : l'avalanche de Montroc
25
est une variable aleatoire binomiale, de parametres n, 1T, dont la densite s'ecrit : (2.5)
ou
n! (~)==-(n - x)!x!
2.2.2
Le processus ponctuel de Poisson
Le processus ponctuel de Poisson (voir annexe C) est un modele, un processus sans memoire, qui interdit les simultaneites et qui considere que les occurrences apparaissant dans des intervalles de temps disjoints sont independantes.
Comrnencons par preciser ce qu'est un evenemcnt ponctuel Sur la periode d'interet de longueur finie l, on divise l'axe du temps en n periodes elementaires de duree constante ~l : l == n.Sl, Des lors, n ----t 00 comme ~l ----t O. Mais l fini et ~l ----t 0 signifient que l'evenement d'interet est un point sur l'axe du temps, c'est-a-dire un evenement ponctuel.
Exemple 2.1 On observe un carrefour pendant 5 ans. Un jour est «rouge» si on y constate au moins un accident avec lesions corporelles. ~l == 1/365 ~ n ~ 1.8 x 103 jours. • La distribution de Poisson est un cas limite de la distribution binomiale Numerotons les periodcs elementaires dans l'ordre de succession depuis 1 periode elementaire, on peut associer une variable aleatoire de Bernoulli qui prend la valeur 1 avec la probabilite invariante 1T si l'evenement d'interet se realise. Si x periodes elementaires parmi les n ont vu l'evenement d'interet se realiser, on a un processus de Bernoulli:
a l. A chaque
[xln,1T]
,
_no), ,7fx (1 _ 7f )n-x (n x .x. n(n-1)···(n-x+1) X( )n-x - - - - - - - - - - 1 T 1 - 1T x!
(1Tn)X x!
(1 _ ~) ... (1 _ ~) (1 n
n
1T)n
(1 - 7f)X
L'evenement d'interct est un evenement rare si x « n, c'est-a-dire En posant A == 7fn > 0 OU n ----t 00 et 1T ----t 0
on obtient la distribution de probabilite de Poisson
1T ----t
O.
26
Pratique du calcul bayesien
AX
[XIA] == ,exp (-A)
(2.6)
x.
En effet : lim
n-+oo
(1 - ~) ... (1 - ~) == 1 n
n
lim (1 - 7f) X == 1
7r-+O
lim
n-+oo
(1- ~)n n
=exp(-A)
Remarque 2.5 La distribution de probabilite de Poisson (eq. 2.6) est definie sur l'ensemble des entiers naturels N : 1 == exp (- A)
AX
AX
L , {:} x=o L ,x. x=o x. 00
00
== exp (A)
Dans Ie chapitre 5, nous utiliserons une variable aleatoire de Poisson prenant ses valeurs dans No == N\ {O}. On dit que la distribution de Poisson est tronquee sur No. Des lors 00 AX == exp (A) - 1
L ,x.
x=l
et la distribution de probabilite de Poisson de parametre A > 0 tronquee sur
No s'ecrit :
[xIA] ==
AX
1
-;y -ex-p-(A-)---1
Le processus ponctuel de Poisson Soit X j le temps qui separe deux occurrences successives de l'evenement d'intcret. Si on postule que les durees X j sont iid selon une loi exponentielle de parametre d'echelle 1/A, alors la distribution du nombre d'occurrences, disons Y, sur une periode de l unites est donnee par la loi de Poisson de parametre Al. La reciproque est vraie : si la distribution du nombre d'occurrences sur une periode de longueur lest donnee par la loi de Poisson de parametre Al, alors les durees sont iid selon une loi exponentielle de parametre d'echelle 1/ A.
x, IA ~d dgamma (xiI, A-I) {:} YIA, l
r-;»
dpois (yIAl)
(2.7)
~~
Le parametre A est la cadence des occurrences, c'est-a-dire leur nombre sur la periode de reference.
2. Decision en avenir incertain : l'avalanche de Montroc
2.3
27
Inference bayesienne
Ayant imagine un processus susceptible de generer les observations, il faut maintenant estimer son parametre caracteristique - qui peut avoir plusieurs composantes auquel cas c'est un vecteur - et quantifier l'incertitude afferente, Comme on l'a vu au chapitre 1, le paradigme bayesian offre un cadre de raisonnement particulierement fiable et fecond. La vraisemblance est conditionnelle au parametre et la distribution a priori du parametre, ou prior, decrit l'incertitude de l'expert sur celui-ci. La regle de Bayes dit comment reactualiser cette expertise disposant des donnees: il suffit de multiplier la vraisemblance par le prior. La distribution a posteriori du parametre, ou posterior, implique la normalisation de ce produit. Cette operation peut se reveler compliquee, voire impossible, sans le concours de methodes speciales. Ce ne sera pas le cas ci-dessous. A condition de connaitrc les fonctions eulerietuies de premiere et seconde espece, respectivemment la fonction gamma (symbole f) et la fonction beta (symbole B), tous les calculs peuvent etre faits a la plume. Ces fonctions ne doivent pas etre confondues avec les distributions de probabilite gamma et beta auxquelles elles ont d'ailleurs donne leur nom (voir annexes B et B).
2.3.1
Le modele beta-binomial
La vraisemblance Rappelons que la vraisemblance mesure les chances d'observer I'echantillon conditionnellement au parametrc. Pour l'avalanche de Montroc, le modele d'observation est la loi binomiale (eq, 2.5). La vraisemblance est donc immediate
(2.8) Choix du prior et application de la regie de Bayes Quand on regarde la vraisemblance (eq. 2.8), on reconnait immediatement la signature fonctionncllc/ d'une densite de probabilite beta. On dit qu'un prior beta est conjugue a une vraisemblance binomiale. La conjugaison a deja ete abordee au chapitre 1 (p. 16) et sera davantage explicitee au chapitre 7. Bien sur, il faut preciser les parametres du prior beta, disons a > 0 et b > 0 :
[Bla, b]
ex ga-l
(1 _
(})b-l
(2.9)
Les parametres des lois a priori decoulent de l'expertise reconnue et sont ponctuels, c'est-a-dire sans incertitude. La litterature scientifique les designe souvent sous Ie nom d 'tujperparametres. 2 L'expression «signature fonctionnelle » traduit I'idee que la relation rnathematique en main constitue la partie essentielle d'une densite de probabilite. II ne reste plus qu'a la normaliser.
28
Pratique du calcul bayesien
Comment determiner les hyperpararnetres d 'un prior beta? RappeIons que le parametre 8 (eq. 2.8) represente la probabilite qu'une annee calendaire, choisie au hasard, voit au moins une avalanche debouler sur le site de Montroc . Ces annees « noires» sont plut6t rares, sinon Ie probleme de decision n'aurait aucun sens. Pour l'exemple , imaginons qu'un specialiste des avalanches accorde une chance sur dix a 8 de depasser la valeur 0.05 et cinq chances sur cent, d'etre inferieure a la valeur 0.01. Ces paris lui sont propres et temoignent de son savoir. Pour l'analyste, l'expert a fourni les quantiles 8go ~ 0.05 et 85 ~ 0.01. A partir de ceux-ci, une methode numerique lui permet de determiner les hyperparametres a et b: a ~ 3.82 et b ~ 124.1 (voir chapitre 7, p. 135). Ces valeurs ne varient que si l'expert change d'avis, ce qui est son droit. Tant qu'il ne Ie fait pas, elles sont connues sans incertitude. La regle de Bayes reactualise cette expertise en tenant compte des donnees : x = 6 pour n = 150. La distribution a posteriori de 8 est encore une densite beta (interet de la conjugaison) , dont les parametres integrent l'expertise et les observations, c'est-a-dire toute l'information disponible : 81k, n, a, b rv dbeta (81x + a, n - x
+ b)
(2.10)
La figure 2.1 montre le prior et le posterior ainsi obtenus.
40,---
-,----
---,---
----,-
0.01
0.02
0.Q3
----,-
-
,------
-,----
---,---
----,-
0.06
0.07
0.08
----,-
---.,
35
30
~
:B
25
~
~ 20 2
.~
c
~ 15
10
0.04
0.05
e
0.09
0.1
Figure 2.1 - Avalanche de Montroc : Ie mod ele beta-binomial.
2. Decision en avenir incertain : l'avalanche de Montroc
29
La distribution predictive a posteriori Le probleme decisionnel, autoriser ou refuser de declarer la zone constructible, doit etre pose dans une perspective predictive. Cette decision, dont les consequences concernent les h annees futures, est fondee sur les informations du passe, ce qui justifie les calculs presentes ci-apres. On pourrait alors s'interroger sur l'apparente contradiction entre l'hypothese iid et la pretention de prevoir l'avenir en se servant du passe. En fait, le lien entre le futur et le passe s'appuie sur la connaissance du parametre (). L'idee est la suivante. On s'interroge sur la probabilite d'observer Y annees « noires» dans les h prochaines annees sachant que, dans le passe, on en a reellement observe x en n annees. Y est une variable aleatoire discrete prenant ses valeurs dans l'ensemble n (Y) == {O, 1, ... ,h}. La distribution predictive a posteriori donne les chances de chacune des occurrences yEn (Y) en impliquant les acquis (a,b, n, x) et l'horizon de prevision envisage (h). On l'obtient en integrant la distribution jointe de Y et () sur toutes les valeurs possibles de () (voir chapitre 1, eq, 1.9) :
[Y = ylh, a, b, n, x] = ([yIO, h] [Olx, ti, a, b] dO
Je
(2.11)
- [yl(), h] est la probabilite de y donnee par la loi binomiale (eq, 2.5), - [()Ix, n] est lc posterior beta obtenu ci-dessus (eq, 2.10) L'integration (eq, 2.11) ne pose aucun probleme, La distribution predictive a posteriori du modele beta-binomial est la distribution de Polya :
[Y == y Ih ,a, b,n, x ]==(h)B(y+x+a,h-y+n-x+b) B (x + a,n - x + b) y
(2.12)
Remarque 2.6 II est important de noter que la calcul de la distribution predictive a posteriori est realise en integrant un produit de distributions de probabilite, En d'autres mots, il faut tenir compte des constantes de normalisation.
La figure 2.2 montre la distribution de Polya pour quatre horizons de prevision. La probabilite d'observer au moins une annee « noire» a l'horizon h est le complement de n'en observer aucune
p (h)
[Y 2 1Ih,a,b,n,x] 1 - [Y == Olh, a, b, n, x] 1- B(x+a,h+n-x+b) B(x+a,n-x+b)
(2.13)
Maintenant nous sommes en mesure d'appliquer notre regle de decision (eqs, 2.2 et 2.4) avec differents scenarii 0 1/02 (fig. 2.3). On voit que refuser de rendre le site de Montroc constructible (decision d2 ) est une decision rationnelle des que l'on envisage un horizon de prevision compatible avec un projet de lotissement (p. ex. 20 ans ou plus).
30
Pratique du calcul bayesien
h = 5 ans
08
0.6
~ 0.6 :c m
~
0.4
0.4 0.2
0.2
4 1 2 3 Nombre d'arneesnoires :y
0
h = 20 ans
0.5 0.4
9 10
h =30ans
0.3
~
'" z 0.3
~
m
02
02
o,
0.1
0.1 0
1 2 3 4 5 6 7 8 Nombre d'arneesnoires : y
0.4
.QJ
~
h = 10 ans
0.8
0
5 10 15 Nombre d'aonees noires : y
20
5 10 15 20 25 Nombre d'annees noires: y
30
Figur e 2.2 - Avalanche de Montr oc : dist ribut ion de Polya pour quatre horizons de prevision.
D iscussion
L'hypoth ese ii d, fond atrice du raisonnement , est discutable. Comment en effet soute nir que le processus est sans memoire et que e est invariant sur la periode 1843 --> 1992 + h ? Le modele beta-binomial est done critiquable. Cependant, da ns l'etat act uel des connaissances, l'hypoth ese ii d n'est pas plus discutable que son contraire et c'est peut-etre la seule qui soit compatible avec la « pauvrete » de l'information conte nue dans l'enonce du problerne. Dans Ie cas OU cet te hypothese serait rejetee, il faudr ait alors developp er un modele beaucoup plus sophist ique. Neanmoins, nous sommes persuades que si le conseil municipal de Chamonix avait pu beneficier de l'inform ation generee par ce modele, il aurait refuser de prend re le risque d'un drame humain .
2.3. 2
Le modele gamma-P oisson
La distribution a posteriori
Si on considere que la periode 1843-1992 est la periode unite (150 ans), alors l = 1 (eq. 2.7) et la vraisemblance s'ecrit (eq. 2.6) :
[X = XIA] ex AXexp (- A)
(2.14)
2. Decision en avenir incertain : l'avalanche de Mont roc
20.----
-
- .-
-
-
-
,...---
-
-
- .-
-
-
-
,...---
-
-
31
-,
18 16
14
10
15
20
25
Figure 2.3 - Avalanche de Montroc : regie de decision. On voit que la forme fonctionnelle d'une distri bution de P oisson est la merne que celle d'une densite gamma. Ceci suggere de decrire l'in certit ude a priori sur le par ametre de Poisson, ici A, a l'aide d'une densite de probabilite gamma dont il fau t fixer Ie par metre de forme, a > 0, et Ie par am etre d 'echelle, b » 0 :
[Ala,b] ex Aa - 1 exp (- bA)
(2.15)
Remarque 2.7 Dans cette formulat ion de la distribution gamma, E (Al a, b) = al b et V (Ala, b) = alb 2 . La regie de Bayes fournit la distribution a posteriori du par ametre de Poisson : (2.16) AIH ", dgamma (Alx + a, 1 + b) ou la let tre H repr esent e to utes les hypo th eses, notamment les hyperparametres a et b, et les donn ees, ici le nombre d'ann ees « noires » , x .
La distribution predictive a posteriori Soit Y, la variable aleatoire « nombre d'annees noires a Mont roc » dans les h prochaines annees. On sait qu'on en a observe x = 6 sur une periode I de 150 ans. Dans l'ann exe B, on montre que la distribu tion predict ive a posteriori est
32
Pratique du calcul bayesien
une loi binomiale negative dont la distribution de probabilite s'ecrit
(2.17)
ou 7r
== h~1~b'
r == x
+a
(2.18)
Dans le cas de Montroc, meme avec des priors non informatifs, les modeles beta-binomial et gamma-Poisson produisent une aide a la decision vraiment similaire a celIe montree a la figure 2.3.
Epilogue Dans un contexte decisionnel, lorsque les enjeux sont importants, la quantification du risque attachee a chacune des decisions en competition est une etape obligatoire. Dans cette perspective, la modelisation statistique bayesienne mobilise les donnees disponibles et l'expertise reconnue pour fournir une information utile au decideur. La credibilite du paradigme bayesien reside dans sa transparence et dans la rigueur de la demarche. Les hypotheses sont sur la table et la regle de Bayes assure la coherence du raisonnement. La puissance de cette approche est renforcee par la distribution predictive a posteriori qui n'a pas d'equivalent classique. Ainsi, la distribution de Polya est la distribution predictive a posteriori du modele beta-binomial. Ce dernier permet de traiter des problemes OU l'observable est une variable aleatoire dichotomique : I'evenement d'interet se realise ou ne se realise pas. Ce modele est approprie quand la succession des observations constitue un processus de Bernoulli, le nombre d'essais etant fixe. La loi de Poisson etant un cas limite de la loi binomiale, le modele gamma-Poisson s'applique quand l'evenement dichotomique d'interet est rare. Sa distribution predictive a posteriori est la loi binomiale negative. Meme si l'hypothese « processus de Bernoulli» n'est pas toujours facile a justifier, ces modeles simples (mais pas simplistes!) sont utiles. Ainsi, la tragedie de Montroc nous a permis de batir un contexte decisionnel, certes fictif, mais riche d'enseignements. Bien que critiquable, la quantification du risque realisee ci-dessus a du sens. En tout cas, elle aurait pu alimenter les debats et influer sur la decision finale. Une decision est rationnelle s'il est clairement etabli qu'elle participe a la satisfaction de l'objectif declare en respectant un certain nombre de principes juges essentiels. Ainsi, la clarte du dialogue entre l'analyste et le decideur ; la pertinence des informations et le respect du cahier des charges sont des exigences qui nous semblent incontournables (Bernier et al., 2000). L'acceptation de la methode par toutes les parties n'est pas la moindre des difficultes, Elle repose en partie sur la comprehension qu'elles en ont et la representation graphique du modele va dans ce sens, C'est ainsi que Ie chapitre 3 precise la notion de reseau bayesian et introduit les variables latentes et la modelisation hierarchique.
Chapitre 3
Introduction a la modelisation graphique Ie modele de capture-recapture
• •
Prologue Les modeles graphiques associent la theorie des graphes, qui modelise des reseaux, a la theorie des probabilites, qui quantifie l'incertitude. L'idee fondamentale est la modularite : un modele complexe est construit en combinant des modeles simples. Les modeles graphiques eclairent parfaitement la notion dindependance conditionnelle. Le modele dit de capture-marquage-recapture constitue un exemple pedagogique d'autant plus intercssant qu'il recoit de nombreuses applications pratiques dans les sciences naturelles et humaines.
3.1
Introduction
Sans en formaliser la presentation, nous avons deja montre des modeles graphiques dans les deux premiers chapitres. Ainsi, a la page 11 de la section 1.3, nous avons rcprcscnte de trois facons differentes la probabilite conjointe d'une observable Y et d'un parametre () prenant ses valeurs dans l'ensemble des etats de la nature de dimension finie, 8. Nous avons retenu qu'un reseau bayesien, ou DAG, represente un modele statistique parametrique a l'aide de nceuds relies par des flechcs indiquant les liens de dependance entre des quantites incertaines. Le DAG lc plus simple relie un parametre a une observable (fig. 3.1). Le parametrc, (), et l'observable, Y, sont des nceuds stochastiques representee par
34
Pratique du calcul bayesien
des cercles ou des ellipses. La fleche indique une relation de filiation . En vocabul air e graphique, 8 est le nceud parent et Y est le nceud enf ant. Des que l'on fixe 8 on peut generer des valeurs y de l'observable Y . C'est en ce sens que 8 joue le role d'une « cause » et que l'observation y joue Ie role d 'un « effet », Apprendre quelque chose sur 8 revient a cherch er la loi conditionnelle de 8 sachant l'observation y en mobilisant eventuellernent une certaine expertise sur 8. Cela revient a invers er Ie sens de la fleche pui squ 'on remonte de l'effet vers la cause (fig. 3.1).
Parame trc
Modele
Observ able
Inference
Observ ation
Figure 3.1 - Le DAG Ie plus simple.
Exemple 3 .1 Si Y est le t emps qui s'ecoule entre deux manifestations d'un evenement dommageable, on peut le modeliser a l'aide d'une distribution exponentielle de parametre 8 :
[y I8] = 8exp( -8y)
'* E(Y) =
1/8
(3.1)
Si on ne disposait qu e d 'une seule observation (a deconseiller) , ce mod ele serait represents par Ie DAG de la figure 3.1. • La figure 3.2 montre un DAG plus sophistique. Les fleches doubles indiquent des operations logiques. Par exemple, p~ = P2 - m 2, r/ = T"J - ml . Les valeurs fixees son t representees par des carte s ou des rect angles. Ainsi , P2 est une const ante.
3.1.1
Vne courte digression
Dans la section 1.4 nous avons justifie Ie choix bayesi en , mais nous ne nous sommes pas encore vraiment interreges sur la pertinence de l' approche probabilist e. En fait , si la st at ist ique permet d 'interpret er un phenomene naturel, elle ne l'explique pas (Robert , 2006)! L'exemple suivant va nous permettre d'illustrer le propos.
3. Introduction
a la modelisation graphique
35
Figure 3.2 - Un reseau bayesien plus soph istique. Exemple 3.2 La troisieme loi de Kepler (1571-1630) , decouverte en 1618, repose sur l'analyse des donnees de Tycho Brahe (1546-1601) : quelle que soit la planete, le carre de sa periode de revolution, T, divisee par le cube de son demi grand axe, a, est un e constante. A l'epoque, Kepler disposait des donnees pour six plan etes (fig. 3.3) . L'alignement (en coordonnees logarithmiques) est remarqu able . •
100
satcme
+
Jupiter .
10
ars +
Venus . Mercu re
10
+
Demi grand axe (Terre = 1)
Figure 3.3 - La troisierne loi de Kepler. Imaginon s qu 'un st atisticien d'aujourd'hui ignorant tout de l'astronomie remonte le temps. Il propose aux conte mporains de Kepler une modelisation probabiliste du phenomena observe (fig. 3.3). Personn e ne sait que la course des planetes aut our du Soleil est det errninee par la loi de la gravitat ion universelle de Newton. Alors Ie statisticien propose un modele d'echantillonnage sense pouvoir reproduire les observation s. Il opt e pour le modele norm al deja rencontre au chapit re 1 (section 1.1) et davantage explicite au chapitre 9 (section 9.2).
36
Pratique du calcul bayesien
ln c, == In17+jJlnTi +ci,
e,
rv
iid
dnorm(O,a)
Ce modele probabiliste et le traitement statistique bayesien qui en decoule (Ie prior est non informatif) conduisent aux resultats suivants (tableau 3.1).
ic« jJ
17 a
2.5 0.650 0.976 0.014
50 0.665 1.003 0.025
97.5 0.681 1.032 0.065
Tableau 3.1 - La troisiemc loi de Kepler.
Pour aboutir a la troisicme loi de Kepler, le statisticien devrait « oublier » les incertitudes et decreter que 17 == 1 et jJ == 2/3. Le statisticien ne se le permettra pas. Ainsi, comme le fait remarquer (Robert, 2006), apposer un modele probabiliste sur un phenomene inexplique peut paraitre tres reducteur. II est vrai que quand on connait la mecanique newtonienne, notre modele de regression semble d'autant plus demuni qu'illui est impossible de reconstruire la loi de la gravitation universelle (meme pas la troisieme loi de Kepler) a partir des observations. En d'autres termes, un modele probabiliste n'explique jamais le phenomena reel d'interet ! II se contente d'en fournir une representation a des fins operationnelles, Uranus u'etait pas connue a l'epoque de Kepler, mais, en mode predictif, notre modele calcule sa distance au Soleil a partir de sa periode de revolution. L'erreur relative mediane est inferieure a 2 %! Ca ne vaut pas la loi de Kepler, mais ce n'est pas si mal si on n'en dispose pas. Bien entendu, l'approche probabiliste exige que le modele d'echantillonnage choisi « convienne » au probleme etudie. Ce choix est capital! Le metier et le bon sens sont ici des atouts precieux.
3.2
Principe de la modelisation graphique
Le lecteur interesse trouvera dans (Cowell, 1998) une excellente introduction a la modelisation graphique, notamment l'exemple 3.3 dont sont issues les figures 3.7 a 3.9.
3.2.1
L'independance conditionnelle
La figure 3.4 illustre la notion tres importante d'independance conditionnelle. Pour apprendre quelque chose sur Z, il n'est pas necessaire de considerer Y si on dispose de X. On notera
(ZIX == x) .L (YIX == x) ou, plus simplement
(3.2)
3. Introduction it la modelisation graphique
(Z 1. Y)
IX
37
(3.3)
qui se lit : «Z est conditionnellement independant de Y relativement it l'information X == x », En d'autres mots, disposant de l'information X == x, un apport d'information sur Y, soit Y == y, ne modifie pas l'incertitude sur Z
[ZIY == y, X == x] == [ZIX == x]
(3.4)
Figure 3.4 - V n heritage : Ie nceud Zest conditionnellement independant du nceud Y sachant le nceud X.
A contrario, la figure 3.5 montre que pour apprendre quelque chose sur Z il faut considerer les noeuds X et Y.
Figure 3.5 - Une naissance : le nceud Z depend des nceuds X et Y.
La figure 3.6 montre que Zest independant de X sachant Y.
Pratique du calcul bayesien
38
Figure 3.6 - Une chaine : le nreud Zest independant du nceud X conditionnellement au nceud Y.
3.2.2
Du reseau bayesien
a la
loi conjointe
Un reseau bayesien (DAG) a une structure definie comme suit: a chaque nceud X est associee une distribution de probabilite conditionnelle dont Ie conditionnement porte uniquement sur les parents du nceud Pr (Xlpa (X))
(3.5)
La distribution jointe d'un ensemble de nceuds, disons U, est le produit de
toutes ses distributions conditionnelles (fig. 3.7) :
Pr(U)
==
IIpr(Xlpa(X)) x
Figure 3.7 - Distribution jointe d'un reseau bayesian.
(3.6)
3. Introduction
a la
modelisation graphique
39
Exemple 3.3 Soit U l'ensemble (conjonction) des nceuds : U == {A,B,C,D,E,F,G,H,I}. Pr (U) == Pr (A) Pr (B) Pr (C) x Pr (DIA) Pr (EIA, B) Pr (FIB, G) x Pr (GIA, D, E) Pr (HIB, E, F) Pr (JIG, F)
(3.7)
II est interessant de noter que la marginalisation sur un nceud sans descendant revient a enlever ce nceud du reseau ainsi que tous les liens y aboutissant. Par exemple en marginalisant sur le nceud H (fig. 3.8) : Pr (A, B, G, D, E, F, G, I) ==
:L Pr (U)
(3.8)
H
Figure 3.8 - Marginalisation sur un nceud.
On peut toujours ecrire un roseau bayesicn en placant les lettres de telle sorte que les parents d'un nceud le precedent dans la liste. Un tel arrangement est une typologie. Pour un DAG donne, il y a de multiples typologies. Ainsi, par rapport a la figure 3.7, (A, B, C, D, E, F, G, I), (B, A, C, F, E, D, I, G) et (C, A, B, E, D, F, G, I) conviennent. •
Deux proprietes markoviennes 1. Independonce conditionnelle. Un nceud est conditionnellement independant de ses non-descendants etant donne ses parents :
(E -.L nd (E)) Ipa (E)
(3.9)
En d'autres mots, disposant de l'information pa (E), un apport d'information sur nd (E) ne modifie pas l'incertitude sur E.
40
P ratique du calcul bayesien 2. Modula rit e (fig. 3.9). La loi d 'u n nceud sa chant le reste du resea u ne depend qu e de ses par ents, de ses enfants et des copar ents de ses enfant s. PI' (EIA, B , C, D , F, G, 1)
= PI' (EIA, B , D , G)
(3.10)
00 0
r!J t5'(j K ~
\8
Figure 3.9 - Modularite : loi d'un nceud sachant Ie reste du reseau. Dan s le chapit re 8, nous appliquons ces prop rietes - en det aillant les operat ions - a I'exemple des sa umons (voir p. 155 et suivantes) .
3 .2.3
DAG et variables latentes
Un modele st atisti que bayesien est utilement represent e par un DAG . Les qu ant ites incert ain es constituent des noeuds stochas tiques. Les parametres du mo dele sont des nceuds san s par ent et les observables sont des nceuds sa ns enfant . Tout nceud stochastique qui n 'est ni un par am etre ni une obser vable est une vari able lat ente. Ainsi, dan s la sect ion suivante, nous verr ons qu e le cardinal! d 'un ensemble qu 'on ne peu t recenser apparait comme une varia ble latent e dan s le mod ele dit de copture-m arquaqe-recopture. Le plu s souvent, l'int roduct ion de ce ty pe de variable dans le modele est justifiee pa r le souci de prendr e en compte des influences cachees qui affectent l'observable (voir chap. 8). Quan d on le peut (c'est une question de clarte du DAG ), les paramet res du mod ele forment la couche super ieure du DAG et les observa bles, la couche inferieure, Les variables latentes constit uent une couche interrnedi aire, pri se en sa ndwich ent re les par am etres et les observables, qui confere au modele une st ructure hierarchique. 1
Le ca rd ina l d ' un ensemble fin i E des ign e Ie nombre d 'element s de E .
3. Introduction a la modelisation graphique
3.3
41
Le modele de capture-recapture
Dans son application la plus courante, il s'agit d'estimer la taille d'une population statistique hors recensement.
Remarque 3.1 Bien que nous soyons encore formellement dans la premiere partie de cet ouvrage, nous devrons utiliser l'ordinateur pour resoudre le modele de capture-marquage-recapture. Que le lecteur veuille bien ne pas trouver la une incoherence de notre part. La locution « de la plume a la souris» doit etre comprise comme un cheminement et non comme une separation nette. Le recours a l'ordinateur est done preponderant dans la seconde partie de cet ouvrage sans etre completement exclu de la premiere.
3.3.1
Mise en situation
Le recensement est une operation statistique de denombrement d'une population generalement realise a des fins decisionnelles. Les premiers recensements connus ont eu lieu des l'Antiquite, notamment a Rome, dans le but de connaitrc la richesse du pays, afin de repartir l'impot. Mais une telle operation exige du temps et consomme des moyens importants quand elle n'est pas tout simplement impraticable. Uno alternative au recensement consiste a estimer la taille de la population d'interet a partir d'un double echantillonnage. On preleve au hasard, c'est-a-dire on peche'', un certain nombre d'individus que l'on remet dans leur milieu apres les avoir marques d'une manierc quelconque. Apres brassage, un second echantillonnage fournit un lot d'individus dont certains sont marques - ils sont recaptures - d'ou la denomination du modele. Sous certaines conditions, les effectifs des deux peches et les recaptures suffisent pour obtenir la distribution a posteriori de la taille de la population rl'interet. Ce
modele trouve de nombreuses applications pratiques dans les sciences naturelles et humaines.
3.3.2
La modelisation
Soit a estimer la taille, 1], d'une population donnee. II peut s'agir du nombre de poissons dans un lineaire de riviere, du nombre de sans-abri dans une ville, du nombre de chenes dans une foret, du nombre de declarations suspectes dans le ressort d'un percepteur, etc. En d'autres mots, 1] est le cardinal inconnu d'un ensemble bien defini qu'on veut inferer. Une premiere «peche» fournit un certain nombre d'individus que l'on marque d'une maniere quelconque avant de les « relacher » dans leur milieu. Soit ml ce nombre. Lors d'une seconde « peche » on prend P2 individus dont m2 sont marques, c'est-a-dire recaptures. 2 Ce modele est tres utilise en pisciculture, notamment pour contr6ler des peuplements ou s'assurer de I'efficacite des mesures de repeuplement.
42
Pratique du calcul bayesien
Hypotheses
A chaque individu du milieu (indice i), on associe une variable aleatoire de Bernoulli, disons Yik, qui prend la valeur 1 avec la probabilite 7Tik, s'il est capture a la k-ieme peche (k == 1,2), et la valeur 0 avec la probabilite complementaire s'il ne l'est pas. 1. Ces variables indicatrices sont independantes et identiquement distribuees :
Vi,Vj # i,Vk: Pr(Yik == IIYjk) == Pr(Yik == 1) ==
7T
(3.11)
2. Les deux peches sont independantes : (3.12) 3. II n'y a ni source, ni puits, ni emigration, ni immigration, c'est-a-dire TJ est invariant, au moins pendant la duree des operations. Un modele probabiliste de connaissance pour Y est fonde sur une loi de Poisson de paramctre A > 0, lui-meme tire dans une loi gamma dhyperparametres a > 0 et (3 > O. Cela revient a dire que la distribution de TJ est une binomiale negative. Un prior non informatif est obtenu en posant a == (3 ---+ 0 =} [A] ex A-1. La loi binomiale negative impropre de ce prior non informatif a pour
esperance 1 et a une variance infinie. Un premier modele dechantdllonnage mime la collecte des donnees Sous ces hypotheses : - les ml individus marques lors de la premiere peche sont les succes obtenus a l'issue d'une sequence de TJ cprcuvcs de Bernoulli a TJ fixe; la distribution de m, est binomiale, de probabilite 7T et d'ordre TJ (3.13) - les m2 individus recaptures lors de la seconde peche sont les succes obtenus dans une sequence de m.; cpreuvcs de Bernoulli a ml fixe (3.14) - les individus non marques et captures lors de la seconde peche, soit P~ == P2 - m2, sont les succes obtenus lors d'une sequence de TJ' epreuves de Bernoulli OU TJ' == TJ - ml est fixe (3.15)
a la
3. Introduction
modelisation graphique
43
Le DAG montre a la figure 3.2 (p. 35) representait, sans le dire, ce modele dans lequel TJ I == TJ - m1 et P2' == P2 - m2· Puisque la distribution conjointe d'un reseau bayesien est egale au produit des distributions de chaque nceud stochastique sachant ses noeuds parents, on a:
La distribution a posteriori des parametres suit (regle de Bayes) :
En posant" (3.18)
la vraisemblance s'ecrit : \] TJ! S ( [S, C I1f, A, TJ ex: (TJ _ c)! 1f 1 -
1f
)2TJ -
(3.19)
S
Un prior non informatif pour nest uniforme sur [0,1] et un prior non informatif pour A est proportionnel a A-1. Enfin, TJ est tire dans une loi de Poisson de parametre A. En substituant dans 3.17, il vient :
[TJ, n , AIs, ] c
ex:
A17-1exp(-A) S(
(TJ _ c)!
1f
1-
()
)217-s 1f
1'12C
TJ
(3.20)
Une double integration par rapport aux parametres n et A fournit la marginale a posteriori de TJ : 1
f(TJ)
[TJls, c] = K x (TJ _ c)! B (s + 1, 2TJ - s + 1) 1'12 C (TJ)
(3.21 )
ou la constante de normalisation, K, peut etre definie sur une grille de valeurs de TJ. La marginale a posteriori de nest facilement obtenue via l'algorithme suivant:
1. fixer N et compteur < -1 2. tant que compteur est inferieur
a N,
repeter :
- tirer une valeur de TJ dans [TJls, c] ; - tirer une valeur de nlTJ dans dbeta( nls - compteur < -compteur + 1. 3
A l'issue des operations, on sait qu'il
+ 1, 2TJ - s + 1) ;
y a au mains c individus dans le milieu.
44
Pratique du calcul bayesien
Remarque 3.2 La fonction factorielle rend l'infini pour les grands entiers naturels (sur mon ordinateur, x! E N {:} x ~ 170). Un changement d'unite est possible (par exemple, travailler en dizaine d'individus) a condition de remplacer la fonction factorielle par l'integrale d'Euler. - La constante de normalisation s'ecrit :
~
K = B (8 + 1, 2c _ 8 + 1) +
LJ
1]=c+l
B (8 + 1, 21] - 8 + 1) (17 - c) B (c, 17 - c)
(3.22)
- La marginale a posteriori de 17 suit :
[1]18, c] =
{
-k B (s + 1, 2c - s + 1) {:} 17 == K(~-c) B (8 + 1, 21] -
C
8 + 1) / B (c, 1] - c) {:} 1]
>c
(3.23)
Capture et recapture par un echantillonnage multinomial
A l'issue des deux peches, conditionnellement a 17, un individu quelconque est necessairement dans un des quatre etats possibles : capture-capture (cc), capture-manque (cm), manque-capture (mc), manque-manque (mm). Les effectifs de ces quatre etats sont donnes dans le tableau 3.2 OU le nombre d'individus jamais captures est inconnu. 1\11
c
m
c
m2
ml-m2
ill
P2 -m2
Total
P2
Total
17 - ml - P2 + m2 17 - P2
ml
17 - m.; 17
Tableau 3.2 - Une truite est capturee (c) ou manquee (m).
Le tableau 3.3 donne les probabilites associees l\ll c m
c 1r'2
(1 - 1r) 1r
a chacun de ces quatre etats,
m 1r (1 - 1r) (1-1r)'2
Tableau 3.3 - Probabilites des etats,
Des lors, les effectifs du tableau 3.2 sont vus comme le resultat de 17 tirages independants dans une loi multinomiale de parametre
La figure 3.10 montre Ie DAG dans lequel y represente Ie vecteur des effectifs. Clairement, 1r .L A. Le prior de 1r est une distribution beta de parametres a et b et celui de A est une distribution gamma de parametrc p et q. Ils sont non informatifs en posant p == q == 0 et a == b == 1.
3. Introduction
a la modelisation graphique
45
Figure 3.10 - Le modele de capture-recapture: echantillonnage multinomial.
La vraisemblance s'ecrit :
[yl1T,7]J
ex:
7]! 1T s (1_1T)2 rJ(1] - s + m2)!
S
(3.24)
et ... c'est le meme modele que ci-dessus (eq, 3.19).
3.3.3
Applications
Estimation de l'incidence de la tuberculose pediatr'ique en BasseNormandie Les objectifs de cette etude (Brouard et al., 1995) etaient de verifier la pratique de la declaration obligatoire (DO) et le respect des critercs de declaration, d'estimer l'incidence de la tuberculose pediatrique en Basse-Normandie par la methode de capture-recapture et ainsi I'exhaustivite de la DO. Deux sources de donnees ont ete explorccs :
1. les DO enregistrees dans les directions departementales des affaires sanitaires et sociales (DDASS) des trois departements de la Basse-Normandie; 2. les enregistrements d'isolement de Mycobacterium tuberculosis (MT) sur l'ensemble des laboratoires d'analyse medicale (LAM) de Basse-Normandie. Cette enquete, du type retrospectif, est fondee sur les cas pediatriques identifies entre le 1er janvier 1992 et le 30 juin 1993. Les resultats sont les suivants (tableau 3.4) OU : - R == 6 est le nombre de cas diagnostiques selon la source 1 (DO); - S == 8 est le nombre de cas diagnostiques selon la source 2 (LAM) ; - C == 4 est Ie nombre de doublons. Pour estimer le nombre de cas, N, les auteurs utilisent les formules elaborees par Chapman et Seber en 1949 :
46
Pratique du calcul bayesien
LAM LAM Total
DO
DO
Total
C
N2
8
N1
R
N
Tableau 3.4 - Tuberculose pediatrique en Basse-Normandie.
ic...;
N ± ZI-a/2VVar (N)
N
(8+1)(R+1) -1 C+ 1 (8 + 1) (R + 1) N 1N2 (C+1)2(C+2)
Var (N)
(3.25) (3.26) (3.27)
Les resultats sont les suivants: N == 11.6, Var (N) == 3.36 et les bornes d'un intervalle de confiance a 90 % sont respectivement 8.6 et 14.6 cas. Notons que les auteurs les presentent de facon un peu plus optimiste puisqu'ils concluent : « par la methode capture-recapture, le chiffre des tuberculoses pediatriques est cstime a 11, le calcul de la variance donne un ecart de ce chiffre de plus ou moins 3 (11 ± 3) » . Avec prior non informatif, le modele de capture-recapture developpe donne les resultats suivants : a == 0.1 N 1T
Pa/2 10 0.30
Pso
13 0.55
Pl-a/2 20 0.75
Tableau 3.5 - Estimation bayesienne de N.
Force est de constater que l'estimateur classique sous-estime le nombre moyen de cas et sa dispersion!
Evaluation de l'incidence du paludisme dans les arrnees francaises en
1994 Cette etude (Deparis et al., 1997) est fondee sur deux systemes reglementaires de surveillance epidemiologique : - le recueil et l'exploitation des donnees epidemiologique« des arrnees (REDEA); - la surveillance epidemiologique specifique du pal udisme (SESP). Ces deux sources de donnees sont supposees independantes (tableau 3.6). Pour estimer Ie nombre de cas, X, les auteurs utilisent les formules elaborees par Chapman et Seber en 1949. Soit a le nombre de cas declares dans les
3. Introduction
REDEA REDEA Total
a la
modelisation graphique
SESP
SESP
Total
238 186 424
242
480
47
X
Tableau 3.6 - Paludisme dans les armees francaises (1994).
deux systemes (a == 238) ; b, le nombre de cas declares uniquement a la SESP (b == 186); c, le nombre de cas declares uniquement au REDEA (c == 242).
(a+b+1)(a+c+1) -1 a+1 (a + b + +1) (a + c + 1) bc (a+1)2(a+2) Un intervalle de confiance mateur X) :
a 95 % suit
(3.28) (3.29)
(hypothese de normalite sur l'esti-
le95 == x ± 1.96sx Sur cette base, l'incidence annuelle du paludisme s'eleve intervalle de confiance a 95% egal a [803, 905].
X 7r
q5
Q50
Q95
750 0.42
860 0.52
1030 0.63
(3.30)
a 853 cas
avec un
Tableau 3.7 - Paludisme : estimation bayesienne du nombre de cas X.
Ici aussi, I'estimateur classique sous-estime le nombre moyen de cas et sa dispersion!
Epilogue Un modele statistique bayesien mime la nature en ce sens qu'il vise a genercr des donnees similaires aux observations reelles. Ce faisant, il permet d'interpret.er le phenomene d'interet, souvent dans une perspective decisionnelle. Un roseau bayesien ou DAG est une representation graphique astucieuse du modele. D'une part, il aide a sa conception: d'autre part, il favorise la multidisciplinarite, car le dessin est un langage accessible a tous. Dans le DAG, un parametre est un nceud stochastique sans parent et une observable, un nceud stochastique sans enfant. Les variables latentes sont des quantites incertaines, qui ne sont ni l'un ni l'autre. Elles constituent une couche interrnediaire, prise en sandwich, entre les parametres et les observables. Une Heche indique un lien causal entre
48
Pratique du calcul bayesien
deux noeuds stochastiques : l'etat du nceud recepteur est conditionnel a celui du nceud emetteur, L'inference bayesienne consiste a inverser le sens des fleches, c'est-a-dire a remonter vers les parametres (causes) en partant des observations (effets), en tenant bien sur compte de l'expertise (priors). Le DAG met bien en evidence les notions d'independancc conditionnelle et de modularite, La distribution conjointe de tous les nceuds stochastiques est simplement egale au produit de chaque nceud connaissant ses nceuds parents. Elle s'exprime donc en termes de distributions conditionnelles et marginales. Pour apprendre quelque chose sur un nceud stochastique, il suffit de connaitre ses parents, ses enfants et les coparents de ses enfants. C'est modularite est mise a profit dans les logiciels comme WinBUGS. Nous avons illustre les avantages du reseau bayesian en nous appuyant sur le modele de capture-marquage-recapture. C'est un modele tres utile pour les sciences naturelles et humaines puisqu'il permet d'inferer la taille d'une population statistique inaccessible par recensement. S'il est conceptuellement facile a comprendre, il necessite deja un recours a l'ordinateur, car une solution analytique complete implique d'integrer la relation (3.20) par rapport a 1r et 7], ce que personne ne sait faire. D'une maniere tres generale, les modeles realistes n'ont pas de solution analytique. Les reseaux bayesiens sont done indissociables des methodes modernes de calcul sur ordinateur. Dans le chapitre 4, nous presentons quelques methodes de reference du calcul numerique stochastique. Pour cela, nous nous appuierons sur le modele luieoire et quelques modeles lineaires generalises.
Chapitre 4
Pratique du calcul des lois a posteriori Prologue Qui dit modeles rcalistes, dit aussi difficultes calculatoires. Le but de ce quatrieme chapitre est de donner un apercu des principales familles de methodes d'approximation des distributions a posteriori. Dans lc cas tres particulier OU le prior est non informatif et que la taille de l'echantillon est grande, la densite a posteriori peut etre approchee par une loi normale multidimensionnelle. Cette approximation asymptotique repose sur les proprietes des estimateurs du maximum de vraisemblance (section 4.2). A l'erc des ordinateurs personnels puissants, cette approximation - fondee sur des hypotheses assez restrictives est avantageusement abandonnee au profit des methodes numeriques stochastiques. Ce sont d'abord les methodes de Monte-Carlo par chaines de Markov (MCMC). Ces techniques de simulation avec dependance sont presentees en section 4.3, notamment l'algorithme general de Metropolis-Hastings et Vechantillonnage de Gibbs. Ces deux algorithmes sont d'ailleurs implantes dans Ie logiciel WinBUGS. Les techniques classiques de simulation avec independance ou methodes de Monte-Carlo (MC), issues de l' echantillonnage potidere, avec ou sans re-echantillonnage, ont eu plus rccemment des developpements importants sous le nom generique de methodes des particules (section 4.4).
4.1
Introduction
Un modele de connaissance - on dit aussi modele d'echomiillonnaqe - est une famille de lois de probabilite parametree par () E 8 OU 8, souvent appcle ensemble des eiais de la nature, est de dimension finie : dim e == d E No. Par consequent, le parametre () est tantot un scalaire (d == 1), tantot un vecteur (d > 1). La notation est la meme, et c'est le contexte qui fait la difference.
50
Pratique du calcul bayesien
Disposant d'un modele de connaissance et d'une loi a priori pour (), la reactualisation du savoir sur () associee a une information y est donnee par la regle de Bayes (chap. 1, p. 12). Cette distribution a posteriori est Ie socle sur lequel repose l'aide a la decision en avenir incertain. Ainsi, la distribution predictive a posteriori (chap. 1, p. 12) quantifie les chances d'observer une future valeur fj quand on dispose de l'information y :
Wly]
=
l WIB]
[Bly] dB
(4.1)
D'une maniere plus generale, le statisticien bayesien est amenc des integralcs de la forme E (h (B) Iy) =
r
Je h (B) [Bly] dB =
Ie h (()) [yl()] [()]d() Ie [yIB] [B]dB
a calculer (4.2)
ou h (()) est une fonction reelle, Pratiquement, des solutions analytiques n'existent que pour des modeles particuliers, les structures non hierarchiques de la famille exponentielle (Parent et Bernier, 2007). Certes, certains logiciels offrent des algorithmes dintegration numeriqucs de bonne qualite, Mais, on l'a vu, les modeles bayesiens realistes prcsentent souvent une structure hierarchique impliquant des variables latentes. Du point de vue calculatoire, les variables latentes peuvent etre considerees comme des parametres supplementaires (::::} dim 8 » 1). Or l'imprecision des methodes dintegration numerique croft dramatiquement avec la dimension de 8 (Robert, 2006). Des lors que Ie nombre des quantites incertaines (parametres + variables latentes) excede quelques unites, les methodes dintegration numeriques sont supplantees par les methodes numeriques stochastiques d'approximation, MCMC et particules. Le principe de base des methodes numeriques stochastiques d'approximation est simple. Soit a rcsoudre l'integrale (4.2). Si on considere une suite de variables aleatoires independantes (()1, ... .U": ... ) et distribuecs selon la loi a posteriori de (), on obtient un echantillon de nombres reels en tirant au hasard une valeur dans chacune d'entre elles. La moyenne arithmetique de leur image par la fonction h, soit G
~ Lh (B i ) i=l
1
converge (presque surement ) vers la cible quand G nombres), ce qui justifie l'approximation : G
~ ~ h (B i ) ~ E (h (B) Iy) =
l
---+ 00
(loi des grands
h (B) [Bly] de
(4.3)
1 La convergence presque sure est analogue a la convergence simple de l'analyse mathematique, sauf en quelques points. Elle entraine la convergence en loi.
4. Calcul des lois a posteriori
51
De plus si la variance a posteriori de h (()) est finie, disons a 2 > 0, le theoreme central limite nous dit que cette moyenne arithmetique est distribuee selon une loi normale, de variance a 2 /G et que l'ordre de grandeur de l'erreur relative est 1/V'G, ce qui permet de calculer des intervalles de confiance sur I'integrale. Le principe de base des methodes de Monte-Carlo par chaines de Markov est analogue si ce n'est que, cette fois, la chaine (()l, ... .B": ... ) est generee par un noyau de transition [OJ I()j-l] dont on considere la moyenne (4.4) Cette moyenne converge vers la cible quand G ---+ 00 pour autant que Go soit assez grand et que la chaine de Markov possede la propriete dite d'ergodiciu: (Robert et Casella, 1999), une propriete generiquement verifies sous des conditions peu strictes pour les chaines de Markov homogenes. L'echantillon prealable de i == 1 a i == Go, laisse de cote, s' appelle echantillon de chauffe.
Remarque 4.1 Les processus stochastiques sont des modeles permettant d'etudier les phenomenes aleatoires evoluant au cours du temps. Parmi ceux-ci, les chaines de Markov sont les modeles (a temps discret) les plus simples, lorsqu'on abandonne l'hypothese dindependance. Pour plus de details, on consultera avec profit (Foata et Fuchs, 1998). Remarque 4.2 II importe de remarquer que la formule 4.3 s'applique tout aussi bien au calcul d'une probabilite P(A) == Prob(() E A) par Ie biais d'une c . . di . h(O) == I A (0) == 01 si . tonction In icatrice si e eE t/:. A A ' puisque : Prob(B E A)
=
L
IA(B) [Bly] dB
(4.5)
Certes, le praticien des sciences experimentales est souvent plus interesse par les sorties des modeles que par les mathematiques qui les soutiennent et c'est certainement une des raisons du succes planetaire du logiciel WinBUGS (Spiegelhalter et al., 2003). Ce logiciel, gracieusement mis a la disposition de la communaute scientifique, permet un apprentissage rapide du raisonnement conditionnel bayesien, II distingue clairement la partie creative, c'est-a-dire l'elaboration du DAG, element de l'interface graphique Doodle, de la partie calculatoire. Pour son utilisateur, l'estimation des quantites incertaines est transparente. II lui suffit de savoir qu'une marche aleatoire dans l'ensemble des etats de la nature, 8, genere une chaine de Markov ()l, ... ,()j, . . . ,()N et que, hormis une periode dite « de chauffe », a ecarter puisque cette chaine part d'un point arbitraire, la repartition des () ainsi generes converge en distribution
52
Pratique du calcul bayesien
vers sa cible. Par exemple, l'histogramme marginal normalise de chaque composante de () approche d'aussi pres que l'on veut (en augmentant Ie nombre de simulations N) la loi marginale a posteriori de cette composante. WinBUGS est donc un excellent outil pedagogique qui peut certainement resoudre pas mal de vrais problemes. Mais, comme ses concepteurs, nous defendons l'idee que l'emploi intelligent de la souris demande un minimum de comprehension des methodes sous-jacentes. Elles sont indispensables a l'etudiantjchercheur qui souhaite ecrire ses propres codes, par exemple en R (R Development Core Team, 2009). Le lecteur interesse par lcs fondements theoriques et les subtilites des methodes de calcul bayesien consultera avec profit les ouvrages specialises, notamment : (Tanner, 1996), (Robert et Casella, 1999), (Chen et al., 2000), (Gelman et al., 2004), (Robert, 2006), (Parent et Bernier, 2007).
4.2
Quand Ia vraisernblance fait Ie posterior
L'inference bayesienne mobilise deux sources d'information : d'une part les donnees, via la vraisemblance, et d'autre part le savoir de l'expert via la distribution a priori sur les parametres et via les hypotheses structurelles sur lesquelles repose le modele utilise. Un exemple tres simple va nous montrer que quand la taille de I'echantillon est grande (n - t (X)) ou quand Ie prior est tres vague, il y a un lien lineaire approche entre la log-densite a posteriori et la logvraisemblance. Regardons les poids respectifs du prior et de la vraisemblance sous deux configurations. 1. Quand la taille de l'echantillon est grande (n ---t (X)), l'influence du prior s'estompe et c'est la vraisemblance qui fait le posterior. Exemple 4.1 Soit y un rz-echantillon iid issu d'une distribution exponentielle parametree par () :
[yl()]
== ()n exp ( -ny())
Le prior conjugue est une distribution gamma
La reglc de Bayes donne la distribution a posteriori de () :
[()Iy, a, b] ex
()n+a-l exp (-
(ny + b)B)
On reconnait la forme analytique d'une nouvelle distribution gamma. Si la taille de l'echantillon est telle que n » a et n » b (cette condition est verifiee lorsque n ---t (X)), alors n+a-l ~ n et ny+b ~ ny. Dans ce cas, le posterior et la vraisemblance ont la meme forme analytique. Comme
4. Calcul des lois a posteriori
53
la vraisemblance est dcfinie a un facteur de proportionnalite pres, on voit apparaitre un lien lineaire approche entre la log-densite a posteriori et la log-vraisemblance
[OIY, a, b] ex [yIO]
=?
In [OIY, a, b] == In [yIO]
+ cte
• 2. La vraisemblance fait aussi le posterior quand l'etat de connaissance sur la problematique en main n'autorise qu'un prior tres vague, c'est-a-dire quand le prior est peu informatif.
Exemple 4.2 Dans l'exemple 4.1, un prior vague est obtenu en faisant tendre les parametres a et b vers o. La forme analytique de la densite a posteriori devient [Oly] ex on-l exp (-nyO) Quand nest assez grand, alors n et n - 1 possedent le meme ordre de grandeur : on retrouve alors Ie lien Iineaire approximatif entre la log• densite a posteriori et la log-vraisemblance.
4.2.1
Approximation asymptotique de la densite
a posteriori Dans un probleme realiste, la quantite de donnees n'est jamais infinie. Dire que la taille n de I'echantillon est grande est une assertion reposant sur les proprietes asymptotiques du modele en main. Ces proprietes ont ete utilisees tres tot en Statistique. Le premier utilisateur en a ete Laplace qui, independamrnent de son auteur historique, a retrouve la formule de Bayes et utilise les principes dinference bayesiens (Sivia, 1996). L'interet de ces proprietes asymptotiques est d'etablir une relation lineaire approchee entre la Iog-densitc a posteriori et la log-vraisemblance. Cette relation Iineairc est fondee sur des hypotheses generales concernant cette vraisemblance lorsque n est grand. Nous en faisons une presentation heuristique avant de preciser les conditions theoriques qui en assurent la validite pratique. Pour simplifier, nous ne traiterons ici que le cas d'un echantillon d'observations suppose iid. Nous le noterons y == (Yl,··· ,Yn).
Le parametre du modele d'echantillonnage est unidimensionnel Soit un modele statistique bayesien caracterise par un parametre 0 unidimensionnel. La densite a posteriori de 0 est donnee par la regle de Bayes :
- [yIO] est la vraisemblance de I'echantillon y ; - [0] est la densite a priori du parametre 0;
54
Pratique du calcul bayesien
- [y] est la constante de normalisation :
[y] =
L
[yle] [e] de
En prenant Ie logarithme des deux membres : In [ely] == In [yle]
+ In [e] + cte
(4.6)
Supposons que la densite a posteriori de eest unimodale. Un developpement de Taylor au voisinage de son mode, disons donne/ :
e;,
e;
Pour Ie - I petit, on peut negliger les termes d'ordre superieur et en tenant compte de la regle de Bayes (eq. 4.6) :
In[ely]
~
In [yle~] + (e -
e~) 8lna~le] + a~e[e] lo=oz 2
~ (e _ e*) 2 8 In [yle]
+2
-l-In
8e
y
2
2
8 In [e] I + 8e 2 ()=::()Z
[e;] + cte
"-v--' cte
Si la densite a priori de e est « plate» au voisinage du mode premiere est nulle en ce point (les derivees superieures aussi) :
e;, sa derivee
Dans le cadre asymptotique (n ---t 00), l'influence du prior sur le densite a posteriori est tres faible et le mode de la vraisemblance, disons By, se confond avec le mode du posterior,
e; :
2
1 ( e- e Ay ) 2 8 In[ely] ~ In [yleAy ] + 2 ae 2 In[yle] Io=iJ + cte y
Le terme impliquant la derivee premiere a disparu, car By est le mode de la
vraisemblance
(to In[yIell o=fjy =
0) .
En posant
2
On suppose que toutes les derivees existent.
4. Calcul des lois a posteriori
55
on obtient
(4.7) Remarque 4.3 Le terme P script en le notant
(By)
ne depend que des donnees. On simplifie le
Py .
Pour revenir ala densite a posteriori de (), il suffit de prendre l'exponentielle des deux membres :
[ely]
~ cte x exp ( - ; (e _By) 2)
(4.8)
On reconnait la signature fonctionnelle d'une densite normale, localisee sur
By et de precision P (By) :
II est important de se rappeler que cette approximation n'est valable que sous les hypotheses: n grand, un seul mode et prior plat au voisinage de celui-ci.
Exemple 4.3 On verifie sans peine que l'estimateur du maximum de vraisemblance d'un echantillonnage exponentiel iid est {) ~ l/Y. Un developpement de Taylor jusqu'a l'ordre 2 de la log-vraisemblance autour de {) s'ecrit
In [yle] =In OU
0
[YIB] - 2~2
(e-ef +o(h)
(h) rcprcsentc un infiniment petit par rapport a h == () - () : lim o(h) ~ 0
h---+O
h
(4.9)
Puisque Ie premier terme du developpement est constant, on a done obtenu le resultat approche suivant
[ely] c::: exp ( - 2~2 (e - Bf)
(4.10)
On reconnait le terme caracteristique d'une loi normale unidimensionnelle, de moyenne {) ~ 1/Y et de precision T ~ n / {)2. A partir de donnees simulees par n tirages aleatoires indcpendants dans une loi exponentielle de moyenne J-L ~ 0.2, la figure 4.1 montre l'influence de la taille de l'echantillon sur la qualite de l'approximation asymptotique du « vrai » posterior gamma par une loi normale.
•
56
P ratique du calcul bayesian
15 r---,-------.------.---,--,r== -
~
/
10
II
c::
\
= = =======n
-
1-
-
Posterior gamma
I
- Approximation normale
\~
5 b /
0.05 3 ,----,-
0.1 ------.-
2 (r)
II
c::
/
0 ---
o
/
/
/
/
0.15 -----.--
0.2
0.25
0.3
0.35
0.4
0.45
- ,-
- ,-
-,--
--,--
---,---
---,------,
/ - --- ./
e
0.5
.........
---"-=~-
- - - Posterior gamma - - Approximation normale
/
0.05
01
0.15
0.2
0.25
e
0.3
035
0.4
0.45
0.5
Figure 4.1 - Approximation asymptotique du posterior d'un echantillonnage exponentiel (n = 30 et n = 3.)
Le parametre du modele d'echantillonnage est multidimensionnel Soit () = (()1, ' " , ()d)T E 8 Ie par am etre d 'un mod ele statist ique bayesien (dim 8 = d) et soit y un n-echa nt illon ii d. Si Ie pr ior , [()], est non inform atif, to ute l'inform ation disponible pour quant ifier l'incer ti tude sur () est , encore ici, portee par l'echantillon et la regle de Bayes s'ecrit : rely] ex [yl()] =:;. In [()Iy] = In [yl()]
+ cte
L'id ee est encore d 'approcher la distributio n a posterio ri de () par un e loi normale, cette fois multivariee, localisee sur Ie mode de la vr aisembl ance, ()y , et de mat rice de precision P . Un developpement de Taylor de la log-vraisembl ance autour de son mod e ()y j usqu'a l'ordre 2 donne :
(4.11) Dans cet te expression, P est une matrice sym etrique definie positive, dite matrice de precision . Son terme genera l s'ecrit : P' 'J· · -- _ aaoIn[y ao,OI I 2
i
j
o=O y
, Z. ,J. = 1, 2, " ' , d
(4.12)
En revenant au post erior , on a I'approximation
(4.13)
4. Calcul des lois a posteriori
57
On reconnait la forme structurelle canonique d'une loi normale multivariee, localisec sur le mode Oy et de matrice de precision P == ~-l ou ~ est la matrice de variance-covariance de cette distribution multinormale, soit exactement (4.14)
au Ip I est
le determinant de Ia matrice
p.
Exemple 4.4 Soit un n-echantillon iid selon une loi normale de parametrc
o== (J-L, T). En mobilisant la moyenne et la variance empiriques, la log-vraisemblance s'ecrit
n In T In [yIO] == 2"
nr 2
-
2+ (fj - J-L) 2)
( Sy
Le calcul de toutes les derivecs qui nous interessent donne al~:le] = nr (y _ p,) ; 81n[yI8] 8T
Le mode
By est
==
.!!:- _
2T
!! 2
(s2 + (-Y _ J-L )2)., Y
solution du systeme
La matrice de precision
Py
suit
L'approximation asymptotique de la densite a posteriori de 0 est donc une loi normale bidimensionnelle, localisee sur By et de precision Py . •
4.2.2
Fondements de ces approximations
Preambule - La recherche des extrema est fondamentale en statistique.
Definition 4.1 Soit f une application de classe C2 definie sur JRd a valeurs dans]R et soit x == (Xl, ... ,Xd) E ]Rd. On appelle matrice hessienne de f en x la matrice des derivees partielles secondes, c 'est-a-dire la matrice H (x) de terme general : (H (x )) ij --
2
8 f(x)
8Xi8xj'
.. -
'l,
J -
1 2 d , ,"',
C'est la matrice d'une forme quadratique sumetrique.
58
Pratique du calcul bayesien - Soit une experience alcatoire qui fournit l'observation y. Fisher (1925) propose de mesurer l'information apportee par cette observation au parametre e du modele statistique choisi pour mimer cette experience, [yle] . Definition 4.2 Si le domaine de l'observable Y ne depend pas du parala quatuiie d'information de Fisher apportee par l'information metre Y == y sur e est une matrice sumetrique definie positive, dite matrice d'information de Fisher, reliec a la matrice hessienne comme suit:
e,
I (e) == -E {H (e)} oii l' esperance est prise par rapport
a l' observable Y.
Fondements Les formules heuristiques precedentes sont fondees sur la theorie asymptotique du maximum de vraisemblance (Berger, 1985).
Theoreme 4.1 Sous un certain nombre d'lurpotheses generales concernant le modele de vraisemblance [yIO], si un cchaniillon iid, soit y, est tire du modele particulier [yleo], alors il existe une solution By de l'equation
8 In [yle] 8e == 0 qui converge en probabilit« vers 00 quand n ---+ 00. De plus, le vecteur By-Oo converge en loi vers une distribution normale multivariee, localisee sur 0 et de matrice de precision eqale a la matrice d'information de Fisher I (eo) .
Complements - En suivant (Berger, 1985), la matrice de precision P (eq, 4.12) est appelee matrice d'information empirique. Elle peut etre utilisee comme approximation asymptotique de la matrice de Fisher dans une expression approchce de la distribution a posteriori des parametres. - L'information de Fisher d'un n-echantillon iid est simplement (4.15)
Cette matrice intervient dans la construction de priors non informatifs. C'est ainsi que (Jeffreys, 1939) a propose la construction d'un prior vague a partir du determinant de 1(0) :
[0] == Jdet I (e) == II (0)1
1 2 /
(4.16)
Ce prior impropre a comme propriete de fournir une inference insensible reparametrisation du modele de vraisemblance.
a une
4. Calcul des lois a posteriori
59
- Parmi toutes les conditions theoriques fondant ces proprietes (Cramer, 1946), la plupart sont des hypotheses de regularite mathematique des convergences assez generales. II en est toutefois une qui est tres imp ortante sur le plan pratique: le domaine des observables ne doit pas dependre du parametre (). - Maintenant, que veut dire pratiquement l'expression n grand? II n'y a pas de regie, seulement des cas d'cspcce, II faut un peu d'experience, C'est pourquoi sur le plan bayesian il peut etrc prudent de conforter ces calculs approches par les resultats d'algorithmes de Monte-Carlo qui ne sont pas tributaires de I'hypothese n grand.
Exemple 4.5 (Exemple 4.4 continue). Calculons la matrice d'information de Fisher et Ie prior vague de Jeffrey. La matrice hessienne Hey est HCIL,r) =
-n
T
[
fL - Y
j.L-Y] 2~2
Puisque E (y) == u, l'information de Fisher et le prior de Jeffreys sont immediats I(tL,7)
== n
[~
1], 27 2
[j.L, T]
ex: Jdet I(tL,7) ex: 1/
VT
On remarquera que ce n'est pas Ie prior obtenu quand on fait tendre les parametres d'une loi gamma vers zero. En fait, les composantes du vecteur () apparaissant dans la matrice de Fisher sont inconnues. Aussi, on peut remplacer () par son mode O.
e= (fJ, l/s~)
Ie
=
n [1/;~
SD2]
La matrice de Fisher I et la matrice d'information empirique P sont parfois identiques.
•
4.2.3
Estimation asymptotique des parametres d'une population gamma
Exemple 4.6 Operation Sources", Soit un n-echantillon iid issu d'une population gamma, de parametre de forme a > 0 et de parametre d'echelle inverse (3 > o. II s'agit ici de la concentration en nitrates relevee dans n == 94 points d'eau repartis sur le territoire belgc en mars 1994. Les moyennes geornetrique et arithmetique des observations etaient respectivement 9 == 25.4 mg/I, fj == 39.3 mg/I. On demande d'estimer lc posterior par une loi normale bivariee ainsi que la probabilite 1r qu'une nouvelle observation depassc la norme Yo == 50 mg/I (fig. 4.2). L'operation « Sources », initiee par le Pr Louis De Backer (DeL), consiste a evaluer la qualite des eaux souterraines belges par un test colorimetrique realise par les enfants des eccles primaires. La fiabilite du test est controlee par un titrage des nitrates au laboratoire. 3
60
P ratique du calcul bayesien
r>.
~
Figur e 4.2 - Op eration Sources : un mod ele gamma pour la concent ration en nitrates.
•
Soit y , un n-echa nt illon iid issu d 'une population ga mma de par am etre de form e 0: > 0 et de param etre d 'echelle fJ > o. Posons e = (o:, fJ). La vraisemblance s'ecrit :
[yle]
gr n
fJD:
(0:) yf -l exp (- fJYi)
au y et g represent ant respectivement la moyenne arithmetique et geornetriqu e des observations. La log-vraisemb lan ce suit : L
(e ) == In [yle] = no: In fJ + n (0: - 1) ln g - n y fJ - n In r (0:)
Le calcul des derivees donne
a;~Ii) = n ln fJ + n ln g - mp (0:); = n o:fJ- l - ny ;
a;~ )
4. Calcul des lois a posteriori
61
ou rljJ (a) et rljJ' (a) sont respectivement les fonctions digamma et trigamma (disponibles dans R). Rappelons qu'elles sont definies comme :
(4.17) La matrice hessienne s' ecrit :
He == -n ( rljJ' (a) _(3-1 Le mode {} =
(&, S) est solution du systeme rljJ ( a) - In (3 { a(3-1 == fj
== In g
En substituant la seconde equation dans la premiere on obtient une equation en a qu'on peut facilement resoudre numeriquement dans le logiciel R : fj
rljJ (a) -Ina + In g
~
== 0 =? & ~ 1.2867 =? (3 ~ 0.0327
La matrice d'information empirique (4.12) arrive en substituant ces valeurs dans la matrice hessienne : P
3 e ~ 10
(
0,11 -2.87
-2.87) 112.83
La figure 4.3 illustre les resultats. A gauche, on a le mode de
0=
(a, i3) et
quelques isodensites (vue en plan). A droite, on montre la densite de probabilite de la probabilite 7f qu'une source non encore observee ait une concentration en nitrates depassant la norme Yo : 7f
4.2.4
== Pr (Y > yoln, fj, g) et Pr (0.22 S
7f
S 0.36) == 0.95
Estimation asymptotique des parametres d'une regression lineaire
Ce modele archiconnu ne pose aucun probleme de calcul. Nous l'avons d'ailleurs mentionnc des le chapitre 1 et renvoye le lecteur au chapitre 9, page 170, pour plus de details. Cependant, le traiter par voie asymptotique est un bon exercice de maniement. Dans sa version la plus simple, ce modele postule que la reponse reellc, Y, a un stimulus reel, x, a une distribution normale, localisee sur a + (3x et de precision T (Fig. 4.4).
62
Pratique du calcu l bayesien
0.045
14 12
0.04 10 0.D35
8
c::l.
6
0.03
4 0025 2 002 0.8
1.2
1.4
0 01
1.6
02
a.
0.3 0.4 Pr(y > Yo)
0.5
Figure 4.3 - Operation Sources : estimation asymptotique.
Un prior non informatif courant est [e] = [a , ,8, 7 ] ex 7 - 1 . Cependant, si on travaille avec le parametre In 7 defini sur JR., [e] ex cte, c'est-a-dire que In [ely, x] = In [yle, x] + cte. La log-vraisemblance s'ecrit : L (e) == In [yle, x] =
"2n In 7
n
"27 ,,", ~ (Yi
-
2
- a - ,8Xi )
+ cte
i= l
Les definitions suivantes apparaitront dans les developpe ments" .
~~X2
x2
n
t
~ (Yi - a - ,8xi)2 1 n (Xi - x)2
sce( a , ,8)
:; : L
s;
i=l
1
-n L (Xi - x) (Yi - Y)
S xy
n
i= l
Le calcul des derivees premi eres 0~(1I)
= 7~ (Yi - a - ,8xi )
o~~) = 7~ (Yi
0£(1I) oinT 4
=
- a - ,8Xi) Xi 2 sce
!l _ I.
2
see signifi e somme des carres des ecaris.
4. Calcul des lois a post eriori
63
Figure 4.4 - Le modele lineaire simple. ent raine le mode de la vraisemblance
o, =
( " 0:,
(3, T' ) =
( _
' _ Sx y Y - (3x ,- 2 ' Sx
n "
)
see(o:,(3)
La matrice hessienne -nTX -nTx 2
TE (Yi -
(3Xi ) Xi
0: -
ent raine Ia quantite d'information de Fisher
1(0) = - E (H o) = tir
(X = :2 o o
~)
1/2T
car E (see) = EE (Yi - 0: - (3Xi )2 = Evar (Yi) = n l r , La mat rice d'information empirique P suit :
P_
n2 - see(& , S)
(1
X
0
xx2 0
'C
)
On peut par exemple t irer N valeurs au hasard seion la commande WinBUGS dmnorm (0 , dont les histo grammes norm alises peuvent et re compares avec les densites margin ales a posteriori que l'on connait ici exactement grace aux proprietes de conjug aison :
p)
64
Pratique du calcul bayesien
a v = n - 2 degres de liberte, centree sur ~ et dont le parametre d'echelle est c = (nvs~) ; - a est distribue selon une loi de Student a v degres de liberte, centres sur
- {3 est distribue selon une loi de Student
0: et dont le parametre d'echelle est
Vsee/
cJ ~L,XT ;
- la distribution de Test une gamma, de parametre de forme v / 2 et de parametre d' echelle 2/ On pourrait egalement faire une comparaison directe avec les marges (normales) de la loi asymptotique.
see.
Exemple 4.7 La distance lineaire entre deux points d'une carte (variab le x) permet d'estimer la longueur du trajet reel (variable y) (tableau 4.1, figure 4.5).
x y x y
9.5 10.7 9.8 11.7
5.0 6.5 19.0 25.6
23.0 29.4 14.6 16.3
15.2 17.2 8.3 9.5
11.4 18.4 21.6 28.8
11.8 19.7 26.5 31.2
12.1 16.6 4.8 6.5
22.0 29.0 21.7 25.7
28.2 40.5 18.0 26.5
12.1 14.2 28.0 33.1
Tableau 4.1 - Small data sets , probleme 115.
• / /
40
/ /
35 /
,+
30 ur
~
+
25
+
+
/
m
o
Jij
o'"
/ /
20 15
+ +
/ +
+/
/
10
5
o"'-----"-o 5
c'::-----" c------,-'=----,:'::----::"::--,':--'-----' 10 15 20 25 30 35 40 45
Distance lineaire
Figure 4.5 - Le mod ele lineaire : distance par la route, Y , et distan ce sur la carte, x .
4. Calcul des lois a posteriori
65
Tous calculs faits on trouve
e~
(0.38, 1.27, -1.78)T
P ~ 3.37
(
1 16.13 16.13 311.32
o
0
2~7
)
La figure 4.6 montre I'excellent e approximation obt enue. On a realise N = 2025 tirages aleatoires dan s dmn orm (B, pour compar er avec la densite exacte a posteriori.
p)
::f ~~ , J !
-4
-3
-2
-1
0
1
2
3
5
4
6
a.
':[, : ~ : 08
0.9
1.1
1.2
1.3
1.4
1.5
J 1.6
R>
1~=::: o
01
02
0.3
0.4
0.5
0.6
J
0.7
Figure 4.6 - Approximation asymptotique des densites marginales a posteriori des parametres du modele lineaire simple.
4.2.5
On retiendra
Quand Ie prior est vague, I'approximation asymptotique de la densite a posteriori par une loi normal e fournit des resultats to ut a. fait valabIes pourvu que la taille de l'echantillon soit assez grande. De plus, la matrice de variancecovariance de la loi norm ale multidimensionnell e sera interessante quand on l'utilise comme loi inst rumentale dans un algorit hme de Metropolis-Hastings. C'est l'obj et de la sect ion suivante .
66
Pratique du calcul bayesien
4.3
Methodes de Monte-Carlo par chaines de Markov
4.3.1
Mise en contexte
Le praticien a multiplie la vraisemblance par le prior selon la formule de Bayes mais ne peut pas integrer ce produit ni utiliser l'approximation asymptotique. II ne connait la distribution a posteriori qu'a une constante de proportionnalite pres : (4.18) [Oly] ex [yIO] [0] Les methodes de Monte-Carlo par chaines de Markov (MCMC) generent une suite de variables aleatoires (0 1 , ... .B": ... ) et, hormis la premiere a laquelle on donne une valeur arbitraire, chacune d'entre elles depend uniquement de celle qui la precede (4.19) Les calculs d'integrales 4.2 sont ensuite poursuivis en appliquant a cette sequence une loi des grands nombres pour les chaines markoviennes ergo diques de forme identique a l'equation 4.3. Nous renvoyons le lecteur interesse aux ouvrages specialises mcntionnes dans l'introduction. Dans cette section, nous resumons les principes essentiels des deux methodes implantees dans WinBUGS en donnant quelques exemples et conseils.
4.3.2
Algorithme (general) de Metropolis-Hastings (MH)
Soit 0== (01 , ... ,Od)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-cchantillon. appelons f (0) le produit non normalise de la vraisemblance par lc prior :
f(O) == [yIO] [0]
AI' aide d 'une loi instrumentale, de densite conditionnelle J (0I.), on effectue
des sauts aleatoires dans e a partir d'un point initial, 0°, choisi arbitrairement. Soit Oi-l la valeur retenue a l'etape i-I. A l'etape i, a partir du point Oi-l, on fait un nouveau saut aleatoire J, qui propose le candidat 0*. La procedure de selection est la suivante. 1. On calcule le rapport (4.20) 2. On realise un tirage aleatoire dans une loi uniforme valeur u. 3. Si r 2: u alors Oi
+-
0* sinon Oi
+- Oi-l.
U[O,l]
qui donne la
67
4. Calcul des lois a posteriori
Remarque 4.4 Si la loi instrumentale est symetrique, c'est le cas d'une loi normale multivariee, le second facteur du rapport rest toujours egal a l'unite. Dans ce cas, puisque la fonction logarithme est strictement monotone, la regle de decision devient : 3'. Si In r == In f ((}*) - In f
((}i-l) ~
In u alors
(}i
f--
(}* sinon
(}i
f--
e':',
Reglages 1. Pour ce qui concerne le point initial, en theorie, n'importe quel point de 8 convient. En pratique, il est judicieux de choisir un point qui favorise une convergence rapide de la marche aleatoire. Partir du mode de la logdensite s'il est facilement accessible est une option tres pragmatique. 2. La force des sauts aleatoires est reglee par la variance de la loi instrumentale. Une loi normale multivariee, localisee sur le mode et de variance connue, permet d'explorer 8. On pourrait prendre l'inverse de la matrice de precision de la methode asymptotique ~ == p-l. En fait, il est prudent de degrader quelque peu cette matrice de precision afin de bien explorer l'espace 8. (Gelman et al., 2004) proposent de prendre:
Vd p
:E- 1 =
(4.21 )
2.4
3. Enfin, ces memes auteurs proposent de juger la performance d'un algorithme MH en regardant le taux d'acceptation des candidats. Avec une loi instrumentale d-normale (c'est-a-dire multivariee de dimension d) ce taux devrait etre de l'ordre de 0.44 si d == 1 et dccroitre avec d jusqu'a atteindre ~ 0.23 pour les grandes valeurs de d (disons d > 5).
Exemple 4.8 La taille y de 15 garcons ages de 10 ans est vue comme un nechantillon iid normal, de moyenne M et de precision T (tableau 4.2). Le prior suivant est informatif mais ne permet pas une solution analytique : M .L T, M r-;» dnorm (m, c), T dgamma (a, b) au m == 140, c == 0.25, a == 0.002 et b == 0.04. r-;»
133.2 135.6 141.7
137.1 145.7 154.1
138.1 146.5 140.4
131.1 131.8 146.1
152.6 131.2 124.4
Tableau 4.2 - Taille (cm) de 15 garcons ages de 10 ans.
•
La log-densite a posteriori s'ecrit n In [M, Tly] == ( "2
+a
-
1) In T
-
2tir
(
2
Sy
+ (M -
Y) 2) - "2C (M - m) 2 - br
+ cte
68
Pratique du calcul bayesien Soit () = (11" T). La loi inst rumentale est une loi normale bivariee definie sur
e = lR x lRt
() rv
OU e = (y,l/s~)T, P precision (k ;:::; 0.5) :
dmnorm ((),
kP)
- H (()) et OU il est prudent de degrader un peu la 1
82
~
P =n
(
;
('~)' )
Posons
La figure 4.7 et Ie tableau 4.3 mont rent les resultats obtenus par un algorithme de Metropolis-Hastings apres N = 2 X 103 cycles et une periode de chauffe de N /5 .
145
0.4 0.3
140
0.2 135 130 10°
0.1 2
10
4
140
10
20
145
IJ.
IJ. 0.4 0.3
0.1 15 (J
20
(J
Figure 4.7 - Algorithme de Metropolis-Hastings pour Ie parametre () = (/-l , a) d'un modele normal.
Le tableau 4.3 fournit un intervalle de credibi lite
a 90%.
R ecomm andations p ou r la programmation d'un al gorithme M H Pour construire un algorithme MH en vue d'obtenir la distribution a posteriori de () E e, il est tentant d'utiliser la distribution normale multidimen-
4. Calcul des lois a posteriori
J1 a
()5
()50
()95
138 6.8
140 8.5
142 11.3
69
Tableau 4.3 - Algorithme MH : IC90
sionnelle comme loi instrumentale. En effet, cette loi est disponible dans la plupart des logiciels. Mais pour que la marche aleatoire dans e soit efficace, il faut que les parametres de la loi instrumentale soient bien regles. Sa matrice de variance-covariance peut etre l'inverse de la quantite d'information de Fisher dans laquelle on remplace les parametres par leur estimation obtenue via la methode du maximum de vraisemblance. Comme cette distribution approximative peut etre sous-dispcrsec, il est recommando d'appliquer un coefficient multiplicateur (de l'ordre de 2) a la variance instrumentale ainsi calculee. Cependant ce pro cede ne garantit pas qu'au cours de la marche aleatoire dans e, les valeurs de certains parametres par nature positifs (p. ex. une precision) ne puissent etre negatives puisque le domaine d'une loi normale n'est pas borne inferieurernent. II est alors necessaire soit : - d'eliminer les valeurs negatives ainsi simulees jusqu'a ce qu'on obtienne des valeurs positives; ce pro cede peut etre utilise si la probabilite de telles valeurs negatives est faible, ce qui est le cas des applications OU I'hypothese asymptotique a un sens; - de remplacer le tirage dans une loi normale de fonction de repartition G(()) de domaine indefini par un tirage dans la meme distribution tronquce inferieurement a 0 dont la fonction de repartition est gi~j, sans changer les distributions des autres parametres. Pour la distribution instrumentale, on sait que Ie choix est assez ouvert, il est donc possible d'utiliser une autre forme de lois, comme les distributions gamma, calees de telle sorte qu'elles possedent les memes esperances et variances que l'approximation asymptotique normale. Pour ce qui concerne les parametres positifs par nature, une precision par exemple, on pourrait penser a travailler avec leur logarithme puisque cette transformation les envoie dans IR. Cependant, en simulation, l'utilisation d'une distribution log-normale approchee peut entrainer la generation de valeurs irrealistes, extremement surdispersees vers les extremes et notamment au voisinage de o. Ce comportement implique des difficultes dans la mise en ceuvre d'un algorithme MH, tres sensible par sa structure en chaine aux simulations de valeurs aberrantes.
4.3.3
Echantillonnage de Gibbs
Soit () == (()1,··· ,()d)T E e le parametre d'un modele statistique parametrique (dim e == d) et soit y un n-echantillcn. La regle de Bayes s'ecrit :
70
Pratique du calcul bayesien Posons (4.22)
Le vecteur ()_jest donc le vecteur () prive de sa coordonnee () j . On appelle conditionnelle complete la distribution d'une composante de () sachant toutes les autres composantes, les donnees et les hypotheses", (4.23)
Principe de I'echantdllonnagc de Gibbs En partant d'un point arbitraire ()o == (()~, ... ,()~) E 8, on tire tour a tour dans chacune des conditionnelles completes en les actualisant au fur et a mesure. On repete ce cycle un tres grand nombre de fois. Les histogrammes normalises des chaines ainsi obtenues sont des estimations des densites marginales a posteriori recherchecs. Bien sur, on ccarte les premiers cycles puisqu'on part d'un point arbitraire.
Exemple 4.9 On rep rend l'exemple 4.8 (tableau 4.2). De la distribution a posteriori
[J-l, Tly] ex Tn / 2exp ( -
n; (s; +
(J-l-
y)2)) exp ( -~ (J-l - m)2) Ta - 1exp (-bT)
on deduit les conditionnelles completes:
En partant d'un point arbitraire ()o == (J-L 0 , TO) E JR x JRt == 8, on tire J-L1 dans J-LITO,y puis T 1 dans TIJ-L 1, y . A l'issue de ce premier cycle on a le point 1, 1) a partir duquel on tire J-l2 dans J-lIT 1, y puis T2 dans TIJ-l 2, Y et ()1 == (J-L T ainsi de suite N fois. La suite (()k E k == 1, ... ,N) constitue une chaine de Markov, car un point ne depend que de son antecedent. Si on oublie la periode de chauffe, cette chaine converge en distribution vers la densite a posteriori de (). Notons qu'on aurait pu inverser l'ordre des tirages aleatoires, c'est-a-dire tirer T puis u. En fait on choisit l'ordre que l'on veut, mais on s'y tient. Tres souvent on exprime les resultats en transformant la precision T en ecart-type :
e:
(J
==
1/vIT.
La figure 4.8 montre les resultats obtenus apres 1000 cycles avec les donnees numeriques suivantes : n == 18, Y == 0.52, By == 0.13, m == 1, C == 1, a == 2, b == 1. On est volontairement parti d'un point eloigne de la solution. Les histogrammes ignorent les 200 premiers cycles. 5 En general, no us rr'ecrivons pas Ie conditionnement sur les hypotheses pour ne pas alourdir les ecritures,
4. Calcu l des lois a post eriori
150 100 50
"I'
PI ,
oU
_,It
71
04 03
II
0.2 0.1
0 0 10
2
10
4
10
0 130
135
140
20
150
15
20
04
:~ 0 0 10
145
IJ.
IJ.
2
10
0.3 0.2 0.1 4
10
0
0
10
5
a
a
Figure 4.8 - Echant illonnage de Gibbs pour Ie parametre normal.
e=
(/1, (J) d'un modele
Le t ab lea u 4.4 fourni t un int ervalle de credibilit e a 90 % On observe une excellente concordanc e des result ats avec ceux du tablea u 4.3.
th etas, J.l (J
137 6.4
theta 50 140 8.6
t het a95 142 12.2
Tableau 4.4 - Echantillonnage de Gibbs : IC90.
• Utilisation d'une grille Il arrive frequemment qu e l' une ou l' autre des condit ionnelles complete s ne soit pas une loi standard. Dans un te l cas, on peut la definir sur une grille de valeurs et un tirage aleat oire se fait en inversan t la fonction de repar t it ion corr espondante. Cet te pro cedure est t res facile a met tre en ceuvre qu and dime = 1. Soit f (ely) le produit non norm alise de la vr aisemb lan ce par le prior et soit son mod e. On definit une grille de valeurs + h , + 2h , . .. + N h qui encadr e lar gement le mod e Pourvu que le pas, h, soit suffisamm ent peti t , la densite a posteriori est approchee par :
e
e.
eo,eo
eo
,eo
72
Pratique du calcul bayesien
(4.24)
et la fonction de repartition suit (4.25)
Pour tirer de facon approximative une valeur B* dans P (B), il suffit de tirer u r-;» dunif (0,1) et de considerer le point de grille, Bi == B*, tel que P (B i ) ~ u. Dans la Iitterature statistique, cette methode est dite methode d'inversion lorsqu'on sait exprimer p- 1 sous forme analytique (B == p-l(u)) comme par exemple la loi generalisee des extremes presentee au chapitre 6. Exemple 4.10 Soit y un echantillon iid gamma de taille n, de parametre de forme A et de parametre d'echelle unite. Le prior est A rv dgamma(a, b) et un dialogue avec un expert aboutit aux resultats suivants : E (A) == m == alb et Var (A) == 8 2 == alb 2 . Enfin, la moyenne geometriquc des observations disponibles est g. La densite a posteriori n'est pas integrable:
La figure 4.9 est obtenue avec n == 14, 9 == 25.4, m == 20 et 8 2 == 3. Le prior etant une (dgamma) , Ie posterior est calcule sur une grille de pas h == 0.1. La valeur A* est la valeur de grille le plus proche de p-l (u).
•
Methodes de Monte-Carlo
4.4
Tout comme les methodes MCMC, les methodes MC sont des techniques d' echantillonnage, c'est-a-dire des simulations de sequences de realisations de la distribution a posteriori, connue a un facteur de proportionnalite pres:
[Bly]
0:.
[yIB] [B] .
On doit cependant distinguer les techniques de calcul d'esperances telles que 4.3 - qui reposent generalement sur un echantillou simple d'une part - et les techniques de simulation de realisations de ladite distribution qui demandent un re-echantillonnage cornplementaire. Alors que les methodes MCMC simulent des aleas avec dependance, les methodes MC sont des techniques de simulation avec independance qui utilisent une loi de probabilite auxiliaire 9 (B), dite instrumentale , facile a simuler.
4. Calcu l des lois a posteriori
73
0.4 0.3 02
-.
<,
/'
/'
0.1
/'
"- .
/'
0 16
---
24
22
20
18
26
28
0.8 0.6
0.4
0.2
o L _--'-_ _...J..._ _-'--_=l:-_-.:.L_ _. . . J . . . _ - l 14
16
18
20
22
24
26
28
Figure 4.9 - Uti lisat ion d'une grille quand la conditionnelle complete n'est pas standard.
Ex ernple 4.11 Soit Bly attendue de Bm est
rv
E (em)
=
dgamma (a, b) et h (B) = Bm OU m > O. La valeur
~ (>0 em+a - 1 exp (-be) de r (a) i o
Les valeurs numeriques suivantes a = 2.5, b = 1.9 et m = 3.14 donnent E (Bm) proche de 6.59. On a utilise ici l 'expression b~ r~~a), donnee par le calcul analytique possib le sur cas d'ecole, Maintenant rea lisons G = 104 tirages independants dans une dgamma (a, b) t et , pour chaque valeur de Bi obtenue, calculons h (Bi) = Bim. . Leur moyenne arithmetique est 6.73. Bien sur, cette approximation varie d'essai en essai et depend du nombre de tirages effectues.
•
4.4.1
Simulation par la methode d'acceptation-r ejet
N ote 4 .1 Dans cette section, nous noterons 1(B) la distribution cible [e ly] pour marquer la symetrie avec la distribution instrumentale notee g(B) . La premiere technique de simulation generale , connue depuis J . von Neumann dans les annees 1940, est la methode d'acceptation-rejet. Soit f (e) une densite de probabilite de support e difficile it simuler et soit 9 (B) une densite de probabilite de meme support aisement simulable. En d'autres mots, il est
74
Pratique du calcul bayesien
facile de tirer des valeurs de la variable aleatoire 9 (e) dite loi instrumentale.
Soit M
edans la densite de probabilite
> 1 un nombre reel tel que \Ie E 8 : f (e) :S Mg (e)
(4.26)
Apres etude prealable du rapport L pour en adopter un majorant M, 9 l'algorithme consiste a repeter les trois actions suivantes, a chaque etape i (1 :S i :S G) : 1. generer e~
2. generer 3. si u;
u;
a partir de 9 (e) ; a partir d'une distribution uniforme sur [0,1];
< ~~(~l) alors accepter la realisation B~, c'est-a-dire Bi = B~, sinon
repeter les etapcs 1, 2, 3. Nous reprenons la demonstration heuristique de (Smith et Gelfand, 1992) dans Ie cas OU est reel. Soit dans l'espace produit 8 x [0,1], les sous-ensembles
e
So = {(u,B)IB < Bo et u
< A:;~~)} etS = {(u,B)IW: u < ~;~~)}
En termes de probabilites on a : i
i
,,) _
Pr ( Bg ~ BalBg accepte -
Pr( e~ :S eo) et e~ accepte) P CB ') r ~ accepte
JJ Iso(e,u)g(e)dude
JJIs (e, u)g(e)dude
J8
~g(e)de Mg(8)
0
-00
J+OO ~dude Mg(8) -00
J~~ f (e) de J~: f (e) de
=
j
80
-00
f (B) de
C'est dire que e~ accepte est distribue selon f (e), ce qu'il fallait demontrcr. Un sous-produit de ce raisonnement concerne Ie denominateur dont le calcul montre que:
Prob(B acceptc]
=
j +oo Mgf (0)(B) dudB= M1 j+oo f (B) dB= M1 -00
-00
Cela explique pourquoi la constante M doit etre superieure ou egale I'unite.
a
4. Calcul des lois a posteriori
75
Exemple 4.12 Dans un batiment, la consommation journaliere de mazout, disons Y, est lc nombre de lit res necessaires au remplissage de la cuve divise par Ie nombre de jours depuis le dernier plein. On postule que cette variable aleatoire fluctue aleatoirement autour d'un niveau moyen J.L. Un modele de connaissance plausible est une loi normale : Y rv dnorm (J.L, T). Un expert estime que les parametres J.L et T sont independants et propose J.L r-;» dnorm (m, h) et T rv dgamma (a, b) OU m == 12 Ll], h == 1/4 (j/L)2, a == 1/16 et b == 1/4 j/L. Disposant d'un n-echantillon iid, f) et 8 2 sont respectivement la moyenne et la variance empiriques des observations. On demande d'inferer J.L et T avec n == 36, f) == 12.6 L/j et 8 2 == 38.1 (L/ j)2. • L'independance a priori des parametres J.L et T interdit une solution purement analytique. La regle de Bayes et quelques manipulations algebriques permettent d'ecrire la distribution conjointe a posteriori comme suit ex
T n / 2+ a - 1
[-~2 (ns
exp
x exp [_ nT
+
2
2
+ 2b + nh (m -
y)2)]
nr s- h.
h(M _
mil + tit
hm) 2]
-r ]:
La conditionnelle complete a posteriori de J.L est done gaussienne
MIT, Y
rv
dnorm (
n:~ : ~m .tir + h)
En integrant la conjointe par rapport nale a posteriori de T :
[Tly]
on obtient la distribution margi-
2+ 1 [T ( 2 T-/iiT+li exp - - ns + 2b + nh (m - fJ)2)] h n
0:
a J.L
/
a
-
nr + h
K
n 2a 1 T-/iiT+li [T ( (m - f))2)] / + exp - - ns 2 + 2b + nh h
nr
+h
(4.28)
nr +
2
Ce n'est pas une loi standard, mais des que l'on a une valeur de valeur de J.L via (4.27). Posons
f (T) =
(4.27)
2
nr
+
T
on a une
(4.29)
OU K est un facteur choisi arbitrairement de telle sorte que le graphe de f (T) coupe celui de la loi instrumentale (fig. 4.10). Le graphe de f (T) est montre a Ia figure 4.10 (K == 1036 ) . Le support pratique est T E [0,0.05]. Une loi instrumentale uniforme sur ce support a une densite definie par
[TI0.05] == 20 x
1]0,0.05]
(T)
76
Pr atiqu e du calcul bayesien
La constante M > 1 doit verifier la condit ion (4.26). Dans Ie cas present elle s'ecrit : "iT E [0,0 .05] : m ax {f (T )} ::; 20M Pour eviter tr op de rejets, on a interet
a choisir
la plus petite valeur , ici
M ,::: 1.91. Apres 104 essais, avec un taux d'acceptation de 30%, on obtient les resultats donnes dans Ie tableau (4.5). / C90 T
a f-l
fh 0.017 5.2 10.9
fh o 0.025 6.3 12.5
B95 0.037 7.7 14.0
Tableau 4.5 - Algorith me AR.
40
M X 9(1-) 35 30 25
;?
9(1-)
=U[O,005)
20 15 10
5 OL--_'--~"'--_'------.J'------.J'------.J'------.J'------...l_----...l-==='
o
0.005
0.01 0.015 002
0025
003
0.035
0.04
0.045
0.05
1-
Figure 4.10 - Methode d'acceptation-rejet.
4.4.2
L'echant.illonnage et Ie re-eohant.illonnage ponderes
Principe de I'echant.illonnage pondere La methode d'accept ati on-rejet a le defaut de necessiter la connaissance de la constante M qui n'est pas toujours disponible. Mais nous pouvons obte nir un G-echantillon de realisations approximativemen t selon f (B ) en util isant les
4. Calcul des lois a posteriori
G ponderations
_
77
f(e~)
g(e~)'
Wi-
calculees sur I'echantillonnage initial selon 9 (()). Ces poids sont normalises pour en faire des probabilites : W·J
_
qj -
(4.30)
",NG
Dj=l Wj
Ces ponderations jouent un role important dans l'estimation directe d'integrales telles que 4.3; c'est la technique d'integration numerique par echantillonnage potulere. Elles permettent aussi de construire un echantillon approximativement distribue selon f(()) en pratiquant un re-echantillonnage dans la distribution finie des G valeurs
()J, chacune associee a sa probabilite uu]
G
L: ui,
i=l
selon l'algorithme suivant. 1. Soit () ~, ()~, . .. ,(); un echantillon i id tire selon 9 (()).
2. Considerons la sequence de meme longueur w~, w~, ... ,w; ou les Wj sont les poids Wj == f(()~)/g(()~). On les norme pour en faire des probabilites (4.30). 3. Tirer un echantillon ()1, ()2, distribution finie sur ()~, ()~,
iis 6 , c'est-a-dire avec remise dans la ,(); affectant les masses qj a chaque ()~.
,()G
On se reportera a la section 2.2 du chapitre 6 de (Robert, 2006) pour une presentation detaillee de l'echantillonnage pondere (importance sampling en anglais). La demonstration est calquee sur celIe que nous avons faite pour I'acceptation-rejet en s'appuyant cette fois-ci sur l'expression de la probabilite de A o == {O ::; Oo} obtenue au second tirage : G
Pr(()::; ()o) == Pr(A o) == LqjIAo(()~) j=l
soit, en exprimant les qj :
Pr (() < () ) == -
0
1.. "'C:
W .I (()j) G DJ=l J A o 9 1 G G j = l Wj
L:
Si maintenant G ---+ 00, selon un theoreme classique du calcul des probabilites, le rapport des sommes tend en loi vers :
6
Independant et identiquement sirnule,
78
Pratique du calcul bayesian
Notons immediatement que la convergence est asymptotique, done la simulation n'est valable que quand G est assez grand. Remarquons le trait essentiel de cette methode, utile pour le calcul bayesien des distributions a posteriori: la densite f(e) peut ri'etre connue qu'a une constante pres! En effet, les tirages dans la distribution discrete qui simulent les ej sont determines par les poids normes qj independants de cette constante. Pour le calcul d'integrales telles que 4.3, le re-echantillonnage de I'etape 3 n'est plus necessaire, La relation 4.2 s'ecrit ici :
E(h(e) Iy) =
l
G
h(e)
~~~jg(e)de ~ {;h(e;)qi
(4.31 )
Enfin, sous des conditions techniques de regularite, on peut en plus obtenir un theoreme central limite de convergence :
1 e
G
h (e) [ely] de -
L h(e;)qi
rv
dnorm (0, (J"2/ G)
(4.32)
i=l
Conditions necessaires pour la mise en oeuvre. Ces conditions s'appliquent egalement echantillonnage.
a la technique de simulation par re-
1. Le support de la loi d'importance 9 (e) doit englober le support de la loi cible f (e) : ve E 8 g : g(e) == 0 =? f(e) == 0 2. La variance des poids d'importance doit etre finie.
La figure 4.11 decrit le mecanisme de l'echantillonnage pondere, Le point sur-represente par la fonction d'exploration 9 par rapport a r la densite cible f. La ponderation brute qui lui est affectee f (er ) / 9 (er ) est done inferieure a 1. A contrario, le point es sur la droite est dans une situation inverse : il est sous-represente par la fonction d' exploration 9 relativement a la densite cible f. La ponderation que lui affecte l'importance sampling, ici plus grande que 1, va donc corriger cette sons-representation.
e a gauche est
Exemple 4.13 On reprend l'exemple 4.12. La fonction f (7) (4.29) est nulle en dehors de l'intervalle [0,0.05] (fig. 4.10). La fonction d'importance, 9 (7), est la loi uniforme definie sur [0, 0.05] : 7 rv 4 U[O,o.5]. On tire au hasard G == 10 valeurs dans cette loi et on calcule les poids d'importance selon (4.30). En ordonnant les G couples (7 i , w i ) par valeurs croissantes de 7, on obtient les couples (7( i) , w(i) )et la fonction de distribution cumulative empirique. F(7(i))
=={T(i l , tW(k l } , i==I,···,G k=l
(4.33)
4. Calcul des lois a posteriori
79
f
11/ 8
"'8) =f{8J YV\ r
g(8) r
'\ s
r
)=f (8)
(~)
s
Figur e 4,11 - Echantillonnage pond ere,
On obtient des valeurs de T par la methode inverse (fig. 4.12) et des valeurs de J.L via sa conditionnelle complet e (4.27). On retrouve evidemrnent les IC du tableau (4.5). On peut aussi calculer une fonction reelle de T (respectivement /L) par (4.31).
•
Recommandation pour I'Implementation En pratique, deux gra ndes familles sont proposees pour la distribution d 'impor tance. 1. On peut tout d'abord choisir une loi uniforme sur un hypercub e (les para-
metres se trouvent a priori bornes) . Pour les gros modeles cela ent raine un effort de calcul explosif. Par exemple si on souhaite echa nt illonner un hypercube avec une resolution moyenne d 'un dixieme de l'etendue de chaq ue parametre, pour un modele it dix parametres (y compris les variables lat entes), il faudr ait de I'ordre de 1010 echant illons Monte-Carlo ! L'impossibilit e de maint enir une densit e adequate d 'echantillonnage peut ent rainer un sous-echa nt illonnage des regions prob ables de l'esp ace des par ametres, ce qui aura pour effet de generer un petit nombre de poid s d'import ance eleves, et ce t rop peti t nombr e d'indi vidus vraiment representatifs domin era l'echantillon genere, 2. Le second choix classique est de s'appuyer sur un melange multinormal
80
P rat ique du calcul bayesien
0.9 0.8
0.7 0.6
0.4 0.3 0.2
0.1 00
0.005
0.01
0.015 002
002 5
0.03 0.035 0.04 0.045 0.05
Figure 4.12 - Distribution cumulat ive empirique de T .
surdisperse
aN(p" E) + (1 - a)N(p" AE)
ou p, est choisi pro che de la valeur la plus credible du pararnetre B (maximum de vrai semb lance quand il est possible d 'en avoir un e idee) et E correspond a la matrice de vari ance-covariance pour B. On pr end generalement A de I'ordre de 3 afin de surdisp erser la fonction d 'importan ce. Le poids a (a < 1) etend la portee de la distribution d 'importance pour echant illonner des regions de f (B) qui ne sont pas adequatement approchees par l'approximat ion norm ale asymptot ique N(p" E ). Pour A grand et a petit , la distribution normale surdispersee se comporte ra comme une distribution uniforme. Exemple 4.14 Reprenon s I'exemple prece dent de la vraisemblan ce gamma avec prio r exponent iel. lei , on recherche Ie posterior soit
f (e) ex avec les memes donnees n
g(lJ- l ) ) (
r (e)
n
a
e
-
1
exp ( -be )
= 14, g = 25.4, m = 20 et (o_ I») n
8
2
= 3. Le maximum de
la vr aisemblan ce [yle] ex ( ~ est donn e par la solut ion de l'equ ation qui annule la derivee de la log-vraisemblance (voir sect ion et ude asy mptotique des par am etres d 'une distribution gamma) :
n
* log g -
mjJ(e) = 0
4. Calcul des lois a posteriori
81
On retrouve la fonction digamma 1jJ(()) == alo~~(lj). Une methode iterative de Newton-Rapson pour rechercher la solution s'obtient en remplacant 1jJ( ()k+l) par son developpement au premier ordre
Combine avec l'equation precedente, l'algorithme donne a partir d'une valeur initiale 00 ici fixee a 20 (la moyenne du prior) la regie de passage suivante
Avec les donnees du probleme en cours, l'algorithme se stabilise rapidement autour de 0 == 25.898. La variance de la distribution normale asymptotique est donnee par l'inverse de I'opposee de la derivee seconde de la log-vraisemblance en B soit n'IjJ~(e)' c'est-a-dire var(B) = 1.8144. Nous allons prendre pour fonction d'importance cette loi normale asymptotique, mais en dilatant la variance par un facteur A. Avant renormalisation, on aura done le poids d'importance pour Ie tirage ()i : f( ()i) (g(f)-l) ) n ()a-l e- bfJ
g(()i)
=
r(())
ex (_(e-O i).2) p
Avar(B)
Avec G == 10000 tirages et A == 2, l'estimation de la fonction de repartition F du posterior fest donnee a la figure 4.13 : on trace, pour chaque valeur de () gencrec et remise dans l'ordre croissant, le cumul des poids normalises correspondant. Le tableau 4.6 donne les quantiles qui s'obtiennent par lecture inverse de la fonction de repartition.
Tableau 4.6 - Echantillonnage par importance : intervalle de credibilite.
• 4.4.3
Vers les methodes particulaires
La technique de re-echantillonnage a un defaut pratique important; elle provoque des doublons si la variabilite des poids w ( ()i) de la premiere phase d'echantillonnage pondere est grande. Cela depend du choix plus ou moins adequat de la « distribution instrumentale » g(()). Si la fonction d'importance etait exactement le posterior, la repartition des poids serait uniforme et le risque d'appauvrissement par re-echantillonnage de doublons serait faible : lors du re-echanl.illonnage, les valeurs associees aux poids forts ont tendance a etre repliquees tandis que celles associees a des faibles poids s'eteignent.
82
Pratiqu e du calcul bayesien
00
d
r:: .0
1ic..J
.!!!
d
.g
r::
.§ r::
-ed
0
l.L
6 '"
<> 6
20
22
24
26
2B
30
32
t b et a
Figure 4.13 - Fonction de repartition grace a l'echantillonnage par importance.
Exemple 4 .15 Repr enons l'exemple 4.14. L'avantage du re-echantillonnage est de pouvoir const rui re faeilement un histogramme permettant d'a pprocher la fonet ion de densite du posterior. La figure 4.14 montr e que celui-ci realise, comme on l'at tend ait , un eompromis ent re Ie prior et la vraisemblanee. La figure 4.15 montre le resultat de la fonction de repar tition des poids pour tro is fonctions g(B) obt enues en faisant varier A, le coefficient qui regle la surdispersion par ra pport a la normale asy mptot ique (A = 1,2 , 3 et 9 ). Plu s ces courbes se rapprochent de la bisseetrice, plus elles ressemblent a la fonction de repartition ideale de poids uniformes et moins la probabi lite de doublons est for te! Ici la valeur A = 3 semble la plus adequat e. On voit done que Ie choix d 'un e bonne fonction d'imp ortance est capital : de fort es instabilites lors des • est imat ions peuvent resulter d'une loi d'importanee inappropriee !
4. Calcul des lois a posteriori
iU Ol
83
posterior
0 0
It')
n c: c:
,g
§
s: 0
:~
0 0 0
""
.~
0-
n
iU
E
~en
0 0
It')
$l Vl :.E
o
20
26
24
22
28
thet a
Figure 4.14 - Densite a posteriori grace echantillonnage bootstrap.
a l'echant illonnage
par importance et re-
0
"" VI
:tl 0
co
0
a. VI
-8 c
·11
co
0
't:
l':l
a.
.~
III "0
'
0
.~" tE" '"0 0
0 0
2000
4000
6000
80 00
100 00
poids
Figure 4.15 - Fonct ion de repartition des poids selon diverses fonctions d'importance. D'autres extensions de ces techniques, les algorithmes part icul aires (Doucet et al., 2001), prop osent de faire suivre l'et ap e de re-echan till onnage par une
84
Pratique du calcul bayesien
phase de dispersion markovienne des eventuels doublons : pour lutter contre cette degenerescence de l'echantillon, on redisperse les particules au moyen d'un noyau de transition markovien, ayant la propriete d'avoir f comme loi invariante. Mais ces techniques de filtrage adaptatif, dont on travaille encore les proprietes theoriques, ne sont pas encore passecs dans la pratique courante. Pour diminuer la variabilite des estimations apres re-echantillonnage due a cette degenerescence des echantillons, on peut aussi pratiquer des techniques de lissages comme la tres populaire « Rao-Blackwellisation », appelee du nom d'un theoreme de Statistique mathematique,
Epilogue Ce chapitre d'initiation au calcul numerique stochastique est forcement incomplet! II faudrait plusieurs livres pour faire le panorama detaille des methodes de Monte-Carlo, avec ou sans dependance, qui ont libere le modelisateur d'une tres grosse partie des soucis calculatoires (Brooks, 1998), (Robert et Casella, 1999). Certaines de ces methodes datent de I'epoque des gros ordinateurs centralises (Metropolis et al., 1953) mais elles ont veritablement pris leur essor grace aux PC rapides. Bien evidemment, la maitrise de ces algorithmes s'acquiert par la pratique. Pour I'etudiant.rchercheur dont la preoccupation essentielle est, au moins dans un premier temps, de consacrer son temps a creer des modeles, nous affirmons que WinBUGS est un outil tres performant pour faire ses premiers pas sans se soucier immediatement de l'ecriture des algorithmes d'estimation bayesienne. L'association DAG - calcul tiumerique stochastique recule nos horizons. II semble que tout soit permis! Ce serait une erreur de Ie croire. L'utilisateur neophyte de WinBUGS se rend vite compte que tout n'est pas permis, que WinBUGS « se plante». Nous ne parlons pas ici des erreurs d'utilisation (p. ex. faute de syntaxe, mauvaise declaration d'un nceud, etc.), mais bien des erreurs de conception. Par exemple, l'inflation des parametres rend lc modele non identifiable (violation du principe de parcimonie des parametres). Cependant, un modele qui « marche mal» est pire qu'un modele qui ne « marche pas» (Spiegelhalter et al., 2003). Dans le chapitre 5 nous montrons une utilisation astucieuse de WinBUGS pour estimer la distribution du cardinal d'un ensemble fini qu'on ne peut recenser.
Chapitre 5
Le cardinal sort du rang la cible est une variable latente
• •
Prologue Sous ce titre quelque peu humoristique, nous nous interessons a un problerne generique qui a de nombreuses applications pratiques : connaissant le rang d'un element d'un ensemble fini ordonne E, on se propose d'inferer le nombre d'elcments de E. En fait, c'est la generalisation de ce probleme a une collection d'ensembles finis ordonnes qui nous interesse. Sous le paradigme bayesien, le recours aux variables latentes (voir chap 3, p. 3.2.3) permet d'introduire un second niveau de variation entre les ensembles, ce qui confere au modele une structure hierarchique. Mais un modele n'est utile que s'il est calculable et c'est pourquoi les modeles hierarchiques et les methodes de Monte-Carlo sont indissociables.
5.1
Introduction
Dans lc chapitre 4 nous avons vu que les methodes de Monte-Carlo liberent la creativite du chercheur en Ie debarrassant de la plupart des soucis calculatoires. En passant de la plume a la souris, les modeles gagnent en realisme, C'est ainsi que le recours a des variables aleatoires latentes (c'est-a-dire cachees) permet de simuler convenablement la realite complexe que nous ne percevons qu'au travers des observables. Les modeles qui impliquent des variables latentes presentent presque toujours une structure hierarchique, Comme les parametres, les variables latentes sont des quantites inconnues et incertaines. Dans un DAG, ces noeuds inter-
86
Pratique du calcul bayesien
mediaires, en sandwich, se reperent facilement car ce ne sont pas des nceuds initiaux (parametres sans parents) ni des nceuds finaux (en general les observables sans enfants). Elles se distinguent des parametres en ce sens qu' elles ne comptent pas pour le principe de parcimonie pour autant que leur introduction ne necessite pas de nouveaux parametres 1. Pour illustrer les propos, nous prenons le probleme generique des rangs de naissance disponible dans (Hand et al., 1993) qui cite Burks (1933).
Exemple 5.1 [Les rangs de naissance] A partir de la seule connaissance du rang de naissance de 1800 etudiants inscrits en classe elementaire de psychologie a l'universite de Californie entre 1924 et 1929, on demande d'inferer la taille de la fratrie type. • II s'agit en fait d'une generalisation du probleme du tramway resolu dans (Robert, 2006) qui fait reference a (Jeffreys, 1961).
Exemple 5.2 (Le tramway) Une personne arrive dans une ville qui lui est parfaitement inconnue. En particulier, elle en ignore la taille. La premiere chose qu'elle y voit est un tramway portant le numero r. Sous l'hypothese que les tramways sont numerotes en ordre croissant a partir de 1, que peut-elle en deduire sur le nombre de tramways circulant dans la ville? • L'exemple des rangs de naissance pourrait trouver une application interessante en planetologie, En date du 19 octobre 2007, on dispose d'un catalogue de 209 etoiles autour desquelles gravitent une ou plusieurs exoplanetes (tableau 5.1)2. La derniere planete decouverte autour d'une etoile-hate definit le rang a partir duquel on peut inferer la taille d'un systeme planetaire type.
Tableau 5.1 - Nombre d'exoplanetes detcctces par mesures de vitesses radiales stellaires dans 209 systemes planet.aires.
Le lecteur interesse pourra calculer la distribution predictive a posteriori du nombre d'exoplanetes dans un systeme extrasolaire en substituant les donnees dans le code WinBUGS fourni en fin de chapitre (fig. 5.5). Nous avons prefere resoudre le probleme des rangs de naissance parce que la grande taille de l'echantillon interdit l'utilisation d'une grille (voir chap. 4). Signalons aussi que de telles methodes ont ete utilisees par les allies pendant la seconde guerre mondiale : il s'agissait d'estimer la production allemande de canons et de chars Panther V a partir des numeros de series observes durant les defiles militaires ou sur les champs de batailles (Ruggle et Brodie, 1947). Pendant la guerre 1 Un modele statistique pararnetrique vise a decrire un phenomene naturel avec un nombre raisonnable de parametres (nettement moins que le nombre de donnees !). 2 Jean Schneider, voir http://vo.obspm.fr/exoplanetes/encyclo/catalog-RV.php).
5. Le cardinal sort du rang
87
de Coree, les americains se sont appuyes sur les memes idees pour estimer la quantite de divers materiels militaires sovietiques,
Modelisation hierarchique
5.2
Le probleme du tramway est interessant parce qu'il illustre bien la pratique du raisonnement conditionnel bayesian. C'est pourquoi nous le donnons comme une introduction au probleme des rangs de naissance.
5.2.1
Le problema du tramway
Soit Z le nombre inconnu de tramways circulant dans la ville et R l'observable, c'est-a-dire leur numero etant entendu qu'ils sont numerotes en ordre croissant a partir de 1. Soit r le numero observe. - La vraisemblance de l'information R == rest conditionnelle a Z :
[R
== r IZ] ==
i,
,Z
r == 1, 2, . ..
(5.1)
- Si on interprete Z comme un parametre d'echelle, un prior non informatif est 1 [Z] ex(5.2) Z
A posteriori3
:
[Zlr] ex i21n(Z),
(5.3)
O=={r,r+l,··.}
La probabilite que Z depasse une valeur Zo > r suit : 00
-
P r (Z > Zo I) r -
-
L: 1/j2
j=zo
fliP
r--:»
~
Joo d j 2 Zo X X
Ir
00
dxlx
2
_
-
~
(5.4)
Zo
j=r
Le quantile Zp ayant la probabilite p d'etre depasse est done estime par == r lv. C'est la mediane du posterior qui est l'estimateur habituellement retenu pour le probleme du tramway (Robert, 2006) : ZO.5 == 2r.
zp
Signalons que le traitement de ce probleme artificiel est extremement senet une seule donnec, sible au choix du prior: avec le prior non informatif en vraisemblance et prior apportent exactement la meme quantite d'information. Avec un autre prior, par exemple N1k ,k ~ 1, la solution de l'equation 5.4 serait
-k
(zp)k 3
= r kIp soit
In (Z)
ZO.5
= (2*) r !
== 1 ssi Z E 0, In (Z) == 0 sinon.
Pratique du calcul bayesien
88
5.2.2
Le probleme des rangs de naissance
Le tableau 5.2 donne Ie rang de naissance de 1800 etudiants inscrits en classe elementaire de psychologie a I'universite de Californie entre 1924 et 1929 (Burks, 1933).
Tableau 5.2 - Rang de naissance de 1800 etudiants.
L'observable est le rang de naissance d'un etudiant choisi au hasard. C'est un nombre entier superieur ou egal a un. La taille de sa fratrie est cachee. Que peut-on dire du nombre d'enfants dans la population mere, ici la famille californienne des annees trente capable de soutenir des etudes universitaires?
Le modele Pour gcnerer des rangs de naissance on peut pro ceder de la facon suivante. Soit "i le rang de naissance de l'etudiant j et soit Zj le nombre de ses freres et sceurs, j == 1,2, ... ,k == 1800. 1. Tirer A dans une loi gamma : A rv dgamma (a, b) 2. Pour j == 1,2, ... ,k : (a) tirer lc nombre de freres et soeurs dans une loi de Poisson : dpois (A) ;
Zj
(b) tirer le rang de naissance r j dans une loi discrete uniforme definie sur 0 Z j == {I, . .. ,Zj + I}. Clairement, le parametre A est la valeur attendue du nombre de freres et sceurs d'un etudiant quelconque lui-meme n'etant pas compris. Le DAG (fig. 5.1) represente ce mecanisme generateur pour deux sujets distincts j et k : - les neeuds stochastiques Zj et Zk sont conditionnellement independants sachant A; - les nceuds stochastiques rj et rk sont independants, mais ne sont pas identiquement distribues,
(5.5) (5.6) (5.7)
5. Le cardinal sort du rang
89
Figure 5.1 - Le probleme des rangs de naissance : structure hierarchique du modele.
On obtient la distribution de l'observable a partir de la distribution conjointe de l'observable et de la variable latente en sommant cette derniere sur toutes ses valeurs possibles : 00
[rjIA] ==
L
00
[rj,ZjIA] ==
Zj=O
L
[rjlzj] [ZjIA]
Zj=O
En y substituant les modeles (5.6, 5.7), on obtient la contribution du rang de naissance de I'etudiant j a la vraisemblance :
La vraisemblance complete s'ecrit :
Le prior (5.5) et la regle de Bayes donnent : a
[Air] ex A
-
1
exp (- (k + b)A)
AZ
II L ( + 1) k
00
. )=1 z=rj-1
Z
I
Z.
(5.10)
90
Pratique du calcul bayesien
Si n r etudiants annoncent Ie rang de naissance r sion devient :
[Air] ex
a 1 A - exp
(- (k + b) A)
~
1,2, ... ,m cette expres-
11 C~l (z ::) z!)
r
(5.11 )
n
Comme on l'a vu au chapitre 4, il existe differentes methodes pour calculer une distribution a posteriori. Quand le parametre du modele d'echantillonnage est unidimensionnel, la methode la plus simple consiste a l'integrer sur une grille. Mais avec les donnees du tableau (5.2), le facteur exp (- (k + b) A) sera toujours nul car k ~ 1800. Trois solutions s'offrent a nous. 1. La premiere consiste a tirer un echantillon aleatoire de taille raisonnable dans une distribution multinomiale d'ordre k ~ 1800 et dont les probabilites des occurrences r ~ 1,2,··· ,m sont les frequences relatives des effectifs du tableau (5.2). Ce faisant, l'integration sur une grille ne pose plus de probleme mais on a perdu de l'information. 2. La deuxieme est de programmer un algorithme MH, ce qui implique des developpements theoriques. 3. La troisieme est de resoudre ce probleme dans WinBUGS. Le but etant d'illustrer les techniques MCMC, nous ferons l'etude theorique, mais nous realiserons l'inference sous WinBUGS, avec un recours a une astuce developpee par ses concepteurs (Spiegelhalter et al., 1996a) : lc zero trick.
Developpernents theoriques La log-densite a posteriori est la transformce logarithmique de la relation (5.11). Pour ecrire un algorithme de Metropolis-Hastings, ecrivons-Ia comme suit: In [Air] ~
f (A) + cte
ou f (A) = (a -
m
1) In A- (k + b),\ + ~ n; In
(00 A Z~l (z + 1) z! Z
)
On souhaite utiliser la loi normale comme distribution instrumentale, c'esta-dire que la marche aleatoire se fait dans IR, mais on revient dans IR+ a chaque iteration: In Ai dnorm (In Ai-I, o ) --+ Ai ~ exp (In Ai) r-;»
Pour regler l'ecart-type a quelques essais sont necessaires pour obtenir un taux d'acceptation conforme aux recommandations (voir la section 4.3 pour Ie detail de la methode).
5. Le cardinal sort du rang
91
La figure 5.2 montre un code R qui solutionne Ie probleme via un algorithme MH. La fonction SumRank (non fournie ici) calcule
~nr In ( ~ (z ::) z!)
% small Data Sets 119 % Estimation de la taille de la fratrie type a partir du % rang de naissance de 1800 etudiants californiens (annees trente).
clear all; close all; % Donnees n=[797,455,265,125,68,37,26,8,l,9,5,3,l]; k=1800; % Prior non infonmatif a=O;b=O; % log-densite a posteriori : appel a la fonction SumRank f= .(x) (a-1)*10g(x)-(k+b)*x+SumRank(x,n); % Algorithme MH : la loi instrumentale est nonmale Counter=O; lambda(1)=4; sigma=.06; for i=2:4000 cand=nonmrnd(10g(lambda(i-1)),sigma); cand-expfcand) ;
u-urrifrndfu 1); test=f(cand~-f(lambda(i-1));
if test>log(u) Counter=Counter+1; 1ambda (i) =cand; else lambda(i)=lambda(i-1); end· end. ' Rat~=counter/4000
LAMBDA=lambda(100l:4000); % Predicti ve PRED=~oissrnd(LAMBDA)+l;
IC90= [prcti le(LAMBDA, 5), prctile(LAMBDA, 50),prctile(LAMBDA,95)]
Figure 5.2 - Algorithme MH pour les rangs de naissance.
Resultats Apres 4000 iterations dont 1000 pour la periode de chauffe, avec un taux d'acceptation de 0.45, on obtient les resultats suivants (tableau 5.3 , fig. 5.3). Inference bayesienne sous WinBUGS La relation (5.8) donne la contribution du rang de naissance rj a la vraisemblance. Si n; etudiants declarent le rang de naissance r, sous l'hypothese
92
Pratique du calcul bayesien
1090 A Taille
50 2.57 3
5 2.47 1
95 2.68 6
Tableau 5.3 - Rang de naissance : IC90.
dindependance, la contribution du rang r (qui arrive n r fois) s'ecrit :
a la vraisemblance
(5.12) Cette distribution n'est pas disponible dans WinBUGS mais l'astuce suivante permet de s'en sortir.
Le zero trick
Soit [yIO] la contribution de l'observation y a la vraisemblance pour un modele d'observable parametre par O. On sait que si une variable aleatoire x est distribuee selon une loi de Poisson de paramctre a > 0, la probabilite qu'elle prenne la valeur zero est exp (-a). Maintenant, si on identifie a a l'oppose du logarithme de la vraisemblance, on a :
a == -In [yIB] > a ::::} [x == ala] == exp (-a)
== exp (- (-In [yIB])) == [yIO]
(5.13)
Ainsi la contribution de l'observation y a la vraisemblance d'un echantillon issu d'un modele d'observable parametre par B, est identique a la contribution d'un zero a la vraisemblance d'un echantillon de zeros, issu d'une loi de Poisson parametree par a == -In [yIO]. Mais attention! Rien ne garantit que -In [yIO] > o. Aussi, la vraisemblance etant definie a une constante pres, on doit ajouter une constante 0 »> 1 a la log-vraisemblance de telle sorte que l'on soit certain que -In [yIO] + 0 > o.
Application du zero trick au probleme des rangs de naissance A partir de la relation (5.12), on a 00
In [riA, nr]
AZ
= -nrA + n; In ~ r (z + 2) 1{1,... ,z+l} (r)
II suffit donc de tirer des zeros dans une loi de Poisson de parametre TJr == -In [riA, n r ] + 0
5. Le cardinal sort du ra ng
93
3.5 K
3 2.5
2 L..-.............~~.L...-~~~'-'--~~~.LI...----'- -'--'-~u.J 10°
10
1
2
3
10
10
4
10
March e aleatoire
0.4 Q)
0.3
.~
tl
"D
-
0.2
'~
0...
0.1 0
I
-
2
I---
I--
3
4
5
Il---t 6
7
8
9
10
Nombre d'enfants
Figure 5.3 - Le problems des rangs de naissan ce. Profi l d 'une mar che aleatoire et distribution predictive a posteriori de la t aille de la fratrie type.
Remarque 5.1 Sous WinBUGS, la fonction step permet de coder facilement la condition 1{1 ,... ,z + l } (r)
1{1 ,... ,z + l } (r)
1¢?r:::; z + 1
= step (z + 1 - r) = { 0 ¢? r > z + 1
(5.14)
La fonctio n loggam calcule In r (z + 2). Par consequent, exp (loggam (z + 2))
= r (z + 2) = (z + 1) z!
(5.15)
Les figures (5.4) et(5 .5) mont rent respectivement le DAG et Ie code WinBUGS. Apres 4000 iterat ions dont 1000 pour la periode de chauffe, le tableau (5.4) donne un intervalle de credibilite a 90 % pour >. et T . On retrouve (evidemment) les memes resultat s que ceux obt enus sous R.
94
Pratique du calcul bayesien
A Ta ille
5 2.47 1
50 2.57
3
95 2.69 7
Tableau 5.4 - Rang de naissance : IC90 (WinB UGS) .
eta [r]
Figure 5.4 - Le problerne des rangs de naissance. Representat ion du modele hierarchique par un DAG sous WinBUGS.
Epilogue Inferer le cardinal type d'une collect ion d'ensembles ordonnes a partir de la seule connaissan ce du rang d'un de leurs elements est un probleme generique qui a des applicati ons pra tiques. Le modele du tramway voit le nombre de tramways circulant en ville comme un par ametre et c'est pourquoi on peut postul er un prior , en l'occurrence un prior non informatif de la forme [N] ex. N - 1 , car Nest vu comme un parame tre rl'echelle. Ce modele simple n'introduit pas de variable latente. Il exploit e direct ement tou te l'information disponible : conditionnellement a N , le ra ng du tramway observe est vu comme un tirage aleat oire dans une loi discrete uniforrne prenant ses valeurs dans n = {I , 2, ' " ,N}. On pourrait etre tente de s'en servir pour le probl eme des ra ngs de naissance : une fratri e = une ville et le rang de naissance de l'etudiant = Ie numero du tramway. Mais la generalisat ion de ce modele, pris tel quel, a plus d'une fratri e n'est pas simple. Le modele des rangs de naissance impliqu e des variables
5. Le cardinal sort du rang
95
latentes dans une structure hierarchique. La variable latente, Zj, represente Ie nombre de freres et soeurs de l'etudiant j. On a postule pour ces variables une distribution de Poisson de parametre A. Le rang de naissance est alors distribue uniformement sur l'ensemble f2j == {l,··· ,Zj + l}. L'inference sur A est realisee via un algorithme MH programme dans R ou dans WinBUGS via le zero trick. Dans les deux cas, chaque valeur de la chaine AIOOI, ... ,Aj,··· A4000 gencre un nombre de freres et soeurs, c'est-a-dire une valeur Zj, via un tirage aleatoire dans une loi de Poisson de parametre Aj. La predictive a posteriori est obtenue en ajoutant 1 a Zj puisque l'etudiant appartient a sa fratrie. A ce stade, nous avons decouvert et manipule des outils puissants pour resoudre des problemes de plus en plus interessante et utiles. Le chapitre suivant introduit la modelisation des evenements extremes via les modeles GEV et POT. Le defi est reel car, par definition, ces evenements sont rares alors que les enjeux sont importants. II y a donc peu de donnees et l'expertise est reduite. Pourtant, les fondements de ces modeles sont solides et leur utilisation rationnelle permet de mettre en place des protections qui fonctionnent. '# Ou rangde Ilaissance d"un .tudlant ala taille de sa fratrie (Sam,n Data Sets 119t
Utilisation du "zerotrick" Lavariable latente. 2, representele nombre defreres et sceurs (hors I'etudiant) ~ Elleasttiree dans une loidePois$onparametree parlambda :> 0 L'observable asile rang denaissance, r, deretudiant ~ II esttiredans une loidiscrete unifarme. denoie sur1,2, z+1 Enpredictif, N:: zet lataille delafratne, T,estdone egale aN+1 Notana que t ::: Z + 1
modet ( lambda .... dgamma(a,b) for(rin 1: m ) ( zero(r] <-0 for(tin 1 ,31) { temp[r •t] <- (pow(lambda,t - 1) * step(t - r) I expOoggam(t + 1» }
s[r] <-rom(temp[r .l) eta[r] <- n[r] * lambda -nl[r] * log(s[rD + C zero(!] "" dpois(eta(r]) N"'" dpois(1ambda) T<·N+ 1
} fiOata list(n:: cfl97,455,265,125,68,37,26,8.1,9,5,3.1), a:: 0,001, b= 0.001, C:::10000, m:: 13)
Mnit list(lambda :::3 N;: 6) list(fambda =1. N=9) j
Figure 5.5 - Le problerne des rangs de naissance. Code WinBUGS.
Chapitre 6
Initiation a la modelisation des valeurs extremes : les modeles GEV et POT Prologue Dans un contexte decisionnel, la modelisation des valeurs extremes est du plus grand interet puisqu'une protection qui fonctionne pour des evenements extremes pare aussi des evenements de moindre ampleur. Ainsi, la determination de la hauteur d'une digue prend en compte les crues extremes du cours d'eau, y compris celles qui n'ont jamais ete observees, A l'exclusion notable des distributions discretes (processus de comptage) , la theorie des valeurs extremes considere un rz-echantillon iid et s'interroge sur la distribution de la plus grande ou de la plus petite valeur de cet echantillon lorsque sa taille tend vers l'infini. L'article fondateur implique l'un des plus grands statisticiens classiques (Fisher et Tippett, 1928) dont les travaux furent valides et completes par d'autres personnalites (Gnedenko, 1943), (Jenkinson, 1955). Cependant, certains s'interrogent encore sur le sens memc du concept de probabilite quand on l'applique a des evencmcnts exceptionnels (Bouleau, 1991). Effectivement, lc frequentisme radical est, ici, a bout de souffle. Dans ce meme contexte, Ie paradigme bayesien trouve une nouvelle justification. Ce domaine de la recherche est en plein essor, notamment pour prendre en compte les depcndanccs spatiales et./ou temporelles entre les valeurs extremes (Drees, 2008). Dans ce chapitre d'introduction, nous nous limiterons au cas OU il est raisonnable de postuler l'independance entre les extremes. Cette hypothese fonde les modeles GEV (generalized extremes values) et POT (peak over threshold), modeles qui sont en fait deux expressions differentes d'une meme realite, Leurs nombreuses applications dans les sciences experimentales, notamment en genie civil, temoignent de leur interet.
98
Pratique du calcul bayesien
6.1
Introduction
Les inondations, avalanches, scismcs, etc., sont des evenements d'autant plus redoutes que leur intensitc est grande, et on comprend bien qu'une valeur extreme est une intensitc qui a heureusement peu de chances d'etre obscrvee. Pour clarifier les idees, imaginons que la distribution de la lame d'eau journaliere' en un lieu soit une loi normale de moyenne J-L et d'ccart-typc (J. Des lors, conditionnellement a la connaissance des parametres J-L et (J, la probabilite d'observer une lame d'eau journaliere dont la hauteur excede J-L + ka est quantifiable des que l'on dispose de la fonction de repartition de la loi normale standard, traditionnellement notce
:
.p == Pr (X
> J-L + k(J) ==
X -J-L Pr ( -(J-
> k ) ==
1 - (k)
Par exernple, la probabilite d'observer une lame d'eau journalierc dont la hauteur excederait la moyenne de trois ecarts-types est d'environ une chance sur mille (p ~ 1.35 X 10- 3 ) . Une telle hauteur d'eau serait assurement considerec comme un evenemcnt extreme et pourrait etre prise en compte pour dimensionner le reseau devacuation des eaux de ruissellement (qui peut le plus, peut le moins). Bien entendu, l'hypothese de norrnalite est tres discutable et son refus invalide le calcul de la probabilite du depassemcnt realise ci-dessus, a moins qu'on ne fasse appel au theoreme central limite. L'enregistrement de la hauteur d'eau journaliere sur une longue periodc, souvent I'annee, fournit une suite de variables aleatoires reelles (v. a. r.) : Xl,··· X n . Si on postule que les X j sont iid selon une fonction de repartition inconnue, F, de moyenne J-L et decart-type (J, alors le iheoreme central limite no us dit que la distribution de x;
n
==
n D x, l~
j=l
tend asymptotiquement vers la loi normale standard. Par consequent, conditionnellement a J-L et (J, on a : k Pr ( Xn>f.L+
(J
Vii
)
=Pr ( Zn=
x; - J-L >k ) ':::'l-(k) a/Vii
En pratique, les parametres J-L et (J sont inconnus et on leur substitue la moyenne et l'ecart-type empiriques, respectivement notes xn et Sn. En d'autres mots, la loi normale standard est la loi d'une v. a. r. Z vers laquelle la v. a. r. Zn converge en 10i2 lorsque n tend vers l'infini Xn
~
:Tn ,Sn
Z -
n-
Vii (Xn Sn
Xn)
~
Z
n-+oo
1 La lame d'eau journaliere en un lieu donne est I'equivalent en eau liquide du cumul de toutes les precipitations recues par un metre carre de terrain en vingt-quatre heures (lmm = ll/m 2 ) . 2 Lorsque n tend vers l'infini, la fonction de repartition empirique de X est egale a en tout point Z ou est continue (IR) .
6. Les modeles GEV et POT
99
Cependant, il faut bien admettre que la moyenne x; n'est pas la meilleure statistique pour modeliser des evenements exceptionnels. En effet, les v. a. r. minimum et maximum du n-echantillon iid correspondent mieux a l'idee que l'on se fait d'une valeur extreme: m.;
== min (Xl,··· ,Xn ) , M'; == max (Xl,··· ,Xn )
En fait, on peut se limiter mn
a l'etude du maximum car
== - max (-Xl , ... , - X n )
A l'image de ce que nous avons fait ci-dessus, c'est le comportement asyrnptotique du maximum qui nous interesse. Ici, il y a un ecueil. F etant une fonction de repartition, l'hypothese iid entraine Pr (M n :::; z) == (F (z))n Soit z+ la plus petite valeur z pour laquelle on a F (z) Iimite'' donne une distribution degenerce Vz < z+:
1. Le passage
a la
lim [F (z)]n == 0 n~oo
L'idee est de rcsoudre cette difficulte en appliquant comme ci-dessus une transformation Iineaire au maximum M'; afin que le passage a la limite conduise a une distribution non degeneree. La question est done de savoir s'il existe des constantes normalisantes, an 2: 0 et bn > 0, telles que le maximum normalise, Zn, converge en loi vers une v. a. r. Z lorsque n tend vers l'infini
La theorie donne une reponsc affirmative a cette question et precise la distribution de Z. Le comportement asymptotique de la loi du maximum M n depend de la fonction de repartition initiale F. (Fisher et Tippett, 1928) ont etabli qu'il n'y a que trois types de lois limites possibles: Frechet, Weibull 4 et Gumbel. La majorite des lois de probabilite usuelles appartiennent a l'un des trois domaines dattraction''. Par exemple, les distributions gamma et log-normale appartiennent au domaine d'attraction de Gumbel regroupant la majorite des distributions a queue fine; les distributions de Pareto, log-gamma et de Student appartiennent au domaine d'attraction de Frechet regroupant la majorite des distributions a queue lour de ; la distribution uniforme appartient au domaine d'attraction de Weibull regroupant la majorite des distributions sans queue. On suppose que la limite existe. pas confondre avec la loi de Weibull utilisee dans Ie domaine de la fiabilite. 5 On appelle domaine d'attraction d'une loi H l'ensemble des lois F pour lesquelles Ie maximum d'un echantillon, M n , converge en loi vers la loi des extremes du type H. 3
4
A ne
100
Pratique du calcul bayesien
En fait, on peut caracteriser ces trois types de distribution par une distribution unique, la loi qeneralieee des valeurs extremes ou modele GEV (generalized extremes values) (Gnedenko, 1943), (Jenkinson, 1955). Le modele GEV est coherent avec lc modele POT (peak over threshold) qui voit les valeurs extremes d'une observable comme les depassements d'un seuil fixe assez haute Ces depassements constituent un processus de Poisson marque, les excedents etant distribues selon une loi de Pareto qeneralisec qui n'est rien d'autre que l'oppose du logarithme du modele GEV. Ainsi, les modeles GEV et POT sont en quelque sorte les deux faces d'une meme medaille. Ils sont d'application dans les situations OU il est raisonnable de postuler que les evenements extremes sont independants. Dans le cas contraire, des modeles plus sophistiques existent (Drees, 2008). Les modeles GEV et POT sont caracterises par un parametre tridimenConduire une inference baycsienne sur implique de recourir aux sionnel methodes speciales du chapitre 4. Pour le modele GEV, aucune des trois conditionnelles completes n'est standard, mais un algorithme de Metropolis-Hastings sequentiel est relativement facile a regler. Pour le modele POT, deux des trois conditionnelles completes sont standards et l'utilisation d'une grille pour la troisieme permet de programmer facilement un echantillonnage de Gibbs. Le lecteur interesse trouvera dans (Coles, 2001) un excellent ouvrage d'introduction a la modelisation statistique des valeurs extremes traitee essentiellement sous le paradigme classique (Coles donne un exemple d'inference bayesienne dans la premiere section de son dernier chapitre).
e.
e
Note 6.1 Le statisticien bayesien raisonne toujours conditionnellement aux parametres. Cependant, pour allegcr les ecritures, il arrivera que le conditionnement soit implicite, notamment dans les developpernents.
6.2
Le modele GEV
Soit {X t } un processus stochastique a temps discret". Soit Xl, ... ,Xn une serie de n v. a. r. iid de fonction de repartition F. On peut ordonner cet echantillon par ordre croissant: X(l) < X(2) < ... < X(n). Intuitivement, on comprend que le maximum Mn == X(n) est une valeur extreme si nest assez grand. La probabilite que ce maximum soit inferieur a une valeur z don nee est triviale Pr (Mn < z) == (F (z))n Lorsque n tend vers l'infini, cette distribution est nulle en tout point z < z., ou z., est la plus petite valeur de la v. a. r. M n pour laquelle F == 1. On dit d'une telle distribution qu'elle est degeneree. L'idee est d'appliquer une 6 Sous Ie nom de processus stochastique it temps discret, on entend un modele permettant de decrire un phenornene aleatoire evoluant au cours du temps, OU les observations sont realisees en des instants t ETC Z.
6. Les modeles GEV et POT
101
transformation Iineaire au maximum M n telle que, lorsque n tend vers l'infini, la distribution limite, G, soit non degeneree, Les deux theoremes suivants fondent la theorie des valeurs extremes.
Theorems 6.1 (Fisher et Tippett, 1928). S'il existe des suites normalisantes {an} et {b n > O} telles que Pr (Zn = M nb- an n
<
z) == (F (an + bnz))n
----+
G (z)
n~oo
oii la fonction de repartition G est non degeneree, alors G ne peut appartenir qu 'a l'une des trois familles suivantes : Frechet, Gumbel ou Weibull.
Theoreme 6.2 ((Gnedenko, 1943), (Jenkinson, 1955)). S'il existe des suites normalisantes {an} et {bn > O} telles que
oi: la fonction de repartition G est non degeneree, alors G est un membre de la famille GEV (loi generalisee des valeurs extremes) dont la fonction de repartition
G(zIJL,(T,~) =exp (_ (l+~z:JL)-1/~)
(6.1)
est dejinie sur l'intervalle reel dejinit par
l+~z-~>O a
(6.2)
avec
(6.3) Remarque 6.1 La difficulte posee par la determination des coefficients an et bn > 0 n'est qu'apparente car
entraine
Pr (M n ~ an + bnz) ~ G (an
+ bnz) == G* (z)
ou G* est un autre membre de la famille GEV. Par consequent - comme on doit conduire une inference bayesienne sur les parametres pour identifier le membre de la famille GEV en adequation avec les donnees et l'expertise disponibles en pratique on ne se preoccupe pas de ces coefficients et il est licite d'ecrire, a n grand fixe :
102
Pratique du calcul bayesien
La loi generalisee des valeurs extremes postule que le maximum normalise Zn converge en loi vers la v. a. r. Z de fonction de repartition G (eq, 6.1) lorsque n tend vers l'infini. La v. a. r. Zest donc bien une valeur extreme. Le signe du parametre de forme ~ (prononcer xi) est capital. - Si ~ > 0, la loi de la valeur extreme Z est un membre de la famine des lois de Frechei (lois a queue lourde). - Si ~ < 0, la loi de la valeur extreme Z est un membre de la famine des lois de Weibull (lois bornees superieurement, donc sans queue). - Le cas ~ == 0 doit etre interprets comme la limite du modele (eq. 6.1) lorsque ~ ---+ 0, ce qui conduit a la famine des lois de Gumbel. Proposition 6.1 La limite du modele (eq. 6.1) lorsque ~ ---+ 0 conduit a la famille des lois de Gumbel definies sur ffi. par la fonction de repartition suivante G (ZIJLl a) = exp (- exp ( _ z:
A partir de [eq.
(6.5)
6.1), en raison de la condition (eq. 6.2) on a
M)-l/e
Z
(
JL) )
1+~-a-
(1 (
Z
M))
=exp -~ln l+~-a-
Le passage it la limite conduit it une indetermination (0/0) levee en appliquant la reqle de l'Hospital
. 1 (
M) = = -M -
Z lim - In 1 + ~-a
e~o~
Z -
a
Par consequent lim
e~o
M) -lie
1 + ~-a Z -
(
== exp
(z - M) --a
ce qui enirainc le resuliai (eq. 6.5). En pratique, le statisticien bayesien pose le modele (6.1) et c'est la distribution a posteriori de parametre ~ qui lui revele le domaine d'attraction de l'observable. La fonction de densite de probabilite du modele GEV s'obtient en differenciant (6.1) par rapport a Z :
(6.6)
6. Les modeles GEV et POT
6.2.1
103
La valeur de projet
La modelisation des valeurs extremes est du plus grand interet pour les sciences appliquees, notamment pour dimensionner les ouvrages de protection (digues, reseaux devacuat.ion des eaux de ruissellement, barrieres antiavalanche, etc.). En general, les dommages seront une fonction croissante de la difference positive entre I'intensite de I'evenement redoute et le niveau de protection. On appelle valeur de projet la valeur zp qui ala probabilite p d'etrc depassee
p == Pr (Z
> zplB)
(6.7)
La quantite T == »:' definit la periode de retour de l'evenement Z > zp. Elle est nommee ainsi car elle represente l'intervalle de temps moyen, par exemple en annees calendaires, separant deux occurrences successives de cet evenement. Ainsi, un evenement de periode de retour de T annees a la probabilite p == T- 1 de survenir chaque annee, Posons Xp
= -In (1 -
p)
~~
si p est petit
(6.8)
En general, la probabilite pest fixce par le decideur qui veut, par exemple, se proteger contre une crue qui revient tous les 100 ans, c'est-a-dirc qui a la probabilite p == 0.01 de se produire chaque annee, On deduit la valeur de projet zp associee a p en distinguant le cas OU ~ i=- 0 du cas OU ~ == o. Apres quelques manipulations elernentaires, on trouve :
a ==> zp = fJ, ~ ~ (1 - X;~)
o =?
zp
== J-L -
a
In x p
(6.9)
(6.10)
Dans un repere cartesien, les couples (zp, -In x p) dessinent une droite si ~ < 0 (Weibull) ou concave si ~ > 0 (Frechet) 7 . On peut en effet montrer que Ie ratio
~
== 0 (Gumbel), une courbe convexe si ZlO-3 -
zlO-2
zlO-2 -
ZlO-l
c'est-a-dire, Ie rapport de l'accroissement des quantiles du centenal au millenal sur l'accroissement des quantiles du decennal au centenal, est plus grand que 1 (comportement explosif si ~ > 0) tandis que les accroissements relatifs entre chaque ordre de grandeur de la periode de retour decroissent (atteinte d'une borne sup si ~ < 0). 7 Si l'axe des abscisses est en coordonnee logarithmique, on arrive aux memes conclusions avec les couples (zp, xp).
104
Pratique du calcu l bayesien
C>
'
LO
2
M
Q)
Vl
'"c: C
Q)
C>
M
::; 8
~
LO
N
Q)
c
Q)
8
sc.
C>
N
c;; Q
~
~
12
13
14
15
16
17
18
19
va leu r d e p rojet
Figur e 6.1 - Graphe des niveaux de retour.
Ce graphe (fig. 6.1) appele gmph e des niveaux de retour perm et une est imation pon ctuelle des parametres /1 et (1 . En efIet , une regression lineaire de Z p sur X p , don e un modele qui postule ~ = 0, fournit une est imation pon ctu elle du couple (0-, {L) . Cette estimation est d 'au tant meilleur e que Ie nuage de points montre une direction bien marquee. Une seconde est imat ion ponctu elle, independante de la forme du graph e, est obtenue en maximi san t la log-vraisemblance via une methode numerique . Celle-ci fournit un triplet {} = ({L ,0-, pouvant servir de point de depart it l'inference bayesienne it par-
€)
tir d'un algorithme de Metropolis-Hastings (chap . 4).
6.2.2
Sensihilite du modele GEV aux hypotheses
Le modele GEV postule que les observations element aires, X, : t ETc Z, sont ii d sur toute la periode d'interet . Celle-ci est divisee en blocs d'egale longueur (genera lement l'annee) , c'est-a-dire que chaque bloc cont ient Ie meme nombre d'observations elementaires n. Si nest assez gra nd (par exemple n = 365), Ie maximum observe sur chaque bloc peu t etre vu comme Ie resultat d 'un tirage aleatoire dans la loi GEV (approximation asymptot ique) . L'independance des observation s elementaires ent raine l'independ an ce des maxim a. Par consequent , la vrais emb lan ce d 'un e chronique de k maxim a est simplement Ie produit des densites GEV en chaque poin t. Que se passe-t-il si les observat ions elementaires ne sont pas independantes et identiquement distribuees ? Dans les applications pra tiques, cette hypo-
6. Les modeles GEV et POT
105
these fondatrice du modele GEV est rarement respectee, Par exemple, les precipitations journalieres montrent souvent une dependance a court terme et aussi un effet saisonnier. Selon (Coles, 2001), c'est l'independance des maxima Zl,'" ,Zk,'" qui compte. Les praticiens appliquent ce modele et verifient a posteriori l'hypothese iid des maxima. De plus, dans un contexte decisionnel, on a grand interet a disposer d'un echantillon de maxima observes de bonne taille, surtout dans le cas d'un prior non informatif (peu ou pas d'expertise sur le phcnomene etudie). Par consequent, si les maxima sont dependants, l'information apportee par I'echantillon en main est moindre, parfois bien moindre. La modelisation des extremes dependants exige des modeles plus complexes (voir p. ex. (Leadbetter, 1983)). Cela depasse le cadre de ce livre.
6.3
Le modele POT
Definir une valeur extreme comme une observation qui depasse un seuil fixe assez haut est une idee tres naturelle. Bien sur, quand on considere une longue chronique du signal d'interet, le nombre de valeurs extremes depend du seuil choisi. La distribution des depassements du seuil tend vers une loi limite connue sous le nom de loi de Pareto qeneralisee ou modele GPD (generalized Pareto distribution). Pour que cette approximation asymptotique tienne, il faut que Ie seuil soit choisi assez haut. D'un autre cote, plus le seuil est bas, plus on dispose de donnees extremes et plus on reduit l'incertitude par ignorance. Un compromis doit etre fait.
Exemple 6.1 La figure 6.2 montre la lame d'eau joumaliere a Uccle (Belgique) entre le 1er janvier 1880 et le 31 decembre 2002 (donnees fournies gracieusement par l'Institut royal meteorologique de Belgique (IRM) que nous remercions). Sur cette pcriode de 123 ans, il y a 273 depassernents du seuil c == 23 mm contre 123 maxima annuels. •
106
Pratique du calcul bayesien
70
E
~ ~
:~
60 50
rn
E [ 40 ::>
'" Q)
'0
30
Q)
E
..'3
20 10
90
00
10
20
30
40
50
60
70
80
90
00
10
Figure 6.2 - Chronique de la lame d'eau journa liere a Uccle (Belgique). Source : IR M.
6.3.1
La distribution de Pareto generalisee
On s' inte resse a la probabil ite qu 'une var iable aleatoire elementaire qu elconque, X , de fonction de repartition F , depasse un certain niveau y > 0 qu and on sai t qu 'elle depasse Ie seuil c fixe P r (X> y
+ clX > c) =
1 -F (y + c) 1 _ F (c)
(6.11)
On sait qu e la dist ribu t ion du maximum des observat ions element aires te nd asy mptotiquement vers la dist ribution GEV (eq. 6.4). En prenan t Ie logari thme des deux membres, on obtient :
-nln F(z)~ (l +~( z:JL)) -l/e Si la valeur zest suffisamment grande , F (z) est pro che de l'unite et I'approximation -lnF (z):::: 1- F( z) conduit au resultat suivan t :
1- F (z) :::: ~ (1 + ~ ( z
iT
JL) ) - li e
(6.12)
Si cette rela tion t ient pour un seuil c > 0 suffisamment hau t , elle tiendra aussi pour tout niveau qui Ie depasse, par exemple Ie niveau y + c.
6. Les modeles GEV et POT
107
Remarque 6.2 On a fait implicitement l'hypothese que le parametre () (/-L, a,~) est invariant, du moins quand le seuil c est fixe suffisamment haute Des lors, en injectant l'approximation (eq. 6.12) dans I'identite (6.11) on trouve ~ )-1:~ (6.13) Pr (X > y + clX > c) c:::' 1 + :
(
ou on a pose (6.14) La condition
1+
~y > 0 TJ
resulte des hypotheses sur le modele GEV. La probabilite complementaire conduit
a la distribution de Pareto genera-
lisee Pr(X::; y+c!X
> c) c:::' 1-
( 1+
~) -1/~
-:;/
==
GPD(yIC,TJ,~)
(6.15)
Sa densite suit (6.16)
Le choix du seuil est capital Si Ie seuil c est fixe trop bas, l'approximation asymptotique (eq. 6.15) ne tient pas. S'il est fixe trop haut, l'approximation sera bien verifiee mais on aura peu de donnees pour I'infcrence. L'idee est done de ehoisir le seuille plus bas qui rencontre ces deux exigences. Pour ce faire, on peut montrer que la moyenne arithmetique des dcpasscments, soit y (c), croit lineairement avec le seuil c tant que l'approximation asymptotique tient. Le seuil ideal, Co, est done la valeur de c qui debute la partie lineaire (voir fig. 6.12). Par hypothese, les parametres ~ et TJ de la loi de Pareto generalises sont invariants si le seuil c est convenablement choisi. Bien sur, le nombre de depassements varie en raison inverse du seuil et avec lui l'information disponible pour inferer ces parametres. En d'autres mots, le seuil etant convenablement choisi, il ne faut pas confondre l'invariance theorique des parametres de la loi de Pareto generalises avec la connaissance que l'on en a, laquelle varie en raison inverse du seuil.
Remarque 6.3 II existe des situations OU Ie parametrc de forme varie meme quand le seuil est convenablement choisi. Dans un tel cas, ce sont les enjeux qui doivent guider l'attitude de l'analyste. En effet, l'etude de la variabilite du pararnetre de forme avec des seuils au-dessus de la limite acceptable (approximation asymptotique) se heurte a l'information disponible.
108
Pratique du calcul bayesien
6.3.2
Le modele POT
Pour des processus de base tres generaux OU l'on peut raisonnablement postuler l'independance des valeurs extremes, on peut demontrer (Pickands, 1975) que le comportement limite de k depassements du seuil c > 0 sur une periode L donnee constitue un processus de Poisson marque et que les marques sont distribuecs selon la loi de Pareto qeneralisee (eq. 6.15). Dans la litterature scientifique, ce modele est connu sous le nom de modele POT. Sur une fenetre de longueur L, le nombre de depassements du seuil c est une v. a. discrete distribuee selon une loi de Poisson de parametre ,,\ == f (c) :
[kl"\, L]
== exp (-"\L)
("\L)k
k!
(6.17)
Fonction de repartition de I'Intensite maximale Sur la fenetre d'interet, de longueur L, l'intensite maximale du phenomene etudie, par exemple la lame d'eau journaliere, est une v. a. r. Z telle que Z == U + c OU U est la v. a. r. maximale des depasscmcnts du seuil c. U == max {Yk }
,
k == 0,1,···
(6.18)
Bien sur, on ignore le nombre k de depassements et on ne peut donc exclure le cas OU il n'y en a aucun (k == 0), evenement qui arrive avec la probabilite exp (-"\L). La fonction de repartition du maximum des depassements est obtenue en sommant la repartition conjointe sur toutes les valeurs possibles de k : 00
Pr(U::; u)
==
LPr(U::; ulk)Pr(K
==
kl"\,L)
(6.19)
k=O
Tenant compte de la loi de Poisson et de la loi de Pareto generalisee, on trouve:
[ (
~) -1/~]
Pr (U < u) = exp ->..L 1 + .:
(6.20)
La fonction de repartition de l'intensite maximale correspondante suit immcdlatement : Z =
6.4
U + c =} Pr (Z
< z) =
exp [->..L (1
+ ~z ~ c) -liE]
(6.21)
Du modele POT au modele GEV
La ressemblance des modeles (eq. 6.1) et (6.21) est frappante. En fait, la fonction de repartition de l'intensite maximale sur une fenetre unitaire (L == 1)
6. Les modeles GEV et POT
109
est eiroitement rcliee a la fonction de repartition du maximum des valeurs elementaires sur cette meme periodc. En posant L == 1, la relation (eq. 6.21) s'ecrit :
Pr (Z
< z) =
~ ~ c) -1/ E]
exp [_ A ( 1 + z
(6.22)
L'experience montre qu'un reparametrage des deux modeles facilite les demonstrations et l'ecriture des programmes informatiques. Plus important encore, un tel reparametrage permet de simplifier l'echantillonnage de Gibbs dans le cas du modele POT (Parent et Bernier, 2003). Pour bien distinguer les developpements, nous affecterons les parametres du modele GEV de l'indice o.
Po == a-I> 0,
f30 == -Po~o,
P ==
1]-1
> 0, f3 ==
-P~
(6.23)
Le seuil c etant convenablement fixe, les modeles POT (eq. 6.22) et GEV (eq. 6.1) deviennent respectivement
< zl,8, A, p) =
POT:
Pr (Z
GEV:
Pr (Z ::::; zl,8o, u, Po)
exp
[-A (1 - ,8 (z - c))P/,6]
= exp
[- (1 - ,80 (z - J-t))p0/,6o]
(6.24) (6.25)
La similitude des deux modeles est evidente, Avec ce reparametrage, les familles des lois de Frechet, Gumbel et Weibull correspondent respectivement a (3 < 0, (3 == 0 et (3 > O. Remarque 6.4 La loi du maximum selon le modele POT differe de la loi du maximum selon le modele GEV. - La variable GEV a une limite inferieure necessaire pour que Pr (Z ~ z) soit definie quand (3 < 0 (Frechet) : Z
> Zmin == J-l + /30- 1
Cette limite inferieure tend vers -00 dans le cas Gumbel. Au-dela de cette limite technique, la v. a. r. Z peut prendre n'importe quelle valeur superieurc. - Dans le cas du modele POT, la loi du maximum est une distribution censuree dans le sens OU elle depend d'un seuil c. Au-dela de ce seuil, les observations sont marquees (depassetnents), en deca de ce seuil, les observations n'interviennent que par le processus de Poisson Pr(X ~ ciA, L == 1) == exp (-A)
110
Pratique du calcul bayesien
Cependant pour les grandes valeurs de Z, au-dela de seuils c realistes, les deux modelcs devront donner des calculs de Pr(Z > c) tres voisins pour autant que les observations, differcntes dans chaque cas, et la validite des hypotheses le permettent. II ne faut pas oublier qu'en fonction de l'information disponible les estimations des parametres f3 et P de la distribution de Pareto generalisee peuvent varier selon le seuil. Cependant, leur homogeneite theorique est essentielle comme on I' a vu dans la discussion sur le choix du seuil. Par consequent, on peut aussi obtenir la valeur de projet a partir d'un modele POT. A partir du modele POT (eq. 6.24) et de la definition d'un quantile d'ordre 1 - p on obtient successivement :
1 - p = Pr (Z
< zp1(3, .A, p) =
exp [-
>. (1 - (3 (zp - c))P/ 13]
1( (1
zp=c+j3 1- ->:In(l-p)
)(3/P)
(6.26)
Avec le parametrage initial, compte tenu de la relation (eq. 6.8), on a aussi
(6.27) On comparera ce resultat avec la relation (eq. 6.9) rappelee ei-dessous
6.5
Inference bayesienne sur les parametres d 'un modele G EV
Le processus stochastique a temps discret est divise en k blocs generant une scrie de maxima Zl,'" ,Zk. Puisque les populations sous-jacentes sont independantes (hypothese iid), ces maxima le sont aussi et, pourvu que la taille des blocs soit assez grande, on peut considerer qu'ils sont identiquement distribues selon le modele GEV.
6.5.1
La distribution conjointe a posteriori
Le modele GEV (eq, 6.25) est done caracterise par Ie parametre () == (!3o, f-L, Po) et Ia densite de probabilite eorrespondante s'ecrit
[zIB] == Po (1 - f30 (z - f-L) ou Po E
lRt, !3o
E
v:
lR o, f-L E lR et f30 (z - f-L) < 1.
(30-
1
G (zIB)
(6.28)
6. Les modeles GEV et POT
111
L'hypothese iid entraine la vraisemblance d'un k echantillon de maxima:
[Zl,· .. ,zkIB]
=
P~
IT {[1 - f30 (Zi - JL)]pol/10-1 G (ziI B) } k
i=l
Pour le prior, on postulera l'independance des composantes du vecteur 0
et un prior non informatif simple a la forme suivante : 1 [fL] [Po] ex Po Pour le construire, nous avons pris 130 et u uniformes sur un domaine assez grand. Pour le parametrc d'echelle Po > 0, le prior habituel est une distribution gamma dont les parametres tendent vers zero
[0]
== [130]
[pola, b] ex
pg- 1 exp (-bpo)
---t
1 Po
-
a,b---+O
L'application de la regle de Bayes nous donne le posterior non normalise
[Blz1, ... ,Zk] ex p~-l
IT {[1 - f30 (Zi - JL )]pol k
/10-
1
G (Zi IB) }
(6.29)
i=l
La normalisation par calcul integral n'est pas possible et aucune conditionnelle n'est standard. L'inference peut se faire via un algorithme de MetropolisHastings.
6.5.2
Algorithme MH sequentiel applique au modele GEV
II sera commode de poser
f (f3o, JL, Po)
=
p~-l
II {[1 - f30 (Zi k
JL)]p01/10-1 G (ziIB)}
i=l
Puisque Po > 0, l'algorithme MH est plus facile changement de parametre suivant
a mettre en oeuvre avec le
¢ == In Po {:} Po == e ¢ La transformation logarithmique donne
In f (f3o, JL, Po)
= (k - 1) ¢ + (;: - 1)
t
In [1 - f30 (Zi - JL)]
k
- L [1- f30 (Zi - JLW'"I/1o ou
i=l
130 (Zi - fL)
< 1;
i == 1, . . . ,k
112
Pratique du calcul bayesien
L'algorithme Soit une marche aleatoire realisee dans JR3
(138,JLo,¢0) .
a partir d'un point
initial
()o ==
Pour loi instrumentale, nous avons choisi le produit de trois densites normales unidimensionnelles independantes :
130
r-v
dnorm (13~-l,vf3o);
JL*
r-;»
dnorm (JLi-1,vM)
;
¢* r-v dnorm (¢i-l,V<jJ)
ou les variances instrumentales v<jJ, vf30 et vM reglent la force des sauts respectifs. Soit ()i-l == (13~-1, JL i-1, ¢i-l) la valeur du triplet a l'iteration i-I. A l'iteration i on realise les trois sequences suivantes : 1. (13~-l,JLi-l,¢*) ~ (13~-l,JLi-l,¢i);
130 (Zt - JLi-l) < 1, (130' JL i- 1, ¢i) ~ (13b, JL i-1, ¢i) ; sous la condition 13b (Zt - JL*) < 1, (13b, JL*, ¢i) ~ (13b, JL i , ¢i) == ()i
2. sous la condition 3.
La rapidite de la convergence depend du choix du point initial et du choix des variances instrumentales. Notons enfin que disposant des parametres ¢ et 13o, il est facile de retourner aux parametres initiaux a et ~ : (6.30)
Reglage de la loi instrumentale normale unidimensionnelle II est judicieux de choisir un point initial qui favorise une convergence rapide de la marche aleatoire, Une estimation ponctuelle de () permet de fixer les ordres de grandeur. Pour chaque parametre, la force des sauts aleatoires est reglee par la variance de la loi normale. Certains auteurs, notamment (Gelman et al., 1995a), proposent de juger la performance d'un algorithme MH en regardant le taux d'acceptation des candidats. Avec une loi instrumentale unidimensionnelle, ce taux devrait etre de l'ordre de 0.44. II semble judicieux de se fonder sur ce critere pour regler les variances.
6.6
Inference bayesienne sur les parametres d'un modele POT
Soit un processus stochastique a temps discret {Xt } et soit un seuil c > 0 fixe. On s'interesse aux depassements du seuil. Leur nombre est distribue selon une loi de Poisson. Pourvu que le seuil soit choisi assez haut, les depasscrnents sont iid selon une loi de Pareto generalisee (eq. 6.16). Avec le nouveau parametrage, la densite au depasscmcnt Yt s'ecrit (6.31)
6. Les modeles GEV et POT
113
et verifie les conditions (3 E lRo, P > 0, Vt: 1 - (3Yt
6.6.1
>0
(6.32)
Distribution conjointe a posteriori et inference
Le respect de la condition (eq. 6.32) fait que la densite (6.31) peut se mettre sous la forme suivante
[Yt 17],,8]
=
p exp ((p - ,8)
~ In (1 -
,8Yt))
Le seuil c etant convenablement fixe, la vraisemblance d'un k echantillon iid de depassements s'ecrit (6.33) ou on a pose
S (,8)
1
= fJ I: In (1 - ,8Yt) k
(6.34)
t=l
Conditionnellement au parametre (3, la condition est equivalente A (6.35) Soit K la variable aleatoire discrete nombre de depassements sur une fenetre de longueur L. Les hypotheses d'independance permettent d'ecrire la vraisemblance totale k
[Y1
== ui.:': ,Yk ==
Yk, K == k] == [K == k]
II [yt == Yt] t=l
c'est-A-dire
(AL)k k [Yl,··· ,Yk,kIA,p,(3,L] ==exp(-AL)~p exp{(p-(3)S((3)}
(6.36)
Bien que le seuil c n'apparaisse pas dans le conditionnement, il ne faut pas oublier que le parametre de Poisson, A, qui represente la valeur attendue du nombre de depassements sur une fenetre unitaire, depend du seuil c. Dans la plupart des applications pratiques, on postule l'independance des parametres Un prior non informatif a la forme suivante puisque le parametre (3 est alors uniforme sur lRo : 1 [p,,8, A] ex AP
114
Pratique du calcul bayesien
La loi conjointe a posteriori suit par la regle de Bayes Ak- 1 exp (-AL) pk-l exp (pS (jJ)) exp (-jJS (jJ)) (6.37) De cette loi conjointe on peut tirer quelques proprictes intercssantes. - Pour le parametre de Poisson, A, on reconnait la signature fonctionnelle d'une distribution gamma de parametre de forme k (nombre de depassements observes) et de parametre d'echelle L (longueur de la fenetre). Ce parametre est independant des parametres jJ et p et la loi marginale est donc confondue avec la conditionnelle complete
[A, p, jJIYl,'" ,Yk, k, L]
0:.
Alk, L
r-;»
dgamma (Alk, L)
- Pour le parametre d'echelle, p, on reconnait la signature fonctionnelle d'une distribution gamma de parametre de forme k et de parametre d'echelle -S (jJ) (eq. 6.34). pIYl,'" ,Yk, k, jJ r-;» dgamma (plk, -S (jJ)) Cette conditionnelle complete est, de fait, independante de A mais pas de jJ. Cette propriete est caracteristique du modele POT. - La conditionnelle complete de jJ s'ecrit
[jJIYl' ... ,Yk, k]
0:.
exp ((p - jJ) S (13))
La dependance de jJ avec p doit etre notce car le parametre jJ n'est pas un parametre adimensionnel puisque sa dimension est proportionnelle a celle de p par lc changement de parametre 13 == p/ ~ ou generalement le parametre de forme ~ est considere comme adimensionnel. - Enfin, un resultat complementaire utile est la forme de la distribution marginale de jJ obtenue par integration de la loi conjointe [p, jJlx, k, c, T], soit : k L exp (-jJS (jJ))
[fJIYl"",Yk, ,]ex
[(S(fJ))k
Compte tenu de ces proprietes, l'inference bayesienne peut etre entreprise de diverses facons. 1. On peut realiser une simulation directe de la distribution a posteriori via I'enchainemcnt :
[jJlx, k, c, T]
~
dgamma(plk, -S (jJ, x, c))
~
dgamma(Alk, L)
Seule la simulation initiale de jJ dont la densite n'est pas de forme analytique connue peut etre delicate. On peut soit remplacer cette distribution par une repartition discrete sur une grille de valeurs de (3, soit utiliser les methodes de particules a partir d'une loi instrumentale.
6. Les modeles GEV et POT
115
2. On peut realiser un echantillonnage de Gibbs puisque les conditionnelles completes sont connues. Notons que la simulation du parametre {3 pose les memes problemes que celIe de la distribution marginale; c'est cependant cette derniere methode que nous illustrerons ci-apres.
6.6.2
Echantillonnage de Gibbs
On a done les trois conditionnelles completes suivantes : dgamma (Alk, L)
Alk,L
dgamma (plk, -8 ({3))
pIYl,' .. ,Yk, k, {3
[{31 Yl, . . . ,Yk, k, p]
ex
exp ( (p - {3) 8 ({3) )
Les deux premieres sont des distributions standards et la troisicme peut etrc definie sur une grille de valeurs et A est indcpendant du couple (p, {3) dont les deux composantes sont, elles, evidemment liees. Disposant des parametres p et {3, il est facile de retourner aux parametres initiaux Tj et ~ : (6.38)
6.7
Trois applications numeriques reelles
Nous voulons determiner la valeur centennale : 1. du niveau journalier de la mer it Port Pirie (Australie) ; 2. de la vitesse du vent (toute direction confondue) it la station meteorologique de Tunis-Carthage (Tunisie) ; 3. de la lame d'eau journaliere it Uccle (Belgique). Pour les deux premiers exemples, nous ne disposons que des maxima annuels et nous calibrons un modele GEV. Pour le troisieme, nous pouvons calibrer un modele GEV et un modele POT et comparer la valeur centennale de la lame d'eau journaliere a Uccle puisque nous disposons des valeurs journalieres. Remarque 6.5 L'expression des modeles GEV et POT depend du parametrage choisi GEV (f-L, (J,~)
~
GEV (f-L, P == a-I, {3
POT (A, Tj,~)
~
POT (A, p ==
Tj-l,
==
-~(J-l)
{3 == _~Tj-l)
Dans les applications suivantes, l'estimation ponctuelle de leurs parametres est realises avec le parametrage initial. Comme nous l'avons dit, le second parametrage facilite l'inference bayesienne : algorithme MH pour GEV et echantillonnage de Gibbs pour POT.
116
Pratique du calcul bayesien
6.7.1
Le niveau de la mer
a Port
Pirie (Australie)
Cet exemple est t ire de (Coles, 2001). Les donnees couvrent la period e 19231987 et peuvent et re obtenues sur le site: http :/ /www.maths.bris.ac.uk;-masgc/ismev/ summary.ht ml La figure 6.3 montre Ie profil du maximum annuel et Ie gra phe des niveaux de retour. La variabilite du signal semble stationnaire et il est done raisonnable de postul er que les maxima sont ii d.
o
o
o
o
o o
cD
0°
6°
0
0:>
o
o o
00
o
o
0 <:>
00
1930
1940
0
0
00°
OO?
000
o
o o
o
1950
1960
1970
00
0
1980
1990
4.8 46
~~ 4.4 4.2
Figure 6.3 - Port Pirie : maxima annuels et graphe des niveaux de retour. Les tableaux 6.1 et 6.2 don nent respecti vement : - les esti mations ponctuelles des parametres et de la valeur cente nale ; - les reglages de la marche aleatoire et les taux d 'acceptat ion. Methode Graphique Numerique Tableau 6.1 - Por t P irie GEV .
fJ 0.2 0.2
~ 0 -0.05
/1 3.9 3.9
R2 0.99 -
ZO.O l
4.8 4.7
esti mations pon ctuelles des parametres du modele
Apr es une marche aleatoi re de N = 2000 pas, Ie tableau 6.3 donn e les inte rvalles de credibilite a 90 % obt enus en ecartant les 500 premieres valeurs . Les figures 6.4 et 6.5 montrent respect ivement Ie profil des chaines de Markov et les distributions marginales a posteriori de chacun des par ametres. On
6. Les modeles GEV et POT Reglages Point initi al Variances Taux
¢ = lnp 1
f3
117
J.L
-0.5
4.5
(0 .23)~
(1. 5) ~
(0.06)~
0.44
0.44
0.45
Tableau 6.2 - Por t Piri e .reglages des lois instrument ales.
Q 5 50 95
a 0.17 0.20 0.24
~ -0.16 -0.03 +0.15
J.L
ZO.Ol
3.83 3.87 3.91
4.5 4.7 5.1
Tableau 6.3 - Port Piri e : IC90 des parametres du modele GEV.
remarquera que ~ n'est pas significat ivement different de zero (cas Gumb el) et que l'estim ation ponctuelle de la valeur centennale du niveau journalier de la mer (~ 4 .7m) est la mediane de sa distribution marginale a posteriori .
Figure 6.4 - Port Pi rie : profils des marches aleatoires.
118
Pratique du calcul bayesien
30 ,---
--,---
----,-
-----;,------
-.----
---,--
----,-
-
-.----
---,--
----,
20 10 0.16
0 -0.3
0.26
0.28
0.2
0.3
0.3
0.32
0.4
20
15 10
0 3.78
3.8
3.94
3.96
3.98
Figure 6.5 - Port Pirie: marginales a posteriori des parametres du modele GEV .
L'annexe C fournit un code WinBUGS pour Ie modele GEV. Ce modele u'etant pas disponible dans la bib liotheque de WinBUGS, on a utilise l'astuce zero -trick (voir chap. 5). A l'exception de la conclusion sur ~ (un probleme de convergence?), son application aux donnees de Port Pirie (tableau C.1) confirme nos resultats (tableau 6.3).
6.7 .2
La vit esse du vent
a Tunis (Tunisie)
Les donnees couvrent la periode 1971-1990 et proviennent de l'etude generale pour la protection du lit toral tunisien (rapport 2, volume 1) elaboree par Ie bureau d'etude HP en 1995 et ayant pour source l'Institut national de meteorologic de Tunisie. La figure 6.6 montre le profil du maximum an nuel de la vitesse du vent (rn /s}, toute direction confondue, it Tunis-Carthage ainsi que le graphe des niveaux de retour. Bien que la taille de la chronique soit modeste (20 ans) , on peut soupconner une tendance auquel cas, ces maxima annuels ne peuvent pas et re consideres comme des tirages independants dans un e urne reglee par le modele GEV. Cependant, par commodite, nous postulerons que ces maxima sont iid.
6. Les modeles GEV et POT
22 ,---
,------
,------
,------
,------
.--0
~
~
o
3:l 18 ~
:5
0
.---
.-------
o
0
.-------, ,0
0
o
o o
00
o
16
119
o
o
o
o
11~'::70,------:-:: 19'= 72,------:-::19'::74--:-::19'=76--:-:: 19'=78--,-: 19't:80--:-:: 19'=82--:-:: 19'::84--:-:: 19'= 86--:-::19'=88--:-::'1990
26 ,---,-----~--~
_ _.---,_____~-_.-----,_
_____,
24
~ 22
:;c. 20 18
Figure 6.6 - Tunis : maxima annuels et niveaux de retour.
Le t ableau 6.4 donn e les est imations pon ctuelles des par ametres et de la valeur cente nnale. Methode Graphique Numerique
(j
1.8 2.2
~ 0 -0.3
R2
17
20 .01
0.92
17
-
25 23
fl
Tableau 6.4 - Tuni s : estimations pon ctuelles des par ametres du mod ele GEV .
Le tableau 6.5 donne les reglages de la marche aleatoire et les t aux d'acceptation. Apres une marche aleato ire de N = 2000 pas, les figur es 6.7 et 6.8 mont rent respectivement le profil des chaines de Markov et les distributions marginales a posteriori obtenues en ecartant les 500 premieres valeur s. Reglages Point initial Var iances Taux
1> 0.1
(3
(0.45)~
(0 .4) ~
( 1.3 )~
0.44
0.45
0.44
-0.2
J.l
15
Tableau 6.5 - Tuni s : reglages des lois instrument ales.
120
Pratique du calcul bayesien
.:C;;;;'~~ 1
10°
o
2
10
j
3
10
10'
10
~.~~
":r -0.5 10'
j
3
10'
3
10'
10'
10'
10
10'
10'
10
20 16
"16 14 10°
Figure 6.7 - Tunis : marches aleat oires,
0.5
0
1
1.5
2.5
3.5
4.5
5.5
1.5
0.5 0 -1.5
-1
0.5
0.6 0.6 0.4 0.2 0 15
15.5
16
16.5
17
17.5
16
16.5
19
19.5
Figure 6.8 - Tunis : marginales a posteriori des par ametres du mod ele GEV.
Le tableau 6.6 donne les intervalles de credibilite it 90 %.
6. Les modeles GEV et POT
Q
(J
5 50 95
1.7 2.3 3.2
~ -0.6 -0.2 +0.2
/-l 16 17 18
121
ZO.Ol
22 23 34
Tableau 6.6 - Tunis : IC90 des parametr es du modele GEV .
6.7.3
La lame d'eau
a Uccle (Belgique)
Nous considerons la lame d'eau journaliere'' relevee a Uccle sur la periode 1970-2002. La figure 6.9 montr e le profil du maximum annuel de la lame d'eau journaliere relevee a Uccle et le graphe des niveaux de retour. La variabilite du signal semble stationnaire et il est done raisonnable de postul er que les maxima sont ii d.
60 r---,---,---,---,---,---~------,
I
50
~ 40
~
:I:
o
o 0
o
30 00
a
o 0
o
o
o o
o
0
0°
o o
0°
o
0 00
0
0
0
1995
0 0
2000
2005
60
~ 50
::;0. 40 30
Figure 6.9 - Uccle : maxima annuels et niveaux de retour. Le t ableau 6.7 donne les estimations ponctu elles des parametres. Le tableau 6.8 donne les reglages de la marche aleatoire et les taux d'accept ation . Apres une marche aleatoire de N = 10000 pas, les figures 6.10 et 6.11 montrent respectivement le profil des chaines de Markov et les distribut ions marginales a post eriori obtenues en ecartant les 2500 premieres valeurs. Les meteorologistes releven t les pl uviomet res it 0600 T .V . et a ffecte nt la qu anti t e d 'eau relevee (mm) it la d at e du jour pr eceden t .
8
122
Pratique du calcul bayesien Methode Graphique Numerique
07.7 6.2
~
0 0.27
fl
29 28
R2 0.97 -
zom 65 85
Tableau 6.7 - Uccle : est imations pon ctu elles des para met res du modele GEV .
Reglages Point initial Vari ances Taux
¢ - 0.2
f3
-0.1
J-l
25
(0.35)~
( 3)~
(2.6 )~
0.41
0.48
0.41
Tableau 6.8 - Uccle : reglages des lois instrumentales.
-1.5
..
-21 --
-
-
-----1
-2.5 _3 '::_~~~~'::_~~~~'::_~~~~'_:_~~~---.......J
10°
a
10'
-0.1
-0.2
Figure 6.10 - Uccle : profils des marches aleatoires.
6. Les modeles GEV et POT
123
0.4 0.3 0.2 0.1 0
2
10
12
14
16
1.5
0.5 0 -0.5
1.5
0.4 0.3 0.2 0.1 0 22
24
28
30
32
34
36
Figure 6.11 - Uccle : marginales a posteriori des parametres du modele GEV.
Le tableau 6.9 donne les intervalles de credibi lite a 90%.
Q 5 50 95
(J'
4.9 6.7 9.2
~
-0.07 0.25 0.67
J-l
26.3 28.4 30.8
ZO.Ol
58 86 231
Tableau 6.9 - Uecle : Ie 90 des parametres du modele GEV .
Disposant des inforrnations journalieres entre le 01/01 /1970 et le 31/12/2002 , on peut aussi determiner la valeur de la lame d'eau journaliere eentennale a Uecle a partir d'un modele POT. On a vu plus haut une methode pour ehoisir un seuil eonvenable. En l'appliquant aux donnees d'Uecle, on obtient la figure 6.12. Le seuil de 23 mm semble convemr .
124
Prat ique du calcul bayesian
Lame d'eau a. Uccte
10.5 10 9.5
E
i ~
8.5
v
c
~
::;;
7.5
6.5
35
Figure 6.12 - Lam e d 'eau journaliere
a Uccle (Belgique)
: choix du seuil u
= 23 mm .
La figure 6.13 montr e une marche aleatoire de 5000 pas, la periode de chauffe etant const it uee des 2000 premiers. La figure 6.14 donne les distributions obtenues.
Figur e 6.13 - Lame d 'eau journaliere
a Uccle (Belgique) : echa nti llonage de Gibb s.
6. Les modeles GEV et POT
125
0.4 2.5
0.3 0.2
1.5
0.1 0.5 0 2
10
12
0.5
1.5
S
1]
1.5 0.01 0.5 0
1
1.5
zp
A
200
250
Figure 6.14 - Lame d'eau journaliere a Uccle (Belgique) : marginales a posteriori des parametres du modele POT et marginale a posteriori de la valeur centennale. Le tableau 6.10 donne les intervalles de credibilite Q 5 50 95
TJ
4.3 5.9 8.0
~ - 0.02 0.24 0.56
x 1.90 2.30 2.74
a 90%.
ZO.Ol
60
87 192
Tableau 6.10 - Uccle : IC90 des parametres du modele POT. On remarque que l'intervalle de cred ibilite a 90 % de la valeur de la lame d 'eau journaliere centennale obtenu via le modele POT (tableau 6.10) est indus da ns celui obtenu via le modele GEV (tableau 6.9) .
Epilogue La deman de de protection de la societe face aux evenernents extremes, par nature incert ains et souvent tres dommageables, est legitime. Que les ingenieurs tentent d'y repondre au mieux est une obligation deontologique rationnellement fondee , Refuser d'appliquer le concept de probabilite aux evenements exceptionnels, c'est se condamner a ne rien faire. En revanche, la conception bayesienne de la probabilite a - avec les Laplace , Borel, de Finetti, Savage et bien d'autres - pro duit des outils statistiques qui approchent rationnellement l'incertain, meme lorsque l'evenernent est rare.
126
Pratique du calcul bayesien
C'est ainsi que trois exemples numeriques nous ont permis de montrer qu'un algorithme de Metropolis-Hastings sequentiel est relativement facile a mettre en ceuvre pour determiner la valeur de projet a partir d'un modele GEV. Une estimation ponctuelle des parametres est certainement tres utile pour initier la marche aleatoire, De meme, un taux d'acceptation des candidats de l'ordre de 45 % permet de regler les variances de la loi normale unidimensionnelle choisie comme loi instrumentale. Les donnees journalieres pour la lame d'eau a Uccle (mises gracieusement a notre disposition par l'Institut royal meteorologique de Belgique que nous remercions) nous ont permis de calibrer un modele POT, via un cchantillonnage de Gibbs, et de comparer la valeur centennale, ainsi obtenue, avec celIe deduite d'un modele GEV calibre sur la meme periodc (1970-2002). Un simple graphique « seuil versus moyenne des depassements », comme celui de la figure 6.12, permet d'orienter le choix du seuil qui reste malgre tout une operation delicate. Dans le doute, remonter un peu le seuil est certainement une bonne idee. Enfin, les modeles GEV et POT sont fondes sur l'hypothese que le processus stochastique a temps discret sous-jacent est constitue de populations iid. C'est une hypothese forte et critiquable dans bon nombre de situations reelles ou les effets saisonniers sont difficilement contestables. Ainsi, la lame d'eau journaliere a Uccle depend de la carte du temps et, en situation cyclonique, les jours pluvieux se suivent. Tant que le processus stochastique sous-jacent est stationnaire, les modeles GEV et POT sont relativement peu sensibles a la dependance des populations elementaires, Pour les processus non stationnaires, une modelisation hierarchique s'impose, modelisation dans laquelle Ie modele GEV (ou le modele POT) constituerait une couche. Cela depassc le cadre de cet ouvrage. Enfin pour Ie lecteur plus familier de considerations mathomatiques, l'annexe a ce chapitre montre comment la theorie des processus de Poisson marques donne un cadre mathematique unique a tous ces modeles dextremes et permet d'en construire des extensions utiles, telle la loi des fuites. On y trouvera aussi dans cette annexe des astuces pour I'implementation des modeles d'cxtremcs sous WinBUGS. Le paradigme bayesian permet d'encoder le savoir de l'expert dans le prior. Par expert nous entendons une personne physique ou morale, qualifiee pour emettre des avis sur la problematiquc en cours. Son savoir est son etat de connaissance a un moment donne. II peut done evoluer, L'idee centrale est que l'expert parie plus volontiers sur certaines valeurs du parametre que sur d'autres. Dans cette optique, I'cquiprobabilite traduit l'absence d'un savoir et Le prior est dit «non informatif ». Pour l'analyste, il s'agit de traduire les paris de l'expert dans une distribution de probabilite dans laquelle l'expert se reconnait. L'elicitation du prior est donc une tache delicate, mais importante, que nous abordons dans le prochain chapitre.
Chapitre 7
Construire le prior : de I'astuce mathematique au dialogue avec I'expert Prologue On appelle expertise le savoir deja connu en dehors des informations apportees par les resultats experimentaux. Les experts detiennent ce savoir en tout ou en partie. Le modellsateur veut utiliser ce savoir pour construire une distribution a priori sur les parametres du modele de connaissance en main. Parce qu'ils sont experts, on s'attend a ce que ces gens chevronnes parient volontiers sur les memes plages de valeurs. Reconnaltre la qualification de l'expert, c'est prendre acte que ces paris ne sont pas arbitraires et des methodes ont ete developpees pour les traduire du mieux possible sous la forme d'une distribution de probabilite, Dans ce chapitre, nous en exposons quelques-unes.
7.1
Introduction
Sans entrer dans les developpements philosophiques sur le sujet, il est utile de preciser quelques aspects de la portee et des limites de la notion de prior dans la mise en ceuvre de la regle de Bayes :
.
. . [0 I ] - modelisation des 0 bservables [y I0] x prior [0] y 1· . r [ 10] [O]dO norma isation Je y
jugement a posteriori
ou 8 represente l'ensemble des etats de la nature, c'est-a-dire le domaine de variation de O. Comment passer des informations a priori aux lois a priori? Cette question fondamentale et legitime a constitue longtemps la pierre d'achoppement entre
128
Pratique du calcul bayesien
l'ecole classique et l'ecole bayesienne (voir les propos critiques de Renyi, p. 17). Effectivement, le statisticien classique pose le principe que seules les donnees doivent etre utilisees pour l'inference sur le parametre B. C'est-a-dire qu'il utilise l'information y pour ameliorer sa connaissance de B, souvent pour estimer un evenement futur dont les chances de survenance dependent de B. Or il faut bien reconnaitre que la pratique va a l'encontre de ce point de vue. Ainsi, Ie chef de projet, qui a deja mene plusieurs chantiers de construction sur des terrains varies, ne se fie pas aveuglement aux seules analyses de resistance du sol pour edifier les fondations d'un nouvel immeuble. Le chimiste qui etudie les proprietes d'une nouvelle molecule s'appuie autant sur les nouveaux tests experimentaux que sur son experience passec des caracteristiques de la famille de cette molecule, etc. Le paradigme classique refute l'introduction de l'expertise au nom d'une pretendue objectivite necessaire a la procedure d'inference sur le parametre B. En fait, la subjectivite est inevitable dans la modelisation probabiliste, depuis la selection des variables surveillees jusqu'aux conclusions-recommandations en passant par le choix du modele de connaissance. La demarche scientifique ne consiste donc pas a nier la subjectivite mais bien a la controler. A contrario, la theorie bayesienne de la decision statistique a developpe un cadre formel pour traduire de facon quantitative l'expertise via des distributions probabilite a priori ou priors. Fondamentalement, il s'agit d'affecter des indices de credibilite aux elements de l'ensemble des valeurs possibles du paramctre B. Nous empruntons a l'anglais Ie terme elicitation pour designer cette tache du modelisateur. Dans ce chapitre, nous presentons une synthese des methodes permettant de coder l'information a priori entrant dans la regie de Bayes. Le lecteur interesse lira avec profit le chapitre 2 de (Parent et Bernier, 2007) et le chapitre 3 de (Robert, 2006) dont le titre n'est rien d'autre que la question posee ci-dessus. En pratique, il y a essentiellement quatre Iacons de coder l'information a priori: 1. prendre un prior vague, c'est-A-dire non informatif; 2. choisir un prior conjugue a la vraisemblance (commodite mathematique] ; 3. pro ceder par analogie, c'est-a-dirc que le prior pour le probleme en main est le posterior d'une ou plusieurs situations analogues; 4. la methode par introspections successives fondee sur la notion de loterie. Passons brievement ces quatre methodes en revue en rappelant qu'un parametre est souvent multidimensionnel : B == (B 1 , · · · ,Bd ) E 8. Par abus de langage, on parlera des parametres.
7.1.1
Prior non informatif
Au chapitre 4, nous avons vu un moyen pour construire un prior non informatif : c' est le prior de Jeffrey fonde sur la quantite d'information de Fisher
7. Construire Ie prior
129
(voir p. 58). En resume, un prior non informatif pour un parametre de localisation, une moyenne par exemple, pose l'equiprobabilite de toutes les valeurs possibles. Un prior non informatif pour un parametre d'echelle, un ecart-type par exemple, est obtenu en posant l'equiprobabilite de toutes les valeurs de son logarithme. En d'autres mots, par prior vague ou non informatif il faut comprendre : 1. que Ie savoir de l'expert sur le probleme en main ne lui permet pas de lier les parametres d
01 1- O2
...
1- Od ==> [0 1 , ... ,Od] ==
II [OJ]
(7.1)
j=l
2. que toutes les plages de valeurs de OJ 1 sont, aux yeux de l'expert, equiprobables, c'est-a-dire qu'il ne pariera pas davantage sur une valeur que sur une autre. C'est cette equiprobabilite qui traduit son ignorance et./ou sa prudence.
Remarque 7.1 Un prior non informatif ne signifie pas que l'on ne sait absolument rien sur la distribution statistique du parametre, En effet, on connait au moins son domaine de variation, c'cst-a-dire l'ensemble des etats de la nature, 8, et le role de chaque composante du pararnetre sur les observables (parametre de localisation, d'echelle, etc.). C'est pourquoi certains auteurs preferent parler de prior vague ou peu informatif. Complement sur les distributions a priori non informatives L'equiprobabilite traduit la symctrie, l'ignorance ou la prudence.
Exemple 7.1 La symetrie d'un de ordinaire implique d'accorder une chance egale a chacune de ses six faces. L'ignorance d'une eventuelle saison des amours suppose que tous les jours de l'annee sont equiprobables en tant que date de naissance (probleme archi connu des anniversaires). La prudence incite de considerer que le patient a une chance sur deux d'etre porteur du virus de l'hepatite B et done de prendre les precautions d'usage. • La difficulte commence des que l'on veut appliquer ces concepts au cas OU le parametre du modele, 0, est reel ou est un vecteur de parametres continuo En effet, l'equiprobabilite ne peut etre appliquee qu'a des classes de valeurs de o (par exemple des intervalles) telles que l'expert considere que les valeurs qui y sont incluses sont pour lui equivalentes, L'extension au cas continu depend alors de la nature du modele en jeu et de ses parametres (Bernier et al., 2000) (chap. 7, p. 140). Les distributions non informatives sont souvent impropres ou degenerees car leur integration sur le domaine de () n' est pas definie (c'est-a-dire n' est 1
Ou de In OJ s'il s'agit d'un parametre dechelle.
130
Pratique du calcul bayesien
pas un nombre reel). Toutefois, introduites dans la formule de Bayes avec une vraisemblance definie, elles fournissent des distributions a posteriori propres parfaitement licites. En revanche, le facteur de Bayes qui fait intervenir la distribution predictive a posteriori n'est pas defini quand on utilise des priors impropres. Cette propriete est une pierre d'achoppement des priors impropres dans les methodes bayesiennes de selection de modeles OU intervient ce facteur de Bayes (voir 13, p. 250). Les distributions a priori non informatives sont utilisees a plusieurs reprises dans ce livre dans les cas OU les parametres ont des interpretations simples en termes de parametres de localisation ou d'echelle, Mais il existe de nombreux cas OU la recherche de transformations distribuees uniformement n'est pas si evidentc. Un certain nombre de modeles non informatifs a priori ont ete proposes, reposant sur des principes et des criteres divers. On a deja vu les priors de Jeffreys au chapitre 4. On peut citer par ailleurs et entre autres les priors localement uniformes de (Box et Tiao, 1973) et les priors dits de reference de (Bernardo et Smith, 1994). Quand le parametre du modele de connaissance est vectoriel, il semble evident qu'un prior non informatif implique I'indcpendancc de ses composantes car un expert ne va pas lier des composantes quand il ne sait rien ou pas grand-chose sur le probleme a resoudre. Cependant, s'il est vrai que cette hypothese d'indcpcndance est souvent postulee, elle peut etre mise en defaut lorsque le prior non informatif est obtenu par un raisonnement mathematique, par exemple le prior de Jeffrey. Si on considere cette hypothese a priori comme souhaitable, c'est la une difliculte de ces methodes constructives de priors.
7.1.2
La conjugaison
La forme analytique du modele dechantillonnage retenu presente des caracteristiques mathematiques que l'on s'efforce de retrouver dans la forme analytique du prior. C'est d'ailleurs pour cette raison que lc statisticien bayesien designe certains modeles en juxtaposant le nom du modele de prior au nom du modele d'echantillonnage. Ainsi il parle du modele beta-binomial, gammaPoisson, gamma-normal-normal, etc. Les parametres du prior sont appeles hyperparameites.
Exemple 7.2 Le modele gamma-normal-normal doit son nom au fait que le modele d'echantillonnage choisi est la loi normale y r-;» dnorm (yljj, T) et que Ie prior conjugue est un melange gamma-normal [jj, T] == [T] [jjIT] == dgamma (Tla, b) x dnorm (jjlm, kT) OU les hyperparametres m E JR., k > 0, a > 0 et b > 0 sont connus. On obtient des priors non informatifs en donnant des valeurs extremes aux hyperparametres du prior conjugue. Specifions le prior conjugue gamma-normal
[f.l, y] ex ya-l exp (-by) x V"bexp ( -
k;
(f.l-
m)2)
7. Construire Ie prior
131
Lorsque k, a et b tendent vers zero on a
[tt, T]
0:
~ -¢=
/1l-T {
[In T] 0: de [/1] ex cte
• 7.1.3
L'analogie
La loi de Gumbel (voir eq, 6.5 du chap. 6 avec ~ == 0) est un modele d'echantillonnage tres plausible pour le debit maximum annuel d'une rivierc. Avec un prior non informatif, la densite a posteriori de e == (/1, a) ne repose que sur l'information contenue dans I'echantillon Xl, ... ,X n de debits maximum annuels disponible pour la riviere B : [eIXI,··· ,x n ]. Cette densite a posteriori peut servir de prior pour etudier le debit maximum annuel, y, de la riviere A, mais sous la condition que ces deux riviercs se ressemblent grace a un meme parametre e:
(7.2) Si l'analyste accorde moins de confiance aux donnees provenant des observations realisees sur la riviere B, il augmentera quelque peu la variance du posterior obtenu sur la rivierc B avant de s'en servir comme prior pour la riviere A. Cette analogie peut etre etendue a plusieurs rivieres de regimes voisins. Le concept dechangoabilite, defini dans (Parent et Bernier, 2007), generalise ce procede de recours aux voisins pour tirer parti de ressemblances.
Remarque 7.2 II va de soi qu'un meme jeu de donnees ne peut pas servir a la fois dans la vraisemblance et pour construire le prior. En effet, ce serait alors la meme source d'information qui alimenterait les deux composantes de la regle de Bayes, ce qui est contraire a son principe fondamental.
7.1.4
La methode par introspections successives
La construction d'un prior par introspections successives a deja ete abordee dans le chapitre 1 quand nous avons presente la roue de la fortune. En pratique, l'expert parie sur des valeurs de qui ont un sens pour lui : la moyenne, la mcdiane, un quartile, des deciles, etc. Ensuite, le statisticien tente de caler une distribution standard sur lc modele d'elicitation que constituent ces valeurs phares ou d'en deduire un prior conjugue a partir de la connaissance de certains quantiles ou de leurs ecarts. Cela est l'objet principal de ce chapitre.
e
132
Pratique du calcul bayesien
7.1.5
L'incertitude n'est pas l'ignorance et la subjectivite n'est pas I'absurdite
Quelle que soit la methode utilisee, il ne faut jamais oublier que le prior est propre a l'expert. Bien sur, il faut s'entendre sur la notion d'expert. Pensons, par exemple, a l'evaluation du prix d'une ceuvre d'art chez Drouot. Ainsi, Claude Monet, Chemin boise, effet de neige, est une huile sur toile de 58 x 63 cm realises vers 1869. Le 18 decembre 2006, les experts estimaient son prix de vente entre huit cent mille et un million d'euros. Cette fourchette n'est pas choquante et s'interprete comme une zone de paris gagnants pour l'expert. II est expert justement parce que, la plupart du temps, il gagne ses paris. Cela dit, on s'interrogerait certainement sur les capacites d'un expert qui regulierement annoncerait des prix dix fois moindre ou dix fois superieurs a ceux de ses collegues. Maintenant, imaginons que ce tableau soit effectivement vendu dix fois le prix annonce. Serait-ce disqualifiant pour les experts ? Non, si cette situation est l'exception plutot que la regle. Ce serait simplement une nouvelle donnee qui, a l'avenir, aurait son poids. Au Cafe du commerce, il est possible de rencontrer des gens qui cmettent des avis sur tout avec un certain aplomb. A l'occasion, ils peuvent avoir raison comme, par ailleurs, de veritables experts peuvent se tromper lourdement. La certitude ignorante s'oppose a l'incertitude reflcchie et c'est cette derniere qui caracterise un expert. Il va de soi que, dans l'esprit du statisticien bayesien,
l'expert est qualifie pour donner un avis pertinent sur la problenuiiique en cours.
7.2
Definition constructive d'une probabilite subjective
Considerons un parametre () incertain appartenant
a un ensemble referential
8. La demarche constructive demande de representor l'incertitude de l'expert sur e par une distribution de probabilite a priori. Comment l'evaluer ?
e
L'idee generale est de presenter des valeurs ponctuelles de a l'expert et, pour chacune d'entre elles, de lui demander les chances qu'illui accorde (voir chap. 1, p. 9). II est important de comprendre que ces valeurs ponctuelles sont judicieusement choisies en ce sens qu'elles « parlent » a l'expert. Approfondissons cette idee generale. On sait que toute methode de mesure suppose la comparaison avec un etalon, telle une longueur comparee avec un metre etalon, L'etalon de l'incertitude de l'expert sur lc parametre e est une serie de loteries. On peut se les representer comme des tirages dans des urnes bicolores, Up, contenant des boules blanches et noires, la proportion, p, de boules blanches etant fixee dans chaque urne. En d'autres mots, la probabilite d'obtenir une boule blanche quand on realise des tirages aleatoires (avec remise) dans l'urne Up est connue et toujours egale a p. Soit eo une valeur particuliere du parametre incertain e.
7. Construire Ie prior
133
Supposons que l'on offre a l'expert le choix entre deux decisions: == participer a une lot erie qui lui donne C EUR si 0 :s; 00 , et 0 EUR si
- al
0> 00 ; == participer a la lot erie etalon Up avec le gain C EUR si la boule tiree
- a2
est blanche, et le gain 0 EUR si cette boule est noire. Bien entendu, nous postulons que l'expert privilegie la loterie gagnante. Par definition, la probabilite qu'il accorde a la valeur 00 est egale a la proportion p de l'urne Up pour laquelle son choix est indifferent entre les deux decisions al et a2. Pour arriver a cette indifference, on lui propose une serio de loteries etalons Up. Soit une premiere loterie, disons UO. 5 • Si l'expert prefere Ie pari al (respectivement a2) c'est qu'il considere Pr(O :s; ( 0 ) > p == 0.5 (resp. Pr(O :s; ( 0 ) < p == 0.5). Placons-nous dans le premier cas, c'est-a-dire que l'expert pense que les chances de la valeur 00 sont superieures a 0.5. On lui propose une nouvelle lot erie etalon, par exemple Uo.g • Ici, s'il prefere le pari a2, c'est qu'il considere que Pr (0 :s; ( 0 ) < p == 0.9. En repetant le questionnement pour differentes loteries etalons Up, on conceit qu'il existe une certaine loterie, Up*, pour laquelle les paris al et a2 sont equivalents aux yeux de l'expert. Par definition constructive, la proportion p* est la probabilite subjective que l'expert accorde a la valeur ponctuelle 00 : Pr (0 :s; ( 0 ) == p*. Cette probabilite est dite subjective parce qu'elle est propre a l'expert. Elle doit etre interpretee comme un pari de l' expert sur la valeur 00 , La grande portee de cette definition constructive est que, selon le paradigme bayesien, elle s'applique non seulement a l'elicitation des probabilites de tout parametre, mais aussi a toute decision en contexte incertain (Savage, 1954), (Raiffa et Schlaifer, 1961). Toute decision dans ce contexte, aussi complexe soit-elle, peut se decomposer en decisions elementaires simples equivalcntcs a des loteries. En resume, toute decision est une loterie. Cette methode exige le respect de plusieurs principes de rationalite, dont la transitivite des decisions et leur independance a l'egard de l'enjeu des loteries. 1. La transitivite des decisions signifie : si je prejere la decision al a la decision a2 quand p == 0.5, alors je dois encore prejerer la decision al a la decision a2 quand p == 0.4. 2. L'indifference entre les choix al et a2 ne doit pas dependre de l'enjeu C des loteries.
II est clair que le respect de ces conditions demande une formation et done une discussion prealable avec l'expert. Le lecteur interesse par les principes de la construction des probabilites subjectives trouvera davantage de details dans Ie chapitre 5 de (Bernier et al., 2000). D'un point de vue operationnel, la mise en ceuvre de cette procedure depend de la dimension de l'ensemble des etats de la nature, 8. Elle devient vite tres et trop complexe des que dim 8 depasse quelques unites. Neanmoins, elle peut permettre un etalonnage prealable de l'expert avant que celui-ci ne soit capable d'eliciter directement des probabilites - ou, a 1'inverse, des valeurs () de probabilites fixees comme les quantiles - par introspection directe en
134
Pratique du calcul bayesien
sautant l'intermediaire loterie. Dans de nombreux domaines, les vrais experts sont capables de telles elicitations directes ; notamment ceux qui possedent une culture probabiliste prealable, Cependant il faut prendre garde au fait, avere par de nombreux travaux de psychologie experimentale, que Ie mathematicien probabiliste et l'expert de la discipline concernee peuvent ne pas avoir la rneme interpretation concrete de la notion de probabilite, A cet egard, Palmarini a fait une presentation tres vivante des problernes poses (Palmarini, 1995). Tres succinctement, disons qu'il se peut que Ie statisticien et l'expert n'utilisent pas, initialement et sans le savoir, le memc langage. La creation d'un langage commun est donc une preparation a l'elicitation. Dans la suite de ce chapitre, nous presentons les elements de quelques methodes pratiques d'elicitation en supposant que l'expert est capable de quantifier directement quelques caracteristiques des distributions subjectives a priori des parametres des modeles en jeu.
7.3
Caler un prior beta sur deux quantiles elicites du parametre d'un modele d'observable binomial
On le sait (voir chap. 2 et annexe B), le nombre de succes obtenus dans un processus de Bernoulli est une realisation d'une variable aleatoire binomiale d'ordre n fixe et de probabilite inconnue 1r E [0,1]. Le prior conjugue est une distribution beta, tres souple, qu'on peut caler sur deux valeurs de 1r signifiantes pour l'expert. Celles-ci peuvent etre obtenues selon la methode des loteries decrite ci-dessus.
7.3.1
L'expert donne la valeur moyenne de certitude sur celle-ci
1r
et une in-
A l'issue du dialogue avec l'expert, on a obtenu une valeur particuliere de
1r que l'expert estime etre la moyenne m de B. II a aussi donne une incertitude
sur cette valeur, soit c > O. Trouver les deux hyperparametres, disons r > 0 et s > 0, de la distribution beta qui reflete ce savoir est un petit probleme de mathematique facile a resoudre. A partir des deux premiers moments d'une loi beta, on a :
r r+s
E (n)
m==--
V (1r)
kc 2
rs (r+s)2(r+s+l)
== -------,-----
(7.3) (7.4)
ou k > 0 permet de creer un lien entre l'incertitude de l'expert et l'ecart-type de la loi beta.
7. Construire Ie prior Si on voit que E (IT) (1 - E (IT)) ==
rs
(r + s)
135
2
la seconde equation devient kc 2
==
m(l-m) r
+s+1
{=}
r
+ s ==
m(l-m) kc 2
- 1>0
(7.5)
On a donc obtenu la somme r + s a partir de la connaissance de m et de c (expertise) et en fixant une valeur k (on commence par exemple avec k == 1). Bien entendu, cette somme doit etre strictement positive, c'est-a-dire que les valeurs m, c et k doivent respecter l'inegalite 7.5. Sous cette condition, les hyperparametres recherches sont
r==m(r+s),
s==(l-m)(r+s)
(7.6)
Pour terminer, on presente la densite beta ainsi obtenue a l'expert en lui demandant si elle reflete bien son savoir. S'il n'est pas tres satisfait, il faut d'abord jouer avec k et, en cas dechecs repetes, recommencer les loteries.
7.3.2
L'expert donne deux quantiles de
Par construction, on a obtenu les quantiles IT q et IT p
7f :
Avec les notations de R, pbeta est la fonction de repartition de la distribution beta. Les hyperparametres recherches sont les solutions du systeme suivant
p - pbeta (ITp , r, s) == 0 { q - pbeta (ITp , r, s) == 0
(7.7)
II faut disposer d'un solveur numerique,
Exemple 7.3 Une machine de production est en cours de reglage. Le parametre IT est la probabilite qu'une piece choisie au hasard soit conforme au cahier des charges. Selon l'operateur, il y a 95 chances sur 100 que IT excede 0.5 et 10 chances sur 100 qu'il excede 0.9. • La resolution numerique du systeme 7.7 avec p == 0.9, q == 0.05, ITp == 0.9 et ~ 7.51 et s ~ 2.62. Encore une fois, on presente ce resultat a l'expert et on remet l'ouvrage sur le metier si necessaire,
IT q == 0.5 donne r
136
Pratique du calcul bayesien
7.4
Caler un prior conjugue sur deux quantiles elicites des parametres d'un modele d'observable normal
Note 7.1 Un prior depend d'hyperparametres. Par exemple, le prior pour le parametre de localisation fL d'un modele d'observable normal, X N (fL, T), peut dependre de la precision T et s'ecrire fLIT N (m, kT). En toute rigueur, on devrait mettre les hyperparametres dans le conditionnement et done ecrirc fLIT, m, k N (m, kT). Pour allegcr les ecritures on ne le fera pas (on ne conditionne pas sur les hyperparametres). t"'V
t"'V
t"'V
7.4.1
Dialogue avec l'expert
Nous considererons ici le cas d 'un parametre () reel, interpretable dans le cadre d'un modele donne. II peut s'agir, par exemple, du parametre d'un modele d'observable exponentiel (dim () == 1) ou d'un modele d'observable normal (dim () == 2). II est evident que la difficulte augmente avec la dimension de (). En effet, prenons l'exemple d'un parametrc tridimensionnel : () == (()l, ()2, ()3). Certes on peut toujours decomposer la distribution conjointe comme suit :
(7.8) On comprend que pour l'expert, il soit plus aise de donner un avis sur un quantile marginal, par exemple la medians de (J2, que sur un quantile conditionnel, par exemple la mediane de ()2 quand il dispose de l'information ()3' Nous reviendrons bientot sur cette difficulte en illustrant la procedure avec le modele d'observable normal. En general, l'expert n'est pas convie a proceder a une introspection detaillec pour elicitor toutes les caracteristiques d'un prior. Comme indique ci-dessous, il est en effet beaucoup plus courant de lc limiter a fournir quelques valeurs typiques : mediane (J50, quartile (()75 ou (J25), decile (B go ou (JIO), etc. Ces caracteristiques peuvent suffire a caler des distributions de probabilite de forme analytique connue a un nombre de parametres indetermines pres si ce nombre est egal au nombre de caracteristiques elicitees, C'est la methode dite des quan-
tiles. Remarque 7.3 Les parametres du prior sont souvent appeles hyperparametres pour les distinguer des parametres du modele d'observable.
7.4.2
Le parametre
a eliciter est
unidimensionnel
C'est, par exemple, le parametre de localisation du modele normal de variance unitaire : E (Y) == B. Les premieres questions a poser a l'expert doivent concerner le support de B, c'est-a-dire l'etendue de l'intervalle [()min, ()sup]. Bien souvent l'expert sera
7. Construire le prior
137
dans l'incapacite d'evaluer precisement ces limites, auquel cas il est preferable d'utiliser des distributions a priori dont les bornes sont mathematiquement infinies et de lui soumettre la tache d'eliciter des quantiles, grandeurs statistiques plus aisernent interpretables. C'est le cas notamment de la mediane (}50 de (). Si meme l'intervalle [(}min, (}sup] est indeterrnine, l'expert peut etre capable de repondre a la question suivante : Quelle est pour vous la valeur M telle que Pr(() < M) == Pr((} 2:: M) ? La valeur M qu'il donne est la mediane (}50. Ensuite, on peut lui poser la question suivante : Quelle est maintenant, selon uous, la valeur Q de () telle que Pr(M ~ () ~ Q) == Pr((} 2:: Q) ? Puisque M est la mediane, Q est necessairement le troisicme quartile, c'est-a-dire (}75 == Q. En poursuivant ces questions sur des segmentations d'intervalles en probabilites egales on peut atteindre toute proximite d'un quantile (}p quelconque. Certaines de ces questions peuvent etre un controle de coherence. Ainsi apres une premiere elicitation du troisieme quartile (}75, l'expert peut etre amene a repondre a : Quelle est la valeur Q telle que Pr( Q ~ () ~ (}75) == Pr(() ~ Q) ? Si Q est differente de la mediane M trouvee precedemment, alors l'expert doit etre confronte avec cette incoherence et doit la resoudre. Si la notion de quantile devient plus precise dans l'esprit de l'expert, on peut lui demander de repondrc a des questions plus elaborees concernant des fonctions simples, comme des ecarts ou des rapports de quantiles : - Quelle est la valeur la plus probable de X90 - X50 d'une grandeur oleatoire X eiudiee ? - Quelle est la valeur la plus probable de X90 / X50 ?
!
Remarque 7.4 Si l'expert est plus familier des distributions de probabilites et de leurs caracteristiques statistiques, on peut lui demander d'exercer son introspection directe pour eliciter des statistiques plus synthetiques comme des esperanees mathematiques ou des variances de grandeurs d'interet. Nous connaissons des specialistcs de la geophysique, tres exerces en analyse des donnees de leur domaine de recherche, pour qui des statistiques comme un coefficient de variation (ecart-type exprime en unite de moyenne) ont des significations physiques parfaitement quantifiables a priori. Bref, il est possible d'obtenir de l'expert quelques valeurs typiques de (), souvent la mediane M et un quantile (}p qu'il juge avoir une probabilite de depassement egale a 1 - p. Le travail de l'expert s'arrete la et le statisticien peut alors lui soumettre un modele de distribution a deux parametres (loi normale ou loi gamma par exemple) qui pourra etre cale sur les deux informations fournies.
Calage d'un prior normal indexelicitationsuelicitation !d'un prior beta@d'un prior beta L'expert ayant fourni la mediane (}50 et un percentile (}p, le calage d'une loi normale ncccssite de determiner sa moyenne, Me, et son ecart-type, O"e > o. Cette tache est particulierement facile car
138
Pratique du calcul bayesien
!-Le
(7.9)
== B50
B
B
-
50 ae == -p - -
(7.10)
zp
OU zp designs Ie p-ieme quantile de la loi normale standard (p. ex. p == 90 zp ~ 1.28).
=}
Calage d'un prior gamma
indexelicitationsuelicitation !d'un prior gamma Note 7.2 Nous avons pris l'habitude d'ecrire la densite de probabilite gamma comme suit
[Ola, (3]
=
~:) 0
0
-
1
exp (-(30)
Ainsi, le parametre d'echelle, {3 > 0, s'exprime dans les unites inverses de la variable aleatoire B. C'est pourquoi, nous l'appelons souvent paramctre d'echelle inverse.
L'expert ayant fournit deux quantiles, Bp et Bq , le calage d'un prior gamma necessite de determiner deux parametres, a > 0 et {3 > o. Cette operation implique de connaitre le theoreme suivant.
¢/{3
Theoreme 7.1 Si ¢ rv dgamma (a, 1) alors B {3 > 0 est le parametre d' eclielle inverse.
rv
dgamma (a, {3) OU
Corollaire 7.1 Le quantile de B correspondant au quantile de ¢ est Bp == {3-1¢p OU ¢p == qgamma (p, a, 1)2. Il s 'en suit que le rapport des quantiles Bp / Bm est uulepetuiami de {3.
Le rapport Bp/B q etant connu, l'equation en a qgamma(p, a, 1) _ Bp qgamma(q, a, 1) Bq
== 0
(7.11)
est resolue graphiquement ou par un solveur numerique (on remarque que a ne depend pas des unites). Sachant la solution &, le parametre {3 suit par ~ = qgamma(p,&,
Bp
2
1) = qgamma(q,&, 1)
La fonction qgamma est disponible dans R.
Bq
(7.12)
7. Const ruire Ie prior
139
Remarque 7.5 Dans Ie cas particulier ou l'expert a donne Ie mode de 0, soit et un quantile d'ordre p, soit Op , on doit resoudre Ie systeme suivant :
Om ,
0m -{ (3 =
a -I j3
qgam~: (p,a , l)
On commence par resoudre l'equation en 0: Op
x (0: - 1) -
Om X
et pn termine par
qgamma (p , 0:, 1)
= 0 ~ 0:
0: - 1 (3 = A
Om
Exemple 7.4 Pour l'expert , la duree de vie mediane d'un compose electro• nique vaut 15 unites de temps et Ie nonanti erne percentile en vaut 25.
A partir des relation s 7.9 et 7.10, un prior normal sera localise sur /-lo = 15 avec un ecart-ty pe (TO ~ 7.80. Apart ir des relations 7.11 et 7.12 et du graphique (fig. 7.1) un prior gamma aura les param etr es suivants : 0: ~ 5.55 et (3 ~ 0.35. (0) ~ 6.8. L'esperance et l'ecart-type de 0 suivent : E (0) ~ 15.9 et
/v
0.7,-------,-
----,-
----,--
----,--
---,--
-,--
-,--
--.--
--.-----,
06 0.5
0.4
~
0.3
: : 0.2
0.1
-0. 1
Fig ure 7.1 - Det ermination graphique du par am etre de form e d 'un prior gamma .
7.4.3
Le parametre
a eliciter est bidimensionnel
indexelicitationsjelicitation !d' un prior beta@d'un prior beta
140
Pratique du calcul bayesien
Soit l'observable Y supposec distribuee selon une loi normale N(jJ;, T). On l'a deja dit, le prior conjoint peut toujours s'ecrire comme le produit d'une distribution conditionnelle par une distribution marginale : (7.13) L'elicitation d'un quantile d'une distribution conditionnelle comme [jJ;IT] est beaucoup moins aisee que l'elicitation d'un quantile d'une distribution marginale comme [jJ;]. Notons que l'expert peut n'avoir aucune raison de lier jJ; a T soit parce qu'il sait que ces deux parametres sont independants (jJ; 1- T), soit parce que son savoir est tellement reduit qu'il ne saurait defendre un lien et donc, par defaut, il postule leur independance : (7.14) - Le calage d'un modele gamma a partir de la mediane de T et d'un quantile d'ordre p signifiant pour l'expert (par exemple Q7,0.90) se fait selon la methode decrite ci-dessus. - Pour u, l'elicitation de la mediane M~ et d'un quantile Q~,p se fait sans reference a T. Ensuite, le calage d'une loi standard depend du lien entre jJ; et T. Si l'hypothese dindependance est retenue, le calage d'une loi normale sur jJ; est chose aisee. Dans le cas contraire, il s' agit de caler une loi de Student sur u selon une procedure un peu plus subtile.
Cas oft les deux parametres sont independants Exemple 7.5 En septembre 2000, une equipe de l'Institut national de la recherche agronomique (INRA) mesura la taille des juveniles des saumons sauvages sur le Scorff, une riviere de Bretagne. Des peches electriques ont permis de prelever des echantillons le long de la riviere en 38 sites regulierernent espaces, Une question concerne le differentiel de croissance des juveniles localises en 3 sites sur 38 (en amont, en aval et a proximite) d'une pisciculture industrielle. Les effluents de la pisciculture ont-ils une influence sur la taille des saumons sauvages? Si oui, de quel signe? • Pour le parametre u, lc chercheur a l'INRA s'est appuye sur les observations des 35 sites restants. Sur ces 35 jeux de donnees, il a calcule 35 moyennes empiriques. A la vue de leur histogramme, il a propose un prior normal, centre sur m == 100 cm avec un facteur d'echelle de 8 == 10 cm. Quant a la precision, les statistiques de dispersion empiriques ont conduit a une loi gamma de parametres a == 3.4 et b == 250 => E (T) ~ 10- 2 , V (T) ~ 5.44 X 10- 5 . Le prior conjoint suit :
1 (1
[jJ;, T] == - - exp ~8
--(jJ; - m) 2 28
2) x -bT a
r(a)
a-I
exp (-bT)
(7.15)
7. Construire Ie prior
141
Imaginons que l'expert ait donne Qp"O.90 == 115 cm en lieu et place de s. Les proprietes de la loi normale permettent imrnediatement de trouver la valeur s correspondante (eq. 7.10). On trouve s ~ 11.7 cm. L'hypothese d'independance entre J-L et T, effectivement commode pour l'elicitation, implique que la distribution conjointe a priori n'est pas un conjugue naturel du modele normal.
Cas oil les deux parametres sont dependants On se place dans la situation OU J-L est lie a T (modele 7.13). Le prior (conjoint) conjugue du modele normal est explicite en fonction d'hyperparametres a, b, m, k, c'est-a-dire (en utilisant les notations de R) :
T
rv
dgamma(a, b)
(7.16)
J-LIT
rv
dnorm(m, kT)
(7.17)
Pour le parametre T, il suffit de repeter la procedure suivie pour le calage d'une distribution gamma (fig. 7.1). Pour le parametre J-L, on l'a deja dit, un expert prefere parier sur des quantiles signifiants pour lui, et ceux associes a une distribution conditionnelle ne lui disent en general pas grand-chose.
Theoreme 7.2 A partir des relations 7.13, 7.16 et 7.17, la distribution marginale de J-L est une loi de Student, a v == 2a deqres de liberte, localisec sur m et de pararnetre d'echelle O"p, == Jb/ak. Corollaire 7.2 La variable oleaioire t == (J-L - m) /0" est distribuee selon une loi de Student standard,
a v == 2a
deqres de liberu:
Compte tenu de la symetrie de la loi de Student, on obtient Ie systeme suivant :
Mp, == m QI",P = m +
(7.18)
V(-;;:kTx .tmv(p, 2a)
(7.19)
OU tinv (p, 2a) donne le quantile d'ordre p d'une loi de Student standard a 2a degres de liberte. En resolvant ce systeme par rapport a m et k, on trouve
k ==
~ (tinv(p, 2a)) 2 a
Qp"p -
Mp,
(7.20)
Conditionnellement a la connaissance de a et b, il suffit donc que l'expert donne m.; et un quantile Qp"p pour calculer k. Or, dans l'exemple des saumons
142
Pratique du calcu l bayesien
sauvages du Scarff, l'expert a donne m Jl = 100 em, s Jl = 10 em et Ie calage d'un modele gamm a sur la median e et un quantile de T a donn e a = 3.4 et b = 250. Si la distribution mar ginale de fl etait normal e, on sait qu 'un ecart-ty pe au-d ela de la moyenne correspond pr atiqu ement au qua tr e-vingtqua tri eme percentile : m + S ~ QJl ,O.84 ' Mais la distribution marginale de fl est de Student , distribution qui est plus etalee que la distribution normal e. En consequence, m + S corres pond a un quanti le moindre (0.50 < p < 0.84). On est en train de caler une distribu tion sur les connaissances de I'expert et on peut decider que m + S corres pond au troi sieme quarti le de la loi de Student : QJl ,O.75 = m + s. Des lars 250 ( tinV(0.75,6.8)) 2 x ~0 .37 k= 3.4 10 La figure 7.2 montre Ie prior du chercheur de I'INRA en tro is dimensions.
8
o
6
Figure 7.2 - Represent ation du pr ior de !'expert en 3D.
Epilogue Nous avons pose et surtout rapp ele un certain nombre de prin cipes et de precaut ions a prendr e pour conduire Ie necessaire dialogue expert-statisticien dans cette tac he commune d 'elicitation. II s'agit d'obtenir de l'expert des evaluat ions quantitatives permet t ant de parier sur les valeurs possibles des inconnues, les par ametr es du modele.
7. Construire Ie prior
143
Nous avons souligne l'importance des modeles d'elicitation et des priors modelises - sans nier qu'ils peuvent etre choisis aussi pour des raisons de commodite mathematique - en considerant directement le modele probabiliste des observables. Les modeles classiques ont ete inventories en les accompagnant de techniques d'elicitation adequates comme les methodes des quantiles. Cependant, cet inventaire ne clot pas la liste des methodes disponibles. Nous avons deja parle de l'utilite a cet egard des modeles hierarchiques que nous verrons plus en details en progressant dans la lecture de la seconde partie de cet ouvrage. Les modeles hierarchiques permettent l'introduction rationnelle d'informations complementaires objectives pour quantifier les hyperparametres des priors de premier niveau qui apparaissent alors comme des parametres de niveau superieur. On pourrait dire que cette hierarchisation repousse le probleme d'elicitation des priors ace niveau superieur. Neanmoins, la sensibilite des resultats de l'analyse statistique finale aux incertitudes des priors diminue alors considerablement. Pour conclure, la panoplie des methodes pratiques delicitation est maintenant assez large pour permettre une application complete de toute la chaine des raisonnements bayesiens et en garantir l'efficacite. Avec le prochain chapitre, nous entrons formellement dans la seconde partie de cet ouvrage en traitant un probleme reel d'halieutique.
Deuxieme partie
... a la souris
Chapitre 8
Modele de capture-recapture par assemblage de modules fonctionnels binomiaux : application au cas des saumons Prologue La modelisation statistique bayesienne revient a imaginer un modele probabiliste, susceptible de reproduire les observations (chap. 1), souvent pour fournir une aide a la decision en avenir incertain (chap. 2). Ce modele est avantageusement represente par un DAG (chap. 3). D'un point de vue operationnel, il faut eliciter le prior (chap. 7) et inferer ses parametres par application de la regle de Bayes (chap. 1). La determination des distributions a posteriori peut ncccssiter un recours aux methodes de Monte-Carlo (chap. 4). C'est notamment le cas pour les modeles realistes, lesquels impliquent souvent des variables latentes (chap. 3). Leur DAG montre une structure hierarchique et modulaire. Cette modularite confere une grande souplesse au modele comme le montre ce chapitre dedie a l'evaluation des stocks de saumons.
8.1
Introduction
Le modele d'evaluation des stocks de saumons presente ici ne repose que sur des equations de bilans, des tirages binomiaux et des priors sous forme de lois beta. Le DAG est une representation conceptuelle des differents evenernents
148
Pratique du calcul bayesien
qui peuvent se produire dans une population de saumons qui remontent la rimere Scorff, utilisee comme cas ri'etudc (Parent et Prevost, 2003). Ces donnees reelles proviennent d'un projet commun entre l'Institut de recherche agronomique (INRA), le Conseil superieur de la peche, et la Federation de peche et de protection des ccosystemes aquatiques du Morbihan". Les scientifiques et les gestionnaires de la rivierc ont besoin non seulement de l'estimation de la taille de la population de saumons (la valeur la plus probable), mais aussi de l'estimation de l'incertitude la concernant (Clobert et Pradel, 1993). Trois types de quantites incertaines apparaitront dans le DAG : les observables (notees Yindice) , les variables latentes (notees Xindice) - ou variables phenomenologiques auxiliaires non observees - et les parametres (dcsignes par des lettres grecques). Les lois a priori seront construites a dire d'expert (chap. 7). Enfin, nous realiserons l'inference par echantillonnage de Gibbs (chap. 4).
Remarque 8.1 Dans un souci pcdagogique, nous faisons ici une exception a notre parti pris de depart et nous utiliserons done une lettre latine majuscule, par exemple Y, pour designer une observable ou une variable latente, et la minuscule correspondante, soit y, pour designer une valeur particuliere. On ne peut evidemment pas respecter une telle convention pour les parametres (c'est ce qui ad'ailleurs justifie notre convention initiale).
8.2 8.2.1
Presentation du probleme Les trois dernieres etapes du cycle de vie du saumon : remonter la r ivlerc, echappcr aux pecheurs a la ligne et survivre jusqu'a la saison du frai
Les saumons atlantiques (SaZmo saZar), qui reviennent adultes dans les rivieres de Bretagne (France), sont repartis en deux categories : le saumon de printemps qui a passe deux annees en mer (exceptionnellement trois) et les castillons qui reviennent dans leur riviere natale l'annee qui suit leur migration vers la mer. Les castillons constituent l'essentiel des adultes (r-v 90 %) qui reviennent dans la riviere, principalement de la fin du printemps a la premiere moitie de l'ete, Sur la riviere Scorff, un dispositif experimental de controle des migrations a ete installe, et les adultes de retour sont denombres par la technique du marquage-recapture. Le rnarquage est opere dans un dispositif de piegeage situe a l'embouchure de la riviere. L'efficacite du piege varie selon le debit de la riviere, L'etude de cas presentee ici ne traite que du retour des castillons. La figure 8.1 decrit le sort d'un saumon rentrant dans sa riviere d'origine apres 1 La collecte des informations sur le terrain a ete effectuee par les techniciens de la station experimentale du Moulin des Princes, Nicolas Jeannot et Francois Burban, aides de Jean-Yves Moelo.
8. Modele de capture-recapture: application au cas des saumons
149
son voyage dans l'Atlantique. Trois evenernents principaux peuvent arriver au candid at repro ducteur. 1.
A l'entree dans le Scorff, le saumon peut etre capture, marque et relache, C'est la premiere etape de la procedure d'estimation du stock.
2. Ensuite, une certaine quantite d 'individus - marques ou non - sera prelevee par les pecheurs a la ligne. La loi francaise exige que la prise de saumon soit officiellement declares, mais cette obligation legale n'est pas toujours respectee . Une et ude locale supp lementaire permet de completer ces renseignements. Ces deux sources permettent d'obtenir une premiere evaluation du nombre de saumons « reellement captures», et un certain nombre de saumons preleves est apporte aux techniciens de l'INRA pour identification du marquage. 3. Enfin, le poisson qui a echappe a la peche a la ligne devra survivre jusqu'a la saison de reproduction. Pendant le frai hivernal, les chercheurs se rendent sur les sites de reproduction et completent les et udes statistiques par une phase de recapture.
Environnement naturel
Non Marque recapture Y6 Marque Recapture
Y,
Pieges et Marques
Y1 x",f
Xur
Libres
Marque Vu pour sur
Marque et peche
X
..••..•..•.••..... •.••.•
(Pecheurs
COIlUO/e des Non Marque
Non Mar que Vu pour sur ~qll es
Non marque et pechex"c
Declare r
Iarque Declare
Y
3
Y~
Y4
')
;:::::.:..~ ::::::
Figure 8.1 - Le destin d 'un saumon qui revient remonter Ie Scorff.
.
150
Pratique du calcul bayesien
8.2.2
Variables observees
Les donnees du tableau 8.1 concernent six variables (en colonnes) suivies pendant six annees consccutives. Les donnees de la premiere annee (1994) sont exclues de l'etude, car elles sont significativement differentes des autres. La procedure u'etait pas completement rodee et l'efficacite du piege et la recapture au moment du frai ont ete moins bonnes. Les variables observees portent les informations suivantes : - Y1 : nombre d'individus captures, marques et relaches : - Y2 : nombre de poissons marques, peches a la ligne et rapportes par les pecheurs pour la detection du marquage; - Y 3 : idem pour les poissons non marques; - Y4 : total des poissons provenant d'observations sur les sites de peche (Y4 > Y2 + Y3 ) ; - Ys : nombre de poissons marques, recaptures pendant ou apres Ie frai ; - Y 6 : idem pour les poissons non marques.
Annee 1994 1995 1996 1997 1998
Y1 156 500 502 320 442
1999
167
Y2 3 39 25 17 50 16
Y3 14 10 8 7 5
Y4 42 75 87 33 66
4
24
Ys 4 31 45 19 56 16
Y6 14 28 14 9 13 11
Tableau 8.1 - Donnees du Scorff.
Expertise a priori sur Ie comportement du saumon
8.2.3
Des parametres techniques, inconnus, mais supposes stationnaires Des caracteristiques stochastiques regissent le comportement individuel d'un saumon. Ces quantites sont censees rester identiques d'un poisson a l'autre. Les sept parametres techniques suivants, inconnus et incertains, sont conceptuellement essentiels pour les biologistes : 1. s.: nombre de castillons qui remontent le courant; 2. () : probabilite qu'un castillon soit capture et marque, au passage du piege ; 3.
probabilite qu'un saumon non peche survive jusqu'a la periode de reproduction; Q
:
4. (3: probabilite qu'un castillon soit preleve par les pecheurs ;
5.
T : probabilite qu'un saumon peche soit enregistre comme «prise certaine » ;
8. Modele de capture-recapture: application au cas des saumons
151
6. 6 : probabilite qu'un saumon peche et enregistre soit declare et Ie marquage verifie par les techniciens; 7.
probabilite qu'un castillon soit recapture apres la periode de reproduction.
1r :
Encoder l'expertise a priori Pour le cas du Scorff, la connaissance a priori (resumee par H dans le raisonnement conditionnel) peut etre synthetisee comme suit. 1. Etant donne la taille de la riviere, les donnees anterieures sur la production juvenile dans la riviere (Bagliniere et Champigneulle, 1986) et le nombre de survivants apres le sejour en mer (Potter et Crozier, 2000), les experts sont prets a parier a 9 contre 1 que le nombre de saumons rentrant dans le Scorff, n, se situe dans l'intervalle [100,3000] avec une valeur hautement probable autour de 700 individus. 2. On ne connait guere la probabilite de capture, (), au piege place pres de l'embouchure du Scorff mais on peut imaginer une repartition symetrique avec 0.5 comme moyenne et seulement 10 % de chances pour cette probabilite d'etre infcrieure a 0.1 ou superieure a 0.9. 3. La premiere estimation du taux de survie des saumons dans la riviere, a, est superieure a 0.9. Les experts sont pratiquement surs (avec une probabilite a priori de 0.9) que ex est superieur a 0.75. 4. Le taux d'exploitation de la peche a la ligne, {3, est sans doute situe autour de 0.1- 0.3. II semble peu credible (moins de 10 % de chance) que f3 depasse 0.7. 5. La probabilite, T, qu'un saumon attrape soit reconnu par les controles locaux comme prise certaine est superieure a 0.9 et il semble hautement improbable (5 %) qu'elle soit inferieure a 0.5. 6. On sait peu de choses sur la probabilite, 6, qu'un saumon reconnu soit prcsente au controle du marquage. Une repartition symetrique avec 0.5 comme moyenne et seulement 10 % de chances d'etre inferieure a 0.1 ou superieure a 0.9 traduirait cette meconnaissance (prior plutot vague). 7. En considerant le nombre de sites etudies et les efforts de survie durant la recapture, la probabilite de recapture, 1r, est tres vraisemblablement inferieure a 0.25, peu probablement comprise entre 0.25 et 0.5 et il est presque impossible qu'elle soit superieure a 0.5.
Remarque 8.2 Dans ce qui precede, tres vraisemblablement signifie qu'il y a neuf chances contre une, presque impossible represente moins de une chance sur cent. La probabilite restante (environ 9 %) quantifie le qualificatif improbable.
152
Pratique du calcul bayesien
Construction des lois a priori
a dire d'expert
La figure 8.2 montre une loi de probabilite discrete de forme acceptable pour representer l'expertise H sur le parametre «. Cette distribution a ete obtenue par une discretisation d'une distribution gamma avec un parametre de forme egale a 2.4 et un parametre d'echelle egale a 5002 (voir chap. 7, p. 138). Cette distribution est tronquee a l'intervalle [0,4000] en raison des ressources limitees de la rivicre. Tronquer au-dela de 4000 permet aussi un calcul d'integration plus commode, mais une analyse de sensibilite montre que c'est largement justifie. Cette distribution presente un mode aux environs de f\; ~ 700 et met 90 % de la masse de probabilite dans l'intervalle [100, 3000]. (8.1)
Les six autres parametres (), Q, {3, 7, b, 7r sont des probabilites, Leur prior est donc avantageusement represente par une distribution beta sur l'intervalle reel [0.1] (voir annexe B). Pour chacun d'entre eux, il faut donc fixer deux coefficients, an et bu, de sorte que cette distribution reflete bien l'expertise. La figure 8.3 et le tableau 8.2 montrent les resultats de l'elicitation de la loi de probabilite beta(aH,b H ) pour traduire l'expertise a propos des differents parametres techniques. Cette elicitation a ete conduite a partir de techniques presentees au chapitre 7 a partir des equations 7.3 a 7.5. Comme la connaissance a priori de chaque parametrc est etablie independamment, le prior conjoint est le produit de tous les priors.
b
Interpretation Efficacite du picge Taux de survie Taux de capture Suivi sur site Suivi techniciens
7r
Taux de recapture
() Q
(3 7
Expertise H ()0.05 == 0.1; ()0.95 == 0.9 M a ~ 0.95; QO.l == 0.75 M(3 ~ 0.2; (30.9 == 0.7 M T ~ 0.9; 70.05 ~ 0.5 b O.0 5 == 0.1; bO.95 == 0.9 M 1r ~ 0.2; 7r0.99 == 1/2 [0.25 < 7r < 0.5] == 0.09 7r0.9 == 1/4
aH 1.53 10 1.3 5.5 1.53
bH 1.53 1.5 2.2 1.5 1.53
1.6
11
Tableau 8.2 - L'expertise a priori H est encodee via des distributions beta.
Remarque 8.3 L'expertise sur 1f implique quatre conditions. La determination des parametres de la loi beta implique de resoudre un probleme d'optimisation sous contraintes. 2
E (~) == 2.4 x 500.
8. Modele de capture-recapture: application au cas des saumons
X
10
153
-4
7 ['--'-'-----,---,-----,----,--
-
-r--
-
,.---
---,-
-
--,
Mode=700
6
Intervalle de credibilre a 90 %
500
1000
1500
2000
2500
3000
3500 4000 Tattle du stock '0(
Figure 8.2 - Loi a priori pour la taille du stock , parametre K .
8.2.4
Les variables latentes decrivent le phenomene biologique
Les paramet res inconnus et les variables observees ne sont pas suffisants pour decrire les peregrinations d'un saumon. Des variables non observees, mais ayant une signification physiqu e, sont alors introduites. Elles sont utiles pour aider a comprendre les etapes int ermediaires de la modelisation condit ionnelle. Evid emment , le modele doit et re complete ment defini ce qui exige que les distribution s conditionnelles des variables latentes sacha nt les par ametres et les observabl es doivent et re precisees. Les vari ables lat entes suivant es presentent un interet particuli er pour la modelisation : - X u u == saumons non captures, par consequent non marques (indice uu pour unmarked, uncaptured) ; - X m c == individus marques peches a la ligne ; - X u c == individus non marques peches a la ligne (unmarked, captured) ; - X m j == individus marqu es rest es libres pendant la period e de peche (marked, free) ; - X uj == individus non marques testes libres pendant la period e de peche ; - X m r == individus marques enregistres comme reellement at tra pes (marked, registered) ;
154
Pratique du calcul bayesien
1.5
6
2
5
1.5
4
3 2
0.5 0
0
0.5
0
0
8
0.5
0
\, 0
0.5
~
Ct.
1.5
4
1( \
3
1 2
0
0
0.5 T
0.5
2
0
0
0
0.5
8
\ 0
0.5 11
Figure 8.3 - Loi a priori pour les parametres descriptifs de comportement.
- X u r == individus non marques enregistres comme reellement attrapes ; - X m s == casiillons marques survivants jusqu'au frai ; - X u s == casiillons non marques survivants jusqu'au frai.
Certaines combinaisons de variables latentes sont importantes pour etablir les comptes-rendus des scientifiques. A titre d'exemple, scientifiques et responsab les de la peche aimeraient connaitre le champ des valeurs credibles pour X m c + X u c , nombre total de saumons attrapes par les pecheurs a la ligne. D'autre part X m s + X u s , qui represente « T'echappement », apparait comme une valeur de pour connaitre la perennite de l'et at du stock.
Le model e st a t ist iq ue sous la forme d'u n graphe a cy cli que oriente Les equations completes du modele comprennent des equations deterrninistes de bilan et des equations stochastiques de comportement binomial. Elles s'ecrivent comme suit (notation R) :
8. Modele de capture-recapture: application au cas des saumons
Y1
~ dbinom(~,
155
0)
X uu == ~ - Y1 X mc ~ dbinom(Y1 , (3), X uc ~ dbinom(Xuu, (3) Xmj == Y1 - X mc, X uj == X uu - X uc Y4 ~ dbinom(Xuc + X mc, T), X mr ~ dbinom(Xmc, T) Y4 == X ur + X mr Y2 ~ dbinom(Xmr, 6), Y3
~
(8.2)
dbinom(Xur, 6)
X ms ~ dbinom(Xmj, a), X us ~ dbinom(Xuj, a) Y5 ~ dbinom(Xms, 1r), Y6 ~ dbinom(Xus, 1r) La figure 8.4 rcprescnte toutes les quantites par des noeuds (soit stochastiques, soit deterrninistes) sur un graphe oriente d'influence, OU les fleches penetrent dans un nccud depuis les variables qui exercent une influence directe sur celui-ci. La figure 8.5 donne le graphe acyclique oriente qui correspond au graphe d'influence de la figure 8.4 en effectuant l'elimination des noeuds deterministes : seules sont conservecs les quantites aleatoires sur lesquelles portera l'inference bayesienne, Pour la commodite du dessin, on a associe les variables (X mc, X uc) en un meme noeud. Le graphe de la figure 8.5 represente le raisonnement conditionnel sur lequel le modele est fonde : les fleches du raisonnement conditionnel descendent des parametres conceptuels jusqu'aux quantites observees, Pour realiser le fonctionnement de l'inferencc bayesienne, on peut imaginer les hyperparametres des lois a priori comme des nceuds parents pour les parametres du modele. Le modele interannuel est un empilement des modeles annuels. II s'appuie sur la tres forte hypothese de stabilite des parametres, permettant une coherence interannuelle, done un transfert d'information d'annee en annee. Partageant les valeurs communes de (), Q, {3, T, 6 et tt ; Ie DAG d'un tel modele s'obtient en « empilant » une repetition de structures annuelles identiques au DAG de la figure 8.5. Cette hypothese est particulierement discutable en ce qui concerne l'efficacite de la capture () et la probabilite de recapture 1r qui peuvent certainement varier d'une annee sur l'autre en fonction du debit de la rivierc et des conditions hydrometeorologiques,
8.3
Inference bayesienne
Toutes les etapes decrites ci-apres ne sont que des applications des principes et methodes apprises dans les chapitres precedents. Cependant, il nous semble utile de les appliquer a partir du DAG et explicitant les proprietes dindependance conditionnelle et de modularite, La densite conjointe a priori des parametres s'ecrit [~, (),
Q,
{3, T, 6,1rIH]
156
Pratique du calcul bayesien
K
Effectifd l 'enlTee thJ. sco rff
®
ProbabilitedesruviE
Probabilitede recapture
D
Variable latente
o
Inlenntidiaim dlitenRiniste
Variableob,ervie Paramem.de comportement
Figure 8.4 - La vie d 'un sau mon apres sa remont ee dan s le Scarff sous la forme d'un di a gram me d ' influence.
au la
lettre H rapp elle que l'on conditi onne sur un savoir initial et des hypotheses de const ruction. On le sait , l'inferen ce bayesienn e consist e a met tre cette loi a jour en impliquant les observations disponibles :
[1",0, a , (3, T , 15, 1r1H, y] ex [yll" , 0, a, (3, T , 15, 1r]
X
[1" ,0, a , (3, T , 15, 1r1H]
ou On s'en dou t e, la septuple int egration n'est pas possible
8.3.1
«a la
plume ».
L'echant.illonnage de Gibbs divise le probleme en plusieurs sous-problemes simples
Soit un poin t initial, arbit ra irement choisi dans l'espace des par ametres. En t irant to ur a tour dans chac une des sept cond itionnelles complete s, et en repet an t ce cycle un grand nombre de fois, on peut obtenir un echa nti llon de 7-uplet s provenant de la loi a posteriori conjointe des par ametres.
8. Modele de capture-recapture : applicat ion au cas des saumons
157
ProbabiIitededirlaration
D
Yariable /mente
o
Yariableob.en'Iie Parametres de comportement
Fi gure 8.5 - La vie d 'un sa umon a pres sa rernont ee dans Ie Sca rff sous la form e d 'un DAG.
8.3.2
Dans Ie DAG, la conditionnelle complete d'un noeud impliquent seulement ses nceuds parents, ses nceuds enfants et les nceuds coparents de ses enfants
Le tableau 8.3 donne pour chaque variable d'interet de l'inference bayesienne (c'est-a-dire par ametre ou variable latente stochastique), l'ensemble des variables condit ionna ntes associees. Ce tableau se const ruit a partir de la figure 8.5 ou chaque noeud a ete relie a ses nceuds parent s, fils ou coparents de ses enfants. Dans la sect ion suivante, nous verrons que certains nceuds ont une loi conditionnelle dont la st ruct ure est connue (par conjugaison); en revanche, pour d'autres nceuds, la forme de leur conditionnelle complete ne sera pas dans la bibliotheque des dist ribut ions de probabilite standa rds et il faudra l'expliciter.
8.3.3
Actualisation bayesienne des elements d'un DAG par I'echant.illonnage de Gibbs
On remarquera que seuls les nceuds stochastiques (a l'exception des observables qui sont des nceuds terminaux) peuvent et re mis a jour par le t heoreme
158
Pratique du calcul bayesien
Nceud a mettre a jour ()
(3 T
<5 7r
0:
x.; x.; r:
x.; (Xmc,X uc]
x.; X uc
Variables impliquees n, Y1 n, Y1 , X mc, x.;
X mc, X uc, X mr, Y4 X mr, Y4 , Y2 , Y3 Xms,X us, Ys , Y6 Y1 , X mc, X uc, n, X ms, x.; Y1 , X mc, X uc, 0:, n , Ys Y1 , «, X mc, X uc, 0:, 7r, Y6 (), (3, Y1 , X us, 0:, X mc, x.: Y4 , Y2 , Y3 , T, <5, s.: x., (3, Yl,~, X us, 0:, X ms, Y4 , X mr, T (3, Y1 , X us, 0:, X ms, X mr, T (3, Yl,~, X us, 0:, Y4 , X mr, T
Tableau 8.3 - Nceuds figurant dans les conditionnelles completes. de Bayes. Les nceuds deterministes ne sont que des quantites interrnediaires (c' est-a-dire des « tiroirs » dans lesquels on range des calculs interrnediaires).
La marginalisation permet de ne pas tenir compte des variables latentes L'approche bayesienne traite les variables latentes comme les autres parametres (Tanner, 1996). Leurs distributions conditionnelles completes sont evaluces. Par consequent, l'echantillonnage de Gibbs generera un «pseudoechantillon » de
De cet echantillon, on extraira simplement les valeurs des parametres interessants (et on oubliera celles des variables latentes) afin d'obtenir un echantillon issu de (8.4) [~, (), 0:, (3, T, <5, 7rIH, y]
Les proprietes conjuguees des lois binomiales et beta rendent les mises a jour bayesiennes plus faciles Par exemple, la figure 8.6 montre que la distribution conditionnelle complete du parametre 7r - quantifiant la probabilite de recapture - depend seulement du prior et de la loi de probabilite qui relie le nceud 7r aux quantites observees Ys == Ys, Y6 == Y6· En effet, les nceuds Ys , Y6 isolent 1r du reste du monde. Les lois a priori beta ont etc calces pour tous les parametres compris entre 0 et 1 pour representer les croyances a priori sur les valeurs possibles de ces parametres. Ainsi, le prior de 7r est une loi beta de parametres an == 1.6 et bn == 11.
8. Modele de capture-recapture : application au cas des saumons
159
K
.
.... ... ..... .........
... ... ...
11! . . . ....
Figure 8.6 - Inference du parametre
tt
."
par echantillonneur de Gibbs.
Les variables aleatoires binomiales Y5, Y6 sont conditionnellement independantes sachant 7[, Leur vraisemblance conjointe s'ecrit : [Y5 ' Y6IJr , X m s , xusl
r
=r
+ I) r ( x us + 1) JrYS+ Y6 (1 - Jrt + 1) r (Y6 + I) r (x m s - Y5 + 1) r
(x m s
(Y5
m s + Xu s -YS -Y6
( x us - Y6
+ 1)
(8.5) D'apres le theorems de Bayes, la conditionnelle complete a posteriori de Jr peut s'ecrir e : [JrIY5, Y6, X m s , X us , H] ex [Y5' Y6IJr , X m s , x us] [JrIH] ex JrYs +Y6+aH-l (1 - Jrtm s+ Xu s-YS-Y6+bH-l
(8.6) (8.7)
Considerant cette expression comme une fonction de Jr, on reconnait une distribution de la meme famille que le prior , c'est-a-dire une loi beta avec des coefficients mis a jour Y5 + Y6 + a H et Xm s + Xus - Y5 - Y6 + bH. Tous les autres parametres de probabilite peuvent etre un a un facilement isoles d'un grand nombre d'autres noeuds (voir tableau 8.3). lIs obeissent a un systeme similaire de mise a jour : un prior beta donn era un posterior de meme type quand on conditionnera sur des resultats d'un tirage binomial. Pour 0: , (3, T, 0, Jr, on a choisi egalement des lois beta. Notons qu 'on dispose de generateurs aleatoires performants pour la loi beta.
e,
160
Pratique du calcul bayesien
Conditionnelles completes non explicites Note 8.1 Soit un vecteur () == (()l,· .. ,()j, . . . ,()d). On a vu que ()-j designe Ie vecteur () prive de sa composante j (voir chap. 4). La conditionnelle complete de ()j s'ecrit done [()j I() -j]. Actualisation de la taille du stock L'evaluation de la conditionnelle complete de ~ est un peu plus complexe, car la loi a priori n'est pas une distribution standard. Le tableau 8.3 nous indique que pour apprendre quelque chose sur le noeud ~ il faut prendre en compte les nceuds suivants: 0, {3, (), Y1 , X mc, X uc, X us. Toutes ces grandeurs conditionnantes sont presentes car, si on retourne a la figure 8.5, ~ est une partie des nceuds de bilan deterministe Xuuet Xuj, de telle sorte que la recherche des nceuds stochastiques descendants ne prend fin qu'avec X uc et X us, qui sont partie prenante dans l'expression de la conditionnelle complete n. Des lors, la formule de la conditionnelle complete pour r: est:
ou 4000
D~==
L
Mise a jour des variables latentes L'evaluation de la conditionnelle complete des variables latentes s'effectue selon la memo demarche. Par exemple, le tableau 8.3 nous dit que seulement ({3, Yl,~, X us, X ms, Y4, X mr, T) vont intervenir dans la conditionnelle complete du couple (X mc, X uc). Ainsi la mise a jour de X mc implique ses nceuds parents {3 et Y1 aussi bien que ses nceuds descendants X mr et X ms (via le ncoud de bilan deterrniniste X mj == Y1 - X mc) ainsi que T qui, avec X mc, est coparent de X mr. Le lecteur verifiera que l'on obtient facilement la conditionnelle complete de X mc en recherchant quels sont les morceaux de la loi jointe de (X mc, T, 0, (3, Y1 , X mr, X ms) qui dependent explicitement de X mc :
ou
8. Modele de capture-recapture: application au cas des saumons
161
Les conditionnelles completes des nceuds X ms et X mr s'ecrivent quant elles :
[xmslx ms-]
1 ( Q )xms D x m s (1 - Q) (1 - 7r) f(l
+ Xmf
1 - x ms)f(l
+ Xms -
a
Ys)
1 [f(l + Ymr - x2)f(1 + X4 - X3 - Ymr)]-l D Xm r f(l + Ymc - Ymr )f(l + Yuc - X4 + Ymr)
ou
L
Min(Ymc,X4- X3) n=Max(x4 -Yuc,X2)
8.4 8.4.1
[f(l + n - X2 )f(l + X4 - X3 - n )]-1 f(l + Ymc - y)f(l + Yuc - X4 + n)
Resultats numeriques Annee 1995
Calcul MCMC L'echantillonneur de Gibbs it ere dans les lois conditionnelles pour effectuer la mise a jour des parametres et des variables latentes selon des lois beta et des lois discretes. Trois chaines de lOs valeurs sont generees par l'algorithme de Gibbs mais seules les 5000 dernieres valeurs sont conservees, Le diagnostic de (Gelman et Rubin, 1992), fonde sur une analyse classique de variance pour comparer les variances inter- et intra-chaines est satisfait pour tous les parametres. Cependant, l'autocorrelation reste particulierement forte parmi les echantillons pour {3,7r et T, ce qui indique que l'exploration MCMC de leur domaine est lente, mais le melange correct entre les trois chaines permet de conclure qu'une exploration adequate du domaine a posteriori a ete realisee d'apres ce grand nombre d'iterations, Les estimations empiriques de probabilite donnees dans les figures 8.7 et 8.8 et l'intervalle de credibilite a 90% du tableau 8.4 proviennent directement de cet echantillonnage MCMC.
L'Inference bayesienne Un simple coup d'oeil au prior et a la probabilite a posteriori pour chacun des parametres basiques (fig. 8.7 et 8.8) montre que, pour la majorite d'entre eux, l'incertitude initiale est considerablcment reduite. L'efficacite du piege () est superieure a 0.5. Le dispositif de capture cree un fort courant qui attire les castillons de retour. La proportion prelevee par les pecheurs a la ligne est d'environ 10 %. Seuls le taux de survivants Q et l'efficacite de l'enregistrement T restent tres imprecis, La probabilite a posteriori Q est semblable a son prior.
Pratique du calcul bayesien
162
Moyenne 0.67 0.81 0.11 0.89 0.65 0.11 747 85 534
Parametre () Q
/3 7
<5 1[
f\;
Xmc+Xuc Xms+Xus
ecart-type 0.04 0.10 0.02 0.09 0.06 0.02 41 12 70
95 % quantile 0.74 0.95 0.15 0.99 0.73 0.15 816 109 640
5 % quantile 0.61 0.62 0.09 0.70 0.56 0.08 680 75 410
Tableau 8.4 - Intervalles de credibilite pour les parametres (prise en compte de la seule annee 1995).
Cela s'explique en revenant au diagramme d'influence de la figure 8.4 : aucune information en provenance de donnees n'est reliee directement a Q. Le mode a posteriori de <5 est tres different de son emplacement a priori. Cette difference revele un trait specifique du Scorff qui ne s'explique pas par l'expertise a priori ni selon les hypotheses du modele. L'emploi de l'echantillonnage de Gibbs peut aussi etre utile pour etudier la covariation entre les parametres. La matrice de correlation (tableau 8.5) montre que l'evaluation a posteriori du taux de survivants Q ne peut se faire independamment de l'information concernant I'efficacite de la recapture
1[.
Comme on
peut s'y attendre, l'influence de l'action des pechcurs /3 et la probabilite d'enregistrement 7 sont partiellement confondues : leur correlation vaut en moyenne -0.7. Elle est negative car l'essentiel de l'information est apporte par Y1 et Y4 : a Yl et Y4 connus, Yl renseigne fortement sur r: et si on fait le pari que /3 est grand, il faut alors en meme temps faire le pari que 7 est petit car E (Y4 f\; ) == /37. La relation entre () et f\; est issue de I 'hypothese binomiale E (Y11 (), f\;) == f\;(). 1
f\;
Q
/3 <5 7 1[
()
f\;
Q
1 -0.21 -0.28 0.00 -0.06 -0.15 -0.91
1 0.08 0.01 0.02 -0.67 0.19
/3
<5
7
1[
()
1 -0.01 -0.70 0.11 0.26
1 0.01 0.03 0.00
1 -0.09 0.05
1 0.14
1
Tableau 8.5 - Matrice de correlation a posteriori entre parametres (prise en compte de la seule annee 1995).
8. Modele de capture-recapture : application au cas des saumons
0.01 2 , - - - , --
-
, --
-,--
-
, - - - - , - --
, --
---,--
163
-----,
0.01
0.008
0.006
/ pos,e,io'
0.004 prior
0.002
1500
2000
2500
3500
4000
Taille du stock 1C
Figure 8.7 - Inference de la taille du stock, K, (pour l'annee 1995).
8.4.2
Cinq annees de donnees
Les figures 8.9 et 8.10 ra pportent les resultats des calculs bayesiens tenant compte des cinq dernieres annees de donnees du tableau 8.1 selon le modele interannuel. En compara nt les tableaux 8.4 et 8.6, on s'a percoit que les ecartstyp es se reduisent quand on integre plus d'information dans l'analyse. Cela est du a un effet « boule de neige » : l'in formation supplementaire est vehiculee d'une annee sur l'autre par l'mterrnediaire des par ametres communs (7r, 0, 0:, (3, T , 8) jusqu'a diminuer le domaine d'incertitude attache aux valeurs plausibles de la taille de chacun des sto cks annuels. Notons que les ecarts-types se reduisent tous quand on passe au modele sur 5 ans sauf la probabilite de recapture 7r qui, meme si elle est en moyenn e plus elevee, se retrouve bien plus mal deterrninee. L'intervalle de credibilite est d 'un e longueur deux fois plus importante et disjoint de celui obte nu en 1995. Cela est l'ind ication d'une variabilite int erannuelle de la peche de recapture qu 'on retrouve dans les faits : aux alentours de Noel, apres la periode de frai, les reproducteurs meur ent . La peche de recap ture de ces poissons moribonds s'effectue la nuit (ou l'on repere mieux a la lampe torc he le ventre des poissons epuises). Par consequent la proportion de capt ures est tres fortement influencee par la date de la peche et les condit ions hydr ometeoclimatiques (l'eau est glacee). Si le courant est fort ou
164
Pratique du calcul bayesien
10
25
20
posterior
15 10
2 prior
0
0
0.5 prior et posteriore
0 0
0
0.5 prior et posterior
0
Q.
0.5
prior et posterio r Il
25
10
20
posterior
15 10 prior
<,
0
0
0.5
prioret posterio r t
0
0
0.5 prior et posterior S
0
0
0.5
prior et posterior :t
Figure 8.8 - Inference des paramet res de comport ement (pour l'ann ee 1995).
que les techniciens interviennent trap longtemps apres le fra i, la plupart des reproducteurs sont morts et ont disparu. Le mod ele interannuel est don e peu realiste a l'egard de la non-stationn arite de ce parametre tt .
8.5 8.5 .1
Discussion Le role du prior
L'expertise a priori et to ut es les donn ees relatives au prob leme - meme si elles ne font pas partie du dispos itif experimental - fournissent une information precieuse utilisable pour reduire l'incertitude. Dans l'exemple des saumons du Scarff, la taille du stock de castillons d'annee en annee et leurs int ervalles de credibilite peuvent et re evalues en integrant a l'et ude de telles inform ations. La precision avec laqu elle est evaluee la ta ille de la population perm et d'asseoir la fiabili te du savoir scient ifique acquis ou de proposer des st rategies raisonn ables de gest ion (Seber, 1982). L'an alyse bayesienn e se presente comme un cadre de ra isonnement coherent et d 'apprentissage dans lequel des inferences ecologiques peuvent etre baties a par tir de ty pes varies d 'informations, expertises ou donnees (P unt et Hilborn , 1997). Ainsi, le parametre J fait appa raitre un confiit
8. Modele de capture-recapture: application au cas des saumons Parametre () Q
{3 T
6 Jr ~1995
~1996 ~1997 ~1998 ~1999
Moyenne 0.72 0.41 0.11 0.99 0.63 0.27 700 695 430 590 235
ecart-type 0.02 0.11 0.01 0.01 0.03 0.08 25 26 17 21 11
95
% quantile 0.76 0.58 0.13 1.00 0.68 0.32 740 740 460 625 250
5
165
% quantile 0.69 0.24 0.10 0.90 0.59 0.16 660 650 400 560 220
Tableau 8.6 - Intervalles de credibilite pour les parametres (prise en compte des cinq annees de donnees). entre le prior et la loi a posteriori. Cette discordance apporte au statisticien des elements de modification. Deux diagnostics sont possibles: (i) le prior issu des connaissances locales n'est pas representatif de la situation a la lumiere des donnees; (ii) le modele est mal determine a certains egards, Ces alternatives devront etre verifiees et pourront servir de point de depart a une analyse plus fine et plus poussce.
8.5.2
Le choix du modele
L'hypothese de stationnarite des parametres (Jr,(),Q,{3,T,6) du modele interannuel est tres discutable. On surestime sans doute la precision des estimateurs du nombre de geniteurs qui remontent la riviere. Faire l'hypothese d'un comportement interannuel stationnaire est certes commode et parcimonieux, mais c'est une simplification bien osee du monde reel. .. que nous faisons quand meme car ce modele, meme rudimentaire, apporte un grand benefice en termes de qualite de l'estimation, de comprehension des sources d'incertitudes et dinterpretation ecologique, Nous verrons dans les chapitres qui suivent des structures plus complexes, comme une construction d'effets aleatoires (voir chap. 12).
8.5.3
Confusion des effets et importance du prior
Pour sur, le modele decrit par le systeme d'equation 8.2 est surparametre puisque aucune information (a part les priors) ne permet de faire l'inference separee de Q et de Jr a partir des donnees: c'est seulement le produit Q Jr qui compte pour expliquer les donnees. Plus generalement, la matrice de variancecovariance entre les parametres permet de detecter quels parametres produisent des effets confondus, mais meme une severe confusion comme ci-dessus, n'est
166
P ratique du calcul bayesien
1200
800
1200
1000
1000 600
800 600
400
400 200 200 0 0.6
0.7
0.8
0.5
0.1
a
8 2500 2000
1200
1400
1000
1200 1000
800
1500
800
600 1000
0 0.85
600
400
500
400
200 0.9
0.95
0 0.4
0.15
~
200 0.6
0.8
S
Figure 8.9 - Lois marginales a posteriori des parametres de comportement (periode 1995-1999).
pas un pro blerne pour conduire l'inference bayesienne. La modelisation en ecologie repose d'ailleurs en equilibre inst able entre des modeles realistes mais souvent surparametres et des modeles parcimonieux trop rustiques ou avec des coefficients de reglage dont les valeurs ont ete imposees par la litterature sans possibilite de validation reelle. Dans le cadre bayesien, s'appuyer sur des priors fondes sur l'experti se du praticien fournit un moyen coherent de sortir du dilemme precedent .
Epilogue Le cas du Scorff est traite plus completernent dans l'article de (Parent et Prevost, 2003) . Ce cas illustre comment la perspective bayesienne tire parti de structures conditionnelles representees par un modele graphique (graphe acyclique oriente). La modelisation conditionnelle se deroule tres simplement apres que les variables latentes, les parametres modeles et les variables observees ont ete identifies. Ces trois elements constituants donnent beaucoup de liberte pour creer les rnode les de representation d 'un probleme reel. Les techniques d'estimations bayes iennes par MCMC (Kass et al., 1996), et particulierement
8. Modele de capture-recapture : applicat ion au cas des saumons
'200
12:00
'000
' 000
' 200
BOO
BOO
'000
...
600
600
200 0 200
j 400
600
BOO
'000
400
0 200
200 400
600
BOO
1000
K (1996}
1200
1200
1000
1000
BOO
0 200
400
600
BOO
'000
K119 9 7 )
BOO
... 600
600 40 0
200
200 400
600
IC(' OOB)
Figure 8.10 -
BOO
200
ICI1905)
0 200
'400
600
400
167
BOO
'000
0 200
400
600
BOO
' 000
K (19 S9}
Loi marginale a posteriori de la taille du stock annuel
Ii-
(periode
1995-1999).
l'echanti llonneur de Gibbs, sont les out ils appropries pour realiser l'inference avec les mode les conditionnels graphiques. Pour un praticien, il est naturel d'introduire dans Ie modele des variables qu'on peut inte rpreter, meme si elles sont cachees (variables late ntes) . L' approche bayesienne peut et re utile pour resserre r les liens entre t heoriciens et scientifiques de te rrain : la modelisat ion gra phique est un outi l de communicat ion pour discuter et se mettre d'accord sur la st ructure d' un modele.
Chapitre 9
Le modele lineaire generalise Prologue Une tache recurrente de l'activite scientifique est d'expliquer le comportement d'une variable endogene ou reponse a partir de variables exogenes ou stimuli. Le modele de regression Iineaire est certainement le plus utilise, pas toujours a bon escient. Le modele lineaire generalise, moins gourmand en hypotheses que Ie modele lineaire, postule que la reponse est un membre de la famille exponentielle des distributions statistiques a deux parametres. Le modele de regression logistique est certainement le plus connu. Nous l'appliquerons a une enquete menee aupres de 68 prothesistes dentaires appartenant a 10 entreprises differentes du Grand-Duche de Luxembourg (Marion, 2007). Nous terminerons avec le modele de Finney qui exploite la regression logistique pour evaluer les performances de melange d'insecticides (Finney, 1971).
9.1
Introduction
Quand la reponse a une serie de stimuli est une variable aleatoire reelle, il n'est pas rare que son image par une transformation adequate - eventuellement la transformation identite - puisse etre vue comme un tirage aleatoire dans une loi normale de precision invariante, et le modele de regression lineaire est alors d'application. Mais il existe de nombreux problernes OU la reponse a une serie de stimuli n'est pas reelle : une tumeur est presente ou absente; un consommateur prefere un emballage cadeau vert, rose, orange ou jaune; le nombre de jours de brouillard sur une pcriode donnee est un entier naturel. II est evident que les reponses categorielles ou discretes ne peuvent pas etre gaussiennes. II en va de memo pour les rcponses reelles intrinsequement positives etjou fortement asymetriques ou, manifestement, l'alea naturel ne peut pas etre modelise par une loi normale. Pour toutes ces situations, il faut adapter le modele Iineaire standard. Ce sont les modeles Iineaires generalises parmi lesquels on peut citer :
170
Pratique du calcul bayesicn
le modele de regression logistique, le modele de regression probit, le modele de regression de Poisson et le modele de regression gamma. La plupart de ces modeles neccssitcnt un recours it des techniques d'estimation modernes (voir chap. 4).
9.2
Retour sur Ie modele lineaire classique
Remarque 9.1 Ce modele - evoque des le chapitre 1 (p. 5) - fait partie des prerequis, Pour une approche classique, on consultera avec profit le chapitre 11 de (Lejeune, 2005) et l'ouvrage de (Cornillon et Matzner-Lober, 2007), publies dans la meme collection. Pour une approche bayesienne, nous renvoyons le lecteur interesse au chapitre 9 de notre precedent ouvrage (Bernier et al., 2000) et au chapitre 3 de (Marin et Robert, 2007). Cette section, completee par l'annexe D (p. 289), est un bref rappel de ce modele statistique parametrique tres populaire. Nous en profiterons pour distinguer l'incertitude par ignorance de l'incertitude par essence ou alea naturel. Nous terminerons cette section par deux remarques importantes. Si deux populations statistiques x et y sont liees, l'esprit humain peut se rcprescntcr ces deux populations par un nuage de points dans le plan cartesien. S'il pouvait recllcmcnt l'observer, la forme de ce nuage renseignerait it coup sur l'analyste sur la nature de la relation entre Ie stimulus x et la reponse y. Mais il n'en n'observe qu'un echantillon, c'est-a-dire un ensemble fini de couples (Xi, Yi)' Postuler une relation lineaire, c'est parier sur le fait que ce nuage de points, s'il etait observable, montrerait une direction bien marquee dans le plan cartesicn. A contrario, l'independance des deux populations statistiques peut etre figurec par un nuage de points en forme de boule. Bien sur, l'analyste qui parie sur une relation lineaire entre les populations statistiques x et Y peut perdre son pari. Nous illustrons ces propos par un exemple simple: l'age des parents des enfants actuellement it l'ecole primaire en Belgique (fig. 9.1). Nous avons simule une population de 8000 couples it partir d'un echantillon reel de 663 enfants frequent ant les ecoles primaires de la province de Luxembourg. Les couples formes par l'age de la mere et l'age du perc, ici notes (x, y), dessinent un nuage de points qui presente une direction principale bien marquee fig. 9.1.a). Le modele lineaire est une representation simplifiee, mais ici pertinente, de cette population (fig. 9.1.b). Meme si on disposait de la droite montree it la figure 9.1.b (on ne l'a jamais puisque la population est inaccessible), l'estimation de l'age d'un parent connaissant l'age de l'autre serait presque toujours entachee d'erreur (sauf pour les couples qui sont rcellcmcnt confondus avec cette droite). L'erreur commise en substituant le modele it la population est appelee « aloa naturel », souvent represente par la lettre grecque c. L'echantillon (fig. 9.1.c) est une infime partie de la population. La droite de regression calculec it partir des seules donnees rccllemcnt disponibles (15 couples extraits au hasard dans la population) est representee it la figure 9.1.d.
9. Le modele lineaire generalise
171
Elle peut etre assez eloignee du modele (fig. 9.1.b). On comprend que la qual ite essentie lle de l'echantillon est sa represeniatioite de la population sous-jacente. Un echantillon de petite taille sans biais vaut mieux qu'un echantillon de gra nde taille montrant un biais important. Bien sur, un echantillon de grande taille et sans biais est l'ideal l Malheureusement, un te l ideal a un cout difficile, voire impossible , a supporter en pratique.
60
(a) Population
60
50
50
.g 40
40
~
.0.>
Q..
0.>
30
~30
20 20 30 40 50 60 60
e 50
. 0)
Q..
.g 40
(b) Modele
(e) Eehantillon
. ;:: .
0.>
20 20 30 40 50 60 (d) Droite de regression
60 50
40 30
~30
20 20 30 40 50 60 Age de la mere
20 20 30 40 50
60
Age de la mere
Figure 9.1 - La population statistique des couples (x,y) (a) est rep resentee par un modele (b) . L'echantillon disponible (c) permet de calculer une droite de regression (d) plus ou moins proche du modele.
L'incertitude par essence decoule du fait que l'homme definit un cadre de raisonnement au sein duquel il va tenter de comprendre le phenomena d'interet . Cela etant dit, limiter son champ d'i nvestigation c'est caricaturer la realite, Une fois le cadre de raisonnement pose, l' in certitude par ignorance vient de ce que l'information disponible, expertise et donnees , est toujours limitee, Ainsi, le statisticien qui choisit un mode le d'echantillonnage caricature la rea lite et , par la, cree un alea naturel. Ensuite, l'inference statistique qui consiste a resumer la connaissance qu' il peut avoir des parametres de son modele va dependre de la quantite d'information qu'il pourra mobiliser.
Remarque 9.2 traction qui lineaire tant En d'autres au stimulus
1. La causalite existe. C'est par exemp le l'mtensite de la cause l'allongement du cable (loi de Hooke: la relation est que la traction ne depasse pas une certaine valeur critique) . termes, l'allongement du cable est la reponse du systerne «traction », La cause, ou stimulus, est placee sur l'axe des
172
Pratique du calcul bayesian abscisses et l'effet, ou reponse, sur l'axe des ordonnees. Ici les choses sont claires et ce n'est pas toujours Ie cas. Ainsi, il serait absurde de soutenir que l'agc d'un conjoint "cause" l'age de l'autre. L'allongement d 'un nuage de points (echantillon) dans une direction bien marquee nous dit seulement que les deux variables en main prescntent une certaine covariation. Dans le cas de la figure l.c, cette covariation est positive, car l'age de la mere est directement proportionnel a l'age du perc. Le choix des axes est donc ici purement arbitraire, mais les resultats qui en decoulent sont evidemment conditionnels a ce choix.
a dire sur les relations de cause a effet. II n'existe pas de test statistique permettant de prouver une relation de cause a effet. A contrario, il existe de nombreux cas OU des gens sans scrupule ou incompetents tentent de faire passer une covariation pour une relation de cause a effet. Ainsi, la covariation positive entre l'age des parents indique seulement qu'une cause commune, pas toujours aisee a identifier", decale les deux variables dans le meme sens.
2. La statistique n'a rien
9.3
Le modele lineaire generalise
Le modele Iineaire classique (LM, linear model) est un cas particulier du modele lineaire generalise (GLM, generalized linear model). L'un et l'autre ont pour but d'etablir une relation entre une reponse observee, disons Y == y, et un certain nombre de predicteurs, Xl == Xl, ... .X; == x p , le plus souvent a des fins de prevision. Pour comprendre le GLM, il n'est pas inutile de se referer au LM. Le LM voit les reponscs, Yi, comme la somme de leur valeur attendue, E (Yi) == J-Li, et d'un alea naturel, Ci, sous l'hypothese fondamentale que les n v. a. r. CI,'" ,Cn sont iid selon une loi normale, localisee sur zero et de precision invariante r (r == 1/ a 2 ) :
e,
r-;»
iid
dnorm(O,r)
(9.1)
II s' ensuit que, conditionnellement a J-Li, les reponses Yi sont independantes (il s'agit donc d'une independance conditionnelle) et distribuees selon une loi normale, localisee sur J-Li et de precision invariante r (c'est-A-dire que les reponses ne sont pas iid mais simplement i). Sous forme matricielle, Ie LM s'ecrit Y == E (Y)
+ e,
E (Y) == X(3
(9.2)
OU Yest le vecteur (n, 1) des reponses, X est la matrice (n, p) des predicteurs et (3 est le vecteur (p, 1) des coefficients de la combinaison lineaire X(3. On n'exclut pas le cas OU la premiere colonne de X est un vecteur de n valeurs 1, 1 On pourrait par exemple penser que les fiIles sont matures avant les garcons et que c'est pour cette raison qu'elles preferent un conjoint plus age.
9. Le modele lineaire generalise
173
ce qui revient a dire que le premier predicteur est une constante inconnue (Ie terme independant.). Comme tout modele, le LM a des limitations. - La reponse Y doit etre une variable aleatoire reelle (continue) ; - La normalite de la reponse et l'invariance de sa precision ne sont pas garanties. Certes, on peut essayer de transformer Y, par exemple a l'aide de la transformation de Box-Coxf, de sorte que Z == T (Y) ait une distribution normale de precision invariante. Mais il n'y a aucune raison qu'une telle transformation T existe. - Si la reponse Y est intrinsequemcnt positive, un lien fonctionnel entre sa moyenne J-l et sa precision T n'est pas rare, c'est-a-dire J-l --t 0 =} T --t 00 (pensons a une concentration en polluant). - L'additivite des effets (c'est-a-dire E (Y) == Xf3) peut etre irrealiste, Supposons, par exemple, que la reponse soit le volume utile d'un arbre sur pied, V, et que les predicteurs soient la hauteur cstimce de son tronc, H, et sa circonferencc mesuree a hauteur de poitrine, C. Personne n'ecrira E (V) == a + f3H + TC car il est clair que ces deux prcdicteurs ne s'additionnent pas mais se multiplient et on cherchera plutot une relation de la forme E (V) == >..Hf3Cr ou bien additive en logarithme.
9.3.1
Le modele lineaire generalise (GLM) repond aces limitations
Le GLM s'appuie sur une famille de modeles dont la loi normale est un cas particulier. Les hypotheses de normalite, invariance de la precision et additivite des effets sont levees et remplacees par la seule exigence suivante : la reponse - ou une transforrnee de cette reponse - notee Y est un membre de la famille exponentielle' des distributions statistiques a deux parametres (¢, 0) definie comme suit:
[yIB, ¢] = exp {
yO- b(0) a (¢)
+ c (y, ¢)
}
(9.3)
ou 1. 0 est le parametre canonique et ¢
> 0 est
le parametre d'cchelle ;
2. a (¢), b(0) et c (y, ¢) sont des fonctions specifiees verifier les conditions suivantes :
a l'avance
qui doivent
(a) la fonction a (¢) est positive et continue; le choix standard est a (¢) == ¢/w OU west un poids fixe a l'avance (par exemple w == 1), A
II s'agit de trouver A > 0 tel que x == Y .A-I ait une distribution normale. 3 A titre de contre-exemple classique, la distribution de Cauchy (rapport de deux lois dnorm (0,1) independantes qui s'identifie a une loi de Student de degre 1), qui n'admet aucun moment fini, n'est pas un membre de la famille exponentielle. 2
174
Pratique du calcul bayesien (b) la fonction b(0) est deux fois derivable et sa derivee seconde est positive (Ie graphe de b(0) a sa partie bombee tournee vers le bas), (c) la fonction c (y, ¢) est independante de O.
Ce modele s'applique aussi bien aux variables aleatoires discretes qu'aux variables aleatoires reclles. La moyenne et la variance sont respectivement donnees par
/-l == E (Y) == bl(0),
(J2
== Var (Y) == b" (B) x a (¢)
(9.4)
Remarquons que pour retrouver le modele lineaire, il suffit de prendre (en appelant X la matrice des covariables avec leur effet note ici (3) : 0 == X (3, b" == 1, donc b' ==identite et a(¢) == (J2.
Rappel. Vne fonction f peut avoir comme exposant une autre fonction g. Si f arrive dans c'est-a-dire Vx : f (x) > 0, alors on peut ecrirc :
ffi.t,
f9 == exp (g x lnf) == e9 1n j Exemple 9.1 Montrons que y exponentielle.
If
dnorm (/-l, T) est un membre de la famille
r-;»
exp (
exp { 0.5In
-~ (y -
JL)2)
;7f - 0.5T (y2 + JL2 -
exp {T (YJL - 0.5JL2) - 0.5 (Ty
2
2YJL) }
+ In ;7f) }
Pour retrouver la formulation generale 9.3, il suffit de poser
On retrouve bien la moyenne et la variance de la loi normale par 9.4 b! (B) == u;
Exemple 9.2 Montrons que y nentielle.
[yIA]
rv
b" (B) == 1
*
(J2
== l/T
dpois (A) est un membre de la famille expo-
AY exp(-A) y! exp (-A) exp (y In A) exp (-In y!) exp{ylnA - A -lny!}
Posons
a (¢) == 1,
0 == In A
*
•
b(0) == A == exp (0),
c (y, ¢) == - In y!
9. Le modele lineaire generalise
II vient
bl(B)
== exp(B) ==
J-L ==
b" (B) =*
{
175
x
a 2 ==)...
• Exemple 9.3 Montrons que y nentielle
[yl7r]
rv
== 7rY
dbern (7r) est un membre de la famille expo-
(1- 7r)l- Y, Y E {O, 1}
La meme procedure donne
[y 17r]
exp {y In 7r + (1 - y) In (1 - 7r)} exp
{y In _7r_ + In (1 1-7r
7r)}
Posons 7r
() == In - - {:} I - t:
7r
e8 == - 1 + e8
Par consequent 1 In (1 - 7r) == In - - 8 == -In (1 + e8 ) l+e
Donc on retrouve 9.3 en posant a (¢) == 1, b(B) == In (1 moyenne et la variance suivent par 9.4
+ e8 )
et c (y, ¢) == O. La
• 9.3.2
D'un point de vue pratique
II est important de retenir qu'un modele GLM verifie les deux proprietes suivantes : 1. la distribution de I'observable est cornpletement specifiee par son esperance et sa variance theorique ; 2. il y a un lien fonctionnel entre I'esperance et la ou les covariables expli-
catives.
176
Pratique du calcul bayesien
9.4
La regression logistique
La reponse est dichotomique et les stimuli sont des variables aleatoires reelles et /ou discretes,
Exemple 9.4 Les prothesistes dentaires inhalent des poussieres toxiques et, a la longue, sont susceptibles de developper differentes pathologies pulmonaires regroupees sous le nom de pneumoconiose. A chaque prothesiste, on peut associer une variable aleatoire de Bernoulli Xj qui prend la valeur 1 avec la probabilite 1rj si le sujet j montre une pneumoconiose. Sous I'hypothcse (peu realiste) que la suite Xl, ... ,X n constitue un processus de Bernoulli, le nombre de pneumoconioses dans un laboratoire d'effectif nest une variable aleatoire binomiale, disons y, de parametre 1r et d'ordre n. Si on dispose d'une enquete realises dans k laboratoires, sous l'hypothese (peu realiste) que les variables aleatoires discretes YI, ... ,Yk sont iid, elles constituent un processus binomial dont la vraisemblance s'ecrit
[YI' ... ,Yk 11r, nl, ... ,nk] ex 1r2:7=1 u. (1 -
1r
)2:7=1 (ni -Yi)
Dix laboratoires du Crand-Duche de Luxembourg (voir section suivante) donnent 16 monoconioses sur 68 prothesistes examines. Un prior non informatif est une loi beta de parametre p == q == 1/2. A posteriori, 1r rv dbeta (16.5, 52.5) et Pr (0.15 :S 1r :S 0.35) ~ 0.95 est une estimation (grossiere) de la prevalence de la pneumoconiose des prothesistes dentaires dans le pays. • Quand on dispose d'une serie cl'epreuves dichotomiques independantes, on peut vouloir expliquer la probabilite de « succes » a partir de quelques variables exogcnes.
Exemple 9.5 On peut vouloir verifier que la probabilite qu'un fumeur presente une pneumoconiose depende de la severite de son tabagisme. Ici, la probabilite de « succes » varie avec la consommation de tabac et done d'un patient a l'autre (dans ce cas, on n'a pas un processus de Bernoulli). • Exemple 9.6 Dans un vivarium, on soumet des insectes ravageurs a une meme dose de toxique durant un temps predefini, Si on prend soin de debuter l'experience avec des insectes sains et de mcme maturite, la probabilite de mort (qui depend de la dose) est la meme pour tous les individus, et c'est un processus de Bernoulli. Si on repete cette experience dans les memes conditions (nouveaux individus sains et de meme maturite, meme dose du meme toxique, meme temperature et humidite dans le vivarium), alors c'est un processus binomial. Ce n'est plus le cas si on repete l'experience en variant la dose. •
9.4.1
La transformation logit
Puisqu'une probabilite appartient a l'intervalle reel [0, 1], il faut l'envoyer dans IR si on veut la relier a une seric de variables exogenes (ou regresseurs).
9. Le modele lineaire generalise
177
Parmi les choix possibles, la transformat ion logit est un lien tres utilise (fig. 9.2) : logit (1T')
= In -1
De ] ,
1r -1r
1T'
,
E
]0, 1[
Remarque 9.3 L'image de 1T' = 0 ou 1T' = 1 par la transformation logit n' est pas un nombre reel mais ce n'est pas genant puisque cela correspond a des evenernents irrealist es en pratique.
15
10
-5
-: ------
---------
/
-10
-15
o
04
0.2
06
08
Figure 9.2 - La t ransformation logit .
On verifie sans peine que U
== In _1T'_ 1-
1T'
1T' =}
-
{
1-
1T'
exp(u) l+ exp (u )
= l+e~p(u)
On trouvera d'autr es fonctions de lien au chapitre 4 (Marin et Robert , 2007).
9.4.2
La regression logistique
A chaque individu
(indice i) de la population statistique d' interet on assode une variable aleatoire de Bertioulli; Yi, de parametr e 1T'i (pour le processus de B ernoulli et le modele binomial, voir chap. 2). Si on postul e que q stimuli « expliquent » la reponse dichotomique Yi, le modele de regression logistique voit la transformation logit de la probabilite de « succes » comme une combinaison lineaire des stimuli : (30
Yi
+ (31 X il + .. .+ (3q Xiq
dbern (1T'i)
(9.5)
178
Pratique du calcul bayesien
Un n-echantillon independant
D == {(Xi Yi) IXi E ffi5, Yi E {O, 1} , i == 1, . . . ,n} permet dinferer les parametres a et (3, par exemple via un algorithme de Metropolis-Hastings (voir chap. 4).
9.4.3
Les prothesistes dentaires seraient-ils particulierement exposes aux pneumoconioses?
L'enquete Durant Ie mois de decembre 2006, un medecin du travail a realise une enquete aupres de 68 prothesistes dentaires repartis dans 10 laboratoires grandsducaux (Marion, 2007). Finalement, l'expert a retenu 8 variables exogenes pour expliquer l'etat du prothesiste que nous appellerons Y. Y == 1 ou Y == 0 selon que le sujet montre ou non une pneumoconiose. 1. Le labo. 2. L'age (annees}, 3. Le sexe. 4. La duree de service au laboratoire (annees). 5. Le tabagisme (paqucts-annccs}. - Si on compte 20 cigarettes dans 1 paquet, m cigarettes par jour pendant t annees equivaut a m x t/20 paquets-annees, Par exemple, une consommation journaliere de 8 cigarettes pendant 12 ans est equivalente a 1 paquet par jour durant 4.8 ans ou 4.8 paquets-annees, 6. L'exposition
a l'alliage Cr-Co-Mo.
7. L'exposition au corindon (un oxyde d'aluminium utilise comme abrasif). 8. L'exposition
a la silice.
Les trois variables « exposition» sont categorielles a quatre modalitcs : - 0 == jamais expose; - 1 == expose parfois ; - 2 == expose souvent ; - 3 == expose toujours. Le tableau 9.1 montre les donnees pour les deux premiers et les deux derniers sujets.
Contraintes et selection des variables Sur base des donnees de l'enquete, le sexe est independant du Y (p == 0.36) et la duree d'exposition, c'est-a-dire l'anciennete de service, est liee a l'age du sujet (r == 0.93). Cela etant dit, sans prendre en compte les deux variables continues que sont la duree de service (variable Xl) et Ic tabagisme (variable X2), les 68 sujets se
9. Le modele lineaire generalise
Labo 9 1 3 7
179
Age 56 40
Sexe M M
Duree 40 24
Tabac 7.5 6
CrCoMo 3 1
Corin. 2 1
Silice 0 0
y
47 50
M M
29 30
3.7 1
3 2
3 0
3 0
1 0
0 1
Tableau 9.1 - Enquete aupres des laboratoires de protheses dentaires au GrandDuche de Luxembourg.
repartissent encore dans 10 x 43 X 2 etats, La plupart seront vides et il faut reduire la dimension du probleme. La variabilite interlaboratoire n'est pas prise en compte car la repartition des sujets (68) et des pneumoconioses (16) dans les 10 laboratoires est tres heterogene, Le laboratoire C presente 7 pneumoconioses (son effectif est de 16 prothesistes dont l' anciennete de service mediane est de 30 ans). Des lors les 9 laboratoires restants se partagent les 9 autres cas. La premiere idee qui vient a l'esprit est d'additionner les trois variables categoriellcs a quatre modalites, Mais il ne faut pas oublier que le codage 0 (jamais), 1 (parfois), 2 (souvent), 3 (toujours) est tout a fait arbitraire. De plus, la signification des mots « parfois » et « souvent » peut differer d'un sujet a l'autre. II faut done ici « mouiller son maillot» et fabriquer un regresseur dichotomique, certes plus rustique, mais certainement plus signifiant. Selon que la note globale est inferieure ou superieure a quatre, le sujet est faiblement (EXP == 0) ou fortement (EXP == 1) expose (tableau 9.2). Sous l'hypothese d'Independance entre EXP et Y, il y a moins de 5 chances sur 1000 de trouver un echantillon encore plus extreme (p ~ 0.004).
Y/EXP 0 1 Total
0 31 3 34
1 21 13 34
Total 52 16 68
Tableau 9.2 - Exposition globale aux poussieres toxiques et etat du patient.
Finalement, on retiendra trois variables exogenes : l'anciennete de service
(Xl, annees), le tabagisme (X2' paquets-annees) et l'exposition glob ale aux trois toxiques (X3, 0 OU 1). Le modele Le modele de regression logistique s'ecrit (Y
== y) :
180
Pratique du calcul bayesien
logit (1fi) ==
3
/30 + E
/3j Xij,
Yi
rv
dbern (1fi )
j=l
C'est un modele sans interaction entre les facteurs. Le risque relatif - pour une ancicnnete de service et un tabagisme fixes est le rapport des chances de developper une pneumoconiose selon qu'on soit expose ou non expose aux trois toxiques
La figure 9.3 montre le code WinBUGS (prior non informatif). model; { 80 - dnorm( 0.0,1.0E-6) 81 - dnorm( 0.0,1.0E-6) 82 - dnorm( 0.0,1.0E-6) 83 - dnorm( 0.0,1.0E-6) for( i in 1 : 68 ) { logit(pi[i]) <- 80 + 81 * x1 [i] + 82 * x2[i] + 83 * x3[i] y[i] - dbern(pi[i]) }
logit(Up) <- 80 + 81 * x1.star + 82 * x2.star + 83 logit(Do) <- 80 + 81 * x1.star + 82 * x2.star RR<- Up/Do }
Figure 9.3 - Code WinBUGS pour le probleme du prothesiste dentaire.
Apres 40000 iterations dont 20000 pour la periode de chauffe, on obtient le tableau suivant pour un prothesiste non fumeur (X2 == 0) ayant 10 ans de presence au labo (Xl == 10). On remarquera que l'anciennete de service (variable Xl) pourrait fort bien ne pas expliquer la pneumoconiose du prothesiste dentaire puisque zero est dans Ie ventre de la distribution marginale a posteriori du parametre B1. Les prothesistes dentaires semblent particulierement exposes aux pneumoconioses puisque Pr (RR > 21xI == 10, X2 == 0) ~ 0.9
Enfin, la probabilite 1fo de diagnostiquer une pneumoconiose chez un Luxembourgeois non fumeur, qui n'exerce pas la profession de prothesiste dentaire (Xl == 0, X2 == 0, X3 == 0) , est donnee par logit (1fo) == BO. L'intervalle de credibilite a 90 % est [0.02, 0.24] et la mediane est 0.08.
9. Le modele lineaire generalise BO -3.92 -2.45 -1.18
1090 Q5 Q50 Q95
B1 -0.07 -0.02 0.04
B2 0.00 0.08 0.17
B3 0.53 1.72 3.12
181
RR 1.5 4.1 13.9
Tableau 9.3 - Pneumoconiose du prothesiste dentaire (10 ans d'anciennete, non
fumeur).
9.4.4
Evaluation de l'action conjointe de deux produits
Le probleme conslderc ici est devaluer l'action conjointe de deux substances qui sont supposecs separement actives. II peut s'agir, par exemple, de medicaments, d'engrais ou de pesticides.
Exemple 9.7 Pour tuer un insecte ravageur on utilise soit l'insecticide A, soit l'insecticide B, soit un melange des deux produits. Le melange est compose de x unites de A additionnees a Z unites de B. Si on soumet n insectes au melange A+B pendant t heures, on observe 0 < Y < n morts. • On suppose que x unites de la seule substance A produisent le meme effet que Z unites de la seule substance B. Si, en plus, on suppose que les relations dose-effet de ces deux substances sont paralleles (fig. 9.4) alors le pouvoir relatif des deux substances est mesure par le rapport constant suivant : x
p==->O Z
Si Y est la variable aleatoire effet et si Zest la variable aleatoire dose alors ces hypotheses se traduisent par: ou f represente, par exemple, la fonction identite ou la fonction logarithme. En d'autres mots, z unites de B ont Ie meme effet que pz unites de A. Par consequent, un melange de x unites de A et de z unites de B peut etre compare avec x + pz unites de A. Soit YXA +ZB les effets du melange (p. ex. lc nombre d'insectes morts) et YXA +pZA les effets de la seule substance A : - si YXA +ZB ~ YXA +pZA alors les deux substances ont des effets simplement additifs; - si YXA +ZB > YXA +pZA alors Ie melange est une synergie; - si YXA +ZB < YXA +pZA alors le melange est antagoniste. A I'expericncc i, on melange Xi unites de A avec z, unites de B (c'est-a-dire PZi unites de A) . Un modele interessant (Finney, 1971)) est alors celui-ci :
logit (1ri) cirvN(O,T) iid
Yi
+ !Jln (Xi + PZi + ~J PXiZi) + e, Q,!3,Ii,P
Q
.L
(9.6)
182
Pratique du calcul bayesien
E~t
A B
Dose
Figure 9.4 - Les relations dose-effet des deux substances sont paralleles,
- si /'l; == 0 alors les deux substances ont des effets simplement additifs; - si /'l; > 0 alors le melange est une synergie ; - si r: < 0 alors le melange est antagoniste. Bien entendu, d'autres modeles sont possibles. Ce serait notamment le cas si l'expert disposait de connaissances particulieres sur l'action des substances. Dans le cas contraire, le modele 9.6 fournit une base raisonnable pour ce type de problema. Application phytosanitaire
Les donnees de la figure 9.5 resultent d'une experience conduite par (Giltinan et al., 1988). II s'agit cl'etudicr l'activite conjointe de deux insecticides contre la phalene verdoyante (Heliothis virescens) qui affecte les feuilles de tabac. Des etudes anterieures ont montre que les relations dose-reponse des deux insecticides, denommes A et B, sont quasi paralleles. Les melanges ont ete realises dans les proportions 0 :100, 25 :75, 50 :50, 75 :25 et 100 :0. A chaque experience, 1J.LL de produit etait directement applique sur chaque chenille. La variable d'interet est le taux de mortalite 96 heures apres le traitement.
9.4.5
Regression logistique avec Ie modele de Finney (1971)
Par commodite, on pose () == (a, (3, n, p, T). Un prior non informatif pose que tous ces parametres sont independants, Pour a et {3, il s'agit d'une constante (ou d'une loi normale, localisee sur zero et de precision quasi nulle). Pour T, un prior non informatif est son inverse (ou une loi gamma de parametre de forme et d'echelle inverse quasi nuls). Le pouvoir relatif des substances A et Best mesure par Ie parametre p > O. Une loi uniforme sur l'intervalle [0, b] avec b assez grand convient. Enfin, un prior
9. Le modele lineaire generalise
183
Experience Melanpe A (ppm) B(ppm) A+B (ppm) Tues Exposes 1B o 30.000 30.00 26 30 2 B 0 15.000 15.00 19 30 3 B 0 7.500 7.50 7 30 4 B 0 3.750 3.75 5 30 5 A25B75 6500 19.500 26.00 23 30 6 A25B75 3.250 9.750 13 00 11 30 7 A25B75 1.625 4.875 6.50 3 30 325 0 30 8 A25B75 0.813 2.438 26 00 15 30 13.000 13000 9 A50:B50 10 A50:B50 6500 6.500 13.00 5 30 11 A50 B50 3.250 3.250 6.50 4 29 12 A50:B50 1.625 1.625 3.25 0 29 2600 20 30 19 500 6.500 13 A75B25 14 A75B25 9750 3.250 13.00 13 30 15 A75:B25 4.875 1.625 6.50 6 29 2.438 0.813 3 25 0 30 16 A75B2 5 23 30 17A 30.000 0 30.00 18 A 15.000 0 1500 21 30 19 A 7.500 0 7.50 13 30 20 A 3.750 0 3.75 5 30
Figur e 9.5 - Experiences sur la chenille du tabac (Giltinan et al., 1988).
non inform atif pour le par ametre K, est aussi une loi uniforme sur l'intervalle reel [-a, a] avec a assez gra nd. Finalement , le prior conjoint non informatif se resume a
[0] 0:
1
T
Sous WinBUGS, la distribution marginale a posteriori des cinq parametres du modele 9.6 conduit aux int ervalles de credibilite montres a la figure 9.6. Le coefficient K, (kapp a) est clairement negatif (effet antagoniste du melange). Les probab ilites de mort (fig. 9.7) confirment qu 'on obtient les meilleurs rendements (elimination de l'insecte ravageur) avec les produits seuls. P ar exemple, 15 ppm de A ou de B font aussi bien que 26 ppm de melange.
Epilogue Nous avons present e le modele lineaire generalise comme une ext ension du modele lineaire. La regression logistiqu e est certainement une de ses applic at ions les plus utilisees. Nous verrons sur le cas d'etude du cha pitre 10 que d'autres exte nsions int eressant es (residus autoregressifs, erreurs dans les variables explicatives, modele probi t ordonne) se const ruisent sans peine par assemblage de modules a la maniere d'un jeu de LEGO.
Pratique du calcul bayesien
184
bela
a~h a
kappa
rho
SIgma
. ~
-2
-, -, -6
..
Coaffic"n l
Figure 9.6 - IC95 a posteriori pour les parametres du modele de Finney.
I
2.5%
97,5%
~ 50% 1
10 A
O. 0.8 01
OB 05 0.' 03 02 0' 00 17
18
13
"
14
10
20
15
Numirode l'op i rienci
Figure 9.7 - Probabilite de mort a posteriori en fonction de la concentration (ppm) et du type de melange des produits A et B.
Chapitre 10
Assembler des modules fonctionnels pour evaluer la viscosite du lait concentre , sucre Prologue L' approche bayesienne permet de concevoir la modelisation comme un jeu de LEGO, c'est-a-dire de construire un modele statistique par empilement de modules fonctionnels, ceux-ci etant utilement representee par un DAG. Au chapitre 9, les noeuds stochastiques represcntaient des tirages aleatoires dans des lois de probabilite discretes, Dans ce chapitre, nous repctons la demarche avec des noeuds marques loi normale et loi gamma, cela afin de modeliser les variations de grandeurs continues. L'exemple reel de la viscosite du lait concenire sucre (LCS) fournit un cas tres illustratif. La premiere idee est de construire une regression lineaire sur les variables explicatives. Ce premier modele, qui ne presente aucune difficulte technique d'estimation, ne peut pas nous satisfaire car le precede de fabrication introduit naturellement une dependance temporelle qu'il faut evidcmment representer. On avance done l'idee d'un modele markovien autoregressif, lui aussi tres commode sur le plan de l'inference, Mais, pour conserver l'intervention de variables exterieures, on s'appuie alors sur un modele associant a la fois la regression Iineaire et ce schema de dependance autoregressive. Ce qui est surprenant, c'est que cette structure de modele hybride ne complique pas l'inference l Bien au contraire, la technique d'inference profite de la structure conditionnelle du modele lineaire a residus autoregressifs que l'on vient de construire. L'algorithme de Gibbs it ere en effet des calculs bayesiens partiels correspondant successivement a un modele de regression lineaire
186
Pratique du calcul bayesien
pur d'une part et a un modele autoregressif simple d'autre part. Cette propriete d'assemblage est inherente a la demarche de modelisation bayesienne par conditionnements. Imaginer ensuite un schema d'erreurs sur les variables se fait sans douleur pour la modelisation et pour l'inference. De la meme facon, quand l'observation de certaines sorties du pro cede ne s'effectue plus qu'au travers de grandeurs catcgoriellcs, on peut aussi s'appuyer sur la structure explicative precedente, qui devient une couche cachee du modele. Ce chapitre s'appuie sur une scrie detudes reelles : (Girard et Parent, 2000), (Girard et Parent, 2001) et (Girard et Parent, 2004). Les observations de viscosite ou de categories de vitesse d'epaississcment du LCS proviennent d'etudes realisees chez Nestle. Pour des raisons de confidentialite, les series de variables explicatives ont ete centrees et norrnees.
10.1
Introduction
Un pro cede de fabrication agroalimentaire realise une transformation physique ou chimique des maticres premieres pour genercr un produit final. Pour piloter ses installations, l'industriel possede une connaissance empirique tres fine de ses pro cedes de fabrication sans avoir besoin de recourir a un modele statistique explicite. Ncanmoins, cette maitrise technologique peut diminuer en raison de modifications techniques importantes et un modele statistique peut alors devenir un outil precieux. Tel est Ie cas, par exemple, du precede de fabrication du lait coticenire sucre (LCS) qui est un produit phare de la societe Nestle. En effet, d'une part Ic LCS est du au fondateur de la societe, Henri Nestle (1868), d'autre part ce produit constitue toujours une image emblematique de qualite. Parmi les caracteristiques du LCS, sa viscosite interesse particulierement le consommateur car elle participe de pres a la facilite d'emploi et donc a la consommation du produit. Afin de maitriser le pro cede au niveau de la viscosite, Nestle met en oeuvre tous les moyens de mesure de la viscosite et enregistre les parametres de fabrication. Ce pro cede consiste schematiquement a chauffer et a deshydratcr le lait. Le tableau 10.1 liste les quatre variables du probleme : une variable endogene, c'est-a-dire la viscosite du LCS a expliquer, et trois variables exogenes, variables explicatives ou regresseurs.
y Xl X2 X3
viscosite du LCS quantite d'extrait sec en entree du pro cede pourcentage de matiere grasse du produit fini temperature de pasteurisation du premier traitement thermique
Tableau 10.1 - Viscosite du LCS : definition des trois variables exogenes retenues.
Les regresseurs X2 et X3 varient tout au long de l'annee et la variable X3 est commandee par I'operateur. Sa fonction est de casser les liaisons chimiques au
10. Assemblage de modules fonctionnels normaux
187
SlOCKAGE
PROCEDE Lait
..... I
CONDInONNEMENT
111 111
Concentration .. ._...........•...........•... -
_;_/
.~
Y
vlscoslte mesuree sur Iigne
Figure 10.1 - Schema de fabrication du LCS. Viscosit e y (Pa-s) Observations Tableau 10.2 - Stati stiques descrip tives de la viscosite sur une annee de product ion en uni t e de viscosit e. cours du precede de deshydrat ation et , par consequent , influence la viscosite du produit fini qui tend generalement a diminuer lorsque la te mperature augment e. La figure 10.2 illustre ces pr opos. Pour la clarte du dessin , elle ne pr esente que 150 observat ions d 'un ensemble de 454 donnees enregist rees a l'usine de Boue en 1997. Chaque point qualifie une fourn ee (batch) de fabr icat ion de 20 tonnes de produit. Le tableau 10.2 fournit les statist iques de base sur les donnees de viscosite. Le tableau 10.3 donne les spec ificat ions souhaitees (min et max ) pour cette viscosite. Dans l'industri c, on definit l'ind ice de capaciie, C p , comme le rapport ent re la gamme des specificat ions acceptab les et six fois I'ecar t-t yp e des mesures du pr oduit fabrique, La pratique industrielle admet qu 'une valeur de 1.3 pour le Cp definit la limite de l'accept ab ilite, lei , cet indi ce est bien plu s faibl e, ce qui tra duit un manque de maitri se de la gamme de variation des caracterist iques du pr oduit , meme si la moyenn e de la viscosite est bien sit uee ent re les bornes de specificat ion. 11 y a une dizain e d 'annees, la maitrise de la viscosite etait encore assuree par des operateurs et des contremaitres , specialises dans la maitrise du
188
P ratique du calcul bayesien
J~ o
:
50
(b )
: :d
100
150
J~~ :~r S?~ o
50
(c)
100
150
~~o o
50
100
150
Figure 10.2 - 150 fournees de fabrication (a : extrait sec du lait brut , b : extra it sec du produit fini , c : temperat ure de pasteurisation, d : viscosit e). Viscosite y (Pa-s) Minimum acceptable Limite haute Indice de capacite : Cp
Valeur y20 y+ 30 y + -y 6<7,
0.21
Tableau 10.3 - Specifications en unites de viscosite et indice de capacite . procede du LCS, qui, par leur experience, connaissaient empiriquement tous les fact eurs influencant la viscosite. Mais depuis quelques annees, les evolut ions technologiques du procede et le renouvellement important de la main-d 'ceuvre ent rainent une possible perte du savoir-faire et, par voie de consequence, un risqu e de moindr e maitrise du precede. Un modele peut-il aider ici ?
10.2
Construire un modele comme on joue au Lego
Nous allons pro ceder comme le ferai t peut-etre un st ati sti cien engage par une ent reprise pour lui fourni r une aide a la decision. Le statist icien arrive avec ses connaissances de modelisateur et , peti t a petit, apprend le procede de fab rication du LCS en dialoguant avec les experts de Nestle. Ces derniers
10. Assemblage de modules fonctionnels normaux
189
apprendront progressivement la manierc de penser du modelisateur de sorte que finalement ils arriveront a un modele qu'ils seront prets a dcfendre aupres du decideur. La viscosite brute en sortie du precede de fabrication du LCS est la grandeur d'interet a expliquer, encore appelee variable endogene. La premiere idee est de I'expliquer par des variables exoqenes ou predicieurs fournis par les experts de Nestle. Le modele le plus simple est la regression lineaire (M1). Le dcuxiemc modele est aussi un grand classique, mais part d'un autre point de vue. Selon les experts de Nestle, la viscosite du LCS peut dependre de celle obtenue lors de la fournee precedente. C'est le modele auioreqressi] d'ordre 1 (M2). Arrive a ce stade, pourquoi ne pas fusionner ces deux modeles pour tenir compte a la fois des predicteurs et de l'effet de memoire (M3)? Ensuite, il s'avere que les predicteurs ne sont pas connus sans incertitudes et integrer celles-ci dans le modele semble prometteur (M4). Enfin, Nestle propose d'integrer une nouvelle variable endogene, asavoir une variable aleatoire qualitative pour relier la categoric de vieillissement du produit au traitement qu'il a subi (M5).
10.2.1
Les moyens
a mettre en oeuvre
Au-dela de ce probleme industriel interessant, notre but est aussi de montrer comment on peut construire un modele pas-A-pas, du plus simple au plus complexe, par conditionnements successifs. A cet egard, realiser l'inference par echantillonnage de Gibbs est particulierement eclairant. Ce choix nous conduit a privilegier les priors partiellement conjugues de sorte que les conditionnelles completes sont toujours des lois standards, disponibles dans la bibliotheque de R (R Development Core Team, 2009). Cela implique de jongler avec les formes quadratiques et c'est pourquoi nous detaillons certains calculs pas a pas en annexe E, a la section E,.
10.2.2
Les modeles, leur definition, leurs liens
Remarque 10.1 Dans cette section, les hypotheses dindependance sont implicites. Leur justification pour le probleme du LCS sera faite au moment de leur inference.
Les modeles Ml et M2 sont definis de la memc maniere : au temps d'observation t., l'ecari entre l'observable, soit Yt, et la prediction, soit J-Lt, est un bruit bloiic: note Et (t == 1,2, ... ,n). 1 Le bruit blanc est le processus stochastique le plus simple. C'est une suite de variables aleatoires reelles, X« (t E Z), telles que "It : E (X t ) == 0 et V (X t ) == 0- 2 , Cov (X t , X t +h ) == 0 pour tout t et h.
190
Pratique du calcul bayesien
La relation 10.1 n'est rien d'autre que la transcription mathematique de cette definition. Yt - ILt
== Et
ILt
Et r-;»
iid
dnorm (0, T)
== { (1, Xt) 13 ~ M1 PYt-l ~
(10.1)
M2
Dans cette ecriture, Xt == (Xtl' Xt2, ... ,Xtq-l). Le vecteur (1, x.) est donc de dimension 1 x q de sorte que 13 == (130, 131, ... ,13q - l )T est de dimension q x 1. Dans le cas du LCS q == 4 et 13 == (130,131,132, 133)T. Le modele M3 integre les deux premiers de la maniere suivante : au temps d 'observation t., l' ecart entre l' observable Yt et la prediction ILt est proportionnel a ce meme ecari observe au temps t - 1, auquel on ajoute un bruit blanc (t==1,2,"',n): Yt - ILt ILt
P (Yt-l - ILt-l)
+ Et
(1, x.) 13 dnorm (0, T)
(10.2)
Le modele M4 est bati sur le modele M3 en considerant que les variables explicatives Xtj (j == 1, ... ,q - 1) ne sont pas observees. Ce qu'on a observe, ce sont des valeurs particulieres de celles-ci, valeurs qui auraient pu etre differcntes si on avait repete I'observation. Le vecteur Zt == (Ztl,'" ,Ztq-l) T donne la valeur de chaque regresscur au temps t. On peut le voir comme un tirage (inobserve) et de aleatoire dans une loi normale multivariee, localisee sur matrice de precision ¢I q - 1 .
xi
Yt - ILt
P (Yt-l - f-Lt-l)
+ Et
f-Lt
(1, x.) 13
Et
dnorm (0, T)
Zt
dmnorm (x.: ¢I q -
1)
(10.3)
ou I d est la matrice identite de rang d. Ces modeles sont imbriques (d'ou le parallelisme avec lc jeu de Lego) : M3
M1 {:} P == 0 et 3j : 13j -:f 0
M3
M2 {:}
M4
M3 {:} ¢
13 == 0 et P -:f 0 ~ 00
Enfin le modele M5 imagine que la sortie y du modele M4 n'est pas directement observable: ses effets ne deviennent tangibles qu'a travers un mecanisme d'observation trinomial. Le modele M4 devient alors une couche latente du modele M5.
10. Assemblage de modules fonctionnels normaux
191
Complements Les modeles M2 et M3 posent le probleme des valeurs initiales, ce qui n'est pas le cas du modele MI. - Pour M1 (eq. 10.1) : M1: () == ({J,T) - Ecrivons Ie modele M2 (eq. 10.1) en t == 1 : YI == PYo + CI· Alors, soit Yo est fixe par des considerations physiques ou logiques - par exemple, la premiere fournee de LCS est ralisee dans une cuve toute neuve - soit Yo est un parametre supplementaire qu'il faut inferer. Ce sera notre choix : M2 : () == (p, T, Yo) - Le modele M3 (eq. 10.2) en t == 1 donne YI - XI{J == P(Yo - xo{J) + CI. Si nous supposons que cette identite est representative de ce qui s'est passe en t == 0, -1, -2,···, nous avons, par exemple: Yo == xo{J+p (Y-I - X-I{J)+ co OU co rv dnorm (0, T). Mais comme Y-I et X-I ne sont pas des quantites connues, il est plus simple d'ecrire Yo == a+co OU a est une fonction de quantites inobservees, Le parametre a est considere comme un parametre a part entiere du modele M3; c'est lui qui regle la condition initiale de la trajectoire des Yt : M3 : () == ({J, p, T, a) - Le modele M4 (eq, 10.3) ajoute la precision ¢ au parametre du modele M3 : () == ({J, p, T a, ¢) et les quantites inconnues et incertaines sont () et le vecteur latent
10.3
Xt.
Regression Iineaire avec priors independants partiellement conjugues (M1)
La viscosite du LCS est explique par trois variables explicatives parfaitement connues (tableau 10.1).
Remarque 10.2 L'hypothese selon laquelle les variables explicatives sont certaines et connues n'est, ici, pas tres realiste, Cependant, tant que la finalite du modele est la seule description de donnees deja recueillies, on peut l'accepter, car la regression bayesienne est conditionnelle aux valeurs des predicteurs, c'est-a-dire au fait que X t k == Xtk (k == 1,2,3). Ce n'est plus la meme chose si la finalite du modele est predictive. En effet, les valeurs futures des variables explicatives (qui fondent la prevision) ne peuvent pas etre supposees connues. II faut les considerer comme des realisations de variables aleatoires X t k (k == 1,2,3). Dans ce cadre, une hypothese importante est I'independance entre celles-ci et l'erreur de prevision (Vt, Vk : Xtk 1- Ct).
192
10.3.1
Pratique du calcul bayesien
Formulation du modele M1
Remarque 10.3 Pour une loi normale, la precision est l'inverse de la varuuice ; pour une loi gamma, le parametre d'echellc inverse est, comme son nom l'indique, l'inverse du parametre d 'echelle (ce dernier s 'exprime dans les memes unites que la variable oleoioire}, N ous travaillons avec la precision et le parameire d'echelle inverse.
Note 10.1 Dans les conditionnelles completes a posteriori, les hyperparametres sont dans le corpus d'hypothcses, note H. Note 10.2 Avec "It:
Xt == (Xtl,··· ,Xtq-I) ,
la matrice
est de genre n x q. Le modele de regression lineaire (eq, 10.1) peut se mettre sous la forme suivante : y == Xj3 + E, E dmnorm (0, rIn) (10.4) r-;»
ou dmnorm designs une loi normale multivariee, localisee sur le vecteur 0 (dim 0 == n xl) et de matrice de precision r In ; In est la matrice identite d' ordre n (de genre n x n).
10.3.2
Les conditionnelles completes
La vraisemblance s'ecrit
[yl,8, Y] ex
y
n
/
2exp ( -~ (y - x,8f (y - X,8))
(10.5)
Quand on regarde cette vraisemblance, il est naturel de proposer les priors suivants. - Pour la precision r, une loi gamma de parametre de forme a > 0 et de parametre d'echelle inverse b > 0 :
[ria, b]
ex
r a - I exp (-br)
(10.6)
- Pour le vecteur des coefficients j3, une loi normale multivariee, localisee sur le vecteur m,6 (dim m,6 == q x l ) et de matrice de precision P,6 (dim P,6 == q x q) :
[,BIm/3,P/3] ex exp
(-~ (,8 -
m/3fP/3 (,8 - m/3))
(10.7)
10. Assemblage de modules fonctionnels normaux
193
Ci-dessus, on a fait implicitement l'hypothese que la connaissance a priori sur les parametres f3 et T ne permet pas de les lier. La densite conjointe a priori s'ecrit done
[;3, T]
==
[;3] [T]
Contrairement a l'annexe D, section D, qui traite de l'infercnce bayesienne avec un prior conjoint conjugue, la conjugaison n'est ici que partielle. Cela etant, la structure conjuguee entraine que les lois conditionnelles a posteriori demeurent dans la meme famille (tableau 10.4). Les details des calculs sont reportes a la section E de l'annexe E. Normale f3 Gamma
T
Moyenne == p;;-l (TXTy Forme a* == + a
m;
i
+ P {Jm{J)
Precision P; == TXTX + PrJ Echelle inverse b* == ~E1 E + b
Definition
E ==
Y - Xf3
Tableau 10.4 - Modele M1 : recapitulatif,
10.3.3
Complements sur le prior
II faut bien sur fixer les hyperparametres a, b, m{J et P {J' Pour ce dernier, on postulera souvent l'independance a priori des composantes du vecteur f3 =} P {J == p{JI q avec la precision PrJ > 0 fixce. Un prior non informatif est obtenu avec a, b, PrJ ---+ 0 et m{J == O.
10.4
Representor la dependance temporelle par un processus ARI (M2)
Quoique l'inference en soit fort commode, l'utilisation du modele lineaire (10.4) pour cet exemple particulier est vouee a l'echec. On peut s'en convaincre en effectuant les calculs puis en verifiant les hypotheses qui ont precede au modele: en reevaluant les Et de I'equation 10.4, on s'apercevrait qu'ils ne sont pas du tout independants, II existe de bonnes raisons qui justifient que les regresseurs Xl, X2 et X3 n'apportent pas tout Ie pouvoir explicatif (tableau 10.1). C'est la valeur de la viscosite du LCS lors de la fournee precedents qui est sans doute la meilleure grandeur pour predirc Yt+1. En effet, le pro cede de fabrication est discontinu, mais les bacs intermediaires qui stockent le produit elabore durant la sequence t ne sont pas systematiqucment vides quand arrive la nouvelle fournce a t+ 1. Par consequent, la mesure de viscosite Yt+l conserve aussi la mcmoire du produit fabrique au cours de la sequence precedente, De plus, d'autres variables non mesurees expliquent sans doute la proximite des caracteristiques du lait utilise a l'entree pour les sequences t et t + 1, proximite qui se retrouve egalement sur le produit elaborc entre Yt et Yt+l. On cherche done a introduire une dependance temporelle entre fournces. On va la supposer
194
Pratique du calcul bayesien
homogene, decrite par un seul parametre et etudier d'abord le modele le plus simple qui met en eeuvre cette idee de persistance au cours du temps: le modele auioreqrcssi] d'ordre 1 (AR1).
10.4.1
Formulation du modele M2
Le modele (eq. 10.1) peut se mettre sous la forme (t == 1,2"" ,n) :
Yt == PYt-l
10.4.2
+ ct,
ct
rv
iid
dnorm (0, T)
(10.8)
Les conditionnelles completes
Le coefficient dautocorrelation inconnu et incertain est P E ] -1,1 [, de telle sorte que Ie comportement moyen de Yt ne soit pas explosif. La valeur initiale Yo peut etre connue (elle est observee) ou ne pas etre observable (c'est alors un parametre). Le traitement des deux cas est envisage ci-apres. Par simplification, on suppose encore l'independance a priori des parametres
[0]
==
[p, T, Yo]
==
[p] [T] [Yo]
La vraisemblance de I'echantillon y s'ecrit (10.9) Dans le but de realiser I'inference par echantillonnage de Gibbs, eu egard aux proprietes interessantes des priors conjugues, un prior gamma s'impose pour la precision T. Dans cette meme optique, en devcloppant la somme des carres des ecarts, on fait apparaitre une forme quadratique en P dans l'exponentielle (eq. 10.9). Par consequent, un prior normal est un choix judicieux. De facon similaire, le premier terme de ce developpement donne une forme quadratique en Yo ce qui nous conduit a choisir aussi un prior normal pour la valeur initiale.
[Tla,b]
ex
Ta - 1 exp (-bT)
[Yo Im yo' PYo]
ex
exp (_P~o (Yo - m
[plmp,pp]
ex
exp
(_P; (p -
(10.10)
yo)2)
m p )2)
(10.11) (10.12)
Remarque 10.4 Le prior sur p peut etre tronque sur l'intervalle ]-1,1[. Ceci n'entraine aucune consequence puisque ce prior est defini a une constante de proportionnalite pres (independante des parametres). Avec ces priors, le tableau 10.5 donne les lois conditionnelles a posteriori, aisees a determiner grace aux conjugaisons partielles. La section E de l'annexe E fournit plus de details au le lecteur souhaitant suivre pas a pas le schema d'obtentention de ces lois.
10. Assemblage de modules fonctionnels normaux Normale
Moyenne
p
m *p -_
Zo
m;o
Gamma
Forme a* == ~
T
+ ppmp) + pzom zo)
1 (TZ . 1 Z-I P~
p:
==
zo
(TpZI
Precision
* _.1 Pp-TZ_IZ-I * _
\2
PZo - rp
+ Pp
Definition
+ Pzo
Echelle inverse b* == ~U1 U + b
+a
195
u ==
Z - PZ-I
Tableau 10.5 - Modele M2 : recapitulatif,
10.5
Modele lineaire a residus autocorreles (M3)
Est-il possible d'avoir le beurre et l'argent du beurre? Vne regression lineaire qui ignore la memoirc de la reponse (modele M1) ou un processus AR1 sans variable explicative (modele M2) sont deux choix assez limites. L'idee est de faire les deux choses simultanement tout en conservant la commodite de l'estimation par algorithme de Gibbs.
10.5.1
Formulation du modele M3
Le modele (10.2) peut encore s'ecrireprend la forme
+ e, e ~ dmnorm (0, TIn)
y p == X p {3
(10.13)
ou Vt y
== (Xtl' Xt2, ... (YI,". ,Yn)T
Xt
,Xtq-I)
(Yo, ... ,Yn_l)T ((1, xj ) , (1, X 2)
(10.14) (10.15) (10.16)
, . .. ,( 1, x.,) ) T
(10.17)
((1, xo) , (1, x- ) , . .. ,(1, x., -1 ) ) T
(10.18)
Y - PY-1
(10.19)
X-X- 1
(10.20)
La condition intiale, Yo, est une variable latente distribuee selon le modele suivant
Yo
r-;»
dnorm (ex, T)
ou ex est un parametre unidimensionnel, fonction des quantites inobservees. Par consequent, le parametre du modele (10.13) est ici de dimension 4 :
() == ({3, T, ex, p) La vraisemblance est immediate
[Yp,Yoll3, T,
Ct, p, X p]
= T(n+l)/2 exp ( -~ ((yp - xpl3f (yP - Xpl3) + (Yo -
Ct)2))
(10.21)
196
10.5.2
Pratique du calcul bayesian
Loi a priori des parametres du modele lineaire residus autoregressifs
a
Prealablement au recueil des donnees experimentales, l'homme d'etude possede une connaissance a priori sur les parametres ({3, T) qui est independante de celIe qu'il a pour le couple (a, p). II semble done raisonnable de continuer a supposer ici que [{3, T, A, p]
== [{3] [T] [A] [p]
(10.22)
En procedant ainsi, ce sont les donnees qui etabliront la covariation entre les parametres relatifs a la partie modele lineaire et ceux caracterisant la partie autoregressive. La vraisemblance (10.21) indique que les lois des parametres du modele appartiennent a la famille exponentielIe, ce qui implique l'existence de lois a priori conjuguces. Les choix suivants sont logiques et commodes
Tla,b
dgamma (a, b)
plmp,pp
dnorm (mp,pp)
alma,Pa
dnorm (ma,Pa)
(10.23)
dmnorm (mj3, P 13) Bien entendu, la selection des hyperparametres (a, b,m p, Pp, ma, Pa, mj3, P 13) releve de la responsabilite du modelisateur.
10.5.3
Conditionnelles completes des parametres du modele lineaire a residus autoregressifs
Avec ces priors, les lois conditionnelles a posteriori sont aisecs (tableau 10.6) Parametre {3
Moyenne m~
== P;3-1 (TXTyp + Pj3mj3)
a p
m~
==
m *p -_
Parametre T
Forme 1+ a a* ==
1*
Prv 1 P~
a determiner
Precision
(TYO + Pama) ('1 TZ Z-l + ppm pI)
nt
P~ == TX~Xp + Pj3
== T + Pa * Pp ==' 1 TZ_1Z-l P~
+ Pp
Echelle inverse b* == ~cT c + ~ (Yo - a):l + b
Tableau 10.6 - Modele M3 : recapitulatif.
Dans ce tableau, on a note: yp== y-py -1, X p== X-pX- 1, Yo
rv
dnorm (a, T),
== Y - X{3, Z-l == Y -1 -X- 1 {3 et c == Y» - X p {3 . On trouvera dans la section E de l'annexe
z
E comment obtenir ces lois conditionnelles.
10. Assemblage de modules fonctionnels normaux
10.5.4
Specification des priors du modele lineaire dus autoregressifs
197
a resi-
Les operateurs actuellement en poste sur la ligne de fabrication du LCB possedent une veritable experience. L'observation de la maitrise operationnelle de la viscosite sur la ligne de fabrication montre que les operateurs anticipent deja une nouvelle valeur de viscosite du produit fini en fonction : 1. de la precedents valeur de la viscosite observee,
Yt-l;
2. d'une valeur empirique qui mesure l'influence de l'incrementation d'une unite de la variable de controle consideree, soit Xt,3 - Xt-l,3' En termes mathematiques, les operateurs ont construit empiriquement le modele suivant : Yt
== Yt-l + 0.9 (Xt,3
(10.24)
- Xt-l,3)
L'analyste mettant en ceuvre le modele M3 ne fait finalement qu'etendre ce imodele en considerant trois variables explicatives (voir fig. 10.1) et une constante :
Yt Ct
t
== ==
f30
+ f31Xt,1 + f32Xt,2 + f33Xt,3 + Ct,
PCt-l
+ Ut
tel que
Ut
f'J
dnorm
(0, a- 2 )
(10.25)
== 1, ... , T == 304
La specification des hyperparametres ressort de la responsabilite du modelisateur. On cherche ici a exploiter les connaissances detenues par les operateurs de la ligne. - Pour Ie coefficient dautocorrelation P, les hyperparametres m p et Pp sont deduits du modele empirique precedent (10.24). Un poids important est mis autour des valeurs proches de 0.9 pour s'approcher au plus pres du modele empirique precedent, avec m p == 0.9 et Pp == 1. - Pour les coefficents des variables explicatives, les hyperparametres ffi,a et P,a ont ete definis a partir d'une enquete realises aupres de la production. En pratique, pour l'elicitation, on a plus l'habitude de travailler avec la matrice de variance :E,a == p~l. Compte tenu de l'etat de notre connaissance sur le phenomene modelise, il est raisonnable de considerer que cette matrice est diagonale, c'est-a-dire que les variables explicatives n'ont pas d'interaction entre elles pour le phenomena considere. Les valeurs ffi,a et les termes de la diagonale de la matrice :E,a sont ensuite evaluees a partir de l'approximation normale realisee sur l'histogramme obtenu pour chacune des variables considerees independamrnent (fig. 10.3). Apres approximation normale, nous obtenons :
198
P ratique du calcul bayesien
:'1 o. ~
(b)
n8
.
0.6
I: ~llll~~~IjliD 26
28
0.4 0.2
o --
32
~o
-2
n1Ilk -1
:r.j
o.s
I~I
0, -
1.5
~
z
.8 0.1
e
a.
o.z
0.5
0
-1
-4
Figure 10.3 - Encodage de [a loi a priori du para met re (3 : (a) - te rme constant (30 ; (b) - (31 ; (c) - (32 ; (d) - (33
{3 =
(
28.43 ) -0.11 0.2
et ~,8
- 1.91
=
( 3.5 0 0
0
o
2.8
o o
o 2.5 o o
- Les hyperp ararn etres a et b se deduisent de la conna issance de l'erreur de reproductibilite de la mesur e en egalant l'erreur de reproductibi lite avec E (T- 1) = 2:;~1 et la vari ance de l'err eur de reproduct ibilite avec V (T)
b/
Des calculs simples montrent que a - V (T ) + 2 et a = a ~1 E (T). Etant donne que l'erreur de reproductibill te est de 3 et que sa variance est de 1, nous prenons a = 11 et b/ a = ~~. - Le prior sur a est pris non inforrnatif : mOl est quelconque (p. ex. m., = Yo) et POI ---7 O. _
-
10.5 .5
b2
4( a-I)2(a-2) '
•
_
(E(T))2
Applicat ions
La caracterisation du modele M3 a ete realisee it par tir de donnees recoltees dan s l'usine de Nest le (T = 304) corresponda nt it l'annee 1997. L'algorit hme de Gibbs a ete util ise it partir des lois conditionnelles completes repert oriees dan s le t ableau 10.6. Apres quelques experiment at ions, la t aille de l'echantillon a ete fixee a 2000, apres avoir elimine les 100 premiers t irages . On utilise les
10. Assemblage de modul es fonctionnels norm aux
199
techniques de Rao-Blackwellisation presentees da ns (Parent et Berni er, 2007), pour obt enir une estimation des lois marginales a post eriori. On constate que les lois marginales des parametres ont ete modifiees quand on prend en compte l'information apportee par les donnees : les lois a post eriori associees aux effets des variables explicat ives sont moins diffuses que les lois a priori, et le mode a post eriori est different du mode a priori. ~l
1:~1 • .n
n .t
a. 0 .05
C
25
Figure 10.4 - Lois marginales a posteriori des param etr es du mod ele lineaire pur en trait pointil le et du modele lineaire a residu s autocorreles en t rait cont inu : (a) - terme constant (30; (b) - (31; (c) - (32; (d) - (33 ; (e) - a 2 ; (f) - paramet re d'au to corr elatio n p
La figure 10.4 presents les lois marginales a post eriori (trait pointille) des par ametres du modele lineaire pur (M1) et les lois mar ginales a posteriori des parametres du modele M3 obtenues par simulat ion. Rappelons que les deux premieres vari ables explicatives sont des caracteristiques de la matiere premiere tandis que la derniere est une temp erature du precede. On constate que la disp ersion des est imations des par amet res du modele lineaire pur (M1) est generalement plus pet ite que celle des parametres corres ponda nts du modele lineaire a residus aut oregressifs (M3). L'homme d'etude qui oublie un possible effet autoregressif peut ainsi se montr er sur confiant a l'egard de ses estim ations statistiques de la force des vari ables explicat ives. D'autre par t , l'introduction d 'un fact eur de memoire (ici la valeur a post eriori de p vaut 0.65 ) change le mecanisme explicat if : l'effet de X 2 change de signe, l'influence de X3 est sans doute bien plus forte qu 'on ne le croyait avec le modele lineaire pur. On peut egalement et udier la covariat ion entre les par ametres du modele M3 (non repr esent ee ici). C'est le coefficient /33 de la temp erature de pro cede qui est le plus lie aux valeurs possibles de p. Cela illustre les problemes d'inference rencontr es pour le modele lineaire en cas de depend ance ent re les erreurs. Ce
200
Pratique du calcul bayesien
resultat montre que notre connaissance a priori d'indepcndancc entre {3 et p a evolue au vu des donnees y et X.
10.6
Modele lineaire a residus autocorreles avec erreur sur variables explicatives (M4)
Le modele lineaire repose sur 1'hypothese implicite que les variables explicatives sont connues avec certitude. Or, il est tres frequent que les variables explicatives soient entachees d'erreur. Les facteurs de production, comme la variable X3, sont fixes par un operateur a une valeur de consigne. Or tous les facteurs de production (temperature, pression, par exemple) sont soumis a des systemes de regulation qui permettent d'obtenir en moyenne la valeur de consigne sur un certain pas de temps. II est possible aussi que, compte tenu de la construction des appareils de fabrication, certains facteurs de production fi uctuent de facon non volontaire en fonction d'autres. Tous ces elements amenent a penser que le facteur de production considere n'est pas exactement la valeur de consigne. Dans ce paragraphe, nous supposons que la derniere variable X3 a ete entachee d'une erreur normale.
10.6.1
Formulation du modele M4
Ce modele a ete defini par la relation (10.3). On peut aussi l'ecrire sous la forme equivalents suivante Yt ==
(1, Xt) {3 + Ut,
Ut == PUt-1 Zt == Xt
~t.l
+ Et,
+ ~t,
~t
t Et
r-;»
== 1, 2, . . .
rv
iid
,n
(10.26)
dnorm (0, T)
dmnorm (0, ¢I q -
I)
xt.l Et
OU Xt == (Xtl' . .. ,Xtq-I) est le vecteur ligne (1 x q - 1) des variables explicatives non observees, Tout se passe comme si les observations Zt == (Ztl' ... ,Ztq-I) etaient tirces dans la loi normale multivariee suivante Zt
r-»
dmnorm (Xt, ¢I q -
I)
Dans la formulation bayesienne du modele, les Xt sont des variables latentes parametres additionnels du modele. Ecrivons la regle de Bayes en posant 8 == ({3, P, T a, ¢) :
a estimer comme des
[8, X t IYt, Zt] ex
[Yt IXt,
,B, p, T a] [Zt IXt ,¢] [8]
Par consequent, la conditionnelle complete de
Xt
est
10. Assemblage de modules fonctionnels normaux
201
La loi jointe a posteriori des parametres du modele M4 verifie alors la relation de proportionnalite OU interviennent l'ancienne vraisemblance (a x connu) don nee par (10.21), la loi conditionnelle de l'erreur de mesure de x, Ie prior
[,6,7, p, ();, X IY, Z,¢] ex [Y 1,6, a2, p, A, X] [z IX, 7] [,6]
[a 2] [AJ [p]
(10.27)
De facon analogue au (10.13), le calcul explicite de la loi conjointe a posteriori et de ses marginales n'est pas possible, mais le calcul des conditionnelles completes est tres facile puisqu'en fait on a simplement attache un etage a la fusee sans modifier la structure conditionnelle de (10.13). On obtient donc des lois conditionnelles completes identiques a celles du tableau 10.6 a cela pres qu'elles sont conditionnees par rapport a X, maintenant inobservable. Ainsi, pour utiliser l'echantillonnage de Gibbs, nous avons seulement besoin d'expliciter la loi conditionnelle complete de X. En developpant le calcul de (10.27) (a la maniere de la section E de l'annexe E) et en isolant les termes propres au vecteur Xt, on retrouve l'exponentielle d'une forme quadratique en Xt, ce qui montre que
[Xt IX#t, {3, 7, p, o, Yt, Zt, ¢] avec pour 1 < t ~;tl
Xt
r-;»
N (Xt, ~;tl)
== 7(1 + p2){3T{3 + ¢
= ~:Ei: ( 2
(10.28)
t
(10.29)
-T(l + p2j!3TYt + PTj3T (Yt-I - (1, Xt-I) 13) ) +p{3 (Yt+l - (1, Xt+l) {3) + 2¢Zt
Xt s'interprete ainsi comme une moyenne ponderee entre la valeur connue Zt et une valeur deduite de la regression de y sur les autres composantes. A cause du decalage des indices du a l'autoregression, il y a quelques problemes aux bords : en t == 1, il faut prendre:
et en t == n, il faut prendre :
L'algorithme de Gibbs est alors facilement mis en ceuvre en gcnerant p, ,6, x j , . . . ,xT dans l'ordre : il suffit de simuler les lois conditionnelles du tableau 10.6 et les lois conditionnelles des variables latentes (10.29).
();, T, et
202
Pratique du calcul bayesian
10.6.2
Specification du parametre ¢
Les lois a priori pour les parametres ((3,7, Q, p) du modele (10.27) ont ete prises identiques a celles de la section precedente. L' application ici ne porte que sur l'erreur de mesure de la variable explicative X3, la temperature du procede de fabrication. Les autres variables explicatives sont ici supposees connues sans erreur, de telle sorte que le modele precedent est simplifie car ¢ n'est plus une matrice mais une variance scalaire. Une campagne de mesure a ete realisee pour avoir une premiere evaluation de 7 2, 7 2 == 4/5. Si nous n'avions pas une bonne connaissance de 7 2 et si l'on veut donner plus de souplesse au modele, il est possible de considerer que 7 2 est un parametre inconnu et d'estimer alors de facon simultanee tous les parametres a l'aide de I'echantillormage de Gibbs. On effectuerait pour cela l'ajout d'un niveau de conditionnement supplementaire par rapport a 7 2 en faisant par exemple l'hypothese qu' a priori T-
2
r-;»
dgamma (
~o , 190:i6) . Notre echafaudage de modele en LEGO s'ctofle,
mais la technique d'estimation par simulation MCMC de tirages dans les lois conditionnelles completes ne change pas.
10.6.3
Influence de la prise en compte de l'erreur sur la temperature
La figure 10.5 presente les lois marginales des parametres des modeles (10.25) Iineaires avec residus autocoreles sans erreur dans X3 sous la forme de trait continu (modele M2) et avec erreur dans la dernierc equation (10.27) par un trait discontinu, et 7 2 connu valant 4/5 (modele M3). De facon generale, le fait de considerer que la derniere variable est entachee d'erreur ameliore la precision de l'estimation de son parametre : ici, la distribution a posteriori de la derniere variable est moins diffuse. Par ailleurs, nous pouvons observer que: - tout d'abord, l'alea du modele parametre par (J"2 de la loi normale a fortement diminue. La difference a ete absorbee par l'incertitude 7 2 modelisant I'erreur dans la derniere variable; - ensuite, les deux autres variables que nous avons suppose connues avec certitude ont vu leur influence peu modifiee : - enfin, le parametre representant la memoire du phenornene semble prendre une valeur plus forte, compensant en quelque sorte la diminution en moyenne a posteriori de {33.
10.7
Une brique de LEGO supplementaire d'expression multinomiale
La viscosite brute en sortie du pro cede de fabrication du LCS n'est pas la seule grandeur dintcret que l'on souhaite expliquer. La facon dont le produit vieillit (s'il devient plus ou moins liquide avec le temps) interesse egalement Ie
10. Assemblage de modules fonctionnels normaux
203
!»
(a)
0 .4
:!! 03 i 02
0.5
il
e, 0 .1
0 24
26
32
34
0 -1
(c)
(d) 0 · .
~
ra
0.5
e,
0
-1
02 ~
~ .D
0 -ll
Ie)
8 6
0.1. 0 .1
4
n, 0.05
2
e
0 10
20
40
50
-4
IX
0 0.s
-2
I~
...
• 0 ·
0.6
0.7
0.8
0.9
Figure 10.5 - Lois marginales a posteriori des parametres d'un modele lineaire a residus autocorreles sans erreur (trait continu) et avec erreur sur variable explicative temperature (trait pointille) : (a) - terme constant f3o ; (b) - f31; (c) - f32 ; (d) - f33; (e) - (72 ; (f) - pararnetre d'autocorrelation p. producteur. Les experiences de suivi de la viscosite menees sur plusieurs mois apres la fabrication d'une foumee montrent que l'on peut classer chaque fournee selon trois categories de vitesses d 'evolut.ion de la viscosite. Dans la suite de ce chapitre, nous tournons notre interet vers la prevision de cette variable categorielle, Par tradition, on appellera encore yt cette variable aleatoire qui prendra la modalite j = 1,2,..J, avec dans notre cas d' etude J = 3. L'objectif est de relier la categoric de vieillissement du produit au traitement qu 'il a subi. La figure 10.6 montre sur la meme annee 1997 a l'usine Nestle de Boue un sous-echantillon de 100 observations. II y a maintement cinq variables explicatives . En plus des trois variables deja utilisees dans les sections precedentes, on considere aussi la temperature du traitement thermique final X 4 appliquee au lait concentre et X 5 l'intensite d' un traitement mecanique (brassage) mis en place avant conditionneme nt .
10.7.1
Formulation du modele M5
L'idee de base du modele est d'imaginer qu 'a chaque pas de temps, il exist e une quantite exp licative I Lt caracteristique de l'etat du produit qui prend sa valeur sur des int ervalles delimites par les parametres / 0 = - 00 < / 1 < ... < / J - l < / J = + oo. On cherch e a construir e un mecanisme d'affectation probabi-
204
Pratique du calcul bayesien
20
00
Time
100
Figure 10.6 - Sous echanti llon de 100 observat ions sur I'annee 1997. Cinq variables explicatives et une vari able categorielle a expliquer (vit esse d 'epaississement au cours du vieillissement du produit) .
liste de yt a une categorie tellc que plus J.1t prend des valeurs fortes, plus yt a de cha nce de prendre une valeur de categoric elevee, Considerons Ie mecanisme aleatoire decrit par 7rtj, la probabilite que I'observation t soit dans la categoric j se const ruit par inversion de la fonction de repartition
N(O,l) . [yt
= j lJ.1il = 7rt j avec 7rtj =
h'j -
(10.30) J.1t) -
h'j- l -
J.1t)
(j = 0, . .. , J)
On prend pour notre application J = 3,1'0 = - 00; 1'3 = + 00. La vraisemblance est T
[Y 1J.1] =
II (
J.1t) -
t =l
La figur e 10.7 montr e que les prob abilites que I'observation Yt appartienne 11 la categoric j selon la gra ndeur explicative I l t. Pour interpr ete r cette figure, il fau t imaginer que les I'i sont fixes et que J.1t peut se deplacer, ent rainant avec elle la courbe de Gauss en cloche. Considerons maintenant Ie mecanisme aleat oire suivant : - tir er une gra ndeur aleato ire Z, de loi norm ale cent ree sur J.1t de variance unite ;
10. Assemblage de modules fonctionnels normaux
3
2
y
R' onse cate orielle
19%
6%
Tr13
205
=
z Yo =-00
YI
Grandeur eXP lifative
Y2
Jl,t
Figure 10.7 - Mecanisme aleatoire de reponse categorielle ordonnee a une grandeur explicative Mt . - regarder sur lequel des int ervalles separes par les 'Yj, 'Yo = -00 < 'Y1 < ... < 'YJ-1 < 'YJ = + oo tombe Zt ; - declarer yt = j si 'Yj - 1 ::; Zt < "ti Du point de vue stochastique, ce mecanism e aleatoire donne bien les memes probabilites d'oc currence des cat egories que le modele (10.30). En effet, quand on calcule
J
Z= "'(j
[yt = j I'Y, ILtl = ["(j-1 ::; Zt
< 'Yj b, ILtl
=
[z lILt] dz
Z="'(j - l
on retrouve 1ftj puisque
j "'( j [z lILt] dz =
bj -
/-It) - bj-1 - ILt) = 1ftj
Z = "'(; _ l
La grandeur Z, normale centree sur ILt est une grandeur lat ent e associee au phenomena cat egoriel (10.30). Zt
= IL t + Ut Ut
rv
ii d
N(O,l)
206
Pratique du calcul bayesien
La vraisemblance s' ecrira alors
!1 J T
[Y 1M, /,] =
!1 (it T
[Yt, Zt IMt, /,] dz, =
N(Zt
IMtl 1)) l')'y(tl-I <.Zt<')'y(t) dZt)
Zt
On ne va guere compliquer la situation en introduisant une dependance sur le temps de la grandeur explicative J-lt :
+ P(Zt-l -
J-lt == Xt{3
Xt-l{3)
Remarquons que cela revient alors a faire l'hypothese d'un modele lineaire residus autocorreles (10.25) pour modeliser la variable latente Zt.
Zt == Xt{3 + Ct
a
(10.31)
ct == pct-l + Ut Ut rv dnorm(O, l ) iid
Rcsumcns-nous. A la construction du modele Iineaire a residus autocorreles M3, on a rajoute un etagc de generation de donnees categorielles : ce dernier etage est le seul qui se voit puisque les Z, ne sont pas observables, seule la categoric yt est observee a l'instant t. La dependance entre les Yt et les Zt s'exprime par l'equation :
[Y , Z I r,ZO, P, {3 , X]
== ITT
l['"YYt_l,'"YYt]
2n
t=l
10.7.2
(Zt)
exp
(_ ((Zt - Xt{3) - P(Zt-l - Xt_l{3))2) 2 (10.32)
Conditionnelles completes du modele categoriel probit (M5)
La loi a priori [Zo, r, {3, p] se decompose en supposant I'independance des connaissances a priori sur chacun des parametres
[Zo, r, {3, p] == [Zo] x [r] x [{3] x [p] Plus precisement, on choisit des priors dans la famille normale, compte tenu que la loi a posteriori est proportionnelle a :
[Zo, », {3, p, Z IY ~ X]
T
ex
IT {N (Zt !pZt-l + (Xt -
PXt-l) {3, I)} (10.33)
t=l
T
X
[Zo, /" (3, p] x
IT {Ih'_l - . (Zt)} t=l
10. Assemblage de modules fonctionnels normaux
207
On prend ainsi :
[Zo]
[/3]
==
N (Zo lao, 1);
== N q
[r]
==
(/31/30, ~Ol ); [p]
N J - I (r Iro, D) L)/l<...
N (p IPo, Vo) 1Ipl
Ici encore la vraisemblance appelle la conjugaison et les conditionnelles completes des parametres Zo, r, /3, P et des variables latentes Zt, sont identifiees a partir de l'expression (10.33) dans l'annexe E. Les equations a posteriori facilement obtenues (E.10)+(E.11)+(E.12)+(E.13)+(E.14)+(E.15) sont tres simples a simuler si bien que l'algorithme d'estimation bayesienne MCMC du modele probit categoriel ne pose pas de problemc. Cet algorithme de Gibbs enchaine les phases: simuler [Zo
IZ, r,/3, p, y] ,
simuler [Zt IZ#t simuler [rj
,r,/3,p,y] ,
IZ, Zo, r#j, /3, P, v
,
(10.34)
simuler [/3I Zo, Z, r,P, y] , simuler [p
\Z, Zo, r, /3, v
En rapprochant (10.34) des lois du tableau 10.6 et de celles de I'equation (10.29), on voit comment l'assemblage de conditionnements successifs combinant autoregressif, modele lineaire et observables multinomiales ordonnees avec lien probit contribue a l'algorithme d'estimation.
10.7.3
Application du modele multinomial probit (M5)
Les priors ont ete fixes de telle sorte que /30 == 0 == rO' On choisit les variances a priori (J~ et (J; egales a 1, pour mettre a l'echelle toutes les grandeurs latentes. En ce qui concerne p, on s'inspire des resultats precedents obtenus pour la viscosite du lait : on se dit qu' a priori la mcmoire de ces phenomenes est sans doute comparable, de telle sorte que l'on prend Po == 0.65 et (J p == 0.05. Les parametres du modele (10.30) sont estimes avec les 5000 dernieres iterations MCMC de 10 000 runs de l'algorithme (10.34). La figure 10.8 montre les lois a posteriori des cinq parametres relatifs aux effets des variables X == (x-, X2, ...Xs) avec et sans introduction de l'autocorrelation dans les residua pour lc modele (10.30). On voit que les lois a posteriori des variables explicatives sont plus diffuses pour le modele le plus complet que pour celui negligeant les autocorrelations. A partir des resultats des simulations MCMC, on peut aussi reconstruire une estimation des variables latentes Z; et par consequent du bruit Ut intervenant dans (10.30). On a fait l'hypothese que Ut etait un bruit blanc gaussien. La figure 10.9 en donne les caracteristiques statistiques; on peut verifier que les hypotheses dindependance et de norrnalite sont ici tres acceptables.
208
Pratique du calcul bayesien
~l
.~
-0.4""-- 0:":.2""-~--:'=------'~~ o 0.2 0 .4 0. 6 (e)
]~
- 1.5
-1
-0 .5
a
~l ~
- 0. 8
-0. 6
- 0 .4
~I .:~ (b)
(a)
0. 5
- 0.4
o
- 0.2
0.2
(d)
]~ -1
- 0. 5
0
0 .5
1
0.4
1.5
-0.2
Figur e 10.8 - Dist ribu t ions marginales a posteri ori de {3 (en t raits pleins modele avec auto regression des residua et en pointilles sans autore gression des residu s)
Epilogue Le lecteur de ce chapit re t rouvera dans les et udes sur Ie meme sujet publi ees par Girard et Parent , des reponses aux question s non traitees ici, en parti culier : - comment fait-on pour choisir un modele ou declarer qu 'un e variable n'est pas significativement influente 7 Si on considere les 5 variables pot entiellement explicat ives et deux possibilites de depend ance des residus (independan ce ou autoregression d 'ordre 1) du modele (10.30), on peut en effet const ru ire 62 modeles element aires a 1, 2, 3, 4 ou 5 vari ables explicati ves (Girard et Parent , 2004) ! - les result ats sont-ils t res sensibles au choix d'un prior (Girard et Parent , 2000) 7 - comment utili se-t-on en pratique les resultats d'un tel modele pour regler a de nouvelles valeurs de consignes, les commandes du pro cede (Girard et Parent , 2001) 7 Peut-on vraiment ameliorer la qualite du produit fini 7 Toutes ces questions sont dignes d 'interet , mais nous avons pluto t voulu dans ce chap itre attirer l'attentio n du lecteur, a partir d'un cas reel, sur les aspects de const ruction d'un modele stochastique. A bien des egards, cela ressemble a un jeu de LEGO et c'est facile ! Le cas de la fabri cation du lait concent re sucre illustr e premierement la const ruction d'un modele pas a pas, par conditi onnement s successifs : le modele se complexifie et en meme temps
10. Assemblage de modules fonctionnels normaux
209
Ie) """""Iily check
(.:1)
0.999 0.997 0 .5
...-------._---.-
+
I
+~.'
0.99 0.98 0.95 0.90
-0.5
0.75 -1
10
0
15
a:l
,,)
0.50
12
0.25
10 0.10 0.05 0.02 4
0.01 0.003
0 0.1
0.001 02
03
0.4
0 .5
+ ~
-1
0 Data
Figure 10.9 - Verification du caractere de bruit blanc Gaussiens des Ut : (a) autocorrelogramme, (b) histogramme, (c) Q-Q plot s'edifie par une sorte de recul vers les couches profondes de variables latentes, grandeurs des porteuses de l'explication conceptuelle du precede. Deuxiemement, il est rassurant de constater que l'intendance suit ! L'approche bayesienne donne les moyens de realiser l'inference de tels mode les de facon tres simple : calquant la structure conditionnelle de la construction intellectuelle explicative, l'algorit hme de Gibbs brise un gros calcul difficile en une sequence de simulations plus elernentaires. Au chapitre suivant, ce caractere ludique persiste, mais le jeu se complique quelque peu : on s'eloigne de la commodite de conjugaison du modele normal tandis que le caractere dynamique du systeme et sa dimension temporelle deviennent essentiels.
Chapitre 11
Quantifier les incertitudes en bruitant un modele deterministe : evaluation de la pollution indoor Prologue Ce chapitre traite d'une pollution particulierement pernicieuse, la pollution
a l'interieur des habitations par les materiaux emettcurs couramment utilises
dans la fabrication des objets usuels. Cette pollution peut constituer une menace pour la sante. Par consequent, determiner le temps d'activite d'un emetteur de polluants est utile, notamment pour I'elaboration de normes. Nous traiterons specifiquement Ie cas des formaldehydes emis par certains tapis et carpettes. II s'agit d'un phenomene intrinsequement non lineaire et lc but est de determiner le temps au bout duquelle materiau emetteur a perdu l'essentiel de son activite. La mesure du taux d'emission est indirecte. On la deduit de la concentration du polluant regulierement mesurce dans une enceinte climatisee et ventilee. En pratique, le dispositif experimental produit peu de donnees. Typiquement, il faut maintenir la ventilation et les conditions experimentales rigoureusement constantes durant une dizaine de jours. On comprend qu'une telle experience n'est pas aisement repetable dans les memes conditions; on peut meme dire qu'elle est unique! Par consequent, il est essentiel de quantifier les incertitudes sur les parametres qui regissent le taux d' emission, en particulier pour comparer les effets potentiellement nocifs de produits concurrents.
212
Pratique du calcul bayesien
11.1
Introduction
De nombreux materiaux menagers tels que peintures, papiers peints, tapis, etc., peuvent emettre des composes organiques volatiles (COV). Les COY comprennent des centaines d'especes chimiques, mais possedent tous le point commun de s'evaporer et de se diffuser a temperature de l'air ambiant (Squinazi, 2002). Le taux cl'emission spccifique (masse/surface/temps) depend de la temperature et de l'humidite de l'air ambiant (Haghighat et De Bellis, 1998). Les recherches, realisecs au cours des dernieres decennies, montrent que la pollution de l'air a l'interieur des habitations peut largement exceder les niveaux releves en plein air et menace done la sante humaine de facon significative ((Wolkoff, 1995), (Samet, 1993)). Comme generalement plusieurs sources de COY interferant, la plupart des etudes de sante portent sur la totalite des divers composes organiques volatiles (TCOV). Dans tous les cas, caracteriscr la pollution engendree par le materiau sous investigation passe d'abord par une estimation du profil temporel d'un taux cl'ernissiou que nous noterons () (t). L'approche standard fait l'hypothese d'une degradation exponentielle a deux parametres qu'il faudra estimer, a savoir le taux d'emission initial ()o 2: 0 et un parametre, A > 0, propre au compose chimique specifique emis par le materiau etudie (Tichenor, 1989). Malheureusement, on ne peut pas mesurer de facon directe des observations appariees (()i, t i ) . V ne mesure indirecte est obtenue en placant un echantillon de l'objet emetteur dans une enceinte climatisee et ventilee appelee chambre d'emission. L'observable est le niveau de concentration du polluant que l'on mesure regulierement a la sortie de la chambre. C'est a partir des observations (Ci ,ti) et du modele retenu que l'on derivera le profil temporel du taux d'emission () (t) ,susceptible de fonder une aide a la decision. Ce chapitre rep rend des donnees reelles, publiees par (Hayter et Dowling, 1993) qui les ont analysees de facon classique.
11.2
Experimentation et approche classique
Note 11.1 M, L et T sont respectivement les unites de masse, de longueur et de temps. Une chambre dcmission est une enceinte climatisee, de volume V, dans laquelle on place un morceau de l'objet emettcur d'aire A. On s'assure de la diffusion du polluant dans toute l'enceinte et une ventilation q, maintenue rigoureusement constante, permet de remplacer un volume d'air pollue par un volume egal d'air frais. La concentration du polluant dans la chambre, soit C (M L -3), est mesurce a la sortie (fig. 11.1). Les couples (Ci , t i ) permettent d'estimer le profil temporel du taux demission du polluant, () (ML- 2T- 1 ) . Pour interpreter les donnees sur lesquelles s'appuie lc modele, il faut garder a l'esprit les trois hypotheses suivantes. 1.
A chaque instant, la concentration du polluant dans la chambre est homogene dans tout lc volume.
11. Evaluation de la pollution indoor
213
Figure 11.1 - Schema du dispositif experimental. 2. La ventilation est maintenue rigoureusement constante durant toute la duree des operations. 3. La cha mbre est parfaitement etanche en ce sens qu 'il n'y a ni source ni puits en dehors de l'emission du rnat eriau et udie et de la ventilation controlee. Ty piquement, une experience dure une dizaine de jours et produit un echa ntillon de taille redui te, generalement moins d'une vingt aine de mesures (Chang et Guo , 1998). La repetition de l'experience dans des condit ions identiques est une vue de l'espri t , d'aut ant plus que Ie morceau du materiau emet te ur est alors « use ».
11.2.1
Modelisation du taux d''emisslon
Pour modeliser Ie taux d'emission du polluant par l'obj et emette ur, une approche standard consiste a supposer que ce taux , 0, a une decroissance exponentielle avec Ie temps (Tichenor , 1989) :
O(t) = 00 exp( -At )
(11.1)
- Le par ametre 00 est Ie taux d 'emission du mat eriau (M L -2T- 1 ) au temps initi al to = O. - Le parametre A (T - 1 ) caracte rise Ie compose chimique specifique emis par l'obj et emetteur.
11.2.2
Modelisation du changement de masse du polluant
Pend ant tout inte rvalle infinitesimal dt , l'evolution de la masse du polluant de (t) / dt, est la difference ent re la masse emise par Ie mat eriau de surface A (L 2 ) et la masse quit tant la
a l'interieur de la cha mbre de volume V (£3) , soit
214
Pratique du calcul bayesien i
t C i
t C
1 0.5 0.219
2 1.5 0.397
3 2.5 0.410
4 4.5 0.549
8 72.5 0.132
9 144.5 0.019
10 168.5 0.031
11 196.5 0.027
5 8.5 0.333 12 216.5 0.023
6 24.5 0.243
7 48.5 0.163
13 240.5 0.018
Tableau 11.1 - Donnees cl'ernissions de formaldehyde (Hayter et Dowling, 1993). chambre du fait de la ventilation forcee :
dC(t) dt
=
A B(t) _ qC(t)
V
(11.2)
En substituant (11.1) dans (11.2) et en resolvant l'equation differentiell« correspondante sur l'intervalle [0, t], on obtient la concentration du polluant dans l'enceinte au temps t
Aeo C(t) = Co exp (-qt) + V(q _ A) (exp (-At) - exp (-qt))
(11.3)
Le parametre Co represente la concentration initiale inconnue du produit dans l'enceinte, car l'introduction du materiau emetteur dans la chambre et les verifications d'usage precedent cvidemment le lancement des operations. Remarquons que C(t) tend vers ( Co + exp (-qt) quand >. tend vers q
q1!0)
(la concentration dans la chambre se degrade de facon purement exponentielle si la vitesse ci'evacuat.ion compense exactement I'emission).
11.2.3
Breve etude critique du travail publie
Revenons au probleme discute par (Hayter et Dowling, 1993). Uno chambre d'essais de grandeur V == 0.053m 3 avait ete utilisee avec un echantillon de tapis de surface A == 0.0210m 2 et une ventilation constante q == 1.01h- 1 (tableau 11.1). D'abord, les auteurs ont suppose Co == 0 dans (11.3). Ensuite, ils ont evalue les parametres inconnus eo et A en ajustant le modele aux valeurs des donnees en utilisant des techniques de regression non lineaires. Ils trouvent : eo == 1.27 f-Lg m 2h- 1, A ~ 0.024 h- 1(R 2 ~ 0.94) Le graphe des residus montre que la variance residuelle semble augmenter avec la concentration. Dans ce cas, cela mettrait en defaut l'hypothese d'une distribution homogene des erreurs de mesure du polluant au cours du temps. En utilisant ces memes donnees, nous avons utilise une methode numerique pour resoudre le memc problcme non lincaire sans supposer Co == 0 dans (11.3). Nous trouvons : eo ~ 1.25 f-Lgm-2h-1, A ~ 0.023 h -1 et Co ~ 0.05 f-Lgm-3 (R 2 ~ 0.94). Bien que nos resultats ponctuels soient tres proches des precedents, la condition Co i=- 0 apparait bien plus realists parce que l'operateur a besoin de temps
11. Evaluation de la pollu tion indoor
215
o 0.06
0.5
1:
M
o
~ 002
C
.~
o·
0.04 O.4cP ··
0.3 f
"-
··; · · · · · · · ·
~
8 0.2 0.1
co => -o
o
o
:~
LJ
0:
o o
o
-0.02 .0 0 0 0· .
-0.04
······ ········· ·· 0··
-0.06 ~~'-:--~L............J 1e-3
1e-2
1e-1
1eO
Concentration (~g/m3)
Figure 11.2 - Concentrat ions et residus des estimateurs ponctuels calcules par Hayter et Dowling.
pour met tre en place l'echantillon du materiau « emettant » dans la cha mbre avant de lancer les operations.
11.2.4
Discussion
Dan s les applications, il est preferable de remplacer les valeur s uniques que fourni t I'estimation classique par des intervalles decrivant toute la gamme de variati ons des valeurs possibles des par ametres. Ainsi, (Jones, 1999) ra pporte que les effets nefastes sur la sante de l'exposition aux form aldehydes peuvent survenir par inhalation ou contact direct . Par exemple, une exposit ion a des concentr ations situees ent re 0.01 et 25 ppm (1 ppm = 1.2 mg /m 3 ) entraine des irritations des voies resp irato ires superieures. En ce qui concerne les normes de securite , aucun fabricant d'obj ets domest iques ne pourrait se satisfaire avec une cour be de taux d'emission des materiaux fondee sur des esti mations ponctuelles sans la moindre idee quant aux inte rvalles de variations possibles. En clair , les est imations avec intervalles surviennent chaqu e fois qu 'une forte sanction penalise un jugement errone. Nous sommes ici, dan s une sit uation ou l'infer ence classiqu e est particulierement impuissante par ce que, comme nous l'avons vu ci-dessus, la taille de l'echantillon est par ticulierement petite (et les intervalles de confiance de la st atistique classique s'appuient sur une persp ective asymptot ique) tandis que la cour be du temps de concentration du pollu ant est intrinsequement non lineaire, si bien que les erreurs d'echantillonnage ne peuvent pas etre connues. C'es t la raison pour Iaqu elle, nous et udions le probleme de Hayter et Dowling d'un point de vue bayesien , plus efficace dans ce cas.
216
Pratique du calcul bayesien
11.3
Bruiter le modele deterministe
Dans cette partie, nous developpons un mecanisme aleatoire capable de (re)generer des donnees statistiquement indiscernables de celles deja enregistrees (tableau 11.1). Travaillons d'abord a partir d'arguments deterministes : la valeur attendue, Ci , du niveau de concentration de polluant dans la chambre au temps ti est la valeur C(t i). Ensuite, pour representer l'alea de mesure, nous choisissons une densite de probabilite (vraisemblance) d'ou les observations seront, par hypothese, tirees de facon independante, Enfin, nous utiliserons Ie logiciel WinBUGS (Spiegelhalter et al., 2003) pour calculer la distribution a posteriori des parametres du modele.
11.3.1
Une strategic de modelisation des incertitudes
Selon la relation (11.1), la degradation exponentielle au temps ti depend de sa valeur precedente au temps ti-l comme suit: ().1, == ().1,- 1 exp
(-Ad·) 1,
,
i == 1 2 ... ,
,
(11.4)
ou (11.5) De meme, en reprenant la relation (11.3), on voit que le niveau de concentration dans la chambre au temps t, depend : 1. de sa valeur au temps ti-l ;
2. du bilan net entre la production et l'evacuation par la ventilation du formaldehyde durant le laps de temps n, : (11.6)
A present, nous devons representer les incertitudes car il est clair que la concentration observee, Yi, n'est pas la « vraie » valeur du niveau de concentration de polluant dans la chambre au temps t i . Plusieurs strategies de modelisation des erreurs sont possibles. La plus simple est la suivante : 1. le taux
(}i est
suppose sans terme d'erreur et le cumul donne: (11.7)
ou t, est Ie temps ecoule depuis le debut des operations (tableau 11.1). 2. Yi fluctue aleatoirement autour d'un niveau moyen C, == C(t i ) et les termes d'erreur Ci sont iid selon une distribution de Laplace-Gauss, localisee sur 0 et une precision T / d..
11. Evaluation de la pollution indoor
217
Remarque 11.1 La precision est divisee par n; parce que nous supposons qu'elle decroit tandis que le laps de temps entre deux observations consecutives augmente. Un tel choix nous a semble raisonnable, mais la discussion est ouverte. Ces hypotheses conduisent au modele d'echantlllonnagc suivant : (11.8)
avec (11.9)
Ce modele presente quatre ou trois parametres selon que l'on considerc la concentration initiale, Co, comme une quantite connue ou non ~
== (A, 8o, T) ou
~
== (Co, A, 8o, T)
On sait que cette concentration est tres faible (c'est la quantite de polluant emise entre le moment OU l'operateur place l'objet dans la chambre et l'instant OU il lance les operations). Avec les donnees du tableau 11.1, son estimation ponctuelle est Co ~ 0.05 Mgjm 3 . Bien que le modele a quatre parametres soit calculable sous WinBUGS, il presente un probleme d'identifiabilite et nous lui preferons le modele a trois parametres, plus parcimonieux.
11.3.2
Application de la regie de Bayes
C, et d; etant respectivement donnes par les relations 11.9 et 11.5, la vraisemblance du N -echantillon y == {Yi : i == 1,2" .. ,N == 13} (tableau 11.1) est triviale (11.10)
On le sait, la distribution a priori represente l'expression d'une croyance sur la quantite inconnue ~ avant que les donnees y soient disponibles (voir chap. 7). Ici, notre conviction est assez faible et nous choisissons un prior de reference neutre qui sera facilement domine par la vraisemblance. Comme tous les parametres sont des quantites positives, un prior non informatif est obtenu comme un cas limite de la loi gamma sous la forme [~] ex [0 0 ] x [A]
X
1
[T] ex OaT A
(11.11)
La regIe de Bayes fournit une expression inexploitable « a la plume» et nous avons utilise le logiciel WinBUGS (voir code a l'annexe F).
218
Pratique du calcul bay esien
11.3.3
R esultats
WinBUGS a genere trois chaines de 50000 iterations chacune (controle de la convergence) . Les 20000 premieres constituent la periode de chauffe, ignoree dans l'analyse statistique pour eliminer une influe nce liee aux conditions initiales. Une iteration sur 10 des valeurs restantes a ete exp loitee dans les resultats qui suivent, soit 9000 valeurs (3 x 3000) . Les res ultats sont presentes dans Ie tableau 11.2.
I Unites
I I C90
x
h
eo
I H&D I
-1
p,g/m'2/h
a=l /Vi Demi-vie T
h
0.008 1.15
0.017 1.28
0.035 1.42
0.023
0.032
0.048
19
42
93
0.024 1.27 29
Tableau 11.2 -- Taux d 'ernission : IC90. Les estimations ponctuelles fournies par Dowling et Hayter (H&D) sont dans le ventre des distributions marginales a posteriori correspondantes (fig. 11.3, ligne pointillee verticale) . C'est tout a fait dans l'ordre des choses car nous avons utilise un prior non -informatif, laissant parler les donnees. L'avantage decisif de l'approche bayesienne ne se situe pas, pour ce cas, dans l'ut ilisat ion d 'un prior, mais bien par l'ob tention d 'un intervalle de credibilite de 90 % pour les de ux parametres qui nous interessent (tableau 11.2) . On constate que l'intervalle de credibilite qui concerne ..\ est d'ailleurs tres nettement dissymetrique, resultat impossible a obtenir avec l'intervalle de confiance de l'est ima tion classique, par nature syrnetrique.
350
300
300
250
250 200 200 150 150 100
50
0,075
01
12
1.4
1.6
18
8,
Figure 11.3 - Distribution margina le a posteriori des parametres objectifs.
11. Evaluation de la pollution indoor
219
En prime, nous remarquons une forte association a posteriori entre>. et 80 (fig. 11.4) . Finalement, la distribution a posteriori du profil du taux d'emission du tapis au cours du temps peut etre resumee par les courbes des quantiles 5 %, 50 % et 95 % calculees pour chaque valeur du temps (fig. 11.5). La ligne continue montre la mediane et les lignes pointillees representent l'intervalle de credibilite a 90 % tandis que la ligne en gras montre le profil t emporel obtenu avec les estimations ponctuelles des auteurs (Hayter et Dowling, 1993).
18
1.7
1.8
1.5
.0 " 13
1.1
O'~
0.01
o_~
o.m
Q~ x
O~
0.00
0.07
QOO
Figure 11.4 - Correlation interpararnetres objectifs a posteriori.
C ommentaire On l'a dit, l'analyse bayesienne produit beaucoup plus de resu ltats que les methodes classiques, surtout en ce qui concerne la quantification des incertitudes. Or celles-ci doivent etre considerees lors de la prise de decision. Par exemple, on rappelle que le demi -temps de vie d 'un materiau emetteur est Ie temps necessaire pour qu e son activite diminue de moitie
8(t) = 80 ex p (- >.t ) } 8(t) =0.580
T _ln2 :::}
-
>.
Imaginons que le legisla teur fixe une norme a quarante-huit heures, c'esta-dire qu'il veut que le demi-temps de vie soit inferie ur a ce delai. Dans ce cas , si on se contente des estimations ponctuelles (11.2) , Ie tapis a perdu la moitie de son activite emet t rice apres 29 heures et cette norme est respectee. La pris e en compte des incertitudes aboutit a la conclusion inverse . Evidemment, comme toujours, ces resultats dependent de toutes les hypotheses sur lesquelles l'analyst e s'est appuye.
220
P ra tique du calcul bayesien
- '" 0"
1.2
'"
-H&D
o. 02
12
15 18 Temps (jour)
21
24
27
30
Figure 11.5 - Profil te mporel des taux d'emission et inter valle de credibilite
a 95 %.
Epilogue Ce cha pit re illustre les apports de I'an alyse bayesienne pour l'etude des emissions de formaldehydes d'un echant illon de tapis. Le profil du taux d'ernission au cours du temps du materiau et udie est I'obj ectif de I'experience, mais il n'est pas dir ect ement observable. On utilise un instrument approprie : un modele reduit de chambre aeree conte nant l'echantillon polluant . Les donn ees apparaissent comme des series discretes d'observations appariees, repr esent ant les niveaux de concent ration de polluant dan s la cha mbre , au cours du temps. Celles-ci sont utilisees pour modeliser Ie profil du niveau de concentration de polluan t dans la chambre au cours du temps qui est intrinsequement non lineair e. On peut ensuite I'u tiliser a son tour, pour est imer Ie profil du taux d'emission au cours du te mps de I'echantillon et udie. Sous Ie paradigme bayesien, un modele statistique simple nous a permis de quant ifier les incertitudes at tachees a une estimation pon ctuelle des parametres du modele. En utilisant un prior joint non informat if, nous avons utilise les techniqu es de Monte-Carlo par chaine de Markov pour calculer la dist ribu tion a post eriori mar ginale de chaque par ametre objectif. Prend re en compte les incertitudes permet des recomma nda tions operationnelles de prudence : par exemple, au vu des donn ees experiment ales, il est fort plausible que Ie profil du taux d 'emission au cours du temps ne soit pas nul passe 10 jours, mais on peut parier avec confiance qu 'il Ie sera au-d ela de 20 jours. De te ls resultats sont essent iels pou r la prise de decisions dans Ie domaine des normes de securite en sante publique.
Chapitre 12
Les avantages de la
modelisation hierarchique : application a la capture-marquage-recapture des saumons Prologue Voici un modele bayesien hieturchique (MBH) pour l'analyse des donnees de capture-marquage-recapture de saumons. Ce chapitre se presente comme une suite au chapitre 8 et s'appuie sur l'etude (Rivot et Prevost, 2002). Chaque annee i, ces deux chercheurs de l'INRA de Rennes veulent estimer le nombre inconnu Vi de saumons qui remontent la riviere Oir pour frayer ainsi que la probabilite de capture ()i du piege utilise pour effectuer ces mesures. Ils disposent d'une seric d'observations allant de 1984 a 2000 collectees sur le terrain par les techniciens de la station experimentale du Moulin des Princes, Nicolas Jeannot et Francois Burban, aides de Jean-Yves Moelo. Pour analyser de telles donnees, on peut vouloir, en premier lieu, faire I'hypothese d'indcpcndance complete entre les annees, c'est-a-dire imaginer que les resultats des experiences de capture-marquage-recapture d'une annee ne nous amenent aucune information quant aux resultats possibles des autres annees. A l'oppose, on peut etre tente d'ignorer la variabilite entre chaque annee en regroupant en un memo echantillon les donnees de toutes les annees comme si elles provenaient du meme modele d'observation. Le modele hierarchique realise un compromis astucieux entre ces points de vue extremes. II suppose que les annees ne sont ni completement identiques ni completcment independantes et considere que les ()i et les
222
Pratique du calcul bayesian
Vi sont issus d'une memc distribution de probabilite dont les parametres sont inconnus. Lorsqu'il y a peu de donnees, un modele qui suppose l'independance entre les annees menera a des inferences a posteriori pauvres. En effet, pour ces annees avec un faible effectif mesure, les donnees apportent peu d'information, ce qui produit des distributions a posteriori imprecises et difficilement exploitables. La superiorite du modele hierarchique vient de ce qu'il organise le transfert d'information entre les annees puisque ce sont des unites statistiques qui partagent une caracteristique commune. II pallie egalement un autre inconvenient de I'independance interannuelle qui conduit a des resultats beaucoup plus sensibles au choix des distributions a priori (( Gazey et Staley, 1986), (Chao, 1989)) que lorsqu'on impose une structure hierarchique.
12.1
Donnees
Les series de donnees, relativement longues mais peu abondantes (petite taille de I'echantillon), sont assez frequentes quand on veut estimer par des techniques de capture-marquage-recapture la taille d'une population sauvage durant plusieurs annees. Par exemple, sur la rivicre Oir, en Bretagne, les agents de l'INRA ont collecte des donnees sur les saumons adultes qui reviennent frayer, pour chaque annee i de 1984 a 2000. Les donnees du tableau 12.1 se presentent sous la forme suivante : Ci represente le nombre de saumons captures au piege a l'embouchure de la rivierc (station du Cerisel). Un nombre Xi de poissons captures ne sont pas relaches en amont, soit qu'ils meurent en cours de manipulation, soit qu'ils soient gardes pour des experiences ou pour la production d'oeufs. On appelle m, ~ c, - Xi le nombre de poissons marques et relaches. Ces poissons relaches dans la riviere sont marques individuellement avant de poursuivre leur remontee pour frayer. L'echantillonnage de recapture est rassemble pendant et apres le moment du frai. Appelons r, le total de tous ces poissons recaptures ou observes : parmi ceux-ci, on retrouve Yi poissons deja marques.
12.2
Modele de capture-rnarquage-recapture
Les inconnues du probleme sont evidemment le nombre de saumons (Vi) qui remontent la rivierc Oir pour frayer et la probabilite de capture ((OJ) du piege utilise l'annee i pour effectuer ces mesures, comme le schematise la figure 12.1. Sachant la valeur de ces parametres inconnus (Vi et OJ), la vraisemblance donnera la loi des variables aleatoires (C i, Xi, u; u; Yi). Dans la suite du chapitre, on utilisera le terme data pour designer l'ensemble de ces observations des donnees (Ci, Xi, tiu, r., Yi). Note 12.1 Encore une fois, pour des raisons pedagogiques, on distingue la variable aleatoire X de sa realisation x. Les lettres latines sont reservees aux
12. Les avantages de la modelisation hierarchique Annec 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
c,
Xi
mi
r,
Yi
167 264 130 16 226 235 15 44 31 100 32 109 70 56 34 154 53
13 48 37 4 43 36 8 0 11 19 14 7 15 22 4 6 0
154 216 93 12 183 199 7 44 20 81 18 102 55 34 30 148 53
22 25 9 24 12 56 17 24 9 7 5 46 82 15 36 35 37
12 21 5 2 12 56 2 23 4 4 1 39 25 12 6 23 4
223
Tableau 12.1 - Donnees de capture-marquage-recapture pour les saumons au cours de leur remontee migratoire dans la rivicre Oir pour frayer. grandeurs aleatoires observables et les parametres inconnus sont dcsignes par des minuscules grecques. Comme tout modele, ce modele necessite egalement quelques hypotheses simplificatrices. - H1 : Tous les saumons de l'ensemble Vi sont supposes pouvoir etre individuellement et egalement pris dans le piege, avec la me me probabilite OJ. OJ est constante pendant la saison de migration. - H2 : La taille de la population de saumons en amont du piege reste invariable au cours de l'experience. Aucun saumon ne peut redescendre le courant apres avoir franchi le piege, II n'y a ni mortalite par suite du marquage, ni mortalite naturelle entre le moment du marquage et celui de la recapture. - H3 : II n'y a pas de pertes specifiques dues au marquage une fois le poisson relache en amont du piege, - H4 : La probabilite de recapture est la me me pour tous les poissons marques ou non.
12.2.1
Modele Bernoulli d'alea pour la premiere phase
Sous I'hypothese d'egalite des chances d'etre capture HI, on peut considerer la migration des saumons Vi comme des experiences de Bernoulli independantes
224
Pratique du calcul bayesien
t
Amont •
Recaptures y = nbde marques sur r captu res
Remise a l ' eau
m =c-x nb de m arques
Poissons evitant le pieg e
~_""'\ - . Piege de
remontee c = nb de captur es
~ ~~ Aval
Stock entrant
'Y =
p op. de saum ons adultes
Figure 12.1 - Schema du piege de remontee des saumons adultes.
avec une probabilite de succes of. En consequence , C i est le resultat d 'une exp erience binomiale avec Vi repetitions OU chaque saumon a une probabilite of d'etre pris :
[C· = ~
12.2.2
c·lv t
t ,
01.1]
= CC i (Ol) Ci (1 _ Ol)!li- ci Vi z Z
(12.1)
Modele Bernoulli d'alea pour la seconde phase
La loi de la variable Xi (perte par manipulation, proportion gardee pour la reproduction) n'a pas d 'importance en soi, en tout cas a l'egard du probleme de representation qui nous interesse, et on travaillera dans la suite de ce chapitre conditionnellement ala connaissance de Xi = X i ( X i connu). Les hypotheses H2H3 permettent de considerer que la difference Vi - Xi est le nombr e de saumons dans les frayeres au-dela du piege et qu 'il se trouve m, saumons marques parmi eux. Dans cet te seconde phase du precede, on cherche la loi de Y; sachant
M, =
ttu ,
En premiere approche, l'echantillonnage de recapture fonctionn e comme si l'echantillonnage de recapture r i et ait tire au hasard dans la population totale Vi-Xi . Plus exactement , l'echantillon de recapture conti ent Y i poissons marques provenant des m; marques durant la premiere phase et Z; = ri - Yi non marques parmi un nombre to tal Vi - X i - m; de poissons non marques en seconde phase. L'experience de recapture peut se concevoir comme le resultat r est le pararnetre de recapture de deux experi ences binomiales OU le parametre O
12. Les avantages de la modelisation hierarchique
a I'annee i
225
:
(12.2)
12.3
Modele bayesian hierarchique echangeable
Le modele bayesien hierarchique, note ci-apres MBH, impose une structure hierarchique sur l'efficacite de la capture et egalernent sur la taille de la population. D'une annee (ii) a l'autre (i 2 ) , les nombres de saumons ViI ou Vi2 qui remontent la riviere Oir pour frayer ne sont pas les memes, mais ils possedent quelque chose en commun : il s'agit de la meme population ecologique implantee sur la rivierc Oir, et les quantites ViI et Vi2 se ressembleront sans, bien sur, etre identiques. De la meme maniere, comme c'est toujours la meme procedure de piegeage que l'on met en ceuvre pour effectuer le marquage, la probabilite de capture (OTI ) du piege utilise l'annee i 1 partage quelques caracteristiques avec 0T2 , la probabilite de capture a I'annce i 12 . Elles ne sont pas egales, car il reste une certaine variabilite Iiee aux facteurs non maitrisables qui influent sur les deux experiences (debits de la riviere, conditions meteorologiques, etc.). II en va de meme pour la probabilite de recapture 02 de la seconde phase. Dans la suite, on appelle Oi == (OI, 0;) le parametre vectoriel des capturabilites des deux phases de chaque annee i. Le modele hierarchique rassemble toutes les annees a travers un niveau de repartition des parametres inconnus qui explique les similitudes entre l'experience de capture-marquage-recapture et la dependance parmi les tailles de population. Fondamentalement, l'hypothese hicrarchique se traduit par un niveau conditionnel supplementaire des distributions de probabilite (Gelman et al., 1995b) decrivant chaque experience annuelle. Considerons d'abord la mise en place d'une structure hierarchique pour les efficacites de capture et de recapture. Le MBR suppose que les Oi sont issus d'une meme distribution de population [Oi I,], conditionnelle a un vecteur , dhyperparametres inconnus. On attribuera une distribution a priori [,] aces hyperparametres. En effet, les efficacites annuelles, Oi, resultent dexperiences analogues utilisant le meme equipement et le meme protocole experimental. La structure hierarchique de la distribution de probabilite marque la dependance entre les Oi en exprimant les similitudes et l'heterogeneite des Oi. Des variations entre les Oi peuvent etre dues a des changements imprevisibles de l'environnement (niveau de la riviere, temperature) ou du comportement du poisson au cours des annees. Le MBR considere , comme la quantite inconnue d'une distribution unifiant toutes les annees, Ces hyperparametres reglent en particulier la variance et la moyenne des Oi : une variance nulle signifie qu'une meme valeur du parametrc Oi doit etre adoptee pour toutes les annees, tandis qu'une variance infinie pour la distribution des ()i signifie que chaque annee est independante. Entre ces deux extremes, la mise a jour par inference bayesienne de
226
Pratique du calcul bayesien
Priors sur Jet r
hyperparametres
parametres
annee i
Mode e d 'aleasn turels donnees
Figure 12.2 - Le modele hierarchique introduit un niveau de coherence interannuel par l'intermediaire des hyperpararnctres (r, 8)
la distribution des hyperpararnetres realise le transfert de I'information d'une annee sur ses voisines. Unc structure hierarchique est egalement possible pour assurer une certaine coherence interannuelle des tailles Vi de la population des saumons de l' Oir. Cette population est observee pendant plusieurs annees (correspondant aux indices i == 1, ... , I ). Le developpement (progression ou reduction) de la taille de la population depend des memes processus ecologiques quelle que soit I'annee. Les estimations derivees des annecs {1, ... ,i - 1, i + 1, ... ,I} apportent aussi des informations par rapport a la taille de la population d'une annec donnee i. On introduit aussi un niveau hierarchique pour la repartition des Vi via une loi [Vi 16] avec des hyperparametres inconnus 6 et leur propre distribution a priori
[6].
Le MBH decrit a la figure 12.2 traite de facon conjointe les series de chacune des annees i == 1, ... ,I. Les grandeurs (Vi,Oi) ont un statut mixte. Elles dependent du vecteur des hyperparametres ¢ == (r, 6) et sont des variables aleatoires non observables qui conditionnent les observables (Ci , Ii, R i ) elles recouvrent alors de ce fait un statut de parametres inconnus. La distribution a priori conjointe n(v,O,¢) repose sur deux hypotheses: prcmiercmcnt, I'independance entre (0, r) et (v,6) et deuxiemement I'cchangeabilitc de Oiet de Vi (Gelman et al., 1995b). La loi a priori sur tous les parametres s'ecrit finalement:
12. Les avantages de la modelisation hierarchique
227
La distribution a posteriori conjointe [v, Oldata] est obtenue par la combinaison de la distribution a priori jointe [v, 0, ¢] et de l'expression de vraisemblance [datalv, 0, ¢] puis par elimination sur les hyperparametres :
[v, Bldata]
0:
J
[v, B, 4>] [dataIN, B, 4>] d4>
(12.5)
La distribution a priori de (0, r) marque la dependance interannuelle des Oi. L'echangeabilite est un concept plus general que l'independance statistique. II est fonde sur I'hypothese qu'avant de voir les resultats de l'experimentation capture-marquage-recapture (en l'absence de donnees), il n'y a pas d'argument pour distinguer a priori Oi. En termes mathematiques, l'echangeabilite signifie que la distribution jointe des Oi ne change pas quand on permute les indices i. L'ordre dans lequel les donnees ont ete rassemblees n'a pas d'importance. Comme le suggere (Gelman et al., 1995b), la distribution cchangeablc la plus appropriee pour (0, r) considere chaque 0i comme un echantillon independant de la distribution conditionnelle de la taille de la population, parametres par r,7f(Oilr). Nous faisons la meme hypothese rl'echangeabilite pour les Vi. L' hypothese d'echangeabilite combinee avec l'independance entre (O,r) et (v,6"), conduit a la distribution a priori jointe (12.4). Le terme de vraisemblance [datalv, 0, ¢] est le produit des fonctions de vraisemblance annuelles [datailvi,Oi, ¢] note L, dans ce qui suit. L, est issu du modele stochastique qui sert de base au processus d'echantillonnage des experiences de capture-marquage-recapture. La vraisemblance ne depend pas du vecteur ¢ des hyperparametres d'ou la simplification I
[datalv, 0, ¢] == [datalv, 0]
==
I
II [datailvi,Oi] II t; ==
i=l
i=l
Les distributions dechantillonnage utilisees impliquees dans les L, sont des produits de formes binomiales (eq. 12.1) et (eq. 12.2) (Gazey et Staley, 1986). La distribution a posteriori complete conjointe de [v, 0, ¢] s'ecrit, a une constante de normalisation pres, grace a la formule de Bayes : (12.6) Pour obtenir la distribution a posteriori des quantites intercssantcs (eq. 12.5), il faut done integrer la distribution a posteriori complete conjointe, selon chaque composante du vecteur ¢ des hyperparamctrcs (considere ici comme un parametre de nuisance que l'on eliminc par integration)
228
Pratique du calcul bayesien
[v, eldata]
ex
~ (Dr lei I')'] [Vi 18] Li) [')'] [8] d')'d8
(12.7)
"
Le MBH permet un transfert d'informations entre unites statistiques echangeables dont Ie mecanisme probabiliste est decrit par les equations donnees dans l'annexe G.
12.4
Modele bayesian annuel
Le modele bayesien annuel (MBA) suppose l'independance interannuelle des efficacites des deux phases et du nombre d'adultes remontant la riviere Vi. Ce modele peut etre considere comme un cas particulier limite du modele hierarchique echangeable plus general. II suffit d'imaginer que la variabilite de la dispersion interannuelle est tellement grande que les ()i sont tires independamment les uns des autres depuis l'urne hierarchiquc virtuelle qui rassemble tous les ()i. hyperparam etres
o·
1
rt rs u
P i rs sur v
parametres
v.1
e
annee i
Mode e d 'aleas naturels donnees
Figure 12.3 - Le modele annuel avec independance considere chaque annee isolement par I'interrnediaire des hyperpararnetres ("'(1, .."'(1,61, ..61).
Le MBA schematisc a la figure 12.3 suppose donc a priori l'independance complete entre les ()i d'une part et les Vi d'autre part. Sous cette hypothese les donnees de capture-marquage-recapture de l'annee i ne sont utiles que pour estimer les ()i et Vi correspondant a la merne annce. Le MBA a de plus besoin
12. Les avantages de la modelisation hierarchique
229
de specifier une distribution a priori a chaque (Ji et Vi et - au prix d'un abus de langage qui facilitera la comparaison avec le MBH - on appelera ces hyperparametres avec les memes lettres (<5i, Ii). II faut alors introduire les distributions a priori annuelles [vil<5i] et [(Jil,], OU les parametres (<5i, Ii) peuvent avoir des valeurs eventuellement differentes pour les annees, Tout transfert d'information d'une annee sur 1'autre est ainsi impossible et les inferences d'une annee particuliere i ignorent completement ce qui peut etre appris de l'experience issue des annees {1, ... , I} -=F i. On comprend que lorsqu'une meme population est observee pendant plusieurs annees, l'independance interannuelle puisse ne pas conduire a une utilisation optimale de l'information. En structurant la dependance interannuelle, le MBH constate que les experiences de capturemarquage-recapture des annees {1, ... ,I} -=F i donnent, au moins partiellement, des informations sur l' efficacite de la capture et sur la taille de la population de l'annee i. Le but de ce chapitre est de mettre en evidence les differences entre les procedures bayesiennes de mise a jour des hyperparametres de chacun des modeles MBA et MBH, notamment a l'egard de la valorisation de la quantite d'information transmise chaque annee et d'annee en anneo. Notons qu'on peut aussi construire des modeles hybrides qui supposent l'independance pour seulement l'un des deux composants : les efficacites du piege (J ou Ie vecteur des stocks de saumons V, l'autre partie restant modelisee grace a une structure hierarchique. On pourra alors comparer les inferences obtenues sous Ie MBH, Ie MBA et les deux modeles hybrides pour chercher lequel des deux composants (J et vest le plus sensible a la modelisation hierarchique de l'independance.
12.5
Choix des distributions a priori et analyse de sensibilite
La mise en place des distributions a priori est un moment critique de l'analysebayesienne.
12.5.1
Priors du modele avec independance annuelle
Pour Ie MBA, il faut specifier toutes les distributions a priori [(Ji I/i]et [Vi l<5i].
Efficacites beta de la capture et de la recapture Pour chaque composante (JJ et (Jr de [(Ji I,i] , il est naturel d'utiliser des lois beta (eq.2.9) conjuguees de la vraisemblance binomiale (eq, 12.1) en posant ici Ii == (Q;i, /3i).Une premiere simplification consiste a utiliser la meme expertise pour toutes les annees en posant Ii == (Q;i, /3i) == (Q;, /3) (12.8)
230
Pratique du calcul bayesien
Pour le couple (0:, (3) , on prend souvent (~, ~). En effet, la loi beta (~, ~) est le prior de Jeffreys pour le parametre d'une distribution binomiale. Elle est syrnetrique autour de () == 0.5, sans mode ni moment d'ordre deux et charge les queues de distribution () == 0 ou () == 1. D'autres valeurs pour (0:, (3) sont possibles, notamment la loi uniforme (0:,(3) == (1,1). Ces autres priors sont testes dans l'article de (Rivot et Prevost, 2002), ou ces auteurs realisent une etude de sensibilite plus complete.
Stock de poisson inconnu En ce qui concerne le parametre de taille de stock de poissons vi, on pourrait proposer une loi uniforme entre 0 et une valeur plausible a determiner par les experts en biologie du saumon, dependant des annees, Le prior utilise dans ce chapitre fait une hypothese de plus : plus Vi est grand, moins sa valeur est plausible. Par commodite, on supposera que la connaissance a priori n'est pas influencee par des variables explicatives propres a l'annee i. On prendra donc pour [Vi 16i] une distribution proportionnelle a ~ sur un intervalle borne superieurement. (12.9)
On a aussi teste des bornes N m ax == 1000, 2000 ou 3000 ainsi que d'autres formes de distributions et on a ctudie la modification des resultats a l'egard du choix de ces priors (Rivot et Prevost, 2002).
12.5.2
Priors
a deux et.ages
du modele hierarchique
Pour Ie MBH, il faut specifier toutes lcs distributions a priori [()i Ir] et [Vi 16] et les hyperdistributions [r] et [6]. Cette fois, on a un etage superieur qui assure la coherence entre les parametres de chaque annee en les considerant comme des realisations issues d'une urne regie par les hyperparametres 6 et r.
Efficacites de peche et de recapture de type beta II est naturel d'utiliser encore des lois beta pour [()i Ir] en posant ici r == (0:, (3). Pour la loi a priori [r], on cherchera des lois du type non informatif. Si on travaille en moyenne u et variance (J"2, le repararnetrage de (0:, (3) a (fJ, (J") s' effectue par la transformation
0: fJ== 0:+(3 fJ(l-fJ) (J" 2 == ---
0:+(3+1
(12.10)
12. Les avantages de la modelisation hierarchique
231
de telle sorte que se donner une distribution sur (j1, o ) revient a en definir une sur (a, (3). Le prior [,] presente dans la suite de ce chapitre a ete construit comme suit. Pour u, par analogie avec le modele MBA, on prend une loi beta (~, ~) car j1 s'exprime sur la meme echellc que e. Pour (]"2 qui est un parametre d'echelle, on tire selon mais en respectant la condition (]"2 < j1( 1 - j1) verifiee par les moments de la loi beta. On peut justifier cette operation par reference au prior de Jeffreys dj1 pour la loi normale : la transformation choisie revient en effet a prendre ce type de prior sur la moyenne et la variance de la loi beta. D' autres priors, testes dans (Rivot et Prevost, 2002) permettraient d'effectuer une etude de sensibilite plus complete. Une alternative aurait ete par exemple de prendre la distribution prop osee par (Gelman et al., 1995b). Elle consiste a poser:
;2'
d;
u
a
= log( ,8 ); v = log( a + (3)
et a prendre une loi uniforme sur le couple (u, v). Le support de la loi uniforme a ete pris entre - 5 et 10 pour u et pour v car les inferences a posteriori sont quasi insensibles quand on augmente la gamme de variation au-dela.
Stock de poisson binomial negatif En ce qui concerne le parametre de taille de stock de poisson Vi, on pourrait reprendre une loi en ~ ou bien proposer une loi de Poisson (justement!) de parametre 5 pour [Vi 15] . Pour obtenir des resultats plus robustes tout en autorisant une plus grande dispersion, (Raftery, 1988) suggere d'utiliser un melange gamma (a, b) de lois de Poisson, c'est-a-dire une loi binomiale negative. On pose alors ici 6 == (a,b) et (12.11) Reste a choisir un prior pour 5 == (a, b). On peut utiliser la meme approche que precedemment en calculant l'esperance u == ~ et la variance (]"2 == a(~tl) d'une loi binomiale negative et en imposant une loi non informative sur ces quantites. En pratique, on tire au hasard j1 dans une loi uniforme entre 0 et 6000 et (]"2 proportionnellement a -\ dans l'intervalle compris entre 600 et a 106 (ce qui assure la positivite de a et de b). D' autres priors sont testes dans l'article de (Rivot et Prevost, 2002), sans que soient constatees de notables modifications des resultats.
12.6
Resultats
L'algorithme correspondant au modele MBH decrit par les equations 12.1, 12.2, 12.10) et (cq. 12.11) s'ecrit facilement en WinBUGS (voir section G de
232
Pratique du calcul bayesicn
l'annexe G). Le modele MBA et les variantes hybrides s'ecrivent sans difficulte a partir du canevas donne par le modele le plus complique. En suivant les recommendations de (Spiegelhalter et al., 2000), trois chaines differentes permettent de mettre en ceuvre un test pour verifier la convergence de l'algorithme MCMC (Gelman et Rubin, 1992). La periode de chauffe a ete ici prise a 5000, puis 2000 iterations ont fourni un pseudo echantillon des lois a posteriori utilisees pour dessiner la figure 12.4. Les resultats montrent que les inferences obtenues sous Ie MBA peuvent etre peu fiables et tres sensibles au choix des distributions a priori. La figure 12.4 donne les distributions a posteriori marginales pour l'efficacite de capture O} (partie a) et les tailles de population Vi (partie b) au cours des annees 1984 a 2000. Ces evolutions ont ete obtenues pour quatre structures de modeles, Dans cette figure, les traits continus representent les intervalles de credibilites du modele hierarchique bayesien avec hyperpriors (12.10) et (12.9). La ligne a tirets est utilisee pour un modele hybride a structure hierarchique sur les O} seulement avec hyperprior (12.10) et le prior (12.9) sur les Vi, avec N max == 2000 ; la ligne a tirets pointilles reprcsente, elle, un modele hybride avec structure hierarchique sur les Vi seulement avec hyperprior (12.9), et le prior (12.8) sur les Oi, tandis que la ligne pointillee est associee au modele annuel bayesien avec le prior (12.8) sur les O} et Ie prior (12.9) sur les Vi avec N max == 2000. Les distributions a posteriori de O} et Vi derivees du MBA - avec des priors non informatifs - varient beaucoup selon les annces, en termes de centrage et de dispersion, comme on Ie constate sur la figure 12.4. Les estimations des distributions a posteriori de Oi sont particulierement variables selon les annees (fig. 12.4). Mais la grande dispersion de O} observee sur des annees telles que 1992 et 1993, n'a pas forcement de grandes repercussions sur les Vi (voir partie b de la figure 12.4). Les annces OU peu d'adultes sont attrapes indiquent une population de faible taille, pour autant que les autres donnees de recapture permettent ci'ecartcr le fait que cette faible estimation provienne de probabilites de piegeage sous-estimccs. Certaines annees ont des distributions a posteriori de Vi precises et symetriques, tandis que d'autres inversement peuvent avoir des distributions a posteriori dispersees et asymetriques (voir fig. 12.4b). Pour ces dernieres, les limites superieures des intervalles de credibilite a 95 % bayesiens apparaissent indubitablement trop larges etant donne la taille de la rivierc Oir, mais aussi d' apres les connaissances biologiques et ecologiques sur le saumon atlantique. Les inferences sur la taille de la population Vi proviennent essentiellement des experiences de recapture binomiales et dependent donc en premier chef de l'echantillonnage de recapture. Des donnees eparses de marquage-recapture (peu de marquages ou peu de recaptures de poissons deja marques) conduisent a des inferences imprecises (annees 1987, 1990, 1994). Les inferences a posteriori sous le MBA sont assez robustes a l'egard du choix de la distribution a priori sur Oi. Au contraire les inferences a posteriori sur Vi sont tres sensibles au choix du prior. Le changement de la distribution a priori de Vi peut avoir de fortes repercussions sur les distributions a posteriori, surtout les annees OU les donnees sont pauvres.
12. Les avantages de la mod elisation hierar chique
233
Parametree d 'efficacite de capture
Nombre de saumons 1eoo
(b)
1eoo
, ,
1 400 1200 -
1000
!: r
eoo
" !:; ,.
GOO
::00 ..
o
H:m; IlL Ill,'; Il;; •••• j.l,L J..&.a
19 8 4
198~
1•..:.
11: • •••
I
IT~i:t'" IIn.l' t!;:. • .1..
11: , • • •
TIT'
III: 11 11
Ill.
.1...1. ...
1986 1987 1988 19691990 1991 1992199319941995 1998 1ge7 1998 19992000
Figure 12.4 - Distributions a posteriori marginales pour l'efficacite de capture Bi (a) et les tailles de population Vi (b) au cours des annees 1984 a 2000 obtenues pour 4 str uctures de mod eles, Les symboles : (A, "f) marquent respectivement les quantiles de credibilite 2.5 % et 97.5 %; . situe la moyenne, et + la mediane.
La modelisation hierar chiqu e ameliore fortement la qualite des inferences a posteri ori (fig. 12.4). Les inferences les plus pr ecises sont obte nues sous le MBR . La st ruct ure hierarchique sur V i est la source principale d 'am eliorat ions. Compare avec le MBA qui suppose l'independ an ce de Vi et de ()i , le mod ele hybride supposant une st ructure hierarchique sur Ie seul vecteur ()i , n'am eliore pas vraiment les inferences sur la variabl e d 'interet ecologique Vi et la sensibilite au choix du prior sur Vi rest e forte. Les moyennes a post eriori des ()f ne sont que faibl ement attirees vers la moyenn e genera le d 'environ 0.5 (fig. 12.4 a). Au cont rai re, quand on imp ose une st ruct ur e hierarchiqu e sur les V i , l'asyrnetri e et les incert itudes lors de l'estirn at ion des Vi se trouvent fortement redui tes (fig. 12.4b). Les queues de distribution a post eri ori pour les V i s'etalent beaucoup moins. Ces resul t ats connus sous le nom de shrinkage effect dans la lit t erature statist ique (Gelman et al., 2004) semblent plus judicieux et realistes que ceux obtenus via Ie rvIBA. La redu ction de l'in cert it ude est particulierement significative les annees de faibles effect ifs de capturemarquage-recapture . L'augmentation de la pr ecision est insignifian t e les annees
234
Pratique du calcul bayesien
ou les donnees de capture-marquage-recapture sont suffisamment informatives pour permettre I'estimation precise de Vi sous Ie MBA. Enfin, d'autres etudes mont rent que les inferences a posteriori sous Ie modele MBR sont assez robustes it l'egard du choix des priors pour les hyperparametres. (a) Parametre e d ' efficacite de capture 0.025
(b)
Nombre de saumons
0.1 2 r-~-~---~--'
0.10
0.020
0.08
0.015
0.06
0.2
0.4
0.6
0.8
500
1.0
1000
1500 2000
2500
Figure 12.5 - Courbes de distributions a posteriori predictives et obtenues 11 partir du modele hierarchique bayesien
La figure 12.5 trace les courbes de distributions a posteriori predictives obt enues it partir de
[Bldata]
=
J J
[BI,] [r , bldata]d,db
(12.12)
[vlb] b, bldata]d,db
(12.13)
, ,15
[vldata] =
,,15
Ces distributions predictives a posteriori sont calculees a partir du modele hierarchique bayesian. Les hyperpriors utilises sont (12.10) et (12.9). Les courbes sont estimees par des histogrammes frequentiels issus de l'echantillonnage par chaines de Monte-Carlo Markov . La distribution predictive a posteriori de l'efficacite moyenne du piegeage sous Ie MBR (fig. 12.5a) parait relativement peu informative. La transmission d'information entre les annees pour I'efficacite de la capture est faible. Cette observation correspond au peu d 'amelioration obtenu en imposant une structure hierarchique sur les Bi . En revanche, la distribution predictive a posteriori de la taille moyenne de la population est informative avec une valeur moyenne autour de 230 indivi-
12. Les avantages de la modelisation hierarchique
235
dus et 95 % de ses densites de presence dans l'intervalle [40,610] (fig. 12.5b). Les donnees combinees de toutes les annees permettent d'eliminer a priori la possibilite d'une tres forte taille de population de saumons adultes (plus d'un millier par exemple) lors d'une annee additionnelle.
Epilogue La modelisation hierarchique rend plus robustes les inferences du modele a l'egard du choix de prior et de la rarete de donnees. Elle permet le transfert d'informations entre des unites statistiques au nom de leur ressemblance. Le concept d'echangeabilite est la facon probabiliste de quantifier precisement cette ressemblance sous forme d'un modele hierarchique. L'importance relative du transfert d'information est reglee par la dispersion de la distribution aleatoire decrivant la ressemblance entre les unites. Cette dispersion est evaluee de facon quantitative a partir des donnees au cours de la phase dinference.
Chapitre 14
Conclusion Dans l'avant-propos, nous avons declare que notre ambition etait une qualification operationnelle en statistique bayesienne avec, pcut-etre, quelques incursions au niveau maitrise. Avons-nous reussi ? Le lecteur serajuge. Bien sur, nous n'avons jamais dit que ce serait facile, mais avons-nous dit que c'etait utile? Cette question iconoclaste meritc qu'on s'y attache quelque peu. Avec d'autres auteurs, par exemple (Bernier et al., 2000)(Robert, 2006) et (Parent et Bernier, 2007), nous avons insiste sur le fait qu'un modele probabiliste ne vise pas l'explication du phenomene dinteret, mais, et plus sobrement, une interpretation de celui-ci, souvent dans une perspective decisionnelle. Dans cette optique, le role du statisticien est de fournir une aide it la decision au(x) decideurfs). Cette idee n'est pas neuve, mais sa mise en oeuvre dans un cadre bayesien est assez recente, du moins pour les modeles realistes qui impliquent « la souris». On peut en effet affirmer que c'est la mise sur Ie marche d'ordinateurs personnels puissants (et financierement accessibles) qui a veritablcment donne son essor aux methodes bayesiennes, Cela etant dit, y a-t-il des decideurs qui fondent leur choix sur une analyse quantifiee du risque global porte par chacune des decisions en competition? Des evcncmcnts recents comme la creation des produits toxiques en finance pourraient nous inciter it penser qu'une gestion rationnelle des risques est une vue de l'esprit reserves it des chercheurs deconnectes du monde reel. Cependant, nos nombreux collegues et amis qui travaillent dans les services operationnels de grandes institutions privees ou publiques peuvent temoigner de l'importance d'une approche rationnelle. Certes, les motivations different selon le secteur dactivite. mais tous ces services operationnels ont en commun le souci d'exploiter au mieux l'information disponible pour aider it la decision en avenir incertain. A une echelle plus modeste, l'activite de recherche consiste essentiellement it tester des hypotheses it partir dexperiences ou d'observations plus ou moins bien controlees, Dans cette perspective, l'apprentissage de la modelisation probabiliste est incontournable. II serait en effet dommage qu'un chercheur ruine les efforts qu'il a consentis pour recueillir des donnees en ne respectant pas
264
Pratique du calcul bayesien
les principes de base de l'inference statistique : deduire les causes, 0, a partir des effets observes, y, en prenant en compte la nature probabiliste du modele, [yIO, x], et l'infiuence de facteurs agissants, mais non pris en compte dans l'analyse (c'est-a-dire les facteurs autres que x supposes, ici, connus). A condition d'accepter le caractcre incertain de et de le probabiliser, la regie de Bayes resume ces principes a l'aide d'une formule d'une elegante simplicite
°
[01y,x ] == [yIO,[y]x] [0] A l'issue de l'inference bayesicnne sur 0, une nouvelle information exogene, X n ew ,
permet de predire la variable endogene non encore observee,
[YnewIx new, Y, x] =
Ynew :
isr [Ynewle, x new] [ely, x] de
Cette distribution predictive a posteriori n'a pas dequivalent classique. A une echelle encore plus modeste, l'apprentissage de la modelisation statistique bayesienne dans lc cadre d'un cursus universitaire peut etre defendu par son cote educatif. La rigueur de la demarche bayesienne et l'interpretation des resultats obtenus renvoient davantage a une tete bien jaite plut6t qu 'a une tete bien pleine. De ce point de vue, un cours de statistique bayesienne participe pleinement a la formation de l'esprit critique. Finalement, tant dans les services operationnels des grandes institutions, que dans unites de recherche ou les arnphitheatrcs, la representation d'un modele bayesien par un DAG permet de bien distinguer la partie crcatrice de la partie calculatoire et, par la, favorise les approches multidisciplinaires. Quel que soit le niveau, nous pensons que la pratique du calcul bayesien est utile et nous esperons que cette contribution plaira aux etudiants, chercheurs et professionnels de recherche qui nous ferons l'honneur de s'y interesser.
Annexes
Chapitre A
Annexe du chapitre 1 Ie modele normal
• •
Loi normale unidimensionnelle La loi normale unidimensionnelle est un modele statistique parametrique approprie pour representor des quantites incertaines, mais continues, pouvant etre interpretees comme une somme algebrique d'un grand nombre de phenomenes elementaires d'importance comparable. Cette distribution, fondee sur les travaux de Jacques Bernoulli (1654-1705), est souvent attribuee a Laplace (1749-1827) et a Gauss (1777-1855). C'est pourquoi elle est aussi connue sous Ie nom de loi de Laplace-Gauss. Considerons la fonction de densite de probabilite d'une variable aleatoirc reclle, Z, distribuee selon la loi normale standard :
[z]
== - 1
y'21r
exp
(Z2) -2
(A.I)
La combinaison Iineaire, Y == J-L + a Z OU J-L E 1R. et a > 0, est une variable aleatoire reelle, Son esperance et sa variance sont respectivement : J-L == E (YIJ-L, a) et 0'2 == V (YIJ-L, a). Sa densite de probabilite est obtenue en substituant y:J-t a z dans la relation (eq. A.l) multipliee par le Jacobien, ici 1/2. 0'-1 == 7 On reconnait la densite de probabilite d'une variable aleatoire normale, Iocalisee sur J-L et de precision 7 :
Les deux distributions suivantes, fondees sur la loi normale standard, font partie de la boite a outils du statisticien.
268
Pratique du calcul bayesien
Loi du khi-deux Considerons la suite Zl, ... ,Zk de k variables aleatoires reelles iid selon la k
loi normale standard (k ~ 1). La somme de leur carre, soit U ==
L: Zi, est une
i=l
variable aleatoire definie sur les reels positifs. Elle est distribuee selon une loi du khi-deux a k degres de liberte :
Ulk
r-;»
dchisq (ulk) {:} [ulk] ==
( 1/ 2)k/2 k 2 1 r (k/2) u / - exp (-~) 2
On reconnait une densite gamma (voir B), de parametre de forme et de parametre d'echelle (3 == 2 :
(A.3) Q
==
k/2
E (Ulk) == k, V (Ulk) == 2k
Loi de Student Soit Z une variable aleatoire normale standard et U, une variable aleatoire reelle positive, independante de Z, distribuee selon une loi du khi-deux a k degres de Iiberte, La variable aleatoire T== _Z_
JUjk est distribuee selon la loi de Student standard
Tlk
rv
dt (tlk)
r-;»
[tlk]
=B
1
(!,~)
ak
degres de liberte :
Vk
(t +k
2) -
1
k;l
(A.4)
Son esperance est evidemment nulle (loi syrnetrique centree sur zero) et sa variance depend de kENo :
Remarque A.I Lorsque k tend vers l'infini, la densite (eq. A.4) tend vers la loi normale standard. Si on applique une transformation lineaire a T, par exemple Y == J-l + a'T ou a > 0, on obtient une loi de Student a v ~ 1 degres de liberte, localisee sur J-l et de parametre d'echelle a > 0 :
Annexe A
269
Inference bayesienne sur les parametres d'une loi normale unidimensionnelle De la plume
a la
souris selon Ie prior
Soit YIJL, T ~ dnorm (yIJL, T) l'observable d'interet et soit y == (Yl' ... ,Yn) un n-cchantillon iid. On peut construire le prior joint comme suit : 1. la regle des probabilites conditionnelles permet de crcer une dependance entre JL et T : [JL, T] == [JLIT] [T] ; 2. une loi gamma offre une grande souplesse pour decrire un etat de connaissance sur une precision: Tla, b ~ dgamma (Tla, b); 3. La moyenne JL etant un parametre de localisation, un prior normal est un choix judicieux : JLlm, k, T ~ dnorm (JLlm, kT); l'hyperparametre k est compris entre 0 et 1, car il est prudent de degrader quelque peu la precision.
Cette construction permet de faire tous les calculs « a la plume», car toutes les integrales ont une solution analytique. A contrario, I'independance a priori des parametres JL et T fait que certaines integrales n'ont pas de solution analytique! II faut alors recourir a l'ordinateur. Nous ne traitons pas ce cas ici.
Distribution conjointe a posteriori La moyenne et la variance des observations sont respectivement : -
Y ==
n
n1 ~ L..J Yi
S
2
i=l
1
== n
En
i=l
_ 2
(Yi - y)
(A.6)
L'hypothese iid permet d'ecrire la vraisemblance du n-echantillon iid comme suit: [ylJ-l, T] a Tn / 2 exp ( + (J-l _ fj)2) ) (A.7)
n; (82
La densite du prior joint s'ecrit :
[JL,T] ==
1 {f;---T-2-r (a) ba
21r
2a+l
(T (
2))
exp -- k(JL-m) +2b 2
(A.8)
Remarque A.2 Pour obtenir la densite marginale a priori de JL, il suffit d'integrer l'expression (eq. A.8) par rapport a T. Apres quelques manipulations algebriques, on trouve que c'est une loi de Student a 2a degres de Iiberte, 10calisee sur m et de parametre d'echelle c == Jb/(ka). Posons que H representc toutes les hypotheses, notamment les hyperpara-
metres a, b, m, k.
270
Pratique du calcul bayesien
La regle de Bayes et quelques manipulations algebriques conduisent au posterior joint : v' +1
[IL, 71Y, H] ex 7-2-
-
1exp (-b,7) exp (7 -2" (n + k) (IL - m ,2) )
(A.9)
ou "21 ( tis 2 + 2b + n nk + k (jj - m) 2)
b' v'
(A.I0) (A.II)
n+2a ny+km n+k
m'
(A.12)
La constante de normalisation est obtenue par la double integration de la relation (eq. A.9) :
D=
J+ n
21f
r (v' /2)
(A.13)
k b'V' /2
Les distributions marginales a posteriori Parametre IL
L'integration de la conjointe (eq. A.9) par rapport
a7
conduit au resultat
suivant :
[Mly,H]
1
= B
1
IL - m'
(~,~) c'/IJ ( 1 + v' (-c-,-)
2) -(v' +1)/2 (A.14)
ou c'
b' (a+n/2)(n+k)
==
(A.15)
On reconnait une densite de Student (eq. A.5), a v' degres de liberte (eq. A.II), localisee sur m' (eq. A.12) et de pararnetre d'echelle c' (eq. A.I0 et eq. A.15) :
Parametre
7
L'integration de la relation (eq. A.9) par rapport a IL conduit a une densite gamma, de parametre de forme v' /2 (eq, A.II) et de parametre d'echelle inverse b' (eq. A.I0) :
Tly,H
rv
dgamma
(TI~ 'b
l )
(A.16)
Annexe A
271
La distribution predictive a posteriori Dans le cas present, l'observable est une variable aleatoire reelle Y. On a observe l'echantillon y qui est vu comme des tirages aleatoires indepcndants (hypothese iid) dans la distribution de probabilite choisie pour modeliser la repartition de l'observable Y. Ce modele est caracterise par un parametre e. On s'interroge alors sur les chances que cette observable depassc une certaine valeur Yo fixee (anticipation de l'avenir) quand on dispose des donnees y (connaissance du passe). Pour bien distinguer les choses, l'observable Y est notee Z quand on l'envisage dans le futuro Si on dispose de la fonction de densite de probabilite de Z conditionnellement a l'echantillon y (connaissance du passe), nous la noterons [zly]' l'anticipation revient a calculer l'integrale suivante :
Pr (Z > yolY)
=
(JO [zly] dz
J
(A.17)
yO
L'astuce consiste a voir que la densite [zly] peut s'ecrire sous la forme d'une distribution jointe que l'on somme (integre) sur toutes les valeurs possibles du parametre :
[zly]
=
l
=
[z, ely] de
l
[zle, y] [ely] de
Or, conditionnellement au parametre e, la densite au point z ne depend pas de l'echantillon precedemmcnt observe, y. Par consequent la fonction de densite de probabilite de Z au point z, conditionnelle a l'echantillon y, apparait comme le produit de la vraisemblance du point z par la distribution a posteriori du parametre qu'il faut integrer sur tout son domaine
[zly]
=
L
[zle] [ely] de
(A.18)
La densite [zly] est appelee densiie predictive a posteriori. Elle est dite predictive parce que le point z n'est pas encore observe; elle est dite a posteriori parce qu'elle fait intervenir la distribution a posteriori de eobtenue par la regle de Bayes. Remarque A.3 La distribution predictive n'a pas dequivalent classique. En effet, pour sommer sur toutes les valeurs possibles du parametre, il faut accepter qu'il soit incertain.
Cas du modele normal unidimensionnel La vraisemblance au point zest donnee par la densite (eq, A.2) dans laquelle on remplace y par z. La distribution a posteriori de e == (/-L, T) est donnee par la
272
Pratique du calcul bayesien
relation (eq. A.9) normalisee (eq. A.13). Quelques manipulations algebriques, impliquant les equations (A.I0) a (A.13), donnent :
[zly]
= ~Dl°° TVI/2exP(-T(~+b')
x
F(T))dT
ou n +k ( n+k+l
h
F (7)
1+
00
z-m,)2
exp ((n+k+l)7( J-L - m ")2)d J-L
z
(A.20)
2
-00
m"
(A.19)
(n+ k)m' n+k+l
(A.21)
Apres la double integration et quelques arrangements, on trouve 1
ou
1
[zIY]=B(~,~)a"N ( l+ v' ( a"
==
2) _(v'+1 )/2
z - m"
a"
(A.22)
)
2b' (n + k + 1) (n + k) u'
(A.23)
Ainsi, la distribution predictive a posteriori de l'observable est une loi de Student a v' degres de Iiberte, Iocalisee sur m" et de parametre d'echcllc a". La probabilite qu'elle depasse un seuil Yo fixe suit: 1
Pr(Z > yolz) = B (~,~) a"N
1
00
yo
(
1+
1
(z_m,)2)-(V
v' ---;;>
I+1)/2
dz (A.24)
Cette dernicre integrale peut etre resolue numeriquement.
Remarque A.4 1. Le prior est non informatif si k, a, b -+ o. Dans ce cas, [J-L,7] ex 7- 1/2. - Le posterior marginal de 7 est une loi gamma, de parametre de forme n/2 et de parametre d'inverse echelle ns 2 /2. - Le posterior marginal de J-L est une loi de Student a n degres de liberte, localisee sur z et de parametre d'echelle s/ yTi. - La distribution predictive a posteriori de l'observable est une loi de Student a n dogres de liberte, localisee sur z et de parametre d'echelle sJ(n + 1) In. 2. Pour un prior informatif, le prior marginal de J-L est une loi de Student a v == 2a degres de liberte, localisee sur m et de parametre cl'echelle a == Jb/ (ka). On remarquera la similitude des expressions avec le posterior marginal de J-L.
Chapitre B
Annexe du chapitre 2 : les modeles discrets de base La lecture de cette partie plus technique est indispensable. II vous est fortement conseille de refaire les calculs au moins une fois.
Note B.1 Le sigle v. a. r. signifie variable aleatoire reelle. Le sigle pdf signifie fonction de densite de probabilite (probability density function). Par abus de langage, on peut l'utiliser pour decrire la distribution de probabilite d'une variable aleatoire discrete (v. a. d.).
Le processus de Bernoulli 1. Imaginons qu'on dispose d'une serie d'urnes remplies avec un tres grand
nombre de boules identiques sauf leur couleur qui est blanche (code 0) ou noire (code 1). On attribue un numero a chaque urne et la proportion de boules noires dans l'urne k est notee 1rk. En general, \:Ik, \:Ij i= k : 1rj i= 1rk, car chaque urne a une composition qui lui est propre. On extrait une boule de chaque urne. Les tirages sont indepcndants mais pas identiquement distribues :
2. Maintenant, imaginons une seule urne dans laquelle on realise des tirages avec remise mais sans la melanger. Les boules tirees puis remises ant donc plus de chances d'etre reprises. Les tirages sont dependants mais identiquement distribues, car la composition de l'urne ne change pas d'un tirage a l'autre :
274
Pratique du calcul bayesien
3. Ensuite, on considere une seule urne contenant un nombre (pas trop grand) de boules blanches et noires en proportion inconnue dans laquelle on effectue des tirages avec remise en y ajoutant chaque fois m boules de la meme couleur (tirages de Polya). Ici, les tirages sont dependants et la composition de l'urne change a chaque tirage (7i"t+l -1= 7i"t) :
4. Enfin, on considere une seule urne contenant des boules blanches et noires en proportion inconnue et on effectue des tirages avec remise en prenant bien soin de la melanger avant chaque nouveau tirage. II est clair que nous sommes dans le cas OU les tirages sont uulepeiulants et identiquement distrioue» (hypothese iid) :
(B.1) Cette derniere procedure dechantillonnage est connue sous Ie nom de processus de Bernoulli.
L'hypot.hese iid L'hypothese iid est tres importante en statistique. D'une maniere generale, supposer l'echantillon iid revient a admettre que les donnees seront tirees independamment les unes des autres dans la meme loi de probabilite, Cette hypothese est done toujours eonditionnelle au modele d'echantillonnagc ehoisi, lequel est caracterise par un parametrc () (notation generique) de dimension finie (p. ex. dim () == 2 pour une loi normale).
La distribution gamma La pdf d'une variable aleatoirc X definie sur l'intervalle reel [0,oc] est une loi gamma de parametrc de forme a > 0 et de parametre d'echelle b > 0 si et seulement si :
[xla, b] = r
(~) b x a
a
-
1
exp ( -~)
(B.2)
Le reel T (a) est defini par I'integralc d' Euler suivante :
1 00
a> 0: r(a) =
u a - 1 exp(-u) du
(B.3)
L'integrale d' Euler (eq. B.3) est dite fonction eulerienne de premiere espece.
Exercice B.I Montrez que
E (X) == ab,Var (X) == ab2
(B.4)
Annexe B
275
Notons qu'il est courant de definir la fonction de densite de probabilite gamma en utilisant un parametre d'echcllc inverse (c == lib> 0) :
(B.5) L'integrale d' Euler n'est rien d'autre qu'une generalisation de la fonction factorielle :
(B.6)
n!==f(n+l) Quel que soit le reel positif, a on a : I' (a + I) == af (a)
(B.7)
La distribution beta La densite de la distribution de probabilite d'une variable aleatoire X definie sur l'intervalle reel [0,I] suit une loi Beta de parametres r > 0 et s > 0 si et seulement si I r-1 ( )8-1 (B.8) [x I r, ] S = B (r, s) x 1- x ou Ie reel B (r, s) est defini par l'integrale d'Euler suivante dite fonction eulerienne de seconde espece : r, S
> 0 : B (r, s)
=
II
ur -
1
(1 -
ur-
1
du
(B.9)
II existe un lien entre les fonctions euleriennes gamma et beta :
B( r,s )
== f(r)f(s) f(r+s)
(B.IO)
Cette identite sera tres souvent utilisee,
Esperance d'une v. a. r. X distribuee selon une loi beta sur
[0,1]
Par definition, la valeur attendue ou esperance mathematique de X est
E (X) =
II
x [xlr, s] dx
Ce calcul est trivial
E(X)
=
B(r+1,s) B(r,s)
=
_r_ r+s
(B.II)
276
Pratique du calcul bayesien
Variance d'une v. a. r. X distribuee selon une Ioi beta sur [0,1] Par definition, la variance de X est
Var (X)
:=
E (X 2) - [E (X)]2
Par consequent
La variance suit
Var(X)
= B(r+2,s) B(r,s)
_
(_r_)2 r+s
Or
B(r+2,s) B(r,s)
----:=
f(r+2)f(s) f(r+s) x--f(r+2+s) f(r)f(s) (r+l)rf(r) f(r+s) --------- x --(r+s+l)(r+s)f(r+s) I'{r) r+l r ---x--
r+s+l
r+s
Finalement
Var(X) _ _ r_ ( r+ 1 _ _ r_) r+s r+s+l r+s := _r_ ((r+l)(r+S)-r(r+s+l)) r+s r+s+l
= r:s
C+:+l) rs
(B.12)
(r+s)(r+s+l)
Mode d'une v. a. r. definie sur [0,1] et distribuee selon une loi beta II suffit d'annuler la derivee premiere de la densite :
!(x)=x r - 1 ( 1 - x r - 1
*
df dx
=o¢}X
=
s+r#2
S
r-l
+r -
2
=.M
(B.13)
Annexe B
277
La loi de Poisson comme limite de la loi binomiale On part de la loi binomiale :
Le nombre de combinaisons que l'on peut faire en prenant n objets par paquet de x peut encore s'ecrire
n., xl (n - x)!
=
X!!!
nx
z. )
x-1 (
1 - ;,
Par consequent
Pr (X = xlO, n) =
(nf)) x
ot!!
(1 _ f)) n
--;y- (1-
x -1 (
i )
1-;,
Faisons tendre le nombre d'essais n vers l'infini, la probabilite de succes f) vers zero et leur produit vers une limite finie A E On a:
IRt.
lim TI~-=-1 (1 1,-0
n-+oo
lim (1 - f)) -
0-+0
lim
n-+oo
(1 -
x
i) == 1 n
== 1
~)n n
== exp (-A)
On obtient la loi de Poisson qui est une loi d'evenements rares : Pr (X
AX == XIA) == -, exp (-A) x.
(B.14)
La distribution binorniale negative C'est la loi du nombre d'echecs y avant d'obtenir Ie r-ieme succes (r ~ 1). Le nombre d'epreuves z avant d'obtenir le r-ieme succes decoule de la loi binomiale, car en z - 1 epreuves on a r - 1 succes :
Le nombre d'echecs est y == z - r. Par consequent
Tenant compte de
x! = f (x + 1) = z.F (x),
B (a, b) = r~(2~~~)
278
Pratique du calcul bayesien
on a: 1
( y+r- l ) ==
B(y,r)
r-l
x~ y
Finalement, la distribution de probabilite binomiale negative s'ecrit : (B.I5)
La predictive a posteriori d'un modele gamma-Poisson On sait que sur une periode de longueur l, le posterior s'ecrit
[Alx] ex Ax +a - 1 exp (-A (l + b- 1 ) )
(B.I6)
ou a et b sont respectivement le parametre de forme et le parametre d'echelle du prior gamma. QueUe est la probabilite d'observer y evenements sur la future periode h sachant que, dans le passe, on en avait observe x sur la periode l ?
[ylh, x, I] = =
1
00
[yl)" h] [),Ix, I] d)'
y (l
r
b-1)x+a
~ + y! r (x + a) Jo hY (l+b-1)x+a
11
00
),y+x+a-l
exp (-), (h + I + b- 1 ) ) d)'
f(y+x+a) (h+l+b-1)y+x+a
r(x+a)
f(y+x+a) hY (l+b-1)x+a r (y) r (x + a) (h + l + b-1)y+x+a
Y
1
B (y, x 1
(l+b-1)x+a
hY
+ a) Y
1 (
= B(y,x+a)y
(h + I + b-1 )y+x+a I + b:'
h+l+b- 1
) x+a (
h
h+l+b- 1
) y
(B.17)
Posons
(B.I8)
r==x+a l + b- 1
7r
==
h + I + b-
1
{::}
1-
7r
h
== - - - -1 h+l
+ b-
(B.I9)
II vient
[ylh, x, I]
= B (
1
) ~1fr (1 -
y,r y
1f)Y
(B.20)
En comparant cette derniere avec la distribution B.I5, on voit que x joue le role de r en l'etendant aux reels positifs.
+a
Chapitre C
Annexe du chapitre 6 : le modele des fuites et Ie modele GEV sous WinBUGS Du processus ponctuel de Poisson au modele des fuites On s'interesse a un evenement ponctuel (p. ex. un point sur un axe ou un pixel sur une surface) marque par une certaine intensite, Sur une fenetre donnee (p. ex. une periode de temps fixee, un troncon de longueur fixee, une surface d'aire fixee) , le nombre d'occurrences est note N d'intensite Z == (Zl,'" ,ZN). Quand on sait que N == n et que Z == z, on dit que l'information est complete. Cependant, il existe des situations OU on ne dispose que du cumul des intensites, Dans un tel cas, Nest une variable latente et on dit que l'information est incomplete. Le modeles des fuites est du a (Morlat, 1968) pour representer les fuites sur les conduites de gaz. II ignorait leur nombre et done leur intensite respective, mais il connaissait le cumul des pertes par la difference entre les debits d'entree et de sortie du troncon d'interet.
Le processus ponctuel de Poisson Pour en simplifier l'expose, nous nous refererons a des tops arrivant au hasard sur l'axe du temps. A chaque date t, on peut associer une variable de Bernoulli qui prend la valeur 1 avec la probabilite 7f si un top est observe a cette date. Un processus ponctuel est une suite de variables de Bernoulli indeperulomtes et identiquement distribuees (hypothese iid).
280
Pratique du calcul bayesien
Le processus ponctuel de Poisson est un modele statistique parametrique fonde sur trois hypotheses. HI. Le processus est sans memoire, c'est-a-dire que la probabilite d'observer 1 evenement sur une periode de longueur h suffisamment petite est proportionnelle a h :
[N == llA, h] == Ah + 0 (h) -
0
(h) represente un infiniment petit par rapport a h himo(h) ==0 h---+O
h
- A est l'intensite du processus, supposee invariante dans Ie temps. H2. II n'y a pas de simultaneite, c'est-a-dire que la probabilite d'observer plus d'un evenement sur une periode de longueur h est negligeable si h est petite:
[N ~ 21h] == 0 (h) H3. Les evenements qui se produisent sur des periodes disjointes, soit hI et h2 , sont independants
Sur cette base on montre que le nombre de tops, N, sur une periode unite, c'est-a-dire une fenetre dont la longueur est egale a 1 unite de temps (p. ex. le mois) , est distribue selon une loi de Poisson de parametre A == E (N), d'ou Ie nom du processus :
An
[nIA] == exp (-A) , n.
(C.l)
Le processus ponctuel de Poisson marque On ajoute une quatrieme hypothese au processus ponctuel de Poisson. H4. Les intensites Z, des occurrences sont independantes de leur nombre N, independantes entre elles et identiquement distribuecs selon une loi exponentielle de parametre p telle que E(Zilp) == lip:
Vi Vi, vi Vi Conditionnellement
=1=
z, -l N i: z, -l z, Zilp
r-;»
(C.2)
dgamma (1, p)
a n et a p, Ie cumul H ==
n
E Z; est
i=l
une loi gamma
Hlp, n
0:.
dgamma (n,
p)
distribue selon
Annexe C
281
Soit une periode unite (indice t) sur laquelle on a observe nt tops dont le cumul des intensites est ht . La vraisemblance de cet echantillon est triviale :
(C.3) Si ce processus est stationnaire sur T periodes independantes de meme longueur (L == 1), la vraisemblance de I'echantillon d == {(nt, ht ) : t == 1, 2, ... T} est simplement
(C.4)
ou Sn ==
T
L:: tu,
t=1
Sh ==
T
L:: ht
t=1
Le prior le plus simple postule l'independance de A et de p avec A dgamma (a>.., b>..) et p rv dgamma (ap , bp ) :
Alsn, a>.., b>.. plsn, Sh, a p , bp
dgamma (sn + a>.., T + b>..) dgamma (sn
+ ap , Sh + bp )
(C.5)
Ainsi, a posteriori, la valeur attendue du nombre de tops reste independante de leur intensite : A ..1 p.
Le modele de depassement Soit une observable Y qui evolue dans le temps. Un top arrive quand cette observable depassc un certain seuil u fixe. Le nombre de tops sur une periode unite, par exemple l' annee, et leur intensite respective (au-dessus du seuil) constitue un processus de Poissonmarque. Les marques au-dessus du seuil sont supposees iid selon une certaine loi. Le modele POT du chapitre 6 postule que si le seuil est assez haut, cette loi est la distribution de Pareto generalisee, Dans le cas d 'une loi exponentielle, on retrouve les resultats indiques ci-dessus.
Le modeles des fuites Reprenons le processus de Poisson marque. En cas d'information imparfaite, la seule observable est le cumul des intensites Hs, c'est-a-dire que lc nombre de tops N, est une variable latente intervenant dans la loi du cumul Hi. En posant h == (hI,··· ,h T , ) et N == (N I , · · · ,NT), la vraisemblance completee s'ecrit :
Avec les priors utilises ci-dessus, les conditionnelles completes a posteriori sont respectivement -Xlh,N,p
dgamma (SN + a>.., T + b>..)
plh,N,A
dgamma (SN + ap , Sh + bp )
(C.6)
282
Pratique du calcul bayesien
On remarquera la similitude des relations C.5 et C.6. Bien sur, dans la seconde, la somme des variables latentes SN == N 1 + ... + NT est inconnue. II faut donc ajouter un module pour realiser l'inference via un echantillonnage de Gibbs. Pour t == 1, ... ,T, la conditionnelle complete de la variable latente N, n'est pas standard mais peut etre definie sur une grille (voir chap. 4). En posant N_ t == N\ {Nt} on a :
Un algorithme de Gibbs (voir chap. 4) est facile simuler Alh, N, p
rv
dgamma
(SN
simuler plh, N, A rv dgamma (SN
a programmer:
+ a>.., T + b>..) + a p , Sh + bp )
Pour t == 1,2,··· ,T : simuler [Ntlp, A, N_ t , h] On peut voir le modele des fuites comme le modele des depassernents avec un seuil nul alors que l'information est imparfaite.
Les valeurs extremes sous WinBUGS Le modele GEV Soit N blocs de n observations (n assez grand). Sur chacun d'entre eux, on s'interesse au maximum Zk pouvant prendre la valeur Zk (k == 1, ... ,N). La contribution de l'observation Zk a la vraisemblance est donnee par la densite :
Ce n'est pas une densite standard de WinBUGS, mais on s'en sort en utilisant l' astuce « zeros trick », La densite de Poisson s'ecrit
[yIA]
== exp
AY
(-A) ,
y.
Si on ne tire que des zeros, la contribution d'une observation blance est simplement [OIA] == exp (-A)
a la vraisem-
Ainsi WinBUGS considcre un ensemble de donnees constitue de N zeros tires dans une loi de Poisson de parametre Ak == -In [zkIB] + C.
Remarque e.l La constante C assure Ak > 0 et ne pose aucun probleme puisque la vraisemblance est definie a une constante pres.
Annexe C
283
Choix du prior En general, le savoir a priori est tres reduit et il n'y a aucune raison de lier Ie parametre d'echelle, p, au parametre de forme, {3. En revanche, le parametre de localisation, /1, est lie au parametre de forme a cause de la condition
Des lors, le prior conjoint peut s' ecrire comme suit :
[0] == [{3, JL, p] == [JLI{3] [{3] [p] Le choix classique (et judicieux) pour un parametre d'echelle est une loi gamma et une loi normale pour un parametre de localisation :
p~
dgar,nr,na(f,e)
{3 ~ dnormim, t) Pour p, on obtient un prior non informatif avec f == e ---t o. Pour {3, on l'obtient avec m == 0 et une precision t ---t 00 (WinBUGS prend par defaut
f == e == 10- 3 , t == 10- 6 ) .
Remarque C.2 Par experience, on sait que 1{31 est inferieur a quelques unites. Par consequent, t == 10- 3 est suffisant (question de vitesse de convergence). Remarque C.3 On peut aussi poser ¢ == -In pet prendre ¢ ~ dnorr,n(O, 10- 6 ) (ce sera notre choix). Pour [/1113], un prior non informatif est une loi uniforme sur un intervalle reel dependant de 13: [JL I13] ~ dunif(r,s). En posant a == min {Zk} - 13- 1 et b == max { Zk} - {3-1, Ic respect de la condition entraine - 13 > 0 => JL > b (Weibull) - 13 < 0 => JL < a (Frechet) Dans WinBUGS, on tire u ~ dunif( -00, a) et v ~ dunif(b,oo) et on construit le prior sur JL comme suit: JLI{3, a, b f -
A l'issue
U
* step (-{3) + v * step (13)
de l'inference, on revient au parametrage initial du modele GEV
avec
(J
~
== exp (1)) == - 13 exp (¢)
284
Pratique du calcul bayesien
DAG associe au modele GEV Le DAG simplifie ci-dessous (fig. C.l) montre le modele GEV via le « zeros trick» de WinBUGS OU le parametre de Poisson s'ecrit :
Figure C.l - DAG du modele GEV sous WinBUGS.
On rappelle que le niveau de retour zp associe ala periode de retour T == lip est donne par la relation :
z == JL p
e#o
~ (1 - x-e) = ~
p
/3#0
J-l + ~
(3
(1 -
x/3 exP(¢)) p
OU
x p=:-ln(l-p) Le code WinBUGS est le suivant. Pour le niveau de la mer a Port Pirie, les resultats du tableau C.1 sont obtenus apres 40000 iterations dont 20000 pour la pcriode de chauffe. Deux chaines sont lancees pour controler la convergence. Ainsi le maximum annuel du niveau de la mer a Port Pirie converge en loi vers la loi des extremes de Weibull (~ < 0). Chaque annee de la periode 1923-1987, il y a une chance sur cent (p == 0.01) d'observer une hauteur d'eau superieure a 4.80 m (avec un risque d'erreur fixe a 5 %).
Annexe C
285
model; { a < -zmin-1/beta b <-zmax-1/beta u -- dunif(-1 O,a) v --dunif(b, 10) mu <- u*step(-beta)+v*step(beta) phi -.. dnorm(0.O,1.0E-6) beta--dnorm(O.O, 1.0E-3) eta <- exp(-phi)/ beta for( k in 1 : N ) { c[k] <- (1 - beta * (z[k]- mu)) lambda[k] <- phi + (1-eta) * log(c[k])+pow( c[k], eta) + C zero[k] <- 0 zero[k] -- dpois(lambda[k]) }
sigma <- exp(phi) xi <- -1/eta xp <- -log(1-p) f <- 1-pow(xp, 1/eta) zp <- mu+f/beta } Figure C.2 - Code du modele GEV sous WinBUGS.
Q
5 50 95
a 0.18 0.21 0.24
Tableau C.l - Niveau de la mer
modele GEV.
~
-0.20 -0.10 -0.03
J-l
3.84 3.88 3.93
ZO.Ol
4.5 4.6 4.8
a Port Pirie: IC90 pour les parametres d'un
Chapitre D
Annexe du chapitre 9 : la distribution de Student et Ie processus de regression normal Les deux parties de cette annexe sont utiles pour manier, sans douleur, les methodes analytiques exactes du modele lineaire normal: - l'une porte sur l'interpretation bayesienne d'une distribution importante en statistique : la distribution de Student sous ses formes centree et decentree, La construction de cette distribution presentee ici est tout
a fait
generale et intervient dans de nombreuses inferences, comme l'exemple des saumons nous l'a montre. Nous l'illustrerons sur un cas general important : celui du modele de regression Iineaire normal; - l'autre donne des complements illustratifs concernant l'elicitation des distributions a priori du modele classique gamma-normal, utilise dans l'exemple des saumons.
Les distributions de Student centrees et decentrees Soit une variable aleatoirc U rv dnorm(O, 1) et soit une variable aleatoire Y rv dgamma(a, 1) independante de U. On remarquera que le parametre d'echelle de la distribution gamma est egal a 1. Done :
[u, y] ex ya-l exp ( _y _
~2)
288
Pratique du calcul bayesien
Soit la variable aleatoire T, fonction des variables aleatoires U et Y, dont les realisations t sont definies par : t ==
Le changement de variable u, y densite jointe :
[t, yla]
---+
u
yIa-
(D.1)
VY
t, Y de jacobien ~~~:~? = J1ija donne la
ya-l/2 exp ( -y ( 1 + ~:) )
(X
La distribution marginale de t s'en deduit simplement par integration sur
y: [tla] == const x
1 2a+l
(1 + ~:) - 2 -
La constante est obtenue par la condition de distribution
i:[t]dt = 1 soit
[tla] =
i
f( 2a 1 ) V'f(iir
1
(D.2)
2a+l
f(a) 2mr (1 + ~:) - 2 -
C'est la distribution de Student
a 2a degres de liberte.
Remarque D.I On la trouve souvent sous la forme suivante (v == 2a) :
[tlv] =
B
(l1~) y'v (1 + t 2' 2
V
1
2 ) -
vt
V
On peut generaliser ce resultat au cas OU le numerateur u de test une variable aleatoire toujours normale d'ecart-type 1 mais decentree de moyenne 6, soit U == dnormib, 1). U est toujours independante de Y. La distribution marginale de test alors la distribution de Student dcccntrec de parametre de decentrement 6. La densite n'a pas de forme explicite simple. Mais, tout comme la loi de Student centree, elle peut etre calculee par les logiciels de statistique courants.
Extension du resultat Supposons toujours Y distribue comme une dgamma( a, 1) mais U est une variable normale, non plus independante, mais reliee conditionnellement a Y de telle sorte que [uly] == dnorm(O, Jy) et recherchons la distribution marginale de jaU. En ecrivant la reglc des probabilites composees des lois marginales de y et conditionnelles de u sachant y on voit que les calculs de marginalisation sont complctement paralleles aux calculs precedents, si bien que jaU est marginalement distribuee selon une loi de Student.
Annexe D
289
Le processus de regression normal Definition Soient n variables aleatoires normales independantes, Ii, de meme variance egale a (J"2 == 7- 1 (7 est la precision), mais les esperances sont liees Iineairement aux valeurs supposees connues de q covariables (avec 1 S; i S; n, 1 S; j S; q). Posons
x.,
(Xil,Xil,··· ,Xiq)T
Xi
(3
((31,(32,·"
,(3q)T
ou, tres souvent, Vi : XiI == 1 afin de representer un effet constant. A chaque exprerience i, on veut « expliquer » la variable exogene combinaison lineaire bruitee des covariates :
Ii == xT (3 + e.,
Ci
~d dnorm (0,7)
X ==
(D.3)
1/1,
Soit Y le vecteur dont les coordonnees sont les n reponses matrice des covariables a n lignes et q colonnes
Ii par une
Ii et soit X la
(xi, xf,··· ,x;)
Avec ces conventions, le modele de regression lineaire normal s'ecrit aussi
Y == X(3 + e,
C
r-;»
dmnorm (0, 7I n )
(D.4)
ou dmnorm est la loi normale multivariee, souvent appelee loi multinormale, localisee sur le vecteur 0 == (0, . . . ,0) T et de matrice de precision TIn ; In est la matrice neutre d'ordre n. Ce modele, qui appartient a une famille exponentielle, implique done d'inferer (3 et 7.
Remarque D.2 II est important de preciser que, dans le present contexte, les covariates sont connues sans incertitude.
Vraisemblance La vraisemblance des observations y == (Yl' Y2, ... ,Yn)T est donnce par la densite d'une loi normale multivariee
[yIX, (3, T]
=
(21f) -n/2 T n/ 2 exp ( - ~ (y - X(3)T (y - X(3))
On supposera que la matrice X est de rang q. Dans ce cas, le systems dequations normales
290
Pratique du calcul bayesien
a une seule et unique solution, b, qui est une estimation ponctuelle (au sens des moindres cartes) du vecteur (3 :
Une identite classique de l'analyse lineaire nous permet alors d'exprimer la forme quadratique en (3 comme suit
+ ((3 -
b)T XTX ((3 - b) (D.5)
So == (y - Xb)T (y - Xb)
(D.6)
(y - X(3)T (y - X(3) == (y - Xb)T (y - Xb)
II sera commode de poser :
La vraisemblance devient
Prior Le prior conjoint peut se mettre sous la forme d'une probabilite conditionnelle multipliee par une probabilite marginale
En faisant dependre le prior sur (3 de la precision 7, on obtient des solutions analytiques. En effet, la forme exponentielle de la vraisemblance (D.7) montre l'existence de distributions a priori conjuguees naturelles : 7
(317
rv
dgamma (a, b) dmnorm (mo,7P o)
Remarque D.3 Comme toujours, le choix des hyperparametres, ici a, b, 7, 0o et Po, engage la responsabilite du chercheur. Par exemple, la matrice Po, de genre q x q, pourrait etre la matrice neutre I q multiplies par un reel stritement positif fixe, par exemple k > 0, afin de degrader quelque peu la precision 7. Un tel choix revelerait I'independance a priori des composantes du vecteur O. Ainsi :
[,8, ylH] ex yq/2+a-l exp ( -~ (,8 - rnof Po (,8 - rn o)) exp (-by)
(D.8)
ou H designe les hypotheses, y compris les hyperparametrcs (rno, Po, 7, a, b).
291
Annexe D
Posterior L'application de la regle de Bayes donne
[,8, TIX,y, H] ex Tnj2+qj2+a-l exp ( -~ (So
+ 2b)) exp ( -~S,6 )
ou 5(3 represente la somme des deux formes quadratiques en
(D.9)
13 :
(13 - b)T XTX (13 - b) + (13 - rno)T Po (13 - rn o) == j3T (XTX + po) 13 - 2j3T (XTXb + Porno) + bTXTXb + rn6~.dfh)
5(3
Posons
P
XTX+P O
Pm
XTXb
+ Porno =} m == p-
1
(XTXb
+ Porno)
(D.ll) (D.12)
On a
(D.13)
ou c
== bTXTXb + rn6Porno - rnTprn
(D.14)
Finalement, la distribution jointe a posteriori s'ecrit
[,8,TIX,y,H] ex Tnj2+qj2+a-l exp (-~ (So
+ 2b+ c)) exp (-~ (,8 - mfP (,8 - m)) (D.15)
Avec ce choix de prior, ce modele a des solutions analytiques : les calculs sont faisables a la plume. En particulier la distribution a posteriori de la precision 7 est [TIX, y, H] ex Tnj2+a-l exp ( -~ (So + 2b + c)) car
r exp (-~2 (,8 - mf (TP) (,8 - m)) d,81 x ... x d,8 JJRq Ainsi, la marginale a posteriori de la orecision 7
IX ,y, H
rv
7
= q
qj (21f) 2 ex _1_ 17P1 1 / 2 7 q/ 2
est une loi gamma :
n + 2a So+2b+C) dgamma ( - 2 - ' 2
Les conditionnelles completes a posteriori
A7
fixe
A partir de la conjointe (D.15), on a : [,8IT, X, y, H] ex exp ( -~ (,8 - mf P (,8 - m)) c'est-a-dire
/317, X, y, H
!"oJ
dmnorm (rn, 7P)
avec m et P respectivement donnes par (eq. D.12) et (eq. D.Il).
(D.16)
292
Pratique du calcul bayesien
A {3 fixe A partir de la conjointe
(eq. D.15), on a :
c'est-a-dire
rl{3, Y, X
ou a*
n+q --+a 2
b*
2 (So + S/3) + b
1
avec So et S/3 respectivement donnes par (eq. D.6) et (eq. D.13).
Complements Une propriete caracteristique des lois multinormales est que leurs marges sont normales. Ainsi, conditionnellement a r, la composante {3j du vecteur {3 est normale unidimensionnelle :
II s'en suit que VrPjj ({3j - mj)
Ir, X, y, H
rv
dnorm (0,1)
D'autres part, en multipliant la densite gamma (eq. D.16) par son parametre d' echelle (inverse) on a
2b +
So + 2
C
I
d
r n, a rv gamma
(n- 2 + 2a 1) -'
Par consequent, en tenant compte de la premiere section (eq, D.1), la variable aleatoire
(n+2a)Pj j ({3' -m') So + 2b + c J J est distribuee selon une loi de Student a n + 2a degres de liberte. Pour plus de details, on lira avec profit la section 4.5 du chapitre 4 de (Droesbeke et al., 2002) et le chapitre 13 de (Raiffa et Schlaifer, 1961).
Chapitre E
Annexe du chapitre 10 : formes quadratiques et tutti quanti Les prerequis Soit
X une matrice carree de rang d et soit IXI sont
determinant. On a :
Somme de deux trinomes du second degree p(y_a)2+ q(y_b)2
s
pa+qb)2 pq 2 (p+q) ( y+-(a-b) p+q p+q
ex
(p + q) ( y -
pa + qb)2 sachant a, b, p, q p+q
Somme de deux formes quadratiques.
(y-a)TP(y-a)+(y-b)TQ(y-b) (yT _ aT) (Py _ Pa) + (yT - b T) (Qy - Qb)
s
yTpy _ aTpy _ yTpa + aTpa + yT Qy _ b T Qy _ yT Qb + b T Qb yT
(P + Q)y _
yT
T yT (P + Q)y _ 2yT (Pa+ Qb) + aTpa+ b Qb
ex
yT (P
+ Q) y -
T
(Pa+ Qb) _ (aTp + bTQ) y + aTpa+ b Qb
2y T (Pa + Qb) sachant a, b, P, Q
294
Pratique du calcul bayesicn
Par consequent
exp
(-~s)
y]a, b, P, Q
(_~yT (P + Q)y -
0:
exp
rv
dmnorm
2y T (Pa+ Qb))
((p + Q)-l (Pa + Qb), P + Q)
Modele lineaire avec conjugaison partielle (M1)]Modele lineaire avec priors independants partiellement conjugues (M1)
qXl
nxq
nxl
nxl
sont supposes certains (t == 1,2,· .. ,n; j == 1,2, ... ,q - 1) . est un n-echantillon iid selon une loi normale, localisee sur 0 et de precision T. Sous forme vectorielle
- Les -
Xtj
Cl,··· ,Cn
Sous forme matricielle y == Xj3
+ c,
e
rv
dmnorm (0, TIn)
- In est la matrice neutre d'ordre n - X == (( 1, x j ) , . . . , (1, x n ) ) T
La vraisemblance
ou Le prior () ==
13 T
(13, T), 13 1- T dmnorm (m,a, P,a)
rv
dgamma (a, b)
(E.1)
Annexe E
295
Les conditionnelles completes a posteriori Conditionnelle complete de {3 Somme des deux formes quadratiques
(y - X(3) T P y (y - X(3) + ({3 - m(3) T P {3 ({3 - m(3) (yT - (3TX T) (Pyy - P yX(3) + ({3T - m~) (P{3{3 - P{3m(3) yTpyy _ {3TXTp yy - y Tp yX{3 + {3TXTp yX{3 + (3Tp{3{3 - m~P{3{3
s
_{3Tp {3m{3 + m~P {3m{3 {3T (XTpyX + P (3) {3 - {3T (XTpyy + P (3m(3) - (yTpyX + m~P (3) {3
+yTpyy + m~P{3m{3 {3T (XTpyX + P (3) {3 - 2{3T (XTpyy + p (3m(3) + (yTpyy + m~P (3m(3)
H)
Par consequent, (Ies hyperparametres sont dans le corpus cl'hypotheses, note
[,8IX, y, T, H]
m~
a exp (
_~,8T (XTpyX + P,a),8 -
2,8T (XTpyy + P ,am,a))
C'est done encore une loi normale de dimension q, localisee sur le vecteur et de matrice de precision p~ : dmnorm (m~, P~)
{3IX,y,T,H P*{3
X TP yX+P{3
m*f3
p~-l (XTPYY+Pf3mf3)
Or Py == TIn: P*e
TXTX + P{3
m*f3
p~-l (TXTY+P{3mf3)
Conditionnelle complete de
T
C'est encore une loi gamma, de parametre de forme a* et de parametre d'echelle inverse b*
TIX,y,{3,H a* b*
dgamma (a*, b*) n - +a 2 1 2 (y -
T
X(3) (y - X{3) + b
296
Pratique du calcul bayesien
Normale (3 Gamma
T
Moyenne
m B== P B- 1 (TXTy
+ P/3m/3)
Precision
Definition
Echelle inverse b* == ~c1 e + b
c == y - X(3
P B== TXTX + P/3
Forme a* == %+ a
Tableau E.1 - Modele Ml : resume.
Modele autoregressif (M2) En posant s'ecrit :
Z-l
== (zo, Zl,' .. ,Zn_l)T OU Zo est un parametre, le processus
Z
== PZ-l + U,
U
r-;»
dmnorm (0, TIn)
La vraisemblance
Le prior p 1-
T
T
1-
Zo
dgamma (a, b)
r-;»
dnorm (mp,pp)
p
Zo
dnorm (mzo'pzo)
Les conditionnelles completes a posteriori () == (p, T, zo) Conditionnelle complete de
T
Tlp,zo,z,H a* b*
dgamma (a*, b*) n
- +a 2 1
"2uT U + b
(E.2)
Annexe E
297
Conditionnelle complete de Zo Le developpement des termes intervenant dans l'exponentielle donne n
slp,7
==
7
L (Zt - PZt_l)2 + Pzo (Zo - m zo)2 t=l
Tp2
ex:
~ ) + PZo (zo -
(zo -
2 (7 p
2
m zo )2 + cte
7PZl+PzOmzo)2 2 r p + pzo
+ Pzo ) ( Zo -
Par consequent
zolp, 7, Z, H m *zo
Conditionnelle complete de P On rappelle que l'estimateur du maximum de vraisemblance donne n
P==
L: ZtZt-l
t=l -n---
L: z;-l
t==l
Le developpement des termes intervenant dans l'exponentielle donne n
SIZO,7
==
7
L (Zt -
PZt_l)2
+ Pp (p -
m p)2
t==l
T(l t Z;-l - tZtZt-l + tz;) + 2p
L
(p -
n
n
7
Pp
Z;-l
(p2 - 2pp)
+
Pp (p - m p) 2 +7
t==l
L Z;
t=l '-v--' cte
n
ex:
7
L
Z;-l
(p - p)2 + Pp (p - m p)2
t=l n
7
ex:
L: ZtZt-l + ppm p
t=l p--n - - - - - 7
L: Zf-l + Pp
t=l
2
m p
)2
298
Pratique du calcul baycsien
Par consequent
plzo, T,
Z,
H
dnorm (m;,p;)
:~ (TZT Z-l + ppmp)
m*p
T
TZ_1z-1 Normale p
Moyenne m *p -_ P~1 (,1 TZ Z-l
zo
»: == p:
Gamma T
Forme a* == ~
zn
+ ppmp) (TpZ1 + pzom zo)
+ Pp
Precision * -_ TZ_1 ,1 Z-l + Pp Pp * -_ r p.'2 + PZo PZo Echelle inverse b* == ~U'l U + b
+a
Definition
u
==
Z -
PZ-1
Tableau E.2 - Modele M2 : resume.
Modele lineaire avec residus autoregressifs (M3) Le vecteur Y -1 designe le vecteur y decale d'un rang: Y-1 == (Yo, Y1, ... ,Yn-1) T. La matrice X- 1 est la matrice X definie ci-dessus (modele M1) decalee d'un rang : X -1 == ((1, xo) , (1, xj ) , . . . , (1, x n -1) ) T OU Vt : Xt == (X t 1, . .. ,Xtj, . . . ,Xtq -1) . Le modele s'ecrit
y - X(3 == p (y -1
-
X- 1(3)
+ E,
E
r-;»
dmnorm (0, TIn)
(E.3)
Ceci pose le probleme du temps t == 1, car la valeur Yo et les valeurs (j == 1, ... ,q - 1) n'existent pas
XOj
Si nous supposons que cette derniere equation est representative de ce qui s'est passe pour t == 0, -1, -2"" , nous avons, par exemple :
Yo == P (Y-1 - (1, X-1) (3)
+ (1, xo) (3 + Eo,
EO
rv
dnorm (0, T)
Mais, comme Xo, Y-1 et X-1 ne sont pas des quantites connues, il est plus simple d'ecrire
Yo == a
+ EO,
EO
rv
dnorm (0, T) {:} Yola, T rv dnorm (a, T)
Dans un DAG, la variable Yo serait entre la couche des parametres ((3, T, a, p) et celle des observables y. C'est done une variable latente. Conditionnellement a (3, le modele E.3 peut se mettre sous la forme du modele E.2 (E.4) Z ==PZ-1 + E E dmnorm (0, TIn) r-;»
Annexe E OU
299
== (y - XfJ)et Z-l == (y -1 - X- 1fJ ) (zO joue le role de Yo). Le modele peut se mettre sous la forme suivante
Z
y - py -1
== (X - pX- 1 ) 13 + E,
Conditionnellement a p, en posant yp == retrouve la formulation du modele Ml :
E
rv
y-
dmnorm (0, TIn) PY-1 et X,
== X - pX- 1, on (E.5)
Si on ne connait pas p, mais
a 13 et Yo connus
y - XfJ == P (Y-1 - X- 1 fJ ) + E
La vraisemblance
Le prior A priori, les parametres T, p, a et 13 sont independants, de meme que les composantes du vecteur 13 == (130 ... ,fJq _ 1)T . On choisi des priors conjugues dans le but de realiser l'inference via un echantillonnage de Gibbs: Tla,b plmp,pp alma,Pa fJlmj3, pj3I q
dgamma (a, b) dnorm (mp,pp) dnorm (ma,Pa) dmnorm (mj3,pj3Iq )
(E.6) (E.7) (E.8) (E.9)
Les conditionnelles completes a posteriori () == (T, p, a, 13) On multiplie chaque fois la partie interessante de la vraisemblance avec le prior en cours.
300
Pratique du caIcuI bayesien
La precision
T
HO-Tl YP' X p, H]
ex 7(n+l)!2+ a -
x exp ( - 7
1
exp (
-7
(~ (Yo -
(~ (y p - x p{3 f
a)2 +
(3) ))
(y p - X p
b) )
dgamma (a*, b*)
n+l 2 1
a*
--+a
b*
"2 (yP - X p(3 )
T
1
(yp - X p(3 ) + "2 (Yo - a)
2
+b
Le parametre a
dnorm (m:,p:)
1
--; (TYo
m*a
Pa T+Pa
+ Pama)
Le coefficient (3 On a fait Ie calcul pour Ml, il suffit de remplacer y par y p et X par X, dmnorm (m~, p~) T
m*{3
XJX p
+ p{3Iq
p;-l (7XTyp+Pf3illf3)
Le coefficient de correlation p On a calcule sa conditionnelle complete dans le cadre du modele M2 OU Z-l == y-I-X- 1(3 (ce qui implique de fixer le vecteur des regresseurs en t == 0, xo)
Z
== y-X(3 et
Annexe E
301
dnorm (m;,p;) m*p
:~ (rz T Z-l + ppmp) T
TZ_lZ-l
Moyenne m~ == p
Parametre {3 a
»; ==
p
m *p -_
Parametre
Forme
T
a* ==
e- (TXT Y» + P I3ml3)
1*
PO' 1 p~
nt
1
(TYo + PamoJ (1 TZ Z-l + ppmpI)
l
+ Pp Precision P~ == TX~Xp P~ == T + Pa :1 Z-l P*p == TZ_ l
+ P 13 + Pp
Echelle inverse
b* == !cT E + ! (Yo - a)2 + b
+a
Tableau E.3 - Modele M3 : resume.
OU Yp== Y-PY -1, X p== X-pX- l, Yo Z-l == Y-l-X- l{3 et c == Y» - X p {3 .
f"V
dnorm (a, T) , Z == Y - X{3,
Conditionnelles completes du modele categoriel probit Determination des conditionnelles completes Pour obtenir les conditionnelles completes des parametres Zo, 1, (3, P et des variables latentes Zt, on identifie dans l'expression (10.33) la structure analytique en fonction de la grandeur qu'on cherche a caracteriser. 1. Focalisons sur Zo :
[Zo IZ,1,{3, p, y] ex: N (Zo lao, 1) x l"Yo _ l ~zo<"Yo xN (Zl IpZo
+ (Xl - pXo) {3, 1)
En developpant la forme quadratique sous l'exponentielle, on trouve
En reconstruisant une forme quadratique en Zo, on obtient done une loi normale tronquee :
[ZoIZ,1,{3,P,Y]
== dnorm(ao+p(Zl- (xl-pxo){3)1+p2,1 (1+p2)) xl"YO-l~zo<"yO
(E.10)
302
Pratique du calcul bayesien
2. le calcul des conditionnelles completes des composantes de Z est plus delicate On connait la relation de proportionnalite : T
[Z IZo, "I,j3,p, y] ex
II {
l)'Yt_l (Zt<)'Yt X
N (Zt IpZt-l
t=1
+ (Xt -
pXt-d j3, 1)}
II faut distinguer deux cas : (a) Quand t == 1, ..., T - 1, Zt ne fait intervenir que Zt-l et Zt+l dans son conditionnement si bien que
[ZtIZ#t, f, (3, p, y] ex
[ZtI Zt-l, Zt+l, f, (3, p, y] dnorm (p Zt-l + (Xt - PXt-l) (3,1)
xdnorm (pZt
+ (Xt+l -
PXt) (3,1)
En conduisant les calculs comme pour Zo, on trouve facilement une normale tronquee :
[Zt IZ,it, "I, j3, p, y]
= N (Zt IZt,l / (1 + p2) )
X 1)'Yt- 1(Zo<)'Yt
(E.11) avec
On a appele Z#t lc vecteur Z prive de la composante Zt , Z#t == (ZI, ..., Zt-l, Zt+l, ..., ZT). (b) Quand t == T, ZT n'est conditionne que par la valeur precedents ZT-l (la suivante n'a pas ete enregistree) et la conditionnelle complete de ZT s'ecrit toujours sous la forme d'une loi normale tronquee :
dnorm (pZT-l
+ (XT -
pXT-l) (3,1)
x1')'YT-l~Zt<')'YT
(E.12)
3. Interessons-nous au vecteur f contenant les bornes non infinies de chaque categoric : T
b IZo, Z,j3, p, vl ex N J-l ("( 1"10, D) 1)' x II {l)'Yt_l (Zt<)'Yt } t=1
II dit respecter les contraintes fl < "t: < ... < fJ-l. On prend la matrice de variance-covariance de la partie normale du prior, diagonale, D = diag ((T~j ). On peut raisonner composante par composante "Ij, j == 1, ... , J - 1.La relation T
[fj IZo, Z,(3, f#j, p, y] ex N J-l (fj Ifjo, ajj2) x
II {l')'Yt-l~Zt<')'Yt}
t=1
Annexe E
303
est equivalente a h'j IZ, Zo, 1'j+1, I'j-I,,8, p, y] _IJ-IJ
(l'j Il'jo, a;2)
(E.13)
1, ..., J - 1
pour j
x1"'Vi.nf<"'V.<"'V~up IJ
dnorm
ex:
avec ,~nf == max {max {Zt : Yt == j}; ,j-I}
et
,jUP == min {min {Zt : Yt == j + I} ;,j-I}
Si besoin etait, la constante de normalisation
peut etre evaluee en utilisant une simple routine de calcul de la fonction de repartition de la loi normale monodimensionnelle. 4. Le calcul de la conditionnelle complete de 13 a deja ete realise pour le modele (10.25). A partir de T
[13I Zo, Z, "P, y] ex N q (131130, ~o) x
II {N iz, IpZt-1 + (x, - PXt-l) 13,1)} t=1
on obtient : (E.14) avec
{ ~p,z
~ ==
== X~Xp + ~o L:- I (X~Zp + L: 0 13o)
5. Pour la meme raison, le calcul de la conditionnelle complete de P s'obtient a partir de
[p IZo, Z",13, y] ex dnorm (Po, Vo)
1p E1s
T
X
II {dnorm (pZt-1 + (x, - PXt-l) 13, I)} t=1
pour donner finalement une loi normale tronquee (E.15) avec V ==
T
L
t=1
p= V-I
(Zt-I - Xt-I13)
Ct
2
+ Vo
(Zt-I - Xt-I,8)' (Zt - Xt,8)
+ VOPO)
Chapitre F
Annexe du chapitre 11 : code WinBUGS pour la pollution indoor Chambre d'emission (Hayter et Dowling, 1993) On dispose de N ==1 3 couples (t,C(t)) OU : t est le temps (heures) compte depuis le lancement des operations; C(t) est la concentration des formaldehydes au temps t La concentration initiale, CO == C (t==O), est connue. Les d[i] mesurent le temps ecoule entre deux mesures consecutives : d[i] == t[i]-t[i-l] a == Aire de l'objet I volume de la chambre (11m) T est le demi-temps de vie du materiau emetteur model;
{ tau --dgamma(0.001,O.001) lambda --dgamma(O.OOl,O.OOl) thetaO --dgamma(O.OOl,O.OOl) CO <- 0.05 eta <- a I (q - lambda) for( i in 1 : N ) { b[i] <- exp( -q * d[i]) f[i] <- exp(-lambda*t[i]) g[i] <-exp(-lambda*d[i]) h[i] < - tau/ d[i]
}
mu[1] <- CO*b[1] + eta * thetaO* £[1]* (g[1]- b[1]) C[l] "dnormfrnujlj.hjlj)
306
Pratique du calcul bayesien for( i in 2 : N ) { mu[i] <- C[i-1] * b[i] + eta * thetaO* f[i]* (g[i]- b[i]) C[i] - dnorm(mu[i],h[iD
}
sigma <- 1jsqrt(tau) T <- log(2)jlambda
} list(t==c(0.5, 1.5, 2.5, 4.5, 8.5, 24.5, 48.5, 72.5, 144.5, 168.5, 196.5, 216.5, 240.5), C==c(0.219, 0.397, 0.41, 0.549, 0.333, 0.243, 0.163, 0.132, 0.019, 0.031, 0.027,0.023, 0.018),d==c(0.5, 1, 1,2,4,16,24,24,72,24,28,20,24), a==0.3962,q==1.01,N==1 list (tau==0.1,lambda==0.01 ,thetaO==1.2) list(tau==0.5,lambda==0.02,thetaO==1.1) list(tau==0.7,lambda==0.03,thetaO==1.3)
Chapitre G
Annexe du chapitre 12 : complements sur les modeles hierarchiques Transfert d'inforrnation et modele hierarchique Comment le MBH transfere-t-il de l'information entre les annees ? Interessonsnous a la loi a posteriori des parametres inconnus population de saumons Vi et efficacite de la peche OJ pour une annee i donnee, soit [Vi,Oildata]. Dans la theorie bayesienne, cette loi synthetise tout ce que l'on sait sur ces parametres, une fois prises en compte les donnees observees, Cherchons comment les donnees data, relatives a l'annee i interviennent dans ce conditionnement. On note daio.s., les donnees autres que celles de l'annee i, de telle sorte que data == {datai, data-i}. En appliquant la formule de Bayes, il vient :
On remarque que la connaissance du couple de parametres (Vi,Oi) suffit pour generer par le modele d'aleas des observables les donnees daia, de I'annee i de telle sorte que
On peut reecrire cette equation sous la forme :
(G.l)
308
Pratique du calcul bayesien
Introduisons maintenant le vecteur ¢ d'hyperparametres : [Vi, IJildata-i]
=
J
J
¢
¢
[Vi, IJi, ¢Idata-il d¢ =
[Vi, IJil¢,data-i] [¢ldata-iJ d¢
La connaissance de l'hyperparametre ¢ suffit a elle seule pour generer le couple de parametres (Vi,Oi) : si on dispose de ¢, on n'a besoin des donnees datac., des autres annees que l'annee i de telle sorte que [Vi, Oil¢, data_i] == [Vi, Oil¢] . II vient alors en reprenant (G.l) : (G.2)
Dans le membre de droite de (G.2), seuls les deux premiers termes L, et [Vi, Oi I¢] sont fonction du couple de parametres inconnus (Vi,Oi) de telle sorte que l'equation (G.2) s'ecrit encore:
On interprets cette equation comme une formule de Bayes. - Les donnees de l'annee i mettent a jour notre connaissance sur (Vi, ()i) par l'intermediaire de la vraisemblance partielle L, == [datailvi, ()i] ; les donnees data; sont la manifestation tangible de (Vi, ()i). - Les donnees des autres annces daia.s, modifient la connaissance de l'hyperparametre ¢ qui influe a son tour sur Ie couple (Vi,Oi) comme si [Vi, IJildata-i]
=
J
[Vi, IJil¢] [¢ldata-iJ d¢
¢
etait un prior pour Ie couple (Vi,Oi). C'est par cet intermediaire qu'interviennent les autres donnees annuelles pour actualiser la distribution a priori commune. Ce terme [Vi, ()i Idata-i] s'interprete comme une distribution a priori modifiee sur (Vi,Oi). Plus la distribution a posteriori [¢Idata-i] est informative, plus la distribution a priori modifiee concernant la taille de la population et l'efficacitc de la capture [Vi, ()ildata-i] contrebalance l'effet de l'acquisition des donnees propre a l'annee i (traduit dans la vraisemblance partielle L i ) . La figure G.l en donne une interpretation graphique immediate. Un cas degenere du modele hierarchique supposerait l'egalite de tous les couples (Vi,Oi). Des lors, on pourrait melosiqer toutes les annees puisqu'elles
Annexe G
~
.........
309
inftrence
modetisation
Figure Go1 - Visualisation graphique du transfert d'informations interannuelles pour Ie modele hierarchique. proviendr aient strictement du meme phenomene d'observat ion. Dans un tel cas, tout es les donn ees inte rviennent a egalite avec un poids provenant de leur vraisemblance et tout es mettent sequent iellement le prior a jour :
IT i ,
[v, Bldata_i, observ osequentielles ] =
x [v,B]
J ir~k X lv, BJ dvdB v ,& k#i
Dans le modele MBA, au cont raire, la distribution a posteriori de (Vi , Bi ) ne fait pas intervenir toutes les donn ees :
Il faut ici choisir une valeur par ticuli ere pour les hyperparametres 'Yi, 8i . Sous un tel modele, l'analyste se trouve souvent confronte au dilemme de choisir 'Yi, 8i de sort e que [Vi , Bi h i, 8;] soit non informative et prend le risque d'inferences incert aines dans le cas de donnees insuffisantes, ou de choisir une valeur qui apporte une information a priori import ant e. Il prend alors le risque d'influencer les inferences par un choix personnel sans rapport avec les donnees fournies. Face a ce dilemme, le MBR propos e une solution interrnediaire en attribuant des degree de credibilite aux valeurs des hyperparametres selon les donn ees disponibles.
310
Pratique du caIcuI bayesien
Un code WinBUGS pour Ie modele hierarchique des castillons On regardera aussi avec profit Ie programme avec recapture hypergeometrique dans (Rivot et Prevost, 2002). model; {
#
Hyperprior pour I efficacite du piege E teta - dbeta(1.5,1.5) ; u teta - dbeta(O.1,10) ; alpha <- E _ teta*(l-u _ teta)/(u _ teta) ; beta <- (l-E _ teta)*(l-u _ teta)/(u _ teta) ;
#
Hyperprior pour I efficacite de la recapture E_p "dbetaf Lb.Lb}; u _p- dbeta(O.1,10) ; alpha_p <- E_p*(l-u_p)/(u_p); beta_p<- (l-E_p)*(l-u_p)/(u_p);
#
Hyperprior pour le nombre d'individus EN - dunif(1,3000) ; inflogVN <- log(EN) ; LogVN - dunif(inflogVN, 11.5) ; VN <- exp(LogVN) ; mu <- EN*EN/(VN); nu <- EN/(VN);
# Distributions predictives teta_pred "dbetatalpha.beta}, p_pred -dbeta(alpha_p,beta_p); lambda_pred -dgamma(mu,nu); N _pred - dpois(lambda_pred) ;
#
Nyears vaut 17 ans (1984 to 2000)
#
Effet aleatoire pour I efficacite du piege
for (i in 1 :Nyears) { teta1[i) - dbeta(alpha,beta) ;
# Effet aleatoire pour I efficacite de la recapture teta2[i) -dbeta(alpha_p,beta_p);
# # # #
Effet aleatoire pour le nombre d adultes N[i) Astuce pour tirer N dans une binomiale negative param (mu,nu) : Tirage success if lambda dans une gamma( mu,nu) puis N in dans une loi de Poisson (lambda) lambda[i) -dgamma(mu,nu); N[i) - dpois(lambda[i)) ;
#
Escapement (les saumons qui pourront se reproduire) Nsp[i) <- max(N[i)-d[i],O); nm[i)<-max(Nsp[i)-m[i),O)
Annexe G
311
# Vraisemblance binomiale pour la capture et la recapture c[i] - dbin(teta1 [i],N[iD ; rien[i] <-r[i]-rm[i]-rnm[i] rnm[i] -dbin(teta2[i],nm[i]) ; rm[i] - dbin(teta2[i],m[iD ;
} # fin de boucle sur i } # fin d u modele # les donnees list( Nyears = 17, c = c(167, 264, 130, 16, 226, 235, 15, 44, 31, 100, 32, 109, 70, 56, 34, 154, 53), d = c(13, 48, 37, 4, 43, 36, 8, 0, 11, 19, 14, 7, 15, 22, 4, 6, 0), m = c(154, 216, 93, 12, 183, 199, 7, 44, 20, 81, 18, 102, 55, 34, 30, 148, 53), r = c(22, 25, 9, 24, 12, 56, 17, 24, 9, 7, 5, 46, 82, 15, 36, 35, 37), rm = c(12, 21, 5, 2, 12, 56, 2, 23, 4, 4, 1, 39, 25, 12, 6, 23, 4), rnm=c(10, 4, 4, 22, 0, 0, 15, 1, 5, 3, 4, 7, 57, 3, 30, 12, 33) );
# Les valeurs d initialisation MCMC list( teta1 = c(0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5), teta2 = c(0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5, 0.5), teta_pred = 0.5,p _pred=0.2, E teta = 0.6, u teta = 0.6, E_p = 0.6, u_p = 0.6, N = c(300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300, 300), N pred = 300, EN = 10, LogVN
=
3,
lambda = c(10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10), lambda pred = 10
);
Chapitre H
Annexe du chapitre 13 : detection de ruptures, cas Gumbel Loi de Gumbel ou loi double exponentielle Definition et proprictos Nous completons ici le modele de Gumbel, deja rencontre au chapitre 6 pour la distribution des valeurs extremes. Sa fonction de repartition standard est definie sur IR par l'identite suivante :
Pr(U S u) == exp(-exp(-u))
(H.I)
Sa fonction de densite de probabilite suit d
[u] == du exp (- exp (-u)) == exp (-exp (-u)) x exp(-u) == exp
(-u - exp (-u))
(H.2)
Remarque H.! Dans la densite de U
[u] == exp (-exp (-u)) x exp(-u) posons
t
== exp ( -u) ~
u ==
- In t
Le Jacobien est Iduldtl == lit. Par consequent, la densite de Test celle de U en u == -In t multipliee par Ie Jacobien lit:
[t] == exp (-t)
~ T
rv
dexp (til)
314
Pratique du calcul bayesien Ses deux premiers moments sont
(H.3) ou T == 0.57722 ... est la constante d' Euler. Appliquons une transformation lineaire
x
==
a la variable aleatoire
U:
A + aU, a > 0, A E IR
OU A est un parametre de calage (localisation) et a est un parametre d'echelle. La densite de X est celIe de U en u == (x - A) / a multipliee par le J acobien du/dx == a-I> 0: 1 [xIA,a]==~exp
(X-A) --a- exp (-exp (X-A)) --a-
(H.4)
Les deux premiers moments de X sont triviaux (si on connait ceux de U) E (XIA, a) == A + aT, V (XIA, a) == (a7r)2 /6
La loi de Gumbel so us une forme prisee des hydrologues Certains auteurs preferent travailler avec le parametre d'echelle p == a-I, notamment les hydrologues qui utilisent souvent la loi de Gumbel avec un autre parametre de calage note M > O. En posant InM A == == (JInM (H.5) p et en substituant dans la densite H.4 on trouve :
[xIA,a]
p exp (- px + In M) exp (- exp (- px + In M) ) PMexp (-px) exp (-M - exp (-px))
(H.6)
II est facile de voir que sous cette forme, la densite de Gumbel est la derivee (par rapport ax) de la fonction de repartition Pr(X ~ XIM,P) == exp (-Mexp (-px))
(H.7)
Les deux premiers moments prennent alors la forme suivante : E (XIJ-t, p) = InJ-t + I'
(H.8)
~ (~r
(H.9)
P
V (XIJ-t,p) =
L'avantage de cette representation prisee des hydroIogues est que l'interpretation de M est reliee directement a la probabilite de valeurs negatives ou nulles : (H.lO) Pr (X :s; DIM, p) == exp (-M)
Annexe H
315
Remarque H.2 Notons que dans les problemes de valeurs extremes OU le modele Gumbel s'applique, la valeur 0 a rarement une signification realiste. Cependant si les valeurs de X sont mesurees selon une origine Xo qui a un sens, Ie modele H.7 devient Pr (X :::; xlJL, p, xo) == exp (-JLexp (-p (x - xo))) Dans ce cas, l'interpretation phenomenologique de JL devient possible puisque Pr (X :::; xolJL, p) == exp (-JL) Notons qu'on utilise souvent comme parametre de localisation la valeur medianc
Q=
_ log f-l _ log( -log(O.5)
p de preference a l' esperance et surtout moins directe.
p
(H.ll)
a JL dont la signification hydrologique est
Notons qu'on utilise souvent comme parametre de localisation la valeur mediane log JL _ log( -log(O.5) Q (H.12) p P de preference a l'esperance et surtout a JL dont la signification hydrologique est moins directe.
Modelisation des changements pour Ie modele de GUITlbeI Nous donnons ci-apres les equations equivalentes aux formules 13.1 et suivantes pour le modele de Gumbel. Elles ont ete utilisees pour traiter le cas de la Dordogne a Cenac prescntc au chapitre 13 a la figure 13.2.
Modele M1 (1 seule rupture) Soit une sequence de variables aleatoires reelles Xl, X 2 , ... ,Xt , · .. X n observees a intervalles de temps regulier (des annees par exemple), supposces mutuellement indepcndantes et distribuees selon le modele de Gumbel: [XtIJLk, p]
avec
== PJLk exp (-PXt) exp [-JLk exp (-PXt)]
(H.13)
l{:}t==l··· T " k == { 2{:}t==T+l,··· ,n
Avec cette notation appreciee des hydrologues pour la loi de Gumbel, le parametre JL a une interpretation phenomenoloqique et ses deux premiers moments s'expriment de facon explicite avec appel a la constante d'Euler (equations H.8 et H.9) .
316
Pratique du calcul bayesien
Remarque H.3 Le modele H.13 fait I'hypothese forte que 7 est la derniere date avant changement du parametre fL de la distribution parente alors que lc parametre d'echclle P reste invariant. II y a aussi derriere ce schema, l'idee que la rupture est unique et done que le nouvel etat, caracterise par fL2 perdure au moins jusqu'a la fin de la pcriode observee n.
Modele M k (k ruptures) C'est le meme modele que ci-dessus avec k sauts existent dans une serie de variables aleatoires independantes distribuees selon Gumbel (Ie parametre fL change mais le pararnetre p reste invariant).
Representation des distributions a priori Pour le modele de Gumbel, il existe des distributions conjuguees naturelles gamma pour les fLj. En revanche, p ne posscde pas de conjuguec mais sa distribution peut etre supposee a priori independante des u. Pour les dates de rupture 71,72,··· des modeles M 1 , Mi. on prend les memes priors non informatifs propres que pour la construction normale (eq, 13.2 et eq. 13.4). Pour les autres parametres, on prend les conjuguees naturelles gamma pour les fLj auxquels nous joindrons un prior gamma independant pour p :
[ttl, ... ,ttk+ 1, p] == [p]
k+1
I1
[ttj] ,
p
r'V
dgamma (a, b),
Vj : ttj
r'V
dgamma (p, q)
j=l
(H.14)
Etude du modele M; Avec les memes notations que pour le modele normal du chapitre 13, a partir de la distribution de Gumbel (eq, H.13), la contribution a la vraisemblance de Xji, la ie-me don nee du groupe j s'ecrit
Par consequent, la vraisemblance de l'echantillon complet est k+1
[XlfL,P,7] ==
IT IT PfLj exp [-PXji nj
j=l i=l
ou
fLj exp (-PXji)]
Annexe H
_
317
1 k+l
X== - Lnjxj
n
j=1
En adoptant l'echangeabilite a priori des J-lj (equation H.14) le prior s'ecrit :
[
u,
p] -
rr
k+l
ba
r (a) p
a-I
p
(b ) q p-l ( ) exp - p j=l r (p) J..tj exp -qJ..tj
ex pa-1 exp (-bp)
kIT+lJ..tr1) exp (k+l) -q L J..tj (J=1 J=1
Par application de la regie de Bayes, la densite a posteriori [p"plx] s'ecrit donc:
La conditionnelle complete d'un J-lj quelconque s'ecrit
Ainsi les J-lj, conditionnellement a p fixe, sont independants et distribues selon des lois gamma independantes : (H.15) Par integration de H.14 par rapport aux J-lj, on peut exprimer analytiquement la forme de la distribution conditionnelle de p :
1
[piT, x] ex pn+a- exp [-
A partir de l'identite
on trouve
:
- k
(b + nx) pJ
rr+l
f(n·+p) nj J nj+p (H.16) j=1 (q+Li=l exP(-PXji))
318
Pratique du calcul bayesien
La regle de Bayes fournit le posterior de
1
00
(b + nx) p]
T :
II
k+l
r(
+)
nj nj P nj+pdp o j=l(Q+Li=leXP(-PXji)) (H.17) On notera ici que, contrairement au cas normal, la distribution conjointe [Tlx] des Tj est exprimee par une integrale sur P qui n'a pas de solution analytique.
[Tlx] ex [T]
pn+a-l exp [-
Algorithme dinference bayesienne L'inference bayesienne est mise en ceuvre
a partir des equations H.17+H.16
+H.15. Elle s'appuie sur l'echantillonnage pondere avec re-echantillonnage du chapitre 4, p. 81). Si l'on reprenait exactement le canevas de l'algorithme decrit pour Ie cas normal (p. 249), il faudrait y adjoindre une integration numerique par rapport a P pour simuler T (eq, H.17). II est ici plus astucieux de joindre ce parametre P aux variables latentes T. On pourra alors utiliser le prior [T][p] comme distribution instrumentale dans l'algorithme d'echantillonnage pondere du paragraphe 4.4.3, ce qui nous donnera un echantillon a posteriori de (T, p). Dans les applications au modele Mi; de Gumbel, on a de plus construit une fonction d'importance plus interessante que le prior. L'idee est d'employer une Ioi normale qui approche la distribution H.16 a posteriori de p (eventuellement simplifiee pour le cas d'absence de changements). C'est cette loi normale pour p, associee au prior [T] qui a ete utilisee comme fonction d'importance pour conduire I'inference du modele de Gumbel.
Loi norrnale : etude du modele M; Vraisemblance La contribution d'une observation
a la vraisemblance s'ecrit
Posons
x == {Xji: j == 1,2,··· ,k+ l;i == 1,2,··· ,nj} J1 T
== {J1j : j == 1, 2, ... ,k + I} == {Tj : j == 1, 2, . .. ,k}
Annexe H
319
II y a done 2 (k + 1) parametres a estimer. L'hypothese d'independance entre les observables permet d'ecrire la vraisemblance comme le produit des densites :
(H.18)
Distributions conditionnelles a posteriori des connu
j-lj
et de h
a
T
Le prior conjoint (13.8) possede une structure qui ressemble a la vraisemblance conditionnelle a T (eq H.18) que l'on va exploiter pour tirer parti des proprietes de conjugaison :
[JL, h] ex hc- 1 exp (-dh) h(k+l)/2 exp
L'application de la regle de Bayes [JL, hIT,X] ex h(k+l)/2+n/2+c-l exp
(
(
h k+1 ) ~ (JLj - m)2 2
- a
(H.19)
a T connu donne :
-2"h
(
2d + Q
f;
k+1 k+1 ) + a~ (JLj - m)2 + nj(xj - JLj)2
)
(H.20) Or un simple calcul algebrique montre que a
k+l
k+l
k+l
j=l
j=l
j=l
:L (JLj - m)2 + :L nj(xj - JLj)2 = :L (a + nj) (JLj - mj)2 + T
ou (H.21) Le terme T ne depend que des donnees et des informations a priori. II s'en suit que la distribution conjointe a posteriori des parametres J-L et h s'ecrit [JL, hIT,X] ex h(k+l)/2+ n/2+c- 1 exp
-2" f; (a + nj) (JLj - mj)2 (-2"h(2d + Q + T) ) (h exp
La distribution conditionnelle a posteriori de J-Lj rupture sont T fixes est immediate : J-Ljlh, T ~
dnorm (mj, hj)
ah
k+1
(H.22) lorsque les temps de
(H.23)
)
320
Pratique du calcul bayesian
ou hj == (a + nj) h
(H.24)
L'integration de la distribution conjointe par rapport
00 100 1 -00 • ••
k+l
-00
j.Lj
donne
21r ex h-(k+l)/2 (H.25) h(a+nj)
[J-l, hiT, x] du.; ... dJ-lk+l = }]
La distribution conditionnelle a posteriori de h
[hiT, x] ex hn / 2+c - 1 exp
a chaque
a7
fixe suit :
[-~ (2d + Q + T)]
(H.26)
On reconnait une distribution gamma, de parametre de forme c' et d'inverse echelle d' :
, n c==-+c
(H.27)
2
d' =
~ (2d + Q + T)
Distribution marginale a posteriori de
(H.28) T
Maintenant on peut obtenir la distribution marginale a posteriori de T. Cornmencons par ecrire la distribution conjointe du reseau bayesicn sous deux formes differentcs :
[JL,hI7, x] [XI7] [7]
==
[JL,h, 7, x] == [xIJL,h, 7][JL,hI7] [7]
On en deduit
Mais l'independance a priori supposee de entraine
7
avec tous les autres parametres
Cette independance est essentielle pour les calculs realises ci-apres, Le premier facteur du membre de droite est donne par H.18 et le second par H.19. Donc le membre de gauche est proportionnel a leur produit H.22 dans lequel on a tenu compte des definitions H.21, H.24.
Annexe H En integrant successivement par rapport deux cotes, on trouve :
a /1
==
321
(/11,··· ,/1k+1) puis h des
On peut appeler [XIT] la predictive conditionnelle de x pour T == (Tl,··· ,Tk) fixe. La distribution a posteriori du parametre T suit par la formule de Bayes
(H.29) ou le prior conjoint [T] est fourni par la procedure decrite ci-avant.
Le modele autoregressif de changement M; Nous restons ici encore avec l'hypothese d'un seul changement a la date T dans un processus normal. Par rapport au modele M1, Ma se distingue par un parametre supplementaire cp, autocorrelation du processus. Celui-ci verifie la condition Icpl ~ 1 pour que la serie des ecarts aux moyennes soit stationnaire ce que nous supposerons. II en resulte une contrainte prise en compte par une distribution definie sur [-1, + 1]. Sachant que nos applications illustratives verifient plutot 0 ~ cp ~ 1 nous adopterons un prior normal tronque sur cet intervalle en y ajoutant l'hypothese d'independance a priori de cp avec les autres parametres. Soit le modele conditionnel autoregressif d'ordre 1 :
+ cpXt-l, h) pour t == 1,2, ...T == N(1/J2 + cp Xt-l, h) pour t == T + 2, ...n
[Xt Xt- l ] == N( 1/Jl I
[XtIXt-l]
(H.30) (H.31)
Vraisemblance et priors Pour expliciter la vraisemblance, nous utiliserons ici les notations matricielles en posant les vecteurs :
(H.32) et deux vecteurs instrumentaux de coordonnees
Vlt == 1 si t ~ T , 0 sinon V2t == 1 si t 2: T + 1 ,0 sinon - On peut alors poser vraisemblance et priors conjugues conjoints :
322
Pratique du calcul bayesien
[xI'th , 'l/J2, h, '17]
=
([f;t
exp[-
h~]
(H.33)
avec: Q == (X-'l/Jlvl-'l/J2v2-yJX_)T(x-'l/Jlvl-'l/J2v2-yJX-) (H.34) _ e-~ hg - 1 h3/2JA1A2Acp -~((O-m)TL(O-m)) ['l/J1, 'l/J2, h, '17] - 8[0,1] ('17) x f(g )cg X (211" )3/2 e
(H.35) en utilisant la notation de la fonction de Dirac 6
[7] == _1_, independant de () n-l
==Jl;1,Jl;2,h
(H.36)
sur {1,2, ... ,n -I}
(H.37)
La fonction de Dirac 6[0,1] (yJ) nulle en-dehors de l'intervalle [0,1] au elle est egale a L, tient compte de la contrainte sur ip, On remarquera que, sous cette forme la vraisemblance a 7 fixe est celle d'un modele gaussien lineaire classique. En ce qui concerne ces priors, on utilisera les conjugues naturels pour ip, 'l/Jl, 'l/J2 et h ,soit : - h est distribue comme une gampdf(a, b) - si h est fixe 'l/Jl, 1/J2, .p sont distribues comme une loi normale a 3 di-
::;::~:2~::~:;:~:::: :n:ep(en~;nt!, c~nd)itionnellement o
0
a h,
soit
x,
Remarque H.4 Cette hypothese impliquant l'independance a priori de L different.
'l/Jl, 'l/J2, .p peut etre remplacee par un
(H.38)
Distributions a posteriori On va commencer par transformer la vraisemblance. Conjointement a (), on utilisera la matrice n x 3: S == {VI;V2;X_} Soient les valeurs () == {~l; ~2; ~} qui maximisent la vraisemblance (c'est-adire qui minimisent Q). Elles sont les solutions du systems a 3 equations:
vi .(X-'l/JI VI -'l/J2 V2-yJX-) == 0
(H.39)
vf.(X-'l/JIvI-'l/J2v2-yJX-) == 0
(H.40)
x~ (X-'l/Jl VI -ttP2 V2-yJX-) == 0
Annexe H
323
equivalentes au produit matriciel :
(H.41) Cela etant, on peut decomposer Q en utilisant une identite connue (voir par exemple Box et Tiao, 1973) :
Maintenant, une autre identite sur la somme de deux formes quadratiques permet d'ecrire :
(() - O)TSTS(() - 0) + (() - m)T L(() - m)
== (() - mx)T(STS + L)(() - m x )
+(0 - m)TSTS(STS + L)-1 L(~H.4fl) ou on a pose
(H.43) Compte tenu de ces resultats, on peut aisement determiner les distributions
a posteriori. On en donne ci-apres la distribution conditionnelle conjointe a posteriori pour T fixe:
avec:
== 9 + n/2 L; == STS + L
(H.44)
9x
y
(H.45) 2c
= 2 + c((x - SO)T(x - SO) + (0 - m)TSTSL;l L(O - m)) m x == L;1(STSO + Lm) C
(H.46) (H.47)
Les densites marginales a posteriori de ~1, ~2, .p sont des dcnsites de Student (tronquees pour <.p) qui sont aisees a determiner compte tenu de la formule generale ci-dessus. - Maintenant on peut obtenir la distribution marginale a posteriori de T comme nous l'avons fait pour Mk.
[XIT][(), hiT, x] == [xl(), h,T][(), h]
(H.48)
d'apres l'independance a priori supposee de T et des autres parametres. En utilisant l'ecriture developpee du second membre compte tenu des identite precedentes, on a :
324
Pratique du calcul bayesien
[XIT][O, hiT, x] == Ce"
c: hgxe-~((e-mx)TLx(e-mx))
C est une constante (independantc de (), h, T) En integrant par rapport
(H.49) (H.50)
a () puis h des deux cotes, on trouve : (H.51)
On remarquera que 9x ne depend pas de Bayes pour T, donne :
T
de telle sorte que la formule de
(H.52) Remarque H.5 Nous avons discute ce modele en utilisant les notations matricielles. Ce parti a l'interet de montrer la generalisation aisee de la modelisation des changements a des modeles lineaires generaux avec variables ou processus explicatifs divers. Les formules precedentes sont tres facilement transposables dans ce cas. Sur le plan des calculs, la methode EPE que nous avons adoptee se generalise egalcment sans perte de precision ni augmentation de couts-calculs.
Bibliographie Bagliniere, J.L., Champigneulle, A. 1986. Population Estimates of Juvenile Atlantic Salmon,Salmo Salar, as Indices of Smolt Production. Journal Fish Biol., 29, 467-482. Berger, J.O. 1985. Statistical Decision Theory and Bayesian Analysis. 2nd edn. Springer-Verlag. Bernardo, J.M., Smith, A.F.M. 1994. Bayesian Theory. Wiley and Sons, Chichester, U.K. Bernier, J., Parent, E., Boreux, JJ. 2000. Statistique Pour L'Environnement . Traitement Bouesieti de L'incertitude. Tec et Doc, Lavoisier. Bouleau, N. 1991. Splendeurs et Miseres Des Lois de Valeurs Extremes. Revue Risques, 4, 85-92. Box, G. E. P., Tiao, G. T. 1973. Bayesian Inference in Statistical Analysis. Reading : Addison-Wesley. Brooks, S.P. 1998. Markov Chain Monte Carlo Method and its Application. The Statistician, 47(1), 69-100. Brouard, J., Hoceine, A., Lecoutour, X., Kauffmann, D., Eckart, P., Duhamel, J.F. 1995. Estimation de l'incidence de la tuberculose pediatrique en BasseNormandie. Med. Mal. Infect., 1345-1347. Cappe, 0., Guillin, A., Marin, J., Robert, C. 2004. Population Monte Carlo. J. Comput. Graph. Statist., 13(4),907-929. Chang, J., Guo, Z. 1998. Emissions of Odorous Aldehydes from Alkyd Paints. Atmospheric Environnement, 32, 3581-3586. Chao, A. 1989. Estimating Population Size for Sparse Data in CaptureRecapture Experiments. Biometrics, 45, 427-438. Chen, M.-H., Shao, Q.-M., Ibrahim, J. G. 2000. Monte Carlo Methods in Bayesian Computation. Springer. Clobert, J., Pradel, R. 1993. Modelling some Demographic Parameters in Animal Populations Studied by Capture-Mark-Recapture : Review and Perspectives. Pages 151-174 of : Lebreton, J-D., Asselin, B. (eds) , Biometric et Environnement. Paris : Masson.
326
Pratique du calcul bayesien
Coles, S. 2001. An Introduction to Statistical Modeling of Extreme Values. Springer Series in Statistics. Cornillon, P. A., Matzner-Lober, E. 2007. Regression. Theorie et Applications. Springer-Verlag France. Cowell, R. 1998. Introduction to Inference for Bayesian Networks. Pages 926 of : Jordan, M., I. (ed), Learning in Graphical Models. Cambridge, Massachusetts : The MIT Press. Cramer, H. 1946. Mathematical Methods in Statistics. Princeton univ. press edn. Deparis, X., Pasacl, B., Bourdon, D. 1997. Evaluation des systemes de surveillance epidemiologique du paludisme dans les arrnees francaise en 1994 par la methode de Capture-recapture. Tropical Medicine and International Health. Doucet, A., De Freitas, N., Gordon, N. 2001. Sequential Monte-Carlo Methods in Practice. Springer. Drees, H. 2008. Some Aspects of Extreme Value under Serial Dependance. Extremes, 11, 35-53. Droesbeke, J.J., Fine, J., Saporta, G. 2002. Methodes Bayesiennes En Statistiques. TECHNIP, Paris, 418 p. Finney, D.J. 1971. Probit Analysis. Cambridge University Press. Fisher, R.A., Tippett, L.H.C. 1928. Limiting Forms of the Frequency Distribution of the Largest or Smallest Member of a Sample. Proceedings of the Cambridge Philosophical Society, 24, 180-190. Foata, D., Fuchs, A. 1998. Processus Stochastiques, Processus de Poisson, Chaines de Markov et Martinguales. Dunod. Fortin, V., Perreault, L., Salas, J. D. 2004. Retrospective analysis and forecasting of streamflows using a shifting level model. Journal of Hydrology, 296(1-4), 135-163. Gazey, W.J., Staley, M.J. 1986. Population Estimation from Mark-Recapture Experiments Using a Sequential Bayes Algorithm. Ecology, 67(4),941-951. Gelman, A., Rubin, D.B. 1992. Inference from Iterative Simulation Using Multiple Sequences. Statist. Sci., 7, 457-511. Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 1995a. Bayesian Data Analysis. Chapman and Hall. Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 1995b. Bayesian Data Analysis. Texts in Statistical Science. London, New-York. : Chapman and Hall. Gelman, A., Carlin, J.B., Stern, H.S., Rubin, D.B. 2004. Bayesian Data Analysis. 2nd edn. Chapman et Hall/CRC. Giltinan, D. M., Capizzi, T.P., Malani, H. 1988. Diagnostic Tests for Similar Action of Two Compounds. Appl. Statist., 39-50.
Bibliographie
327
Girard, P., Parent, E. 2000. Analyse Bayesienne Du Modele Lineaire A Erreur Autocorrelee : Application A la Modelisation D'un Procede AgroAlimentaire A Partir de Donnees Recueillies sur Ligne. Revue de Statistique Appliquee, XLVIII(1-15), 5-34. Girard, P., Parent, E. 2001. Bayesian Analysis of Autocorrelated Ordered Categorical Data for Industrial Quality Monitoring. Technometrics, 42(4), 1-12. Girard, P., Parent, E. 2004. The Deductive Phase Of Statistical Analysis Via Predictive Simulations : Test, Validation and Control of a Linear Model with Autocorrelated Errors Representing a Food Process. Journal of Statistical Planning and Inference, 124(1),99-120. Gnedenko, B. 1943. Sur la Distribution Limite Du Terme Maximum D'une Serie Aleatoire. The annals of Mathematics, 44, 423-453. Haghighat, F., De Bellis, L. 1998. Material Emission Rates: Literature Review and the Impact of Indoor Air Pollution Temperature and Relative Humidity. Building and Environment, 5, 261-277. Hand, D.J., Daly, F., Lunn, A.D., McConway, K.J., Ostrowski, E. 1993. A Handbook of Small Data Sets. Chapman and Hall, London, 458 p. Hayter, T., Dowling, M. 1993. Experimental Designs and Emission Rate Modelling for Chamber Experiments. Atmospheric Environment, 27 A(14), 2225-2234. Hubert, P. 2000. The segmentation procedure as a tool for discrete modeling of hydrometeorological regimes. Stochastic Environmental Research and Risk Assessment, 14(4), 297-304. Jeffreys, H. 1939. Theory of Probability. Oxford. Jenkinson, A.E. 1955. The Frequency Distribution of the Annual Maximum (or Minimum) Values of Meteorological Elements. Quarterly Journal of the Royal Meteorological Society, 81, 158-171.
Jones, A.P. 1999. Indoor Air Quality and Health. Atmospheric Environment, 33, 4535-4564. Kass, R.E., Raftery, A.E. 1994. Bayes Factors. Journal of American Statistics Assoc., 90, 773-795. Kass, R.E., Carlin, B.P., Gelman, A., Neal, R.M. 1996. Markov Chain Monte Carlo in Practice : A Roundtable Discussion. Proceedings of the joint statistical meetings. Leadbetter, M.R. 1983. Extremes and Local Dependence in Stationnarity Sequences. Zeit. Wahrscheinl.-theorie, 65, 291-306. Lee, A. F. S., Heghinian, S. M. 1977. A Shift of the Mean Level in a Sequence of Independent Normal Random Variables: A Bayesian Approach. Technometrics, 19(4),503-506. Lejeune, M. 2005. Statistique. La Theorie et Ses Applications. Springer-Verlag France.
328
Pratique du calcul bayesien
Marin, J.M, Robert, C. P. 2007. Bayesian Core. Springer. Marion, V. 2007. Existe-t-il Une Pneumoconiose Du Proihesiste Dentaire? Tech. rept. ULB, Institut des Sciences du Travail. Metropolis, N., Rosenbluth, A.W., Rosenbluth, M.N., Teller, E. 1953. Equations of State Calculations by Fast Computing Machines. Journal Chem. Phys., 21, 1087-1092. Morlat, G. 1968. La Distribution Des Debits de Fuite sur Une Conduite de Gaz. Tech. rept. E. D. F. Palmarini, M. P. 1995. La Reforme Du Jugement Ou Comment Ne Plus Se Tromper. Odile Jacob. Titre original: L'illusionne di sapere (1993). Parent, E., Bernier, J. 2003. Encoding Prior Knowledge to Improve Risk Analysis of Extreme Hydrological Events Via POT Modeling. Journal of hydrology, 283, 1-18. Parent, E., Bernier, J. 2007. Le Raisonnement Bauesien. Modelisaiion et Inference. Springer Verlag France. Parent, E., Prevost, E. 2003. Inference Bayesienne de la Taille D'une Population de Saumons Par Utilisation de Sources Multiples D'information. Revue de Statistique Appliquee, LI(3), 5-35. Perreault, L. 2000. Analyse bayesienne retrospective d'une rupture dans les sequences de variables aleatoires hydrologiques. Ph.D. thesis, ENGREF (France) et Universite du Quebec (Canada). Perreault, L., Bernier, J., Bobee, B, Parent, E. 2000. Bayesian change-point analysis in hydrometeorological time series. Part 1. The normal model revisited. J. Hydrol., 235, 221-241. Pickands, J. 1975. Statistical Inference Using Extreme Order Statistics. Annals of statistics, 119-131. Potter, E.C.E., Crozier, W.W. 2000. A Perspective on the Marine Survival of Atlantic Salmon. The Ocean Life of Atlantic Salmon- Environmental and Biological Factors Influencing Survival. Pages 19-36 of : Mills, D. (ed), Fishing News Books. Oxford: Blackwell Science. Punt, A.E., Hilborn, R. 1997. Fisheries Stock Assessment and Decision Analysis: The Bayesian Approach. Reviews in Fish Biology and Fisheries., 7, 35-63. R Development Core Team. 2009. R : A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0. Raftery, A.E. 1988. Inference for the Binomial N Parameter: A Hierarchical Bayes Approach. Biometrika, 75(2), 223-228. Raiffa, H., Schlaifer, R. 1961. Applied Statistical Decision Theory. Harvard: Harvard University Press.
Bibliographie
329
Renard, B., Lang, M., P., Bois. 1988. Statistical analysis of extreme events in a non-stationary context via a Bayesian framework : case study with peak-over-threshold data. Stochastic Environmental Research and Risk Assessment, 21(2), 97-112. Rivot, E., Prevost, E. 2002. Hierarchical Bayesian Analysis of Capture-MarkRecapture Data. Canadian Journal of Fish. and Aquat. Sciences, 59, 1768-1784. Robert, C. 2006. Le Choix Bauesien, Principes et Pratique. Statistique et Probabilites Appliquees, Springer. Robert, C.P., Casella, G. 1999. Monte-Carlo Statistical Methods. Springer. Ruggle, J., Brodie, H. 1947. An empirical approach to ecomic intelligence in world war II. Journal of American Statistics Assoc., 42, 72-91. Salas, J.D., Boes, D.C. 1980. Shifting Level Modelling of Hydrologic Series. Advances in Water Resources, 3(2), 59-63. Samet, J.M. 1993. Indoor Air Pollution: A Health Perspective. Indoor Air, 3, 219-226. Savage, L. J. 1954. The Foundations of Statistics. New York: Dover Publications. Seber, G.A.F. 1982. The Estimation of Animal Abundance and Related Parameters. Londres : Charles Griffin and Co. Ltd High Wycombe. Sivia, D. S. 1996. Data Analysis: A Bayesian Tutorial. Oxford: Clarendon Press. Smith, A.F.M., Gelfand, A.E. 1992. Bayesian Statistics Without Tears. A sampling resampling perspective. The American Statistician, 46(2). Spiegelhalter, A., Thomas, A., Best, N., Lunn, D. 2003. WinBugs Package. WinBugs package, version 1.4. Spiegelhalter, D.J., Thomas, A., Best, N.G., Gilks, W.R. 1996a. BUGS 0.5, Bayesian Inference Using Gibbs Sampling. In: Manual Cambridge. Londres : MRC Biostatics Unit. Spiegelhalter, D.J., Thomas, A., Best, N. G. 1996b. Computation on Bayesian Graphical Models. Pages 407-425 of : Bernardo, J.M., Berger, J.O., Dawid, A.P., Smith, A.F.M. (eds), Bayesian Statistics. Oxford University Press. Spiegelhalter, D.J., Thomas, A., Best, N.G. 2000. WinBUGS Version 1.3 : User Manual. Cambridge: Medical Research Council Biostatistics Unit. Squinazi, F. 2002. La Pollution de L'air A L'interieur Des Batiments (Allergenes Exclus). Allergol Immunol Clin, 42, 248-255. Tanner, M.A. 1996. Tools for Statistical Inference: Methods for the Exploration of Posterior Distribution and Likelihood Functions. New York: Springer Verlag.
330
Pratique du calcul bayesien
Tichenor, B.A. 1989. Indoor Air Sources. Using Small Environmental Chamber to Characterize Organic Emissions from Indoor Materials and Products. EPA, 600(8-89-074).
Wolkoff, P. 1995. ~VOC : Sources, Measurements, Emissions and the Impact on Indoor Air Quality. Indoor Air, supl.3, 1-73.
la conjugaison, 16, 130 par analogie, 16, 131 par introspections successives, 10, 132
Index
DAG, 14, 33, 34, 38, 51, 85, 88, 155, 156 distribution
a posteriori, 16 a priori, 9 conjointe a posteriori, 269 a posteriori distribution, 12, 18,27,41,53,90, 102, 202, 219, 222, 227, 232, 251, 271
de Polya, 29 marginale a posteriori, 270 predictive a posteriori, 5, 12, 29, 271
a priori echangeabilite, 227 echantillonnage bootstrap, 82 de Gibbs, 49, 69, 109, 115, 156, 162, 189, 201, 202, 282 multinomial, 44 par importance, 81 pondere, 49, 76, 249 elicitation, 247 d'un prior beta, 134 estimateur des moindres carres, 290 exemple action conjointe de deux produits, 181 apports energetiques du Saint Laurent, Bayes 239, 254, 256 rapport de, 251 debits moyens annuels du Seneregle de, 212, 217 gal, 239, 253 bayesienne du tramway, 86 evaluation des stocks de saumons, inference, 101, 212, 226, 247 148 chaine de Markov, 51, 201, 220, 234 exoplanetes, 87 chambre d'emission, 212 incidence du paludisme dans les choix de modele, 165, 239, 250, 251, armees francaises, 46 261 la troisicme loi de Keppler, 35 conjugaison, 209 lait concentre sucre, 188, 197 constante d' Euler, 314 lame d'eaujournaliere it Uccle, 121 construction du prior maxima annuels des debits de la conjoint, 152 Dordogne, 239, 243, 258
distribution, 27, 52, 217, 225, 228, 308 echangeabilite, 317 information, 309 poids, 244 alea naturel, 4, 170 algorithme, 43 de Metropolis-Hastings, 49, 66 de Monte-Carlo, 49, 59 echantillonnage pondere, 249 MCMC, 65, 232 approximation asymptotique, 52 normale, 197
332
Pratique du calcul bayesian niveau de la mer a Port Pirie, 116, 284 pneumoconiose, 176 pollution indoor, 212 prothesistes dentaires, 178 rangs de naissance, 88 saumons, 307 saumons dans la riviere Oir, 222 tuberculose pediatrique en BasseNormandie, 45 vitesse du vent a Tunis, 118
facteur de Bayes, 130, 250, 252 famille exponentielle, 173, 196 fonction d'importance, 318 de Dirac, 322 de repartition, 303, 313 hypothese iid, 4, 13, 29, 30, 99, 216, 269, 274 independence a priori, 320 conditionnelle, 36, 172 statistique, 227 inference bayesienne modele GEV, 110 modele POT, 112 information de Fisher, 57, 129 intervalle de credibilite, 18 Jacobien, 267 loi de probabilite beta, 27, 176,229, 275 binomiale, 25, 277 binomiale-negative, 32, 231, 277 de Cauchy, 173 de Po~so~ 25, 231, 277 de Student, 14, 268, 287 de Frechet, 99 de Gumbel, 99, 243, 244, 313 de Laplace-Gauss, 267 de Pareto generalisee, 106
de Weibull, 99 du Khi-deux, 268 gamma, 13,217,249,268,274,292 generalisee des valeurs extremes, 99 jointe, 212 multinormale, 291 normale, 4, 55, 231, 242, 318 tronquee, 301 normale centree reduite, 287 predictive du modele hierarchique, 234 predictive a posteriori, 234 uniforme, 99, 229 methode acceptation-rejet, 73 d'importance sampling, 253 de Monte-Carlo, 72 MCMC, 66 particulaire, 81 modele shifting level model, 260 a k ruptures, 241 a une seule rupture, 240 autoregressif, 194, 243 bayesien annuel, 228 bayesien hierarchique echangeable, 225 beta-binomial, 27 catcgoriel probit, 206 d'echantillonnagc, 23 de capture-marquage-recapture, 41, 222, 307 de depassement, 281 de regression lineaire, 287 de regression logistique, 177 de regression non lineaire, 214 de rupture, 238, 315, 316 des fuites, 281 deterministe, 216 gamma-Poisson, 30, 278 GEV, 100, 282 hierarchique, 87, 222, 225, 234, 307, 310
Index
Iineaire, 4, 170 lineaire a residus autocorreles, 195 avec erreur sur regresseurs, 200 lineaire generalise, 48, 172, 173 POT, 105, 281 statistique parametrique, 5 modularite, 39
parametre d'echellc, 231, 283, 316 inverse, 320 de forme, 102, 249, 320 de localisation, 315 posterior, 269, 318 principe de parcimonie, 241 prior de Jeffreys, 229 echangeable, 246 vague de Jeffreys, 58 processus de Bernoulli, 24, 176, 273 ponctuel de Poisson, 25 ponctuel de Poisson, 279 marque, 280 rapport de vraisemblance, 251 regle de Bayes, 12 de decision, 22 regression lineaire, 61, 191, 289 logistique, 176 reseau bayesien, 38 residus autoregressifs, 183, 197 graphe, 214 risque d'erreur, 219 relatif, 180 somme de deux formes quadratiques, 291 theoreme, 138
333
Fisher et Tippet, 101 Gnedenko et Jenkinson, 101 central limite, 7, 51 valeur de projet, 103 valeurs extremes, 239, 314 variable latente, 40, 153, 206, 282 vraisemblance, 192, 217, 223, 244 WinBUGS, 4, 48, 49, 66, 90, 93, 126, 180, 216, 218, 232, 282 zeros-trick, 92, 284