Metodi di previsione statistica
Francesco Battaglia
Metodi di • • • • previsrone statisttca
~ Springer
FRANCESCO BATTAGLIA
Dipartimento di Statistica, Probabilita e Statistiche Applicate Universita La Sapienza Roma
ISBN 978-88-470-0602-7 Springer Milan Berlin Heidelberg New York Springer-Verlag fa parte di Springer Science+Business Media springer.com ©
Springer-Verlag Italia, Milano 2007
Quest'opera e protetta dalla legge sul diritto d'autore. Tutti i diritti, in particolare quelli relativi alla traduzione, alla ristampa, all'uso di figure e tabelle, alla citazione orale, alla trasmissione radiofonica 0 televisiva, alla riproduzione su microfilm 0 in database, alla diversa riproduzione in qualsiasi altra forma (stampa 0 elettronica) rimangono riservati anche nel caso di utilizzo parziale. Una riproduzione di quest'opera, oppure di parte di questa, e anche nel caso specifico solo ammessa nei limiti stabiliti dalla legge sul diritto d'autore, ed esoggetta all'autorizzazione dell'Editore. La violazione delle norme comporta sanzioni previste dalla legge. L'utilizzo di denominazioni generiche, nomi commerciali, marchi registrati, ecc., in quest' opera, anche in assenza di particolare indicazione, non consente di considerare tali denominazioni 0 marchi liberamente utilizzabili da chiunque ai sensi della legge sul marchio. Impianti forniti dall'autore Progetto grafico della copertina: Simona Colombo, Milano Stampa: Signum, Bollate (Mi) Stampato in Italia Springer- Verlag Italia srl Via Decembrio 28 20137 Milano
Prefazione
Questo volume presenta una trattazione della metodologia statistica relativa alla previsione di fenomeni riferibili al tempo. L' occasione immediata per la realizzazione di questo testo e stata determinata dalla istituzione di nuovi corsi di insegnamento sulla previsione statistica nelle lauree di primo e di secondo livello della Facolta di Scienze Statistiche dell'Universita La Sapienza di Roma; cia ha condizionato la struttura generale del volume, richiedendo la possibilita di una lettura su due diversi livelli di approfondimento, e con differenti pre-requisiti. La trattazione si rivolge, comunque, a lettori che possiedano la formazione tipica dei contenuti di base e di quelli caratterizzanti del primo biennio di una laurea in Statistica. In particolare, e data per nota la conoscenza del calcolo differenziale e integrale di una e pili variabili con elementi di teoria della misura, di serie numeriche e serie di funzioni; della geometria analitica classica, spazi euclidei di dimensione finita e algebra lineare; del calcolo delle probabilita relativo aIle variabili aleatorie univariate (compresi i teoremi limite); della statistica di base e dei fondamenti di inferenza statistica. Invece, alcuni approfondimenti necessari per una pili completa conoscenza degli argomenti trattati sono esposti brevemente nel volume stesso: quelli relativi alle variabili aleatorie multivariate e alle norrnali multiple nel terzo capitolo, altri concernenti l'analisi di Fourier e complementi di trigonometria nell'appendice A. Questo modo di procedere si e rivelato opportuno poiche la piena comprensione dei metodi di previsione statistica richiede l'applicazione e la padronanza di un vasto ventaglio di discipline quantitative. Tuttavia, per non appesantire troppo 10 svolgimento, si e rinunciato a fornire dimostrazioni completamente esaurienti di tutti i risultati, anche se di ognuno si cerca costantemente di fornire la genesi, una spiegazione intuitiva e una prova formale anche se non sempre rigorosa. La scelta e la sistemazione logica del materiale, l'ordine in cui e presentato e la sua motivazione seguono una linea personale dell'autore, e differiscono in buona parte da altri volumi relativi alla stessa problematica, in particolare per
VI
Prefazione
quanto riguarda il primo capitolo (e segnatamente per i concetti di previsione statistica, glob ale e puntuale), per la bipartizione della parte strutturale nei suoi aspetti probabilistici e in quelli statistici, per la parallela distinzione tra processi e modelli autoregressivi a somma mobile, per il risalto dato ai risultati propri del dominio frequenziale, e per la trattazione, anche se succinta, delle catene di Markov e dei processi di punto. E naturale infine che in base agli interessi e alla sensibilita personale dell'autore, alcuni argomenti siano trattati pili approfonditamente della maggior parte dei testi del settore, e altri meno approfonditamente, 0 solo accennati rimandando alla bibliografia. Per un corso introduttivo di primo livello concernente l'analisi e previsione delle serie temporali univariate e i modelli ARIMA si possono prendere in considerazione i capitoli 1, 2, 3, 5 (paragrafi 1, 2, 6), 6, 8, 9 (paragrafi dal 1 al 4 e il 7), 10 (paragrafi dal 1 al 4 e il 6) e 13 (paragrafi 1 e 2). Per un corso pili approfondito di secondo livello si puo completare la trattazione utilizzando, oltre ad approfondimenti quali l'analisi nel dominio delle frequenze e il filtraggio lineare (paragrafi 3, 4 e 5 del capitolo 5 e paragrafo 5 del capitolo 9), le deviazioni dalle ipotesi (capitolo 11) e i modelli a eteroschedasticita condizionale, anche materiale sulle serie bivariate (paragrafi 8 e 9 del capitolo 5, paragrafo 6 del capitolo 9, paragrafo 7 del capitolo 10), sulle catene di Markov e i processi di punti (capitoli 4, 7, 12, 14) e su ulteriori approcci alla previsione puntuale, alternativi 0 complementari ai modelli ARIMA (paragrafi dal 3 al 6 del capitolo 13). Questo libro espone una impostazione e un punta di vista personali, maturati in pili di trent'anni di ricerca nel campo delle serie temporali, e quindi porta con se il riflesso degli insegnamenti e dell' esperienza dei tanti maestri e colleghi che ho incontrato nel mio percorso; non e possibile nominarli tutti anche se a tutti sono grato, rna non posso esimermi dal citare almeno Francesco Carlucci, che mi ha introdotto, fin da studente, ana problematica che sarebbe poi diventata il mio settore principale di ricerca. Desidero infine ringraziare in particolare gli amici e colleghi che con i loro consigli hanno contribuito a rendere pili chiaro e completo questo testo, tra essi Adelchi Azzalini, Roberto Baragona, Maria Maddalena Barbieri, Estela Bee Dagum e Anna Clara Monti.
Rama, Febbraio 2007
Francesco Battaglia
Indice
Parte I Fenomeni dinamici e previsione 1
La previsione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 3 1.1 Introduzione............................................ 3 1.2 La previsione statistica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1 Delimitazione del concetto di previsione statistica ..... 6 1.2.2 Previsione statistica globale . . . . . . . . . . . . . . . . . . . . . . . .. 10 1.2.3 Previsione statistica puntuale . . . . . . . . . . . . . . . . . . . . . .. 12
2
Caratteristiche generali dei fenomeni dinamici . . . . . . . . . . . .. 2.1 II primo approccio: la rappresentazione grafica 2.2 Analisi delle tendenze di fondo . . . . . . . . . . . . . . . . . . . . . . . . . . .. 2.3 Analisi della stagionalita 2.4 Analisi dei residui
15 15 22 26 28
Parte II La teoria dei processi aleatori 3
4
Processi aleatori e loro classificazione . . . . . . . . . . . . . . . . . . . . .. 3.1 Che cos'e un processo aleatorio. . . . . . . . . . . . . . . . . . . . . . . . . . .. 3.2 Richiami sulle distribuzioni di probabilita multivariate 3.3 La distribuzione normale multipla . . . . . . . . . . . . . . . . . . . . . . . .. 3.4 Alcune proprieta dei processi aleatori 3.5 Una classificazione dei processi aleatori . . . . . . . . . . . . . . . . . . . ..
33 34 38 44 47
Catene di Markov 4.1 Generalita.............................................. 4.2 Classificazione degli stati e delle catene. . . . . . . . . . . . . . . . . . . .. 4.3 Distribuzioni di equilibrio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.4 Processi non markoviani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..
51 51 58 61 67
33
VIII
5
Indice
Processi stazionari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.1 Introduzione............................................ 5.2 Analisi nel dominio temporale . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.3 Analisi nel dominio frequenziale . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.4 Le relazioni tra i due domini. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.5 I filtri lineari . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.6 Operatori lineari 5.7 I filtri alle differenze per la depurazione di una componente ciclica. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 5.8 Relazioni tra processi stazionari 5.9 Sistemi lineari bivariati
98 102 107
6
Processi lineari 6.1 La decomposizione di Wold 6.2 Processi puramente autoregressivi 6.3 Processi puramente a somma mobile 6.4 Processi misti
111 111 115 128 130
7
Processi di punti 7.1 Caratteristiche generali 7.2 Processi di Poisson 7.3 Cenni sull'analisi nel dominio temporale e frequenziale
133 133 135 138
71 71 74 78 87 90 95
Parte III La statistica dei fenomeni dinamici 8
Inferenza statistica per processi aleatori 8.1 Differenze rispetto all'inferenza parametrica classica 8.2 L'ergodicita
143 143 145
9
Inferenza per processi stazionari 9.1 Introduzione 9.2 Stima della media 9.3 Stima delle autocovarianze e delle autocorrelazioni 9.4 Stima delle autocorrelazioni parziali 9.5 Stima dello spettro 9.6 Inferenza per processi bivariati 9.7 Stima dei parametri per processi ARMA
147 147 148 152 161 163 179 181
10 I modelli rappresentativi 10.1 Introduzione 10.2 Identificazione del modena 10.3 Stima dei parametri e verifica del modello 10.4 Modelli per serie non stazionarie in media 10.5 Modelli per serie non stazionarie in varianza e ad eteroschedasticita condizionata
187 187 190 201 207 214
Indice
10.6 Modelli per serie stagionali 10.7 Modelli lineari per le relazioni tra due processi
IX
218 227
11 Deviazioni dalle ipotesi 11.1 Perturbazioni nei dati e nella struttura 11.2 Perturbazioni dovute a fattori noti 11.3 Dati anomali
233 233 234 237
12 Inferenza per catene di Markov e processi di punti 12.1 Stima delle probabilita per catene di Markov 12.2 Inferenza per processi di Poisson
243 243 246
Parte IV Metodi di previsione puntuale 13
Previsioni per processi stazionari 13.1 Teoria della previsione 13.2 Previsioni con modelli ARIMA 13.3 Previsioni con metodi adattivi 13.4 Previsioni con modelli strutturali 13.5 Spazio degli stati e filtro di Kalman 13.6 La combinazione delle previsioni
14 Previsioni per catene di Markov e processi di punti 14.1 Previsioni nelle catene di Markov 14.2 Previsione per processi di punti
253 253 257 266 271 274 284 287 287 289
Parte V Appendici
A
Fondamenti di Analisi di Fourier A.l Richiami di trigonometria e analisi complessa A.2 Sviluppo di Fourier per funzioni periodiche A.3 Analisi di Fourier per funzioni non periodiche
299 299 305 310
B
Software per la previsione
313
Bibliografia
315
Indice
319
Parte I
Fenorneni dinarnici e previsione
1
La previsione
In questo capitolo iniziale si illustrano i fondamenti logici della previsione e si delimita il campo di interesse alla previsione statistica, intesa come insieme di procedimenti statistici coerenti ed espliciti volti alla attivita di previsione, e se ne discutono alcune caratteristiche.
1.1 Introduzione II tentativo di prevedere il futuro e vecchio quanto il mondo e ha attraversato la intera storia dell'umanita assumendo di volta in volta le forme e le modalita proprie delle varie civilta e anche delle diverse impostazioni religiose. La necessita di prevedere, 0 almeno l'esigenza di tentare di farlo, e evidente, non solo a scapi puramente speculativi e conoscitivi, quanto operativi, per mettere in atto il comportamento pili adeguato a fronteggiare nel miglior modo possibile le diflicolta che si presenteranno, e cercare di trarre il massimo vantaggio 0 beneficio dalla situazione futura. Allo stesso tempo e chiaro che la grande difficolta insita nella previsione deriva dalla incertezza intrinseca del futuro, che al momento in cui va previsto non e ancora (0 per 10 meno del tutto) determinato; la forte rilevanza degli elementi di incertezza nella previsione spiega perche gli strumenti del calcolo delle probabilita e della statistica siano cost essenziali nell' attivita previsiva. Anzi, l'attivita previsiva puo essere qualificata essenzialmente attraverso l'incertezza, come tentativo di produrre affermazioni su fatti non noti (in tutto o in parte): quindi potremmo parlare di previsione anche per questioni non relative al futuro, rna anche, per esempio, distanti nello spazio (0 addirittura nel passato), 0 per lc quali non e possibile una rilevazione diretta ed esauriente; oppure, ancora, quando non sono disponibili conoscenze 0 informazioni sufficienti. Va anche considerato attentamente il ruolo di colui che prevede, poiche a volte egli, 0 la formulazione e pubblicazione stessa delle previsioni, possono modificare il corso del futuro. Mentre cio non avviene quando si tratta della
4
1 La previsione
maggior parte dei fenomeni naturali (il meteorologo non puo - almeno per il momento - influenzare le condizioni climatiche future), e invece pili frequente quando si considera il campo sociale ed economico, in cui spesso l'attivita previsiva non e disgiunta da un tentativo di intervenire sulle condizioni sociali o sul quadro economico per modificarne la situazione 0 le prospettive (alcuni parlano di approccio normativo alla previsione, per esempio quando si tenta di rispondere a domande del tipo: Quale deve essere l'andamento di alcune variabili di politica economica per ottenere un certo risultato sull'occupazione?). Se le previsioni sono elaborate da fonte autorevole e vengono rese pubbliche agli attori del fenomeno previsto, esse possono essere da cost oro considerate come guida di comportamento, 0, all'opposto, come indicazione di ipotetici sviluppi da evitare, e quindi possono, per il solo fatto di essere state pubblicizzate, favorire il loro avverarsi 0 la loro smentita. Cia avviene a volte per le previsioni basate su sondaggi elettorali, e per quelle relative alla congiuntura economica. In ogni caso, la formulazione della previsione e basata sulla conoscenza e sulla rielaborazione di informazioni tratte dalle manifestazioni passate del fenomeno sotto esame, e una operazione di "collegamento tra passato e futuro" (Cipolletta, 1992). Quindi ogni previsione e determinata da un preciso insieme di informazioni (che a volte puo essere esattamente determinato ed esplicitato, rna pili spesso e in parte implicito e non formalizzato): si parla di previsioni condizionali 0 condizionate da tale insieme. Coerentemente, si dovrebbe riporre ogni sforzo nel tentare di precisare la esplicitazione delle informazioni che condizionano la previsione, e nel rendere chiaro e giustificato il processo che porta dalla conoscenza di tali informazioni alla formulazione della previsione. Inoltre cia permette di variare alcune delle condizioni iniziali, e verificare l'effetto di questi cambiamenti sulle previsioni che ne derivano. Questa chiarificazione logica ha permesso l'allargamento del concetto tradizionale di previsione alla formulazione di un intero ventaglio di alternative possibili, condizionate ciascuna dal verificarsi di determinate situazioni che sono al di fuori del controllo del soggetto che prevede. Tale impostazione, spesso detta what . . . if, attribuisce alla previsione il compito di individuare una serie di alternative (a volte dette scenari) che si possono verificare in dipendenza dell'andamento di variabili esogene non controllabili (per esempio la previsione di grandezze macroeconomiche distinta in base all'andamento demografico, 0 la previsione a lungo termine del clima in funzione della situazione energetica). Cia risulta spesso necessario perchc l'attivita previsiva deve combinare tre varieta di fattori: quelli direttamente desumibili, in maniera pili 0 meno precisa, da un'analisi dell'oggi; quelli gia manifestatisi, rna che al momento appaiono connessi in maniera difficilmente apprezzabile, dal punto di vista statistico, ai dati di cui si dispone; e infine i fattori non ancora manifestatisi, rna che eserciteranno un'influenza sulla situazione futura. Queste ultime due categorie impongono che si formulino ipotesi precise sull'andamento e il comportamento dei relativi fattori, non controllabili, conducendo alle varie previsioni condizionali. I problemi metodologici della costruzione di queste
1.1 Introdtiziane
5
alternative ipotetiche sono rilevanti e hanno originato il cosiddetto metodo degli scenari (si veda ad esempio Martelli, 1988). Altro aspetto che presenta spesso notevoli diflicolta e quello della esplicitazione dell'insieme di informazioni, 0 base informativa, sul quale fondare la previsione, specie quando si prendano in considerazione fenomeni molto complessi 0 con elevato grado di incertezza. Inoltre, l'importanza 0 il peso di certe informazioni possono essere variamente valutate, per cui accade che soggetti diversi, anche esperti del settore, forniscano previsioni diverse. Per questo motivo sono stati elaborati diversi metodi volti ad integrare e armonizzare previsioni, oppure opinioni, differenti ugualmente autorevoli. Tra questi va ricordato il metodo Delphi che ha 10 scopo di arrivare attraverso una procedura iterativa alla armonizzazione dei giudizi di un team di esperti (si veda ad esempio Linstone e Turoff, 1975; una esposizione sintetica in italiano e in Marbach et al, 1991). II tema della previsione e talmente vasto che una classificazione netta dei metodi di previsione e difficile, e le classificazioni proposte dai diversi autori sono spesso molto differenti e incompatibili. Osserviamo solo alcuni aspetti distintivi, oltre a quelli gia menzionati: • •
•
•
La natura delle previsioni puo essere qualitativa 0 quantitativa, rna spesso per fenomeni complessi si presentano ambedue gli aspetti. L'oggetto della previsione puo essere il valore futuro di un fenomeno che si manifesta con continuita 0 si puo rilevare a intervalli regolari (come la temperatura, 0 la popolazione, 0 il prodotto interno); oppure il tempo in cui si verifica un fenomeno (previsioni di terremoti, calamita naturali, 0 innovazioni tecnologiche); 0 ancora Ie modalita e le caratteristiche di un evento che si produrra nel futuro (esempio tipico, i risultati elettorali). L' orizzonte della previsione, cioe la lontananza nel futuro degli eventi che si prevedono, viene usuaimente classificato in breve, medio e Iungo periodo. La distinzione non e netta e precisa. In linea di massima si parla di previsioni a orizzonte breve quando Ie condizioni strutturali rimangono immutate poiche l'evento da prevedere sara in larga parte determinato da azioni e comportamenti che sono gia stati messi in atto al momento in cui le previsioni vengono formulate, e viceversa di previsione a orizzonte lungo (0 di lungo periodo) se le condizioni fondamentali che determinano l'evento da prevedere sono ancora sostanzialmente incerte. Infine, con riguardo alla dimensione, la previsione puo riguardare un solo fenomeno (previsione univariata) oppure contemporaneamente pili fenomeni connessi (previsione multivariata) e in tal caso puo essere basata su nessi di causalita attraverso i quali il comportamento di un fenomeno determina, eventualmente con un certo sfasamento temporale, l'andamento di altri (previsione causale).
All'interno del vasto panorama della problematica relativa alla previsione, questo testo si occupa del contributo che la metodologia statistica puo offrire
6
1 La previsione
alla formulazione di procedimenti coerenti ed espliciti, basandosi su alcune caratteristiche essenziali: 1. I fenomeni considerati sono suscettibili di misurazione statistica. 2. La previsione si basa su una base informativa completamente esplicitata. 3. L'andamento del fenomeno e formalizzato attraverso un modello statistico matematico volto a rappresentare sia le sue proprieta dinamiche sia il livello di incertezza. 4. L' esito della previsione viene misurato attraverso una funzione di costo che permette di confrontare tra loro tutti i possibili tipi e gradi di errore, e si adotta il procedimento previsivo che assicura il costo minimo secondo i criteri della teoria delle decisioni statistiche. Attribuiamo il nome di previsione statistica a questa impostazione, e cercheremo di chiarirne meglio caratteristiche e limiti nel paragrafo che segue.
1.2 La previsione statistica 1.2.1 Delimitazione del concetto di previsione statistica
Con l'obiettivo di delimitare meglio il concetto di previsione statistica ne discuteremo brevemente l'oggetto, 10 scopo e il metodo. Oggetto di una previsione statistica. La previsione statistica si applica a fenomeni concettualmente definiti in modo da essere passibili di misurazione oggettiva. Deve essere pertanto precisato e definito il fenomeno e il metodo di misurazione, che deve mantenersi invariato per tutta la durata della rilevazione. Cia garantisce da un lato che l'analisi non sia perturbata da modificazioni nelle modalita di rilevazione, e peraltro costringe a formalizzare compiutamente l'oggetto di studio. Percio alcuni concetti generici (come il clima, 0 il benessere economico) dovranno essere esplicitati nelle loro determinanti quantitative prima di poter procedere a uno studio previsivo. Un aspetto connesso e quello della qualita dei dati utilizzati, alla Quale e quasi superfluo sottolineare che si deve prestare la massima attenzione. Nella previsione statistica, poiche si prendono in considerazione fenomeni che si sviluppano nel tempo, i dati presentano precise relazioni di dipendenza dinamica, che coinvolgono non solo il loro valore, rna anche la loro mutua posizione nel tempo. Errori e imprecisioni nella rilevazione delle manifestazioni quantitative, e anche della loro localizzazione nel tempo, possono portare a conseguenze decisive sul successo della previsione, ancor pili di quanto avvenga nelle indagini in cui la dimensione temporale e assente. Sotto il profilo della valutazione dcll'attcndibilita dei dati, la metodologia statistica ha proposto sviluppi volti, da un lato, a limitare gli effetti dei dati non affidabili sulle conclusioni dell'indagine (robustezza) , e dall' altro a cercare di individuare e correggere, a posteriori e servendosi dell'intero insieme di informazioni disponibili, gli eventuali errori ( validazione). L'importanza di sottoporre i dati a un procedimento
1.2 La previsione statistica
7
di validazione prima di affrontare una analisi dettagliata 0 una previsione e ormai consolidata in letteratura, tanto da poterla considerare una fase irrinunciabile. Meritano naturalmente attenzione anche lc tecniche robuste, che permettono a volte di aggirare l'ostacolo della inaffidabilita dei dati; tuttavia, nel campo dei fenomeni trattati come dipendenti dal tempo, forse per la complessita delle connesse procedure inferenziali, questo tipo di tecniche non e ancora completamente sviluppato nc largamente diffuso a livello applicativo. Un altro aspetto importante, che sta assumendo una sempre maggiore rilevanza, risiede nell'abbondanza e a volte ridondanza delle informazioni disponibili. Una volta definito l'oggetto della previsione, dovrebbe essere attentamente valutato quali tipi di rilevazione sono effettivamente utili e quali si possano ragionevolmente trascurare. L'enorme incremento della massa di dati disponibili, verificatosi in molti settori negli ultimi anni, porta con sc la potenzialita di analisi pili precise, rna anche il pericolo che l'aumento delle dimensioni non possa esser padroneggiato con strumenti statistici sufficientemente potenti ed elastici, e che gli elementi di incertezza e di errore, insiti in ogni rilevazione, moltiplichino i loro effetti. In questo testo verranno prese in considerazione Ie previsioni univariate, che si riferiscono a un fenomeno le cui manifestazioni possono essere sintetizzate, a ogni rilevazione, con un solo numero reale (scalare). La metodologia statistica e stata sviluppata negli ultimi anni anche nel campo della previsione multivariata, che studia il caso in cui siano rilevati simultaneamente pili fenomeni, e ne analizza Ie mutue relazioni di dipendenza (statistica) tra manifestazioni contemporanee e sfasate nel tempo. Questa parte comporta difficolta matematiche e probabilistiche maggiori, e illivello di sistematizzazione attualmente raggiunto e meno completo; percio nel seguito ci si limitera solo ad alcuni accenni, rimandando per un esame pili approfondito ana letteratura specialistica. Scopo di una previsione statistica e studiare lc rnanifestazioni future di un fenomeno, determinate dal permanere di una stabilita nelle proprieta generali strutturali che si sono verificate nel passato. Col riferirsi aIle proprieta strutturali non si intendono indicare i puri e semplici valori della rilevazione, rna Ie caratteristiche del meccanismo di natura statistica e probabilistica che genera il fenomeno, il Quale sara oggetto di formalizzazione matematica e di approfondito studio nel seguito. La richiesta che queste caratteristiche rimangano stabili tra passato e futuro e minimale per dare un senso alla previsione statistica, poiche se questa proprieta venisse a mancare allora la conoscenza del passato non aiuterebbe in alcun modo il compito di formulare congetture sul futuro. Fenomeni di questo ultimo tipo vengono a buon diritto chiamati imprevedibili. Le modalita e diversi aspetti con cui vengono studiate le manifestazioni future del fenomeno previsto costituiscono l'oggetto principale di questo testo e verranno precisate nel seguito: ne verra proposta una articolazione in due impostazioni diverse che indicheremo con i termini di previsione globale e locale.
8
1 La previsione
La previsione globale si occupa delle proprieta statistiche e dinamiche delle manifestazioni del fenomeno allo scorrere del tempo nel futuro, che verranno dedotte per analogia da quelle manifestatesi nel passato dopo averle inferite ed idealizzate. La previsione locale invece prende in considerazione uno specifico istante futuro e la manifestazione che il fenomeno presentera in quell'istante, trattandola come valore incognito su cui costruire procedure di inferenza statistica. La previsione potra basarsi, oltre che sulla attenta analisi del completo insieme di informazioni relativo al passato e al presente, anche su alcune ipotesi, 0 su pili alternative, relative a fattori incontrollabili perche incogniti, 0, pili spesso, perche relativi anch'essi al futuro, permettendo cost di pervenire a insiemi alternativi di previsioni condizionali, da adoperare per costruire scenari diversi. Escluderemo invece che colui che prevede possa intervenire, in alcun modo, sul fenomeno oggetto di previsione, con l'obiettivo di guidarlo 0 modificarlo: l'analisi statistica di questo tipo di procedure, pur ben sviluppata e approfonditamente studiata specie nel campo dei processi industriali e produttivi, appartiene al settore del controllo stocastico. Metodo della previsione statistica e il metodo statistico matematico dell'analisi moderna delle serie temporali, che si avvale, da un lato, degli sviluppi del calcolo delle probabilita relativi ai processi stocastici, e dall'altro del paradigma della inferenza statistica e dei principi della teoria delle decisioni in condizioni di incertezza. I dati vengono assimilati a realizzazioni di variabili aleatorie, e in questo modo il fenomeno viene messo in relazione con una collezione di variabili aleatorie, ciascuna delle quali determina la sua manifestaziane in un certa istante, chiamata processo aleatorio 0 stocastico. Le caratteristiche salienti del fenomena sono in questa modo determinate dalle proprieta matematico- probabilistiche del processo, che costituiscono l'oggetto principale di studio. In altri termini, si passa dal fenomeno oggetto di studio a un suo modello teorico specificato in termini di equazioni, relazioni analitiche, proprieta matematiche e probabilistiche. Esso incorpora una serie di ipotesi ispirate dall'osservazione della realta, e in genere prevede in larga misura semplificazioni 0 "stilizzazioni" del comportamento osservato, in modo da ottenere formule matematiche sufficientemente maneggevoli e interpretabili. Per questo motivo un modello non avra mai l'ambizione di riprodurre esattamente la realta, rna di metterne in evidenza, e quindi di prevedere, solo alcuni aspetti. Nell'ambito della previsione statistica i modelli pili usati si prefiggono anche 10 scopo di mettere in relazione esplicita i dati futuri con quelli passati, e in genere questa relazione e ipotizzata di tipo lineare al fine di assicurare una maggiore semplicita matematica. Una volta costruito un modello e necessario verificare attraverso metodi statistici se esso si adatta soddisfacentemente alla realta che vuole riprodurre. In caso affermativo, e il modello stesso che puo essere adoperato per simulare il comportamento del fenomeno studiato in varie condizioni sperimentali.
1.2 La previsione statistica
9
In questo testo viene privilegiata e analizzata pili a fondo l'impostazione basata sui modelli probabilistici di tipo autoregressivo a somma mobile, che e la pili diffusa e collaudata in una vasta gamma di campi applicativi. Qualche accenno verra dato anche ad alcune estensioni verso modelli di dipendenza dinamica non lineare. Esistono tuttavia altre impostazioni per la costruzione di modelli utili per problemi di previsione, e tra le proposte pili moderne e innovative, e che hanno visto notevole sviluppo pili recentemente, vanno ricordate sicuramente Ie reti neurali e i modelli caotici. Le reti neurali nascono dal tentativo di rappresentare matematicamente, e di riprodurre con strumenti di calcolo, le strutture dei tessuti cerebrali, al fine di riprodurre formalmente i meccanismi di funzionamento del sistema nervoso cerebrale. Le reti sono costituite da un insieme di unita semplici (dette neuroni artificiali) connesse tra lora da collegamenti (sinapsi) che permettono il transito orientato di segnali dall'una all'altra. Alcuni neuroni della rete ricevono segnali dall'esterno (input), altri possono comunicarne all' esterno (output). Ciascun neurone artificiale si trova a ogni istante in uno stato esprimibile mediante un numero (spesso binario), determinato in funzione del complesso di segnali che esso riceve, anch'essi espressi numericamente. In dipendenza della stato in cui si trova, ogni neurone puo trasmettere segnali agli altri neuroni cui e collegato. In tal modo la rete nel suo complesso risponde a un insieme di segnali in input con un insieme di segnali in output. Al variare delle leggi di funzionamento della rete, della distribuzione delle connessioni e delle lora caratteristiche trasmissive, si puo ottenere una gamma vastissima di comportamenti, e un punto di forza delle reti neurali e la possibilita di una fase di "apprendimento" in cui la struttura si adatta gradualmente al fenomeno da rappresentare. Le applicazioni di reti neurali alle serie temporali hanno mostrato una buona capacita previsiva, anche se non c'c evidenza conclusiva che essa sia superiore ai modelli lineari tradizionali (Sharda e Patil, 1990). D'altra parte, studi pili approfonditi hanno mostrato stretti legami tra una classe di reti neurali e i modelli autoregressivi a somma mobile, rna le reti neurali si prestano anche a prevedere fenomeni che si comportano secondo schemi non lineari (per una discussione si veda ad esempio Weigend e Gerschenfeld, 1994, e Chatfield, 1993). Un problema di fondo e che spesso le reti neurali appaiono come "scatole nere" e non e possibile attribuire un significato strutturale ne alle unita ne alle connessioni, e neppure evidenziare precisi legami di dipendenza statistica, ne causale, tra l'input e l'output. Come osservano Fabbri e Orsini (1993), " se da un lato 10 sperimentatore non rimane condizionato da ipotesi aprioristiche nella scelta delle unita della rete, dall'altro la rete stessa non puo far altro che riprodurre in maniera fenomenologica il comportamento del sistema analizzato, senza contribuire alla conoscenza delle relazioni interne tra Ie singole parti. II contributo interpretativo del modello e nullo" . E presumibile percio che, fino a quando non verra superata questa frontiera, collegando pili saldamente la struttura della rete aIle caratteristiche
10
1 La previsione
dinamiche del fenomeno studiato, le applicazioni previsive delle reti neurali non sostituiranno validamente la metodologia basata sui modelli stocastici rappresentativi. I modelli caotici si rifanno invece a una spiegazione dei fenomeni basata su strutture matematiche fortemente non lineari, rna di natura strettamente deterministica, senza ricorrere alla impostazione probabilistica e senza alcun elemento di natura casuale. La possibilita che sistemi non lineari deterministici diano luogo a comportamenti spiccatamente erratici simili a quelli delle realizzazioni di processi stocastici, osservano Tong e Smith (1992), e nota almeno dagli studi di Poincare del XIX secolo; tuttavia l'interesse da parte degli statistici per gli studi suI caos si e acceso negli ultimi venti- trenta anni. A una stimolante discussione di Bartlett (1990) e seguito un meeting della Royal Statistical Society inglese (i cui atti sono riportati nel Journal of the Royal Statistical Society serie B vol. 54 n. 2); il dibattito e ancora aperto anche se la maggior parte degli studiosi ha assunto una posizione critica. Se 10 statistico non puo disconoscere il ruolo dei sistemi non lineari deterministici e del lora comportamento, se non altro perche essi costituiscono la base per la generazione dei numeri pseudo-casuali e quindi per gli studi di simulazione e di Monte Carlo, tuttavia la costruzione di modelli plausibili per la rappresentazione di serie temporali, con caratteristiche vicine a quelle che si riscontrano nei pili importanti campi applicativi, si e rivelata molto difficile e non e ancora molto sviluppata (si veda ad esempio Casdagli, 1992). Queste difficolta fan no sorgere dubbi sulla convenienza di abbandonare la impostazione di tipo stocastico per quella di tipo caotico, anche riconoscendo che l'attribuire natura di variabile casuale alle manifestazioni di un fenomeno reale possa essere una costruzione teorica semplificatrice, e che la incertezza non sia intrinseca, rna dovuta solo a mancanza di informazioni 0 conoscenze sufficienti. E in conclusione arduo valutare, al presente, se i modelli caotici potranno fornire un valida supporto per la previsione nelle applicazioni reali a problemi di tipo economico e sociale. Comunque, la discussione sulla utilita e applicabilit.a delle reti neurali e dei modelli caotici nella previsione di fenomeni dinamici e ancora aperta e ambedue i campi sono oggetto di studio approfondito da parte di studiosi di numerose discipline, pertanto sono da attendersi significativi sviluppi metodologici e applicativi.
1.2.2 Previsione statistica globale La previsione statistica globale prende in considerazione il periodo di tempo che inizia dopo l'ultimo istante noto e si prolunga indefinitamente nel futuro, e ha 10 scopo di descrivere le proprieta e Ie caratteristiche che il fenomeno studiato presenta nel suo dispiegarsi nel tempo. L'assunzione chiave, che traduce e formalizza l'ipotesi fondamentale di stabilita delle caratteristiche del fenomeno preso in considerazione, e che Ie manifestazioni passate e future si ritengono generate da un unico processo
1.2 La previsione statistica
11
stocastico, le cui proprieta principali rimangono stabili e quindi si applicano sia al passato sia al futuro. Lo studio e l'inferenza di tali proprieta vengono effettuate in base all'insieme di informazioni note, e quindi principalmente usando le manifestazioni gia rilevate del fenomeno, ovvero i dati gia noti al momento della previsione. Le caratteristiche inferite vengono attribuite anche al futuro, permettendo di formulare affermazioni (di natura statistica) sul suo comportamento dinamico. Esse concernono l'andamento generale tendenziale, sia dei valori sia della loro variabilita, la presenza di comportamenti ciclici, e le relazioni di dipendenza statistica tra dati consecutivi 0 a una determinata distanza temporale, oltre che 10 studio della dipendenza tra le manifestazioni simultanee 0 ritardate di due 0 pili fenomeni. Queste caratteristiche, come gia pili volte ricordato, vengono riferite ai processi stocastici di cui il fenomeno e assunto come realizzazione. Pertanto sara necessario innanzitutto svolgere uno studio, di natura probabilistica, delle principali proprieta dei processi stocastici, e degli strumenti matematici pili atti a sintetizzarle, cia che viene fatto nella Parte II. L'analisi viene svolta secondo due differenti (rna strettamente connessi) punti di vista, che vengono denominati del dominio temporale (0 dei tempi) e del dominio frequenziale (0 delle frequenze). Nel primo si ha riguardo principalmente alle distribuzioni di probabilita delle variabili aleatorie che costituiscono il processo, e quindi alle relazioni di dipendenza statistica che tra loro intercorrono. Ci si limita in genere a studiare le correlazioni, e quindi la dipendenza viene riconosciuta soltanto attraverso la sua forma lineare. Nel dominio frequenziale, invece, in base a una fondamentale generalizzazione dell'analisi armonica di Fourier, il processo stocastico e visto come la risultante della sovrapposizione di onde periodiche di periodo diverso, ciascuna con una importanza diversa, e ci si propone di analizzare nel dettaglio questa decomposizione, che determina, in linea di principio, l'andamento complessivo del processo. Con 10 studio di natura probabilistica appena accennato arriveremo a definire rigorosamente gli strumenti e indici statistici che permettono di descrivere e sintetizzare le principali caratteristiche di un processo aleatorio. II passo seguente e quello di applicare questi strumenti alla realta effettiva mostrata dal fenomeno nel suo manifestarsi, e che e costituita essenzialmente dall'insieme dei dati rilevati nel passato. Questa fase di raccordo tra la manifestazione concreta di un fenomeno e la sua descrizione attraverso gli indici sintetici costituisce l'attivita propriamente statistica che pili precisamente rientra nel settore della inferenza statistica. La Parte III e quindi dedicata all'inferenza statistica per i processi stocastici. L'inferenza statistica "classica", che si occupa delle manifestazioni ripetute di un fenomeno statico, e associata a uno schema probabilistico che prevede un campione casuale, cioe un insieme di variabili aleatorie indipendenti e identicamente distribuite. Nel nostro caso invece e necessario costruire inferenze prendendo come riferimento insiemi di variabili aleatorie non indipendenti (e d'altra parte non necessariamente distribuite in modo identico). Cia comporta il sorgere di considerevoli difficolta, tuttavia si cerca di continuare a procedere
12
1 La previsione
secondo l'impostazione metodologica dell'inferenza "classic a" . Si individuano innanzitutto le quantita rilevanti che assumono il significato di "parametri" su cui esercitare l'inferenza: nel dominio temporale sono in genere coefficienti di correlazione, mentre nel dominio delle frequenze sono legati a misure di importanza relativa delle varie componenti periodiche. L'inferenza puo essere articolata nelle tre diverse attivita di stima puntuale, stima per intervallo e verifica delle ipotesi, e nell'ambito di ciascuna di esse si cerca di procedere secondo la stessa logica: enunciare proprieta desiderabili, e costruire metodi che le possiedano. Si vedra come in alcuni casi l'estensione all'ambito dei processi aleatori non comporti rilevanti difficolta, mentre per molti altri aspetti (come ad esempio la propricta di consistenza) siano necessarie generalizzazioni piuttosto complesse. Le rilevanti complicazioni che sopravvengono quando viene a cadere la proprieta di indipendenza tipica del campione casuale fanno sl che i risultati analitici che si riescono a ottenere (ad esempio per quanto riguarda le distribuzioni di probabilita degli stimatori) sono meno netti, compatti e semplici dal punto di vista matematico, percio si fa ricorso molto spesso a semplificazioni e approssimazioni, sia nelle ipotesi di partenza sia nella descrizione dei risultati, ed e comune riferirsi al comportamento asintotico. Infine, osserveremo che questa stessa complessita fa SI che i calcoli necessari per effettuare una inferenza su un fenomeno dinamico siano molto onerosi, e non e generalmente possibile effettuarli senza disporre di un elaboratore elettronico e di software specializzato. 1.2.3 Previsione statistica puntuale
Una volta descritte le caratteristiche generali che il fenomeno presentera nel futuro, e pero spes so necessario fissare l'attenzione sul valore con il Quale esso si manifestera in un determinato istante. Frequentemente e necessario prevedere il comportamento del fenomeno nell'immediato futuro (riferirsi cioe al primo dato non ancora realizzatosi), rna puo presentarsi a volte l'esigenza di descrivere in maniera pili 0 meno precisa 10 sviluppo dei dati anche a distanza temporale superiore dall'ultimo istante noto. Nella previsione statistica puntuale prendiamo percio come riferimento un singolo istante riferito al futuro, e consideriamo come elemento da prevedere il dato che sintetizza la manifestazione che il fenomeno assumera a quell'istante. L' oggetto della previsione e quindi una variabile aleatoria, e Ie affermazioni richieste concernono il valore nel Quale essa si realizzera. Si tratta quindi, in sostanza, di una operazione di inferenza statistica, con la differenza che l'oggetto non e un parametro fisso anche se incognito, rna la determinazione di un ente aleatorio, che non si e ancora concretizzata nel momento in cui va prevista. Questa difficolta (peraltro irrilevante se si adotta la impostazione bayesiana) puo essere superata ricorrendo a un modello dinamico rappresenta-
1.2 La previsione statistica
13
tivo (1) che mette in relazione le variabili relative al futuro con quelle relative al passato e dunque gia realizzatisi e note. In questo modo e possibile, in linea di principio, descrivere la distribuzione di probabilita della variabile da prevedere condizionata all'insieme di dati conosciuti, e quindi calcolarne indici sintetici (media, moda, mediana, varianza), e intervalli di valori, associati con la loro massa di probablita, Tuttavia questo puo ancora non essere sufficiente, se e richiesto un valore numerico puntuale da attribuire al valore futuro. E necessaria quindi una funzione dei dati noti, detta previsore, che descriva il valore previsto per il dato futuro. Ma come scegliere tra Ie infinite possibili funzioni quella pili conveniente? A tal fine e opportuno impostare questa scelta come problema di decisione in condizioni di incertezza (per una esposizione della teoria delle decisioni si veda ad esempio Piccinato, 1996). Elemento fondamentale di tale impostazione e la esplicitazione di una funzione di costo (detta anche di perdita) che a ogni possibile esito, descritto dalla coppia (valore previsto, valore effettivamente realizzatosi) associ un numero, in modo da ordinare gli esiti possibili dal pili desiderabile al meno favorevole. Per ogni possibile funzione assumibile come previsore, viene calcolato il costo medio (0 perdita media, detta anche rischio), usando la distribuzione di probabilita della variabile futura condizionata ai dati noti, e viene scelta come previsore ottimo quella funzione che fornisce il costo medio pili piccolo. Come si vede, questa impostazione (a parte Ie difficolta matematiche eventualmente insite nella minimizzazione su uno spazio di funzioni) offre un quadro logico preciso e rigoroso per la risoluzione del problema della previsione puntuale, rna comporta la difficolta della formulazione della funzione di costo, che potra cambiare a seconda della natura dei fenomeni analizzati e degli scopi della previsione. Per questo si e cercato di trovare forme di previsori che risultassero ottimi rispetto a intere classi di funzioni di costo. II risultato pili rilevante di questo tipo e i1 seguente: se la funzione di costo e quadratica, cioe dipende dal quadrato della differenza tra valore previsto e valore effettivamente realizzato, allora il previsore ottimo, che assicura cioe il costo medio pili piccolo, e la media condizionata del dato da prevedere, dati i valori gia realizzatisi all'origine della previsione. La differenza tra valore effettivo e previsto e detta errore di previsione, di conseguenza il costo medio e, nel caso quadratico, proporzionale all'errore quadratico medio di previsione (anche chiamato varianza di previsione). Pertanto l'uso della media condizionata come previsore assicura anche la minimizzazione dell'errore quadratico medio. Questa considerazione, assieme alla relativa facilita di calcolo della media condizionata e alla ragionevolezza dei criteri quadratici, ne spiega la larga diffusione e il motivo per cui frequentemente ci si riferisce alla media condizionata come previsore ottimo senza specificazioni. Vanno peraltro sempre tenute presenti le caratteristiche della 1
In questa testa l'aggettiva rappresentativo viene usato nel sensa di atta a rappresentare le caratteristiche dinamiche del fenomeno, e nan ha attinenza can la rappresentativita campionaria.
14
1 La previsione
funzione di costo quadratica. Se l'andamento parabolico rispecchia l'esigenza spesso fondamentale di evitare errori molto elevati, la simmetria puo rivelarsi a volte inadeguata, poiche errori di previsione positivi 0 negativi di ugual ammontare ricevono la medesima valutazione di costo, mentre in alcune situazioni applicative sbagliare in meno 0 in pili comporta conseguenze di diversa gravita, Non esistono criteri generali pili specifici, e nei casi dubbi sara sempre opportuno, ove possibile, eseguire pili previsioni seguendo differenti funzioni di costo, in modo da evidenziare la diversita delle conseguenze insite in ciascuna scelta. La problematica della costruzione dei modelli rappresentativi e affrontata nel capitolo 10, mentre la Parte IV e interamente dedicata alla previsione statistica puntuale.
2
Caratteristiche generali dei fenorneni dinarnici
In questo capitolo introduciamo gli strumenti e le considerazioni statistiche pili semplici volte a una prima analisi delle rilevazioni di un fenomeno al trascorrere del tempo. Un'analisi generale descrittiva e sempre opportuna come primo passo dell'analisi statistica vera e propria, e permette di evidenziare le caratteristiche pili macroscopiche del fenomeno studiato, indirizzando anche alla scelta delle tecniche pili appropriate per approfondire l'indagine. II linguaggio che useremo qui e discorsivo e pili attento a introdurre i concetti che non al rigore formale. Supporremo di avere a disposizione un insieme di dati numerici relativi a un fissato fenomeno, rilevati a tempi equispaziati e consecutivi, che chiameremo serie storica 0 temporale e indicheremo simbolicamente con una lettera minuscola indicizzata dal numero progressivo, ad esempio (Xl,X2, ... ,X n ) .
2.1 II primo approccio: la rappresentazione grafica Quando si considerano fenomeni dinamici il numero di dati a disposizione e spesso molto grande, ed e difficile apprezzarne le proprieta leggendo la lista dei loro valori; d' altra parte essi sono ordinati naturalmente in funzione del trascorrere del tempo, e quindi eimportante cogliere la relazione tra un singolo dato e quelli che 10 precedono e seguono. Uno dei metodi pili semplici ed efficaci per rappresentare simultaneamente tutte le osservazioni, e favorire l'intuizione relativa alloro andamento complessivo e aIle eventuali regolarita, e quello di rappresentare i dati graficamente in funzione del tempo. Su un sistema di assi cartesiani viene rappresentato un punto per ogni dato, usando come ordinata il valore del dato e come ascissa l'istante a cui si riferisce, oppure pili semplicemente, il suo numero d'ordine progressivo, ad esempio (t, Xt) per t == 1,2, ... , n se la rilevazione e composta da n dati consecutivi. I punti cost ottenuti vengono uniti da una spezzata. II grafico che si ottiene ha il vantaggio di essere completamente informativo rispetto
16
2 Caratteristiche generali dei fenomeni dinamici 30 25 20 15 10
5 0-+----.------.--.----.----.----.------.--.------.---------,---,--------,-------,----.------.----.-
1890
1900
1910
1920
1930
1940
1950
1960
Fig. 2.1. Tasso di disoccupazione annuale negli Stati Uniti, dal 1890 al 1970
ana rilevazione (cioe ne conserva tutte le informazioni numeriche) rna rende facile una interpretazione complessiva dana Quale risultano pili evidenti le caratteristiche generali. Consideriamo la Fig. 2.1 dove e riportato il grafico del tasso annuale di disoccupazione negli Stati Uniti dal 1890 al 1970 (fonte: Hipel e Me Leod, 1994). L'andamento evidenzia con chiarezza i vari periodi storici (ad esempio il periodo seguente all'inizio della crisi economica del 1929, che mostra alta disoccupazione) e da anche un'idea della variabilita intrinseca del fenomeno, segnalata dall'entita media delle variazioni da un an no al successivo. I fenomeni sociali ed economici, quando vengono seguiti in periodi lunghi, mostrano frequentemente periodi di limitata durata caratterizzati da un comportamento disomogeneo, che sono generalmente indotti da perturbazioni di alcuni fattori determinanti (come la "grande depressione" degli Stati Uniti). A volte invece si trovano dati isolati incongrui con i precedenti e seguenti, che potrebbero essere determinati anche da errori di misura 0 da cause eccezionali e circoscritte (si parla dati anomali 0 outliers, cia potrebbe essere accaduto per il dato del 1922). 0 ancora, puo accadere che da un certo istante di rilevazione in poi il fenomeno cambi le sue caratteristiche principali (come potrebbe accadere se vengono variate le modalita di rilevazione, oppure il quadro legistlativo che 10 influenza) . Fortunatamente queste mutazioni nella struttura si verificano generalmente su una scala pili ampia di quella che interessa l'attivita previsiva, e conseguentemente in genere ci si trova ad analizzare insiemi di rilevazioni che presentano una situazione sostanzialmente omogenea nel tempo. In questi casi i fenomeni dinamici oggetto di studio mostrano caratteristiche strutturali che esercitano una influenza analoga durante tutta la rilevazione, e che sono poi l'oggetto di maggiore interesse ai fini previsivi, dato che ci si puo legit-
2.1 La rappresentazione grafica
17
120 110 100 90 80
70 60 + - - - - - - - - - - , - - - - - - , - - - - - - - , - - - - - - - - - - , - - - - - - - , - gen-90
gen-92
gen-94
gen-96
gen-98
gen-OO
Fig. 2.2. Indice della produzione industriale italiana nel settore estrattivo (miniere e cave), mensile dal 1990 al 2000
timamente attendere che influiscano con modalita simili anche nel futuro. Un esempio e nella Fig. 2.2 che riporta l'indice della produzione industriale italiana nel settore estrattivo, mensilmente dal 1990 al 2000 (fonte Istat). Nella impostazione classica dell'analisi delle serie storiche, ovvero quell'insieme di metodi statistici sviluppati per la descrizione dei dati rilevati su un fenomeno dinamico (senza ricorrere alla teoria dei processi aleatori), impostazione che e stata sviluppata soprattutto per serie di natura economica nella prima meta del ventesimo secolo, si riconoscono essenzialmente tre catgorie di caratteristiche strutturali che spiegano la variabilita nel tempo: il trend, il ciclo, la staqioruiiiia. Si parla di trend quando ci si riferisce all'andamento tendenziale di fondo, crescente 0 decrescente, di un fenomeno, caratterizzato da una variazione relativamente lenta nel tempo, e sempre nello stesso verso, che si riconosce graficamente dal fatto che la linea indicante la serie non tende a restare approssimativamente orizzontale (parallela all' asse delle acisse), rna si dispone su una traiettoria obliqua, crescente 0 decrescente al trascorrere del tempo. Questo andamento e molto frequente quando si considerano grandezze macroeconomiche 0 sociali, meno frequente per serie di natura meteorologica 0 idrologica. Si consideri a titolo di esempio la Fig. 2.3 che riporta (a) la popolazione degli Stati Uniti ogni 10 anni dal1790 al1980 (fonte Brockwell e Davis, 1987) e (b) il quoziente di mortalita annuale per l'Inghilterra negli anni dal 1886 al 1911 (fonte: Ripel e McLeod, 1994). II ciclo 0 ciclo congiunturale 0 economico, e legato a variazioni pluriennali delle grandezze macro-economiche originate dall'alternarsi di periodi di sviluppo e contrazione 0 crisi, tipico della economia capitalista, che comporta un andamento oscillante di molti indicatori, senza che pero i cicli che cost si ven-
18
2 Caratteristiche generali dei fenomeni dinamici
17
1790
1840
1890
1940
1
1866
1876
1886
1896
1906
(b)
(a)
Fig. 2.3. Serie con trend: (a) Popolazione degli Stati Uniti, decennale dal 1790 al 1980; (b) Quoziente di mortalita in Inghilterra, annuale dal 1866 al 1911
31
61
91
121
Fig. 2.4. Serie di vendite mensili di un prodotto, serie M di Box e Jenkins (1970)
gono a creare siano molto simili l'uno all'altro no per la loro ampiezza ne per la loro periodicita (che tuttavia viene in genere ritenuta compresa approssimativamente tra 3 e 7 anni). Quindi, rilevando un fenomeno economicamente significativo, come la produzione 0 le vendite, per un intervallo sufficientemente lungo, si riconosceranno delle oscillazioni non regolari, con distanza tra i massimi pari a qualche anno, che possono essere ricondotte al ciclo congiunturale; spesso queste oscillazioni si sovrappongono a una tendenza crescente che rimane avvertibile anche nelle fasi di crisi (si veda ad esempio la Fig. 2.4 che si riferisce a rilevazioni mensili di vendita di un bene, serie indicata come Serie M in Box e Jenkins, 1970). La siaqionalita invece si riferisce aIle variazioni indotte sul fenomeno dall'alternarsi delle stagioni durante l'anno, ed e quindi determinata dalle modificazioni climatiche e del comportamento umana e sociale che si susseguono nei diversi periodi dell'anno. Le variazioni stagionali si riscontrano solo se i dati sono rilevati con cadenza inferiore all'anno; spesso i dati sono mensili e allora
2.1 La rappresentaziane grafica
19
Fig. 2.5. Marti per cause accidentali negli Stati Uniti, mensilmente dal1973 al1978
l'effetto dei fattori stagionali si ripete ogni 12 dati, se sono trimestrali si ripete ogni 4 dati, se sono settimanali ogni 52 e cosi via. In ogni caso la periodicita di queste variazioni e precisa e nota, mentre non si puo escludere che la loro intensita sia diversa da un anna all'altro. Prendiamo come riferimento una serie mensile, come quella di Fig. 2.5 che riporta i morti per cause accidentali negli Stati Uniti dal 1973 al 1978 (fonte Brockwell e Davis, 1987). L' esistenza di stagionalita si nota dal fatto che i dati presentano uno schema tipico che si ripete ogni 12 dati, in quanto all'interno di ciascun an no ci sono mesi in cui il fenomeno presenta valori pili alti (nel nostro caso luglio e agosto) e altri mesi in cui invece i valori sono pili piccoli (per la nostra serie gennaio e febbraio), e questa avviene pili a meno regolarmente in tutti gli anni. Una descrizione sintetica dell'effetto della stagionalitn si puo avere osservando il grafico dei valori medi dei dati riferiti allo stesso mese (0 trimestre, 0 settimana etc.), che e riportato per la nostra serie nella Fig. 2.6. La differenza tra Ie barre verticali permette di apprezzare subito l'esistenza di diversita tra i vari mesi e di valutarne la rilevanza. Tra i fenomeni con forte stagionalita, oltre ovviamente a tutti quelli meteorologici, citiamo la produzione industriale in Italia, che se rilevata su base mensile evidenzia spesso un minimo marcato nel mese di agosto, quando molte aziende chiudono per le ferie estive. La Fig. 2.7a riporta il grafico dell'indice generale della produzione industriale (mesi da gennaio 1993 a dicembre 2000, fonte Istat) e la Fig. 2.7b evidenzia le medie mensili. Nell'irnpostazione classica si ipotizza che un fenomeno possa essere spiegato attraverso la composizione (additiva 0 moltiplicativa) delle tre componenti trend, ciclo e stagionalita, pili un effetto di natura casuale, attribuibile a un complesso di cause non sistematiche. Tuttavia, anche se queste componenti sono usualmente quelle pili rilevanti almeno nel campo economico, esse non
20
2 Caratteristiche generali dei fenomeni dinamici
G
F
M A
M G
LAS
0
N
0
Fig. 2.6. Grafico delle medie mensili della serie di Fig. 2.5
80 1
i
70
80 50
III J I
GFMAMGlAS
40 -
(a)
o
N
0
(b)
Fig. 2.7. Indice generale della produzione industriale in It alia: (a) dati mensili dal gennaio 1993 al dicembre 2000 ; (b) grafico delle medic mensili esauriscono le t ipologie che si riscontrano in ambiti pili vasti . A t it olo di esempia riportiamo il gra fico del num ero di macchie solari registrato annualmente (fenomeno su cui ritorneremo in seguito, Fig. 2.8) e quello del num ero mensile di casi di morbillo a New York (Fig. 2.9). Nel primo casu vediamo che il fenomeno mostra un comport ament o approssimativamente cicIico con un a periodicita attorno a 10-11 anni, rna non pre cisa ne costante; nel secondo casu vediamo invece che i dati pr esentano una mar cata st agiona lita, rna le caratteristiche di ciasc un mese non si pr esent ano simili ogni anno, rna piu t to sto ad anni alte rni. Se ne puo dedurre che l'articolazione basata su trend - cicIo - stagionalit a risulta a volt e troppo schema tica, e che c'e bisogno di un a impostazione pili generale, che ci viene fornit a dalla cosiddet ta analisi rnoderna delle serie st oriche, la quale, corne gia osservato , ricorre a un a impost azione probabili sti ca e quindi lega ogni dato a un a variabile aleatoria di cui esso e realizzazione; in questo qu adro e pili facile studiare alt re cara t te ristic he come un andament o
2.1 La rappresentazione grafica
21
160
Fig. 2.8. Numero annuale di macchie solari, anni dal 1770 al 1920
Fig. 2.9. Numero mensile dei casi di morbillo registrati a New York dal 1952 al 1962
ciclico di periodicita qualunque. Uno strumento esplorativo semplice di qualche utilita per indagare l'esistenza di ciclicita e il grafico a dispersione delle coppie di dati che sono stati rilevati a una fissata distanza temporale. Infatti se il fenomeno tende a ripetersi ogni k unita di tempo (mesi, giorni, anni) allora i dati rilevati a distanza temporale pari a k tenderanno ad essere concordanti (ad esempio in una serie trimestrale con stagionalita, i dati a distanza 4, essendo relativi allo stesso trimestre di due anni consecutivi, tenderanno ad essere pili simili). Se disegnamo su un piano cartesiano i punti con coordinate date da queste coppie di valori (il punta che ha came ascissa il data Xl e came ardinata il data Xk+l,
22
2 Caratteristiche generali dei fenomeni dinamici
.,
....
... -.
(a)
(b)
Fig. 2.10. Indice generale della produzione industriale in Italia: (a) dispersione a distanza 12 mesi; (b) dispersione a distanza 2 mesi
il punto con ascissa X2 e ordinata Xk+2 e cost via) la nuvola che si ottiene dovrebbe percio denotare la concordanza, e quindi disporsi tendenzialmente secondo una fascia rettilinea, come nello studio della regressione lineare. L'idea e esemplificata nella Fig. 2.10 dove sono riportati, per la serie dell'indice generale della produzione industriale, il grafico a dispersione delle coppie di dati a distanza di 12 mesi (a sinistra) e quello delle coppie di dati a distanza di 2 mesi (a destra). Come si vede, nel primo caso si ha una relazione lineare molto evidente, mentre nel quadro a destra non si ritrova una concordanza apprezzabile. Nel seguito di questo capitolo introduciamo alcuni strumenti statistici tradizionalmente adoperati per 10 studio del trend e della stagionalita, motivandoli intuitivamente e per Ie loro proprieta descrittive. Si vedra pili avanti come alcuni di questi modi di procedere possiedano una giustificazione formale anche nell'analisi moderna, fondata su sviluppi statistico-matematici rigorosi.
2.2 Analisi delle tendenze di fondo Quando si vuole prendere in considerazione una specifica componente della serie, si possono distinguere due aspetti e quindi muoversi verso due obiettivi: la rappresentazione della componente e la sua rimozione. Nel primo caso cercheremo di costruire una nuova serie storica che contenga solo l' effetto della componente scelta, nel secondo caso si modificano i dati della serie rilevata in modo che la serie risultante non risenta pili della componente. C'e un modo ovvio di rimuovere una componente dopo che la si e rappresentata (cioe sottrarla ordinatamente ai dati, oppure dividerla se si suppone un modello di composizione moltiplicativa invece che additiva), rna come vedremo tra poco non e l'unico modo possibile di procedere.
2.2 Analisi delle tendenze di fonda
23
120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0
7 Fig. 2.11. Indice mensile generale della produzione industriale can retta adattata al trend
La rappresentazione del trend (0 del trend e del ciclo insieme) si puo effettuare seguendo due impostazioni alternative: 1. Interpolazione (0 perequazione) analitica 0 parametrica: si suppone che l'effetto del trend sia assimilabile a una funzione matematica del tempo, i cui parametri vengono stimati sulla base dei dati. 2. Interpolazione (0 perequazione) meccanica 0 non parametrica: si sostituisee ogni dato con una media locale in modo da far risaltare nel risultato soltanto l'andamento di lungo periodo. L'interpolazione analitica corrisponde graficamente ad adattare alla linea dei dati una retta, 0 una parabola (0 una funzione ancor pili complicata). Cia viene fatto in genere con il metodo dei minimi quadr iti (in modo che la somma dei quadrati degli errori sia minima) e corrisponde ( d effettuare una analisi di regressione (eventualmente non lineare) sulle copp j { ( Xt, t), t == 1, 2, ... , n }. La scelta della funzione e guidata dall'esame del ~rafico della serie: spesso appare sufficiente una semplice retta (ad esempio per le serie delle Figg. 2.3b e 2.4) mentre in alcuni casi di crescita a ritmo accelera:o puo essere pili adeguata una parabola 0 una funzione esponenziale (ad esernpio nel caso della serie di Fig. 2.3a). In ogni caso tutti i software statistici sono in grado di effettuare immediatamente questo tipo di analisi. Un esempio e nella Fig. 2.11 in cui si e adattata una retta ai dati dell'indice generale della produzione industriale gia presentati nella Fig. 2.7a. La perequazione meccanica, invece, si basa su un insieme di considerazioni meno immediate, e fa uso della tecnica delle medie mobili (strumento che si riconduce alla teoria del filtraggio che verra illustrata nel Cap. 5). In breve, se si sostituisce a ogni singolo dato una media dei dati relativi a un interval10 che 10 comprende, si avra un effetto di "lisciamento" che fa scomparire le
24
2 Caratteristiche generali dei fenomeni dinamici 120.0 110.0 100.0 90.0 80.0 70.0
Fig. 2.12. Indice mensile della produzione industriale nel settore estrattivo con medie mobili a 19 termini
oscillazioni rapide e quindi lascia presenti nel risultato solo quelle pili lente, ovvero Ie tendenze di fondo. In questo modo la serie originaria viene trasformata in modo da far risaltare solo il trend e l'eventuale ciclo pluriennale. Una esemplificazione si trova nella Fig. 2.12 che riporta la serie dell'indice della produzione industriale nel settore estrattivo e, in tratteggio, la serie delle medie mobili semplici a 19 termini (ottenute sostituendo a ciascun dato Xt la media aritmetica semplice dei dati nell'intervallo tra t - 9 e t + 9), la quale, come si vede, evidenzia l'andamento tendenziale con caratteristiche di trend e di ciclo pluriennale. Naturalmente sorge il problema di Quale tipo di media adoperare (quale ampiezza dell'intervallo e quali pesi se si usa una media ponderata), problema che e stato ampiamente dibattuto nella letteratura statistico-economica (si veda ad esempio il Cap. 3 in Di Fonzo e Lisi, 2005). Una volta rappresentata la tendenza di fondo, ci si puo porre il problema di depurare i dati da tale componente (a volte si dice detrendizzare la serie). II modo pili semplice sembra quello di sottrarre ordinatamente dai dati originali quelli del trend stimato. Questa operazione e usualmente efficace, rna presenta almena due inconvenienti:
• E legata alla procedura usata per •
la rappr eseutazionc del trend, e risente quindi di qualunque eventuale errore 0 imprecisione in tale procedura. Non permette di risalire facilmente dana serie detrendizzata ana serie originale.
Per tali motivi si preferisce a volte ricorrere a semplici trasformazioni dei dati che permettono di rimuovere la presenza del trend senza doverlo preventivamente esplicitare e rappresentare, ed hanno anche il vantaggio di essere immediatamente invertibili, assicurando la possibilita di risalire facilmente dalla serie depurata alla serie originale; tali trasformazioni si basano sulla
2.2 Analisi delle tendenze di fonda
(a)
25
(b)
Fig. 2.13. Popolazione degli Stati Uniti decennale dal 1790 al 1980: (a) serie delle differenze prime; (b) serie delle differenze seconde
tecnica della differenziazione della serie osservata. II principio di base e semplice e consiste nel calcolare Ie differenze tra ciascun dato e il suo precedente: Yt == x, - Xt-I· La serie delle differenze (0 serie differenziata) {Y2' Y3, ... , Yn} e in relazione diretta ed immediata con i dati originali, rna presenta caratteristiche dinamiche completamente diverse. L'operazione puo essere ripetuta pili volte, calcolando Ie differenze sui dati differenziati: Zt == Yt - Yt-I == (Xt - Xt-I) - (Xt-I - Xt-2) == Xt - 2Xt-1
+ Xt-2
cioe la serie detta delle differenze seconde, e cosl via. L'efficacia di questo metodo nella rimozione del trend si basa su una semplice considerazione: se una serie ha una crescita lineare nel tempo, l'incremento tra un dato e il successivo tende a mantenersi costante; se la crescita e quadratica, la differenza tra due incrementi successivi tende a rimanere costante e cosi via. Pertanto quando si ha a che fare con una serie il cui trend eben rappresentabile da una funzione polinomiale nel tempo (diciamo di grado k), la serie che si ottiene applicando l'operazione di differenza un numero sufficiente di volte (almeno k) non mostra pili tendenza di fondo. Qui il problema e decidere l'ordine di differenziazione necessario, decisione che puo essere effettuata esaminando i grafici delle serie che risultano dalla applicazione ripetuta delle differenze. II procedimento e esemplificato nella Fig. 2.13 dove si considera la popolazione degli Stati Uniti gia riportata nella precedente Fig. 2.3a. Nella Fig. 2.13a si trova la serie delle differenze prime, nella Fig. 2.13b la serie delle differenze seconde. Come si vede l'applicazione delle differenze una sola volta non e sufficiente per eliminare il trend crescente, mentre se si applica la differenziazione una seconda volta (Fig. 2.13b) si ottiene una serie risultante priva di trend. Anche la tecnica delle differenze va inquadrata nell'ambito della teoria del filtraggio line are che verra illustrata nel Cap. 5, dove la analizzeremo pili dettagliatamente.
26
2 Caratteristiche generali dei fenomeni dinamici
2.3 Analisi della stagionalita Lo studio delle variazioni stagionali e pili agevole se condotto su serie prive di tendenze di fondo, pertanto in genere si rimuove prima un eventuale trend e poi si passa all'analisi dei fattori stagionali. Anche per la stagionalita ci si puo porre il duplice obiettivo di rappresentare l'influenza delle stagioni oppure di rimuoverla dalla serie (si parla anche in tal caso di serie destagionalizzate). La rappresentazione puo essere effettuata per via analitica supponendo che l'intensita dei fattori stagionali rimanga costante nel tempo: allora si identifica la stagionalita con una funzione periodica di periodo annuale (e dunque periodo 12 se i dati sono mensili, 52 se sono settimanali e cosi via). Le funzioni periodiche ad argomento intero hanno una specifica forma matematica (combinazione lineare di funzioni trigonometriche, come viene illustrato nell'Appendice A) e quindi se ne possono stimare i parametri sui dati rilevati, con una logica analoga a quella adottata per il trend. Tuttavia, come verra mostrato nella Sez. 10.6, cia equivale semplicemente ad assumere l'effetto stagionale di ciascun mese pari alla media di tutti i dati relativi a quel mese nei diversi anni; in sostanza quindi con questo metodo la stima della stagionalita e data proprio dalle medie mensili (che abbiamo riportato ad esempio nelle Figg. 2.6 e 2.7b). Per quanto riguarda la rimozione della stagionalita, oltre a sottrarre le medie mensili, e molto usato in alternativa il ricorso a medie mobili di ampiezza annuale. Infatti (supporremo per fissare le idee di avere una serie mensile) se a ogni dato si sostituisce una media dei suoi 12 dati contigui pili vicini, si ottiene una nuova serie in cui ogni elemento risente in pari misura dei fattori stagionali (in quanto ogni dato della nuova serie contiene un dodicesimo di gennaio, un dodicesimo di febbraio e cosi via). Ne segue che nella serie delle medie mobili non si avvertono variazioni stagionali. La tecnica e esemplificata nella Fig. 2.14 dove si mostra il risultato della sua applicazione all'indice generale della produzione industriale italiana. Si noti tra l'altro come la serie delle medie mobili, oltre a non presentare stagionalita, risulta molto pili liscia della originale: infatti, come tutte le medie mobili, tende ad eliminare le oscillazioni pili rapide. Anche per la stagionalita, come per il trend, e possibile ricorrere a semplici trasformazioni dei dati che permettono di rimuovere le variazioni stagionali. Anche in questo caso ci si basa su una differenza, sottraendo a ciascun dato quello dell'anno precedente che si presenta nella stessa posizione stagionale. Se parliamo di dati mensili, quindi, si considerano le differenze Yt == Xt - Xt-12, se i dati sono trimestrali si considera x, - Xt-4, se sono settimanali Xt Xt-52; poiche i dati che si sottraggono risentono in egual misura dei fattori stagionali, si puo ritenere che nella differenza la stagionalita non avra aleun effetto (sempre che, come ipotizzato anche prima, l'ampiezza delle variazioni stagionali rimanga costante nel tempo). Come esempio, il grafico della Fig.
2.3 Analisi della stagionalita
27
120.0 110.0 100.0 90.0 80.0 70.0 60.0 50.0 40.0
Fig. 2.14. Indice generale mensile della produzione industriale con la serie delle medie mobili a 12 termini 15.0
-10.0
Fig. 2.15. Indice generale mensile della produzione industriale: serie delle differenze dodicesime
2.15 riporta Ie differenze dodicesime calcolate sulla serie dell'indice generale della produzione ind ustriale. I valori delle serie differenziate ottenute con Ie differenze dodicesime hanno il significato di incrementi annuali del fenomeno rilevato, tuttavia si faccia attenzione che queste serie, oltre alla rimozione della stagionalita, hanno anche altre caratteristiche dinamiche ben diverse dai dati originali, poiche l'operazione di differenza introduce modificazioni profonde nella struttura di dipendenza temporale, come verra chiarito nel Cap. 5.
28
2 Caratteristiche generali dei fenomeni dinamici
2.4 Analisi dei residui Accenniamo per completezza allo studio dei residui, fase che completa, nell'analisi classica delle serie storiche, la procedura di scomposizione. Dopo aver determinato lc serie corrispondenti alle componenti trend ciclo e stagionalita, si valuta il successo del procedimento andando a calcolare la parte non spiegata della serie originale (i cosiddetti residui) che dovrebbe presentarsi come un insieme di valori completamente casuali, senza caratteristiche sistematiche. In pratica si sottraggono ordinatamente dai dati originali Ie componenti trend cicIo e stagionalita calcolate, e si ottiene cost la serie dei residui (se invece si supponesse un modello di composizione moltiplicativo anziche additivo, allora si dividerebbe invece che sottrarre). II concetto di casualita dei residui viene esplicitato in diversi modi alternativi, rna nella grande maggioranza della letteratura si ricorre a questo punto a una impostazione probabilistica, assumendo che i residui siano realizzazioni di variabili aleatorie, e si valuta la casualita sulla base del controllo di alcune proprieta: 1. I residui hanno media nulla. 2. I residui hanno ugual varianza. 3. Ciascun residuo e incorrelato con tutti gli altri. Oltre a una verifica empirica sul grafico dei residui, esistono molti test statistici che permettono di sottoporre a verifica queste tre proprieta e simili caratteristiche. Se non si fanno ipotesi sulla forma della distribuzione di probabilita dei residui, vengono spesso preferiti test non parametrici (basati sulla permutazione, si veda ad esempio il Cap. 2 di Piccolo, 1990). Una ulteriore assunzione, molto comune in letteratura, e quella di distribuzione normale (di Gauss) dei residui. Per sottoporla a verifica si puo calcolare la distribuzione di frequenza (l'istogramma) e applicare uno dei molti test statistici di norrnalit.a, che sono disponibili nei pili comuni software statistici. Va sottolineato che l'istogramma e un valido strumento di indagine sulla forma della distribuzione se i dati sono indipendenti, e quindi costituiscono un campione casuale. Se invece i dati fossero dipendenti, l'istogramma non fornirebbe una stima plausibile della distribuzione di probabilita, in quanto Ie osservazioni non possono essere pensate come "prove ripetute". Cia spiega perche non si usa calcolare l'istogramma di frequenza delle serie storiche, rna solo dei residui. Esemplifichiamo la procedura complessiva di scomposizione classica con riferimento alla serie dell'indice mensile generale della produzione industriale dal1990 a12000, che abbiamo pili volte considerato (Fig. 2.7a). La componente cicIo-trend, stimata come media mobile a 24 termini, compare nella Fig. 2.16a, mentre nella 2.16b sono riportate le medie mensili ripetute periodicamente, che quindi costituiscono la stima della componente stagionale. Sottraendo ordinatamente i dati delle due serie di Fig. 2.16 dai dati originali si ottengono i residui, riportati nella Fig. 2.17, che possono essere anche interpretati come errori della procedura. L'andamento dei residui non mostra regolarita evidenti
2.4 Analisi dei residui 110.0
29
20 10
-10 100.0 -20
-30 -40
-50
90.0
(a)
(b)
F'ig. 2.16. Indice mensile generale della produzione industriale: (a) serie delle medie mobili a 24 termini; (b) serie periodica delle medie mensili
8.0
4.0
0.0
-4.0
-8.0
Fig. 2.17. Residui della scomposizione della serie dell'indice mensile generale della produzione industriale
e quindi non suggerisce dubbi sulla casualita (si noti la scala pili piccola delle precedenti). L'istogramma della distribuzione di frequenza dei residui, infine, e invece riportato nella Fig. 2.18 e permette di valutare le differenze, abbastanza sensibili, rispetto all'andamento campanulare tipico della normale.
30
2 Caratteristiche generali dei fenomeni din amici
..
" p
I-
2 0
mr -10,00
-5,00
rn 0,00
5,00
10 ,00
F ig . 2. 18. Istogramma della distribuzione dei residui della Fig. 2.17
Parte II
La teoria dei processi aleatori
3
Processi aleatori e lora classificazione
Questo capitolo ha 10 scopo di introdurre i principali sviluppi del calcolo delle probabilita relativi ai processi aleatori, illustrando gli strumenti interpretativi delle lora proprieta dinamiche e tratteggiando una classificazione.
3.1 Che cos'e un processo aleatorio II concetto di processo aleatorio 0 stocastico rappresenta la naturale estensione della variabile aleatoria multipla a un numero infinito di componenti. Anche se questa estensione risulta generalmente intuitiva, l'introduzione di infiniti componenti comporta a volte qualche difficolta dal punto di vista matematico. II punto di partenza e uno spazio di probabilita (D, A, P), dove D e l'insieme degli eventi elementari, A e la sigma algebra degli elementi di D, e P e una misura di probabilita definita su A. Una variabile aleatoria X e una funzione misurabile da D in JR (insieme dei numeri reali) , che associa quindi a ogni evento w (elemento di D) un numero reale. Su tale spazio di probabilita e definita una collezione di variabili aleatorie ciascuna contraddistinta dal valore di un indice 0 parametro t appartenente a un insieme T. Un processo aleatorio e quindi definito come una collezione di variabili aleatorie {Xt, t E T} . L'insieme puo essere numerabile, nel qual caso si usa generalmente la convenzione di indicarne gli elementi con i numeri naturali (0 interi). In questo caso il processo viene detto a parametro discreto (a volte anche sequenza aleatoria). Se invece T ha la potenza del continuo, come quando e costituito da un intervallo o da tutta la retta, si parla di processo a parametro continuo (a volte funzione aleatoria). Ovviamente anche i valori che le variabili X, possono assumere cambiano: nella generalita delle applicazioni si suppone pero che il supporto sia uguale per tutte le X t , e che esse abbiano la stessa natura. II caso pili frequente e che vengano assunte assolutamente continue; a volte si suppone che abbiano una distribuzione discreta, oppure dicotomica come vedremo nel seguito.
34
3 Processi aleatori e loro classificazione
Alternativamente, e in modo equivalente, un processo aleatorio puo essere pensato come una funzione dall'insieme prodotto cartesiano T x [2 in JR.: X, == f (t, w) con la proprieta che per ogni t E T la funzione f (t, .) sia misurabile. In questo modo, per ogni t fissato si ha una variabile aleatoria, mentre per ogni w fissato si ha una funzione di t E T. In altri termini, in corrispondenza di ogni evento dello spazio di probabilita, ciascuna variabile aleatoria X, si realizza in un valore Xt; la collezione ordinata di tali valori {Xt, t E T} viene chiamata una realizzazione del processo e a ciascuna realizzazione e associata in linea di principio una probabilita (0 una densita). Pertanto le caratteristiche di un processo aleatorio sono legate alla sua distribuzione di probabilita, che coinvolge un numero infinito di componenti e la cui esplicitazione comporta difficolt.a insormontabili. Tuttavia e stato dimostrato che la struttura probabilistica del processo e completamente specificata dalla conoscenza di tutte le distribuzioni di probabilita multiple con un numero finito di componenti. In altri termini la conoscenza delle distribuzioni di probabilita delle variabili multiple (XiI, X t 2 , ... , X t n ) per ogni n e per ogni scelta di tl, t2, ... , t.; nell'insieme T, determina completamente le propriota del processo. II paragrafo che segue riassume le principali proprieta delle distribuzioni di probabilita multiple finite, con particolare riferimento alla distribuzione normale.
3.2 Richiami sulle distribuzioni di probabilita multivariate Consideriamo una variabile aleatoria m-dimensionale che indichiamo con (Xl, X 2 , ... , X m ) , e specifichiamo la sua distribuzione di probabilita attraverso la funzione di ripartizione multipla (0 congiunta):
Se la variabile e assolutamente continua, esiste la funzione di densita f(XI,X2, ... ,x m ) tale che
Integrando rispetto ad una 0 pili variabili sul loro supporto si ottengono le cosiddette marginali, cioc Ie funzioni di ripartizione (0 densita) di un sottoinsieme delle m variabili; ad esempio
3.2 Richiami sulle distribuzioni di probabilita multivariate
F l d x l , X2) =
j
=
j
Xl jX2
-00
35
_ooh2(tl,t2)dhdt2
Xl jX2 j+oo j+oo f (tl, t2, ..., t m) dtldt2,..dtm .
-00
-00
-00
'"
-00
Una variabile m- pla ha m distribuzioni marginali can (m - 1) componenti, m( m - 1)/2 distribuzioni marginali can (m - 2) componenti, (7:) distribuzioni marginali can (m - k) componenti, ..., m distribuzioni marginali (univariate) can una componente. Comunque dalla definizione risulta evidente che la conoscenza delle marginali non implica la conoscenza della distribuzione congiunta, perche non ci da informazioni sul modo in cui Ie variabili si associano. Solo se le variabili sana indipendenti si ha che la probabilita dell'intersezione e uguale al prodotto delle probabilita, e quindi le marginali permettono di ricostruire la congiunta. Ad esempio can due variabili, se sana indipendenti, si ha F(XI,X2) == F I (Xl) F2 (X2) e !(XI,X2) == !1(XI)!2(X2). In caso contrario questa relazione non vale e quindi ad esempio !2(X2) i- !(XI, X2)/!1(XI). L'espressione a destra puo essere interpretata in termini di probabilita condizionate, e descrive la distribuzione di una variabile condizionatamente ad una particolare determinazione dell'altra. E possibile definire in modo analogo la distribuzione condizionata di un sottoinsieme delle m componenti, data il valore assunto da un altro sottoinsieme (a intersezione nulla can il precedente) in questa modo. Siano A e B due sottoinsiemi di {I, 2, ..., m}, can An B == 0, B i- 0, consideriamo i vettori aleatori XA == (Xi, i E A), X B == (Xi, i E B) e sia XB un punta del supporto di X B . La distribuzione di probabilita di XA condizionata a X B == X B e data da
Naturalmente se il vettore XA e il vettore X B sana indipendenti
I momenti di una variabile multipla sana definiti come media del prodotto delle componenti, ciascuna elevata a un particolare esponente /112 ... m
==
j
(kl, ka- . . , , k m )
= E
(X;l X;2 ... x~m) =
+OO ... j+oo X~lX~2 ... X~1n! (Xl, X2, ... , X
-00
m )
dXldx2··· dx-; .
-00
Ovviamente si possono ottenere tutti i momenti delle distribuzioni marginali ponendo uguali a zero gli esponenti k, relativi alle variabili escluse, ad esempio
36
3 Processi aleatori e loro classificazione
Le medie delle singole variabili sono espresse come momenti con tutti gli esponenti uguali a zero tranne uno unitario
+00
E (Xl) = ; _00 xI!1 (xI) dX1 = JL 1 (1) = JL 12 ... m (1,0, 0, ..., 0) e i momenti centrali possono essere definiti sostituendo negli integrali le quantita Xj - E (X j ) al posta delle Xj. I momenti delle distribuzioni condizionate verranno generalmente indicati con il simbolo E (. I·) dove a destra della barra si esplicita l'evento condizionante, il Quale spesso viene indicato in maniera sintetica con X j invece che X, == Xj. Per esempio
1: 1: 00
E(xrxiIX3,X4) =
00
xix~f(X1,X2,X3,X4)/h4(X3,X4)dx1dx2'
La funzione generatrice dei momenti della variabile m-pla
e definita da
e i coefficienti del suo sviluppo in serie sono i momenti, che sono quindi legati alle derivate della H dalla relazione
O:l=···=O:rn=O
Le funzioni generatrici dei momenti di un sottoinsieme della m- pla si ottengono dalla H ( aI, a2, ..., am) ponendo uguali a zero gli argomenti relativi alle variabili da trascurare, ad esempio H 123 (aI, a2, a3)
== H (aI, a2, a3, 0, 0, ...,0) == E{exp(al Xl +a2 X2 +a3 X3)} .
Se le componenti sono indipendenti, la funzione generatrice dei momenti si fattorizza nel prodotto delle funzioni generatrici dei momenti delle singole componenti. II logaritmo della funzione generatrice dei momenti e detta funzione dei seminvarianti 0 cumulanti
e i coefficienti del suo sviluppo in serie sono chiamati cumulanti. Una lora espressione piuttosto semplice e fornita dal seguente teorema (Brillinger, 1981 p.19):
3.2 Richiami sulle distribuzioni di probabilita multivariate
37
Teorema 3.1. Data una variabile aleatoria m-pla, per ogni r ~ m e per ogni r-pla (aI, a2, ..., a r ) il coefficiente di (al x a2 x ... x a r ) nello sviluppo in serie della funzione generatrice dei cumulanti, indicato con cum (Xl, X 2, ..., X r ) e dato da cum(X l , X 2, ...,Xr ) == (3.1) =
t
p=l
(_l)p-l (p - I)!
(II Xj) E(II Xj) ... E(II Xj)
LE Dp
JErI
JE r 2
JEr p
dove la seconda somma e estesa all'insieme Dp di tutte le partizioni (rl' r2, ..., rp ) dell'insieme (1,2, ..., r) in p parti. Va sottolineato che il teorema vale anche se le Xl, X 2 , ... , X; non sono tutte diverse tra loro, quindi la formula permette di ricavare anche i cumulanti di ordine superiore di una variabile univariata ponendo Xl == X 2 == ... == X; == X. I cumulanti godono di molte proprieta importanti e sono legati agli altri momenti. Ad esempio si dimostra che cum (X j) == E(X j), cum (Xj,X j) == Var (X j) , cum (X j, X k ) == Cov (X j, X k ) ; inoltre se nelle variabili (Xl, X 2 , ..., X r ) un sottoinsieme e indipendente dalle altre, cum (Xl, ..., X r ) == O. Spesso la notazione matriciale risulta molto utile e comoda nel trattare l'algebra delle variabili multiple. Se indichiamo con X == (Xl, ..., X m ) ' il vettore delle variabili aleatorie, con x == (Xl, ... , X m ) ' il vettore dei valori assunti, con J-L == (J-Ll, ..., J-Lm)' dove J-Lj == E (Xj) il vettore delle medie, possiamo scrivere J-L == E (X). I momenti centrali secondi (varianze e covarianze) si possono indicare con O"ij == E {(Xi - J-Li) (Xj - J-Lj)} e riunire in una matrice detta di dispersione E == ((O"ij)) == E {(X - J-L) (X - J-L)'}. La matrice di dispersione viene anche indicata con E == Var(X). Poiche O"ij == O"ji la matrice risulta simmetrica; inoltre e anche definita positiva. Infatti la forma quadratica c' E c e sempre maggiore di zero essendo pari alIa varianza della variabile aleatoria y == c' X == Lj CjX j. Escludererno sempre il caso degenere che lc componenti siano linearmente dipendenti, 0 pili precisamente che esista una combinazione lineare delle componenti costante con probabilita uno. La notazione matriciale e comoda quando si trattano trasformazioni lineario Consideriamo le variabili Z == (Z 1, Z2, ..., Zn)' ottenute dalle X attraverso una trasformazione lineare Z == AX dove A e una matrice di costanti note a n righe e m colonne. Le medie, varianze e covarianze delle Z possono essere ottenute facilmente sfruttando Ie proprieta di Iinearita delle medie
J-Lz == E (Z) == E (AX) == AE (X) == AJ-L Var (Z) == E {(Z - J-Lz) (Z - J-Lz)'} == E {(AX - AJ-L) (AX - AJ-L)'} ==
== E{A (X - J-L) (X - J-L)' A'} == AE{(X - J-L) (X - J-L)'}A' == AEA' .
38
3 Processi aleatori elora classificazione
Nel caso che n == meA ammetta inversa, c'e corrispondenza biunivoca tra X e Z e ci possiamo aspettare che sotto le ipotesi che X abbia distribuzione di probabilita assolutamente continua, anche Z == AX possieda una densita che puo essere facilmente calcolata a partire da quella della X. Infatti
Pr{Z E C} =
J
···LIx(X)dX
con D == {x == (Xl, X2, ... , X m ) : Z == Ax E C}. Data la biunivocita, si puo effettuare nell'integrale la sostituzione delle variabili (Zl' ... , zm) alle (Xl, ... , X m ) il cui Jacobiano e 1/ IAI. Ne segue
Pr{Z
E
C}
=
J.. LIx (A- z) 1~ldZ 1
e quindi la densita di Z e Ix (A-lz) I~I. La funzione generatrice dei momenti puo essere espressa in forma vettoriale ponendo a == (aI, a2, ..., am)' :
Hx (a) == E{exp(a'X)} .
(3.2)
In questo modo si puo calcolare facilmente la funzione generatrice dei momenti di una trasformazione lineare invertibile Z == AX + /1 Hz (a) == E {exp (a' Z)} == E {exp (a' AX + a' /1)} == H x ({3) ea ' J1-
(3.3)
dove {3 == A' a.
3.3 La distribuzione normale multipla La distribuzione normale multipla riveste un ruolo del tutto particolare nell'analisi statistica multivariata, in ragione della sua proprieta caratteristica che la dipendenza tra Ie componenti si esercita in modo esclusivamente lineare, ed e quindi sintetizzata dai coefficienti di correlazione. Ogni qual volta si possa ritenere sufficiente studiare la dipendenza tra variabili limitandosi alla forma lineare, la normale puo essere presa in considerazione come distribuzione approssimante. Questa considerazione si estende anche allo studio dei processi aleatori. Un processo aleatorio viene detto gaussiano se tutte Ie sue distribuzioni di un numero finito di variabili sono normali multiple. Richiamiamo la definizione di distribuzione normale multipla.
Definizione 3.2. Una variabile aleatoria a m componenti X == (Xl, X 2 , ... ,Xm )' con media /1 == (/11, /12, ... , /1m)' e matrice di dispersione E == ((aij)) ha distribuzione normale multipla se e assolutamente continua e la sua detisiia di probabiiitii, posto X == (Xl, X2, ... , X m )' e data da: p (x) = (27r)-m/2I17I- 1/ 2 exp { -~ (x - J-l)' 17- 1 (x - J-l)} .
(3.4)
3.3 La distribuzione normale multipla
39
Simbolicamente si indica X N(J-l, E). La distribuzione e completamente specificata, oltre che dalle medie, dalle sole varianze e covarianze: cia rende ragione del fatto che la dipendenza si esplica in forma lineare, perche due variabili multiple che abbiano le stesse covarianze e varianze, hanno la medesima distribuzione multipla (e quindi 10 stesso tipo di legame). La genesi della (3.4) puo essere compresa facilmente partendo dal caso di componenti indipendenti e standardizzate. Se Zl, Z2, ..., Zm sono m variabili normali standardizzate indipendenti, la loro densita congiunta e data dal prodotto delle densita individuali: r-;»
(
)_rr
rr
m
P ZI, Z2, ... , Zm
-
m ( () _ )-1/2 j=1 Pj Zj - j=1 21f
e
-z~ /2 _ J
-
()-m/2 21f exp
{1,} -"2 Z Z
ove si e scritto z == (Zl,Z2, ... ,Zm)'. Notiamo che E(Z) == 0 e Var(Z) == I. Questo e il tipo pili semplice di associazione tra m variabili. Per avere dipendenza non nulla, possiamo sfruttare una trasformazione lineare biunivoca considerando le nuove variabili X == (Xl, X 2, ... ,Xm)' ottenute da X == AZ + J-l dove A e una matrice quadrata regolare. Sappiamo che E(X) == p., e si calcola facilmente 17 == Var(X) == E{AZ(AZ)'} == AA'. Inoltre sappiamo che la densita multipla di X e ottenuta secondo la regola : PX (x)
== pz [A- l (X - J-l)] IAI- l == I
= (21f)-m/2IAI- exp {
-~ (X
- p,)' A,-I A-I (X - p,)} .
Infine notando che 17- 1 == A,-l A-I e che 1171 == IAA'I == IAI si ottiene la densita (3.4). Questo procedimento suggerisce anche un modo per estendere il concetto di standardizzazione a una normale multipla. Se X e normale multipla con media J-l e matrice di dispersione 17, poiche E e definita positiva esiste la sua matrice radice quadrata, ovvero una matrice Q tale che E == QQ', e Q e regolare. Percio possiamo considerare la trasformazione lineare: 2
Z ==
o:' (X -
J-l)
che definisce la nuova variabile a m dimensioni Z == (Zl, Z2, ... , Zm)'. Si ottiene facilmente E(Z) == 0, Var(Z) == Q-lE{(X - J-l) (X - J-l)'}Q-l' == Q-lQQ'Q,-l == I, quindi le (Zl, Z2, ..., Zm) sono normali standardizzate indipendenti. Per le proprieta analitiche della distribuzione normale si verifica che sono di forma normale tutte le distribuzioni marginali della X == (X l,X2, ...,Xm) e anche tutte le distribuzioni condizionate. Se consideriamo un sottoinsieme di componenti 5 C (1,2, ..., m), la distribuzione marginale delle Xj, j E 5 e normale con vettore delle medie dato dal corrispondente sottovettore di u: J-ls == (J-lj, j E 5)', e matrice di dispersione ottenuta selezionando da 17 Ie righe e le colonne relative alle componenti di 5.
40
3 Processi aleatori elora classificazione
Per le distribuzioni condizionate, ferma restando la forma gaussiana, lc medie, varianze e covarianze richiedono uno sviluppo meno immediato.
Ricaveremo ora una formula che generalizza il noto risultato bivariato: E (X
IY == y) == ux + -aXY ayy
(y - f-LY) , Var (X
IY == y) == a x x
a~y - . ayy
Consideriamo una partizione di (1,2, ..., m) in due parti 51 e 52 di numerosita rispettivamente m1 e m2 (con m., + m2 == m) e riordiniamo i vettori X, f-L e la matrice E in modo che compaiano ai primi posti gli indici appartenenti a 51, e poi tutti quelli che appartengono a 52. Possiamo usare una notazione conseguente:
/1 == (/1(1») /1(2) ==
dove
X(l)
X(l)
condizionata a
(Xj,j
E 51)" X(2) X(2)
==
==
X(2»)
(21T)-m/2
IE I-
PX(l) (X(l)
IX(2)
==
E 52)' e cosi via. La distribuzione di
si puo scrivere:
X(2)
== PX
1/2
(Xj,j
(X(l)' X(2») /PX(2) (X2)
exp {-~ (x - f-L)' E- 1 (x - f-L)}
(2Jr)-m2/2I17221-1/2 exp { -~ (X2 - JL(2))'
==
(21T)-m 1/2
x exp { -
==
E:;} (X2 - JL(2)) }
(lEI / 117221)-1/2 X
~
[(X - JL)' 17- 1 (X - JL) - (X2 - JL( 2) )' 17221 (X2 - JL (2))]} .
Se partizioniamo anche la matrice 17- 1 riunendo prima lc m i righe e colonne di 51, e poi le m2 righe e colonne di 52 nel modo seguente:
otteniamo le relazioni:
ed eseguendo i prodotti tra le matrici condizionate:
(a)
V11E11 + V12E21 == I
(b)
V11E12 + V12E22
==
(c)
V21E11 + V22E21
== 0
(d)
V21E12
0
+ V22E22 == I
.
3.3 La distribuzione normale multipla
41
Dalla (b) si ricava postmoltiplicando per E 221 : V12 == -V11E12Ez/
e sostituendo nella (a) e premoltiplicando ancora una volta per V1I 1 si ha: V11
1
== Ell - E12E2;lE21 .
Ricavando dalla (b) la 1712: 1712 ==
- V1I 1V12E22
e sostituendo nella (d), dopo aver postmoltiplicato per E2;l, si ricava: 172;1
== V22 - V21V111V12.
Usando queste relazioni possiamo sviluppare la forma quadratica che appare nell'esponenziale della densita condizionata:
- (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2))
==
== (Xl - f-L(l))' V11 (Xl - f-L(l)) + (X2 - f-L(2))' V22 (X2 - f-L(2)) +
+ 2 (Xl
- f-L(l))' V12 (X2 - f-L(2)) - (X2 - f-L(2))' (V22 - V21V111V12) (X2 - f-L(2))
== [Xl - fL(l) + V1I 1V12 (X2 - fL(2))]' VII [Xl - fL(l) + VII 1 V12 (X2 - fL(2))] ==
Ponendo f-L l 12 == fL(l) - 1712172;1 (X2 - fL(2))' 17112 == 1711 - 1712172211721 la densita condizionata, che e funzione dell'argomento Xl, risulta:
ed e di forma normale a segue:
m1
dimensioni con media f-L l 12 e varianza E 112 . Ne
Calcoliamo adesso la funzione generatrice dei momenti partendo da variabili normali standardizzate indipendenti. Poiche la funzione generatrice dei
==
42
3 Processi aleatori elora classificazione
momenti di una variabile normale standardizzata e pari a H (t) == exp { t 2 /2 }, per un vettore di m normali standardizzate indipendenti Z == (Zl, Z2, ..., Zm)' avremo:
Quindi, considerando una trasformazione lineare X
H x (0:)
== AZ + J-L si ottiene:
= en' JL Hz (A' 0:) = exp { 0:' JL + ~o:' AA' 0: }
e indicando con E == AA' la matrice di dispersione se X
u. (0:) = exp {
0:' JL
+ ~o:' EO:}
r-;»
N (J-L, E), allora:
.
Ne segue che la funzione generatrice dei cumulanti e:
K (0:) = log H (0:) =
0:' JL
+ ~o:' Eo: = L O:iJLi + ~ L L O:iO:j(Jij i
i
.
j
Poiche sono nulli i coefficienti di grado superiore a 2 in Q, ne segue che i cumulanti di ordine superiore a 2 di una distribuzione normale sono nulli. Questa proprieta ecaratteristica (cioe esclusiva) della forma normale, e usandola insieme al teorema 3.1 ci permette di calcolare facilmente alcuni momenti di ordine superiore. Consideriamo una variabile multipla can media nulla E (Xi) == 0 e calcoliamo la formula (3.1) per r == 3. Le partizioni D p (p == 1,2,3) sono le seguenti: D I == {(1,2,3)} D 2 == {[(I) , (2,3)] , [(2) , (1,3)] , [(3) , (1, 2)]} D 3 == {[(I), (2), (3)]} .
Quindi: E (Xl) E (X 2X 3 ) + E (X 3 ) E (X I X 2) + 2E (Xl) E (X 2) E (X 3 )
o == cum (Xl, X 2, X 3 ) == E (X IX 2X 3 ) - E (X 2) E (X I X 3 )
-
e ricordando che E (Xi) == 0 si ottiene:
In modo analogo si dimostra che tutti i momenti di ordine dispari sono nulli. II risultato per r == 4 si ottiene nel seguente modo. Le partizioni risultano:
3.3 La distribuzione normale multipla
43
{(1,2,3,4)} ~ {[(I) , (2,3, 4)] , [(2) , (1,3, 4)] , [(3) , (1,2,4)] , [(4) , (1, 2,3)] , [(1,2) , (3,4)] , [(1,3) , (2,4)] , [(1,4) , (2,3)]} ~ {[(I), (3), (2,4)], [(1), (4), (2,3)], [(2), (3), (1,4)], [(2), (4), (1,3)], [(3), (4), (1,2)]} ~ {(I) ,(2),(3),(4)}
1)1 ~ 1)2
1)3
1)4
e il cumulante:
°
~ cum (Xl, X 2 , X 3 , X 4 ) ~ E (X 1X2X3X4 )
+
+ E (X2 ) E (X 1X3X4 ) + E (X3 ) E (X 1X2X4 ) + + E (X4 ) E (X 1X2X3 ) + E (X 1X2 ) E (X3X4 ) + E (X 1X3 ) E (X 2X4 ) + + E (X 1X4 ) E (X 2X3 ) } + 2{E (Xl) E (X 3 ) E (X2X4 ) + + E (Xl) E (X4 ) E (X 2X3 ) + E (X 2 ) E (X3 ) E (X 1X4 ) + - {E (Xl) E (X 2X3X4 )
+ E (X 2 ) E (X4 ) E (X 1X3 ) + E (X 3 ) E (X4 ) E (X 1X2 )}+ - 6E (Xl) E (X 2 ) E (X 3 ) E (X 4 )
tenendo sempre conto che E (Xi) ~ 0, i ~ 1,2,3,4 gli unici termini che non si annullano sono E (X 1X2X3X4 ) e i prodotti del tipo E (X 1X2 ) E (X3X4 ) . Riordinando otteniamo: E (X 1X2X3X4 ) ~ E (X 1X2 ) E (X 3X4 )
+ E (X 1X3 ) E (X 2X4 ) +
+ E (X 1X4 ) E (X 2X3 )
che e nota come formula di Isserlis e permette di esprimere i momenti quarti in funzione delle covarianze. La propricta caratteristica della normale di avere i cumulanti di ordine superiore a 2 tutti nulli permette tramite applicazioni ripetute del teorema 3.1 di calcolare tutti i momenti di qualunque ordine (pari) in funzione delle covarianze. Tra le variabili derivate dalla normale multipla esiste una generalizzazione multivariata della t di Student, e la distribuzione chi-quadrato ha un ruolo rilevante. Infatti sappiamo che se Z ~ (ZI, Z2, ..., Zm)' e normale multipla standardizzata, cioe E (Z) ~ 0, E (ZZ') ~ I, allora la Zf + Z~ + ... + Z~ ~ Z' Z si distribuisce secondo un X2 con m gradi di liberta. Se invece X ~ (Xl, X 2 , ... , X m )' e normale multipla con una media E (X) ~ J-l e matrice di dispersione E {(X - J-l) (X - J-l)'} ~ E allora possiamo prima riportarci alla standardizzata con la gia introdotta trasformazione Z ~ (X - J-l) dove E ~ QQ'. Pertanto la Z' Z ~ (X - J-l)' E- 1 (X - J-l) ha distribuzione chi quadrato con m gradi di liberta. In realta molte funzioni quadratiche di variabili normali hanno una distribuzione che si approssima al chi-quadrato. Consideriamo un vettore normale standardizzato Z ~ (Zl, Z2, ..., Zm)' e una matrice quadrata simmetrica A. La matrice A puo essere scritta A ~ U AU' dove A ~ diag (AI, A2'..., Am) e i Ai sono gli autovalori mentre le colonne di U sono gli autovettori, e U e ortogonale. Se consideriamo la forma quadratica:
o:'
44
3 Processi aleatori elora classificazione
Q (Z)
== Z' AZ == Z'U AU' Z == Y' AY
dove Y == U' Z, lc Y sono normali multiple standardizzate perche hanno media zero e matrice di dispersione E{YY'} == E{U' ZZ'U} == o't: == I. Quindi dato che A e diagonale: m
Q (Z)
==
L AjYj2 j=l
con Yj2 che sono chi-quadrato con un grado di Iiberta indipendenti. Ne segue che ogni forma quadratica costruita su normali standardizzate e distribuita come una combinazione lineare di variabili chi-quadrato indipendenti con un grado di liberta, e i coefficienti della combinazione lineare sono dati dagli autovalori della matrice della forma quadratica. Ne segue che se la A ha autovalori uguali a 0 oppure 1 la Q(Z) e un chi-quadro, in caso contrario la distribuzione e pili complicata (si veda ad esempio Johnson and Kotz (1970), vol. 2), rna puo' essere approssimata con un multiplo di un chi-quadro del tipo cx~ dove 9 e scelto in modo da ottenere la stessa media e la stessa varianza: E{ Q (Z)} == E Ai == cg; V ar{ Q (Z)} == 2 E A; == 2c2 9 da cui si ricava c
==
E A;/ E Ai, 9 == (E Ai)2 / E A;.
3.4 Alcune proprieta dei processi aleatori
e
L'insieme dei processi aleatori come 10 abbiamo introdotto talmente vasto da comprendere intere classi di processi con caratteristiche e comportamenti molto complicati, anche patologici 0 degeneri, che sono poco utili come modelli di fenomeni reali. Per questo motivo si usa restringere il campo dei processi aleatori da utilizzare come modelli, imponendo che essi soddisfino alcune proprieta che garantiscono almeno i due aspetti seguenti: 1. Quando 1'insieme in cui varia il parametro (ad esempio il tempo) e illimitato, il comportamento del processo al crescere del parametro non deve degenerare. 2. Le caratteristiche fondamentali del processo {Xt } al variare del parametro t nel suo insieme T devono mantenere una sorta di stabilita ovvero omogeneita, devono cioe essere proprie del processo e quindi manifestarsi in maniera analoga indipendentemente dal valore del parametro. Per cautelarsi dal degenerare del processo e in genere sufficiente assumere che i momenti di ogni ordine finito sono finiti, D'ora in poi assumeremo in tutto il testo che questa proprieta sia soddisfatta. Per assicurare I'ornogeneita delle caratteristiche del processo Ie propriet.a che si richiedono sono indicate con il concetto di st.azionarieta. II massimo che possiamo richiedere e che una traslazione del parametro non modifichi in alcun modo le caratteristiche univariate e multivariate delle variabili del processo: questa e la stazionarieta in senso forte.
3.4 Alcune proprieta dei processi aleatori
45
Un processo aleatorio {X t, t E T} e stazionario in senso forte se per ogni n naturale e per ogni n-pla (tl, t2, ..., tn) E T" e per ogni scelta di h tale che t, + h E T Vi, si ha:
P (X h
== Xl,
Xt2
== X2, ... , X t n == X n ) == ==
P (X h +h
== Xl,
X t 2+ h
== X2, ... ,
X t n +h
== X n )
(3.6)
dove la P e da intendersi naturalmente come funzione di densita se la distribuzione e assolutamente continua. In particolare applicando la proprieta con n == 1 si ha che tutte le variabili Xi sono somiglianti. La proprieta di stazionarieta forte implica che la distribuzione (e quindi tutti i momenti) resti invariata rispetto a traslazioni del parametro, e quindi coinvolge l'intera distribuzione di probabilita del processo a un numero arbitrario di componenti. Essendo questa proprieta molto restrittiva, in genere ci si accontenta di richiedere un tipo di stabilita me no rigorosa, che coinvolga solo i momenti fino a un certo or dine (e non la distribuzione di probabilita nel suo complesso). Si parla di stazionariet.a in senso debole, e del relativo ordine. Un processo aleatorio {Xt, t E T} e detto stazionario in senso deb ole di ordine s (naturale) se per ogni naturale n ::; s e per ogni scelta di (tl, t2, ...,tn) E T": e h tale che ti + h E T, Vi, si abbia:
La proprieta sottintende che tutti i momenti in (3.7) debbono essere finiti. Sotto questa condizione, la stazionarieta in senso forte implica quella deb ole di ogni or dine s. Notiamo che se il processo ha distribuzione gaussiana, allora tutti i momenti possono essere espressi in funzione di medie e covarianze (momenti di ordine 1 e 2), ed' altra parte queste ultime caratterizzano completamente la distribuzione di probabilita, Pertanto, nel caso di processi normali, la stazionarieta in senso forte e quella debole di or dine due coincidono (purche le medie e Ie varianze siano finite). In realta anche quando non si assuma la normalita, la propricta di stazionarieta a cui si fa pili frequentemente riferimento e quella debole di ordine due, a cui a volte ci si riferisce come stazionariet.a tout court. Vediamone nei dettagli il significato. Per un processo aleatorio {X t , t E T} stazionario in senso debole del secondo ordine, la (3.7) implica che Ie variabili univariate hanno tutte la stessa media, che possiamo quindi indicare con un simbolo unico /1: t E T.
Per n == 2 invece, la (3.7) puo essere scritta ponendo t l == t e t 2 - t l == l:
46
3 Processi aleatori elora classificazione
e quindi il momento secondo dipende solo dal valore di l, cioe dalla differenza tra i parametri delle due variabili. Per ottenere la covarianza tra le variabili e sufficiente sottrarre il prodotto delle medie, uguale a J12 indipendente da t e l. La espressione che si ottiene, funzione solo di l (chiamato lag 0 ritardo) viene detta funzione di autocovarianza del processo r(l):
Cov (Xt, X t+l ) == E (XtX t+l )
-
E (X t) E (X t+l ) - J1)} == r (l) .
== E{(Xt - J1)(Xt+l
(3.8)
E immediato rendersi conto che:
r (0) == Var (Xt ) r (l) == r (-l)
Vt E T Vl .
Come nella statistica multivariata, anche qui puo essere opportuno ricorrere a un indice relativo, compreso tra -1 e 1, e si definisce quindi la funzione di autocorrelazione del processo:
Cov (X t, X t+l ) r (l) -- C orre l (X t, X t+l ) -_ -----;======================== JVar (X t ) Var (Xt + l ) r (l) r (0) .
(3.9)
Naturalmente r (0) == 1, r (l) == r (-l) e Ir(l) I ~ 1. La maggior parte delle analisi che si effettuano sulle serie storiche prende in considerazione le relazioni lineari tra le variabili, e quindi si limita all'analisi dei momenti di ordine uno e due. Tuttavia, anche all'interno dell'insieme dei processi debolmente stazionari al secondo ordine si usa restringersi a un sottoinsieme che soddisfi ulteriori proprieta, Esse devono assicurare che la dipendenza tra due variabili diventi sempre piu' deb ole al crescere della distanza parametrica che Ie separa. In altri termini, si limita la dipendenza a una forma locale, che possa essere riconosciuta sulla base di una realizzazione finita, cioe di un insieme limitato di variabili del processo. Questo obiettivo puo essere raggiunto con due tipi (alternativi rna di fatto equivalenti) di condizioni, dette condizioni di mixing. II primo tipo concerne le distribuzioni congiunte, e impone che al crescere della distanza tra le variabili esse si avvicinino all'indipendenza. Una richiesta tipica e che la quantita: (3.10) tenda a zero al crescere di h. In alternativa si puo richiedere invece che siano convergenti le serie dei cumulanti (Brillinger, 1981 p.126):
L 00
Icum{Xt,Xt+U 1 '
•••
,Xt+uk}1 <
00
k == 1,2, ...
(3.11 )
3.5 Una classificazione dei processi aleatori
47
Una proprieta del tutto particolare che puo essere soddisfatta dai processi aleatori, e che prende il nome di proprieta markoviana 0 di Markov, riguarda la natura della dipendenza tra le variabili: in un certo senso l'influenza su una variabile del passato del processo viene riassunta dalla informazione pili recente. Per introdurre questa proprieta, consideriamo un insieme di variabili indipendenti {et, t E T} e definiamo un processo {X t , t E T} attraverso la relazione: (3.12) X t == X t - 1 + et . Be fissiamo un istante iniziale, X o, si ottiene: (3.13)
e per ogni t
> 0 e 0 < s < t: (3.14)
Notiamo che data l'indipendenza delle {et}, si ha anche l'indipendenza tra et e Xt-h per ogni h > O. La (3.14) definisce la variabile X, come la somma di una variabile X s relativa al passato pili un termine (es + 1 + ... + et) completamente indipendente da essa e da tutte Ie X s - h , h > O. Pertanto, se fosse noto il valore assunto da X s , la distribuzione condizionata di X, non dipenderebbe da nessuno degli X s - h , h > 0, cioe dalla "storia del processo" precedente. In altri termini, ai fini della distribuzione di probabilita di Xt, l'ultimo valore noto del processo, cioe il precedente a t pili prossimo a t, assorbe in se tutta la dipendenza dal passato. Questa e in sostanza la proprieta markoviana, che puo essere formalizzata come segue: II processo {Xt, t E T} di Markov se per ogni naturale n e per ogni scelta di tl < t2 < ... < i« tutti appartenenti a T, si ha:
e
La proprieta di markovianita e particolarmente adeguata quando il processo aleatorio registra 10 stato di un sistema i cui mutamenti sono puramente casuali, rna puo costituire una buona approssimazione anche in molti altri casi. Essa permette una drastica semplificazione analitica e consente di ottenere facilmente risultati decisivi, specie nel caso che i valori assumibili dal processo siano un insieme discreto, finito 0 numerabile.
3.5 Una classificazione dei processi aleatori Una classificazione dei processi aleatori unanimemente riconosciuta in letteratura non esiste, anche se corpus metodologici diversi, sviluppati per processi aleatori di una particolare natura, vengono indicati con il medesimo nome da tutta Ia Ietteratura.
48
3 Processi aleatori elora classificazione
Qui useremo una classificazione, utile ai fini della trattazione e sostanzialmente aderente alla terminologia corrente, basata sulla natura dei valori assunti dal parametro e dalle variabili del processo distinguendo principalmente se i relativi insiemi sono continui 0 discreti. Se il parametro t varia in un insieme continuo, e le variabili X, hanno distribuzione assolutamente continua, siamo nel campo delle funzioni aleatorie (0 processi aleatori a parametro continuo). E un settore per il Quale la teoria dei processi aleatori e particolarmente sviluppata e approfondita, con risultati teorici profondi e di elevato livello matematico. Questo testo non approfondisce tali aspetti, perche l'obiettivo fondamentale e quello della applicazione alle previsioni, e le funzioni aleatorie sono pili raramente osservabili con sufficiente completezza nella realta empirica dei fenomeni economico sociali. D'altra parte, la teoria dei processi aleatori a parametro continuo, e la relativa inferenza statistica, rappresentano un campo cosi vasto e approfondito, con profonde relazioni con la fisica, da richiedere un intero corso, e non si possono esaurire in pochi accenni. Se il parametro t varia in un insieme discreto e le variabili X, hanno una distribuzione assolutamente continua, siamo nel campo delle serie temporali propriamente dette. II parametro t assume convenzionalmente valori interi, viene generalmente chiamato tempo, e indicizza le rilevazioni che sono effettuate a cadenza fissa, quindi sono equidistanziate (ogni ora, ogni giorno, ogni mese, ogni anno, ecc.). I valori rilevati, che costituiscono le realizzazioni delle singole variabili del processo, possono riferirsi a misurazioni istantanee (come per esempio la temperatura: in questo caso ad ogni valore del parametro deve essere associato, in maniera implicita 0 esplicita, un istante preciso), oppure a misurazioni convenzionali (ad esempio la quotazione di chiusura di un titolo, oppure di una valuta); 0 ancora, infine, a dati di accumulo che sintetizzano le manifestazioni complessive del fenomeno ncll'unita di tempo (ad esempio la quantita di pioggia caduta in una settimana, 0 la produzione industriale mensile, 0 Ie vendite annuali di un bene). In tutti questi casi generalmente la metodologia usata e simile, e fa riferimento all'inferenza per i processi stazionari e alle sue estensioni. Se l'insieme in cui varia il parametro e discreto e anche i valori assunti dalle variabili sono in numero finito (0 numerabile), si usa privilegiare 10 studio delle distribuzioni di probabilita, univariate e condizionate, che possono essere sintetizzate con un vettore finito (0 numerabile) di numeri non negativi a somma uno. Se chiamiamo stati i vari valori assumibili dal processo, ci domanderemo quindi ad esempio qual e la probabilita di essere in un certo stato, o quella di passare da uno stato a un altro in un certo numero di istanti (0 anche passi) e cost via. Per questi tipi di processi nei quali ha molta rilevanza 10 studio delle probabilita condizionate, la proprieta markoviana semplifica notevolmente gli sviluppi e permette di raggiungere facilmente risultati interessanti. Per questo motivo un capitolo importante dei processi aleatori e costituito da quelli con parametro discreto, valori discreti e markoviani, che prendono il nome di catene di Markov, ed esamineremo pili da vicino.
3.5 Una classificazione dei processi aleatori
49
Consideriamo infine il caso che il parametro t sia continuo, e i valori assumibili formino un insieme discreto e finito. In questa classe hanno particolare importanza i cosiddetti processi di punti. Supponiamo che T coincida con l'insieme dei numeri reali, e che il parametro t abbia ancora il significato di indice temporale che scorre con continuita. Dunque in ogni istante si realizza una variabile del processo. Tra i valori assumibili, ne individuiamo uno a cui possiamo attribuire per comodita il valore zero, mentre daremo agli altri valori positivi. Interpreteremo 10 zero come assenza di un evento, mentre il numero positivo come il realizzarsi di un evento di una certa importanza determinata dal valore assunto. Nella forma pili semplice possiamo ipotizzare che le variabili del processo siano dicotomiche, e assumano solo valore zero oppure uno. Se ci assicuriamo che gli istanti in cui il processo assume valore uno sono sufficientemente rari (una richiesta che ovviamente andra precisata) possiamo interpretare questo modello aleatorio come la schematizzazione di una serie di eventi che si realizzano allo scorrere del tempo: si realizza un evento in corrispondenza a ogni istante s per cui X s assume valore diverso da zero. Per un processo di punti hanno interesse alcune grandezze aleatorie che assumono un particolare significato, come il numero di eventi che si realizza in un intervallo temporale di una fissata estensione, 0 anche il tempo che trascorre tra un evento e il successivo. Anzi a volte e proprio questa variabile aleatoria (tempo tra due eventi) che viene usata per caratterizzare i processi di punti. Noi tratteremo brevemente i processi di punti, anche se va subito osservato che le potenzialita previsive di un processo di questa natura sono sicuramente meno incisive rispetto a cia che e possibile usualmente ottenere nell'analisi delle serie temporali.
4
Catene di Markov
II capitolo e dedicato alle catene di Markov (processi aleatori markoviani a valori discreti e parametro discreto) e alle loro proprieta principali, con particolare riguardo alla distribuzione di equilibrio.
4.1 Generalita Consideriamo processi a parametro discreto e con variabili aleatorie discrete. Per comodita quindi useremo i numeri naturali per il parametro, scrivendo il processo come {X t , t == 1, 2, 3, ...}. Spesso si identifica un istante iniziale, indicato con t == 0, in cui il valore assunto dal processo si suppone noto, oppure sul Quale si formulano ipotesi particolari. I valori assumibili da X, saranno indicati convenzionalmente con i numeri interi, e vengono anche chiamati stati della catena: se sana in numero finito si parla di catena finita, altrimenti di catena infinita. Un processo cost schematizzato si dice catena di Markov se vale la proprieta markoviana:
per ogni nl > n2 > n3 > n4 > ns .... Un esempio semplicissimo di catena di Markov e quello descritto dal numero di teste nel lancio ripetuto di una moneta. Indichiamo con X, il numero di successi in t lanci ripetuti. Questo meccanismo e markoviano perche il passaggio da X, a X t + 1 avviene attraverso un nuovo lancio della moneta il cui risultato e indipendente da X, e dai precedenti. I valori assunti al passo (0 tempo) n dipendono da quelli assunti al passo n-l: infatti i successi possono aumentare di uno (se viene testa) oppure rimanere invariati (se viene croce). Data la conoscenza di X n - 1 , quindi vale la proprieta di Markov. Precisamente si ha:
52
4 Catene di Markov
Pr{Xn
x
==
IXn - 1 == y} == 0 ==
Pr {croce}
X
==
Pr {testa}
x==y+1 x>y+1.
==0
In modo analogo e facile rendersi conto che se si conoscono diversi valori assunti da {Xt } nel passato, l'unico rilevante per X n e il pili recente, diciamo X n- s == X n- s , perche allora X n e pari a X n- s pili il numero aleatorio di teste in s prove. In sostanza, in una catena di Markov l'elemento pili importante e costituito dalle probabilita condizionate del tipo (4.1) che vengono chiamate anche probabilita di transizione:
Pr {X n == i
IXm
==
j}
==
Pij (n, m)
n>m
che indica la probabilita che al passo n la catena sia nella stato i, condizionatamente al fatto che al passo (precedente) m era nella stato j. Queste probabilita dipendono in linea di principio sia da m che da n, rna potrebbe accadere che siano solo in funzione di n - m, cioc del tempo (0 numero di passi) trascorso, e in tal caso abbiamo:
Pr{Xn==iIXm==j}==Pij(n-m) . Quando questo accade la catena si dice omogenea (altrimenti non omogenea) e si usa la notazione: Pr {X n == i
IXn - 1 == j} == Pij;
Pr {X n == i IXn- s == j} == p~;)
s
== 2,3, ...
Si faccia attenzione che il primo indice indica 10 stato di arrivo, e il secondo denota 10 stato di partenza. Ci occuperemo d'ora in poi solo di catene finite, e quindi i valori attribuibili allo stato (indici i e j) saranno indicati con i primi naturali da 1 a k. Ne segue che per le distribuzioni di probabilita condizionate: k
k
LPij
== 1
LP~;) = 1 Vj,Vs .
Vj
i=l
i=l
Se consideriamo la matrice P == ((Pij)) quadrata k x k, abbiamo allora che essa ha elementi tutti non negativi, e la somma degli elementi di ciascuna colonna e uguale a uno: r == 1/
v
dove 1 e il vettore (colonna) di dimensione k con tutti elementi pari a 1. Le matrici di questo tipo sono dette matrici stocastiche. Una importante conseguenza della proprieta di Markov sta nella possibilita di esprimere le probabilit.a di passaggio in n passi attraverso le probabilita
4.1 Ceneralita
53
di passaggio in un numero inferiore di istanti. Infatti considerando due interi qualunque n e m con n > m possiamo scrivere (usando la proprieta di Markov):
p~;) = Pr{Xn +s = ilXs = j}
=
== Pr{ X n +s == i, Xm+squalunque IXs == j} == k
== L Pr{ X n +s == i, X m +s == IIXs == j} == l=1 k
== LPr{Xn +s == ilXm +s == l.X, ==j}Pr{Xm+s == IIXs ==j} == l=1 k
==
'""'" (n-m) (m) ~Pil Plj' l=1
(4.2)
Questo risultato va sotto il nome di equazione di Chapman e Kolmogorov, e puo essere scritto anche nel modo seguente: k
(n+m)
v.,
c: v;(n) Plj(m) '""'"
==
n,m==1,2, ...
(4.3)
l=1
Poiche le probabilita di passaggio in n passi sono tutte esprimibili in funzione di que lle in un numero di passaggi inferiore, e facile capire che in realta per calcolarle tutte e sufficiente conoscere le sole probabilita di passaggio in un passo, cioe le probabilita di transizione contenute nella matrice P. Infatti, se indichiamo con p(n) la matrice delle probabilita di passaggio in n istanti: p(n) == ((p~7))), le equazioni di Chapman e Kolmogorov descrivono gli elementi di p(n+m) come il prodotto delle righe di p(n) per le colonne di p(m), ovvero: p(n+m)
== p(n) p(m) .
Allora ponendo m == 1 si ha: p(n+1)
e quindi per induzione: p(n)
==
p(n) p
== P" .
In conclusione, le probabilita di passaggio in n passi sono gli elementi della potenza n-esima della matrice di transizione. Ovviamente poiche I' P" == I' come si verifica immediatamente, ogni colonna di P" e una distribuzione di probabilita ben definita. Oltre alle probabilita condizionate, possiamo studiare le probabilita non condizionate, cioe le probabilita che a un certo istante il processo assuma un determinato valore (0, col linguaggio delle catene, la probabilita che la
54
4 Catene di Markov
catena a un certo passo sia in un determinato stato). Queste probabilita, dette probabilita di stato, verranno indicate con: j == 1, ..., k
n == 0,1, ...
e il relativo vettore (colonna) sara: P
(n) _ ((n) (n) (n))' , - PI ,P2 ,···,Pk .
In particolare, immaginiamo che la catena abbia inizio aH'istante zero nel Quale il valore assunto e determinato in base a una distribuzione di probabilita iniziale p(O). Allora al primo passo avremo: k
pj1)
= Pr{X1 = j} = LPr{Xo = l}Pr{X1 = j IXo = l} l=l k
_ '"""" (0) - L-JPl Pjl l=l
e al secondo passo: k
k
pj2) = Pr {X2= j} = L
Pr {Xo = l} Pr {X 2= j IXo = l} = LPfO)pj~) =
l=l
l=l
k
==
k
L
Pr {Xl == l} Pr {X 2 == j
IX1 == l} == LPjl)Pj[
l=l
l=l
e cosi via, in generale possiamo scrivere: (n+m) Pj
k
==
,,(m) (n) LJPjl
v;
n,m==1,2, ...
(4.4)
[=1
e in forma matriciale:
Esempio 4.1 (Testa 0 croce). Sviluppiamo l'esempio del numero di successi nel lancio di una moneta ( 1 ) . Gli stati sono indicati can i numeri da zero in su, e possiamo supporre di partire al tempo zero can nessun successo, quindi pjO) == 1 per j == 0, pjO) == 0 per j > O. Se si assume che la probabilita di un successo (testa) sia pari a q (0.5 nel caso di moneta perfetta) Ie probabilita di transizione sono: Pi+1,i == 1
q,
Pi,i
== 1 -
q,
Pj,i ==
0
j
-# i, i + 1
Si noti pero che a stretto rigore si tratta di una catena infinita.
4.1 Generalita
55
e la matrice P ha il seguente aspetto (si ricordi che 10 stato di partenza associato alla colonna e 10 stato di arrivo e associato alla riga):
1-q 0 q 1-q
o o
P==
q
0
e
000 000 1- q 0 0 q 1- q 0
Calcoliamo le probabilita di stato agli istanti 1 e 2: dalle (4.4) otteniamo che p(l) == pp(O) e poiche p(O) == (1,0,0, ...), p(l) e dato dalla prima colonna di P: 1 P61 ) == 1 - q, ) == q .
pi
Per ottenere p(2) moltiplichiamo P per p(l) , ottenendo la combinazione lineare della colonna prima e seconda di P con coefficienti 1 - q e q:
pi
2
)
== (1 - q) q + q (1 - q) == 2q (1 - q) ;
Si puo intuire facilmente che la iterazione di questa procedura porta a definire la probabilita di stato all'n-esimo passo come una binomiale: j == 0,1, ..., n .
Anche le probabilita di transizione in pili passi seguono una struttura binomiale, perchc Pr {X n +m == i IXm == j} sara nulla per i < j mentre i ~ j corrisponde a ottenere i - j successi in n prove:
~~)
P1,J
=
(
n )
..
~-J
q i-j
(1 _
q )n-i+
j
i
'2 j .
Esempio 4.2 (Scommesse su testa 0 croce). Immag .iiamo uno scommettitore che punta ogni volta un euro sull'uscita della testa comincia con 3 euro, e si ritirera se esaurisce la somma a sua disposizione, OJ .pure raggiunge 6 euro. A ogni lancio, se il risultato e testa guadagna un eure, se e croce ne perde uno. Consideriamo come stato della catena la somma che possiede. A ogni lancio, se il risultato e testa essa aumenta di uno, se e croce diminuisce di uno. Se invece la catena e nello stato zero, il giocatore smette di puntare e quindi la catena rimane indefinitamente in tale stato. Lo stesso avviene se il giocatore ha raggiunto il suo scopo, cioe se la catena e arrivata nello stato 6. La matrice di transizione, sempre supponendo che la probabilita di testa sia q, e la seguente:
56
4 Catene di Markov
a
1 da ---+ 0
1
1 11- q
0 0 0 0 0 0
2
3 4 5 6
2
3
0
0
1-q
0 0
q
0
1-q
4 0 0 0
0 0 0 0
q
0
1-q
0 0 0
q
0
0 0
q
0
0
0
q
1
0
5 0 0 0 0
6 0 0 0 0
1-qO
Come si vede la matrice di transizione ha una struttura simile alla precedente, eccettuata la prima e l'ultima colonna che si riferiscono a stati che si comportano in maniera assorbente: cioe se la catena arriva in quello stato non se ne allontana pili. II vettore delle probabilita iniziali allo stato 0, avendo supposto che il giocatore comincia a giocare con 3 euro, sara p(O) == (0,0,0,1,0,0,0)' e quindi ad esempio: p(l) == pp(O) ==
p(2) = pp(l) =
(0,0,1 -
q,
0, q, 0, 0)'
(0, (1- q)2 ,0,2q(1- q) ,0,q2,0)'
e cosl via.
Esempio 4.3 (Passeggiata aleatoria). Con il termine passeggiata aleatoria (random walk) si indica il processo descritto dalla posizione di una parti-
cella che si muove su una retta in modo casuale: ad ogni passo si puo spostare verso sinistra con probabilita q, verso destra con probabilita p, 0 rimanere ferrna con probabilita (1- p - q). Per semplicit.a supporremo che gli spostamenti siano di lunghezza unitaria, quindi la ascissa al passo n si puo scrivere:
dove Zn puo assumere valori -1,0,1 con probabilita q, 1 - p - q, p, e le {Zj, j == 1, 2, ... } sono indipendenti. La catena descritta dalla posizione X n puo assumere come valori tutti i numeri interi, e ha matrice di transizione: a
1 da
k-1 k k+1
---+
k-1
k
k+1
q 0 0 ... 1-p-q q 0 p 1-p-q q p 1-p-q ... 0 0
0
p
cioe e una matrice a banda diagonale con 1 - p - q sulla diagonale principale, valori q al di sopra e valori p al di sotto.
4.1 Gcneralita
57
Nella teoria delle passeggiate aleatorie si considerano le barriere, cioe particolari stati che non possono essere superati a destra (barriere superiori) oppure a sinistra (barriere inferiori). Le barriere possono essere di tipo assorbente (se la catena una volta arrivata in quello stato vi rimane indefinitamente) oppure riflettenti (se la catena una volta arrivata in quello stato ritorna con certezza nello stato assunto precedentemente). Le distribuzioni di probabilita condizionate dal trovarsi in uno stato barriera sono percio diverse: se b e uno stato barriera assorbente, allora dato X n == b avremo X n + l == b con probabilita uno. Se invece b e una barriera riflettente, allora condizionatamente a X n == b, X n + l e con probabilita uno uguale a b-l (se e barriera superiore) oppure b+ 1 (se e barriera inferiore). Ad esempio consideriamo una passeggiata aleatoria con barriera riflettente superiore nello stato 3 e barriera assorbente inferiore nello stato -1. La matrice di transizione diventa:
a 1 da -1 0 1 2 3
---+
-1 1
0
q 0 I-p-q 0 0 0
P 0 0
1
2
0
0 0
q I-p-q P 0
3 0 0 0
q I-p-ql P
0
II caso precedente dello scommettitore e un esempio di passeggiata aleatoria con P == 1 - q (e quindi 1 - P - q == 0), una barriera assorbente inferiore in 0 e una barriera assorbente superiore nello stato 6.
Esempio
4.4 (Giorni di pioggia a Tel Aviv).
In un classico articolo Gabriel e Neumann (1962) proposero di utilizzare una catena di Markov per descrivere l'alternanza di giorni di pioggia e asciutti in alcuni mesi dell'anno a Tel Aviv. La catena ha quindi due soli stati: piove 0 asciutto, e i tempi si riferiscono ai giorni. Se attribuiamo il valore zero allo stato giorno asciutto e il valore 1 allo stato giorno di pioggia abbiamo una matrice di transizione a due righe e due colonne: p
== [POO POI] . PIO
PII
Poiche pero la somma degli elementi di ciascuna colonna e uno, possiamo esprimerle assumendo due sole incognite, ad esempio la probabilita di passare da un giorno di pioggia a un giorno asciutto POI == a e quella di passare da un giorno asciutto a uno di pioggia PIa == {3:
p==[I-{3 {3
a].
I-a
Per escludere casi degeneri assumeremo che 0 < a < 1 e 0 < {3 < 1. La semplicita dello schema probabilistico della catena a due stati permette di ricavare facilmente altre quantita interessanti. Ad esempio consideriamo la durata di una sequenza di giorni di pioggia, che
e una variabile aleatoria che
58
4 Catene di Markov
indichiamo con S. Dato che il giorno iniziale piove (X o == 1), perche sia S == k deve verificarsi simultaneamente Xl == 1, X 2 == 1, X 3 == 1,...,Xk- 1 == 1, Xk == O. Sfruttando la proprieta markoviana, la probabilita dell'intersezione di questi eventi puo essere scritta come prodotto di probabilita condizionate: Pr{XI == 1,X2 == 1, ... ,Xk -
== 1,Xk == 0 IXo == 1} == == Pr{X I == 11Xo == 1}Pr{X2 == 11X I == 1} x··· x Pr{Xk-1 == 11Xk-2 == l}Pr{Xk == 0 IXk- 1 == 1} == l
k-l POI == a ( 1 - a )k-l . == PII
(4.5)
Quindi S ha la distribuzione geometrica di parametro a (e il suo valor medio ella). Analogamente la durata di una sequenza di giorni asciutti e una variabile aleatoria geometrica di parametro (3. Notiamo che la (4.5) puo essere interpretata come la probabilita che, partendo da un giorno di pioggia, il primo giorno asciutto si verifichi esattamente dopo k giorni. E cioe, nella terminologia delle catene, la probabilita che il primo passaggio dallo stato 0 allo stato 1 avvenga esattamente dopo k passi.
4.2 Classificazione degli stati e delle catene Gli stati delle catene di Markov possono essere classificati a seconda della possibilita che si ha di passare da uno all'altro, oppure di tornare in uno stato dopo averlo visitato (cioe dopo che la catena ha assunto quello stato come valore a un certo istante). Prima di tutto, si dice che uno stato e periodico di periodo h se e possibile ritornarvi solo dopo un numero di passi multiplo di h, ovvero quando e uguale a zero per tutti gli n che non siano multipli di h. Non prenderemo in considerazione questa eventualita, e quindi supporremo che nessuno degli stati della catena sia periodico, in altre parole che tutti gli stati siano aperiodici (in questo caso anche la catena e detta aperiodica). Definiamo ora le probabilita di primo passaggio e quelle di primo ritorno. La probabilita di primo passaggio dallo stato j allo stato i in n passi si riferisce all'evento seguente: la catena all'istante t e nello stato i, negli n - 1 istanti seguenti e in stati diversi da i, e all'istante t + n e nello stato i:
p;;)
ii~n) Naturalmente
= Pr{Xn = i.X; # i (r = 1,2, ... ,n -1) IXo =
r: ==
j} .
Pij; se sommiamo rispetto a n otteniamo: 00
iij
= Lii~n) n=l
che e la probabilita di raggiungere prima 0 poi 10 stato i partendo dallo stato j, detta probabilita di passaggio da j a i. Se calcoliamo il numero di passi medio:
4.2 Classificazione degli stati e delle catene
59
00
mij
= L nfi~n) n=l
chiameremo mij tempo medio di passaggio da j a i. Analoghi concetti possono
fY;)
essere estesi al ritorno nello stesso stato: e la probabilita che partendo dallo stato j, ci si ritorni per la prima volta dopo n passi:
Ii;) == Pr {X
n
== j, X; =F j (r == 1,2, ..., n - 1) IXo == j} .
Anche qui sommando rispetto ansi ottiene la probabilita di ritorno nello stato, cioe la probabilita che la catena, partendo dallo stato j, ci ritorni prima o poi: 00
!Jj = Lfj~) n=l
e il tempo medio di ritorno: 00
mj
= Lnfj~) . n=l
Uno stato j si dice transitorio se Ijj < 1, cioe il ritorno nello stato non Se invece si ha Ijj == 1, e quindi si ritorna prima 0 poi nello stato con probabilita uno, 10 stato si dice ricorrente. In questo caso, a seconda che il tempo medio di ritorno mj sia finito 0 infinito, 10 stato si dice ricorrente positivo 0 ricorrente nullo. La classificazione degli stati che abbiamo proposto e basata sulle probabilita di primo passaggio 0 di primo ritorno, che non sono di calcolo immediato, rna possono essere espresse anche in termini delle probabilita di transizione p~7). Infatti esse sono legate da semplici relazioni che adesso introduciamo.
e certo.
L'evento (X n == i IXo == j) la cui probabilita e p~7) puo essere decomposto distinguendo quando e avvenuto il primo passaggio da j a i, che puo essersi verificato ai passi 1,2, ..., n. Poiche queste possibilita sono incompatibili, possiamo scrivere:
n
==
L Pr [primo passaggio in i al passo rlXo == j} Pr {X
n
== i IXr == i}
r=l n
== 'Z:: """'" f~:)p~~-r) 1,) 1,1,
n == 1,2, ...
r=l
dove abbiamo indicato per completezza p~~) valida anche per i == j e quindi:
(4.6) 1 per ogni i. La relazione
e
60
4 Catene di Markov
n == 1,2, ... Queste relazioni possono essere sintetizzate definendo lc funzioni generatrici delle probabilita:
I: fi~n) sn 00
Fij (s) =
Pij (S )
n=l
_
-
00
~
(n) n
~Pij S
Vi,j.
n=l
Infatti moltiplicando i membri della relazione (4.6) per s" e sommando rispetto a n da 1 a infinito si ricava:
e ancora:
Fi j (s) == Pi j (s) / [1
+ r; (s)]
Vi,j.
Notiamo che la probabilita di ritorno nello stato j, fjj, e uguale a F j j (1) == + Pj j (1)]. Se Pj j (1) efinito, allora F j j (1) esempre minore di uno. Ne segue che uno stato j e transitorio se e solo se Pj j (1) < 00. Ma Pj j (1)
Pj j (1) / [1
PJ7) , n = 1,2, ..., e quindi uno stato e ricorrente se e solo se la serie 2::'=1 PJ7) e divergente. Se invece la serie e convergente, 10 stato j e transitorio. Si puo inoltre dimostrare che se 10 stato j e ricorrente, allora il limite per n -+ 00 di PJ;) e uguale al reciproco del tempo medio di ritorno mj (e se mj non e finito allora PJ7) ----+ 0). Questo risultato e noto come teorema
e la
serie dei
ergodico per le catene di Markov, rna sul concetto di ergodicita torneremo nei capitoli successivi. Passiamo adesso a considerare gli insiemi e sottoinsiemi di statio Si dice che due stati i e j comunicano se e possibile passare dall'uno all'altro in un numero finito di passi, cioe se esiste un intero m tale che p~?) > 0 e un intero
r tale che PJ:) > o. E stato dimostrato che se due stati comunicano devono essere dello stesso tipo (transitori 0 ricorrenti). Chiamiamo chiuso un insieme di stati C tale che tutti gli stati di C comunicano tra loro, rna non comunicano con gli stati non appartenenti a C, cioe Pij == 0 se j E C e i ~ C. Se la catena entra in un insieme chiuso di stati, permane indefinitamente all'interno dell'insieme. E stato dimostrato che gli stati ricorrenti di ogni catena possono essere decomposti in maniera unica in insiemi chiusi, all'interno di ciascuno dei quali tutti gli stati comunicano e sono dello stesso periodo (oppure aperiodici) e tutti ricorrenti nulli 0 ricorrenti positivi. La catena in sostanza, si puo suddividere in sottocatene chiuse, e una volta che si sia entrati in una di queste non se ne puo uscire. II caso pili semplice, interessante e adeguato alle applicazioni e che non ci siano sottocatene, e quindi non esistano sottoinsiemi chiusi di statio Cia avviene quando tutti gli stati comunicano, ovvero comunque scelti due stati i e j esistono sempre p~?) > 0 e > O. In questo caso la catena viene detta irriducibile. Una catena irriducibile e aperiodica viene anche chiamata ergodica.
P]:)
4.3 Distribuzioni di equilibria
61
4.3 Distribuzioni di equilibrio Se consideriamo una catena irriducibile e aperiodica vediamo che ogni stato puo essere rivisitato un numero indefinitamente grande di volte, e procedendo indefinitamente la catena continuera a muoversi tra tutti gli stati (perche non ci sono sottoinsiemi chiusi). Abbiamo indicato con p;n) == Pr{Xn == j} Ie probabilita di trovare la catena nello stato j al tempo n, e la irriducibilita implica che da un certo n in poi, tutte queste probabilita sono strettamente positive per ogni j. Ci possiamo domandare allora se queste quantita ammettono limite, ovvero se esiste una distribuzione {1r j} con 1r j > 0 Vj, E 1r j == 1 j
e:
(4.7)
Vj .
La risposta e affermativa: ogni catena irriducibile e aperiodica ammette una distribuzione limite, detta anche distribuzione di equilibrio, per la Quale vale la (4.7). Senza addentrarci per il momento nella dimostrazione, esaminiamo invece il significato di questa proprieta. Se consideriamo le equazioni di Chapman e Kolmogorov (4.4) e prendiamo illimite n ---+ 00, indicandolo con 1rj, otteniamo: k
1rj
==
'"""" (m) ~Pjl 1rl
m == 1,2, ...
l=l
e in forma matriciale, indicando il vettore delle probabilita (1r1, 1r2, ... , 1rk )' SI. 0 tt'rene: 1r
== P'":»
m==I,2, ...
1rj
con
1r
(4.8)
Quindi se le probabilita iniziali della catena sono date dalle 1rj == Pr {Xo == j}, allora la distribuzione di probabilita dello stato rimane uguale a 1r a ogni passo (il che spiega il nome di distribuzione di equilibrio). La (4.8) indica anche che la distribuzione limite 1r e completamente determinata dalla matrice P, cioe dalle probabilita di transizione. Vediamo come determinarla. Se prendiamo m == 1 si puo scrivere:
(P - I) 1r == 0 che costituisce l'equazione caratteristica della matrice P in corrispondenza all'autovalore ,\ == 1. In effetti, la matrice P ha un autovalore uguale a 1: infatti, se ricordiamo che la somma degli elementi di ogni colonna di P euguale aI, ne segue che la somma degli elementi di ogni colonna di P - I e uguale al vettore nullo; pertanto P - I e singolare. In conclusione 1r e autovettore (destro) di P associato all'autovalore ,\ == 1, ovviamente normalizzato in modo che E 1rj == 1. Le particolari caratteristiche della matrice P assicurano (e il j
cosiddetto teorema di Perron e Frobenius) che gli eIementi dell'autovettore
62
4 Catene di Markov
sono tutti positivi, che l'autovalore uguale a 1 e il massimo autovalore, che e semplice (ha molteplicita uno), e che tutti gli altri autovalori sono in modulo minori di uno. Inoltre anche gli elementi della matrice potenza P" hanno un limite preciso: al crescere di n tutte le colonne di P" convergono al vettore di equilibrio 7r: . (n) 1im Pi' == 7ri Vi,j. (4.9) n~oo
J
Questa proprieta si spiega dal punto di vista logico, considerando che dopo un numero sufficiente di passi non ha pili rilevanza 10 stato da cui si e partiti, rna prevalgono Ie caratteristiche della catena che attribuiscono a ciascuno stato la sua probabilita di occupazione. Osserviamo che in realta l'esistenza della distribuzione di equilibrio di stato proprio conseguenza di questa proprieta del limite delle probabilita di transizione. Infatti dalla (4.4) si ottiene:
e
k
p;n) = LP;7)piO) l=1
e prendendo illimite per n
-+ 00: k
k
lim p~n) == "p(O) lim p\n) == "p(O)7r' ==7r' .
Z::
n~oo J
l=1
l
n~oo Jl
Z:: l=1
l
J
(4.10)
J
Dal punto di vista matematico, invece, la proprieta (4.9) si puo spiegare ricorrendo alla rappresentazione spettrale della matrice P. Siano a1, ... , ak gli autovettori (destri) di P (normalizzati in modo che la somma degli elementi di ciascun vettore sia pari a 1), e sia H == (aI, a2, ..., ak) la relativa matrice, e A == diag (AI, A2, ..., Ak) la matrice diagonale degli autovalori, per cui PH == HA == Lj Ajaj. Assumiamo per semplicita che esista l'inversa H- I e ne indichiamo
le righe con b~ per cui H- I == (bl , b2, ..., bk)', si ha pre e postmoltiplicando H- 1 p == AH- 1 , ovvero bjP == Ajbj, quindi bj sono autovettori a sinistra, normalizzati in modo che bjaj == 1. Possiamo scrivere P == H AH- 1 e quindi anche P == Lj Ajajbj. Ricordiamo che Al == 1 e il relativo autovettore destro e 7r, mentre poiche I' P == I' l'autovettore a sinistra associato a Al == 1 e proporzionale a I' e anzi I' realizza la normalizzazione richiesta perche l'7r == L 7rj == 1. Quindi al == at • b1 == 1. Per la matrice potenza e immediato k
che P" == HAn H- 1 == L Ajajbj. Prendendo il limite per n
-+ 00,
poiche
j=1
1 == Al
> IAj I (j == 2, ... , k) otterremo: lim P" == AI a I b~ == 7r I' == (7r, tt, ... , 7r) .
n~oo
Esempio 4.5 (Pioggia a Tel Aviv). Poiche la matrice delle probabilita di transizione e:
4.3 Distribuzioni di equilibrio
63
1 - ;3 a ] [ ;3 I-a
p==
== (1fo, 1f1) puo essere ricavata dal sistema
la distribuzione di equilibrio 1f (P - I)1f == 0 che si scrive:
-;31fO + a1f1 == 0 . { ;31fo - a1f1 == 0 Tenendo conto pero che 1f1 == 1 - 1fo perche
1fo
I: 1fj
==
1fo + 1f1
== 1 otteniamo:
;3 1f1 == a +;3 .
a
==--
a+;3
Si puo facilmente ricavare che gli autovalori di P sono A1 == 1 e A2 == 1 a - ;3. In corrispondenza a A2 == 1 - a - ;3 l'autovettore e proporzionale a (1, -1) I (come si vede solo per A == 1 e assicurato che gli elementi siano positivi). Quindi possiamo scrivere:
H ==
[ai
f3 1 ] -1 a+13
H- 1 -
-
[1a+13 - a~13 1]
[1
0 ]
A- 01-a-;3
13
e si verifica facilmente P == H AH- 1. Le matrici di transizione in n passi sono date da:
Pn
[a~13 1] a~f3 -1
;3t ] [1 a~f3 == _ 1 [aa] + (l-a-;3t [{3 -a] .
=
HAnH-1
a
+ f3
=
f3 f3
a
[1 0 0 (1 - a -
+ f3
-
1] a~f3
-(3 a
Poiche 11 - a - 131 < 1 la seconda matrice tende ad annullarsi per n lim n-too
tr: == [a/ (a + 13) a/ (a + 13)] 13/ (a + 13) 13/ (a + 13)
==
---+ 00
e:
[1f O 1f0] 1f1 1f1 .
Esempio 4.6 (Scommesse e la rovina del giocatore). Se riprendiamo l'esempio 4.2 del paragrafo precedente vediamo che la catena descritta non e irriducibile, poiche gli stati 0 (bancarotta) e 6 (raggiungimento dello scopo) sono assorbenti, quindi costituiscono un sottoinsieme chiuso. E evidente che essendo positiva la probabilita di raggiungere questi due stati, la probabilita di rimanere fuori, cioe di restare tra gli stati 1 e 5, durante n passi tende a zero quando n tende all'infinito, quindi l'assorbimento e certo. II calcolo della probabilita di assorbimento nei vari stati e in diverse situazioni si puo ottenere basandosi su una relazione ricorsiva che coinvolge le probabilita di primo passaggio nello stato assorbente. Senza entrare nei particolari (per i quali si veda ad es. Karlin (1966), p.72), possiamo fornire i seguenti risultati. Se q e la probabilita
64
4 Catene di Markov
di vincere e p == 1 - q, si comincia con r euro, e si termina il gioco quando si raggiunge il capitale m, allora la probabilita di rovina (assorbimento nello stato zero) e la seguente: r m
1--,
(4.11)
p==q.
Se supponiamo che il gioco non abbia un confine superiore, e cioe che 10 scommettitore continui indefinitamente a giocare, la probabilita di rovina si ottiene prendendo il limite per m ~ 00, e risulta pari a 1 se p 2: q, cioe q ~ 1/2, e pari a (p/q)T se q > 1/2. Ne concludiamo che anche nel caso di un gioco equo (q == 1/2) il protrarsi indefinito della scommessa porta alla rovina certa. Esempio 4.7 (Passeggiate con barriere semi-rifiettenti). Consideriamo una semplice catena a tre stati 0,1 e 2, con barriera inferiore in e superiore in 2. La probabilita di passare nello stato superiore e q, quella di passare in uno stato inferiore e p. Se la catena arriva in uno stato barriera, la discesa (0 salita) viene impedita e la catena rimane ferma nello stato barriera, oppure si muove in direzione opposta. Percio se si e nello stato ci si spostera in 1 con probabilita q, e si rimarra in con probabilita 1 - q; analogamente avviene con la barriera riflettente superiore. La matrice di transizione e la seguente:
°
°
°
p==
pO] 1-q q I-p-q P [ ° q 1-p
.
Questa catena e irriducibile e aperiodica e quindi ammette distribuzione di equilibrio. Per ottenerla possiamo risolvere il sistema (1- P)1r == che risulta:
°
0]
q P-p -q + q -p [ -q P
°
Tenendo conto del vincolo
1rl
+ 1r2 + 1r3
p2
1ro
== - - - - p2 + q2 + pq
1rl
O] [1r1rl 1r2
[0]° °
== 1 si ottiene facilmente:
pq
== - - - - p2 + q2 + pq
Notiamo che se p == q cioe la probabilita di muoversi e uguale nelle due direzioni, i tre stati hanno la stessa probabilita limite pari a 1/3, e cia indipendentemente dalla probabilita di restare fermi.
Esempio 4.8 (La diga). Le catene di Markov sono state adoperate per schematizzare il comportamento dei bacini artificiali. Lo stato della catena indica la misura del contenuto del bacino a intervalli fissi (ad esempio un giorno, 0
4.3 Distribuziani di equilibria
65
un mese); tra una misurazione e l'altra si suppone che vi sia un affiusso di acqua pari al volume j con probabilita qj (j == 0,1,2, ..., m), L qj == 1 e un deflusso costante pari a l , se la diga non e vuota (altrimenti nessun deflusso). Illivello massimo e m, e se l'affiusso supera m viene disperso. La matrice delle probabilita di transizione e del tipo: 1
0 0 1 2 3
qo ql q2 q3
qo ql q2 q3
3 0 0 qo ql
2 0
qo ql q2
... m-1
m 0 0 0 0
0 0 0 0
m-1 qm-l qm-l qm-2 qm-3 ... ql qo m qm qm q{ q2 q:n-2 q:n-l dove si e posta q; == 1 - qo - ql - ... - qm-j-l == qm + qm-l + ... + qm-j· Anche qui esiste una distribuzione di equilibrio, anche se ricavarla e molto pili difficile. In questo caso possono essere utilizzate Ie funzioni generatrici delle probabilita. Definiamo:
L qj zj
L 00
00
Q (z) ==
II (z)
==
JrjZ
j
j=O
j=O
e per semplificare il problema supponiamo che non vi sia limite superiore alla capacita massima. La relazione di equilibrio Pit == Jr puo essere cost scritta:
(si veda ad esempio Cox e Miller (1965), p. 115) e moltiplicandola per sommando rispetto a k si ottiene: 1 JroQ (z) - -JroQ (z)
z
da cui:
zk
e
1
+ -Q (z) II (z) == II (z) z
II (z) = JroQ (z) (z - 1) . z - Q (z)
Se poniamo:
C(z)= l~Q(z) 1-z da cui:
1_C(z)=Q(z)-z 1-z possiamo scrivere:
_ JroQ(z) _ ~ j II (z) - 1 _ C (z) - JroQ (z) L.. C (z) . J=O
(4.12)
66
4 Catene di Markov
Ora:
C (1) = lim 1 - Q (z) = Q' (1) = a z-*l1- z
(affiusso medio)
e quindi, dato che Q(I) ==
2: j
qj == 1, si conclude che:
lim II (z) ==
L
Kj
00
z-*l-
< CX)
se e solo se
a
j=O
cioe il sistema eergodico soltanto se l'affiusso medio KO deve essere tale che II (1) == 1 quindi: KO
.
II(z)
e minore di 1. La quantita
.
== lim - Q ( ) lim (1 - C (z)) == 1 - a . z-*l-
Z
(4.13)
z-*l-
Fissando Ie caratteristiche delle distribuzioni di probabilita dell'affiusso, e sostituendo la relativa funzione generatrice di probabilita nella (4.12), e tenendo conto della (4.13), si ottiene la funzione generatrice delle probabilita della distribuzione di equilibrio. Supponiamo ad esempio che l'affiusso sia uguale a zero con probabilita p, e pari a 2 con probabilita q == 1 - p. L'affiusso medio e pari a 2q e quindi si supporra q < 0.5, percio p > 0.5, per la crgodicita. Poniamo KO == 1 - 2q == p - q. La funzione generatrice delle probabilita dell'affiusso e:
e quindi: _
II ( z ) -
II denominatore
II(z)
ez -
=]fO
KO
(p+ qz2) (z -1) 2. Z - P - qz
p - qz2 == (z - 1) (p - zq) percio:
p+qz 2
p 1 - z (q/ p)
= ]fo
p
00 j (p+ qz 2) Lz
()j
j =0
fJ..
p
()j + L - z J
q , q 00 ==KO+ZKO-+LKOZJ P j=2 P q
== KO + ZKo- + P
00
q
L zJ j=2 { 00.
'
J
KO ( - )
q
00
P
j=2
'KO
== KO + ZKo- + Lz J -
P
P
(
q
-
P
)j-1
KO
'+2
j=O P
( q q -
)j
P
KO
q
P
P
+ -q (-)
, 2}
J-
==
•
In conclusione la distribuzione di equilibria ponendo q/p == r
e la seguente:
4.4 Processi non markoviani
Pr {X
==
O}
==
(p - q) ==
67
1-r 1+r 1-r
-
Pr{X=l}=(p-q)qjp= l+rr
Pr{X=k}=P~q(~)k = C~r)rk,
k=2,3, ...
L'andamento fondamentale delle probabilita e geometrico rna e alterato nella probabilita di zero e di 1 (che sono inferiori). Ad esempio se P == 2/3 si ottiene Pr{X == O} == 1/3, Pr{X == 1} == 1/6 e Pr{X == k} == 1/2 k,k == 2, .... Si puo ottenere facilmente un risultato in modo analogo (ed e lasciato come esercizio) quando l'affiusso puo assumere i tre valori 0,1 e 2 con probabilita Po, PI e (1 - Po - PI), purche naturalmente l'affiusso medio sia inferiore a uno (e quindi bisogna imporre la condizione Po > 1 - Po - PI). Una impostazione del tutto simile e utile come schema aleatorio per l'analisi delle file di attesa, cioc quando si vuole studiare la distribuzione di una risorsa limitata e che richiede un certo tempo di espletamento, tra pili richieste che pervengono in sequenza. Esempio tipico e la richiesta di un determinato servizio (ad esempio pagamenti 0 riscossioni) a uno sportello da parte di un insieme di clienti che arrivano in tempi successivi. Consideriamo uno sportello con un solo punto di servizio, e supponiamo che il tempo necessario a servire un cliente sia deterministico e pari a uno. Invece gli arrivi allo sportello avvengono indipendentemente l'uno dall'altro, e il numero di arrivi nell'unita di tempo e una variabile aleatoria. Se consideriamo la grandezza "numero di clienti in attesa" essa descrive una catena di Markov analoga a quella che abbiamo preso in considerazione, e i risultati sono analoghi.
4.4 Processi non markoviani Finora abbiamo esaminato processi in cui valeva la proprieta markoviana, essenziale per schematizzare la situazione attraverso una catena. Naturalmente spesso la proprieta di Markov non e soddisfatta, anzi il valere di questa proprieta va considerato pili un'eccezione che la regola, in quanto anche processi di struttura molto semplice non la soddisfano come mostrato dall'esempio seguente.
Esempio 4.9. Consideriamo una collezione di variabili indipendenti con distribuzione normale {et,t == 1,2, ... }, e costruiamo un processo prendendo semplicemente la differenza tra due valori contigui:
Data la normalita ciascuna X n e dipendente cia en e cia en-I mentre e indipendente da tutte le altre variabili del processo {et}. Inoltre, poiche
68
4 Catene di Markov
X t - 1 == et-l - et-2 e quindi et-l == X t relazione ricorsiva per il processo {Xt } :
1
+ et-2,
sostituendo si ottiene una
Ne segue che la distribuzione di X; condizionata a X t - 1 == x e uguale a quella di -x + et - et-2, e quindi non e indipendente da X t - 2 (perche questo non e indipendente da et-2). Se decidiamo di condizionare anche a X t - 2 , dato che in modo analogo al precedente si ottiene et-2 == X t - 2 + et-3, ne segue che
e quindi la distribuzione di X; condizionata a X t - 1 == x, X t - 2 == y coincide con quella di -x - y + et - et-3, che non e indipendente da X t - 3 , e cosl via. Pertanto questo semplice processo non e markoviano. Esiste pero, in alcuni casi, la possibilita di riportarsi a una catena di Markov definendo in modo diverso gli stati, cioe allargando il concetto di stato fino a includere piu valori consecutivi del processo. Un esempio chiarira meglio questa possibilita. Esempio 4.10. Consideriamo a tempi equidistanziati un'apparecchiatura che puo essere funzionante (stato 1) oppure in avaria (stato 0) supponendo che a ogni passo la probabilita di passare dal funzionamento all'avaria sia p; se la macchina e in avaria, il tempo di riparazione e aleatorio e quindi si assume che la probabilita che venga riparata in tempo per il passo successivo sia (3. II processo forma quindi una catena con matrice di transizione:
o o 1 - {3 1
{3
1 P 1- p
Ora, supponiamo invece che il tempo d'intervento sia comunque superiore a un passo, e che quindi quando l'apparecchiatura va in avaria rcstera sicuramente in avaria anche al passo successivo, mentre la probabilita che venga riparata prima del secondo passo resta (3. La proprieta di Markov non e piu valida poiche: Pr {X n + 1 == 0 IX n == 0, X n -
1
==
I} == 1
Pr {X n + 1 == 0 IX n == 0, X n -
1
==
O}
== 1 - {3
e quindi la distribuzione di X n + 1 dipende non solo da X n rna anche da X n - 1 . Proviamo allora a ridefinire il concetto di stato, considerando come stati lc cop pie di valori assunti dal processo ai passi n e n - 1. Qui otteniamo quattro stati al passo n: 11
(X n
==
1, X n -
1
==
10
(X n == 1, X n -
1
== 0)
1)
4.4 Processi non markoviani
01
(X n
Xn-
1
== 1)
00
(X n == 0, X n -
1
== 0)
== 0,
69
Con questa schematizzazione, poiche 10 stato contiene informazioni relative anche ai passi precedenti, si recupera la proprieta markoviana, cioc il processo definito dai quattro stati precedenti diventa una catena di Markov con matrice di transizione seguente: a 1 da 00 01 10 11
---+
11 00 01 10 1 - j3 1 0 0 0 0 p P j3 0 0 0 0 1-pl-p 0
L'idea di ampliare 10 spazio degli stati ha una validita generale e puo essere utilizzata efficacemente se le distribuzioni condizionate dipendono da un numero finito di valori precedenti. In altri termini, se la probabilita dei valori assunti da X n dipende dai valori precedenti fino a X n - m , si puo considerare il processo (multivariato) Yn == (X n , X n - 1 , X n - 2 , ... , X n - m + 1 ) anch'esso discreto se X n e discreto (anche se il numero degli stati cresce esponenzialmente con m). Poiche:
il processo {Yn } descrive una catena di Markov. Questa tecnica viene usata spesso anche nel caso di processi a parametro discreto e valori continui, perche permette di descrivere pili facilmente anche modelli rappresentativi e di sfruttare la proprieta di Markov, e ha portato a un importante capitolo della modellistica per serie temporali che viene chiamato dei modelli nello spazio degli stati (state-space models), e verra introdotto sommariamente nella parte dedicata alla previsione.
5 Processi stazionari
Si illustrano le caratteristiche dei processi aleatori a valori continui e parametro discreto, con particolare riguardo a quelli stazionari, affrontando sia l'analisi nel dominio temporale sia quella nel dominio frequenziale, e accennando allo studio delle relazioni tra due processi.
5.1 Introduzione Consideriamo in questo capitolo i processi aleatori con spazio del parametro discreto, coincidente per comodita con l'insieme dei numeri naturali, e a valori continui, cioe costituito da variabili aleatorie che possiedono distribuzioni di probabilita assolutamente continue. In realta la forma delle distribuzioni di probabilita non sara l'elemento centrale di interesse (a parte la distinzione se essa e gaussiana oppure no), mentre I'analisi sara centrata essenzialmente sui momenti (e principalmente sui momenti secondi). Siamo nel campo propriamente detto dell'analisi delle serie temporali, e la classe di processi aleatori a cui si fa costante riferimento e quella dei processi stazionari, 0 pili precisamente dei processi stazionari al secondo ordine, caratterizzati dalle proprieta:
== J1 Cov (X s , Xt) == r (s - t) E (Xt )
costante per ogni t dipende solo dalla differenza
Is - tl .
Per eliminare casi patologici e degeneri e sveltire la trattazione, supporremo sempre che i momenti di ordine primo e secondo siano finiti. La motivazione del considerare processi stazionari, dal punto di vista logico, risiede nel fatto che assumiamo una certa omogeneita di comportamento nel fenomeno che si studia: questa condizione e essenziale per poter sperare di prevedere il futuro traendo insegnamento dal passato. Rinunciare a ipotizzare che il comportamento futuro di un fenomeno rispecchi Ie caratteristiche
72
5 Processi stazionari
Fig. 5.1. Serie con trend
fondamentali che ha mostrato nel passato rende inutile la conoscenza di quest'ultimo e contraddice l'assioma su cui si basa la previsione statistica. E vero che la ipotesi di stazionarieta (pur debole solo fino al secondo ordine ) impone al processo una rigidita nel tempo che pochi fenomeni naturali, rna specialmente socio-economici, manifestano: la media sempre uguale, la variabilita sempre uguale. Sono esclusi pertanto tutti gli andamenti tendenziali crescenti o decrescenti (il cosiddetto trend) e anche fenomeni di aumento della variabilita, caratteristiche che invece incontriamo frequentemente. Ma a questo inconveniente si ovvia frapponendo logicamente tra i dati e il processo aleatorio una operazione di trasformazione statistica, costruendo cioe delle serie trasformate che evidenzino le caratteristiche di omogeneita tipiche di un processo stazionario. Approfondiremo la questione (non esente da controversie) nei paragrafi successivi, rna per chiarire quanto affermato e bene anticipare un semplice esempio. Se abbiamo rilevato una serie che presenta un andamento crescente regolare come quello della Fig. 5.1, e evidentemente difficile pensarla come realizzazione di un processo aleatorio a media costante: qui sembra che ad essere pili 0 meno costante da un istante all'altro sia proprio l'incremento subito dalla serie. Cia suggerisce di considerare proprio la serie dei dati relativi agli incrementi tra un dato e il successivo, detta anche serie delle differenze: Yt == Xt - Xt-l .
(5.1 )
Se noi disegniamo il grafico dei dati differenza Yt, riportato nella Fig. 5.2, vediamo che qui la stabilita e una caratteristica direttamente della media: quindi una semplice trasformazione dei dati (5.1) ci ha portato a una nuova serie Yt che si puo pensare senza perplessita come generata da un processo stazionario. Cercheremo allora di studiare le proprieta del processo stazionario associato alla Yt invece che alla Xt, purche poi siamo in grado di costruirci
5.1 Introduzione
73
4.t
t.4
.6
-l.t
-3.0
--...-...-_................_--........----------.......
.........
t40
-.....--------------...-...-_~ t64
300
Fig. 5.2. Serie della Fig. 5.1 differenziata
strumenti teorici che ci facciano risalire dalle proprieta della Yt a quelle della Xt . Uno strumento di questo tipo e costituito dalla teoria del filtraggio che vedremo pili avanti in questo capitolo. Lo sforzo di far rientrare nell'ambito dei processi stazionari anche fenomeni che apparentemente non 10 sono, anche a costo d'approssimazioni, si spiega con i grossi vantaggi che la stazionarieta comporta sotto il profilo metodologico. I processi stazionari sono caratterizzati dalla funzione di autocovarianza (0 autocorrelazione) che e costituita da una successione numerabile di valori, e questo ne permette una rappresentazione su uno spazio di Hilbert (in termini irnprecisi rna espressivi una generalizzazione a infinite dirnensioni di uno spazio metrico) e l'estensione di tutta una serie di risultati di natura geometrica. Di particolare rilievo la possibilita di estendere l'analisi di Fourier ai processi aleatori stazionari. Si tratta di interpretare il processo come la sovrapposizione additiva di componenti cicliche sinusoidali dotate di diversa periodicita, e ciascuna moltiplicata per un coefficiente aleatorio. L' analisi della diversa rilevanza delle componenti a seconda della loro periodicita (0 come anche si dice, della loro frequenza) viene chiamata analisi spettrale. Questo tipo di sviluppi non e naturalmente indipendente dalle caratteristiche dei momenti secondi, rna c'e una relazione assai stretta (come vedremo in seguito). Nello studio dei processi stazionari, si usa individuare una bipartizione in due campi di interesse, chiamati domini: il dominio dei tempi (0 temporale) e il dominio delle frequenze (0 frequenziale). Siamo nel dominio temporale quando si studiano le caratteristiche del processo in quanto successione di variabili nel tempo, e si utilizzano strumenti riconducibili alle autocovarianze; siamo nel dominio frequenziale quando ci si riferisce alle proprieta delle diverse componenti cicliche che compongono il processo e si usano rnetodi tipici dell'analisi spettrale. Illustreremo separatamente i principali sviluppi relativi
74
5 Processi stazionari
ai due domini nei prossimi due paragrafi, e nel successivo chiariremo i legami tra Ie principali grandezze caratteristiche dei due domini. Per la comprensione dell'analisi nel dominio delle frequenze e indispensabile la conoscenza dei fondamenti dell'analisi di Fourier (a volte chiamata analisi armonica) che sono riportati nell'Appendice A.
5.2 Analisi nel dominio temporale Lo studio nel dominio dei tempi corrisponde all'angolo visuale pili naturale nell'analisi di un processo stazionario, poiche parte direttamente dai dati e dai lora momenti. Abbiamo visto come la stazionarieta in senso deb ole al secondo ordine implichi che la media delle variabili X, sia uguale per ogni t: E (Xt ) == u. Quindi J-l costituisce un termine costante e invariante rispetto al parametro. Per semplificare le formule che deriveremo, sara spesso como do eliminare la media, supponendo che sia J-l == 0, 0, in alternativa, considerando, invece del processo Xt, il processo degli scarti dalla media It == X; - u. Le conclusioni che troveremo relativamente ai momenti centrali valgono evidentemente per X, come per It, rna spesso l'eliminazione della media u rende gli sviluppi pili semplici. II nucleo dell'analisi risiede quindi nei momenti secondi, che vengono sintetizzati dalla funzione di autocovarianza:
che come abbiamo gia notato, in conseguenza della ipotesi di stazionarieta dipende solo dalla differenza dei parametri delle due variabili covariate. Come gia anticipato, per coerenza definitoria indicheremo con ,(0) la varianza del processo, e le proprieta della operazione di covarianza implicano:
,(h)==,(-h),
I, (h)1 <,
(0)
Vh intero.
(5.2)
Analogamente al caso bivariato, si ottiene un indice relativo passando alla correlazione tra X, e X t + h , e definendo cost la funzione di autocorrelazione
r(h):
, (h) r (h) = Correl (Xt , X t +h ) = 'Y (0)
che eredita dalla (5.2) le proprieta:
r(h) == r( -h)
Ir (h)1 < 1 .
Le funzioni di autocovarianza e autocorrelazione godono di una ulteriore proprieta: sono funzioni definite positive, cioe per ogni naturale n e comunque si scelgano n naturali diversi tra lora t i, t2, ... , t.; e n numeri reali Cl, C2, ... , Cn non tutti nulli, si ha:
5.2 Analisi nel dominio temporale n
75
n
LLCiCj1(ti - tj) > O.
(5.3)
i=l j=l
La proprieta si dimostra subito notando che la (5.3) non e altro che la varianza della variabile aleatoria clX (tl) + C2X (t2) + ... + cnX (t n), che e sempre maggiore di zero (avendo escluso che Ie costanti c; sono tutte nulle). Se vale solo il ~ invece del maggiore si dice che la funzione e semidefinita positiva. II nome ci riporta all'analoga proprieta delle matrici, e in realta esiste un motivo per questa coincidenza. Se consideriamo un tratto finito del processo, ovvero una variabile aleatoria multipla a n dimensioni formata da elementi contigui del processo, ad esempio (Xl, X 2 , ... , X n ) , possiamo esaminare la sua matrice di dispersione. All'incrocio tra riga i e colonna j troveremo la covarianza tra Xi e X j che si indica quindi con 1(i - j). Percio la matrice e:
r(n)
==
1 (0) 1 (1) 1 (2)
1 (1) 1 (0)
1 (1)
1 (2) 1 (1) 1 (0)
···1(n-1) ···1(n-2) ···1(n-3)
1(n-1)1(n-2)1(n-3) ...
1(0)
La matrice T (n) (ovviamente simmetrica come tutte le matrici di dispersione) ha la caratteristica che l'elemento (i, j), essendo uguale a 1(i - j), dipende solo dalla differenza in valore assoluto tra indice di riga i e indice di colonna j. Quindi ogni diagonale e formata da elementi tutti uguali: sulla diagonale principale compaiono tutti 1(0), sulle prime subordinate inferiore e superiore tutti gli elementi uguali a 1(1), sulle successive tutti gli elementi pari a 1(2) e cosi via. Le matrici con queste caratteristiche vengono chiamate matrici di Toeplitz e hanno delle proprieta molto particolari (che pero non avremo la possibilita di approfondire: si veda ad esempio Brillinger, 1981). La matrice r(n), essendo di dispersione, e ovviamente una matrice definita positiva: proprieta che viene espressa proprio dalla (5.3), che rappresenta infatti una forma quadratica costruita con il vettore (Cl' C2, ..., cn ) e la matrice di dispersione della variabile multipla n-dimensionale (X h'Xt 2 , ... ,Xt n ) . Per ogni h > 0 possiamo definire la matrice analoga alla precedente di dimensione h, che prende il nome di matrice di autocovarianza, e l'analoga matrice di autocorrelazione:
R(h) ==
1
r (1)
r (1) r (2)
1
r (2) r (1)
r (1)
1
... r(h-1) ... r (h - 2) ... r (h - 3)
r (h - 1) r (h - 2) r (h - 3) ...
1
Le matrici r(h) e R(h) sono di Toeplitz per ogni h, quindi sono simmetriche (rispetto a tutte e due le diagonali) e definite positive, quindi il determinante e maggiore di zero per ogni h. Inoltre si puo dimostrare che il determinante
76
5 Processi stazionari 1. 00
.50
.oo~
......,
...-
.......
-0.50
-1. 00
...........-...-......_ ....._ ....
.....-
--...-_~
......_ ......_ ......_ .-...---.l..... ~4
36
Fig. 5.3. Esempio di correlogramma
della matrice di autocorrelazione R( h) e minore 0 uguale a uno, e quello della matrice di autocovarianza r(h) e minore 0 uguale a ,(O)h. Una ulteriore importante proprieta delle matrici di questo tipo, che si riferisce allo spettro, verra discussa nel paragrafo 5.4. Le caratteristiche dei momenti secondi vengono spesso sintetizzate graficamente attraverso il correlogramma, che e il grafico della funzione di autocorrelazione r(h) in funzione di h, disegnato solo per valori positivi dell'argomento (in quanto e una funzione simmetrica): i punti sono generalmente congiunti all'asse delle ascisse mediante segmenti verticali, e naturalmente l'intercetta e r(O) == 1. Un esempio e in Fig. 5.3 dove e riportato il caratteristico andamento decrescente verso zero in modulo dell'autocorrelazione (il motivo di questo andamento verra chiarito meglio in seguito, quando parleremo di ergodicitaj.Uno sguardo al correlogramma permette di rendersi subito conto della forza dell'associazione lineare tra le variabili del processo, a seconda della lunghezza dei tratti verticali: un processo a variabili incorrelate, caratterizzato quindi da l h == O r(h)= { Oh~O denota assenza di legami lineari tra le variabili e il suo correlogramma non ha segmenti verticali, mentre processi con forte autocorrelazione presentano invece (almeno per qualche h) segmenti molto lunghi. La ascissa h, che denota 10 sfasamento temporale tra le due variabili di cui si misura la correlazione X, e Xt+h, viene comunemente detto ritardo 0 lag. II correlogramma fornisce informazioni anche sul modo in cui si esplica la dipendenza lineare: a ogni tipologia di andamento caratteristico del processo corrisponde uno schema tipico d'andamento del correlogramma. Per esempio, se la serie tende a oscillare attorno
5.2 Analisi nel dominio temporale
Fig. 5.4. Serie simulate: (a) processo AR(1),
77
> 0; (c)
" o.
"
I
·r I
J I
I
1 ,
" "
0
'III'
"
I,
' II'
,I
" " " " " " " "
(a)
(b)
(c)
F ig. 5.5. Correlogrammi stimati per le serie di fig. 5.4 a un valore alte rnando a un dato superiore uno inferiore come in Fig. 5.4a , le sue autocorrelazioni ai ritardi pari te nderan no a essere positi ve e quelle ai ritardi dispari negati ve, form ando un anda mento alte rnato del correlogra mma (Fig. 5.5a) . Se invece la ser ie si presenta con un andamento pili uniforme e tende a muoversi con oscillazioni pili ampie come in F ig. 5.4b , allora valori vicini tendera nno a essere concordanti , e quindi le autocorrelazioni dei ritar di iniziali saranno positi ve e pro nunciate (Fig. 5.5b) ; un altro esempio rip ortato in Fig. 5.4c e una serie che presenta una tendenza a comportamento oscillante periodico di periodo T : in tal caso i valori te ndono a ripetersi pressappoco simili dopo T ist anti , e quindi Ie autocorre lazioni relative a lags multipli di T sara nno positive, ment re quelle ai ritardi interm edi del tipo kT + T / 2 tenderanno a essere negati ve descrivendo un anda mento del t ipo rip ortato nella Fig. 5.5c. Vogliamo infine sottolineare che l'an alisi nel domini o tempora le come e present ata qui (e in realt a anche quella nel dominio delle frequenze) si basa esclusivamente sulle propriet a dei momenti del secondo ordine del processo. Quindi, se applichiamo questi st ru ment i a due pro cessi che abbiano la st essa funzione di autocorre lazione, otterre mo i medesimi risultati , indipend ent emente dalla natura della dip end enza tra le variabili . Cia contribuisce a spiegar e la rilevanza che viene attribuita ai processi stocastici gaussiani, le cui distr ibuzioni multiple, cioe, sono norm ali: nei pro cessi gaussiani la dip end enza e linear e, ed e quindi caratterizzata dalle autocorrelazioni (due variabili norma li incorre late sono indipendenti ), e inoltre la dist ribuzione di probabili ta mult ipia di un processo gaussiano e indi vidu at a completament e da lla funzione di autocovarianza (oltre che ovviamente dalle medie). Si cap isce percio il
78
5 Processi stazionari
motivo per cui, molto spesso, si assume la norrnalita del processo, per ottenere risultati che verranno poi considerati approssimativamente validi anche per processi non gaussiani, almeno per quanto riguarda i momenti secondi, ovvero I'analisi della dipendenza lineare.
5.3 Analisi nel dominio frequenziale L' analisi spettrale di un processo stazionario si basa sulla estensione al quadro di riferimento probabilistico dell'analisi di Fourier, sviluppata a partire dal 18mo secolo per funzioni deterministiche. I concetti fondamentali di questa analisi (insieme ad alcune nozioni basilari di trigonometria) sono riportati nella Appendice A, e la loro conoscenza costituisce prerequisito indispensabile per la comprensione di quanto verra esposto in questo paragrafo e nei successivi. Cominciamo con l'estendere l'analisi di Fourier all'analogo aleatorio di una funzione periodica, chiamato processo circolare, ottenuto prendendo un tratto di variabili contigue, per esempio Xl, X 2 , ... , X N da un processo stazionario, e definendo le successive e precedenti nel modo seguente:
X, == X,
mod (N)
dove t mod (N) e il resto della divisione di t per N. In sostanza allo scorrere del tempo si ripetono ciclicamente le variabili (Xl, X 2 , ... , X N ) . Poiche le variabili dalla 1 alla N provengono da un processo stazionario con media J-L, che supporremo zero per semplicita, e funzione di autocovarianza ')'(.) abbiamo:
== 0 Var (X t ) == ')' (0) Cov (X s , X s + h ) == ')' (h) ')'(h + kN) == ')' (h) E (Xt )
Vt h == 1,2,
,N - 1
k == 1,2, .
II ragionamento che porta agli sviluppi di Fourier puo essere ripetuto in maniera formalmente analoga applicandolo alle variabili aleatorie, ottenendo, in corrispondenza con le (A.5) e (A.6), la rappresentazione del processo: N/2
X t --
'""""' L-t
Z je i 27l" jt N
(5.4)
j=-N/2
dove le variabili Zj sono definite in funzione lineare del processo: j
== 1, ... , N .
Esse hanno media nulla e sono incorrelate, infatti:
(5.5)
5.3 Analisi nel dominio frequenziale
79
Notiamo che per come abbiamo costruito il processo circolare, sia la funzione sia l'esponenziale all'ultimo termine sono periodici di periodo N, percio possiamo sostituire alla somma rispetto a s una somma rispetto ad h == t - s da 1 aN:
r
N
Cov (Zj, Zk) =
~2 { ; exp { -i (j -
k)
~ t} ~ 'Y (h) exp {i~jh }
== 0, j i= k per la proprieta di ortogonalita delle esponenziali complesse riportate nell' Appendice A, mentre:
Anche la funzione di autocovarianza si puo esprimere in funzione delle caratteristiche delle Zj usando la (5.4):
r (h) == Cov (Xl, X t + h ) == ~2
2
~2
L L
COV(Zj,Zk)exP{i;[jt-k(t+h)]}=
=
2t
=
LCT] exp { -i~jh}
j=-N/2 k=-N/2
Var (Zj) exp {
-i~jh} + ~ Cov tz; Zk) exp {i~ [(j -
k) t - kh]}
.
J
(5.6)
Le formule ammettono anche qui una forma reale corrispondente alla (A.3):
x, =
L [a j cos (~jt) + bj sin (~jt)] J
dove le aj e bj sono variabili aleatorie, che permette una facile interpretazione: il processo circolare {Xt } si puo pensare come la combinazione lineare aleatoria di sinusoidi con frequenza pari a ~ e multipli. Ogni sinusoide viene moltiplicato per una variabile aleatoria (l'ampiezza) a media nulla e varianza
80
5 Processi stazionari
differente (a; per la frequenza ~ j). Le sinusoidi sono tra loro incorrelate, e la varianza del processo:
,(O)==La; j
e data dalla somma delle varianze delle singole componenti cicliche. Ne risulta una decomposizione della variabilita del processo nel contributo apportato dalle diverse componenti periodiche che 10 compongono additivamente, resa possibile dal fatto che esse sono incorrelate. I risultati per processi non circolari sono generalizzazioni dei precedenti, paralleli a quelli che portano agli integrali di Fourier. Verranno qui forniti senza dimostrazioni (che sono piuttosto impegnative) partendo da una particolare forma che i risultati qui ottenuti assumono se espressi nella forma consueta della teoria della misura. Poniamo Aj == ~ j e:
F(A) ==
L
a;.
A
Allora possiamo scrivere Ie (5.4) e (5.5) come integrali di Lebesgue-Stieltjes:
'Y (h) =
aJ
I:
(5.7)
e-i>.fdF (,\) .
(5.8)
Poiche F ('if) == L.: == ,(0), la misura F distribuisce la varianza del processo sull'asse delle frequenze, attribuendo aIle N frequenze Aj la loro parte di spiegazione della varianza; la F e una misura totalmente discreta (a salti), come anche totalmente discreta e la Z (A), con la differenza che mentre la (5.8) e un integrale ordinario che definisce una funzione ,(h), la (5.7) e un ente aleatorio (e chiamato integrale stocastico) ed e da intendersi come una uguaglianza che assume validita per ogni realizzazione del processo, se le Z (A) sono calcolate in funzione delle {Xt } . Si noti che abbiamo adottato la convenzione di definire la misura continua a destra, quindi F(A)== F(A+) (1). L' analisi spettrale di un processo stazionario si basa essenzialmente sui seguenti due teoremi detti di rappresentazione spettrale di un processo stazionario.
a;
Teorema 5.1 (di Cramer e Kolmogorov). Per ogni processo stazionario {X t } esiste un processo aleatorio continuo {Z (A)} definito per per cui vale l'uguaglianza in media quadratica:
-1r
<
A
<
1r
1 Indichiamo con f(x-) illimite sinistro di una funzione f: lim f(x - E) == f(x-). Analogamente con f(x+) si indica illimite destro (per
ElO
E
1 0).
5.3 Analisi nel dominio frequenziale
e inoltre il processo {Z(A)}
e a media nulla e a incrementi indipendenti: Al ::;:. A2 > A3 ::;:. A4
E { [Z (AI) - Z (>\2)][Z (A3) - Z (A4)] } = 0 E
IZ (A)
81
- Z (w)1
2
==
F (A) - F (w)
A>
W .
II teorema di rappresentazione spettrale e d'importanza fondamentale per la teoria dei processi stazionari, ed e stato molto studiato. Priestley (1981), a cui si rimanda, illustra ben quattro approcci alternativi per la dimostrazione. II processo {Z (A)} (estensione delle variabili z, precedenti) e a valori complessi, rna considerando Ie parti reale e immaginaria si puo ottenere una rappresentazione in termini reali:
x, -
1 7r
J.L =
COS
»u: (A) +
1 7r
sin AtdV (A)
e anche i processi {U(A)} e {V(A)} si dimostrano a incrementi indipendenti. Inoltre le varianze degli incrementi risultano: E [U (A) - U (w)]2 == E [V (A) - V (W)]2 == 2 [F (A) - F (w)]
dove si
A>W
e posta F( -1r) == 0, e risulta anche:
Si noti che la (5.9) e un integrale stocastico, cioe una operazione di passaggio allimite su variabili aleatorie, e quindi la uguaglianza e da intendersi nel senso che il quadrato della differenza tra primo e secondo membro ha media pari a zero. Teorema 5.2 (di Wold, detto anche di Wiener e Kintchine). La Junzione di autocovarianza r (h) di un processo stazionario pUG essere scritta come un integrale di Lebesgue-Stieltjes: '"Y (h)
=
in una misura F(A) con F(-1r)
i:
== 0,
e-i>.hdF (A)
F(1r)
==
(5.10)
Var{X t } .
Si puo mostrare che la tesi (5.10) puo essere vista come conseguenza del teorema di Cramer e Kolmogorov. A tal fine e utile riscrivere lc proprieta di secondo ordine del processo Z(A) in questa modo, dove dZ(A) sta per Z(A) -
Z (A-):
E {dZ (A) dZ (w)}
=
dF (A)
==0
A==W
A#- w.
82
5 Processi stazionari
Con questa notazione, dalla (5.9) otteniamo facilmente: "'I (h)
i:i:
== E (X t =E
-
JJ;) (X t + h
-
JJ;) ==
exp{iiA-i(i+h)w}dZ(A)dZ(w) =
i:
e-ih>'dF(A).
Eseguendo 10 stesso tipo di sviluppi sulla rappresentazione del processo { X t } in termini reali, si ottiene una analoga rappresentazione reale delle autocovarianze:
217'0 cos(Ah)dF (A) .
'Y (h) =
Notiamo che il processo Z (A) eredita dalle caratteristiche delle trasformate di Fourier z, la proprieta:
Z(A)==Z(-A) e quindi il suo andamento edeterminato essenzialmente solo dai valori positivi dell'argomento A, per questo la forma reale viene espressa come integrale del solo intervallo (0, 11"). Infatti si ha:
dF(A) == dF( -A) . Per 10 stesso motivo, le rappresentazioni (5.9) e (5.10) non cambiano se si cambia segno all'esponente della funzione esponenziale, cioe se si cambia icon -i e viceversa (in alcuni testi infatti la rappresentazione dell'autocovarianza presenta una esponenziale positiva). La varianza del processo aleatorio si puo dunque scrivere: 'Y (0) =
i:
dF (A) = F (1f) - F (-1f)
e per convenzione e semplicita si assume sempre F( -11") == O. La funzione misura F(A) induce allora una decomposizione della varianza nelle parti attribuibili a ciascuna componente ciclica di frequenza A. I teoremi di rappresentazione non comportano condizioni particolari per la F (A) chiamata misura spettrale 0 spettro (0 funzione di ripartizione spettrale) che puo essere di natura del tutto generale e quindi composta da una parte a salti F 1 (A) e una parte assolutamente continua F2 (A) (escludiamo come usuale che contenga una parte singolare):
Ricordiamo che la parte assolutamente continua F2 (A) ammette una funzione di densita continua f (A) (detta densiia spettrale) tale che:
5.3 Analisi nel dominio frequenziale
83
5 4.5 4
3.5 3
2.5 2 1.5 1 0.5
917 25 33 41495765 73 818997
91725334149576573818997
o irrrn'TT1TrrTTTTlTTTTTllmrmmmTITTTTTTTTTlrmmmmrmmmmmmnTTTTmmrnmmn I 1 9172533 41495765 738189 97
.Q5
(b)
(a)
(c)
Fig. 5.6. Misura spettralc: (a) parte a salti ; (b) parte assolutamente continua; (c) somma delle due parti
mentre la parte a salti F I (A) e costante eccetto un numero finito di punti Aj (j == 1, ... , k) nei quali ha un incremento pari a F (Aj) - F (Aj-) == Vj:
F I (A)
0
A :::;
vI
Al
Al
VI
+ V2
< A :::; A2 A2 < A :::; A3
VI
+ v2 + ... + Vi
Ai < A < Ai+I
VI
+ V2 + ... + Vk A> Ak
==
e
Un esempio di misura F(A) e delle sue due componenti riportato nella Fig. 5.6. AIle frequenze Aj nelle quali F(A) ha un salto di ampiezza Vj corrisponde una componente sinusoidale del tipo U (Aj) cos Aji + V (Aj) sin Aji che ha varianza finita diversa da zero pari a Vj e contribuisce additivamente con questo termine alIa varianza complessiva del processo. Ai sottointervalli (A', A") in cui non vi sono salti nella F(A) corrisponde invece un insieme di componenti sinusoidali di frequenza compresa tra A' e A" il cui contributo individuale alla varianza del processo e infinitesimo, ma il contributo complessivo e misurato da F (A") - F (A'). Percio si puo anche dire, se ~ e un punto di assoluta continuita della misura spettrale F, con densita pari a f(~), che f (~) d~ e la parte di varianza del processo spiegata dalle componenti cicliche di frequenza compresa tra ~ e ~ + d~. In ogni caso la rappresentazione spettrale (5.g) del processo {X t} 10 descrive come sovrapposizione (somma, integrale) di funzioni sinusoidali aventi frequenza compresa tra 0 e n, ciascuna moltiplicata per una ampiezza aleatoria. Le ampiezze relative a frequenze diverse sono incorrelate, e pertanto la rappresentazione spettrale descrive il processo come "somma" di termini incorrelati, di modo che la sua varianza e data dalla "somma" delle varianze dei singoli termini. La difficolta ulteriore e originata dal fatto che i termini sinusoidali possono avere due tipi di effetti diversi, avendo responsabilita e peso diversi nello spiegare la variabilita: ci saranno componenti cicliche a varianza finita (diversa da zero) che corrispondono a salti nella misura spettrale, e ci saranno componenti a varianza infinitesima, per le quali il contributo in-
84
5 Processi stazionari
dividuale a ,(0) e nullo, rna se consideriamo tutte quelle di un intervallo di frequenze forniscono un contributo non nullo. Possiamo distinguere tre casi a seconda della natura della misura spettrale. 1. Misura spettrale completamente discreta. Se la misura spettrale si presenta con una forma a gradini, cioe costante eccettuato un numero finito (0 una infinita numerabile) di punti Aj allora il processo puo essere espresso come una somma di componenti cicliche di frequenza Aj e ampiezza aleatoria di media nulla e incorrelate tra loro, e puo essere scritto come una combinazione lineare di sinusoidi:
X, - J-l ==
L {A j cos (Ajt) + B j sin (Ajt)} . j
2. Misura spettrale assolutamente continua. La misura spettrale ammette ovunque derivata uguale alla densita spettrale f (A) e il processo puo essere scritto come un integrale di Riemann della sinusoide moltiplicata per una funzione aleatoria:
x, -
JL =
1"
{A (A) cos (At) + B (A) sin (At)} dA
(vedremo pili avanti una rappresentazione pili esplicita di questi tipi di processi). 3. Misura spettrale mista con una parte a salti e una parte assolutamente continua. La rappresentazione pili naturale del processo in questo caso di pensarlo come la somma di due processi completamente incorrelati, dei quali il primo, Vi, ha misura spettrale completamente discreta e costituita dai soli salti, e il secondo processo, W t , ha misura spettrale assolutamente continua pari ana sola componente assolutamente continua, e quindi possiede densita spettrale:
e
con E(Vi Wt+h) == 0 per ogni h, W t ha misura spettrale assolutamente continua con densita spettrale f (A), e:
Vi
==
L {A j cos (Ajt) + B, sin (Ajt)} . j
E facilmente comprensibile come questa doppia natura comporti rilevanti difficolta di analisi, ed'altra parte i fenomeni che studiamo presentano raramente un andamento periodico preciso e costante (il che segnalerebbe la presenza di una componente ciclica a varianza non infinitesima): pertanto si preferisce prendere come riferimento ideale dei fenomeni che analizzeremo solo processi che hanno una misura spettrale assolutamente continua, priva di parte a salti. I vantaggi analitici e le possibilita di ulteriori sviluppi, che questa ipotesi, per quanto semplificatrice, comporta, hanno convinto la generalita
5.3 Analisi nel dominio frequenziale
85
degli studiosi del settore ad accettarla, salvo considerare poi con tecniche specifiche i casi in cui questa ipotesi appaia troppo restrittiva (ne vedremo un esempio in seguito quando affronteremo il problema della stagionalita). Assumeremo quindi d'ora in poi, salvo esplicito avviso contrario, che la misura spettrale F(A) sia assolutamente continua, e che quindi esista la sua derivata f(A), positiva per ogni A, che chiamiamo densita spettrale. Questa ipotesi comporta che le rappresentazioni spettrali diventano integrali ordinari:
"((h)
x, -
J-L
=
i:
e-i>.h 1
== j7r e-i>.t Z (>') d>' = -7[
(>') d>'
=
217r
cos(>'h)1 (>.) d>'
(5.11)
r cos(>'h)U (>') d>' + Jor sin(>.t)V (>.) d>'
Jo
(5.12)
e le varianze delle componenti del processo si possono scrivere simbolicamente: 2
E IZ (A)1 == f (A); DaIle proprieta di simmetria del processo Z (A) discende f (A) == f (- A). 11 grafico della densita spettrale viene quindi in genere disegnato solo per le ascisse comprese tra 0 e it . Ai valori massimi delle ordinate del grafico (i cosiddetti picchi) corrispondono Ie frequenze che indicano Ie componenti periodiche pili rilevanti del processo. La funzione di densita puo essere espressa in funzione delle autocovarianze in maniera analoga a come abbiamo espresso, nel caso del processo circolare, la varianza delle Zj: 1 00
f(A) == -
21r
L
,(s)ei SA
.
(5.13)
s=-oo
Questa formula puo essere ottenuta direttamente dalla rappresentazione spettrale (5.11) rna ricorrendo a strumenti matematici avanzati (2). Percio ci limiteremo a verificare che essa soddisfa la rappresentazione spettrale. Se moltiplichiamo ambo i membri della (5.13) per exp{ -ihA} ed integriamo rispetto a A da -1r a 1r otteniamo:
dove si e usata la formula per l'integrale dell'esponenziale riportata nell' Appendice A. Anche in questo caso si puo ottenere una espressione in termini reali ricordando che ,(h) == ,( -h): 2
La sostituzione diretta nella (5.13) della espressione (5.11) per ,(h) da luogo a un integrale del tipo 8 (A - w) f (w) dw dove 8 e la funzione (generalizzata) delta di Dirac, e quindi l'integrale e pari a f(A).
J
86
5 Processi stazionari
f(>.) =
2~ {')'(O)+2~')'(h)COS>'h}
.
La densita spettrale decompone la varianza del processo ,(0), e non si presta percio a confronti tra due processi diversi: a questo fine risulta conveniente ricavare una misura normalizzata, che si ottiene semplicemente dividendo per ,(0): la detisiio. spettrale normalizzata g(A) definita da
g(A) == -1
2n
L00 r(h)e i Ah == -1
2n
h=-oo
{oo 1+2Lr(h)cosAh } h=l
che fornisce immediatamente, dividendo ambo i membri della (5.11) per ,(0), una rappresentazione spettrale delle autocorrelazioni:
r (h) =
I:
g (>.) e-i>..hd>. =
21'' cos(>.h)g (>.)d>. .
La interpretazione della densita spettrale normalizzata g(A) e analoga a quella non normalizzata, rna poiche g(A) ha integrale pari a uno essa si presta a confrontare le caratteristiche spettrali di processi diversi. E il caso di notare che la (5.13) esprime la densita spettrale come una serie, e che l'esistenza della densita spettrale garantisce la convergenza di tale serie; in particolare, poiche per A == 0 si ha f (0) == E, (h), la continuita assoluta della misura spettrale nel punto A == 0 assicura la convergenza della serie delle autocovarianze e quindi la condizione necessaria ,( h) ----t 0 per h ----t 00. Cia comporta che i processi aleatori a misura spettrale assolutamente continua presentano un'autocorrelazione che tende a zero all'aumentare del ritardo, quindi in un certo senso la influenza del passato tende a perdersi all'aumentare della distanza temporale (almeno in termini di dipendenza lineare): cia avviene perche non vi sono componenti cicliche con importanza non infinitesima in termini di spiegazione della variabilita (le componenti cicliche si ripetono indefinitamente in maniera periodica, e quindi comportano una memoria infinita). II calcolo della densita spettrale di un processo viene spesso eseguito usando proprio la espressione precedente, a partire dai valori delle autocorrelazioni. Ad esempio, per un processo a variabili incorrelate, per il quale r(O) == 1, r( h) == 0 per h i- 0, si ottiene: 9 (A)
1
L r (t) e 2n t=-oo
== -
00
i At
== -
1
2n
Questo processo ha densita spettrale costante (vale anche ovviamente f(A) == ,(0)/2n): la costanza della densita spettrale e proprieta caratteristica dei processi a variabili incorrelate (come si verifica subito andando a sostituire f(A) == ,(O)/2n nella (5.11)); essi hanno preso il nome di rumore bianco (white noise) che proviene da una analogia con l'ottica, in quanto la luce bianca e composta da tutte le frequenze in eguale ammontare.
5.4 Le relazioni tra i due domini
87
5.4 Le relazioni tra i due domini Tra la funzione di autocovarianza e la funzione di densita spettrale intercorrona come abbiamo visto le relazioni: h
== 0,1, ...
00
f (A) = ~ " 21r ~
"1 (h) e
i Ah
h=-oo
e cia comporta che le funzioni ,(.) e f(·) hanno un contenuto informativo equivalente, 0 pili precisamente che la conoscenza completa dei valori ,(h) per ogni h permette di ottenere esattamente la f(A) per A E (-1r, 1r), mentre la conoscenza della intera f(A) per ogni A permette di calcolare tutte le ,(h) per ogni h. Questa dualita esuscettibile di una ulteriore interpretazione in termini della matrice di dispersione del processo. Consideriamo la variabile multipla costituita da N variabili contigue del processo: X == (Xl, X 2 , ... , X N )' e la sua matrice di autocovarianza di dimensione N gia definita quando si analizzava il dominio temporale:
, (0) , (1)
r(N) ==
, (1) , (0)
... ,(N-1)
... , (N - 2)
, (N - 1) , (N - 2) ...
== ((, (i - j))) .
, (0)
Essa e una matrice simmetrica e definita positiva, pertanto ha autovalori reali e maggiori di zero. Verifichiamo che gli autovalori sono approssimativamente proporzionali alla densita spettrale calcolata alle frequenze equispaziate Aj == ~ i, e l'approssimazione migliora al crescere di N. Pili precisamente, se indichiamo con aI, a2, ... , aN gli autovalori, con v ,V2, ... , VN gli autovettori associati (normalizzati), e con Vj (k) il k-mo eleme Ito del vettore Vj, si ha:
Infatti dimostriamo che vale: (5.14)
Consideriamo l'elemento k-esimo di
(rVjh
=L
rksVj (s)
rVj:
1
= IN L"1 (s -
k) exp {iAjS} =
s
=
1
JNL"1(s-k)ex P{iAj(s-k)}exP{iA jk}.
88
5 Processi stazionari
Ponendo s - k == h, per N grande la sommatoria rispetto ad h tivamente uguale a 27r f(Aj) e quindi:
e approssima-
che dimostra la (5.14). In sostanza a meno del termine 27r, l'insieme {f(Aj),j == 1, ... ,N} costituisce l'insieme degli autovalori della matrice r(N), detto anche spettro della matrice. Notiamo che data l'ortogonalita dei vettori Vj possiamo scrivere:
a:f-b a==b Ne segue con facilita una interessante interpretazione geometrica delle relazioni tra i due domini come trasformazione ortogonale di spazi metrici. Infatti sempre considerando X == (X 1,X2 , ... ,XN )' nello spazio R N , costruiamo la trasformazione Z == (ZI,Z2, ...,ZN)' attraverso la combinazione lineare con gli autovettori Vj: (5.15) La trasformazione Z == V X e ortogonale perche sono ortogonali i vettori VI, e definisce nuove variabili aleatorie dette trasformate di Fourier del processo. I loro momenti si ottengono facilmente ricordando le formule di ortogonalita riportate nell' Appendice A:
V2 , ... , V N,
j
1 Var (Zj) = N
L L Cov (Xt, X N
== 1,2, ... ,N
N
s)
exp {iAj (t - s)}
r:::o
21r f (Aj)
t=1 8=1
1
Cov (Zj, Zk) = N L t
r:::o
L Cov (Xt, X s ) exp {iAjt - iAkS} = 8
~LI'(h)eiAjhLexP{i(Aj-Ak)S}=O h
j:f-k
8
dove nel trasformare le sommatorie si e compiuta una approssimazione valida per N grande. In conclusione le trasformate di Fourier (5.15) sono (approssimativamente) incorrelate per frequenze diverse, e hanno varianza pari alla densita spettrale (moltiplicata per 27r); rappresentano una trasformazione ortogonale dei dati che rende le coordinate linearmente indipendenti e incorrelate.
5.4 Le relazioni tra i due domini
89
Osserviamo che in corrispondenza a ogni realizzazione del processo, ciascuna trasformata di Fourier si realizza in un numero (complesso) proporzionale alla somma dei prodotti tra i valori del processo e quelli della componente ciclica exp{ iAjt}. Quindi la trasformata fornisce una misura di associazione lineare (concordanza) tra i dati e la componente sinusoidale di frequenza Aj, il che spiega il legame tra il momento secondo della trasformata e la densita spettrale alla frequenza Aj. La trasformazione che abbiamo effettuato coinvolgeva un tratto finito del processo (X1,X2 , ... ,XN ) e portava alle trasformate di Fourier calcolate sullc sole frequenze multiple di ~, le Aj == ~ j chiamate anche frequenze di Fourier, che formano N punti equidistanti nel segmento (0,21r), e quindi if punti equidistanti nell'intervallo (0,1r) sul Quale studiamo la densita spettrale. La proprieta di avere varianza proporzionale alla densita spettrale e la incorrelatezza non vale percio esattamente per le trasformate di frequenza arbitraria A: (5.16) rna spesso assumeremo queste proprieta valide approssimativamente per ogni A, supponendo N sufficientemente grande. Cia permette di svolgere l'analisi spettrale basandosi completamente sulle trasformate di Fourier, una scelta compiuta da diversi testi autorevoli (ad esempio Brillinger, 1981). Ritornando infine alle relazioni tra i due domini, temporale e frequenziale, possiamo concludere che sono formalmente equivalenti, e i risultati che si possono ricavare con le analisi in un dominio sono equivalenti a quelli che si possono ottenere lavorando nell'altro. I motivi che giustificano il portare avanti 10 studio in ambedue le impostazioni sono essenzialmente due: 1. Anche se gli sviluppi sono tecnicamente equivalenti, quasi sempre sono differenti Ie interpretazioni che possiamo darne nei due domini, e in uno dei due risultano pili intuitive e illuminanti; il dominio temporale ha il vantaggio di riguardare direttamente le singole variabili aleatorie del processo ai singoli istanti, mentre in quello frequenziale la rappresentazione del processo come sovrapposizione di componenti incorrelate permette una analisi probabilistica pili semplice. 2. Con riferimento alle applicazioni reali, in genere le informazioni che si possono desumere permettono solo una conoscenza parziale e distorta di I (.) e di f (.): spesso possiamo basarci solo su stime dei I ( h) per h non maggiore di un certo ritardo massimo M, e su stime della densita spettrale in un numero finito di punti, quindi non su tutto l'intervallo (-1r, 1r). Questa conoscenza parziale fa perdere la corrispondenza biunivoca tra autocovarianza e spettro, e quindi svolgere l'analisi in ambedue i domini puo permettere di sfruttare al meglio le informazioni disponibili. Avvertiamo infine che in alcuni testi prevalentemente orientati al dominio temporale, per sfruttare alcune proprieta dello spettro esso viene implicitamente definito usando le cosiddette junzioni generatrici delle autocovarianze
90
5 Processi stazionari
e autocorrelazioni, che sono formalmente serie di potenze nel campo complesso. La funzione generatrice delle autocovarianze G (z) (dove z e un numero complesso) e definita da:
L 00
G (z) ==
r (h) zh
h=-oo
e la funzione generatrice delle autocorrelazioni R(z) da:
L 00
R(z) ==
r(h)zh.
h=-oo
Le funzioni generatrici coincidono con la densita spettrale (assoluta lizzata) se poniamo z == ei)..:
0
norma-
e da questo legarne discendono le loro proprieta. Inoltre esse risultano uno strumento comodo per sviluppare l'algebra formale dei modelli lineari, come sara mostrato in seguito.
5.5 I filtri lineari Abbiamo pili volte visto come anche nella teoria dei processi aleatori la capacita di trattare combinazioni lineari di variabili multivariate ci permetta di ottenere importanti risultati. E naturale percio tentare di sviluppare metodi analoghi quando si tratta di combinare linearmente tutte le variabili di un processo. Questa idea porta alla teoria del filtraggio lineare di cui esporremo i fondamenti. Un filtro lineare applicato a un processo stocastico {Xt } definisce un nuovo processo {yt} in cui ogni variabile Ys , per ogni istante s intero e ottenuta da una combinazione lineare delle {Xt , t intero}. II caso pili rilevante, e che analizzeremo, e quello che Ys sia ottenuto come combinazione lineare dei valori del processo attorno al tempo s, e che i pesi della combinazione rimangano fissi (il filtro si dice in tal caso invariante nel tempo): (5.17) La sommatoria puo essere estesa a valori positivi e negativi di u; nel caso che coinvolga solo i valori positivi 0 nulli, il filtro si dice fisicamente realizzabile, poiche il calcolo di yt e possibile in funzione dei soli valori fino al tempo t, X t - j , j == 0,1,2, .... In caso contrario il filtro e fisicamente irrealizzabile, perche il calcolo del risultato all'istante t dipende dai valori futuri del processo {Xt } . Nel caso fisicamente realizzabile, il filtro puo essere pensato come un sistema, cioe una serie di operazioni complesse viste come un tutto unico, che
5.5 I filtri lineari
91
riceve a scadenze regolari dall'esterno una informazione X, (detta input) e restituisce nello stesso istante un messaggio yt (detto output):
x,
-t
IFiltro l-t yt .
II filtro agisce come una scatola nera che conserva memoria delle informazioni ricevute nel passato. La sommatoria nel filtro (5.17) puo essere anche estesa fino a +00 e -00, rna in tal caso, per assicurarci che i valori di output siano limitati, imporremo che la serie dei pesi sia assolutamente convergente:
Per semplificare l'esposizione supporremo sempre che i pesi C u siano definiti per ogni u intero, ponendoli eventualmente uguali a zero, cosl che le sommatorie risulteranno sempre da -00 a 00, rna data l'assoluta convergenza potranno essere scambiate di posta tra loro e con gli integrali. Infine nel caso particolare (rna rilevante) che si verifichi Cu == c- u per ogni u, il filtro viene detto simmetrico. Analizzeremo adesso le proprieta del processo {Yi} che chiameremo anche output del filtro 0, pili spesso, processo filtrato, in relazione alle proprieta del processo {X t } (detto anche input 0 processo origine del filtro), assumendo che {Xt} sia stazionario al secondo ordine con media E (X t) == J1x, funzione di autocovarianza Cov (X t , X t+ h) == 1x (h), e densita spettrale Ix (,,\). La media di {yt} si ottiene immediatamente:
E (Yt) = /Ly = E
(L cuXt-u) = /Lx L
u
C
ed e quindi costante per ogni t. Per la funzione di autocovarianza dell'output avremo:
Cov (Yt, Yt+h) = Cov (
~ ~ cucvXt-uXt+h-V) =
== LLcuCv1x(h+u-v) ==1y(h). u
(5.18)
v
Si conclude che anche Cov (yt, yt+h) dipende solo da h e quindi il processo output {yt} e anch'esso stazionario al secondo ordine. La sua funzione di autocovarianza dipende naturalmente da quell a dell'input, 1x (h) e dai pesi del filtro {cu } , attraverso una doppia convoluzione; percio la struttura dell'autocovarianza di {yt} puo essere anche profondamente diversa da quella di {Xt } . Ad esempio se {Xt} e rumore bianco con 1x (0) == 0- 2, 1x (h) == 0 per h i- 0, la funzione di autocovarianza del processo filtrato e (sostituendo nella (5.18)):
1y (h) ==
0-
2
L CuCu+h u
h
== 0,1,2, ...
92
5 Processi stazionari
Se ci poniamo adesso nel dominio frequenziale, l'effetto del filtraggio presenta caratteristiche di maggiore semplicita, Vediamo infatti di calcolare la densita spettrale del processo output {It}, che denoteremo con Jy(A):
"" " iAh . Jy(A) == -1 "~ ,y(h)eiAh == -1~~~cucvlx(h+u-v)e 2K
2K
h
h
u
v
Tutte le sommatorie sono da -00 a 00. Possiamo cambiare indici sostituendo == h + u - v ad h, tenendo conto che h == T - U + v:
T
fy (A)
=
2~ L"( (T) e i AT L T
cue-
i AU
U
L cue-
== Jx (A)
cve
i AV
=
V
2
i AU
L
2
== Jx (A) IH (A)1 .
(5.19)
La densita spettrale alla frequenza generica A di {It} e data dalla densita spettrale alla stessa frequenza del processo input {Xt } moltiplicata per il valore, a quella frequenza, del modulo al quadrato di una funzione pari alla trasformata di Fourier dei pesi:
U
chiamata Junzione di trasjerimento oppure junzione di risposta di jrequenza del filtro. Dunque mentre l'autocovarianza di {It} al ritardo h dipende da quella che {Xt } presenta a tutti i ritardi, invece la densita spettrale di {yt} alla frequenza A dipende solo da quella di {X t } alla medesima frequenza: nel dominio frequenziale il filtraggio non introduce nessuna contaminazione 0 "miscela" . II motivo di questa maggiore semplicita si comprende se cerchiamo di costruire una rappresentazione spettrale del processo filtrato {yt} andando a sostituire la rappresentazione spettrale di {X t } nella formula del filtro (5.17): yt =
L
I:
cuXt- u =
U
= /1y +
e
i At
/1y
+
L
c«
in:
eiA(t-U)dZ
(A)
u -n
H (A) dZ (A) .
Vale ancora la decomposizione additiva in funzione delle frequenze, ma ora la singola componente ciclica di frequenza A ha la forma e i At H (A) dZ (A). Poiche H(A) e un numero complesso, separiamone parte immaginaria e reale e scriviamola sotto forma di modulo e argomento: posta
H(A) == ReH(A) +ilmH(A) R (A) ==
IH (A) I ==
{
(Re H (A))2
+ (1m H (A))2 }
() (A) == arctan {ImH (A) / ReH (A)}
1/ 2
(5.20)
5.5 I filtri lineari
93
,
,
'1 0
---
.
.
01
0
.. (c)
(b)
(a)
.
Fig. 5.7. Guadagni dei filtri : (a) passa basso; (b) passa alto; (c) passa banda
possiamo scrivere:
H (,X) = R (,X) cos [8 (,X)] + iR (,X) sin [8 (,X)] = R (,X) exp {i8 (,X) }
I:
e la rappresentazione spettrale divent a: Y t-J.Ly =
exp {i ['xt + 8 ('x )]} R ('x ) dZ ('x ) .
(5.21)
La funzione R ('x) = IH('x )1 viene det ta guadagno del filt ro, la funzione 8('x) viene det ta fase. Ogni compo nent e di fissata frequenza viene dunque modificat a moltipli cando l'ampiezza per il numero reale R ('x ), e intr oducend o nella component e ciclica un a fase pari a 8('x). Resta valida la int erpretazione come sovra pposizione di sinusoidi con ampiezza aleatoria e incorrelate. In sostanza il filtraggio agisce separatamente su ciascuna componente ciclica , modificandone la fasat ur a (la collocazione sull'asse temporale) at traverso la funzione di fase 8('x), e modificandon e l'am piezza mediante moltiplicazione per il valore R ('x ): ne se~ue che la varianza della componente viene moltiplicat a per il quadra to R (,X) . La varianza della componente di frequenza ,X in {Xd e f x (,X) , e allora quella della analoga componente sara f y (,X) = R (,X)2 f x (,X) . Abb iamo cioe ottenuto il risult ato (5.19). Ma l'aver ricavato una rap presentazione spet t rale per Yi ha evidenziato anche che nell'operazione di filt raggio ciascuna componente ciclica subisce uno sfasamento sull'asse tempora le, percio i massimi (e i minimi) delle ciclicita in {Xd risulteranno in {Yi } spostati all'indiet ro di un ritardo pari a 8('x)/'x . II filtraggio quindi confonde i punti di svolta, a meno che non sia 8('x) = 0, rna per avere l'annullament o della fase (si veda la (5.20)) la funzione di trasferimento deve essere reale: cio avviene quando il filtro esimmet rico poiche in tal caso :
H (,X) =
L cue
L 00
iUA
= Co + 2
Cu cos (u'x )
.
u= l
P urt ropp o in questo caso i coefficienti con indice u negat ivo non possono essere t utti nulli. Ne concludiamo che i filtri fisicamente realizzabili comportano necessari amente uno sfasament o, perche hann o funzioni di fase non ident icamente nulle. II nome di filtro deriva dalla capacita di attenuar e la densita spet trale ad a!cune frequenze, moltiplicand ola per valori del guadag no vicini a zero , e cioe
94
5 Processi stazionari
filtrare alcune bande di frequenza. Un filtro che abbia una funzione di guadagno del tipo rappresentato in Fig. 5.7a viene chiamato passa basso poiche preserva la densita spettrale aIle frequenze minori di w (basse frequenze) e annulla il contributo delle frequenze superiori. Per un motivo analogo un filtro che abbia un guadagno del tipo illustrato in Fig. 5.7b viene chiamato passa alto, e quello della Fig. 5.7c si chiama passa banda: lascia passare nell'output soltanto le componenti di frequenza compresa tra ,X e w. Va osservato che gli andamenti riportati nella Fig. 5.7 sono puramente ipotetici e irraggiungibili, infatti la funzione di trasferimento e comunque una combinazione lineare di esponenziali complesse e quindi il guadagno e una funzione continua di ,X che tende ad avere un andamento oscillante. La struttura particolarmente semplice dei risultati nel dominio frequenziale permette di analizzare facilmente, in questo dominio, anche il caso che si vogliano applicare diversi filtri lineari in sequenza (0 come si dice in cascata). Consideriamo cioe, oltre al processo {yt} originato da {Xt } con il filtro {cu } :
anche il processo {Zt} ottenuto da {yt} filtrando con pesi {du } :
z, ~
L dvyt-v ~ L L dvcuXt-u-v . v
v
u
Se indichiamo con HI (,X) ~ Ecue-i>..u e H 2 (,X) ~ Edve-i>..v le due funzioni di trasferimento, con R 1(,X), R2('x) e 01(,X), 02('x) i rispettivi guadagni e fasi, si ricava facilmente che l'applicazione del doppio filtraggio modifica nel passaggio da {Xt } a {Zt}, ogni componente ciclica di frequenza ,X moltiplicandone l'ampiezza per R1('x)R2('x) e sfasandola con una fase pari a 01('x) + 02('x). Percio la densita spettrale di {Zt} e R 1(,X)2 R 2(,X )2fx('x). In sostanza, nell'applicare in cascata pili filtri, gli effetti sulle ampiezze si moltiplicano e quelli sulle fasi si sommano. Esempio 5.3. Per chiarire meglio gli effetti dei filtri consideriamo un input deterministico costituito solo dalla combinazione lineare di due sinusoidi:
x,
= 5 cos (1ft)
+ 10 cos { ~ (t -
1)} .
La prima componente ha frequenza 1r, periodo 2 e oscilla tra -5 e +5, l'altra ha frequenza 1r/ 4, periodo pari a 8, ampiezza 10 e massimo in t~l (si veda Fig. 5.8a). Consideriamo il filtro:
yt
e un
~
Xt-
2
+ X t +2
.
filtro simmetrico con H (,X) ~ e- i 2 >.. + ei 2>.. ~ 2 cos 2'x. Quindi, per ,X ~ 1r, H(1r) ~ 2, e per ,X ~ 1r/4, H(1r/4) ~ 2cos1r/2 ~ 0, la fase e nulla perchc il filtro e simmetrico. Ne segue che il filtro riproduce esattamente la prima componente moltiplicata per 2 (Fig. 5.8b).
Esso
5.6 Operatori lineari
95
Vediamo adesso un semplice filtro asimmetrico:
Poiche CI ~
H (A)
V2, C-2
~ 2 avremo:
= V2e- i >' + 2ei 2 >' = (V2COSA + 2cos2A) - i (V2sinA - 2sin2A) .
Sostituendo a A il valore 1r e il valore 1r/ 4, abbiamo: Re { H (1r)} ~
V2 cos 1r + 2 cos 21r ~ 2 - V2
1m {H (1r)} ~ 2 sin 21r -
V2 sin 1r ~ 0
V2 cos(1r/ 4) + 2 cos( 1r/2) ~ 1 ~ 2 sin( 1r/2) - V2 sin( 1r/ 4) ~ 1
Re { H ((1r /4) )} ~ 1m {H
da cui:
((1r/ 4))}
IH (1r)1
~ 2-
o(1r) ~ arctan(O) ~ 0;
V2; IH (i) I ~ V2 0 (1r/ 4)
~
arctan(l) ~ 1r/ 4 .
ecostituita dalla somma della prima componente moltipliV2) e la seconda moltiplicata per V2, rna quest'ultima e sfasata
In sostanza la serie
cata per (2 sull'asse temporale di una quantita pari a O(A) / A per A ~ 1r/ 4: 0 (i) istante. Nella Fig. 5.8c e riportato l'output del filtro.
/ (i)
~ 1
5.6 Operatori lineari Ricordiamo che un operatore lineare su uno spazio vettoriale V e una applicazione V ---+ V tale che per ogni coppia di elementi VI, V2 EVe per ogni coppia di numeri reali nl e n2 si abbia (nl VI + n2 V2 ) ~ »,» (VI) + n2 0 (V2 ) . Alcuni operatori lineari vengono diffusamente usati nell'analisi delle serie temporali perche permettono di conseguire semplificazioni notevoli; in particolare si usano gli operatori:
°:
°
ritardo B
tale che
BXt
~
Xt-
I
anticipo F
tale che
FXt
~
X t +1
differenza \7
tale che
\7Xt
~
Xt
-
Xt -
I .
Data la linearita degli operatori, si puo dimostrare che essi soddisfano tutte le usuali regole dell'algebra, percio si puo operare su di essi come se fossero variabili matematiche ottenendo risultati che hanno senso. Vediamo alcuni esempi:
96
5 Processi stazionari
20 , . . - - - - - - - - - - - - - - - - 10 O-+----+-----I---l~-+-----I----+-fl#~+----K-~--+--~-\----I-~f------+-~-#fI---J,r------l
-10
-20 - ' - - - - - - - - - - - - - - - - - (a)
I--campen. per. 2 - - .. 'campen. per. 8 --serie 1 15 - , - - - - - - - - - - - - - - - - - - - - - - - .
10
5 O-+---+----f---lr-----+---+----t----I----f---+--+---+----+----+-+---r---+-----+--f---+---f------t---f---t----f---ll--l
-5
-10 -15 - - & . . - - - - - - - - - - - - - - - - - - - - '
(b)
I-filtro 1 1
------=============::::::~
L-
______l
20 - , - - - - - - - - - - - - - - - - - - - - - - , 10 O-+----\~~~~rr--+------+-----,~---+--~~~-.f---llIHo----+~--A-fl'--'I...--+-~
-10
-20
.....1.--
----1
1--10 camp·· .. '2° camp. sfasata --fi~ro21 Fig. 5.8. (a) serie deterministica periodica; (b) output filtro 1; (c) output filtro 2
Se: allora: Aneara:
\7 X,
~
X, - X t -
1 ~
(1 - B) X,
5.6 Operatori lineari
~(k) . (-B) k-j X; == ~(k) Z:: . (-1) k-j X t - k+ j
\7 k X; == (1- B) k X, == Z::
j=O
J
j=O
97
.
J
Possiamo dare un significato anche agli inversi degli operatori, ponendo B- 1 == P, di modo che B- 1X, == X t + 1, B- kX, == p kX; == X t + k, e inoltre B- 1 F == p-1 B == I (l'operatore identita che non modifica il suo operando). Per l'inverso dell'operatore differenza \7, potremmo invocare formalmente i risultati per le serie geometriche con ragione in modulo minore di 1:
1
1
\7- == 1 _ B == 1 + B
~.
2
+ B + ... == ~ BJ
.
j=O
In realta anche se questo sviluppo ha una validita formale le cose non sono cosl semplici. Consideriamo l'operazione yt == X, - aXt - 1 == (1 - aB) X, e cerchiamo di risalire dalla yt alla X, sostituendo ripetutamente: otterremo X,
== yt + aXt - 1 == yt + a (yt-1 + aXt - 2 ) == yt + ayt-1 + a2X t - 2 == == ... == yt + ayt-1 + a2yt_2 + ... + akyt_k + ak+ 1X t - k- 1 .
L'espressione a destra non contiene solo valori {yt} perche compare il termine ak+ 1X t-k-1. Se l'influenza di questo termine puo essere resa trascurabile allora sara possibile esprimere X, in funzione delle {yt} e quindi avremo costruito l'operatore inverso: rna cia e possibile solo se lal < 1, di modo che a k + 1 --* 0 al crescere di k. Pertanto se \a\ < 1 possiamo scrivere: (1 - aB)-l
== 1 + aB + a2B 2 + ... ==
L akB k 00
lal < 1.
k=O
In caso contrario, non epossibile esprimere {X t } in funzione lineare delle {yt} e quindi l'operatore (1 - aB) non ammette inverso per lal ~ 1. Dati due polinomi nell'operatore ritardo a (B) == ~ auBu, f3 (B) == ~ f3u B u, se a (B) X, == f3 (B) X, per ogni possibile X, allora au == f3u per ogni u. Con la notazione basata sugli operatori un filtro lineare puo essere espresso nel seguente modo:
u
dove C(B) e un polinomio (0 una serie di potenze) nell'operatore B, ed e in relazione con la funzione di trasferimento H(A) del filtro poiche vale ovviamente la: u
L'ultima proprieta menzionata sui polinomi nell'operatore assicura che se due filtri, con 10 stesso input, forniscono 10 stesso processo in output, essi hanno
98
5 Processi stazionari
eguali coefficienti. Pili delicato e il problema dell'esistenza del filtro inverso, cioe se sia possibile risalire dall'output {yt} all'input {Xt } attraverso ancora un filtro lineare. Se questo filtro esiste, 10 indicheremo per coerenza con: X, == C- 1 (B) yt .
Si dimostra che questo filtro esiste se le radici deIl'equazione nel campo complesso C(z) == 0 hanno tutte modulo maggiore di uno (si dice che sono al di fuori del cerchio unitario). Senza dilungarsi in una dimostrazione rigorosa, possiamo spiegarci questo risultato nel caso di polinomio di ordine finito, con radici distinte PI, P2, ..., PP diverse da zero:
C (B) == Co + CI B = do (
+ ... + cpBP == do (PI -
B) (P2 - B) ... (pp - B) ==
I}Pj) (1 - ~) ( 1 - ~) ... ( 1 - ~)
dove do == (-l)Pc p . Se Ipjl > 1 per ogni j == l, ... ,p, abbiamo visto che si possono definire gli operatori inversi:
e quindi esiste il polinomio inverso che si ottiene applicandoli in sequenza: 1 ---B 1 -'" --B 1--1-PI
P2
1 --B I--
[ do(
IIpj )]-1 == C-
1
(B) .
Pp
In conclusione, se le radici dell'equazione C(z) == 0 hanno tutte modulo maggiore di uno, l'operatore C(B) ammette inverso e quindi in una equazione del tipo yt == C(B)Xt si possono "dividere" ambo i membri ottenendo X, == C- 1 (B) yt. Se C(B) ha grado finito, C- 1 (B) non 10 avra e sara una serie di potenze.
5.7 I filtri aIle differenze per la depurazione di una componente ciclica Nell'ambito dei filtri lineari, quelli che corrispondono all'operatore differenza assumono una importanza del tutto particolare e una grande rilevanza nei modelli rappresentativi di serie temporali, tali da giustificare una analisi pili accurata. II filtro alle differenze k-esime e definito da: (5.22)
L' effetto caratteristico di questo filtro sta nella sua natura di differenza: yt registra l'incremento nel passare da un dato a quello che 10 segue di k istanti.
5.7 I filtri alle differenze per la depurazione di una componente ciclica
99
Essendo una differenza (un saldo) non risente di fattori che influenzino nel medesimo modo i dati che si trovano a distanza temporale k: in altri termini, il risultato del filtro non risente di componenti periodiche di periodo k eventualmente presenti in Xt. Infatti ci si puo facilmente convincere che se la serie X, fosse periodica di periodo k, la serie filtrata yt == X, - X t - k sarebbe costantemente uguale a zero. Se il processo si puo pensare come la somma di due componenti: X, == Z, + Pi, dove {Zt} e stazionario con misura spettrale assolutamente continua, e Pi e un polinomio trigonometrico che rappresenta una componente ciclica di periodo k:
applicando il filtro alle differenze k-esime si ottiene:
in quanto Pt == Pt - k . Percio il processo filtrato ha misura spettrale assolutamente continua, in altri termini ha eliminato il salto nello spettro. In conclusione l'applicazione di un filtro alle differenze permette di eliminare l'influenza di una singola componente ciclica di periodo noto e fissato. Questo ne giustifica ad esempio l'uso nella destagionalizzazione, come vedremo nella parte relativa ai modelli rappresentativi. Tuttavia, la rimozione della ciclicita di periodo k non e il solo effetto indotto dal filtro alle differenze kesime: analizziamo la situazione per mezzo della teoria del filtraggio. Possiamo scrivere: con
Co
== 1, Ck == -1, Cj == 0, j i- 0, k
e quindi per le autocovarianze si ha: (5.23) L'autocovarianza dell'output e una combinazione lineare (con somma dei pesi uguale a zero) di quelle dell'input con una risonanza di k ritardi in avanti e indietro. Anche dalla (5.23) si puo argomentare che se il processo avesse una forte periodiclta di periodo k allora le 1x(') rimarrebbero pressappoco uguali sommando (0 sottraendo) al lag un multiplo del periodo, e quindi le autocovarianze dell'output diventerebbero all'incirca nulle. La funzione di trasferimento risulta:
==
H (,\)
Co
+ Cke-iAk == 1 -
e-
i Ak
== (1 - cos'\k) + i sin'\k
e pertanto per il guadagno e la fase si ottiene: R
2
(,\)
== H (,\) 2 == (1 - cos '\k) 2 + sin 2 ,\k == 2 - 2 cos'\k == == 4 sin 2 (,\k/2) I
1
(5.24)
100
5 Processi stazionari
Jt/4
Jt/2
(a)
3Jt/4
-2
-l......-
--'
(b)
Fig. 5.9. Filtro aIle differenze ottave: (a) guadagno; (b) fase
sin Ak } 2 sin (Ak/2) cos (Ak/2) == arctan - - -2- - - - 1 - cos Ak 2 sin (Ak/2) Ak Ak 1r == arctan cot - == - - - . (5.25) 2 2 2 L' andamento del guadagno e sinusoidale oscillando tra il valore zero se A e multiplo di 21r/ k e il valore 4 per frequenze intermedie del tipo ~ + j. La fase non e mai nulla (poiche il filtro non e simmetrico) ed ha un andamento lineare rispetto a A. Un esempio e riportato per k == 8 in Fig. 5.9 (da tener presente che la fase, essendo una arcotangente, e determinata a meno di multipli di 1r). In conclusione nel processo output saranno attenuate le componenti cicliche di frequenza attorno a 21r/ k e alle sue armoniche, corrispondenti ai periodi k e suoi sottomultipli, mentre viene amplificato l'effetto delle componenti di frequenze intermedie (fino a raddoppiare l'ampiezza), pertanto oltre agli effetti propri del filtro consistenti nel rimuovere le ciclicita di periodo k, vengono introdotti effetti "impropri" 0 "spuri" che possono creare nell'output comportamenti ciclici artificiali in corrispondenza alle frequenze intermedie. La fase e sempre diversa da zero e quindi i punti di svolta delle ciclicita dell'input si ritroveranno spostati nell'output. E importante notare infine come il guadagno si azzeri per A == 0, e abbia quindi valori molto piccoli in corrispondenza a frequenze molto basse: percio i filtri alle differenze hanno un effetto anche sulle componenti di periodicita molto grande (di lungo periodo), attenuandone fortemente l'importanza. Questa considerazione aiuta a comprendere il comportamento del tutto particolare del filtro alle differenze k-esime quando si ponga k == 1; in questo caso (poiche la periodicita minima discernibile in processi a parametro discreto e pari a 2) l'effetto del filtro non e quello di rimuovere una componente periodica, rna conserva invece l'effetto di alleggerimento delle componenti di periodo molto grande. La forma del filtro ') () ( /\ == arctan {
2;
e:
ovvero consiste nell'incremento tra un dato e il successivo. Questo filtro consente in via di principio di rimuovere un trend lineare, cioe un andamento della media in funzione lineare del tempo. Infatti supponiamo
5.7 I filtri alle differenze per la depurazione di una componente ciclica
che E(Xt ) == a+bt, mentre Z; == X, - (a+bt) l'output del filtro e:
yt
==
X, - X t -
1
==
101
eun processo stazionario; allora
Z, -
Zt-l
+b
quindi un proeesso aneora stazionario con media costante pari a b. Tuttavia, anche in questo caso l'effetto del filtro non si limita alla stabilizzazione della media, rna si estende ad altre caratteristiche. II suo guadagno e la fase si ottengono dalle formule precedenti ponendo k == 1:
() (A)
1r
A
2
2
== - - - .
II guadagno e una funzione crescente e al variare di A tra 0 e 1r passa dal valore 0 a 4 (raggiungendo 1 a 1r /3). In definitiva il filtro alle differenze prime abbatte tutte le ciclicita con periodo grande, ed esalta queIle con periodicita piccola, arrivando a raddoppiare l'ampiezza per le frequenze pili vicine a 1r (corrispondenti a periodi poco superiori a 2). Per concludere, ricordiamo che l'effetto dell'applicazione di pili filtri in sequenza e quello di moltiplicare i guadagni e sommare le fasi. A volte i filtri alle differenze vengono applicati ripetutamente:
(5.26) II guadagno di questo filtro
e la potenza d-esima di quello
alle differenze:
percio l'effetto e ancora pili energico poiche per le frequenze per cui R(A) a uno, Rd(A) e ancora pili piccolo, mentre in corrispondenza allc frequenze per Ie quali R(A) e superiore a uno, Rd(A) e ancora pili grande. La fase del filtro e d volte quell a originale. Si verifica facilmente che l'applicazione iterata d volte del filtro alle differenze prime permette di rimuovere un trend in cui la media sia un polinomio di grado d nel tempo. Una semplice generalizzazione dei filtri alle differenze, che permette di controllarne meglio l'energia filtrante, ecostituita dai cosiddetti filtri alle quasi differenze in cui si sottrae solo una quota a compresa tra 0 e 1, del dato passato: yt == X t - aXt-k .
e inferiore
Ripercorrendo quanto abbiamo visto precedentemente, si conclude che questo filtro ha una funzione di trasferimento pari a:
H (A) == 1 - ae i k A == (1 - a cos Ak) - io. sin Ak
102
5 Processi stazionari
e conseguentemente il guadagno risulta:
R (A)2 ==
IH (A) 2 == 1 + o? cos2 kA + o? sin 2 kA 1
2Q cos kA ==
== 1 + Q2 - 2QcoskA che ha un andamento analogo, con i massimi e minimi posizionati alle stesse ascisse, del filtro alle differenze (Fig. 5.9a) rna i suoi valori oscillano tra (1-Q)2 e (1+Q)2 invece che tra 0 e 4, e quindi al decrescere di Q si puo diminuire l'abbattimento delle componenti periodiche di periodo k, e contemporaneamente diventa meno pronunciata l'esaltazione che il filtro apporta all'ampiezza delle componenti di frequenze intermedie. Si noti pero che i filtri alle quasi differenze non godono, diversamente da quelli alle differenze, della proprieta di rimuovere completamente componenti cicliche, ne trend nella media.
5.8 Relazioni tra processi stazionari Considereremo ora l'analisi di pili processi stocastici stazionari definiti sullo stesso insieme parametrico, per studiarne Ie relazioni nei due domini temporale e frequenziale. Anche in questo caso ci limiteremo a considerare Ie relazioni di dipendenza lineare tra processi. Cominciamo dallo studio di una coppia di processi, ovvero da un processo bivariato {Xt , yt}. Le sue caratteristiche aleatorie sono definite dalle distribuzioni di probabilita congiunte, rna queste potrebbero non essere stazionarie anche se 10 sana singolarmente Ie distribuzioni di {Xt } e que lle di {yt}. Se ci limitiamo a richiedere la stazionarieta congiunta al secondo ordine, cioe la omogeneita dei momenti secondi, bisogna verificare che anche i momenti incrociati del tipo Cov{Xs , yt} dipendano solo da (t - s). Un processo stocastico bivariato {Xt , yt} si dice stazionario al secondo ordine se valgono Ie proprieta:
Vt
Cov (X t , X t +h) == 1x (h)
Cov (yt, yt+h) == 1y (h)
Cov (Xt , yt+h) == 1xy (h)
Vt, h .
(5.27)
Vt,h
(5.28)
(5.29)
L'ultima proprieta definisce una funzione di variabile intera, 1xy (h) detta funzione di covarianza incrociata 0 cross- covarianza. E da tenere in considerazione che, anche se usiamo 10 stesso simbolo, la funzione di cross-covarianza ha proprieta molto diverse dalle autocovarianze, in quanto prima di tutto non e una funzione pari:
inoltre non e semidefinita positiva, poiche la forma quadratica costruita sulle cross-covarianze: EiEjCiCj 1xy (hi - h j) puo avere segno qualunque, e infine
5.8 Relazioni tra processi stazionari
103
non ha massimo per h == 0 poiche puo raggiungere il suo valore massimo in corrispondenza a un ritardo qualsiasi. Ne segue che ad esempio il grafico della cross-covarianza va disegnato per ritardi sia positivi sia negativi, e inoltre se si vogliono confrontare Ie covarianze tra diverse coppie di processi va costruito un nuovo indice relativo analogo al coefficiente di correlazione. In genere si definisce la funzione di correlazione incrociata 0 cross- correlazione nel modo seguente: r xy (h) -
1xy (h)
Cov (Xt , yt+h)
-----;=======~
JVar (Xt ) Var (yt+h)
(5.30)
La funzione r xy (h) e proporzionale alla 1xy (h) (e quindi non e pari) e in base alla disuguaglianza di Schwartz si ha Ir xy (h)\ < 1. In questo caso pero rxy (0) non e pari a uno, rna pari alla correlazione tra Ie variabili contemporanee X; e yt dei due processi. L'interpretazione che si puo dare alla funzione di cross-correlazione deriva dalla sua natura di misura delle relazioni lineari tra le variabili dei due processi a una determinata distanza temporale. Se non esiste alcuna dipendenza lineare tra Ie variabili dei due processi, allora sara r xy (h) == 1xy (h) == 0 per ogni h (anche per h == 0). In caso contrario il grafico dei valori detto anche crosscorrelogramma, ci indichera la concordanza (0 discordanza) tra gli elementi di un processo e quelli delI'altro: spesso ad esempio si va a cercare qual eil ritardo che corrisponde alla cross-correlazione di valore assoluto massimo. Se essa e abbastanza elevata, il ritardo puo essere considerato come una indicazione dello sfasamento temporale prevalente tra i due processi, ed aiuta a capire se uno dei due tende ad anticipare il comportamento dell'altro, fattore molto importante nel campo della previsione. Lo studio delle relazioni tra i due processi puo essere sviluppato anche nel dominio delle frequenze poiche esistono rappresentazioni spettrali anche per processi bivariati. Ricordiamo che Ie rappresentazioni spettrali univariate dei processi {Xt } e {yt} descrivono ciascuno dei due come sovrapposizione di componenti cicliche di frequenza compresa tra 0 e 7[, con ampiezze aleatorie incorrelate tra loro per frequenze diverse: X, - J1x ==
yt - My ==
E{dZx
E{
(.\)
J J
e i>..t dZx (.\)
ei>..t dZ y (.\)
dZ x (w)} ==
az; (.\) dZ
y
(w)}
==
{oIx () .\ {oIy(.\)d.\
d.\
104
5 Processi stazionari
Ma sono incorrelate anche le ampiezze delle componenti di {Xt } con quelle delle componenti di {yt}? La risposta e affermativa poiche si puo dimostrare che: E{dZx (A) (w)} == 0
sz;
Quindi le relazioni lineari tra {Xt } e {yt} si esercitano soltanto tra Ie componenti di egual frequenza, e la loro covarianza definisce una nuova densita detta densita spettrale incrociata:
La funzione di densita spettrale incrociata (0 cross-spettrale) f xy (A) pero, ha valori complessi e si rappresenta separando le parti reale e immaginaria: fxy
(A) == C (A)
+ is (A)
(5.31)
dove C(A) viene chiamata densita cospettrale (ed e pari) mentre S(A) viene detta densita spettrale di quadratura (ed e dispari). II loro reciproco ruolo si comprende meglio partendo dalla rappresentazione spettrale in termini reali dei processi:
x, yt -
/-Lx
/-Ly
J J
= =
[cos('xt)dUx (,X)
[cos('xt)dUy (,X)
+ sin('xt)dVx (,X)]
+ sin('xt)dVy (,X)] .
Ciascuna componente ciclica di frequenza A (compresa tra 0 e 1r) e costituita da un termine coseno e un termine seno (che vengana chiarnati in quadratura perche hanno andamento analogo rna sfasato di un angola retto). La covarianza tra le parti coseno e uguale a quella tra le parti seno:
E{ dUx (A) .u.; (A)} == E{ dVx (A) dVy (A)} == 2c (A) rnentre la covarianza tra le parti in quadratura, cioe un coseno per un seno e viceversa, e pari alla densita di quadratura:
E{ au, (A) dVy (A)} == E{ dVx (A) dUy (A)} == 2s (A) . In corrispondenza a questa rappresentazione spettrale, se ne puo ricavare una conseguente per le cross-covarianze: "(xy
(h)
=
1:
ei>.h fxy
(,X) d,X
=
21"
[cos ('xh) c (,X)
+ sin ('xh) s (,X)] d,X
e per la covarianza tra Ie due variabili X; e yt: Cov (Xt , yt)
= "(xy (0) =
21"
c (,X) d,X .
Da questa interpretazione si traggono subito alcune utili conclusioni. Ad esempio:
5.8 Relazioni tra processi stazionari
105
Se i due processi {Xt} e {yt} sono completamente incorrelati, cioe (h) == OVh , allora c('x) == s('x) == O. - Se consideriamo il processo somma S, == X, + yt, la sua componente di frequenza ,X e ei>..t {dZx (,X) + dZy (,X)} percio la sua densita spettrale risulta: lXY
!x+y (,\)
= E {dZx (,\) + dZ y (,\)} { dZ x (,\) + sz; (,\)} = == fx('x) + fy('x) + 2c('x) .
- Se yt == X; allora fxy('x) == fx('x) e quindi c('x) == fx('x) e s('x) == O. In maniera analoga al caso univariato, attraverso una trasformazione inversa si possono ottenere le espressioni delle funzioni spettrali in termini delle covarianze incrociate:
1 'LJ " lXY (h) ei>"h fxy (,X) == 21r
(5.32)
h
e separando parti reali e immaginarie si ottiene anche: (5.33) 1
s (,\) = 21f
L hxy (h) - 'Yxy (-h)} sin,\h . 00
(5.34)
h=l
La difficolta di trattare con funzioni complesse, e la considerazione che la dipendenza complessiva si esplicita attraverso Ie sole relazioni Iineari tra componenti di egual frequenza, consiglia di usare una diversa schematizzazione, in termini di regressione lineare tra componenti di egual frequenza. Fissato '\, la covarianza tra le ampiezze e fxy('\) , mentre come gia sappiamo le rispettive varianze sono pari alle densita spettrali univariate f x (,X) e f y (,\); pertanto Ia correlazione tra le due componenti si calcola facilmente, e il suo quadrato e detto funzione di coerenza:
K (,\) =
I!xy (,\)
2 1
fx (,\) fy (,\) .
(5.35)
Si noti che Kxy('x) == Kyx('x), percio non abbiamo scritto gli indici. La coerenza e una funzione pari, a valori compresi tra 0 e 1, e fornisce la correlazione (al quadrato) tra Ie ampiezze delle componenti di frequenza ,X nei due processio Se K('x) == 0 per ogni ,X tra 0 e 1r allora i due processi sono totalmente incorrelati e lXY (h) == 0 per ogni h. All'altro estremo se K('x) == 1 per ogni ,X vuol dire che c'e una perfetta relazione lineare tra le componenti cicliche di ogni frequenza nei due processi. Perche cia accada non e necessario che i due processi abbiano valori uguali 0 proporzionali, rna e sufficiente che l'uno sia un filtro lineare deIl'altro:
106
5 Processi stazionari
come si puo controllare facilmente: in effetti tutta l'analisi spettrale bivariata puo essere svolta studiando una regressione lineare dinamica delle {Xt } sulla ¥t, come e illustrato nel prossimo paragrafo. Dal punto di vista interpretativo, nel dominio frequenziale si esamina il grafico della funzione di coerenza per individuare quelle ciclicita le cui componenti hanno la correlazione pili rilevante tra i due processi (cioe le frequenze ,X alle quali K (,X) e pili vicina ad uno). Tra queste, pero si prendono in considerazione solo le frequenze alle quali ambedue i processi abbiano una densita spettrale di valore rilevante: in tal caso si puo dedurre come le associate componenti periodiche, di importanza non trascurabile in tutti e due i processi, siano legate linearmente. Un ulteriore passo consiste nel domandarsi se tali componenti di egual frequenza nei due processi siano sfasate (in altri termini, se i loro punti di massimo si realizzano contemporaneamente oppure no); una risposta e fornita dalla cosiddetta funzione di fase, pari all'argomento del numero complesso Jxy('x), cioe 'Pxy (,X) == arctan {s (,X) / c (,X)}; essa va interpretata nel modo usuale, cioe 10 sfasamento temporale misurato sull'asse dei tempi tra le due componenti si valuta pari a 'Pxy (,X) / ,X. I metodi che abbiamo introdotto per processi bivariati si possono generalizzare ai processi multivariati. Sia X (t) == {Xl (t) ,X2 (t) , ..., X m (t)}' un processo stocastico multivariato; esso si dice stazionario al secondo ordine se ha le medie costanti e tutte Ie covarianze tra variabili sfasate dipendono solo dal ritardo, cioe: E{Xj (t)} == Ilj Vt
Cov {Xi (t), X j (t + h)} == "'Iij (h)
Vt, h, i,j .
In tal caso, posta Il == (JL1, JL2, ..., JLm)' possiamo definire le matrici di crosscovarianza:
r (h) == E {[X(t) - JL][X(t + h) - JLJ'} == (("'Iij (h)))
(5.36)
che hanno la proprieta r (h) == r (- h)'. Le matrici di cross-covarianza non sono simmetriche, eccettuata r(O) che e la matrice di dispersione di X(t), e quindi e anche definita positiva. Si definisce anche la matrice delle densita spettrali, che ha sulla diagonale principale le densita spettrali dei processi univariati e agli altri posti Ie densita spettrali incrociate:
F (,X) ==
J1 (,X) J12 (,X) J21 (,X) J2 (,X)
JIm (,X) J2m (,X)
(5.37)
Im1 (,\) 1m2 (,\) ... 1m (,\) Percio la matrice F('\) e complessa, rna ha la diagonale reale. Poiche come si controlla facilmente, lij (,\) == Iji (,\) == Iji (-,\), trasponendo la matrice se ne ottiene la complessa coniugata: F (,X) == F (,X)', matrici con questa proprieta
5.9 Sistemi lineari bivariati
107
vengono dette Hermitiane. Inoltre F (,X)' == F (-,X). Si dimostra anche che F('x) e semidefinita positiva per ogni 'x. Gli elementi di r(h) sono termine a termine, le trasformate di Fourier degli elementi di F (,X), percio si scrive anche:
r (h) =
F(A) =
I:
e-i>.h F p.) dA
~ ~ 27f L.-t
(5.38)
r(h)ei>'h.
(5.39)
h=-oo
Per ottenere I'analogo delle correlazioni incrociate, cioe Ia matrice R(h) che ha al posta (i,j) l'elemento rij (h) == 1ij (h) / V1ii (0) 1jj (0), si definisce prima Ia matrice diagonale delle varianze:
111 (0) D==
o
o o
0 122 (0) ...
o
0
...
1mm (0)
e quella dei reciproci degli scarti quadratici medi:
S
==
D- 1 / 2
==
1/ V111 (0) 0 0 1/ V122 (0) ...
o
o
0 0
... I/V1mm (0)
con la quale otteniamo:
R(h) == Sr(h)S. Anche per le matrici di cross-correlazione vale R (h) == R (-h)'.
5.9 Sistemi lineari bivariati Cost come 10 studio della relazione lineare tra due variabili aleatorie puo essere impostato in termini di regressione lineare dell'una sull'altra, anche l'analisi delle relazioni lineari tra due processi puo essere inquadrata in un modo concettualmente analogo che potremmo chiamare di regressione dinamica: il processo {yt} viene pensato come risultato di un filtro Iineare applicato ad {Xt}, a cui viene sommata una componente di errore, assunta indipendente da {Xt} e a media nulla:
(5.40) u
La situazione schematizzata dalla (5.40) viene detta sistema lineare bivariato, e anche in questo caso si parla di sistemi fisicamente realizzabili se bu == 0 per
108
5 Processi stazionari
valori negativi di u. Le caratteristiche (di primo e secondo ordine) di {yt} sono percio determinate da quelle di {Xt } e dai pesi {bu } che quindi logico siano legati alle covarianze incrociate. Supponiamo per semplicita che E(Xt ) == 0 e indichiamo con re(h), fe(h) l'autocovarianza e la densita spettrale del processo {et}, che e supposto stazionario al secondo ordine (rna non necessariamente un rumore bianco). Quanto all'indipendenza tra {Xt} ed {et}, ci e sufficiente assumere che Cov {Xt, et+h} == 0 per ogni h. Le proprieta del processo {yt} si ottengono facilmente in modo analogo a quanto abbiamo gia visto per i filtri lineari:
e
u
u
(5.41) "/y (h) = Cov (Yt, Yt+h) = Cov {
~ buXt- u + et, ~ bvXt+h-v + et+h } =
== LLbubvrx(h+u-v)+re(h). u
v
(5.42) In particolare, se {Xt} ed {et} sono ambedue rumore bianco, rxy (h) == bh Var (X t ) . Nel dominio delle frequenze si ottiene invece, usando le (5.41) e (5.42) e ponendo B (A) == L bue- iuA:
fxy (A) == -1 L rxy (h) eiAh == -1 L L bur x (h - u) eiAh == 2K
2K
h
h
u
== B(A)fx(A)
(5.43)
1 L L L bubvrx(h+u-v)e iAh fy(A)==2K
h
u
1 L +2K
re(h)e iAh ==
h
v
== IB (A) 2 fx (A) + I; (A) .
(5.44)
1
e
Pertanto la funzione di trasferimento B (A) interpretabile come il coefficiente di regressione della componente di frequenza A di {Xt } sulla omologa componente di {yt}, e 10 sfasamento e dato dall'argomento del numero complesso
B(A): arctan
B (A) } {1m fxy(A) } { (A) } ReB (,X) =arctan Refxy('x) =arctan c('x) {1m S
gia definita come la funzione di fase <.pxy del processo bivariato. Dato che {yt} ela somma di due processi addendi indipendenti, la densita spettrale di {yt} e
5.9 Sistemi lineari bivariati
109
la somma di due densita spettrali, quella del filtro lineare e quella dell' errore, come si vede dalla (5.44). Analogamente al coefficiente di determinazione R 2 nella regressione, possiamo definire un coefficiente che misura quanta parte della varianza di ciascuna componente ciclica di {yt} e da attribuire all'effetto 2 di {Xt}, e quanta all'errore, rapportando la parte spiegata IB (A)1 fx (A) al totale fy(A), e utilizzando la (5.43) si ha:
IB (A)
2
fx (A) fy (A) 1
2
Ifxy (A) fx (A) fy (A) 1
Percio la coerenza e interpretabile anche come misura R 2 nella regressione tra componenti cicliche di frequenza A. Dalla (5.44) si ottiene anche:
fe (A) == {I - K (A)} fy (A) .
(5.45)
Percio se K(A) == 0 la densita spettrale di {yt} alla frequenza A e determinata completamente dall'errore, mentre se K(A) == 1 la componente di frequenza A dell'errore ha energia nulla. Se K(A) == 1 per ogni A allora et == 0 con probabilita uno e quindi {yt} e esattamente un filtro lineare di {Xt } ; all'altro estremo, se risulta K(A) == 0 per ogni A, 10 spettro di {yt} e determinato totalmente dall'errore perche fxy(A) == 0 per ogni A e quindi 1xy(h) == 0 per ogni h.
6 Processi lineari
Questo capitolo illustra i processi stazionari lineari, motivando la introduzione dei processi autoregressivi a somma mobile, le cui caratteristiche vengono esaminate in maggior dettaglio.
6.1 La decomposizione di Wold In questo capitolo esamineremo alcune classi di processi aleatori che per la lora semplicita costituiscono punti di riferimento obbligati quando si voglia descrivere e comprendere la struttura della dipendenza tra i diversi valori che un fenomeno dinamico assume al trascorrere del tempo. Particolarita comune alle classi che considereremo e che in esse si descrive il processo come output di un filtro lineare costruito su un altro processo con caratteristiche correlative pili semplici (tipicamente un rumore bianco).
L'importanza e la generalita di questi tipi di processi si basa su un imp ortante risultato, noto come decomposizione di Wold. Questo teorema assicura che praticamente ogni processo stocastico stazionario pub essere rappresentato come I'output di un filtro lineare il cui input e costituito da variabili incorrelate (quindi appunto un rumore bianco).
Teorema 6.1 (decomposizione di Wold). Ogni processo stocastico stazionario al secondo ordine con media J1 e misura spettrale F(A) pub essere decomposto nella somma di due processi aleatori:
(6.1) dove: 1.
e un processo stazionario con media nulla, misura spettrale assolutamente continua pari alla parte assolutamente continua di F(A); esiste un processo rumore bianco {et} e una serie di coefficienti {h j , j == 0,1, ...} con h o == 1 e Eh] < 00 tali eke:
lit
112
6 Processi lineari
L 00
lit ==
(6.2)
huEt-u .
u=o
2. W t eun processo esprimibile come combinazione lineare di sinusoidi aventi frequenze uguali ai punti di salto Aj della misura spettrale F(A), con ampiezze aleatorie la cui varianza e pari al valore del salto:
W t ==
L {A j cos (Ajt) + B, sin (Ajt)} .
(6.3)
j
Fino ad ora ci siamo sempre occupati di processi che possedevano densita spettrale, cioe con misura spettrale assolutamente continua: per essi vale direttamente la (6.2), cioe possono direttamente essere pensati come risultato di un filtro lineare su un rumore bianco. E quest 'ultimo il risultato essenzialmente nuovo del teorema: ne forniamo una spiegazione (sostanzialmente corretta anche se non rigorosa). La densita spettrale f(A) del processo e non negativa, percio si puo sempre trovare una funzione a valori complessi ¢(A) 2 tale che f (A) == ¢ (A) che sotto alcune condizioni (1 ) puo essere espansa in serie di Fourier: I
1
L 00
¢ (A) ==
hue-
iu A
(6.4)
.
u=o Se nella rappresentazione spettrale del processo (5.7) poniamo dV (A) == dZ (A) / ¢ (A) otteniamo:
x, -
i:
J.L =
e sostituendo la (6.4):
x, -
J.L =
L hu u
Poniamo: et
II processo in quanto:
{Et}
=
i:
i:
eit>.¢ (>.) dV (>.)
ei(t~u)>'dV (>.) .
=
I:I:
i:
Cov (et, et+h) = E
(6.5)
eit>'dV (>.) .
(6.6)
descritto dalla rappresentazione spettrale
e quindi:
1
i:
ei>.tdZ (>.) =
i:
e un rumore bianco
ei>.te-iw(t+h)dV (>.) dV (w) = 2
e-i>.h E IdV (>')1 =
e-i>.hd>. = 0,
h
f
°.
richiedere che l'integrale J:'7r log f (A) d): esista. I processi che non soddisfano questa proprieta vengono detti singolari 0 deterministici.
E necessario
6.1 La decomposizione di Wold
113
Pertanto la rappresentazione (6.5) si puo scrivere:
L huEt-u . 00
X; -
J-L
==
(6.7)
u=o
II teorema di decomposizione di Wold e stato ricavato nell'ambito della teoria della previsione, e in essa assume ulteriori significati come vedremo nel seguito. Esso collega in qualche modo la stazionarieta (debole) e la Iinearita, poiche mostra come i processi stazionari si possono pensare come filtri lineari su un rumore bianco: rna va tenuto presente che questo teorema fornisce una sola tra le tante possibili rappresentazioni, e non esclude quindi che la natura delle relazioni tra le variabili del processo sia non lineare, 0 che esista una rappresentazione di X, mediante l'uso di funzioni non lineari, che sia pili semplice e meno dispendiosa in termini di parametri della (6.7) che coinvolge una infinita numerabile di coefficienti h u . Se indichiamo con a 2 la varianza delle Et, le caratteristiche di {X t } possono essere espresse in funzione dei pesi h., ricordando le regole dei filtri lineari:
L L huhsE (Et-UEt+T-S) == L huhu+Ta 2 00
1x (T) ==
00
00
u=os=o
T2::0
u=o
e chiamando:
L i;«": 00
H (>..) ==
u=o la funzione di trasferimento, si ottiene la densita spettrale: 2
f (>..) == IH (>")1 2 ~ 2n
.
In sostanza le proprieta di secondo ordine del processo sono completamente determinate dalla successione dei pesi {h u } 0 equivalentemente dalla sua trasformata H(>..). Per ricavare pili facilmente alcuni risultati e comodo ricorrere agli operatori di ritardo B, con i quali il processo puo essere scritto:
L huBUEt == H (B) Et 00
X, -
J-L
==
u=o
dove si e usato 10 stesso simbolo H della funzione di trasferimento per indicare la funzione generatrice dei pesi H(B):
L huBu . 00
H (B) ==
u=o
Naturalmente, non tutte Ie possibili scelte dei valori dei pesi {h u } corrispondono a filtri che producono un output limitato e stazionario: bisogna tener presente che la tesi del teorema di Wold implica:
114
6 Processi lineari
h o == 1 Non e detto inoltre che il filtro possa essere invertito permettendo la espressione del rumore bianco ct in funzione di Xt: (6.8) Sappiamo gia che cio epossibile se tutte le radici dell'equazione H(z) == 0 hanno modulo maggiore di uno. In tal caso il processo si dice invertibile (anche se pili precisamente dovremmo dire che ammette una rappresentazione invertibile). Poiche H(O) == 1 si ha anche H- 1(O) == 1 e quindi la rappresentazione invertita (6.8) si esplicita in:
L 00
x,
==
Co
+
CjXt - j
+ ct
j=1
dove Co == H (B)-1 J1 == J1 (1 - Cl - C2 - ... ). Questa decomposizione e utile nelle previsioni perche descrive X; come somma di due termini, dei quali il primo e funzione lineare dei dati passati, mentre il secondo e con essi incorrelato, infatti Cov (X t - s , ct) == 0 per s == 1,2, ... (come si ottiene subito sostituendovi la (6.7) e ricordando che {Ct} e rumore bianco). Passeremo adesso a imporre particolari vincoli sulla forma dei pesi {h u } , ottenendo classi diverse di processi stocastici che studieremo pili in dettaglio. II motivo per cui si ricorre a queste restrizioni e fondamentalmente che la rappresentazione di Wold dipende in linea di principia da un numero infinito di parametri hI, h 2 , ... , il che ne limita I'applicabilita (in quanto non epossibile evidentemente stimare un numero infinito di parametri), e quindi cerchiamo di ricondurci a una schematizzazione che richieda un numero finito di termini. La scelta pili semplice che si possa compiere e quella di considerare solo i primi pesi hI, h2 , ... , h q con un fissato q, si suppone cioe che sia h j == 0 per j > q, in tal caso il processo e descritto da una combinazione lineare finita:
X t == J1
+ Ct + h 1 Ct-l + h2Ct - 2 + ... + hqct-q
(6.9)
e viene chiamato processo a media mobile di ordine q: X; M A (q). La denominazione media mobile (M A==moving average), anche se di uso generalizzato, e alquanto impropria poiche la somma dei pesi della combinazione lineare (6.9) non e pari a uno, pertanto qui si preferira la qualificazione di processi a somma mobile. In alternativa si puo cercare di descrivere con un numero finito di termini il polinomio inverso: H (B)-I == 1 -
CI
B -
C2 B 2 -
... - cpBP .
In questo caso, sotto la condizione che il polinomio 1 - CIZ - C2Z2 - ... cpzP abbia radici solo con modulo maggiore di uno, il processo puo essere rappresentato con la equazione seguente:
6.2 Processi puramente autoregressivi
115
dove Co == Jl(l - CI - C2 - ... - cp ) , che costituisce una versione finita della rappresentazione invertita, ed esprime X; in funzione lineare del suo recente passato. Questi processi vengono chiamati autoregressivi di ordine p: X, AR (p). Si puo infine pensare che una maggiore efficienza in termini di riduzione del numero di parametri si consegua usando tutte e due Ie limitazioni simultaneamente, e considerando cioe polinomi H(B) che possono essere espressi come "rapporto" di due polinomi di grado finito: f'..I
H (B) == ~ (B)-l dove:
e (B) == 1 -
e (B)
OIB - 02B2 -
- OqBq
fJ> (B) == 1 - cPIB - cP2 B 2 -
- cPpBP
e si e introdotta la simbologia proposta da Box e Jenkins, ormai usata in modo generalizzato nell'analisi delle serie temporali. Se le radici di ~(z) sono al di fuori del cerchio unitario, la rappresentazione si puo scrivere: ~
(B) (X t
-
Jl)
==
e (B) Et
ovvero:
dove Co == Jl (1 - cPI - ... - cPp). Questi processi vengono detti misti 0 processi autoregressivi a somma mobile di ordine (p,q): X, ARMA(p,q). Passiamo ad esaminare pili nel dettaglio ciascuna classe. Per semplificare la trattazione considereremo solo gli scarti dalla media, cioe i processi del tipo Zt == X t - M: nelle loro rappresentazioni autoregressive e a somma mobile scompare il termine costante Co proporzionale ana media, poiche E(Zt) == O. f'..I
6.2 Processi puramente autoregressivi II processo puramente autoregressivo di ordine p soddisfa l'equazione: (6.10) che si puo anche scrivere:
dove come gia detto {Et} e un rumore bianco con E(Et) == 0, E(E;) == 0- 2 . Porche la (6.10) corrisponda a una rappresentazione di Wold e necessario che
116
6 Processi lineari
il polinomio nell'operatore B sia invertibile, e quindi le sue radici devono essere est erne al cerchio unitario: q> (z)
== 0 =} Izi > 1 .
(6.11)
Questa condizione viene detta generalmente condizione di stazionarietd poiche la relazione (6.10) nel caso che essa non valga, porterebbe a una espansione di Zt in funzione lineare degli ct-u non convergente, e quindi con varianza infinita. Immaginando in alternativa che il processo abbia origine a un tempo fissato (diciamo t == 0), Z, puo essere espresso come combinazione lineare di {cs, s == 0,1, ..., t}, rna la sua varianza cresce in modo illimitato con t se non vale la condizione di stazionarieta. Se invece la condizione di stazionarieta e soddisfatta, Zt ammette una espansione come combinazione lineare delle Ct di ordine infinito rna convergente, a volte detta anche a media mobile infinita e indicata con MA(oo): Zt == ct + ~lCt-l + ~2Ct-2 + .... La (6.10) corrisponde all'idea intuitiva che il valore del processo al tempo t puo essere pensato come la somma di due termini, uno determinato dalla sua storia passata (cPIZt-l + ... + cPpZt-p) e uno incorrelato con essa (Ct: infatti da Z; == e, +~lcs-l +~2cs-2 + ... si ottiene subito che la covarianza tra Ct e Zt-j e nulla per j positivo). Percio un processo AR(p) ha memoria solo di quanto e successo nei p istanti precedenti, mentre la parte "nuova" di Zt, non legata al passato, e data da e.: cio spiega perche Ie ct vengono chiamate innovazioni (0 anche urti 0 residui). Studiamo ora i momenti secondi. II modo pili diretto e quello di moltiplicare ambo i membri della relazione (6.10) per Zt-h (h positivo) e prendere la media:
E (ZtZt-h) == ¢lE (Zt-lZt-h) + ¢2E (Zt-2Zt-h) + ...
+ cPpE (Zt-pZt-h) + E (Zt-hCt) cioe, ricordando che E(Zt) == 0 e che Zt-h
e incorrelato con Ct:
e ovviamente per lags negativi ,(h) == ,( -h). Per la varianza invece si pone h == 0, e considerando che E (ZtCt) == E {c; + ~lctct-l + ~2ctCt-2 + ...} == E (c;) == a 2 :
Questi risultati possono essere espressi agevolmente anche in funzione delle autocorrelazioni r(h). Dividendo ambo i membri della prima per ,(0) si ha: (6.12) Per la seconda si dividono e moltiplicano per ,(0) i termini che contengono ,(.) al secondo membro, e poi si ricava ,(0) al primo membro ottenendo:
6.2 Processi puramente autoregressivi
"( (0) = 1 _
a2
(2) _ ... -
(p) .
117
(6.13)
La formula (6.12) mostra come sussista una relazione lineare tra l'autocorrelazione e i parametri autoregressivi ePI, eP2' ..., ePp. Essa puo essere usata in due modi, studiando i parametri ePi in funzione delle autocorrelazioni oppure le autocorrelazioni in funzione dei parametri. Se considerassimo i parametri autoregressivi come incognite, scrivendo la (6.12) per h == 1,2, ... ,p avremmo un sistema lineare di hequazioni, nonomogeneo. In termini matriciali, se adottiamo la notazione:
eP == (ePI, cP2' ..., cPp) I, r == {r (1) , r (2) , ..., r (p) } I, R == ((r (i - j)) il sistema puo essere scritto:
ReP == r . Queste equazioni prendono il nome di equazioni di Yule e Walker e risolvendole (la soluzione esiste unica poiche la matrice di autocorrelazione R e definita positiva e ammette inversa) si ottengono i parametri in funzione delle autocorrelazioni:
(6.14) Vediamo adesso come la stessa formula (6.12) determina l'andamento dell'autocorrelazione in funzione dei ePI' eP2' ..., ePp: essa e un'equazione del tipo detto aIle differenze finite, di ordine p. La teoria delle equazioni alle differenze finite costituisce un capitolo dell'analisi matematica sul Quale non scendiamo in dettaglio, osservando solo che vi sono molte analogie con Ie equazioni differenziali lineari. Se z e una radice dell'equazione detta associata:
xP -
A. p-l \f/IX -
A. p- 2 \f/2 X -
... -
A. \f/p-IX -
A. \f/p -
0
(6.15)
allora la forma r(h) == z" risolve la (6.12), poiche sostituendo si ha:
zh == ePl zh- 1 + eP2 zh- 2 + ... + ePpzh- p che si ottiene dalla equazione associata moltiplicando ambo i membri per zh-p. Ne concludiamo che la soluzione generale della equazione aIle differenze e:
(6.16) dove
Xl, X2, ... , X p
sono le soluzioni dell'equazione associata (6.15), e Ie costanti
aI, a2, ... , a p sono determinate da p condizioni iniziali. Per queste radici vale:
percio la condizione di stazionarieta implica 11/xjl > 1 ovvero IXjl < 1 per ogni i, il che a sua volta implica che r( h) tende a zero quando h tende all'infinito.
118
6 Processi lineari
Per la densita spettrale, ricordando che {Xt } e un filtro costruito sul rumore bianco {et} il Quale ha densita spettrale pari a 0- 2 / (27r), e la funzione di trasferimento del filtro e:
otteniamo:
f(A)
222
==
IH(A)1 2 ~ 27r
0-
==
2
27r
11 -
~
14> (eiA)-ll
27r
==
1
¢leiA-
¢2 ei 2A -
... - ¢peiPAl2 .
(6.17)
L'andamento delle funzioni di autocorrelazione e di densita spettrale puo essere molto vario, e per approfondire 10 studio vediamo pili da vicino i processi con ordine fissato p, partendo dal pili semplice con p == 1.
Processo autoregressivo del primo ordine. Considerando sempre scarti dalla media, il processo Zt
r-...J
AR(I) obbedisce a:
e corrisponde alla forma generale per p == 1, 4>(B) == (1 - ¢B). La condizione di stazionarieta, che si scrive: 1 - ¢z == 0
implica, come polinomio:
e immediato
=}
verificare,
Izi > 1
I¢I <
1. Qui
e facile
invertire il
percio la rappresentazione di Wold del processo e:
L 00
z, ==
¢uet_u .
u=o L'autocorrelazione soddisfa l'equazione alle differenze del primo ordine:
r (h) == ¢r (h - 1)
h == 1,2, ...
e poiche r(O) == 1 scrivendola per h == 1,2, ... si ottiene r(l) == ¢, r(2) 1r(1) == 12 , r(3) == 1r(2) == 13 e cost via da cui: h == 0,1,2, ...
e di conseguenza sostituendo nella (6.13):
6.2 Processi puramente autoregressivi
o
119
2 4 6 8 10 12 14 16 18 20 22 24
-1
(b)
(a)
Fig. 6.1. Correlogramma teorico: (a) AR(l) con ¢ == 0.8 ; (b) AR(l) con ¢ == -0.8
h
== 1,2, ...
mentre per la densita spettrale:
a2
1
f(>') = 21f 11- ¢ei A l2
a2 1 211" 1 + ¢2 - 2¢ cos A .
L'andamento di r(h) e f(A) dipende dal segno di ¢: se ¢ e positivo l'autocorrelazione ha valori tutti positivi decrescenti esponenzialmente, se ¢ e negativo invece i valori assoluti sono uguali rna r( h) ha segno alterno, con i lags dispari caratterizzati da autocorrelazione negativa. La densita spettrale ha un andamento essenzialmente determinato dal COSA al denominatore, che al crescere di A da 0 a 11" decresce in modo monotono: il coseno e al denominatore rna ha il segno meno, e quindi se ¢ e positivo conferisce analogo andamento alla densita spettrale, se invece ¢ e negativo il coefficiente di COSA al denominatore sara positivo, e la densita spettrale risultera monotona crescente. La situazione e illustrata nelle figure 6.1 e 6.2. I grafici di una realizzazione finita di un processo autoregressivo sono riportati nelle figure 5.4a (¢ negativo) e 5.4b (¢ positivo). Quando ¢ > 0 le variabili ritardate son. tutte correlate positivamente, quindi l'andamento tendera a mostrare una cert.a inerzia e oscillazioni ampie che comportano un addensarsi della densit l spettrale alle frequenze basse (periodi lunghi). Viceversa, se ¢ < 0 le varial ili contigue sono correlate negativamente, percio a un dato sopra la media tende a succedere un dato sotto la media e cosi via: questo produce un andamento a "dente di sega" con oscillazioni rapidissime (il periodo minimo discernibile e 2) e conseguente addensarsi della densita spettrale alle frequenze alte. Ritornando alla relazione dinamica che caratterizza il processo autoregressivo del primo ordine: Z; == ¢Zt-l + ct
vediamo che il valore al tempo t e determinato da una quota del valore precedente, pili un'altra parte di innovazione, incorrelata con essa. Se supponiamo che la distribuzione di {ct} sia normale (e cia implica che anche Z; ha distribuzione normale), i due termini dell'equazione diventano indipendenti: allora
120
6 Processi lineari 7
7
O· 0
, /2
(a)
,
o. 0
,
, /2
(b)
Fig . 6 .2 . Densita spet trale teorica:(a) AR(l) can ¢ = 0.8 ; (b) AR(l) can ¢ = -0.8
la distribuzione di probabilita di Z; dato Zt -I dipend e solo da Et che e indipendente da {Zt - s, S > O} : questa e la proprieta di Markov . Se ne conclud e che un proc esso autoregressivo del primo ordine gaussiano e markovi ano . Puo apparire a prima vista strano che, nonostante Zt dipenda solo da Zt - I e quindi la memori a del processo sia limitata al solo istante precedente , tu ttavia la funzion e di autocorrelazione r(h) non si annulla mai , e dunque anch e due variabili molto dist anti nel tempo rimangono correl at e. Ma cio si spiega perche esiste una catena di variabili che le collega, in cui ciascuna vari abi le influenza la successiva: Zt influisce linearmente su Zt+l, questa influisce linear ment e su Zt+2, quest 'ultima su Zt+3 e cost via, percio le variazioni di Z; vengono a influire linearmente anche su Zt +h, per quanta evidentemente la forza del legame diminuisce all'aumentare del lag. Infatti usando ripetutamente la relazion e possiamo scrivere :
Zt
=
h- I ¢ Zt-I +Et = ¢ (¢ Zt- 2 + Et-d + Et = ... = ¢hZt_h + I: ¢uEt- u u=o
che spiega ulteriorment e come mai la correlazione tra Zt e Zt -h e ¢h (infatti il coefficiente di correlazione e ugua le al coefficient e di regressione perche le varianze di Zt e Zt-h sono uguali). In sostanza la corr elazione tra Z, e Zt-h e origin ata dall 'influenza delle variabili int ermedie Zt -I, Z t- 2,...,Z t- h+ l, e il concetto int uitivo di memoria e legato a una misur a del legame lineare t ra due variabili depurato dell'influenza esercitata dalle altre intermedie. Tale misura eadoperata nella regressione lineare e prende il nome di corre lazione parziale. Nel nostro attuale cont esto si definisce la funzione di autocorrelazione parzial e, che misura la corre lazione tra Zt e Zt -h a parita delle variabili intercorrenti Zt -I , Zt -2 ,...,Zt -h+l : 7r
(h) = Carrel {Zt , Zt -h IZt- l , Zt -2 , ..., Zt -h+l}
h = 2,3 , ...
Per ottenerla, secondo la teoria della regressione lineare, si effettua prima una regressione di Zt su (Zt -I , Zt -2 , ..., Zt -h+I), poi una regressione di Zt -h su (Zt -I , Zt -2, ..., Zt-h+d e si calcola la correlazione tra i residui delle due regressioni. Nel caso del processo AR(l) , e evidente che la
6.2 Processi puramente autoregressivi
121
regressione di Z, su (Zt-l, Zt-2, ..., Zt-h+l) coincide con la relazione autoregressiva Zt == cPZt-l + ct, quindi i residui della prima regressione sono gli Ct. I residui della seconda regressione invece saranno del tipo TIt == Zt-h - CI Zt-l - C2 Zt-2 - ... - Ch-l Zt-h+l. Ma poiche ct incorrelato con tutte le Zt-s, s > 0, abbiamo Cov (ct, TIt) == 0 e di conseguenza per un processo AR(l) si ha 1r (h) == 0, h == 2, 3, .... Per completare la definizione della funzione di autocorrelazione parziale si pone coerentemente 1r (0) == 1 e 1r (1) == Carrel {Zt, Zt-l 10} == r (1). La funzione di autocorrelazione parziale viene usata molto spesso nell'analisi delle serie temporali perchc caratterizza bene i processi autoregressivi. Per un processo autoregressivo del primo ordine abbiamo visto che i suoi valori sono nulli per argomenti maggiori di uno, mentre 1r (1) == r (1) == cP.
e
Processo autoregressivo del secondo ordine. La relazione ricorsiva e:
ottenuta dalla forma generale per p == 2 e ~ (B) == 1 - cPIB - cP2B2. La condizione di stazionarieta imp one che le radici dell'equazione:
abbiano modulo maggiore di uno. Le due radici sono:
e possono essere reali oppure complesse coniugate a seconda che L1 == cPi +4cP2 sia positivo 0 negativo. II discriminante e negativo quando cP2 e negativo e minore di -cPi /4. In corrispondenza a questi valori di cP2, poiche ZI e Z2 sono complesse coniugate e hanno modulo uguale: IZ l l == Z21 == JZIZ2 == IcP21, la condizione di stazionarieta implica IcP21 < 1. Quindi il processo sara stazionario con radici complesse se -1 < cP2 < 0 e IcPll < 2 IcP21 (quindi al variare di cP2' il valore di cPl spazia da -2 a +2). II caso di discriminante non negativo si ha invece quando cPi ~ 4cP2. Allora le radici ZI e Z2 sono reali, quindi la parabola x 2 - cPIX - cP2 si annulla nei due punti ZI e Z2, che per la condizione di stazionaricta devono essere interni all'intervallo (-1,1) (si veda la Fig. 6.3). Poiche il minimo ha ascissa cPl/2, questo dovra essere compreso tra le radici, quindi -1 < cPl/2 < 1 ovvero IcPll < 2. Per assicurarci ora che le radici siano comprese tra -1 e 1 esufficiente richiedere che la parabola abbia valore positivo sia per x == -1 sia per x == + 1: questi valori risultano 1 + cPl - cP2 e 1 - cPl - cP2' quindi cP2 - cPl < 1 e cP2 + cPl < 1. In definitiva i valori dei parametri (cPl' cP2) per i quali il processo soddisfa la condizione di stazionaricta sono definiti dalle disuguaglianze: I
122
6 Processi lineari
2
-1
z1
o
z2
-1 Fig. 6.3. Comportamento della parabola x 2
-2
-1
o
-
cPI X -
cP2
~1~ 2
Fig. 6.4. Regione di stazionarieta del processo AR(2)
che implicano anche I¢21 < 1. Dal punto di vista geometrico, considerando le regioni del piano (¢l, ¢2) che corrispondono al soddisfacimento della condizione di stazionarieta si ottiene la Fig. 6.4, nella quale si evidenzia il triangolo di vertici (-2, -1), (2, -1), (0,1) che e a sua volta suddiviso in due porzioni dalla parabola ¢i + 4¢2 == 0, la quale separa i casi di radici complesse (al di sotto) da quelli di radici reali (al di sopra). La funzione di autocorrelazione soddisfa:
Per determinare le costanti al e a2 prendiamo come condizioni iniziali i primi due valori r(O) e r(I): poiche dalla (6.12) scritta per h == 1 si ricava r (1) ==
6.2 Processi puramente autoregressivi
cPl/ (1 -
123
cP2) mentre naturalmente r(O) == 1, otteniamo:
cPl
--.J,-
1- ,+,2
== r (1) == alZl + a2Z2
e risolvendo rispetto ad al e a2 (notando che dall'equazione associata e dalle relazioni tra radici e coefficienti dell'equazione di secondo grado discende cPl == Zl + Z2, cP2 == -ZlZ2), si arriva a: (6.18) Questa espressione da luogo ad andamenti molto diversi a seconda dei vari valori di cPl e cP2 e in particolare il comportamento cambia, anche in questo caso, a seconda che lc radici siano reali 0 complesse. Se le radici sono reali (cPi + 4cP2 ~ 0) e cPl epositivo si ricava che Zl > 0 , Z2 > 0 e quindi l'autocorrelazione (6.18) ha valori sempre positivi e decresce verso 10 zero come una combinazione lineare di esponenziali, mentre se cPl < 0 le radici non hanno 10 stesso segno e ferma restando la decrescita verso 10 zero, essa puo avere segno alterno. Nel caso di radici complesse, invece, cioe quando cPi + 4cP2 < 0, poniamo Zl == pe'": Z2 == pe- i B. Si noti allora che ZlZ2 == p2 == -cP2 (poiche cP2 e negativo), Zl - Z2 == 2ipsin(), e la (2.90) diventa: h
r (h) == P
sin () (h + 1) - p2 sin () (h - 1) (1 + p2) sin ()
che puo essere espressa nella forma pili semplice:
r (h) = ph sin (~B + CY) sm o
dove p == J-cP2, () e l'argomento delle radici e si puo ricavare da Zl + Z2 2p cos () == ¢l, quindi () == arccos { ¢l / (2J -¢2) }, e a e definito da tan a
== ==
~~p~ tanB e).
La forma dell'autocorrelazione e dunque determinata da un termine esponenziale ph (ricordiamo che Ipl < 1) decrescente, moltiplicata per una funzione sinusoidale, che risulta in un andamento oscillatorio con ampiezza decrescente (un esempio e in Fig. 6.5). Se ci fosse solo la componente seno (il che corrisponderebbe a mandare p a 1 e quindi ¢2 verso -1) allora l'autocorrelazione 2
Questo risultato si ottiene sviluppando sin B(h + 1) e sin B(h - 1) con la regola degli angoli somma sin(a + (3) == sin a cos {3 + cos a sin (3, ottenendo: h
r (h) = (
P2)' () [( 1 -
1+P
SIn
l) sin ()h cos () + (1 + /) cos ()h sin ()]
Ponendo poi sin a == c( 1 + p2) sin (), cos a == c( 1 - p2) cos B (dove la costante c dalla relazione sin 2 + cos 2 == 1, rna scompare nella r(h) essendo presente sia al numeratore che al denominatore) si ottiene il risultato.
e determinata
124
6 Processi lineari
-1 Fig. 6.5. Correlogramma teorico di un AR(2) con cPl == 0.75, cP2 == -0.5 (radici complesse)
assumerebbe valore uno per gli argomenti multipli di 211"/() == T: se questo numero fosse intero, vorrebbe dire che lc variabili a distanza T avrebbero correlazione pari a uno, ci troveremmo quindi di fronte a un andamento esattamente periodico di periodo T. Nel caso concreto di stazionaricta, invece, I¢21 < 1 e quindi l'andamento sinusoidale e smorzato dal termine (vi-¢2)h, e quindi la relazione lineare tra le variabili non perfetta, rna tende ad indebolirsi nel tempo. Anche in questo caso, pero, ci aspettiamo che il comportamento del processo mostri una tendenza a ripetersi ciclicamente dopo T istanti, anche se essa e perturbata da altre fonti di variazione casuale: per questo i processi autoregressivi del secondo ordine vengono detti pseudo-periodici. Un esempio di un tratto finito di una realizzazione di un processo di questo tipo e riportato nella Fig. 5.4c dove si vede chiaramente la natura pseudo-ciclica dei dati. II sistema di equazioni di Yule-Walker e:
e
e perrnette di esprirnere i pararnetri in funzione delle autocorrelazioni:
(h = r (l){l - r ;2)} 1 - r (1) II processo autoregressivo del secondo ordine non emarkoviano poiche dipende dai due dati precedenti, ha cioe memoria due. Consideriamo la autocorrelazione parziale Carrel {Zt, Zt-h IZt-l, ..., Zt-h+l}: per h > 2 il residuo della regressione di Zt su Zt-l, Zt-2, ... , Zt-h+l e Et che e incorrelato con il residuo della regressione di Zt-h su Zt-l, Zt-2, ... , Zt-h+l (il quale e una combinazione lineare di Zt-j,j == 1, ...,h). Pertanto 11"(h) == 0 per h > 2. Per h == 2, la
6.2 Processi puramente autoregressivi
125
variabile condizionante e la sola Zt-l, percio possiamo applicare la formula del coefficiente di correlazione parziale usata nella regressione:
che, identificando X con
z;
Y con
Zt-2,
W con
Zt-l
diventa:
In conclusione:
1f(1) = r(l)
=~; 1- ¢2
1f(2) = (h;
1f(h) = 0 h > 2.
Infine, la varianza puo essere scritta: a2
, (0) == -1---¢-lr-(1-)---¢-2r-(-2) Passiamo adesso al dominio delle frequenze. La densita spettrale si ottiene dalla regola generale:
a2 27r
11 -
1
¢l ei >..
-
¢2 ei2>" 12
che puo essere riscritta in termini reali come segue:
La densita spettrale puo essere, a seconda del valore dei parametri ¢l e ¢2, monotona crescente 0 decrescente oppure avere un massimo (unico) interno, il che accade quando I¢l (1 - ¢2) / (4¢2) I < 1, e il massimo si raggiunge alla frequenza AQ == arccos {¢l (¢2 - 1) / (4¢2)}. In tal caso c' e un picco nello spettro alla frequenza AQ, e ci possiamo attendere che il comportamento del processo evidenzi questa tendenza alla periodicit.a. Questo andamento corrisponde al caso che abbiamo esaminato sotto il profilo del dominio temporale, in cui le radici dell'equazione x 2 - ¢lX - cP2 == 0 siano complesse. Tuttavia, come e osservato da Piccolo (1974) non c'e perfetta coincidenza ne tra Ie condizioni necessarie perche si verifichi il fenomeno, nc tra Ie frequenze caratteristiche, a giustificazione ulteriore che si tratta di una pseudo periodicita e per tale motivo viene percepita in modo diverso dai diversi strumenti che utilizziamo nei due domini temporale e frequenziale.
126
6 Processi lineari
Processi autoregressivi di ordine superiore. Quando si considerano processi autoregressivi di ordine p > 2:
la varieta dei lora comportamenti puo essere molto grande, e l'andamento della
r( h) e della f (A) il pili vario, pur rispettando alcune caratteristiche generali. La
funzione di autocorrelazione rispetta comunque la forma (6.16), e quindi puo risultare da una combinazione lineare di termini esponenzialmente decrescenti verso 10 zero, con segno costante 0 alterno (corrispondenti a radici reali) e di termini sinusoidali smorzati verso 10 zero al crescere di h (corrispondenti a coppie di radici complesse coniugate). Per la funzione di autocorrelazione parziale, ripercorrendo il ragionamento svolto prima, ci si rende conto che essa si annulIa per argomenti maggiori di p, mentre al ritardo p vale cPP (ed e in genere diversa da zero per h < p):
7r (h) == 0 h > P Si faccia attenzione che la coincidenza tra 7r(') e cP avviene solo per l'ultimo ritardo, pari all'ordine del modello. II valore effettivo dell'autocorrelazione parziale potrebbe essere espresso in funzione delle autocorrelazioni ordinarie in modo piuttosto complicato (ad esempio Box e Jenkins, 1970): si puo dimostrare che 7r(h) e pari al rapporto tra due determinanti: 7r(h) == IQhl/IRhl dove Rh e la matrice di autocorrelazione di dimensione h, con elemento (i, j) pari a r(i - j), e Qh si ottiene da Rh sostituendo l'ultima colonna col vettore [r(I),r(2), ... ,r(h)]'. Ma esiste un modo pili semplice per ricavarle. Infatti la 7r( s) puo essere pensata come il coefficiente di Zt-s nella regressione di Zt su Zt-l, Zt-2, ..., Zt-s, e per questo motivo sara uguale all'ultimo parametro cP nel sistema di Yule-Walker (6.12) scritto per s equazioni (cioe per i ritardi h == 1,2, ..., s). Se indichiamo come prima con R m la matrice di autocorrelazione con m righe e colonne, e con:
rm
cPm
== ==
{r (1), r (2), ..., r (m)}'
(cPm,l, cPm,2, ..., cPm,m)'
i coefficienti della regressione di Z, su Zt-l, Zt-2, ..., Zt-m sono dati dal vettore cPm che soddisfa il sistema:
cPm
== R~lrm
(6.19)
e quindi 7r (m) == cPm,m. La (6.19) ha per m == 11a soluzione ovvia cPl,l == r(I), e puo essere risolta iterativamente per m crescente attraverso un ingegnoso metoda ideato da Durbin (1960) che fornisce anche il coefficiente di determinazione di ogni regressione, che e dato da:
6.2 Processi puramente autoregressivi
127
Le formule di Durbin sono: m
¢m+1,m+1
¢m+1,j
~
r (m + 1) - L ¢m,jr (m + 1 - j) j=l -----m ------1 - L ¢m,jr (j) j=l
¢m,j - ¢m+1,m+1¢m,m+1-j
~
j
(6.20)
~ 1,2, ... , m
(6.21)
e permettono di calcolare i vettori ¢m iterativamente per valori crescenti di m, a partire da ¢1,1 ~ r(l): 1r
(2) =
d.
tr2,2
= r (2) - r (1)2. 1- r ()2 1
¢2,1 ~ ¢1,1 - ¢2,2¢1,1 ~ r
'
(1)
1 - r (2)
( )2
1- r 1
e cost via. II metodo di Durbin e un esempio istruttivo di come l'algebra lineare possa permettere il raggiungimento di utili risultati. Esso si basa sulla seguente proprieta delle matrici: se A e una matrice quadrata regolare simmetrica n x n, eve un vettore n xl, allora:
Questa proprieta puo essere controllata verificando che M M- 1 ~ M- 1 M ~ I. Ora, posta Tm ~ {r (m), r (m - 1) , ..., r (2), r (I)}' si verifica subito che per le matrici di autocorrelazione vale:
e quindi: -1 R rn-l-L
[R0":- 0] 0 + 11
-
1
r-,m Rm rm 1-
[R
- 1R- 1 R- 1- ] mrmrmm-mrm rz]
1
-r~R~l
e questa relazione permette di esprimere iterativamente la soluzione delle equazioni di Yule-Walker per ordini m crescenti. Osserviamo che rm e il vettore dei termini noti delle equazioni di Yule-Walker scritte in ordine inverso, cioe per m, m -1, ...,2,1. Se poniamo ¢m ~ {¢m,m, ¢m,m-1, ..., ¢m,2,¢m,l}' il sistema si puo scrivere Rm¢m ~ r m e quindi ¢m ~ R~lrm' Pertanto l'inversa si puo riscrivere nel modo seguente: -1
R m+ 1
_
-
(
R m-1 0 ) 0' 0
1
+ 1-r~¢m
¢m¢m -, -¢m -:
[-
-([J'm
1
.
128
6 Processi lineari
Calcoliamo adesso gli elementi del vettore ¢m+ 1 == R~~ 1 r m+ 1 tenendo conto che r~+ 1 == {r~, r (m + I)}. Se usiamo la stessa decomposizione anche per il vet tore cPm+ 1 :
otteniamo:
-¢'mrm + r (m + 1) cPm+l,m+l == - - - - - - - 1-
r;»:
che fornisce la prima formula di Durbin, e: ¢*'
== R~lrm + ¢m [¢~rm - r (m + 1)] / (1 - r~¢m) == == cPm - cPm+l,m+l¢m
da cui deriva la seconda formula.
6.3 Processi puramente a somma mobile II processo a somma mobile rumore bianco:
e generato
da un filtro finito costruito su un
e quindi e sempre stazionario mentre e invertibile se Ie radici di 8(z) giacciono al di fuori del cerchio unitario, pertanto Ie condizioni da imporre sui parametri ()j per ottenere l'invertibilita sono Ie medesime che sono richieste ai cPj di un processo puramente autoregressivo per la stazionarieta. Ritroveremo spesso analoghe forme di simmetria tra processi AR e M A, per cui si parla di dualiti: tra i due schemi. Si possono applicare i risultati del filtraggio lineare ponendo Zt == EuCuEt-u con Co == 1, Cu == -()u, u == 1,2, ..., q e Cu == 0 altrimenti, e si ottiene:
u
u
== a 2 (-()h
+ ()l()h+l + ()2()h+2 + ... + ()q-h()q)
h
== 1,2, ... , q
e ,(h) == 0 per Ihl > q. Pertanto l'autocorrelazione di un processo MA(q) si annulla per ritardi maggiori dell'ordine q (come avviene per l'autocorrelazione parziale nel processo autoregressivo, altro esempio di dualita). La autocorrelazione parziale invece non ha un andamento facilmente descrivibile. Processo a somma mobile del primo ordine. Soddisfa l'equazione:
6.3 Processi puramente a somma mobile
129
ed e quindi invertibile per I() I < 1. La funzione di autocorrelazione ha diverso da zero solo il primo coefficiente: ()
r(l) == - - I
+ ()2
che comunque al variare di (), non raggiunge mai valori superiori a 1/2 in modulo. La densita spettrale risulta:
e quindi ha andamento monotono crescente se () > 0, monotono decrescente se () < O. Si tratta quindi di una struttura correlativa piuttosto debole, e limitata a dati contigui. SuI processo di ordine 1 si puo illustrare facilmente una ulteriore proprieta della invertibilita, che e valida in generale e giustifica ulteriormente la utilita di tale condizione: in generale esistono diversi processi con la stessa funzione di autocorrelazione, rna di essi uno solo e invertibile; percio nell'insieme dei processi invertibili c'e corrispondenza biunivoca tra funzione di autocorrelazione e parametri. Infatti, se preso un qualunque numero p (minore di 1/2 in valore assoluto), cerchiamo un processo a somma mobile che abbia autocorrelazione r(l) == p, otteniamo due possibilita, dato che l'equazione in (): ()
- 1 + 02 = P ---+ p02
ha due soluzioni: ()1/2
+0+ P=
0
-1 ± J1- 4 p2 == - - - - - -
2p
ambedue reali perche abbiamo scelto Ipl < 1/2. Tuttavia poiche il prodotto delle radici dell'equazione di secondo grado ax 2 + bx + c == 0 e c] a, abbiamo ()1()2 == 1 e quindi una sola delle due e minore di uno in modulo, cioo dei due processi uno solo e invertibile. La forma invertita del processo e:
della forma autoregressiva con ordine infinito e parametri pari aIle potenze successive di (). La funzione di autocorrelazione parziale del processo M A(l) ha andamento approssimativamente simile a ()h (si veda ad esempio Box e Jenkins, 1970).
Processo a somma mobile del secondo ordine. II processo soddisfa:
130
6 Processi lineari
e Ie condizioni di invertibilita sono:
Le autocorrelazioni sono nulle per h
> 2 e:
Anche in questo caso la r(2) non puo superare 1/2 in modulo, e anche la r(1) ha un massimo pari a 1/ {2 (J3 - 1)} ~ 0,683 percio anche questi processi hanno una struttura dinamica lineare non troppo pronunciata. La densita spettrale:
puo essere monotona crescente 0 decrescente in (0,1f), oppure avere un massimo e anche un minimo interno.
6.4 Processi misti I processi che hanno sia la struttura autoregressiva sia quella a somma mobile vengono chiamati brevemente processi ARMA (dall'unione delle sigle AR e MA) di ordine (p,q):
Per essi si pone la questione della stazionarieta, che porta a richiedere che le radici di
e si richiede che sia I¢I < 1, 181 < 1. Se moltiplichiamo ambo i membri per Zt-h e prendiamo la media, otteniamo per h == 0,1:
1 (0) == ¢1 (1) + E (ZtEt) - BE (ZtEt-l) 1 (1) == ¢1 (0) + E (Zt-lEt) - BE (Zt-lEt-l) e dobbiamo prima calcolare i momenti misti, ricordando che E(EtZt-s) == 0 per s > 0 e che le {Et} sono incorrelate:
6.4 Processi misti
E (Ztct) == E (cPZt-1 E (ZtCt-l) == E (cPZt-1
+ ct
+ ct
- Oct-I) e, == a
2
- OCt-I) Ct-I ==
== ¢E(Zt-ICt-l) - OEC;_I == (¢ - O)a2 Ne segue:
131
.
r (0) == ¢r (1) + a 2 {I - 0 (¢ - O)} r (1) == ¢r (0) - Oa 2
e per h maggiore di uno invece i momenti misti sono nulli e ritorna la relazione autoregressiva:
r(h) == cPr(h-1)
h == 2,3, ...
Pertanto la varianza risulta:
e per la funzione di autocorrelazione:
r (1) == (1 - ¢O) (cP - 0) . 1 + 02
-
2¢O
'
r (h) ==
¢h-I r
(1),
h == 2,3, ...
In sostanza l'autocorrelazione segue un andamento esponenziale smorzato, determinato dalle potenze del parametro cP (e quindi alternante in segno se cP < 0) rna innestato su un primo valore che e diverso da cP, e ha segno uguale alla differenza cP - O. L'andamento dell'autocorrelazione parziale invece e influenzato principalmente dalla struttura a somma mobile (e non si annulla mai). La densita spettrale:
a 2 1 + 02 - 20cosA 21r 1 + ¢2 - 2¢COSA
e monotona su ¢ < O.
tutto l'intervallo (0,1r), decrescente se ¢ > 0 e crescente se
Nel caso pili generale di ordine (p, q) qualunque, naturalmente il comportamento del processo diventa ancora pili articolato. Per quanto riguarda le autocorrelazioni, si puo dire che la forma della equazione di Yule-Walker e differente da quella autoregressiva solo per h :::; q, quindi l'andamento dell'autocorrelazione per ritardi grandi e essenzialmente determinato dalla parte autoregressiva. Tuttavia e difficile descrivere andamenti tipici delle autocorrelazioni 0 della densita spettrale di processi con particolari ordini (p, q), poiche processi con ordini diversi possono mostrare caratteristiche simili (fermo restando che ovviamente un processo con ordine (Po, qo) appartiene anche a tutte Ie classi di processi di ordine (p, q) con p 2:: Po e q 2:: qo).
7 Processi di punti
Analizziamo i processi aleatori a valori discreti e parametro continuo, e in particolare i processi di punti, utilizzati per descrivere il verificarsi nel tempo di eventi particolari. L' analisi e centrata essenzialmente sul tipo di processo pili semplice e diffuso, il processo detto di Poisson.
7.1 Caratteristiche generali Un processo di punti e a parametro continuo, quindi costituito da una infinita continua di variabili aleatorie che possono pero assumere (almeno nella forma pili semplice) solo due valori (ad esempio zero e uno) corrispondenti all' assenza 0 presenza di un evento. Quindi un processo di punti schematizza una situazione in cui in ogni istante puo verificarsi 0 meno un evento, situazione di grande interesse in molti settori (emissione di particelle da parte di una fonte radioattiva, arrivi clienti a uno sportello, verificarsi di incidenti automobilistici, di terremoti e molti altri problemi). In tutti questi casi si verifica un numero finito di eventi in ogni intervallo di lunghezza finita, e quindi e pili como do descrivere il processo in termini degli istanti nei quali si verificano gli eventi, Ti, oppure degli intervalli di tempo tra un evento e l'altro, Xi; oppure, ancora, studiando il numero di eventi che si verificano in un dato intervallo di tempo. In ogni caso, risulta comodo (anche se non indispensabile) fissare un istante di partenza che indichiamo come tempo 0: t == 0, cost che possiamo definire:
Ti. == istante in cui si verifica il k-esimo evento, ovvero tempo d'attesa fino al k-esimo evento X k == intervallo di tempo tra il verificarsi dell' evento (k - 1)-esimo e il verificarsi dell' evento k-esimo
N(s, t)
== numero di eventi verificatisi nell'intervallo temporale
tra i quali intercorrono Ie relazioni:
(s, t)
134
7 Processi di punti
N (0, t)
< k {:} T k > t .
Per avere una corrispondenza con il comportamento dei fenomeni reali, ci aspettiamo che le T k, Xk e N(s, t) abbiamo distribuzioni non degeneri, con medie e varianze finite: rna per ottenere questo scopo ci dobbiamo assicurare che il ritmo con cui si verificano gli eventi sia sufficientemente lento in modo da evitare che in ogni intervallo si realizzi un numero infinito di eventi: si capisce facilmente, anzi, che la probabilita di un evento in ogni singolo istante deve essere zero (perche in un intervallo finito c'e una infinita continua di singoli istanti). II problema si supera con gli strumenti propri del calcolo infinitesimale: definiamo la densita media degli eventi nell'intervallo (s, t) come E {N (s, t)} / (t - s) e ne consideriamo il limite quando l'intervallo ha una ampiezza che va a zero:
h() t
== l.
im hlO
E{N(t,t+h)} h
.
Consideriamo solo processi in cui la funzione h(t), detta densitd degli eventi 0 intensito: e finita per ogni t. La proprieta di stazionarieta puo essere definita facendo riferimento alle distribuzioni di probabilita del numero di eventi N su intervalli distinti: si richiede cioe che per ogni n e per ogni npla di coppie (ai, bi , a; ~ bi ) e per ogni h > la distribuzione congiunta di {N (ai, bi ) , i == 1, ..., n} sia uguale a quella di {N (ai + h, b, + h), i == 1, ..., n}. Una analisi approfondita si ottiene solo imponendo condizioni semplificatrici. La pili comune e che gli intervalli di tempo tra un evento e il successivo, Xk, siano indipendenti tra di lora e abbiano la medesima distribuzione di probabilita: si parla in tal caso di processi di rinnovo. Be E(Xk ) == JL, Var(Xk) == (J2, allora poiche Ti; == Xl + X 2 + ... + Xk risulta E(Tk) == kJL, V ar(Tk) == k(J2 data l'indipendenza, e inoltre il teorema del limite centrale assicura che la distribuzione di T k e asintoticamente normale. Per il numero di eventi in un intervallo si ottiene facilmente:
°
< r + I} - Pr {N (0, t) < r} == == Pr {Tr + l > t} - Pr {Tr > t} == Pr {Tr < t} - Pr {Tr + l ~ t}
Pr {N(O, t) == r} == Pr {N (0, t)
e le probabilita dei T j possono essere calcolate come convoluzione di quelle delle Xi; Poiche gli eventi si verificano a distanza media JL, possiamo dedurre che in media, in un intervallo di ampiezza t si verificano t/ JL eventi. Un risultato pili preciso, rna asintotico, si ricava sfruttando la norrnalita asintotica delle Tk: N(O, t) e asintoticamente normale con media t/JL e varianza (J2t/JL3. Infatti posta yt == {N (0, t) - t/ JL} / J (J2t/JL3 e qt == t/ JL+yJ(J2t/JL3 possiamo scrivere:
7.2 Processi di Poisson
Pr {yt
135
< y} == Pr {N (0,t) < qt} == Pr {Tqt > t} == == Pr { T qt - qtJ-l > t - qtJ-l} . a0ii a0ii
Ora al crescere di t e quindi di qt la variabile a cui si riferisce l'ultima probabilita tende alla normale standardizzata mentre il limite dell'argomento
e:
1· · t - qtJ-l 11m - - - == 1m
t-+oo
a0ii
t-+oo
-y
VI + ya/ Jfii == -y .
Quindi se indichiamo con q>(.) la funzione di ripartizione della normale standardizzata avremo: lim Pr {yt
t-s-co
< y} == 1 -
q> (-y)
== q> (y) .
II caso pili semplice, rna niente affatto banale, di processo di rinnovo e quello in cui I'intensita h(t) e costante, e gli eventi si verificano in modo completamente indipendente l'uno dall'altro, il relativo processo e chiamato processo di Poisson.
7.2 Processi di Poisson II processo di Poisson semplice (0 omogeneo) e caratterizzato da una intensita costante A. Poiche escludiamo che nello stesso istante si possa realizzare pili di un evento, e d'altra parte la probabilita che si verifichino eventi nell'intervallo (t, t + h) deve andare a zero se h tende a zero, indicando con o(h) un infinitesimo di ordine superiore a h quando h tende a zero si usa scrivere: Pr{N(t,t+h) == I} == Ah+o(h)
Pr{N(t,t+h) ==O} == l-Ah+o(h) + h) > I} == o(h) .
Pr{N (t, t
(7.1) (7.2) (7.3)
Inoltre si assume che, per ogni t e h, la variabile aleatoria N(t, t + h) sia completamente indipendente dalle variabili del processo relative a istanti fino a t. Poiche il ritmo del prodursi degli eventi e indipendente dallo scorrere del tempo, in quanto la densita e costante e non dipende da t, non dipendono dal tempo neanche le caratteristiche dell'intervallo tra due eventi consecutivi. Indichiamo con X questa variabile (nel paragrafo precedente era X k ) e cerchiamo di calcolarne la distribuzione indicando con to l'istante nel quale si e verificato l'ultimo evento: Pr {X
> x + h} == Pr {prossimo evento dopo to + x + h} == == Pr{ X > x, nessun evento tra to + x e to + x + h} == == Pr {X > x, N (to + x, to + x + h) == O} == == Pr {X > x} Pr { N (to + x, to + x + h) == 0 IX > x} .
136
7 Processi di punti
Ma le proprieta di indipendenza del processo fanno sl che il numero di eventi tra to + x e to + x + h sia completamente indipendente daIl'evento (X > x) che si riferisce aIle variabili relative a istanti fino a to + x, quindi la probabilita condizionata e uguale a quella non condizionata, e usando lc (7.1 )-(7.2)-(7.3): Pr {X
> x + h} == Pr {X > x} {I - Ah + o( h)} .
Se indichiamo F(x) == Pr{X si ha:
> x}, prendendo illimite per h tendente a zero d
dx F (x) == - AF (x) . Questa equazione differenziale puo essere risolta usando come condizione iniziale F(O) == Pr{X > O} == 1 e da F(x) == e- AX da cui: Pr {X
< x}
== 1 -
F (x)
== 1 -
e- Ax
.
Concludiamo che l'intervallo tra due eventi consecutivi ha distribuzione esponenziale di parametro A (ricordiamo che la media e 1/ A e la varianza 1/ A2 ) . Se fissiamo to == 0, cioe assumiamo che si parta con un evento al tempo zero, allora il tempo di attesa fino al primo evento T 1 e esponenziale. II tempo di attesa fino al k-esimo evento T k e invece la somma di k variabili esponenziali indipendenti con 10 stesso parametro A, ed e noto che ha una distribuzione di tipo gamma con parametri (k, A) e densita: k k-l ( fx}=>.x
-AX
e
(k~l)!
e naturalmente media k/ A e varianza k/ A2 . Consideriamo adesso il numero di eventi in un intervallo di tempo. Innanzitutto con una semplice integrazione per parti si ha:
Percio sfruttando la relazione ricavata nel paragrafo precedente (e tenendo conto che le Ti. sono assolutamente continue): Pr {N (0, t) == r} == Pr {Tr
< t} - Pr {Tr + 1 < t}
==
(At)r
-,-e r.
-At
.
Ne consegue che la distribuzione di N(O, t) e del tipo di Poisson con parametro At (media e varianza sono eguali a At). La costanza della intensita media comporta la stazionarieta, percio il numero di eventi in un intervallo di tempo qualunque ha una distribuzione di Poisson di parametro pari a A moltiplicato la lunghezza dell'intervallo. II processo non ha memoria nel senso che il suo
7.2 Processi di Poisson
137
comportamento a ogni istante e completamente indipendente da quanto si e verificato prima di quell'istante: percio e a maggior ragione un processo markoviano. Questa sua estrema semplicita (analoga per certi versi a quella del rumore bianco nei processi stazionari) rappresenta il suo maggior punto di forza, poiche permette di calcolare facilmente le distribuzioni di probabilita di tutte Ie variabili in gioco. Essa costituisce pero spesso anche il maggior limite nell'impiego dei processi di Poisson in alcuni campi applicativi nei quali il verificarsi degli eventi che interessano e influenzato dalla storia passata del processo. Cia ha portato a studiare diverse estensioni basate su intensita non costanti, per le quali rimandiamo a testi pili specializzati. Esempio 7.1. II processo di Poisson viene impiegato come schema idealizzato delle chiamate telefoniche in arrivo a un centralino. Fissata l'unita di misura del tempo (ad esempio minuti), il sistema ecaratterizzato dall'intensita media A: vuol dire che in un minuto arrivano in media A chiamate al centralino, e che l'intervallo medio di tempo tra una chiamata e la successiva e 1/ A minuti. Queste informazioni sono utili ad esempio per dimensionare il centralino: supponiamo che la durata media delle conversazioni sia pari a Mminuti. Una valutazione approssimativa procede come segue: in un'ora si registrano in media 60A chiamate che impegnerebbero le linee in totale per 60AM minuti, il che si puo realizzare (sempre in media) se sono disponibili almeno AM linee telefoniche. E possibile anche un calcolo pili accurato ponendosi l'obiettivo che la probabilita di trovare una linea occupata sia al di sotto di una certa soglia. Questioni di questo tipo sono trattate dalla cosiddetta teoria delle code (queueing theory). Esempio 7.2. II processo di Poisson costituisce anche la base della teoria del-
l'affidabilita, che studia il comportamento di componenti soggetti ad avaria. Supponendo che la probabilita di avaria sia costante nel tempo, il tempo trascorso fino all'avaria e esponenziale; e nell'ipotesi che la riparazione sia istantanea, il numero di avarie in un intervallo di tempo segue una distribuzione di Poisson. Tuttavia in questo caso e evidente che l'ipotesi di una probabilita di avaria costante nel tempo e in molte situazioni irrealistica, percio si preferiscono in genere schemi pili complessi in cui essa varia nel tempo. Infatti 10 schema del processo di Poisson prevede che dopo ogni evento si riproducano esattamente le stesse condizioni iniziali: tradotto in termini di affidabilita, cia corrisponde a ipotizzare che dopo ogni riparazione il componente abbia la medesima affidabilita di uno nuovo, e quindi non si puo tenere conto in alcun modo della eventuale usura. Una immediata generalizzazione, molto utile nella pratica, e l'ammettere che I'intensita del processo possa essere variabile nel tempo, ferma restando la completa indipendenza degli eventi: processi di questo tipo vengono anche detti di Poisson non omogenei. Le caratteristiche delle probabilita (7.1)-(7.2)(7.3) diventano le seguenti:
138
7 Processi di punti
Pr {N (t, t + dt) == 1} == A(t)dt + o(dt) Pr {N (t, t + dt) == O} == 1 - A(t)dt + o(dt)
Pr{N(t,t+dt) > 1} ==o(dt). Ripercorrendo il ragionamento svolto precedentemente si ricava che il numero di eventi in un intervallo di tempo (8, t) ha distribuzione di Poisson con parametro pari a A (u) duo I tempi di attesa tra gli eventi X k rimangono indipendenti, mentre per gli istanti T j ai quali si verificano gli eventi si possono ricavare facilmente le distribuzioni condizionate. Posto u > t si ha:
J:
P (Tk == u ITk-1 == t) du == Pr {evento in (u, u + du) [ultimo evento in t }
== Pr{nessun evento in (t, u), evento in (u, u + du)}
= exp {-
l
u
A(x) dx} A(u) du .
Questa osservazione permette di descrivere il processo in termini di probabilita condizionate, e concatenando queste probabilita si puo scrivere l'intera distribuzione dall'istante iniziale t == 0 fino a qualunque istante finale to. Se si sono verificati n eventi agli istanti tl, t2, ..., tn, la densita di probabilita congiunta (in altri termini la verosimiglianza) puo essere calcolata nel modo seguente:
Pr{T I ==t l, T2 == t2, ...,Tn == tn, Tn+ l > to - tn} == == Pr {T I == tl} Pr {T2 == t21 TI == tl} ... Pr {Tn == tnlTn- 1 == tn-I} X Pr {Tn+ 1 > to - tnlTn == tn} ==
= >. (t I ) exp { X
_l
x(t n ) exp { -
t l
A(x) dx }
1~~
1
x(t2) exp {
x(x) dx }
= A (tIP (t2) ... A (t n ) exp {
exp { -
-1:
X
2
A(x) dx}
X ...
1~D A(x) dx} =
_ltD A (x) dX} .
Ovviamente questo processo non soddisfa la proprieta di stazionarieta neanche debole, poiche le medie e le varianze del numero di eventi non dipendono solo dalla lunghezza dell'intervallo considerato rna anche dalla sua localizzazione.
7.3 Cenni sull'analisi nel dominio temporale e frequenziale Anche per i processi di punti stazionari e possibile definire funzioni di autocovarianza e densita spettrale, che assumono pero significati diversi rispetto ai processi a parametro discreto. Daremo solo alcuni cenni di questa impostazione.
7.3 Cenni sull'analisi nel dominio temporale e frequenziale
139
Possiamo descrivere il processo di punti attraverso due formulazioni alternative: la successione degli intervalli tra un evento e l'altro, e il numero di eventi in intervalli di tempo. Nel primo caso sempre supponendo che si parta da un istante iniziale t == 0 in cui si verifica un evento, Ie attese aleatorie tra un evento e l'altro: Xl, X 2 , ... possono essere considerate esse stesse un processo aleatorio a parametro discreto, stazionario, con media J1x e varianza Possiamo calcolarne la funzione di autocovarianza:
a;.
e la corrispondente densita spettrale:
Per il processo di Poisson (come per tutti i processi di rinnovo), la indipendenza delle Xi comporta che la funzione di autocovarianza e nulla: 1x (h) == 0, h i= 0 e quindi la relativa densita spettrale e costante: Ix (A) == a;/27r. Per processi pili complicati, l'analisi mette in luce Ie relazioni (solo quelle lineari) tra i tempi di attesa degli eventi: ad esempio un valore positivo di 1x (1) segnala che i tempi di attesa di eventi consecutivi sono correlati positivamente, e percio a tempi brevi tendono a seguire tempi brevi, spesso questo comportamento corrisponde all'esistenza di occasionali addensamenti di eventi. In modo simile, la densita spettrale puo mettere in luce tendenze all'andamento ciclico dei tempi di attesa che si traducono nelI'esistenza di cluster di eventi, pili 0 meno regolarmente distanziati nel tempo. Un modo alternativo di studiare le proprieta di secondo ordine e quello di considerare il processo (a parametro continuo) descritto dal numero di eventi negli intervalli (t, t + Llt) considerando Llt piccolo, ed esaminandone illimite per Llt -+ o. Questo quadro di riferimento sembra pili naturale perche pili vicino alla logica del capitolo precedente, in cui si mettono a covariare le variabili del processo X(t): infatti intuitivamente N(t, t + Llt) tende a X(t) quando Llt tende a zero. Pero qui si incontrano difficolta analitiche maggiori. Useremo la notazione semplificata LlN (t) == N (t, t + Llt). Poiche in ogni istante si puo verificare solo un evento oppure nessuno, e la densita degli eventi e costante per la stazionarieta: h(t) == h, abbiamo a meno di infinitesimi di ordine superiore a Llt che Pr{ LlN(t) == I} == hLlt e Pr{ LlN(t) == O} == 1 - hLlt da cui E{LlN(t)} == hLlt. Definiamo la densita di covarianza 1N(S) per s reale maggiore di zero attraverso: 'YN(S) = lim Cov{.1N(t),.1N(t+s)}. Llt-tO (Llt) 2 Ora poiche: E { LlN (t) LlN (t
+ s)} == Pr {LlN (t) == 1, LlN (t + s) == I} == == Pr { LlN (t) == I} Pr { LlN (t + s) == 1 ILlN (t) ==
I}
140
7 Processi di punti
definendo:
h avremo:
s
=
lim P {L1N (t + s, t L1t~O
+ S + L1t)1 evento in t} i1t
lim E{L1N(t) L1N(t+ s)} =hh L1t~O
(i1t)2
s
da cui:
_ u
E { i1N (t) i1N (t + s)} _ lim E { i1N (t)} E { i1N (t + s) } L1t~O (i1t)2
rN (s ) - L1}~o (i1t)2 == h (hs - h) .
Nel processo di Poisson, in cui il numero di eventi in un intervallo e indipendente da cia che avviene precedentemente, li; e uguale a h per ogni S, e quindi rN (s) == 0 per s > 0 e la relativa densita spettrale e costante. In altri tipi di processi l'autocovarianza segnala quanto I'intensita e legata (linearmente) alla storia precedente. Infatti se rN (s) e positiva significa che l'essersi verificato un evento s istanti prima influisce positivamente sulla densita degli eventi, 0, in altri termini, troveremo pili spesso eventi a distanza s di quanti ne troveremmo in un processo di Poisson. Anche in questo caso l'interpretazione delle proprieta del secondo ordine non e cosl immediata come per i processi a parametro discreto e in genere una autocovarianza diversa da zero corrisponde a processi Ie cui realizzazioni presentano addensamenti di eventi in alcuni intervalli, e rarefazioni in altri.
Parte III
La statistica dei fenorneni dinarnici
8
Inferenza statistica per processi aleatori
Questo capitolo introduce all'analisi statistica dei fenomeni dinamici, prendendo in considerazione la problematica generale dell'inferenza statistica su processi aleatori, e le differenze rispetto all'inferenza parametrica per campioni casuali.
8.1 Differenze rispetto all'inferenza parametrica classica La parte della metodologia statistica che prende il nome di inferenza statistica parametrica ha per oggetto il seguente problema: Sia X una variabile aleatoria con distribuzione Fea (.) appartenente a una famiglia {Fe (.) , 0 E e}, e supponiamo che siano disponibili N realizzazioni indipendenti tra loro della X: si vogliono fare affermazioni su 00 . Nei casi pili frequenti la scelta della famiglia equivale a specificare la forma della distribuzione, il parametro 0 corrisponde a un indice della distribuzione (spesso un momento), l'insieme e e un intervallo, e la natura delle affermazioni e del tipo seguente: 1. Attribuzione di un valore specifico a 00 (stima puntuale). 2. Formulazione di un intervallo di valori per 00 (intervallo di confidenza). 3. Scelta tra due sottoinsiemi di valori per 00 (test d'ipotesi). In ognuno di questi casi, per decidere la strategia migliore si cerca prima di studiare le caratteristiche dell'errore che si commetterebbe, che e (a me no di casi degeneri) un ente aleatorio: si giudichera ottima la strategia che permette di conseguire l'errore pili "piccolo" possibile. Questa impostazione sembra applicabile negli stessi termini anche ai processi aleatori, rna qui si presenta una differenza fondamentale: i dati sono relativi, nella generalita dei casi, a una serie storica, quindi a una parte finita di una realizzazione del processo: non a pili realizzazioni somiglianti indipendenti (come nel caso classico) e nemmeno a una realizzazione completa, rna solo a una parte di essa. Inoltre Ie variabili che costituiscono la parte finita
144
8 Inferenza statistica per processi aleatori
della realizzazione del processo che noi osserviamo non hanno necessariamente la stessa distribuzione e potrebbero essere state generate da valori di B diversi. Si comprende percio come nel caso dei processi aleatori la procedura inferenziale sia pili delicata e soggetta a restrizioni. Per fissare le idee, supponiamo che sia possibile rilevare i valori assunti dalle variabili (Xl, X 2 , ... , X N ) di un processo aleatorio a parametro discreto { X t } : il minimo che possiamo chiedere e che il valore del parametro oggetto di inferenza sia uguale nelle distribuzioni che hanno generato tutti gli N dati: se si compie inferenza sulla media, che X 1,X2 , ... ,XN abbiano la stessa media; se si vuol fare inferenza sulla varianza, che X 1,X2 , ... ,XN abbiano la stessa varianza, e cost via. Cia vuol dire che ci dovremo limitare a processi stazionari: noi prenderemo in considerazione processi stazionari al secondo ordine, e costruiremo inferenze per i momenti primi e secondi, e per 10 spettro. Risolto questo, si presenta pero una complicazione pili seria, che dipende dalla mancanza di indipendenza: non siamo pili in presenza di un campione casuale, poiche lc variabili (Xl, X 2 , ... , X N ) non sono indipendenti: e d'altra parte sono proprio i legami di dipendenza tra loro che costituiscono l'oggetto principale dell'indagine. La mancanza di indipendenza non permette pili il ricorso ai semplici teoremi asintotici che garantiscono la possibilita di controllare e contenere l'errore al crescere del numero dei dati: quindi non si estendono automaticamente al caso dei processi quelle proprieta di consistenza a cui siamo abituati nel caso di campioni casuali, basandosi sulle quali si puo essere certi che al crescere del numero di informazioni la inferenza permette risultati pili precisi, e l'errore che commettiamo diventa trascurabile all'aumentare del numero dei dati a disposizione. Per esemplificare, nella stima della media, se (X I,X2 , ... ,XN) e un campione casuale, costituito di variabili tutte indipendenti, con la medesima distribuzione la cui media e m e la varianza v, possiamo considerare 10 stimatore X N == (Xl + X 2 + ... + X N) IN sapendo che E(XN) == m, Var(X N ) == vlN, percio al crescere del numero dei dati N, X N ha una distribuzione che degenera sul valore costante m. Ma se lc Xi non sono indipendenti, la Var(X N) non e pari a v IN, potrebbe addirittura non essere decrescente al crescere di N: cia significherebbe sostanzialmente che aumentando il numero di dati la nostra inferenza non diventa pili precisa, e quindi non sappiamo sfruttare adeguatamente le nuove osservazioni, oppure addirittura esse non forniscono nuove informazioni su B. II poter contare su una forma di consistenza e quindi essenziale per poter costruire una inferenza plausibile, rna mentre nell'inferenza parametrica basata su campionamento casuale questa proprieta e automaticamente verificata, nel caso dei processi aleatori dovremo sempre controllare che essa sia soddisfatta. Essa puo valere quando si considera un certo parametro 0 momento, e non valere per un altro, e in ogni caso essere soddisfatta da un certo tipo di processo e non da un altro: per questo viene considerata come una proprieta del processo stocastico, denominata erqodicita, che consideriamo nel prossimo paragrafo. Le difficolta nell'inferenza per processi aleatori sono tali che in genere si riescono a raggiungere solo risultati parziali 0 approssimati, muovendosi di
8.2 L'ergodicita
145
solito in due direzioni: si considera il comportamento asintotico degli stimatori che spesso puo essere ricavato facendo uso di alcune forme di teoremi limite, oppure si parte dalla assunzione di norrnalita dei dati, e a volte entrambe.
8.2 L'ergodicita II termine di ergodicita viene usato con significati diversi da scuole diverse, poiche rappresenta un tema assai complesso e suscettibile di una trattazione matematica molto approfondita. II problema fondamentale da cui nasce la nozione di ergodicita deriva dal raffronto tra il comportamento delle medie di insieme (0 campionarie) e le medie temporali. Considerando il processo stazionario {X t } e la singola variabile X s per s fissato, una media temporale e la media aritmetica di N variabili contigue del processo: X(N) == (X s + X s + I + ... + X s+ N- I ) IN; una media di insieme e invece la media effettuata su pili copie indipendenti della medesima variabile X s : X(N) = (X~1)+X~2)+ ... +X~N))/N dove (X~1),X~2), ... ,X~N)) e un campione casuale semplice della variabile X; (che naturalmente sarebbe osservabile solo se potessimo rilevare pili realizzazioni indipendenti della stesso processo). In generale se X(N) e X(N) hanno la stessa distribuzione il processo viene chiamato ergodico. Ma il termine ergodico viene anche usato, e pili frequentemente, nel senso che gli abbiamo attribuito precedentemente, che si riferisce alla proprieta di consistenza di uno stimatore. Pili precisamente, se () e un parametro che puo essere espresso come media di una funzione del processo () == E{f(Xt ) } , e si considera la media temporale della stessa funzione: N
eN == L f A
t=l
(X t ) IN, allora il processo
in probabilita a () quando N
e ergodico rispetto a () se eN converge A
----* 00:
J~ Pr { leN - BI < E } = 1 .
(8.1)
In sostanza cia significa che la media temporale conserva la proprieta pili importante della media campionaria, cioe la validita della legge dei grandi numeri che permette di effettuare inferenze sempre pili precise all'aumentare delle informazioni. II caso pili semplice equando si prende f(X t) == Xt: allora il processo si dice ergodico in media quando (Xl + X 2 + ... + X N )IN converge in probabilita alla media del processo. Prendendo f(X t) == XtXt+h si parlera invece di crgodicita in autocovarianza, e cost via. Esamineremo specificamente le condizioni di ergodiclta nell' ambito della trattazione dell'inferenza sui singoli parametri e sulle classi di processi aleatori che abbiamo introdotto.
9
Inferenza per processi stazionari
In questo capitola si tratta l' analisi delle serie temporali, cioe le procedure di inferenza statistica relativa ai parametri rilevanti dei processi stazionari: la media, la varianza, le autocovarianze e autocorrelazioni, la densita spettrale, i coefficienti dei processi autoregressivi a somma mobile.
9.1 Introduzione Passiamo ora a considerare i processi a parametro discreto e valori continui. In questo caso la necessita di considerare inferenze su parametri che siano rilevanti per tutte le variabili del processo consiglia, come gia osservato, di restringere il campo ai processi stazionari. Ci limiteremo a richiedere la stazionarieta al secondo ordine, e l'inferenza avra per oggetto le quantita caratteristiche che abbiamo studiato nei capitoli precedenti, e che descrivono Ie proprieta del secondo ordine del processo: la media, le autocovarianze e le autocorrelazioni, nel dominio temporale; e la densita spettrale, nel dominio frequenziale. Se si tratta di un processo bivariato, prenderemo in considerazione anche lc covarianze incrociate e le funzioni cross-spettrali. Schematizziamo il problema come segue. Supponiamo di disporre di una serie temporale (Xl, X2, ... , X N) generata dal processo {Xt } , cioe Xi e realizzazione della variabile Xi del processo (i == 1,2, ... , N); {Xt} e stazionario al secondo ordine, con media E(Xt ) == u, funzione d'autocovarianza ,(h) e densita spettrale f(A). Scelto un parametro di interesse () (che potra essere la media u, 0 il valore di ,(h) per un h fissato, 0 la densita spettrale f(A) in corrispondenza a una fissata frequenza), si dovra determinare una funzione == f (X I, X 2, ..., X N) che funga da stimatore, in modo che l'errore commesso sia una variabile aleatoria che soddisfa criteri di ottimalita. Allora si stima il parametro attribuendogli il valore assunto dallo stimatore sulla serie osservata cioe {) == f (Xl, X2, ... , X N). Si capisce subito pero che comunque le affermazioni inferenziali permetteranno solo una caratterizzazione limitata, poiche non e certo pensabile di
eN
eN - ()
148
9 Inferenza per processi stazionari
effettuare inferenza su tutti gli infiniti valori di ,(h) per ogni h, oppure su tutte le ordinate f (A) per A variabile con continuita tra 0 e 1r. Tenuto conto che i dati a disposizione (Xl, X2, ... , X N) si riferiscono a un intervallo di tempo limitato, e ragionevole limitare i valori del ritardo h per i quali si stima ,(h). Nel dominio frequenziale invece, poiche dovremo accontentarci anche in questo caso di formulare affermazioni su un numero finito di parametri, e ci interessa in genere l'andamento su tutte Ie possibili frequenze tra 0 e 1r, il modo di procedere pili comune e quello di concentrare la procedura inferenziale sui valori che la densita spettrale assume in corrispondenza a un insieme finito di frequenze equispaziate del tipo Aj == 1rj/M (j == 0,1, ... ,M). Va sottolineato come, anche sotto il profilo dell'inferenza, e necessario procedere parallelamente nei due domini: infatti se e vero che la ,(h) e la f(A) sono in corrispondenza biunivoca essendo una coppia di trasformate di Fourier, non e detto che cia valga anche per gli stimatori: in particolare si vedra come un soddisfacente stimatore delle autocovarianze ha una trasformata di Fourier che rappresenta un cattivo stimatore della densita spettrale. Pertanto, per ottenere proprieta soddisfacenti dal punto di vista inferenziale (cioe delI'errore che si commette), e necessario costruire indi pendentemente Ie stime delle autocovarianze e quelle dello spettro (e vedremo come per queste ultime il compito si riveli pili difficile). Nei paragrafi che seguono svilupperemo separatamente alcuni risultati di inferenza per quanto attiene la media del processo, Ie autocovarianze e autocorrelazioni, e poi esamineremo il problema della stima della densita spettrale.
9.2 Stima della media Nell'inferenza basata su campioni casuali il miglior stimatore della media e dato dalla media del campione. Nel nostro caso, come gia osservato, avendo una sola realizzazione, e solo in parte nota, possiamo costruire solo la media temporale:
X La media
e ovviamente:
N=X
1+X2+ooo+XN
N
percio 10 stimatore e non distorto. Calcoliamo la varianza (che all'errore quadratico medio):
e quindi uguale
9.2 Stima della media
149
Se prendiamo come indice di sommatoria h == t - s al posta di s, il dominio (1 < t < N, 1 < s < N) si trasforma nei due triangoli (0 < h < N - 1, h + 1 < t :::; N) e (-1 :::; h :::; - N + 1, 1 :::; t :::; N + h) e la somma si trasforma in:
Ora, ricordando che l'autocovarianza e pari: ,(h) == ,( -h) e prendendo s -h come indice di sommatoria del secondo termine si ottiene infine: N - l
Var (X N ) =
~2 { ~ (N 1
= N
L
N-l
(
N-l
hh(h) + ~ (N - sh(s)
Ih l )
1- N
'Y (h) .
==
}
= (9.1)
h=-N+l
Possiamo ora esaminare il problema dell'crgodicita. II processo si dice ergodico in media se 10 stimatore X N converge in probabilita a J1 quando N ~ 00. Poiche: E (X _ )2 Pr {IXN - III < k} 2: 1 ~2 11 dalla disuguaglianza di Cebicev, la consistenza e assicurata se E (X N - J1) 2 tende a zero, cioe se tende a zero la varianza (9.1). Cia sarebbe assicurato se convergesse la serie le cui somme parziali sono
la quale ha 10 stesso comportamento al limite della: 00
L,(h)
(9.2)
per il teorema di Cesaro. Percio se la serie (9.2) e convergente si ottiene la ergodicita: eondizione suffieiente perche il proeesso sia ergodieo in media e ehe la serie delle autoeovarianze sia eonvergente. Tuttavia questa condizione non e necessaria: una condizione necessaria e sufficiente perche la varianza tenda a zero si ricava facilmente ricorrendo al dominio frequenziale, usando la rappresentazione spettrale dell'autocovarianza:
150
9 Inferenza per processi stazionari
La varianza si riscrive:
dove si
e posta : KN (A)
=
~ ~
h=-N+l
=
(1- ~)
e-
i Ah
=
~ { 1+ 2~ (1 - ~) cos Ah}
=
1 sin 2 (N A/2) N2 sin 2 (A/2) chiamata funzione nucleo di Fejer (per il calcolo del risultato si veda l' Appendice A). Al crescere di N, se A i- 0, sin 2 (A/ 2) i- 0, e KN(A) tende a zero. Viceversa nel punto A == 0 il limite destro e sinistro di KN(A) coincidono e valgono 1 (ricordando il limite notevole sin y/ y ~ 1 per y ~ 0). Percio per N ~ 00 la KN(A) si annulla ovunque eccettuato in A == 0 nel Quale vale 1. Ne segue che:
che e nulla se la misura spettrale e continua nell'origine: condizione necessaria e sufficiente per l' erqodiciia in media e ehe la misura spettrale sia continua in A == o. Percio tutti i processi che hanno densita spettrale assolutamente continua f(A) sono ergodici in media. Inoltre, poiche:
L r (h) == 21rf (0) 00
lim N Var (X N) ==
N----+oo
-00
ne ricaviamo un valore approssimato:
Per quanto riguarda la distribuzione di probabilita di X N, essa dipende ovviamente da quella del processo: se si assume che il processo egaussiano, allora X N e combinazione lineare di normali, e quindi ha distribuzione normale. In alternativa possiamo cercare di applicare un teorema centrale di convergenza che assicuri la normalita asintotica di X N: esistono molte generalizzazioni del
9.2 Stima della media
151
teorema del limite centrale (che si applica a variabili indipendenti) che sostituiscono l'indipendenza con condizioni meno restrittive, ad esempio l'ipotesi che il processo possa essere rappresentato in forma lineare:
dove pero le {Et} sono indipendenti. Possiamo percio ipotizzare nelle applicazioni che la media sia asintoticamente normale, il che permette ad esempio la costruzione di intervalli di confidenza:
-~ XN
-
ka / 2
VN f (0)
dove k a / 2 e il quantile della normale standardizzata. Anche per quanto riguarda i test delle ipotesi, si puo ricorrere alla teoria di Neyman e Pearson assumendo la gaussianita del processo rna attribuendo allc conclusioni solo validita asintotica. Le maggiori difficolta dell'inferenza su processi aleatori rispetto al caso del campionamento casuale possono essere esemplificate in questo semplice caso, notanda che la media della serie non e in genere stimatore di massima verosimiglianza, nemmeno per processi gaussiani. Infatti se consideriamo la log verosimiglianza, indicando con Vij == r (i - j) gli elementi della inversa della matrice di autocovarianza di ordine N si ha: log L
(Xl, X2,
000'
XN
IJL) ex:
1
-"2 L 2:)Xi N
N
JL)
(Xj -
JL) Vij
i=l j=l
ed eguagliando la derivata rispetto a Ma zero si ottiene: N
N
L L VijXj
M==
i=l j=l N N
L L
i=l j=l
Vij
I pesi Cj == E~l Vij sono tutti uguali solo nel caso di rumore bianco, e solo in tal caso X N e stimatore di massima verosimiglianza. Tuttavia, al crescere del numero di osservazioni in modo bilaterale (cioe verso il futuro e verso il passato), si puo dimostrare che Ie differenze tra i Cj tendono a zero, quindi potremmo dire che X N e asintoticamente di massima verosimiglianza. Nonostante queste difficolta, 10 stimatore X N e certamente la forma pili naturale, ed e adottato senza eccezioni nella letteratura. Esso si giustifica perche e in sostanza 10 stimatore per analogia, ovvero secondo il metoda dei momenti ed e 10 stimatore ottimale nel caso di rumore bianco.
152
9 Inferenza per processi stazionari
9.3 Stima delle autocovarianze e delle autocorrelazioni Passiamo adesso a considerare l'inferenza quando il parametro d'interesse una autocovarianza:
e
compresa la varianza, oppure una autocorrelazione:
r (h)
== ' (h)
,(0) .
Data la parita considereremo solo autocovarianze per h positivo 0 nullo (la varianza) e autocorrelazioni per h positivo (porremo per comodita 10 stimatore di r(O) uguale a 1 con probabilita uno). La simbologia che adotteremo e quella pili comune nella letteratura: indicheremo con i(h) 10 stimatore di ,(h) e con f(h) 10 stimatore di r(h); preferiamo questa notazione poiche e usata molto diffusamente, anche se comporta una piccola incoerenza con la notazione precedente, in quanto gli stimatori non sono denotati da lettere maiuscole pur essendo variabili aleatorie. Per costruire uno stimatore, possiamo anche in questo caso prendere spunto dalla situazione nella quale le variabili sono indipendenti (che ci riporta alla inferenza classica su campioni casuali): rna cia vale solo per la stima della varianza ,(0), poiche tutti gli altri ,(h) sono nulli in caso d'indipendenza. Per la varianza sappiamo che nel caso gaussiano, 10 stimatore di massima verosimiglianza risulta: N
i (0) = ~ ~ (Xt
-
X)2
(9.3)
t=l
che adotteremo come stimatore della varianza. Sappiamo gia che questo stimatore e distorto nel caso di campione casuale, ci possiamo aspettare che sia ancora pili seriamente distorto nei processi aleatori, rna tratteremo in seguito questo aspetto. Per quanto attiene alle autocovarianze, la scelta pili intuitiva (e di fatto unanimemente accettata) e di calcolare una media temporale dell'analogo della covarianza empirica tra due caratteri statistici. Poiche ,(h) e la covarianza tra due variabili che distano h istanti, noi consideriamo nella serie storica a disposizione (Xl, X2, ... , X N ), i prodotti degli scarti dalla media delle osservazioni che distano esattamente h istanti, del tipo (Xj - x) (Xj+h - x), e ne formiamo la media aritmetica. La stima risultante e realizzazione della stimatore seguente: N-h
i(h)=~~(Xj-X)(Xj+h-X),
h=0,1,2,...
(9.4)
j=l
Notiamo che nella serie i prodotti del tipo (Xj - x) (Xj+h - x) sono soltanto JV - h, quelli per j == 1,2, ..., N - h perchc per valori maggiori di j coinvolgerebbero le osservazioni successive alla XN che non sono note; percio nella (9.4)
9.3 Stima delle autocovarianze e delle autocorrelazioni
153
i termini della sommatoria sono soltanto N - h, cioe sempre meno numerosi al crescere di h, e la sommatoria non si puo calcolare per h 2:: N. Inoltre la (9.4) non e una media aritmetica esatta, poiche dividiamo per N una somma di N - h termini, quindi la somma dei pesi e 1 - hlN e non e 1. E possibile pensare a una media aritmetica esatta: 1
L (Xt -X) (Xt+h -X) _
N-h
1* (h) = N _ h
N
_
t=l
= N _
h:Y(h)
rna questa forma eormai stata abbandonata dalla maggior parte degli analisti, per i motivi che saranno chiariti tra breve. Esaminiamo Ie proprieta degli stimatori, iniziando con la distorsione. Qui il problema e essenzialmente che si deve usare una stima della media per calcolare gli scarti. Poiche:
(Xt - X) (Xt+h - X)
==
(Xt - f-L) (X t+h - f-L)
+ (X - f-L)2 +
- (X t - f-L + X t+h - f-L) (X - f-L) si ottiene: N-h
Ni (h) ==
L
t=l
N-h
(X t - X) (Xt+h -
X)
==
L
t=l
(X t - f-L) (X t+h - f-L)+
L'ultimo termine e approssimativamente uguale a -2(N - h)(X - f-L)2 (anche se nella prima sommatoria non sono considerati gli ultimi h dati, nella seconda i primi h). Prendendo infine la media e dividendo per N:
E{:Y (h)}
=
N-h N-h ~1 (h) - ~E (X N-h
~ ~,(h) -
2
- JL) =
N-h
JV221r f (0) .
II secondo termine, pari approssimativamente alla varianza di X, si ritiene generalmente trascurabile almeno per N grande, percio si assume
Si conclude che i(h) e distorta, e la distorsione e pari a una quota (hIN) del valore vero, percio e asintoticamente non distorta. I valori stimati dell' autocovarianza tenderanno quindi a essere pili piccoli in modulo del valore che si stima, in altre parole i(h) e distorta verso l'origine. Si deduce subito che E{,* (h)} ~ ,(h), quindi la versione alternativa dello stimatore sarebbe approssimativamente non distorta. Allora quali sono Ie ragioni della preferenza verso i(h)? Fondamentalmente le due seguenti:
154
9 Inferenza per processi stazionari
1. Se valutiamo l'errore quadratico medio dei due stimatori abbiamo:
EQM fY(h)}
=
E {i' (h) -1' (h)}
2
~ Var{'Hh)} + l' (h)2 ~22
EQM {,* (h)} == E {,* (h) - , (h)}2 == =
Var{ * (h)} l'
=
2 N Vari' (h)} (N _ h)2 l'
VarfY(h)} (1 _ h/N)2
=
ed e opinione prevalente che l' EQ M {1( h)} tenda ad essere inferiore a quello dell'altro stimatore, anche se cia non puo essere dimostrato valido per tutti i processi stazionari (rna vale, come si verifica subito, per il rumore bianco). 2. E importante che considerando le stime collettivamente per tutti i valori di h si ottenga una funzione 1(h) che soddisfa le proprieta soddisfatte dalla funzione di autocovarianza ,(h). La parita e soddisfatta per costruzione dalla 1(h), la relazione Ii (h) I S; 1 (0) e anche soddisfatta, controlliamo la definitezza positiva: poiche
L LCiC/Y (i - j) i
=
j
~ L L LCiCj (Xt - X) (XHi-j - X) = i
j
t
~ ~ L LLci (Xs - i- X) Cj (X
S-
i
=
j
j- X)
=
s
~ ~ [~Ci (X i-X)r > o. s-
Si deduce che 1(h) e definita positiva; invece questa proprieta non assicurata per la (h).
,*
e
In conclusione useremo la forma dello stimatore (9.4) calcolando la varianza 1(0) e le autocovarianze relative ai ritardi crescenti 1,2, ... , fino al massimo ritardo, chiamiamolo M, e possiamo poi porre (se c'e necessita di estendere formalmente la definizione dello stimatore) 1(h) == 0, h > M. In via di principio potremmo scegliere M == N - 1, rna quando h e vicino a N gli stimatori sono composti da una somma di pochi termini (soltanto N - h), e la distorsione (circa, (h)h/ N) e elevata, percio si preferisce limitare il valore del ritardo massimo di stima: se e possibile una indicazione deriva dallo specifico fenomeno che si studia, per il quale a volte si puo restringere l'interesse a una gamma limitata di ritardi. Altrimenti sono state proposte varie considerazioni empiriche, che consigliano di non spingere la stima dell'autocovarianza oltre ritardi pari a un sottomultiplo del numero dei dati del tipo N /5 0 N /3. Ma per una valutazione pili approfondita delle proprieta degli stimatori 1(h) dobbiamo studiarne i momenti secondi, verificando anche se e sotto quali condizioni essi sono consistenti (cioe la ergodicita dei momenti secondi). Teniamo conto che noi costruiamo l'insieme di stimatori {1 (0) ,1 (1) , ... ,1 (M)} calcolandoli sugli stessi dati, percio c'e ragione di ritenere che essi siano correlati.
9.3 Stima delle autocovarianze e delle autocorrelazioni
155
Quindi dovremmo calcolare quantita del tipo:
C ov {i (h) , i (k)} == E {[ i (h) -
Ei (h)] [i (k) - Ei (k)]}
(9.5)
le quali, sostituendo la espressione (9.4) dello stimatore, risultano funzione dei momenti quarti (e terzi) del processo. Questi momenti si possono calcolare in funzione dei cumulanti come abbiamo accennato nel secondo capitolo. Ricordiamo le formule derivanti dalla (3.1) (che abbiamo poi sviluppato nel caso della normale ponendo i cumulanti uguali a zero): E (X IX2X3 ) == cum {Xl, X 2 , X 3 } E (X IX2X3X4 )
== E (X IX2 ) E (X 3X4 ) + E (X IX3 ) E (X 2X4 ) +
+ E (X IX4 ) E (X 2X3 ) + cum {Xl, X 2 , X 3 , X 4 }
(9.6)
dove e da ricordare che si e supposto E(Xi ) == 0 e quindi E(X) == o. Anche in questo caso, ricaveremo formule approssimate la cui validita e solo asintotica; per ricavarle, inoltre, supporremo per semplicita che la media del processo sia nulla. Vediamo dapprima la correlazione tra stimatori della media e dell'autoeovarianza:
Nel caso della distribuzione gaussiana i cumulanti terzi sono nulli; negli altri casi inveee per ottenere l'ineorrelazione sara necessario ipotizzare limitazioni sul eomportamento della serie dei cumulanti, in modo che i termini N 2 e N 3 al denominatore assicurino che la correlazione tende a zero. Per valutare le covarianze del tipo (9.5) assumiamo aneora per semplicita ehe la media sia nulla, oppure che sia nota e la sottraiamo direttamente dai dati, di modo ehe calcoliamo 10 stimatore con la formula:
i (h) =
~
N-h
L
t=l
XtXt+h
156
9 Inferenza per processi stazionari
che permette sviluppi pili facili dei quarti momenti. Poiche ci interessa un risultato asintotico possiamo anche porre E{')t(h)} ~ r(h). Allora:
C ov { ')t (h) , ')t (k)} == E { ')t (h) ')t (k)} -
r (h) r (k)
.
Sviluppiamo il momento quarto usando la (9.6):
E {i (h)i (k)} 1 = N2 L
~2 E { ~ ~ XtXt+hXsXsH }
=
=
L {E (XtXt+h) E (XsXs+k ) + E (XtXs) E (Xt+hX sH)+ s
t
+E (XtXs+k) E (Xt+hX s) + cum (X t, x.,«, X s, X s+k)} == 1
= N2
L L {"( (h) "((k) + "( (t - s)"( (t - s + h t
k) +
s
1
+ "((t-s-k)"((t-s+h)}+ N2 LLcum(Xt,Xt+h,Xs,XsH)' t
s
Ipotizziamo anche in questo caso che la somma estesa ai cumulanti e divisa per N 2 tenda a zero quando N -+ 00, allora per N grande otteniamo:
C ov { i (h) i
1 N (k)} = N2
N
L L b (t - s)"( (t - s + h - k) + t=l s=l
+r (t - s - k) r (t - s + h)} ed effettuando la sostituzione d'indici u == t - s: 1 Cov {i (h), i (k)} ~ N L
b
(u)"( (u + h - k)
+ "( (u -
k)"( (u + h)}
u
h~0 , k~0
(9.7)
dove la sommatoria rispetto ad u si estende a tutti i valori positivi e negativi. La formula appena ricavata, nota come formula di Bartlett, vale per ogni h e k, e permette di calcolare prima di tutto le varianze degli stimatori:
Var{i(h)}
~~L
{"((u)2 +"((u-h)"((u+h)} =
u
=
~L{"((u)2+"((u)"((U+2h)},
h=1,2, ...
u
2 ~
Var{r(O)}~ N~r(u A
)2 .
u
Vediamo che le varianze dipendono dalla serie dei r(u)2 in modo analogo a come la varianza di X dipendeva dalla serie delle r(u), quindi Ia ergodicita in
9.3 Stima delle autocovarianze e delle autocorrelazioni
157
autocovarianza e assicurata dalla convergenza della serie delle ,( u)2. Pili precisamente, ricorrendo alla rappresentazione spettrale sotto l'ipotesi di misura spettrale assolutamente continua (5.11) otteniamo:
VarfY(h)}
=
~ L {// ei(>'-I')U!(>")!(p,)d>..dp+ u
+ // ei>.(u~h)e-il'(u+h)! (>..)! (p,) d>"dp, } = =
~ { / ! (>..)2 d>" + /
e-
i2>.h!
(>..)2 d>..} .
Pertanto se la densita spettrale al quadrato e integrabile, la varianza tende a zero. Una condizione pili precisa per la ergodicita in autocovarianza e allora la seguente:
Notiamo esplicitamente che questa condizione presuppone la assoluta continuita della misura spettrale, mentre per I'ergodicita in media era sufficiente la continuita nell'origine. Per quanto riguarda la correlazione tra Ie stime, la (9.7) e difficilmente valutabile in generale, si puo osservare solo che per ritardi molto diversi tra loro, per cui h - k e grande, e la ,(h) va velocemente a zero al crescere di h, allora nei prodotti ,( u ),(u + h - k) e ,( u - k),( u + h) almeno un fattore sara piccolo, e la covarianza sara moderata, mentre tendono a essere pili correlate tra loro le stime per ritardi consecutivi. Un caso interessante da esaminare e quello che il processo sia rumore bianco: in tal caso ,(h) == 0 per h # 0 e le formule si semplificano molto:
Cov{i(h),i(k)} ==0,
h#k
VarfY(h)} =
1'~)2,
Var{i'(O)}
21'~)2
=
h =I- 0 .
Nel caso del rumore bianco, quindi, gli stimatori delle autocovarianze sono tutti incorrelati, e hanno la medesima variabilita, eccettuato 10 stimatore della varianza del processo, i(O), la cui varianza e il doppio degli altri. Esempio 9.1. Per un processo a somma mobile di ordine q, in cui sia ,(h) == 0 per Ihl > q vediamo facilmente che le stime i(h) e i(k) sono incorrelate se la differenza tra i ritardi e maggiore di q. Nel caso pili semplice q == 1, posta ,(I) == p,(O), avremo Cov{i(h),i(h+j)} == 0 per j == 2,3, ... mentre Cov{i(h),i(h+ I)} == 2p,(0)2/N (ricordiamo che Ipl < 1/2).
158
9 Inferenza per processi stazionari
Passiamo ora a considerare la stima delle autocorrelazioni. Lo stimatore generalmente adoperato e ricavato per analogia dalla definizione r( h) == ,(h)/,(O): N-h
(h) f ( h) == ~ (0) == A
L: (Xt
t=l
'Y
-
X) (Xt + h
-
X) (9.8)
N
L: (x, - X)2 t=l
La consistenza e assicurata se il processo e ergodico in autocovarianza, perche il limite del rapporto e uguale al rapporto dei limiti essendo diverso da zero il limite al denominatore: lim Pr {I f (h) - r (h) I < E} == 1 .
N-+oo
Tuttavia le altre proprieta sono pili complicate, ad esempio la distorsione e difficile da calcolare poiche f( h) e un rapporto tra due variabili aleatorie, in genere correlate. Ci contenteremo percio di risultati asintotici, ottenuti ricorrendo a uno sviluppo in serie di Taylor:
f (x, y) == f (xo, Yo)
+ (x - xo) fx (xo) + (y - Yo) fy (Yo) + R 2
.
Prendiamo come funzione f(x, y) == x/y e identifichiamo x con i(h), y con i(O), Xo con ,(h) e Yo con ,(0). Da:
:: = xo + x - xo _ (y - ;0) xo + R 2 Y
Yo
Yo
Yo
si ricava:
I risultati si ottengono trascurando il resto R 2 che contiene termini di grado superiore a uno nelle differenze i(h) - ,(h) e i(O) - ,(0): poiche queste differenze tendono a zero al crescere di N, gli sviluppi risultanti si possono interpretare come riferiti alla parte principale dell'infinitesimo f( h) - r( h) al tendere di N all'infinito. Dalla (9.9) si ha allora E{f(h)} ~ r(h) e per i momenti del secondo ordine:
9.3 Stima delle autocovarianze e delle autocorrelazioni
=
159
~Cov {1' (h) , l' (k)} - 'Y (h)3 Cov {1' (0) , l' (k)} + r (0) r (0) _ r (k) C ov {A (h) A(O)} + 'Y (hh (k) V ar {A (O)} 'Y (0)3
'Y
'Y (0)4
, 'Y
'Y
e sostituendo la (9.7):
Cov {f (h), f (k)}
=~L
~
{r (u) r (u + h - k) + r (u - k) r (u + h) + 2r (h) r (k) r (u)
2
+
u
h > 0, k > 0
- 2r (u) r (h) r (u - k) - 2r (u) r (k) r (u - h)},
(9.10)
da cui si puo ricavare anche una espressione per la varianza delle stime delle au tocorrelazioni:
Var{f(h)}
~ ~ L{r(u)2+ r(u-h)r(u+h)+ u
+ 2r(u)2r(h)2 - 4r(u)r(h)r(u - h)} . Queste espressioni hanno una parte simile alle analoghe riguardanti le autocovarianze, ma si aggiungono ulteriori termini di grado 3 e 4 nelle autocorrelazioni. Percio anche in questo caso ci si puo attendere che le stime per ritardi non molto diversi siano fortemente correlate.
Esempio 9.2. Per un processo nel quale r(h) == 0 per h > q le stime delle autocorrelazioni sono incorrelate solo se i ritardi considerati sono maggiori di q e contemporaneamente la loro differenza e maggiore di q. Per il caso q == 1 abbiamo, posta r(l) == p, che Var{r(l)} == (1 - 3p2 + 4p4)/ N , Var{r(h)} == (1 + 2p2)/ N , h == 2,3, .... Per le covarianze, per h > 1 si ottiene:
Cov{f(h),f(h+s)} =
~~r(u)r(u+s)=
{
2P/ N p2/N
o
S
== 1
s:2 . s - 3,4, ...
Queste espressioni semplificate si generalizzano facilmente: se r(h) == 0 per h > q, allora possiamo scrivere:
Cov{f(h),f(h+s)}
1
= NLr(u)r(u+s),
b
>«. s=1,2, ...
u
Var{f(h)} =
~Lr(u)2,
h>q.
u
Viceversa, per un processo autoregressivo del primo ordine con r(l) applicando la formula si ottiene:
¢
160
9 Inferenza per processi stazionari
In particolare Var{f(l)} == (1 - ¢2)/N, quindi la variabilita della stima dell'autocorrelazione al ritardo uno, massima nel caso del rumore bianco, diminuisce all'aumentare di I¢I tendendo a zero per I¢I ~ 1. Ricordiamo pero che il valore ¢ == ±1 non corrisponde a un processo stazionario, e quindi l'autocorrelazione (teorica) in questo caso non e definita.
i= 0 e 0, h i= k, Var{f(h)} ~ u», Per quanto riguarda la distribuzione di probabilita degli stimatori, essa e praticamente incalcolabile, rna esistono diversi risultati asintotici, che dimostrano la validita del teorema centrale di convergenza sotto alcune ipotesi di regolarita, Uno dei pili utilizzati concerne i processi lineari, come nel caso che abbiamo ricordato per la media aritmetica: supponiamo che valga la rappresentazione: Nel caso del rumore bianco tutto si semplifica: E{f (h)} ~ 0, h
Cov{f(h),f(k)}
~
L hsEt-s 00
X; - fJ ==
(9.11 )
s=o
con lc {Et} indipendenti e somiglianti, e inoltre E(Et) < 00, Lu h~ < 00, L u lui h~ < 00. Allora si puo dimostrare (Anderson, 1971) che per ogni h positivo la variabile multipla:
IN {i (0) - r (O)}, IN {i (1) - r (1)}, ..., IN {i (h) - r (h)} converge in distribuzione a una normale multipla con medie nulle e varianze e covarianze date dalle formule gia ricavate in modo approssimato, e inoltre converge in distribuzione alla normale anche la variabile:
IN {f (1) -
r (1)}, IN {f (2) - r (2)}, ..., IN {f (h) - r (h)} .
Come immediata conseguenza, per un processo composto di variabili indipendenti le ffi {f (h) - r (h)}, h == 1,2, ... sono asintoticamente normali standardizzate indipendenti. Questi risultati permettono di calcolare intervalli di confidenza approssimati per i singoli elementi r( h) e r( h), mentre epili difficile calcolare regioni di confidenza simultanee per tutti i ritardi, poiche Ie stime per ritardi differenti sono correlate. L'unica eccezione avviene quando questa correlazione viene a mancare, ovvero nel caso di un processo rumore bianco. In questa situazione le stime della autocorrelazione sono asintoticamente normali indipendenti con media zero e varianza liN, quindi se k a / 2 e il quantile della normale standardizzata possiamo costruire l'intervallo di confidenza:
9.4 St ima delle aut ocorre lazioni par ziali
161
0.5
a -0.5 -1 Fig. 9.1. Autocorrelazione t eorica (linea continua ) e stimata (barre) su un a realizzazione finita di un AR(2 ) pseudo-period ico
che e valido ugualmente per t ut ti i ritardi. Spesso l'ip otesi pr incipale da sot to porr e a verifica e che la serie sia completamente incorrelata: r(h ) = 0, Vh # O. Per controllarla agevolmente nel grafico , si usa tracciare sul correlogramma du e linee orizzo ntali al di sopra e al di sotto dell'asse delle ascisse, a egua le distan za ka: /2/ ffi: questa banda viene tracciata dalla maggior pa rte dei softwar e per l'an alisi delle serie temporali. Se il processo che ha generato i dati e un rumore bian co, le singole stime sono ap prossi mativamente normali con media zero e varianza 1/ N , e quindi assu mono un valore che olt repassa la banda solo con proba bilita a . Di conseguenza, se la serie e stata generata da un ru more bianco e abbiamo stimato M autocorre lazioni, ci possiamo asp ettare che approssimativamente solo a.!v! valori ecceda no la ban da di confidenza. Se invece il processo generatore non e un rumore bianco, avra autocorrelazioni pronun ciate diverse da zero , e quindi le stime tenderanno ad avvicinarsi a quei valori, collocandosi con maggiore frequenza all'esterno della banda. Alcuni software calcolano una banda di frequenza pili precisa usa ndo , invece che 1/ ffi, 10 scarto quadratico medio dello stimatore ottenuto sostituendo Ie stime delle autocorre lazioni nella (9.10) (si veda ad esempio la Fig. 5.5 del capitolo 5). Un esempio di st ima del correlogramma e riportato nella Fig. 9.1 che illustra la st ima effett uata su un processo autoregress ivo del secondo ord ine, la cui autocorrelazione teorica e pure riportata nel grafico.
9.4 Stima delle autocorrelazioni parziali Abb iamo visto il significato delle autocorrelazioni parziali in termini di regressione: l'auto correlazione parziale al ritardo h, ;r(h), e uguale al coefficiente di
162
9 Inferenza per processi stazionari
Zt-h nella regressione di Zt SU (Zt-l, Zt-2, ... , Zt-h). Pertanto ai fini della stima si potrebbero eseguire ripetute regressioni sulla serie storica osservata, aumentando via via l'ordine dei regressori mediante le variabili precedenti, e assumere come stime i coefficienti di regressione dell'ultimo termine. Esiste tuttavia un metodo computazionalmente pili semplice e rapido (e che da essenzialmente gli stessi risultati) consistente nello stimare le autocorrelazioni (ordinarie) e sostituirle nelle formule di Durbin (6.20) e (6.21). In questo modo si possono stimare ricorsivamente i parametri autoregressivi di una autoregressione di ordine m per valori di m crescenti, e porre la stima della autocorrelazione parziale di argomento m uguale alla stima di cPm,m. Se indichiamo con n-( h) le stime da calcolare delle autocorrelazioni parziali, mentre f (h) sono quelle gia ottenute delle autocorrelazioni ordinarie, si procede COS!: • •
(1) Si pone ovviamente n-(O) == 1,n-(1) == f(1)'¢I,1 == f(1). (2) Per m == 1 dalle(6.20) si ottiene:
_ f(2) - ¢1,lf(1) 7[''" (2) -- 1 ,+,2 2 - - - - " , - - , 1 - cPI,lr(1)
•
e dalla (6.21) si stima l'altro coefficiente ¢2,1 == ¢l,l - ¢2,2¢1,1. (3) Avendo stimato i ¢m,j per m == 1 e 2 si puo calcolare la stima di 7['(3) usando ancora la (6.20) per m == 2:
11-(3)
• •
=
¢2,1 f(2) ¢2,2 f (1) 1 - cP2,1 r(1) - ¢2,2r (2)
f(3)
-A
-A
e si stimano anche i rimanenti coefficienti ¢3,j usando la (6.21) con m == 2. (k+ 1) Sulla base delle stime dei coefficienti ¢k,j e delle autocorrelazioni ordinarie stimate si ottiene ancora dalla (6.20):
La procedura puo essere iterata fino al ritardo massimo di stima, che e legato a quello adoperato per la stima delle autocorrelazioni ordinarie. Quanto alle proprieta campionarie degli stimatori delle autocorrelazioni parziali, la loro forma pili complicata di quelle ordinarie non permette in generale di ottenere risultati analoghi. Possiamo pero affermare che, essendo le n-( h) funzioni continue delle f( h), se il processo e ergodico in autocovarianza allora anche lc stime delle autocorrelazioni parziali sono consistenti. Un risultato asintotico semplice si ottiene solo se il valore teorico di 7['( h) e uguale a zero. Pili precisamente, Quenouille (1949) ha dimostrato che per un processo autoregressivo di ordine p le stime fr(h) per h > p sono asintoticamente normali indipendenti con media zero e varianza 1/N.
9.5 Stima dello spettro
163
Percio possiamo anche in questo caso disegnare il grafico delle stime n- (h) in funzione di h (detto correlogramma parziale) e considerare bande di confidenza attorno allo zero di ampiezza k a / 2 / VN, come per Ie autocorrelazioni ordinarie, poiche, nel caso che il processo sia un rumore bianco, e per N grande, tutte le n-(h), h == 1,2, ... sono approssimativamente normali indipendenti con media zero e scarto quadratico medio 1/ J(N).
9.5 Stima dello spettro Entriamo ora nel campo dell'inferenza per il dominio frequenziale. Come vedremo qui gli sviluppi si complicano e incontriamo problemi nuovi. Supporremo che il processo aleatorio {Xt} abbia densita spettrale f(A) di quadrato integrabile (di modo che e ergodico in autocovarianza) e ci prefiggeremo 10 scopo di stimare la densita f(A) per A fissato. Due sono Ie strade che intuitivamente si possono percorrere (apparentemente distinte): a) Poiche f(A) e la varianza della componente di frequenza A, che e pari alla media del quadrato dell'ampiezza (in quanto I'ampiezza ha media nulla) possiamo basarci sui moduli al quadrato delle ampiezze A(A) che possono essere stimate attraverso le trasformate di Fourier (5.15). b) Dato che f (A) e la trasformata di Fourier delle autocovarianze, possiamo prima caicolare le stime delle autocovarianze e poi prenderne le trasformate. I due metodi conducono sostanzialmente al medesimo stimatore che viene chiamato periodogramma. Infatti se consideriamo la trasformata di Fourier caicolata alla frequenza A sui dati: N
ZN (.\)
essa
= ~ I:: (Xt yN
-
x) ei>..t
t=l
e la realizzazione della variabile aleatoria: N
ZN (.\) =
la cui media
~ I:: (Xt - X) ei>..t
yN
t=l
e nulla, e la varianza:
E{IZn (.\)1 2 }
=
~L
L E{ (x, - X) (Xs -
t
X) }ei>..(t-s) =
s
Y: (1- I~) ~y(h)ei>"h
h=-N+l
dove si e usato uno sviluppo analogo a quello introdotto parlando dell'ergo2 dicit a in media. Pertanto per N ~ oo,EIZN(A)1 tende a 27rf(A), e quin2 di IZN (A) /27r risulta stimatore asintoticamente non distorto della densita spettrale. Esso prende il nome di periodogramma IN(A): 1
164
9 Inferenza per processi stazionari N
IN (>')
=
~ IZN (>')1 2 = ~ ~ (Xt y2wN
2w
1
= 2n
L
N-l
.
:Y(h)et>'h
c: t=l
1 {
= 2n
2 -
X)
ei>.t
N
:Y(0)+2L:Y(h)cos>'h
h=-N+l
}
(9.12)
h=l
dove i(h) e 10 stimatore dell'autocovarianza (9.4) e si e ancora una volta eseguito il cambio di indici h == t - s nelle sommatorie. L'ultima espressione mostra che il periodogramma eesattamente la trasformata di Fourier della funzione che stima le autocovarianze, estesa ponendo i(h) == 0 per Ihl ~ N: quindi anche il modo di procedere indicato in b) suggerisce l'uso del periodogramma. II periodogramma, pur essendo asintoticamente non distorto, presenta un grave inconveniente che 10 rende inutilizzabile nel caso di processi aleatori, poiche non e consistente. Lo possiamo verificare facilmente nel caso pili semplice in cui il processo {Xt } sia formato di variabili gaussiane indipendenti. Per facilitare 10 studio prenderemo in considerazione solo le frequenze i, (j == 0,1, ... , N/2), considerando solo processi di Fourier del tipo Aj == a media nulla (e quindi non sottrarremo pili X) e separando parti reali e immaginarie:
't
dove:
1 A j == - - V2wN
2 L X, cos -.!!. jt N N
t=l
n, == - - - L x, sin -.!!.jt 1
N
2
V2wN
t=l
N
, j
== 1,2, ... , N /2 .
Se {Xt} e un rumore bianco gaussiano, le A j e B j sono anch'esse variabili normali a media nulla e ricorrendo aIle formule di ortogonalita esposte nell' Appendice A si ottiene:
,(0) 2w
N
2w
2w
Cov {Aj, A k } == -N ~ cos Njtcos N kt ==
{:-r
l' (0) ~ 2n 2n C ov { B i- B k} == -N c: sin N jt sin N kt ==
2w
t=l
, (0) ~
2w
{o
j i= k
,(0) / (4w) j == k
{o
,(0) / (4w)
ji=k j==k
. 2w
Cov{Aj,B k } == 21rNL..--cOS Njtsln Nkt==O. t=l
In conclusione le A j e B, sono variabili normali completamente indipendenti, con varianza uguale a ,(0)/(41r). Ne segue che anche i periodogrammi I(Aj), j == 1, ..., N /2 sono indipendenti. Inoltre:
9.5 Stima della spettro
165
ha una distribuzione chi quadrato con due gradi di liberta poiche e somma dei quadrati di due normali standardizzate indipendenti, si usa anche dire simbolicamente I (Aj) 'd~) X~. Da questa relazione ricordando che E(X~) == v, Var(x~) == 2v, discende subito: r-;»
E{I (Aj)}
= l' (0) =
211"
Var{I(A')}== J
f(A)
(,(0))2 4 = (,(0))2 =f(A)2. 411"
211"
Quando la distribuzione del processo non e gaussiana, questi risultati non sono validi se non approssimativamente, rna si puo ricorrere anche qui a una forma di teorema limite centrale per invocare la normalita di A j e B j quando N ---+ 00, e quindi la distribuzione asintotica chi quadro per il periodogramma. Questi risultati, che abbiamo ricavato nel caso del rumore bianco, possono essere estesi almeno asintoticamente ad altre classi di processi, e in particolare ai processi lineari del tipo (9.11) (anche qui per semplicita supponiamo JL == 0):
L 00
x, ==
hsEt-s .
s=o
Vediamo come. La trasformata di Fourier diventa:
e per N grande possiamo prendere come nuovo indice di sommatoria u == t - s che ha un campo di variazione approssimativamente indipendente da s per cui: Z (Aj) == _1_ EueiAjU hseiAjS == z; (Aj) H (Aj)
~
L
L
u
s
dove H(A) e la funzione di trasferimento del filtro {h s } e Z; e la trasformata di Fourier di un rumore bianco e quindi ha la distribuzione ricavata precedentemente. Ne segue:
dove I, (Aj) e il periodogramma del rumore bianco che ha distribuzione chi quadro con 2 gradi di Iiberta moltiplicato per V ar{ Et} / (411") == (J2 / (411"). Poiche la densita spettrale del processo e, come abbiamo pili volte visto, pari a f (A) == 2 (J2 H (Aj) / (211"), concludiamo: I
1
166
9 Inferenza per processi stazionari
ovvero 21 (Aj )I f (Aj) si distribuisce come un chi quadrato con 2 gradi di liberta, il che ci permette di calcolare media e varianza: (9.13) ricordando sempre che queste formule sono state ricavate sotto alcune ipotesi, e che comunque la loro validita e approssimativa e asintotica; ricordiamo inoltre che il risultato concerne solo le frequenze di Fourier del tipo Aj == ~ j, rna questo e un problema di minore importanza perche al crescere di N esse sono sempre pili numerose e distribuite in modo equispaziato tra 0 e Jr. Dagli sviluppi riportati finora dovrebbe apparire evidente come il periodogramma, non essendo consistente, non risolve efficacemente il problema della stima spettrale. Dovrebbe risultare altresl intuibile il perche della mancata consistenza: fissata la frequenza, il periodogramma non e una media, rna si basa su una sola trasformata. In base a questa considerazione, alcuni tentativi di arriyare a una stima consistente si sono mossi nella direzione di costruire qualcosa di analogo a medie di periodogrammi. Altri autori hanno sviluppato il problema ponendosi pili dal punto di vista del dominio temporale: il periodogramma ha la forma di una trasformata di Fourier delle stime delle autocovarianze (si veda la 9.12):
IN (>..)
=
~ 2Jr
N-l
'" ~
:y (h) ei Ah
h=-N+l
pertanto si potrebbe pensare che essendo le i( h) consistenti, risulti consistente anche 1N(A): il motivo sostanziale per cui questa proprieta non vale e che si somma un numero di stime i(h) crescente, pari a 2N - 1: la varianza della singola i(h) e dell'ordine di liN, rna la varianza della somma non tende a zero. Questo suggerisce che si potrebbe modificare il modo con cui si sommana Ie i(h) limitando gli estremi a numeri minori di N, ed eventualmente ponderando. Vedremo come queste due idee apparentemente indipendenti portino a proporre stimatori dalla struttura essenzialmente simile, che costituiscono tutta una classe di stimatori consistenti della densita spettrale, legati al concetto di finestra (window) nei due domini. Infatti l'idea che abbiamo esposto, relativa al dominio temporale, porta a considerare forme del tipo:
..)
=~ L 2Jr
w (h):Y (h) e
i Ah
h
dove i pesi {w(h)} si annulleranno per valori elevati di h, rna sempre inferiori a N. Dal punto di vista frequenziale, invece, pensare a una media del periodogramma corrisponde a ipotizzare stimatori del tipo:
9.5 Stima dello spettro
167
La funzione {w(h)} viene chiamata finestra d'intervallo, e per rispettare la dimensione della densita spettrale, e considerato che i(h) == i(-h), dovra soddisfare le proprieta w(O) == 1, w(h) == w(-h). La funzione W(A) viene invece chiamata finestra spettrale. Ora, se poniamo:
w (>') = ~ 2: w (h) e- i h A 21r
(si noti che W(A) e reale perche w(h) e
(>')
=
i:
(h) = J1I" W (>') eiAhd>'
-7f
e pari) otteniamo facilmente che
IN (w) W (>' - w) dw =
= ~ J1I"
-7f
(21r)
=
¢} w
h
2: i (h) h
~ 2:2: i (21r)
h
=~ 2: w 21r
e iwh
2:
w
(s) e-i(A-W)sdw =
s
(h) w (s) e- i AS J7f
-7f
s
(h)i (h) e i Ah
e-iw(s+h)dw
= ') .
h
La ricerca dello stimatore si trasforma percio nel problema della costruzione di una finestra, cioe del valore dei pesi w(h) 0 della funzione W(A), che assicuri la consistenza. A questo fine dovremo fare in modo non solo che la varianza dello stimatore tenda a zero, rna anche che la sua media tenda al valore vera della densita spettrale. II problema si puo sintetizzare nel
modo seguente: determinare M e {wM(h), h == 1,2, ... , M} tali che, posta WM(O) == 1, wM(h) == 0 Ihl > M, WM( -h) == wM(h) (h > 0), e
risulti: lim E
N-+oo
{lw (A)} == f (A),
lim Var
N-+oo
{lw (A)} == 0 .
Molte soluzioni sono state proposte da diversi autori, che portano a diverse forme di stimatori, ne esamineremo solo alcune. II punto chiave di questa metodologia sta nel considerare il valore M (chiamato anche punto di troncamento) come funzione di crescente di N: infatti la media di lW(A) e approssimativamente:
168
9 Inferenza per processi stazionari
e non potra in generale tendere a f(A) se la somma non tiene conto di tutti i ritardi h, cioe se M non tende all'infinito con N; d'altra parte, poiche JW(A) e combinazione lineare di 2M + 1 stime delle autocovarianze, e ciascuna di esse ha varianza dell' ordine 1/N, ci possiamo aspettare che la varianza di (A) sia dell'ordine di MIN, e noi vogliamo che tenda a zero. Percio e necessario che M cresca con N, rna che MIN tenda a zero:
Jw
per N
M
-+ 00,
-+ 00
e M /N
-+
0.
Questo si puo realizzare facilmente prendendo ad esempio M == effi. Quando parleremo di consistenza degli stimatori con finestra, sara sempre inteso che al crescere di N il punto di troncamento M soddisfa la proprieta appena descritta. A) Una delle prime proposte estata avanzata da Bartlett ne11950. Egli suggerisce di suddividere la serie in sottoserie consecutive ciascuna di lunghezza M, di calcolare il periodogramma su ciascuna di esse, e di prendere la media (aritmetica semplice) di questi periodogrammi. Non e difficile dimostrare (si veda ad esempio Priestley, 1981) che questo procedimento porta allo stimatore:
./(A) = che
~ 27r
M
L h=-M
(1 - ~) i (h) M
e
i Ah
e della classe con finestra ponendo:
WM(h)={~-lhl/M Ihl <M
Ihl~M
e la corrispondente finestra spettrale risulta: ( h) } 1 sin (MA/2) == -1 { 1 + 2 ~ Z:: 1 - M cos Ah == -M . 2 2
W (A)
27r
h=l
27r
SIn (A/2)
(il risultato e gia stato ottenuto nel paragrafo 9.2, la finestra W(A) ha la forma di un nucleo di Fejer). Gli andamenti delle finestre sono riportati nella Fig. 9.2. Come si vede la finestra w(h) ha una forma triangolare, mentre quella spettrale ha una forma campanulare simmetrica con massimo in zero, si annulIa in ±27r/ M e in tutti i successivi multipli di 27r/ M. Si deduce quindi considerando la espressione della stimatore nel dominio frequenziale:
9.5 Stima della spettra
169
0.5
o
--fL----------------"-
o
-M
M
-2Jt/M
2Jt!M
(b)
(a)
Fig. 9.2. Finestra di Bartlett: (a) fin. di intervalla; (b) fin. spettrale
..,. ,,, . , .... , .,.. ,, , .. I
I
'\
I
\
\
\
\
..
~
f
. -.
... ...
-......
\
,.. - .......... \
..
'If
"
-2Jt/M
,
.
- -.
2Jt/M
0
Fig. 9.3. Larghezza di banda di una finestra spettrale
che j(A) e una media dei periodogrammi di frequenza attorno a A, che hanno maggior peso i periodogrammi di frequenza meno diversa da A, e che i pesi della media sono molto piccoli per frequenze distanti da A pili di 21r/ M. Percio pili l'area centrale di W(A) e stretta, meno sara distorta j(A). Una misura dell'ampiezza del lobo centrale di W(A) viene detta "larghezza di banda" della finestra. Sono state proposte varie definizioni, noi adottiamo la pili semplice (dovuta a Parzen): la larghezza di banda e pari alla base di un rettangolo che abbia la stessa area di quella sottesa da W(A), e la stessa altezza nell'origine (si veda la Fig. 9.3). Poiche l'area di W(·) e:
j~71" W (A) dA = 21r ~ 7r
1
WM
(h)
t
-71"
e-iAhdA =
WM
(0) = 1
la larghezza di banda risulta pari a l/W(O). Per 10 stimatore di Bartlett, poiche W(O) == M/(21r), la larghezza di banda e 21r/M.
170
9 Inferenza per processi stazionari 10
0.5
M
-M -0.5
-5
(b)
(a)
Fig. 9.4. Finestra del periodogramma troncato: (a) fin. di intervallo; (b) fin. spettrale
B) Una soluzione ancor pili semplice si otterrebbe troncando nel periodogramma la somma delle autocovarianze a un numero M; il periodogramma troncato:
j (>') = ~ 27r
M
i (h) ei>.h
'"
L....J
h=-M
e uno stimatore con finestra wM(h) data cia: Ihl<M Ihl2: M alla Quale corrisponde la finestra spettrale:
W(>.) =
~ {I +2I=COS>.h} = ~ sin(~ + 1/2)>. = 27r
27r
h=l
SIn
>../2
DM (>')
funzione chiamata nucleo di Dirichlet, il cui andamento e illustrato in Fig. 9.4b. Si vede che l'oscillazione avviene su valori positivi e negativi, i punti in cui W(>..) si annulIa sono i multipli di 7r/ (M + ~). L'esistenza di ordinate negative comporta il grave inconveniente che le risultanti stime della densita spettrale per qualche frequenza potrebbero risultare negative. C) Una idea parallela e quella di prendere invece una media a pesi costanti del periodogramma sull'asse delle frequenze. Lo stimatore risultante viene chiamato stimatore di Daniell e fu proposto nel 1946. La finestra spettrale viene assunta costante nell'intervallo (-7r/ M, 7r/ M): poiche l'integrale e pari a uno, si avra W(>..) == M/(27r). L'inconveniente principale in questo caso e che la associata finestra di intervallo risulta: WM
(h) ==
j1f W (>') ei>.hd>. = M . : ei>.hd>. = sin (nh/M) -1r
27r
-1rIM
7rh/M
e quindi non si annulIa per Ihl > M, cosi che questo stimatore non e calcolabile se non approssimativamente. L'andamento e illustrato in Fig. 9.5.
9.5 Stima dello spettro
171
(b)
(a)
Fig. 9.5. Finestra di Daniell: (a) fin. di intervallo; (b) fin. spettrale
D) L'idea originale che porta allo stirnatore di Tukey che adesso introdurrerno e quella che sovrapponendo pili funzioni del tipo di Dirichlet (Fig. 9.4) leggerrnente sfasate si puo ottenere un andarnento pili soddisfacente, e una forma dello stirnatore nel dorninio temporale ancora sernplice. Lo stirnatore di Tukey ha una finestra spettrale: W (A)
1 M ( .\ - -7f ) + -D 1 M == -D 4
M
1 M ( .\ + -7f ) (.\) + -D 24M
dove D M (.\) e il nucleo di Dirichlet, cioe la finestra spettrale del periodograrnrna troncato. La corrispondente finestra di intervallo si ottiene facilrnente:
e ricordando che:
Ihl <M Ihl2: M otteniarno: WM
1 ih1r/M + -1 + -e 1 -ih1r/M -_ (h) -- -e 424
{~ 0
(1 + cos
~) Ihl <M Ihl2: M
Percio i pesi si annullano per h 2: M e hanno un andarnento sinusoidale discendente (si veda la Fig. 9.6) rnentre la finestra spettrale ha un cornportarnento simile al nucleo di Dirichlet (periodograrnrna troncato) anche se con oscillazioni rneno rnarcate. La larghezza di banda risulta pari a 27f/ M. In realta esistono
172
9 Inferenza per processi stazionari
0.5
o
~---------~
M
-M
(b)
(a)
Fig. 9.6. Finestra di Tukey-Hanning: (a) fin. di intervallo; (b) fin. spettrale
0.6
-It/M
6 e . - - - - - - - - - - - - - - - ' '--
It/M
---'
(b)
(a)
Fig. 9.7. Finestra di Bartlett-Priestley: (a) fin. di intervallo; (b) fin. spettrale
diverse versioni dello stimatore di Tukey, che differiscono per il diverso peso dato ai tre termini del nucleo di Dirichlet. La scelta (~, ~, ~) corrisponde allo stimatore detto di Tukey-Hanning, mentre Tukey originariamente suggerl i pesi (0.23,0.54,0.23) (il relativo stimatore e a volte detto Tukey-Hamming). E) Tra lc molte altre proposte, consideriamo solo 10 stimatore di BartlettPriestley la cui forma e stata ottenuta con 10 scopo di minimizzare una espressione approssimata dell' errore quadratico medio. La finestra spettrale ha la forma:
W('\)
3M{I (MA)2} = { 041r - 7f
e come Cl SI puo aspettare essen do troncata corrisponde a una finestra di intervallo che non si annulla: 2
wM
(h/M)} (h) == 3M 2 {sin(1fh/M) hiM cos 1f (1fh) 1f
La forma di queste funzioni
l/W(O) == 41f/(3M).
e illustrata in
.
Fig. 9.7, la larghezza di banda
e
9.5 Stima dello spettro
173
Esaminiamo ora le proprieta degli stimatori. Per quanto riguarda la distorsione possiamo scrivere:
E { j (A) } - f (A)
=
E
{I:
I (w) W (A - w) dw} - f (A) .
Ora poiche tutte le funzioni coinvolte sono periodiche di periodo 1r, possiamo cambiare variabile di integrazione ponendo A-W == v senza alterare gli estremi dell'integrale, e inoltre dato che J W (A) d); == 1 abbiamo:
Poiche E {I (A- v)} ~ f (A- v), adoperando uno sviluppo in serie della densita spettrale arrestato al secondo ordine:
f (A - v)
2
=
f (A) - vi' (A) + ~ 1" (A) + R 3
otteniamo:
Ma la finestra spettrale e simmetrica, percio la distorsione approssimata e:
Jv W (v) dv == o. In conclusione
La distorsione dipende dalla derivata seconda di f(A), ed e meno grave se nell'intorno di A Ia densita spettrale ha minore curvatura; dipende anche dal momento secondo di W(A), che e una misura di ampiezza della finestra. Per tutti i tipi di stimatore considerati essa contiene M 0 M 2 al denominatore, percio la distorsione va a zero se M ~ 00. Per calcolare la varianza dello stimatore j (A) possiamo sfruttare Ia sua proprieta di essere media di periodogrammi, che sono asintoticamente incorrelati per frequenze diverse. Per evitare di dover trattare con integrali consideriamo I'approssimazione:
j(A)=
2 I(w)W(A-w)dwc::';
J
~2
2:
I(wj)W(A-Wj)
j=-N/2
dove Wj == ~ j sono Ic frequenze di Fourier: in realta il membro destro e una somma di Cauchy caIcolata sulla partizione (Wj, Wj+l) di (-1r, 1r) e quindi converge all'integrale quando N ~ 00. Per la varianza otteniamo:
174
9 Inferenza per processi stazionari
Ora, per N grande, poiche W(.) e concentrata sullo zero, e quindi W(.\ - Wj) ha valori trascurabili se Wj i= .\, possiamo sostituire 1(.\) a I(wj) ottenendo:
A } ~ 47r ~ 2 Var { f(>') N2 L..,W(>'-Wj) f(>.) 2 ~ 27r N f(>') 2 2
J
W(w) 2 dio .
J
Alternativamente, poiche W(.\) e wM(h) sono trasformate di Fourier, da: (9.14) otteniamo una espressione della varianza di temporale:
Var
I (.\) A
{
}
1
~ N
j (.\) dal punto di vista del dominio M
2 I (.\)
~
L.., WM (h)
2
.
h=-M
Per tutti gli stimatori che abbiamo considerato, la quantita (9.14) e proporzionale aM, percio la varianza di j (.\) e proporzionale a M / N, e tende a zero se M soddisfa le proprieta che abbiamo imposto. Distorsione e varianza per i diversi stimatori che abbiamo introdotto si possono calcolare particolarizzando le espressioni di W M (h) e W (.\), i risultati sono riportati nella tabella seguente: Stimatore
Distorsione Varianza
Bartlett
-it
Daniell
6~2 I" (.\) 1;J I (.\)2
Tukey-Hanning
4~2 I" (.\) ~~ I (.\)2
Bartlett-Priestley 101r~2 I" (.\) ~~ I
(.\) 2
dove
9.5 Stima della spettro
175
oscilla tra 2/3 e 6/5. Tuttavia questi non sono i soli criteri sui quali basare la scelta di uno stimatore. Va infatti tenuto presente che le stime spettrali sono medie su un intervallo di frequenze, la cui ampiezza puo essere valutata approssimativamente mediante la larghezza di banda: una larghezza di banda piccola permette un maggior dettaglio, specie se la densita spettrale da stimare ha variazioni molto ampie e veloci. La larghezza di banda degli stimatori di Bartlett, Daniell e Tukey e 27f/ M, quella del Bartlett-Priestley e (4/3)7f / M. Le caratteristiche dei vari stimatori, come abbiamo visto, non sono drasticamente diverse, mentre i risultati della stima variano molto a seconda del valore scelto per il punto di troncamento M. II rapporto M / N influisce sulla varianza, percio per contenere la variabilita si dovrebbe scegliere M piccolo: pero la distorsione e inversamente proporzionale a M 2 , e quindi per diminuire la distorsione si dovrebbe prendere M grande. Le due esigenze sono contrastanti: la fedclta di uno stimatore e la sua stabilita sono antagoniste (cia e noto come principio di incertezza di Grenander). II problema si potrebbe risolvere se fossimo liberi di scegliere anche il numero di osservazioni N: in questo caso si potrebbe fissare prima un valore di M che assicuri bassa distorsione, e poi scegliere N in modo da ottenere una varianza piccola. Tuttavia in genere non si puo intervenire sul numero di dati a disposizione, e si pone quindi il problema della scelta del punto di troncamento M in modo da raggiungere un compromesso tra i due aspetti della variabilita e della distorsione. I valori adottati per M nelle applicazioni cadono in genere tra N /20 e N /3, un aiuto alla scelta puo venire dalla ripetizione della procedura di stima con vari valori, crescenti, di M. Al crescere di M la larghezza di banda diminuisce, e quindi le stime, inizialmente con andamento piuttosto liscio, vengono man mana a disegnare i picchi con maggior dettaglio, ma a un ulteriore aumento di M prende il sopravvento la variabilita campionaria e l'andamento appare sempre pili erratico. Esaminando i vari grafici si puo valutare qual e il valore di M che fornisce il miglior compromesso (questo procedimento viene a volte detto chiusura della finestra). Infine, per quanto concerne il tipo di distribuzione asintotica seguito dalle stime spettrali, si puo osservare che esse sono medie di periodogrammi, i quali sono asintoticamente chi quadro. Pertanto j(,\) puo essere considerata come combinazione line are di variabili chi quadro (pressappoco indipendenti). Si usa accettare che la distribuzione di j(,\) sia approssimabile da una della forma CX~, dove la costante c e i gradi di liberta v sono scelti in modo da preservare media e varianza:
E (cX~) == cv ==
f (,\)
da cui
v == 2N/
L wM(h)2
c
== f('\)/v .
h
In altre parole, la distribuzione di v j(,\)/ f('\) e approssimativamente un chi quadro con v gradi di liberta. Cia permette di costruire facilmente intervalli
176
9 Inferenza per processi stazionari
di confidenza per la densita spettrale relativa a una fissata frequenza. Infatti, se (k 1 , k 2 ) e un intervallo con probabilita (1- 0:) per una variabile chi quadro con v gradi di liberta (generalmente prenderemo per k1 il quantile a livello 0:/2 e per k 2 il quantile a livello 1 - 0:/2) allora si ha
da cui, invertendo lc diseguaglianze, si ricava l'intervallo di confidenza per la densita spettrale: V
V
Pr{ k f(>") < f(>") < k f(>..)} ~ 1 - a A
A
1
2
II valore assunto da v (detto numero di gradi di Iiberta equivalente, EDF) per i diversi stimatori e 3N/M per il Bartlett, 2N/M per il Daniell, (8/3)N/M per il Tukey-Hanning e 0.25N/ M per il Bartlett-Priestley. Alcuni autori propongono di scegliere il punto di troncamento in modo da raggiungere un assegnato numero di gradi di Iiberta equivalenti giudicato sufficiente, rna nella letteratura si registrano opinioni divergenti su questa proposta. Per concludere, ricordiamo che e necessario stimare il comportamento del10 spettro su tutto l'intervallo di frequenze (0,7f), e quanto detto sinora ha riguardato la stima di una singola frequenza A. II procedimento andra ripetuto: l'uso generalizzato e quello di stimare su frequenze equispaziate del tipo Aj == ~j, j == 0,1, ... , p, e naturalmente di calcolare la densita spettrale in termini reali: 1 fj == f (Aj) == 27f A
A
{M i + L (0)
2
h=l
WM
7f } (h) i (h) cos -jh p
Quanto alla scelta di p, cioe del numero di frequenze diverse su cui articolare la stima, esso puo essere scelto in base alle esigenze di dettaglio: si puo pero notare che j(A), vista come funzione di A, e la trasformata delle (M + 1) quantita {i(O),i(l), ...,i(M)} ed e quindi completamente individuata da M + 1 valori linearmente indipendenti. Per questo solitamente si calcolano le stime sulle (M + 1) frequenze equispaziate Aj == ; j (j == 0,1, ... , M), cioe si pone p == M. Se si hanno fini comparativi, si preferiranno le stime dello spettro normalizzato gj == j(Aj )/i(O). Esempio 9.3 (Analisi spettrale). Gli esempi che presentiamo sono tutti svolti su serie di 200 dati, stimando la densita spettrale su 100 frequenze equispaziate del tipo Aj == 7fj/100 (j == 0,1, ..., 100) e con punti di troncamento pari a 10, 25,55. II primo esempio riguarda una serie simulata di dati indipendenti (rumore bianco). La Fig. 9.8 riporta i risultati usando la finestra di Tukey-Hanning con vari valori di M, ed esemplifica il procedimento di chiusura della finestra: all'aumentare di M aumenta la variabilita e 10 spettro si presenta meno
9.5 Stima dello spettro
177
1-- M=1 0 ..... M=25 - - M=SS] Fig. 9.8. Analisi spettrale, serie simulata rumore bianco, finestra di Tukey
1-- period. trone. - - Bartlett - - - - -Tukey-Hanning I Fig. 9.9. Analisi spettrale, serie simulata rumore bianco, varie finestre, M==25
"liscio". Le differenze tra le varie finestre sono esemplificate nella Fig. 9.9 che riporta per la medesima serie i risultati dell'analisi spettrale con il periodogramma troncato e le finestre di Bartlett e Tukey per M :== 25. Come si vede le ultime due hanno un comportamento abbastanza simile, mentre il periodogramma troncato presenta oscillazioni pili marcate. La Fig. 9.10 riporta l'analisi su una serie simulata secondo un processo autoregressivo del primo ordine con parametro pari a 0.8, e finestra di Bartlett. Lo spettro teorico ha massimo nell'origine e andamento decrescente, caratteristiche che sono rilevate, con differente chiarezza, dalle varie scelte del parametro di troncamento.
178
9 Inferenza per processi stazionari
I-M=10···· ·M=25 -M=55 Fig. 9.10. Analisi spettrale, serie simulata AR(l) con ¢
~
I
0.8, finestra di Bartlett
1--M=10 - - - - - M=25 --M=55I Fig. 9.11. Analisi spettrale della serie della macchie solari, finestra di Tukey
Infine la Fig. 9.11 riporta l'analisi spettrale effettuata su 200 dati delle rilevazioni del numero annuale di macchie solari. Questa serie e una delle pili studiate nella letteratura di serie temporali, poiche presenta un andamento periodico, di ampiezza e periodo irregolari. Tale caratteristica viene individuata con chiarezza per ogni valore di M, poiche la densita spettrale presenta ha un massimo marcato. Anche in questo caso vediamo come al crescere iniziale di M il picco si delinea con sempre maggiore nitidezza, rna un aumento ulteriore di M fa apparire elementi eccessivi di variabilita che si concretizzano in massimi spurii.
9.6 Inferenza per processi bivariati
179
9.6 Inferenza per processi bivariati Gli stimatori delle cross-covarianze e cross-spettri si costruiscono secondo la stessa logica del caso univariato. Per le covarianze incrociate si considera:
1xy (h) =
~
N-h
L
(Xt
X) (Yl+h - Y) .
-
t=l
Seguendo 10 stesso procedimento, e con le stesse ipotesi formulate per Ie autocovarianze, si ottiene E {1'xy (h)} ~ 'Yxy (h) e, per N grande:
C ov {l' xy (h) , l' xy (k)} 1
~ N
~
L bxx (uhyy (u + h - k) + I'xy (u + h hxy (u - k)} . u
Quindi per l'ergodicita e necessaria anche la convergenza della serie dei quadrati delle covarianze incrociate. Per stimare la densita spettrale incrociata, utilizziamo stimatori analoghi ai precedenti: AI,"",
A
fxy(A) == - LJ wM(h)'Yxy(h)e 27r
i)..h
h
e rispettivamente per le parti reale e immaginaria:
C(A)
=
2~ {1x y (0) +
f
WM
(h) [1xy (h) + 1xy (-h)] cosAh}
h=l
s (,X) = ~ ~ WM 27r c: h=l
(h) h xy (h) - 1xy (- h)} sin'xh .
Si possono stimare anche il guadagno e la fase:
{S(A)} C(A)
.
Usando sempre uno sviluppo in serie arrestato, come abbiamo fatto per le autocorrelazioni, si ottiene che 6 (A) e cjJ( A) sono asintoticamente non distorte e che:
dove c e una costante che dipende dal tipo di finestra usata, e K(A) e la coerenza. Cia mostra che in corrispondenza a frequenze per le quali la coerenza
180
9 Inferenza per processi stazionari
e molto piccola, Io stime delle quantita spettrali incrociate possono essere poco affidabili, dato che la varianza e molto grande. Per la stessa coerenza si puo considerare 10 stimatore:
che si dimostra essere asintoticamente non distorto con varianza, per N grande:
Var
{k (A)} ~ 2~CK (A){l -
K (A)} .
Nella stima cross-spettrale viene usata spesso una tecnica conosciuta come allineamento, che ha 10 scopo di diminuire la distorsione. La motivazione risiede nel fatto che la funzione di cross-covarianza rxy(h) non ha necessariamente i1 massimo in h == 0 come l'autocovarianza, rna puo averlo a un qualunque ritardo ko; allora nella stima lxy i valori massimi della finestra W M (h) (che si hanno per h vicino a zero) non vengono moltiplicati per i termini maggiori (e quindi pili informativi) di ixy(h), cosa che invece si ottiene con la funzione seguente "allineata":
Si puo ritenere quindi che fXY*(A) sia meno distorto: rna f;y(A) puo essere pensato come uno stimatore di:
;7f I:
"(xy
(h + ko ) ei>.h =
fxy
(A) e-i>'k o
h
pertanto si ricostruisce una stima dello spettro incrociato se si calcola e la si moltiplica per ei Ak o . Arriveremo cosl allo stimatore allineato:
f: (A) y
II nome "allineamento" deriva dalla osservazione che il risultato si ottiene calcolando una stima nel modo usuale su una serie doppia in cui una componente e sfasata temporalmente rispetto all'altra, in modo da renderle il pili correlate possibile (al ritardo zero). La tecnica dell'allineamento e valutata in modo diverso dai diversi autori, una delle critiche pili frequenti e che la determinazione dell'intero k o per il Quale rxy(ko) == max e lasciata alla stima, e quindi soggetta ad errore: percio l'uso dell'allineamento non e consigliato da tutti gli studiosi; la maggior parte dei software del settore 10 prevede come possibile opzione.
9.7 Stima dei parametri per processi ARMA
181
9.7 Stima dei parametri per processi ARMA Ricorrendo alla rappresentazione di Wold, le caratteristiche di secondo ordine del processo possono essere sintetizzate nella successione di pesi {h o, hI, ...} della decomposizione (6.7), e quindi l'inferenza potrebbe essere basata invece che sul correlogramma e sullo spettro, sulle stime dei parametri h j : cia pero non comporta grossi vantaggi poiche il numero di quantita diverse resta infinito. Se invece si considerano processi di tipo ARMA, la questione cambia completamente aspetto, poiche in alternativa a uri'infinita numerabile (correlogramma) 0 continua (densita spettrale) di incognite ci troviamo di fronte a un numero finito di parametri {¢I"",¢p,()l, ...,Oq} che racchiudono in se l'intero insieme delle caratteristiche di secondo ordine del processo. In questo caso risulta spesso conveniente concentrare l'attenzione sugli stimatori dei parametri autoregressivi e a somma mobile. Riprendiamo l'espressione di un processo ARMA(p, q) in funzione dei parametri:
Abbiamo usato la forma per processi a media nulla, in alternativa si calcolera la media aritmetica della serie e la si sottrarra ai dati. Vediamo che la linearita nei parametri suggerisce una immediata rassomiglianza con la teoria della regressione, e quindi possiamo sperare di estendere i risultati relativi al modello lineare, almeno nel caso dei ¢j che sono moltiplicati per quantita note; pili difficile si presenta la stima dei OJ i cui coefficienti Et-j sono quantita non osservate direttamente. Supponiamo come sempre di disporre di una serie storica (Xl, X2, ... , X N) realizzazione del tratto finito (X I, X 2, ..., X N) del processo, e costruiremo dunque stimatori dei parametri intesi come funzione delle variabili aleatorie (Xl, X 2,
... ,
X N ). Formuleremo inoltre, per ovvi
motivi, l'ipotesi che il processo sia stazionario e invertibile. II problema della stima dei parametri dei processi ARMA e stato molto studiato in letteratura, affrontandolo generalmente col metodo della massima verosimiglianza 0 con quello dei minimi quadrati. In pratica si cerca di adattare i risultati della teoria della regressione lineare, utilizzando gli stimatori dei minimi quadrati, cioe quei valori che, sostituiti nei parametri, rendono minima la somma dei quadrati dei residui di regressione. Nel caso che i dati siano distribuiti normalmente, questi stimatori risultano di massima verosimiglianza. Le difficolta principali che si incontrano nell'estendere la teoria della regressione risiedono nel fatto che Ie equazioni (9.15) coinvolgono valori passati, e quindi se scritte per (Zl, Z2, ... , Z N) dipendono anche da valori non osservati: una delle soluzioni pili semplici e quella di ipotizzare come noti un certo numero di valori precedenti all'inizio della rilevazione, oppure di utilizzare come valori iniziali per la stima le prime osservazioni (stime dette condizionate); un'alternativa e cercare di ricostruire le osservazioni precedenti alla rilevazione in funzione di quelle note (can una specie di previsione all'indietro, detta
182
9 Inferenza per processi stazionari
back-forecasting). Noi descriveremo soltanto Ie generalita del metodo condizionale, rimandando per approfondimenti al classico testo di Box e Jenkins (1970) 0 alIa letteratura successiva. Iniziamo con l'osservare che la (9.15) puo essere riscritta per i dati come: (9.16) Per risolvere l'indeterminazione relativa ai dati non osservati precedenti al primo istante di rilevazione, possiamo adottare l'approssimazione di assumere i valori incogniti relativi al passato pari alla propria media, e quindi porre: co ==
C-l == ... == C-q ==
0 , Zo ==
Z-l == ... == z_p ==
0.
Con questa convenzione, per mezzo della (9.16) possiamo calcolare iterativamente gli urti Cl, C2, ... , CN in funzione dei parametri {¢j , OJ} e dei dati (Zl' Z2, ... , ZN). Viceversa, l'equazione del modello (9.15), insieme con questa approssimazione, permette di calcolare iterativamente le (Zl' Z2, , Z N) in funzione delle (c1 , C2, ... , C N): ne segue che la relazione (c1 , C2, , C N) +------+ (Zl' Z2, ... , Z N) e biunivoca. Si puo inoltre controllare direttamente che 10 J acobiano di questa trasformazione e unitario, il che comporta l'uguaglianza tra la verosimiglianza delle Z e quella delle c. Dunque 10 stimatore di massima verosimiglianza si puo basare sulla massimizzazione della verosimiglianza delle c, che hanno il vantaggio di essere incorrelate. Se poi aggiungiamo l'ipotesi di norrnalita, esse sono anche indipendenti e la verosimiglianza si scrive: 2 (1),0) } L (Zl' ... , ZN 11>,0) == L (cl' ... , cN 11>,0) == (21ra 2)-lf exp { - 2a12 ~ ~ Ct
dove abbiamo sottolineato la dipendenza degli urti, calcolati secondo la (9.16), dai parametri scrivendo ct (¢, 0). La massimizzazione si ottiene evidentemente in corrispondenza del minimo della somma dei quadrati degli errori: N
S (¢, 0) ==
L c; (¢, 0)
(9.17)
t=l
tuttavia questa minimizzazione non puo avvenire facilmente per via analitica perche S(¢, 0) e una funzione non lineare di (¢, 0) (per rendersene conto basta usare la (9.16) per costruire iterativamente Cl, C2, ... : si vedra che a ogni istante successivo il grado complessivo di ct in (¢, 0) aumenta di uno). Per questo motivo e necessario ricorrere a metodi di ottimizzazione numerica. Questo aspetto ha rappresentato per molti anni un punto debole, rna i progressi pili recenti nelle capacita di calcolo degli elaboratori e nell'analisi numerica permettono di affermare che oggi la minimizzazione della (9.17) non rappresenta pili un problema, anche se in alcuni casi vi possono essere pili minimi locali, e va comunque tenuto presente che i valori dei parametri risultanti devono soddisfare le condizioni di stazionarieta e invertibilita.
9.7 Stima dei parametri per processi ARMA
183
La stima della varianza degli urti puo essere basata su quella osservata dei residui, corrispondente al minimo raggiunto dalla somma (9.17):
che risulta di massima verosimiglianza nel caso gaussiano. Come avviene nella regressione multipla, anche in questo caso 10 stimatore di massima verosimiglianza non e corretto, perche si puo dimostrare che E {S (¢, O)} == (N - p - q)(J2, quindi per ottenere la non distorsione bisogna dividere per N - p - q invece che per N. L'uso del metodo di massima verosimiglianza comporta come sappiamo notevoli proprieta, che assicurano la consistenza degli stimatori e la loro efficienza asintotica. Inoltre la variabilita puo essere valutata approssimativamente attraverso l'informazione di Fisher. Naturalmente il metodo si basa sulla ipotesi di normalita dei dati: tuttavia anche senza questa ipotesi la minimizzazione della somma dei quadrati (9.17) assume il significato dello scegliere i valori dei parametri che rendono minima la somma dei quadrati degli scostamenti tra dato Zt e spiegazione che se ne fornisce: cPl Zt-l +... +cPpZt-p +()l Et-l +...+()qEt-q. Pertanto corrisponde al metodo dei minimi quadrati. La totalita dei software statistici di serie temporali e in grado di applicare questa procedura, e quasi tutti permettono in alternativa di usare anche metodi non condizionali, 0 altre tecniche tra le molte proposte in letteratura: i risultati in genere non sono sostanzialmente differenti, almeno quando il numero di dati non e molto piccolo. E comunque pratica comune assicurarsi la disponibilita di almeno una cinquantina di dati per stimare anche i pili semplici modelli. II problema della stima si semplifica molto nel caso di processi autoregressivi puri: infatti la somma dei quadrati dei residui diventa:
Se ci limitiamo a sommare sugli istanti da p + 1 a v, abbiamo quantita note e lineari nei parametri e la minimizzazione puo avv nire facilmente derivando e uguagliando a zero le derivate. Le equazioni nom.ali risultano:
cPl ( ~ Zt-jZt-l) + cP2 ==
L
ZtZt-j
j
==
(~Zt-jZt-2)
+ ... + cPP ( ~ Zt-jZt- p )
1, ..., p
t
dove le sommatorie per t vanno da p + 1 aN. I coefficienti sono codevianze calcolate su intervalli leggermente variabili: se ignoriamo queste differenze, e dividiamo per N, otteniamo:
184
9 Inferenza per processi stazionari
dove: "(*
(h) =
~
N
1
2::
ZtZt-h
'Yj (h) = N
t=p+l
2:: N
Zt-jZt-j-h
t=p+l
sono due stimatori delle autocovarianze, leggermente diversi tra loro e leggermente diversi da i(·). La (9.18) ha una rassomiglianza immediata con Ie equazioni di Yule-Walker, che sono in realta uguali se scritte per i valori teorici dell'autocovarianza (0 l'autocorrelazione). Cia permette di adoperare le equazioni di Yule e Walker per la stima dei parametri autoregressivi:
dove f e il vettore delle autocorrelazioni stimate, e P la matrice di autocorrelazioni stimate. La differenza con il metodo dei minimi quadrati (e quindi di massima verosimiglianza condizionata gaussiana) risiede solo nell'adoperare le stime correnti: 1 N
i (h) = N
2::
ZtZt-h
t=h+l
invece delle ,*(j) e 1j(h). Come si puo ben comprendere, la stima dei parametri per processi puramente autoregressivi e stata sviluppata prima di quella dei processi ARMA, e la linearita permette di raggiungere risultati pili semplici: un risultato fondamentale dovuto a Mann e Wald (1943) e che per un processo AR(p) se le Et sono indipendenti allora la distribuzione asintotica di:
e normale
con media nulla e matrice di dispersione data da a 2 r;' dove
(rp)ij == ,(i - j) i,j == 1, ... ,p. Percio se indichiamo con il vettore delle stime, per N grande si ha:
¢ == (¢l' ¢2' ..., ¢p)'
Per i modelli puramente a somma mobile, si arriva a un risultato analogo partendo dalle proprieta degli stimatori di massima verosimiglianza e approssimando l'informazione di Fisher: per un processo MA(q), posta B== (B 1 , B2 , ... , Bq)' si ottiene:
E(B) ~ () mentre per i processi misti le espressioni delle varianze e covarianze tra lc stime assumono espressioni pili complicate. Per costruire intervalli (0 anche regioni) di confidenza si ammette l'approssimazione con la distribuzione normale, univariata 0 multipla.
9.7 Stima dei parametri per processi ARMA
185
Gli intervalli di confidenza per i singoli parametri possono essere costruiti usando stime dei loro scarti quadratici medi (calcolate sostituendo ai parametri le loro stime) e ricorrendo ai quantili della distribuzione t di Student con N - p - q gradi di liberta,
Esempio 9.4. Per un processo AR(1) il parametro coincide con l'autocorrelazione al ritardo 1, pertanto ci si puo aspettare che anche le stime coincidano, e in effetti la regola dei minimi quadrati da: N
¢1 ==
L
Zt Zt-l
_t=_~ _ _ ~ f
L
(1)
Z;_1
t=2
percio per N grande:
Risultati analoghi valgono per un processo M A(1) nella stima del parametro (). Questa stima pero non e esprimibile facilmente, in termini compatti, poiche proviene dalla minimizzazione numerica di Ec; (()) dove, come si ottiene facilmente: t
Et (())
==
L j=1
t-l
Zj
+ (J
L
j=1
t-2
Zj
+ (J2
L
Zj
+ ... + e':' ZI
.
j=1
Lo stimatore () soddisfa approssimativamente:
Per i processi misti e di ordine superiore le espressioni si complicano. A titolo di esempio per un processo autoregressivo del secondo ordine si ottiene (Box e Jenkins, 1970, Appendice A.7.5):
con la conclusione, forse inaspettata, che la variabilita degli stimatori dei due parametri e uguale e dipende solo da ¢2, e la covarianza tra i due stimatori ha segno opposto a ¢1.
10 I rnodelli rappresentativi
Questo capitolo e dedicato alla costruzione di modelli rappresentativi. Dopo aver motivato l'utilita dei modelli rappresentativi ai fini della previsione, si illustra la metodologia di costruzione dei modelli della classe ARIMA. Vengono illustrati, in ordine crescente di complessita, modelli per fenomeni stazionari, non stazionari, con stagionalita, e infine modelli dinamici per le relazioni tra due processi.
10.1 Introduzione II termine modello statistico e largamente usato, non solo in statistica rna in una ampia varieta di settori della scienza, per indicare un insieme di ipotesi, generalmente espresse in termini quantitativi, volte a spiegare e riprodurre alcuni aspetti del comportamento del fenomeno studiato. Nell'ambito dell'analisi delle serie temporali, un modello e costituito da una 0 pili equazioni che legano i valori contemporanei 0 ritardati di uno 0 pili processi, alcuni di essi anche non osservabili, con l'obiettivo di descrivere l'andamento nel tempo dei fenomeni considerati. Un esempio di modello e dato dall'equazione: (10.1)
che coinvolge il processo aleatorio che genera la serie rilevata, {Xt } , un processo non osservabile {Et} che si suppone avere una struttura semplice, spesso supposto un rumore bianco, e una funzione i cui argomenti comprendono un certo numero di valori precedenti dei due processi. La struttura di r..p e di {Et} determina il comportamento del processo {X t } in maniera completa, e quindi permette di studiarne l'evoluzione in modo pili dettagliato di quanto sia possibile basandosi soltanto su autocorrelazioni e spettro. II tema dei modelli statistici per serie temporali e estremamente vasto e la letteratura sull'argomento ha un'estensione considerevole, qui verranno svolte
188
10 I modelli rappresentativi
solo alcune considerazioni. E necessario innanzitutto spiegare il termine rappresentativi associato ai modelli: esso viene usato in contrapposizione a interpretativi e contraddistingue l'assenza di ipotesi esplicite sui legami di causalita tra fenomeni, 0 di altri vincoli legati a conoscenze a priori 0 teorie proprie di scienze sostantive. In altre parole, se il modello ha il compito di schematizzare in termini matematico-probabilistici le caratteristiche note (0 supposte tali) del fenomeno che si studia, si parla di modello interpretativo. Esempi rilevanti sono i modelli econometrici che spiegano un aggregato macroeconomico in funzione dei valori contemporanei 0 ritardati di altri aggregati; 0 ancora i modelli classici di decomposizione, in cui la serie e essenzialmente determinata dalla sovrapposizione di componenti deterministiche che riproducono il trend e le variazioni stagionali, da cui i dati effettivi si discostano per cause accidentali e non sistematiche, a cui viene attribuita natura stocastica. Particolare importanza hanno assunto nelI'ambito degli studi economici i cosiddetti modelli strutturali (Harvey, 1990) che rappresentano una evoluzione di questo schema. Un modello rappresentativo e invece costruito a partire dai soli dati, cercando di ridurre al minimo le ipotesi formulate sul comportamento del fenomeno e quindi partendo da una classe sufficientemente flessibile di possibili modelIi, e scegliendo quello che assicura, secondo criteri da precisare, la miglior rappresentazione della serie, nel senso che ne riproduce meglio l'andamento nel tempo. Va detto subito che, come si comprende facilmente, la distinzione tra modelli interpretativi e rappresentativi e solo una semplificazione concettuale, poichc nella costruzione di un modello si incorporano sempre ipotesi a priori, e d'altra parte anche la scelta dello schema interpretativo pili vincolante determina solo una classe di modelli, all'interno della Quale si cerca il pili rappresentativo. Inoltre e ovvio che qualunque modello interpretativo puo essere considerato come un elemento di un insieme di modelli rappresentativi, all'interno dei quali esso viene scelto adottando non un criterio di buon adattamento alla realta, rna di conformita alle ipotesi preliminari 0 alla teoria. Ci occuperemo qui solo di modelli rappresentativi, limitandoci a cons iderare la classe determinata da funzioni cp lineari e processo non osservabile a variabili incorrelate: in questo caso l'equazione (10.1) che definisce il model10 diventa uguale alla relazione soddisfatta da un processo autoregressivo a somma mobile: p
x,
==
L cPjX
t-
j=l
j
+ ct -
q
L
()jCt-j .
(10.2)
j=l
Per questo motivo si parla di modelli ARMA, anche se questo puo generare confusione tra il concetto di modello e quello di processo. Si potrebbe obiettare che e ragionevole attendersi da un modello interpretativo risposte pili precise di un modello rappresentativo, poiche esso sfrutta ipotesi pili precise; si puo peraltro ribattere che proprio questa caratteristica rende il modello interpretativo pili vulnerabile a errori nelle ipotesi iniziali.
10.1 Introduzione
189
E esperienza comune e ormai consolidata, che specie
dal punto di vista della previsione i modelli rappresentativi della classe ARMA forniscono risultati equivalenti e spesso migliori di pili approfonditi modelli interpretativi, poiche sono i dati stessi a trasmettere nel modello, se correttamente costruito, lc loro caratteristiche strutturali e dinamiche. Cia spiega anche il crescente interesse e consenso che la modellistica di tipo ARMA si e progressivamente guadagnata nel corso dell'ultimo quarto di secolo. L'assunzione principale per la costruzione di un modello ARMA consiste nell'ammettere che la serie temporale analizzata rappresenti una realizzazione finita di un processo aleatorio stazionario al secondo ordine, con misura spettrale assolutamente continua. Vedremo poi come la metodologia sia stata ampliata per comprendere anche i casi in cui queste ipotesi possono essere ritenute poco sostenibili, in quanto la serie presenta un trend non trascurabile, o forti variazioni stagionali (si parlera allora di modelli integrati 0 ARIM A, e di modelli stagionali e/ 0 moltiplicativi). I modelli ARMA ammettono anche una interpretazione in termini di distribuzioni condizionate. Se le {e.} sono normali, esse sono anche indipendenti e quindi Et non dipende da X t - 1 , X t - 2 , .... Percio prendendo la media condizionata ai valori assunti dal processo fino al tempo t - 1, dalla (10.2) si ha: E(Xt IXt -
p
1 , X t- 2 , ... )
==
q
L
cPjXt- j -
j=1
L
()jEt-j
j=1
in quanto la media condizionata di Et, data l'indipendenza,e uguale alIa media non condizionata E(ct) == O. Per la varianza condizionata si ha invece:
Var(XtIXt~l, Xt~2,' .. ) = E {[Xt - E(XtIXt- 1 , X t-2, . . .)]2} ==
E
(c;)
==
a2
.
Quindi il processo che segue la (10.2) ha media condizionata espressa dalla combinazione lineare di dati e urti precedenti con parametri cP e (), e varianza condizionata costante pari a (J2 . Nel resto del capitolo sara descritta a grandi linee la metodologia di costruzione dei modelli ARMA (e loro estensioni) secondo l'impostazione messa a punto da Box e Jenkins (1970), che e stata sviluppata e approfondita negli anni successivi da molti altri ricercatori, e si e dimostrata utile ed efficace per l'analisi di fenomeni dinamici in molti campi delle scienze sia umane sia naturali. Nella parte relativa alla previsione puntuale considereremo anche altri tipi di modelli che si basano su assunzioni pili precise 0 restrittive. Costruire un modello rappresentativo, secondo la metodologia di Box e Jenkins, significa scegliere quell'elemento della classe dei processi autoregressivi a somma mobile (10.2) stazionari e invertibili, al Quale i dati meglio si conformano, secondo un criterio di verosimiglianza. La scelta avviene in due fasi: 1. Scelta del valore degli ordini p e q (identijicazione).
190
10 I modelli rappresentativi
2. Scelta del valore dei parametri cP1' ..., cPP' 01, ..., 0q e a 2 (stima dei parametri). La prima fase, come vedremo, presenta i problemi concettuali pili complessi, rna fissati p e q il processo e determinato e la seconda fase puo avvenire con il metodo della massima verosimiglianza illustrato nel paragrafo 9.7. Una volta costruito il modello, con la determinazione di p, q e delle stime ¢1' ..., ¢P' 01,..., Oq, Box e Jenkins consigliano di verificarne l'adattamento calcolando una stima dei residui in funzione dei dati (Xl, X2, ... , XN): P
Et
== Xt
-
L
j=l
q
¢jXt-j
+
L
OjEt-j
t == P + 1, ..., N
j=l
Se il modello fosse corretto e stimato precisamentesenza alcun errore, ovvero nell'ipotesi che i dati provenissero effettivarnente da un processo aleatorio di quel tipo e con quei valori dei parametri, allora le Et sarebbero realizzazioni di un rumore bianco, quindi dovrebbero conformarsi alla ipotesi di avere media nulla, varianza costante e di essere incorrelate tra loro, ipotesi che possono essere verificate attraverso test statistici. Queste operazioni costituiscono la fase chiamata di verifica del modello (diagnostic checking nella terminologia di Box e Jenkins) che si conclude con l'accettazione del modello oppure con il suo rifiuto. In quest'ultimo caso, l'analisi dei residui aiuta a comprendere quali sono lc caratteristiche dei dati che non si riescono a spiegare e potra suggerire modelli alternativi: percio si ripete la fase di identificazione tenendo conto di questi risultati (il che portera spesso, rna non sempre, ad incrementare la scelta di p e q), e poi la stima dei parametri e la verifica. Si viene cost a concretizzare una procedura iterativa di affinamento successivo del modello, fino a determinarne uno statisticamente accettabile.Esamineremo adesso pili approfonditamente ciascuna fase.
10.2 Identificazione del modello Con il termine identificazione si intende, nell'ambito della procedura di costruzione di modelli ARMA secondo l'impostazione di Box e Jenkins, la scelta del valore da attribuire all'ordine autoregressivo p e all'ordine della somma mobile q. Nel corso degli anni si sono andate delineando tra gli analisti di serie storiche due diverse linee di pensiero nei confronti della costruzione dei modelli rappresentativi, e anche se questa distinzione non viene evidenziata frequentemente dai testi pili importanti, essa ha conseguenze sul modo di procedere e sulle tecniche usate per la identificazione: a) Identificazione come "scoperta". Dall'assunzione base che Ia serie sia una realizzazione finita di un preciso processo ARMA deriva che esiste uno e un solo modello esatto, e quindi la modellistica ARMA ha 10 scopo di
10.2 Identificaziane del modello
191
ricostruirlo, e la identificazione ha l'obiettivo di scoprire quali sono gli ordini p e q del processo che ha generato la serie. b) Identificazione come "approssimazione". La costruzione del modello e vista come un problema di scelta, nella classe dei modelli possibili (la classe ARMA a ordine finito), di quell'elemento che assicura la migliore spiegazione della serie osservata. Percio e necessario prima di tutto fissare un criterio attraverso il quale si giudica quanto il modello rappresenta i dati: sulla base di questo criterio si andra a cercare nella classe dei modelli quello che ne fornisce il valore ottimo. In questa ottica la identificazione diventa un problema di massimizzazione (0 minimizzazione) su uno spazio discreto, e il modello prescelto risulta la migliore approssimazione alla serie secondo un criterio esplicito. Si e detto che tra gli analisti non c'c una contrapposizione netta delle due impostazioni, e anche in letteratura questa distinzione non e frequentemente delineata con chiarezza. Agli inizi della modellistica contemporanea, tra le due guerre mondiali, la impostazione prevalente era nettamente quella per approssimazione. Dopo la seconda guerra mondiale, con i risultati di Wold sulla rappresentazione dei processi stazionari, sembra prevalere la impostazione della identificazione come scoperta, che e implicitamente abbracciata da Box e Jenkins. Negli anni successivi e stata via via rivalutata la impostazione per approssimazione, che a oggi e accettata in modo prevalente. La ragione di cia risiede essenzialmente nello sviluppo dell'analisi numerica e dell'informatica, che permette di risolvere in maniera esauriente il problema della scelta passando in rassegna virtualmente tutti i possibili modelli, valutandoli secondo un assegnato criterio quantitativo e scegliendo il migliore. A questo punto anche la impostazione basata sulla "scoperta" diventa un caso particolare di quella per approssimazione, caratterizzata da un criterio binario che assume valore Iogico "falso" su tutti i modelli tranne uno, su cui assume valore "vero". Inoltre la possibilita di scegliere esplicitamente un criterio permette di finalizzare la costruzione del modello agli scopi per cui 10 si vuole utilizzare, poiche non si puo escludere che, ad esempio, il modello che fornisce previsioni migliori sia diverso da quello che permette la migliore ricostruzione di dati mancanti 0 da quello che meglio descrive le variazioni stagionali. Bisogna pero riconoscere che questa possibilita di far dipendere la scelta del modello dagli scopi che ci si prefiggono e ancora poco sviluppata in letteratura. II modo di procedere fondamentale nella identificazione come scoperta consiste nel confronto tra andamento teorico nel modello, e andamento empirico stimato sui dati, di alcune funzioni che caratterizzano la dinamica: prima di tutte le autocorrelazioni e le autocorrelazioni parziali. Si stimano percia Ie autocorrelazioni ordinarie e parziali, e si analizza il correlogramma, comparandolo con le proprieta caratteristiche dei processi ARMA: 1. Un processo M A(q) ha autocorrelazione ordinaria nulla per ritardi superiori a q.
10 I modelli rappresentativi
192
2. Un processo AR(p) ha autocorrelazione parziale nulla per ritardi superiori ap;
3. un processo AR(l) ha autocorrelazione ordinaria di forma esponenziale negativa, un AR(2) pseudo-periodico ha un andamento periodico smorzato dell' au tocorrelazione ordinaria. 4. Un processo ARMA(p, q) ha un comportamento dell'autocorrelazione analogo a quello dell' AR(p) eccettuati i primi q ritardi. 5. L'andamento dell'autocorrelazione di un autoregressivo corrisponde a quello dell'autocorrelazione parziale di una somma mobile dello stesso ordine e viceversa. II correlogramma stimato, ordinario e parziale, deve percio suggerire la scelta di p e q. II problema sorge proprio perche non si conoscono i valori effettivi delle correlazioni, rna solo le loro stime, che forniscono informazioni imprecise, e possibilmente distorte (poiche il numero di dati e finito) e possono rendere assai problematico e incerto associare a ogni correlogramma un andamento tipico proprio di un particolare ordine (p, q). L'incertezza si puo valutare alla luce di misure come gli scarti quadratici medi delle stime i( h) e ir(h), rna anch'essi dipendono dai valori veri delle r(.) e 11"(.), e quindi vanno stimati con il pericolo di sottovalutarli (0 sopravvalutarli) gravemente. Pur prescindendo da questo problema, potremmo costruire intervalli di confidenza per tutte le stime riportate nel correlogramma e valutare Quale andamento teorico si adatta meglio. Questo procedimento risulta abbastanza percorribile nel caso di processi AR e MA puri, poiche in tal caso una delle due funzioni (ordinaria o parziale) si annulIa da un certo punto in poi, e si puo giudicare se un'autocorrelazione stimata e significativamente diversa da zero confrontandola con il valore k a / 2 / ViV. Pertanto al primo esame del grafico si va a verificare qual e il ritardo minimo a partire dal Quale le correlazioni stimate si mantengono all'interno della banda di confidenza tracciata attorno all'asse delle ascisse. Se si considera l'autocorrelazione ordinaria, questo ritardo da un'idea dell'ordine q sufficiente perche un modello MA puro possa riprodurre bene l'andamento, mentre se si guarda il correlogramma parziale, il ritardo minimo oltre il Quale si perde la significativita indica l'ordine p sufficiente per un modello AR puroo Generalmente si sceglie il pili piccolo dei due. Un esame pili approfondito potra suggerire come alternativa modelli misti, di ordine complessivamente inferiore. Esistono molte altre tecniche di identificazione del modello basate sul principio della scoperta, legate a varie funzioni il cui comportamento su processi ARMA e determinato dall'ordine. Le pili usate sono funzione del lag e hanno la particolarita di assumere valore nullo in corrispondenza all'ordine (e quasi sempre anche per ritardi superiori). Percio la tecnica si basa sulla stima di queste funzioni e sulla valutazione della loro significativita. Rientrano in questa logica: l'uso delle autocorrelazioni inverse, l'autocorrelazione estesa, il corner method e altri per i quali si rimanda alla letteratura (per esempio Box, Jenkins e Reinsel, 1994).
10.2 Identificazione del modello
193
Va sempre tenuto presente che l'incertezza legata al fatto che le quantita rilevanti sono solo stimate, non permette una messa a fuoco precisa e univoca dell'ordine (p, q), rna per ogni serie analizzata si arriva in genere a un ventaglio di modelli - cioe di coppie (p, q) - tutti egualmente plausibili alla luce dei dati. Tra di essi si sceglie basandosi sul principio della parsimonia, cioe preferendo il modello che ha il minor numero di parametri, poiche esso presentera minor difficolta nella fase di stima, e in genere si presta a una pili facile interpretazione ed e pili agevole controllarne caratteristiche e andamenti. Cia naturalmente avviene come prima scelta, salvo ritornare ad adottare modelli pili articolati nel caso che la successiva fase di verifica dovesse segnalare una inadeguatezza del modello pili semplice, come vedremo nel seguito. Passiamo adesso a sviluppare l'impostazione che vede la identificazione come una approssimazione. E necessario prima delimitare esattamente l'insieme delle soluzioni possibili - il che viene fatto in genere specificando un ordine massimo plausibile sia per la struttura autoregressiva, P, sia per quella a somma mobile, Q - e un criterio di scelta consistente in una funzione dei dati e dell'ordine: C(p, qIXI,X2, .. " XN), che, secondo l'uso generalizzato in letteratura, assume il significato di perdita, ed andra quindi minimizzato. La identificazione si pone quindi come un problema di minimo:
minC(p,qlxl,X2, ... ,XN) ,(p,q)
E
[O,P] x [O,Q].
(10.3)
Notiamo come questa impostazione e passibile di immediate generalizzazioni dell'insieme delle soluzioni possibili, ad esempio quella in cui si specifica anche che alcuni parametri sono vincolati a zero, per cui il modello e determinato dall'elenco dei ritardi ai quali compare un parametro autoregressivo o a somma mobile: in pratica, invece che da (p, q), il modello e caratterizzato dal vettore (hI, h 2 , ... , h p, k l , k 2 , ... , kq) con 1 hI < h 2 < ... < h p P, 1 < k 1 < k 2 < ... < kq < Q e ha la forma:
<
Zt == ¢IZt-h 1
+ ¢2 Zt-h + ... + ¢pZt-h + ct 2
p
<
()ICt-k 1
-
•.• -
()qct-k q
e si parla in questo caso di modelli subset. Una volta fissata la parametrizzazione del modello, e noi adotteremo la pili semplice (10.2), le varie procedure differiscono per la scelta della funzione da minimizzare C (p, qlxl, X2, ... , XN ): queste funzioni vengono direttamente chiamate con il nome di criteri, a volte anche criteri automatici per sottolineare che la scelta e basata su una procedura analitica invece che basarsi sulla sensibilita e sull'esperienza della statistico come nella impostazione precedente. La tecnica dei criteri di identificazione e legata indissolubilmente al nome di H. Akaike, che ha introdotto i criteri FPE (1969) e AIC (pubblicato a livello internazionale nel 1974 anche se ideato qualche anna prima). II criterio FPE (final prediction error) si applica alla costruzione di modelli autoregressivi puri, e parte dal considerare come criterio da minimizzare la varianza residua del processo. Essa dipende dai parametri cPj che vanno stimati, e quindi si crea un circolo vizioso. L'idea che riesce a superarlo e quella
194
10 I modelli rappresentativi
di immaginare di avere due realizzazioni indipendenti, di lunghezza N, dello stesso processo autoregressivo di ordine p, (Xl, X2,.··, XN) e (YI' Y2,···, YN). Usiamo la prima per stimare i parametri ottenendo i ¢j (x), j == 1, ... , p, e con questi parametri calcoliamo i residui sui dati {Yt}, e la varianza residua. La varianza residua teorica risulta:
= Ey
(rt - LcPjrt-j f + LLEx{[¢j(X) - cPj][¢k(X) - cPk]h(j j
= a
2
k)
k
+ E { (¢ -
cP)' rp ( ¢ - cP) }
dove si e usata l'indipendenza tra (XI, ... ,XN ) e (YI, ... ,YN ) e si sono indicati in forma vettoriale i parametri e le autocovarianze. Ricordando (paragrafo 9.7) che il vettore ¢ e, per N grande, normale con media ¢ e varianza -ka2r p- l , la forma quadratica risulta (a2/1V) volte un chi quadro con p gradi di liberta, e la sua media e quindi pari a a 2 pl N. Pertanto il risultato finale e a 2 (1 + piN). A questo punto, per il calcolo effettivo dobbiamo stimare a 2 , e preferiamo 10 stimatore corretto N (;2 I (N - p), dove (;2 e 10 stimatore di massima verosimiglianza. Akaike propone di calcolare queste quantita sui dati dell'unica serie a disposizione per differenti valori dell'ordine, stimando a 2 con la varianza residua osservata dopo aver adattato un modello autoregressivo di quell'ordine: (10.4) dove
e i ¢j (j == 1, ... , h) sono stimati con il metodo dei minimi quadrati. Se i dati provengono da un processo autoregressivo di ordine p, calcolando la (10.4) per valori crescenti, da 0 fino a p, otterremo valori decrescenti, poiche l'adattamento e sempre migliore, mentre al crescere di h oltre p la varianza residua non risentira di grosse riduzioni (in quanto abbiamo gia spiegato tutta la dinamica lineare presente nei dati), mentre il termine (N +h)/(N -h) cresce e quindi 10 FPE tendera ad aumentare. Pertanto si cerchera quel valore di h in corrispondenza al quale FPE(h) raggiunge il suo valore minima. II nome FPE sta per Final Prediction Error perche la varianza residua puo essere anche considerata (come vedremo) come errore quadratico medio di previsione, e l'aggettivo "finale" si riferisce alla ipotesi delle due realizzazioni indipendenti.
10.2 ldentificazione del modello
I- - - parametri ---o----Iog.verosim. -Ale
195
I
Fig. 10.1. Andamento del criterio Ale in funzione del numero di parametri
II criterio AIC (Asymptotic Information Criterion) estato introdotto in un contesto pili generale di adattamento di modelli statistici, e ha visto applicazioni in molti campi, non soltanto relativi alle serie temporali. Esso deriva da considerazioni legate alla teoria dell'informazione, rna puo essere interpretato come un procedimento simile al FPE, basato sulle due realizzazioni, nel Quale il criterio di ottimalita e la massimizzazione della verosimiglianza, 0 equivalentemente la minimizzazione di una funzione pari a -2 volte illogaritmo della verosimiglianza. Lo sviluppo analitico (si veda Brockwell e Davis, 1987) porta a una quantita che si ottiene sottraendo dal numero dei parametri il logaritmo della verosimiglianza massimizzata. In questo modo, adottando modelli di ordine crescente, sia il numero di parametri sia la massima verosimiglianza aumentano, descrivendo una situazione schematizzata nella Fig. 10.1 in cui il criterio mostra un minimo definito e permette la identificazione. Se indichiamo con L (x I¢1, ... , ¢P'() 1, ... , ()q) la verosimiglianza dei dati sotto l' ipotesi che essi provengano da un processo ARMA(p, q), e con
L,,q == (¢,B)EA max L(xl¢, ()) la verosimiglianza massimizzata, dove A e la regione ammissibile di stazionarieta e invertibilita, il criterio AIC si puo scrivere nel nostro caso:
AIC(p, q) == -2 loge Lp,q
+ 2(p + q)
e si parla a volte di verosimiglianza penalizzata. Sorge il problema di calcolare la verosimiglianza, per la quale si ammette l'approssimazione con la distribuzione normale. Allora, come abbiamo visto nel paragrafo 9.7, si puo scrivere: L(xlq" B)
=
(27r(T2)-N/2 exp { -
2~2 S(q,Ji)}
.
196
10 I modelli rappresentativi
Massimizzando rispetto a (¢, ()) e a 2 si ottiene &2 == S (¢, B)/ N, da cui L == (21r&2)-N/2 exp{ -N/2}, cosl che logL == -(N/2) log(&2) + N/2. Pertanto, trascurando la costante additiva N /2 e sostituendo:
AlC(p, q) == N log{&2 (p, q)} + 2(p + q)
(10.5)
dove si e scritto &2 (p, q) per sottolineare che e la varianza residua calcolata dopo aver adattato un modello ARMA(p, q). I due criteri FPE e AlC pur essendo ricavati secondo logiche diverse, sono approssimativamente equivalenti per N grande, quando si sceglie tra modelli autoregressivi. lnfatti usando l'approssimazione log(l + x) ~ x (valida per x piccolo) possiamo scrivere:
logFPE(h) = logo-h
+ log (~ ~ ~)
= log o-h + log ( 1 + ~ ) - log ( 1 -
~)
~ logo-h + 2h/N = ~AIC(h) pertanto i due criteri raggiungono il minimo in corrispondenza allo stesso ordine. Come si puo notare, la scelta di FPE 0 AlC come criterio C(p, qlx) da minimizzare comporta la stima completa, per ogni possibile coppia (p, q), dei parametri sia autoregressivi sia a somma mobile, quindi comprensibile che 1'uso di questi criteri si sia diffuso solo dopo che i metodi numerici di stima sono diventati sufficientemente affidabili e veloci, e la disponibilita di potenza di calcolo rilevante si e generalizzata. Dalla fine degli anni 70 sono state proposte in letteratura innumerevoli variazioni e generalizzazioni, e molti sono stati anche i tentativi di sistemare la materia e di organizzarla in un quadro unitario. Accenniamo brevemente solo alla recente, elegante impostazione di Taniguchi e Kakizawa (2000). Essi considerano una funzione (generica) g che caratterizza il processo (potrebbe essere la funzione di autocorrelazione 0 la densita spettrale, 0 la successione dei pesi hj nella rappresentazione (6.7) di Wold). Consideriamo una classe di c Rm} dipendenti da m parametri scalari, e modelli parametrici {Me, () E sia fe la forma assunta da g in corrispondenza al modello Me. Per esempio se g e la funzione di autocorrelazione e la classe di modelli e quella degli autoree la regione di gressivi puri stazionari con a 2 == 1, allora () == (¢1, ... , ¢m), stazionarieta dei parametri e fe e la funzione di autocorrelazione teorica di un processo autoregressivo con parametri dati da (). L'aderenza del modello Me al processo viene giudicata attraverso il valore di una misura di discrepanza D(g, fe) che assume un unico minimo se g coincide con fee L'obiettivo e di determinare la scelta parametrica che minimizza la discrepanza, cioe l'elemento ()o di e tale che
e
e
e
D(g,fe o )
==
minD(g,fe). eE8
10.2 Identificazione del modello
197
eo
II valore rappresenta la scelta ottima. Tuttavia, sulla base della realizzazione finita osservabile (Xl, X2,"" XN) noi non abbiamo la conoscenza completa di g, che puo essere pero stimata attraverso uno stimatore gN. Allora dovremo cercare il parametro che realizza la minima discrepanza da gN, cioe quel valore ON per il quale
D(gN,fe )==minD(gN,fe). N eE8 In questo modo la scelta di ON dipende dai dati, si viene quindi a descrivere uno stimatore ON(XI , ... ,XN). Per misurare l' adattamento del modello possiamo considerare la discrepanza media E{D(g,feN)}, dove la media e presa rispetto a (X I, ... , X N ). II criterio da rendere minimo (al variare del numero dei parametri m) e quindi la discrepanza media E{D(g, feN)}' che pero naturalmente va stimata. Particolarizzando la scelta della funzione g, della discrepanza D(·,·) e del modo di stimare la media, Taniguchi e Kakizawa ottengono criteri equivalenti al FPE, al AIC e a molti altri. Ad esempio il criterio AIC si ottiene se si assume che il processo sia un ARMA(p, q) gaussiano, si prende come funzione 9 la densita spettrale, () == (cPI' cP2' ... , cPP' ()l, ()2, ... , ()q- (J'2), per fe la densita spettrale del modello:
f (A) e
11 - () Ie iA 21r 11 - cPI e i A 2
== ~
-
-
i qAI 2
()
qe
cPpeiPA
1
2
e come stimatore di 9 il periodogramma:
'" (') 21r1" L.-t N
gN /\
N
==
2
Xte
i At
t=l
e infine come misura di discrepanza:
D(g,f(})
=
J
{logf(}(,\)+
;(}~'~\}d'\.
-7r
Questa breve descrizione mette in luce un altro importante aspetto della procedura di identificazione: il valore del criterio C(p, qlx) da rendere minimo dipende in genere da quantita proprie del processo che genera i dati e quindi ignote. Per questo in realta cio che rendiamo minima e una stima del valore del criterio e la bonta del procedimento e condizionata dalle proprieta degli stimatori usati: in particolare e difficile assicurare la consistenza, cioe far sl che quando N tende all'infinito l'ordine scelto converga in probabilita al valore che minimizza il valore teorico del criterio. Da questo punto di vista diverse critiche sono state rivolte al criterio AIC, mostrando che in molti casi l'ordine scelto e superiore a quello che assicura il minimo (si parla di overfitting 0 sovra-parametrizzazione) . Sono stati allora proposti alcuni criteri che assicurano la consistenza se applicati su processi ARMA(p, q) gaussiani. I pili usati sono il criterio di Schwarz (1978) e il criterio di Hannan e Quinn (1979). II criterio di Schwarz e
198
10 I modelli rappresentativi
fornito da:
SCH(p, q) == N log &2(p, q) + (p + q) log N
(10.6)
e sostituisce il termine 10gN, crescente con N, al fattore 2 dell'AIC: esso e una modifica semplificata, rna sostanzialmente equivalente, di un criterio proposto precedentemente da Akaike e suscettibile di interpretazione in termini bayesiani, detto BIC (Bayesian Information Criterion, Akaike, 1979). II criterio di Hannan e Quinn e invece:
HQ(p, q) == log &2 (p, q) + (p + q)2c(10g log N) / N
(10.7)
dove C > 1. II criterio e motivato dalla proprieta di consistenza forte dello stimatore dell'ordine ottenuto con il minimo HQ. Questo risultato rientra in una serie di studi sui criteri di identificazione svolti da Hannan (in realta per processi multivariati) che ha dimostrato risultati del tipo seguente: se il processo generatore dei dati e un ARMA(p, q), e CN e una successione che tende a pili infinito quando N ---+ 00, allora 10 stimatore dell'ordine ottenuto minimizzando il criterio log &2 + (p + q)CN/ N e consistente. Questo risultato mostra la consistenza del criterio di Schwarz che si ottiene ponendo CN == 10gN, mentre evidentemente non vale per il criterio AIC che rientra nella forma di Hannan solo ponendo CN == 2. Hannan ha anche dimostrato che se
· In . f{ 1im
N -too
CN
2 log log N
}
>1
e
allora 10 stimatore fortemente consistente, e questo spiega la struttura del criteria di Hannan e Quinn. Sono stati proposti molti altri criteri in letteratura, sui quali non ci soffermeremo, che si rifanno sostanzialmente alla forma di verosimiglianza gaussiana penalizzata e quindi sono del tipo N log &2 (p, q) + (p + q)1f N, e contrastano la componente crescente in funzione del numero dei parametri, generalmente lineare, con una componente decrescente legata alla varianza residua. Rientra in questo schema anche una procedura per la scelta dell'ordine di un model10 autoregressivo puro, basata sulla varianza residua, che ha costituito uno dei primi metodi usati per la scelta dell'ordine, facilmente applicabile poiche legato alla stima ricorsiva dei parametri autoregressivi con il metodo di Durbin che ci e servito per stimare Ie autocorrelazioni parziali (paragrafo 9.4). Esso permette, sulla base delle stime delle autocorrelazioni, di stimare i parametri di un modello autoregressivo di or dine m in maniera ricorsiva, con m crescente:
f(m
m
+ 1) - E
j=l
cPm,jf(m + 1 - j) A
A
j=l
¢m+1,j == ¢m,j - ¢m+1,m+1¢m,m+1-j,
j == 1,2, ... , m
10.2 Identificazione del modena
199
mentre per la stima della varianza residua si puo ottenere:
Al crescere dell'ordine la varianza residua inizialmente decresce sensibilmente, rna una volta raggiunto l'ordine "vero" la diminuzione ulteriore etrascurabile, poiche non e pili dovuta a un aumento della capacita esplicativa del modello. Percio nell'adattare modelli di ordine crescente ci si fermer a quando il passaggio all'ordine immediatamente superiore non garantisce pili una diminuzione apprezzabile della variabilita residua. Si sceglie cioe il primo valore (ovvero il pili piccolo perche la procedura iterativa e crescente) p per il quale
ovvero I¢P+l,p+ll < VE· Si verifica facilmente che questo modo di procedere equivale ana minimizzazione del criterio N log + P7rN ponendo 7rN == N log{1/ (1 - E) }. Infatti nel passare dan'ordine p all' ordine p + 1 questo criterio C(p) cresce 0 decresce a seconda che
a;
C(p + 1) - C(p) == N log a;+l - Nloga;
+ 7rN == Nlog
(ah _1_) 1
O"p
1- E
2: 0 <
che equivale a
Si puo anche verificare che questa procedura equivale approssimativamente a usare il criterio FPE se E == 2/(N + 1). Dal punto di vista pratico, ai fini della costruzione effettiva di un modello sulla base di una serie temporale osservata, la scelta tra i molti criteri non si presenta facile: i risultati teorici di Hannan invitano a scegliere un peso 7rN crescente con N, rna cia e rilevante solo nella pratica ripetuta di costruzione di modelli su serie con numerosita differente, e non aiuta nella scelta dell'ordine per un singolo caso. II valore 7rN == 2 corrisponde al criterio di Akaike, e supera ampiamente il log log N (scelta che assicura la consistenza forte) per serie fino a 1000 osservazioni; tuttavia e dimostrato che in molti casi tende a suggerire ordini troppo elevati. Di conseguenza e consigliabile esaminare il comportamento del criterio per valori del peso 7rN anche leggermente superiori, aumentandolo fino a 3 0 4 0 fino a log N se e superiore, valutando la stabilita dell'ordine risultante. Se questo cambia al variare di 7rN, un modo di procedere omogeneo allo spirito della metodologia di Box e Jenkins equello di adottare il modello pili parsimonioso (col minor numero di parametri) lasciando poi alla fase di verifica dell'adattamento il compito di suggerire la eventuale necessita di ampliare gli ordini.
200
10 I modelli rappresentativi
Un'ultima considerazione di importanza pratica non trascurabile riguarda l'insieme di valori ammissibili per l'ordine (p, q), e in particolare i valori massimi plausibili P e Q nella (10.3). Se si considerano ordini molto grandi in rapporto alIa numerosita N della serie, si raggiunge una situazione in cui l'insieme degli N dati viene spiegato in funzione di quasi altrettanti parametri, e questo comporta (per Ie proprieta stesse dei minimi quadrati) una varianza residua vicina a zero; poiche nel criterio di identificazione compare illogaritmo della varianza residua ( e log z tende a -00 se z tende a zero), il termine log fJ2 tende rapidamente ad assumere valori negativi molto grandi in modulo, trascinando il criterio verso meno infinito indipendentemente dalla grandezza di p e q. Di conseguenza accade che, se P e Q sono molto grandi, l'andamento osservato e diverso da quello della Fig. 10.1: il criterio presenta un minimo assoluto in corrispondenza dell'ordine (P, Q) e un minimo interno solo relativo. Per questo motivo si raccomanda spesso, nell'uso dei criteri automatici, di fermarsi al "primo minimo" al crescere dell'ordine, cioe di selezionare i valori di (p,q) corrispondenti al minimo interno. Esempio 10.1. Consideriamo la serie delle macchie solari di cui abbiamo gia svolto l'analisi spettrale nell'esempio 9.3. Abbiamo considerato solo 100 dati, e abbiamo adattato modelli autoregressivi puri con ordine crescente. I risultati riportati nella tabella seguente elencano per ogni ordine la varianza residua stimata e il valore dei criteri FPE, AlC, Schwarz e Hannan-Quinn (con c == 1.5); in corrispondenza all'ordine zero e riportata la varianza della serie. ordine yare res. o 1300 1 444 2 245 3 247 4 247 5 249 6 245 7 217 8 213
FPE 1300 453 255 262 267 275 277 249 250
AlC 717 611 554 556 558 561 562 552 553
SCH 717 614 559 564 569 575 578 570 573
H-Q 717 615 562 569 575 582 587 580 585
20
169
253 553 605 635
48
26
74 421 546 545
Tutti i criteri presentano un minimo relativo in corrispondenza all'ordine p == 2 e poi cresco no all'aumentare dell'ordine, anche se non in modo monotono. Pertanto i criteri indicano univocamente la scelta di un modello AR(2). Per illustrare il comportamento limite dei criteri, abbiamo riportato i valori stimati per ordini elevati p == 20 e p == 48, che risultano generalmente inferiori ai minimi relativi ottenuti per p == 2; al di la dell'ordine 48 la varianza residua diventa praticamente nulla.
10.3 Stima dei parametri e verifica del modello
201
10.3 Stima dei parametri e verifica del modello Una volta deciso l'ordine (p, q), la stima dei parametri cPl' cP2' ... , cPP' ()1, ()2, ... , ()q, (J2 viene effettuata con i metodi di stima che abbiamo illustrato nel paragrafo 9.7, assumendo che la serie sia una realizzazione finita di un processo ARMA(p, q). Ricordiamo che abbiamo sempre considerato processi a media nulla, e quindi il modello e stato costruito per gli scarti dalla media. In alternativa si puo considerare il processo non depurato dalla media J-L, che segue il modello
dove c == J-L(1- cPl - cP2 - ... - cPp)· La costante c puo essere stimata sostituendo le stime dei parametri autoregressivi e la media osservata x:
rna gran parte dei software ne prevedono la stima congiunta simultaneamente con gli altri parametri. Durante la procedura di stima, per ogni parametro viene stimato anche il relativo scarto quadratico medio. I valori standardizzati ¢j/a(¢j) e OJ/a(Oj), confrontati in valore assoluto con i quantili della distribuzione t di Student a (N - p - q) gradi di liberta, forniscono una idea di quali stime dei parametri siano significativamente diversi da zero. Nel caso che ve ne siano alcune non significative, diversi software permettono di ripetere la stima vincolando i corrispondenti parametri a zero, e diminuendo cost il numero dei parametri. Puo inoltre accadere nel caso di modelli misti che gli operatori AR e MA stimati presentino un fattore in comune, cioe che posto:
si abbia
(B)
==
C(B)ep* (B)
dove C(B) ha grado inferiore e equivalente al seguente:
0
8(B)
==
C(B)8* (B)
uguale al min(p, q). Allora il modello stimato
ep* (B)Xt
==
8* (B)ct
il Quale ha ordine inferiore e va quindi preferito per la maggiore parsimonia. Percio esempre opportuno, dopo la stima, fattorizzare i polinomi (B) == 1 - 1.28B + 0.32B2 ha radici (risolvendo l'equazione di
202
10 I modelli rappresentativi
secondo grado) pari a circa 2.92 e 1.0S, e si puo scrivere quindi &(B) (1 - BI2.92)(1 - Bl1.0S) ~ (1 - 0.35B)(1 - 0.93B) mentre il polinomio MA e 8(B) == (1 - 0.39B). Poiche 10 scarto quadratico medio stimato per 01 e
V(1-
{}i)/N
C:::'.
0.92/VN, se la serie e lunga per esempio N
=
120 dati si ot-
tiene 8"(0 1 ) ~ O.OS, quindi (1- 0.39B) e (1- 0.35B) possono essere considerati equivalenti e semplificando si ottiene il nuovo modello (1-0.93B)X t == Et che e un AR(l) di struttura parametrica pili semplice pur offrendo sostanzialmente la stessa spiegazione dei dati. Vengono anche calcolati i residui osservati formula:
Et
p
Et
==
Xt -
L
¢jXt-j -
j=l
C+
ottenuti iterativamente con la q
L
OjEt-j .
(10.S)
j=l
Tutti i metodi di stima garantiscono che la somma dei residui e zero (a un grado di approssimazione dipendente anche dall'elaboratore, rna comunque sufficiente ai fini pratici), e la somma dei quadrati viene usata per stimare la varianza residua (generalmente la versione non distorta): ---2 _
(J -
N
1 ~ ---2 ~Et - P- q t
.
La varianza residua viene confrontata con la varianza della serie attraverso un indice mutuato dall'analisi di regressione denominato coefficiente di
determinazione R 2 :
R2 == 1 -
8"2 /1(0) .
II valore di R2 varia tra 0 e 1 e misura la parte di variabilita "spiegata" dal modello. Nella sua interpretazione si deve tener presente che il valore ottenuto e una stima del quoziente teorico R 2 , e inoltre che esso si riferisce al modello che abbiamo scelto, percio su R2 possono influire due tipi di distorsione: 1. II rapporto 8"2/1(0) potrebbe essere una stima distorta di (J2/,(0). 2. II modello che abbiamo scelto (cioe l'ordine che abbiamo identificato) potrebbe non essere ottimale, e quindi il (J2 che andiamo a stimare potrebbe non essere quello minimo raggiungibile all'interno della classe ARMA. Queste considerazioni suggeriscono di valutare con cautela le stime del coefficiente di determinazione; d'altra parte sarebbe sbagliato concludere che un R2 piccolo e segno di errata costruzione del modello, poiche la serie puo essere stata generata da un processo ARMA caratterizzato da un valore teorico piccolo di R 2 == 1 - (J2 I, (0); in tal caso se la identificazione e corretta e la stima poco distorta, il valore di R2 non puo essere che piccolo. Ad esempio per un AR(l) il coefficiente R 2 e uguale a ¢2: se abbiamo una serie generata da un AR(l) con parametro ad esempio ¢ == 0.5, risulta R 2 == 0.25 e anche un modello correttamente identificato non potra avere un coefficiente di determinazione maggiore.
10.3 Stima dei parametri e verifica del modello
203
In conclusione, un R2 modesto puo significare sia che la procedura non e stata compiuta correttamente, sia che la serie proviene da un processo con struttura lineare dinamica poco pronunciata: per discernere queste due alternative si deve effettuare una verifica di conformita del modello, argomento che passiamo adesso a trattare. Le operazioni volte a controllare la bonta del modello si rivolgono essenzialmente ai residui osservati (10.8) con 10 scopo di verificare se essi soddisfano Ie ipotesi alla base del modello stesso, e fondamentalmente quella di incorrelazione. Ricordando infatti la interpretazione del modello come filtro lineare , si vede che l'effetto delle strutture autoregressiva e a somma mobile e quello di introdurre una dipendenza lineare dinamica nei dati, e se questa forma di dipendenza non e pili presente nei residui, si puo pensareche il modello ipotizzato sia corretto; viceversa, se nei residui si ravvisa ancora dipendenza lineare, cia significa che essa non e stata spiegata esaurientemente dalle parti autoregressiva e a somma mobile costruite: in tal caso ci porremo anche il compito di trovare modelli pili accurati. II controllo statistico della incorrelazione (0 come si usa anche dire della bianchezza) dei residui si puo condurre in ambedue i domini, temporale e frequenziale (anche se i metodi pili correnti appartengono al primo) e si basa sulle stime delle autocorrelazioni e del periodogramma dei residui osservati Et:
fc(h)
==
LEtEt+h/LE; t
t 2
I (.\) == _1_ ~ 21rN
c
e
E e i At ~ t t
II modo di procedere pili usato quello di costruire test statistici in cui l'ipotesi nulla stabilisca che i residui provengono effettivamente da variabili incorrelate, cia che viene assimilato alla correttezza del modello costruito. Percio se l'ipotesi non viene rifiutata dal test, il modello e accettato come sufficientemente rappresentativo della serie. Questo tipo di problematica (i cosiddetti test di bianchezza) estata sviluppata inizialmente in modo indipendente dalla costruzione dei modelli rappresentativi, e i risultati possono essere applicati direttamente ai residui osservati, tenendo conto pero che il modo con cui essi sono stati calcolati (10.8) fa s) che esistano vincoli che legano i loro valori. Nel dominio temporale il risultato fondamentale al Quale ci possiamo riferire e la normalita asintotica delle stime delle autocorrelazioni del rumore bianco: se f == {f(1), f(2), ... ,f(M)}', allora VHf tende a una normale multipla a M dimensioni standardizzata (con medie nulle e matrice di dispersione idcntita). Pertanto possiamo costruire una distanza complessiva del vettore dall'origine calcolandone la somma dei quadrati, che diventa una variabile chi quadrato se la standardizziamo moltiplicandola per N:
204
10 I modelli rappresentativi
Poiche ogni allontanamento dalla "bianchezza" comporta che almeno qualche autocorrelazione teorica sia diversa da zero, ci aspettiamo che la statistica QM tenda ad avere valori pili grandi se il processo non e bianco, e quindi un test di bianchezza si puo basare sulla regione di rifiuto QM > X~,(l-a) (quantile a livello 1-0: della variabile chi quadro con M gradi di liberta.). Questo modo di procedere puo essere esteso ai residui, rna il fatto di averli calcolati dopo aver stimato i parametri comporta che il vettore rE: == {rE:(l),rE:(2), ... ,rE:(M)}', sotto l'ipotesi che il modello sia corretto, si distribuisca in maniera asintoticamente normale con media nulla, rna matrice di dispersione con rango M -p-q. Ne risulta che la statistica QM si distribuisce sotto l'ipotesi nulla come un chi quadrato con M - p - q gradi di Iiberta (Box e Pierce, 1970). Si ottiene cost il test di Box e Pierce detto portmanteau (baule, valigia):
e C a e il quantile a livello (1- 0:) della distribuzione chi quadrato con M - p - q gradi di liberta. Le approssimazioni adottate, pero, fanno sl che per N finito spesso il test abbia una significativita empirica (frequenza di rifiuto dell'ipotesi nulla quando e vera) inferiore al valore nominale 0:, e questo ha portato a considerare una maggiore precisione nel valutare la varianza degli stimatori delle autocorrelazioni. Se si usa la formula
Var{rE:(h)}
==
(N - h)/{N(N + 2)}
si ottiene cosi una versione diversa del test, proposta da Ljung e Box (1978):
QM== N(N + 2)
M
L rE:(h)2 /(N -
h)
(10.9)
h=l
che e pili usata della precedente. Anche in questo caso il modello viene accettato se il valore calcolato della (10.9) non supera il quantile del chi quadrato con M - p - q gradi di liberta. Meno chiaro e meno trattato in letteratura e il problema di come scegliere il valore di M, cioe quante autocorrelazioni "mettere in valigia" (fermo restando che il loro numero deve essere considerevolmente superiore a p+q), poiche la potenza del test sotto ipotesi alternative dipende dalla forma di queste: in genere si puo dire che se applicato a un processo che abbia autocorrelazioni diverse da zero fino al ritardo k, e poi nulle, la potenza del test aumenta al crescere di M fino a k, e poi tende a diminuire per valori superiori. Percio il valore di M va scelto superiore a tutti i ritardi in corrispondenza dei quali si sospetta che ci sia autocorrelazione, rna non troppo elevato. Ad esempio, la pratica per dati mensili che possono essere soggetti a stagionalita suggerisce di scegliere per M un valore di almeno 12, spesso viene scelto 24; in dati trimestrali con la eventuale presenza di cicli economici congiunturali (solitamente con periodi fino a sette-otto anni) si sccglicra un M tra 20 e 30, e cost via, compatibilmente con la numerosita della serie.
10.3 Stima dei parametri e verifica del modello
205
II test di Ljung e Box e molto diffuso e praticamente tutti i software per la costruzione di modelli ARMA ne forniscono il risultato. Sono stati proposti in letteratura molti altri test, i quali in genere hanno potenza superiore a quello di Ljung e Box, rna hanno una distribuzione di probabilita sotto l'ipotesi nulla pili complicata 0 difficilmente tabulabile. Citeremo soltanto quelli basati sulla differenza tra autocorrelazioni ordinarie e parziali (Pukkila, 1984; Baragona e Battaglia, 2000a). Be il processo e rumore bianco allora r(h) == 7f(h) (== 0) per ogni h, mentre per tutti i processi non bianchi Ie funzioni di autocorrelazione ordinaria e parziale differiscono almeno per qualche ritardo: questo suggerisce di usare le stime delle differenze, f( h) - ir( h), per costruire una somma dei quadrati simile al test portmanteau. II vantaggio e che sotto l'ipotesi nulla la varianza di f (h) - ir (h) e dell' ordine di 1I N 2 , mentre quella di f (h) e di ordine II N, percio le differenze sono molto pili sensibili all'allontanamento dalla bianchezza. L'inconveniente e invece nel fatto che N{f(h) - ir(h)} non ha una distribuzione asintoticamente normale (tende invece alla differenza tra due chi quadro indipendenti) e quindi il calcolo dei valori critici del test e pili difficile. Da segnalare infine il recente test proposto da Peiia e Rodriguez (2002) basato sul determinante della matrice di autocorrelazione stimata dei residui, che ha dimostrato buone proprieta di potenza. Nell'ambito del dominio frequenziale, il controllo della bianchezza dei residui consiste nel verificare l'ipotesi che la densita spettrale possa essere considerata costante. II problema puo essere posta in termini di confronto tra la distribuzione spettrale normalizzata teorica G(A), ad andamento lineare tra -7f e 7f, e quella empirica basata sul periodogramma:
G(A) =
i: i: I(w)rlliJ /
I(w)dw .
Si puo dimostrare che, essendo 10 stimatore G(A) una media di periodogrammi, risulta consistente e quindi non c' e bisogno di ricorrere agli stimatori con finestra. Per il test di uguaglianza tra distribuzione teorica ed empirica si ricorre ai risultati di Kolmogorov e Smirnov sul confronto tra distribuzioni di probabilita, che possono essere estesi anche al caso presente. In pratica approssimeremo l'integrale con una sommatoria, calcolando il periodogramma dei residui alle frequenze di Fourier Aj == 27fj IN (per Ij < m == IN 12l): 1
I j ==
1
~ v 27fN
L E ex p(i27fj t IN ) t
2
t
e la stima dello spettro normalizzato cumulato:
k == -m + 1, ... , m mentre la misura spettrale teorica per il rumore bianco e naturalmente G(Ak) == (k + m)IN. Ricordiamo che asintoticamente lc I j sono chi quadrati
206
10 I modelli rappresentativi
I Rifiutare Ho 0.5
O~_"":'-_-------------------'
Fig. 10.2. Misura spettrale teorica e stimata e test di bianchezza
indipendenti, cost si possono applicare i risultati di Kolmogorov e Smirnov:
dove TIn sono i quantili tabulati, per esempio TIn ~ 1.36 per ex == 0.05. Accetteremo l'ipotesi quindi se la distanza tra G e G si mantiene sempre entro i limiti della disuguaglianza, cioe se
altrimenti rifiuteremo l'ipotesi nulla. II test ha anche una immediata rappresentazione grafica: sul rettangolo (-1T, 1T) X (0,1) si traccia la diagonale ascendente e due linee a distanza ±Tla 2/ N, e poi si disegna la spezzata a gradini che congiunge i punti {Ak' G(Ak)}' Se la spezzata in qualche punto esce fuori dalla banda centrale si rifiuta l'ipotesi di rumore bianco (si veda la Fig. 10.2). Va tenuto presente tuttavia che gli urti su cui viene calcolato il periodogramma sono ottenuti in base alle stime dei parametri ¢ e (), e quindi anche sotto l'ipotesi nulla la distorsione delle stime dei parametri puo introdurre autocorrelazione spuria nelle Et, provocando valori pili elevati delle differenze G(Ak) - G(Ak) e di conseguenza una maggiore ampiezza empirica del test rispetto allivello nominale, pertanto i risultati vanno sempre giudicati con cautela (considerazione peraltro valida anche per le procedure nel dominio temporale). In conclusione, se si eportati ad accettare l'ipotesi che i residui provengano da un processo rumore bianco, si considerera il modello accettabile; in caso
vi
10.4 Modelli per serie non stazionarie in media
207
contrario, un esame dei residui puo suggerire modelli alternativi. In linea di principio, se la serie {Et} non egiudicata bianca, si puo ipotizzare che essa sia rappresentabile come processo lineare, e che possa essere ben approssimata da un modello ARMA di ordine autoregressivo Q e a somma mobile (3:
dove {Ut}
e un rumore bianco. Riportando questo risultato sui dati, poiche &(B)Xt == 8(B)ct
moltiplicando ambo i membri per M(B) si ottiene:
M(B)&(B)Xt == 8(B)N(B)Ut che descrive il processo osservato {X t } come un processo autoregressivo a somma mobile di ordine (p + Q, q + (3), e quindi suggerisce una modifica all'identificazione volta a incrementare gli ordini. In pratica l'autocorrelazione dei residui puo suggerire un andamento generale di tipo autoregressivo puro (e allora si aumenta l'ordine della struttura autoregressiva) oppure la significativita dei valori relativi soltanto a uno 0 pili ritardi (e in tal caso si incrementa l'ordine della parte a somma mobile). Sulla scorta di queste informazioni si ripete il ciclo di costruzione del modello, articolato nelle fasi di identificazione, stima e verifica. Va sottolineato infine che se ci si affida a criteri di adattamento complessivo, come il test di Ljung e Box 0 quello di bianchezza dello spettro, si potranno generalmente trovare pili modelli, anche di ordine diverso, che si adattano ugualmente bene alla stessa serie: tra di essi ce ne puo essere uno che spiega meglio I'andamento delle frequenze basse e uno che riproduce meglio quelle alte, oppure un modello che ha autocorrelazioni residue molto piccole per certi ritardi, e un altro che Ie ha piccole se si guardano ritardi diversi. La scelta tra questi, se sono di ordini differenti, e guidata in genere dalla parsimonia: scegliere quello con minor numero di parametri. Se cia non e sufficiente, puo capitare che determinate frequenze, 0 determinati ritardi, abbiano una importanza 0 un significato particolare, e allora si privilegia la bonta di rappresentazione riferita a quegIi elementi specifici. Tuttavia nella gran parte delle applicazioni cia non accade, ed e necessario essere disposti ad ammettere l'esistenza di una molteplicita di modelli il cui adattamento complessivo e di qualita equivalente, e le cui differenze sono difficili da discernere. In ultima analisi, la scelta tra pili modelli equivalenti puo esser affidata al valore di un criterio automatico (FPE, AIC, BIC, ...), adottando ovviamente il modello che presenta il valore minimo.
10.4 Modelli per serie non stazionarie in media Si incontrano frequentemente serie le cui caratteristiche appaiono in contrasto con Ie ipotesi fondamentali di base che abbiamo assunto. I fattori principali
208
10 I modelli rappresentativi
che fanno sorgere queste preoccupazioni, e che si riscontrano molto spesso specie nelle serie economiche, sono il trend e la stagionalita. Una serie presenta un trend quando i suoi dati tendono ad assumere valori crescenti, 0 decrescenti, al trascorrere del tempo, in modo tale che se ne considerassimo il grafico ordinato per il verso opposto delle ascisse (cioe con il tempo che scorre verso sinistra invece che verso destra) si ravviserebbe un andamento completamente diverso. A volte anche Ie oscillazioni dei valori della serie tendono a diventare pili ampie al trascorrere del tempo (si parla di trend in varianza). Queste caratteristiche portano a ritenere che per il processo che genera i dati non valga l'ipotesi di costanza della media e/o della varianza, e in tal caso non si possono definire autocorrelazioni e spettro. II dibattito sul problema della stazionarieta ha impegnato per anni i ricercatori dividendoli tra coloro che negavano validita ai metodi dell' analisi moderna delle serie temporali in questa situazione, e coloro che proponevano metodi per trattare adeguatamente e preliminarmente il trend, in modo da poter poi impiegare i metodi propri dei processi stazionari. Dal punto di vista logico, la dicotomia puo essere ricomposta osservando, con Kendall, che sulla base di un numero finito di dati N, non e possibile stabilire se essi provengono da un processo stazionario oppure no: infatti la tendenza crescente 0 decrescente, che si manifesta nel finito sugli N dati, potrebbe essere originata da una componente ciclica di ampiezza rilevante e periodo superiore a N istanti. Percio il quadro di riferimento che abbiamo costruito nei capitoli precedenti si presta ad analizzare anche serie con trend, pur se in tale ambito dovremo sviluppare metodi specifici per trattare questa caratteristica che in genere ha rilevanza macroscopica e introdurrebbe distorsioni molto pesanti nelle stime. Infatti, se adoperiamo direttamente su serie con trend i metodi di stima che abbiamo costruito finora, vedremo che la densita spettrale stimata presenta un picco elevatissimo alla frequenza zero e densita trascurabile alle altre frequenze, mentre il correlogramma ci fornisce tutte stime positive e molto elevate a qualunque ritardo; in sostanza un quadro scarsamente informativo. Ai fini del trend si possono riconoscere, come accennato nel Cap. 2, due impostazioni: • •
Stima del trend mediante una funzione deterministica del tempo. Filtraggio della serie per rimuovere il trend.
Nel primo caso viene scelta una funzione di t, generalmente lineare oppure polinomiale (0 anche di forma pili complicata, ad esempio esponenziale 0 10gistica) e viene adattata alla serie stimandone i coefficienti con il metodo dei minimi quadrati, che sotto condizioni piuttosto deboli risulta efficiente (si veda ad esempio Hannan, 1960). I residui di questo adattamento costituiscono la serie stazionaria che viene ulteriormente analizzata con i metodi consueti. Nella impostazione alternativa, invece, si sottopone la serie a filtraggio in modo che la serie output non presenti pili la tendenza in media. I filtri usati sono del tipo alle differenze prime yt == X; - X t - 1 , eventualmente applicati ripetutamente. Come abbiamo visto nella parte dedicata al filtraggio, questo
10.4 Modelli per serie non stazionarie in media
209
procedimento e in grado di rimuovere una componente deterministica polinomiale nel tempo, rna puo essere utile anche quando la evoluzione tendenziale della serie e meno precisa e netta. II procedimento basato sul filtraggio, per la non necessita di ipotesi a priori e per la sua struttura lineare, e il pili omogeneo alla impostazione di Box e Jenkins e li ha portati a suggerire la costruzione di modelli ARMA sui dati preventivamente filtrati alle differenze yt == (1- B)d X t , considerando strutture autoregressive a somma mobile applicate alla {yt} e quindi del tipo:
==
C
+ 8(B)ct
.
(10.10)
La (10.10) viene chiamata modello autoregressivo a somma mobile integrato di ordine (p, d, q) per {Xt } , e la relativa classe di modelli viene indicata con ARIMA(p, d, q). La sigla stessa fa comprendere che l'ordine di differenziazione d viene considerato, al pari di p e q, come un valore da identificare. La sua scelta ricade quindi nella fase di identificazione; se si adotta il principio di approssimazione puo essere incorporata nella procedura basata su criteri automatici senza alcuna modifica. Se invece si adotta il principio della scoperta, la decisione sul valore di d viene effettuata come primo passo, prima di quella relativa ape q: si considerano i grafici delle serie output risultanti dall'applicazione di varie possibilita (in genere d == 0, 1 oppure 2, quasi mai superiori) e si esaminano anche la varianza e il correlogramma, optando per quel valore di d a cui corrisponde la serie pili stabile, la varianza pili piccola e il correlogramma con valori meno significativi nel complesso. Una volta scelto l'ordine di differenziazione d, sulla serie filtrata si pro cede alla identificazione di p e q esattamente nel modo visto precedentemente. La stima dei parametri viene effettuata sui dati filtrati Yt == (1- B)d Xt, e la fase di verifica non subisce alcuna modificazione. Dal punto di vista matematico il modello ARIMA(p, d, q) riportato in (10.10) non e qualitativamente diverso da un ARMA, rna ha la particolarita che il polinomio di ritardo applicato ai dati, cioe q>( B) (1- B)d, ha grado p + d ed esattamente d radici coincidenti e uguali a uno (le radici di (1 - z)d == 0), mentre le altre hanno modulo maggiore di uno (per questo si parla anche di radici unitarie). La qualificazione di integrati deriva a questi modelli dalla considerazione seguente. Se Yt == (1 - B)xt, la serie si puo esprimere in funzione dei dati stazionari attraverso la espressione formalmente inversa: x, == Yt+Yt-l +Yt-2+· .. che analogamente, per processi in tempo continuo, diventa un integrale (come la differenziazione va a corrispondere a una derivata). Da qualche tempo e invalso l'uso, specie in econometria, di chiamare integrate le serie non stazionarie che si prestano a essere depurate del trend mediante differenziazione, e pili precisamente si indica con la simbologia X, I(d) un processo che, una volta filtrato d volte, risulta stazionario (in senso debole). In realta Box e Jenkins propongono l'uso delle differenze in un insieme pili vasto di situazioni, oltre che quello di serie con trend: infatti essi osservano che i modelli ARIMA sono indipendenti dal livello "locale" della serie, in quanto r-;»
210
10 I modelli rappresentativi
Fig. 10.3. Serie C di Box e Jenkins (1970)
<1?(B)(l - B)d(Xt
+ k) == <1?(B) (1 -
B)dX,
per ogni k
quindi essi sono adatti per processi che mostrano variazioni di natura omogenea innestate su un livello variabile lentamente, che puo non seguire un andamento tendenziale preciso e netto, come abbiamo supposto prima, rna anche un andamento di tipo qualunque, con variazioni di diversa durata e verso, e anche di natura stocastica e non deterministica. In tal caso l'incremento tra un dato e l'altro non tendera ad assumere un segno no un valore preciso, e nel modello (10.10) il termine costante c non viene inserito (cioe viene assunto nullo). In questo caso si parla di modelli per trend stocastico: essi possono risultare utili per serie che presentino variazioni non monotone lente, rna di grande importanza, nellivello medio. Tale caratteristica sarebbe meglio studiata considerandola come componente di lungo periodo, corrispondente quindi a una elevata densita spettrale aIle bassissime frequenze, rna spesso la numerosita insufficiente dei dati non permette una inferenza sufficientemente precisa su queste componenti, e quindi si preferisce ricorrere a un modello ARIMA. Va notato che il modello (10.10) con c == 0 e sostanzialmente indipendente dalle variazioni lente dellivello medio, e quindi aiuta a spiegare solo il comportamento di periodo medio e breve: si parla percio di trend stocastico nel senso di "non sistematico" ovvero imprevedibile sulla base del modello. In questo caso (c == 0) la media delle differenze e nulla e quindi il livello non mostra tendenza crescente 0 decrescente. Se invece la serie ha un trend pronunciato, per rappresentarla sara necessario considerare anche la costante c tra i parametri da stimare. Esempio 10.3. La serie indicata come Serie C in Box e Jenkins (1970) riporta la temperatura rilevata ogni minuto in un processo chimico, ha 226 osservazioni e il grafico e riportato nella Fig. 10.3. Box e Jenkins identificano due
10.4 Modelli per serie non stazionarie in media
211
modelli alternativi: un ARIMA(1,1,0) oppure un ARIMA(0,2,2): la differenziazione (una 0 due volte) e necessaria per eliminare l'andamento di fondo, ben visibile, rna non assimilabile a un trend crescente ne decrescente. Infatti i modelli adattati non presentano la costante. E chiaro che questo andamento potrebbe essere interpretato come componente pseudo-periodica di periodo corrispondente a diverse decine di minuti, e si potrebbe tentare di adattare un processo pseudo-periodico AR(2). Se si segue questa strada le stime di massima verosimiglianza risultano ¢1 == 1.79 e ¢2 == -0.815 e la conseguente stima dello pseudo-periodo e:
Tuttavia l'arcocoseno ha valori prossimi a zero, e una variazione anche piccola delle stime dei parametri produce drastici cambiamenti nella stima del periodo. Dai paragrafi precedenti si ha che gli scarti quadratici medi stimati sono
o-(¢l) = o-(¢2) = J(l -
¢~)/N ~ 0.038. Una variazione di solo un centesimo
in pili 0 in meno nella stima di ¢1, ferma restando ¢2, porta a stimare 10 pseudo-periodo con valori tra circa 47 e infinito. In sostanza in questi casi la stima e largamente inaffidabile e puo essere opportuno ricorrere ai modelli integrati. Nell'ambito dell'Econometria, quando si usano i modelli lineari anche a fini interpretativi, riceve uno speciale interesse il problema delle radici unitarie. Anche se 10 stesso operatore alle differenze e efficace sia per un processo con trend deterministico lineare del tipo X, == a + bt + Zt, sia per un processo con trend stocastico del tipo (1 - B)Xt == C + ct, e quindi su entrambi si puo costruire un modello ARIMA, tuttavia l'interpretazione che si puo dare dei due tipi di processi e delle loro caratteristiche e molto diversa. II processo a trend deterministico rappresenta una oscillazione aleatoria (Zt) con caratteristiche stazionarie attorno a una funzione deterministica (a + bt). Al contrario, per il processo generatore di una serie integrata, (1 - B)Xt == C + Ut, dove {Ut} e stazionario (rna non necessariamente rumore bianco) si puo scrivere X, == X t - 1 + Ut + c, e iterando: t
x, == X o + ct + L
Uj
j=1
percio anch'esso rappresenta una oscillazione aleatoria attorno a una retta deterministica (X o + ct) rna il termine aleatorio e (U1 + U2 + ... + Ut) e quindi ha varianza indefinitamente crescente nel tempo. Inoltre, se si considerano le Ut come innovazioni del processo, e si scrive il processo in forma di media mobile (finita 0 infinita), si vede che nel caso di trend deterministico il coefficiente di ct in X t + h tende a zero al crescere di h, mentre nel caso di trend stocastico il coefficiente di Ut in X t + h e sempre uguale a uno qualunque sia h (si dice anche che nel primo caso gli shock sono transitori, nel secondo sono permanenti) ,
212
10 I modelli rappresentativi
Fig. 10.4. Realizzazione di un processo con trend deterministico e di uno con trend stocastico (linea piu marcata)
il che corrisponde a proprieta differenti del fenomeno. Un esempio dei due andamenti differenti e riportato nella Fig. 10.4. Per questo motivo il problema di distinguere se una serie proviene da un processo con radici unitarie ha suscitato molto interesse in letteratura e sono stati proposti svariati test statistici. Essi si distinguono essenzialmente per la scelta dell'ipotesi privilegiata (ipotesi nulla). Test per l'ipotesi nulla di radice unitaria. II test pili diffuso e semplice e quello di Dickey e Fuller (1979) che prende in considerazione un modello AR(1) e 10 stimatore del parametro:
L'ipotesi nulla diventa allora: Hi, : ¢ == 1 e sotto H o il processo e descritto dalla equazione X, == X t - 1 + ct, cioe un ARIMA(0,1,0). Sotto l'ipotesi Hi, la distribuzione dello stimatore ¢ (si ricordi che ha valori minori di uno) e diversa da quella che ha nel caso stazionario (asintoticamente normale con media ¢ e varianza (1- ¢2)jN ), e in particolare si avvicina al valore uno con velocita maggiore rispetto al caso stazionario, di ordine N invece che V"N. Dickey e Fuller hanno dimostrato che la variabile N (¢ - 1) ha, sotto l'ipotesi nulla che il processo sia un ARIMA(0,1,0), una distribuzione non degenere rna non gaussiana, di cui hanno tabulato i quantili. Pertanto il test consiste nello stimare ¢, calcolare la statistica N (¢ - 1) e rifiutare l'ipotesi nulla di radice unitaria se il valore ottenuto e piccolo, inferiore al quantile tabulato (ad esempio il valore al 5 per cento e pari a -1.94). II test e stato esteso al caso pili generale di processo autoregressivo di ordine p > 1 : fJJ(B)Xt == Ct; qui l'ipotesi nulla di radice unitaria e descritta da Hi; :
10.4 Modelli per serie non stazionarie in media
213
4)(1) == O. Se vale H o, allora4)(B) == (l-B)C(B), dove C(B) ha radici fuori del cerchio unitario, e quindi il processo soddisfa l'equazione C(B)(l- B)Xt == Et ovvero: X, - X t - 1 == Cj(Xt - j - X t - j- 1 ) + Et
L j
e anche la seguente ponendo p == 1: p
X, - X t -
1
== (p - 1)Xt - 1 +
L Cj(X
t-
j - X t - j- 1 )
+ Et
.
j=l
II test consiste nello stimare sui dati quest 'ultima equazione e nel verificare l'ipotesi nulla Hi, : p == 1. In realta si puo dimostrare che effettivamente p == 1 - 4)(1). La distribuzione sotto l'ipotesi nulla e la stessa del caso precedente (p == 1) e il test viene chiamato ADF (augmented Dickey Fuller) . Se la serie pero mostra un trend evidente, e necessario inserire la costante nella equazione autoregressiva, e in tal caso la distribuzione sotto l'ipotesi nulla e diversa, e il quantile da usare cambia (rna anche questi ultimi sono stati tabulati). II test e stato esteso anche a modelli con la parte a somma mobile (Said and Dickey, 1985). Esistono poi vari altri test per le radici unitarie (molto diffuso ad esempio e il test di Phillips e Perron). Per approfondimenti e per le tavole dei quantili si rimanda per esempio a Hamilton (1994). Test per l'ipotesi nulla di stazumarieto: La scelta di attribuire il ruolo di privilegiata all'ipotesi di radice unitaria deriva dalla particolarita della distribuzione del parametro autoregressivo sotto questa ipotesi, rna e stata spesso criticata poiche contraria alla pratica corrente in inferenza di accettare l'ipotesi pili semplice e conveniente ai fini dell'analisi (quindi in questo caso la stazionarieta) a meno che i dati non la confutino in maniera evidente. Per questo, sono stati proposti anche test in cui l'esistenza di radici unitarie assume il ruolo di ipotesi alternativa. Uno dei pili noti e il test di Kwiatkowski, Phillips, Schmidt e Shin (1992) (spesso chiamato test KPSS) . Si assume che il processo X, soddisfi Ie seguenti equazioni: X; rt
== a t + ri + Et == rt-l + u,
(10.11)
a;,
dove a e una costante, {Ut} e un rumore bianco con varianza e {Et} e un processo stazionario a media nulla rna non necessariamente bianco. Fissato un valore iniziale ro, il processo segue un trend lineare definito dalla retta "n + a t perturbato da oscillazioni aleatorie pari, al tempo t, a Et + (Ul + U2 + ... + Ut), e quindi si comporta come un processo a radici unitarie a meno che le Uj non == O. Percio l'ipotesi nulla di siano tutte nulle, il che corrisponderebbe a radici non unitarie, ovvero di stazionarieta puo essere sintetizzata da Hi; : == 0, mentre l'alternativa HI : > 0 implica un comportamento da radici unitarie. La statistica proposta e uno stimatore di esso si ottiene stimando il modello (10.11) e calcolandone i residui stimati tt. Posto:
a;
a;
a;
a;,
214
10 I modelli rappresentativi
la stima di
a; viene data da:
e la sua distribuzione sotto l'ipotesi nulla e stata ricavata dagli autori: e una distribuzione non standard di cui sono stati calcolati i quantili. L'ipotesi di stazionarieta si rifiuta ovviamente (e si conclude per Ie radici unitarie) se la statistica e maggiore del quantile al livello di confidenza scelto.
a;
10.5 Modelli per serie non stazionarie in varianza e ad eteroschedasticita condizionata Infine, si possono incontrare serie le cui oscillazioni tendono a crescere nel tempo, inducendo a sospettare che la varianza sia crescente. Un semplice modello di questa situazione si ha considerando il processo X; == c( t) Zt dove {Zt} e stazionario, e c(t) una funzione non aleatoria crescente del tempo: infatti Var{Xt } == C(t)2,z(O). In questa situazione un rimedio semplice ed efficace consiste nel prendere i logaritmi dei dati. II processo yt == 10g(Xt ) infatti, ha media non costante E(yt) == E{log(Xt ) } == logc(t) + E{log(Zt)} rna varianza costante V ar{yt} == V ar{log( Zt) l Un procedimento pili flessibile che generalizza l'applicazione dellogaritmo e la classe di trasformazioni di potenza detta di Box e Cox (Box e Cox, 1964):
yt(a) ==
{~{Xf - 1} 10g(Xt )
a#O a==O
che al variare di a descrive Ie trasformazioni di potenza, inversa e logaritmica (come limite per a tendente a zero). Naturalmente cio apre il problema di scegliere il valore dell'esponente a. Assumendo la normalita dei dati e la loro indipendenza si puo dimostrare che la log-verosimiglianza rispetto ad a si puo scrivere: N
logL(a) = -2Iogs2(a)
+ (a -
1) LlogXt t
dove 8 ( a) e la varianza stimata dei valori trasformati, percio una stima di massima verosimiglianza di a si potrebbe ottenere massimizzando L(a) attraverso metodi numerici iterativi. Tuttavia generalmente i dati di una serie storica non sono indipendenti e quindi la verosimiglianza scritta e solo una approssimazione. Una procedura pili semplice e prudente consiste invece nel valutare l' andamento della serie e dei correlogrammi per alcuni valori tipici 2
10.5 Modelli per serie eteroschedastiche
215
(ad esempio 0.5, 0, -0.5, -1) e scegliere quello che garantisce il comportamento pili stabilizzato e la varianza pili piccola. E da tenere sempre presente che ogni trasformazione modifica la interpretazione dei dati: questi, in alcuni casi, una volta trasformati possono assumere un significato difficilmente percepibile. II problema e meno rilevante per la trasformazione logaritmica che spesso e facilmente interpretabile: ad esempio agire, come spesso si fa, con il logaritmo e poi le differenze prime, porta alla trasformazione Yt == log(Xt) - 109(Xt-l) == log(Xt/Xt-l), che e spiegabile in termini di rapporto: se poi la variazione Xt - Xt-l e piccola rispetto al livello Xt, sfruttando la approssimazione log(1 + z) ~ z si ha:
Yt == log(Xt/Xt-l) == log (1
+ _Xt_-_Xt_-_l) Xt-l
Xt - Xt-l Xt-l
ovvero Yt rappresenta approssimativamente la variazione relativa rispetto alla osservazione precedente. Quando invece la trasformazione di Box e Cox usa coefficienti diversi da zero, il significato dei dati trasformati puo porre seri problemi interpretativi. D'altra parte e di tutta evidenza come Ie autocorrelazioni dei dati trasformati non abbiano una relazione precisamente esprimibile e controllabile con le autocorrelazioni dei dati originali, e una trasformazione puo distorcere in maniera irrimediabile la struttura di dipendenza dinamica del fenomeno rilevato. Se ne conclude che le trasformazioni di potenza nell'ambito delle serie temporali andrebbero adottate con estrema cautela e possibilmente evitate, cercando sempre di comparare i benefici che ne possono derivare quanto a stabilizzazione della varianza, con le distorsioni incontrollabili introdotte nella struttura autocorrelativa. Negli ultimi venti anni e stata studiata una forma specifica di instabilita in varianza, che si nota in particolare nei fenomeni relativi al mercato finanziario. Se esaminiamo la serie dei rendimenti di un titolo (si chiama serie dei rendimenti la serie delle differenze prime dei logari mi dei valori di un titolo) si osserva spesso un comportamento caratterizzato da media costante rna alternarsi di periodi con varianza moderata e altri cor varianza elevata (si parla di volatility clustering, si veda la Fig. 10.5). In tal caso, anche se il processo puo considerarsi globalmente stazionario, e importaite cercare di costruire un modello che rappresenti questi mutamenti nelle caratteristiche della variabilita, Inoltre spesso i dati di questo tipo presentano distribuzione non normale, poiche sono pili frequenti della normale i dati molto elevati in valore assoluto e i dati molto vicini a zero (distribuzioni leptocurtiche, a volte dette a code pesanti); generalmente queste serie hanno autocorrelazioni vicine a zero, e quindi struttura lineare molto debole, rna cio non implica l'indipendenza dei dati (poiche non hanno distribuzione gaussiana). Sono stati proposti modelli rappresentativi particolarmente studiati per questo tipo di fenomeni, che vengono chiamati a eteroschedasticiia condizionata e sono stati introdotti per primo da Engle nel 1982; essi sono indicati
216
10 I modelli rappresentativi 4 3 2
a -1 -2 -3
Fig. 10.5. Esempio di serie dei rendimenti di un titolo
con la sigla ARCH (autoregressive conditional heteroscedastic) . Tali modelli si applicano a serie con dati non normali e autocorrelazione trascurabile; se invece la serie mostra una struttura dinamica lineare non trascurabile, si puo prima costruire un modello ARMA e poi adattare sui residui un modello ARCH. L'idea fondamentale del modello ARCH e che la varianza a un certo istante t sia influenzata dai dati relativi agli istanti precedenti, e quindi si puo rappresentare l'andamento della varianza a un certo istante condizionatamente ai valori assunti dal processo ai tempi precedenti. Quindi, contrariamente ai modelli ARMA che hanno varianza condizionata costante e pari a (J2, qui assumiamo che la varianza condizionata possa cambiare, e cerchiamo di rappresentarne l'andamento in funzione dei dati precedenti. Consideriamo, dunque, un processo aleatorio {Yi} a media nulla: E(Yi) == 0 e varianza E(~2) == ,(0), e indichiamo con
ht
==
E{Y?lrt-l, rt-2' ... }
la sua varianza condizionata alla storia precedente del processo. La forma pili semplice per rappresentare la dipendenza di ht dai dati precedenti e quella lineare. Nel modello ARCH si assume che la varianza condizionata dipenda linearmente dai quadrati delle osservazioni precedenti (considerati come misura, in prima approssimazione, della variabilita mostrata dal processo): (10.12) Possiamo riferirci direttamente alla distribuzione condizionata di Yi dati Yi-l, Yi-2, .... La (10.12) ne rappresenta la varianza, ed e naturale assumere anche la media nulla: E{YiIYi-l, rt-2' ... } == o. Nel modello ARCH si assume in aggiunta che questa distribuzione condizionata sia gaussiana per cui
10.5 Modelli per serie eteroschedastiche
217
possiamo scrivere, se {ct} indica un processo formato da variabili normali standardizzate indipendenti: (10.13) Le equazioni (10.12) e (10.13) definiscono il modello ARCH(p) , di ordine p. II processo {It} descritto da questo modello ha media nulla, e la sua varianza (non condizionata) ,(0) si puo ricavare prendendo la media rispetto a It-1, It-2, ... di ambo i membri della (10.12):
+ olE(~~l) + ... + opE(~~p) == 00 + 01,(0) + ... + Op,(O)
,(0) == E{~2} == E{h t } == da cui
,(0) ==
1-
00
00 01 -
02 -
... -
op
.
Sui valori dei parametri si pongono le condizioni 0i > 0 (i == 0,1, ... ,p) per assicurare la positivita delle varianze condizionate, e 01 + ... + Op < 1 per la positivita della varianza non condizionata. Si verifica inoltre che la distribuzione di probabilita di It presenta caratteristiche leptocurtiche, poiche la sua curtosi e maggiore di 3. Lo possiamo controllare facilmente almeno nel caso del pili semplice modello di ordine p == 1: ht == 00 + 01 ~~ 1. Intanto per il momento quarto si ha:
poiche ht e indipendente da et (dipende solo da E t -1 , et - 2, ... ) e inoltre dato che le ct sono normali standardizzate, E(ci) == 3E(c;) == 3. Inoltre
E(~4) == 3E(h;) == 3E (00 + 01~~1)2
== 3 {06 + 20001E(~~1) + oi E(~~l)}
e data la stazionarieta E(~4) == E(~~l)' da cui
Ricordando che ,(0) == 00/(1 - 01) e sostituendo si ottiene:
Ne consegue che questo modello si presta effettivamente a rappresentare serie che presentano caratteristiche di non norrnalita a code pesanti. Naturalmente si pone il problema di identificare il modello ARCH(p) (scelta di p) e di stimare i parametri OJ, per questo scopo la via pili semplice e
218
10 I modelli rappresentativi
di considerare i dati al quadrato {y;} e di usare la metodologia che abbiamo visto prima, per costruire su quei dati un modello autoregressivo. Infatti, se poniamo ~2 == ht + Ut la (10.12) si puo scrivere: P
~2 == ao
+ Laj~~j +Ut j=1
ne consegue che le {~2} seguono un modello autoregressivo di ordine p. Una importante estensione di questi modelli (proposta da Bollerslev nel 1986) e costituita dalla introduzione nell'equazione che definisce la varianza condizionata (10.12) di ulteriori termini autoregressivi: p
i; == Laj~~j j=1
q
+ L(3jht - j
.
j=1
I relativi modelli sono chiamati GARCH(p, q) (ARCH generalizzati) e permettono una maggiore parsimonia. Si puo dimostrare che essi implicano che i quadrati dei dati seguano un modello ARMA(p,q). Anche i modelli ARCH e GARCH vengono impiegati a fini previsivi, sfruttando la metodologia per lc previsioni locali dei modelli ARMA che verra illustrata nel prossimo capitolo. Va tenuto presente pero che lc previsioni non riguarderanno i valori futuri della serie, rna la loro variabilita, la cui previsione e di speciale interesse nello studio dei mercati finanziari (e che in questo ambito e definita pili frequentemente con il termine volatilita).
10.6 Modelli per serie stagionali Passiamo ora ad esaminare il tema della stagionalita, Le variazioni stagionali costituiscono un problema nella modellistica e nell'analisi delle serie temporali in generale poiche la loro rilevanza nel determinare l'andamento della serie e in genere preponderante, il che porta a ritenere che le ciclicita di natura stagionale apportino un contributo non infinitesimo alla varianza, facendo cadere l'ipotesi di misura spettrale assolutamente continua, sulla quale e basata la maggior parte della metodologia relativa all'inferenza. Abbiamo pero il grosso vantaggio di poter delimitare esattamente le frequenze interessate, ovvero quella corrispondente al periodo pari un anna e le sue armoniche. Gli effetti prodotti su una serie dai fattori stagionali possono rivestire interesse di per se stessi, oppure ci si puo prefiggere 10 scopo di depurare la serie dalla loro influenza (serie destagionalizzate). Anche nello studio della stagionalita convivono due impostazioni: • •
Stima dei fattori stagionali mediante una funzione deterministica del tempo. Filtraggio della serie per eliminare Ie variazioni stagionali.
10.6 Modelli per serie stagionali
219
Poiche il periodo stagionale espresso in unita del parametro temporale e diverso a seconda della cadenza di rilevazione dei dati, e necessario specificare quest'ultima prima di poter procedere negli sviluppi. Supporremo di avere a disposizione dati mensili, quindi il periodo fondamentale e dato da 12 unita di tempo. Le modifiche da introdurre in quanto segue per adattarlo a cadenze di rilevazione diverse sono in genere ovvie. Se si vuole adattare una funzione deterministica del tempo alle variazioni stagionali, la scelta pili ovvia cade sul polinomio trigonometrico
che permette, come sappiamo dall'analisi di Fourier (Appendice A), di riprodurre qualunque andamento periodico di periodo 12. I coefficienti aj e bj vengono stimati sulla serie mediante il metodo dei minimi quadrati, che anche in questo caso sotto alcune condizioni fornisce stimatori sostanzialmente efficienti (Hannan, 1960). Se la lunghezza N della serie e multipla di 12 e N == 12a, scrivendo t == 12i + j (al variare di i tra 0 e a - 1 e di j tra 1 e 12 l'indice t assume tutti i valori tra 1 e N) e usando le formule di ortogonalita riportate in Appendice si ottiene facilmente
aj =
2 2 a-I 12 N I:XtCOS(Ajt) = N I:I:X12i+kCOs[ij(12i+k)] t
1
1,=0 k=1
12
7r
="6 I:SkCOS(6jk) k=1
1
12
bj ="6 LSkSin(ijk) k=1
dove
1 a-I Sk
== -a I: Xl2i+k i=O
e la
media dei dati relativi al mese k-mo (k == 1,2, ... ,12). Sostituendo si ottiene: 12
St
6
= ~ ~ Sk ~ {COs( ~ jk) COs( ~jt) + sin( ~ jk) sin( ~ jt)} 6L..." k=1
L..." j=1
6
6
6
6
e ponendo ancora t == 12i + j si ha infine (ricordando I'ortogonalita): a-I
A
Sl2i+j
==
_
Sj
== -a1 '"""" Z:: Xl2i+j i=O
220
10 I modelli rappresentativi
Pcrcio concludiamo che con questo metoda la componente stagionale di ciascun mese e pari alIa media dei dati relativi al medesimo mese nei vari anni: procedimento che a prima vista sarebbe sembrato naturale, rna ingenuo e semplicistico. In realta questo metodo presuppone implicitamente che gli effetti stagionali rimangano costanti negli anni, caratteristica che risulta raramente confermata dall'esperienza empirica. Sono stati proposti innumerevoli altri metodi per la determinazione dei fattori stagionali, basati su funzioni pili complicate. Negli ultimi anni, poi, e stata sviluppata una nuova impostazione che considera Ie variazioni stagionali stesse come un processo aleatorio, che va a sommarsi a queIlo generatore dei dati: poiche si rileva solo la risultante della somma, ci si pone il problema, meritevole di un'approfondita analisi dal punto di vista probabilistico e statistico, di distinguere tra le due componenti, identificando per ciascuna di esse un appropriato modello della classe ARIMA. Questo metoda verra illustrato brevemente alla fine del presente paragrafo. L'altra possibilita (peraltro non e in rcalta una impostazione totalmente alternativa) e ricorrere a filtri che depurino la serie dalle componenti stagionali: le classi dei filtri pili frequentemente adoperati sono quell a dei filtri alle differenze e queIla delle medie mobili. Nel primo caso si sottrae a ciascun dato queIlo che si trova nella stessa posizione stagionale dell'anno precedente, nel secondo caso si sostituisce a ciascun dato una media locale (cioe di valori contigui nel tempo e centrati suI dato) di ampiezza un anno; in entrambe le situazioni il risultato (incremento tra mesi omologhi, oppure media annuale) non dovrebbe pili risentire dei fattori stagionali. Continuando a occuparci di dati mensili, il filtro aIle differenze che si usa e quello alle differenze dodicesime che abbiamo visto nel paragrafo 5.7: esso puo essere incorporato senza problemi in un modello autoregressivo a somma mobile, aggiungendo un fattore moltiplicativo del tipo (1 - B 12 ) nel polinomio autoregressivo, che anche in questo caso viene ad avere radici sul cerchio unitario: infatti Ie radici di (1- Z12) sono uguali a cos(1rk/6) +i sin(1rk/6), k == 1, ... ,12, quindi +1, -1 e Ie altre complesse (per approfondimenti si rimanda a Abraham e Box, 1978). Box e Jenkins hanno proposto una metodologia pili articolata che porta ai cosiddetti modelli stagionali moltiplicativi. La logica da cui essi partono e queIla di considerare le serie costituite dai dati relativi allo stesso mese di anni successivi e di costruire per queste modelli rappresentativi. Per esempio supponiamo che la prima osservazione si riferisca a gennaio e consideriamo la serie Yt == X12t+l che al variare di t descrive i dati di gennaio dei vari anni. Su di essa possiamo costruire un modello ARIMA:
Ritornando ai dati originali e ponendo Ut == V12t+ 1, e indicando s == 12t + 1, ogni operatore B sulla Y ha l'effetto di ritardare di 12 istanti la X e la v; percio si ottiene:
10.6 Modelli per serie stagionali
221
ovvero, in forma compatta, indicando con c1J* e 8* i polinomi relativi ai parametri c1Jj e 8 j rispettivamente:
Si puo ragionevolmente pensare che questo stesso modello sia valido anche per le serie dei dati di febbraio, di marzo e di tutti gli altri mesi, per cui si assume valido il modello per ogni S, cioe per ogni mese. Tuttavia la serie {vs} ha il ruolo di rumore bianco se ne consideriamo le osservazioni a distanza 12 e multipla, rna puo essere correlata per ritardi inferiori, poiche in tal caso risente dei legami infra-annuali. Percio si puo pensare di costruire per la serie {v s } un modello ARIMA usuale:
(1 - cPIB - ... - cP pBP)(1 - B)d vs == (1 - (jIB - ... - (jqBq)E s dove adesso {E s} e realizzazione di un processo a elementi completamente incorrelati: scriviamo anche:
Le due strutture possono essere combinate moltiplicando ambo i membri della prima per c1J(B)(1 - B)d:
c1J(B)(1 - B)dc1J*(B I2)(1 - B 12)DX s == c1J(B)(1 - B)d8*(B 12)vs == 8* (B 12)1J(B)(1 - B)d vs
== 8* (B 12)8(B)E s
.
Si ottiene cOSI ancora un modello della classe ARIMA, che e costruito moltiplicando tra loro due strutture, l'una di ordine (p, d, q) che agisce sui dati ritardati in maniera ordinaria, e l'altra di ordine (P, D, Q) che agisce sui dati mediante ritardi annuali:
II modello e detto moltiplicativo stagionale ed e anche spesso indicato con la sigla ARIMA(p, d, q) x (P, D, Q)12. E evidente che la struttura generale dei modelli moltiplicativi e molto articolata, e in realta ci si limita a considerare modelli con gli ordini pili piccoli, e specie per P, D, Q raramente si accettano valori diversi da 0 e 1. La identificazione e difficile, e in genere si comincia prima a decidere I'ordine D valutando nei vari casi l'andamento della serie, la sua varianza, Ie sue autocorrelazioni. E buona norma, comunemente seguita nelle applicazioni, valutare simultaneamente gli effetti delle differenziazioni stagionale e non stagionale, esaminando le caratteristiche delle serie che si ottengono dalla differenziazione (1 - B)d(1 - B 12)D per un ventaglio di coppie (d, D), e scegliendo quella che presenta la varianza pili piccola e il correlogramma con valori complessivamente meno distanti dallo zero. Empiricamente si e trovato che spesso la
222
10 I modelli rappresentativi
differenziazione dodicesima puo rendere non necessarie le differenze prime, e che molto raramente e opportuno scegliere un D maggiore di uno. Per quanto riguarda invece P e Q, un caso molto frequente e che sia necessario solo un termine nella somma mobile (P == 0, Q == 1): il fattore (1- 8B 12 ) bilancia una eventuale eccessiva energia del filtraggio alle differenze dodicesime che, come osservato precedentemente, puo indurre stime di r(12) negative nell'output. Se si adotta la logica di identificazione come approssimazione, si devono applicare i criteri automatici e quindi calcolare una misura per ogni possibile combinazione di (p, d, q, P, D, Q). Inoltre, poiche il numero di parametri cresce, e plausibile che non tutti contribuiscano in modo decisivo alla spiegazione della dinamica, percio potrebbe essere consigliabile esaminare anche modelli subset nei quali i parametri relativi a qualche ritardo sono vincolati a zero. La scelta dei ritardi da scartare potrebbe essere inserita nella identificazione del modello, che comprenderebbe la specificazione, oltre che degli ordini (p, d, q, P, D, Q), anche dei lags ai quali nel modello compaiono parametri. Si capisce come, specie in questo ultimo caso, 10 spazio delle possibili soluzioni per la identificazione diventa rapidamente molto grande, e per ogni modello da valutare e necessario stimare i parametri e la varianza residua. D'altra parte i metodi di ottimizzazione analitica non sono applicabili (non ci sono derivate da annullare perche il dominio e discreto) e l'unico metodo per arrivare all'ottimo sembra quello di verificare tutte le possibilita, il che puo comportare un dispendio computazionale troppo elevato. Per questo motivo negli anni pili recenti e stato proposto l'uso di metodi meta-euristici, che sono particolari algoritmi (in genere ispirati da analogie con la natura) specificamente studiati per risolvere problemi complicati (0 pili precisamente quelli in cui, per determinare l'ottimo, non si conosce alcun metodo oltre che verificare sequenzialmente tutte Ie possibilita). II problema della identificazione e stato affrontato con algoritmi genetici e simulated annealing (si veda ad esempio Gaetan, 2000, e Baragona e Battaglia, 2000). I risultati sembrano promettenti rna l'uso di questi metodi necessita di una attenta fase di taratura degli algoritmi che altrimenti rimangono frequentemente "intrappolati" in ottimi relativi. Esempio 10.4 (Modello airline). Un semplice modello, adoperato da Box e Jenkins per rappresentare il numero di passeggeri delle linee aeree internazionali (e per questo sovente detto modello airline) comprende Ie differenze prime e dodicesime applicate una volta sola, e fattori del tipo a somma mobile del primo ordine e si indica percio con ARIMA(O, 1, 1) x (0,1,1)12:
(1 - B)(l - B 12)Xt == (1 - BB)(l - 8B 12 ) Ct
.
Scritto in forma esplicita il modello e:
X t == X t -
1 -
Xt-
12
+ X t - 13 + e, -
ect-1 -
8ct-12
+ eect-13
e quindi la parte a somma mobile ha ordine complessivo 13. Se consideriamo i dati differenziati Z, == (1 - B)(l - B 12)Xt , la struttura autocorrelativa e
10.6 Modelli per serie stagionali
223
molto semplice perche si ottiene facilmente: IZ (0) ==
(1 + ( 2 )(1 + (2)a 2
IZ (1) ==
-0(1 + (2)a 2
Iz(11) == 08a 2
== -8(1 + (2)a 2 Iz(13) == 08a 2 .
IZ (12)
Sono diverse da zero solo lc autocorrelazioni ai ritardi 1, 11, 12 e 13. L'autocorrelazione al ritardo uno: T z (1) == -0/(1 + ( 2 ) ha 10 stesso valore di quella di un modello non stagionale, e cosi pure quella al ritardo 12 dipende nello stesso modo dal parametro stagionale 8: T z (12) == -8/(1 + (2). Le altre autocorrelazioni T z (11) e T z (13) sono uguali tra loro e uguali al prodotto tra T z (1) e T z (12).
II modello e invertibile se 101 < 1 e 181 < 1. Spesso questo modello e adeguato per rappresentare fenomeni che hanno un trend pronunciato e una st.agionalita rilevante, rna ambedue con caratteristiche non nette ne precise nc costanti nel tempo. Cio comporta in genere che una volta effettuata la differenziazione, le autocorrelazioni ai ritardi 1 e 12, molto elevate se stimate sui dati originali, presentano sui dati differenziati stime negative. Di conseguenza le strutture a somma mobile tendono a spiegare questo andamento, e i valori stimati per i parametri 0 e 8 sono generalmente positivi. Un differente tipo di filtri utile per la rimozione delle stagionalita e quello delle medie mobili, con il Quale a ogni dato si sostituisce la media su un intervallo circostante: 1 k Yt = 2k + 1 Xt-j .
L
j=-k
Se la lunghezza dell'intervallo e pari alla durata del cicIo stagionale, si puo ragionevolmente supporre che, poiche nella serie output tutti i dati sono medie che risentono in egual misura dei fattori stagionali, questi non abbiano pili effetti differenziali, e quindi non introducano pili variazioni nella serie. Nel caso di serie mensili, la periodicita della stagionalita e 12, numero pari che non permette di applicare direttamente la formula precedente, che e valida solo per un intervallo di lunghezza dispari 2k + 1. II problema viene generalmente risolto calcolando Ie medie mobili di ampiezza 12 in cui il centro dell'intervallo cade immediatamente prima 0 immediatamente dopo il dato considerato, e prendendone la semisomma: (_)
Yt
1(
== 12
Xt-6
+ Xt-5 + ... + Xt+5 )
(+) _ Yt -
1 12 (Xt-5
+ Xt-4 + ... + Xt+6)
224
10 I modelli rappresentativi
_ 1 ((_)
Yt -
2"
Yt
(+)) _ 1
+ Yt
-
24 Xt-6
~
1
+ 12
~ Xt-j
1
+ 24 Xt+6
.
j=-5
II filtro risultante viene detto a media mobile centrato ed e in realta un filtro simmetrico che coinvolge 13 termini: notiamo pero che Xt-6 e Xt+6 si riferiscono al medesimo mese (di due anni consecutivi) e cosl nel risultato ogni mese conta per un dodicesimo. Esaminiamo la funzione di trasferimento:
H(>..)
=
~
Cu
exp(-iu>")
= 11 { 1 + cos(6)..)
2
= 11
2
{ 1+2
t,
+2
t,
cosU>") }
cos(j>..) - COS(6)..)} .
Ricordando (si veda I' Appendice A) che
~ (.) 1 + 2 ~ cos J A j=l
==
sin (6 + ~) A
.
1
sin] 2 A)
==
[sin (6 A) cos ( ~ A)
_ sin( 6A) cos( ~ A)
si ottiene:
. (1)
SIn
2A
.
+ cos (6 A) sin ( ~ A) ] 1
sin] 2 A)
()
+ cos 6A
H(>..) = ~ sin(6'x) cos(A/2) . 12
sin(A/2)
La funzione di trasferimento (reale perche il filtro e simmetrico) ha un andamento sinusoidale (determinato da sin 6A) smorzato dal termine cotang(A/2) che decresce al crescere di A, rappresentato nella Fig. 10.6. II guadagno si annulIa in corrispondenza delle frequenze stagionali del tipo 1rj/6 (j == 1,2, ... ,6) rna assume valori apprezzabili solo in corrispondenza aIle frequenze piccole (quindi ciclicita di periodo maggiore di un anno). Di conseguenza la serie filtrata risentira delle ciclicita ad andamento pluriennale, rna sara poco influenzata dalle oscillazioni di frequenza inferiore: cia corrisponde alIa considerazione empirica che l'applicazione delle medie mobili ha l'effetto di "lisciare" la serie. Questa caratteristica costituisce da un certo punto di vista un vantaggio desiderabile, se si vogliono mettere pili in luce gli andamenti di fondo alleggerendo simultaneamente sia Ie stagionalita sia tutte lc componenti di periodo infra-annuale, rna rende d'altra parte lc medie mobili uno strumento di destagionalizzazione molto particolare, poiche l'effetto sui dati va ben oltre quello di agire sulla componente stagionale. Le medie mobili hanno pero l'indubbio vantaggio della fase nulla (contrariamente aIle differenze dodicesime) e pertanto non alterano i punti di svolta di eventuali cicli importanti non stagionali presenti nella serie.
10.6 Modelli per serie stagionali
225
Fig. 10.6. Funzione di trasferimento del filtro a media mobile a 12 termini centrata
II metoda delle medie mobili non e omogeneo alla impostazione ARIMA e non viene usato nella costruzione di modelli rappresentativi di tale classe. L' applicazione delle medie mobili ha tuttavia costituito (come accennato nel Cap. 2) la base di complessi metodi di depurazione delle stagionalita studiati inizialmente dal Bureau of Census degli Stati Uniti e che percio hanno preso il nome di metodi Census. Anch'essi possono essere interpretati come modellistica, poiche forniscono una decomposizione della serie in componenti contemporanee: serie == (cicIo-trend) + stagionalita + accidentalita, nella stesso modo di un modello statico (classico) di decomposizione. La prima versione di questo metoda venne sviluppata al Bureau of Census nel 1955, la seconda (Census II) nel 1957. Varie versioni con modifiche, ampliamenti, correzioni si sono succedute nel corso degli anni, e nelle varie versioni successive (fino alla cosiddetta variante X-II del Census II) sono stati adottati da molti organismi statistici nazionali. Un metoda molto diffuso, connesso con i precedenti rna legato anche alla moderna impostazione Arima, e stato sviluppato negli anni '80 cia Statistics Canada, ed e denominato X-ll-ARIMA: esso permette, attraverso applicazioni ripetute di medie mobili, e adottando modelli ARIMA per prevedere alcuni dati oltre l'ultimo rilevato, di stimare l'effetto della stagionalita e anche di fornire una valutazione del trend e di componenti cicliche pluriennali (particolarmente rilevanti nell'analisi congiunturale dell'economia). Una esposizione autorevole in italiano e contenuta in Bee Dagum (2002), alla Quale si rimanda per maggiori approfondimenti. Nel199S Findley et al. hanno introdotto alcuni cambiamenti, specie per quanto riguarda il trattamento dei dati anomali, e hanna chiamato illoro software X-12-ARIMA. Recentemente, come accennato prima, sono stati sviluppati modelli che possono considerarsi una evoluzione di quello classico di decomposizione, in
226
10 I modelli rappresentativi
cui si suppone che lc componenti trend, ciclo, stagionalita e irregolarita siano esse stesse generate da separati modelli ARIMA: si parla in tal caso di metodi ARIMA model-based (ad esempio Cleveland e Tiao, 1976, Bell e Hillmer, 1984). Fissiamo l'attenzione sulla sola stagionalita, supponendo che il processo {yt} sia formato additivamente da una parte stagionale {St} e una non stagionale {Nt}, e che queste obbediscano ai modelli ARIMA:
dove {at} ed {Ut} sono rumori bianchi indipendenti tra di loro (questa assunzione e essenziale). Segue immediatamente da yt == St + N, che il processo osservabile {yt} soddisfa l'equazione:
cPS(B)cPN(B)yt
==
cPN(B)8s(B)at + cPs(B)8N(B)Ut
e si puo dimostrare (data l'indipendenza tra i processi {at} ed {Ut}) che anch'esso obbedisce a un modello ARIMA: cP(B)yt == 8(B)ct in cui i polinomi cP(B) e 8(B) possono essere espressi in funzione dei polinomi cPs(B), cPN(B),
8s(B), 8 N(B).
Ora, i coefficienti di cP(B) e di 8(B) possono essere stimati a partire dalla serie storica osservata, e si pone il problema di risalire alle stime dei parametri della componente stagionale, cPs (B) e 8 s(B), e a quelli della componente non stagionale cPN(B) e 8 N(B). A questo scopo, ci si puo basare sia sul raggruppamento delle radici, a seconda del loro valore, sia nel dominio frequenziale decomponendo la densita spettrale in termini additivi, ciascuno dei quali responsabile di determinate bande (frequenze basse: trend; frequenze stagionali: stagionalita) e associando ciascuno di questi termini a un polinomio nel ritardo B che caratterizza la specifica componente. Si basa su una procedura di questo tipo il metodo SEATS di Gomez e Maravall (1996). Esso e implementato dal software TRAMO-SEATS (TRAMO e una fase propedeutica volta ad analisi preliminari, rimozione di dati anomali e ricostruzione di dati mancanti) che e stato recentemente adottato come metodo di destagionalizzazione tipico da diversi organismi ufficiali di statistica (anche dall'Istat). Per concludere, un'osservazione finale. Anche per i modelli ARIMA e stagionali il problema della molteplicita e rilevante: e possibile cioe in generale costruire sulla stessa serie pili modelli, anche con ordini diversi, che forniscono sostanzialmente le stesse misure di adattamento complessivo; tra l'altro accade a volte che tra modelli equivalenti alcuni prevedano la differenziazione, altri no. Se il metro di giudizio e l'accostamento ai dati, la distinzione tra l'uso di modelli ARMA e ARIMA, anche se concettualmente netta, nella pratica non e cost precisa. :E opinione comune di molti analisti (anche se non di tutti) di preferire modelli stazionari a modelli integrati se lc prestazioni sono pressappoco equivalenti. E infine il caso di osservare, per quanto concerne la molteplicita, che eventuali fattori comuni dei polinomi autoregressivi e a somma mobile, che avessero
10.7 Modelli lineari per Ie relazioni tra due processi
227
radici unitarie, non possono formalmente essere "semplificati" come si fa nel caso stazionario: ovvero, il modello
A(B)cI>(B)Xt == A(B)8(B)ft non
e equivalente a
cI>(B)Xt == 8(B)ft
se A(B) ha radici unitarie, poiche in tal caso non esiste il polinomio inverso di A(B) e quindi non e lecita la divisione per A(B). Tuttavia quasi sempre questa situazione si verifica quando si e operata sui dati una differenziazione non necessaria (sovradijJerenziazione) che spinge nella stima dei parametri a somma mobile verso strutture non invertibili, cia che suggerisce di costruire il modello sui dati non (0 meno ) differenziati.
10.7 ModeIIi Iineari per Ie relazioni tra due processi II presente volume non si occupa diffusamente di modelli rappresentativi per serie multivariate, un argomento che e stato molto sviluppato e approfondito in questi ultimi anni (si veda ad esempio Reinsel, 1997, e Liitkepohl, 1993). Accenneremo pero a un'estensione dei modelli ARIMA che permette di tenere conto dell'influenza di un'altra serie temporale su quell a che viene rappresentata, e che viene generalmente riferita alla denominazione di modelli a funzione di trasferimento. Si noti che il termine funzione di trasferimento non si riferisce qui al dominio frequenziale, rna ai coefficienti Vj che "trasferiscono" l'effetto di una serie sull'altra. Supponiamo di voler costruire un modello rappresentativo per il processo {yt} e che esso sia legato linearmente al processo {Xt} che puo essere osservato conternporanearnente a {yt}. Possiarno ipotizzare che il legarne lineare tra i due processi sia ben descrivibile attraverso un filtro lineare (fisicamente realizzabile) : yt ~
L hsX
t-
s == .l-I(B)Xt
s=O
che, come per i modelli precedenti, puo esser approssimato dal rapporto tra due polinomi finiti nel ritardo B di ordine rispettivamente r al numeratore e s al denominatore: H(B) ~ w(B)/J(B). Indicando poi con {Nt} il processo generato dalla parte di yt non spiegata linearmente da {Xt } , otteniamo il modello a funzione di trasferimento: 00
==
L
VjX t - j
+ s.
j=O
(si faccia attenzione che qui, contrariamente al solito, non e necessariamente == 1). Si supporra che {Nt}, detto rumore, sia completamente incorrelato
Vo
228
10 I modelli rappresentativi
con tutte le {Xt } , e che i processi {yt} e {Xt } siano stazionari (sottoponendo quindi, se necessario, le serie a una adeguata differenziazione, prima di costruire la funzione di trasferimento). II problema e naturalmente quello di identificare gli ordini res e di stimare i parametri Vi Questi sono legati aIle correlazioni incrociate tra {Xt } e {yt}. Anzi, se {Xt } fosse un rumore bianco, moltiplicando ambo i membri del modello per X t - h e prendendo la media otterremmo:
e quindi l'andamento dei parametri Vh sarebbe determinato da quello delle cross-covarianze (0 cross-correlazioni). Per sfruttare questa proprieta anche nel caso pili generale, possiamo costruire per {Xt } un modello ARMA:
Ora, ponendo
dal modello a funzione di trasferimento, premoltiplicando per
00
==
L VjEt-j + TJt . j=o
Percio si possono calcolare, sulla base delle serie osservate {Yt} e {Xt}, i risultanti valori di {J3t} e {Et} e le loro cross-covarianze risultano proporzionali ai parametri Vj. Cia permette l'identificazione del polinomio 5(B)-lw(B) con gli usuali metodi sviluppati per la identificazione degli ordini autoregressivo e a somma mobile sulla base delle autocorrelazioni. Se ad esempio solo i primi due valori, per i ritardi 1 e 2, delle cross-covarianze sono sensibilmente diversi da zero, si puo porre 5(B) == 1 e w(B) == Va - vlB - v2B2; se invece ad esempia Ie cross-correlazioni mostrassero un andamento esponenziale negativo si potrebbe porre 5(B) == 1 - rpB, w(B) == Va e cosl via. Resta pero da prendere in considerazione il processo dell'errore TJt, per il Quale abbiamo supposto la incorrelazione con {Xt } rna non necessariamente la bianchezza. Percio necessario calcolarne i valori sulla base dei dati {Yt} e {Xt} e di stime preliminari dei parametri Vj, ed adattare anche ad essi un modello ARMA:
e
dove {et}
e un
rumore bianco. Infine, notando che
8 x (B )
8 x (B ) IJ;(B)
N, = px(B) 'TJt = px(B) )"(B) et
10.7 Modelli Iineari per le relazioni tra due processi
229
si puo scrivere il modello a funzione di trasferimento nella forma seguente:
Una volta definita la struttura dei polinomi, in base agli ordini identificati nelle fasi della procedura appena delineata, si passa a una stima complessiva e simultanea di tutti i parametri con un metodo analogo a quello visto precedentemente, cioe minimizzando numericamente la somma dei quadrati dei residui, e si conclude il procedimento con un controllo della bianchezza di questi ultimi. II controllo deve riguardare sia l'autocorrelazione dei residui {et}, sia la cross-correlazione tra questi residui e la serie di input {Xt} 0 meglio i residui del modello a questa adattato, {Et}. Nei due casi si puo usare una forma di test portmanteau : M
M
Q1 == N
L Te,e(h )2
Q2 == N
L Te,c(h)2 h=1
h=1
che si distribuiscono, sotto l'ipotesi nulla di correttezza del modello, come chi quadrati approssimati con N - p* - q* e N - r - s gradi di liberta, dove p* l'ordine di ex(B){l(B), q* l'ordine di
e
e
dei parametri e un nuovo controllo diagnostico, e cost via iterativamente.
Esempio 10.5 (Serie M di Box e Jenkins). Box e Jenkins (1970) riportano come Serie M una rilevazione di volumi di vendita contemporanearnente a un altro fenomeno che viene ritenuto un indicatore anticipatore delle vendite. Si tratta di 150 dati riportati nella Fig. 10.7. Si vuole costruire un modello a funzione di trasferimento, in cui Yt sono le vendite e Xt I'indicatore. Adattiamo prima un modello alla serie dell'indicatore. Le sue autocorrelazioni ordinarie e parziali sono riportate nella Fig. 10.8 e indicano la sostanziale adeguatezza di un modello MA(l). La stima dei minimi quadrati porta a un valore 01 == 0.45. Pertanto
230
10 I modelli rappresentativi
Fig. 10.7. Serie M di Box e Jenkins. Vendite (linea continua), indicatore (linea tratteggiata)
o o
1--.5!71 I / - ,- ,
1
mnnnnnm nnn;mm..mlmmnmm
mmn~ml
I
_ - -I - - -I
•.•.•.•...•.•.....
(b)
(a)
Fig. 10.8. Autocorrelazioni stimate per la serie dell'indicatore: (a) ordinarie; (b) parziali
pari al rapporto tra T,8,c(4) e T,8,c(3), cioe circa 0.67. Consideriamo infine il modelIo per il rumore: calcolando i residui
N, == yt - 8(B)
-1
w(B)Xt == yt -
4.68 X t- 3 1 - 0.67B
e stimandone le correlazioni (si omettono i dettagli per brevita) si puo identificare su di essi un modello MA(l) con parametro stimato pari a circa 0.46. Si arriva quindi al modelIo completo:
yt
==
4.68 X t- 3 1 - 0.67B
+ (1 -
0.46B ) et .
A questo punto e anche possibile ristimare congiuntamente tutti i parametri per una maggiore efficienza. La stima finale, effettuata minimizzando la somma dei quadrati dei residui, fornisce il modello:
yt
4.72
== 1 _ 0.73B X t- 3
+ (1 -
0.48B)et
10.7 Modelli lineari per le relazioni tra due processi
231
0.8 ;"""""-.. . . . .- - - - - -.. . . . .- - -.. . . . .- -----., 0.6 0.4 0.2
-0.2
~-----------
........
Fig. 10.9. Correlazioni incrociate stimate per i residui della serie M
e il controllo diagnostico sui resid ui {et} non evidenzia allontanamenti significativi dalla bianchezza.
11
Deviazioni dalle ipotesi
Prendiamo qui in considerazione il caso in cui alcune delle ipotesi alla base della metodologia utilizzata nel capitolo precedente non siano soddisfatte, e alcune tecniche ideate per ovviare a tale inconveniente, adatte a tener conto di perturbazioni verificatesi sia nella dinamica propria del processo, sia nel procedimento di osservazione e rilevazione dei dati.
11.1 Perturbazioni nei dati e nella struttura I dati che si sottopongono all'analisi delle serie temporali solo raramente pro-
vengono da situazioni sperimentali ben definite nelle quali si possono controllare (almeno in parte) i fattori esterni e collaterali. Generalmente invece i dati provengono da rilevazioni, a volte campionarie, effettuate sulle manifestazioni di un fenomeno seguite nel corso del tempo. Se la durata della rilevazione e considerevole, puo spesso accadere che fattori esterni 0 strumentali mutino sensibilmente i lora effetti nel lungo periodo. Ad esempio nella misurazione di fenomeni naturali (per esempio i terremoti) e meteorologici, la precisione, e in alcuni casi la stessa metodologia di misura e rilevazione, sono cambiati. Questa considerazione e ancora pili rilevante se si guardano fenomeni relativi al comportamento umano (sociale, demografico, economico ...) sui quali, oltre alle modalita di misurazione, incidono in tempi lunghi l'evoluzione teenologica, 10 sviluppo economico, i cambiamenti politici e legislativi, in una parola la storia. Non e infrequente pertanto che le serie temporali osservate presentino variazioni strutturali macroscopiche, che non possono essere eliminate con i semplici metodi basati suI filtraggio che abbiamo esposto precedentemente, e che contraddicono l'ipotesi di sostanziale omogeneita nel tempo su cui e stata fondata l'analisi delle serie temporali. La letteratura statistica riporta numerosi tentativi di tener conto dei problemi qui accennati, a diversi livelli di approfondimento e con metodi di diversa
234
11 Deviazioni dalle ipotesi
complessita. II punto di vista pili ampio, rna anche di pili difficile realizzazione, e quello di adottare modelli pili complessi, che permettano di riprodurre andamenti non lineari e non stazionari. Cia richiede evidentemente strutture pili complicate, di pili difficile identificazione e stima, ed e uno dei campi pili trattati dalla ricerca attuale. Tra le molte proposte, citiamo a titolo di esempio l'analisi spettrale evolutiva (Priestley, 1988), nella Quale si suppone che 10 spettro vari lentamente allo scorrere del tempo, e i modelli a soglia ("threshold", Tong, 1990), con i quali si suppone che la serie obbedisca a pili regimi alternativi: quando il fenomeno e in un regime i dati vengono generati secondo un modello sufficientemente maneggevole (spesso un autoregressivo); si verificano pero transizioni da un regime all'altro (e quindi cambia il modello che genera i dati), il passaggio e determinato dalle variazioni di una variabile esterna, oppure da quelle subite in precedenza dallo stesso processo considerato (self-exciting threshold). La situazione pili semplice, rna frequente, si ha quando c'e un solo cambio di regime a un istante fissato, e i due modelli differiscono solo per il valore della costante: allora e come se a quell'istante cambiasse solo la media della serie, ferma restando la sua struttura dinamica; in questo caso si parla di cambio di livello (level shift) e si debbono costruire metodi per decidere se e quando esso si e verificato (si veda ad es. Tsay, 1988), oltre a stimarne l'ammontare. Uno strumento semplice ed effieace per valutare l'esistenza di non linearita e cambi di struttura, mutuato dall'analisi statistica esplorativa, e costituito dalla rappresentazione grafica, sul piano, delle coordinate (Xt, Xt+h) con t == 1, ... ,N - h e h fissato. Infatti la forma della nuvola di punti puo suggerire la natura della relazione tra Xt e Xt+h (in particolare, se la relazione e lineare la nuvola si dovrebbe disporre tendenzialmente attorno a una retta). L'esistenza di cambi nella struttura dinamica invece dovrebbe dar luogo a raggruppamenti dei punti della nuvola in clusters con forme diverse. II controllo grafico viene effettuato per tutti i ritardi h pili significativi, senz' altro per i primi (h == 1, 2, 3) e per quello corrispondente a un anna se la serie presenta stagionalita. Ad esempio, la Fig. 11.1a riporta il grafico della nuvola dei punti (Xt, Xt+l) per una serie simulata secondo un processo autoregressivo AR(l) con parametro ¢ == 0.8, e come si vede i punti tendono a disporsi nettamente secondo una retta. Nella Fig. 11.lb viene invece riportato l'analogo grafico per una serie simulata in accordo a un processo autoregressivo a soglia con due regimi, che seguono modelli autoregressivi di ordine uno con parametro di segno opposto, e come si vede si delineano due nuvole che tendono a disporsi secondo rette di coefficiente angolare opposto.
11.2 Perturbazioni dovute a fattori noti Molto studiato, e relativamente pili facile, e il caso in cui si voglia rappresentare l'infiuenza esercitata sulla serie da un fattore esterno, che ne provoca un brusco cambiamento, di effetto limitato a un solo istante oppure prolungato
11.2 Perturbazioni dovute a fattori noti
235
""
":
;-16
......
(a)
(b)
Fig. 11.1. Nuvole dei punti (Xt, Xt+l) : (a) serie autoregressiva AR(l) con parametro 0.8; (b) serie autoregressiva a soglia
a un gruppo di istanti consecutivi. Infatti avviene sovente che in una serie si riscontrino dati disomogenei con i loro precedenti e seguenti: spesso l'effetto e limitato a un dato, rna a volte si prolunga, diminuendo di intensita, nelle osservazioni successive. Un esempio edato nella Fig. 11.2 (dove si eesagerato l'effetto: spesso nelle serie reali non e cost facile accorgersi di questi eventi). Bisogna preliminarmente distinguere se e noto l'istante nel Quale si produce il cambiamento, oppure no. II primo caso si verifica quando sulla serie hanno effetto, per esempio, cambiamenti legislativi, 0 variazioni dei tassi ufficiali, 0 anche calamita naturali, eventi che possono essere localizzati precisamente e
Fig. 11.2. Serie con dati anomali ad effetto istantaneo (t==50) oppure prolungato (t==100)
236
11 Deviazioni dalle ipotesi
senza errore sull'asse temporale. Si tratta allora di stimarne gli effetti, e a questo fine una tecnica chiamata analisi di intervento (Box e Tiao, 1975) permette di farlo anche simultaneamente alla stima dei parametri di un modello ARIMA. La "intervention analysis" si basa sulla definizione di una variabile artificiale a valori binari 0 e 1. Se l'istante a cui si verifica l'evento esterno (0 "intervento") e to, allora la variabile artificiale ha valore nullo per t < to, valore 1 per t == to. I valori successivi a to saranno posti uguali a zero se si suppone che l'effetto sia limitato e si riassorba (come nel caso di uno sciopero o di una calamita), oppure uguali a 1 se si pensa che l'effetto del cambiamento sia permanente (come nel caso di nuova legislazione); naturalmente altri schemi sono possibili e plausibili. La variabile artificiale viene poi inserita nel modello con una funzione di trasferimento, e ne vengono identificati e stimati i pesi con il metodo accennato nel paragrafo precedente. Anche se la variabile artificiale non e evidentemente un ente aleatorio, i metodi di stima possono essere giustificati in base al criterio dei minimi quadrati. Diverse applicazioni hanno mostrato l'efficacia dell'analisi di intervento, che ormai e entrata a far parte integrante del com plesso della modellistica ARIMA anche per la sua semplicita di applicazione. Si deve solo tener presente che, poiche e raro poter formulare una ipotesi teorica precisa relativamente al modo come dovrebbero svilupparsi nel tempo gli effetti dell'evento sulla serie, e buona regola provare differenti andamenti della variabile artificiale. Un fattore rilevante di perturbazione con origine e motivazioni note si verifica quando si considerano fenomeni di natura economica e sociale misurati su scala mensile (0 plurimensile), ed e da far risalire al diverso comportamento umana nei diversi giorni della settimana 0 dell'anno, e per questo si parla di effetti di calendario. La distinzione di tali effetti rispetto a quelli stagionali risiede nel fatto che essi non si presentano sempre esattamente negli stessi tempi nei vari anni, e quindi non sono assimilabili a variazioni precisamente periodiche. Un esempio rilevante e l'effetto della Pasqua, che essendo una festa mobile, in alcuni anni cade in marzo, in altri in aprile. Percio se la Pasqua ha effetti su una serie che e rilevata mensilmente, qualche an no essi si eserciteranno sul dato di marzo, e altri anni su quello di aprile. Per questo motivo e opportuno adottare una variabile di intervento per gli effetti della Pasqua, la quale assume per ogni anna il valore uno in corrispondenza del mese appropriato. A volte si assume che la festa di Pasqua abbia un effetto anche nei giorni precedenti, e in tal caso, se essa cade nei primissimi giorni di aprile, si puo introdurre una variabile di intervento anche in marzo. Gli effetti di calendario pili rilevanti sono in genere ritenuti quelli che, su dati relativi alla produzione 0 al consumo, sono esercitati dalla diversa lunghezza dei mesi. La struttura del nostro calendario, con mesi di 28, 29, 30 e 31 giorni, fa sl che, se il manifestarsi del fenomeno e in qualche modo legato all'ampiezza del periodo di rilevazione, i dati mensili non siano perfettamente omogenei. II rimedio pili frequente e quello di considerare dati depurati della diversa lunghezza dei mesi, ottenuti semplicemente dividendo ogni osservazione mensile per il numero di giorni contenuti nel relativo mese, e moltiplicandoli
11.3 Dati anomali
237
per la durata media (pari a 365/12 == 30.416). Inoltre, in caso di dati sociali 0 economici, va considerato che in genere il comportamento umana e diverso nei vari giorni della settimana, e i mesi non contengono nello stesso numero i diversi giorni della settimana: possono essere quattro 0 cinque. Infine, in qualche mese possono presentarsi festivita infra-settimanali. Percio in sostanza potrebbe accadere che in un mese vi sono cinque domeniche, cinque sabati e una festivita infra-settimanale, mentre nel successivo non ci sono festivita e solo quattro sabati e quattro domeniche. La prima decisione da prendere e sull'opportunita 0 meno di eliminare gli effetti di calendario, e cia dipende dagli scopi dell'indagine statistica perche i dati trasformati possono assumere un significato diverso (ad esempio dalla misura della produzione si passa a quella della produttivita}, II modo pili semplice di depurare da questi fattori e di calcolare, per ogni mese compreso nella rilevazione, il numero di giorni lavorativi (intendendo con questa locuzione il numero di giorni del mese in cui il fenomeno rilevato si manifesta) , e poi dividere ogni dato mensile per il suo numero di giorni lavorativi. Questo procedimento naturalmente si presta a qualche critica, soprattutto per la difficolta di definire che cosa sia un giorno lavorativo e "quanto" lavorativi siano alcuni giorni particolari (in genere il sabato e il venerdi) in relazione al fenomeno rilevato, specie se complesso. Un metodo pili approfondito, inizialmente proposto da Young (1965) e usato nei programmi Census X-II e successivi, attribuisce a ogni giorno della settimana un effetto specifico additivo, e 10 stima con un modello di regressione:
dove Cit e il numero di volte che il giorno di tipo i (domenica, lunedi, martedl ecc.) si presenta nel mese t, e gli 0:i sono gli effetti dei vari giorni. Ovviamente si puo sottrarre l'effetto medio e quindi imporre che sia Ql + Q2+ ... + Q7 = 0 cosi che l'effetto di un determinato giorno, ad esempio 0:7 e dato dall'opposto della somma degli altri: 0:7 == -0:1 - 0:2 - ... - 0:6. In sostanza, poiche tutti i giorni compaiono almeno 4 volte, l'effetto differenziale dei fattori di calendario su ciascun mese e dato solo dai coefficienti relativi a quei giorni che nel mese compaiono 5 volte. Un esposizione pili approfondita di questo e altri metodi ancor pili articolati si puo trovare in Bee Dagurn (2002).
11.3 Dati anomali Pili complessa e la situazione nella quale non sia noto a priori l'istante in cui si verifica la perturbazione: in tal caso si parla di dati anomali 0 outliers, ed necessario non solo valutarne gli effetti (stima dell'outlier) rna anche determinare se e a quale istante si verificano (identificazione degli outlier). II verificarsi di un outlier e determinato da eventi inattesi 0 da cause sconosciute (e 10 studio degli outliers serve anche ad indagarle), rna essi potrebbero
e
238
11 Deviazioni dalle ipotesi
essere determinati anche da errori in fase di rilevazione, trasmissione, trascrizione, elaborazione. La loro importanza e aumentata anche dal fatto che possono produrre un effetto critico sulle stime delle autocorrelazioni e dei parametri dei modelli. Esempio 11.1.. Se si aggiunge la quantita wauna sola osservazione di una serie di N dati, si puo controllare abbastanza facilmente che la varianza stimata subisce un aumento di circa w2 / N mentre le autocovarianze stimate subiscono modifiche dell' ordine di w/ N: in sostanza si ha generalmente una distorsione verso 10 zero delle autocorrelazioni. Ma se le osservazioni perturbate sono due, a distanza h, le variazioni sono pili rilevanti, e specie l'autocorrelazione al ritardo h puo aumentare considerevolmente in valore assoluto. Ancora pili complicati e difficilmente descrivibili gli effetti sulla stima dei parametri di modelli ARIMA. Cia ha portato a sviluppare, come in altri campi della Statistica, Ie proposte di metodi robusti (si veda ad esempio Martin, 1980). In alternativa, nell'ambito della modellistica ARMA si cerca di formalizzare l'effetto degli outliers ampliando il modello. A questo fine, si usa distinguere, a seconda del permanere degli effetti, tra outliers additivi e innovativi (Fox, 1972). I dati anomali additivi sono perturbazioni che agiscono su un solo dato specifico, e possono essere riprodotti sommando al modello una costante moltiplicata per una funzione delta che assume valore 1 solo in corrispondenza all'istante perturbato, e zero altrimenti: (11.1)
rappresenta un modello ARMA con un outlier additivo di ampiezza w all'istante q, poiche q) == 1 per t == q, e s,(q) == 0 per t i=- q. Per riprodurre invece anomalie che si prolungano per un certo tempo si usa il concetto di outlier innovativo, che e una perturbazione limitata a un solo istante applicata pero al processo delle innovazioni {Et}:
s,(
(11.2)
Infatti se indichiamo con
e quindi l'effetto del verificarsi dell'outlier innovativo al tempo q e quello di modificare i dati successivi X, in ragione di ht - q volte la sua ampiezza w. Per quanto riguarda la stima dell'effetto w, se si suppone che i parametri (cP, 0) siano noti e che si verifichi un outlier all'istante q, si ottengono facilmente gli stimatori W}q) == Eq nel caso innovativo e
11.3 Dati anomali
239
nel caso additivo, dove i pesi 1fj sono i coefficienti di Bj nel polinomio H(B)-l della rappresentazione invertita (6.8) (si veda ad esempio Tsay, 1988). II problema rimane quello della identificazione, e a questo fine si usa calcolare Ie quantita W}q) e w~) per ogni possibile q e prendere in considerazione la pili grande in valore assoluto, dopo averle standardizzate. Sotto l'ipotesi di assenza di outliers, infatti il valore teorico di w e nullo e le statistiche W}q) e w~) si distribuiscono con media nulla e varianza rispettivamente q»)
87 = Var(wJ
= a 2 e 8~
=
Var(wf»)
2:j 1r;' Percio si usa identificare Iw~) 1/ SA eccedono una soglia fissata
= a2/
un outlier in t == q se Iw}q) 1/ Sf oppure (che nella pratica viene sempre scelta tra 3,3.5,4,4.5). II problema pero e reso pili complicato dal fatto che noi non conosciamo i valori veri dei parametri (¢, 0), rna dobbiamo usarne delle stime la cui precisione puo esser diminuita proprio dalla presenza di outliers. Inoltre sorge un'altra difficolta dovuta al cosiddetto mascheramento (masking): se in una serie ci sono pili outliers, ciascuno di essi contribuisce a distorcere la stima dell'altro, poiche le stime di w risentono di tutti i dati della serie (se additivo) e di tutti i dati precedenti a q (se innovativo). Per questi motivi il procedimento pili usato per il trattamento degli outliers eiterativo: si comincia col determinare la singola anomalia pili rilevante e il suo carattere (additivo 0 innovativo) andando a valutare qual ela pili significativa q tra le stime {wJ ) , w~), q == 1, ... ,N}. Se non ve ne sono che eccedono la soglia, si conclude che non vi sono outliers; in caso contrario si identifica l'outlier e il suo tipo in corrispondenza alla stima pili significativamente diversa da zero, e si rimuove il suo effetto dalla serie (sottraendo w~) da X q se e additivo, oppure sottraendo hjw}q) da X q+ j , per j == 0,1, ... ,N - q se e innovativo). Sulla serie depurata si ripete il procedimento andando a identificare un secondo eventuale outlier, e cosl via fino a che non si trovano pili stime significative delle anomalie. La procedura puo essere migliorata prevedendo di ristimare i parametri (¢, B) sulle serie successivamente depurate. Infine, quando l'identificazione dei dati anomali e completa, e stato consigliato di ripetere l'operazione di stima massimizzando numericamente la somma dei quadrati dei residui congiuntamente rispetto ai parametri (¢, B) e alle ampiezze degli outliers identificati (Chen e Liu, 1993).
Esempio 11.2. La serie A di Box e Jenkins (1970) riporta dati relativi alla concentrazione chimica di una sostanza in una reazione, e consta di 197 osservazioni. Box e Jenkins identificano un modello ARMA(l,l) oppure un ARIMA(O,l,l) che, stimati con la massima verosimiglianza, risultano: (1 - 0.9B)Xt == 1.59 + (1 - 0.58B)Et
oppure
(1 - B)Xt == (1 - 0.7B)Et
con varianza residua rispettivamente pari a 0.097 e 0.1 (e R 2 attorno a 0.37). La procedura di ricerca degli outliers evidenzia come residuo pili significativo quello a t == 64 in cui la stima di tipo innovativo da per i due modelli un valore
240
11 Deviazioni dalle ipotesi
1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 Fig. 11.3. Serie A di Box e Jenkins. Evidenziati con un cerchio i dati anomali a t== 43 e 64.
simile ~ 1.11, pari a 3.73 (primo modelIo) 0 3.63 (secondo modello) volte 10 scarto quadratico medio stimato; una volta depurata la serie e ripetuta la procedura, la stima pili significativa si riferisce a t == 43 ed e l'anomalia additiva, stimata pari a circa -1 per entrambi i modelli (valore standardizzato pari a circa -3.7 per il primo modelIo e -3.6 per il secondo). In conclusione si identifica un outlier innovativo at == 64 e un additivo at == 43. Se ripetiamo la stima considerando congiuntamente i parametri e le anomalie dei due outliers, otteniamo per il primo modello: (1 - 0.91B)Xt == 1.68 + (1 - 0.47 B)ct
W}64) == 1.17 w~3) == -1.04
e per il secondo:
(1 - B)Xt == (1 - 0.63B)ct Le varianze residue finali (cioe dopo aver depurato dei due dati anomali) risultano circa 0.085 per il modelIo ARMA(l,l) e 0.09 per l'ARIMA(O,l,l). II grafico della serie e riportato nella Fig. 11.3, in cui sono evidenziati i dati identificati come outliers. Le procedure di ricerca degli outliers hanno incominciato a essere sviluppate a partire dagli anni 80 e sono ormai considerate come una tappa importante nell'analisi di una serie; l'ultima riedizione del volume di Box e Jenkins (Box, Jenkins e Reinsel, 1994) gli dedica un capitolo, e la maggior parte dei software pili moderni di serie temporali e in grado di sviluppare queste procedure. Naturalmente, il problema dei dati anomali e rilevante anche nel caso che non ci si ponga necessariamente nell'ottica della modellistica ARIMA, ed e stato affrontato anche indipendentemente dai modelli (in questo caso perde
11.3 Dati anomali
241
significato il concetto di outlier innovativo) attraverso l'uso di interpolatori lineari (ad esempio Baragona e Battaglia, 1992, a cui si rimanda per dettagli; osserviamo solo che la stima w~) gia introdotta e pari alla differenza tra il dato e l'interpolatore lineare); pili recentemente estato anche trattato in ottica bayesiana (McCulloch e Tsay, 1994; Barbieri, 1998). La identificazione di outliers multipli vista come problema di scelta di un sottoinsieme di istanti "anomali" all'interno dell'insieme (1,2, ... ,N) equivale a un problema di ottimizzazione combinatoria e puo essere affrontato con algoritmi meta-euristici (una proposta che adopera algoritmi genetici e in Baragona, Battaglia e Calzini, 2001). Un ultimo cenno merita, anche se non strettamente legata a deviazioni dalle ipotesi, la questione dei dati mancanti. Puo ben accadere, specie se Ie serie si riferiscono a intervalli di tempo molto lunghi, 0 a periodi del remoto passato, che le rilevazioni siano lacunose, e alcuni dati siano mancanti. II procedimento pili semplice sarebbe quello di trascurarli nella stima, rna questo equivale quasi sempre a porli uguali alla media della serie, e quindi costituisce una scelta molto precis a anche se a prima vista sarebbe sembrato il comportamento pili neutro. E' preferibile (dato che non si parla di campioni casuali, rna di serie temporali che hanno una dipendenza seriale) cercare di ricostruire Ie mancanze basandosi sul resto della serie. II metoda pili semplice e quello dell'interpolatore lineare, cioe stimare il dato mancante attraverso la migliore combinazione lineare degli altri dati (dove migliore significa ad errore quadratico medio minimo). Data la connessione con i metodi per i dati anomali, una procedura semplice per la ricostruzione dei dati mancanti si articola come segue: 1. Sia x; il dato mancante: attribuiamogli il valore artificiale zero (0 pari alla media, se non sono scarti). 2. Mediante il metodo per la ricerca degli outliers, stimare la anomalia additiva al tempo s: w~). 3. Ricostruire il dato mancante con X s == w~) (oppure w~) pili la media nel secondo caso). Questo modo di procedere corrisponde ad attribuire al dato mancante il valore del suo interpolatore lineare. Se il numero di dati mancanti e considerevole, naturalmente questo, come tutti gli altri metodi, fornisce risultati molto meno affidabili. II problema dei dati mancanti e stato affrontato in molte altre maniere e impostazioni (si veda ad esempio Damsleth, 1980; Ljung, 1982; Ferreiro, 1987; anche il filtro di Kalman, che sara illustrato in seguito, puo essere utilizzato a questo scopo).
12 Inferenza per catene di Markov e processi di punti
In questo capitolo svolgiamo l'inferenza per le catene di Markov e per i processi di punti, trattando i principali metodi per stimarne i parametri rilevanti.
12.1 Stima delle probabilita per catene di Markov Nelle catene di Markov abbiamo gia usato l'aggettivo ergodico per indicare le catene irriducibili e aperiodiche e in effetti per queste catene si puo dimostrare un teorema ergodico che si riferisce a questioni analoghe a quelle trattate prima, e legate alla stima delle quantita rilevanti per una catena di Markov che sono tutte funzioni delle probabilita: Pij
== Pr {Xn == i
IXn - l == j}
.
Consideriamo una catena con un numero finito di stati indicati con i naturali 1, 2, ... ,m, irriducibile aperiodica con distribuzione di equilibrio tt . Supponiamo che vi sia un istante iniziale t == 0, e che siano stati rilevati i valori del processo agli istanti 0,1, ... ,N indicati con (XO, Xl, ... , XN), e le frequenze empiriche delle transizioni da uno stato all'altro: N
nij
==
L
I [Xt
== i,
Xt-l
==
j],
i,j == 1, ... ,m
t=l
dove I[E] e la funzione indicatrice dell'evento E (uguale a 1 se E si verifica e uguale a 0 se E non si verifica). Poniamo inoltre: j == 1, ..., m .
Le nij forniscono le stime di massima verosimiglianza. Infatti la verosimiglianza dei dati, se la distribuzione iniziale di X o e posta uguale a
p?,
sara:
244
12 Inferenza per catene di Markov e processi di punti
L {Xo, Xl,
... ,
XN
Ip } == P~OPXIXOPX2Xl m
- ° II II
-
• • • PXNXN-l
==
m
Px o
nij Pij
i=l j=l
e la log verosimiglianza: log L
== log p~o +
L L nij log Pij j
i
da cui massimizzando rispetto aIle Pij (i, j == 1, ... , m) con i vincoli EiPij 1 (j == 1, ... , m) si ottengono Ie stime di massima verosimiglianza:
nij Pij == - . A
n·)
I relativi stimatori possono essere indicati con Ie lettere maiuscole. Se poniamo: se X k -
l
== j e X k == i
altrimenti possiamo scrivere: N
N i j ==
L z., (k) k=l N
N j == LNij i=l
La convergenza delle N j (tempo trascorso nella stato j) e assicurata dal teorema ergodico per le catene di Markov, il Quale assicura che per una catena ergodica, Nj/N converge in probabilita a 1["]. D'altra parte, fissato j, la (Nl j , N 2j , ... , N mj) e una variabile multinomiale, Ie cui componenti al erescere del numero di osservazioni tendono asintoticamente a normali. Combinando queste due proprieta si arriva a dimostrare una forma di consistenza e normalita asintotica per gli stimatori Pij == N ij / N j , di cui enunciamo solo la tesi: sia P == (Pll,P2l, ···,Pml,P12,P22, ···,Pm2, ···,Plm,P2m, ···,Pmm) e P == (Pll,P2l, ···,Pml, ···,Plm,P2m, ···,Pmm); al tendere di N all'infinito la variabile m 2-pla (1) Vii (p - p) converge a una normale multipla con medie nulle. Le varianze e covarianze asintotiche sono date da: lim N Cov {Pij,Pkl}
N---+oo
== 0,
A1,), Pk' A} · N C ov {p" Iim == -PijPkj --, )
N ---+00
1
1rj
In realta sia le Pij sia lc Pij soddisfano i vincoli del tipo
ii=k
EiPij
== 1, j == 1,2, ..., m
12.1 Stima delle probabilita per catene di Markov
245
_ Pij (1 - Pij) . · N V ar {A} 11m Pij -
N~oo
~
Pertanto possiamo trattare Ie stime delle probabilita, per N grande, come approssimativamente non distorte, e con variabilita proporzionale a 1/ Le formule asintotiche permettono di calcolare gli intervalli di confidenza approssimati. Basandosi sulla stessa teoria multinormale si riescono a costruire facilmente test delle ipotesi. Se consideriamo un'ipotesi che fissa esattamente le probabilita: Hi, : p?j i, j == 1, ..., m (naturalmente devono essere soddisfatti i vincoli Eip?j == 1, j == 1, ..., m), possiamo vedere il problema come confronto per ogni j fissato, tra frequenze empiriche nij e teoriche njp?j e quindi siamo portati a considerare gli indici chi quadro del tipo:
m.
j
== 1, ... ,m
e sommare gli m chi quadri cosi ottenuti:
Se l'ipotesi Hi; e vera, TN e somma di m chi quadrati indipendenti ciascuno con (m-l) gradi di liberta. In effetti si puo verificare che TN e asintoticamente uguale alla statistica del rapporto tra Ie massime verosimiglianze:
In particolare, possiamo sottoporre a verifica l'ipotesi di indipendenza: H o == 1f i, notando che la stima di massima verosimiglianza di 1f i sara n, / N, e dunque sotto Hi, si avra Pij == nj1ri == ninj / N. La statistica test risulta allora:
Pij
che si distribuisce asintoticamente come un chi quadro con m( m-l )-(m-l) == (m -1)2 gradi di liberta.
Esempio 12.1 (Giorni di pioggia a Tel Aviv). Gabriel e Neumann riportano queste frequenze osservate su un periodo di 27 anni (2437 osservazioni): iniziale asciutto pioggia successivo asciutto 1049 351 pioggia 350 687
246
12 Inferenza per catene di Markov e processi di punti
da cui noo == 1049, n01 == 350, n10 == 351, n11 == 687, no == 1399, n1 == 1038. Percio le stime della probabilita di transizione, calcolate attraverso la formula Pij == nij / nj, risultano:
P ==
[0.75 0.338] 0.25 0.662 .
Le probabilita stazionarie 1ro e 1r1 possono essere stimate attraverso i rapporti ottenendo ~ 0.575, ~ 0.425, che sono anche uguali all'autovettore della matrice P. Si puo verificare che con il test proposto l'ipotesi di indipendenza viene respinta anche a livelli d'ampiezza molto piccoli.
*0
nj/N,
*1
12.2 Inferenza per processi di Poisson Nel processo di Poisson omogeneo l'unico parametro e rappresentato dall'intensita Ache eproporzionale al numero medio di eventi in un intervallo, percio l'inferenza si presenta pili semplice. Supponiamo di aver osservato il processo per un intervallo di tempo di ampiezza to (diciamo da 0 a to) e che si siano realizzati n eventi agli istanti t1, t 2, ... , tn. Ricordiamo che i tempi di attesa X k tra il (k -I)-mo e il k-mo evento sono distribuiti in forma esponenziale negativa, e sono indipendenti. Pertanto la verosimiglianza, se assumiamo che vi sia un evento in t == 0, e posta Xj == tj - tj-1 (da cui Xl + X2 + + Xn == tn), si puo scrivere:
L ==
==
== X2, ,Xn == Xn,Xn+1 > to - t n} Xn)eA(to-t n) == Ane- Ato . Ane-A(Xl +X2+ ...+
Pr{X1
==
X1,X2
La stima di massima verosimiglianza si ottiene massimizzando rispetto a A, il che comporta A == nita. Pertanto 10 stimatore di massima verosimiglianza risulta: ,\ == N (0, to) . to
Ma N(O, to) ha una distribuzione di Poisson di parametro Ato, quindi:
A
Var(A) == - . A
to
Si puo verificare che la statistica "numero di eventi" e sufficiente e completa per A, ne segue che ,\ e 10 stimatore non distorto a varianza minima (MVUE). Supponiamo che invece di osservare il processo per un tempo fissato to, 10 osserviamo fino a raggiungere un certo numero di eventi fissato no, e che essi si verifichino negli istanti t 1, t 2, ... , t na. Ponendo come prima Xl == t1, Xj == tj - tj-1 (j == 2, ..., no) e supponendo un evento iniziale in t == 0, la verosimiglianza risulta:
12.2 Inferenza per processi di Poisson
247
quindi la stima di massima verosimiglianza si ottiene ponendo A == nO/tna e 10 stimatore di massima verosimiglianza risulta percio:
no
A
A==-T (no) dove T(no) e l'istante in cui si verifica l'no-esimo evento, la cui distribuzione come sappiamo e gamma di parametri no e A, e la cui media armonica si ottiene facilmente uguale a AI (no - 1). Percio:
{I} == -nono-- A .
E(A) == noE - (-) T no A
1
La distorsione si puo correggere facilmente ottenendo 10 stimatore non distorto: A* == no - 1
T (no)
che ha:
E(A*) == A
A2
Var(A*) == - - . no - 2
Poiche anche in questo caso T(no) e sufficiente e completa per A, 10 stimatore A* risulta quello non distorto a varianza minima. Un problema di inferenza che si pone spesso nei processi di punti e la verifica dell'ipotesi che i dati provengano da un processo di Poisson omogeneo, cioe con intensita A costante, contro l'ipotesi che I'intensita vari con il tempo, e cioe che la probabilita che avvengano eventi non sia costante. In questo caso si suppone che i dati provengano da un processo di Poisson non omogeneo con intensita A(t) variabile nel tempo e si procede sostanzialmente a verificare la stazionarieta in media e varianza, problema che si puo trattare secondo la teoria classica di Neyman e Pearson. Per i processi non omogenei ricordiamo (paragrafo 7.2) che la distribuzione del numero di e renti in un intervallo (s, t) ha una forma di Poisson con parametro pari a:
i(s,t)=
I
t
).. (U) dU
mentre per i tempi ai quali si verificano gli eventi si ha Pr( u < Ti. < U U du ITk - 1 == t) == A(u) exp (- ft A(y) dy) du, e la verosimiglianza si scrive:
+
Per effettuare il testdi omogeneita si assume come ipotesi nulla Ho : A(t) == A Vt e si considera il rapporto delle verosimiglianze, che puo risultare di facile o difficile risoluzione a seconda della forma funzionale di A( t) definita dalla ipotesi alternativa. Una scelta semplice e del tipo A(t) == A exp{ -Bt}, poiche in tal caso la verosimiglianza sotto l'ipotesi alternativa e:
248
12 Inferenza per catene di Markov e processi di punti
mentre quella sotto l'ipotesi nulla:
e quindi il rapporto di verosimiglianza dipende dalla statistica test:
Ora sotto Hi, e dato che N(O, to) == n, ciascun T, ha distribuzione uniforme tra 0 e to. Infatti:
e:
, T';
Pr (TI == tl, T2 == t2,
==
tn, N (0, to) == n)
==
Ae-A(tn-tn-l)e-A(to-tn) == Ane- At o In!
== Ae- At 1 Ae- A(t 2 - t d
da cui:
n!
Pr (TI == t i- T2 == t2, ...,Tn == t n IN (0, to) == n) == t n . a La densita e uniforme nell'insieme 0 < t l < t2 < ... < t.; < to, ed uguale alla densita congiunta di un campione casuale ordinato di n unita da una variabile distribuita in modo uniforme tra 0 e to (si veda ad es. Azzalini, 2001, p. 324). D'altra parte le somma (TI + T2 + ... + Tn) non dipende dall'ordine degli addendi. Se ne puo concludere (si veda ad es. Cox e Lewis, 1966) che la variabile S == T I + T 2 + ... + T'; ha la stessa distribuzione della somma di n variabili indipendenti e somiglianti con distribuzione uniforme tra 0 e to. La uniforme ha densita lito, media to/2 e varianza t5/12; allora per il teorema centrale di convergenza S e approssimativamente normale per n grande, con: E (5) = nto 2
Var (5) = ntB 12
e cio permette di ricavare regioni di rifiuto. Se l'alternativa e unilaterale: HI : A(t) == Aexp( -Ot), 0 > 0 e quindi A(t) < A e decrescente, dovremo scartare i valori piccoli e la regione di rifiuto e del tipo: S
< -nto -z to ~ 2 a 12
Se invece l'alternativa e HI : A(t) == A exp( -Ot), 0 < 0, e dunque A(t) crescente e maggiore di A, allora rifiuteremo per valori grandi di S:
S> -nto +za to ~ . 2 12
e
12.2 Inferenza per processi di Poisson
249
Esempio 12.2. Consideriamo i dati seguenti che riportano il numero mensile di interruzioni in una rete di comunicazione per un periodo di quindici mesi:
mese
1 2
3
4
5
6
7
8
eventi 10 14 8 5 7 11 9 15 cumulati 10 24 32 37 44 55 64 79 stima intensita 10 12 10.6 9.25 8.8 9.16 9.88 11.3 mese
9
10 11 12 13
14
15
eventi 10 24 8 4 5 12 12 cumulati 89 113 121 125 130 142 154 stima intensita 9.14 9.87 11 10.4 10 10.14 10.26 La terza riga da il rapporto tra eventi cumulati e lunghezza del periodo complessivo, quindi costituisce 10 stimatore dell'intcnsita come 10 si puo calcolare alla fine di ciascun mese, basato su tutti i dati precedenti. Come si nota, all'aumentare delle informazioni disponibili la stima diventa sempre pili stabile. Esaminiamo pili da vicino gli ultimi quattro mesi domandandoci se si puo accettare l'ipotesi di una intensita costante (dai dati sembrerebbe crescente). Sono necessari i tempi nei quali si sono verificati gli eventi, che verranno espressi in giorni fissando l'origine dei tempi all'inizio del mese e considerando mesi di 30 giorni, di modo che l'intero periodo e di durata 120: Mese 12: eventi a 2.5,9.1,24,27.2 Mese 13: eventi a 8.4,10.1,19,26.9,27.5 Mese 14: eventi a 2.1,3.1,7.5,10,11.4,11.8,20.5,21.1,26,27.3,28,28.7 Mese 15: eventi a 0.3,1.1,1.9,4.5,5.3,5.7,13.5,15,20,20.9,25.6,28.1 La statistica test e la somma dei tempi di accadimento, che risulta pari a 2452.2 (si ricordi che ogni istante va misurato a partire dal tempo zero cioe dall'inizio del mese 12). Gli eventi totali sono n == 33 e il tempo totale di osservazione e di 120 giorni: quindi sotto l'ipotesi nulla di intensita costante la media e nto/2 == 1980 e la varianza nt5/12 == 39600, quindi 10 scarto quadratico medio e circa 199. Pertanto il valore standardizzato della statistica epari a circa 2.37 che comporta il rifiuto allo 0.01 dell'ipotesi nulla di costanza contro la unilaterale A( t) crescente.
Parte IV
Metodi di previsione puntuale
13 Previsioni per processi stazionari
Vengono introdotti alcuni metodi di previsione puntuale delle serie temporali. Dopo una breve esposizione della teoria della previsione dei processi aleatori stazionari, si espongono i metodi di previsione basati sui modelli della classe ARIMA, e si discutono brevemente anche metodi basati su altre impostazioni.
13.1 Teoria della previsione II problema della previsione puo essere formalizzato nell'ambito della teoria dei processi stocastici studiando le relazioni di un insieme di variabili che si riferiscono al passato e presente con una variabile del processo che si riferisce al futuro. Se supponiamo di trovarci all'istante t, e quindi di poter virtualmente conoscere le determinazioni assunte dalle variabili {X s, S ~ t}, rna ci interessa invece la variabile X t +£ che genera il valore che il processo assumcra tra Ristanti, e naturale riferirsi alla distribuzione condizionata di X t +£ dati {X s, S ~ t}, e se vogliamo sintetizzarla l'indice pili comune e la media E{Xt+£IXt,Xt - 1 , .. . }. Essa ha una ulteriore proprieta di ottimalita, come abbiamo gia accennato nel primo capitolo: supponiamo che si voglia attribuire un valore puntuale ana realizzazione futura (e quindi incognita) di X t +£: questo valore sara ovviamente funzione dei dati gia noti, percio questa operazione di prevedere il futuro descrive una statistica:
Si dice che tel' origine del previsore, e f e l' orizzonte di previsione. Quale funzione scegliere? Scegliamo come condizione la pili comunemente usata: l'errore che commettiamo
dovra avere media zero e media quadratica pili piccola possibile. Ne segue che
254
13 Previsioni per processi stazionari
Se indichiamo per brevita x: == (Xt , X t - 1 , ... ) e la media condizionata con Mt(f) == E{Xt+£IX t}, l'errore quadratico medio si puo scrivere: 2
E {Xt+£ -
2
+
+2E {[X t+£ - Mt(f)] [Mt(f) -
In questa situazione il previsore ottimo e lineare. Tuttavia, anche quando il processo non sia gaussiano, se il calcolo della media condizionata e troppo complicato (0 non e possibile perche non e nota la forma della distribuzione di probabilita) possiamo accontentarci di costruire il previsore lineare ottimo, cioe quella combinazione lineare di X t , X t - 1 , ... che assicura la minima differenza quadratica media rispetto ad X t+£: si parla percio di teoria della previsione lineare. La determinazione dei coefficienti Cj puo essere effettuata attraverso il metodo dei minimi quadrati, imponendo
Sviluppando il quadrato e la media si ottiene: 1
Per spiegarlo adottiamo la notazione EA(f) per indicare che la media e calcolata rispetto alla distribuzione di probabilita della variabile A. Si vede subito, poiche p(A,B) == p(A)p(BIA), che vale la regola E(A,B)(f) == EA{EB1A(f)}. Quindi il doppio prodotto da valutare risulta: t
[Xt +£ - M t (£)]} == = Ext {EXtHlxt {[Mt(£) - cp(Xt )] [XtH - Mt(£)]}} =
E(xt+€,xt) {[Mt (£) - cp(X
=
)]
t
Ext {[Mt(£) - cp(X )] EXtHlxt {[XtH - Mt(£)]}}
Ma poiche abbiamo posta
il secondo fattore risulta la media degli scarti dalla media e quindi qualunque sia x', percio si annulla l'intero termine.
e uguale a zero
13.1 Teoria della previsione
L cu,(u + £) + L L cucv,(u - v) 00
,(0) - 2
255
00
u=o
u=ov=o
ed eguagliando a zero le derivate rispetto ai
L cu,(h 00
u=o
00
u) == ,(£ + h),
Ch:
h == 0,1,2, ...
La soluzione di questo sistema (di infinite equazioni) non e semplice, anche se epossibile arrivarci passando al dominio frequenziale, e quindi invece di proseguire in questa impostazione (dovuta a Wiener), considereremo un approccio diverso, dovuto a Kolmogorov, che si basa sulla decomposizione di Wold, sotto l'ipotesi che la misura spettrale sia assolutamente continua. Allora possiamo scrivere:
L 00
x, == JL +
huct-u u=o ed esprimere in funzione delle {st} anche il previsore: X t(£) ==
L cuXt- u == JL + L guCt-u 00
00
u=o
u=o
per cui la media dell'errore al quadrato diventa:
avendo posta u == 8 - £. Poiche le {Ct} sono incorrelate con media zero e varianza uguale 0'2, si ha:
E {Xt+£ - X t(£)}2 == 0'2
£-1
00
s=o
s=£
L h; + 0'2 L (h s - gs_£)2 .
Questa espressione raggiunge il minimo rispetto ai gu quando il secondo addendo si annulla, ponendo h s == gs-£ (8 == £,£ + 1, ...) ovvero gu == h£+u. Pertanto la soluzione e: 00
x, (£) == /-l + L
h£+uct-u
(13.1)
u=o £-1
et(R) == X t+£ - Xt(R) ==
L hsct+£-s s=o
(13.2)
256
13 Previsioni per processi stazionari
il che permette di interpretare, nella decomposizione di Wold di X t +R, la parte relativa alle E gia realizzatesi come il previsore, e la parte relativa alle E non ancora realizzatesi come l'errore di previsione:
Xt+R == [Et+R
+ h1Et+R-1 + ... + hR-1Et+1] + [hREt + h£+lEt-1 + ...] + fL == == et(f) + Xt(f) .
II risultato si ottiene aneora pili faeilmente se si assume la gaussianita, poiche in tal easo X, (f) e la media eondizionata, le {Et} sono a media nulla, indipendenti tra loro e inoltre indipendenti dalle osservazioni preeedenti:
L hsEtH~s IX = t} == fL + L hsE {Et+£-s /X == fL + L hsEt+£-s .
Xt (£) = E {X t H
IX
t
}
t
= E {JL +
00
00
s=O
s=£
}
L' errore medio di previsione e (ovviamente) zero e la sua media quadratiea (detta anehe varianza di previsione) risulta: (13.3) La previsione puo poi essere espressa in funzione lineare del proeesso effettivamente rilevato, usando la forma invertita: posta H(B)-l == G(B), da X t == fL + H(B)Et segue Ct == G(B)(Xt - fL) == E j /'1;j (X t - j - fL). Sostituendo avremo:
L hR+uEt-u == fL + L L h£+u/'1;j(Xt- u- j - fL) . 00
Xt(R) == fL
+
00
u=O
00
(13.4)
u=Oj=O
Questa formula permette di calcolare direttamente il previsore sulla base dei dati per ogni orizzonte f, ed e la stessa espressione alla Quale e arrivato Wiener, anche se come vedremo tra poco non e sempre la forma pili comoda e eonveniente per ealeolare lc previsioni. II risultato del previsore permette una nuova interpretazione delle innovazioni {Et}, infatti ponendo f == 1 dalla (13.2) si ottiene et(l) == Ct+1. L'urto Et e quindi pari all'errore di previsione eon orizzonte uno dall'origine t - 1. Usando la forma invertita del processo Et == G(B)(Xt - fL), e ricordando ehe /'1;0 == 1, si rieava:
+ L /'1;j(Xt- j 00
Et == X, - u
fL)
j=l
e quindi, separando X; e scrivendolo per t
+ 1:
L /'1;j(Xt+1- j 00
X t+1 - fL == -
j=l
fL)
+ Et+1
.
13.2 Previsioni can modelli ARIMA
257
Questa espressione descrive il processo come somma di due parti incorrelate, di cui la prima e il previsore Xt(l) e la seconda l'errore di previsione ct+l, ed e particolarmente utile per processi autoregressivi puri, in cui il numero dei coefficienti f\;j e finito e f\;j == -¢j. Osserviamo infine che, data la Iinearita della media, per qualunque combinazione lineare di dati futuri si ha:
E
{LCkXt+k /X k>O
t
}
==
L ckE {Xt+k IX t} == L ckXt(k) .
Se ne deduce che la previsione lineare ottima di una combinazione lineare di dati futuri e fornita dalla identica combinazione lineare applicata ai previsori del processo. Per concludere e opportuno notare che i coefficienti dei previsori lineari qui introdotti, essendo questi calcolati come medie condizionate sotto l'ipotesi di normalita, dipendono solo dalle autocorrelazioni: quindi due processi che abbiano la stessa funzione di autocorrelazione avranno previsori lineari della stessa forma e con gli stessi parametri.
13.2 Previsioni con modelli ARIMA La teoria della previsione che abbiamo esposto brevemente nel paragrafo precedente produce una serie di risultati che se particolarizzati ai processi autoregressivi, a somma mobile 0 misti, sono stati analizzati nei dettagli da Box e Jenkins. Applicando questi risultati ai modelli ARIMA identificati e stimati su serie reali, si possono ottenere previsioni effettive dei valori futuri delle serie. Va tenuto presente che esse risentiranno sia della variabilita intrinseca del previsore ( cioe del fatto che la previsione risente di un errore aleatorio ineliminabile) sia della distorsione nelle stime dei parametri. Questo secondo aspetto, per la difficolta di analizzarlo a fondo, verra trascurato in quanto segue (ed eben poco trattato in letteratura). II contributo fondamentale di Box e Jenkins consiste nell'aver approfondito la natura iterativa e adattiva degli stimatori, nell' aver esteso il trattamento anche ai modelli integrati e stagionali, e nell'aver proposto metodi di calcolo efficienti. II punto di partenza sara per noi un modello completo ARIMA moltiplicativo di ordine (p, d, q) x (P, D, Q)s , che supponiamo correttamente identificato e stimato. Allora possiamo pensare che i dati siano realizzazione di un processo {Xt } che obbedisce ana relazione
Sviluppando i prodotti otteniamo un polinomio a somma mobile complessivo T(B) == 8(B)8*(BS) == 1 - tlB - ... - tbBb di grado b == sQ + q invertibile,
258
13 Previsioni per processi stazionari
e un polinomio autoregressivo complessivo F(B) == tP(B)tP*(B S ) ( l - B)d(l Bs)D == 1 - fIB - ... - faBa di grado a == p + sP + d + sD con d + sD radici sul cerchio unitario, e Ie altre di modulo maggiore di uno, quindi un polinomio non invertibile. Tuttavia, per evitare di appesantire la notazione, useremo ancora la simbologia precedente indicando con cPj invece che fj i parametri della struttura autoregressiva, e con OJ invece che tj quelli della struttura a somma mobile. Quindi il punto di partenza e il processo che obbedisce a:
dove 8(B) ha radici solo al di fuori del cerchio unitario, mentre tP(B) puo avere (se d > 0 oppure D > 0) anche alcune radici sul cerchio unitario. Lo strumento fondamentale della procedura trae la sua sernplicita dalla proprieta di linearita della media condizionata, e consiste nello scrivere lc equazioni che esprimono Xt+R in funzione dei dati, 0 degli urti, precedenti, e calcolare le medie condizionate di ambo i membri dell'equazione, ottenendo cosi il previsore lineare ottimo. In quanto segue supporremo, per semplificare le formule, che la media del processo (0 delle differenze se p > 0 0 P > 0) sia nulla (in caso contrario bisogna sostituire ai dati gli scarti). II legame tra X t +R e il suo passato puo essere espresso in tre forme diverse: 1. L'equazione aIle differenze corrispondente alIa forma ARIMA:
2. La forma in funzione completa degli urti -
detta a volte forma integrata
o forma MA( ex) ):
che in genere avra lunghezza infinita, a meno che il modello non sia un MA puro; i pesi 1fj corrispondono al polinomio P(B) == 1 + 1fIB + ... == tP(B)-18(B) e quindi se la serie e integrata, ovvero d =I 0 e/o D =I 0, non formano una serie convergente. 3. La forma invertita, a volte detta AR( ex) ):
dove i pesi 7T"j sono dati dal polinomio II(B) == 1 - 1rIB - 1r2B2 - ... == tP(B)8(B)-1 e sono sempre convergenti se il modello e invertibile, rna sono in numero infinito a meno che esso non sia autoregressivo puro. Se adesso applichiamo I'operatore media condizionata E{.IX t } alle equazioni, ci troveremo a dovere calcolare le medie condizionate di osservazioni e di urti relativi sia al futuro che al passato, che possiamo risolvere nel modo seguente:
13.2 Previsioni can modelli ARIMA
E { Xt+h IX,
==
259
Xt(h) , h > 0 Xt ,Xt- l == Xt-l,··· } == { h<0 Xt-Ihl' -'
E {Et+h} == 0, h > 0 Xt-l, ... } == { h<0 Et-Ihl ' _ in quanto la media dei valori gia realizzatisi e eguale ai valori effettivamente osservati Xt-Ihl ed Et-Ihl' mentre per gli urti futuri la media condizionata e uguale a quella non condizionata in quanto essi sono indipendenti dai dati precedenti. Nell'ottica della previsione, i valori calcolati degli urti relativi al passato si possono anche scrivere come errori di previsione a orizzonte unitario:
E { Et+h
IXt
==
x, ,Xt- l
==
A
Et-Ihl == Xt-Ihl - Xt-lhl-l(l) . Di conseguenza, applicando la media condizionata alle tre equazioni (e supponendo £ < a e £ < b) otteniamo:
X t(£) == cPlXt(£ - 1) + ... + cPR- lXt(l)+ + cPRXt + cPR+lXt-l + - ()REt - ()R+lEt-l -
+ cPaXt+R-a+ -
()bEt+R-b
+ 1/;R+lEt-l + 1/;R+2 Et-2 + ... 1) + ... + 1fR- lXt(l) + 1fR Xt + 1fR+lXt-l + ...
X t(£) == 1/;R Et X t(£) == 1f lXt(£ -
(13.5) (13.6) (13.7)
Nel caso che sia £ > b dalla prima equazione scompare la parte in (), e nel caso che sia £ > a scompare ovviamente la combinazione lineare dei dati passati cPRXt+ ... + cPaXt+R-a. Infine se £ == 1, nelle (13.5) e (13.7) non c'e la parte dipendente dai previsori a orizzonte inferiore a £. Le tre forme sono equivalenti rna a seconda della struttura del modello e dell'ordine puo essere pili conveniente usare l'una 0 l'altra. Mentre i parametri cP e 0 sono quelli che stimiamo direttamente, per usare le altre equazioni si devono calcolare i pesi 1/; 0 i pesi it . I pesi della rappresentazione a somma mobile 1/;j, che sono uguali a quelli della rappresentazione di Wold, sono definiti dalla eguaglianza tra le due strutture polinomiali nel ritardo B,
(1 - cPlB - ... - cPaBa)(l + 1/; lB + 1/;2B2
+ ...) == (1 -
OIB - ... - ObBb)
e per il principio di identita dei polinomi si possono calcolare eguagliando i coefficienti di ugual grado:
che esplicitando i pesi psi si possono scrivere 1/;1 == cPl - ()l
+ cP2 - ()2 1/;3 == cPl1/;2 + cP21/;1 + cP3 1/;2 == cPl1/;l
()3
260
13 Previsioni per processi stazionari
Per ottenere una formula generale possiamo porre 1/Jo == 1, 1/Jk == 0 per k < 0, ()k == 0 per k > b e scrivere:
Una tecnica analoga permette di calcolare i pesi della rappresentazione invertita 1T'j. I pesi 1/Jj sono anche utili per valutare la variabilita dei previsori, poiche la forma MA( (0) del previsore e la pili comoda per calcolarne la varianza essendo espressa in funzione di urti incorrelati. Si ottiene percio, analogamente alla (13.3):
Se si accetta che gli urti siano gaussiani, allora anche i previsori hanno distribuzione normale, e si calcolano immediatamente intervalli di previsione sommando e sottraendo aHa previsione la quantita ka / 2 IJ
J + 'l/Ji + ... 'I/J;-l 1
dove k a / 2 e il quantile della normale standardizzata allivello a/2. La espressione della varianza permette anche di riconoscere come aumenta l'incertezza al crescere dell'orizzonte: il passare dall'orizzonte h a quello h + 1 comporta un aumento della varianza pari a (J21/J~. Nella applicazione pratica bisogna tener presente che noi disponiamo di osservazioni solo dall'istante 1 in poi, mentre i previsori (13.6) e (13.7) possono contenere tutte le osservazioni 0 gli urti precedenti al tempo t. Evidentemente si devono prevedere dati non noti, e quindi si assume come origine l'ultimo istante noto N, percio nel previsore X N (R) i dati ignoti precedenti al primo compaiono con il termine 1fP+NXO+1fP+N+IX-l + .... Poiche la serie dei 1fj e convergente, questo termine e in genere trascurabile. Analogo ragionamento potrebbe essere applicato alla espressione MA( (0) del tipo (13.6), nel caso che il processo sia stazionario e quindi la serie dei pesi 1/Jj sia convergente. Se invece si e effettuata una differenziazione, ai valori non noti Ck , k == 0, -1, -2, ... si sostituira la loro media pari a zero, oppure si adoperano lc forme alternative (13.5) e (13.7). Queste ultime devono essere applicate in modo iterativo, calcolando il previsore per orizzonte uno, con questo il previsore a orizzonte due, poi usando i risultati ottenuti il previsore a orizzonte tre, e cosi via fino ad arrivare all'orizzonte voluto. Supponiamo invece che si voglia prevedere il processo a un istante fissato nel futuro, e sia man mana possibile rilevare dati sempre pili recenti, cioe spostare l'origine verso il punto da prevedere: come cambia la previsione? Per fissare Ie idee sia T l'istante da prevedere. Partendo dall'origine N « T) il previsore si scrive:
Se invece veniamo a conoscere anche il dato al tempo N l'origine in avanti a N + 1 e prevedere il dato X T con:
+ 1, potremo spostare
13.2 Previsioni can modelli ARIMA
X N+1(T - N - 1) == 'lfJT-N-1 EN+1
261
+ 'lfJT-NEN + 'lfJT-N+1EN-1 + ...
== 'lfJT-N-1EN+1 + XN(T - N) .
La differenza tra i due previsori e:
In sostanza nel passare dall'origine N alla N + 1 il previsore si modifica sommando una frazione 'lfJT - N -1 dell'errore di previsione a orizzonte uno registrato al nuovo istante N + 1; la varianza (errore quadratico medio) di previsione diminuisce della quantita 'lfJ}-N -1 a 2 . Procediamo adesso a particolarizzare i risultati ad alcuni dei pili semplici modelli. Modello AR(l). Poiche ¢1 == 1f1 e 'lfJj == ¢j, mentre i OJ sono tutti nulli, la prima e la terza forma del previsore coincidono:
(13.8) e quella in forma integrata
e:
X t (-tIJ ) -_
~£ tp Et A
+ tp~£+1 Et-1 + ... A
La varianza di previsione risulta
e poiche I¢I < 1 cresce esponenzialmente con £ fino a a 2 / (1-¢2) Dalla (13.8) si ottiene per ricorrenza:
== Var(X t +£).
£ == 1,2, ... quindi la previsione per un AR( 1) e fornita dalle potenze successive del parametro moltiplicate per l'ultimo dato noto, e si avvicina esponenzialmente (alternando di segno se ¢ < 0, oppure con 10 stesso segno di X, se ¢ > 0) ana media non condizionata (pari a zero). Se la media e diversa da zero e uguale a u, il previsore diventa £ == 1,2, ...
Modello AR (p). Se indichiamo con X, (£) anche i valori gia realizzati estendendo la definizione per £ negativo: Xt(f) == Xt+£, f ~ 0, allora l'equazione (13.5) si puo scrivere: (13.9) e il previsore X, (£), considerato come funzione di £, soddisfa la stessa equazione alle differenze soddisfatta dalle autocorre1azioni, e presenta percio 10
262
13 Previsioni per processi stazionari
stesso andamento (per esempio per p == 2 e ¢2 < 0 puo seguire un andamento sinusoidale smorzato). Le condizioni iniziali che determinano la soluzione particolare dell'equazione alle differenze sono fornite dal fatto che i valori di Xt(R) per Rnegativo sono noti e dati dalle osservazioni e quindi Xt(l!) == Xt-I£I' R==-1,-2, ... ,-p. Modelli autoregressivi integrati ARIMA [p.d, 0). Per questi modelli Ie differenze d-me Z; == (1 - B)d X, seguono 10 schema autoregressivo e quindi i previsori di Zt+£ tendono esponenzialmente a ritornare sullo zero, conseguentemente il previsore di X t+£ tende ad assumere la forma (1 - B)d Xt(R) == 0 dove l'operatore B agisce sull'orizzonte I!; ricordando che
si ottiene, al crescere dell'orizzonte:
e quindi Xt(R) si disporra secondo un polinomio di grado d - 1 il cui andamento e determinato dai valori iniziali Xt-k, k == 1, ... ,d. Ad esempio, per un ARIMA(l, 1,0) con un trend, rappresentato da:
(1 - ¢B) (1 - B) X, ==
C
+ Ct
posta JL == c] (1 - ¢), il modello si puo scrivere:
I pesi
1f
sono:
1fo
== 1, 1fl == 1 + ¢,
1f2
== -¢ e quindi:
da cui, per le differenze tra previsori, si ha:
tenendo conto che Xt(O) == Xt, X t (- l ) == Xt-l. Ora, se scriviamo la precedente equazione per I! == 1,2, ... ,k e sommiamo si ottiene: k
Xt(k) - Xt - kJL == (Xt - Xt-l - JL)
L ¢£ £=1
da cui
13.2 Previsioni can modelli ARIMA
263
che al crescere di k si dispone secondo una retta di coefficiente angolare pari a u: Modelli a somma mobile MA(q). In questo caso i pesi ~j sono dati direttamente dai -()j, e quindi si annullano per j > q. Pertanto Xt(R) == 0 per R > q, cioe il condizionamento ai dati passati non ha effetto se l'orizzonte supera l'ordine q. Per esempio per un MA(l) otteniamo X t (l ) == -()Et, X t (2) == 0 e cosl via, ed in genere conveniente calcolare le previsioni basandosi sulle stime degli urti. Modelli a somma mobile integrati A RIMA (O,d,q). Poiche Ie differenze (1B)d X, seguono un modello a somma mobile di ordine q, per orizzonti maggiori di q avremo (1 - B)d Xt(f) == 0, quindi la forma polinomiale di grado d - 1, che si raggiungeva asintoticamente nel caso autoregressivo, qui si raggiunge esattamente per R > q. Un caso particolarmente rilevante si ha per il modello
e
ARIMA(O, 1, 1):
Xt
-
X t - 1 ==
ct - ()ct-1 .
Scrivendolo per l'istante t + R e prendendo le medie condizionate, ricordando che E(Ct+flxt) == 0 se f > 0, avremo:
Pertanto le previsioni per tutti gli orizzonti sono costanti. Questo modello si comporta in modo particolare nell'aggiornamento delle previsioni. Poiche X t- 1(f) == Xt-1 - ()Et-1 e Xt(f) == Xt - ()Et, tenendo conto anche che Xt == Xt-1 + Et - ()Et-1 si ha:
quindi l'aggiornamento nel passare dalla origine t - 1 alla origine t avviene sommando una quota (1 - B) dell'errore di previsione osservato. Be vogliamo esprimere il previsore in funzione dei dati possiamo calcolare i pesi 7fj del polinomio II(B) == q>(B)8(B)-1, scrivendo q>(B) == 8(B)II(B) ed eguagliando i coefficienti di pari grado in B: poiche in questo caso q>(B) == 1 - B e 8(B) == 1 - BB si ha:
1 - B == (1 - ()B) (1 - 7f1B - 7f2B2 - ...) da cui
-1 == -B
o == ()7fj-1 Ne segue che
7f1
termini di grado 1 in B
-7f1
== 1 - (),
7fj 7fj
> 1 in B .
termini di grado j
== ()7fj-1 == ... == (1 -
())()j-1
Xt(R) == X t (l ) == (1 - ())Xt + (1 - ())()Xt-1 + (1 -
e dalla (13.7):
())()2 Xt_2
+ ...
II previsore e una media con pesi esponenziali (la somma dei pesi e pari a uno) delle osservazioni precedenti. Questa forma corrisponde al modello detto
264
13 Previsioni per processi stazionari
di livellamento esponenziale (exponential smoothing, 0 anche EWMA) che riprenderemo anche nel seguito. Modelli misti ARIMA(p, d, q). II comportamento del previsore e essenzialmente determinato, al crescere dell'orizzonte, dalla struttura autoregressiva, con l'eccezione dei previsori per i primi q orizzonti, sui quali incide anche la parte a somma mobile. Ad esempio per un ARMA(I, 1) il previsore a orizzonte uno e mentre per gli orizzonti da due in poi si riprende l'andamento esponenziale tipico dell'AR( 1): Se il processo eintegrato si avra anche in questo caso la convergenza all'andamento di fondo a seconda del grado di differenziazione. Segnaliamo la proprieta che per i modelli integrati (d > 0) la espressione (13.7) che descrive il previsore come combinazione lineare dei dati precedenti (e previsori per orizzonti inferiori) e sempre una media esatta, poiche la somma dei pesi 7rj e pari a uno. Infatti II(B) == q>(B)8(B)-1 e se q>(B) contiene un fattore (1 - B)d ha radici unitarie, percio q>(I) == O. Ne segue:
L7rj == 00
II(I) ==
1-7r1-7r2 -
...
== 0
=?
1.
j=1
Serie trasformate. Se la serie viene sottoposta alla trasformazione di potenza di Box e Cox (paragrafo 10.5): Yt =
~(x~ a
1)
allora il modello ARMA sara costruito sui dati trasformati {Yt} e anche la previsione si riferira alla stessa serie, ovvero, con i metodi qui illustrati si otterranno i valori Yt (£). Per ritornare alle previsioni espresse in funzione delle osservazioni originali si puo applicare aIle previsioni la trasformazione inversa:
Anche se questo e il metodo pili naturale, e stato dimostrato (Guerrero, 1993) che si ottiene cosi un previsore distorto, come e facilmente comprensibile perche se f(x) non e lineare allora E{f(X)} i- f{E(X)}. E stata anche proposta la forma corretta seguente:
dove f3
Yt(£).
== a£1{II a+Yt(£)} e a£ e10 scostamento quadratico medio del previsore
13.2 Previsioni can modelli ARIMA
265
L Fig. 13.1. Previsioni per la serie D di Box e Jenkins can un modello AR(l)
Esempio 13.1. 0 ltre a calcolare il valore numerico delle previsioni, risulta spesso chiarificatore disegnare un grafico in cui, assieme agli ultimi valori noti della serie, vengono riportate le previsioni con l'origine posta nell'ultimo dato conosciuto, e orizzonte crescente. Assieme al valore del previsore viene riportato l'intervallo di confidenza a livello 0.95 (a volte a livelli inferiori), ottenuto sommando e sottraendo alla previsione k O.025 volte il suo scarto quadratico medio, il che permette di valutare graficamente l'incertezza delle previsioni. Nella Fig. 13.1 sono riportate le previsioni effettuate con un modello AR(l) sulla serie D di Box e Jenkins (1970), relativa alla viscosita in un processo chimico. Come si vede, il previsore tende rapidamente alla media della serie. Notiamo la considerevole ampiezza dell'intervallo di confidenza, determinato dalla capacita esplicativa relativamente modesta del modello (R2 pari a circa 0.7). Nella Fig. seguente 13.2 sono riportate le previsioni per i consumi di acqua registrati a New York, anni 1898-1968. Ana serie e adattato un modello ARIMA(O, 1,3) incompleto:
(1 - B)Xt == 2.23 + Et
- 0.36Et-3
e si vede che dopo i primi tre orizzonti le previsioni si dispongono secondo una retta di coefficiente angolare pari a 2.23. I grafici delle figure 13.3a e 13.3b riportano le previsioni effettuate sulla serie C di Box e Jenkins (1970) effettuate con i due modelli alternativi identificati da questi autori, un ARIMA(l, 1,0) e un ARIMA(O, 2, 2) come si vede i risultati sono molto simili. Nella Fig. 13.4 compaiono le previsioni per la serie delle macchie solari, che presenta una pseudo-periodicita con un ciclo di 10-11 anni. Si e adattato un AR(2) e le previsioni mostrano l'andamento sinusoidale smorzato. Infine nella Fig. 13.5 e riportata la serie, anch'essa presa spesso come riferimento, dei passeggeri su
266
13 Previsioni per processi stazionari
/ Fig. 13.2. Previsioni per la serie del consumo idrico a New York con un modelIo J\ftI11J\(O,1,3)
(a)
(b)
Fig. 13.3. Previsioni per la serie C di Box e Jenkins. (a) modelIo AftI11A(l,l,O) (b) modelIo AftIMA(O,2,2)
linee aeree internazionali rilevati mensilmente dal 1949 al 1960 (serie G di Box e Jenkins, 1970), che presenta forte trend e stagionalita, ed eben adattata da un modello ARIMA(O, 1, 1) x (0,1,1)12:
(1 - B)(l - B 12)Xt == (1 - 0.4B)(1 - 0.61B 12 ) Et
.
Le previsioni seguono sia I'andamento crescente sia le caratteristiche stagionali della serie.
13.3 Previsioni con metodi adattivi La previsione con modelli della classe ARIMA e attualmente la procedura avanzata pili diffusa per la previsione di serie temporali univariate nelle situazioni in cui si disponga di una sufficiente capacita di analisi statistica e
13.3 Previsioni can metodi adattivi
toO tot t04 to6 to3 tlO tlt t14
us
tl3 ttO
ttt tt4
ns m
t30 tU tH t36
m
t40 t4t t44 t46 t43
m m
ts4
rss m
HO t6t H4
267
tss H3 m
Fig. 13.4. Previsioni per la serie delle macchie solari can un modello AR(2)
Fig. 13.5. Previsioni per la serie dei passeggeri delle linee aeree can un modello ARIMA(O, 1, 1) x (0,1,1)12
computazionale, e non siano disponibili conoscenze a priori 0 teorie sul fenomeno esaminato, che guidino la scelta verso modelli con maggior contenuto interpretativo. Nel caso che non si verifichino queste due condizioni, sono ovviamente disponibili altri metodi di previsione statistica, tra i quali vedremo alcuni esempi particolarmente rilevanti: esamineremo in particolare alcuni metodi detti adattivi (exponential smoothing, Holt-Winters) che sono caratterizzati da scmplicita e immediatezza di uso e sono suscettibili di applicazione automatica e routinaria, anche se la loro precisione non e in genere comparabile con gli ARIMA. Parleremo anche dei modelli cosiddetti strutturali (Harvey,
268
13 Previsioni per processi stazionari
1990), che possono essere considerati come una sintesi risultante dall'applicazione della teoria economica e degli sviluppi dei processi aleatori. Vedremo anche come in realta questi modelli possano essere considerati sostanzialmente come particolarizzazioni degli ARIMA. I metodi di tipo adattivo (0 perequativo) sono adeguati quando sia necessaria una previsione per la Quale la rapidita e facilita di calcolo sono elemento pili importante dell'accuratezza. Un esempio e la gestione di un magazzino di parti di ricambio in cui si debbano prevedere i livelli di centinaia 0 migliaia di articoli, a orizzonte breve e frequentemente (Granger, 1980). La logica che viene seguita in questi metodi e che esiste un livello medio da prevedere, che esso puo essere occasionalmente rna lentamente variabile, e che per seguirne I'evoluzione si utilizzano le informazioni pili recenti combinandole linearmente con i dati storici. In altri termini, cia che si prevede e un livello stabile e costante per la serie (che quindi e valido per ogni orizzonte) e all'arrivo di ogni nuovo dato l'informazione viene compenetrata con le precedenti, che sono sintetizzate dalla previsione stessa. Siano (Xl, X2, ... , XN) i dati, e P N la previsione effettuata usando i dati fino all' N -mo, e che e valida per tutti gli istanti successivi, quindi per ogni orizzonte k la previsione risulta X N (k) == PN , k == 1,2, .... Nel momento in cui si viene a conoscere il dato XN+I, la previsione viene modificata combinando linearmente la previsione precedente PN con il nuovo dato XN+I: PN+I
==
aXN+I
+ (1 -
(13.10)
a)PN
dove a e un coefficiente compreso tra 0 e 1 il cui valore bilancia l'importanza dell'andamento storico con quello della informazione pili recente. Questo metodo viene chiamato livellamento esponenziale (exponential smoothing) e permette l'aggiornamento iterativo della previsione, adattandola alla evoluzione della serie man mana che essa viene rilevata. Sostituendo nella (13.10) successivamente PN == aXN + (1 - a)PN-I, PN-I == aXN-I + (1 - a)PN-2 e cost via, si ottiene: PN+I
==
aXN+I
+ a(l
- a)xN
+ a(l - a)2 x N_ I + ... + a(l - a)kxN+I_k + (1 -
a)k+lpN_k .
Al crescere di k, il termine (1 - a )k+l tende a zero e possiamo quindi scrivere (sostituendo taN + 1 per omogeneita rispetto ai paragrafi precedenti)
L (1 00
Pt
==
aXt
+ a(l -
a)Xt-1
+ ... + a(l -
a)kxt_k
+ ... == a
a)kxt_k .
k=O
La formula precedente esprime la previsione come media aritmetica ponderata dei dati fino all'origine con pesi pari alle potenze successive di (I-a) (il fattore a enecessario perche ela somma dei pesi sia uno). Per questo motivo il metoda viene chiamato anche EWMA (media mobile ponderata esponenzialmente).
13.3 Previsioni con metodi adattivi
269
Se consideriamo un orizzonte unitario, l'errore di previsione si scrive et == e la previsione (13.10) puo essere scritta in funzione dell'errore di previsione ponendo Xt+1 == et + Pt: Xt+1 - Pt
Pt+l
== Pt + aet
che mostra come la previsione evolva aggiustandosi con una proporzione a dell'errore di previsione appena questo e rilevato. La procedura dipende dalla scelta del parametro di livellamento a: un valore di a vicino a zero indica che i dati pili recenti hanno una influenza limitata rispetto al com plesso delle informazioni storiche, e quindi la previsione si adatta lentamente ad eventuali cambiamenti nel comportamento della serie. Valori di a pili vicini a uno indicano invece una minore inerzia e una maggiore velocita nell'incorporare in Pt le informazioni pili recenti, poiche i pesi a(1 a)k decrescono pili rapidamente. La scelta del valore di a puo essere effettuata con metodi statistici, ad esempio scegliendolo in modo da rendere minimo l'errore quadratico medio di previsione osservato su un tratto iniziale della serie. Tuttavia spesso, e in coerenza con Ie caratteristiche di semplicita e immediatezza di questo metodo di previsione, a viene scelto empiricamente sulla base di considerazioni a priori sulla rapidita di evoluzione della serie. La gamma di valori pili usati va da 0.3 a 0.7. E necessario anche scegliere un valore iniziale per innescare la procedura iterativa, si pone di solito PI == Xl, e l'effetto del valore iniziale tende a scomparire al crescere di t. Come abbiamo visto al paragrafo precedente, la previsione effettuata con il metodo dell'exponential smoothing coincide con il previsore di un modello a somma mobile del primo ordine integrato ARIMA(O, 1, 1) con parametro () == (1 - a). Ne possiamo dedurre che questo metodo ha la proprieta di previsore lineare ottimo se applicato a un processo ARIMA(O, 1, 1), e in tal caso il valore da attribuire al coefficiente di livellamento e determinato dalla stima del parametro a somma mobile. Se la serie proviene invece da processi di struttura diversa, questo metodo non fornisce le previsioni lineari a errore quadratico medio minimo. La impostazione adattiva estata estesa anche per trattare serie che presentano trend e/o stagionalita, portando a un metodo di previsione pili articolato, riferito generalmente ai nomi di Holt e Winters. Nel caso si vogliano prevedere serie con trend rna senza stagionalita la previsione e effettuata secondo una retta che origina al livello medio, iii, previsto sostanzialmente come prima, e cresce secondo un coefficiente angolare c il cui valore eanch'esso costantemente aggiornato: (13.11)
e
Per calcolare il livello medio iii, si usa una equazione analoga al caso precedente: se si conoscono i dati fino al tempo t - 1, la previsione per l'istante t sara mt-l + Ct-l, come dalla (13.11). Questo valore viene ponderato con il dato Xt quando questo viene rilevato, e la combinazione lineare fornisce la nuova previsione del livello medio:
270
13 Previsioni per processi stazionari mt == aXt
+ (1 -
a)(mt-l
+ Ct-l)
.
(13.12a)
A sua volta, anche la stima (0 previsione) della pendenza c; viene adeguata ai valori osservati man mana che se ne viene a conoscenza: all'arrivo del dato t-mo il coefficiente angolare puo essere aggiornato, usando come valutazione corrente la differenza tra i due livelli medi attuale e precedente: iii, - iiu..« (che e l'inclinazione del segmento congiungente iii; a mt-l poiche la loro distanza in termini temporali e pari a uno): (13.12b) Le (13.12a) e (13.12b) permettono l'aggiornamento congiunto dei parametri della retta (13.11) che costituisce la previsione con il metodo di Holt e Winters. Qui i coefficienti di livellamento da scegliere sono due: a e (3, che riguardano separatamente il livello e la pendenza, e per la scelta dei quali si possono ripetere considerazioni analoghe al caso precedente. La effettiva costruzione delle previsioni avviene in modo iterativo, basandosi su valori iniziali di m2 e C2 che potrebbero essere posti semplicemente uguali ai primi dati: m2 == X2, C2 == X2 - Xl, oppure stimati adattando una retta a un sottoinsieme di dati iniziali. E stato dimostrato che il previsore generato dalla (13.11) risulta ottimo nel senso dell'errore quadratico medio di previsione se la serie proviene da un modello ARIMA(O, 2, 2). Una ulteriore estensione permette di tener conto della stagionalita, considerando una previsione che segue una retta con termini correttivi additivi (0 anche moltiplicativi) di natura stagionale. Supponiamo per fissare le idee che la serie sia rilevata mensilmente: allora oltre al livello medio iii; e al coefficiente angolare Ct, costantemente aggiornati, si calcolano anche dodici pesi stagionali Sj (uno per ogni mese) e ciascuno di essi viene aggiornato quando si osserva un dato del relativo mese. La previsione basata sui dati fino al tempo t si scrive: Xt(f)
==
mt
+ Ct f + St(f)
dove St(f) e l'ultimo peso stagionale calcolato relativo al mese analogo a t + f: quindi St(f) == St+£-l2 se 1 :::; f :::; 12, St(f) == St+£-24 se 13 :::; f :::; 24 e cosi via. Vediamo adesso gli aggiornamenti: le equazioni per il livello e la pendenza rimangono sostanzialmente analoghe, anche se nel calcolare il livello si deve eliminare I'effetto della variazione stagionale, e quindi come informazione corrente si usera il dato Xt dopo avergli sottratto la pili recente stima del peso stagionale, cioe St-l2:
+ (1 - a)(mt-l + Ct-l) Ct == (3(mt - mt-l) + (1 - (3)Ct-l .
iii; == a(Xt -
St-l2)
E necessario anche aggiornare i pesi
stagionali, attraverso una combinazione line are del valore precedente St-l2 con la valutazione derivante dalla osservazione al tempo t: essa puo essere assunta pari alla differenza tra il dato effettivo x, e illivello medio tru:
13.4 Previsioni con modelli strutturali
271
Fig. 13.6. Serie rappresentata da un modello ARIMA(l,l,O). Confronto tra previsioni Holt- Winters (linea continua) e previsioni ARIMA (linea tratteggiata)
Le tre equazioni permettono il calcolo iterativo delle previsioni evolvendo le valutazioni del livello medio, della pendenza e delle variazioni stagionali. In questo caso devono essere scelte tre costanti di livellamento, a, (3, r, e per avviare la ricorsione e necessario inizializzare sia iii; sia c-, sia avere dodici pesi iniziali 81, ... ,812 che possono essere stimati su un tratto iniziale della serie.
Esempio 13.2. Consideriamo una serie con trend crescente, ben rappresentata da un modello ARIMA(l, 1,0): (1 - 0.8B)(1 - B)Xt
== 0.03 + ct
e costruiamo le previsioni (ad orizzonte crescente fino a 20) sia con il modello ARIMA (linea tratteggiata) sia con il metodo di Holt e Winters dato dalla (13.11) (linea continua). Come si vede nella Fig. 13.6, il metodo adattivo ha estrapolato una retta con pendenza sostanzialmente determinata dagli ultimi dati, mentre Ie previsioni ARIMA si dispongono rapidamente su una retta il cui coefficiente angolare edeterminato dai parametri del modello (e 0.03/(10.8) == 3/20) che risentono del comportamento dell'intero insieme dei dati.
13.4 Previsioni con modelli strutturali Presentiamo qui una esposizione sommaria della problematica dei modelli strutturali che trovano largo uso negli studi economici, il cui sviluppo sta-
272
13 Previsioni per processi stazionari
tistico e dovuto principalmente ad Harvey, ai cui contributi si rimanda per approfondimenti (Harvey, 1990). La genesi di tali modelli e da farsi risalire alla controversia, che per molti anni ha acceso un appassionato dibattito in campo economico ed econometrico, tra previsioni basate solo sui dati, e quindi costruite secondo procedimenti statistico-probabilistici poggiati su un insieme minimo di ipotesi (come la impostazione ARMA), e procedimenti che fanno invece affidamento su assunzioni pili precise relative all'andamento dei fenomeni, originate dalla teoria economica. I modelli strutturali rappresentano un tentativo di sintesi, poiche si fondano su assunzioni precise relative aIle determinanti del fenomeno, rna incorporano anche componenti aleatorie definite in modo formale e probabilisticamente corretto, che permettono un trattamento inquadrabile nel solco della metodologia che abbiamo fin qui tracciato. Si vedra ben presto, peraltro, che i modelli strutturali si rivelano sostanzialmente particolari modelli ARIMA, e quindi la impostazione strutturale puo esser riguardata come una particolare forma di identificazione del model10 ARIMA, basata su una teoria a priori piuttosto che sulle proprieta stimate della serie analizzata. A seconda della natura e dell'andamento delle determinanti ipotizzate per il fenomeno {Xt } , si distinguono vari tipi di modelli strutturali, tra i quali accenniamo ai pili semplici. Madella a livello locale. II fenomeno tende a disporsi secondo un livello costante, rna soggetto a variazioni casuali, e i valori rilevati risentono anche di ulteriori componenti accidentali. Possiamo scrivere:
J-Lt ==
J-Lt-l
+ TIt
dove {Et} ed {TIt} sono due processi rumore bianco, indipendenti e con varianza rispettivamente e a~, illoro rapporto a~ (detto rapporto segnale-errore) indica in un certo senso la persistenza dellivello locale, poiche se esso e piccolo allora i valori degli TIt sono trascurabili, J-Lt ~ J-Lt-l e il processo oscilla attorno a un livello costante, mentre se e molto grande allora gli Et sono trascurabili, X; ~ J-Lt e il processo tende a comportarsi come una passeggiata aleatoria. Se consideriamo le differenze prime Zt == X; - X t - 1 otteniamo:
a;
Zt
/a;
== (1 - B)Xt == (1 - B)J-Lt + (1 - B)Et == TIt + Et -
Et-l .
Data l'indipendenza tra {TIt} ed {Et} si ottiene facilmente:
Pertanto l'autocorrelazione si annulIa oltre il ritardo 1, e il processo ha la struttura di una ARIMA(O, 1, 1). Pili precisamente, possiamo dire che, dato un processo che segue un modello strutturale a livello locale, esiste un processo ARIMA(O, 1, 1) che ha le medesime autocorrelazioni (e quindi i medesimi
13.4 Previsioni con modelli strutturali
273
previsori lineari). Notiamo pero che non tutti i processi ARIMA(O, 1, 1) sono interpretabili come modelli strutturali a livello locale, poiche, qualunque siano a; e a~, si avra sempre
che corrisponde a valori del parametro () della somma mobile compresi tra zero e uno, rna non negativi. Percio la classe dei modelli strutturali a livello locale corrisponde a una sottoclasse degli ARIMA (0, 1,1). Madella a trend lineare locale. In questo caso supponiamo che il livello medio abbia una tendenza misurata da una inclinazione che subisce anch'essa variazioni aleatorie. Quindi sempre X, == ILt + e, rna il livello ILt subisce un incremento: ILt == ILt-1 + Ct + T/t
e l'incremento stesso
e guidato da un Ct
==
processo markoviano:
Ct -1
+ (t
.
Si assume che {ft}, {T/t} e {(t} siano processi rumore bianco indipendenti tra loro. Anche in questo caso si puo pervenire a un'espressione complessiva per {Xt}, detta forma ridotta, considerando le differenze seconde: W t == (1 B)2 Infatti:
x..
Wt == (1 - B)2 X t == (1 - B)2 ILt
+ (1 -
B)2 f t ==
== (1 - B)Ct + (1 - B)T/t + (1 - B)2 f t == == (t + (1 - B)T/t + (1 - B)2 ct . Si verifica facilmente che il processo {Wt } ha autocorrelazioni nulle per ritardi maggiori di due, pertanto {X t } ha la struttura correlativa di un processo ARIMA(O, 2, 2). Anche in questo caso i processi ARIMA(O, 2, 2) che corrispondono a modelli con trend locale sono un sottoinsieme di tutti quelli invertibili, poiche per qualunque scelta di a;, a~, a~ si puo dimostrare che valgono sempre Ie condizioni -2/3 < r(1) < 0 e 0 < r(2) < 1/6. Madella strutturale di base (BSM). Oltre alle componenti precedenti, si prende in considerazione anche la stagionalita. Essa viene descritta attraverso pesi stagionali che vengono sommati a ciascun dato, come nel modello classico di decomposizione, rna supponiamo che anche la stagionalita risenta di perturbazioni aleatorie, percio se sommiamo i pesi relativi a un intero anna non si ottiene zero, rna un elemento di un processo rumore bianco: se anche qui supponiamo la rilevazione mensile, il processo e descritto da:
X t ==
/-Lt
+ St + ft
274
13 Previsioni per processi stazionari
dove, come prima, ttt
== ttt-l + Ct + T)t
Ct
==
Ct-l
+ (t
e per le stagionalita: St
dove
+ St-l + ... + St-ll == Vt
eun
rumore bianco indipendente da {Et}, {T)t} e {(t}. Notiamo che 12)St; B)Vt == (1 - B si giunge alla forma ridotta applicando simultaneamente Ie differenze prime e dodicesime. Posto {Vt}
Vt - Vt-l
== s, - St-12, ovvero (1 -
Wt == (1 - B)(l - B 12 )X t == X t
-
X t-
1-
X t-
12
+ X t - 13
otteniamo: Wt == (1 -
B 12)Xt ==
B)(l -
== (1 - B)(1 - B 12 )JLt + (1 - B)(1 - B 12 ) St + (1 - B)(1 - B 12 )Et == == (1 - B 12 ) (Ct + T)t) + (1 - B)2 Vt + (1 - B)(l - B 12 )Et . Tenendo conto che
ct
(1 - B
12
== Ct-l )Ct
+ (t
== Ct -
segue
Ct-12 == (t
+ (t-l + ... + (t-ll
.
Si deduceche W t e espresso come combinazione lineare di rumori bianchi con ritardo massimo 13, pertanto la sua autocorrelazione sara nulla per ritardi maggiori di 13. In conclusione Wt == (1- B)(l- B 12)Xt ha la struttura correlativa di un MA(13). Anche qui, non tutti i MA(13) invertibili corrispondono a modelli BSM, poiche per questi ultimi, quali che siano le varianze degli urti, valgono Ie condizioni r(h) > 0, h == 2,3, ... ,11, r(12) < 0, r(13) > 0, proprieta che comportano una restrizione sui valori dei parametri e. II modello implicato non e quindi moltiplicativo, tuttavia si puo argomentare (Harvey, 1990, p. 73) che non e molto diverso da un modello "airline" (0,1,1) x (0,1,1)12 almeno quando a~ e a~ sono piccole. Una ulteriore estensione dei modelli strutturali e la possibile introduzione di una componente ciclica; inoltre e possibile aggiungere facilmente l'effetto di altre variabili se si ritiene che possano influenzare il fenomeno, in una logica analoga a quella dei modelli a funzione di trasferimento. Osserviamo infine che nella forma strutturale Ie equazioni descrivono generalmente le componenti come processi markoviani, e cio rende questi modelli particolarmente adatti al trattamento nello spazio degli stati, che introdurremo nel prossimo paragrafo.
13.5 La previsione nello spazio degli stati e il filtro di Kalman Abbiamo visto in precedenza come un processo discreto in tempo discreto, rna non markoviano, puo essere rappresentato come una catena di Markov
13.5 Spazio degli stati e filtro di Kalman
275
ampliando il concetto di stato della catena, fino a indicare non solo il valore corrente, rna anche valori passati del processo. La stessa logica puo essere estesa a processi con valori continui, cercando di individuare un vettore di informazioni che sintetizzi, a ogni istante t, tutte le caratteristiche correnti del processo, di modo che il suo valore all'istante t + 1 dipenda solo da esse e da fattori da esse indipendenti. L'idea quindi e di pass are dal processo univariato {Xt } a un processo multivariato {at} che ingloba in se tutte Ie caratteristiche di {Xt}, e gode della propreta markoviana, di modo che at+1 e dato dalla combinazione lineare di at e di un termine aleatorio indipendente da at. Non possiamo pero ipotizzare di poter rilevare completamente il vettore di stato a a ogni istante, rna dobbiamo contentarci di pensare che quanto possiamo osservare, cioe Xi . sia solo una parte dell'intero stato at, e che possano eventualmente intervenire anche perturbazioni aleatorie nella osservazione. Percio ipotizziamo che il dato rilevato sia ottenuto da una combinazione lineare degli elementi del vettore di stato at, a cui si somma un disturbo aleatorio anch'esso indipendente da at e dalle precedenti osservazioni. Con queste assunzioni semplificatrici, rna che hanno il pregio della linearita, si formula 10 schema generale del modello nello spazio degli statio Sia at == (a1t,a2t, ... ,amt)' un vettore aleatorio am dimensioni, {''It} == {("l1 t, ... , "lkt)'} un rumore bianco vettoriale a k dimensioni con matrice di dispersione ETJ - il cui elemento alla riga i e colonna j e Cov{ "lit,"ljt} -, sia {Et} un rumore bianco (univariato) indipendente da {''It} e siano infine Tuna matrice m x m, R una matrice m x k, H un vettore 1 x m, tutti costanti. II modello nello spazio degli stati consta di una equazione di transizione che descrive 10 stato al tempo t in funzione lineare del suo valore precedente e del rumore bianco {''It}: (13.13) e una equazione di misura che specifica la relazione tra l'osservazione e 10 stato: (13.14) X t == H at + Et . Si verifica facilmente che il processo degli stati {at} e markoviano, e questo comporta una serie di conseguenze notevoli per Ie sue caratteristiche. Se aggiungiamo le ipotesi di distribuzione normale, diventa relativamente facile calcolare i previsori come media condizionata. In realta, sulla base di una serie storica osservata, non e possibile calcolare Ie previsioni della serie, senza effettuare previsioni (ovvero stime) anche dello stato, perche questo, come gia detto, non e osservabile. Kalman (1960) ha sviluppato una procedura iterativa per calcolare le previsioni (della serie e dello stato) in modo che ricorsivamente, man mana che si rilevano nuovi dati, esse possano esser facilmente aggiustate; con una procedura di questo tipo e anche possibile stimare i parametri del modello (matrici T, H, E TJ, e a;) e anche ricostruire dati mancanti all'interno della serie, come verra accennato alla fine di questo paragrafo. II complesso di queste procedure va sotto il nome di jiltro di Kalman, e adesso ne esporremo sommariamente
276
13 Previsioni per processi stazionari
alcuni elementi. Una esposizione pili completa e articolata si puo trovare ad esempio in Harvey (1990). L' assunzione di partenza e la norrnalita dei dati, che implica la linearita delle medie condizionate, e quindi la possibilita di applicare il risultato fondamentale della teoria della previsione (il previsore ottimo e dato dalla media condizionata della variabile da prevedere dato l'insieme di informazioni a disposizione) anche alle equazioni di transizione e di misura. Ovviamente, se applicati a processi non gaussiani, i risultati avranno ottimalita limitata solo alla classe delle procedure basate su combinazioni lineari. Avvertiamo che la teoria dei modelli nello spazio degli stati e del filtro di Kalman e sviluppabile in un contesto di pili ampia dimensione, in cui 10 stesso processo osservabile {Xt } puo essere multivariato, mentre qui verra trattato i1 caso pili semplice in cui la equazione di misura e scalare. Un'altra possibile estensione prevede che le matrici di costanti T, H, R varino anch'esse con il tempo t. Nell'andare a considerare le medie condizionate, si deve sempre ricordare che anche 10 stato at e una variabile non osservata, e quindi la sua media condizionata non degenera rna rimane una variabile aleatoria con dispersione strettamente positiva anche data l'osservazione al tempo t. Useremo la notazione comune nell'ambito del filtro di Kalman che e pero lievemente diversa da quella usata finora. In cio che segue va sempre ricordato che at e un vettore. Se supponiamo di prendere come origine l'istante t, e indichiamo sempre con x' == (Xt , X t - 1 , X t - 2 , ... ) l'insieme delle variabili gia realizzate e osservate, per effettuare previsioni sara necessario considerare 10 stato at+l e la sua distribuzione condizionata a x', che data la normalita sara una combinazione lineare delle X t - j , j == 0,1, ... e quindi normale (multivariata) anch'essa: indicheremo con at+llt la sua media: t} at+llt == E{ at+lIX . L'errore quadratico medio di previsione dello stato sara dato dalla matrice di dispersione del vettore degli errori at+ 1 - at+11t che e uguale alla dispersione della distribuzione condizionata di at+l dato x', e viene indicata con Pt+llt:
Pt+1l t == V ar{ at+lIXt} . La previsione del dato X t + 1 puo essere ricavata subito prendendo la media condizionata nella (13.14):
X t(1) == H at+llt .
e
L'errore di previsione dunque et+l == X t+ 1 - X, (1) == X t+ 1 - H at+llt, la sua media e nulla e la sua varianza si puo scrivere (ricordando l'indipendenza tra le X e Ie E):
St+l == E{(Xt+1
-
Hat+ljt)2Ixt} ==
== E{[Et+l + H(at+l - at+llt)]2Ix t} == == H Pt+11tH' + 0'2
13.5 Spazio degli stati e filtro di Kalman
dove
== 0-2
0-
2
e la
277
varianza del disturbo casuale nella equazione di misura: E(E;)
(2).
II valore della stato al tempo t + 1 e determinato dal disturbo 7]t+l, che e imprevedibile poiche non dipende da x-, e dallo stato precedente at, che non e "osservato" rna possiamo prevedere (0, se si vuole, stimare) condizionandolo ai dati a disposizione: in questo modo, passando dalla tappa intermedia della stima della stato corrente, possiamo sperare di semplificare la procedura previsiva: in realta questa si rivela I'idea chiave del filtro di Kalman. La distribuzione di at condizionata a x' e anch'essa normale, ne indichiamo la media con a(t) e la matrice di varianze e covarianze con P(t). II legame tra queste quantita e le precedenti si ricava facilmente prendendo la media condizionata su ambo i membri di at+1 == Tat + RT/t+l:
Pt+l/t == TP(t)T' + RETJR' .
at+Ilt == Ta(t)
(13.15)
Cercheremo ora di costruire una procedura ricorsiva per la previsione del10 stato, esprimendo il previsore at+Ilt in funzione del previsore al tempo precedente atlt-I' Cia e possibile perche atlt-I == E{ at IX t - l } si puo legare linearmente ad a(t) == E{atIXt} attraverso il condizionamento ulteriore al dato Xt. Infatti, poiche X t == (X t - I , Xt) possiamo scrivere:
Ricaveremo ora questa media partendo dal considerare la distribuzione congiunta di at e X, condizionata a xt-I. Per far questo scriviamo:
at == atlt-I
+ (at
X t == Hatlt-I
- atlt-I)
+ H(at
- atlt-I)
+ Et
dove at e X, sono espresse come combinazione lineare delle due variabili at/t-I e (at - atlt-I)' Ora, condizionando a Xt-I, la atlt-I e una costante, mentre at - atlt-I e normale con media zero e matrice di dispersione Ptlt- I . Ne segue che la distribuzione condizionata di (at, X t ) e normale multipla con medie atlt-I e H atlt-I, e varianze e covarianze date da:
Var(atl x t- I) == Pt1t- 1 Var(XtIX t- l ) == Vori Hcx; Cov( at, X, \X t -
I
)
+ Etl x
t- I )
==
HPtlt-IH'
== E{ (at - atlt-I) [(at - atlt-I)' H' == Pt1t-IH' .
+ 0-2
+ Et] Ixt - I }
Ora, ricordiamo la regola delle variabili gaussiane condizionate: la distribuzione di (AlB == b) e normale con media e varianza date da: 2
Si faccia attenzione che nel nostro caso Ie St, pur essendo espresse con la Iettera maiuscola (per uniformita con Ia notazione pili diffusa) sono scalari e non matrici.
278
13 Previsioni per processi stazionari
E(AIB == b) == E(A)
+ Cov(A, B)Var(B)-l{b -
E(B)}
Var(AIB == b) == Var(A) - Cov(A, B)Var(B)-lCov(B, A) . Identificando A con atlXt-l e B con XtlXt-lsi ottiene:
E(atl x t) == E(atI X t- l )+
+ Cov(at, XtlX t- l )Var(Xt IX t- l )-l{Xt -
E(Xt IX t- l)}
Var(atI X t) == Var(atI X t- l)- Cov(at, XtlX t- l )Var(Xt IX t- l )-lCov(Xt, atI X t- l) da cui:
+ Ptlt-lH'(HPtlt-lH' + a 2)-1(Xt - Hatlt-l) == Pt1t- l - Ptlt-lH'(HPtlt-lH' + a 2)- 1HPt1t- l .
a(t) == atlt-l P(t)
Usando la definizione dell'errore di previsione che abbiamo introdotto:
si puo anche scrivere:
a(t) == atlt-l
+ Ptlt-lH' S;let
P(t) == Ptlt-l - Ptlt-lH' s;' H Pt1t- l
(13.16)
e infine, utilizzando lc (13.15) che forniscono at+llt in funzione di a(t), si ottengono Ie formule ricorsive del filtro di Kalman:
at+llt == Tatlt-l
+ T Ptlt-lH' S;let
Pt+ll t == T(Pt1t- l - Ptlt-lH' s;' H Pt1t-l)T' + RErJR' . La ricorsione viene generalmente scritta in funzione della matrice K, detta guadagno di Kalman: diventando:
at+llt == Tatlt-l + Kie, Pt+l 1t == T Ptlt-lT' - KtStK~ + RErJR'
(13.17)
che illustra come Ia previsione per 10 stato si modifica in funzione lineare dell'errore di previsione della serie et. Possiamo calcolare facilmente anche le previsioni per orizzonte f > 1 a partire dall'origine t. Infatti scrivendo la equazione di transizione (13.13) per l'istante t + f e condizionando a X t otteniamo: (13.18)
13.5 Spazio degli stati e filtro di Kalman
279
che comporta un errore di previsione at+£ - at+£lt == T(at+£-l - at+£-llt) RrJt+£, da cui per la varianza di previsione:
+
(13.19) Applicando ripetutamente queste relazioni si ottengono Ie quantita espresse in funzione dei previsori a orizzonte unitario: £-1
at+£lt == T £- l at+llt ,
n
Ft+£lt
n (T')£-l == T£-l Ft+1lt
+ '""'" ~ TjR" LiTJ R'(T')j j=O
con TO == I. Le corrispondenti previsioni per i dati si calcolano di conseguenza applicando la media condizionata alla equazione di misura (13.14):
Xt(R) == Hat+£lt == HT£-lat+llt V ar{ x, (R)} == H Pt+£ltH' £-1
== HT£-l Pt+l1t(T')£-1 H'
+L
HTj RETJR'(T')j H'.
(13.20)
j=O
In conclusione con un modello nello spazio degIi stati la previsione puo avvenire ricorsivamente, con aggiornamento ogni volta che si viene a conoscere un nuovo dato: sono pero necessari valori iniziali alia e PliO, oppure quelli non condizionati a(O) e P(O), rna se il processo e stazionario la loro influenza diminuisce progressivamente allo scorrere del tempo. Passiamo ora a discutere il problema di come utilizzare la impostazione nello spazio degli stati per costruire Ie previsioni relative ai modelli che abbiamo introdotto, si tratta cioe di esprimerli nello spazio degli statio Per i modelli strutturali questa operazione non presenta in genere grandi difficolta, dato che la loro forma e gia di tipo markoviano. In particolare, il modello a livello locale:
J-Lt == J-Lt -1
- .
rJt
e gia direttamente nella forma richiesta identifica__ido 10 stato ponendo T == 1, R == 1 e H == 1. II modello con trend lineare locale:
X t == J-Lt
+ Et
;
J-Lt == J-Lt -1
+ Ct + rJt
;
Ct
e caratterizzato
==
Ct-1
at
con J-Lt e
+ (t
a ogni istante, oItre che daI Iivello medio J.Lt, anche dalla pendenza, percio il suo stato li comprende entrambi: at == (J-Lt, Ct)'. Inoltre il vettore dei disturbi dello stato dovra contenere sia gli rJt sia gli (t: rJt == (rJt, (t)'. Percio l' equazione di transizione si puo scrivere:
[1 1] [J-Lt - 1] + [rJt](t
== [ J-Lt] Ct 01
Ct-l
280
13 Previsioni per processi stazionari
mentre l'equazione di misura risulta:
Percio i parametri risultano: H==[10]
[~n
R=I=
.
Infine, il modello strutturale di base (BSM) contiene le stagionalita, quindi 10 stato deve comprendere, oltre a !-Lt e a Ct, anche il coefficiente stagionale St. Ma questo dipende dai coefficienti precedenti, poiche, sempre considerando rilevazioni mensili, si assume che
+ St-I + St-2 + ... + St-II == Vt
St
.
Dunque s, dipende dagli undici coefficienti precedenti St-I, ... ,St-II, non solo dall'immediato precedente come avviene per !-Lt e per Ct. Ne deduciamo che 10 stato deve comprendere (almeno) undici coefficienti stagionali consecutivi. Se poniamo possiamo scrivere le equazioni strutturali nel modo seguente: 1 1 0 0 0 ... 0 1 0 0 0 ... 0 0 -1-1-1 ... 0 0 1 0 0 0 0 0 1 0 ...
!-Lt
Ct St St-I
000
St-IO
0
0
1
0 0 -1 0 0
!-Lt-I
(t
St-I
Vt
+
St-2
0
r]t
Ct-I
St-II
che rappresenta l'equazione di transizione ponendo
Inoltre, poiche X t ==
!-Lt
+ St + ct,
l'equazione di misura risulta: !-Lt
Ct St
X, == [1 0 1 0
0]
St-I
St-IO
Pertanto i parametri sono R == I e
+ ct
.
0
o
13.5 Spazio degli stati e filtro di Kalman
H==[1010
0];T==
11000 01000 o 0 -1 -1 -1 00100 0 0 0 1 0 ... 000
0
0
1
281
0 0 -1 0 0 0
Pili complicato e meno intuitivo e porre un modello ARIMA nella forma dello spazio degli stati: si possono proporre svariati metodi di procedere, che portano a rappresentazioni diverse. Per un modello puramente autoregressivo AR(p) e abbastanza naturale pensare che 10 stato comprenda p osservazioni consecutive: at ==
(Xt,Xt-l, ... ,Xt-p+l)'
e tenendo conto che X, == cPIXt-l + cP2Xt-2 + ... + cPpXt- p + ct si puo scrivere
cPl cP2 ...... cPP 1 0 0 0 0 1 0 ... 0
Xt X t- 1 X t- 2 X t- p+ 1
0 0 0
e l'equazione di misura
X t- 1 X t- 2 X t- 3
x.;
1 0
+
ct 0 0 0
e senza errore:
x,
Xt X t- 1 ==
[1 0 0 ... 0]
Xt-
2
Ma per i modelli misti 0 a somma mobile la costruzione non e cosl semplice, e si pone il problema, tra le molte possibilita, di scegliere la pili conveniente, che e ritenuta quella che ha 10 stato di dimensione minima. La questione e piuttosto complessa e legata alla estensione della "memoria" del processo. Un risultato importante (dovuto ad Akaike, 1974) che descriveremo pili in dettaglio e il seguente: un processo ARMA(p, q) puo essere rappresentato nello spazio degli stati con uno stato di dimensione max(p, q + 1) le cui componenti sono l' osservazione e i previsori a orizzonte crescente. In sostanza significa che i previsori di orizzonte da uno fino a max(p, q + 1)-1, insieme col dato corrente, racchiudono in se l'intero insieme di informazioni del passato che concorre a determinare le caratteristiche del processo a un certo istante. Supponiamo per semplicita che sia p 2: q + 1, in caso contrario ampliamo l'ordine autoregressivo aggiungendo parametri cPj uguali a zero, fino ad avere p == q + 1, e consideriamo il processo depurato dalla media Zt == X, - f-L e la sua rappresentazione di Wold:
282
13 Previsioni per processi stazionari 00
z, ==
L hkct-k k=O
II previsore a orizzonte f si puo scrivere come nella (13.1): Zt(f) == E {Zt+RIZ
t}
00
== L hR+uct-u u=O
Inoltre abbiamo gia visto la relazione tra i previsori dello stesso dato basati su origini successive:
Zt+l (f - 1) == E {Zt+RIZ
t+1}
00
00
== L hR+u- 1ct+l-u == hR-1ct+l + L hR+kct-k u=O
dove si
k=O
e cambiato l'indice di sommatoria ponendo k == u -
1. Ne segue (13.21 )
formula valida per ogni f > 1, e anche per f == 1 se poniamo Zt+ 1 (0) == Zt+ 1. Questa relazione puo essere utilizzata per la transizione da uno stato al successivo, rna ogni previsore e espresso in funzione di quello precedente con orizzonte superiore; per il previsore del pili grande orizzonte considerato e invece necessaria una formula che 10 esprima in funzione degli orizzonti inferiori. A questo fine viene in aiuto l'ipotesi che sia P > q, e quindi il previsore a orizzonte P segue, come sappiamo dalla (13.9), 10 schema autoregressivo: p
Zt(p) == LcPjZt(p-j). j=1 Sostituendo nella (13.21) scritta per f == p si ottiene: p
Zt+l(P - 1) == Zt(p)
+ hp- 1ct+l == L
j=1
cPjZt(p - j)+hp- 1ct+l .
In conclusione possiamo considerare 10 stato
e scrivere l'equazione di transizione:
Zt+l Zt+l (1) Zt+l (2) Zt+l(P - 2) Zt+l(P - 1)
0 0 0
1
0
0 0
1
0 0
0
1
0 0 0
0 0 0 o ... 1 cPP cPp-l cPp-2 ...... cPl
x
13.5 Spazio degli stati e filtro di Kalman
x
1
Zt Zt(l) Zt(2)
hI h2
+
Zt(p - 2) Zt(p - 1) Ovviamente l'equazione di misura
283
Et+l .
hp - 2 hp - l
e immediata, e senza errore:
Zt == (1,0,0, ... ,O)at . Pertanto i parametri di questa rappresentazione risultano: H == [1 0 . . . 0] R == [ 1 hI h2
T==
o o o
0 0
o
0
1
o
0
1
0
o 0
cPP cPp-l cPp-2
1
0
. . .
hp -
l ]'
o o o 1
cPl
e l'errore della stato e 'T/t = Et di dimensione uno. Abbiamo accennato come il filtro di Kalman possa essere di aiuto anche nella stima dei parametri: esso in particolare permette di calcolare, sotto l'ipotesi di normalita, la verosimiglianza dei dati, e quindi di applicare algoritmi di ottimizzazione per massimizzarla rispetto ai parametri. Se indichiamo genericamente con () l'insieme dei parametri, la verosimiglianza degli N dati (Xl, X2, ... , XN) si pUO scrivere:
L(Xl, X2,···, xNI()) == L(Xll())L(X21(), xl)L(X31(), Xl, X2) ... x x L(Xt+ll(), xt) ... L(XN I(), x N-1) dove come sempre x' == (Xl,X2, ... ,Xt). Ora, sotto l'ipotesi di norrnalita, L(xt+ll(), xt) e la densita di una gaussiana con media E(Xt+lIX t) == H at+llt e varianza St+l == H Pt+l1tH' + a 2 e quindi e uguale a:
Ne segue che la log-verosimiglianza dei dati si puo scrivere:
I parametri () sono naturalmente contenuti nelle quantita et e St, che possono essere calcolate rapidamente in modo ricorsivo con il filtro di Kalman; gli stimatori che si ottengono rendendo massima (con metodi numerici) la logverosimiglianza rispetto a () godono delle proprieta degli stimatori di massima
284
13 Previsioni per processi stazionari
verosimiglianza, inoltre questa impostazione si rivela particolarmente utile nell' ottica bayesiana. La logica del filtro di Kalman permette di calcolare abbastanza facilmente la distribuzione dello stato at condizionata non solo alle informazioni fino al tempo t - 1 oppure t, rna anche all'intero insieme di informazioni x N . Questa procedura (chiamata smoothing) puo essere utilizzata per ricostruire dati mancanti, 0 anche nella identificazione di dati anomali. In conclusione, possiamo dire che la rappresentazione nella spazio degli stati e l'utilizzo del filtro di Kalman costituiscono una impostazione alternativa alla modellistica tradizionale che trae la ragion d'essere dall'esigenza di previsioni "on line" 0 "in tempo reale" , rna puo fornire vantaggi anche in termini di stima 0 di ricostruzione di dati mancanti, a prezzo di una maggiore complicazione computazionale e a volte di una minore immediatezza interpretativa; i pregi di questa impostazione si apprezzano soprattutto quando si affronta 10 studio di processi multivariati.
13.6 La combinazione delle previsioni Abbiamo visto come sia possibile seguire diverse strade per costruire le previsioni, adattando modelli diversi. Tutti i metodi che abbiamo preso in considerazione assicurano la non distorsione delle previsioni, nel senso che sotto le adeguate ipotesi la media dell'errore di previsione e nulla. Per misurarne le prestazioni, e anche come criterio guida nella costruzione stessa dei previsori, abbiamo adottato l'errore quadratico medio che e largamente accettato come il criterio pili adeguato (anche se in alcuni casi, sempre pili rari, si fa ricorso all'errore medio assoluto). Pertanto i vari metodi di previsione possono essere confrontati in base al lora errore quadratico medio, e sembrerebbe naturale scegliere il metoda di previsione che assicura l'errore quadratico medio pili piccolo. A questo proposito sono pero rilevanti due osservazioni: prima di tutto, l'errore quadratico medio di un metodo non puo che venire stimato, e in genere questa stima e proprio un risultato del metoda stesso, percio la sua affidabilita (e quindi la distorsione, che potrebbe anche risultare verso il basso invece che verso l'alto) e legata alla bonta del metodo, che e proprio cia che si vuole misurare. Inoltre l'errore quadratico medio e una misura globale di efficacia del metodo, rna non edetto che nella concreta applicazione per costruire lc previsioni a un'origine fissata t, un metoda anche non ottimale non possa fornire una prestazione migliore di un altro che in teoria e migliore. Va segnalato infine che la nostra valutazione e affidata solo all'errore di previsione a orizzonte uno (previsione del dato immediatamente successivo all' origine della previsione), e l' ordinamento che essa induce sui metodi di previsione non e detto si mantenga uguale se dovessimo andare a considerare le previsioni a orizzonti pili am pi.
13.6 La combinazione delle previsioni
285
Per tutti questi motivi, molti autori (si veda ad esempio Granger, 1980) prendono in considerazione la possibilita di eseguire previsioni combinate, utilizzando pili metodi simultaneamente. Questa idea puo essere sviluppata in modo semplice, considerando la combinazione lineare dei previsori. Supponiamo di porci all'origine t e di dover prevedere il dato successivo X t + 1 , e di disporre di due previsori diversi, costruiti secondo metodi differenti, che indicheremo con F; e G t , non distorti. Se poniamo ep(t) == X t + 1 - Fi ed ec(t) == X t + 1 - G t , si ha E{ep(t)} == E{ec(t)} == O. Indichiamo con (J} == E{ ep(t)2} e (J~ == E{ ec(t)2} gli errori quadratici medi di previsione. Consideriamo la combinazione lineare convessa di F; e C, con coefficiente p: Ct == pFt + (1 - p)G t . Ovviamente C, e un previsore non distorto poiche E {ec (t)} == E {pep(t) (1 - p)ec (t)} == 0 e il suo errore quadratico medio di previsione e: (J~ ==
E{ec(t)2}
==
+
p2(J} + (1- p)2(J~ + 2p(1- p)E{ep(t)ec(t)} .
II valore ottimale di p e quello che rende minima questa quantita, e si ottiene facilmente derivando rispetto aped eguagliando a zero:
p*
== {(J~
- ,}/{(J} + (J~ - 2,}
dove si e indicata la covarianza con, == E{ ep(t)ec(t)}. Si noti che se la covarianza tra F; e G, e positiva, il valore ottimo p* puo risultare minore di zero, poiche puo accadere che E{ep(t)ec(t)} > (J~, mentre il denominatore di p* e sempre positivo essendo pari alla varianza di (Ft - G t ) . Analogamente, p* puo essere maggiore di uno. Sostituendo il valore ottimo di p* nel previsore combinato si ottiene la combinazione ottimale C;: il suo errore quadratico medio e:
E { ec* (t )
2} _ a}(ab - ,)2 -
,2
+ ab(a} - ,)2 + 2,(a} ((J~ + (Jb - 2,)2
,)(ab - r) _ -
(J~(Jb (J} + (J~ - 2, .
Si puo dimostrare che pertanto la varianza dell'errore del previsore combinato non e superiore alla pili piccola delle varianze dei previsori di partenza (3), quindi l'operazione di combinazione sarebbe sempre conveniente. Tuttavia va osservato che il coefficiente p* non puo essere determinato con precisione, poiche dipende dagli 3
Infatti ad esempio
E{eF(t)2} - E{ec* (t)2} == a} - (a}a~ - ,2)j(a} + a~ - 2,)
== (a} - ,)2 j(a} + a~ - 2,) ~ 0 e analogamente E{ ec(t)2} ~ E{ e~* (t)}.
286
13 Previsioni per processi stazionari
,
'I
,
,1
1
..', 'I
............ ............
;1
.:,
.'
; .'
.'
-,
,,
I
I
I ,,
I
I
.;
,I
,I
..."
'/,
"
,,'
'I
I--dati ----- previs. Arima ...._... previs. Holt-Winters - - previs. combinato I
Fig. 13.7. Combinazione delle previsioni ottenute con un modello ARMA e con il metodo di Holt-Winters
errori quadratici medi di previsione che sono incogniti, percio possiamo solo stimare il valore di p*, e non e assicurato, ne si puo affermare sulla base dei soli dati, che il risultante previsore combinato sia effettivamente migliore. Pertanto l'uso dei previsori combinati deve essere valutato in dipendenza della qualita delle stime degli errori quadratici medi.
Esempio 13.3. Abbiamo simulato una serie generata dal modena
(1 - 0.6B)(1 - B)Xt ==
Et .
Abbiamo calcolato previsioni a orizzonte uno e per origme crescente sia con il previsore ARIMA correttamente identificato e stimato sia col metodo Holt-Winters. La Fig. 13.7 riporta i risultati: la serie, Ie previsioni ARIMA e quelle del livellamento esponenziale di Holt-Winters. L'errore quadratico medio stimato su 20 previsioni e a} == 0.94 per l'ARIMA, ab == 1.20 per 10 Holt-Winters, mentre la covarianza osservata tra i previsori e 0.437. Pertanto possiamo stimare il coefficiente della combinazione p* == 0.603 e costruire il previsore combinato, ottenuto sommando a 0.603 volte il previsore ARIMA 0.397 volte il previsore Holt-Winters. Anche i risultati di questo previsore sono riportati nella Fig. 13.7, e si vede che presentano una prestazione leggermente migliore delle componenti, confermata anche dall'errore quadratico medio osservato che e 0.74.
14 Previsioni per catene di Markov e processi di punti
Si prende in considerazione la problematica della previsione puntuale per le catene di Markov, basata sulle distribuzioni di probabilita degli stati futuri, e poi il caso dei processi di punti, per i quali il problema previsivo si presenta con caratteristiche peculiari.
14.1 Previsioni nelle catene di Markov La particolare struttura delle catene di Markov, dovuta alla proprieta markoviana e allo spazio degli stati discreto, rende particolarmente agevole il compito della previsione, permettendo di valutare la distribuzione di probabilita delle variabili che generano i valori futuri della catena. Consideriamo una catena finita con m stati numerati da 1 a m, e supponiamo come sempre di aver osservato il processo negli istanti da t ~ 1 a t ~ N, e siano (Xl, X2, ... , X N) i valori rilevati: inoltre indichiamo per brevita con XN ~ k 10 stato in cui la catena si trova all'ultimo istante nota N. II valore che il processo assumera nell'istante immediatamente successivo, X N + I , ha una distribuzione di probabilita che dipende solo dal valore assunto per t ~ N, cioe XN ~ k, e si scrive
La distribuzione di probabilita (Plk' P2k, ... ,Pmk) (detta distribuzione predittiva) determina percio completamente le proprieta del valore futuro X N + I ed essa puo essere sintetizzata dagli usuali indici statistici (ad esempio la moda, oppure si puo calcolare 10 stato "medio" se la numerazione data agli stati e significativa; se ne possono calcolare anche misure di variabilita 0 mutabilita). E facile anche calcolare la distribuzione di probabilita dei valori successivi, usando le equazioni di Chapman e Kolmogorov:
288
14 Previsioni per catene di Markov e processi di punti
m
m
== L Pr {X N +2 == i IXN + 1 == j} Pr {X N + 1 == j IXN == k} == LPijPjk j=1
j=1
che sono gli elementi della matrice t». Analogamente, la distribuzione di probabilita del processo dopo s istanti dall'ultimo noto e data dalla colonna relativa allo stato k della matrice P", Al crescere dell'orizzonte s, come sappiamo, le colonne di P" convergono al vettore delle probabilita di equilibrio 1r e quindi la distribuzione predittiva converge alla distribuzione ergodica: lim Pr{XN +s == i
s---+oo
IXN == k} == Pr{X == i} == 1ri
.
Dal punto di vista della applicazione pratica, le quantita Pij e 1ri devono essere stimate usando i risultati del paragrafo 12.1 e quindi basandosi sulle stime
== nij/nj,
Pij
irj == nj/N
dove nij e il numero delle volte che si osserva un passaggio dallo stato j allo stato i nella serie osservata. Nel valutare i risultati si terra conto della variabilita di questi stimatori, la cui varianza e covarianza possono essere stimate come segue:
Una misura sintetica dell'errore di previsione puo essere calcolata usando un indice di dissomiglianza tra la distribuzione prevista e quella effettiva:
o,
== L. E (Pik - Pik)2 == L. Var (Pik) 1,
=
1,
L i Pik(l - Pik)/( N 1fk) = = N~k (1- L i P7k) .
Questa misura dipende dallo stato di origine k, un indice complessivo si ottiene se ne prendiamo la media con lc probabilita di equilibrio 1rk:
Naturalmente anche questa misura dipende dalle probabilita vere, e puo essere stimata usando Ie probabilita stimate
pOij.
Come si vede, queste mi-
sure coincidono con gli indici di eterogeneita delle distribuzioni condizionate Pr(X N + 1/XN ) . Percio maggiore e la incertezza nella transizione della catena, minore anche la precisione delle stime e la qualita complessiva della previsione.
e
14.2 Previsione per processi di punti
289
Esempio 14.1. Ritorniamo allo studio della piovosita a Tel Aviv, per il quale abbiamo gia stimato la matrice di transizione:
p
== [0.75 0.338] 0.25 0.662
dove il primo stato si riferisce al tempo asciutto, e il secondo alla pioggia. La stima delle probabilita di equilibrio e data dall'autovettore di P associato alla radice caratteristica 1, cioe, come abbiamo gia visto, (0.575,0.425). Se conosciamo il tempo fino a oggi, e oggi e asciutto, la distribuzione del tempo per domani si stima con Pr(asciutto)== 0.75, Pr(pioggia)== 0.25. Se invece oggi piove, la previsione per domani sara Pr(asciutto)== 0.338, Pr(pioggia)== 0.662. L'entropia relativa delle due distribuzioni ( - EPi log Pi diviso il suo massimo, quindi -(P1logPl + P210gp2)/ log 2) e circa 0.81 per la prima e 0.92 per la seconda. Se consideriamo l'orizzonte due (cioe il tempo di dopodomani) Ie distribuzioni di probabilita (colonne di p 2) diventano (0.647,0.353) in caso di oggi asciutto, e (0.478,0.522) in caso di oggi pioggia. L'entropia aumenta rispettivamente a 0.90 e 0.96. Per le previsioni del terzo giorno successivo (colonne di p 3 ) le distribuzioni diventano rispettivamente (0.605,0.395) e (0.535,0.465). Come sappiamo queste distribuzioni tendono a divenire somiglianti e uguali a quella di equilibrio, e gia a orizzonte 6 la differenza si avverte solo alla terza cifra decimale: cia significa che la conoscenza del tempo fino a 506 giorni prima non ha praticamente influenza (secondo il nostro modello) nel determinare la tendenza alla pioggia. Naturalmente in modo analogo e con ovvie modificazioni si possono calcolare le probabilita che si verifichino specifici eventi di interesse, come la probabilita che non piova per k giorni, 0 l'attesa media per un giorno di pioggia. Eventi di questo tipo hanno speciale interesse quando tra gli stati ve ne sono di riflettenti (0 assorbenti) che rivestono un particolare significato, come nel caso delle dighe.
14.2 Previsione per processi di punti II tema della previsione per i processi di punti presenta aspetti pili delicati e problematici rispetto alle serie temporali, determinati essenzialmente dalla diversa risposta che in questo campo si richiede a una previsione: non solo e non tanto infer ire I'intensita con cui un fenomeno si manifestcra, rna anche fare affermazioni sul se e quando quel fenomeno si vcrifichera, Con questa premessa, osserviamo che l'oggetto della previsione da un lato puo riferirsi al numero di eventi, e dall'altro riguardare i tempi di attesa tra un evento e il successivo. La scelta tra questi due sviluppi viene fatta generalmente dipendere dalla frequenza media degli eventi in rapporto alla scala temporale sulla quale avviene la previsione. Se l'orizzonte di previsione e grande rispetto alla intensit.a, di modo che il numero atteso di eventi neH'orizzonte
290
14 Previsioni per catene di Markov e processi di punti
e elevato, si preferisce spesso considerare come grandezza da prevedere il numero di eventi. Se invece il rapporto e opposto, di modo che per intervalli di lunghezza commensurabile con l'orizzonte ci si puo attendere che non si realizzino eventi, 0 al pili sono uno 0 due, allora e pili opportuno prendere in considerazione le previsioni relative alIa variabile "tempo fino al prossimo evento". Per chiarire con un esempio, se si parla di incidenti automobilistici in una determinata zona 0 arteria, e vogliamo costruire previsioni pluriennali, si considerera il numero annuale di incidenti. Se il nostro orizzonte e invece pili ravvicinato, dell'ordine ad esempio di giorni, si preferira impostare il problema con riferimento alIa domanda "quando avverra il prossimo incidente?" . Le due impostazioni portano a percorsi metodologici completamente diversi. Infatti nel primo caso, se seguiamo il numero di eventi su un intervallo di tempo sufficientemente ampio, si viene a determinare una successione di variabili che puo essere assimilata a un processo a parametro discreto, al quaIe si puo applicare, con Ie dovute cautele, la teoria della previsione lineare. Pili precisamente, consideriamo il numero di eventi che si verificano in intervalli di tempo di lunghezza m, indicando come prima con N(s, t) il numero di eventi occorsi tra set, e partendo dal tempo zero poniamo Zl == N(O, m), Z2 == N(m, 2m), Z3 == N(2m, 3m) e cost via. Ad esempio nel caso di un processo di Poisson omogeneo Ie Zj hanno una distribuzione di Poisson di parametro Am, e sono indipendenti, in situazioni pili articolate invece potranno essere autocorrelate; inoltre se Am non e troppo piccolo, si puo assumere che abbiano una distribuzione non troppo dissimile dalla gaussiana, e possiamo allora applicare la teoria della previsione lineare direttamente al processo {Zt, t == 0,1, ...}, sviluppando modelli del tipo di quelli esposti nel capitolo precedente. Tuttavia questa impostazione fornisce risposta solo a una parte delle esigenze previsive che possono sorgere di fronte a un processo di punti, soprattutto a que llc relative alIa conoscenza di tipo strutturale, alle tendenze di lungo periodo. E spesso necessario, in aggiunta, esaminare andamenti di pili breve periodo, e, ponendosi su un orizzonte rispetto al Quale gli eventi sono rari, esercitare una attivita di natura previsiva anche sulla localizzazione nel futuro dell'istante a cui si verifichera il prossimo evento. E generalmente questa l'ottica pili rilevante quando i processi di punti vengono adoperati per schematizzare situazioni eccezionali, come piene, uragani, e terremoti. Quest'ultimo argomento, la previsione dei terremoti, costituisce un tema molto importante e trattato approfonditamente nella letteratura probabilistica e statistica, una interessante e autorevole introduzione si trova in VereJones (1995). In tutti questi casi, per motivi comprensibili, I'intensita viene anche chiamata rischio. II problema pili ovvio e naturale in quest'ottica si puo schematizzare come segue: fissato un istante t come origine della previsione, e supposto di conoscere tutti gli istanti ai quali si sono verificati eventi prima di t, vogliamo fare affermazioni sul prossimo evento. E abbastanza evidente che dovremo abbandonare il quadro di riferimento della stima puntuale, poiche qualunque
14.2 Previsione per processi di punti
291
inferenza del tipo "il prossimo evento si verifica all'istante s" ha generalmente probabilita nulla. II problema viene a volte affrontato ricorrendo alla ricerca di indicatori anticipatori (leading indicators), cioe fenomeni diversi che hanno la caratteristica di verificarsi in anticipo rispetto a quello studiato. Questa tecnica ha trovato un largo impiego in economia (per maggiori informazioni, si veda ad esempio Granger, 1980) per prevedere le crisi congiunturali, rna in molti campi indicatori anticipatori non esistono 0 sono poco affidabili (per esempio nel caso dei terremoti). Quello che si puo tentare e invece una valutazione della distribuzione di probabilita della variabile aleatoria "tempo di attesa tra t e il prossimo evento", basata sull'insieme delle conoscenze disponibili fino al tempo t. A questo fine ci basiamo sul concetto di iniensiti: condizionata 0 rischio condizionato r(t) definito da: r(t)dt == Pr{Evento in(t, t + dt)IIt } dove, come sempre, It
e l'insieme delle informazioni disponibili fino al tempo
t. Se indichiamo con T* la variabile "tempo di attesa tra t e il primo evento dopo t" , la sua distribuzione condizionata si ottiene facilmente: Pr {T*
> ulld = Pr {N(t, t + u) = OIId = exp {
-l
u
r;(x)dx }
dove r;(x)dx == Pr{Evento in (t + x, t + x + dx)IIt , N(t, t + x) == O} e la valutazione di r; (x) puo porre qualche difficolta, tuttavia nel caso in cui sia stata assunta una forma analitica per il rischio condizionato, essa puo essere usata anche per approssimare r;(x) ponendo r;(x) ~ r(t + x). Nel caso del processo di Poisson omogeneo evidentemente il rischio e costante ed uguale a A, percio la variabile T* ha distribuzione esponenziale di parametro A qualunque sia l'origine: l'equivalenza tra il processo di Poisson e il rumore bianco si conferma anche in questo caso, portando a previsioni condizionate uguali a que llc incondizionate. Nei casi di maggior interesse applicativo si cerca invece di stimare il rischio in funzione del tempo e condizionatamente alla storia passata del processo. Un modo di procedere semplificato e quello di supporre che l'intensita sia variabile lentamente nel tempo, e quindi r(t) viene stimato con l'intensita media relativa al passato pili recente, del tipo
f(t) == N(t - s, t)j s scegliendo s sufficientemente grande in funzione della stabilita della stima. Se si dispone di rilevazioni contemporanee di pili fenomeni connessi, il rischio puo essere anche stimato in funzione di questi attraverso un modello di regressione (eventualmente generalizzato). C'e poi da considerare l'aspetto del condizionamento, cioe l'effetto della storia passata sulla intensita, Da questo punto di vista sono stati proposti
292
14 Previsioni per catene di Markov e processi di punti
Fig. 14.1. Numero annuale di terremoti di magnitudo superiore a 7, dal 1900 al 1998
diversi andamenti teorici che in genere vengono motivati dalla natura del fenomeno considerato. Ad esempio, a volte e adeguato ipotizzare che l'intcnsita cresca al crescere del tempo trascorso dall'ultimo evento. In alternativa, nella studio dei terremoti e usato il modello di Hawkes in cui si suppone invece che ogni evento produca un effetto di incremento dell'intensita media nel periodo successivo. Questo sembrerebbe in contraddizione con l'ipotesi precedente, rna non 10 perche bisogna considerare che spes so una scossa principa1e seguita da un certo numero di scosse secondarie. Be indichiamo con tl, t2, ... , t-. gli eventi verificatisi tra 0 e t, i due schemi portano alla seguente forma per i rischi:
e
e
r(t) r(t)
==
a +
==
a + g(t - tl)
+ g(t - t2) + ... + g(t - tn)
dove
14.2 Previsione per processi di punti
293
:: l" r'" , ~~~~1 11111 11 " II
'----------
(a)
(b )
Fig. 14.2. Autocorrelazione stimata per la serie dei terremoti. (a) ordinaria. (b) parziale
Fig. 14.3. Adattamento di un mod ello ARMA(1 ,I) alia serie dei t err emoti. I valori adat tat i secondo il mod ello sono indicat i da punti
Esempio 14.2. Nella Fig. 14.1 sono riportati i dati del numero di terremoti di magnitudo non inferiore a 7 registrati annualmente dal 1900 al 1998 dal National Earthquake Information Center degli Stati Uniti. Ogni dato e la reaIizzazione di un pro cesso di punti su un intervallo di ampiezza annuale , rna la serie puo essere trattata con i consueti modelli lineari . II correlogramma stimato, ordinario e par ziale, e riportato nella Fig . 14.2 . Alla serie e stato adattato il seguente modello ARMA( 1, 1): X,
= 3.45 + 0.83Xt - 1 + Et - 0.45Et-l
che presenta un R 2 pari a 0.34. I controlli diagnostici sia nel dominio temporale sia nel frequenziale suggeriscono di accettare larg amente I'ipotesi che i residui siano bianchi . Nella Fig . 14.3 sono riportati per gli ultimi 50 anni i dati, insieme con i valori adattati dal modello, che coincidono come sappiamo con le previsioni ad orizzonte uno . Infine nella Fig . 14.4 e riportato invece il risultato della previsione effett uata ponendo l'origine all'anno 1984 e con orizzont e crescente da uno a quindici anni.
294
14 Previsioni per catene di Markov e processi di punti
Fig. 14.4. Previsioni per la serie dei terremoti con origine 1984 e orizzonte da 1 a 15 anni
Diversa evidentemente e l'impostazione da adottare quando non e sufficiente una indagine retrospettiva 0 su scala temporale ampia, rna c'e l'esigenza di prevedere e localizzare nel tempo il verificarsi di eventi futuri, anche ai fini della valutazione del rischio e dell'adozione di misure preventive. In questo caso e opportuno prendere in considerazione gli ultimi eventi verificatisi e i tempi trascorsi tra un evento e il successivo. Consideriamo gli anni 1998 e 1999: in Italia sono stati registrati dall'Istituto Nazionale di Geofisica 21 eventi sismici di magnitudo media superiore a 3.5 : il primo il 10 gennaio 1998 (zona etnea), il secondo il 17 gennaio 1998 (Tirreno meridionale) e cost via. Considerando il tempo trascorso (in giorni) tra un evento e l'altro, si ottiene la sequenza:
7,9,11,41,13,9,24,26,18,1,54,24,5,8,116,9,20,254,67,12. L'ultimo evento del biennio si e verificato il 30 dicembre 1999. Poniamoci a tale data e cerchiamo di prevedere il prossimo terremoto: possiamo studiare la variabile "tempo di attesa tra il 30/12/1999 e il prossimo evento" dopo aver ipotizzato e stimato il comportamento della intensita media r(t). Una possibilita edi assumere r(t) pari all'intensita media del 1999: in questo an no si sono verificati 6 eventi, quindi l'intensita media si stima pari a 6/365 == 0.0164. Con questa semplice impostazione il tempo di attesa fino al prossimo evento ha distribuzione esponenziale di parametro A == 0.0164, quindi valor medio circa 61 giorni e quantile al 95 per cento pari a circa 182 giorni, quello al 99 per cento e circa 281. Altre diverse assunzioni circa il comportamento del rischio porteranno ad altre valutazioni. Se si assume una forma crescente linearmente col tempo trascorso dall'ultimo evento, del tipo r(t) == a + b(t - tn) si ottiene:
Pr{T*
> u} == exp{ -au - bu2/2} .
14.2 Previsione per processi di punti
295
Supponiamo che b sia stimato in modo che ogni giorno che passa senza eventi accresce I'intensita media di un incremento pari a 0.00027 (che corrisponde a un aumento del ritmo di circa un evento ogni dieci anni). Per mantenere la media approssimativamente uguale a quella osservata nel 1999 (un evento ogni 61 giorni) si stima a == 0.005. Di conseguenza la distribuzione stimata per l'attesa fino al prossimo evento e data da:
Pr{T*
> u} == exp{ -0.005u - 0.00027u 2/2} .
Di questa distribuzione il quantile al Iivello 95 per cento e circa 131 giorni, quello al livello 99 per cento e pari a 167, assai inferiori a quelli relativi al processo di Poisson, che spesso corrisponde a una valutazione minima del rischio. Per concludere, dobbiamo infine ricordare che naturalmente ogni possibile modello deve essere attentamente valutato non solo alla luce delle ragioni teoriche che giustificano l'andarnento del rischio, rna anche in base all'adattarnento effettivo ai dati reali, procedimento che puo comportare diverse difficolta,
Parte V
Appendici
A Fondarnenti di Analisi di Fourier
A.I Richiami di trigonometria e analisi complessa L' analisi di Fourier si basa sulle funzioni trigonometriche sin (x) e cos(x), usando preferenzialmente una forma generalizzata del tipo
j (x; a, A, 0) == a cos( Ax + 0) chiamata sinusoide, che descrive una funzione ad andamento sinusoidale, con valori oscillanti tra -a ed a, periodo 21T/ A e con massimo corrispondente all'ascissa -O/A. L'andamento del sinusoide e esemplificato nella Fig. A.1. II valore a viene detto ampiezza, il valore A jrequenza, e 0 viene detta fase. Per a == 1, A == 1,0 == 0 si ottiene cos x, per a == 1, A == 1,0 == -1T /2 si ha sin x. Scegliendo opportunamente il valore della frequenza A si puo decidere la periodicita, poiche il periodo e pari a 21T/ A; scegliendo il valore di () si trasla la funzione sull'asse delle ascisse, e il suo massimo coincide con il punto di ascissa - ()/ A. Infine ovviamente modificando a > 0 si controlla l' oscillazione dei valori della funzione, il massimo e pari ad a e il minimo e -a. Operando con le funzioni trigonometriche useremo spesso alcune lora proprieta, tra le quali ricordiamo Ie seguenti: sin( a ± (3) == sin a cos (3 ± cos a sin (3 cos( a ± (3) == cos a cos (3 =f sin a sin (3 dalle quali si ottiene anche sin 2a == 2 sin a cos a; cos 2a == 2 cos 2 a-I == 1 - 2 sin 2 a . Nell'analisi di Fourier, inoltre, si ricorre spesso a sviluppi nel campo dei numeri complessi, anche se il risultato e reale: cio porta notevoli vantaggi nei calcoli, come apparira evidente nel seguito. Ricordiamo che un numero complesso e rappresentabile come un punto nel piano complesso, in cui l'ascissa e il luogo dei numeri reali, l'ordinata illuogo dei numeri puramente immaginari,
300
A Fondamenti di Analisi di Fourier
1'-
2Jt/A
Fig. A.I. Sinusoide f(x; a, A,B) == a COS(AX + B)
multipli dell'unita immaginaria denotata dal simbolo i (radice quadrata di -1). Ogni numero complesso z puo essere denotato in forma algebrica z == a + ib attraverso le sue coordinate (a, b), oppure utilizzando le coordinate polari modulo p == Izl(2:: 0) e argomento () == arg(z), legate alle altre dalle relazioni: p == Va 2 + b2 a == p cos () () == arctan(b/ a) {:} b == p sin () . Sostituendo l'espressione in coordinate polari nella forma algebrica si ottiene:
a + ib == p cos ()
+ ip sin () == p(cos () + i sin ())
== pei8
.
Questa ultima notazione e quella che useremo pili spesso perche unisce al vantaggio di poterla manipolare algebricamente, l'espressione esplicita del modulo e dell'argomento. Essa si basa sulla definizione della esponenziale complessa e sulle formule di Eulero, che utilizzeremo frequentemente: e e-
== cosy + i siny iy == cos Y - i sin y
iy
cos a == - - - -
2
ei a
_
e- i a
sina== - - - 2i
Esse sono la chiave per ridurre calcoli tra funzioni trigonometriche a calcoli tra potenze, in quanto per le esponenziali complesse valgono lc regole algebriche usuali di calcolo tra potenze, se si tratta (e i ) come la base. Infatti dalla definizione e dalle proprieta delle funzioni trigonometriche si ottiene subito che e i 8 #- 0 per ogni (), che e i 8 == 1 se e solo se () e zero oppure multiplo di 21r, e inoltre eixe i y == ei(x+y) qualunque sia x e y, poiche
A.l Richiami di trigonometria e analisi complessa
301
== (cos x + i sin x )(cos y + i sin y) == cos x cos y - sin x sin y + i (sin x cos y + cos x sin y ) == cos(x + y) + i sin(x + y) == ei(x+y) . Notiamo in particolare che e- i B == 1/ ei B, infatti: 1 cos () - i sin () cos () + i sin () cos () - i sin ()
1
cos () - i sin () cos? () + sin ()
(). . ()
- - - - 2- == cos - Z SIn .
Un esempio della potenzialita di questo modo di procedere edato dalle formule di ortogonalita tra seni e coseni. Conosciamo gia dalla teoria dell'integrazione alcune espressioni di ortogonalita tra seni e coseni integrati sull'intervallo (-7r,7r):
I:
I
1r 1r
I:
sin(ax) cos(bx)dx = 0, 'Va, b
cos (ax) cos(bx)dx
=
sin(ax) sin(bx)dx
= 0,
a -=I- b .
Formule analoghe valgono se si somma su punti equidistanziati, invece di integrare su intervalli, e sono quelle che pili ci saranno utili quando ci riferiamo a processi a parametro discreto. Pili precisamente considereremo N punti equidistanziati tra 0 e 27r, la cui ascissa e del tipo 27rj/ N, j == 1, ... , N. I risultati per i seni e i coseni si ricavano direttamente da una formula analoga relativa alle esponenziali complesse:
Teorema A.I. Sia N un intero maggiore di 1, e posto A == 27r/ N, e k un intero can Ik I < N, allora risulta: N
"" {" 'k} = {N, 0 ~ exp z/\] 0, kk == -=I- 0 .
(A.l)
Dimostrazione. La formula e ovvia per k == 0 poiche eO == 1. Per k =I 0, ricordando che la somma di una progressione geometrica di N termini con primo termine a I e ragione q e data da a1 (1 - qN) / (1 - q) e tenendo presente che la (A.l) e proprio una progressione geometrica formata da N termini con primo elemento e ragione pari a exp( iAk) si ha: N
L exp {iAjk} ==
e
i Ak
(1 -
e
i AN k
)/
(1 -
e
i Ak
)
== 0
j=1
perche exp( iANk) == exp( i27rk) == 1 in quanto exp( i27r) == cos(27r)+ i sin(27r)
==
1.
0
302
A Fondamenti di Analisi di Fourier
Teorema A.2. Sia N intero maggiore di 1, e posta A == 21r/ N, per ogni coppia di interi non negativi a e b minori di N si ha:
L cos('\ja) cos('\jb) {O' N/2, N
=
N,
J=l
°.
a#b a:. b:' a - b- 0
(A.2)
Dimostrazione. La formula e ovvia per a == b == 0 poiche cos(O) == 1. Negli altri casi possiamo ricorrere alle formule di Eulero: cos(a) == (e i a + e- i a)/2 e scrivere: N
N
L cos('\ja) cos(,\jb) = ~ L j=l
(e
i Aj a
+ e- i Aj a) (e i Aj b + e- i Aj b)
=
j=l
=~
L{ N
eiAj(a+b)
+ eiAj(a-b) + e-iAj(a-b) + e-iAj(a+b)}
.
j=l
In base al teorema AI, la prima e la quarta progressione sono sempre nulle perche a + b > o. Be a # b sono nulle anche la seconda e la terza progressione, e quindi l'intera espressione si annulla. Be invece a == b, la seconda e la terza progressione valgono N e quindi il secondo membro vale (1/4)(N +N) == N/2. D
Teorema A.3. Sia N intero maggiore di 1, e posto A == 21r/ N, per ogni coppia di interi non negativi a e b minori di N si ha: N
?=sin(,\ja)sin(,\jb)=
{O' ai=b N/2,a:.b:'O. 0,
J=l
a - b- 0
Dimostrazione. II caso a == b == 0 e ovvio poiche sin(O) == o. Per gli altri la dimostrazione e analoga al teorema A2 usando la formula sino == (ei a e- i a ) / (2i). D
Teorema A.4. Sia N intero maggiore di 1, e a, b interi non negativi minori di N. Posto A == 21r/N si ha: N
Lsin(Aja)cos(Ajb) ==
o.
j=l
Dimostrazione. Be a == 0 il teorema formule di Eulero si ha: N
:i
e ovvio. Per a diverso da
N
L sin('\ja) cos('\jb) = L j=l
=
:i L { N
eiAj(a+b)
j=l
(e
i Aj a
- e-iAja)(eiAjb
zero, usando le
+ e- i Aj b ) =
j=l
+ eiAj(a-b)
- e-iAj(a-b) - e-iAj(a+b)} .
A.I Richiami di trigonometria e analisi complessa
303
La prima e la quarta progressione sono nulle per il teorema AI, e cosi pure la seconda e la terza se a =I b; viceversa se a == b il secondo e il terzo termine sono uguali e avendo segno opposto si elidono. 0 Corollario A.5. Nelle stesse ipotesi precedenti si ha: N
N
L sin(Aja) ==0 .
L cos(Aja) == {~' ~ ~ ~ j=l
j=l
'
Dimostrazione. Conseguenza immediata ponendo b == 0 dei teoremi A2 e A4.
o
I teoremi sono stati esposti per a e b maggiori 0 uguali a zero, rna l'estensione a numeri negativi e immediata ricordando che cos a == cos( -a) e sin a == - sin( -a); inoltre abbiamo assunto che a e b fossero minori di N, rna valgono teoremi analoghi per valori qualunque A e B: basta tener presente che se a == Amod(N), cioe se a e il resto della divisione di A per N, e b == Bmod(N), allora sin(AA) == sin(Aa), cos(AA) == cos(Aa) e analogamente per B. Quindi ad esempio il teorema A.2 diventa:
L cos(AjA) cos(AjB) == N
0, Amod(N) =1= Bmod(N) N12, Amod(N) == Bmod(N) =I 0 . 0, Amod(N) == Bmod(N) == 0
{
j=l
Infine, vediamo alcune formule che ci serviranno nella trattazione. La prima e:
2~
I:
exp(-iaA)dA
Infatti dalle formule di Eulero:
-1 J1r exp(-iaA)dA == -1 21r
Se a
=1=
1r
-1r
0
.!. 1r
r
io
a
cos(aA)dA =
l
1r
e-
= {~ a
ia A
+e
ia A
2
0
/o~n~ero dA == -1 1r
.!. [sin(aA)] =.!. sin(mr) 7r
a
1r
0
a
1r
.
l
1r
0
cos(aA)dA.
sin(O)
Jo1r
=0 .
Se invece == 0 ovviamente ~ dA == 1. NeIl'ambito della statistica dei processi aleatori e frequente manipolare funzioni trigonometriche anche non relative aIle frequenze di Fourier del tipo 21rjIT: adesso ricaveremo alcune formule per le somme di seni e coseni relative aIle armoniche di una frequenza qualunque A. A tal fine avremo bisogno delle relazioni trigonometriche sin u - sin v = 2 cos! (u
2
+ v) sin! (u 2
- v)
304
A Fondamenti di Analisi di Fourier
cos u - cos v == - 2 sin
1
1
"2 (u + v) sin "2 (u - v)
che si ottengono facilmente dalle formule di addizione e sottrazione ponendo u == a - (3 e v == a + (3. Dimostreremo che n
cos~(n+1)Asin~nA -1 == . L cos At == -2l{sinA(n+~)} SIn "2 SIn "2
--=---------=-. A
A
t=l
~. _ L...J SIn At t= 1
~
{COS ~ - cos(n +
.
2
A
~)A} _ -
SIn "2
sin
~(n +
.
l)Asin ~nA A
SIn "2
.
Dimostrazione. Poiche la dimostrazione e analoga svolgeremo solo la prima lasciando l'altra come esercizio. Ritornando alla espressione in funzione delle esponenziali complesse: 2 cos a == eia+e- ia, e usando la regola della somma di una progressione geometrica, otteniamo: 1{ · L· L cos At == -2 L + n
n
t=l
t=l
(e i A _
n
e1,At
1)(1 -
e-1,At
t=l e i An)
2(1 -
e
o; 1 -e iAn 1 -iAn e -iA == -e . + - -e .
2 1-
(e- i A -
+ iA
}
)(l -
e-
1)(1 _
2
e1,A
1-
e-1,A
e- i An)
i A)
COSA - 1 + cosnA - cos(n + l)A 2(1 - cos A) Ora, ponendo u == ii): v == (n + 1)>'" otteniamo cos(n>...) - cos(n + 1)>'" == -2 sin(n + 1/2)A sin( -A/2)
== 2 sin(n + 1/2)>... sin(A/2) e ricordando anche che 1 - cos X == 2 sin 2 (>.../2):
1{
n ~cas>'t=2
1/
-1+sin(n+ )>. 2
sin
A}
2
.
Per la seconda eguaglianza, portando sin(A/2) a denominatore comune, il numeratore diventa sin(n + 1/2)A - sin(A/2) per il Quale si usa la formula che scompone sin u - sin v ponendo u == (n + 1/2)A, v == A/2. La formula analoga per la somma estesa anche a indici negativi e immediata: n
L t=-n
D
sinAi
==
0
n
t~n cas At =
1
n
1
/
>..
+2~casAt = sin(n+ 2)A sin 2 .
A.2 Sviluppo di Fourier per funzioni periodiche
305
Con questi risultati possiamo valutare le stesse somme considerate all'inizio dell' Appendice, rna prese su frequenze non di Fourier, usando le formule gia ricordate del tipo cos u - cos v == - 2 sin ~ (u - v) sin ~ (u + v). Ad esempio:
1
1
L sin(Aaj) sin(Abj) = -2 L cos A(a + b)j + 2 L cosA(a - b)j n
j=l
n
j=l
n
j=l
che si ottiene ponendo Aaj == ~(u - v) e Abj == ~(u + v), da cui u == Aj(b + a) e v == Aj(b - a). Inoltre con questi risultati possiamo calcolare facilmente la somma che porta al nucleo di Fejer (paragrafo 9.2) KN(A). Innanzitutto notiamo che n-1
n-1
L
t
L L e-
(n -lhl)e- i Ah ==
h=-n+1
i AS
==
t=O s=-t
==
L
n-1 (
1+2
t=O
L cos AS t
)
==
s=l
L sin(tsIn(-) . + 1.)A
n-1
A2
t=O
.
2
Tenendo conto che sin(t - ~)A == sin(At) cos(A/2)-cOS(At) sin(A/2) abbiamo: 1
n-1
~ sin(t + 2)A
=
8 n
1
sin (t - 2)A = cos
(A) (A) 2 8 sin At - sin 2 8 cos At n
n
. (A) cos ~(n + l)Asin ~nA == cos ( -A) sin ~(n + l)Asin ~nA - SIn sin ~
2
=
si~sin!~A "2
[cos
sin ~
2
(~) sin !(n + nx - sin (~) cos !(n + l)A] 2 2 2 2 =
sin2(~A) /sin (~) .
In conclusione: 1
KN(A) == 2 n
L
n-1 h=-n+1
1
n
n-1
A
2'
t=O
1 sin
n
1
L sin(t + -),,\ == sIn("2) 2
.
(n - Ihl)e- 2Ah ==
2
2
sin
(
2
~A) (
~)
.
A.2 Sviluppo di Fourier per funzioni periodiche
E un
argomento classico dell'analisi matematica 10 sviluppo in serie di Fourier, nel Quale si esprimono funzioni periodiche di variabile reale generalmente
306
A Fondarnenti di Analisi di Fourier
continue come serie di funzioni trigonometriche. Noi considereremo sviluppi analoghi, rna, avendo come riferimento applicativo lc serie storiche a parametro discreto, studieremo funzioni di variabile discreta, indicando l'argomento anche qui, per semplicita, con i numeri interi. Consideriamo percio una funzione di variabile intera Xt , periodica di periodo T (intero), il che significa che i valori si ripetono ogni T istanti: Xt == Xt+kT per ogni k intero. II suo comportamento e completamente descritto dai valori assunti in T punti consecutivi, ad esempio Xl, X2, ... , XT, quindi un vettore nello spazio R T . L'idea fondamentale dell'analisi di Fourier e di spiegare l'andamento della funzione mediante una sovrapposizione di sinusoidi di periodo esattamente pari a T oppure un suo sottomultiplo. La logica del procedimento puo essere illustrata come segue. Dati i valori assunti X j (j == 1, ... , T), cerchiamo di adattarvi una sinusoide del tipo a cos( Aj + B) di periodo T e quindi con A == 27f /T (detta frequenza fondamentale). L'adattamento non sara perfetto e quindi ci saranno delle differenze in pili 0 in meno, che possiamo cercare di descrivere con una sinusoide di periodo T /2, cioe di frequenza 2A == 47f /T (chiamata seconda armonica). Se ancora non si ottiene una uguaglianza, la rimanente differenza si puo cercare di descrivere con una sinusoide di periodo ancora pili piccolo pari a T /3 e quindi frequenza 3A == 67f IT (detta terza armonica) e cosi via, andando ad adattare sinusoidi con oscillazioni sempre pili veloci fino alla pili rapida che e l'armonica di ordine T /2, che ha frequenza AT /2 == 7f (1) e il cui periodo e pari a 2 (la periodicita pili piccola riscontrabile in funzioni ad argomento intero). La teoria dimostra (10 faremo subito) che questo procedimento ricostruisce esattamente la funzione Xt, e quindi si ottiene, posta p == T /2, Xt
=
t,
ao + {a
j
cos
(~ jt) + b, sin (~ jt)}
,t
= 1,2, ... , T
(A.3)
con bp == O. Tra le diverse dimostrazioni ne forniamo una di natura geometrica che ha il pregio, oltre alla semplicita, di suggerire una diversa interpretazione dello sviluppo di Fourier. Si tratta sernplicernente di considerare il vettore T X == (Xl, X2, ... , XT)' nello spazio R e di esprirnere le coordinate in una nuova base ortogonale di R T . La base che scegliamo e format a dai vettori costituiti dai valori assunti dalle sinusoidi della frequenza fondamentale e delle armoniche, pili un vettore unitario costante. Pili precisamente, consideriamo ,Z2p-l definiti come segue: Zo ha elementi coi vettori Zo, Zl, ... ,zp, Zp+l, stanti uguali a 1, Zk (k == 1,2, ,p) ha come elementi i valori della sinusoide cos(27fkt/T) per t == 1,2, ... , T, e zp+j(j == 1,2, ... ,p - 1) ha come elementi i valori di sin(27fjt/T) per t == 1,2, ... ,T (cio spiega perche non si considera j == p, dato che sin(27fpt/T) == sin( 7ft) == 0). Scriviamo la base ponendo come prima ,\ == 21f/T : 1
Abbiamo implicitamente supposto che il periodo T sia pari. Se T e dispari si ottengono risultati analoghi, rna con cornplicazioni leggerrnente superiori nella dirnostrazione.
A.2 Sviluppo di Fourier per funzioni periodiche
cosp"\ sin X sin2"\ cos 2p"\ sin 2,,\ sin 4,,\
cos X cos2"\ 1 cos 2,,\ cos 4,,\
1
307
sin(p - 1),,\ sin 2(p - 1)"\
1 coe'I'); cos2T"\ ... cosTp"\ sinT"\ sin2T"\ ... sinT(p -1)"\ Usando Ie formule di ortogonalita del paragrafo precedente possiamo verificare che la matrice B e ortogonale, mentre le norme dei vettori della base risultano: 2
II Z k 11
T
== l: (cos 2; k j ) 2 == P , k == 1, ... p - 1 j=l
II
zp+ k
T
== l: (sin '2;; k j) 2 == P , k == 1, ... p - 1 .
2 11
j=l
II vettore zp ha un valore diverso perche i suoi elementi sono pari a cos(21rpt/T) == cos(1rt) == (- 1)t . Avendo appurato che B e una base ortogonale possiamo esprimere il vettore dei dati x in funzione lineare della nuova base con coefficienti ao, al, . . . , ap , b1 , b2 , . . . , bp - 1 :
che dimostra 10 sviluppo di Fourier (A.3). Come immediata conseguenza possiamo ottenere lc espressioni dei coefficienti aj e bj : poiche essi sono le coordinate nella nuova base, sappiamo che sono uguali aIle z~x/llzkI12. Particolarizzando otteniamo:
1
(21r .)
T
aj=pLXtCOS rJt
, j=1, ... ,p-1
t=l
bj
=
1pL Xt sin (21r) r jt T
, j
= 1, ... , p - 1
(A.4)
t=l
ao =
1
T
TL
x, ; ap =
1
T
TL
t=l
t
x; ( ~ 1) .
t=l
La formula (A.3) ha 10 svantaggio di contenere coseno e seno della stessa frequenza, mentre possiamo unificare la struttura usando la forma sinusoidale completa di frequenza e fase, basandosi solo sul coseno (ad esempio). Per fare questo, sostituiamo alle aj e bj le loro espressioni polari aj
== dj cos ()j
;
bj == dj sin ()j
,
j
== 1, . . . ,p - 1
= Ja; + b; e OJ = arctan(bjfaj), ponendo inoltre do = ao, dp = ap , ()o == ()p == O. La (A.3) diviene
dove dj
308
A Fondamenti di Analisi di Fourier
Xt
=
td j
cos
)=0
(~ jt - OJ) .
Questa formula consente una pili immediata interpretazione: la funzione Xt la somma di sinusoidi relative alla frequenza fondamentale ,,\ == 21T /T corrispondente al periodo T, e alle sue frequenze armoniche 2"\,3"\, ... ,p"\ corrispondenti a onde di periodo sottomultiplo di T: T /2, T /3, T /4, fino a T / (T /2) == 2. Ciascuna sinusoide ha una propria ampiezza dj e una propria fase ()j . Una ulteriore interpretazione che fornisce la base per considerazioni che si riveleranno essenziali nel seguito, nasce dal considerare x == (Xl, X2, ... , XT ) come una popolazione statistica di T unita. La variabile statistica rilevata e la combinazione lineare con pesi aj e bj dei caratteri sintetizzati dai vettori popolazione Zj (corrispondenti ai valori assunti dalle diverse armoniche) che sono tra loro incorrelati come appena visto. La sua media, dalla (A.4), e pari a ao == do· La sua varianza si puo ottenere facilmente calcolando prima la norma di x, che si ricava subito dalla espressione in funzione della base ortogonale
e descritta come
B:
IIxII 2== a6 111112 + ai I zll1 2+ ... + a; I zpI1 2+ bi Ilzp+1112 ... + b;_11Iz2P_ll/2 == p ( 2a6 + ai + ... + 2a; + bi + ... b;-l) == p (2d6 + di + ... + d;-l + 2d;) . Ne segue (si ricordi che p == T /2) che
quindi lo ampiezze dj al quadrato decompongono la varianza nel contributo di ciascuna Zj, cioe di ciascuna componente sinusoidale di frequenza ,,\j e periodo T'[], L'insieme (dr,d§, ... ,d;) indica qual e il peso relativo, in termini di momento secondo, delle varie componenti cicliche che concorrono a costituire i valori Xt, e viene chiamato spettro di Fourier.
Esempio A.6. Consideriamo una funzione periodica di periodo 8, di cui riportiamo due cicli nella Fig. A.2 in cui e segnata anche la media, corrispondente all'armonica zero, ao in (A.3). Dopo aver calcolato i coefficienti aj e bj secondo le (A.4) abbiamo costruito le componenti cicliche relative alla frequenza fondamentale 21T /T == 1T/ 4 e alle prime tre armoniche 21T/ 4 == 1T /2, 31T/ 4 e 41T/ 4 == 1T, il cui andamento (in realta solo i punti relativi ad ascissa intera, uniti da segmenti) e riportato nella Fig. A.3, ed e contraddistinto da periodi rispettivamente di 8, 4, 8/3 e 2 istanti. Sommando termine a termine i valori della componente fondamentale, delle tre armoniche e della media ao si ottengono esattamente i valori della funzione. Lo spettro e il seguente: d5 == a5 == 13.14, == 4.57, d§ == 3.06, d~ == 2.8, d~ == 1.26.
dr
A.2 Sviluppo di Fourier per funzioni periodiche
309
10
11
6
16
Fig. A.2. Serie periodica di periodo 8 fondamentale
armonica2
-1
-1
-2
-2
-3
--J
--Iw--..-
armonica3
armonica4
1.5,....------------.,
0.5
o -1 -2
+---\--+----+----1~_+____+_+__+_____+_____lr__+__+___f__+---1
-0.5 -1 ...1.--
----1
-1.5
-I..-
.....J
Fig. A.3. Componente fondamentale e prime tre armoniche
Una ulteriore forma di sviluppo di Fourier si ottiene esprimendo le funzioni trigonometriche attraverso le esponenziali complesse: in questo modo la x, viene rappresentata attraverso una somma finita di potenze. Per arrivare a questo risultato partiamo dalla (A.3) sostituendo a seno e coseno Ie espressioni di Eulero, sempre indicando A == 27r IT:
310
A Fondamenti di Analisi di Fourier _
Xt -
ao
+
L p
ei>..jt
{
+ e-i>..jt 2
aj
+ bj
ei>..jt _ e-i>..jt }
2i
.
j=l
Raccogliendo le diverse potenze di ei >.. e indicando con Z_j == Zj == (aj +ib j)/2, j == 1, ... ,p, Zo == ao, si ottiene:
L
Zj
==
(aj -
ibj ) /2,
p
x, ==
Zjei>..jt
(A.5)
j=-p
e dalle (A.4) si ricavano le
Zj:
(A.6) che vengono chiamate trasformate di Fourier della Xt. Anche la (A.5) esprime, equivalentemente alle precedenti, la decomposizione di Xt in somma di componenti sinusoidali, e pur comparendovi l'unita immaginaria, i valori delle Xt rimangono reali (mentre la trasformata di Fourier Zj ha valori complessi): cia si riconosce dal fatto che nella (A.5) ogni esponenziale complessa ei a trova anche il suo reciproco e -ia, e i loro coefficienti sono 1'uno il coniugato dell'altro, percio la loro somma cei a + ce- i a da luogo alla sinusoide 2 Re( c) cos 0: + 2 Im( c) sin 0: (2). La componente sinusoidale di frequenza pari a k); e periodo T/k ha quindi ampiezza dk == 21zkl e fase Ok arctan{ - Im(zk) / Re(Zk)}.
A.3 Analisi di Fourier per funzioni non periodiche, integrale di Fourier II procedimento che abbiamo svolto si puo applicare a funzioni di variabile intera periodiche di periodo T, che possono essere definite per ogni valore intero rna ripetono ciclicamente i valori assunti: Xt == Xt+T, Vt. E evidente che facendo crescere il periodo T la funzione ha possibilita di andamento sempre pili ricco, e poiche in genere noi ci interesseremo dei valori di una serie storica per un intervallo di tempo finito, per esempio per t da 1 aN, potremmo anche considerare funzioni periodiche purche di periodo sufficientemente grande (e qualche volta 10 faremo). Tuttavia, non e difficile arrivare a formule analoghe agli sviluppi di Fourier, valide per funzioni, sempre ad argomento intero, non periodiche. Cia si ottiene prendendo il limite per T - t 00 nelle formule precedenti, e sotto condizioni di regolarita che assicurino l'esistenza 2
Dato un numero complesso c == a - ib si indica con a == Re( c) il suo coefficiente reale e con b == Im(c) il coefficiente immaginario. Inoltre c == a + ib, c + i: == 2a, c- i: == -2ib, Icl == va 2 + b2 e arg{c} == arctan ( -b/a).
A.3 Analisi di Fourier per funzioni non periodiche
311
dei limiti che considereremo. Rimane valida l'interpretazione come sovrapposizione di componenti sinusoidali, rna le frequenze possibili non saranno pili un numero finito 21rj IT, j == 1, ... , T 12, poiche T va a infinito, rna diventano possibili sinusoidi di frequenza A qualsiasi, variabile con continuita tra 0 e it . II contributo in ampiezza di una singola sinusoide, prima indicato con Zj, diventa quindi adesso una funzione ((A). Sempre assumendo p == T12, definiamo ((1rjlp) == Zj/(1r/p), per cui la (A.5) diventa: Xt
=
,f ((~j)
J==-P
P
exp
{i~jt}~ p
P
che puo essere interpretata come una somma di Cauchy relativa alla funzione ( (x ) exp {i tx} sull'intervallo (-1r, 1r), descritta dalla decomposizione [~j, ~ (j + P P 1)), j == -p, ... , p - 1. Al crescere di T, tende a zero la lunghezza degli intervallini (pari a 1r I p == 21r IT) e quindi il limite definisce un integrale (di cui assumiamo l' esistenza) :
che viene detto integrale di Fourier. L'analoga della (A.6), cioe la trasformata di Fourier della funzione non periodica Xt, si ottiene anche qui prendendo illimite per T - t 00, rna facendo crescere anche j in modo che 21rj IT tenda a un valore fisso A:
(anche qui sara necessario imporre condizioni alla Xt perche questo limite esista). Nell'interpretare la decomposizione (chiamata decomposizione spettrale) di Xt si deve tener conto del fatto che ora sono una infinita continua di componenti di frequenza diversa a concorrere a formare Xt: le periodicita possibili sono comprese tra 2 (corrispondente alla frequenza 1r) e infinito (corrispondente alla frequenza 0). Lo spettro di Fourier diventa ora una funzione 1((A)1 2 di variabile reale A, definito tra 0 e n , rna il contributo di ogni singola componente di fissata frequenza alla varianza (0, se si vuole, alla norma al quadrato) e infinitesimo, mentre si puo dire (con terminologia analoga a quella della probabilita delle variabili assolutamente continue) che il contributo delle componenti di frequenza compresa tra A e A+ d); e pari a 1((A)1 2dA. L'integrale di Fourier puo essere espresso anche in termini completamente reali, Se poniamo U(A) == Re{ ((A)}, V(A) == Im{ ((A)}, ricordando che Zj == Z_j abbiamo ((A) == (( -A) e quindi U(A) e V(A) sono funzioni pari e inoltre ((A) == U(A) - iV(A), (( -A) == U(A) + iV(A). Pertanto, spezzando l'integrale nei due sotto-intervalli (-1r, 0) e (0, 1r) si ha:
312
A Fondamenti di Analisi di Fourier
Xt = =
l"
1''
[U(A) - iV(A)]eiAtdA + cos(At)2u(A)dA +
l
l"
[U(A)
+ iV(A)]e-iAtdA =
1r
sin(At)2v(A)dA
che fornisce la rappresentazione in termini reali dell'integrale di Fourier, in cui naturalmente 1
U(A) = 21f
L Xt COS(At) 00
t=l
V(A)
1
L 27r 00
== -
t=l
Xt
sin(At) .
B Software per l'analisi delle serie ternporali e la .. previsionc
Abbiamo gia osservato come la complessita delle elaborazioni necessarie per l'analisi nel dominio temporale e frequenziale e per la previsione imponga l'uso di un software specialistico anche nelle applicazioni pili semplici. Per questo motivo l'analisi delle serie temporali e la previsione statistica hanno attratto un'attenzione e un impegno sempre crescenti delle maggiori case di software, e oggi gran parte dei pili diffusi software di analisi quantitativa permette di applicare la metodologia esposta in questo volume. Senza pretendere ovviamente di presentare una rassegna esaustiva, citeremo solo alcuni pacchetti tra i pili usati, riferendoci all'ambiente Microsoft Windows, anche se la maggior parte di essi e disponibile anche per ambiente Macintosh, Unix e Linux. Va sottolineato che l'offerta di software e in rapida evoluzione, appaiono continuamente nuovi pacchetti e quelli esistenti vengono modificati, pertanto le informazioni riportate in questa appendice vanno considerate soltanto indicative. I sistemi Sas (www.sas.com) e Spss (www.spss.it) prevedono entrambi moduli di serie temporali (rispettivamente Sas-Ets e Spss-Trends) che svolgono analisi nel dominio temporale e frequenziale, costruzione di modelli ARIMA complete di previsioni, destagionalizzazione. Analoghe possibilita vengono offerte da pacchetti di orientamento econometrico come E-Views (www.eviews.com) e Rats (www.estima.com), e da software specificamente statistici come S-Plus (www.insightful.com) oppure Statistica (www.statsoftinc.com). Esistono poi pacchetti esplicitamente dedicati alla previsione, ad esempio Forecast-Pro (www.forecastpro.com) e anche alcuni software che hanno per oggetto principale le serie temporali: tra questi citiamo Autobox (www.autobox.com) per la ricchezza del supporto in linea e la continua evoluzione, e Sea (www.scausa.com) per l'autorevolezza degli autori e la disponibilita delle metodologie pili avanzate. Anche alcuni software che si configurano pili come linguaggi evoluti, quali Mathematica (www.wolfram.com), Matlab (www.mathworks.com) e Gauss
314
B Software per la previsione
(www.aptech.com) permettono facilmente 10 sviluppo di analisi attraverso moduli 0 librerie supplementari, prodotti dalle Case 0 di pubblico dominio. Naturalmente non tutti i software prevedono tutti i metodi esposti nel presente volume, e molti dispongono invece di una raccolta di metodi pili ricca e articolata di quelli che sono presentati qui. Ad esempio, non tutti realizzano il metodo Census-X11-Arima, e pochi il Tramo-Seats (notiamo pero che il software per questo metodo di destagionalizzazione e disponibile liberamente sul sito della Banca di Spagna www.bde.esjserviciojsoftware/econome.htm e su quello dell'Istat al link www.istat.itjstrumenti/metodijdestagj). La situazione e in continua evoluzione e frequentemente vengono rilasciate nuove versioni che prevedono capacita pili articolate. I prodotti citati finora prevedono l'acquisto 0 l'uso sotto licenza. Tra i software liberi, il pili rilevante ai nostri fini e R della Free Software Foundation (www.gnu.org/softwarejr) che ha una struttura simile as-Plus e permette abbastanza facilmente la realizzazione di analisi sia nel dominio temporale sia frequenziale, sia la costruzione di modelli rappresentativi e di previsioni. Un interessante e utile pacchetto econometrico basato su R e Gretl, di cui esiste anche una versione in italiano (http: / j gretl.sourceforge. net ). Infine e stato messo a punto recentemente il software JMulTi (http:/ jsourceforge.netj projects/jmulti) che ha come riferimento ideale Liitkepohl (1993) e permette anche analisi econometriche avanzate e multivariate. Esistono inoltre, e sono molto utili, alcuni pacchetti software collegati a testi di serie temporali, che a seconda dei casi sono liberi, 0 vengono dati in licenza gratuita con l'acquisto del volume. Tra di essi citiamo Itsm 2000, ultima versione del software collegato ai testi di Brockwell e Davis (su un CD allegato al libro). Per concludere, osserviamo che nel web esistono molte possibilita di trovare e scaricare i dati relativi alle serie temporali pili importanti e studiate, come riferimento esemplificativo si suggeriscono i siti lib.stat.cmu.edu e il wwwpersonal.buseco.monash.edu.auj hyndman/TSDL. r-;»
Bibliografia
Abraham, B. and G. E. P. Box (1978). Deterministic and forecast-adaptive time dependent models. Appl. Statist. 27, 120-130. Akaike, H. (1969). Fitting autoregressive models for prediction. Ann. Inst. Statist. Math. 21, 243-247. Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. Automatic Control 19, 716-722. Akaike, H. (1979). A Bayesian extension of the minimum AIC procedure of autoregressive model fitting. Biometrika 66, 237-242. Anderson, T. W. (1971). The Statistical Analysis of Time Series. New York: Wiley. Azzalini, A. (2001). Inferenza Statistica (2 ed.). Milano: Springer-Verlag Italia. Baragona, R. and F. Battaglia (1992). Linear interpolators and the outlier problem in time series. Metron 50, 79-97. Baragona, R. and F. Battaglia (2000a). Partial and inverse autocorrelations in portmanteau- type tests for time series. Commun. Statist. Simula. Compo 29, 971-986. Baragona, R. and F. Battaglia (2000b). Some applications of genetic algorithms to statistical inference. In Atti della XL Riunione Scientifica della Soc. Ital. di Statistica, Firenze, pp. 329-340. Baragona, R., F. Battaglia, and C. Calzini (2001). Genetic algorithms for the identification of additive and innovational outliers in time series. Compo Statist. Data Anal. 37, 1-12. Barbieri, M. M. (1998). Additive and innovational outliers in autoregressive time series: a unified approach. Statistica 58, 395-409. Bartlett, M. S. (1990). Chance or chaos? J. Roy. Statist. Soc. Ser. A 153, 321-347. Basawa, I. V. and B. L. S. Prakasa Rao (1980). Statistical Inference for Stochastic Processes. London: Academic Press. Bee Dagum, E. (2002). Analisi delle Serie Storiche. Modellistica, Previsione e Scomposizione. Milano: Springer-Verlag Italia. Bell, W. and S. C. Hillmer (1984). Issues involved with the seasonal adjustment of economic time series. J. Bus. Econom. Statist. 2, 291-330. Bollerslev, T. (1986). Generalized autoregressive conditional heteroskedasticity. J. Econometrics 31, 307-327.
316
Bibliografia
Box, G. E. P. and D. R. Cox (1964). An analysis of transformations. J. Roy. Statist. Soc. Ser B 26, 211-252. Box, G. E. P. and G. M. Jenkins (1970). Time Series Analysis Forecasting and Control. S. Francisco: Holden-Day. Box, G. E. P., G. M. Jenkins, and G. C. Reinsel (1994). Time Series Analysis Forecasting and Control (new ed.). Englewood Cliffs: Prentice- Hall. Box, G. E. P. and D. A. Pierce (1970). Distribution of residual autocorrelations in autoregressive integrated moving average time series models. J. Amer. Statist. Ass. 65, 1509-1526. Box, G. E. P. and G. C. Tiao (1975). Intervention analysis with applications to economic and environmental problems. J. Amer. Statist. Ass. 70, 70-79. Brillinger, D. R. (1981). Time Series Data Analysis and Theory (expanded ed.). S. Francisco: Holden-Day. Brockwell, P. J. and R. A. Davis (1987). Time Series, Theory and Methods. New York: Springer-Verlag. Casdagli, M. (1992). Chaos and deterministic versus stochastic non linear modelling. J. Roy. Statist. Soc. Ser. B 54, 303-328. Chatfield, C. (1993). Neural networks: forecasting breakthrough or passing fad? Int. J. Forecast. 9, 1-3. Chen, C. and L. M. Liu (1993). Joint estimation of model parameters and outlier effects in time series. J. Amer. Statist. Ass 88, 284-297. Cipolletta, 1. (1992). Congiuntura Economica e Previsione. Bologna: 11 Mulino. Cleveland, W. P. and G. C. Tiao (1976). Decomposition of seasonal time series: a model for the X-II program. J. Amer. Statist. Ass. 17, 581-587. Cox, D. R. and P. A. W. Lewis (1966). The Statistical Analysis of Series of Events. London: Methuen. Cox, D. R. and H. D. Miller (1965). The Theory of Stochastic Processes. London: Methuen. Damsleth, E. (1980). Interpolating missing values in a time series. Scand. J. Statist. 7, 33-39. Di Fonzo, T. and F. Lisi (2005). Serie Storiche Economiche. Roma: Carocci. Dickey, D. A. and W. A. Fuller (1979). Distribution of the estimates for autoregressive time series with unit roots. J. Amer. Statist. Ass. 74, 427-431. Engle, R. F. (1982). Autoregressive conditional heteroscedasticity with estimates of the variance of the United Kingdom inflation. Econometrica 50, 987-1007. Fabbri, G. and R. Orsini (1993). Reti Neurali per le Scienze Economiche. Padova: Muzio. Ferreiro, O. (1987). Methodologies for the estimation of missing observations in time series. Stat. Prob. Letters 5, 65-69. Findley, D. F., B. C. Monsell, W. R. Bell, M. C. Otto, and B. C. Chen (1998). New capabilities and methods of the X-12-ARIMA seasonal adjustment program. J. Bus. Econom. Statist. 16, 127-176. Fox, A. J. (1972). Outliers in time series. J. Roy. Statist. Soc. Set: B 34, 350-363. Gabriel, K. R. and J. Neumann (1962). A Markov chain model for rainfall occurrence at Tel Aviv. Quarterly J. Roy. Meteorol. Soc. 88, 90-95.
Gaetan, C. (2000). Subset ARMA model identification using genetic algorithms. J. Time Ser. Anal. 21, 559-570. Gilchrist, W. (1976). Statistical Forecasting. London: Wiley.
Bibliografia
317
Gomez, W. and A. Maravall (1996). Programs Seats and Tramo: instructions for the user. Working Paper 9628, Bank of Spain, Madrid. Granger, C. W. J. (1980). Forecasting in Business and Economics. London: Academic Press. Guerrero, V. M. (1993). Time series analysis supported by power transformations. J. Forecasting 12, 37-48. Hamilton, J. D. (1994). Time Series Analysis. Princeton: Princeton University Press. Hannan, E. J. (1960). Time Series Analysis. London: Methuen. Hannan, E. J. and B. G. Quinn (1979). The determination of the order of an autoregression. J. Roy. Statist. Soc. Ser. B 41, 190-195. Harvey, A. C. (1990). Forecasting Structural Time Series Models and the Kalman Filter. Cambridge: Cambridge University Press. Hipel, A. W. and A. 1. McLeod (1994). Time Series Modelling of Water Resources and Environmental Systems. Amsterdam: Elsevier. Johnson, N. L. and S. Kotz (1970). Distributions in Statistics. Continuous Univariate Distributions, Volume 2. New York: Wiley. Kalman, R. E. (1960). A new approach to linear filtering and prediction problems. Trans. ASME J. Basic. Engin. D 82, 35-45. Karlin, S. (1966). A First Course in Stochastic Processes. New York: Academic Press. Kwiatkowski, D., P. C. B. Phillips, P. Schmidt, and Y. Shin (1992). Testing the null hypothesis of stationarity against the alternative of a unit root. J. Econometrics 54, 159-178. Linstone, H. and M. Turoff (1975). The Delphi Method. Reading: Addison-Wesley. Ljung, G. and G. E. P. Box (1978). On a measure of lack of fit in time series. Biometrika 65, 297-303. Ljung, G. M. (1982). The likelihood function for a stationary Gaussian autoregressive moving average process with missing observations. Biometrika 69, 265-268. Liitkepohl, H. (1993). Introduction to Multiple Time Series Analysis. Berlin: Spinger-Verlag. Mann, H. B. and A. Wald (1943). On the statistical tr eatment of linear stochastic difference equations. Econometrica 11, 173-220. Marbach, G., C. Mazziotta, and A. Rizzi (1991). Le P. evisioni. Fondamenti Logici e Basi Statistiche. Milano: ETAS Libri. Martelli, A. (1988). Scenari e Strategie: Analisi del Futuro e Condotte d'Impresa. Milano: ETAS Libri. Martin, R. D. (1980). Robust estimation of autoregressive models. In D. R. Brillinger and G. C. Tiao (Eds.), Directions in Time Series. Hayward: Institute of Mathematical Statistics. Mc Culloch, R. E. and R. S. Tsay (1994). Bayesian analysis of autoregressive time series via the Gibbs sampler. J. Time Ser. Anal. 15, 235-250. Pefia, D. and J. Rodriguez (2002). A powerful portmanteau test of lack of fit for time series. J. Amer. Statist. Ass 97, 601-610. Piccinato, L. (1996). Metodi per le Decisioni Statistiche. Milano: Springer-Verlag Italia.
318
Bibliografia
Piccolo, D. (1974). Analisi delle serie temporali. I processi AR(2). Portici: Centro di Specializzazione e Ricerche Economico-Agrarie per il Mezzogiorno della Universita di Napoli. Piccolo, D. (1990). Introduzione all'Analisi delle Serie Storiche. Roma: La Nuova Italia Scientifica. Priestley, M. B. (1981). Spectral Analysis and Time Series. London: Academic Press. Priestley, M. B. (1988). Non Linear and Non Stationary Time Series Analysis. London: Academic Press. Pukkila, T. M. (1984). On the distributions of differences between the estimated autocorrelations and the partial autocorrelations at the same lag. Commun. Statist. Simula. Compo 13, 463-488. Reinsel, G. C. (1997). Elements of Multivariate Time Series Analysis. New York: Springer-Verlag. Said, S. E. and D. A. Dickey (1985). Hypothesis testing in ARIMA(p,l,q) models. J. Amer. Statist. Ass. 80, 369-374. Schwarz, G. (1978). Estimating the dimension of a model. Ann. Statist. 6, 461-464. Sharda, R. and R. B. Patil (1990). Neural networks as forecasting experts: an empirical test. In Proc. IJCNN 1989 Joint Conference on Neural Networks, Washington. Shumway, R. H. and D. S. Stoffer (2000). Time Series Analysis and Its Applications. New York: Springer-Verlag. Taniguchi, M. and Y. Kakizawa (2000). Asymptotic Theory of Statistical Inference for Time Series. New York: Springer-Verlag. Tong, H. (1990). Non Linear Time Series. A Dynamical System Approach. Oxford: Clarendon Press. Tong, H. and R. L. Smith (1992). Royal Statistical Society Meeting on Chaos: introduction. J. Roy. Statist. Soc. Ser B 54, 301-302. Tsay, R. S. (1988). Outliers, level shifts and variance changes. J. Forecasting 7, 1-20. Vere-Jones, D. (1995). Forecasting earthquakes and earthquake risk. Int. J. Forecast. 11, 503-538. Weigend, A. S. and N. A. Gershenfeld (Eds.) (1994). Time Series Prediction: Forecasting the Future and Understanding the Past. Reading: Addison- Wesley. Young, A. H. (1965). Estimating trading-day variation in monthly economic time series. Technical Paper 12, Bureau of Census, Washington.
Indice
Algoritmi genetici, 222, 241 Allineamento, 180 Analisi complessa richiami, 299 Analisi di intervento, 236 Approccio normativo, 4 Autocorrelazione, 46, 74 corner method, 192 definita positiva, 74 distribuzione stimatori, 160 estesa, 192 inversa, 192 parziale, 120, 124 stima della, 152 Autocovarianza, 46, 74 definita positiva, 74 distribuzione stimatori, 160 rappresentazione spettrale, 81 ritardo massimo di stima, 154 stima della, 152 Barriera, 57 Bartlett formula di, 156 stimatore di, 168 Bartlett-Priestley stimatore di, 172 Box e Cox trasformazione di, 214 Cambio di livello, 234 Campione casuale, 144 Chi quadrato, 43
Coefficiente di determinazione R 2 , 109, 202 Coerenz~ 105, 109 stima della, 180 Condizioni di mixing, 46 Consistenza, 144 Correlazione incrociata, 103 stima della, 179 Correlogramma, 76 Covarianza incrociata, 102 rappresentazione spettrale, 104 stima della, 179 Cross-correlogramma, 103 Cumulanti, 36, 37 Daniell stimatore di, 170 Dati anomali, 237 Dati mancanti, 241 Delphi, 5 Destagionalizzazione, 99, 218 metodi Census, 225 metodi model-based, 226 metodo TRAMO-SEATS, 226 metodo X-11-ARIMA, 225 Dickeye Fuller, 212 Dirac funzione delta di, 85 Dirichlet nucleo di, 170 Dissomiglianza indice di, 288 Distribuzione di probabilita
320
Indice
di Poisson, 136 esponenziale, 136, 246 gamma, 136, 247 normale multipla, 38 cumulanti, 43 distribuz. condizionate, 39 formula di Isserlis, 43 marginale , 39 standardizzata, 39 Dominio frequenziale, 73, 78 temporale, 73 Dualita, 128 Durbin metodo iterativo di, 126, 198 Effetti di calendario, 236 Entropia, 289 Equazione allc differenze finite, 117 di Chapman e Kolmogorov, 53 di misura, 275 di transizione, 275 di Yule e Walker, 117, 124, 184 normale, 183 Ergodicita, 144 in autocovarianza, 157 in cross-covarianza, 179 in media, 149 Esponenziale complessa, 300 Eteroschedasticita condizionata, 215 Eulero formule di, 300 Fejer nucleo di, 150, 168, 305 Filtro lineare, 90 a media mobile, 223 alle differenze, 98 dodicesime, 220 alle quasi differenze, 101 fase, 93 fisicamente realizzabile, 90 guadagno, 93 input, 91 invariante, 90 invertibile, 98 output, 91 rappresentazione spettrale, 93
simmetrico, 91 Finestra chiusura della, 175 di intervallo, 167 gradi di Iiberta equivalenti, 175 larghezza di banda, 169 spettrale, 167 Fisher informazione di, 184 Formule di ortogonalita esponenziali complesse, 301 seni e coseni, 301 Fourier analisi di, 73, 78 frequenze di, 89 integrale di, 311 spettro di, 308 trasformata di, 88, 89, 164, 310 Funzione di trasferimento, 92, 108, 113 generatrice dei cumulanti, 36 dei momenti, 36 dei pesi, 113 delle autocovarianze, 89 indicatrice, 243 Hawkes modello di, 292 Hilbert spazio di, 73 Identificazione come approssimazione, 191 come scoperta, 191 criteri automatici, 193 AIC, 194 BIC, 198 FPE, 193 Hannan e Quinn, 198 Schwarz, 197 Incertezza, 3 Indicatori anticipatori, 291 Inferenza parametrica, 143 Innovazioni, 116, 256 Integrale stocastico, 80 Interpolatore lineare, 241 Intervallo di confidenza, 143 per l'autocorrelazione, 160
Indice per la densita spettrale, 176 Kalman filtro di, 241, 274 guadagno di, 278 smoothing, 284 Kolmogorov e Smirnov, 205 Kwiatkowski, Phillips, Schmidt e Shin, 213 Macchie solari, 178, 200, 265 Mann eWald, 184 Markov catene di, 48, 51 ergodiche, 60 irriducibili, 60 previsione, 287 stima delle probabilita, 243 distribuz. di equilibrio, 61 processo di, 47, 275 proprieta di, 47 stato ricorrente, 59 stato transitorio, 59 Matrice definita positiva, 37 della densita spettrale, 106 di cross-correlazione, 107 di cross-covarianza, 106 di dispersione, 37 di Toeplitz, 75 Hermitiana, 106 stocastica, 52 Media condizionata, 254 di insieme, 145 stima della, 148 distribuzione asintotica, 151 stima di massima verosimiglianza, 151 temporale, 145 Modelli caotici, 10 Modelli interpretativi, 188 Modelli rappresentativi, 13, 187 classe ARCH, 216 classe CARCH, 218 a funzione di trasferimento, 227 a soglia (threshold), 234 classe ARIMA, 189, 209 classe ARMA, 189
321
identificazione, 189, 190 stima dei parametri, 190, 201 verifica, 190, 201 integrati, 209 modello airline, 222 serie non stazionarie, 207 serie stagionali, 218 spazio degli stati, 274 ARIMA, 281 strutturali, 279 stagionali moltiplicativi, 220 Modelli strutturali, 267 a livello locale, 272 a trend lineare locale, 273 di base BSM, 273 forma ridotta, 273 Multinomiale, 244 N umero complesso argomento, 300 coordinate polari, 300 forma algebrica, 300 forma esponenziale, 300 modulo, 300
Operatore lineare, 95 anticipo, 95 differenza, 95 inverso, 97 ritardo, 95 Outlier, 237 additivo, 238 innovativo, 238 Parsimonia, 193, 207 Passeggeri linee aeree internazionali, 222, 265 Passeggiata aleatoria, 56 Periodogramma, 163 distribuzione del, 165 troncato, 170 Polinomio trigonometrico, 219 Previsione catene di Markov, 287 combinata, 284 combinazione lineare convessa, 285 condizionale, 4 errore di, 13 lineare, 254
322
Indice
livellamento esponenziale, 264, 268 metodi adattivi, 267 metodi di Holt e Winters, 269 modelli ARIMA, 257 pesi pi greco, 260 pesi psi, 260 modelli strutturali, 271 origine, 253 orizzonte, 253 processi di punti, 289 secondo Kolmogorov, 255 secondo Wiener, 255 spazio degli stati, 274 teoria della, 253 univariata, multivariata, causale, 5 varianza di, 256 Previsione statistica, 6 glob ale , 10 metodo, 8 oggetto, 6 puntuale, 12 scopo, 7 Previsore, 13 costo di un, 13 di combinazione lineare, 257 ottimo, 254 Principio di incertezza, 175 Processo aleatorio a parametro continuo, 33 a parametro discreto, 33 a somma mobile, 114, 128 del primo ordine, 128 del secondo ordine, 129 previsione, 257 stima dei parametri, 181 autoregressivo, 115 del primo ordine, 118 del secondo ordine, 121 previsione, 257 stazionarieta, 116 stima dei parametri, 181 autoregressivo a somma mobile, 115, 130 di ordine (1,1), 130 previsione, 257 stima dei parametri, 181 bivariato, 102 circolare, 78 di Poisson, 135
intensita, 135 intervallo tra due eventi, 135 numero di eventi, 136 previsione, 289 stima, 246 tempo di attesa, 136 di Poisson non omogeneo, 137 test di omogeneita, 247 di punti, 49, 133 autocovarianza, 139 densita degli eventi, 134 densita di covarianza, 139 densita spettrale, 139 intensita, 134 intensita condizionata, 291 previsione, 289 rischio, 290 di rinnovo, 134 lineare, 111 autocovarianza, 113 densita spettrale, 113 invertibile, 114, 128, 129 multivariato, 106 non markoviano, 67 pseudo-periodico, 124 rappresentazione spettrale, 80 realizzazione di un, 33 rumore bianco, 86, 160 stazionario, 45, 71 Punto di troncamento, 167
Radici unitarie, 209, 211 Rendimenti, 215 Reti neurali, 9 Ritardo 0 lag, 76 Robustezza, 6, 238 Rumore, 227 Scenari, 4, 5 Simulated annealing, 222 Sinusoide ampiezza, 299 fase, 299 frequenza, 299 armonica, 306 fondamentale, 306 Sistema lineare bivariato, 107 Software, 313 Spettro
Indice
323
densita cospettrale, 104 stima della, 179 densita di quadratura, 104 stima della, 179 densita spettrale, 82 stima della, 163 densita spettrale incrociata, 104 densita spettrale normalizzata, 86 evolutivo, 234 misura spettrale, 82 a salti, 82 assolutamente continua, 82 mista, 84 stimatori consistenti, 166 distorsione, 173 distribuzione, 175 varianza, 173 Stazionarieta, 44
di bianchezza, 203 nel dominio frequenziale, 205 KPSS, 213 Ljung e Box, 204 portmanteau, 204, 229 probabilita delle catene di Markov, 245 Trend, 72, 100 in varianza, 214 stocastico, 210 Trigonometria richiami, 299 Tukey stimatore di, 171 Tukey-Hamming stimatore di, 171 Tukey-Hanning stimatore di, 171
Teoria dell'affidabilita, 137 Teoria delle code, 137 Teoria delle decisioni, 13 Terremoti, 290, 292 sciame sismico, 292 Test, 143 ADF, 213 Box e Pierce, 204
Urti, 116 Validazione, 6 Volatilita, 218 What."if,4 Wold decomposizione di, 111