? INFERENZA STATISTICA Bruno Chiandotto Dipartimento di Statistica, Informatica, Applicazioni “G. Parenti”(DISIA) Firenze, luglio 2015 It is easy to lie with statistics It is hard to tell the truth without it Andrejs Dunkels Queste Note didattiche sono state predisposte (in edizione provvisoria) per facilitare la preparazione dell'esame di Inferenza statistica. Lo studente troverà nelle note soltanto alcuni degli elementi di base del calcolo delle probabilità e dell’inferenza statistica. Si tratta di un’ introduzione alla conoscenza dei metodi moderni di analisi statistica dei fenomeni collettivi da approfondire mediante la lettura di altri testi. . INDICE 0. Premessa Introduzione 0.1 Inferenza statistica classica 0.2 Inferenza statistica bayesiana 0.3 Teoria statistica delle decisioni 0.4 Digressione: scale di misura Conclusioni 1 3 6 8 12 15 1. Calcolo delle probabilità Introduzione 1.1 Alcuni concetti di base 1.2 Algebra degli eventi 1.3 Probabilità 1.4 Formula di Bayes 1.5 Variabili casuali semplici 1.6 Valore atteso di funzioni di variabili casuali semplici 1.7 Variabili casuali discrete 1.7.1 Binomiale 1.7.2 Ipergeometrica 1.7.3 di Poisson 1.7.4 Binomiale negativa 1.7.5 Geometrica (di Pascal) 1.7.6 Variabili casuali discrete: riepilogo 1.8 Variabili casuali continue 1.8.1 Normale (di Gauss-Laplace 1.8.2 Log-normale 1.8.3 di Cauchy 1.8.4 Gamma 1.8.5 di Pareto (I° tipo) 1.8.6 di Weibull 1.8.7 Esponenziale negativa 1.8. 2 di Pizzetti-Pearson 1.8.9 Beta 1.8.10 Uniforme 1.8.11 t di Student 1.8.12 F di Fisher-Snedecor 1.8.13 Variabili casuali continue riepilogo 1.9 Variabili casuali multidimensionali 1.10 Valore atteso di funzioni di variabili casuali multidimensionali 1.11 Variabili casuali discrete e continue a k dimensioni 1.11.1 Trinomiale (binomiale doppia) 1.11.2 Multinomiale e Ipergeometrica a k dimensioni 1.11.3 Normale doppia 1.11.4 Normale a k dimensioni 1.11.5 di Dirichlet 1.12 La famiglia esponenziale 1.13 Distribuzioni multiple multivariate 1.14 Distribuzioni a priori coniugate i 17 17 21 24 33 37 40 50 50 56 62 66 71 72 75 75 83 84 84 85 86 86 88 91 95 95 96 97 102 107 112 113 115 116 124 126 126 129 132 1.15 Teoremi fondamentali del calcolo delle probabilità 135 2. Campionamento e distribuzioni campionarie Introduzione 2.1 Campioni casuali 2.2 Sufficienza 2.3 Distribuzioni campionarie 2.4 Campionamento da popolazioni normali 2.5 Campionamento da popolazioni non normali 2.6 Campionamento da due popolazioni indipendenti 143 143 150 155 163 166 172 3. Stima Introduzione 3.1 Stima puntuale 3.1.1 Proprietà degli stimatori 3.1.2 Sufficienza 3.1.3 Concentrazione e prossimità 3.1.4 Efficienza 3.1.5 Proprietà asintotiche 3.2 Metodi di stima puntuale 3.2.1 Minimizzazione dell’errore quadratico medio 3.2.2 Massima verosimiglianza 3.2.3 Proprietà degli stimatori di massima verosimiglianza 3.2.4 Altri metodi di stima 3.3 Stima statistica di intervallo (intervalli di confidenza) 3.3.1 Intervallo di confidenza per la media di una v.c. normale con varianza nota 3.3.2 Intervallo di confidenza per la media di una v.c. normale con var. incognita 3.3.3 Intervallo di confidenza per la var. di una v.c. normale con media incognita 3.3.4 Intervallo di confidenza per la media di una v.c. con distribuz. arbitraria 3.3.5 Intervalli simultanei di conf. per la media e la varianza di una v.c. normale 3.3.6 Intervallo di confidenza per la differenza tra medie e tra proporzioni 3.3.7 Intervallo di confidenza per la differenza tra medie per dati appaiati 3.3.8 Intervallo di confidenza per il rapporto tra varianze 3.4 Determinazione della numerosità campionaria 175 176 177 177 178 179 184 185 185 187 196 197 200 202 203 205 205 207 209 211 212 212 4. Test delle ipotesi Introduzione 4.1 Verifica di ipotesi statistiche 4.1.1 Ipotesi semplici 4.1.2 Ipotesi composite 4.2 Test sulla media 4.2.1 p-value 4.2.2 Potenza del test 4.3 Test sulla varianza 4.4 Test sulla probabilità 4.5 Determinazione della dimensione campionaria 4.6 Confronto tra campioni 4.6.1 Confronto tra medie 4.6.2 Confronto tra proporzioni 4.6.3 Confronto tra varianze 4.6.4 Confronto per dati appaiati 4.7 Determinazione della dimensione campionaria ii 215 215 219 224 225 232 235 244 246 251 253 254 260 263 266 269 5. Modello statistico lineare Introduzione 5.1 Modello di regressione lineare semplice 5.1.1 Ipotesi di specificazione (caso A) 5.1.2 Stima dei minimi quadrati 5.1.3 Ipotesi di specificazione (caso B) 5.1.4 Stima di massima verosimiglianza 5.1.5 Stima di intervallo 5.1.6 Test delle ipotesi 5.1.7 Trasformazione di modelli non lineari 5.2 Coefficiente di correlazione lineare 5.3 Modello di regressione lineare multipla 5.3.1 Ipotesi di specificazione (caso A) 5.3.2 Stima dei minimi quadrati 5.3.3 Ipotesi di specificazione (caso B) 5.3.4 Stima di massima verosimiglianza 5.3.5 Stima di intervallo e test delle ipotesi 5.4 Modello di analisi della Varianza (ANOVA) 5.4.1 Analisi a un criterio di classificazione 5.4.2 Analisi a due criterio di classificazione 5.5 Analisi della Varianza e modello di regressione 5.6 Analisi della covarianza (ANCOVA) 273 275 278 279 287 288 289 293 293 294 297 298 299 303 303 304 308 309 312 318 322 6. Inferenza statistica bayesiana Introduzione 6.1 Formula di Bayes 6.2 Distribuzioni a priori coniugate 6.3 Distribuzioni a priori non informative 6.4 Stima e test delle ipotesi in ottica bayesiana 6.5 Regressione bayesiana 6.5.1 Regressione bayesiana con distribuzioni a priori non infor. e coniugate 325 328 334 346 347 353 355 7. Teoria statistica delle decisioni Introduzione 7.1 Teoria delle decisioni 7.2 Decisioni basate sulle sole informazioni a priori 7.2.1 Assiomi di comportamento razionale (Ia parte) 7.2.2 Assiomi di comportamento razionale (2a parte) 7.2.3 Assiomi di comportamento razionale (3a parte) 7.3 Decisioni in situazioni di estrema incertezza 7.4 Struttura del processo decisionale 7.5 Decisioni basate sulle sole informazioni campionarie 7.6 Decisioni basate su informazioni a priori e informazioni campionarie 7.7 Valore dell’informazione Riferimenti bibliografici 361 361 366 366 368 369 371 374 379 386 395 403 iii Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa 0. PREMESSA Introduzione Nello studio dei fenomeni1 di qualunque natura essi siano (economici, aziendali, fisici, biologici, ecc.) e qualunque sia la finalità (puramente conoscitiva o operativa) che s’intende perseguire, sorge sovente la necessità di rappresentare le manifestazioni dei fenomeni stessi attraverso tabelle e grafici per recepire più immediatamente particolari caratteristiche del fenomeno oggetto di analisi; altre volte, può interessare cogliere nella multiforme variabilità o mutabilità2 delle loro manifestazioni quello che in esse c'è di tipico o di costante, o magari interessa fornire una qualche misura della diversità stessa e/o di voler evidenziare in qualche modo l’eventuale relazione che lega fenomeni diversi ma logicamente collegati; infine, si può avere interesse a rappresentare il fenomeno o la relazione tra fenomeni mediante specifici modelli analitici che, schematizzando e semplificando la realtà, ne rendono più facile la comprensione. L’interesse può riguardare quindi: a. l’esecuzione di rappresentazioni tabellari e grafiche che mettano in evidenza certi aspetti generali del fenomeno o dei fenomeni oggetto di analisi (rappresentazioni tabellari e grafiche); b. il calcolo di indici che mettano in evidenza quello che c'è di tipico nelle manifestazioni dei fenomeni (rappresentazioni sintetiche: valori medi); c. il calcolo di indici che mettano in evidenza quello che c'è di mutabile e/o variabile nelle manifestazioni di fenomeni (rappresentazioni sintetiche: indici di variabilità e/o mutabilità); d. la misura della relazione tra fenomeni mediante (rappresentazioni sintetiche: indici di associazione); appropriati indici e. l’introduzione di modelli che esprimano analiticamente l'insieme delle manifestazioni del fenomeno e/o la relazione tra fenomeni (rappresentazioni analitiche). In seguito verranno distinti i modelli probabilistici dai modelli statistici. I modelli probabilistici, quali rappresentazioni, nella generalità dei casi, approssimate della realtà, 1 In questa nota tutte le volte che si usa il termine fenomeno si fa riferimento al così detto fenomeno collettivo, cioè ad un fenomeno la cui misura e conoscenza richiede l’osservazione di una pluralità di sue manifestazioni. 2 Si dice variabile il fenomeno collettivo le cui manifestazioni si diversificano per grandezze numeriche enumerabili o misurabili (caratteri quantitativi), si dice mutabile il fenomeno collettivo le cui manifestazioni si diversificano per attributi non numerici (caratteri qualitativi) che possiedono, o meno, un ordine naturale di successione (cfr. Digressione sulle scale di misura in questo capitolo) . Come si avrà modo di chiarire nelle pagine seguenti, la natura, quantitativa o qualitativa, delle modalità classificatorie condiziona interamente il processo di analisi statistica dei dati: dalla fase della loro raccolta a quella dell’elaborazione finale. 1 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa consentono una più immediata comprensione degli aspetti più rilevanti relativi ai fenomeni di interesse. Per contro, i modelli statistici, oltre ad essere rappresentazioni semplificata della realtà, facilitano anche la formulazione di previsioni e consentono la ricerca di nessi causali fornendo informazioni utilizzabili a fini decisionali. In particolare, se si è interessati alla conoscenza di un certo fenomeno (carattere) F si possono rappresentare le sue possibili manifestazioni (modalità del carattere) come punti di un insieme P (popolazione). Ovviamente non tutti i punti hanno lo stesso peso, e cioè può accadere che una determinata manifestazione (specifica modalità del carattere considerato) si realizzi più frequentemente di una seconda e questa con maggiore frequenza di una terza e così via, in tal caso, a ciascun punto resta associato un peso che, a seconda del contesto di riferimento, statistico o probabilistico, assume la denominazione di frequenza relativa o di probabilità. All'insieme P può essere associato un secondo insieme R che può essere chiamato caratteristico, cioè l'insieme di tutti gli indici caratteristici di compattazione dei dati che possono essere derivati applicando le funzioni (da intendersi in senso lato come gruppo di operazioni logiche o algebriche di qualunque natura) g1 , g2 ,......, gh , all'insieme P in modo tale che ciascun elemento di R, che può essere definito l'insieme delle rappresentazioni statistiche, consenta una più facile ed immediata comprensione del fenomeno F. Quella riportata nella Fig.0.1 è una schematizzazione estremamente semplificata dei problemi propri della cosiddetta statistica descrittiva cui si è riferito ai punti a., b., c., d. ed e., elencati in precedenza. La figura rettangolare contiene la strumentazione (metodi di compattazione) capace di trasformare i dati in informazioni. Statistica descrittiva g 1 F P g i R g h Fig. 0.1 - Rappresentazione schematica della struttura logica del metodo statistico 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa 0.1 - Inferenza statistica classica Nelle argomentazioni svolte, si è implicitamente ipotizzato di avere a disposizione tutte le manifestazioni del fenomeno o dei fenomeni oggetto di analisi, e di voler in qualche modo, attraverso tabelle, grafici o calcolo di indici caratteristici, ecc., compattare i dati a disposizione, ovvero raccogliere molteplici aspetti in un solo aspetto, individuare il costante nel variabile, accentuare quella particolarità del fenomeno che più interessava oscurandone altre ecc.. Quella prospettata non è, usualmente, la realtà in cui si opera: nella generalità dei casi si deve procedere nell’analisi di un fenomeno, avendo a disposizione soltanto una parte delle manifestazioni dello stesso. In altri termini si dispone di un sottoinsieme C (campione) di manifestazioni del fenomeno F pur restando inalterato il problema di comprensione del fenomeno stesso attraverso l'utilizzo di tabelle, grafici e appropriati indici di compattazione. Si ammetta dunque di essere interessati ad un particolare indice sintetico θ e che questo possa essere determinato applicando la funzione g a tutti gli elementi di P, ma che sia impossibile effettuare una tale operazione potendo disporre soltanto di un sottoinsieme C (campione) delle manifestazioni del fenomeno F. Il problema da risolvere a questo punto, è quello dell’individuazione della funzione t che applicata a C fornisca un punto θ̂ nello spazio caratteristico Rc che sia il più vicino possibile a θ . Interessano, cioè, indici che siano rappresentativi non di particolari aspetti del fenomeno, così come risulta dall'insieme parziale C delle sue manifestazioni, ma come risulterebbe se si disponesse dell'insieme P di tutte le sue manifestazioni. Il punto ˆ , quindi, deve essere il più vicino possibile a ; con un linguaggio più tecnico si dice che ˆ deve essere una buona stima di ; in realtà, come si avrà modo di chiarire successivamente, più che di buona stima si parlerà di buon stimatore, poiché non è possibile misurare la “distanza” di una quantità nota ˆ ad una quantità incognita . Pertanto, è il procedimento che si segue per ottenere la quantità ˆ che può essere “buono” o “cattivo”, e la “bontà” (proprietà augurabili) dovrà valere qualunque sia il valore di , bontà che si misura attraverso l'analisi del suo comportamento (cfr. Fig. 0.2) nell'insieme di tutti i possibili campioni estraibili dalla popolazione (universo dei campioni). La stima è il primo dei due problemi che costituiscono l'oggetto di studio della c.d. inferenza statistica o statistica induttiva. Un tale problema consiste, come già detto, nel cercare di estendere le conclusioni relative alla misura di un certo indice caratteristico, derivanti da un insieme parziale di manifestazioni di un determinato fenomeno, all'insieme di tutte le sue manifestazioni effettive o potenziali. 3 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa Inferenza statistica classica f 1 F P f i R f h DEDUZIONE (Calcolo delle Probabilità) INDUZIONE ( Inferenza statistica) t 1 SPAZIO o UNIVERSO dei Campioni t i C Rc t k Fig. 0.2 - Rappresentazione grafica del processo di induzione statistica (inferenza classica) Se le conclusioni cui si vuol pervenire non riguardano direttamente la misura di una entità incognita ma la ragionevolezza di una specifica assunzione relativa a tale entità si ha a che fare con il secondo problema di cui si occupa la statistica induttiva: “il test delle ipotesi (statistiche)”. I problemi della stima e quello del test delle ipotesi sono strettamente collegati ma coinvolgono problematiche logicamente diverse e devono, pertanto, essere tenuti distinti. Facendo sempre riferimento all'indice , un test statistico si risolve nella formulazione di un'ipotesi sul presumile vero valore dell'indice per poi decidere, sulla scorta dell'evidenza campionaria, se accettare o meno l'ipotesi formulata. Come già sottolineato, la complessa natura dei fenomeni economici, biologici, fisici, ingegneristici, ecc. oltre a giustificare l'esistenza di metodi statistici sempre più raffinati, esige spesso l'introduzione di modelli analitici che, semplificando e schematizzando la realtà, ne rendono più facile la comprensione. Poiché una serie innumerevole di fenomeni nelle varie scienze è governata da leggi aventi natura aleatoria, ne consegue immediatamente che i modelli probabilistici risultano essere i più appropriati per descrivere le loro manifestazioni (cfr. Fig. 0.3). 4 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa Deduzione MODELLO (Probabilità) UNIVERSO DEI CAMPIONI Induzione (Inferenza statistica) EVIDENZA EMPIRICA (CAMPIONE) SITUAZIONE REALE Fig. 0.3 - Relazioni tra probabilità, statistica induttiva, evidenza empirica e modello. Anche se fra i criteri logici od empirici che possono guidare nella individuazione del modello rappresentativo più opportuno alcuni hanno validità generale, usualmente essi sono strettamente connessi alla natura e al tipo del fenomeno che si intende analizzare. Al riguardo si deve sottolineare che quando si procede all'introduzione di un modello analitico per esprimere le manifestazioni di un fenomeno di interesse, non ha più senso parlare di popolazione in quanto la popolazione è rappresentata dal modello stesso, espressione del processo di generazione dei dati, e le manifestazioni del fenomeno o dei fenomeni d’interesse osservate hanno, necessariamente, sempre natura di manifestazioni campionarie essendo la popolazione rappresentata analiticamente attraverso il modello stesso (superpopolazione)3. La rappresentazione analitica dei fenomeni si risolve, nel caso in cui si considera, ad esempio, un solo carattere quantitativo, nella introduzione di un simbolo X al quale è associata una funzione di massa di probabilità, nel caso discreto, di densità di probabilità, nel caso continuo, del tipo: f x ; per x S e Θ dove: S rappresenta lo spazio campionario di definizione di x, cioè lo spazio (supporto) di tutti i valori assumibili dall'entità variabile x ; il parametro o i parametri caratteristici del modello; Θ 4 lo spazio parametrico, cioè lo spazio di tutti i valori assumibili dal parametro/i, usualmente incognito/i, . Come si avrà modo di verificare successivamente, tra gli indici caratteristici (misure di compattazione delle manifestazioni dei fenomeni di interesse) ed i parametri caratteristici, esiste una stretta relazione analitica. 3 Questa affermazione vale, ovviamente, anche quando s’introducono modelli analitici per rappresentare le relazioni (associazione) tra caratteri. 4 In queste note il carattere in grassetto sta ad indicare che il simbolo utilizzato fa riferimento ad un vettore e/o ad una matrice e non a uno scalare; nel caso specifico i simboli e Θ stanno ad indicare che si sta trattando di uno o più parametri. 5 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa Quando si ritiene opportuna l'introduzione di un modello analitico per rappresentare le manifestazioni di un fenomeno di interesse, si possono distinguere almeno due situazioni di mancanza di conoscenza: la prima situazione è quella caratterizzata da una conoscenza parziale della funzione f x ; 1 ,2 ,....,k f x ; nel senso che si conosce la forma analitica della funzione ma non si conosce il valore di tutti o di alcuni dei parametri che caratterizzano la funzione stessa, in questa circostanza si parla di inferenza statistica parametrica. La seconda situazione è quella di mancata conoscenza della forma analitica del modello, in questa circostanza si parla di inferenza statistica non parametrica. Una terza situazione, intermedia rispetto alle due precedenti, è quella in cui si specificano certe componenti del modello (ad esempio si suppone che la v.c. appartenga alla famiglia esponenziale ma non si specifica la sottofamiglia: forma funzionale della funzione di massa o di densità). Se si opera in tale contesto si parla di inferenza statistica semi-parametrica, nel senso che il modello statistico per l’analisi del fenomeno è specificato solo parzialmente. La dizione inferenza statistica non parametrica non è certamente la più appropriata in quanto interpretabile come se, in questo ambito, le procedure di statistica induttiva non riguardassero i parametri. Ovviamente, questa interpretazione è fuorviante, infatti, con la dizione “non parametrica” si vuole, molto semplicemente, caratterizzare le situazioni inferenziali nelle quali non si conosce la forma analitica e, ovviamente, il valore dei parametri caratteristici, elementi questi entrambi coinvolti nelle procedure inferenziali. La dizione corretta per caratterizzare tali situazioni è quella di inferenza statistica libera da distribuzione (distribution free). Ai problemi di stima e di test delle ipotesi, che in questo contesto possono riguardare i soli parametri caratteristici od anche la forma analitica del modello cui si ritiene opportuno fare ricorso, si aggiunge la necessità di procedere ad una misura e verifica della capacità (bontà) rappresentativa (adattamento) del modello stesso. La stima e il test delle ipotesi sono, in un contesto lievemente differente, gli stessi due problemi di stima e di verifica delle ipotesi sopra considerati. Uno degli aspetti più importanti di cui la statistica si occupa, è dunque quello dell'estensione di conclusioni da un campione di osservazioni alla popolazione o superpopolazione, nel caso in cui si procede all’impiego di modelli, dal quale il campione è stato estratto. Se si fa riferimento ai modelli, tale problema si risolverà nell'utilizzo dei dati campionari per la scelta, la modifica e la misura del grado di rappresentatività dei modelli, od anche, nella verifica di ipotesi statistiche sulla forma e/o sul valore dei parametri che caratterizzano i modelli stessi. 0.2 - Inferenza statistica bayesiana Le considerazioni fino ad ora svolte riguardano la cosiddetta inferenza statistica classica: in questo contesto, per pervenire a delle conclusioni sulla popolazione, o sulla sua rappresentazione attraverso un modello, si utilizzano i soli dati campionari (insieme 6 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa parziale di manifestazioni del fenomeno d’interesse). Un diverso modo per risolvere i problemi di induzione statistica è quello usualmente noto come approccio bayesiano all’inferenza statistica. L’elemento caratterizzante di questo approccio è l’utilizzo esplicito e formalizzato del bagaglio conoscitivo pregresso (informazioni a priori) sul fenomeno d’interesse. Si deve, però, sottolineare che l’elemento distintivo del ragionamento bayesiano non risiede tanto nell’utilizzo delle informazioni a priori (queste infatti vengono utilizzate, come si avrà modo di chiarire in seguito, anche nell’approccio classico all’inferenza statistica), quanto nel diverso modo attraverso il quale le informazioni a priori vengono utilizzate. Se si prevede l’impiego di modelli rappresentativi della realtà (del fenomeno e/o delle relazioni tra fenomeni), la conoscenza a priori si risolve nell’introduzione di una distribuzione di probabilità sul parametro o sui parametri caratteristici del modello che assumono, in tale ottica, la natura di variabili casuali e non più, come accade nell’ottica classica, quella di costanti incognite. Inferenza statistica bayesiana f 1 F f i P R f h C t 1 t i Informazioni a priori Rc t k Fig.0.4 - Rappresentazione grafica del processo di induzione statistica (inferenza bayesiana) In precedenza, trattando dei modelli rappresentativi dei fenomeni, in funzione del patrimonio conoscitivo disponibile si è operata la distinzione inferenza statistica classica parametrica, non parametrica e semiparametrica; analogamente, in funzione del patrimonio conoscitivo disponibile, si parlerà di inferenza statistica bayesiana parametrica, inferenza statistica bayesiana non parametrica e inferenza statistica bayesiana semiparametrica. 7 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa In altri termini, nel contesto classico, dato il modello f x ; per x S e Θ nel caso parametrico l’unica incognita è rappresentata dal parametro (o parametri) che lo caratterizzano e i dati campionari verranno utilizzati per trarre conclusioni su tale entità; nel caso non parametrico sono incognite sia il parametro (o parametri) che lo caratterizzano, sia la forma analitica f , del modello e i dati campionari verranno utilizzati per trarre conclusioni sia sulla forma analitiche sui parametri. Nel contesto bayesiano, dati i modelli5 f x , per x S e Θ dove , per Θ e rappresenta la distribuzione a priori del parametro (o parametri) , la dizione di inferenza bayesiana parametrica, non parametrica e semiparametrica, dipenderà dallo stato di conoscenza sulla forma analitica delle funzioni f x , e ; . 0.3 - Teoria statistica delle decisioni Per comprendere i fenomeni occorre procedere all’analisi delle loro manifestazioni, se ci si domanda poi per quale ragione si è interessati ad una tale comprensione, la risposta è che si può voler soddisfare una mera esigenza conoscitiva fine a se stessa, o che la conoscenza è finalizzata alla risoluzione di uno specifico problema decisionale. In un contesto decisionale, la scelta può riguardare gli aspetti più diversificati che vanno da quelli quotidiani più banali (dovendo raggiungere un luogo di lavoro o di studio distante dalla propria abitazione ci si può servire di un mezzo pubblico di trasporto o utilizzare l’automobile personale o chiamare un taxi; dovendo uscire di casa con tempo incerto si deve decidere se prendere o meno l’ombrello, ecc.), a quelli relativamente più complessi riguardanti, ad esempio, il gestore di una piccola attività commerciale (procedere o meno alla ristrutturazione, e in che modo, dei locali in cui si svolge l’attività commerciale, effettuare, e in che forma e tramite quale veicolo, o meno attività promozionali, e fino a che punto, e in che modo, ampliare la gamma di prodotti offerti, ecc.) fino a quelli più complessi ed articolati quali, ad esempio quelli propri delle imprese di medie e grandi dimensioni qualunque sia il settore di attività (procedere alla produzione di un nuovo modello, e quale, di automobile, scelta del processo 5 Si richiama l’attenzione sulla simbologia utilizzata: l’espressione con il punto e virgola come elemento separatore x ; indica che la prima entità è una variabile mentre la seconda è una costante, per contro quando l’elemento separatore è una virgola f x , entrambe le entità sono delle variabili. delle due entità dell’argomento f 8 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa produttivo più adeguato, procedere, come, dove e con quali dimensioni o meno all’impianto di un nuovo stabilimento, ecc.). Qualunque problema decisionale da risolvere, dal più banale al più complesso, richiede la chiara definizione del problema stesso e l’individuazione delle possibili relazioni che connettono i vari elementi o aspetti che lo caratterizzano. Il quadro logico di riferimento e le informazioni sono gli ingredienti essenziali di ogni processo decisionale, la teoria delle decisioni, la teoria statistica ed i metodi e i modelli sviluppati in questi ambiti disciplinari sono gli strumenti essenziali (e necessari) per lo svolgimento ottimale di ogni processo decisionale, decisioni che, come già sottolineato e come si avrà modo di verificare successivamente, devono essere nella generalità dei casi prese in situazioni di conoscenza parziale della realtà in cui si opera 6. Si è già detto che la disciplina che si occupa della raccolta e del trattamento scientifico dei dati statistici (manifestazioni dei fenomeni collettivi di interesse) è la Statistica, se poi le informazioni stesse devono essere utilizzate per risolvere uno specifico problema decisionale, cioè un problema che si risolve nella scelta ottimale di una tra diverse alternative a disposizione, allora il contesto di riferimento è la Teoria delle decisioni. Nella fusione delle due discipline si sostanzia un’altra disciplina scientifica: “La Teoria statistica delle decisioni” o “Teoria delle decisioni statistiche” che per certi versi può essere intesa come generalizzazione ed estensione della Statistica che in questo modo risulta anche meglio caratterizzata nelle sue diverse connotazioni e meglio precisata nei contenuti. In altri termini si può anche definire la statistica come il fondamento logico e metodologico per la risoluzione dei problemi decisionali. La teoria delle decisioni fissa principi razionali di comportamento che consentono la derivazione di regole di scelta ottimale. Gli sviluppi più recenti di tale teoria consentono anche di valutare e correggere eventuali incoerenze e contraddizioni nel comportamento dei decisori. E’ già stato sottolineato che nel contesto empirico l’elemento fondamentale di riferimento sono i dati statistici (disponibili o acquisibili) e che la statistica può essere identificata come la disciplina che tratta di metodi attraverso i quali i dati statistici, cioè le manifestazioni dei fenomeni di interesse, dovrebbero o potrebbero essere impiegati per ottenere, in funzione delle specificità del problema analizzato, una rappresentazione semplificata della realtà (i dati vengono trasformati in informazione) facendo emergere le caratteristiche che interessano in dipendenza degli obiettivi che s’intendono perseguire (l’informazione diventa conoscenza utilizzabile a fini decisionali). In tale ottica, assumono rilevanza ulteriori elementi quali l’esatta definizione della qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui modi di acquisizione e la valutazione dei costi connessi. 6 Come già sottolineato, due sono i motivi principali che determinano una conoscenza parziale della realtà: l’impossibilità o la non convenienza di acquisire tutte le informazioni relative agli aspetti che interessano pur essendo, almeno teoricamente, possibile una tale acquisizione, o la non disponibilità, neppure potenziale, delle informazioni, ed è questo il caso in cui le manifestazioni del fenomeno di interesse riguardano eventi futuri o sono rappresentate attraverso un modello analitico. 9 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa La statistica, che si occupa della raccolta e del trattamento finalizzato dei dati, entra, a pieno titolo, in ogni processo decisionale, finalizzato al conseguimento di uno specifico obiettivo, che prevede l’utilizzo di informazioni. Un processo nel quale: l’input (materia prima) è costituito da dati statistici riferiti ad una specifica realtà, della quale rappresentano qualitativamente e/o quantitativamente uno o più aspetti; la trasformazione avviene attraverso l’impiego di procedure e metodi analitici; l’output (prodotto) è la conoscenza del fenomeno indagato la cui natura e interpretazione dipende dagli input utilizzati e dal meccanismo logico e metodologico di elaborazione e dalle finalità che s’intendono perseguire. Da quanto sopra detto, emergono almeno tre insiemi di elementi caratteristici: un insieme di elementi che vengono introdotti quali input nel processo di trasformazione; un insieme di procedure di elaborazione; un insieme di prodotti costituito da tutte le modalità assumibili dai risultati conseguenti l’applicazione delle procedure. Si supponga ora che sia sempre possibile associare ad ogni prodotto la descrizione delle conseguenze che scaturiscono dalla scelta, le quali assumeranno una fisionomia particolare a seconda dell’oggetto del problema: se si tratta di operare una compattazione di dati osservati con l’obiettivo di mettere in risalto una caratteristica specifica del fenomeno, le conseguenze potranno essere descritte dalla perdita (di informazione) determinata dal processo, oppure, se il problema è finalizzato alla scelta di una modalità operativa, le conseguenze potranno essere identificate in perdite monetarie o di altra natura ed essere, eventualmente, collegate ad errori commessi nel processo di trasformazione. Risulta, pertanto, definito un quarto insieme di elementi: l’insieme delle conseguenze. Il criterio guida nell’operare la trasformazione dei dati consiste, per quanto possibile, nell’evitare conseguenze negative. Ne deriva che l’informazione circa le conseguenze assume una rilevanza esclusiva ed un ruolo condizionante rispetto ad ogni altra tipologia (disponibile) per la quale si renderà, appunto, necessario un confronto o, meglio, un’integrazione con i dati di perdita già definiti. La traccia originale viene, quindi, specificata e organizzata secondo lo schema seguente: avendo definito l’insieme dei risultati possibili (le informazioni finali) e avendo individuato le perdite corrispondenti, l’elaborazione deve essere effettuata avendo come obiettivo la minimizzazione della perdita. Considerando che, con l’impostazione sopra delineata, sulla base di una funzione di perdita viene selezionato l’elemento ottimo (quello cioè cui corrisponde la perdita minima), risulta naturale attribuire agli specifici elementi che costituiscono l’insieme dei prodotti l’identità di decisioni, nel senso che essi rappresentano le alternative possibili del risultato di un problema del quale è stato specificato l’obiettivo. Si può, 10 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa pertanto, accantonare l’espressione processo di trasformazione (compattazione) dei dati e fare riferimento al problema decisionale quale schematizzazione che prevede la lista di tutti gli esiti possibili e la scelta di quello ottimo secondo il criterio di minimizzazione della perdita. Assumendo come struttura di riferimento quella sopra introdotta è possibile formulare, senza perdere in generalità e senza condizionamenti, ogni problema statistico in termini decisionali. A proposito dell’ultima affermazione fatta, sorge una problematica di estrema rilevanza riguardo ai vantaggi e alle difficoltà, se non addirittura alla ragionevolezza, propri di una impostazione quale è quella decisionale. Alcuni autori ritengono l’impostazione decisionale applicabile ai soli problemi con finalità operative, altri considerano (come l’autore di queste note) la logica decisionale applicabile, secondo modalità particolari, a tutte le problematiche descrittive e/o inferenziali anche quando queste sono caratterizzate da finalità esclusivamente conoscitive, altri ancora ritengono la logica decisionale semplicistica ed oltremodo riduttiva. Gli elementi a sostegno dell’impostazione decisionale sono innumerevoli e di varia natura. Si può, innanzi tutto, osservare che la duplice finalità, conoscitiva ed operativa, assegnata alla statistica quale disciplina scientifica, con conseguente attribuzione dei problemi decisionali alla seconda finalità, si risolve, semplicemente, nella specificazione della duplice tipologia di prodotti che vanno a costituire l’insieme delle decisioni espresse come: azioni da intraprendere e da realizzare concretamente; affermazioni da formulare le quali, a loro volta, possono configurarsi come asserzioni che specificano la conformità dell’evidenza osservata nei confronti di una o più ipotesi assunte a priori; asserzioni che specificano la stima di una quantità incognita e/o l’adattamento di un modello teorico ad una specifica realtà di interesse, ecc.. Il problema si risolve sempre in una decisione, che poi questa sia orientata al cosa dire o al cosa fare è solo una questione di specificità della situazione in cui lo statistico opera. Se si parla poi di atti o decisioni in termini più generali, nel senso di scelte, la suddivisione diventa addirittura artificiosa se si pensa che ogni azione può essere considerata come l’effetto dell’affermazione: “ la decisione d” è la migliore possibile. Ne scaturisce, allora, una differenza solo verbale, terminologica e, quindi, non sostenibile dal punto di vista concettuale. Un altro rilevante aspetto che può consigliare la scelta decisionale, risiede nella logica interna propria della teoria statistica delle decisioni che induce a formulare ed interpretare correttamente un problema statistico. Si tratta di una correttezza che può essere ricondotta a due fatti essenziali: gli obiettivi che s’intendono perseguire e i dati utilizzabili. L’obiettivo della minimizzazione della perdita evidenzia, infatti, la parzialità e la particolarità del risultato che scaturisce dall’elaborazione: problemi 11 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa analoghi affrontati con specificazioni diverse della funzione di perdita possono condurre, anzi generalmente conducono, a conclusioni diverse in quanto collegate ad elementi diversi dell’insieme delle decisioni possibili. Quale soluzione è quella giusta è quale è quella sbagliata? Nessuna delle due, oppure entrambe se viste in ottiche diverse; il giudizio non deve essere formulato in termini di correttezza o errore, si può solo dire che, ritenendo valida (accettabile, verosimile) una struttura di perdita così come è rappresentata dalla funzione prescelta, la decisione migliore è quella che risulta dall’imposizione della condizione di perdita minima. L’ultima riflessione si ricollega alla necessità di attribuire ai dati una specifica forma per poter ottenere una rappresentazione (compattazione) degli stessi significativa. La realtà non è né descrivibile né rappresentabile senza ricorrere a schemi concettuali di riferimento e in corrispondenza di ognuno di essi si ottiene un risultato, evidentemente parziale e condizionato allo schema specificato. La logica decisionale, i cui risultati sono condizionati alla particolare funzione di perdita specificata, fa emergere in modo inequivocabile tale consapevolezza. Non è infrequente imbattersi in situazioni operative nelle quali la decisione si riflette sulla situazione reale determinandone in qualche modo i mutamenti, diventa allora indispensabile procedere ad una ulteriore approfondimento dell’analisi avendo come obiettivo l’individuazione dei nessi causali presenti nel contesto di interesse. A conclusione di questa introduzione si sottolinea che, sempre in funzione del contesto in cui si opera, si distinguerà la teoria statistica delle decisioni in classica e bayesiana che potrà essere ulteriormente distinta in causale o non causale7. 0.4 - Digressione: scale di misura Come sottolineato più volte, uno dei compiti principali della statistica è quello di descrivere i fenomeni collettivi come primo passo verso la loro spiegazione, cui si può pervenire anche applicando i metodi induttivi della statistica attraverso la verifica empirica di ipotesi sviluppate sul piano teorico. Ma il passaggio dal piano teorico a quello empirico non è per niente immediato; per poter connettere i concetti, sviluppati nel contesto teorico ed in quello empirico, risulta indispensabile operare delle scelte preliminari. Una di queste ha carattere fondamentale e riguarda il tipo di misura che si intende adottare come espressione delle manifestazioni dei fenomeni oggetto di indagine. La scala di misura non può che avere carattere convenzionale, e sarà tanto più efficace quanto più riesce a facilitare la spiegazione dei fenomeni. La classificazione secondo una scala di misura convenzionalmente scelta è l'operazione che accompagna il processo di osservazione ogni qual volta quest'ultimo si trasforma da occasionale in volontario e finalistico (osservazione scientifica). La classificazione pertanto rappresenta il primo stadio di ogni ricerca e consiste nel 7 Il lettore interessato ad un approfondimento dell’argomento può utilmente consultare , tra gli altri, Chiandotto (2012 e 2013). I due contributi sono riportati nella stessa pagina web di queste note. 12 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa raggruppare le manifestazioni dei fenomeni secondo una o più caratteristiche di interesse, decidendo quali manifestazioni devono considerarsi uguali e quali diverse. Per ciò che concerne l'operazione di classificazione secondo una scala di misura si distinguono, generalmente, quattro diversi livelli di misurazione; in questo contesto si parla di scale nominali, scale ordinali, scale di intervallo e scale razionali o di rapporto. La scala di rapporto rappresenta il più alto livello di misurazione, ha uno zero assoluto (non arbitrario) e possiede una unità di misura di tipo fisico scelta come elemento comune di riferimento. La scala di intervallo, che possiede tutte le proprietà delle scale nominali ed ordinali, si differenzia dalla scala di rapporto in quanto, pur possedendo una unità di misura di tipo fisico, lo zero in essa contenuto ha natura arbitraria. Sia le scale di rapporto che le scale di intervallo sono dunque espresse con una unità di misura fisica scelta come elemento di riferimento e in questo caso si parla di fenomeni misurabili, la diversità tra le due scale risiede nello zero scelto, che è assoluto nelle scale di rapporto (il numero di componenti di un nucleo familiare, l’utile conseguito da una azienda in un anno, ecc.), relativo nelle scale di intervallo (l’intensità dei terremoti espressa in scala Mercalli o Richter, la temperatura di un corpo espressa in gradi Celsius o Fahrenheit, ecc.). Sulle due scale è quindi possibile applicare le usuali operazioni aritmetiche di addizione, sottrazione, moltiplicazione e divisione, ma solo per i fenomeni le cui manifestazioni sono espresse con una scala di rapporto ha senso istituire, appunto, un rapporto tra diverse intensità di manifestazione; ad esempio, ha senso concludere che il salario del dipendente A, che percepisce 3.000 € al mese, è il doppio di quello del dipendente B, che ne percepisce 1.500, mentre non ha senso affermare che la temperatura del corpo A è il doppio di quella del corpo B se le due temperature sono, rispettivamente, pari a 10° e 5° gradi Celsius, mentre è del tutto sensato dire che la differenza di temperatura tra i due corpi è di 5° gradi Celsius. La scala ordinale consente un ordinamento delle manifestazioni dei fenomeni in funzione dell'entità posseduta di un certo carattere senza che sia possibile, peraltro, stabilire l'ammontare (intensità) del carattere posseduto; tale fatto pone le scale ordinali ad un livello inferiore rispetto alle scale di intervallo nelle quali è invece possibile misurare tale entità. Esempi di caratteri espressi in scala ordinale sono: il titolo di studio, il grado militare, la qualifica del personale, ecc. La scala nominale costituisce il più semplice livello di misurazione. Sotto il profilo formale le scale nominali possiedono unicamente le proprietà di simmetria e di transitività; da ciò deriva che relativamente alle manifestazioni di fenomeni classificate secondo una scala nominale si potrà semplicemente affermare se sono uguali o diverse. Esempi di caratteri in scala nominale sono: il sesso, il tipo di diploma di scuola media superiore, il settore merceologico, ecc. L'aver distinto i procedimenti di classificazione secondo una scala di misura è operazione tutt’altro che oziosa; infatti, è proprio la scala di misura adottata a condizionare la scelta dei metodi statistici (descrittivi, induttivi o decisionali) d'analisi più appropriati. 13 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa Con riferimento ai problemi di classificazione secondo la scala di misura adottata, va detto che gli statistici tendono usualmente ad operare una classificazione dicotoma dei fenomeni a seconda che le loro manifestazioni abbiano natura qualitativa (scale nominali ed ordinali) o quantitativa (scale di intervallo o di rapporto). Un tale fatto porta a distinguere, come già evidenziato nelle pagine precedenti, i fenomeni in mutabili8 e variabili a seconda che essi assumano, nelle loro manifestazioni, modalità qualitative o modalità quantitative. Un fenomeno variabile, e cioè un fenomeno classificato secondo le modalità quantitative di un suo carattere, può avere natura discreta o continua. Essendo il numero associato a ciascuna modalità misurabile di un certo carattere usualmente detto variabile, in seguito si parlerà semplicemente di variabili (discrete o continue) senza stare a specificare ogni volta che si sta trattando di un fenomeno classificato secondo le modalità quantitative di un suo carattere (discreto o continuo). Una variabile discreta può assumere soltanto un insieme finito o un’infinità numerabile di valori, mentre una variabile continua potrà assumere tutti i valori all'interno di un certo intervallo dell’asse reale. Sono variabili discrete il numero dei soggetti affetti da cancro polmonare, il numero degli abitanti di una certa regione, ecc.; sono variabili continue la temperatura di un corpo, l'età di un individuo, la velocità di un'automobile, ecc. In linea generale tutte le grandezze relative allo spazio (lunghezza, superficie, ecc.), al tempo (età, durata in vita, ecc.) e alla massa (peso, pressione arteriosa, ecc.), sono delle variabili continue 9. Si parla di mutabili o variabili semplici, quando un fenomeno risulta classificato secondo le modalità (qualitative o quantitative) di un solo carattere, si parla invece di mutabili/variabili multiple o multivariate o multidimensionali (vettori casuali), quando un fenomeno viene classificato secondo le modalità (qualitative o quantitative) di più caratteri; nel caso in cui si considerino, relativamente ad un certo fenomeno, caratteri aventi natura qualitativa e caratteri aventi natura quantitativa, si parla di variabili miste. 8 Si segnala in proposito che la dizione mutabile statistica è poco utilizzata. Quando il carattere di interesse ha natura qualitativa usualmente si parla di variabili qualitative od anche di dati categorici, espressi con scala nominale o ordinale. 9 Nel trattare le variabili casuali, cioè entità variabili che possono assumere un’infinità non numerabile di valori dell’asse reale si farà riferimento ai loro intervalli di definizione (supporto) utilizzando la seguente notazione: (a,b)=x a < x < b; [a,b]=x a x b; (a,b]=x a < x b; [a,b)=x a x < b. 14 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa Relazioni e scale di misura Relazione ci = cj ci cj ci cj Scala di misura Qualitativa Quantitativa Nominale Ordinale Intervallo Rapporto * * * * * * * * * * * ci - cj ci : cj * * * Conclusioni La Statistica quale disciplina scientifica, qualunque sia la sua connotazione di statistica descrittiva, statistica induttiva (inferenza statistica) o teoria statistica delle decisioni, deve necessariamente avvalersi della matematica (essendo essa stessa una disciplina matematica). Nel lettore di queste note didattiche si presuppone la conoscenza dell’analisi matematica nei connotati essenziali (calcolo differenziale ed integrale in una e più variabili) 10. Non si presuppone, invece, la conoscenza di quella parte della matematica che è nata e si è sviluppata per il trattamento scientifico dei contesti aleatori: “La Teoria delle probabilità”. Essendo l’aleatorietà la peculiarità intrinseca dell’oggetto di studio dell’inferenza statistica, il primo capitolo di queste note è dedicato alla trattazione sufficientemente estesa degli aspetti essenziali della probabilità vista però nelle sue caratterizzazioni strumentali preferendo, di conseguenza, la dizione di Calcolo delle probabilità a quella di Teoria delle probabilità. Nel primo capitolo, dedicato interamente alla probabilità, si procede alla introduzione delle variabili casuali (v.c.) e alla illustrazione dei modelli probabilistici (variabili casuali discrete e continue, semplici e multiple) di uso più frequente. Il secondo capitolo tratta del campionamento e delle distribuzioni campionarie. La stima (puntuale e di intervallo) e il test delle ipotesi sono oggetto, rispettivamente, del terzo e del quarto capitolo. La trattazione rientra nell’ambito della cosidetta Inferenza statistica classica parametrica mentre l’Inferenza statistica bayesiana parametrica viene trattata molto sommariamente nel sesto capitolo. Il quinto capitolo è dedicato ad uno dei temi 10 Per il lettore che ritiene di dover “rinfrescare” le proprie conoscenze matematiche un utile riferimento è Khuri (2003). 15 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 0. Premessa classici e più rilevanti dell’inferenza statistica: il modello statistico lineare (rappresentazione analitica delle relazioni tra caratteri). La rappresentazione analitica implica l’introduzione di modelli matematici che sono logicamente giustificati soltanto se si ritiene che la realtà d’interesse sia rappresentabile attraverso il modello stesso; se si ritiene, cioè, che il fenomeno o i fenomeni di riferimento siano governati da leggi esprimibili analiticamente ricordando che: All models are wrong but some are useful (Box, 1979)11. Il settimo e conclusivo capitolo è dedicato ad una sommaria esposizione della Teoria statistica delle decisioni12. 11 Molti anni prima di Box, Pompilj (1951) in un contributo sulla Logica della conformità, scrive: ”….. Voglio invece osservare che non solo la conformità è concettualmente diversa dalla plausibilità, ma che addirittura nel nostro ordine di idee, un problema della plausibilità o significatività non ha senso, perché non è lecito domandarsi se un modello è vero o falso quando si può sempre rispondere che, a stretto rigore, ogni modello è falso, in quanto non coincide con la realtà. Questo, naturalmente, non vuol dire che una teoria della significatività non abbia senso, ma solo che essa non può servire per discutere se il modello è vero,….”. ….. mentre invece il suo uso, correttamente fatto nell'ambito del modello, può diventare utilissimo, purché lo schema teorico di per se stesso già affermi che possono agire più cause e per di più fornisca tutti i dati necessari per una corretta applicazione di tali teorie, di modo che di volta in volta, e sempre relativamente al modello che sta alla base delle nostre indagini, si possa inferire, dall'esame dei risultati sperimentali, sulle cause che hanno agito. Ma fuori di questo modello, che deve essere considerato preesistente e indiscutibile, ogni indagine in tal senso risulta necessariamente vana!” Riguardo alle affermazioni di Box e Pompilj, occorre precisare che si tratta di riferimenti ad una particolare interpretazione del termine modello; in realtà, come si avrà modo di chiarire successivamente, alcuni modelli (probabilistici) non costituiscono una rappresentazione semplificata della realtà ma derivano dalla traduzione in termini analitici del processo generatore dei dati. 12 Gli argomenti illustrati in queste note sono trattati in forma più estesa, tra gli altri, in Mood, Graybill, Boes (1988); Piccolo (1998); Barnett (1999); Robert (2007); Rohatgi e Salek (2001); Gelman e al. (1995); Casella, Berger (2002), Keener (2010) e Olive (2014). 16 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Cap. 1 – Calcolo delle probabilità CAP. 1 – CALCOLO DELLE PROBABILITA’ Introduzione Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei fenomeni collettivi diventando presupposto essenziale della statistica e della teoria statistica delle decisioni. Il calcolo delle probabilità è una disciplina matematica astratta e altamente formalizzata pur conservando il suo originale e rilevante contenuto empirico. Per questa sua particolare natura l’esposizione dei suoi contenuti essenziali risulta facilitata dall’introduzione di definizioni esplicite relative agli aspetti e concetti che ne costituiscono il corpo. 1.1 - Alcuni concetti base Definizione 1: Si dice prova o esperimento casuale ogni operazione o attività il cui risultato non può essere previsto con certezza. Risulta chiaro che il termine prova o esperimento va qui inteso in senso lato, comprendendo in esso sia il lancio di un dado, sia l'estrazione di una pallina da un'urna, sia la rilevazione dei pesi dei coscritti alla leva, sia l’esito di una operazione chirurgica, sia la sperimentazione di un nuovo farmaco, sia il controllo dei pezzi prodotti da un certo macchinario ecc. Definizione 2: Si dice spazio campionario di un esperimento casuale l'insieme di tutti i possibili risultati (punti campionari), esaustivi e mutualmente escludentesi, dell'esperimento stesso. Di seguito si riportano alcuni esempi di esperimento casuale e di spazio campionario ad esso associato. Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio campionario è dato da = {T, C} = 1 , 2 dove T = 1 è il punto campionario testa e C = 2 è il punto campionario croce. 17 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 In questo esempio si è assunto che gli unici risultati possibili siano T e C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento casuale è = {T, C, B}= 1 , 2 , 3 dove B è il punto campionario “moneta in equilibrio sul bordo”. Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale sia un’operazione di finanziamento di una banca ad una impresa cliente, i cui risultati possibili sono la restituzione o meno del finanziamento concesso da parte dell’impresa. In tal caso, infatti, lo spazio campionario è dato da = {R, NR}= 1 , 2 dove R è il punto campionario finanziamento restituito e NR il punto campionario finanziamento non restituito. Nel caso in cui l'esperimento consiste nel controllo dei pezzi prodotti da un certo macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo prodotto, lo spazio campionario sarà composto dai soli due elementi (punti campionari) 1 e 2 , dove 1 rappresenta il pezzo difettoso ed 2 il pezzo non difettoso. Quando l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio campionario è dato da = {1, 2, …, 90}= 1 , 2 ,....., 90 costituito, come è ovvio, da tutti i numeri interi da 1 a 90; da rilevare che, in realtà, l’esito di questo esperimento casuale non è un numero ma una pallina contrassegnata da un numero, cosi come quando si lancia un dado, l’esito della prova non è un numero ma una faccia su cui sono riportati 1 o 2 ……..o 6 puntini. Quando l'esperimento consiste nell'estrazione di una pallina da un'urna che ne contiene n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio campionario resta definito da Ω ω1 ,ω2 ,..., ωi ,...,ωn dove i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione della pallina contrassegnata con il numero i. Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito internet oppure nel contare il numero di stelle presenti nell’universo, lo spazio campionario è dato da = {0, 1, 2, …, ∞} = ω1 ,ω2 ,..., . cioè, da tutti i numeri interi non negativi, dato che il numero di accessi o di stelle è un numero intero e non è possibile stabilirne a priori il valore massimo che per convenzione si pone uguale ad infinito. 18 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Infine, nel caso in cui l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio campionario è costituito da = {0,∞} cioè da numeri reali non negativi, dato che la durata è un numero che non può essere negativo. Si segnala che anche in questo caso l’estremo superiore pari a ∞ sta ad indicare che non è possibile stabilire la durata massima che, ovviamente, da un punto di vista empirico non potrà essere infinita. Negli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di notevole ausilio alcune formule combinatorie che facilitano notevolmente l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario. Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un numero finito di punti (come nel caso del lancio della moneta, dei pezzi buoni/difettosi, delle palline estratte da un’urna), oppure da un’infinità numerabile di punti (come nel caso del numero di accessi ad un sito internet), o infine da un’infinità non numerabile di punti (come nel caso del test di durata di un pneumatico). Definizione 3: Se lo spazio campionario è costituito da un numero finito o da un’infinità numerabile di punti campionari, si dice evento ogni sottoinsieme E dello spazio campionario . Se lo spazio campionario è costituito da un’infinità non numerabile di punti, non tutti i possibili sottoinsiemi di hanno la natura di eventi (si tratta di sottoinsiemi non misurabili1); in questa sede verranno, comunque, considerati soltanto i cosidetti sottoinsiemi misurabili di . Si può pertanto definire come evento qualunque sottoinsieme misurabile dello spazio campionario. Se, ad esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che ne contiene n, si può pensare di suddividere l'intero spazio campionario in due sottoinsiemi (eventi) Ω1 E1 ed Ω2 E2 contenenti, rispettivamente, i punti campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b) presentarsi di una pallina contrassegnata con un numero pari. 1 In matematica un insieme non-misurabile è un insieme la cui struttura è talmente complicata da impedire la possibilità di assegnare all’insieme stesso una misura significativa. Borel e Kolmogorov nelle loro formulazioni della teoria della probabilità hanno ristretto la classe dei possibili sottoinsiemi dell’asse reale che derivano da un insieme numerabile di operazioni di unione ed intersezione di intervalli aperti o chiusi dell’asse stesso, sottoinsiemi usualmente definiti come insiemi di Borel o Borelliani. Il primo esempio di insieme non misurabile è attribuito al matematico italiano Vitali (1905). Un esempio di insieme non misurabile è quello costituito dagli intervalli semiaperti (a,b]=x : a < x b ed anche [a,b)=x : a x < b. 19 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Sia i l’evento estrazione di pallina contrassegnata con il numero i , il sottoinsieme E = ( : i per i pari o dispari) = 1 , 2 ,...,i ,..., n = coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o contrassegnata con un numero dispari o contrassegnata con un numero pari. Il sottoinsieme E = ( : i per i pari e dispari) = è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da un numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero che è dispari e pari allo stesso tempo. L'evento così definito viene detto evento impossibile (si tratta dell'evento che non si potrà mai realizzare) e denotato con il simbolo . Gli eventi Ei i , per i = 1, 2,…, n, vengono detti eventi elementari in quanto costituiti da un solo punto campionario. Si consideri ora l’insieme B di tutti i possibili sottoinsiemi misurabili di , cioè l’insieme degli eventi, su questo insieme si può introdurre un'algebra, cioè un insieme di operazioni che soddisfano certe proprietà e che generano, come risultato delle operazioni stesse, ancora degli eventi, cioè elementi che appartengono allo stesso insieme B sui quali è stata introdotta l’algebra; si parla, in tal caso, di sistema chiuso rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di operazioni, si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di Boole completa o, più semplicemente, di -algebra o -campo. Definizione 4 - Si definisce come spazio degli eventi ed anche Algebra di Boole completa costruita su , (-algebra) l’insieme B di tutti i possibili sottoinsiemi misurabili di sul quale è stata introdotta un’algebra. Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto esposto in queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio campionario . Si ha così che l'evento certo (coincidente con l'intero spazio campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile rappresenta l'insieme vuoto. 20 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1.2 - Algebra degli eventi Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione (), quella di somma o unione (), quella di complementazione o negazione E e quella di differenza (-); si tratta delle stesse operazioni che, oltre al concetto di inclusione, verranno qui considerate in quanto costituenti parte essenziale dell'algebra degli eventi. Si dice che un evento E1 è incluso nell'evento E2, e si scrive E1 E2 se ogni punto campionario appartenente ad E1 appartiene anche ad E2. Due eventi E1 ed E2 sono, quindi, uguali se e solo se (sse) contemporaneamente E1 E2 ed E1 E2. Ovviamente, in questo caso i due eventi saranno costituiti dagli stessi punti campionari. Si definisce come negazione (complementazione nella teoria degli insiemi) di un evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E sarà pertanto, costituito da tutti i punti campionari di che non appartengono ad E. Nella figura sottostante vengono proposti graficamente (facendo ricorso ai diagrammi di Venn) il concetto di evento incluso e di evento negato. E1 E2 E2 Fig. 1.1 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta l’intero spazio campionario e E E . 1 2 L'intersezione tra due eventi E1 ed E2 è l'evento E3 = E1 E2 che si realizza quando si realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che appartengono sia ad E1 sia ad E2. L'unione tra due eventi E1 ed E2 è l'evento E4 = E1 E2 che resta definito da tutti i punti campionari che appartengono ad E1 o ad E2 o ad entrambi gli eventi E1 ed E2 , si tratta , cioè, dell’evento che si realizza quando si realizza almeno uno di due eventi E1 o E2 La differenza fra due eventi E1 ed E2 è l'evento E5 = E2 – E1 che risulta costituito dai punti campionari che appartengono ad E2 ma non a E1, si tratta, cioè, dell’evento che si realizza E2 ma non E1. La rappresentazione grafica tramite i diagrammi di Venn delle tre operazioni (intersezione, unione e diffrenza) è riportata nella figura sottostante 21 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 E3 E1 E2 E1 E2 E4 E1 E2 E5 Fig. 1.2 - Diagrammi di Venn per l’intersezione, l’unione e la differenzadove il tratteggio vuole evidenziare rispettivamente, l’evento E3 , nella prima figura, l’evento E4 nella seconda figura e l’evento E5 nella terza figura. Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori operazioni di unione e di differenza non essendo queste ultime operazioni concettualmente nuove; infatti: E1 E2 E1 E2 E2 E1 E1 E2 La relazione E1 E2 E1 E2 e la relazione duale E1 E2 E1 E2 non sono altro che la formulazione tramite la simbologia relativa alla teoria degli insiemi delle leggi di de Morgan. L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione, sia formale sia operativa, che esse comportano. Due eventi E1 e E2 si dicono incompatibili se la loro intersezione dà luogo all'evento impossibile E1 E2 = si tratta, quindi, di eventi che non hanno elementi (punti campionari) comuni. A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo sta ad indicare che l’evento E1 è contenuto nell’evento E2 (E1 sottoinsieme proprio di E2) e il simbolo rappresenta la relazione di implicazione (dalla prima relazione deriva necessariamente - è implicata - la seconda relazione): E1 E2 => E1 E2 = E1 E1 E2 => E1 E2 = E2 = E E = E=E 22 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 E =E E= E E = E E = E1 (E1 E2) E2 (E1 E2) (E1 E2) E1 (E1 E2) E2 Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento E1/E2 (e si legge l'evento E1 condizionato dall'evento E2 o, più semplicemente, l'evento E1 dato E2 ) va interpretato presupponendo già verificato l'evento condizionante E2. Il condizionamento degli eventi si risolve, praticamente, in una sorta di ridefinizione dello spazio campionario che da si trasforma nell'evento condizionante, o, in altre parole, è l'evento condizionante che assume la natura di spazio campionario di riferimento. E1 E2 Fig. 1.3 - Ridefinizione dello spazio per eventi condizionati Se si considera l'evento condizionato E1/E2 non solo E2 si trasforma in ma anche l'evento E1 si trasforma nell'evento E1 E2, in quanto, sapendo che l'evento E2 si è verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1 non appartengono ad E2. Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche a k (>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato l'evento E E = E1 E2 ... Ek k Ei i 1 che contiene tutti i punti campionari i (comuni ai k eventi E1,E2,….,Ek; mentre l'unione tra gli stessi k eventi, se necessari, dà come risultato l'evento E= E = = E1 E2 ... Ek = 23 k i 1 Ei B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 che contiene tutti i punti campionari i che appartengono ad almeno uno degli eventi Ei. Un caso particolare di eventi necessari E1,E2,….,Ek è rappresentato da una partizione dello spazio campionario, cioè, quando i k eventi sono necessari (un evento si deve necessariamente verificare) e incompatibili, cioè, quando = k i 1 Ei e Ei Ej= per i≠j. Le operazioni di unione e di intersezione soddisfano la proprietà associativa: E1 E2 E3 = (E1 E2) E3 = E1 (E2 E3) E1 E2 E3 = (E1 E2) E3 = E1 (E2 E3) e quella distributiva: E1 (E2 E3) = (E1 E2) (E1 E3) E1 (E2 E3) = (E1 E2) (E1 E3) La proprietà distributiva, dell’intersezione rispetto all’unione e dell’unione rispetto all’intersezione, per k eventi è espressa, rispettivamente, da k E (E1 E2 ... Ek) = E ( Ei) = i 1 k E (E1 E2 ... Ek) = E ( Ei ) = i 1 k i 1 k i 1 (E Ei) (E Ei) 1.3 - Probabilità Definizione 5: Si dice probabilità di un evento la funzione a valori reali P(E), definita sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio campionario, che soddisfa specifiche proprietà. I concetti (primitivi) prova o esperimento casuale, evento e probabilità sono collegati fra loro dalla seguente frase: "l'esperimento genera l'evento (elementare) con una certa probabilità"; dove, naturalmente, la probabilità va intesa come misura applicata agli eventi quando viene condotto un esperimento casuale. I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità. Si tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli studiosi dopo la sua formulazione da parte di Kolmogorov (1933)2. Si tratta infatti di una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui quali è più facile trovare l'accordo. Ma se da un lato il cosiddetto approccio assiomatico alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di sviluppo della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni operatività 2 Andrej Nikolaevič Kolmogorov - in russo: Андре́й Никола́евич Колмого́ро - (1933) Grundbegriffe der Wahrscheinlichkeitsrechnung. Julius Springer, Berlin. Il testo è stato tradotto in inglese con il titolo Foundations of the Theory of Probability (1956), 2a edizione. Chelsea Publishing Company, New York. 24 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 della definizione stessa in quanto non consente la derivazione numerica della misura di probabilità nei singoli casi concreti. Quando si vuol far ricorso alla probabilità per risolvere problemi reali si dovrà, quindi, fare necessariamente riferimento ad altre definizioni nelle quali l'aspetto semantico viene privilegiato. Prima di trattare della definizione assiomatica di probabilità conviene, pertanto, introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre le definizioni soddisfano ai postulati posti a base della definizione assiomatica di probabilità. Definizione classica (a priori) della probabilità La probabilità P(E) di un evento E è data dal rapporto tra il numero n E dei casi favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi siano egualmente possibili n numero dei casi favorevoli P( E ) E n numero dei casi possibili Esempio 1.1 L’azienda Lance Clothiers produce un’ampia varietà di abbigliamento maschile, tra cui camicie. Una volta prodotte, le camicie vengono ripiegate e impacchettate singolarmente da 10 macchine e, una volta raccolto il risultato di ciascuna macchina in cartoni, vengono spedite ai clienti. A seguito di un’ispezione di routine si scopre che una di queste 10 macchine non è messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni camicia sottoposta al processo di ripiegatura e impacchettamento. Prima dell’ ispezione, è stata inviata, a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10 provenienti dal macchinario difettoso. Qual è la probabilità che un cliente riceva il pacco contenente le camicie difettose? Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi contengono le camicie difettose (nE), allora, per la definizione classica di probabilità: P( E ) nE 10 0,10 , n 100 dove con E si indica l’evento “pacco contenente camicie difettose”. Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non si può definire un concetto utilizzando lo stesso concetto). Altre due critiche riguardano l’operatività della definizione; una volta superato lo scoglio logico, non sono affatto rare 25 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può effettuare una tale enumerazione, non è infrequente la circostanza in cui i casi non sono tutti ugualmente possibili. Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è stata introdotta una diversa definizione di probabilità. Definizione frequentista o statistica (a posteriori) della probabilità La probabilità di un evento ripetibile E è data dal rapporto tra il numero n E delle volte in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse condizioni) quando il numero delle prove stesse tende ad infinito n P(E) = lim E n n La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta di idealizzazione della frequenza relativa 3. Taluni autori ritengono, infatti, che probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano la frequenza relativa di un evento come misura approssimata (per n finito) della probabilità. Anche alla definizione frequentista sono state rivolte critiche di varia natura quale quella relativa al limite irraggiungibile (+) imposto al numero delle prove, ma ad una tale critica si risponde accettando la frequenza relativa di un numero finito (ma sufficientemente elevato) di prove come misura approssimata della probabilità. Molto più problematica è la risposta alla critica relativa alla ripetibilità delle prove (esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere all’effettuazione di alcuna prova. Esempio 1.2 La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo produce un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità seleziona casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente. Nell’ultima ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati). Qual è la probabilità che il processo produca un circuito difettoso? La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola prova di un esperimento, quindi 500 selezioni rappresentano 500 prove, cioè n = 500. Si indichi con E l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la probabilità che il processo produca un circuito difettoso, sulla base della definizione frequentista, è approssimata dalla frequenza relativa di E nelle 500 prove: 3 Nel contesto della statistica descrittiva, si definisce frequenza relativa il rapporto tra il numero delle unità statistiche caratterizzate da una specifica modalità del carattere in esame ed il numero totale delle unità statistiche osservate. 26 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità P( E ) Versione 2015 nE 15 0, 03. n 500 Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla definizione classica e alla definizione frequentista di probabilità è la definizione sotto riportata. Definizione soggettiva della probabilità La probabilità P(E) di un evento E viene definita come il grado di fiducia che un individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento in questione si realizzi. Si deve sottolineare che questa affermazione vale solo nel caso di individui con funzione di utilità lineare 4. Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima riguarda proprio la soggettività insita nella stessa definizione, la seconda è relativa alla difficoltà di traduzione in un valore numerico significativo del grado di fiducia. Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa in senso condizionato, cioè condizionatamente allo stato di informazione dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano l’esplicitazione del proprio grado di fiducia. Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura di probabilità si perviene attraverso l’attivazione di un processo relativamente semplice, almeno sul piano concettuale, che è quello di porre l’individuo di fronte ad una operazione di scommessa. Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione si farà riferimento negli sviluppi teorici che seguono. Alle tre definizioni non assiomatiche si farà, di volta in volta, riferimento nelle esemplificazioni delle argomentazioni teoriche. Definizione assiomatica di probabilità Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità. Assioma 1 - Gli eventi formano un’algebra di Boole completa Assioma 2 - La misura di probabilità di un evento P(E) è unica 4 Sul concetto di funzione di utilità si avrà modo di soffermare l’attenzione nel Cap. 7. 27 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Assioma 3 - La misura della probabilità di un evento è sempre non negativa P(E) 0 Assioma 4 - La probabilità dell’evento certo è uguale a 1 P( ) = 1 Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro intersezione è l’evento impossibile, allora la probabilità della loro unione è uguale alla somma delle probabilità dei singoli eventi (principio delle probabilità totali per eventi incompatibili o principio ristretto delle probabilità totali) P(E1 E2) = P(E1) + P(E2) per E1 E2 = Assioma 6 - La probabilità dell’evento condizionato E1/E2 è pari alla probabilità dell’intersezione dei due eventi rapportata alla probabilità dell’evento condizionante supposta maggiore di 0 P(E1 E 2 ) P(E1/E2) = per P(E2) > 0 P(E 2 ) L’ultima relazione può essere riscritta (principio delle probabilità composte) come: P(E1 E2) = P(E2) P(E1/E2) = PE2E1) = P(E1) P(E2/E1) In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo modifichi necessariamente la probabilità di realizzarsi di un altro evento E2, può accadere cioè che P(E1 / E2) = P(E1) in tal caso si ha (principio delle probabilità composte per eventi indipendenti o principio ristretto delle probabilità composte) P(E1 E2) = P(E1) P(E2) ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti stocasticamente, o indipendenti in probabilità). Il principio delle probabilità composte può riguardare anche un numero qualsiasi di eventi E1, E2, E3,..., si avrà allora P(E1 E2 E3 ...) = P(E1) P(E2/E1) P(E3/E1 E2) ... k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o probabilisticamente) mutualmente indipendenti se e solo se pr ogni sottoinsiemi di eventi la probabilità dell’intersezione è uguale al prodotto delle probabilità P(Ei Ej) = P(Ei) P(Ej) P(Ei Ej Eh) = P(Ei) P(Ej) P(Eh) ……………………………………….. P(E1 E2 Ek) = P(E1) P(E2)…….. P(Ek) Pertanto tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni P(E1 E2) = P(E1) P(E2) P(E1 E3) = P(E1) P(E3) P(E2 E3) = P(E2) P(E3) P(E1 E2 E3) = P(E1) P(E2) P(E3) 28 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le prime tre. Esempio 1.3 L’esperimento casuale consiste nel lancio di due dadi regolari contrassegnati, ciascuno, da un numero da 1 a 6 su ogni faccia. Si definiscono quindi i 3 eventi di interesse: E1= il risultato del lancio del I dado è pari E2= il risultato del lancio del II dado è dispari E3= la somma dei risultati del lancio dei due dadi è pari. Di seguito si riportano le probabilità ottenute: Gli eventi E1 ed E2 sono indipendenti, infatti P(E1 E2) = 9/36 =1/4 P(E1) P(E2) =1/2 * 1/2 =1/4 Gli eventi E1 ed E3 sono indipendenti, infatti P(E1 E3) = 9/36=1/4 P( E1 ) P( E3 ) 1/ 2 1/ 2 1/ 4 Gli eventi E2 ed E3 sono indipendenti, infatti P(E2 E3) = 9/36=1/4 P( E2 ) P( E3 ) 1/ 2 1/ 2 1/ 4 I tre eventi E1 , E2 ed E3 non sono peò indipendenti; infatti, se si realizzano l’evento E1 , E2, l’evento E3 non si può realizzare (è impossibile) P( E1 E2 E3 ) P( ) = 0. Si definiscono ora i 3 eventi di interesse: E1= il risultato del lancio del I dado è 1 o 2 o 3 E2= il risultato del lancio del I dado è 3 o 4 o 5 E3= la somma dei risultati del lancio dei due dadi è 9. Da cui E1 E2 3,1 , 3, 2 , 3,3 , 3, 4 , 3,5 , 3, 6 E1 E3 3, 6 E2 E3 3, 6 , 4,5 , 5, 4 E1 E2 E3 3, 6 Le probabilità sono 29 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1 1 , P E3 2 9 1 1 P E1 E2 P E1 P E2 6 4 1 1 P E1 E3 P E1 P E3 36 18 1 1 P E2 E3 P E2 P E3 12 18 1 P E1 E2 E3 P E1 P E2 P E3 . 36 P E1 P E2 Pertanto l’indipendenza tripla tra eventi non implica l’indipendenza tra coppie di eventi. Avendo definito la probabilità come funzione da applicare agli eventi dove, come precisato, l'evento è un qualunque sottoinsieme dello spazio campionario , cioè un elemento dell’insieme B (Algebra di Boole completa costruita su ), risulta facile dimostrare le relazioni (teoremi) seguenti: P( E ) 1 P(E) P(E) 1 P( ) = 0 E1 E2 => P(E1) < P(E2) P(E1 E2) = P(E1) + P(E2) - P(E1 E2) L'ultima relazione, detta anche (impropriamente perché non è una affermazione ma deriva da un teorema) principio delle probabilità totali, per k eventi diventa k k k 1 P Ei Σ PEi Σ i Σ j PEi E j Σ i Σ j Σ h PEi E j Eh 1 Ei i 1 i 1 e si riduce al postulato delle probabilità totali (Assioma 5) k k P Ei = P(E i ) i 1 i 1 quando i k eventi Ei sono tra loro incompatibili. La probabilità per eventi condizionati o, più semplicemente, la probabilità condizionata P(E1/E2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati formano un’algebra di Boole, inoltre P(E1/E) 0 P(E/E) = 1 P(E1 E2 .../E) = P(E1/E) + P(E2/E) +.... se gli eventi E1, E2,... sono incompatibili. Inoltre E1 E2 => P(E1/E) P(E2/E) 30 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 P( E1 /E) = 1 - P(E1/E) P(E1 E2/E) = P(E1/E) + P(E2/E) - P(E1 E2/E) Il principio delle probabilità composte può riguardare anche un numero qualsiasi di eventi E1, E2, E3,..., si avrà P(E1 E2 E3 ...) = P(E1) P(E2/E1) P(E3/E1 E2) ... Esempio 1.4 La società IMA produce componenti meccaniche per un cliente. Siccome i limiti di tolleranza specificati dal cliente sono piuttosto severi, la produzione di queste componenti è stata affidata a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte sono ispezionate e classificate come “buone” (G - good) o “difettose” (D). La seguente tabella riporta i dati relativi alla produzione di un giorno di lavoro: Macchinista Condizioni G D Totale A 80 20 100 B 88 12 100 Totale 168 32 200 Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al macchinista preposto al processo produttivo. Si determinano le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal macchinista A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G), dove G è l’evento “parte prodotta secondo le specifiche di tolleranza del cliente”; P(D), dove D è l’evento “parte difettosa”. P( A) 100 / 200 0,50 P(B) 100 / 200 0,50 P(G) 168 / 200 0,84 P(D) 32 / 200 0,16 Le probabilità congiunte dei vari eventi sono: P( A G ) 80 / 200 0,40 P( A D) 20 / 200 0,10 P( B G ) 88 / 200 0,44 P( B D) 12 / 200 0,06 Le probabilità condizionate dei vari eventi sono: P A G 0,40 0,80 P( A) 0,50 P A D 0,10 P A D 0,625 P( D ) 0,16 PG A 31 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 P A D 0,10 0,20 P( A) 0,50 PB G 0,44 PB G 0,524 P(G ) 0,84 PD A PB G 0,44 0,88 P( B ) 0,50 PD G 0,00 PG D 0,00 P ( D) 0,16 PG B Infine, si vuol capire se la condizione (buona / difettosa) di una parte prodotta è indipendente dal macchinista che la produce. Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la relazione che sussiste tra P(G A) e P(G) P( A) . Dai precedenti calcoli risulta P(G A) 80 / 200 0,40 P(G ) 168 / 200 0,84 P( A) 100 / 200 0,50 P(G ) P( A) 0,84 0,50 0,42 Siccome P(G A) P(G) P( A) A e G non sono statisticamente indipendenti, quindi il macchinista preposto al processo di produzione influenza la condizione buona o difettosa della parte prodotta. Alla stessa conclusione si perviene considerando le relazioni tra P( A G) e P( A) , dal momento che P(A G ) 80 / 168 0,48 e P( A) 100 / 200 0,50 P( A G ) P( A) Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le seguenti ulteriori relazioni: P( A D) P( A) P( B G ) P( B) P( D B) P( B) che confermano la dipendenza statistica tra operatore preposto al processo produttivo e risultato dello stesso. Esempio 1.5 L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto con uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al 1° luglio sussiste una certa incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto, 32 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio, come può essere stimata l’incertezza in questa situazione? Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine del mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si ottiene P( A B) P( A B) P( B) 3 / 4 2 / 3 0,50 Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in tempo e riesca a consegnare il materiale al cliente per la fine di luglio. Può essere interessante procedere al calcolo di ulteriori probabilità. Se si indica con B l’evento che le materie prime non arrivino in tempo si ha P( B ) = 1-2/3 =1/3. Se si ritiene che la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato entro il 15 le materie prime necessarie, sia P(A/ B ) = 1/5, applicando di nuovo il principio delle probabilità composte, si ottiene P( A B) P( A B) P( B) 1 / 5 1 / 3 0,0667 cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati per la scadenza contrattuale è pari al 6,67%. A questo punto, al management dell’azienda può essere utile conoscere la probabilità di terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica l’uno o si verifica l’altro), allora per il principio delle probabilità totali per eventi incompatibili, si ha P(A) P(A B) P(A B) 0,50 0,0667 0,5667 Quindi, la probabilità che la società Sigma riesca a rispettare i termini di esecuzione del contratto è pari al 56,67%. 1.4 - Formula di Bayes La formula di Bayes rappresenta un elemento teorico fondamentale nello sviluppo dell’Inferenza statistica e della Teoria statistica delle decisioni. Esso consente, infatti, al soggetto decisore di revisionare le informazioni a priori (aggiornamento della conoscenza) che lo stesso possiede sul fenomeno oggetto di studio attraverso le ulteriori informazioni acquisite tramite esperimenti campionari, in modo da ottenere informazioni (a posteriori) più affidabili e, quindi, più utili a fini decisionali. Si consideri una partizione dello spazio campionario in k eventi E1, E2, ... , Ei, ... , Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni Ei Ej = per i j = 1, 2, ...,k e 33 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 k E i = . i 1 Se E è un evento appartenente ad si ha k k E = E = E ( Ei ) = i 1 (E Ei) i1 e, per l'incompatibilità degli eventi Ei, anche k P(E) = P [ (E Ei)] = i 1 k P(E Ei). i 1 Inoltre, valendo le relazioni P(E Ej ) = P(Ej )P(E/ Ej ) = P(Ej E) = P(E) P(Ej /E) si avrà P(Ej /E) = P(E j ) P(E / E j ) P(E) P( E j ) P( E / E j ) k P( E ) P( E / E ) i 1 i i che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto, P(E j /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej ) rappresenta la probabilità a priori della stessa causa e P(E/Ej ) è detta probabilità probativa (verosimiglianza, nell’ambito dell’inferenza statistica, come si avrà modo di precisare in seguito) dell'evento E. E1 E3 E E4 E E2 E5 Fig. 1.4 - Partizione dello spazio campionario in cinque eventi E1, E2, E3, E4 ed E5 La formula di Bayes esprime in maniera molto semplice il processo di apprendimento dall'esperienza in contesti non deterministici. Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini di probabilità (a priori) P(E j), queste probabilità si trasformano, al verificarsi dell'evento E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(E j /E). Le probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una volta che sono state acquisite ulteriori informazioni relative ad una realizzazione di un esperimento casuale. 34 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.6 Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il 40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto ad errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati, in occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende al 50% per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di qualità sia stato trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato causato da un errore meccanico? Se si assume che: P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore meccanico; P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore umano; P(D/Em) = 0,90 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di una parte difettosa causata da errore meccanico; P(D/Eu) = 0,50 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di una parte difettosa causata da errore umano; P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata da errore meccanico. Applicando la formula di Bayes si ha: P Em / D P Em D P Em P D / E m P D P E m P D / E m P Eu P D / E u 0, 40 0,90 0,55 0, 40 0,90 0,60 0,50 Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al 55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è pari al 45% (=1- 0,55). La seguente tabella mostra le fasi dell’applicazione della formula di Bayes: Causa Ei Meccanica m Umana u Totale Prob. a priori P(Ei) Prob. Condiz. P(D/Ei) Prob. congiunte P(Ei) (D/Ei) Prob.a posteriori P(Ei/D) 0,40 0,60 1,00 0,90 0,50 0,36 0,30 0,66 0,55 0,45 1,00 35 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.7 Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3, A4, ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose che lo stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti difettose prodotte da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata acquistata un anno fa; 5% per A3 che è stata acquistata due anni fa; 10% per A4 che è operativa già da tre anni. Al termine del quarto anno di attività ogni macchinario viene rimpiazzato con uno nuovo. Per effettuare un controllo aggiuntivo, il responsabile della produzione seleziona casualmente un pezzo già pronto per la spedizione al cliente. Tale pezzo risulta difettoso: qual è la probabilità che il pezzo estratto casualmente sia stato prodotto dalla macchina A2, dato che risulta essere difettoso? Si ponga: P(D) = probabilità che sia osservata una parte difettosa P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa, dato che è stata prodotta dal macchinario i-esimo. In base ai dati del problema risulta: P(D/A1) = 0,00 P(D/A2) = 0,01 P(D/A3) = 0,05 P(D/A4) = 0,10 Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la probabilità a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al 25%, cioè: P(A1) = P(A2) = P(A3) = P(A4) = 0,25 quindi, P( D) P( A1 ) P( D A1 ) P( A2 ) P D A2 P A3 P D A3 P A4 P D A4 0, 25 0,00 0, 25 0,01 0, 25 0,05 0, 25 0,10 0,040 A questo punto si può applicare la formula di Bayes per determinare la probabilità a posteriori che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso: P A2 D P A2 P D A2 P D 0,25 0,01 0,0625 6,25% 0,04 La seguente tabella mostra il dettaglio dei passaggi svolti: Causa Ai A1 A2 A3 A4 Totali Prob.a priori P(Ai) 0,25 0,25 0,25 0,25 1,00 Prob.condizionate P(D/Ai) 0,00 0,01 0,05 0,10 Prob.congiunte P(Ai) P(D/Ai) 0,0000 0,0025 0,0125 0,0250 0,0400* Prob.a posteriori P(Ai/D) 0,0000 0,0625 0,3125 0,6250 1,0000 * Probabilità marginale: P(D) = 0,04 = probabilità che sia osservata una parte difettosa 36 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato campionario) sul risultato del problema. Le differenze registrate sono decisamente rilevanti: dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la probabilità che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal 25% al 62,5%, mentre la probabilità che una parte difettosa provenga dalla macchina A 1 scende dal 25% allo 0%. Fatto questo del tutto ragionevole se si tiene conto della circostanza che il numero di difetti dipende dall’età del macchinario. Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e dopo aver precisato che la tripletta (, B, P(.)) [dove: è lo spazio campionario (cioè l’insieme di tutti i punti campionari 1 , 2 ,... possibili risultati di un esperimento casuale), B è l’algebra di Boole completa costruita su e P(.) è una funzione definita su B che gode di particolari proprietà], viene detta spazio di probabilità o spazio probabilistico, si può procedere all'introduzione di due ulteriori concetti che possono essere ritenuti fondamentali nello sviluppo sia del calcolo delle probabilità sia della statistica. Il primo concetto è quello di "variabile casuale" o "variabile aleatoria" o "variabile stocastica" o "numero aleatorio", il secondo è quello di "funzione di distribuzione" o "funzione di ripartizione" o "funzione delle probabilità cumulate". 1.5 - Variabili casuali semplici Definizione 6 - Si dice variabile casuale, una funzione X (.) a valori reali definita sullo spazio campionario ; cioè ogni funzione che, soddisfacendo ad opportune condizioni (tali da preservare la struttura di B), associa ad ogni punto dello spazio campionario un numero reale. In termini più rigorosi, la funzione univoca X( ) definita su è una variabile casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la relazione A = ω Ω : X(ω) x B cioè se l’insieme A, costituito da tutti gli eventi elementari per i quali il valore assunto dalla funzione X( ) è minore od uguale ad un numero reale qualsiasi x, è un elemento di B, cioè un evento appartenente all’algebra. Le variabili casuali si distinguono in: discrete, se il codominio della funzione è costituito da un numero finito o da un'infinità numerabile di numeri reali; continue, se il codominio della funzione è costituito da un insieme continuo (e quindi non numerabile) di numeri reali. 37 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Definizione 7 - Si dice funzione di distribuzione della variabile casuale X, la funzione F(x) definita dalla relazione F(x) = P (X x) dove: x rappresenta un numero reale qualunque; P (X x) misura la probabilità con cui la variabile casuale X può assumere un valore inferiore od uguale al numero reale x. Da sottolineare che la funzione di distribuzione non rappresenta altro che la probabilità dell’evento A definito in precedenza; infatti: P(A) = P : X () x PX () x P( X x) . Se con x1, x2,...,xk, si indicano le possibili determinazioni distinte, ordinate in modo crescente, di una certa variabile casuale discreta X e con p1, p2,...,pk, le probabilità rispettive, si avrà F(xi) = P(X xi) = i i P(X = xj) = j 1 j 1 pj pj P X xj . dove La funzione f(xi ) che deriva dalla relazione f(xi ) = F(xi ) - F(xi-1 ) viene detta funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità variabile X ha di assumere la specifica determinazione xi ; infatti f (xi ) = F(xi ) - F(xi-1 ) = P (X xi ) - P (X xi-1 ) = P(X = xi ) per i = 1, 2, ... , k . Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente continua (si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia soddisfatta), esisterà la derivata d F ( x) f x . dx Si ricorda in proposito che le funzioni assolutamente continue sono funzioni uniformemente continue e derivabili quasi ovunque, cioè, derivabili in tutti i punti a meno di un insieme di punti con misura nulla. La funzione f(x) così definita viene detta funzione di densità di probabilità o più semplicemente funzione di densità. Si avrà quindi che x f(y) dy = F(x); inoltre f(x) dx = dF(x)= P x X x dx rappresenta la probabilità con cui una variabile casuale continua X assume valori all'interno dell'intervallino infinitesimo (x , x+dx). Per le v.c. continue la probabilità in un punto è sempre pari a zero. 38 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti (corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di probabilità, nel continuo, che identificano completamente le variabili casuali cui si riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri caratteristici. Per evidenziare tale fatto, si usa la notazione F x;1 ,2 , ... ,r F x; , f x;1 ,2 , ... ,r f x ; dove 1 ,2 , ... ,r è il vettore dei parametri caratteristici della funzione che, come si avrà modo di chiarire successivamente, viene anche detto modello probabilistico. Si richiama l’attenzione sulla punteggiatura introdotta per separare gli elementi che definiscono l’argomento della funzione: il punto e virgola separa la componente x, entità variabile, dalle altre componenti (parametri) che sono separate da una virgola e che, come si avrà modo di precisare in seguito, nel contesto dell’inferenza statistica classica sono entità costanti usualmente incognite. Il valore assunto da queste ultime entità individua il modello probabilistico specifico relativo alla famiglia definita dalla funzione F x; o f x; . Ripercorrendo il processo che ha portato alla definizione della funzione di distribuzione, della funzione di massa e di densità di probabilità, risulta immediata l’individuazione delle proprietà che tali funzioni soddisfano. Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1, x2,..., xi, ... , xk, (dove: xi< xi+1 e k può anche tendere al valore +), e che la variabile casuale continua X risulti definita nell’intervallo dell’asse reale (a,b), dove: a < b, a può tendere al valore - e b tendere al valore +, allora la funzione di distribuzione F(x): 1. assume valori nell’intervallo unitario 0 F(x) 1 2. il limite sinistro assume valore zero lim F(x) = 0 x 3. il limite destro assume valore uno lim F(x) = 1 x 4. è monotona non decrescente 5. è continua a destra nel caso discreto (i punti di discontinuità si collocano in corrispondenza dei valori x1, x2,..., xk assunti dalla variabile) ed è assolutamente continua (uniformemente continua e derivabile quasi ovunque) nel caso continuo. La funzione di massa di probabilità f xi , essendo una probabilità gode delle proprietà già considerate relativamente a tale entità, inoltre k f(x ) 1 . i 1 i La funzione di densità f(x) soddisfa le condizioni 39 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 f(x) 0 b a f ( x) dx 1 Da quanto è stato detto deriva che una variabile casuale è completamente individuata dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa rappresenta una formalizzazione astratta (modello) dell'insieme delle possibili manifestazioni di un certo fenomeno avente natura aleatoria. 1.6 - Valore atteso di funzioni di variabili casuali semplici Per particolari esigenze scientifiche ed operative si può essere interessati all’effettuazione di una rappresentazione sintetica delle manifestazioni di un certo fenomeno mediante indici caratteristici. Può, cioè, risultare conveniente, o sufficiente, descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad una sua rappresentazione completa mediante la funzione di distribuzione o la funzione di massa o di densità di probabilità. Successivamente si avrà modo di verificare la stretta relazione esistente tra parametri caratteristici e indici caratteristici di una distribuzione. Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla definizione di una nuova variabile casuale Y, cioè, se X è una v.c., anche Y =g(X) è una variabile casuale, che può essere sia discreta che continua, la cui funzione di massa di probabilità f yi o di densità (di probabilità) f y si ottiene attraverso appropriate trasformazioni della funzione di massa o di densità della v.c. X. Definizione 8: Si definisce valore atteso di una trasformazione Y g X - dove Y è una variabile casuale - di una variabile casuale X , con funzione di distribuzione F(x) , la quantità che risulta dalla relazione k E Y E g X g xi f xi nel discreto i 1 E Y E g X g x f x dx nel continuo5 5 Se si ricorre al così detto integrale di Lebesgue-Stieltjes non occorre distinguere il caso discreto dal caso continuo, basterà scrivere k g xi f ( xi ) E g ( X ) g x d F x i 1 LS b g x f ( x) dx a nel discreto nel continuo Il lettore interessato ad un approfondimento dell’argomento può consultare, tra gli altri, Royden (1963). 40 dove f xi è la funzione di massa di probabilità della variabile casuale discreta X che assume il valore xi con probabilità f xi , per i = 1, 2, ..., k ; mentre f x è la funzione di densità di probabilità della variabile casuale continua X , definita in un intervallo dell’asse reale a, b , anche - ∞,+ ∞ . Si può osservare come l’operatore valore atteso non richieda la derivazione della funzione di densità o di massa di probabilità della variabile casuale trasformata Y = g(X) e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione f(xi) nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni g1 (X) e g2(X) ancora variabili casuali E a g1 ( X ) b g2 ( X ) a E g1 ( X ) b E g2 ( X ) come si può verificare facilmente osservando le relazioni sotto riportate k E a g1 ( X ) b g2 ( X ) a g1 ( xi ) b g 2 ( xi ) f ( xi ) i 1 k k i 1 i 1 a g1 ( xi ) f ( xi ) b g 2 ( xi ) f ( xi ) a Eg1 ( X ) b Eg 2 ( X ) nel discreto e b E a g1 ( X ) b g 2 ( X ) a g1 ( x) b g 2 ( x) f ( x) dx a a g1 ( x) f ( x) dx b g 2 ( x) f ( x) dx a E g1 ( X ) b E g 2 ( X ) b b a a nel continuo. 41 42 Momenti rispetto all’origine Ponendo g(X) = Xr per r = 0, 1, 2 , ... si ha k r nel discreto xi f ( xi ) r E g ( X ) E ( X r ) i 1 b x r f ( x)dx nel continuo a che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto all’origine. Da rilevare che il momento di ordine 0 k f ( xi ) 1 nel discreto 0 E ( X 0 ) i 1 b f ( x) dx 1 nel continuo a è assolutamente non significativo risultando sempre uguale ad uno per qualunque variabile casuale. Particolare rilevanza assume il momento di ordine uno. k xi f ( xi ) 1 Eg ( X ) E ( X ) i 1 b x f ( x) dx a che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico (indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella variabile casuale. Altri momenti di un certo rilievo sono il momento secondo 2 , il momento terzo 3 ed il momento quarto 4 che evidenziano, come si avrà modo di sottolineare, la loro rilevanza in contesti diversi di sintesi delle variabili casuali. 43 Momenti rispetto alla media o momenti centrali Ponendo g(X) = ( X ) r , per r = 0, 1, ... dove 1 E ( X ) è il momento primo rispetto all’origine (media aritmetica) della variabile casuale X , si avrà k ( xi )r f ( xi ) nel discreto r E g ( X ) E ( X ) r i 1 b ( x ) r f ( x) dx nel continuo a che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media (aritmetica). Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento centrale di ordine uno; infatti 1 E g ( X ) E ( X ) E ( X ) E ( ) 0 per qualunque variabile casuale. La trasformazione g(X) = ( X ) rappresenta una traslazione dell’origine nel punto medio. La variabile casuale trasformata g(X) = ( X ) si indica usualmente con il simbolo S x ( X ) e viene detta variabile casuale scarto. Qualunque variabile casuale scarto ha, pertanto, il momento primo sempre uguale a zero; cioè la media aritmetica di una qualunque variabile casuale scarto è uguale a zero. Il momento centrale di ordine due 2 E g ( X ) E ( X )2 E( X 2 2 2X ) E( X 2 ) E( 2 ) 2E( X ) 2 2 2 2 2 2 2 viene denominato varianza ed assume una rilevanza tutta particolare in quanto è l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da sottolineare che il momento centrale di ordine due 2 , cioè la varianza 2 , è uguale al 44 momento secondo rispetto all’origine ( 2 ) meno il quadrato del momento primo rispetto all’origine ( 2 ) 2 2 2 12 Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati per sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla varianza di particolari trasformazioni di variabili casuali. Ad esempio, in molti contesti di ricerca, è necessario procedere ad una trasformazione lineare (trasformazione affine) della variabile X Y=a+bX Tale trasformazione rappresenta un cambiamento del sistema di riferimento che si risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è espressa la variabile. Se con x e x2 si indicano rispettivamente la media e la varianza della variabile casuale X, la media e la varianza della variabile casuale trasformata Y risultano dalle relazioni y E(Y ) E (a bX ) a b x y2 E (Y y ) 2 E (a bX a b x ) 2 E (bX b x ) 2 b 2 E ( X x ) 2 b 2 x2 cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla trasformazione lineare della media della variabile casuale originaria e la varianza di una trasformazione lineare di una variabile casuale è pari alla varianza della variabile casuale originaria moltiplicata per il quadrato del coefficiente della trasformazione. Momenti standardizzati Ponendo X gX , per r = 0, 1, ... dove: è il momento primo (media aritmetica) della variabile casuale X e la radice r quadrata positiva della sua varianza 2 , si ha k xi r f ( xi ) X r i 1 r E g ( X ) E b x r a f ( x)dx nel discreto per r = 1, 2, nel continuo che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r La trasformazione (lineare), standardizzazione 45 Zx X 1 X è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio, si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di variabilità che prende il nome di scostamento quadratico medio. Oltre ai momenti standardizzati di ordine zero 0 1 e di ordine uno 1 0 anche il momento standardizzato di ordine due è del tutto irrilevante; infatti X 2 1 1 2 2 2 E X 2 1 cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a uno. Particolare rilevanza assumono, invece, il momento terzo standardizzato 2 E 3 X 3 E X 3 3 E 3 1 3 che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento quarto standardizzato 4 X 4 E X 4 4 E 4 2 4 che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà analizzata nelle pagine successive) della distribuzione. Sui due indici di simmetria ( 1 ) e di curtosi ( 2 ) si avrà modo di tornare successivamente, dopo aver parlato della variabile casuale normale, mentre risulta conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti di tipicità delle variabili casuali: la moda e la mediana. Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si definisce come moda ( M o ) di una distribuzione il valore della modalità cui corrisponde la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più elevata. Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo che può essere esteso anche a situazioni in cui si considerano non solo il massimo assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi (massimi locali). Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili casuali è la mediana. Si definisce come mediana ( M e ) di una variabile casuale continua il valore centrale della distribuzione stessa; cioè il valore della modalità rispetto al quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di valori superiori. 46 Si può aver interesse al calcolo di altri valori (segnaletici) particolari. Se la variabile casuale è continua si considerano il valore che è preceduto dal 25% dei casi e seguito dal 75% dei casi (Q1 ) e quello preceduto dal 75% dei casi e seguito dal 25% dei casi (Q3 ) . I valori Q1 e Q3 vengono detti, rispettivamente, primo e terzo quartile; ovviamente il secondo quartile Q2 è uguale alla Mediana. In generale il p-esimo quantile, con 0 p1, è il valore, usualmente indicato con Qx(p), che soddisfa la relazione P X Qx(p) = p. Per le variabili casuali continue è sempre possibile operare la suddivisione con una proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra di Qx(p), mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere diversa da zero, pertanto la proporzione di valori a sinistra di Qx(p) può essere p e la proporzione di valori a destra di Qx(p) può essere (1-p). Può accadere, cioè, che non esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ). Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p valga per un intervallo di valori di x, in questo caso il quantile si ottiene calcolando la semisomma degli estremi dell’intervallo. Momenti fattoriali Ponendo g X X X 1 X 2 X r 1 , per r = 0, 1, ... si ottengono i momenti fattoriali di ordine r: r Eg ( X ) EX ( X 1) X - 2 X r 1 . Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto riportate; relazioni che consentono di derivare i momenti rispetto all’origine (in qualche caso di difficile computo) dai momenti fattoriali. 1 1 2 2 1 3 3 3 2 2 1 Funzione Generatrice dei Momenti Ponendo g X et X 47 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 dove e è la costante di Nepero, e la trasformazione è definita per ogni valore di t compreso nell’intervallo – h < t < h con h > 0, si ha mx (t ) E et X et xi f ( xi ) , se X è una v.c. discreta; k i 1 mx ( t ) E e t X e tx f ( x )dx , se X è una v.c. continua. che viene detta funzione generatrice dei momenti rispetto all’origine (trasformata di Laplace) della v.c. X. La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra questa una delle più rilevanti è quella di consentire il computo immediato dei momenti rispetto all’origine; infatti, se si sviluppa in serie e t X e tX X 2t 2 X 3t 3 1 X t 2! 3! si ha: 1 1 1 1 mx (t ) E et X E 1 X t ( X t )2 ( X t )3 .... 1 1t 2t 2 3t 3 .... 2! 3! 2! 3! da cui dr m x t t 0 per r = 1,2,…. dt r Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel punto t = 0 si ottiene il momento r-esimo rispetto all’origine. Ragionando in modo analogo, si possono definire la funzione generatrice dei momenti centrali e la funzione generatrice dei momenti standardizzati. La proprietà più rilevante della funzione generatrice dei momenti (quando esiste) è l’univocità, il che comporta l’identificazione univoca della v.c. di riferimento; esiste cioè una corrispondenza biunivoca tra la funzione generatrice dei momenti e la funzione di distribuzione e, quindi, tra funzione generatrice dei momenti e funzione di massa o di densità di probabilità. Una ulteriore importante proprietà della funzione generatrice dei momenti è quella della conservazione del limite. Sia X1, X2,…, Xn una successione di v.c. con funzione di distribuzione F(xn) e funzione generatrice dei momenti m xn t ; allora, se r lim F xn F x * n si dimostra che lim mxn t mx* t n Inoltre se m x t è la funzione generatrice dei momenti della v.c. X, allora ea mx bt è la funzione generatrice dei momenti della v.c. Y = a + b X . 48 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.11 Sia X una variabile casuale continua definita nell’intervallo ( 0,+ ) con funzione di densità di probabilità f ( x) e x ( v.c. esponenziale negativa) si ha: m(t ) E (e tX ) etx e x dx t 0 per t < I momenti rispetto all’origine sono dati da: m' ( t ) m' ' ( t ) 1 dm(t ) , quindi m' (0) E ( X ) 2 dt t 2 dm' (t ) 2 , quindi m' ' (0) E ( X ) 2 2 3 dt t Mentre il secondo momento centrale (varianza) è data da 2 2 12 2 2 1 2 1 2 Funzione Generatrice dei Momenti Fattoriali Ponendo g X t X , dove t assume valori in un intorno di 1 si ha m x (t ) E t X t xi f ( xi ) , se X è una v.c. discreta; k i 1 m x (t ) E t X t x f ( x)dx , se X è una v.c. continua. che viene detta funzione generatrice dei momenti fattoriali della v.c. X. La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il momento fattoriale di ordine r . r dr m x t / t 1 EX X - 1X - 2 X r 1 , per r = 0, 1, ... dt r . Funzione Caratteristica Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere, sia per v.c. discrete che possono assumere una infinità numerabile di valori diversi, sia per v.c. continue non essendo convergente la somma di infiniti termini o l’integrale. Se si pone g X ei t X 49 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 per ogni valore di t compreso nell’intervallo –h < t < h con h > 0 e i 1 è l’unità immaginaria, la funzione sotto definita esiste sempre mx (i t ) E ei t X ei t x f xi nel caso discreto i 1 mx (i t ) E ei t X e itx f x dx nel caso continuo infatti, se si considera, ad esempio il caso continuo si ha mx (i t) E ei t X E cos t X i sen t X e itx f x dx - cos t x f x dx i sen t x f x dx essendo cos t x e i sen t x assolutamente limitate, l’integrale sopra scritto è assolutamente convergente (si può quindi calcolare) per qualunque valore di t compreso tra e . La funzione sopra introdotta viene detta funzione caratteristica (trasformata di Fourier) della v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti ma, rispetto a quest’ultima funzione, ha l’ulteriore proprietà di esistere sempre. 1.7 - Variabili casuali discrete Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati particolarmente utili in vari campi della ricerca applicata. Tra questi, ne vengono presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo di distribuzione ad essi associata. 1.7.1 Distribuzione binomiale La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale. Essa può, quindi, essere considerata un eccellente modello probabilistico per molte situazioni reali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o contrari alla elezione diretta del presidente della repubblica), per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi difettosi), l’esito di una visita medica (sano o malato), ecc.. Serve cioè, in generale, nello studio di tutti quei fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno: "successo" o "insuccesso"; dove successo vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del presidente, pezzo regolare, ecc., mentre insuccesso vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso, ecc. 50 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non verificarsi dell'evento. Si consideri ora la variabile casuale X X , dove X indica il numero delle volte in cui l'evento E si presenta in n prove indipendenti. Per n = 1 si avrà che la variabile casuale X X , detta variabile casuale di Bernoulli e anche variabile casuale indicatore, potrà assumere unicamente i due valori 0 e 1, con probabilità P (X = 0) = q = 1 - p ; P (X = 1) = p La corrispondente funzione di massa di probabilità assume i valori f(0) = 1-p = q e f(1) = p, e può essere espressa dalla formula f(x) = f(x;p) = px (1-p)1-x = px q1-x per x = 0, 1 Per n qualsiasi, si avrà che la variabile casuale X (numero di successi in n prove indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che associa ad ogni possibile sequenza di successi ed insuccessi in n prove indipendenti, il numero x di successi che nelle n prove si sono verificati. La probabilità di x successi P(X = x) = f(x), cioè la funzione di massa di probabilità è data da n n n x f(x) = f(x;n,p) = p x 1 p p x q n x x x n n! dove rappresenta il numero di permutazioni con ripetizione di n x x ! n x ! oggetti, di cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro, e coincide con il numero delle combinazioni di n oggetti x a x. L'interpretazione della formula della funzione di massa di probabilità della variabile casuale cosi costruita (variabile casuale binomiale) è immediata: la probabilità di una specifica successione di x successi e (n-x) insuccessi indipendenti è pari a (principio delle probabilità composte per eventi indipendenti) p p p p q q q p x q n x ; xvolte ( n x ) volte non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero, tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi incompatibili) tante volte quante sono le permutazioni con ripetizione di n oggetti di cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro. Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x) rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti n n x n x p q ( p q) n 1n 1 x 0 x 51 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 La media e la varianza della distribuzione binomiale sono date rispettivamente dalle uguaglianze n n n x f ( x; n, p) x p x q n x np x 0 x 0 x n n n x 0 x 0 2 ( x )2 f ( x; n, p) ( x np) 2 p x q n x npq x Dimostrazione: = n p n n n n n(n 1)! E ( X ) x f ( x; n, p) x p x qn x x p p x 1qn1( x1) x( x 1)! n 1 ( x 1)! x 0 x 0 x 1 x ponendo n-1 = m e x-1 = y, si ha m m! np p y qm y np( p q)m np 1 np y 0 y !( m y )! Bin om io di Newton Dimostrazione: 2 = n p q 2 2 2 2 n 2 p 2 n n x 0 n n x 0 2 E ( X 2 ) x 2 p x q n x x x 1 1 p x q n x x x n n x( x 1) x p q x n x x 0 n x p x qn x x 0 x n np n x x 1 x 2 m n(n 1) y 0 n( n 1)( n 2)! p x q n x np x ( x 1)( x 2)! n 2 x 2 ! m m! m! p 2 p y q m y np n(n 1) p 2 p y q m y np y ! ( m y )! y !( m y )! y 0 Binomio di Newton n(n 1) p 2 np n 2 p 2 np 2 np n 2 p 2 n p 1 p n 2 p 2 npq dove y = x-2 e m = n-2, da cui: 2 2 2 2 n 2 p 2 n 2 p 2 npq n 2 p 2 npq La funzione generatrice dei momenti della v.c. binomiale è data da n n x n n mx t E etX et x p x q n x et p q n x p et q x 0 x 0 x x dalla quale si deducono facilmente i momenti 52 n B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 n 1 d mx t / t 0 n p e t p e t q / t 0 n p dt n 1 n2 d2 μ2 2 mx t / t 0 n p et p et q n (n - 1 ) p et p et q p et / t 0 dt n p n n - 1 p 2 n 2 p 2 n p 1 - p n 2 p 2 n p q μ1 Var(X) σ 2 μ2 μ12 n 2 p 2 n p q - n 2 p 2 n p q Distribuzione binomiale relativa Si consideri la variabile casuale binomiale X specificata dai parametri n e p , se si opera la X si ottiene una nuova variabile, denominata distribuzione n 1 2 binomiale relativa, che potrà assumere i valori 0, , ,...., 1 con probabilità n n X x P Y y P P X x n n La funzione generatrice dei momenti di questa v.c. è espressa da trasformazione Y g X t tX tX my t E e E e n E e n p e n q da questa espressione si derivano facilmente i momenti n tY t d d 1 nt t n μ1 m y t / t 0 mx / t 0 n p e p e q dt dt n n n 1 / t 0 p n 1 n 2 t t t d2 1 nt 1 nt n n μ2 2 m y t / t 0 p e p e q (n - 1 ) p e p e q p e n / t 0 dt n n p 1 p p2 pq n - 1 p 2 p 2 p2 n n n n n pq pq - p2 n n Un modo più rapido per derivare media e varianza della distribuzione binomiale relativa è, ovviamente, quello di ricorrere all'operatore lineare valore atteso, infatti si ha X 1 E Y E n p p n n Var(X) σ 2 μ2 μ12 p 2 X Var Y Var n pq 1 2 n p q n n 53 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.12 Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1-p = 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno un maschio, b) almeno un maschio ed una femmina. a) Almeno un maschio Poichè si ha 4 0 P (0 maschi) = 0,50 0,54 1 16 P (1 maschio) = 0,51 0,53 4 1 1 4 P (2 maschi) = 0,52 0,52 4 2 3 8 4 3 1 4 4 4 1 16 P (3 maschi) = 0,53 0,51 P (4 maschi) = 0,54 0,50 la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) = 1 3 1 1 15 . 4 8 4 16 16 Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a quello che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che sottratta alla unità fornisce il risultato; si avrà 4 0 P ( almeno un maschio ) = 1 - P ( nessun maschio) = 1 0,5 0 0,5 4 1 1 15 16 16 b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà P ( almeno un maschio ed una femmina ) = 1 – P ( nessun maschio oppure nessuna femmina )= 1 - P ( nessun maschio ) - P (nessuna femmina) = 1 1 1 14 7 . 16 16 16 8 Esempio 1.13 In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie da sottoporre ad esperimento) capace di soddisfare la disuguaglianza. P (X 2) > 0,80 dove X sta per il numero di cavie che sopravvivono all'esperimento. Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico successo significa cavia sopravvissuta) ed n = 7, si ha 54 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 7 7 P( X 2) 1 P( X 0) P( X 1) 1 0,40 0 0,60 7 0,401 0,60 6 0,84 0 1 Per p = 0,4 ed n = 6, si ha 6 6 P( X 2) 1 P( X 0) P( X 1) 1 0, 400 0,606 0, 401 0,605 0,77 0 1 Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7. Esempio 1.14 Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in cui le temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa. Qual è la probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente per meno di 11 giorni durante il mese di gennaio? Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente (successo), n 18 e p 0.80 si ha: 10 18 P( X 10) P( X 0) P( X 1) ... P( X 10) 0.8x 0.218 x 0.0163 x 0 x Esempio 1.15 Soltanto il 45% delle borse prodotte dall’azienda Alfa rispetta i requisiti base di soddisfazione del cliente. Qual è la probabilità che, considerato un campione di 20 borse selezionate casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima soddisfazione? Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità” (successo), n = 20 e p = 0,45 (probabilità di un successo), allora si ha: 15 P(11 ≤ X ≤15) = P( X =11)+…………+ P( X =15) = 20 x 0, 45 0,55 x n x = 0,24775 x 11 Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i requisiti di soddisfazione minima del cliente è del 25%. Esempio 1.16 Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur avendo già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti vuoti, esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire tutti i posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando 55 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 che ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con una probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%. Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia aerea vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco; II) la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti. Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha: I) P(X ≥ 206 ) = P(X =206)+… …+ P( X =215) = 215 x n x 0,95 0,05 = 0,363 x x 206 II) P(X ≥ 201 ) = P(X =201)+… …+ P( X =215) = 215 0,95x 0,05n x = 0,877 x 201 x 215 215 III) P(X ≥ 195) = P(X =195)+……+ P( X =215) = 215 x n x 0,95 0,05 = 0,997 x x 195 IV ) P(X ≥ 190) = P(X =190)+……+ P( X =215) = 215 0,95x 0,05n x = 0,999. x 190 x 215 215 1.7.2 Distribuzione ipergeometrica Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la distribuzione binomiale proponendo l'interpretazione che si rifà al linguaggio dell'estrazione casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso campo di applicabilità della distribuzione binomiale e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle singole prove non possono essere considerati indipendenti. Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La K . probabilità di estrarre pallina bianca in una prova sarà p = N Come già detto in precedenza, se si effettuano n estrazioni con ripetizione (cioè con reinserimento della pallina nell’urna) la probabilità di ottenere esattamente x palline bianche, nelle n prove, è data da x n x n K K n P( X x) f ( x) 1 p x q n x x N N x cioè, l'estrazione con ripetizione (campionamento bernoulliano) conduce alla distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere ogni volta la pallina estratta nell'urna (campionamento esaustivo o campionamento senza ripetizione); in questa situazione la probabilità di estrarre esattamente x palline bianche è data da 56 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 K N K x nx per max [ 0,n - (N - K) ] x min [n, K] f ( x) f ( x; n, K , N ) N n Infatti, se n > K, X potrà assumere al massimo il valore K, inoltre se n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K). Naturalmente K N K min n , K min n , K x nx f ( x; n, K , N ) 1 N max 0, n N K max 0, n N K n Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni successione di n palline di cui x bianche e n-x nere costituisce una partizione dello spazio campionario in eventi elementari equiprobabili, per cui è sufficiente fare il rapporto tra il numero di eventi favorevoli (cioè il numero delle sequenze contenenti esattamente x palline bianche) e il numero complessivo di eventi elementari (cioè il numero di tutte le possibili sequenze di N palline ad n ad n). Gli eventi favorevoli affinché si verifichi X = x sono quelli che contengono x K palline bianche scelte tra le K esistenti e sono in numero di , moltiplicati per tutti x quelli che contengono le rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che N K K N K . Quindi, i casi favorevoli sono sono in numero di , mentre i nx x nx N casi possibili sono tutte le combinazioni di N palline prese ad n ad n, cioè . Da ciò n deriva la formula precedente che definisce la distribuzione di probabilità di una v.c. ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo aver opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel seguente modo: K N K K! ( N K )! x n x x ! ( K x )! (n x )! ( N K n x )! f ( x ) f ( x; n , K , N ) N! N n n ! ( N n )! n K K 1 K x 1 N K N K 1 N K n x 1 ........ ...... N x 1 N x N x 1 N n 1 x N N 1 A meno del coefficiente binomiale, l’ultima espressione è pari al prodotto delle probabilità che la prima pallina estratta sia bianca, per la probabilità che la seconda sia bianca dato che la prima è bianca, …., per la probabilità che la x-esima pallina sia 57 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 bianca dato che le precedenti sono state bianche, per la probabilità che (x+1)-esima pallina sia nera dato che si sono verificate x palline bianche, …., per la probabilità che l‘n-esima sia nera dato che in precedenza si sono verificate x bianche e (n-x+1) nere. Tale probabilità, cioè quella della sequenza ordinata di x palline bianche (n-x) nere, va ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però n sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto . x La media e la varianza della distribuzione che ha la funzione di massa di probabilità sopra indicata e che viene detta ipergeometrica, sono definite dalle relazioni di seguito riportate dove, per semplicità di notazione, si è ipotizzata la possibilità che la variabile X possa assumere i valori 0 ed n ; ovviamente, se l’ipotesi non è soddisfatta basterà sostituire gli estremi 0 ed n con i valori max [ 0,n - (N - K) ] e min [n, K] K N K K K 1 x nx n x x x 1 x f ( x; n , K , N ) x N N x 0 x 0 x 1 n n n n K N n n x 1 K 1 N 1 ( K 1) x 1 n 1 ( x 1) n K n p N 1 N n 1 58 N 1 ( K 1) n 1 ( x 1) N 1 n 1 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità n 2 x n 2 f ( x; n , K , N ) x 0 n x 1 n x 2 x x 0 2 Versione 2015 K N K x nx N n K K 1 K 2 x x 1 x 2 x x 1 x N N 1 n n 1 K K 1 K 2 x x 1 x 2 x x 1 N N 1 n n 1 N 2 ( K 2) n 2 ( x 2) N 2 n2 N 2 ( K 2) n 2 ( x 2) N 2 n2 n x 1 K 1 K x 1 N n K 2 N 2 ( K 2) x 2 n 2 ( x 2) K K 1 n K K K 1 n n 1 N 2 N N 1 N N N 1 x 2 n2 K N K 2 n n nK x n x N n K 2 2 ( x ) f ( x; n , K , N ) x n N N 1 N N x 0 x 0 n n N 1 ( K 1) n 1 ( x 1) N 1 n 1 n n 1 n K N N n K 1 n p q N 1 N od anche K K 1 K K2 K K 1 K n n 1 n n 2 2 n n 1 1 n N N 1 N N N N 1 N K N n 1 K N K 1 n 1 N N 1 n K N 1 K N n pq N n n n N N N 1) N N 1 N 1 2 2 2 N n ( 1) viene usualmente detto fattore di correzione (per il N 1 campionamento senza ripetizione). Si osservi che, se n = 1, allora la varianza della v.c. ipergeometrica coincide esattamente con quella della binomiale (v.c di Bernoulli): infatti, estraendo una sola pallina è del tutto irrilevante il fatto che essa venga reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso in cui N N n tende ad infinito, infatti, il fattore di correzione tende ad 1. N 1 Il fattore Si procede alla dimostrazione della relazione 59 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 K N K x nx 1 f ( x; n , K , N ) N max 0,n N K n min n , K min n , K max 0,n N K ipotizzando, anche in questo caso per semplificare la notazione algebrica, che i limiti della sommatoria siano pari a 0 ed n, si dimostra quindi l’uguaglianza K N K n x n x 1 N x 0 n Si consideri l’identità 1 a K r K r K r y a y y 0 Ponendo y K - x si ha 1 a K r K K r K x a xr K x inoltre N K N K s a s s 0 Se si moltiplicano membro a membro le due identità si ha 1 a 1 a K x r K x r K r N K 1 a N K N K 1 a N K K r K x K x a s 0 N K K r N K x s 0 N r N K a N K s s K N xs a s ponendo N-x-s = t , si ha 1 a N r N r N t K r N K t K x N x t a xr t 0 ma 1 a N r N r N r t t 0 at Per il principio d’identità dei polinomi vale l’uguaglianza 60 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 N t K r K x xr ponendo r N K N x t 0 e t N -n K K x x o ed anche N K n x n K x x o cioè n n x o K x N K n x N r t si ha N N n N n N K n x 1 N n Al crescere della dimensione della popolazione ( N ) la distribuzione ipergeometrica tende alla distribuzione binomiale, risultato questo facilmente intuibile se si considera una popolazione molto numerosa dove la presenza o assenza (reimmisione o non reimmissione della pallina estratta) non modifica sostanzialmente le probabilità di estrazione. Ovviamente, l’approssimazione è tanto più buona quanto più elevato il valore assunto da N e quanto più piccolo è il valore assunto da n. K N K x nx lim f ( x ) lim f ( x; n, K , N ) lim N N N N n n K K 1 K x 1 N K N K 1 N K n x 1 lim ........ ...... N x N x 1 N x N x 1 N n 1 N N 1 n K / N ( K 1) / N ( K x 1) / N ( N K ) / N ( N K n x 1) / N lim ........ ...... ( N x 1) / N ( N x ) / N ( N n 1) / N x N N / N ( N 1) / N n p 1/ N p ( x 1) / N 1 p 1 p (n x 1) / N lim p ........ ...... N 11/ N 1 ( x 1) / N 1 x / N 1 ( n 1) / N x n n n x p x 1 p p x q n x x x La funzione generatrice dei momenti della v.c. ipergeometrica non è utile. Esempio 1.17 Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono a pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona casualmente tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti. Qual è la probabilità che l’assicuratore venda una polizza ad una delle tre persone che incontrerà? 61 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte, si ha n = 3. Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da: K N K 4 6 x n x 1 2 60 0,50 . P x 1 120 N 10 n 3 Esempio 1.18 Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il manager responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20 prodotti e ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione contenga I) esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose? La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa essere difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione estratto consiste di 5 pezzi, quindi n = 5. Ricapitolando: N = 20, K = 6, n = 5 I) K N K 6 14 x n x 2 3 0,352 35, 2% P x 2 N 20 n 5 II) Px 2 P( x 2) P( x 1) P( x 0) f (2) f (1) f (0) 6 14 1 4 f(2) =0.352, f (1) 0,387 , f (0) 20 5 6 14 0 5 0,129 20 5 P x 2 f (2) f (1) f (0) 0,352 0,387 0,129 0,868 86,8% . 1.7.3 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari) A differenza delle precedenti variabili casuali, la distribuzione di Poisson non è generata direttamente da una successione di prove Bernoulliane (se non come processo limite) ma riguarda il numero di eventi registrati in un ambito circoscritto di tipo temporale, spaziale, concettuale; cioè, si parla di variabile casuale di Poisson quando interessa conoscere il numero X di eventi (accadimenti, successi,…) che si verificano in uno specifico intervallo di tempo o di spazio o di circostanze. Per es., si distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello 62 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 bancario ogni giorno, il numero di chiamate che arriva ad un centralino ogni 10 minuti, il numero di auto in attesa al casello autostradale ogni minuto, il numero di incidenti mortali tra gli operai addetti ad un certo processo chimico pericoloso per ogni impianto funzionante, il numero di pezzi difettosi prodotti da ciascun macchinario di un’azienda ecc. La funzione di massa di probabilità della v.c. di Poisson è data da f ( x) f ( x; ) x e per x = 0, 1, 2 ... x! (dove e è la costante di Nepero e un numero reale positivo). Naturalmente la somma delle probabilità, per questa particolare variabile casuale discreta che può assumere l'infinità (numerabile) di valori diversi 0, 1, 2,... , è pari ad 1 x e x 0 x 0 x! f ( x; ) x x 0 x! e e e 1 La media e la varianza sono date da x e x 0 x 0 x! xf ( x; ) x x x 1 x 1e x x 1! y e y 0 y! dove y=x-1. x e x 0 x 0 x! 2 ( x ) 2 f ( x; ) ( x ) 2 x e x 0 x! x2 x x 1 x x 0 x x 1 x 0 2 y 0 y e y! x e x 0 x! 2 x e x! x e x 0 x! 2 x 2 2 e x x( x 1) x 2 ! x e x 0 x! x 2 + 2 dove y=x-2. Dalle uguaglianze sopra riportate risulta che l’unico parametro caratterizzante la distribuzione di Poisson coincide con la media e la varianza della variabile casuale stessa. I momenti possono essere più facilmente derivati se si considera la funzione generatrice dei momenti: 63 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 et t et 1 etx e x tX mx (t ) E ( e ) e e e e e x! x! x 0 x 0 et 1 d 1 mx t / t 0 e e t / t 0 dt et 1 et 1 d2 2 2 m x t / t 0 e e t e t e e t / t 0 2 dt Var ( X ) 2 2 12 2 2 x Esempio 1.19 Il dipartimento per il controllo di qualità della Shirt Manufacturing Company rileva che per ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in quanto presentano delle imperfezioni nelle cuciture. L’azienda ha in programma 2 spedizioni ad un cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la sostituzione? p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005 n = numero totale di magliette prese in considerazione = 2 10000 = 20.000 = numero medio di magliette difettose = n p 20000 0.0005 10 x = numero di magliette difettose > 10 Quindi: xe x! x 0 10 P( x 10) P( x 11) P( x 12) ... 1 P( x 10) 1 10 x e 10 1 1 0,583 0,417 41,7% x! x 0 10 . Esempio 1.20 Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori di ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, vuole garantirsi una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra vuole evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non vendute in tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel risolvere tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto ciò di cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media mensile ( ) è approssimativamente 17 unità. Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I) inferiore o uguale alle 20 unità e II) sia compresa tra le 10 e le 15 unità. 20 x e x 0 x! P( x 20) P(10 x 15) 15 x e x 10 x! 17 x e 17 0.806 80.6% x! x 0 20 17 x e 17 0.345 34.5% . x! x 10 15 64 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Distribuzione di Poisson come limite della distribuzione binomiale La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta una conveniente approssimazione della distribuzione binomiale nel caso in cui il numero delle prove n sia abbastanza elevato (in genere si assume n 100 ) e la probabilità che l'evento si presenti in una singola prova sia sufficientemente prossima allo 0. L’approssimazione è giustificata in quanto si dimostra che la legge di distribuzione di Poisson può essere derivata come limite della distribuzione Binomiale nel caso in cui n tende ad infinito e p tende a 0, mentre il prodotto = n p rimane costante. La formula generale per la probabilità di x successi in n prove Bernoulliane, cioè in n estrazioni casuali con ripetizione (eventi indipendenti) è rappresentata dalla v.c. Binomiale n f ( x) f ( x; n, p) p x (1 p) n x x Si consideri la famiglia per cui il prodotto n p sia una costante . Se si pone = n p, allora p = /n, sostituendo p = /n nella precedente espressione si ha n f ( x; , n ) 1 n x n x n x 1 x n! x x! n x ! n n! x ! n x ! n 1 n x 1 n n x 1 x n ( n 1) ( n 2).....( n x 1)( n x )! x! (n x )! n n n......n 1 x n n 1 n x 1 ...... 1 x! n n n n 1 x 1 x 1 = 1 1 ...... 1 x! n n Per x costante si ha 1 lim f ( x; , n ) lim x 1 n n x ! nx n x n x n x 1 n x 1 1 1 ...... 1 n n 1 n n x 1 n n x 1 x 1 x e lim 1 x lim 1 x ! n n x ! n n x! che è la funzione di massa di probabilità della v.c. di Poisson. Allo stesso risultato si perviene ma in modo decisamente più rapido se si considerano le funzioni generatrici dei momenti delle due v.c.; infatti n = lim n p e t q n n lim et 1 lim n n n n 65 et 1 1 n n et 1 e B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.21 E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto che ne contiene 1000 sta per essere inviato al cliente. Si calcola la media e la varianza delle lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di distribuzione Binomiale. Funzione di distribuzione di Poisson: Media = n p 1000 0.03 30 Varianza = 2 n p 30 Funzione di distribuzione Binomiale: Media = n p 1000 0.03 30 Varianza = 2 n p q 1000 0.03 0.97 29.1 Come si può osservare le due medie coincidono e le due varianze sono molto simili. Tale risultato evidenzia la buona approssimazione della distribuzione Binomiale con la distribuzione di Poisson nel caso incui p è molto vicina a zero ed n è abbastanza. 2 n p q n p 1 n p . Esempio 1.22 Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga fino a 5 difettosi? Si calcola tale probabilità ricorrendo sia alla distribuzione Binomiale che alla distribuzione di Poisson. Distribuzione Binomiale: 5 200 P( x 5) 0,02 x 0,98200 x 0,787 78,7% x 0 x Distribuzione di Poisson: n p 200 0.02 4 4 x e4 0,785 78,5% 78,7% . x! x 0 5 P( x 5) 1.7.4 Distribuzione binomiale negativa La distribuzione Binomiale Negativa si usa quando si è interessati al numero di ripetizioni (prove) indipendenti necessario per ottenere k volte un certo evento d’interesse (successo). Essa può essere derivata direttamente dalla distribuzione Binomiale. Nella Binomiale il numero di prove n viene fissato in anticipo e la variabile casuale è il numero di successi che si ottengono nelle n prove. Viceversa, la Binomiale Negativa specifica in anticipo il numero k di successi che si vuole osservare, mentre la variabile casuale diventa il numero di prove necessario per osservare il numero k di successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le distribuzioni, ciò che cambia è l’evento d’interesse. 66 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Indicando con X la v.c. numero di prove necessario per ottenere k successi (Ia definizione) i valori che tale variabile può assumere sono k, k+1, k+2, ...., cioè un’infinità di valori. Se si indica con p la probabilità di ottenere un successo in una singola prova dell’esperimento e con (evento elementare) una possibile sequenza di esiti (S indica un successo e I un insuccesso), si ha: I I I I S S S ( x k ) volte k volte = (I I I I ..... I S S S .... S) inoltre, essendo gli eventi associati alle singole sottoprove indipendenti, la probabilità di è data da: P() = P(I I I I ..... I S S S .... S) = = q q q p p p p q x k p k . ( x k ) volte k volte Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un totale di x prove affinché si manifestino k successi, la probabilità dell’evento rimane invariata ed è pari a pk(1– p)x-k. Per ricavare la funzione di massa di probabilità della distribuzione Binomiale Negativa basta conoscere il numero di possibili permutazioni che possono essere effettuate in modo da ottenere k successi in x prove. Se sono richieste x prove per ottenere k successi, allora devono verificarsi (k – 1) successi nelle prime (x – 1) prove; inoltre, il k-esimo successo deve verificarsi all’x-esima prova (cioè l’ultima). Questo equivale a dire che, con riferimento all’evento sopra riportato, il numero delle possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli eventi tranne l’ultimo. In altre parole, l’ultimo evento che si verifica deve essere sempre il k-esimo successo: se questo si verificasse prima dell’x-esima prova vorrebbe dire che il numero di prove necessario per ottenere k successi non è più x ma un valore inferiore. Se si indica con k l’evento nel quale nelle prime x-1 prove si realizzano k-1 successi, la sua probalità si può derivare facendo riferimento alla distribuzione Binomiale nella quale su n=x-1 prove si realizzano k-1 successi x 1 k 1 x 1 k 1 x k P k p (1 p) x 1( k 1) p (1 p) k 1 k 1 La probalità di successo nella x-esima prova è p, quindi, la funzione di massa di probabilità della variabile casuale Binomiale negativa è data da: x 1 k P( X x ) f ( x; k , p) p (1 p)( x k ) , con x = k, k+1, k+2, k+3, .... k 1 Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale Negativa sono date da: 1 1 p k q E ( X ) k ; Var ( X ) k 2 . p p2 p Infatti: 67 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità EX k E X 2 2 k x 1 k k x p (1 p)( x k ) p k 1 x 1 k ( x k ) x2 p (1 p ) k 1 x 1 x x 1 k 1 p k Versione 2015 k (1 p )( x k ) k k k k 2 k 1 p k 2 k q 2 2 2 2 2 p p p p p2 p p k k 1 (1 p)( x k ) k x 1 x x 1 x k 1 p k k p (1 p )( x k ) k x 1 k (1 p )( x k ) k k k 1 p2 x k p x k 1 p x 1 k 2 k k k 1 k ( x k ) k 1 p (1 p ) p p2 p 2 k2 k q k2 k q 2 p2 p2 p2 p Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile casuale è l’inverso della probabilità che si verifichi l’evento “successo” nella singola prova, moltiplicato per k. Infatti, se l’evento è raro, la probabilità p è molto bassa, pertanto, occorrerà attendere mediamente un numero piuttosto elevato di prove prima che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà mediamente più basso. Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi problemi di attesa. Si supponga, ad esempio, che in un processo di produzione automatico in ogni secondo viene prodotta una parte del macchinario, la parte viene testata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa. Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti difettose che il recipiente è in grado di contenere, allora la lunghezza di tempo (in secondi) prima che il recipiente sia riempito e debba essere sostituito con uno vuoto è X, dove X segue la distribuzione Binomiale negativa con parametri k e p e rappresenta il numero totale di pezzi difettosi (cioè, il numero totale di prove) necessari per ottenere il k-esimo pezzo difettoso. Var X 2 12 Esempio 1.23 Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5 richieste di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che la seconda approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata, altrimenti il manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di 68 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 finanziamento approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con le rispettive probabilità: Sequenze Probabilità ARRRA 0,2 0,8 0,8 0,8 0,2 = 0,02048 RARRA 0,8 0,2 0,8 0,8 0,2 = 0,02048 RRARA 0,8 0,8 0,2 0,8 0,2 = 0,02048 RRRAA 0,8 0,8 0,8 0,2 0,2 = 0,02048 Totale 0,02048 4= 0,08192 = 8,!92% Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene: 5 1 4! P( X 5) 0, 202 0,852 0,04 0,512 0,08192 8, 20% . 3! 1! 2 1 Esempio 1.24 Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista del controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7 lamine ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità che il processo produttivo venga interrotto? Sia x = 7, k = 4 e p = 0,90, allora: 7 1 6 P( X 7) 0,94 0,174 0,6561 0,001 0,0131 13,1% . 4 1 3 Esempio 1.25 Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il 45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro attrezzi. Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in attesa. Qual è la probabilità che le 18 chiamate siano completate prima che i 9 carri attrezzi siano utilizzati? Per x = 18, k = 9 e p = 0,45, si ha: 18 1 9 189 P( X 18) 0, 45 0,55 0,0847 8, 47% . 9 1 La funzione X sopra definita fa corrispondere a ciascun punto campionario il numero delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X così definita potrà assumere i valori k, k+1, k+2,.... +. Una diversa definizione è quella di non considerare il numero delle prove necessarie per ottenere k successi ma il numero delle prove necessarie prima ottenere k successi (IIa definizione), in tal caso la v.c. X cosi definita potrà assumere i valori 1, 2, 3,…, + . Una ulteriore possibile definizione della distribuzione binomiale negativa (IIIa definizione) è quella di definire X come il numero di insuccessi necessari per 69 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 ottenere k successi. In questo caso la v.c. risultante può assumere i valori 0, 1, 2,……, +, cioè tutti i numeri naturali da zero a + ed ha funzione di massa di probabilità pari a: k x 1 k k x 1 k x k k x P ( X x ) f ( x; k , p ) p (1 p) x p q p q x x x k k ( k 1 ) k 2 dove, x ! n - x ! x espressione questa che da ragione anche della denominazione di distribuzione binomiale negativa. L'uguaglianza tra gli ultimi termini della relazione sopra scritta deriva dall'uguaglianza k x 1 k x 1 . x x Infatti x k 1 x k 1 ! x k 1 ! x ! k 1! x x ! x k 1 x ! x k 1 k k 1 1 x k 1 2 x k 1 x 1 x k 1 x ! x ! k 1! x valori x k 1 x k 1 1 x k 1 2 x k 1 x 2 x k 1 x 1 x! Riscrivendo l’espressione precedente invertendo l’ordine degli x termini al numeratore: k k 1 k x 3 k x 2 k x 1 x! Se si moltiplicano gli x termini per -1, si ottiene: 1 k k 1 k x 3 k x 2 k x 1 x x! 1 x k x La funzione generatrice dei momenti della v.c. binomiale negativa in questa terza formulazione è: x k k k p x mx t E e e p k q p k et q p k 1 q e t t x 0 x 0 x x 1 q e Risultato che deriva dalla relazione k k x t 1 e q x et q x 0 tX xt 70 k B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 che si ottiene dallo sviluppo del binomio di Newton n n a b a x bn x x 0 x per a et q ed n k . Ricorrendo alla funzione generatrice dei momenti si determinano facilmente media e varianza della distribuzione. d kq μ1 m x t / t 0 dt p μ2 d2 k 2 q2 k q m t / 2 x t 0 dt 2 p2 p Var(X) σ 2 μ 2 μ12 k 2 q2 k q k 2 q2 k q 2 2 p2 p p2 p 1.7.5 Distribuzione geometrica (di Pascal) Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi desiderato sia pari ad 1, si parla più propriamente di distribuzione Geometrica. Quindi, quest’ultima non è altro che un caso particolare della Binomiale negativa quando k = 1 ed indica il numero di prove necessarie prima di ottenere un successo, o il numero di insuccessi prima di ottenere un successo. La distribuzione di probabilità della v.c. Geometrica risulta utile in diverse situazioni. Per esempio, per certi tipi di macchinari è noto che la probabilità p di rottura (successo) è la stessa ogni volta che il macchinario viene impiegato e non aumenta all’aumentare del numero di volte in cui il macchinario è stato utilizzato in precedenza. La qualità di un macchinario così fatto è, dunque, determinata da p: quanto più p è basso tanto più il macchinario è affidabile. Un metodo per testare un macchinario di questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità che la rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p. Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel settore creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere conto del fatto che non può permettersi di concedere troppi prestiti che potrebbero non andare a buon fine (per i quali, cioè, il cliente non sarà in grado di pagare gli interessi e/o di restituire il capitale ottenuto a prestito). D’altra parte è altresì vero che è praticamente impossibile concedere prestiti del tutto esenti da rischio. Indicando semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e con p la probabilità che venga concesso un prestito che avrà esito negativo 6, il responsabile 6 La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere troppo denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la possibilità di spuntare margini di guadagno elevati. 71 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 per l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la probabilità che il prossimo prestito che gli sarà concesso avrà esito negativo, avendo egli già onorato con esito positivo i precedenti 5, 10, 50 ... prestiti concessigli in passato. 1.7.6 Variabili casuali discrete: riepilogo Prima di procedere con l’esposizione delle principali variabili casuali continue, si riepilogano le caratteristiche e le propprietà delle variabili casuali discrete considerate. V.c. di Bernoulli Descrizione: numero di successi in una sola prova Parametro caratteristico: p = probabilità di ottenere un successo Supporto della v.c. X: x 0, 1 La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) Il numero di prove è fisso, pari ad 1. Funzione di massa di probabilità: f(x) = f(x;p) = p x 1 p 1 x p x q1 x EX p Var(X) pq mx t p et q V.c. Binomiale Descrizione: numero di successi in n prove indipendenti (campionamento con ripetizione) Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova; n, numero delle prove Supporto della v.c. X: x 0, 1, 2, …., n Ogni prova è indipendente dalle altre Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) La probabilità dell’evento “successo” è costante in tutte le sottoprove Il numero di sottoprove è fisso, pari ad n. Funzione di massa di probabilità: n n n x f(x) = f(x;n,p) = p x 1 p p x q n x x x EX n p Var(X) n p q mx t p et q n V.c. Ipergeometrica Descrizione: numero di successi in n prove (campionamento senza ripetizione) 72 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo” possibili; N, numero totale di eventi (successi e insuccessi) possibili Supporto della v.c. X: x max(0, n – N + K), min (n, K) Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) Il risultato di una sottoprova modifica la probabilità (condizionata) di successo nelle sottoprove successive Il numero di sottoprove è fisso, pari ad n. Funzione di massa di probabilità: K N K x nx per max [ 0,n - (N - K) ] x min [n, K] f ( x) f ( x; n, K , N ) N n EX n p Var(X) n p q N n N 1 V.c. di Poisson Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio) Parametro caratteristico: , che indica sia la media che la varianza della variabile casuale Supporto della v.c. X: x 0, 1, 2,…., +∞ Il tasso medio di occorrenza dell’evento E è costante La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono tende a zero. Funzione di massa di probabilità: f ( x) f ( x; ) x e x! EX Var(X) mx (t ) e et 1 V.c. Binomiale negativa - Prima definizione Descrizione: numero di prove occorrenti perché si verifichino k successi Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola sottoprova; k, numero prefissato di successi che si desidera di ottenere Supporto della v.c. X: x k, k+1, k+2,…, + Ogni sottprova è indipendente dalle altre Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) Il numero di sottoprove non è fisso, ma coincide con la v.c. X 73 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 L’esperimento termina al verificarsi del k-esimo successo Funzione di massa di probabilità: x 1 k ( xk ) P( X x) f ( x; k , p) p (1 p) k 1 k EX p kq Var(X) 2 p - Terza definizione Descrizione: numero di insuccessi prima di ottenere k successi Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola sottoprova; k, numero prefissato di successi che si desidera ottenere Supporto della v.c. X: x 0, 1, 2,…, + Ogni sottoprova è indipendente dalle altre Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) Il numero di sottoprove non è fisso, ma coincide con la v.c. X L’esperimento termina al verificarsi del k-esimo successo Funzione di massa di probabilità: k x P( X x ) f ( x; k , p) p k q x kq EX p kq Var(X) 2 p p mx t t 1 q e k V.c. Geometrica Descrizione: numero di sottoprove occorrenti perché si verifichi un successo, od anche, numero di insuccessi prima di ottenere un successo Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola sottoprova Supporto della v.c. X: x 1, 2,…, + , nel caso in cui si considera il numero delle sottoprove necessarie per ottenere un successo, x 0, 1, 2,…, + nel caso in cui si considera il numero di insuccessi prima di ottenere un successo. Ogni sottoprova è indipendente dalle altre Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0) Il numero di sottoprove non è fisso, ma coincide con la v.c. X L’esperimento termina al verificarsi del primo successo Quando si considera il numero delle sottoprove necessarie per ottenere un successo 74 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità EX Versione 2015 1 p Var(X) q p2 Quando si considera il numero degli insuccessi necessari per ottenere un successo EX q p q p2 p mx t . 1 q et Var(X) 1.8 - Variabili casuali continue 1.8.1 Distribuzione normale (di Gauss-Laplace) La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata la più importante tra le distribuzioni continue, soprattutto per le seguenti ragioni: una vasta serie di esperimenti casuali ha associata una variabile casuale la cui distribuzione è approssimativamente normale; alcune variabili casuali, che non sono distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente semplici; alcune distribuzioni, relativamente complicate, possono essere approssimate sufficientemente bene dalla distribuzione normale; alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi statistiche o per la determinazione di intervalli di stima, o sono distribuite normalmente o derivano da tale distribuzione. Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in seguito. La funzione di densità di probabilità della distribuzione normale è f ( x ) f ( x; , ) 2 1 2 2 e Ovviamente (cfr. righe successive) 75 1 x 2 2 per - x + B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 f (x; , 2 ) dx 1 . Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo nel punto x = . Si dimostra, inoltre, che i due parametri caratteristici e 2 corrispondono proprio alla media (momento primo rispetto all’origine) e alla varianza (momento secondo rispetto alla media) della distribuzione. x f ( x; , 2 ) dx 2 ( x )2 f ( x; , 2 ) dx Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c. Normale è uguale al parametro e la varianza al parametro 2 risulta conveniente introdurre la funzione generatrice dei momenti della quale si farà anche largo uso nelle pagine successive. 2 1/2 2 x 1 mx (t ) E etX et E et X et e t x e dx 2 1 2 e 1 x 2 2 2t x 4t 2 4t 2 2 2 dx et 2 2 t /2 1 2 e 2 x 2t /2 2 ma 2 x 2t /2 2 1 e dx 1 2 infatti, effettuando la trasfomazione z x 2t , dz dx dx dz si ha 2 x 2t /2 2 1 1 z2 /2 e dx e dz A 2 2 se si considera la relazione 1 z2 /2 1 v2 /2 1 z2 v2 /2 A2 e dz e dv e dz dv 2 2 2 e si effettua la trasformazione in coordinate polari 76 dx B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 z r cos e v r sen si ha 1 2 r 2 cos2 r 2 sen2 /2 e J r, dr d 2 0 0 1 2 r 2 /2 1 2 r 2 /2 e r dr d e r dr 1 A = 1 0 2 0 2 0 si ricorda che J r, rappresenta lo Jacobiano della trasformazione A2 1 2 e z 2 v 2 /2 dz dv z z cos - r sen r J r, r cos 2 sen 2 r 1 r v v sen r cos r quindi mx (t ) e t 2 2 t /2 inoltre 1 z 2 /2 1 A e dz 2 dove è stata operata la trasformazione z x 1 2 2 e x z dz 1 1 x 2 2 d x dx. Derivando la funzione generatrice dei momenti in t=0 si ottengono i momenti di interesse. 2 2 2 2 d d μ1 mx t / t 0 et t / 2 / t 0 et t / 2 2t / t 0 dt dt 2 2 2 2 2 2 d μ2 2 mx t / t 0 et t / 2 2t et t / 2 2 / t 0 2 2 dt Var(X) σ 2 μ2 μ12 2 2 2 2 Queste relazioni provano quanto sopra affermato; cioè, che i parametri caratteristici µ e 2 rappresentano, rispettivamente, la media e la varianza della distribuzione normale. Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di curtosi) sono dati rispettivamente, da: 1 3 2 4 x 2 f ( x; , ) dx 0 3 x 2 f ( x; , ) dx 3 4 77 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Ovviamente, essendo la distribuzione normale simmetrica, l’indice 1 assume valore zero. In altre distribuzioni l’indice assume, invece, valore negativo in caso di asimmetria a sinistra, valore positivo in caso di asimmetria a destra, della distribuzione (cfr. Fig. 1.5). Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo; infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore assunto dall’indice di curtosi pari a 3, si dirà platicurtica la distribuzione con valore dell’indice 2 inferiore a 3, leptocurtica la distribuzione con valore dell’indice 2 maggiore di 3 (cfr. Fig. 1.5). Se si considera la funzione di distribuzione della variabile casuale normale F(x) P(X x) x 1 e 2πσ 2 e si effettua la trasformazione (standardizzazione) Z = F(z) = P(Z z) = 1 2 z e 1 (y μ)2 2σ 2 x 1 2 y 2 dy si ha dy i cui valori sono stati tabulati. Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore medio nullo e varianza pari ad uno. Asimmetria positiva 1 > 0 Asimmetria negativa 1 < 0 Me Mo Mo Me Distribuzione leptocurtica 2 > 3 Distribuzione normale 2 = 3 Distribuzione platicurtica 2 < 3 Fig. 1.5 - Forma delle distribuzioni Tenendo presente che 78 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 b a X b a F (b) F (a) P(a X b) P Z P Se si pone a = (µ - e b = (µ + si ha, utilizzando le tavole della distribuzione normale standardizzata, che P (µ - < X µ + ) = P(-1 < Z 1) 0,68 per a = (µ - 2 e b = (µ + 2 si ha P (µ - 2 < X µ + 2) = P(-2 < Z 2) 0,955 per a = (µ - 3 )e b = (µ + 3 si ha P (µ - 3 < X µ + 3) = P(-3 < Z 3) 0,997 Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale normale: circa i due terzi dei valori sono contenuti nell'intervallo ( ), ; circa il 95% dei ( 2 ), 2 (µ - 2µ + 2; circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo valori sono contenuti nell'intervallo ( 3 ), 3 . I valori soglia per le probabilità 0,95, 0,99 e 0,999 sono, rispettivsmente, 1,96, 2,58 e 3,29 P (µ - 1,96 < X µ + 1,96 ) = 0,95 P (µ - 2,58 < X µ + 2,58 ) = 0,99 P (µ - 3,29 < X µ + 3,29 ) = 0,999. Esempio 1.25 Sia X una variabile casuale normale di media µ = -2 e varianza 2 = 0,25; si vuol determinare il valore della costante c in modo da soddisfare le relazioni: a) P (X c) = 0,2; b) P (-c X -1) = 0,5; c) P (-c X c) = 0,95; d) P (-2-c X -2+c) = 0,9. Utilizzando la tavola in cui sono riportati i valori della funzione di distribuzione della variabile casuale normale standardizzata, si ottengono i seguenti risultati: c 2 c 2 c 2 X c a ) P ( X c ) P 1 P Z 1 F 0,2 P Z 0,5 0,5 0,5 c 2 c2 P Z 0,842 c 1,579 0,8 0,5 0,5 c 2 c 2 X 1 2 c 2 b) P(c X 1) P Z 2 PZ 2 P Z P 0,5 0,5 0,5 0,5 2c 2c 2c F (2) F 0,057 c 2,0285 0,5 F 0,4772 0,5 0,5 0,5 79 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 c2 c2 c 2 X c 2 c 2 c ) P ( c X c ) P P 0,5 Z 0,5 2 P Z 0,5 0,5 0,5 0,5 c2 c 2 2c 2F 1,96 c 1,02 1 0,95 F 0,975 0,5 0,5 0,5 c c c X c d ) P(2 c X 2 c) P P 0,5 Z 0,5 P(Z 2c) P(Z 2c) 0,5 0,5 F (2c) F (2c) 0,9 2c 1,645 c 0,823 Esempio 1.26 Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un determinato spessore e che la produzione subisca delle piccole variazioni (in termini di spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere convenientemente rappresentato mediante un modello probabilistico di tipo normale. Sia X la variabile casuale normale che interessa e si ammetta di conoscere la sua media µ = 10 mm. e la sua varianza σ2 = 0,0004. Si vuol determinare la percentuale attesa di lamine difettose supposto che: a) siano difettose le lamine con spessore inferiore a 9,97 mm.; b) siano difettose le lamine con spessore superiore a 10,05 mm.; c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm. Usando la tavola della distribuzione normale si ottengono i seguenti risultati: 9,97 10 F (1,5) 0,067 0,02 a) P( X 9,97) F 10,05 10 0,006 0,02 b) P( X 10,05) 1 p( X 10,05) 1 F c) P (X < 9,97) + P (X > 10,03) = 1 - P (9,97 X 10,03) = 1 - P (X 10,03) 10,03 10 9,97 10 F = 0,13. 0,02 0,02 + P (X < 9,97) = 1 - F Esempio 1.27 La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati di precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in grado di percorrere una media di 40.000 km con una deviazione standard di 10.000 km. E’ politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km, riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio abbia una distribuzione normale: Qual’è la probabilità che venga prodotto un pneumatico che duri almeno 55.000 km? Quanti pneumatici di questo tipo saranno prodotti ogni anno? Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km saranno prodotti in un anno? Qual’è il costo annuo atteso per i risarcimenti? 80 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a livello di qualità, quanti km ci si può aspettare che faccia? Utilizzando le tavole della distribuzione Normale standardizzata si ottengono i seguenti risultati: I) 55000 40000 P( X 55000) P Z PZ 1,5 1 PZ 1,5 1 0,9332 0,0668 10000 Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari al 6,68%. In un anno saranno prodotti 2.000.000 0,0668 133.600 pneumatici di questo tipo. II) Per x = 35.000 z = (35.000-40.000)/10.000 = - 0,5 Per x = 25.000 z = (25.000 – 40.000)/10.000 = - 1,5 Quindi, P25.000 X 35.000 P(1,5 Z 0,5) F (0,5) F (1,5) 0,3085 0,0668 0,2417 Di conseguenza, saranno prodotti 2.000.000 0,2417 483.400 pneumatici l’anno con una capacità di uso compresa tra i 25.000 e i 35.000 km. III) La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data, analogamente ai casi appena visti, da: 28.000 40.000 P X 28.000 P Z P( Z 1,2) 0,1151 10.000 Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a: 2.000.000 0,1151 5,00 1.151.000 € IV) P( X x) P( Z z ) 1 P( Z z ) 0,05 P( Z z ) 1 0,05 0,95 z 1,65 z x 40.000 1,65 x 10.000 1,65 40.000 56.500km 10.000 Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra perlomeno 56.500 km. Esempio 1.28 L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione. Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale iniziale. Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si distribuiscono normalmente con media pari a 525 e deviazione standard pari a 55. L’attuale politica di assunzione si svolge in due fasi. Durante la prima fase i candidati vengono separati in tre categorie: candidati automaticamente accettati, candidati automaticamente rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera 425. In merito agli incerti, il responsabile del personale procede alla seconda fase della selezione, basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di lavoro, attitudini e conoscenze particolari ecc. 81 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Il responsabile del personale dell’azienda Beta vuole conoscere, in primo luogo, I) la percentuale di candidati che automaticamente vengono accettati o rifiutati; in secondo luogo, II) vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si decida di accettare automaticamente il 15% dei migliori candidati e di rifiutare automaticamente il 10% dei peggiori. Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione Normale standardizzata, si ottengono le seguenti soluzioni: I) 425 525 P( X 425) P Z P( Z 1,82) 3,45% 55 600 525 P( X 600) P Z P( Z 1,36) 1 P( Z 1,36) 8,63% 55 Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà automaticamente accettato. II) x 525 P( X x ) P Z P( Z z ) 0,10 z 1,27 x 1,27 55 525 455 55 x 525 P( X x ) P Z P( Z z ) 0,15 1 P( Z z ) P( Z z ) 0,85 55 z 1,04 x 1,04 55 525 582 Pertanto, se l’azienda Beta vuole incrementare sia il numero di candidati accettati automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal 3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600 a 582. Esempio 1.29 Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro commerciale seleziona casualmente 200 adulti e, mentre escono dal negozio, chiede loro se hanno effettuato almeno un acquisto. Se la ricerca di mercato è corretta, qual è la probabilità che almeno 150 soggetti del campione selezionato abbiano effettuato un acquisto? Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X ha una distribuzione Binomiale con parametri n = 200 e p = 0,70. Per trovare la probabilità esatta, è necessario risolvere la seguente equazione: P( X 150) 200 0,70 x 0,30200 x x 150 x 200 In mancanza di un computer è piuttosto difficile e lungo risolvere tale equazione; in alternativa si può, dunque, ricorrere all’approssimazione tramite la v.c Normale di media np 200 0,70 140 e deviazione standard np(1 p) 200 0,7 0,3 6,5 : 82 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 150 140 1,54 6,5 P( Z 1,54) 1 P( Z 1,54) 1 0,9382 6,18% z Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18% che costituisce una buona approssimazione al vero valore che è pari al 6,95%. 1.8.2 Distribuzione log-normale La distribuzione log-normale denominata anche distribuzione di Galton è definita nel semiasse reale positivo con funzione di densità di probabilità f ( y; , ) 1 2 y 2 e log y 2 2 2 per 0 y , 0 e 2 0 dove Y e X e X è una v.c. normale con media e varianza 2 . Anche se la v.c. log-normale ha momenti rispetto all’origine di qualunque ordine, la funzione generatrice dei momenti è infinita my t E et Y per qualunque t > 0 . La funzione caratteristica my i t E e itY i t n! n 0 n en n 2 2 /2 consente la facile derivazione dei momenti di qualunque ordine 7 E Y d d m y i t |t 0 dit dit i t n! n 0 n en n 2 2 /2 |t 0 i t e2 2 2 | e 2 /2 d 2 /2 1 i t e t 0 dit 2! 2 E Y 2 d2 d it m y i t |t 0 2 d2 d it 2 n 0 i t n! n en n 2 2 /2 |t 0 i t e2 2 2 | e2 2 2 2 /2 1 i t e t 0 2 2! d it 2 2 2 2 2 /2 Var Y 2 12 e2 2 e e2 e 1 . 2 d2 Gli ambiti applicativi di questa distribuzione sono molto numerosi, da quello economico a quello medico, da quello idrologico a quello demografico. Hanno distribuzione log-normale il reddito, gli indici di borsa, i tassi di cambio, gli indici dei 7 Si richiamano due significative proprietà di questa v.c.: 1. Poiché il logaritmo di una v.c. log-normale è simmetrico ed i quantili sono invarianti rispetto a trasformazioni monotone, la media geometrica e la mediana della v.c. log-normale sono uguali. 2. A ragione della mancata convergenza della funzione generatrice dei momenti della v.c log-normale (non esiste), l’insieme di tutti i momenti non identificano univocamente la variabile stessa. 83 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 prezzi, la dimensione delle città e delle imprese, i valori massimi mensili e annuali delle piogge, alcune misure relative allo stato di salute degli individui quali la pressione sanguigna il peso distintamente per donne e uomini, ecc. 1.8.3 Distribuzione di Cauchy Un’altra interessante distribuzione, soprattutto per le sue caratteristiche negative è la distribuzione di Cauchy o anche di Cauchy-Lorentz; in statitistica viene spesso trattata come esempio di distribuzione “patologica”. La v.c. di Cauchy non ha funzione generatrice dei momenti, la sua media (momento primo rispetto all’origine) non esiste e la sua varianza è infinita. La funzione di densità di probabilità di questa variabile è 1 f ( x; , ) per - x , -< 0 e 0. x 2 2 Per α = 0 e β = 1 si si ottiene la distribuzione di Cauchy nella sua forma standard 1 f ( x;0,1) . 1 x 2 La funzione caratteristica della distribuzione di Cauchy è 1 i t |t | . dx = e x 2 2 La rilevanza applicativa della v.c. di Cauchy è da attribuire soprattutto ai lavori di Lorentz in ambito fisico. mx i t E e i t X ei t x 1.8.4 Distribuzione gamma La distribuzione Gamma viene utilizzata nella generalità dei casi come modello per descrivere fenomeni dipendenti dal tempo o, in termini più generali, per fenomeni di durata (di vita, di resistenza, di funzionamento ecc.). Essa può essere più facilmente compresa se si fa riferimento alla distribuzione discreta di Poisson. Infatti, nella distribuzione di Poisson la variabile casuale X rappresenta il numero di successi, mentre lo spazio di riferimento è fissato (unità di tempo o di spazio o di volume). Viceversa, nella distribuzione continua Gamma la variabile casuale diventa lo spazio di riferimento, mentre il numero di successi è fissato. In altri termini, mentre la Poisson fornisce la probabilità che x successi si manifestino in un certo intervallo di tempo (o di spazio o di volume), noto il numero medio di successi = β per unità di tempo (o di spazio o di volume), la distribuzione Gamma fornisce la probabilità che un tempo X = x sia necessario affinché si manifesti un certo numero prefissato α di successi, noto il tasso di manifestazione β di successi per unità di tempo. I parametri della distribuzione Gamma sono, quindi, due: il numero α di successi che si desidera ottenere e il tasso di manifestazione medio β di successi per unità di tempo. 84 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 La funzione di densità di probabilità della v.c. Gamma è data da: f ( x; , ) 1 x 1e ( ) x per 0 x , 0 e 0 dove ( ) x 1e x dx 0 Procedendo ad una integrazione per parti si dimostra facilmente l’uguaglianza ( ) 1 ( 1) Inoltre, se α è un numero intero si ha ( ) 1! , (1) 0! 1 e (1 2) . La funzione generatrice dei momenti è mx (t ) E ( etX ) 0 x 1 et x x 1e dx ( ) 1 t x 1 1 x e dx 1 t 0 ( ) da cui d 1 mx t / t 0 1 t / t 0 dt d2 2 2 mx t / t 0 2 1 dt var( X ) 2 12 2 1.8.5 Distribuzione di Pareto (I° tipo) La v.c. di Pareto si è rivelata un modello soddisfacente per la rappresentazione di fenomeni in svariati contesti di ricerca, in particolare nelle scienze sociali, in quelle geofisiche ed nell’ambito attuariale. Questa distribuzione è stata introdotta dall’economista italiano Vilfredo Pareto per misurare la distribuzione del reddito. La base della distribuzione è rappresentata dal fatto che un’elevata proporzione della popolazione possiede un basso reddito mentre una bassa proporzione possiede un reddito elevato. La funzione di densità di questa v.c è f ( x; , ) , x 1 dove 0 e 0 , è il minimo assumibile dalla v.c. X. Media e varianza sono EX 2 per > 1 Var X = per > 2. 2 1 -1 - 2 La funzione generatrice dei momenti è definita per i soli valori di t 0 85 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 mx t E e t X t - ,- t e per t 0, mx 0 1 dove - , - t -t t 1et dt è la funzione matematica Gamma incompleta. Il parametro 0 viene utilizzato, tra l’altro, come indice per la misura di concentrazione del reddito. 1.8.6 Distribuzione di Weibull La distribuzione di Weibull, anche per la sua estrema versatilità, trova largo impiego in ambito ingegneristico per rappresentare fenomeni di affidabilità e di durata dei prodotti. Questa v.c. ha funzione di densità x f ( x; , ) x 1 e , 0 x dove 0 e 0 , x indica il tempo di rottura (guasto, difetto, fallimento nel contesto economico, morte nel contesto biologico, ecc.). Per 1 , la v.c. di Weibull coincide con la v.c. esponenziale negativa che verrà introdotta al punto successivo; mentre per 2 , si ottiene la v.c. di Rayleigh; inoltre, per che tende a + la variabile tende alla distribuzione di Dirac centrata sul valore x . Il parametro rappresenta il tasso di rottura, tasso che, con il trascorrere del tempo, decresce se 1 , cresce per 1 mentre rimane costante per 1 . Per 0 1 la densità tende a + per x che tende a 0. La media e la varianza sono 2 1 2 1 2 E X 1+ , Var X = 1+ 1 . La funzione generatrice dei momenti, che può essere espressa in diverse forme, è analiticamente troppo complicata per risultare di qualche utilità. 1.8.7 Distribuzione esponenziale negativa La funzione di densità di probabilità della distribuzione esponenziale negativa si ottiene ponendo 1 nella funzione di densità di probabilità della v.c gamma: f ( x; ) 1 e x per 0 x , 0 La funzione generatrice dei momenti è mx (t ) E (et X ) 1 t 86 1 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 da cui EX Var ( X ) 2 Il parametro β viene usualmente denominato parametro di sopravvivenza (survival parameter) e la variabile X sta ad indicare la durata in vita e E X indica il tempo medio di sopravvivenza8. La distribuzione esponenziale negativa può essere anche intesa come la controparte continua della distribuzione geometrica che, come già sottolineato, descrive il numero di prove bernoulliane necessarie per ottenere un cambiamento di stato (x insuccessi prima di ottenere 1 successo). L'esponenziale negativa descrive il tempo continuo necessario affinché si realizzi un cambiamento di stato. Un modo alternativo di definizione della v.c. esponenziale negativa è dato 1 dall'introduzione del reciproco del parametro ponendo , usualmente detto rate parameter; in tal caso si ha f ( x; ) e x per 0 x , 0 1 1 mx (t ) E (e ) 1 t da cui E ( X ) 1,Var ( X ) 2 . La distribuzione esponenziale negativa in questa seconda formulazione può essere utilizzata per determinare la probabilità che sia necessario un intervallo di tempo X = x affinché si abbia la prima manifestazione dell’evento d’interesse. La funzione delle probabilità cumulate dell’esponenziale negativa F x P X x 1 e x assume particolare significato quando l’evento d’interesse è il guasto di un macchinario 1 o di una sua parte. In tal caso, ponendo , diventa il tasso di rottura di quel tX macchinario per unità di tempo e la funzione delle probabilità cumulate fornisce la probabilità che il macchinario si guasti prima del tempo X = x. In realtà, è di maggiore interesse conoscere la probabilità che il macchinario non si guasti prima di un certo tempo x: tale probabilità è semplicemente 1 F ( x ) e x . Tale funzione è spesso chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o, analogamente, la probabilità che non si verifichi nessun guasto entro certi tempi per certi tipi di macchinario. Affinché la funzione di attendibilità sia un buon modello è, però, necessario che il macchinario d’interesse abbia un tasso di rottura costante nel tempo; in caso contrario l’Esponenziale non fornisce un buon modello per verificare l’affidabilità del macchinario. 8 Questa distribuzione può, come sopra sottolineato, derivare dalla distribuzione di Weibull, sostituendo 87 con . B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Un aspetto interessante della funzione di attendibilità è che tramite essa è possibile conoscere l’affidabilità di un intero sistema produttivo costituito da una serie di macchinari M1, M2, ...., Mn, aventi, rispettivamente, tassi di fallimento 1, 2, ..., n costanti, così da valutare oggettivamente la possibilità di ultimare una certa produzione entro il termine di consegna x. Infatti, l’affidabilità A dell’intero sistema è data da: n A exp x i i 1 e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di fallimento delle singole componenti. Esempio 1.30 Si consideri un’azienda produttrice di computer che sta per lanciare sul mercato un nuovo tipo di stampante: uno dei principali fattori critici per il successo di questo nuovo prodotto è stato individuato dai manager dell’azienda nel suo effettivo corretto funzionamento. Infatti, se la stampante dovesse rompersi, ne risentirebbero negativamente la soddisfazione del consumatore e, quindi, il livello delle vendite future di tutti i prodotti dell’azienda. Prima del lancio sul mercato, il management dell’azienda vorrebbe, dunque, avere maggiori informazioni sul grado di affidabilità del nuovo prodotto, in termini di guasti che lo stesso potrebbe presentare nel termine di un anno dall’acquisto da parte del cliente. A tal proposito il responsabile tecnico della produzione sa che tutte le componenti della stampante sono già state ampiamente usate e testate da anni su altri prodotti dell’azienda e sono altamente affidabili; l’unica eccezione è rappresentata da un sensore elettrico che entra in funzione ogni volta che la stampante viene predisposta per un tipo di carta più grande del classico A4. Egli stima che il dispositivo venga attivato in media 10 volte all’anno. Il modello esponenziale fornisce, in questo caso, la probabilità di “sopravvivenza” del singolo prodotto, tramite l’espressione P( X x ) e x , dove x rappresenta una misura del tempo di sopravvivenza. Poiché il tempo è misurato in termini di numero di volte in cui il dispositivo elettrico viene attivato, cioè 10, allora si può porre x = 10. L’unico parametro sconosciuto, a questo punto, rimane , il tasso di fallimento. A questo proposito il responsabile tecnico acquista un certo numero di dispositivi elettrici e li sottopone a 10.000 cicli di accendimento e spengimento: il numero di guasti osservati è di 7 sul totale di 10.000 cicli. Dunque, il responsabile tecnico stima il tasso di fallimento del sensore pari a 7 / 10.000 0,0007 . Di conseguenza, P( X x) e x e 0,0007 10 e 0,007 0,993 99,3% , cioè la probabilità che una stampante funzioni adeguatamente per almeno un anno senza presentare guasti è pari al 99,3%. 1.8.8 Distribuzione 2 (di Pizzetti-Pearson) n (n intero positivo) e 2 si ottiene una 2 importante v.c generalmente indicata con il simbolo n2 (distribuzione chi quadro) la Se nella distribuzione Gamma si pone cui funzione di densità è: 88 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 f ( x) f ( x; n) 2 n/2 1 x ( n / 2)1e x / 2 (n / 2) per x 0 dove il parametro n rappresenta i gradi di libertà della distribuzione 2. La curva della distribuzione 2 è monotona per n = 1 e n = 2; per n > 2 ha un massimo nel punto x = n - 2. La funzione generatrice dei momenti, la media e la varianza sono date da mx (t ) E (et X ) 1 2 t n 2 e n, Var( X ) 2 n Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 , definita nell’intervallo (0 , +), è una variabile del tipo 2 (chi quadro) con un grado di libertà. Infatti, se si considera la funzione di densità della v.c. normale standardizzata 1 f z e 2 z2 2 e si opera la trasformazione Z 2 X , la funzione di distribuzione della v.c. X è F x P X x = P Z 2 x P x Z x 2P 0 Z x 2 x 0 2 z 2 1 e 2 dz Se si trasforma la variabile d’integrazione ponendo z 2 v 1 12 da cui z 0 v 0, z x v x e dz v dv si ha 2 v 1 v 1 x x 1 1 2 1 F x 2 e 2 v dv e 2 v 2 dv F z 2 2 0 0 2 2 2 che è la funzione di distribuzione di una v.c. 1 con 1 grado di libertà. Tenendo presente questo risultato e che la funzione generatrice dei momenti di una v.c. X di tipo 12 è data da mx (t ) E (et X ) 1 2 t 1 2 ne deriva che la somma di n variabili casuali normali standardizzate indipendenti al quadrato ha una distribuzione di n tipo n2 con n gradi di libertà. Infatti,ponendo X Zi2 si ha i 1 n mx (t ) E (et X ) E (e t Zi2 i 1 n ) n E (e t Zi ) 2 i 1 Si dimostra che la variabile casuale 1 2 t 1 2 1 2 t n 2 . i 1 2 n standardizzata tende, al crescere di n, alla distribuzione normale standardizzata, ne deriva quindi una possibilità di approssimazione della v.c. 2 mediante la v.c. normale per n sufficientemente elevato. Da questo risultato deriva, inoltre, che la somma di k variabili casuali del tipo 2, 89 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 stocasticamente indipendenti e con gradi di libertà rispettivamente pari a n1, n2, ...,nk, è ancora una variabile casuale 2 con k g ni gradi di libertà (proprietà additiva o i 1 riproduttiva del 2). Infatti, date k v.c. indipendenti X1, X2, ….. , Xk di tipo2 con gradi X k di libertà rispettivamente pari a n1, n2, ...,nk, la v.c. somma Y i ha funzione i 1 generatrice dei momenti k my (t ) E (etY ) E (e t Xi 1 ) E (et X1 ) E (et X 2 ) E (et X k ) k 1 2 t n1 2 1 2 t n2 2 1 2 t nk 2 1 2 t ni 1 2 1 2 t g 2 k dove g ni . i 1 Esempio 1.31 Sia X una variabile casuale del tipo n2 con 5 gradi di libertà (n=5). Si vogliono determinare le costanti c, c e c in modo che sia: 1 2 a) P (X c) = 0,10 b) P (X > c) = 0,05 c) P (c1 < X c2) = 0,95 per c1 < c2 Utilizzando le tavole della distribuzione n2 si avrà a) - P (X c) = F(c) = 0,10 => c = 1,61 b) - P (X > c) = 1 - p (X c) = 1 - F(c) = 0,05 => c = 11,1 c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c2) capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05 in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2, oppure 0,02 a sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano particolari ragioni per specificare altrimenti, si suddivide la probabilità in parti uguali, così facendo si avrà P (X c1) = F(c1) = 0,025 => c1 = 0,831 P (X > c2) = 1 - P (X c2) = 0,025 => c2 = 12,8 da cui P (c1 < X c2) = P (0,831 < X 12,8) = 0,95. 90 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1.8.9 Distribuzione beta La distribuzione Beta è considerata la distribuzione base per le variabili casuali limitate inferiormente e superiormente, è definita su un intervallo finito a,b, dipende da quattro parametri (a, b, 0 e 0 ) ed ha la seguente funzione di densità di probabilità: 1 ( x a) 1 (b x) 1 f ( x; a, b, , ) per a x b, 0 e 0 . B( , ) (b a) 1 L’espressione analitica della funzione matematica Beta è 1 B( , ) x 1 (1 x) 1 dx per 0 e 0 0 La funzione Beta (integrale di Eulero) è in relazione con la funzione matematica gamma (.) ( )( ) . B , Per α e β interi si ha B , 1! 1! 9 1! La funzione generatrice dei momenti della v.c. Beta ha una espressione algebrica tutt'altro che semplice e si rivela quindi scarsamente utile; comunque, i momenti possono essere facilmente derivati ricorrendo alla funzione di densità di probabilità. Nella generalità dei casi, la variabile casuale Beta viene definita sull’intervallo unitario 0,1, cioè per a = 0 e b = 1. In questo caso la funzione di densità diventa: 1 ( 1)! 1 1 f ( x; , ) x 1 1 x x 1 1 x con 0 x 1 B( , ) ( 1)! ( 1)! La media e la varianza della distribuzione Beta sono date da: e 2 2 1 Al variare del valore dei parametri e , la funzione di densità Beta può assumere un gran numero di forme diverse. L’estrema flessibilità di questa v.c. la rende idonea a rappresentare molti fenomenti in svariati ambiti disciplinari; inoltre, come si avrà modo di illustrare nel Cap. 6, gioca un ruolo molto rilevante nel contesto dell’inferenza statistica bayesiana. 9 Altre espressioni analitiche per rappresentare la funzione matematica Beta sono: n n y 1 ; B , B , n 0 n 0 1 y B , 2 2 sen x 0 2 1 cos x 2 1 dx . 91 ; B , 1 n1 n + +n 1 ; B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 La figura riportata10 nelle pagine successive rappresenta un esempio di impiego della v.c. beta. I grafici evidenziano il diverso metro di valutazione impiegato nelle facoltà: a fronte di un’attribuzione di voti prossima alla simmetria nelle facoltà di Economia, Giurisprudenza e Ingegneria, si collocano facoltà quali Lettere e Filosofia, Scienze della Formazione e Farmacia, con una asimmetria molto pronunciata e per le quali risulta in modo molto evidente uno sbilanciamento verso l’attribuzione di voti più elevati. Infatti, se si ritorna alla classica votazione in 30-esimi si registrano le seguenti votazioni medie. Economia 26, Giurisprudenza 25,9, Ingegneria 26,2, Lettere e Filosofia 28, Scienze della Formazione 28,4, Farmacia 26,6. Relativamente alle votazioni attribuite si segnala che anche altre facoltà evidenziano un’attitudine all’attribuzione di voti elevati. A completamento del quadro informativo si riportano le votazioni medie attribuite nelle altre facoltà. Agraria 26,5, Architettura 27, Medicina e Chirurgia 26,9, Scienze Matematiche, Fisiche e Naturali 26,7, Scienze Politiche 26,5. 10 I grafici sono stati ripresi dal volume Chiandotto, Bacci, Bertaccini (2004). I laureati e diplomati dell’Ateneo Fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (pp. I-XLIX, 1-532). consultabile anche sul sito http://valmon.disia.unifi.it/index.php?idp=P9. Università degli Studi di Firenze. 92 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Fig. 1.6 – Laureati dell’Ateneo fiorentino nell’anno solare 2000: voto medio agli esami in 110esimi, per facoltà (distribuzioni di frequenza) 15 % 15 % ATENEO Beta ATENEO (α = 5,63 ; β = 2) 12 Agraria Beta Agraria (α = 9,79 ; β = 3,5) Beta Ateneo Asimmetria = -0,27 12 Asimmetria = -0,64 9 9 6 6 3 3 0 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 Architettura Beta Architettura (α = 17,96 ; β = 6,01) Beta Ateneo Asimmetria = -0,4 15 % 12 71 74 12 9 6 6 3 3 0 80 83 86 89 92 95 98 101 104 107 110 Econom ia Beta Economia (α = 8,15 ; β = 4,11) Beta Ateneo Asimmetria = -0,17 15 % 9 77 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 Farm acia Beta Farmacia (α = 4,64 ; β = 1,8) Beta Ateneo Asimmetria = -1,41 15 % 12 71 74 12 9 6 6 3 3 0 80 83 86 89 92 95 98 101 104 107 110 Giurisprudenza Beta Giurisprudenza (α = 5,87 ; β = 3,01) Beta Ateneo Asimmetria = -0,15 15 % 9 77 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 71 93 74 77 80 83 86 89 92 95 98 101 104 107 110 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Fig. 1.6 – (continua) 15 % 12 Lettere e Filosofia Beta Lettere e Filosofia (α = 11,72 ; β = 1,7) Beta Ateneo Asimmetria = -1,00 15 % Ingegneria Beta Ingegneria (α = 8,42 ; β = 3,88) Beta Ateneo Asimmetria = -0,19 12 9 9 6 6 3 3 0 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 71 Medicina e Chirurgia Beta Medicina e Chirurgia (α = 7,38 ; β = 2,31) Beta Ateneo Asimmetria = -0,55 15 % 12 74 12 9 6 6 3 3 0 80 83 86 89 92 95 98 101 104 107 110 Scienze Form az Beta Scienze Formaz (α = 11,01 ; β = 1,36) Beta Ateneo Asimmetria = -0,80 15 % 9 77 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 71 Scienze Politiche Beta Scienze Politiche (α = 7,51 ; β = 3,16) Beta Ateneo Asimmetria = -0,50 15 % 12 74 12 9 6 6 3 3 0 80 83 86 89 92 95 98 101 104 107 110 SMFN Beta SMFN (α = 7,46 ; β = 2,77) Beta Ateneo Asimmetria = -0,44 15 % 9 77 0 71 74 77 80 83 86 89 92 95 98 101 104 107 110 71 94 74 77 80 83 86 89 92 95 98 101 104 107 110 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1.8.10 Distribuzione uniforme La distribuzione Uniforme Continua si configura come caso particolare della distribuzione Beta ponendo = = 1. Tale distribuzione viene impiegata per descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo intervallo. Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa probabilità, così che la funzione di densità di probabilità assume una forma rettangolare, esplicitata dalla seguente relazione. 1 con a x b f ( x; a, b) ba La funzione di ripartizione F(x) è pari a: xa con a x b F ( x) ba b a . ab e la media e la varianza: E ( X ) ; Var ( X ) 12 2 2 1.8.11 Distribuzione t (di Student) La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo pseudonimo di "Student". La v.c t di Student è definita dalla relazione Z X Y /n dove: Z è una variabile casuale normale standardizzata; Y è una variabile casuale 2 con n gradi di libertà; Z e Y sono variabili stocasticamente indipendenti. La funzione di densità di probabilità di una variabile casuale X di tipo t di Student ha funzione di densità di probabilità definita dalla relazione: f ( x ) f ( x; n ) n 1 2 n 2 1 n 1 x 2 n n 1 2 per x è simmetrica ed ha un massimo nel punto t = 0. La media è = 0 per n 2 , mentre non esiste per n = 1; la varianza non esiste per n = 1, 2 mentre per n 3 la varianza è n data da 2 . n2 Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata; un buona approssimazione si ottiene anche per n relativamente piccolo ( n 30 ). La funzione generatrice dei momenti della v.c. t di Student non esiste. 95 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Esempio 1.32 Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono determinare i valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) = 0,05; c)P(-c < X c) = 0,99; d) P(0 < X c) = 0,475. Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si ottiene: a)- P (X > c) = 1 - P (X c) = 1 - F(c) = 0,05 => c = 1,83 b)- P (X c) = F(c) = 0,05 => c = -1,83 c)- P (-c < X c) = P (X < c) - P (X c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] = 0,99 => c = 3,25 d)- P (0 < X c) = P (X c) - P (X 0) = F(c) - 0,5 = 0,475 => c = 2,26. 1.8.12 Distribuzione F (di Fisher- Snedecor) La distribuzione F è relativa alla variabile X V / n1 Y / n2 dove, V e Y sono due variabili casuali del tipo 2, con gradi di libertà rispettivamente pari a n1 e n2, distribuite indipendentemente. Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale, e si verifica facilmente che le due variabili casuali Fn1 ,n2 e Fn21,n1 hanno la stessa distribuzione. La funzione di densità di probabilità di una variabile casuale X di tipo F di FisherSnedecor, con n1 e n2 gradi di libertà, è: n n 1 2 n1n1 /2n2n2 /2 x ( n1 /2)1 2 f ( x ) f ( x; n1 , n2 ) per 0 x + n1 n2 (n1 x n2 )( n1 n2 )/2 2 2 La media e la varianza sono date da: n2 2n22 (n1 n 2) ; 2 n2 2 n1 (n2 2) 2 (n2 4) La funzione generatrice dei momenti della v.c. F di Fisher-Snedecor non esiste. Esempio 1.33 Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono determinare i valori della costante c che soddisfano le relazioni: a) P (X c) = 0,95 ; b) P (X c) = 0,01. Utilizzando la tavola della distribuzione F si ottiene a) P (X c) = F7,10(c) = 0,95 => c = 3,14 b) - Per quanto detto nel testo risulta l'uguaglianza F7,10(c) = 1 - F10,7(1/c), per cui 96 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 P (X c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 => 1 = 6,62 => c = 0,15. c 1.8.13 Variabili casuali continue: riepilogo11 Di seguito è riportato riepilogo delle variabili casuali continue considerate. V.c. Normale Descrizione: una vasta serie di esperimenti casuali ha associata una variabile casuale la cui distribuzione è approssimativamente normale;alcune variabili casuali che non sono distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente semplici; alcune distribuzioni relativamente complicate, possono essere approssimate sufficientemente bene dalla distribuzione normale. E’ la distribuzione su cui è basata principalmente tutta l’inferenza statistica soprattutto grazie al teorema del limite centrale Parametri caratteristici: e 2 che rappresentano, rispettivamente, media e varianza della distribuzione. Supporto della v.c. X: x (-,+) Funzione di densità di probabilità f ( x ) f ( x; , 2 ) 1 2 2 e 1 x 2 2 Forma – Simmetrica, centrata sulla media μ e con indice di curtosi pari a 3. Cfr. http://www.xycoon.com/continuousdistributions.htm. E X μ1 Var(X) σ 2 mx (t ) e t 2 2 t /2 V.c. Log-normale Descrizione: Molti fenomeni possono essere adeguatamente descritti dalla distribuzione log-normale: il reddito, gli indici di borsa, i tassi di cambio, gli indici dei prezzi, la dimensione delle città e delle imprese, i valori massimi mensili e annuali delle piogge, ecc Parametri caratteristici: e 2 Supporto della v.c. X: x (0,+) Funzione di densità di probabilità f ( y; , ) 2 1 e log y 2 2 2 y 2 Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. 11 Si consiglia la consultazione del sito:” http://www.xycoon.com/continuousdistributions.htm” dove è riportata una panoramica pressoché completa delle v.c. continue. 97 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità E Y e 2 Versione 2015 /2 Var Y e2 e 1 . 2 my i t E e 2 itY n 0 i t n! n en n 2 2 /2 V.c. di Cauchy Descrizione: Trova le maggiori applicazioni in ambito fisico. Parametri caratteristici: α e β Supporto della v.c. X: x -,+ Funzione di densità di probabilità 1 x 2 2 Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. mx i t ei t | t | . f ( x; , ) V.c. di Pareto (I° tipo) Descrizione: Introdotta per misurare la distribuzione del reddito, anche a ragione di successive generalizzazioni, trova applicazione in diversi contesti applicativi quali quello geofisico e l’attuariale. Parametri caratteristici: α e β Supporto della v.c. X: x (0,+) Funzione di densità di probabilità f ( x; , ) 1 Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. per > 1 1 2 Var X = per > 2. 2 -1 - 2 EX La funzione generatrice dei momenti è definita per i soli valori di t 0 mx t E e t X t - ,- t e per t 0, mx 0 1 V.c. di Weibull Descrizione: E’ estremamente versatile e trova largo impiego nell’analisi di fenomeni di durata. Parametri caratteristici: α e β Supporto della v.c. X: x (0, +) Funzione di densità di probabilità 98 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1 x x e f ( x; , ) Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. 1 E X 1+ 2 2 1 Var X = 1+ 1 . mx t non utile 2 V.c. Gamma Descrizione - Fornisce la distribuzione del tempo necessario affinché si realizzino k eventi indipendenti quando il tasso di realizzazione è costante. Utilizzata spesso come modello per descrivere fenomeni di durata (in vita, resistenza, funzionamento ecc.). Parametri caratteristici - α, il numero di successi desiderati; =1/β, il tasso di realizzazione di un successo per unità di tempo Supporto della v.c. X: x (0, +) Funzione di densità di probabilità x 1 f ( x; , ) x 1e ( ) Forma - Quando α 1, la funzione è asimmetrica positiva con una moda; quando α = 1, la funzione decresce monotonicamente a partire dall’origine. Cfr. http://www.xycoon.com/continuousdistributions.htm. 1 EX Var(X) 2 2 1 mx (t ) 1 t 1 t V.c. Esponenziale negativa Descrizione: Deriva dalla v.c. Gamma quando α = 1. Fornisce la probabilità dell’intervallo di tempo necessario affinché si realizzino due eventi indipendenti con tasso di realizzazione costante Parametri caratteristici: , il tasso di realizzazione di un successo per unità di tempo Supporto della v.c. X: x (0, +) Funzione di densità di probabilità f ( x; ) 1 e x 99 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. EX Var(X) 2 1 1 1 mx (t ) 1 t 1 t V.c. 2 di Pizzetti-Pearson Descrizione: Deriva dalla v.c. Gamma per n (n intero positivo) e 2 e anche 2 dalla somma di n variabili casuali normali standardizzate indipendenti elevate al quadrato. Parametri caratteristici: n, il numero di gradi di libertà Supporto della v.c. X: x (0, +) Funzione di densità di probabilità f ( x) f ( x; n) 2 n/2 1 x ( n / 2)1e x / 2 (n / 2) Forma - Asimmetrica positiva con indice di curtosi maggiore di 3. Per n tendente ad , assume una forma sempre più vicina alla Normale. Cfr. http://www.xycoon.com/continuousdistributions.htm. EX n Var(X) 2n V.c. Beta Descrizione: Distribuzione base per le variabili casuali limitate inferiormente e superiormente. E’ impiegata come modello per descrivere la distribuzione degli stimatori dei parametri di alcune variabili casuali Supporto della v.c. X: x (a, b) Parametri caratteristici: e , che definiscono la forma e i momenti caratteristici della funzione Funzione di densità di probabilità 1 ( x a) 1 (b x) 1 B( , ) (b a) 1 Forma - Varia notevolmente al variare di ed . Per es., se = , la funzione è simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando con si riflette la forma della distribuzione rispetto al suo asse di simmetria. Se sia che sono entrambi f ( x; a, b, , ) maggiori di 1, allora la funzione mostra una moda, altrimenti, se sono entrambi minori di 1, presenta una forma ad U e, quindi, una “antimoda”. Quando (-1) (-1) 0, la funzione presenta una forma a “J”. Cfr. http://www.xycoon.com/continuousdistributions.htm. 100 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità EX Versione 2015 Var (X) 2 1 V.c. Uniforme (rettangolare) Descrizione:E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi di eventi all’interno di un certo intervallo, quando la probabilità di realizzazione è proporzionale all’ampiezza dell’intervallo. Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x Supporto della v.c. X: x (a, b) Funzione di densità di probabilità f ( x; a, b) 1 ba Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse nell’intervallo (a, b). EX ab 2 b a Var(X) 2 12 V.c. t di Student Descrizione: Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di una v.c. Chi – quadrato divisa per i suoi gradi di libertà Parametri caratteristici: n, il numero di gradi di libertà Supporto della v.c. X: x (-,+) Funzione di densità di probabilità n 1 1 2 f ( x) f ( x; n) n 1 n n x2 2 1 2 n Forma - Simmetrica con media nel punto 0 (se n = 1 però la media non esiste). Per n tendente ad +, assume una forma sempre più vicina alla Normale. E X non esiste per n 1 E X 0 per n 2 Var(X) non esiste per n 1 e n 2 Var(X) n per n 3 n2 101 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 V.c. F di Fisher-Snedecor Descrizione:Deriva dal rapporto di due v. c. Chi – quadrato indipendenti, ciascuna divisa per i rispettivi gradi di libertà (n1 ed n2) Parametri caratteristici: n1 ed n2, i gradi di libertà Supporto della v.c. X: x (0, +) Funzione di densità di probabilità n n 1 2 n1n1 / 2 n2n2 / 2 x ( n1 / 2)1 2 f ( x) f ( x; n1 , n2 ) n n (n1 x n2 )( n1 n2 ) / 2 1 2 2 2 Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm. E X non esiste per n 1 e n 2 EX n2 per n 2 n2 2 Var(X) non esiste per n 1 e n 2 Var(X) 2 n22 n2 n1 2 per n 4 n1 (n 2)2 n 4 1.9 - Variabili casuali multidimensionali Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle funzioni che soddisfano a certe condizioni e che associano a ciascun evento elementare (punto dello spazio campionario) ω Ω un numero reale. L’estensione al caso multidimensionale non presenta difficoltà di ordine logico, si tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare non più un numero ma una k-upla (k 2) ordinata di numeri reali. Definizione 9 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione X() X () x , x ,..., x ' x 12 a valori reali in Rk (spazio euclideo 1 2 k a k 2 dimensioni) definita su per la quale vale la relazione A : X () x B per ogni x Rk dove 12 Da rilevare che il vettore x è stato definito come vettore colonna mentre x’ indica il vettore riga (trasposto di x). 102 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 x1 x 2 x xk sta ad indicare un vettore di k numeri reali. Quindi la variabile casuale a k dimensioni è una funzione a k componenti che fa corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre, essendo A B elemento dell’algebra di Boole costruita sugli eventi ( ) è possibile determinare la sua misura di probabilità P A P / X ( ) x P X ( ) x P X x P X 1 x1 X 2 x2 X k xk F x1 , x2 ,......, xk F x che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle probabilità cumulate della variabile casuale a k dimensioni (vettore casuale) X1 X 2 X Xk La variabile casuale multipla (v.c.m.) X = X 1, X 2 ,....., X k ' è discreta se tutte le componenti possono assumere soltanto un numero finito o un’infinità numerabile di valori reali distinti, è invece continua se tutte le componenti possono assumere un’infinità non numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di variabili casuali miste, quando alcune componenti sono discrete, altre continue. La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a proposito della funzione di distribuzione per variabili casuali semplici F(x). Infatti, la funzione di distribuzione: 1. è monotona non decrescente rispetto a tutti gli argomenti; 2. valgono i limiti: lim F ( x1 , x2 ,..., xi ,..., xk ) 0 ; per i 1, 2,...., k xi lim F ( x1 , x2 ,..., xk ) 1 x1 x2 xk lim F ( x1 , x2 ,..., xi ,..., xk ) xi F ( x1 , x2 ,..., xi 1 , xi 1 ,..., xk ); per i 1, 2,...., k dove F ( x1 , x2 ,..., xi 1 , xi 1 ,...,xk ) è la funzione di distribuzione della variabile casuale a k-1 dimensioni X1, X 2 , ..., X i 1, X i 1,..., X k ; 103 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 3. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente continua rispetto a tutti gli argomenti nel caso continuo. Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di distribuzione possono essere ricavate in modo univoco, rispettivamente nel caso discreto, la funzione di massa di probabilità f ( x1i , x2 j ,..., xks ) P X1 x1i X 2 x2 j X k xks che rappresenta, appunto, la probabilità che ha il vettore casuale X X1, X2 , , Xk ' ' di assumere la determinazione xi x1i , x2 j , , xks . nel caso continuo la funzione di densità di probabilità f ( x1 , x2 ,..., xk ) ed anche d F ( x1 , x2 ,..., xk ) k F ( x1 , x2 ,..., xk ) x1 x2 xk f ( x1 , x2 ,..., xk ) dx1dx2 .....dxk f x d x P ( x1 X 1 x1 dx1 ) ( x2 X 2 x2 dx2 ) ...... ( xk X k xk dxk ) che rappresenta la probalità che ha il vettore casuale di assumere una determinazione nell’ipercubo infinitesimo a k dimensioni xi , xi dx ( x1, x1 dx1 ),( x2 , x2 dx2 ),......,( xk , xk dxk ) Per la funzione di massa di probabilità valgono le proprietà: 0 f(x1i, x2j, ... , xks) 1 i j ...s f(x1i ,x2 j ,...,xks ) 1 mentre per la funzione di densità valgono le proprietà f ( x1 , x2 ,..., xk ) 0 ... f ( x1 , x2 ,..., xk ) dx1 dx2 ...dxk 1 Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza biunivoca e le funzioni stesse identificano completamente la variabile casuale multipla (vettore casuale) X X 1, X2 , , Xk . ' Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale multipla X1, X2 , , X k , si dicono indipendenti in probabilità o statisticamente ' indipendenti se vale la relazione F(x1, x2, ..., xk) = F(x1) F(x2) ... F(xk) od anche f(x1i, x2j, ..., xks) = f(x1i) f(x2j) ... f(xks) nel discreto f(x1, x2, ..., xk) = f(x1) f(x2) ... f(xk) nel continuo 104 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è posto X1 = X e X2 = Y . La variabile casuale doppia (X, Y) è completamente individuata dalla sua funzione di distribuzione F ( x, y) P ( X x) (Y y) od anche: i) dalla sua funzione di massa di probabilità nel caso discreto f ( xi , y j ) F ( xi , y j ) F ( xi , y j 1 ) F ( xi 1 , y j ) F ( xi 1 , y j 1 ) P ( X xi ) (Y y j ) pij fij per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +); ii) dalla sua funzione di densità di probabilità nel caso continuo f ( x, y ) 2 F ( x, y ) x y per a x b e c y d (a e/o c possono tendere al valore -, b e/o d possono tendere al valore +). Valgono, ovviamente, le relazioni h 0 f(xi , yj) 1 k f ( x , y , i 1 j 1 f(x , y) 0 , b d a c i j ) 1 f ( x, y) dx dy 1 inoltre h f (x , y i 1 i j ) f ( y j ) j ) f ( xi ) ; i 1,2,..., h k f (x , y j 1 i j 1,2,..., k b f ( x, y ) dx f ( y ) ; c y d a d f ( x, y ) dy f ( x) ; a x b c che definiscono le funzioni di massa e di densità di probabilità delle variabili casuali semplici componenti la variabile casuale doppia (variabili casuali marginali). Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a doppia entrata del tipo 105 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Y Versione 2015 y1 y2 ... yj ... yk x1 p11 p12 ... p1j ... p1k p1. x2 p21 p22 ... p2j ... p2k p2. xi pi1 pi2 pik pi. xh ph1 ph2 ... phj ... phk ph. p.1 p.2 ... p.j ... p.k 1 X ... pij ... Tab. 1.1 - Schema di tabella a doppia entrata per la variabile casuale doppia discreta (Xi,Yj) dove: pij fij f ( xi , y j ) P ( X xi ) (Y y j ) k pi. pij per i = 1,2,...,h j 1 h p. j pij per j = 1,2,...,k i 1 h k p.. pij 1 i 1 j 1 Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X, Y), sono indipendenti statisticamente, o indipendenti in probabilità se: pij pi. p. j P ( X xi ) (Y y j ) P( X xi ) P(Y y j ) f ( xi , y j ) f ( xi ) f ( y j ) Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti, interesserà, per un verso, la misura dell’eventuale relazione, per altro verso, l’analisi delle cosiddette variabili casuali condizionate che, riferendosi per semplicità sempre al caso discreto, sono definite dalle relazioni: variabili casuali condizionate X/ (X/Y = yj) = X/yj per j = 1,2,...,k con funzioni di massa condizionata f ( xi , y j ) f(xi/yj) = per i = 1,2,...,h ; j = 1,2,...,k f (y j ) variabili casuali condizionate Y/ (Y/X = xi) = Y/xi per i = 1,2,...,h con funzioni di massa condizionata f ( xi , y j ) f(yj/xi) = per i = 1,2,...,h ; j = 1,2,...,k f ( xi ) 106 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della variabile condizionante Y ) e h variabili condizionate Y/xi (tante quante sono le modalità della variabile condizionante X ). Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e (Y/X = x) = Y/x sono in numero infinito. La funzione di distribuzione o le funzioni di massa o di densità di probabilità descrivono in modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili casuali marginali) componenti la variabile casuale doppia e le variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali semplici può risultare comunque conveniente una descrizione sintetica (e quindi parziale) delle variabili casuali doppie. Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle variabili casuali doppie; ovviamente, le trasformazioni devono essere tali da rendere significativo (finito) il computo del valore atteso. 1.10 - Valore atteso di funzioni (trasformazioni) di variabili casuali doppie e multiple Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da Eg X , Y g xi , y j f xi , y j g xi , y j pij nel discreto h k h i 1 j 1 Eg X , Y b a k i 1 j 1 g x, y f x, y dx dy d nel continuo c Momenti misti rispetto all’origine Ponendo g(X , Y) = Xr Ys , per r,s = 0,1,2,..., si ha rs E X r Y s xir y sj pij h k nel discreto i 1 j 1 rs E X r Y s b a d c x r y s f x,y dx dy nel continuo che viene detto momento misto di ordine rs rispetto all’origine. Risulta facile verificare che i momenti misti 10 e 01 sono i momenti primi (cioè le medie aritmetiche) delle variabili casuali marginali semplici X ed Y ; infatti, si ha: 10 E X 1 Y 0 xi pij xi pij xi pi. = x h k i 1 j 1 10 E X 1 Y 0 b d a c h k h i 1 j 1 i 1 nel discreto x f x, y dx dy x f x dx x b a 107 nel continuo B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Analoghe considerazioni possono essere fatte nei confronti dei momenti 01, 20, 02, 30, 03, ecc. Il momento misto più significativo ed interessante è quello del primo ordine o momento misto rispetto all’origine di ordine 1,1, 11 = xy 11 E X 1 Y 1 xi y j pij = xy h k nel discreto i 1 j 1 11 E X 1 Y 1 b d a c x y f x, y dx dy xy nel continuo. Momenti misti rispetto alla media o momenti misti centrali Ponendo g(X Y) = ( X x ) r (Y y ) s per r, s = 0,1,2,… si ha rs E ( X x )r (Y y )s che viene detto momento misto centrale, o momento misto rispetto alla media, di ordine rs . I momenti misti 00 , 10 ,01 non sono significativi essendo sempre uguali a uno e zero, mentre risulta particolarmente interessante il momento misto di ordine 11 : 11 E ( X x ) (Y y ) xy yx 11 10 01 che viene detto covarianza. La covarianza è un indice assoluto di concordanza tra le due v.c. componenti la v.c. doppia. Si tratta, cioè, di un indice che misura l’associazione tra le due componenti X ed Y e potrà assumere valore positivo, negativo o nullo. Assumerà un valore positivo quando le due componenti della variabile casuale doppia variano tendenzialmente nella stessa direzione, al crescere dei valori assunti dalla X crescono i valori assunti dalla Y , ed anche, al diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y. In questo caso si avrà che a scarti positivi (negativi) (X-x) corrisponderanno, usualmente, scarti positivi (negativi) (Y-y) ed il prodotto degli scarti risulterà positivo. La covarianza assume invece valore negativo quando le due variabili variano in direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di una variabile ed uno scarto negativo dell’altra variabile e viceversa. Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine delle due variabili casuali marginali, cioè le due varianze: 20 E ( X x )2 (Y y )0 E ( X x )2 x2 02 E ( X x )0 (Y y )2 E (Y y )2 y2 108 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Momenti misti standardizzati Se si pone X x g(X,Y) = x r Y y y s per r,s = 0,1,2,… si ha X r Y y x rs E x y che viene detto momento misto standardizzato di ordine rs . Il momento misto più significativo è il momento misto standardizzato di ordine 1,1 s X Y y xy x xy yx x y x y usualmente detto coefficiente di correlazione (di Bravais-Pearson). Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra, infatti, la relazione 11 E xy x y dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y sono linearmente dipendenti cioè quando Y = a+b X . In questo caso xy = yx = 1 ed il segno dipenderà dal segno del coefficiente angolare b della retta Y = a+b X. Teorema. xy 1 , yx = 1 se e solo se y = a + b x Si consideri il seguente valore atteso di una combinazione lineare delle v.c. scarto S x X x e S y Y y : 2 2 2 E X x Y y E X x 2 E Y y 2 E X x Y y x2 2 y2 2 xy 0 La disuguaglianza può anche essere nella forma 2 y2 2 xy x2 0 espressione che evidenzia chiaramente che si tratta di una disequazione di 2° grado che ammette soluzione solo se il discriminante b2 4ac assume un valore minore o uguale a 0, cioè se 2 xy 4 y2 x2 0 , da cui 2 2 xy 2 4 y2 x2 xy2 xy 1 1 xy yx 1 2 2 y x x y Condizione sufficiente: se y = a + b x allora yx = 1 109 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 infatti, se y = a + b x si ha 2 2 Var Y y2 E Y y E a bX a b x b 2 x2 Cov X Y xy E X x Y y E X x b X x b x2 da cui 2= xy2 b2 x4 12 1 2 2 2 2 2 x y x b x Condizione necessaria: yx = 1 solo se y = a + b x infatti, yx = 1 solo se nella disequazione vale il segno di uguaglianza, cioè, se E X x Y y 0 X x Y y 0 2 x 1 X ab X 1 dove, a y x e b . Per quanto sopra riportato deriva che il coefficiente di correlazione potrà assumere soltanto valori compresi tra -1 e +1, ed è pari a -1 o +1 sse tra le due v.c. esiste una relazione lineare perfetta; il segno – o + dipende dal valore del coefficiente angolare b della retta, se negativo o positivo 13. Se xy = yx = 0 (cioè se xy = yx = 0) si dice che le due componenti X ed Y sono linearmente indipendenti. Questa forma di indipendenza è una forma molto particolare di mancanza di associazione tra variabili e non esclude affatto la presenza di un possibile legame di natura diversa tra le due componenti X ed Y della variabile casuale doppia (X,Y). Infatti potrebbe sussistere tra le due componenti un legame funzionale molto stretto, ad es. Y = a+bX2 , e risultare xy = 0. Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di concordanza) è un indice di dipendenza o meglio interdipendenza (essendo xy = yx) lineare. Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra forma di indipendenza). Infatti, se le due componenti X ed Y sono statisticamente indipendenti f(x,y) = f(x)f(y) e quindi (senza perdere in generalità si considera il solo caso continuo) Y y 13 Si segnala che quanto riportato non rappresenta altro che una specifica particolarizzazione della disuguaglianza di Cauchy-Schwarz. Tale disuglianza è espressa dalla relazione a' , b dove a' , b 2 a' , a b, b indica il prodotto scalare (interno) tra i due vettori di uguale dimensione la diseguaglianza è quindi espressa dalla relazione n i 1 2 ai bi a b . n n 2 i i 1 110 2 i i 1 a e b , se la dimensione è n B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 b d 11 xy E ( X x ) (Y y ) ( x )( y x a y ) f ( x, y ) dx dy c a ragione dell'indipendenza tra x e y si ha b a d ( x )( y x y ) f ( x) f ( y ) dx dy c b d a c ( x x ) f ( x) dx ( y y ) f ( y ) dy 10 01 0 L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione nelle righe seguenti ed è quello particolarmente rilevante della variabile casuale normale doppia. Momenti delle distribuzioni condizionate La derivazione dei momenti delle distribuzioni condizionate non comporta alcuna difficoltà, basterà fare riferimento, nel calcolo del valore atteso, alla funzione di massa o di densità di probabilità condizionate. Ad esempio, per media (momento primo rispetto all’origine) e varianza (momento secondo rispetto alla media) nel caso continuo si ha y / x E Y / x y f y / x dy; x / y E X / y x f x / y dx ( y ) f y / x dy ) ( x ) f x / y dx Var Y / x y2/ x E (Y y / x ) 2 Var X / y x2/ y E ( X x / y 2 y/x 2 2 x/ y Funzione generatrice dei momenti La funzione generatrice dei momenti di una variabile casuale doppia è definita dalla relazione mx , y t x , t y E e tx X t y Y La funzione generatrice dei momenti, quando esiste, identifica completamente la v.c. doppia (X , Y) e consente di ottenere facilmente sia le funzioni generatrici dei momenti delle distribuzioni marginali sia i momenti misti rispetto all’origine; infatti Distribuzioni marginali lim E e lim mx , y t x , t y lim E e tx X t y Y lim mx , y t x , t y tx X t y Y t y 0 t x 0 t y 0 t x 0 Momenti 111 E e m t E e m t tx X x x y y ty Y B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 tx X t y Y / tx X t y Y / d d mx , y t x , t y / tx 0, t y 0 E e dt x dt x d d mx , y t x , t y / tx 0, t y 0 E e dt y dt y d2 d2 mx , y t x , t y / tx 0, t y 0 E e dt x dt y dt x dt y t x 0, t y 0 t x 0, t y 0 tx X t y Y / tx X / ty Y / d E e dt x d E e dt y t x 0, t y 0 t x 0 ty 0 10 x 01 y 11 xy 2 3 tx X t y Y tx X t y Y d 2 E 1 tx X t y Y / tx 0, t y 0 dt x2 2! 3! E t x2 X 2 E t y2Y 2 E 2t x t y XY d2 1 t E X t E Y / tx 0, t y 0 x y 2 dt x 2! t x2 20 t y2 02 2t x t y 11 d2 2 1 tx x t y y / tx 0, t y 0 20 dt x 2! 2 3 tx X t y Y tx X t y Y d 2 / t 0, t 0 E 1 t X t Y x y dt y2 2! 3! x y E t x2 X 2 E t y2Y 2 E 2t x t y XY d2 2 1 t x E X t y E Y / tx 0, t y 0 dt y 2! t x2 20 t y2 02 2t x t y 11 d2 2 1 tx x t y y / tx 0, t y 0 02 dt y 2! Quanto detto per le v.c. doppie (k = 2) può essere facilmente esteso al caso più generale per un k > 2 qualsiasi, restando cosi definite le variabili casuali multiple (v.c.m.) o vettori casuali a k dimensioni. Si possono definire, quindi, le variabili marginali e quelle condizionate di qualsiasi ordine ed i momenti di qualsiasi natura e ordine. La funzione generatrice dei momenti è mx , x2 ,....., xk t x1 , t x2 ,....., t xk E e t x1 X1 t x2 X 2 ....t xk X k Da tale funzione si derivano facilmente le distribuzioni marginali e, quindi, le distribuzioni condizionate ed i momenti di qualsiasi ordine. 1.11 - Variabili casuali discrete e continue a k dimensioni In questo paragrafo si procederà alla descrizione delle sole variabile casuali doppie (k=2) binomiale (detta usualmente variabile casuale trinomiale) e normale di cui verrà proposta anche l’estensione al caso k >2; si procederà, inoltre, alla definizione della 112 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 v.c. ipergeometrica a k dimensioni e della v.c. di Dirichlet, verranno, infine, introdotte tre variabili casuali multiple multivariate (matrici casuali), le prime due derivano, rispettivamente dalla generalizzazione della v.c normale multipla e della v.c. gamma multipla, mentre la terza, la distribuzione di Wishart, che è una specifica sottofamiglia della gamma multipla multivariata, viene trattata separatamente per la sua rilevanza in quanto distribuzione campionaria della matrice di varianze e covarianze (matrice di dispersione) di una variabile casuale multinormale. 1.11.1 Distribuzione trinomiale (binomiale doppia) Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova sia 1 o 2 o 3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1). Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri reali in cui la prima componente X rappresenta il numero delle volte in cui si è presentato il risultato 1 nelle n prove, mentre Y rappresenta il numero delle volte in cui si è presentato il risultato 2. Ovviamente, il numero delle volte in cui si presenta il risultato 3 non può essere inserito come terza variabile essendo lo stesso numero univocamente determinato per differenza (n – x – y). Se, per semplicità di notazione, si pone p1 P(1 ) P( X 1) px p2 P(2 ) P(Y 1) p y p3 P(3 ) P ( X 0) (Y 0) 1 px p y q si avrà f ( x, y; n, px , p y ) P ( X x) (Y y) n! pxx p yy q n x y x ! y !(n x y)! dove: x rappresenta il numero delle volte in cui si è presentato il risultato 1 nelle n prove ed y il numero delle volte in cui si è presentato il risultato 2 ; x potrà, pertanto, assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n-x , oppure x,y = 0, 1, 2, …, n con il vincolo x+y n . La funzione generatrice dei momenti della v.c. trinomiale è data da n n x n n! t X t Y t x t y t E e x y e x y pxx p yy qn x y px etx p y e y q . x ! y !(n x y )! x 0 y 0 Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto riportate relative ad alcuni momenti misti 10 = x = n px , 01 = y = n py 113 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 20 x2 n px (1 px ) , 02 y2 n py (1 py ) 11 xy yx n px p y , 11 xy yx E (Y / x) (n x) py , E ( X / y ) (n y ) 1 px px p y (1 px ) (1 p y ) px 1 py L’espressione analitica delle due distribuzioni condizionate è (n x)! p y f ( y / x) y!(n x y )! 1 p x y q 1 px n x y (n y )! p x f ( x / y) x!(n x y )! 1 p y x q 1 p y n x y Esempio 1.34 Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere classificato come accettabile se x1 X x2 , sovradimensionato se X > x2 oppure sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono, rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1 sovradimensionato e 3 sottodimensionati? Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi, ciascuno dei quali segue una distribuzione binomiale. Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un campione di 10 unità: 10 P( X 6) 0.7 6 0.34 0.2001 20.01% 6 Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati. Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento è data da: 4 0.2 0.1 P(Y 1) 0.099 9.90% , 1 0.3 0.3 1 3 dove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3. La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y “1 pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità. Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata di Y = 1 dato X = 6, quindi: 1 10! 4! 0, 2 P( X 6 Y 1) 0,76 0,34 6! 4! 1! 3! 0,3 114 3 0,1 , 0,3 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 semplificando si ottiene: P( X 6 Y 1) 10! 0, 76 0, 21 0,13 0.2001 0.0990 1, 98%. 6! 1! 3! L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1 risultati necessari ed incompatibili 1, 2, …, k, k+1 . Si potrà introdurre la variabile casuale multinomiale a k dimensioni (X1, X2, …, Xk) , dove le componenti rappresentano il numero delle volte in cui, nelle n prove, si è presentato, rispettivamente il risultato 1, 2, …, k . Il numero delle volte in cui si presenta il k risultato k+1 non viene considerato risultando il suo valore per differenza n xi . i 1 1.11.2 Distribuzione multinomiale e ipergeometrica a k dimensioni Se con k p1 , p2 , ..., pk e pk 1 q 1 pi i 1 si indicano le probabilità dei risultati (punti campionari) 1, 2, …, k+1 , la funzione di massa di probabilità della variabile casuale multinomiale è f ( x1 , x2 , ... xk ; p1 p2 ... pk ) f ( x; p) n! x1 ! x2 ! ... xk ! n k x ! p1x1 p2x2 ... pkxk q n k xi i 1 i i 1 k dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo x n . i i 1 La funzione generatrice dei momenti della v.c. multinomiale a k dimensioni è data da t' X n E e x1 0 n x1 n k 1 xi i 1 x2 0 n! t' X e xk 0 k x1 ! x2 ! (n xi )! i 1 p1et1 p2et2 pk etk q dove, t t1 , t2 , , tk ' n per -h ti h con h 0, i = 1,2,,k. 115 p1x1 p2x2 pkxk q n k xi i 1 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 oo....i....o E X i x n pi i Var X i n pi 1 pi Covar X i X i xi x j i j n pi p j Corr X i X i xi x j i j pi p j 1 pi 1 p j . Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che, rifacendosi allo schema di estrazione da un’urna, si procede ad n estrazioni senza ripetizione da un’urna contenente N palline, si deriva la versione a k dimensioni della variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità k N Ni N1 N 2 N k i 1 ... k x x x 1 2 k n x i i 1 f ( x1 , x2 ,..., xk ; n, N1 , N 2 , , N k ) N n k dove N1, N2, …, Nk, Nk+1 ( N k 1 N N i ) rappresentano le palline, rispettivamente, i 1 del colore 1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo k x n N i 1 i anche dai valori N1, N2,…, Nk. 1.11.3 Distribuzione normale doppia La funzione di densità della variabile casuale normale doppia o variabile casuale normale bivariata è data da f ( x, y; x , y , x , y , xy ) 1 2 x y 1 xy2 e 1 2 2(1 xy ) 2 y y x x 2 x x xy x x y y y y 2 per - x + e - y + e dove i parametri che caratterizzano la distribuzione coincidono con gli indici caratteristici più significativi della distribuzione stessa 10 E( X ) x , 01 E(Y ) y 20 E( X x ) 2 x2 , 02 E(Y y ) 2 y2 X Y y x x y 11 E xy xy yx 11 10 01 x y x y 116 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti f ( x) f ( x, y)dy 2 x2 f ( y) f ( x, y )dx f ( x / y) f ( x, y ) f ( y) f ( x, y ) f ( y / x) f ( x) 1 1 2 y2 1 2 (1 xy2 ) 2 x e 1 2 y2 (1 xy2 ) e e e 1 ( x x )2 2 x2 1 2 y2 ( y y )2 x x xy x ( y y ) y 2 y 1 ( x x ) y y xy 2 x 2 2y (1 xy ) 2 1 2 2 x2 (1 xy ) che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni condizionate. Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal coefficiente di correlazione. Se xy = yx = = 0, le due variabili casuali componenti la v.c. doppia sono statisticamente indipendenti f ( x, y) f ( x) f ( y) e le distribuzioni condizionate, per l’indipendenza, non risentono più del condizionamento e risultano uguali alle distribuzioni marginali. Nella Fig. 1.7 è riportata la forma della funzione di densità e le sezioni orizzontali e verticali della variabile casuale normale doppia le cui componenti sono incorrelate (indipendenti) ed hanno uguale varianza. Nella Fig. 1.8 sono riportate le sezioni orizzontali di variabili casuali normali doppie incorrelate (xy = 0) con relazione diversa tra le varianze delle due distribuzioni marginali. Nella Fig. 1.9 sono riportate le sezioni orizzontali di una variabile casuale normale doppia, le cui componenti hanno stessa varianza x2 y2 1 , per diversi livelli di correlazione; mentre nella Fig. 1.10 le sezioni sono relative a diversi livelli di correlazione e diversa varianza ( x2 4 e y2 1) . 117 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 = 0 ; x2 y2 .2 = 0,7 ; x2 y2 .2 = 0,9 ; x2 y2 .2 Fig. 1.7 – Funzione di densità di una variabile casuale normale bivariata Osservando le Figg. 1.8, 1.9 e 1.10 si rileva l’incidenza del valore assunto dai parametri caratteristici sulla forma della funzione di densità. La forma campanulare perfetta si ha solo quando xy = yx = 0 e x2 y2 . Se xy = yx = = 1 , cioè se esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro desumibile immediatamente anche per via analitica; infatti, valendo la relazione Y = a + b X non ha più senso parlare di variabilità su due componenti essendo la variabilità dell’una (es. la Y) strettamente determinata dalla variabilità dell’altra. 118 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Fig. 1.8 - Sezioni orizzontali di una variabile casuale normale doppia con xy = yx = 0 Fig. 1.9 – Sezioni orizzontali di una variabile casuale normale bivariata con x2 y2 1 119 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Fig. 1.10 - Versione 2015 Sezioni orizzontali di una variabile casuale normale bivariata con x2 4 e y2 1 Di seguito si riportano le dimostrazioni di quanto sopra affermato ed evidenziato graficamente nelle figure. La funzione specificata è una funzione di densità, infatti: 1 2 x y 1 xy2 e 1 2 2(1 xy ) 2 yy x x 2 x x xy x x y yy y 2 0 e f x, y dx dy 1 La prima disuguaglianza è immediata, si dimostra la seconda relazione. f ( x, y; x , y , x , y , ) dx dy 1 2 x y 1 2 e 2 x x 2 x x 2(1 ) x x 1 2 y y y y y y Se si operano le trasformazioni y y x x zx e zy si ha dx dy x y dz x dz y x y 120 2 dx dy quindi B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità 1 2 x y 1 2 1 2 2 2 y y y y x x 2 x x 2(1 ) x x y y 1 Versione 2015 1 2 e 2 e 1 z x2 2 z x z y z 2y 2(1 2 ) dx dy dz x dz y Se si completa nell’esponente il quadrato in z x si ha 1 2 1 2 e 1 2 1 2 1 2 1 2 1 z x2 2 z x z y z 2y 2(1 2 ) 1 z x2 2 z x z y 2 z 2y 2 z 2y z 2y 2(1 2 ) 1 z z x y 2(1 2 ) e e zx z y Se si effettua la trasformazione v 2 1 2 1 1 2 e 2 v 1 e 2 dv 2 dz x dz y 1 2 z 2y 2 1 e 2 dz x dz y si ha dz x 1 2 1 z z x y 2(1 2 ) dz x dz y z 2y 2 1 2 z 2y 1 2 dv , quindi 2 dz x dz y dz y 1 La funzione generatrice dei momenti è definita dalla relazione mx, y t x , t y E e tx X t y Y e tx x t y y 1 2 2 t x x 2 t x t y x y t y2 y2 2 Infatti, se si effettuano le trasformazioni zx x x x e zy y y y da cui x x z x x e y y z y y si ha 121 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità mx , y t x , t y E e x e tx x t y y e tx x t y y Versione 2015 t x z x x t y y z y y e e tx x t y y 2 1 2 e e 1 2 t x z x t y y z y dz x dz y 1 z x2 2 z x z y z 2y 2 1 2 t x x z x 2 1 2 t y y z y 2(1 2 ) 1 E ex 1 z x2 2 z x z y z 2y 2(1 2 ) 1 t x x z x t y y z y 2 dz x dz y se si completano i quadrati in z x e z y ad esponente si ottiene mxy e e e t x x t y y t x x t y y 2 1 2 1 2 1 2 e 1 t x x t y y t x2 x2 2 t x t y x y t y2 y2 2 1 2 z x 2 z x z y z 2y 2 1 2 t x x z x 2 1 2 t y y z y 2(1 2 ) 1 e d zx d z y 2 2 2 2 2 2 2 2 2 z x 2 z y 1 t x x 1 z y t x x t y y 1 t x x 2 t xt y x y t y y 2(1 ) 1 2 1 2 1 2 e 2 2 1 2 2 z x z y 1 t x x 1 z y t x x t y y 2(1 2 ) d zx d z y d zx d z y effettuando le trasformazioni u z x z y 1 2 t x x 1 e v z y t x x t y y si ha dz x dz x 1 2 du dv 2 si ha mx, y t x , t y e e 1 t x x t y y t x2 x2 2 t x t y x y t y2 y2 2 1 2 1 t x x t y y t x2 x2 2 t x t y x y t y2 y2 2 e u2 2 du 1 2 e v2 2 dv Le distribuzioni marginali sono normali La distribuzione marginale X della v.c. doppia (X,Y) è normale con parametri x e x2 . Infatti f x 1 2 x y 1 2 f x, y dy 122 e 2 x x 2 x x 2(1 ) x x 1 2 yy y y y y 2 dy B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 y y se si opera la trasformazione z y 1 2 x y 1 2 e 1 2 x 1 2 1 2(1 2 ) da cui dy y dz y si ha y e 1 2(1 2 ) 2 x x 2 x x x x yy y x 2 xx 2 x 2 z z x y y x yy y 2 dy dz y completando il quadrato di z y ad esponente si ha 1 2 x 1 2 f x 2 x 1 1 e 2 x 1 1 2 x 2 xx 2 x 2 zy zy 2 2(1 ) x x 1 e x x 2 2 2 x e d zy 2 2 x 2 xx 2 2 xx 2 xx x 2 z z y y 2(1 2 ) x x x x 1 1 2 1 2 e 1 2(1 2 ) xx zy x d zy 2 d zy ma 1 2 1 2 v x x zy x 1 2 e xx 1 zy 2(1 2 ) x 2 d z y 1 per la trasformazione da cui d z y 1 2 d v pertanto f x 1 2 x e 1 x x 2 2 x2 Ragionamento analogo vale per f y che è data da f y 1 2 y e 123 1 y y 2 y2 2 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Le distribuzioni condizionate sono normali 1 f x / y f x, y 2 e 2 x y 1 2 f y 2 x x 2 x x 2(1 ) x x 1 1 2 y 1 1 2 x 1 2(1 e 2 2 ) x2 xx x y y y e 1 2 y2 y y yy y yy y 2 2 2 Analogamente 1 f y / x f x, y f x 2 x x 2 x x 2(1 2 ) x x 1 e 2 x y 1 2 1 2 x 1 2 y 1 e 2 1 2(1 ) 2 y2 y x y x x x e 1 2 x2 yy y yy y 2 x x 2 2 Da sottolineare che se le due distribuzioni marginali di una v.c. doppia sono normali non necessariamente la v.c. di origine è normale; ovviamente, se le due v.c. marginali normali sono indipendenti è normale anche la v.c. doppia di origine. 1.11.4 Distribuzione normale a k dimensioni La funzione di densità della variabile casuale normale a k ≥ 1 dimensioni o variabile casuale normale k-dimensionale è data da f ( x ; , ) 1 (2 )k /2 1/2 e 1 x ' 1 x 2 dove tutte le componenti del vettore x' ( x1 , x2 ,...., xk ) variano tra -∞ e +∞ e x1 x 2 x xk 1 11 2 21 ; ; k1 k 12 22 k2 2 12 1k 2 k 21 22 1 kk k1 k 2 1k 2k k2 inoltre, x x1, x2 ,...., xk rappresenta una possibile determinazione del vettore casuale ' X X 1, X 2 ,...., X k , 1, 2 ,...., k il vettore medio, cioè il vettore delle k medie ' ' aritmetiche (momenti di ordine 1 rispetto all’origine) relative alle k v.c. semplici 124 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 componenti la v.c. multipla e la matrice k×k di varianze e covarianze (matrice di dispersione); se non è definita positiva la v.c. multipla non esiste e si parla di v.c. multipla a k dimensioni degenere, in altri termini la dimensione del vettore casuale ' X X 1, X 2 ,...., X k è inferiore a k. Il termine x - ' 1 x - viene usualmente detto distanza generalizzata o distanza di Mahalanobis di x da . Si dimostra, senza eccessiva difficoltà, che tutte le v.c. marginali e condizionate, semplici e multiple, si distribuiscono normalmente. La funzione generatrice dei momenti è definita dalla relazione mx1 , x2 ,, xk t1, t2 , , tk E e dove, t t1 , t2 , , tk ' t' X t'μ e 1 ' t t 2 per -h ti h con h 0, i = 1,2,,k. Un modo diverso per rappresentare la funzione di densità di probabilità della variabile casuale multinormale è quello di fare riferimento alle correlazioni anziché alle varianze e covarianze, in questo caso si ha f ( x ; , ) 1 dove R 21 k1 12 1 k 2 1k 2 k 1 1 (2 ) k 2 DRD per ij 1 e 1 ' x ( DRD )1 x 2 2 ij è detta matrice di correlazione i j 0 1 0 0 0 2 e dove D è detta matrice di dispersione. k 0 0 La matrice di correlazione si può ottenere dalla matrice di dispersione e viceversa R D1 D1 e D R D Le v.c. marginali e condizionate di ogni ordine hanno distribuzione normale ma se tutte le v.c. marginali semplici di una v.c. a k dimensioni hanno distribuzione normale non necessariamente la varibile k-upla di origine è normale. Quest’ultima implicazione vale se le v.c marginali semplici sono indipendenti, in questo caso le covarianze sono tutte nulle e la matrice di dispersione è una matrice diagonale. 125 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 1.11.5 Distribuzione di Dirichlet La distribuzione di Dirichlet è una v.c. a k dimensioni (vettore casuale) caratterizzato da k+1 parametri positivi che deriva da una generalizzazione al caso multivariato della v.c. Beta (k=1). Questa distribuzione è spesso usata come distribuzione a priori della v.c. multinomiale nell’inferenza statistica bayesiana. k 1 i f ( x ; ) k 1 i 1 k 1 x i 1 i i 1 i i 1 x , x 1 , x , x ,....., x k dove, xk 1 1 k i i 1 i 1 k 1 2 > 0 e 1, 2,....., k 1 . i 1 La media e la varianza delle distribuzioni marginali sono E Xi i , Var X i = i k 1 i i 1 2 i . k 1 i i i 1 i 1 i 1 i 1 Un caso particolare di questa distribuzione è rappresentato dall’uguaglianza 1 2 ..... k = k 1 = . In tale caso si parla di distribuzione di Dirichlet k 1 k 1 simmetrica la cui funzione di densita diventa f ( x ; ) k 1 k 1 k 1 x 1 i . i 1 1.12 - La famiglia esponenziale Una v.c. semplice X, caratterizzata da un solo parametro , con funzione di densità o massa di probabilità f x ; appartiene alla famiglia esponenziale se può essere espressa nella forma (standard): f x; a h x e t x per a 0 , h x 0 e dove, può essere definito come parametro standard e come spazio parametrico standard. Se il supporto della v.c. X non dipende da la famiglia è detta regolare altrimenti si parla di famiglia irregolare. 126 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Modi equivalenti per rappresentare la famiglia esponenziale sono x; h x e t x d ; f x; e t x d g x d log a e g x log h x f dove Una v.c. caratterizzata da r parametri con funzione di densità o massa di probabilità f x ;1 ,2 ,....,r f x ; , dove, θ 1 ,2 ,....,r , appartiene alla famiglia esponenziale se può essere espressa nella forma: r f i ti x x; a h x e i1 dove, a 0 , h x 0 e Θ o anche r r i ti x d ; f x; x; h x e dove d log a e g x log h x . i 1 f i ti x d g x e i1 L’espressione analitica della funzione di massa o di densità della famiglia esponenziale nel caso multivariato è: r i ti x x; a h x e x' x1 , x2 ,....., xk rappresenta un vettore casuale a i 1 f dove k dimensioni. Modi equivalenti per rappresentare la famiglia esponenziale nel caso multivariato multiparametrico sono r r i ti x d ; f x; x; h x e dove d log a e g x log h x . i 1 f i ti x d g x e i1 Nella generalità dei casi la famiglia esponenziale non viene presentata nei termini sopra riportati (formulazione standard). Una diversa rappresentazione della famiglia esponenziale, che agevola gli sviluppi teorici, è quella che si ottiene, attraverso una specifica riparametrizzazione, usualmente detta naturale o canonica e i nuovi parametri (spazio parametrico naturale) vengono detti parametri naturali o canonici. Nel caso univariato e di un solo parametro l’espressione in forma naturale è f x; b h x e t x per b 0 , h x 0 e od anche f x; h x e t x d ; f x; e t x d g x Nel caso univariato multiparametrico l’espressione in forma naturale è r f x; h x c e i1 od anche 127 ti x dove i i B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità r f x; h x i e i1 Versione 2015 r ti x d x; ; f i ti x d g x e i1 Nel caso multivariato multiparametrico la rappresentazione in forma naturale è r f x; c i ti x h x e i1 od anche r f x; h x i e i1 r ti x d ; f x; i ti x d g x e i1 Specificando opportunamente le funzioni a valori reali riportate nelle diverse espressioni analitiche sopra introdotte si derivano molte delle distribuzioni illustrate nelle pagine precedenti; infatti, appartengono alla famiglia esponenziale, la v.c. binomiale (bernoulli come caso particolare della binomiale), lav.c. binomiale negativa e la v.c. multinomiale per n noto, la v.c. di poisson, la v.c. di Pareto per valore minimo noto, la v.c. di Weibull per noto, la v.c. gamma, la v.c. beta, le v.c. casuali normale, log-normale e normale multivariata. Non appartengono alla famiglia esponenziale la v.c. ipergeometrica, la v.c. uniforme quando gli estremi di variabilità non sono noti, la v.c. di Cauchy, la v.c. logistica, la v.c. t di student e la v.c. F di Fisher-Snedecor; più in generale, non appartengono alla famiglia esponenziale tutte le distribuzioni il cui supporto dipende da parametri caratteristici (famiglia irregolare) a meno che questi non vengano assunti come noti. Esempio 1.35 Di seguito si riportano a titolo esemplificativo le rappresentazione in forma naturale (canonica) di alcune distribuzioni tra quelle sopra elencate. v.c. Binomiale (v.c. di Bernoulli, come caso particolare della binomiale) La funzione di massa di probabilità della v.c. binomiale è caratterizzata dai due parametri n e p , assumendo noto il valore di n l’unico parametro di interesse è θ=p. Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di massa di probabilità. p log x n n n n x n 1 p p t x f x; n, p p x 1 p p x q n x 1 p e h x a p e x x x n p n dove: a p 1 p 0 , h x 0 , p log , t(x) = x. x 1 p Poisson La funzione di massa di probabilità della v.c. di Poisson è caratterizzata dal solo parametro . Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di massa di probabilità. 128 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 f ( x) f ( x; ) dove, x e 1 x log e e x! x! 1 h x , e a , log , t x x . x! Normale La funzione di densità di probabilità della v.c. normale è caratterizzata dai due parametri e 2 . Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di densità di probabilità. 1 f ( x) f ( x; , ) 2 2 2 e 1 x 2 2 1 e 2 2 2 2 2 e 1 2 2 x2 x 2 dove 1 2 2 e 2 2 2 a , 2 , 1 h x , 1 2 2 , x 2 t1 x , x t2 x 2 1 , 2 Multinomiale La funzione di massa di probabilità della v.c. multinomiale a k dimensioni è caratterizzata da k+1 parametri n e p1 , p2 ,......, pk , assumendo noto il valore di n, i parametri di interesse sono p p1 , p2 ,......, pk . Operando opportune trasformazioni si deriva facilmente la ' rappresentazione in forma esponenziale della funzione di massa di probabilità. f ( x; p) k n! k i 1 xi ! n k i 1 xi ! p xi i k i 1 xi ! n k i 1 xi ! e n log q q k xi i 1 i 1 k n! n p xi log qi e i1 dove n! k i 1 xi ! n k i 1 xi ! h x, e n log q e k n log 1 pi i 1 p h p , i log i , ti x xi q . 1.13 - Distribuzioni multiple multivariate Ai punti precedenti sono state illustrate alcune tra le v.c. a k ≥ 1 dimensioni di uso più comune, introducendo il termine di vettore casuale. Una ulteriore generalizzazione è il 129 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 passaggio dal vettore casuale alla matrice casuale; nelle righe successive verranno introdotte tre generalizzazioni di particolare interesse utilizzando la terminologia variabile casuale multipla multivariata (v.c.m.m.). In particolare verranno considerate le generalizzazioni della v.c normale, della v.c. gamma, della v.c. beta e la distribuzione di Wishart che è una sottofamiglia della gamma multipla multivariata. Distribuzione normale multipla multivariata La funzione di densità di probabilità di una matrice casuale normale X di dimensione n×k è data da 1 exp tr V 1 X M ' U 1 X M 2 f ( X; M , U ,V ) n /2 k /2 n k /2 2 V U Dove M (matrice dei momenti) è, ovviamente di dimensione n×k , e le due matrici di varianze e covarianze U, di dimensione n×n, e V , di dimensione k×k , possono essere definite dalle relazioni U E X M X M ' V E X M ' X M / c c è una costante che dipende da U tale da consentire la derivazione della costante di normalizzazione della funzione di densità. La v.c.m.m normale può essere posta in relazione con la v.c.m. normale se e solo se vec X N vec M , V U 14 se vale questa relazione, cioè se il vettore vec (X) di dimensione nk×1 si distribuisce normalmente con vettore medio vec(M), di dimensione nk×1 e matrice di dispersione V U , di dimensione nk×nk si ha X MNnk M , U,V . Distribuzione gamma multipla multivariata La funzione di densità di probabilità di una matrice casuale gamma X simmetrica e definita positiva di dimensione k×k , X M k , , k è data da f ( X ; , , k ) k X k 1 /2 e k k 1 tr 1 k X , 0 < X < 1k dove 0 , 0 , k è una matrice simmetrica definita positiva di dimensione k×k e 14 Si ricorda che che l’operatore vec(X) indica l’operazione di vettorizzazione della matrice X (i vettori colonna della matrice vengono allineati sulla prima colonna) mentre l’operatore indica il prodotto di Konecker tra matrici (ciascun elemento della prima matrice viene moltiplicato per la seconda matrice definite nel prodotto). 130 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 k e tr X X k 1 /2 dX dove rappresenta l'insieme di tutte le matrici definite positive di dimensione k×k , è la funzione matematica gamma multivariata che può anche essere scritta k k k 1/4 K 1 i 1 . i 1 2 Distribuzione beta multipla multivariata La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e definita positiva di dimensione k×k , X MBek , è data da X f ( X ; , ) k 1 /2 Ik - X k 1 /2 , 0 < X < 1k Bek , dove k 1 / 2 , k 1 / 2 e Bek , X k 1 /2 Ik - X k 1 /2 dX 0 < X < 1k ed anche k k k Bek , è la funzione matematica beta multivariata. Distribuzione di Wishart e Wishart inversa La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e definita positiva di dimensione k×k , X Wk , k è data da f ( X ; , k ) k /2 X k 1 /2 e 1 tr k1 X 2 , 0 < X < 1k k / 2 2 k /2 dove k 1 , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k. Una prima osservazione da fare su questa distribuzione è che essa rappresenta una sottofamiglia della distribuzione Gamma multipla multivariata per / 2 e =2 ; inoltre, la distribuzione di Wishart può essere interpretata come una generalizzazione della v.c 2 . Infatti, se si pone k = 1 e k 1 , la matrice X si riduce ad uno scalare quindi x W1 ,1 , da cui f ( x; ) x2 1 e x 2 / 2 2 /2 131 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 che rappresenta la funzione di densità di probabilità di una v.c. 2 con gradi di libertà. La funzione di densità di probabilità di una matrice casuale di Wishart inversa X simmetrica e definita positiva di dimensione k×k , X InvWk , k è data da f ( X ; , k ) k /2 + k 1 1 2 tr k X 1 e 2 k / 2 2 k /2 X , 0 < X < 1k dove k 1 , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della distribuzione, k è una matrice simmetrica e definita positiva di dimensione k×k. 1.14 - Distribuzioni a priori coniugate La formula di Bayes introdotta nelle pagine precedenti consente, come già sottolineato, di esprimere il processo di apprendimento dall’esperienza e, quindi, dà la possibilità di aggiornare le informazioni (a priori) che il soggetto possiede in merito ad uno specifico fenomeno di interesse sulla base delle nuove informazioni acquisite o acquisibili (informazioni campionarie). Nell’illustrazione della formula sono stati introdotti i concetti di probabilità a priori, di probabilità probativa o verosimiglianza e di probabilità a posteriori. Se anziché far riferimento alla probabilità si fa riferimento, senza perdere in generalità, alla funzione di densità di probabilità per un modello caratterizzato da un solo parametro assunto variabile (perché incognito) nel continuo15, poiché valgono le relazioni f ( x, ) f ( x / ) f ( ) f ( / x) f ( x) , dove, avendo attribuito al parametro la natura di variabile a ragione della mancata conoscenza del suo valore, è stata utilizzata la simbologia f ( x, ) anziché f ( x; ) , la formula di Bayes è espressa dalla relazione f ( x / ) f ( ) f ( x / ) f ( ) f ( / x) f ( x) f ( x / ) f ( ) d e, utilizzando la simbologia di più largo impiego, anche f ( x / ) ( ) f ( x / ) ( ) ( / x) f ( x) f ( x / ) ( ) d dove, ( / x) rappresenta la distribuzione di probabilità a posteriori del parametro , ( ) la sua distribuzione a priori e f ( x / ) la verosimiglianza. 15 Ragionamento del tutto analogo vale anche quando si considerano più parametri, definiti nel discreto o nel continuo, per la funzione di massa di probabilità e per la funzione di distribuzione. 132 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Quando la distribuzione di probabilità a posteriori appartiene alla stessa famiglia della distribuzione a priori, quest’ultima viene detta distribuzione di probabilità a priori coniugata16. Definizione 10 – Data la relazione ( / x) f ( x / ) ( ) f ( x / ) ( ) d () è detta distribuzione a priori coniugata di f ( x, ) se la corrispondente distribuzione a posteriori (/x) appartiene alla medesima famiglia di (). Per comprendere meglio l’utilità del concetto di distribuzione a priori coniugata, si consideri un processo di tipo Bernoulliano; in questo caso la distribuzione campionaria è di tipo Binomiale. Poiché p è il parametro sconosciuto della popolazione (la causa che genera l’evento), coerentemente a quanto riportato nella precedente tabella, si assume che la distribuzione a priori di p sia di tipo Beta con parametri e . ( 1)! 1 1 p p; , p 1 1 p p 1 1 p 1! 1! poiché n f x / p f x; n, p p x (1 p)n x p x (1 p)n x x dalla formula di Bayes risulta che la distribuzione a posteriori è proporzionale17 al prodotto della verosimiglianza per la distribuzione a priori, pertanto si ha: p / x p f x / p p 1 1 p 1 p x (1 p)n x p x 1 1 p n x 1 che, a meno della costante di normalizzazione, è una distribuzione di tipo beta con parametri pari a x+α e n+β; cioè, la distribuzione a priori e quella a posteriori appartengono alla stessa famiglia. La costante di normalizzazione risulta essere x n x 1! n 1! . x n x n 1! Considerazioni del tutto analoghe possono essere svolte nei confronti della v.c. multinomiale a k dimensioni. Come già anticipato, in questo caso, la distribuzione a priori coniugata della v.c. multinomiale è la v.c. di Direchlet. La funzione di massa di probabilità della v.c. multinomiale è 16 17 Per un approfondimento del tema si può utilmente consultare Raiffa e Schlaifer (1961). Il simbolo sta ad indicare la relazione di proporzionalità tra le quantità poste a confronto. 133 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 f x / p f ( x; n, p) k i 1 k 1 n! k 1 x ! i 1 k n! xi ! n k i 1 xi ! p n xi i q k xi i 1 i 1 k 1 pixi p xi i i 1 i i 1 dove k k xk 1 n xi e pk 1 q 1 pi i 1 i 1 mentre, la funzione di densità di probabilità della v.c. di Dirichlet è k 1 i ( p) ( p; ) k 1 i 1 k 1 p k 1 i 1 i i 1 p i 1 i i 1 i i 1 da cui k 1 ( p / x ) ( p; n, x, ) k 1 k 1 p p p i 1 xi i 1 i xi i i i 1 i 1 i 1 che, a meno della costante di proporzionalità (normalizzazione) k 1 i xi i 1 k 1 x i i i 1 è la funzione di densità di probabilità di una v.c di Dirichlet; cioè la distribuzione a priori e quella a posteriori appartengono alla stessa famiglia. Alcuni esempi di distribuzioni a priori coniugate sono riportati nella tabella seguente. dove N indica la distribuzione Normale, la distribuzione Gamma, B la Binomiale, Be la Beta, P la distribuzione di Poisson e BinNeg la distribuzione Binomiale Negativa. 134 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Distrib.campionaria Distrib.a priori Distrib.a posteriori f(x/) () (/x) N(,2) N(,2) 2 x 2 2 2 N , 2 2 2 2 (,) (,) (+,+x) B(n, p) e(,) Be(x+,n+) P() (,) (+x,+1) BinNeg(,1/) (, ) B(+r, +x) 1.15 - Teoremi fondamentali del calcolo delle probabilità Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie informative che si collocano a un livello intermedio tra la conoscenza completa, seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene facilmente attraverso una opportuna specificazione di un teorema più generale: il teorema di Markov. Teorema (disuguaglianza)di Markov – Sia X una variabile casuale con funzione di distribuzione F(x), g(X) una funzione a valori reali non negativa (in modo tale che Y = g(X) sia essa stessa variabile casuale) e c una costante positiva, allora Eg ( X ) Pg ( X ) c c Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema con relativa facilità. Dimostrazione Eg ( X ) g ( x) f ( x) dx x: g ( x )c c f ( x) dx g ( x) f ( x) dx x: g ( x )c g ( x) f ( x) dx x: 0 g ( x )c 0 f ( x) dx c x: 0 g ( x )c x: g ( x )c P g ( X ) c 135 f ( x) dx c P g X c E g ( X ) c B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Di particolare interesse risulta una specificazione (corollario) del teorema. Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza 2 finita, allora 1 P X k 1 2 . k Dimostrazione 1 Ponendo g(X) = X - e c = k per k > 0 2 dove: = E(X) e = var(X) , si avrà, dal Teorema di Markov, P X k P ( X )2 k 2 2 E ( X )2 2 1 2 2 2 2 2 k k k P X k 1 k2 ed anche 1 k2 Alla stessa conclusione si giunge partendo dalla definizione di varianza di una variabile casuale: Dimostrazione 2 P X k 1 Var(X) = 2 x 2 f ( x)dx L’integrale può essere diviso nella somma di tre integrali: 2 k k x 2 f ( x)dx k x 2 f ( x)dx k x 2 f ( x)dx sottraendo il secondo integrale soltanto dal membro di destra dell’equazione, si ottiene la seguente disuguaglianza: 2 k x 2 x k f ( x) dx 2 f ( x) dx Si consideri k x 2 f ( x) dx k k 2 f ( x) dx k 2 2 k f ( x) dx , poiché se x è almeno k volte il valore atteso di X, allora la differenza al quadrato tra x e il suo valore atteso, cioè (x - )2, deve essere maggiore di k2 2. Ad esempio, se x = k - h, allora x - = - k - h - = - (k + h). Di conseguenza, il quadrato di questa quantità sarà più grande di k22. Analogamente x k 2 f ( x) dx k 2 2 k quindi, sostituendo, si ottiene: 136 f ( x) dx B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità 2 k 2 2 Versione 2015 k f ( x) dx k f ( x) dx la quantità in parentesi è uguale a P x k P x k P x k 1 P x k quindi 2 k 2 2 1 P x k 1 1 P x k k2 1 P x k 1 2 k La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza 1 k è sempre superiore ad 1 2 . Ad es., per k = 2, si ottiene k P 2 X 2 3 / 4 , cioè per ogni variabile casuale avente varianza finita almeno ¾ dei valori distano dalla sua media meno del doppio della deviazione standard. Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1 oppure per k < 1, risulta che la probabilità è 0 : ma questo è sempre vero per la definizione stessa di probabilità. Se si fa riferimento ad una particolare distribuzione e si considera una specifica funzione g(X) si perviene ad un altro interessante risultato. Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai X parametri p ed n e la trasformazione Y , cioè la variabile casuale binomiale n X X pq relativa, la cui media e varianza sono, rispettivamente, E p e Var . n n n Applicando la disuguaglianza per X X g Y g p n n si avrà P 2 X E p 2 X X pq n 2 p c P p c 2 n c n c2 n da cui 137 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 pq X lim P p c lim 0 n n c2 n ed anche (probabilità dell’evento contrario) n X lim P p c 1 n n Siccome c può essere scelto piccolo a piacere, si può anche concludere che al crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità dell’evento stesso. Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile casuale binomiale relativa interpretabile come media aritmetica di n variabili casuali di Bernoulli indipendenti e identicamente distribuite. Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più interessante è quella che estende il risultato ad una successione qualsiasi di variabili casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = . Teorema di Kolmogorov (legge debole dei grandi numeri) – Sia X1, X2, …, Xn, … una successione di variabili casuali indipendenti e identicamente distribuite, di media 1 n finita, allora per la variabile casuale X n X i , di media E ( X n ) , vale la n i 1 relazione P lim X n 1 n Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano varianza 2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev, dimostrare facilmente la cosiddetta legge debole dei grandi numeri espressa dalla relazione lim P X n c 1 P X n c 1 , n dove 0 < < 1. Dimostrazione Ponendo g ( X ) X n e applicando il Teorema di Markov, si ottiene X n c P X n da cui P 2 2 E X n 2 c2 1 1 c2 n c2 2 X n c lim 1 1 2 n n n c La legge forte dei grandi numeri è espressa dalla relazione lim P 138 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 P lim X n 1 n La diferenza tra le due leggi è ovvia; infatti, anche se entrambe le leggi affermano che al crescere della numerosità degli elementi della successione considerati la loro media tende alla media comune µ , nel primo caso (legge debole) si ammette la possibilità che, in probabilità, si registri uno scarto tra X n e , nel secondo caso (legge forte) tale possibilità è esclusa. Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in quanto consentono di fare inferenze attendibili sulla media di una popolazione quando si dispone soltanto di un campione. Tali leggi, infatti, stabiliscono che è possibile determinare un intero positivo n (ampiezza campionaria) tale che, se si prende un campione casuale di ampiezza maggiore o uguale ad n da una popolazione con media , allora la probabilità che la differenza tra la media campionaria X n e la media della popolazione sia minore di una quantità fissata piccola a piacere è vicina ad 1 quanto si vuole. Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della probabilità e della statistica ma ancora più rilevante è, come si avrà modo di approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale (teorema centrale del limite), qui se ne propone una versione particolare, quella usualmente attribuita a Lindberg-Levy. Teorema del limite centrale - Sia X1, X2, …, Xn, … una successione di variabili casuali indipendenti ed identicamente distribuite (i.i.d.) di media e varianza 2 > 0 finita; si consideri la variabile casuale (media aritmetica dei primi n elementi della successione) 1 n Xn Xi n i 1 che avrà valore medio e varianza, rispettivamente, E ( X n ) e Var ( X n ) 2 n , allora la variabile casuale standardizzata Zn Xn / n per n + tende alla distribuzione normale (standardizzata). Dimostrazione Si indichi con t2 2 m t e la funzione generatrice dei momenti della v.c. Normale standardizzata e con mzn t la funzione generatrice dei momenti di Zn. si vuol dimostrare che mzn t tende a m(t) al crescere di n. 139 B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 Per l’indipendenza delle v.c. Xi, vale n X i X n t n X i i 1 mzn (t ) E (et Zn ) E exp t E exp t E exp n / n i 1 / n / n n n t X i t X i E exp E exp n / n i 1 n i 1 Se si pone Yi = (Xi - )/ , la funzione generatrice dei momenti di Yi, cioè my t , è indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi t X i n t n t t mz (t ) E exp E exp Y i mY mY n i 1 n i 1 n n i 1 n n La derivata r-esima di mY (t / n ) calcolata per t = 0 fornisce il momento r-esimo rispetto alla media della densità f(.) divisa per ( n ) r , pertanto t 1 2 t 1 3 t mY (t / n ) 1 1 .... n 2! 2 n 3! 3 n 2 1 t2 n 2! 2 t3 3 t2 t3 ..... 1 3 3 2n 3! n n 3! 3 3 3 ..... 3 passando al limite per n si ottiene n n n t2 t 2 t2 t3 3 t2 t2 lim mzn t lim 1 ..... lim 1 o lim 1 e 2 3 3 n n n 2 n 2 n 2n n 2n 3! n t2 t2 dove o , per n , sta ad indicare un infinitesimo di ordine superiore a 2n 2n t2 2 ma e è la funzione generatrice dei momenti della v.c. normale standardizzata, quindi, la v.c. Zn , per n ha la stessa funzione generatrice dei momenti della v.c. normale standardizzata, cioè, stessa funzione di distribuzione e stessa funzione di densità. In altre parole, il teorema del Limite Centrale afferma che, se si dispone di variabili casuali indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di 1 media e varianza, allora la variabile casuale X n X i ha, per n abbastanza grande, n i una distribuzione approssimativamente normale con media 140 e varianza 2 . La n B. Chiandotto INFERENZA STATISTICA Cap. 1 - Calcolo delle probabilità Versione 2015 bontà dell’approssimazione dipende dal tipo di distribuzione comune. L’elemento essenziale da osservare è che non importa quale distribuzione comune abbiano le v.c. X1, X2, …, Xn, …, purché esse abbiano una media ed una varianza finite e siano indipendenti. Quindi, ogni volta che un fenomeno reale può essere interpretato come la somma oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel fenomeno sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il punteggio che si riceve sottoponendosi ad una serie numerosa di test a risposta multipla è la risultante di numerose cause, tra cui: la preparazione generale del soggetto, la conoscenza degli argomenti specifici selezionati dall’esaminatore, l’attitudine verso la materia, i fattori psicologici ecc. Anche se difficili da quantificare, questi effetti determinano con pesi differenti l’esito e il voto finale che si distribuisce approssimativamente come una v.c. Normale. In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in cui non si richiede più che le variabili casuali della successione abbiano identica distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) = (i) e le varianze Var ( X i ) i2 0 siano finite. In questo caso, naturalmente, la variabile che tende alla variabile casuale normale standardizzata è Zn dove: X n 1 n n Xi , i 1 1 n Xn /n n n i 1 i 1 (i ) e 2 i2 . 141 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie CAP. 2 - CAMPIONAMENTO e DISTRIBUZIONI CAMPIONARIE Introduzione Nella premessa a queste note si è avuto modo di distinguere la statistica descrittiva dalla statistica induttiva (inferenza statistica) sottolineando che si opera nel primo ambito quando si dispone di tutte le manifestazioni del fenomeno d’interesse, in tali circostanze la statistica (descrittiva) si risolve in un insieme di metodi che consentono una compattazione adeguata delle informazioni disponibili per rendere possibile o, quantomeno, facilitare la comprensione degli aspetti del fenomeno che più interessano (a fini conoscitivi e/o decisionali). Se per qualche motivo (perché impossibile o perché non conveniente) non si dispone di tutte le manifestazioni del fenomeno ma soltanto di un sottoinsieme di queste, si dispone cioè di un campione casuale di manifestazioni del fenomeno d’interesse, la statistica (induttiva) si caratterizza come l’insieme delle teorie e dei metodi che consentono di pervenire, utilizzando i dati campionari, a delle conclusioni che siano “il più vicino possibile” a quelle cui si sarebbe pervenuti disponendo di tutte le manifestazioni del fenomeno. Nel caso in cui si ritiene che il fenomeno sia governato da una legge esprimibile analiticamente (modello probabilistico), anche se nella generalità dei casi si tratta di una approssimazione alla realtà, qualunque insieme di manifestazioni del fenomeno a disposizione rappresenta necessariamente un campione essendo l’intera popolazione rappresentata dal modello (superpopolazione). 2.1 Campioni casuali Se con P si indica l’insieme di tutte le possibili manifestazioni del fenomeno di interesse e con Cp un suo sottoinsieme (Cp P), operando su Cp (campione) si vogliono trarre conclusioni valide per P , si vuole, cioè, inferire dal campione alla popolazione. La statistica (induttiva) tratta in modo quasi esclusivo dei campioni casuali (campioni probabilistici), cioè, dei sottoinsiemi Cp di P cui si perviene attraverso l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non costituisce, quindi, parte integrante della statistica induttiva (inferenza statistica) l’analisi dei campioni non probabilistici; rientrano in quest’ultima categoria i cosiddetti campioni ragionati e quelli per i quali non è noto il meccanismo generatore. E’ campionamento ragionato quello che individua le unità campionarie, cioè le unità 143 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie statistiche portatrici delle informazioni (manifestazioni del fenomeno d’interesse), attraverso l’applicazione di procedure basate sull’impiego ragionato dell’informazione disponibile al momento in cui si procede all’individuazione delle unità che andranno a costituire il campione. In proposito si deve, comunque, sottolineare che le informazioni disponibili costituiscono spesso la base di schemi di campionamento probabilistico più complessi (campionamento sistematico, campionamento stratificato, campionamento a grappolo, campionamento a più stadi, campionamento stratificato a più stadi, ecc.), ma in tali circostanze le informazioni disponibili vengono utilizzate solo per incrementare l’efficienza (attraverso una riduzione della variabilità campionaria) del processo di induzione dal campione alla popolazione, e non per individuare le singole unità che andranno a costituire il campione che saranno comunque estratte casualmente. In questa sede si tratterà esclusivamente del campionamento casuale semplice; cioè, dei campioni cui si perviene procedendo all’estrazione di n (dimensione del campione) elementi che hanno la stessa probabilità di essere inclusi nel campione. Nell’ambito del campionamento si ipotizzerà sempre (almeno a livello teorico) l’esistenza di un modello probabilistico capace di rappresentare adeguatamente il fenomeno che interessa analizzare. In altre parole, si assumerà che la popolazione P sia rappresentata da una variabile casuale semplice o multipla con una propria funzione di distribuzione non completamente nota. Ovviamente, se la funzione di distribuzione fosse completamente nota si tornerebbe al caso di disponibilità completa di tutte le possibili manifestazioni del fenomeno d’interesse. Se si fa riferimento al caso unidimensionale, ma ragionamento analogo vale anche nel caso multidimensionale, la situazione di riferimento è quella di una variabile casuale semplice X con funzione di distribuzione F x ; 1 ,2 ,....,k F x ; , dove (1 ,2 ,....,k ) è l’insieme (vettore) dei parametri caratteristici del modello definiti nello spazio parametrico k k ; cioè, lo spazio di variabilità dei parametri che caratterizzano lo specifico modello, rappresentativo della specifica situazione reale, nell’ambito della famiglia di distribuzioni espressa dalla funzione F , . Se, come avviene usualmente, si considera la funzione di massa (caso discreto) o di densità (caso continuo) di probabilità della variabile casuale X , si dirà che si sta trattando della variabile casuale semplice X con funzione di massa o di densità di probabilità f x ; 1 ,2 ,....,k f x ; . Si è detto che esiste un problema di inferenza statistica quando la funzione di distribuzione F , non è completamente nota; al riguardo si possono distinguere almeno due situazioni di mancanza di conoscenza: la prima situazione è quella caratterizzata da una conoscenza parziale della funzione F x ; nel senso che si conosce la forma analitica della funzione ma non si conosce il valore di tutti o di alcuni parametri caratteristici della funzione stessa, in questa circostanza si parla di inferenza statistica parametrica. La seconda situazione è quella d’ignoranza completa: non si 144 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie conosce sia il valore dei parametri sia la forma analitica della funzione di massa o di densità di probabilità; in questa circostanza si parla di inferenza statistica non parametrica. Una terza situazione, intermedia rispetto alle due precedenti, è quella in cui si specificano certe componenti del modello (ad esempio si suppone che la v.c. appartenga alla famiglia esponenziale ma non si specifica la sottofamiglia: forma funzionale della funzione di massa o di densità). Se si opera in tale contesto si parla di inferenza statistica semi-parametrica, nel senso che la forma analitica del modello probabilistico rappresentativo del fenomeno in esame è specificata solo parzialmente. Si ricorda che la dizione inferenza statistica non parametrica non è certamente la più appropriata in quanto interpretabile come se, in questo ambito, le procedure di statistica induttiva non riguardassero i parametri. Ovviamente, questa interpretazione è fuorviante, infatti, con la dizione “non parametrica” si vuole, molto semplicemente, caratterizzare le situazioni inferenziali nelle quali non si conosce forma analitica e valore dei parametri caratteristici, elementi questi entrambi coinvolti nelle procedure inferenziali. La dizione corretta per caratterizzare tali situazioni è quella di inferenza statistica libera da distribuzione (distribution free). E’ già stato sottolineato che in queste note si parlerà in modo esclusivo di campionamento casuale semplice; in realtà il limite è ancora più rigido, infatti, la trattazione sarà limitata al campionamento casuale semplice con ripetizione (campionamento bernoulliano), in questo contesto le variabili casuali associate a ciascuna unità campionaria risultano indipendenti e identicamente distribuite (i.i.d.). Al riguardo si deve, comunque, sottolineare che nelle situazioni reali, soprattutto quando si procede all'estrazione di unità campionarie da popolazioni finite, il campionamento che si realizza è quello esaustivo (campionamento casuale semplice senza ripetizione), ma è anche vero che nella generalità dei casi le differenze tra i due schemi di campionamento diventa operativamente irrilevante avendo a che fare con popolazioni di dimensione molto elevate, dimensione che diventa infinita nel caso di variabili casuali continue. Tale motivazione giustifica la trattazione del campionamento bernoulliano molto più semplice dal punto di vista analitico. Al riguardo si sottolinea, comunque, che i campioni casuali semplici senza ripetizione pur non soddisfacendo l’ipotesi di indipendenza soddisfano l’ipotesi di scambiabilità 1. Definizione 1 1 Se X1, X2,...,Xn costituiscono un insieme di variabili casuali indipendenti e identicamente distribuite (i.i.d.), la loro funzione di Nel caso di campionamento con ripetizione è soddisfatta la condizione (cfr. Definizione 1) n F x1 ,x2 ,....,xn ; F xi ; i 1 Mentre la condizione di scambiabilità è molto meno restrittiva e richiede il soddisfacimento della relazione F x1 ,x2 ,....,xn ; F x 1 ,x 2 ,....,x n ; per tutte le permutazioni 1 , 2 ,....., n . 145 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie massa o di densità di probabilità congiunta soddisfa l'uguaglianza f x1 ,x2 ,....,xn ; θ1 ,θ2 ,....,θk f x ; n f x1 ; f x2 ; .... f xi ; .... f xn ; f xi ; i 1 allora si dice che l’insieme di variabili casuali i.i.d. X1, X2,...,Xn costituisce un campione casuale semplice di n osservazioni indipendenti relativo alla variabile casuale X che ha funzione di massa o di densità di probabilità equivalente a quella (comune) di ciascuna componente Xi del campione. Il punto campionario ' X1, X 2 ,...., X n X è definito nello spazio o universo dei campioni X ad n dimensioni C n Cn . f xi ; , per i = 1, 2,..,n, si è indicata la Nella formula sopra riportata con funzione di massa, o di densità di probabilità, dell'i-esimo elemento costituente il campione. Avendo supposto l'indipendenza tra le osservazioni campionarie, si avrà, come già sottolineato, l'uguaglianza (equivalenza) tra la distribuzione della variabile casuale X relativa alla popolazione e la variabile Xi (tale deve essere intesa a priori, cioè prima dell'effettiva estrazione del campione) relativa all'i-esimo elemento campionario (i = 1, 2 ...,n). Dalla definizione risulta che se, ad esempio, si volesse estrarre un campione di n elementi da una popolazione distribuita normalmente, con media e varianza 2 , la funzione di densità di probabilità del campione casuale è n f x1 , x2 ,...., xn f x1 , x2 ,...., xn ; , 2 f xi ; , 2 n i 1 1 2 2 e 1 xi 2 2 1 2 2 n/2 e i 1 n 1 2 2 xi 2 i 1 Se l'estrazione del campione di n elementi riguardasse una v.c. di Poisson caratterizzata dal parametro , la funzione di massa di probabilità del campione casuale è: f x1 , x2 ,...., xn f x1 , x2 ,...., xn ; n n i 1 i 1 f xi ; λ λ xi λ e xi! Alle due funzioni f(x1, x2,...,xn; µ,2 ) e f(x1,x2, ..., xn; ) sopra riportate e, in generale, ad ogni funzione di massa o di densità di probabilità campionaria può essere associata una seconda interpretazione che introduce nella trattazione un concetto di estrema rilevanza: la funzione di verosimiglianza. Si tratta di una funzione del tutto equivalente, in termini formali, alla funzione di massa o di densità di probabilità 146 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie campionaria, ma che da questa si diversifica sostanzialmente. Infatti, la funzione f x1 , x2 ,...., xi ,...., xn ; f n x; f xi ; i 1 x1 , x2 ,...., xi ,...., xn è detta di verosimiglianza quando alla n-pla vengono attribuiti i valori campionari osservati; pertanto, essendo x1 , x2 ,...., xi ,...., xn quantità note, la f x1 , x2 ,...., xi ,...., xn ; è, in realtà, funzione del solo parametro (o parametri) per un campione prefissato. Per evidenziare questa particolare interpretazione si può rappresentare algebricamente la funzione di verosimiglianza con l’espressione n L L / X x f / xi i 1 dove X ' X1, X 2 ,...., X n casuale) associata alle n rappresenta la variabile casuale ad n dimensioni (vettore rilevazioni campionarie, mentre x x1 , x2 ,....., xn ' rappresenta il punto campionario, cioè una specifica determinazione del vettore casuale X , definito nello spazio o universo dei campioni a n dimensioni . Pertanto, nella prima interpretazione, la funzione n f x; f xi ; i 1 si riferisce all’universo dei campioni, si tratta, come già sottolineato, di un riferimento a priori, cioè prima dell’effettiva estrazione del campione. In questo contesto, le variabili che interessano sono, appunto le n componenti, X1, X2,…,Xn, associate a ciascun punto campionario per un dato valore del parametro , o del vettore dei parametri Nella seconda interpretazione, la variabile di riferimento è il parametro (vettore dei parametri) incognitoin quanto si assume l’avvenuta estrazione campionaria delle unità statistiche di osservazione e le variabili associate a ciascuna unità (punto campionario) hanno assunto una specifica determinazione, sono cioè delle costanti note, mentre (parametro o vettore dei parametri) assume la natura di variabile essendo tale entità un’incognita del problema. Al riguardo si sottolinea che nel contesto della cosi detta inferenza statistica classica ,pur essendo teoricamente variabile in quanto incognito, non ha la natura di variabile casuale, interpretazione questa, che come si avrà modo di chiarire successivamente, è propria dell'inferenza statistica bayesiana. Un tentativo, non completamente riuscito a parere delle scrivente, di attribuzione di natura aleatoria al parametro (o parametri) è rappresentato dalla cosi detta inferenza fiduciale proposta da Fisher nel 1930 attraverso l'introduzione del concetto di probabilità inversa che non ha natura di distribuzione di probabilità a priori. Comunque, alcune generalizzazioni e sviluppi recenti dell'inferenza fiduciale sembrano fornire una risposta soddisfacente ad alcune perplessità insite nell'impostazione iniziale data da Fisher2. 2 Al riguardo si può consultare, tra gli altri, Hannig (2009). 147 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Esempio 2.1 Si consideri una popolazione bernoulliana (variabile casuale di Bernoulli X che può assumere i due valori 0, assenza del carattere, ed 1, presenza del carattere) con parametro caratteristico = p e si supponga che da tale popolazione si voglia procedere all’estrazione di n = 6, n = 12 ed n = 36 unità campionarie rimettendo ogni volta l’unità estratta nella popolazione (campionamento bernoulliano). In tali situazioni la funzione di massa di probabilità è quella sotto riportata n n f(x1,x2,…,xn;p) = f(x ;p) = i xi n p i 1 ( 1 p ) n xi i 1 i 1 dove basterà sostituire ad n i valori 6, 12 e 36. Se si procede alla rilevazione campionaria nei tre casi sopra considerati e le sequenze osservate sono, rispettivamente: - (1,0,1,1,1,1) per n = 6 (x=5); - (1,1,0,1,1,1,1,1,1,1,0,1) per n = 12 (x=10); - (0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,0,0,1,1,1,1,1,0,1,0,1,1) per n = 36 (x=30). Le funzioni di verosimiglianza sono : L(p) = p5 (1-p)1 per 0 p 1 10 2 L(p) = p (1-p) per 0 p 1 30 6 L(p) = p (1-p) per 0 p 1 la cui rappresentazione grafica è riportata alla pagina successiva. Osservando la Fig. 2.1 si rileva in modo molto evidente la tendenza alla normalità della funzione di verosimiglianza al crescere della dimensione campionaria. Per una comprensione più immediata sia dei metodi statistici che verranno trattati in seguito, sia delle loro proprietà, occorre sempre tenere presente la distinzione fra variabile casuale e determinazioni (valori osservati) della variabile casuale stessa: prima di effettuare l'estrazione campionaria gli elementi costituenti il campione X1, X2,...,Xn, sono variabili casuali; infatti, l'elemento generico Xi (i = 1, 2 ..,n) ha, come già sottolineato, una struttura del tutto analoga a quella della variabile casuale X, ha cioè la stessa funzione di distribuzione e, quindi, stessa funzione di massa o di densità di probabilità. Dopo aver osservato i risultati campionari, le quantità x1 , x2 ,...., xn costituiscono particolari determinazioni della variabile casuale X. Poiché gli elementi costituenti un campione sono delle variabili casuali, è variabile casuale anche ogni funzione T(X1,X2,…,Xn) non costante degli stessi. Tale funzione, che non dipende dai parametri incogniti 1 , 2 ,...., k ,viene usualmente detta statistica (dall’inglese statistic). Sarà, quindi, possibile derivare la funzione di massa o di densità di probabilità di tale variabile in funzione della distribuzione di massa o di densità di probabilità delle variabili casuali associate ai singoli elementi campionari. 148 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie L(p) 0,08 0,07 n= 6 , x = 5 0,06 0,05 0,04 0,03 0,02 0,01 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 L(p) 0,005 0,0045 n =12 , x = 10 0,004 0,0035 0,003 0,0025 0,002 0,0015 0,001 0,0005 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0,5 0,6 0,7 0,8 0,9 1 L(p) n =36 , x = 30 0,0000001 9E-08 8E-08 7E-08 6E-08 5E-08 4E-08 3E-08 2E-08 1E-08 0 0 0,1 0,2 0,3 0,4 Fig. 2.1 – Funzione di verosimiglianza relativa a n prove con ripetizione effettuate su una popolazione in cui ciascuna unità è caratterizzata dalla presenza o assenza di uno specifico carattere 149 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie 2.2 Sufficienza Da quanto sopra detto, qualunque statistica, cioè qualunque funzione T(X1,X2,…,Xn)=T(X) degli elementi campionari che non contiene parametri incogniti, è essa stessa variabile casuale come gli elementi Xi (i = 1, 2,….,n) costituenti il campione. Una statistica potrebbe, al limite, contenere tutte le informazioni campionarie, rappresentare, cioè, un punto campionario nello spazio ad n dimensioni. Nella generalità dei casi la funzione T compatta le informazioni, riducendo lo spazio di riferimento da n dimensioni a k dimensioni dove k n è il numero dei parametri che caratterizzano la v.c. che si sta trattando. X Definizione 1 (Sufficienza). Se ' X1, X 2 ,...., X n costituisce un campione casuale semplice bernoulliano estratto da una popolazione rappresentata dalla variabile casuale, discreta o continua X , con funzione di massa o di densità di probabilità f(x;) , una statistica T X = T(X1,X2,…,Xn) si dice sufficiente per il modello f(x;) se e solo se la distribuzione del campione condizionata da un qualunque valore assunto dalla statistica T(.) , cioè f(x1,x2,…,xn / T=t), è la stessa per qualunque valore di , cioè, se e solo se la distribuzione condizionata del punto campionario X ' X1, X 2 ,...., X n non varia al variare di non dipende da Per comprendere il significato della definizione, si supponga per semplicità che T X sia una v.c. discreta e t un possibile valore di T X , allora P X x T X t ( x ) P X x T X t ( x ) P T X t ( x ) ma X x T X t x 3, quindi P X x T X t x P X x quindi P X x p( x | ) P X x T X t ( x ) P T X t ( x ) q t ( x ) | 3 Infatti, l’uguaglianza T X t x deve valere per qualunque funzione 150 T(.) ivi incluso T X X . Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie dove p( x | ) è la distribuzione di massa di probabilità congiunta del campione X e q t x | è la distribuzione di massa di probabilità di T X . Quindi, T X è una statistica sufficiente per θ se, e solo se, per ogni x il rapporto p( x | ) è una costante q t ( x ) | non dipendente da θ. Il risultato ottenuto in precedenza conduce alla formulazione del seguente teorema: Teorema 1: Se p( x; ) è la distribuzione di massa di probabilità congiunta di X e q(t ; ) è la distribuzione di massa di probabilità di T X , allora T X è una statistica sufficiente per θ se, e solo se, x Ω il rapporto p ( x; ) è una costante non dipendente da θ. q(T ( x ); ) Esempio 2.2 Siano X 1 ,...,X n variabili casuali i.i.d. di Bernoulli con parametro p, 0 < p < 1. Allora T X X1 ... X n è sufficiente per p. Infatti, osservando che T X indica il numero di Xi uguali ad 1 ed ha una distribuzione binomiale b(n, p) allora p ( x; p ) p xi (1 p)1 xi p xi (1 p) (1 xi ) pt (1 p)nt n t q T ( x ); p n t n t n t n t n t n t t p (1 p) t p (1 p) t p (1 p ) 1 Un risultato questo che non dipende dal parametro p. Esempio 2.3 Siano X 1 ,...,X n variabili casuali i.i.d. da una popolazione N , 2 , con parametro σ2 noto. Allora la media campionaria T X X è sufficiente per μ. Infatti, la distribuzione di densità congiunta del campione X è: f ( x; ) (2 2 ) 1/2 exp ( xi ) 2 2 2 i (2 2 ) n /2 exp ( xi x x ) 2 i 2 2 (2 2 ) n /2 exp ( xi x ) 2 n ( x ) 2 i 151 2 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie e, poiché X segue una distribuzione N , n , allora il rapporto 2 (2 2 ) n /2 exp ( xi x ) 2 n( x ) 2 2 2 f ( x; ) i 2 2 1/2 2 q t ( x ); (2 n ) exp n x 2 n 1 2 (2 2 ) ( n 1)/2 exp ( xi x )2 i 2 2 non dipende da μ. La definizione 1 ed il teorema 1 spesso non consentono una facile verifica della proprietà di sufficienza, obiettivo questo che si può invece conseguire se si fa riferimento ad un famoso teorema usualmente noto come criterio di fattorizzazione di Neyman-Fisher. Teorema 2 (Criterio di fattorizzazione di Neyman-Fisher): Dato un campione casuale semplice X1, X2,…,Xn estratto da una popolazione X con funzione di massa o di densità di probabilità f(x;) , dove rappresenta il parametro incognito, una statistica T(X1,X2,…,Xn) è sufficiente per il modello f(x;) se e solo se vale la relazione: n f x1 , x2 ,..., xn ; f xi ; g T x1 , x2 ,..., xn ; hx1 , x2 ,..., xn i 1 dove h(x1,x2,…,xn) è una funzione non negativa dei soli elementi campionari e gT x1 , x2 ,..., xn ; è una funzione non negativa che dipende da e dagli elementi campionari solo attraverso la funzione T . Dimostrazione (caso discreto). Poiché T X è una statistica sufficiente la distribuzione condizionata di X dato T X t x non dipende da ma tenendo presente che: X x T X t x P X x P X x T X t x si ha f ( x | ) P ( X x ) P X x T X t ( x ) P T X t ( x ) P X x T X t ( x ) per la sufficienza P X x T X t ( x ) P X x T X t ( x ) g (T ( x ) | ) h( x ). 152 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Si supponga che f ( x; ) g (T ( x); ) h( x) , ma P T X t x x:T X t x h x f x; g t x ; x:T X t x inoltre se X x e T X t x , allora T x t x ma P X x T X t x P X x T X t x P X x P T X t x P T X t x g t x ; h x g t x ; x:T X t x X x T X t x , quindi h x h x h x x:T X t x che non dipende da , cioè, T X è una statistica sufficiente. Corollario – Una statistica T = T(X1,X2,…..,Xn) è sufficiente per se e solo se la funzione di verosimiglianza associata al punto campionario assume la forma L gt x1 , x2 ,....., xn ; Esempio 2.3 (continua) Per il modello normale, la funzione di densità può essere scomposta nei fattori f ( x ) (2 2 ) n / 2 exp con h( x) (2 ) 2 n / 2 x x / 2 n 2 2 i i 1 exp i exp n( x ) 2 (2 2 ) ( xi x ) 2 (2 2 ) che non dipende dal parametro 2 2 incognito μ e g (t | ) exp n( x ) (2 ) che, viceversa, dipende dal campione x solo attraverso la funzione t x x . Per i modelli probabilistici appartenenti alla famiglia esponenziale l’individuazione di statistiche sufficienti è immediata se si fa riferimento al criterio di fattorizzazione; infatti, se X1 ,..., X n sono variabili casuali i.i.d. relative ad un campione estratto da una distribuzione di massa o di densità di probabilità f ( x; ) che appartiene alla famiglia esponenziale si ha: f x; a h x e t x quindi 153 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie n f ( x1 , x2 ,....., xn ; ) f x; f xi ; i 1 a n n h xi e n t xi i 1 g T X ; h X i 1 dove g T X ; a e n n t xi i 1 , h X n h x e i i 1 T X t xi , quindi n i 1 T X è statistica sufficiente per θ. La definizione di sufficienza e il criterio di fattorizzazione possono essere facilmente estesi al caso in cui la funzione di densità o di massa di probabilità è caratterizzata da un vettore di k parametri 1 , 2 ,..., k cui corrisponde un vettore di k statistiche ' T X T1 X , T2 X ,..., Tk X ' (le dimensioni dei due vettori non devono necessariamente coincidere). La verosimiglianza assume la forma n L( x ) f x ; i i 1 a n n hx e n i t xi i 1 i g T x; h x . i 1 Se la famiglia esponenziale è regolare, le statistiche definite nel vettore T X , prese nel loro insieme, sono congiuntamente sufficienti per 1 , 2 ,..., k . Se la famiglia esponenziale è regolare, cioè se il supporto della v.c. X non dipende da , il vettore T X T1 X , T2 X ,..., Tk X è sufficiente per . ' Relativamente al concetto di sufficienza valgono, inoltre, le seguenti proprietà: se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si dimostra che qualsiasi trasformazione biunivoca di tale statistica (o vettore di statistiche) è anch’essa sufficiente; nel criterio di fattorizzazione, se in luogo di f(x; ) si considera il suo logaritmo naturale log f(x; ), la scomposizione di tale funzione in due componenti si realizza in modo analogo, con la differenza che i due fattori anziché moltiplicarsi si traducono nella somma dei loro logaritmi. Infatti: log f x1, x2 ,..., xn ; log g T x1, x2 ,..., xn ; h x1, x2 ,..., xn log g T x ; h x log g T x ; log h x g1 T x ; h1 x La proprietà richiamata in quest’ultimo punto sta ad indicare che se T(x) è sufficiente per se e solo se log f (x; ) può essere scomposto nella somma di due funzioni 154 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie g1(T(x); ) e h1(x), di cui: la prima dipende dal parametro e dal campione solo attraverso la funzione T(.); la seconda dipende solo dagli elementi del campione. Esempio 2.3 (continua) Per il modello normale, qualora sia μ che σ2 risultino incognite (cosicché il vettore dei parametri risulti ( , 2 ) ), ogni parte della densità campionaria congiunta che dipende o da μ o σ2 deve essere inclusa, per il teorema di fattorizzazione, nella funzione g(.). Da quanto visto in precedenza si ha che f ( x ) (2 2 ) n /2 exp ( xi x ) 2 n( x ) 2 / (2 2 ) i (2 2 ) n /2 exp (n 1)t 2 n(t1 ) 2 (2 2 ) g (t1 , t2 | , )h( x ) 2 con t1 x , t 2 ( xi x ) 2 (n 1) h( x) 1 . e Quindi i T X T1 X , T2 X X , S 2 sono statistiche congiuntamente sufficienti per ( , 2 ) . Riguardo alle statistiche sufficienti si deve, infine, sottolineare che l’intero campione X è per definizione esso stesso una statistica sufficiente (con T x x e h x 1 per ogni x ). Da ciò segue che ogni funzione biunivoca di una statistica sufficiente è ancora una statistica sufficiente. Infatti, sia T * x r T x , con T x sufficiente e r funzione biunivoca con inversa r–1. Allora, per il Teorema di fattorizzazione, f ( x | ) g T ( x) | h( x) g r 1 T * ( x) / h( x) g * T * ( x) / h( x) quindi T * ( x ) è una statistica sufficiente. La non unicità delle statistiche sufficienti solleva un problema di scelta tra le alternative possibili; ovviamente la scelta ottimale ricadrà sulla statistica caratterizzato dal più elevato livello (in termini esplicativi) di sintesi, senza dover rinunciare ad alcuna delle informazioni necessarie alla conoscenza dei parametri incogniti; una tale statistica viene detta sufficiente minimale Una statistica sufficiente minimale non è unica, in quanto una qualunque sua funzione biunivoca è ancora una statistica sufficiente minimale. 2.3 Distribuzioni campionarie Definizione 2 Si dice distribuzione campionaria ogni distribuzione di probabilità che evidenzia la relazione esistente tra i possibili valori che possono essere assunti (nell'universo dei campioni) da una qualsiasi funzione T(X1,X2,…,Xn)=T(X) (ad es. un indice sintetico) applicata agli n elementi campionari (casuali) e la distribuzione di massa o di densità di 155 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie probabilità associata agli n elementi costituenti il campione stesso. Si consideri la funzione, definita sugli elementi X1, X2,...,Xn, di un campione casuale semplice con ripetizione relativo ad una certa variabile X che ha momento s-esimo (s = 1,2,3,…) pari a s e varianza pari a 2: 1 n X s = Ts (X1,X2,...,Xn) = X is ; s=1,2,... n i 1 che viene usualmente detto momento campionario, o momento empirico, di ordine s rispetto all'origine. Evidentemente tale momento varierà al variare del campione e descriverà una variabile casuale, la cui funzione di massa o di densità di probabilità dipenderà dalla funzione di massa o di densità di probabilità delle variabili casuali X1,X2,…,Xn, e quindi, dalla funzione di massa o di densità di probabilità della variabile casuale X. È facile verificare che il valore medio (momento primo rispetto all’origine) del momento campionario s-esimo X s è pari al momento s-esimo della variabile X, infatti, 1 n 1 n E X s E X is E X is E X s μ s n i 1 n i 1 quindi, per s=1 si avrà 1 n 1 n 1 n E X E X i E X i E X = E(X)= µ1=µ n i 1 n i 1 n i 1 cioè, il valor medio della media campionaria è uguale alla media della popolazione. La varianza della media campionaria è data da 1 n 1 n 2 Var X x2 Var Xi 2 Var X i n n n i 1 i 1 cioè, la varianza della media campionaria è pari alla varianza della popolazione divisa per la dimensione del campione. La radice quadrata positiva (scostamento quadratico medio o deviazione standard) della varianza campionaria di uno stimatore viene usualmente denominata errore standard o errore di campionamento, volendo con ciò sottolineare la sua particolare caratteristica di misura della bontà di uno stimatore in termini di variabilità. Tale denominazione viene utilizzata tutte le volte che si procede al calcolo della varianza sulle distribuzioni campionarie di indici sintetici; su questo punto si avrà comunque modo di soffermarsi a lungo successivamente. Nel caso di campionamento semplice esaustivo (senza ripetizione) si ha: n 1 n 1 n V ar X σ x2 Var X i 2 Var X i Cov X i , X j i 1 i j n i 1 n i 1 1 σ 2 n - 1 σ * 2 n σ 2 n (n 1 ) σ * n n n 156 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie dove σ* CovX i ,X j per ogni i,j. Se si assume n=N, si ha: Var X σ 2 n - 1 σ * 0 n n σ2 da cui σ* che sostituito nella precedente espressione da N 1 2 σ 2 n - 1 σ σ2 N - n Var X n N 1 n N -1 N n dove viene, come già sottolineato, usualmente detto fattore di correzione e N1 fornisce una misura della maggiore efficienza del campionamento esaustivo rispetto al campionamento con ripetizione. Definendo la varianza campionaria (corretta) attraverso l’espressione: n 1 X i X 2 S 2 T(X 1 ,X 2 ,...,X n ) n 1 i 1 si può verificare, nell'ipotesi di campionamento bernoulliano (campione casuale semplice con ripetizione), che E (S2) è uguale a 2, cioè il valor medio della varianza campionaria corretta è pari alla varianza della popolazione. Mentre la varianza della varianza campionaria corretta S2 è espressa da: 1 n3 4 Var S 2 4 n n 1 dove 4 rappresenta il momento quarto rispetto alla media (momento centrale) ella 4 popolazione ( 4 E X ) dalla quale viene estratto il campione mentre 4 2 . 2 Il computo del valore atteso della varianza campionaria corretta non presenta alcuna difficoltà, infatti: n n 2 1 1 n n 2 2 E S2 E X X E X X 2 X Xi i i i 1 i 1 n 1 i 1 n 1 i 1 n 1 n n n E X 2 2 n E X 2 2 2 EX2 n 1 n 1 n 1 n 1 ma 2 2 2 2 Var X E X E X n n n 1 2 2 EX2 2 2 2 n n da cui E S2 2 n n n n 2 EX2 2 n 1 n 1 n 1 n 1 157 2 n 1 2 n 2 2 2 . Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Relativamente più laborioso è il computo della varianza della varianza campionaria corretta, di seguito si riporta il momento secondo della varianza campionaria e la sua varianza che si ottiene sottraendo a tale momento il momento primo al quadrato, cioè 2 . 2 n 1 2 4 E S 2 4 n n n 1 2 2 2 1 n3 4 Var S 2 E S 2 E S 2 4 . n n 1 Esempio 2.4 (distribuzioni campionarie per campioni estratti da popolazioni discrete) Si considerino cinque palline identiche a meno dei contrassegni numerici (1, 3, 5, 7, 9) che su di esse sono riportati. La distribuzione di frequenza relativa alla variabile casuale associata all’estrazione di una pallina può essere rappresentata nel modo seguente Modalità xi Frequenze assolute ni 1 3 5 7 9 1 1 1 1 1 Frequenze relative fi=ni/n (probabilità: pi) 1/5 1/5 1/5 1/5 1/5 Tab. 2.1 - Popolazione discreta uniforme Si supponga di aver estratto 100 campioni casuali, di dimensione n = 2, dalla popolazione riportata nella Tab.2.1 e che l'operazione di campionamento (effettuata reinserendo ogni volta l'unità estratta nella popolazione) abbia dato luogo alle 100 coppie di risultati riportati nella Tab. 2.2. Se per ogni coppia di risultati campionari si procede al computo della media X M 1 T X 1 , X 2 X1 X2 2 dove (X1, X2) rappresenta la coppia degli elementi costituenti il campione, si potrà derivare la distribuzione campionaria sperimentale (relativa ai 100 campioni estratti) della media aritmetica che sono riportati nella Tab. 2.3, dove, evidentemente, la frequenza assoluta ni sta ad indicare il numero dei campioni (su 100 estratti) di due elementi per il quale si è realizzata quella particolare modalità x i (media aritmetica dei due elementi campionari). La distribuzione campionaria sperimentale della variabile riportata nella Tab. 2.3 costituisce una approssimazione della distribuzione campionaria (teorica) di X . Se si procedesse all'estrazione di una seconda serie di 100 campioni, di dimensione 2, si otterrebbe una diversa X , tale da costituire anche essa un'approssimazione della distribuzione campionaria teorica di X . Considerando le due serie distribuzione campionaria sperimentale di 158 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie di esperimenti ad un tempo (cioè 200 campioni di dimensione 2) si dovrebbe ottenere una distribuzione campionaria sperimentale di X più vicina alla distribuzione teorica di quanto non siano le due distribuzioni considerate separatamente. N. Campione N. Campione N. Campione N. Campione N. Campione 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 (3,3) (5,3) (1,1) (7,3) (1,5) (3,5) (5,5) (5,7) (9,3) (3,3) (5,7) (7,3) (3,7) (3,3) (1,7) (5,9) (9,1) (3,9) (7,3) (7,5) 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 (5,3) (9,3) (5,9) (7,3) (5,5) (9,9) (9,5) (9,7) (7,3) (3,7) (3,1) (5,5) (9,1) (5,9) (5,9) (9,1) (3,1) (7,1) (7,7) (7,9) 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 (3,7) (1,7) (5,7) (7,7) (1,9) (3,3) (3,7) (3,1) (1,1) (1,7) (1,5) (9,1) (7,7) (7,3) (5,9) (3,5) (9,7) (5,7) (5,1) (1,3) 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 (5,1) (3,5) (3,1) (7,7) (1,1) (9,7) (1,3) (9,5) (3,5) (9,7) (9,7) (1,3) (1,5) (7,1) (3,5) (5,5) (3,5) (9,5) (7,1) (9,5) 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 (1,9) (3,7) (9,3) (9,1) (5,9) (5,3) (1,9) (9,5) (1,9) (5,5) (9,3) (1,1) (3,3) (1,3) (5,1) (1,5) (1,5) (7,1) (7,1) (3,5) Tab. 2.2 - Prospetto dei risultati relativi a 100 campioni di dimensione 2, estratti casualmente dalla popolazione riportata nella Tab. 2.1 Media campionaria M1 xi 1 2 3 4 5 6 7 8 9 Frequenza assoluta ni 4 8 13 18 25 10 15 6 1 Frequenza relativa fi = ni/100 0,04 0,08 0,13 0,18 0,25 0,10 0,15 0,06 0,01 Tab. 2.3 - Distribuzione campionaria sperimentale della media aritmetica relativa ai risultati riportati nella Tab. 2.2 Per determinare la distribuzione campionaria teorica della variabile casuale X si può seguire 159 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie la via sotto indicata. a) - Si considerano tutte le possibili coppie di valori (X1, X2) estraibili (con ripetizione) dalla popolazione riportata nella Tab. 2.1, che sono (1,1) (3,1) (5,1) (7,1) (9,1) (1,3) (3,3) (5,3) (7,3) (9,3) (1,5) (3,5) (5,5) (7,5) (9,5) (1,7) (3,7) (5,7) (7,7) (9,7) (1,9) (3,9) (5,9) (7,9) (9,9) e su queste coppie di valori vengono calcolate le medie aritmetiche; b) - Si determina la probabilità relativa a ciascuna coppia (X1, X2). Essendo il campione estratto con ripetizione da una popolazione uniforme si avrà P X 1 x1 X 2 x2 P X 1 x1 P X 2 x2 1 25 per i, j = 1, 2, 3, 4, 5; c) - Si sommano le probabilità relative alle coppie di valori che danno luogo alla stessa media. Il risultato delle operazioni indicate ai punti a), b), c), possono essere riassunti nella tabella seguente Modalità M1 xi 1 2 3 4 5 6 7 8 9 Probabilità f xi pi 0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04 Tab. 2.4 - Distribuzione campionaria (teorica) della media aritmetica per campioni di dimensione 2 estratti dalla popolazione uniforme riportata nella Tab. 2.1 Il confronto tra i dati relativi alla distribuzione campionaria teorica e quelli relativi alla distribuzione campionaria empirica è riportato nella figura seguente 0,25 0,2 0,18 0,16 0,16 0,13 0,12 0,15 0,12 0,1 0,08 0,08 0,06 0,04 0,04 0,01 1 2 3 4 5 Frequenze empiriche 6 7 8 9 Frequenze teoriche (probabilità) Fig. 2.2 - Distribuzione campionaria sperimentale (come da Tab. 2.3) e teorica (come da Tab. 2.4) per la media calcolata su campioni di dimensione 2 estratti dalla popolazione uniforme X: 1, 3, 5, 7, 9 160 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Utilizzando i dati riportati nella Tab. 2.4 si derivano le uguaglianze EX 5 Var X σ x2 σ2 4 2 che verificano empiricamente la proprietà che ha il valor medio (valore atteso) della variabile casuale media campionaria X di essere uguale al valor medio (media aritmetica) della variabile casuale relativa all'intera popolazione e della varianza che risulta essere pari alla varianza della popolazione divisa per la numerosità del campione. Esempio 2.5 (distribuzioni campionarie per campioni estratti da popolazioni discrete) Si considerino 6 palline identiche a meno della numerazione: {, , , , , }. La funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è allora data da x 1 1 / 2 1 / 3 x3 f(x) = x9 1 / 6 0 altrimenti Per tale v.c. è facile derivare i principali momenti. Il seguente prospetto riassume il calcolo di = E(X) = 3 e 2 = Var(X) = E(X2) – E(X)2 = 17 – 32 = 8. x f(x) x f(x) x2 f(x) 1 1/2 1/2 1/2 3 1/3 1 3 9 1/6 3/2 27/2 1 3 17 Tab. 2.5 – Prospetto di calcolo di E(X) e Var(X). Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono essere estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni forma l’universo dei campioni che possono essere estratti dalla v.c. X. L’universo dei campioni può a sua volta essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori e la cui distribuzione sono riportati nella Tab. 2.6 (la probabilità di ciascuna coppia è semplicemente il prodotto delle probabilità dei singoli, dato che le estrazioni sono indipendenti). x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 Tab. 2.6 – Funzione di massa della v.c. doppia X = (X1, X2). Qualunque statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza una sua distribuzione campionaria. Media campionaria: T(X ) = X = (X1 + X2)/2 161 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie La seguente tabella riporta, per ogni campione, la relativa media campionaria con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 x 1 2 5 2 3 6 5 6 9 Tab. 2.7 – Prospetto per la costruzione della funzione di massa della media campionaria. La funzione di massa della media campionaria è riportata nella tabella seguente x 1 2 3 5 6 9 tot f( x ) 1/4 1/3 1/9 1/6 1/9 1/36 1 Tab. 2.8 – Funzione di massa della media campionaria X . Si può verificare che E( X ) = 3 e Var( X ) = 4. Varianza campionaria corretta: T(X ) = S2 = [(X1 – X )2 + (X2 – X )2]/(2 – 1) La tabella che segue riporta, per ogni campione, i valori assumili dalla varianza campionaria corretta con le relative probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 2 s 0 2 32 2 0 18 32 18 0 Tab. 2.9 – Prospetto per la costruzione della funzione di massa della varianza campionaria corretta. Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria corretta, nella quale si sommano le probabilità relative alle coppie di valori uguali. s2 0 2 18 32 tot 2 f(s ) 7/18 1/3 1/9 1/6 1 Tab. 2.10 – Funzione di massa della varianza campionaria corretta S2. Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si può verificare che E(S2) = 8 e V(S2) = 144. Minimo campionario: T(X ) = x(m) = min{X1, X2} La seguente tabella riporta, per ogni campione, il relativo minimo campionario con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 x(m) 1 1 1 1 3 3 1 3 9 Tab. 2.11 – Prospetto per la costruzione della funzione di massa del minimo campionario. 162 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Da tale tabella si ricava facilmente la funzione di massa del minimo campionario, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso minimo. x(m) 1 3 9 tot f(x(m)) 3/4 2/9 1/36 1 Tab. 2.12 – Funzione di massa del minimo campionario X(m). Si può verificare che E(x(m)) = 1,6 e Var(x(m)) = 2, 2 . Massimo campionario: T(X ) = x(M) = max{X1, X2} La tabella seguente riporta, per ogni campione, il relativo massimo campionario con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 x(M) 1 3 9 3 3 9 9 9 9 Tab. 2.13 – Prospetto per la costruzione della funzione di massa del massimo campionario. Da tale tabella si ricava facilmente la funzione di massa del massimo campionario, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso massimo. x(M) 1 3 9 tot f(x(M)) 1/4 4/9 11/36 1 Tab. 2.14 – Funzione di massa del massimo campionario x(M). Si può verificare che E(x(M)) = 4, 3 e Var(x(M)) = 10, 2 . 2.4 Campionamento da popolazioni normali Per campioni estratti da popolazioni normali vale il seguente teorema: Teorema 1 Se X1, ..,Xn costituiscono un campione casuale di elementi relativi ad una popolazione normale, di media µ e varianza 2, allora la variabile casuale campionaria: 1 n X Xi i) n i 1 è distribuita normalmente con media µ e varianza 2/n; n 1 n X 2 Y 2 X i μ i σ i 1 i 1 2 ii) è distribuita come un 2 con g = n gradi di libertà; X n iii) V (n 1 )S σ2 2 163 i 1 X 2 i σ2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie è distribuita come un 2 con g = (n - 1) gradi di libertà. Dimostrazione i) - La funzione generatrice dei momenti della v.c X è data 1 Xi t n mx t E e E e i1 per l'indipendenza delle v.c. X i n X t 1 Xi t n 1 Xi t n E e i1 E (e n ) i 1 per la normalità delle v.c. X i n n E (e 1 Xi t n i 1 n ) e 1 t2 t 2 2 n n e t t 2 2 n i 1 che è la f.g.m. di una v.c. normale di media e varianza 2 / n. ii) - La funzione generatrice dei momenti della v.c Y è data da t n X i m y t E e E e i 1 per l'indipendenza delle v.c. X i 2 Y t X t n X i n t i i 1 E (e ) E e i 1 per la normalità delle v.c. X i e ricordando che il quadrato 2 2 di una v.c. normale standardizzata ha distribuzione χ12 n E (e i 1 X t i 2 n 1 n ) ( 1 2 t) 2 ( 1 2 t) 2 - - i 1 che è la f.g.m. di una v.c. chi quadro con n gradi di libertà n2 . iii) - La funzione generatrice dei momenti della v.c Y è data da 164 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie my t E eY t (1 2 t ) n /2 t n X i E e i1 2 per l'indipendenza delle v.c. X i n E (e X t i i 1 2 n ) E (e X X X t i 2 n ) E (e i 1 X X t i 2 e X t 2 ) i 1 se si ipotizza l'indipendenza tra le n v.c. scarto X i X e la v.c. X si ha n E (e X X t i 2 e X t 2 i 1 = E (e Xi X i 1 n E (e t ) E (e X X t i 2 ) E (e X t 2 ) i 1 n t n Xi X i 1 2 ) E (e X t / n n 2 ) E (e t Xi X i 1 2 ) (1 2 t ) 1/2 2 ) E (e tV ) E (e Y t )(1 2 t ) 1/2 (1 2 t ) (1 2 t ) n /2 1/2 (1 2 t ) n 1 2 che è la f.g.m. di una v.c. chi quadro con n - 1 gradi di libertà ; quindi, la v.c. V 2 n-1 Si dimostra ora l’indipendenza tra il vettore delle v.c. scarto X 1 X , X 2 X ,.........., X n X e la v.c. X , il che implica l’indipendenza n tra V X i 1 i X 2 n 1 S 2 2 e la v.c. X . 2 Si consideri la f.g.m. del vettore casuale a n+1 dimensioni X , X X , X 2 X ,.........., X n X 1 mx , x1 x , x2 x ,....., xn x t , t1 , t2 ,....., tn E e X t X 1 X t1 X 2 X t2 ..... X n X tn n 1 X i t X i ti t j 1 X i t ti t X i n i 1 n i 1 j 1 i 1 E e i 1 n E e per la normalità e l'indipendenza delle v.c. X i n n n n 1 n dove t t j n j 1 2 E e i 1 n e t ti t n Xi t n t n n ti t ti t 2 i 1 n i 1 t e 2 2 e n e t t 2 ti t t n t t i 2 n i 1 t 2 2 2 n n ti t 2 2 /2 e i 1 165 n21. Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie dove e t t 2 2 2 n è la f.g.m. della v.c. distribuita normalmente X e n ti t 2 2 /2 e i 1 X 1 è la f.g.m. del vettore casuale a n dimensioni X , X 2 X ,.........., X n X . Pertanto , poiché la f.g.m. del vettore casuale a n+1 dimensioni X , X 1 X , X 2 X ,.........., X n X è uguale al prodotto di due funzioni generatrici dei momenti, una relativa al vettore a n dimensioni X1 X , X 2 X ,.........., X n X l’altra relativa alla v.c. X ne deriva l’indipendenza tra le variabili casuali X e V , quindi la variabile casuale campionaria X μ Z X μ σ/ n W V/(n 1) S/ n (n 1) S 2 σ2 dove X μ T S/ n ha una distribuzione del tipo t di Student con (n - 1) gradi di libertà essendo basata sul rapporto tra una variabile casuale normale standardizzata e la radice quadrata di una variabile del tipo 2 divisa per i propri gradi di libertà. Sul concetto di gradi di libertà si avrà modo di tornare in seguito, qui basta sottolineare che i gradi di libertà relativi alla variabile casuale campionaria Y sono n perché n sono le variabili casuali indipendenti (X1 - ), (X2 - ),…(Xn - ) che entrano nel suo computo. Mentre i gradi di libertà relativi alla variabile casuale campionaria V sono (n – 1) in quanto, pur essendo n gli elementi, le n variabili casuali scarto X1 X , X 2 X ,... X n X che entrano nel suo computo , soltanto (n – 1) sono tra loro indipendenti , infatti, le n variabili scarto sono (per costruzione) soggette al vincolo n X i 1 i X0 2.5 Campionamento da popolazioni non normali Nei casi in cui l'evidenza empirica o ragioni teoriche escludono la normalità della popolazione cui si riferisce il campione (casuale) di dati a disposizione, e non si hanno altre informazioni sulla popolazione stessa, si può fare ricorso al teorema del limite centrale che individua la normale come distribuzione approssimata della variabile 166 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie casuale media campionaria. Si riporta di nuovo l'enunciato del teorema nella sua forma più semplice adeguandolo al contesto del campionamento. Teorema 2 (del limite centrale) - Se X1, X2,...,Xn costituiscono un campione casuale semplice di n elementi relativi ad una qualunque popolazioni di media µ e varianza (finita) 2, allora la variabile casuale media campionaria 1 n X Xi n i 1 per n sufficientemente elevato ha una distribuzione approssimativamente normale, con media µ e varianza 2/n. Va sottolineato, inoltre, che la tendenza alla normalità della variabile casuale X , si realizza anche quando le osservazioni campionarie si riferiscono ad n popolazioni distinte, purché esse abbiano media e varianza finita. Si avrà pertanto che (ricordando quanto detto a proposito di combinazioni di variabili casuali normali indipendenti) la distribuzione campionaria di una qualsiasi combinazione lineare di medie calcolate su un gruppo di campioni indipendenti tende alla normalità al crescere della numerosità di ciascuno dei campioni considerati. Benché il teorema del limite centrale riguardi grandi campioni, nelle applicazioni empiriche più frequenti, l'approssimazione normale risulta soddisfacente anche per campioni di modeste dimensioni. Se le osservazioni campionarie si riferiscono a popolazioni distinte, si avrà una buona approssimazione per i piccoli campioni n 30 solo quando le distribuzioni di tali popolazioni non si discostano troppo dalla distribuzione normale e le loro varianze non sono molto diverse. Tornando al problema dell’approssimazione della distribuzione della media campionaria per campioni riferiti ad una stessa popolazione non normale, si deve osservare che la bontà dell’approssimazione dipende, oltre che dalla dimensione campionaria anche dalla natura e dalla forma della distribuzione originaria dalla quale il campione è stato estratto. Nella Fig. 2.3 è riportata la distribuzione della media campionaria standardizzata per campioni di diverse dimensioni estratta da popolazioni continue definite dai modelli: a) X: 3x 3 b) X: x 1 , f(x) e x 1 , f(x) 2 3 167 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie f ( x) 2 3 f ( x) e x 1 Fig. 2.3 - Distribuzione della media campionaria per campioni di diverse dimensioni estratti da due diverse popolazioni continue. Come si può facilmente desumere osservando le figure, a parità di dimensione campionaria, l’approssimazione migliore è quella relativa alla distribuzione uniforme (distribuzione simmetrica) rispetto alla distribuzione di tipo esponenziale che presenta una asimmetria abbastanza pronunciata. Esempio 2.5 Si supponga di estrarre un campione casuale semplice di dimensione n da una popolazione di tipo dicotomico, cioè da una popolazione caratterizzata dalla presenza o meno di un determinato carattere; si supponga inoltre che la proporzione delle unità che possiede il carattere di interesse sia pari a p , mentre 1 - p = q è la proporzione delle unità che non possiede il carattere in questione. La popolazione dalla quale viene estratto il campione di dati può essere, in base a quanto detto, rappresentata da una variabile casuale bernoulliana caratterizzata dal parametro p del tipo X : x0 = 0 , x1 = 1 P(X = x0) = q , P(X = x1) = p il cui valor medio e varianza sono rispettivamente = p e 2 = p q . 168 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Ora, se si considera il punto campionario (X1, X2,...,Xn ) si vede come, nell’universo dei campioni, ciascuna componente Xi (i=1, 2, ..., n) sia una variabile casuale del tutto simile alla variabile casuale X che rappresenta la popolazione. Si avrà pertanto che la variabile casuale campionaria n P T(X 1 , X 2 ,..., X n ) i 1 Xi n che indica la proporzione delle unità che nel campione presentano quel determinato carattere, avrà una distribuzione di tipo binomiale (variabile casuale binomiale relativa), con valor medio E(P) = = p e varianza p2 = p q/n . Questa conclusione consente d’interpretare la variabile casuale binomiale relativa, ottenuta attraverso una combinazione lineare di variabili casuali di bernoulli indipendenti, come distribuzione campionaria di proporzioni o percentuali. Ovviamente, se si definisce come variabile casuale campionaria n XT Xi i 1 cioè il totale di successi nelle n estrazioni campionarie indipendenti effettuate, tale variabile è esattamente una variabile casuale binomiale con parametri caratteristici n e p , con media = n p e varianza 2 = n p q; il che consente d’interpretare la variabile casuale binomiale come somma di n variabili casuali di bernoulli indipendenti caratterizzate da uno stesso parametro p. Nelle Figg. 2.4 e 2.5 è riportata la distribuzione binomiale (opportunamente standardizzata) per diversi valori di n e di p e la relativa approssimazione con la distribuzione normale. Come si può facilmente desumere osservando le figure, a parità di dimensione campionaria l’approssimazione è tanto più buona quanto più p è prossimo al valore 0,5 (distribuzione simmetrica); ovviamente l’approssimazione migliora al crescere della dimensione campionaria. 169 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Fig. 2.4 - Istogrammi della distribuzione binomiale per p = 0,2 e diversi valori di n e relativa approssimazione con la variabile casuale normale standardizzata. 170 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie Fig. 2.5 - Istogrammi della distribuzione binomiale per p = 0,5 e diversi valori di n e relativa approssimazione con la variabile casuale normale standardizzata 171 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie 2.6 Campionamento da due popolazioni indipendenti Nelle pagine precedenti sono state calcolate media e varianza delle variabili casuali, media campionaria X e varianza campionaria (corretta) S2, associate a campioni estratti da una qualunque popolazione. Di queste due variabili, di loro trasformazioni e del rapporto tra loro particolari trasformazioni, è stata derivata anche la distribuzione campionaria nel caso di campionamento da popolazioni normali. Si è, inoltre, data indicazione della distribuzione asintotica (cioè della distribuzione cui si perviene facendo tendere ad infinito la dimensione del campione) della media campionaria per campioni estratti da popolazioni non normali. Si procederà ora alle stesse elaborazioni in riferimento a differenze tra medie campionarie e al rapporto tra varianze campionarie facendo specifico riferimento a campioni estratti da due popolazioni normali. Si supponga ora di estrarre con ripetizione due campioni casuali indipendenti, di dimensione m ed n , da due popolazioni distinte rappresentate dalle variabili casuali X e Y, il cui valore medio e varianza sono rispettivamente x , x2 , y , y2 . Sugli elementi campionari (X1, X2,...,Xm ) e (Y1, Y2,...,Yn ) si calcolino le quattro statistiche 1 n 1 m Y Yi ; X Xi n i 1 m i 1 1 m 1 n X i X 2 ; Yi Y 2 S y2 m 1 i 1 n 1 i 1 si calcolino, cioè, le due medie campionarie e le due varianze campionarie corrette, e si definiscano le nuove entità (differenza tra medie campionarie e differenza tra varianze campionarie corrette) V X Y S x2 W S x2 S y2 Le due variabili campionarie V e W, nell’universo dei campioni, hanno medie e varianze espresse dalle uguaglianze seguenti E (V ) x y Var (V ) x2 y2 E (W ) 2 x x2 m y2 n 2 y Var (W ) Var ( S x2 ) Var ( S y2 ) Inoltre, se i due campioni sono estratti da popolazioni normali indipendenti vale il seguente teorema Teorema 3 Se X1, X2, ..., Xm costituisce un campione casuale estratto da una popolazione normale di media 172 x e varianza σ x2 , Y1, Y2, ..., Yn un Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 2. Campionamento e distribuzioni campionarie campione casuale estratto da una popolazione normale di media y e varianza σ y2 , allora: 1. la variabile casuale campionaria 1 m 1 n U X Y X i Yi m i 1 n i 1 2 σ x2 σ y è distribuita normalmente con media x - y e varianza , infatti: m n mu t E eU t E e x t 2. x2 t 2 y t X Y t E e E e x y t mx 2y t 2 e e e la variabile casuale campionaria m 2 n 2 Y t X t 2 2y t 2 n 2 n Y X x i y V i x i 1 y i 1 2 2 2 Z x Z y 2 è distribuita come una variabile casuale con m+n gradi di libertà, infatti: 2 m mv t E eV t E e 1 2 t 3. m 2 1 2 t Z n 2 2 2 x Zy t E e 1 2 t Z x2 t E e Z y2 t mn 2 la variabile casuale campionaria 2 2 m n Xi X (m 1) S2x (n 1) S y Yi Y W Wx Wy σ 2x σ 2y σ x i 1 σ y i 1 2 è distribuita come una variabile casuale 2 con m+n-2 gradi di libertà, infatti: W t W +W t mw t E eW t E e x y E e Wx t E e y 1 2 t 4. m 1 2 1 2 t n 1 2 1 2 t mn2 2 la variabile casuale campionaria ( m 1 )S x2 F x2 ( n 1 )S y2 y2 /( m 1 ) /( n 1 ) 2 S x2 y 2 2 Sy x definita come rapporto tra due variabili casuali 2 indipendenti divise per i rispettivi gradi di libertà, è distribuita come una variabile casuale F di Fisher-Snedecor con m1 ed n-1 gradi di libertà. Le considerazioni svolte a proposito delle distribuzioni campionarie degli indici sintetici media e varianza, possono essere naturalmente estese ad altri indici caratteristici quali mediana, quartili, scostamento quadratico medio, ecc. . 173 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima CAP. 3 – STIMA Introduzione Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni T(X1,X2,…,Xn) degli elementi campionari soffermando l’attenzione, in particolare, su media e varianza facendo specifico riferimento al campionamento da popolazioni normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti di funzioni T diverse da quelle analizzate; la logica del procedimento da seguire resta sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico dipenderà dalle specificità considerate. Rimane altresì immutata anche la natura della funzione T che, nella generalità dei casi, è quella di compattare l’informazione campionaria in modo da consentire un’estensione delle conclusioni cui si perviene attraverso l’elaborazione dei dati campionari all’intera popolazione dalla quale il campione stesso è stato estratto. Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto, nella fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano il loro soddisfacimento affinché il processo di induzione (dal campione alla popolazione) sia il “migliore possibile”. I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e raggruppati in problemi statistici di: 1. stima (puntuale e per intervallo) 2. verifica o test d’ipotesi. Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima) di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende analizzare). Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità incognite relative alla popolazione di origine del campione. La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia, più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione (distribution free) in quanto non si presuppone nota la forma analitica del modello rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si 175 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima parla di inferenza statistica parametrica. In questo capitolo si tratterà, in modo quasi esclusivo, di stima parametrica limitatamente alla così detta impostazione classica dell’inferenza statistica, cioè, dell’inferenza statistica che tratta di procedure di induzione basate sulla sola evidenza campionaria (informazione oggettiva) a differenza dell’impostazione bayesiana che prevede, invece, l’utilizzo simultaneo di informazioni campionarie e di informazioni a priori che, nella generalità dei casi, hanno natura soggettiva. 3.1 - Stima puntuale Se X è una variabile casuale discreta o continua, con funzione di massa o di densità di probabilità f(x;dove Θ rappresenta il parametro caratteristico non noto, la stima puntuale di si risolve nella ricerca di una funzione degli elementi campionari x , x ,..., x in modo tale da ottenere un valore ˆ T x , x ,..., x che sia ‘il più 1 2 1 n 2 n vicino possibile’ al vero valore dell’entità incognita Come già sottolineato più volte, attraverso l’introduzione della statistica T si effettua una compattazione delle informazioni passando, usualmente, dagli n valori 1 n numerici x1,x2,…,xn ad un solo valore numerico, ad es. x xi . Risulta evidente n i 1 che tale operazione comporta una notevolissima perdita di informazioni; aspetto questo che non deve assolutamente preoccupare, anzi, in molte situazioni risulta vantaggioso, soprattutto quando le informazioni che si perdono sono del tutto irrilevanti ai fini degli obiettivi che s’intendono perseguire. L’ultima considerazione suggerisce una prima possibilità di qualificazione della generica affermazione ̂ deve essere “il più vicino possibile” a od anche, ̂ deve essere “la migliore stima” di . Ad esempio, se si ha ragione di ritenere che una certa variabile casuale X sia distribuita normalmente, ma non si conosce il valore numerico dei due parametri che la caratterizzano, µ e 2, si può decidere di estrarre un campione di n elementi dalla distribuzione stessa e cercare poi di individuare due funzioni che applicate ai valori campionari diano una misura, la “migliore”, dei due parametri incogniti. Analogo ragionamento può essere fatto nei confronti del parametro che caratterizza la distribuzione di Poisson, del parametro p che caratterizza la distribuzione bernoulliana, ecc. Più in generale, data una variabile casuale, discreta o continua, X con funzione di massa o di densità di probabilità f(x;), la stima puntuale del un parametro incognito si ottiene applicando una specifica funzione T ai valori campionari; essa varierà quindi al variare del campione, secondo la legge di distribuzione della popolazione cui il campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a 176 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima giudicare la “bontà” di una qualunque stima ̂ = T(x1, x2,...,xn). Infatti, non è possibile affermare se un singolo valore numerico, cioè se una particolare stima ̂ è “buona” o “cattiva” poiché ̂ è tanto più “buona” quanto più si approssima al vero valore del parametro , ma, essendo tale valore incognito, il confronto non è possibile; risulta, cioè, impossibile valutare la “bontà” di una singola stima. Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo campione ma all’intero universo di tutti i campioni possibili. Il confronto fra stimatori dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie; cosa questa ovviamente poco pratica, si preferisce allora effettuare il confronto facendo riferimento a particolari indici caratteristici delle variabili casuali stima. 3.1.1 Proprietà degli stimatori Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o di densità di probabilità f(x;) , caratterizzata dal parametro incognito , il problema della ricerca dello stimatore ”migliore” del parametro stesso si sostanzia nella individuazione della “migliore” funzione T X 1, X 2 ,...., X n T X da applicare agli elementi campionari di cui si dispone: Definizione 1 (Stimatore). Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o di densità di probabilità f(x;), caratterizzata dal parametro incognito , e si indica con X1,X2,…,Xn un campione casuale semplice riferito alla variabile stessa, si dice stimatore qualunque statistica T X 1, X 2 ,...., X n T X , cioè qualunque variabile casuale, funzione degli elementi campionari, le cui determinazioni vengono utilizzate per ottenere una stima del parametro incognito . Le proprietà “ottimali” che verranno considerate in queste note sono la: sufficienza; concentrazione; prossimità; efficienza; consistenza. 3.1.2 Sufficienza Relativamente alle “proprietà ottimali” di uno stimatore si deve, innanzi tutto, tenere 177 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima presente che la funzione T opera una compattazione delle informazioni; risulta, pertanto, più che ragionevole richiedere ad uno stimatore ˆ T X 1, X 2 ,....., X n di contenere il massimo delle informazioni che il campione fornisce in merito al valore del parametro incognito . Nel caso in cui si riesce ad individuare uno stimatore ̂ che contiene tutte le informazioni su possedute dal campione di dati a disposizione, si dice che ̂ è uno stimatore sufficiente di . Appare subito evidente che nei casi in cui esistono più stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata utilizzazione di informazioni utili contenute nel campione. Ovviamente, è sufficiente lo stimatore basato su una statistica sufficiente (cfr. paragrafo 2.2). 3.1.3 Concentrazione e prossimità Oltre alla sufficienza, risulta conveniente che le singole stime non si discostino troppo dal valore incognito da stimare, che presentino, cioè, il minimo di variabilità intorno a tale valore, variabilità che può essere misurata sia attraverso specifici indici sintetici, come si avrà modo di verificare nelle righe successive, sia considerando direttamente la distribuzione di probabilità. Definizione 2 (Concentrazione). Lo stimatore Θˆ * T * X 1, X 2 ,..., X n che soddisfa la relazione: P Θˆ * P Θˆ per qualsiasi valore di 0 è detto più concentrato dello stimatore Θˆ T X 1, X 2 ,....., X n . Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due particolari stimatori Θˆ * e Θ̂ . Se la disuguaglianza vale per qualunque stimatore Θ̂ alternativo a Θˆ * si dirà che Θˆ * è lo stimatore più concentrato in assoluto. Definizione 3 (Prossimità). Lo stimatore relazione: Θˆ * T * X 1, X 2 ,..., X n che soddisfa la P Θˆ * Θˆ 0,5 per qualsiasi valore di è detto più prossimo Θˆ T X 1, X 2 ,....., X n . 178 (secondo Pitman) dello stimatore Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due particolari stimatori Θˆ * e Θ̂ . Se la disuguaglianza vale per qualunque stimatore Θ̂ alternativo a Θˆ * si dirà che Θˆ * è lo stimatore che presenta una migliore approssimazione in assoluto. 3.1.4 Efficienza Le proprietà di concentrazione e di prossimità sono certamente del tutto auspicabili purtroppo, però, sono veramente rare le situazioni nelle quali esistono stimatori che godono di tali proprietà oltre alle difficoltà analitiche connesse alla loro derivazione. Si dovrà, pertanto, fare riferimento non all’intera distribuzione di probabilità ma a specifici indici sintetici di variabilità, procedendo, cioè, al computo di scostamenti appropriati tra i valori assumibili dallo stimatore e il vero valore del parametro incognito (qualunque esso sia) per poi addivenire ad una loro adeguata sintesi. L’entità aleatoria che si sta trattando è la variabile casuale stimatore Θˆ T X , X ,....., X e la costante di 1 2 n riferimento è il parametro incognito . Gli scostamenti tra tutti i valori che la variabile casuale stima Θ̂ assume, nell’universo dei campioni, e il valore incognito , possono essere espressi dalla differenza in valore assoluto | Θˆ | od anche al quadrato Θ̂ 2 o qualunque altra misura di scostamento ritenuta adeguata al caso in esame. Θˆ * T * X 1, X 2 ,..., X n Definizione 4 (Efficienza nell’ESM). Lo stimatore soddisfa la relazione: E | Θˆ * | E | Θˆ | che per qualunque e per qualunque stimatore ˆ alternativo allo stimatore Θˆ * , dove, al solito, E sta ad indicare il valore atteso (valore medio) dell’entità all’interno della parentesi, è detto il più efficiente nell’errore semplice medio. ESM( Θ̂ ) = E | Θˆ | . Definizione 5 (Efficienza nell’EQM). Lo stimatore soddisfa la relazione: E (Θˆ * )2 Θˆ * T * X 1, X 2 ,..., X n , E (Θˆ )2 per qualunque e per qualunque stimatore ˆ , alternativo allo stimatore ˆ * , è detto il più efficiente nell’errore quadratico medio EQM Θ̂ E 179 ˆ . 2 che Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Quello sopra introdotto è un concetto assoluto di efficienza che risulta operativamente poco utile in quanto sono molto infrequenti le situazioni di ricerca in cui si riesce ad individuare per via analitica lo stimatore più efficiente (nell’errore semplice medio o nell’errore quadratico medio), sempre nell’ipotesi di esistenza di tale stimatore. Analogamente a quanto detto a proposito delle proprietà di concentrazione e di prossimità, oltre a considerare la proprietà di efficienza in senso assoluto si può introdurre il concetto di efficienza in senso relativo confrontando due diversi stimatori Θ̂1 e Θ̂2 di uno stesso parametro incognito . Lo stimatore Θ̂1 si dice più efficiente dello stimatore Θ̂2 : per qualunque ; nell’errore semplice medio se ESM( Θ̂1 ) < ESM( Θ̂2 ) , nell’errore quadratico medio se EQM( Θ̂1 ) < EQM( Θ̂2 ), per qualunque . L’efficienza relativa dello stimatore Θ̂1 rispetto allo stimatore Θ̂2 è definita dai rapporti: ESM Θˆ ESM Θˆ1 eESM eEQM 2 EQM Θˆ EQM Θˆ1 2 Comunque, il problema più rilevante nella ricerca dello stimatore più efficiente non risiede tanto nelle difficoltà analitiche di computo quanto nell’inesistenza di un tale stimatore ottimale; infatti, non sono affatto rare le situazioni nelle quali non esiste uno stimatore che minimizza l’ESM o l’EQM per qualunque valore di . In tali situazioni si dovrà abbandonare l’obiettivo della ricerca dell’ottimo assoluto, non esistendo un tale ottimo, per procedere, eventualmente, alla ricerca di un sub-ottimo. Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di minimizzare l’ESM o l’EQM in una classe ristretta di stimatori (minimo vincolato) essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta; il vincolo usualmente imposto è quello della correttezza o non distorsione dello stimatore. Definizione 6 (Correttezza o non distorsione). Uno stimatore Θˆ n Tn ( X 1 , X 2 ,..., X n ) (di ) si dice corretto o non distorto se E( Θ̂ ) = . per qualunque Θ . Si consideri ora la relazione 2 2 2 EQM (Θˆ ) E Θˆ E Θˆ E (Θˆ ) E (Θˆ ) E Θˆ E (Θˆ ) E ˆ - 0 2 Var (Θˆ ) E Θˆ - 2ˆ d 2 180 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima dove d E Θˆ viene detta distorsione. Se Θˆ n Tn ( X 1 , X 2 ,..., X n ) è uno stimatore non distorto di si ha d 2 = 0 e quindi: EQM (Θˆ ) E Θˆ E Θˆ E Θˆ Var (ˆ) cioè, se uno stimatore è corretto il suo errore quadratico medio e la sua varianza coincidono. Pertanto, nella classe ristretta degli stimatori corretti si può affermare che lo stimatore più efficiente nell’EQM è lo stimatore di minima varianza. Quest’ultima conclusione provoca spesso confusione inducendo a concludere che lo stimatore più efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione errata perché l’affermazione vale solo nell’ambito degli stimatori corretti. Il vincolo di correttezza in molti testi non viene introdotto con una tale connotazione, cioè come restrizione della classe degli stimatori, ma come proprietà dello stimatore stesso. Nella logica espositiva qui seguita, dove la “bontà” di uno stimatore è misurata facendo riferimento alla sua variabilità campionaria, una tale interpretazione della correttezza non può essere accolta; in altre parole la correttezza rappresenta un vincolo e non una proprietà. Ovviamente, a parità di tutte le altre condizioni, uno stimatore corretto è preferibile ad uno stimatore distorto. È stato più volte sottolineata la possibilità di non esistenza dello stimatore più efficiente, sia nell’EQM che nell’ESM, possibilità questa molto meno frequente invece nella classe ristretta degli stimatori corretti; infatti, come si avrà modo di chiarire nelle righe che seguono, per alcuni modelli è possibile dimostrare che, in una classe ristretta, esiste lo stimatore più efficiente nell’EQM. In tale ottica un ruolo fondamentale è svolto dalla disuguaglianza di Cramèr-Rao; si tratta di una disuguaglianza che individua il valore minimo assumibile dalla varianza di uno stimatore corretto. 2 2 Teorema 3 (Limite di Cramèr-Rao); Sia X una v.c. con funzione di massa o di densità f(x; ), dove Θ è un parametro incognito, e X 1, X 2 ,..., X n è uno stimatore corretto di , se sono soddisfatte le condizioni di regolarità: d log f x; esiste per qualunque x e per qualunque Θ ; d n d d n f x ; dx dx dx f xi ; dx1dx2 dxn i 1 2 n d d i 1 i 1 ; d d t x1 , x2 , xn t x1 , x2 , xn n f x ; i i 1 d d n dx1dx2 dxn f x ; i 1 181 i dx1dx2 dxn ; Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima d 0 E log f x; per qualunque Θ . d vale la relazione di disuguaglianza 1 1 Var ˆ 2 2 n d d E log f X i ;θ nE log f X; i 1 d d Dimostrazione n d d 1 t x , x , x f xi ; dx1dx2 dxn 1 2 n d d i 1 t x1 , x2 , xn d d d d n f x ; i 1 i n f x ; i 1 i dx1dx2 dxn dx1dx2 dxn d n t x1 , x2 , xn f xi ; dx1dx2 dxn d i 1 n d n t x1 , x2 , xn log f xi ; f xi ; dx1dx2 dxn i 1 d i 1 d n E t x1 , x2 , xn f xi ; d i 1 per la disuguaglianza Cauchy - Schwarz 2 n d log f xi ;θ E t x1 , x2 , xn i 1 dθ E t x1 , x2 , xn 2 2 n d E log f xi ; d i 1 da cui E t x1 , x2 , xn 2 Var ˆ 1 2 n d E log f xi ;θ i 1 dθ ma 182 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima d E log d n i 1 f xi ; 2 E n i 1 d log f xi ; d n n d d E log f xi ; log f x j ; d d j ( i ) 1 i 1 per l'indipendenza delle v.c. Xi i 1 2 d E log f xi ; d 2 d d d E f xi ; E f xi ; n E log f x; d d d j ( i ) 1 n n 2 i 1 n 2 d n E log f x; d La quantità 2 2 n d d I E log f X i ;θ n E log f x; i 1 d d usualmente detta informazione di Fisher, si indica con I( ) e fornisce una misura dell’informazione contenuta nel campione. Da sottolineare che l’informazione I() è la varianza della variabile casuale che si ottiene derivando il logaritmo della funzione di verosimiglianza; tale derivata è detta funzione score ed è espressa da: S infatti L' f ' x1 , x2 ,..., xn ; d log L d L f x1 , x2 ,..., xn ; Var S θ E S θ 2 I θ poiché f ' x1 ,x2 ,...,xn ;θ E S θ f x1 ,x2 ,...,xn ;θ dx1 dx2 dxn f x1 ,x2 ,...,xn ;θ d d d f x1 ,x2 ,...,xn ;θ dx1 dx2 dxn f x; dx 1 0 dθ dθ x dθ L’informazione di Fisher può essere quindi espressa dall’uguaglianza: I E S ma 183 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima 0 d x d d log f x, f x, dx d d2 2 log f x, f x, d x x d 2 d E S E S d da cui E x d d log f x, 2 f x , dx S E dd S I 2 Si noti che per definire la funzione score S() e l’informazione di Fisher I() si è fatto riferimento all’universo dei campioni, cioè, nella funzione di verosimiglianza al singolo punto campionario x1,x2,…,xn si è di nuovo sostituita la variabile casuale ad n dimensioni X = (X1,X2,…,Xn). La conclusione cui si perviene è che la varianza di uno stimatore corretto non può scendere sotto il reciproco dell’informazione di Fisher, quindi, se Var ( ̂ ) = 1/I() lo stimatore ̂ è il “migliore”, cioè, il più efficiente nell’ambito degli stimatori corretti. Se risulta, invece, Var ( ̂ ) > 1/I(), non è possibile pervenire ad alcuna conclusione nel senso che potrebbe esistere o non esistere un altro stimatore corretto più efficiente. Comunque, si dimostra che il limite minimo della disuguaglianza viene raggiunto, se sono soddisfatte alcune condizioni di regolarità, se e solo se il modello probabilistico (v.c. rappresentativa della popolazione di riferimento) dal quale il campione è stato estratto appartiene alla famiglia esponenziale caratterizzata da un solo parametro. L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare l’ottimo la cui esistenza è garantita per le v.c. che appartengono alla famiglia esponenziale. Lo stimatore che minimizza l’errore quadratico medio nell’ambito ristretto delle stime corrette, rappresenta, pertanto, la strategia dominante nella classe ristretta degli stimatori corretti. In molte situazioni operative non esiste un’alternativa dominante, neppure nella classe ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a livello teorico può risultare molto difficile o addirittura impossibile procedere alla sua derivazione analitica. Una possibile via da seguire per la ricerca dell’ottimo è rappresentata dall’inserimento di ulteriori vincoli: il più semplice ed immediato, che risolve anche le difficoltà di ordine analitico, è il vincolo di linearità. Sulle conseguenze dell’introduzione del vincolo di linearità si avrà modo di soffermare l’attenzione nelle pagine successive 3.1.5 Proprietà asintotiche Al crescere della dimensione del campione cresce anche l’ammontare del patrimonio 184 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima informativo a disposizione, è quindi ragionevole presumere che al crescere della dimensione campionaria debba anche crescere la “bontà” dello stimatore. Per ciò che concerne il comportamento di un qualunque stimatore puntuale al crescere della dimensione del campione si riportano le due definizioni seguenti che introducono un’ulteriore augurabile proprietà degli stimatori: la consistenza. Definizione 7 (Consistenza in senso debole). Uno stimatore ˆn Tn ( X 1 , X 2 ,..., X n ) (di ) si dice consistente in senso debole se Lim P | ˆ | 1 n n per qualunque e per qualunque positivo piccolo a piacere. Definizione 8 (Consistenza in senso forte). Uno stimatore ˆn Tn ( X 1 , X 2 ,..., X n ) (di ) si dice consistente in senso forte se 0 0 lim EQM ˆn n o anche lim ESM ˆn n per qualunque Ovviamente, la consistenza forte implica la consistenza debole; infatti, per la disuguaglianza di Cebicev si ha P | ˆn | 2 E ˆn 1 2 ma Lim E ˆn 0, quindi n E ˆ 2 n Lim P | ˆn | Lim 1 2 1 n n 2 3.2 - Metodi di stima puntuale Una volta elencate le proprietà che si ritiene debbano essere soddisfatte da uno stimatore puntuale, si dovranno valutare i metodi di stima proposti in letteratura verificando se, ed in quali condizioni operative, producono stimatori che soddisfano tali proprietà. In queste note verranno considerati, anche se in alcuni casi molto sommariamente, i metodi di stima: della minimizzazione dell'errore quadratico medio; 185 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima della massima verosimiglianza; dei momenti; del minimo chi-quadro (2); della minima distanza. 3.2.1 Minimizzazione dell’errore quadratico medio Un metodo di stima particolarmente rilevante e direttamente collegato alle proprietà delle stime sopra elencate è quello basato sulla minimizzazione dell'errore quadratico medio; si tratta, quindi, di un metodo che ha come obiettivo l’individuazione dello stimatore più efficiente in assoluto. Un inconveniente di questo metodo è rappresentato dal fatto che, come già sottolineato più volte, per molte distribuzioni non esiste uno stimatore ̂ capace di minimizzare l'errore quadratico medio rispetto a tutti i possibili valori di , succede cioè che per alcuni valori di l'errore quadratico medio risulta minimizzato dallo stimatore ˆ , mentre per altri valori di , al minimo si perviene attraverso una diverso stimatore 1 ̂ 2 . In tali situazioni, essendo una quantità incognita, il problema non ammette soluzione, o meglio, è il metodo della minimizzazione dell'errore quadratico medio che non fornisce la soluzione. Comunque, nelle situazioni in cui si riesce ad individuare lo stimatore più efficiente in senso assoluto si parla di strategia dominante ed uno degli acronimi di più largo impiego per caratterizzare tale stimatore è B(E) (Best Estimator). Poiché, come già sottolineato, le stime che minimizzano l'errore quadratico medio non sempre esistono, si preferisce sovente restringere la classe delle funzioni di stima a quelle che rispettano certe condizioni; ad es. si può, come già sottolineato, restringere la classe alle sole stime non distorte e ricercare tra queste la stima che minimizza l'errore quadratico medio. In questo caso, il metodo della minimizzazione dell'errore quadratico medio si riduce al metodo della minimizzazione della varianza; ma, in tali condizioni si deve tenere presente che l’ottimo cui si può, eventualmente, pervenire è un ottimo vincolato (un ottimo relativo e non un ottimo assoluto). Si consideri ora la Fig. 3.1 dove sono stati riportati i grafici relativi alle distribuzioni campionarie di tre diversi stimatori di , due di questi, ˆ e ̂ , danno luogo a delle 1 2 stime di corrette, mentre il terzo, ˆ3 , dà luogo ad una stima distorta di . 186 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima f ( 3 ) f ( 1 ) f ( 2 ) Fig. 3.1 - Grafico relativo alla distribuzione di tre diversi stimatori Dei tre stimatori considerati ˆ1 , ̂ 2 e ˆ3 il secondo ̂ 2 è senz'altro da scartare, infatti tale stimatore pur essendo corretto presenta una variabilità nettamente superiore a quella dell'altro stimatore corretto ˆ . La scelta tra le funzioni che danno luogo agli 1 stimatori ˆ1 e ˆ3 , presenta invece qualche difficoltà; infatti, in questo caso si tratta di confrontare due stimatori, dei quali, quello che possiede la “proprietà” della correttezza ˆ1 mostra una maggiore variabilità rispetto a . Risulta ragionevole, nella situazione prospettata, scegliere lo stimatore ˆ3 ; infatti, come si può evincere dalla figura, valendo la disuguaglianza EQM ˆ3 EQM ˆ1 la probabilità di ottenere valori prossimi a risulta più elevata per lo stimatore ˆ3 rispetto allo stimatore ˆ1 . L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare l’ottimo; se si riuscisse ad individuare tale ottimo, lo stimatore che minimizza l’errore quadratico medio nell’ambito ristretto delle stime corrette, si sarebbe individuata la strategia dominante nella classe ristretta degli stimatori corretti. Un tale stimatore viene usualmente indicato con l’acronimo BU(E) (Best Unbiased Estimator). Nel situazione prospettata nella Fig. 3.1 il miglior stimatore nella classe ristretta è ˆ . 1 In molte situazioni operative non esiste un’alternativa dominante, cioè un minimo per qualunque valore di , neppure nella classe ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a livello teorico può risultare molto difficile o addirittura impossibile procedere alla sua derivazione analitica, come già sottolineato, in tali situazioni si può procedere all’inserimento di un ulteriore vincolo, il vincolo di linearità n T X 1 , X 2 ,..., X n 0 i X i . i 1 187 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Nella classe ristretta degli stimatori lineari e corretti si riesce ad individuare gli stimatori ottimali (cioè gli stimatori più efficienti) in molte situazioni rilevanti di ricerca, tra queste, la più significativa è quella che riguarda i modelli statistici lineari, in particolare il così detto modello classico di regressione lineare. In tale contesto, come si avrà modo di chiarire successivamente, il metodo di stima statistica puntuale che ne risulta viene, usualmente, detto metodo di stima dei minimi quadrati. Per indicare lo stimatore che minimizza l’EQM nell’ambito degli stimatori lineari e corretti si utilizza usualmente l’acronimo BLU(E) (Best Linear Unbiased Estimator) Il metodo di stima puntuale basato sulla minimizzazione dell’errore quadratico medio può essere interpretato facilmente in termini decisionali. In un contesto decisionale l’errore quadratico medio assume la veste di funzione di perdita e l’impossibilità di individuazione dello stimatore più efficiente si risolve nella constatazione della non esistenza di un’alternativa decisionale (azione) che risulti dominante rispetto a tutte le altre: la migliore azione per qualunque stato di natura che, nella specifica circostanza, è rappresentato dal valore assunto dal parametro incognito . 3.2.2 Massima verosimiglianza Un secondo metodo di stima puntuale particolarmente rilevante è il metodo della massima verosimiglianza. Si ricorda che: data una variabile casuale, discreta o continua X, con funzione di massa, o di densità di probabilità f(x;) e un campione casuale semplice di n osservazioni su X , si è definita di verosimiglianza la funzione n L( ) L( / x) f ( ; x1 , x2 ,..., xn ) f ( ; xi ) i 1 Come già sottolineato, la funzione di verosimiglianza coincide, in termini formali, con la funzione di massa o di densità di probabilità del campione: si tratta, infatti, di una stessa espressione interpretata come funzione: degli elementi campionari x1, x2,...,xn che variano nell'universo dei campioni (funzione di densità o di massa di probabilità); del parametro per un campione prefissato (funzione di verosimiglianza). Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le variabili che interessano sono, appunto, le variabili casuali campionarie X1,X2,…,Xn. Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto particolari determinazioni x1,x2,…,xn e sono, pertanto, quantità costanti note; risulta, allora, ragionevole interpretare l’espressione come funzione del parametro (o dei parametri) che, pur essendo una costante, assume la veste di variabile essendo incognito il suo valore. ~ Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore che massimizza la funzione L(). Se L() è una funzione differenziabile, condizione 188 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima necessaria affinché essa abbia un massimo è che dL()/d = 0 . Nella generalità dei casi non occorre procedere ad ulteriori elaborazioni (computo delle derivate di ordine superiore) essendo il punto di stazionarietà individuato un punto di massimo. La derivazione della funzione di verosimiglianza L() comporta il computo del n prodotto f(xi; ), operazione non immediata, per tale motivo, in genere si preferisce i 1 massimizzare non la verosimiglianza L() ma il suo logaritmo naturale l () = log L() = n log f (xi; ) i 1 detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, il ~ valore che massimizza la log-verosimiglianza l() è identico a quello che massimizza la verosimiglianza L(). Si ricorda che la derivata prima della log-verosimiglianza è stata definita come funzione score; di conseguenza, se la log-verosimiglianza è differenziabile allora condizione necessaria affinché la funzione abbia un massimo è che il suo score sia nullo: d S() = l = 0. d ~ Il valore che massimizza la verosimiglianza o la log-verosimiglianza è detto stima di massima verosimiglianza del parametro incognito . Se nella soluzione si sostituiscono alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ..., Xn) si ottengono gli stimatori di massima verosimiglianza. Ovviamente se la distribuzione della variabile casuale X è caratterizzata da più parametri 1, ..., k, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri risolvendo il sistema delle equazioni definito dalle derivate parziali uguagliate a zero. Anche in questo caso, come per quello di un solo parametro, nella generalità dei casi al punto di stazionarietà corrisponde il massimo della funzione. Si riporta nelle righe seguenti la derivazione delle stime di massima verosimiglianza, elencandone proprietà e legge di distribuzione, per campioni relativi ad alcune v.c. tra quelle esaminate nel Cap. 1; si tratta sempre di distribuzioni che appartengono alla famiglia esponenziale per le quali è, quindi sempre possibile individuare stimatori sufficienti e, a ragione della disuguaglianza di Cramèr-Rao, ottimali nell’ambito degli stimatori corretti. V.C. di Bernoulli La log-verosimiglianza della v.c. di Bernoulli è data da 189 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima n l(p) = n log f(xi; p) = i 1 xi 1 xi log ( p q i 1 n n i 1 i 1 ) = log p xi + log (1-p) (n – xi). derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ha S(p) = 1 p n xi – i 1 n 1 (n – xi) = 0. q i 1 risolvendo l’equazione rispetto a p si ricava la stima di massima verosimiglianza di p 1 ~ p = n n xi = x . i 1 Lo stimatore di massima verosimiglianza di p è quindi la media campionaria P = X = 1 n n Xi, i 1 n Poiché ciascuna Xi è una v.c. di Bernoulli ne consegue che Xi è la somma degli i 1 1, nel campione (somma dei successi nelle n prove), e X = 1 n n Xi è la proporzione i 1 dei successi. L’immediata conclusione cui si perviene, ricordando quanto esposto nel n Cap.1, è che lo stimatore X i ha distribuzione binomiale con parametri n e p, mentre i 1 la media campionaria X è una binomiale relativa; questa distribuzione per n sufficientemente grande può essere approssimata con la distribuzione Normale avente la stessa media (p) e la stessa varianza (p q/n). n La statistica Xi , e qualsiasi altra trasformazione biunivoca della stessa, è una i 1 statistica sufficiente per p, quindi P = X è uno stimatore sufficiente, essendo funzione di tale statistica sufficiente, e corretto di p, inoltre, il suo EQM coincide con la varianza e raggiunge il limite di Cramér-Rao; infatti: n d 1 n d 1 I p E S p E X i n X i 1 p i 1 dp p i 1 dp 1 E 2 p n Xi i 1 n n np n 1 p nq np n X i 2 2 2 pq pq 1 p i 1 p 1 p 1 da cui 1 pq I p n che è pari alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza P X è in assoluto lo stimatore migliore di p nella classe degli stimatori corretti. 190 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Infine, P X è consistente in senso forte, dato che: X Lim Var X n Lim pq 0 n Poiché la consistenza forte implica quella debole, X è anche consistente in senso debole. Lim EQM n n n n V.C. di Poisson La log-verosimiglianza della v.c. di Poisson è data da n l() = log f(xi; ) = i 1 n log xi e xi ! i 1 n = log xi – n – i 1 n log xi! i 1 derivando rispetto a per ottenere lo score ed uguagliando a 0 si ha S() = 1 n i 1 ~ 1 xi – n = 0 = n n xi = x . i 1 n La distribuzione campionaria della v.c. X , per la proprietà additiva della v.c. di i 1 i Poisson, è ancora una v.c. di Poisson con parametro n che coincide con la media e la varianza della v.c. stessa; mentre la distribuzione campionaria di = X 1 è una v.c. di Poisson relativa di media e varianza /n. Tale distribuzione per n sufficientemente grande può essere approssimata con la distribuzione normale avente la stessa media ( ) e la stessa varianza (/n) della Poisson relativa. n La statistica Xi (e qualsiasi altra trasformazione biunivoca della stessa) è una i 1 statistica sufficiente per p, quindi = X è uno stimatore sufficiente, essendo funzione di tale statistica sufficiente, e corretto di , quindi, il suo EQM coincide con la varianza e raggiunge il limite di Cramér-Rao; infatti: d 1 n d I E S E X i n d d i 1 n n E X i / 2 i 1 da cui 1 Si segnala che l’utilizzo della simbologia che prevede le maiuscole per indicare le variabili casuali e le minuscole per indicare le determinazioni assunte dalle stesse non viene sempre rispettato quando manca il corrispondente simbolo maiuscolo per specifici caratteri minuscoli, ad esempio si utilizza lo stesso simbolo stima che lo stimatore di , lo stimatore di 2 per indicare sia la stima che lo stimatore di . 191 , 2 per indicare sia la per indicare sia la stima che Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima 1 I p n che è uguale alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza X è in assoluto lo stimatore migliore di nella classe degli stimatori corretti. Inoltre, X è consistente in senso forte, dato che: X Lim Var X n Lim 0. n Poiché la consistenza forte implica quella debole, X è anche consistente in senso debole per . Lim EQM n n n n V.C. Normale La log-verosimiglianza della v.c. Normale è data da: l , log f x ; , log n 2 n 2 i 1 i i 1 n n n 1 log 2 log 2 2 2 2 2 x i 1 1 2 2 e 1 2 2 xi 2 2 i Poiché la log-verosimiglianza dipende da 2 parametri è possibile distinguere quattro diverse situazioni di stima: di ; di 2 con noto ; di 2 con incognito ; simultanea di e 2 . Stima di Per quanto concerne la stima di non è stata specificata l’eventuale conoscenza del parametro 2 in quanto non influente; infatti, se si considera la funzione score, che si ottiene come più volte specificato derivando ed eguagliando a 0 la log-verosimiglianza rispetto al parametro d’interesse si ha: S() = – 1 2 2 n i 1 2(xi – )(–1) = 1 2 n ( i 1 1 xi – n) = 0 ~ = n n xi = x . i 1 pertanto lo stimatore di massima verosimiglianza di è la media campionaria = X = 192 1 n n i 1 Xi. Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Come si è già avuto modo di verificare X , si distribuisce normalmente con media e varianza 2/n. X , è uno stimatore sufficiente, perché basato sulla statistica n sufficiente X i 1 i , corretto ed il più efficiente nella classe degli stimatori corretti di infatti se si considera il limite della disuguaglianza di .Cramér-Rao dS 1 = –E( 2 (– n)) = n/2, I() = –E d si ha 1/I() = 2/n che è uguale alla varianza di X . Inoltre X è consistente in senso forte per ; poiché la consistenza forte implica quella debole, X è anche consistente in senso debole per . Stima di 2 con nota La funzione score è data da S(2) = – n 2 2 + n 1 2 4 i 1 1 (xi – )2 = 0 ~ 2 = n n i 1 (xi – )2 = s*2* . Questo significa che lo stimatore di massima verosimiglianza di 2 è ~ 2 = S*2* = 1 n n (Xi – )2, i 1 detta varianza campionaria con nota. Come già visto nel Cap. 2 la distribuzione campionaria di 2 n n~ 2 nS*2* Xi 2 2 i 1 è di tipo Chi-quadrato con n gradi di libertà n2 la cui media e varianza sono rispettivamente pari ad n e a 2n, cioè nS 2 E *2* = n da cui deriva: E ~ 2 =E( S *2* ) = 2 nS 2 Var 2** = 2n, Var( ~ 2 ) =Var( S *2* ) = 24/n. Pertanto la varianza campionaria ~ 2 = S *2* è uno stimatore corretto e sufficiente n di 2 perché basato sulla statistica sufficiente X i ed il più efficiente 2 i 1 nell’ambito degli stimatori corretti come si verifica facilmente attraverso il computo del limite fissato dalla disuguaglianza Cramér-Rao. 193 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima = –E( dS 2 I( ) = –E 2 d 2 n 2 4 – n 1 2 6 (xi – )2) = – i 1 n 2 4 + n 4 = n 2 4 da cui 1/I(2) = 24/n che è uguale alla varianza di ~ 2 . Inoltre, ~ 2 = S 2 è consistente in senso forte per 2, dato che ** Lim EQM n2 LimVar n2 Lim n n n 2 4 0. n Poiché la consistenza forte implica quella debole, ~ 2 = S *2* è anche consistente in senso debole per 2. Stima congiunta di e2 Nel caso in cui si voglia stimare la varianza, ma non è noto il valore assunto da , non si può procedere come indicato al punto precedente poiché nell’espressione ~ 2 = S 2 = ** 1 n n (Xi – )2 è presente che non è noto e che non interessa ai fini della stima di 2. i 1 Il parametro incognito e non di interesse ai fini della stima viene detto parametro di disturbo; disturbo che può essere facilmente eliminato procedendo ad una sua stima che pur non interessando direttamente è strumentale all’obiettivo che si vuol perseguire che è, appunto, quello della stima di 2 . Piuttosto che trattare questo problema, facilmente risolvibile se si considera quanto detto ai due punti precedenti, si procede alla risoluzione del problema della stima congiunta di entrambi i parametri e 2 . Se entrambi i parametri e 2 sono incogniti, le funzioni score eguagliate a zero per i due parametri sono quelle considerate in precedenza: s() = s(2) = – 1 2 n 2 2 + n ( xi – n) = 0, i 1 n 1 2 4 (xi – )2 = 0. i 1 risolvendo il sistema rispetto ai due parametri incogniti si ottengono le stime: 1 ~ = x = n n xi ~ 2 = i 1 1 n n i 1 (xi – x )2 = s*2 . Gli stimatori di massima verosimiglianza di è di 2 sono quindi 1 ~ = X = n n i 1 Xi 1 ~ 2 = S *2 = n cioè, la media campionaria e la varianza campionaria. 194 n i 1 (Xi – X )2, Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima n Le statistiche n Xi e i 1 i 1 X i2 (e qualsiasi altra trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per e 2 (per verificare tale risultato basta n svolgere il quadrato nel termine (xi – )2 e operare le relative somme). Di i 1 conseguenza ~ = X e ~ 2 = S *2 sono stimatori congiuntamente sufficienti, essendo funzione di statistiche congiuntamente sufficienti. Per quanto detto nel Cap. 2, risulta che: a) le due v.c. X e S *2 sono fra loro indipendenti; b) X è una stima corretta di mentre S *2 è una stima distorta di 2 ; inoltre, la v.c. nS *2 2 Xi X n = i 1 2 ha distribuzione del tipo chi-quadro con n-1 gradi di libertà n21 . Per le proprietà della v.c. Chi-quadrato n S2 E 2* = n – 1 n S2 Var 2* = 2(n – 1) da cui E( S *2 ) = n 1 2 n Var ( S *2 ) = 2 4 n 1 n2 . Essendo S *2 uno stimatore distorto di 2, il teorema di Cramér-Rao non si applica perché viene a cadere una delle ipotesi fondamentali dello stesso. Comunque, poiché EQM( S *2 ) = 4 (2n – 1)/n2 tende a 0 per n → ∞, S *2 è uno stimatore consistente in senso forte. Dato poi che la consistenza forte implica quella debole, S *2 è anche consistente in senso debole per 2. Inoltre, per quanto esposto nel capitolo precedente, è invece stimatore corretto di 2 la varianza campionaria corretta S2 = 1 n (Xi – X ). n 1 i 1 Poiché la v.c. n 1 S 2 = n S *2 2 X X = i 2 2 i 1 ha distribuzione di tipo chi-quadro con n-1 gradi di libertà con media e varianza n 1 S 2 E 2 = n – 1 n n 1 S 2 Var 2 ne risulta 195 = 2 (n – 1), Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima E(S2) = 2 Var (S2) = 24/(n – 1). Lo stimatore (non di massima verosimiglianza) S2 è, quindi, uno stimatore corretto e sufficiente di 2 ma non raggiunge il limite di Cramér-Rao sopra individuato 1/I(2) = 24/n che è inferiore alla varianza dello stimatore S2 che è pari a 24/(n-1). La differenza rispetto al limite di Cramér-Rao è, comunque, esigua e diminuisce rapidamente al crescere di n. Infine, risulta facile verificare che S2 è uno stimatore consistente in senso forte, e, quindi, anche in senso debole, di 2. V.C. Gamma La log-verosimiglianza della v.c. Gamma con parametri e è data da l(, ) = n log f(xi; , ) = i 1 n i 1 x i 1 1 log xi e che dopo alcune semplificazioni diviene n l , n log n log 1 log xi i 1 1 n x i 1 i Per ricavare le stime di massima verosimiglianza di e occorre derivare rispetto ad entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0. s() = – n log – n s() = – n ' + + 1 2 n log xi = 0, i 1 n xi = 0. i 1 Dalla seconda relazione si ricava in funzione di , tuttavia, sostituendo tale risultato nella prima equazione, la funzione gamma ivi coinvolta non consente la derivazione analitica di , il che significa che non si possono derivare analiticamente le stime di ~ massima verosimiglianza ~ e anche se, osservando la formula della logn verosimiglianza si conclude che le statistiche i 1 n log xi e xi (e qualsiasi altra i 1 trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per e . Di ~ conseguenza, anche se non si riesce a ricavare l’espressione analitica di ~ e , tali stimatori esistono e sono stimatori congiuntamente sufficienti. Questa situazione, apparentemente anomala, si incontra in realtà nella generalità dei casi; infatti, solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono di esplicitare analiticamente la formula degli stimatori, di ricavarne l’esatta distribuzione campionaria e di derivare il valore degli indici caratteristici quali media, varianza e EQM. Quando non è possibile derivare l’espressione analitica degli stimatori di massima 196 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima verosimiglianza si procede, usualmente, alla massimizzazione della verosimiglianza tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in corrispondenza del massimo per approssimazioni successive iniziando da un punto di partenza (starting point). 3.2.3 Proprietà degli stimatori di massima verosimiglianza Da quanto visto ai punti precedenti, gli stimatori di massima verosimiglianza cui si è pervenuti godono di buone proprietà. Ci si deve ora domandare se in tutte le situazioni (per tutti i modelli) è possibile pervenire agli stessi risultati, la risposta non è affermativa: le proprietà degli stimatori di massima verosimiglianza, per campioni di dimensione finita, vanno valutate caso per caso, anche se, generalmente, tali stimatori godono di buone proprietà che vengono di seguito richiamate. Invarianza - Si dimostra che se è lo stimatore di massima verosimiglianza di allora g( ) è lo stimatore di massima verosimiglianza di g(). In altri termini per stimare tramite massima verosimiglianza una qualche trasformazione di un parametro già stimato basta prendere la stima precedente e trasformare questa allo stesso modo. Ad esempio: nel modello normale la stima di massima verosimiglianza di è la radice quadrata di ~ 2 ; oppure nel modello di Poisson la stima di massima verosimiglianza di ~ 1/ è 1/ . Sufficienza - Se esistono delle statistiche sufficienti allora gli stimatori di massima verosimiglianza sono funzione di questi e pertanto sono stimatori sufficienti. Questa proprietà è una conseguenza del criterio di fattorizzazione; infatti se esistono stimatori sufficienti allora la logverosimiglianza è la somma di due componenti, una dipende solo dal parametro e dalle statistiche sufficienti, l’altra solo dal campione Efficienza “per campioni finiti” - Si dimostra che se esiste uno stimatore corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della massima verosimiglianza individua “automaticamente” tale stimatore. Efficienza asintotica - Si dimostra che sotto condizioni molto generali di regolarità, lo stimatore di massima verosimiglianza è asintoticamente (cioè per n → ∞) efficiente, cioè: - è asintoticamente corretto lim E( n ) = ; n - la sua varianza tende al limite di Cramér-Rao che a sua volta tende a 0 lim Var ( n ) = dove I ; indica l’informazione di Fisher; n - poiché di norma tende a 0 per n → ∞ ne deriva come conseguenza la consistenza in senso forte e quindi anche in senso debole. 197 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Normalità asintotica - Si dimostra che n I n lim n pertanto, per N 0,1 sufficientemente elevato n n ha distribuzione approssimativamente normale con media il vero valore di e varianza pari al limite inferiore di Cramér-Rao, in simboli n ≈ N[, 1/I()]. Per caratterizzare le ultime due proprietà asintotiche è stato introdotto l’acronimo BAN(E) (Best Asymptotically Normal Estimator) o anche CAN(E) (Consistent Asymptotically Normal Estimator). 3.2.4 Altri metodi di stima Oltre al metodo di stima della minimizzazione dell’EQM e della massima verosimiglianza, molti altri metodi di stima sono stati proposti in letteratura: il metodo dei momenti, il metodo della minima distanza, il metodo del minimo 2 ecc. In seguito si parlerà diffusamente del solo metodo dei minimi quadrati (minimizzazione dell’EQM nella classe ristretta degli stimatori lineari e corretti), nei punti seguenti si procederà, invece, ad una sintetica illustrazione degli altri metodi richiamati. Metodo dei momenti Se con r E[ X r ] si indica il momento r-esimo di una v.c. X, la cui funzione di densità o di massa di probabilità f x; e 1 ,2 ,....,k , nella generalità dei casi r E[ X r ] è funzione nota dei k parametri r r 1 ,...,k . Dato che il corrispondente 1 momento campionario risulta essere M r X r , si impongono le k relazioni di n uguaglianza (momenti empirici = momenti teorici) M r r 1 ,..., k con r = 1,…, k ne risulta, quindi, un sistema di k equazioni in k incognite che risolto (quando possibile) fornisce la stima dei momenti ˆ1 ,...,ˆk dei k parametri incogniti 1,2 ,....,k . ' Esempio 3.1 Sia X 1 ,...,X n un campione casuale da una distribuzione con media μ e varianza σ2. Siano 1 , 2 , 2 . Stimando i parametri con il metodo dei momenti le equazioni cui si perviene sono: , M 1 1 , 2 M2 2 2 198 2 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima e la soluzione è: ˆ x ˆ 2 1 n xi x n i 1 2 Esempio 3.2 Sia X 1 ,...,X n un campione casuale da una distribuzione di Poisson con parametro λ. Poiché un solo parametro caratterizza la distribuzione, allora il metodo dei momenti suggerisce banalmente la seguente soluzione: ˆ x Il metodo dei momenti, seppur ragionevole, non è in generale un buon metodo per la derivazione degli stimatori; infatti, nei casi in cui applicando il metodo dei momenti si ottengono stimatori con buone proprietà, allo stesso risultato si può usualmente pervenire attraverso l’impiego di un diverso metodo di stima. Al riguardo, si deve comunque segnalare che, in talune situazioni, è l’unico metodo applicabile. Metodo del minimo chi-quadro Sia X1,..., X n un campione casuale estratto da una densità f ( x; ) , e sia S1 ,..., S k una partizione del campo di variazione di X. La probabilità p j ( ) che un’osservazione appartenga all’intervallo S j della partizione è data da p j ( ) f ( x; ) dx . Si indichino con Nj il numero di Xi che cadono Sj k nell’intervallo S j (ovviamente con n N j ), e si costruisca la sommatoria j 1 k [n j n p j ( )]2 j 1 n p j ( ) 2 dove nj è il valore osservato di Nj. Il numeratore dei termini della sommatoria altro non è che il quadrato dello scarto tra il numero osservato e quello atteso di determinazioni che cadono nell’intervallo Sj. La stima del minimo chi-quadro di θ è il valore ˆ che minimizza 2 . È, cioè, quel valore di che, mediamente, rende il numero atteso di osservazioni nell’intervallo S j “più vicino possibile ” al numero realmente osservato. Il metodo risente, ovviamente, dell’arbitrarietà della partizione S1 ,..., S k adottata. Esempio 3.3 Sia X 1 ,...,X n un campione casuale da una distribuzione di Bernoulli di parametro p. Poiché il campo di variazione di X consiste unicamente nei due valori 0 e 1 allora, 1 2 j 0 [n j n p j p ] 2 n p j p [n 0 n(1 p)] 2 [n1 np] 2 n(1 p) np [n n1 n(1 p)] 2 [n1 n p] 2 [n1 n p] 2 1 n(1 p) np n p (1 p) 199 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Dato che 2 0 , in questo caso si può individuare il minimo in modo diretto osservando che 2 0 se pˆ n1 n . Si osservi che in questo esempio la partizione S1 ,..., S k poteva essere scelta in un unico modo, e che lo stimatore trovato è lo stesso di quello che si sarebbe ottenuto col metodo dei momenti o con quello della massima verosimiglianza. Poiché può risultare difficile individuare il punto di minimo di 2 , si preferisce talvolta sostituire il denominatore n p j p direttamente con il valore osservato n j , ottenendo il cosiddetto chiquadro modificato. La stima del minimo chi-quadro modificato è allora quel ˆ che minimizza il 2 modificato. Metodo della minima distanza Sia X 1 , X 2 ,..., X n un campione casuale estratto dalla distribuzione F ( x; ) , e sia d(F,G) una funzione che misura la distanza che intercorre tra due funzioni di ripartizione F e G (ad esempio, d ( F , G) sup F ( x) G( x) misura la massima distanza verticale tra F e G). x La stima di minima distanza di θ è quel valore tra tutti i possibili in che minimizza d ( F ( x), Fn ( x)) dove Fn (x) è la funzione di ripartizione campionaria o empirica. Lo stimatore di minima distanza è intuitivamente attraente ma è spesso di difficile derivazione essendo problematico minimizzare d ( F , Fn ) sup F ( x) Fn ( x) . x Esempio 3.4 Sia X 1 ,...,X n un campione casuale da una distribuzione di Bernoulli di parametro p. Allora, F ( x; p) (1 p) I [0,1) ( x) I [1,) ( x) Sia nj = numero di osservazioni uguali a j (j = 0,1). Allora n0 I [ 0,1) ( x) I [1, ) ( x) n Se si usa la funzione di misura della distanza d ( F , G) sup F ( x ) G( x ) Fn ( x; p) x d ( F ( x), Fn ( x)) risulta minimizzata per 1 pˆ n0 n ˆ 1 . , cioè p n n 3.3 - Stima statistica di intervallo (intervalli di confidenza) Nelle pagine precedenti è stato considerato il problema della scelta del “migliore” stimatore puntuale di uno o più parametri incogniti , sulla scorta di un campione di osservazioni. E' stato detto che se il metodo di stima adottato possiede, nell'universo dei campioni, determinate proprietà, si può presumere che il valore effettivo ottenuto sia “abbastanza prossimo” al valore incognito che si vuol stimare. Comunque un singolo numero non dà nessuna indicazione sulle probabilità che la stima ottenuta assuma un 200 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima valore prossimo al vero valore del parametro incognito. Con il metodo di stima di intervallo si supera questo inconveniente, infatti, la sua applicazione fornisce informazioni sia sul valore numerico del parametro incognito che sul grado di attendibilità (intesa in senso probabilistico) della stima stessa. La procedura della stima mediante intervalli (di confidenza) consiste nella determinazione, sulla scorta delle informazioni campionarie, di due statistiche L1 (limite inferiore) e L2 (limite superiore) in modo da soddisfare la relazione P (L1 L2) = 1 - per 0 < < 1 dove L1 = T1(X1,X2,…,Xn) e L2 = T2(X1,X2,…,Xn) (L1 < L2) sono, nell'universo dei campioni, variabili casuali in quanto funzioni degli n elementi campionari, e (1-) (usualmente pari a 0,95, 0,99 e 0,999) è il così detto livello di confidenza. Un livello di confidenza ad es. pari a 0,95 sta ad indicare che su 100 campioni 95 generano intervalli che includono il vero valore del parametro incognito. Evidentemente nelle situazioni reali si disporrà di un solo campione, e quindi di una sola determinazione l1 ,l 2 , dell'intervallo casuale di confidenza L1 , L2 , che potrà essere uno dei 95 sui 100 includenti o uno dei 5 su 100 che non lo includono. Pertanto, relativamente all’intervallo l1 ,l 2 non si potrà dire che lo stesso ha probabilità 1- di contenere al suo interno il vero valore del parametro incognito , o lo contiene, allora la probabilità è pari ad 1, o non lo contiene, allora la probabilità è 0; da tale constatazione deriva anche la dizione, per 1- , di livello di confidenza e non di livello di probabilità. Ogni intervallo di stima risulta, quindi, caratterizzato da due elementi essenziali: 1. l’affidabilità o attendibilità, misurata dal livello di confidenza; 2. l’informatività, misurata dall’ampiezza dell’intervallo. Ovviamente, l’obiettivo da perseguire è quello dell’individuazione di intervalli molto affidabili ma di ampiezza modesta. Purtroppo, livello di confidenza e ampiezza dell'intervallo sono in relazione diretta; cioè, all'aumentare dell'attendibilità della stima (di intervallo) aumenta anche la sua ampiezza e, quindi, diminuisce la sua capacità informativa. Non sarà quindi possibile, nella determinazione di un intervallo di stima, perseguire il duplice obiettivo di massimizzazione del livello di confidenza e di minimizzazione dell’ampiezza dell’intervallo. Un modo per ridurre l'ampiezza degli intervalli, a parità di livello di confidenza (o aumentare il livello di confidenza a parità di ampiezza degli intervalli) è naturalmente quello di aumentare la dimensione del campione. L’ultima considerazione svolta suggerisce una possibile via operativa per il perseguimento simultaneo del duplice obiettivo: si fissano a priori, sia il livello di confidenza sia l’ampiezza massima dell’intervallo, per poi procedere alla determinazione della dimensione campionaria necessaria e che consente il perseguimento del duplice obiettivo. Comunque, la procedura usualmente seguita è quella basata sulla fissazione del livello di confidenza 1- con la conseguente individuazione dell’intervallo di ampiezza 201 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima minima (intervallo ottimale). Verranno considerati ora alcuni problemi specifici di determinazione degli intervalli di confidenza. Si segnala in proposito che la procedura seguita è quella basata sull’elemento pivotale, dove per elemento pivotale s’intende una qualunque funzione degli elementi campionari e del parametro incognito di interesse la cui distribuzione campionaria è completamente nota, ed essendo completamente nota non può dipendere da il cui valore è incognito; in altre parole, l’elemento pivotale dipende da ma non dipende da la sua distribuzione. Quanto affermato può essere espresso dalla definizione che segue. Definizione 9 (Elemento pivotale): Sia X una v.c. con funzione di massa o di densità f(x; ), dove Θ , e sia X = (X1, …, Xn) un campione casuale semplice bernoulliano estratto da X. Allora un pivot (o cardine) è una quantità Q( X ; ) che possiede le seguenti caratteristiche: 1. è funzione del campione X = (X1, …, Xn); 2. è funzione di (il parametro di cui si vuol trovare l’intervallo di confidenza); 3. non contiene altri parametri incogniti oltre a ; 4. la sua distribuzione è completamente nota; 5. è invertibile rispetto a . La procedura per la determinazione di un intervallo di confidenza attraverso il metodo dell’elemento pivotale si articola nei passi sotto riportati: 1. si individua un pivot Q( X ; ) per il problema in analisi; nella generalità dei casi, la via più facile per individuare l’elemento pivotale è quella che prende avvio da 2. 3. 4. uno stimatore puntuale ̂ , se possibile ottimale, del parametro incognito rispetto al quale si vuol determinare l’intervallo di confidenza; si fissa il livello di confidenza 1–; si determina l’intervallo di ampiezza minima (il più informativo) [c1, c2] all’interno del quale il pivot è compreso con probabilità pari al livello di confidenza scelto, cioè P[c1 Q ( X ; ) c2] = 1–; si inverte la relazione c1 Q( X ; ) c2 rispetto a in modo da ricavare l’intervallo di confidenza cercato per , che quindi soddisferà P[L1( X ) L2( X )] = 1–. 3.3.1 Intervallo di confidenza per la media di una variabile casuale normale con varianza nota. Sia x1, x2,...,xn, una specifica determinazione di un campione casuale X X 1 , X 2 , ... , X n estratto da una popolazione distribuita normalmente con media µ ' 202 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima incognita e varianza σ 2 nota; si voglia determinare un intervallo di confidenza per la media µ. La variabile media campionaria 1 n X Xi n i 1 ha, nell'universo dei campioni, distribuzione normale con media µ e varianza σ 2 /n . La variabile standardizzata della X X - ~ N 0,1 / n è elemento pivotale in quanto funzione degli elementi campionari, del parametro incognito ed ha una distribuzione normale , completamente nota, di media 0 e varianza pari ad 1; si potranno, allora, sulla scorta delle tavole della distribuzione normale standardizzata, determinare due valori c1 e c2 tali che P (c1 Z c2) = 1- si scelgono per c1 e c2 valori simmetrici, cioè c2 = - c1 = c = z α 2 , comportando questi Z valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e dell’accentramento dei valori intorno alla media della distribuzione normale. Per tali motivi, l’intervallo ottenuto è quello più informativo. In tal caso, per quanto detto in precedenza, se si scegliesse ad esempio, = 0,05 si avrebbe c1= - z 2 = -1,96 e c2 = z 2 = 1,96. L'uguaglianza sopra scritta è perfettamente equivalente alla relazione P X -z 2 / n X z 1- X 1,96 / n 0,95 2 / n Per = 0,05 si avrebbe quindi l'intervallo di confidenza P X -1,96 / n Esempio 3.5 Il peso medio alla nascita relativo ad un campione di 200 animali è risultato pari a 0,824 grammi. Sapendo che lo scostamento quadratico medio della variabile (approssimativamente normale) peso alla nascita è gr. 0,042, si vogliono determinare gli intervalli di confidenza (ai livelli del 95% e del 99%) per l'indice caratteristico µ (peso medio). Applicando la formula sopra riportata si ha P X 1,96 0,042 / 200 203 X 1,96 0,042 / 200 0,95 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima e quindi l'intervallo 0,8182 μ 0,8298 Per = 0,01 si ha P X - 2,58 0,042 / 200 X 2,58 0,042 / 200 0,99 e quindi l'intervallo 0,8153 µ 0,8317 Si noti come all'aumentare del livello di confidenza sia cresciuta, di conseguenza, l'ampiezza dell'intervallo, e come questa diminuirebbe (a parità di livello di confidenza) se si aumentasse la numerosità del campione. 3.3.2 Intervallo di confidenza per la media di una variabile casuale normale con varianza incognita. Se ci si trova nella situazione espressa nel punto precedente, supponendo però incognita la varianza, l'intervallo di confidenza sopra individuato non potrà più essere utilizzato; infatti, nei due limiti, inferiore e superiore, dell'intervallo compare lo scostamento quadratico medio incognito della popolazione (parametro di disturbo). Il problema della determinazione dell'intervallo di confidenza può essere risolto sostituendo, allo scostamento quadratico medio incognito una sua stima campionaria. Se si stima mediante la formula 2 1 n Xi X n 1 i 1 S la variabile casuale X- μ ~ tn 1 S / n ha una distribuzione del tipo t di Student con n - 1 gradi di libertà. Infatti, per quanto detto nelle pagine precedenti, tale variabile resta definita dal rapporto tra la variabile X-μ casuale normale standardizzata Z e la radice della variabile casuale 2 divisa σ / n V n X X 2 n 1 S 2 / (n 1) S2 . σ2 σ2 σ2 La variabile V sopra definita è elemento pivotale in quanto funzione degli elementi campionari, del parametro incognito ed ha distribuzione campionaria completamente nota. per i rispettivi gradi di libertà Y i 1 i 204 / (n 1) Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima Mediante l'uso delle tavole si potranno allora determinare due valori c 1 e c2 tali che P (c1 V c2) = 1 - Se si sceglie un intervallo simmetrico, cioè c2 = - c1 = c = tα 2 , comportando questi valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e dell’accentramento dei valori intorno alla media della distribuzione t di Student, seguendo lo schema di ragionamento adottato sopra, si ha P X -t S/ n 2 μ X t 2 S/ n 1- dove, naturalmente, il valore numerico di c dovrà essere individuato sulle tavole della distribuzione t in corrispondenza del prefissato livello di confidenza 1- e degli n -1 gradi di libertà. Esempio 3.6 Avendo somministrato ad un campione casuale di cavie una particolare dieta, dalla nascita fino all'età di tre mesi, ed avendo riscontrato i seguenti incrementi nel peso: 55, 62, 54, 57, 65, 64, 60, 63, 58, 67, 63 e 61 grammi; si vuol determinare un intervallo di confidenza, al livello del 95%, relativamente all'incremento medio di peso. Attribuendo al caso le differenze riscontrate negli aumenti di peso, si potrà presumere normale la popolazione teorica di tutte le cavie sottoponibili a quella particolare dieta. In questo caso l'intervallo simmetrico di confidenza può essere derivato dall'uguaglianza. P X -t /2 S/ n X t /2 S/ n 1- dove, rispetto alla formula sopra definita, è stato sostituito al simbolo c il simbolo tα/ 2 per indicare che si sta trattando di un intervallo simmetrico il cui livello di confidenza è pari a 1 e che la distribuzione campionaria di riferimento è la t di Student. Sulle tavole della distribuzione t , in corrispondenza di 12 - 1 = 11 gradi di libertà e per = 0,05 si trova t /2 t0,025 2,20 ( dove 2,20 è il valore che soddisfa la relazione P(t 2,20) = F (2,20) = 0,975) si avrà allora P X -t /2 S / 12 X t /2 S / 12 1- Poiché la stima della media e della varianza corretta dell'incremento medio di peso riscontrato nelle dodici cavie sono rispettivamente pari a 60,75 e 16,38 risulta l'intervallo di confidenza 60,75 - 2,20 16,38 12 60,75 2,20 16,38 12 cioè 58,17 µ 63,32. 3.3.3 Intervallo di confidenza per la varianza di una variabile casuale normale con media incognita Se si vuol procedere alla determinazione di un intervallo di confidenza per la varianza di 205 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima una variabile casuale normale con media incognita si consideri la variabile casuale n Xi X (n 1 )S 2 V 2 σ σ i 1 2 ~ n21 che ha nell’universo dei campioni distribuzione del tipo 2 con n-1 gradi di libertà. Si tratta, quindi, di elemento pivotale essendo completamente nota la sua distribuzione e dipendendo solo dai valori campionari e dal parametro incognito di interesse 2. Pertanto, utilizzando i valori riportati nelle tavole della distribuzione 2 si potranno determinare due valori c1 e c2 per i quali è soddisfatta la relazione Pc1 V c2 1 α . Anche se l’intervallo che ne risulta non è di lunghezza minima, essendo la distribuzione 2 non simmetrica, c1 e c2 vengono scelti usualmente in modo simmetrico c1 12 / 2 , c2 2 / 2 dove i simboli χ 1α / 2 e χ α / 2 stanno ad indicare i valori della variabile casuale 2 che hanno, rispettivamente, l’/2% dei casi a sinistra e l’/2% dei casi a destra. L’intervallo sopra scritto diventa (n 1) S 2 Pχ 12α/ 2 χ α/2 2 1 α 2 σ che è perfettamente equivalente all’intervallo (n 1 )S 2 P 2 χ α/ 2 σ2 (n 1 )S 2 1 α χ12α/ 2 3.3.4 Intervallo di confidenza per la media di una variabile casuale con legge di distribuzione arbitraria. I metodi per la derivazione degli intervalli di confidenza illustrati, si riferiscono a campioni estratti da popolazioni aventi distribuzione normale; ragionamento analogo può essere fatto nel caso della distribuzione bernoulliana, della distribuzione di Poisson, ecc. Sembra naturale però chiedersi come determinare gli intervalli di confidenza relativi a parametri caratteristici di interesse quando non è nota la forma della distribuzione della popolazione cui si riferisce il campione di osservazioni disponibile. Se esistono le condizioni richieste dal teorema del limite centrale, nel caso in cui il parametro d'interesse è la media, la risposta è immediata; infatti, in tale situazione, la media campionaria avrà una distribuzione approssimativamente normale, potrà allora essere applicata la metodologia esposta nelle pagine precedenti. Ad esempio, se con X si indica il numero di successi osservabili in corrispondenza di un esperimento casuale replicato n volte, la variabile casuale X ha distribuzione binomiale, si potrebbe, pertanto, procedere alla determinazione degli intervalli di confidenza facendo, eventualmente, ricorso alle tavole della distribuzione binomiale. Ma, come già segnalato nelle 206 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima pagine precedenti, la variabile Z X np npq N 0,1) per n abbastanza grande, dove naturalmente p è la misura delle probabilità di successo, ha una distribuzione approssimativamente normale con media 0 e varianza 1; quindi, per n abbastanza grande, la variabile X ha distribuzione approssimativamente normale con media n p e varianza n p q . Si ricorda in proposito che l'approssimazione è tanto migliore quanto più p è prossimo al valore 0,5. Per quanto sopra detto, utilizzando le tavole della distribuzione normale, risulta facile determinare il valore che soddisfa la relazione P ( - c Z c) = 1 - dove è un prefissato livello di confidenza. Infatti: X np 2 P ( - c Z c) = P (Z c ) = P c2 np 1 p 2 2 P (n c2 ) p 2 (2 X c 2 ) p X 2 / n 0 1 Essendo positivo il coefficiente n + c2 della disuguaglianza (n + c2) p2 - (2X + c2) p + X2/n < 0 ne deriva che essa risulterà soddisfatta per valori di p interni all'intervallo p1 , p2 ; dove p1 e p2 indicano le soluzioni dell'equazione di secondo grado (n + c2) p2 - (2X + c2) p + X2/n = 0 L’uguaglianza sopra scritta risulta pertanto equivalente alla relazione P (p1 p p2) = 1- Se oltre ad n anche X ed (n - X) assumono valori sufficientemente elevati, le quantità p1 e p2 potranno essere derivate più semplicemente, ma in modo approssimato dalle uguaglianze p1 X zα 2 n X n n - X n n ; p2 X zα 2 n X n n - X n n Esempio 3.7 In una certa stazione sperimentale sono stati osservati 550 germogli di pisello, 420 dei quali presentavano colorazione verde (carattere dominante) mentre i rimanenti 130, colorazione gialla (carattere recessivo). Si vuol determinare un intervallo di confidenza, al livello del 95%, per la percentuale p di piselli verdi. Essendo n = 550 piuttosto elevato si potrà ricorrere all'approssimazione normale; dalle tavole di tale distribuzione risulta, come noto, che c = 1,96 è il valore che soddisfa l'uguaglianza P ( - c Z c) = 0,95 quindi 207 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima p1 p2 2 420 1,96 2 2 420 1,96 4550 1,96 420 2550 1,96 2 2 2 2 / 550 0,72637 / 550 0,79724 2 2 420 1,96 2 2 420 1,96 4550 1,96 420 2550 1,96 2 2 2 2 2 pertanto l'intervallo di confidenza sarà 0,73 p 0,80 Qualora fossero state applicate le formule approssimate si sarebbe ottenuto p1 = 0,7263 , p2 = 0,7976. 3.3.5 Intervalli simultanei di confidenza per la media e la varianza di una variabile casuale normale Sia x1, x2,...,xn, una specifica determinazione di un campione estratto da una popolazione distribuita normalmente con media µ e varianza σ 2 entrambe incognite; si vogliano determinare intervalli simultanei (regione) di confidenza per la media µ e per la varianza σ 2 . Una prima possibilità di soluzione del problema è quella di utilizzare gli intervalli già determinati in precedenza: per la media µ in presenza del parametro di disturbo incognito σ 2 e per la varianza σ 2 in presenza del parametro di disturbo incognito µ: P X -t α1 2 S/ n X t μ α1 2 S/ n 1 - α1 (n 1 )S 2 (n 1 )S 2 2 P σ 2 1 α2 2 χ1α2 / 2 χα2 / 2 Questa via deve essere esclusa per due ragioni fondamentali: 1. la regione (intervalli simultanei) di confidenza che si ottiene combinando i due intervalli non è ottimale (non è di minima dimensione); 2. i due intervalli casuali non sono indipendenti (presenza in entrambi gli intervalli della v.c. varianza campionaria), quindi, il livello di confidenza 1 1 e 1 2 . congiunto non è uguale al prodotto dei due livelli Se si tiene presente che, nella derivazione dell’intervallo di confidenza per la media, 2 alla mancata conoscenza del parametro di disturbo σ si è sopperito attraverso una sua stima puntuale corretta S2 1 Xi X n 1 208 2 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima nella situazione in esame è forse più ragionevole pensare ad un diverso modo di 2 eliminazione del “disturbo”, ad esempio, facendo ricorso non alla stima puntuale di σ ma ad una stima per intervallo. I due intervalli causali, che risultano anche indipendenti, da prendere in considerazione sono: P X -z α1 2 σ/ n μ X z α1 2 σ/ n 1- α1 (n 1 )S 2 (n 1 )S 2 2 P σ 1 α2 2 χ12α2 / 2 χ α2 / 2 Se ora si considera che: X-μ P z α1 2 z α1 2 1 α1 P z α1 2 σ/ n si ottiene la relazione funzionale (parabola): X - μ 2 2 2 X-μ z α1 2 σ / n 2 z α2 2 σ 2 / n σ 2 n X - μ / z α2 2 2 1 1 che consente di tracciare i confini della regione di confidenza per µ e σ 2 . Nella Fig. 3.2 sono riportati gli intervalli simultanei di confidenza per µ e σ 2 : il rettangolo in grassetto rappresenta la regione di confidenza ottenuta combinando i due intervalli cui si è pervenuti attraverso elaborazioni separate e per la quale non si è in grado di calcolare il livello 1 1 1 1 2 essendo i due intervalli casuali non indipendenti, mentre la determinazione simultanea, non solo consente di calcolare il livello di confidenza 1 1 1 1 2 ma individua anche una regione di confidenza di minore dimensione (quella racchiusa tra i due rami della parabola e le due linee che definiscono l’intervallo di confidenza per la varianza σ 2 ) anche se non è quella ottimale. 209 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima 2 X-μ 2 z 2α 2 σ 2 /n 1 (n 1 )s 2 χ12α2 / 2 s2 (n 1 )s 2 χ α/2 2 x t1 2 s / n x x t1 2 s / n Fig. 3.2 – Intervalli simultanei di confidenza per la media e la varianza di una distribuzione normale 3.3.6 Intervallo di confidenza per la differenza fra medie e tra proporzioni Partendo da considerazioni analoghe a quelle fatte nelle pagine precedenti, risulta facile verificare che l’intervallo di confidenza simmetrico per la differenza fra le medie x e y di due distribuzioni normali con varianze note x2 e y2 , risulta dall’uguaglianza P X Y c x2 / m y2 / n x y X Y c x2 / m y2 / n 1 dove X e Y sono le medie campionarie, m e n le numerosità dei due campioni casuali supposti indipendenti. La costante c dovrà essere determinata sulla scorta delle tavole della distribuzione normale, in corrispondenza del prefissato livello di confidenza 1- . L’elemento pivotale che ha consentito la derivazione dell’intervallo è: X Y X Y ~ N 0,1 x2 n2 m n Nel caso in cui i due campioni casuali si riferissero a popolazioni normali aventi la stessa varianza incognita 2 , la formula per l’intervallo simmetrico di confidenza, per la differenza fra le medie x e y è 210 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima ( m 1) S x2 ( n 1) S y2 1 1 P X Y c x y mn2 m n ( m 1) S x2 ( n 1) S y2 1 1 X Y c 1 mn2 m n dove X e Y sono le due medie campionarie; S x2 e S y2 le due varianze campionarie (stime corrette di 2); m , n le numerosità dei due campioni. La costante c dovrà essere determinata in corrispondenza di m + n - 2 gradi di libertà, sulla scorta delle tavole della distribuzione t di Student, al prefissato livello di confidenza 1- . L’elemento pivotale che ha consentito la derivazione dell’intervallo è: X Y X Y 2 2 m n X Y X Y 1 1 m n S m 1 S x2 n 1 S y2 2 2 ~ tm n-2 m 1 S x2 n 1 m n 2 dove S m n 2 S y2 Analogamente a quanto detto sopra, l’intervallo di confidenza per la differenza fra proporzioni, qualora i campioni siano numerosi e px , py siano vicini a 0,5, è espresso dalla formula P Pˆx Pˆy c Pˆx (1 Pˆx ) Pˆy (1 Pˆy ) px p y m n Pˆx (1 Pˆx ) Pˆy (1 Pˆy ) ˆ ˆ Px Py c 1 m n dove, al solito Pˆx e Pˆy sono le due proporzioni campionarie; px e py le proporzioni incognite delle popolazioni; m e n le numerosità dei due campioni. La costante c dovrà essere determinata, sulla scorta della distribuzione normale, in corrispondenza del prefissato livello di confidenza 1- . Gli intervalli di confidenza per la somma di medie e di proporzioni, relativamente a situazioni analoghe a quelle sopra esposte, saranno identici a quelli già considerati, a meno del segno (x + y e px + py anziché x - y e px - py). 211 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima 3.3.7 Intervallo di confidenza per la differenza fra medie per dati appaiati Se X ~ N(x, x2 ) e Y ~ N(y, y2 ) sono due v.c. con varianze x2 y2 incognite e si vuole costruire un intervallo di confidenza per xy sulla base dell’evidenza campionaria, l’elemento definito nella sezione precedente non è più pivotale poiché le due varianze x2 e y2 (parametri di disturbo) non sono note. Si può allora pensare di sostituire alle quantità incognite una loro stima ed ottenere la v.c.. X Y x y , S x2 / m S y2 / n dove S x2 e S y2 sono, rispettivamente, le varianze campionarie corrette di X e di Y utilizzate come stimatori di x2 e y2 . Purtroppo, questa v.c., pur non dipendendo da parametri incogniti, non è elemento pivotale non essendo nota la sua distribuzione. Infatti, la v.c. di cui si conosce la distribuzione (t di Student con n+m-2 gradi di libertà) è quella definita dal rapporto tra la v.c. la normale standardizzata relativa alla differenza tra medie e la radice di un 2 divisa per i propri gradi di liberta relativa alla combinazione delle varianze: X Y x y x2 / m y2 / n m 1 S x2 n 1 S y2 2 y2 x m n 2 Ma in questa espressione le due varianze incognite x2 e y2 , che compaiono al numeratore e al denominatore, non si semplificano. Per campioni di dimensioni modeste il problema della determinazione dell’intervallo di confidenza per x y in presenza di due varianze x2 e y2 diverse ed incognite trova la sua soluzione ottimale nel caso in cui le due v.c. X e Y non sono indipendenti, anzi, si presume che la rilevazione dei due caratteri sia stata effettuata sulle stesse unità statistiche (dati appaiati). In tale situazione si avranno a disposizione n coppie di osservazioni xi , yi e si può, pertanto considerare la v.c. V = X – Y che è ancora una v.c. normale (essendo combinazione v E V E X E Y x y e varianza lineare di v.c. normali) con media v2 Var V Var X Var Y Cov X , Y x2 y2 xy . Per la determinazione dell’intervallo di interesse basterà applicare la procedura illustrata in precedenza quando si è trattato della stima di intervallo per la media di una v.c. normale con varianza incognita. Da rilevare che per risolvere il problema non occorre procedere alla stima delle varianze x2 e y2 e della covarianza xy bastando la stima della varianza della v.c. differenza V = X – Y. L’elemento pivotale è 212 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima X Y x y Sv n n 1 n 1 ~ tn 1 dove Sv Vi 2 i 1 1 n 1 n X i 1 Yi i . 2 i Si segnala che trattare con dati appaiati riduce drasticamente il numero dei gradi di libertà che sono pari a n-1 rispetto ai gradi di libertà che si sarebbero avuti (2n-2) nel caso di campioni indipendenti. 3.3.8 Intervallo di confidenza per il rapporto di varianze Se si vuole determinare l’intervallo di confidenza per il rapporto di due varianze x2 e y2 , di popolazioni normali indipendenti con medie x e y incognite, disponendo di m informazioni campionarie su X ed n su Y, basterà fare riferimento all’elemento pivotale rappresentato dalla variabile casuale (m 1) S x2 W 2 x (n 1) S y2 y2 m /(m 1) /(n 1) S S 2 x 2 y 2 y 2 x X i 1 n X /(m 1) 2 i Y Y i 1 i 2 /(n 1) y2 ~ Fm 1,n 1 x2 che ha, nell’universo dei campioni, distribuzione del tipo F di Fisher-Snedecor con m-1 e n-1 gradi di libertà. Si può, pertanto, determinare l’intervallo Pc1 W c2 1 α Anche in questo caso se si scelgono valori di c1 e c2 simmetrici c1 F1α/2 , c2 Fα/2 cioè valori della variabile casuale non simmetrica F che hanno, rispettivamente, l’/2% dei casi a sinistra e l’/2 % dei casi a destra, si otterrà un intervallo non ottimale. Sotto le ipotesi introdotte si ha l’intervallo 2 S2 σ y P F1α/ 2 x2 2 Fα/ 2 1 α Sy σ x che è perfettamente equivalente all’intervallo S y2 σ y2 S y2 P 2 F1α/ 2 2 2 Fα/ 2 1 α S σ x Sx x ed anche S2 1 σ 2 S2 1 P 2x 2x 2x 1 α. S F σ S F y α/2 y y 1 α/2 213 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima 3.4 - Determinazione della numerosità campionaria La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la problematica della scelta della dimensione campionaria. Nelle pagine precedenti è stato sottolineato che un intervallo di confidenza è caratterizzato da due elementi fondamentali: il livello di confidenza, che ne misura l’affidabilità, e l’ampiezza, che ne misura l’informatività. L’obiettivo che si vuol perseguire è quello della determinazione di un intervallo per il quale siano massime sia l’affidabilità che l’informatività; purtroppo, come già detto, fra questi due elementi esiste un legame diretto, nel senso che all’aumentare del livello di confidenza aumenta anche l’ampiezza dell’intervallo, e che quindi non è possibile, contemporaneamente, massimizzare il livello di confidenza e minimizzare l’ampiezza. Pertanto, in presenza di una dimensione campionaria predeterminata, se si vuole incrementare l’informatività si dovrà rinunciare a qualcosa in termini di affidabilità e viceversa. Nelle situazioni in cui la dimensione non è prefissata si può, una volta fissato il livello di confidenza, procedere alla determinazione della dimensione campionaria in modo da ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza prefissata. La procedura da seguire è quella illustrata nelle due esemplificazioni che seguono. Sia X ~ N(, 2 ) e si supponga, in prima istanza, che 2 sia nota. Si vuol determinare la dimensione del campione affinché l’ampiezza dell’intervallo di confidenza per , al livello di confidenza (1 – ), sia pari ad A. Si supponga di voler procedere alla determinazione di un intervallo di confidenza per la media di una popolazione normale la cui varianza è nota prefissando sia il livello di confidenza 1 sia l’ampiezza indicata con A. L’espressione dell’intervallo di confidenza per il caso in esame è già stata individuata ed è P X -z 2 / n X z 2 / n 1- Avendo prefissato sia il livello di confidenza che l’ampiezza dell’intervallo deve valere la relazione: A X z 2 / n X z 2 / n 2 z 2 / n n 4 z2 2 2 / A si ricava n come incognita n = (2 z/A)2, che, dovendo sempre essere un intero, va arrotondato per eccesso. La formula fornisce la dimensione campionaria cercata, nel rispetto dei vincoli prefissati, ma è basata sull’assunto della conoscenza del parametro 2 , circostanza 214 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima questa che si riscontra molto raramente nei contesti operativi; nella generalità dei casi, la varianza 2 è incognita. In tale contesto, per stabilire la dimensione del campione si dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o da un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione ridotta ed il cui unico scopo è quello di pervenire ad una stima della varianza incognita. Come seconda esemplificazione si ipotizzi di voler determinare la dimensione campionaria per un intervallo di confidenza del parametro p relativo ad una v.c. di Bernoulli, , nel rispetto dei vincoli di confidenza ed informatività prefissati. Come già visto, se risulta ragionevole l’approssimazione con la distribuzione normale, l’intervallo di confidenza per il parametro p è: X p 1 p p 1 p X P zα 2 p zα 2 1 n n n n dove X rappresenta il numero delle volte in cui l’evento d’interesse si è verificato in n prove indipendenti. Avendo prefissato il livello di confidenza ( 1 ) e l’ampiezza A dell’intervallo, deve essere soddisfatta l’uguaglianza X zα 2 n da cui deriva A p 1 p n X zα 2 n p 1 p 2zα 2 n p 1 p n p 1 p . n A Relazione che non può essere utilizzata essendo p l’incognita del problema; problema che può, comunque, essere risolto o seguendo le indicazioni fornite nella esemplificazione precedente (informazioni pregresse o indagine pilota), oppure, ed è la procedura usualmente impiegata, ponendo p = (1-p) = 0,5 , valore questo che massimizza l’espressione, cioè il valore di n. Si tratta di un atteggiamento prudenziale che comporta, nella generalità dei casi un sovradimensionamento della numerosità campionaria. n 4 z2 2 Esempio 3.8 Nell’esempio la numerosità del campione, anziché essere fissata a priori, viene determinata in funzione del livello di confidenza e dell'ampiezza dell'intervallo (errore ammesso). Uno sperimentatore, sapendo che lo scostamento quadratico medio del tempo di reazione delle cavie ad un certo stimolo è pari a 0,05 secondi, vuole determinare il numero minimo di cavie da sottoporre ad esperimento affinché, nella stima del tempo medio di reazione, l'eventuale errore non superi 0,01 secondi ai livelli di confidenza del 95% e del 99%. Al livello del 95% i limiti di confidenza sono L1 X 1,96 0,05 n L2 X 1,96 , 215 0,05 n Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 3. Stima dovendo essere soddisfatto il vincolo sull'errore 1,96 0,05 / n 0,01 si avrà n 96,04 Al livello di confidenza del 99% la disuguaglianza relativa all'errore risulta essere 2,58 0,05 / n 0,01 da cui n 166,4 Si può quindi concludere che se lo sperimentatore vuole contenere l'errore, nella stima del tempo medio di reazione, nel limite di 0,01 secondi, dovrà fissare la dimensione del campione a 97, nel caso in cui sia interessato ad un livello di confidenza del 95%; dovrà invece estendere l'esperimento a 167 cavie nel caso in cui porti il livello di confidenza al 99%. 216 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi CAP. 4 – TEST delle IPOTESI Introduzione In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni normali; comunque, la portata generale dei principi enunciati e la logica delle argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni estratti da popolazioni non normali. Argomentazioni diverse devono essere svolte sia nei riguardi dell’impostazione bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non parametrici. È stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i casi si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla scorta delle risultanze campionarie. Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già sottolineato, nel primo caso l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa assunzione (ipotesi) concernente una specifica entità incognita. 4.1 - Verifica di ipotesi statistiche La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati soprattutto i problemi di decisione nei quali all'accettazione o al rifiuto di una certa ipotesi è collegata la scelta di una particolare linea di comportamento. Definizione 1 (Ipotesi statistica). Un'ipotesi statistica è un'affermazione che specifica parzialmente o completamente la legge di distribuzione di una variabile casuale. L'affermazione può riferirsi, sia alla forma funzionale della legge 217 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi di distribuzione sia ai parametri caratteristici, o ai soli parametri caratteristici quando si assuma nota la forma analitica della distribuzione stessa. Se l'ipotesi, usualmente indicata con il simbolo H0 e detta ipotesi nulla o ipotesi di lavoro, specifica completamente la legge di distribuzione della variabile casuale, si dice semplice, nel caso opposto l’ipotesi viene detta composita o composta. Inoltre, se l'ipotesi riguarda i parametri caratteristici di una particolare distribuzione di cui si conosce la forma analitica si parla di ipotesi parametrica; si dice invece non parametrica (o più correttamente distribution free), l'ipotesi statistica che non presuppone nota tale forma. Ovviamente l'ipotesi non parametrica, come generalmente accade, può riguardare sia la forma analitica della distribuzione sia i parametri che la caratterizzano. Ad esempio, se si ipotizza che l'altezza degli italiani adulti di sesso maschile si distribuisce in modo normale con media pari a 1,70 metri e scostamento quadratico medio pari a 0,28 metri, si sta trattando di un’ipotesi statistica semplice (specifica completamente la legge di distribuzione del fenomeno) non parametrica (l'ipotesi riguarda anche la forma della distribuzione). Se invece si dà per acquisito il fatto che l'altezza degli italiani adulti di sesso maschile si distribuisce normalmente, l'ipotesi statistica potrà riguardare i soli parametri caratteristici media e varianza (o lo scostamento quadratico medio ). L'ipotesi sarà semplice, se specifica un preciso valore numerico per i due parametri, ad esempio: l'altezza media è pari a 1,70 metri; sarà invece composita se specifica un insieme di valori, ad esempio: l'altezza media degli italiani adulti di sesso maschile è compresa nell'intervallo (1,68 , 1,72) metri. Definizione 2 (Test di ipotesi). Un test di ipotesi (statistica) è una regola attraverso la quale si decide se accettare o meno l'ipotesi formulata sulla base delle risultanze campionarie. I dati si riferiscono naturalmente alla variabile casuale sulla cui legge di distribuzione è stata formulata l'ipotesi. Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decide di rifiutare l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto campionario cade in C0. 218 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si dice regione di accettazione lo spazio C0. C = Spazio o universo dei campioni C1 = Regione o spazio di rifiuto di H0 ( Regione critica ) C0 = Regione o spazio di . accettazione dell’ipotesi H0 Fig. 4.1 - Bipartizione dell'universo dei campioni È stata introdotta la definizione di un test statistico e non del test statistico, in quanto si intuisce facilmente come la bipartizione dell'universo dei campioni, e cioè la definizione della regione critica, possa essere effettuata secondo criteri o regole differenti che non conducono necessariamente agli stessi risultati. Due differenti test, e cioè due modi diversi di bipartizione dell'universo dei campioni, possono essere posti a confronto attraverso un'analisi del processo logico seguito nella loro formulazione, o più semplicemente, sempre che sia possibile, confrontando le probabilità di commettere degli errori adottando l'una o l'altra procedura per sottoporre a test una stessa ipotesi. Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura: a) rifiutare un'ipotesi nulla quando essa è vera. Si parla in questo caso di errore di I specie o di I tipo; b) accettare un'ipotesi nulla quando essa è falsa. Si parla in questo caso di errore di II specie o di II tipo. Il processo decisionale sopra illustrato può essere schematicamente riassunto nella tavola che segue. 219 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Stato di natura H0 è vera H0 è falsa Azioni Si accetta H0 Si rifiuta H0 Decisione corretta Si commette un errore di I tipo Si commette un errore di II tipo Decisione corretta Tab. 4.1 - Tavola di decisione Quando H0 è un’ipotesi semplice, la probabilità di commettere un errore di primo tipo, e cioè la probabilità di rifiutare un’ipotesi quando essa è vera, è indicata usualmente con . α P X C1 / H 0 dove viene detto livello di significatività del test e X X1 , X 2 ,...., X n rappresenta il punto campionario. La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare un'ipotesi quando essa è falsa, è indicata con β H1 P X C0 / H1 dove H1 H0 , che rappresenta la negazione dell’ipotesi Ho , viene detta ipotesi alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi, completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o è vera l’ipotesi nulla H0 o è vera l’ipotesi alternativa H1; indica, pertanto, la probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione dell’ipotesi alternativa H1. La quantità ( H1 ) = 1 – ß (H1), e cioè la probabilità di rifiutare un'ipotesi quando essa è falsa, viene detta forza o potenza del test relativamente all'ipotesi alternativa H1. Al variare di H1 la ( H1 ) assumerà il carattere di funzione, e viene detta funzione forza del test. Da rilevare che i termini forza e potenza vengono usati come sinonimi e traducono il termine inglese power. Quanto sopra affermato si riferisce al caso d'ipotesi H0 semplice. Nel caso di ipotesi nulla composita, si può definire il livello di significatività come α Sup P X C1 / H 0 H H0 Così posto il problema, si vede chiaramente come la migliore soluzione sia rappresentata da un test capace di minimizzare simultaneamente le probabilità di 220 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire un tale obiettivo, e cioè, non è sempre possibile individuare un test capace di minimizzare contemporaneamente le due probabilità di commettere errore quando la dimensione del campione sia stata fissata. Si dovrà quindi operare in modo diverso; infatti, come già sottolineato, la procedura che si segue generalmente è quella di fissare il livello della probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di significatività ) e nell'individuare poi il test che minimizza la probabilità di commettere un errore di II tipo. Si potrebbe, più semplicemente, dire che fissato il livello di significatività si cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che ha il valore di ( H1 ) più elevato. 4.1.1 Ipotesi semplici Si è distinto in precedenza le ipotesi sulla forma funzionale della legge di distribuzione della variabile casuale oggetto d'analisi dalle ipotesi sui parametri caratteristici di tale legge (supposta nota). Le ipotesi statistiche sono state ulteriormente distinte in semplici e composite a seconda che le ipotesi stesse specifichino completamente o parzialmente la legge di distribuzione del fenomeno. Nel caso in cui l'ipotesi nulla H0 e l'ipotesi alternativa H1 siano entrambe semplici, lo spazio parametrico Θ , a una o più dimensioni, di definizione dei parametri risulta formato da due soli punti Θ = (, ) Le ipotesi sono H0 : = 0 H1 : = La costruzione di un test si riduce, in effetti, alla bipartizione dello spazio dei campioni C in due sottospazi C0 e C1. Per quanto sopra detto, si vede quindi chiaramente come il miglior test per sottoporre a verifica un'ipotesi H0 sia quello che individua la migliore regione critica C1, dove per miglior regione critica s’intende, appunto, quella che, a parità di livello di significatività, presenta la probabilità di commettere un errore di II tipo più bassa; la regione di accettazione risulterà determinata di conseguenza. In termini formali si può dire che la migliore regione critica C1 (il miglior test) di grandezza ( a livello di significatività) per sottoporre al test l'ipotesi semplice H0 : = contro l'ipotesi alternativa H1 : = è quella che soddisfa le due relazioni P ( X C1 /H0 ) = P ( X C1 /H1 ) P ( X Ci /H1 ) 221 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi dove: X X1, X 2 ,...., X n ' rappresenta il punto campionario, e Ci (i = 2, 3,...) rappresenta ogni possibile regione critica alternativa a C1 tale che P ( X Ci /H0 ) = Un famoso teorema (teorema o lemma fondamentale di Neyman-Pearson) attesta che esiste, ed è sempre possibile individuare, la migliore regione critica nel caso in cui si voglia sottoporre a test un'ipotesi statistica semplice contro un'ipotesi alternativa anch'essa semplice. Teorema 1 (Neyman-Pearson): Sia X una variabile casuale con funzione di massa o di densità di probabilità f (x;) e sia x = (x1, x2,...,xn) un campione casuale di osservazioni su X. Allora la funzione di verosimiglianza del campione sarà espressa da L ; x L ; x1 , x2 ,, xn . Siano 0 e 1 due valori distinti di , K una costante reale positiva e si voglia sottoporre a test l'ipotesi H0 : = 0 contro l'ipotesi alternativa H1 : = 1. Se C1 (regione critica) è un sottospazio dello spazio dei campioni C tale che L θ1 ; x K x C1 L θ0 ; x e di conseguenza C0 = C – C1 (regione di accettazione) consiste nell'insieme di punti campionari tali che L θ1 ; x K x C0 L θ0 ; x dove K viene scelto in modo che la probabilità di commettere un errore di I specie sia pari a P X C1 / H 0 , allora la regione critica C1 presenta la più bassa probabilità d'errore di II specie, tra le regioni critiche che hanno livello di significatività pari ad . Dimostrazione Siano C1 e C1* due regioni di rifiuto dell’ipotesi nulla H0 per le quali valgono le relazioni P X C1 / H 0 P X C1* / H 0 si vuol dimostrare che se C1 risulta definito dalle disuguaglianze sopra riportate allora: P X C1 / H1 P X C1* / H1 si vuole dimostrare, cioè, che il test definito dalla regione C1 è più potente di quello 222 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi definito da una qualunque altre regione critica C1* che abbia lo stesso livello di significatività . Si consideri la differenza tra le probabilità di non commettere un errore di II tipo (potenza) relative alle due regioni critiche: P X C1 / H1 P X C1* / H1 L 1 , x L 1 , x C1 C1 ma C C C C C C1 C1 C C1 C0* C1* C1 C0* C1 C1* C1* C1* C C1* 0 * 1 1 * 1 0 C1 quindi P C P C C P C C P C1 P C1 C0* P C1 C1* * 1 * 1 * 1 0 1 da cui L 1 , x C1 C0* L 1 , x C1 C1* C1 C0* C1* C0 L 1 , x L 1 , x L 1 , x C1* C1 L 1 , x C1* C0 per le due disuguaglianze riportate nell'enunciato del teorema si ha: in C1 L 1 , x K L 0 , x in Co L 1 , x K L 0 , x pertanto C1 C0* L 1 , x C1 C0* C1 C0* K L 0 , x C1 C1* K L 0 , x C1 L 1 , x C1* C0 C1* K L 0 , x C1* C0 K L 0 , x C1* C1 K L 0 , x K L 0 , x C1* C0 K L 0 , x K L 0 , x K 0 P X C1 / H1 P X C1* / H1 0. Bisogna tener presente che, dal punto di vista operativo, quando si procede nella formulazione di un test, lo spazio dei campioni C di riferimento non è lo spazio di variabilità della n-upla X = X 1 , X 2 ,…, X n che costituisce il campione casuale, ma lo spazio di variabilità di una funzione T ( ) di tali valori che assume, pertanto, la natura di variabile casuale test; ad esempio, se = µ , la funzione di compattazione è data dà 1 X = T X 1 , X 2 ,…, X n = n 223 X . n i i=1 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Pertanto lo spazio di riferimento della media campionaria X è lo spazio dei campioni relativo a tale variabile, cioè l'intero asse reale e la sua suddivisione potrà essere del tipo riportato nella figura che segue: Fig. 4.2 - Regione critica e regione di accettazione dell'ipotesi H 0 Tre considerazioni vanno fatte in merito al teorema di Neyman-Pearson: il teorema resta valido qualunque sia il numero dei parametri (purché finito) caratteristici della legge di distribuzione delle probabilità della variabile casuale X; il teorema non richiede esplicitamente l'indipendenza stocastica delle n osservazioni costituenti il campione; nel teorema sono fissate le condizioni necessarie affinché un test sia il più potente ma vengono anche indicate le regole per la derivazione della regione critica. Esempio 4.1 Sia f x; 1 e 2 1 x 2 2 la funzione di densità di probabilità di una variabile casuale X normale di media e varianza 2 1 . Relativamente alle seguenti ipotesi (entrambe semplici) H 0 :θ θ 0 H 1 :θ θ 1 θ 0 si assuma la disponibilità di un campione casuale x = (x1, x2, ...., xn). In queste condizioni si può pervenire alla individuazione della migliore regione critica C 1, cioè alla individuazione del test più potente, facendo ricorso al teorema di Neyman-Pearson. Le funzioni di verosimiglianza sotto le ipotesi H0 e H1 sono 224 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi n L 1; x f ( xi ; 1 ) (2 ) n 2 e n 1 ( xi 1 )2 2 i1 i 1 n f ( x ; ) L 0 ; x i i 1 (2 ) 0 n 2 e n 1 ( xi 0 )2 2 i 1 La migliore regione critica, cioè quella che minimizza la probabilità β H 1 dell'errore di II tipo una volta fissata la probabilità α dell'errore di I tipo, resta individuata dalla disuguaglianza n f ( x ; ) L 1; x L 0 ; x i i 1 n 1 f ( x ; ) i i 1 e n n 1 2 2 ( xi 0 ) ( xi 1 ) 2 i 1 i 1 K 0 dove K è una costante da determinare in funzione di α. Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene n 1 n 2 (x θ ) (xi θ 1 )2 log K i 0 2 i 1 i 1 moltiplicando per 2 i due termini della disuguaglianza si ha n (x θ i 1 i n ) (xi θ 1 )2 2 log K 2 0 i 1 essendo n n n n i 1 i 1 i 1 i 1 n n n n i 1 i 1 i 1 i 1 (xi θ 0 )2 xi2 2θ 0 xi nθ 02 xi2 2 nθ 0 x nθ 02 (xi θ 1 )2 xi2 2θ 1 xi nθ 12 xi2 2 nθ 1 x nθ 12 dove n x n n 1 n x xi i n i 1 i 1 la relazione di disuguaglianza può essere scritta 2 n x θ1 - θ0 + n θ02 - θ12 2 log K ed anche, dividendo per la quantità negativa n 0 1 che inverte il segno di disuguaglianza (si ricordi l'ipotesi 1 < 0) x 2 log K- n θ 02 θ 12 K* 2 n θ 1 θ 0 Poiché X ha, sotto l'ipotesi nulla H0 :θ θ 0 , distribuzione normale con media 0 e varianza 2 = 1/n , sarà facile determinare il valore di K che soddisfa la relazione 225 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi 2 log K - n θ02 - θ12 PX /H 0 = α 2 n θ1 - θ0 In pratica l'operazione si semplifica tenendo presente che il membro di destra della disuguaglianza è una funzione costante di K , basterà allora individuare il valore K* che soddisfa la relazione P X K * /H 0 α od anche X θ 0 K* θ 0 P /H 0 α 1/ n 1/ n il che equivale alla relazione P Z c α dove Z è una variabile casuale normale standardizzata e c K* θ 0 è il punto critico che 1/ n ha alla sua sinistra (regione critica) l' α dei valori della distribuzione. 4.1.2 Ipotesi composite Il teorema di Neyman-Pearson consente di derivare la migliore regione critica soltanto nei casi in cui sia l'ipotesi nulla che quella alternativa sono semplici. Quando H0 o H1, o entrambe le ipotesi sono composite non esiste un analogo teorema. E' stata comunque suggerita, sempre dagli stessi autori, una procedura generale per l’individuazione della regione critica che dà usualmente buoni risultati: il test del rapporto di verosimiglianza. Si dimostra, infatti, che nei casi in cui esiste la migliore regione critica essa viene individuata dal test del rapporto di verosimiglianza. Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP dall’inglese Uniformly Most Powerful), cioè un test che relativamente ad una data ipotesi nulla semplice H0 e per un prefissato livello di probabilità dell'errore di I tipo minimizza la probabilità dell'errore di II tipo, qualunque sia la specificazione della ipotesi alternativa composita H1 , esso è un test del rapporto di verosimiglianza. Il test del rapporto di verosimiglianza può essere definito nei seguenti termini: Definizione 3 (Test del rapporto di verosimiglianza). Si supponga che x = (x1, x2,...,xn) costituisca un campione casuale di una variabile X la cui distribuzione di probabilità sia caratterizzata dal parametro incognito , e si voglia sottoporre a test una ipotesi nulla contro un'ipotesi alternativa (una o entrambe composite). Si indichi con L Θˆ il valore massimo 0 della funzione di verosimiglianza del campione rispetto al parametro il 226 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi cui campo di variabilità è circoscritto dall'ipotesi H0, e si indichi con L Θˆ il valore massimo della funzione di verosimiglianza rispetto a , il cui campo di variabilità riguarda ogni valore specificato dall'ipotesi H0 o H1. Allora la regione critica del test (generalizzato) del rapporto di verosimiglianza è formata da tutti i punti campionari che soddisfano la relazione L Θˆ0 max L θ / θ Θˆ0 K per 0 K 1 R= = θ L Θˆ max L θ / θ Θˆ θ dove K è scelto in modo che la probabilità di commettere un errore di I specie sia uguale ad . Da rilevare che il rapporto sopra indicato non potrà mai superare l'unità; la costante K sarà quindi sempre inferiore o uguale a 1 e potrà essere determinata sulla base della distribuzione probabilistica del rapporto stesso in corrispondenza del livello di significatività prefissato. La distribuzione di R non è sempre facilmente derivabile, in ogni caso si dimostra che, per n abbastanza grande, e se sono soddisfatte certe condizioni generali di regolarità, la variabile casuale W = - 2 log R, ha una legge di distribuzione approssimata del tipo con gradi di libertà, dove rappresenta il numero di vincoli di uguaglianza puntuali sui parametri specificati dall’ipotesi nulla. Nelle pagine successive verranno discusse alcune procedure per sottoporre a test ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del rapporto di verosimiglianza, da sottolineare che l'applicazione di tale test al problema della verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson. 2 4.2 - Test sulla media Per poter verificare delle ipotesi statistiche si deve avere a disposizione un campione di osservazioni che consenta di poter concludere sulla ragionevolezza dell'ipotesi (nulla) formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola ragionevole), altrimenti si procede al suo rifiuto in favore dell'ipotesi alternativa. Molti autori ritengono che piuttosto che concludere per l’accettazione dell’ipotesi nulla si debba parlare più correttamente di non rifiuto dell’ipotesi stessa, la motivazione di un tale atteggiamento risiede nell’impossibilità di derivare, in molte situazioni di ricerca, una misura significatività della probabilità di commettere l’errore di II specie. Si ammetta di poter disporre di un campione di osservazioni x = x1, x2 , ..., xn ' 2 estratto da una popolazione normale di media µ e varianza risolvere i seguenti problemi di test d'ipotesi: 227 incognite, e di voler Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi a) H0 : µ = µ0 H1 : µ = µ1 > µ0 b) H0 : µ = µ0 H1 : µ > µ0 c) H0 : µ = µ0 H1 : µ < µ0 d) H0 : µ = µ0 H1 : µ µ0 Si fissi ora un certo livello di significatività , cioè la misura della probabilità d'errore di I specie che si è disposti a sopportare. L'ipotesi riguarda la media di una distribuzione normale, si sceglie quindi come funzione degli elementi del campione (variabile casuale test) la media campionaria: 1 n X T X 1 , X 2 ,...., X n X i n i 1 Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse reale. La procedura di test consisterà quindi nella suddivisione dell'asse reale in due regioni in modo tale che la probabilità d'errore di I specie sia pari a , cioè in modo che P X C1 / H 0 α dove C1 rappresenta la regione critica. Si è visto in precedenza che la variabile casuale campionaria X- μ T S/ n ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la distribuzione t, con n-1 gradi di libertà anche la variabile casuale X- μ 0 T S/ n Caso a) H0 : µ = µ0 H1 : µ = µ1 > µ0 L'asse reale viene diviso nei due intervalli (- , c) , (c ,+). Il primo degli intervalli specifica la zona di accettazione, il secondo la zona critica. Il valore numerico di c , valore critico del test, si ottiene dalla relazione P ( T > c / µ = µ0 ) = caso b) H0 : µ = µ0 H1 : µ > µ0 In questo caso l'ipotesi alternativa è composita, la procedura di test uniformemente più potente (cioè quella che minimizza la probabilità d'errore di II specie contro ogni 228 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi specificazione delle ipotesi alternative H1) è esattamente identica a quella indicata nel caso precedente. caso c) H0 : µ = µ0 H1 : µ < µ0 L'ipotesi alternativa anche in questo caso è composita ma con segno di disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso precedente. Si dovrà sempre suddividere l'asse reale nei due intervalli (- , - c) ,(- c , +) ma la regione critica è data dall'intervallo (- , - c). Il valore critico si ottiene dalla relazione P ( T < - c / µ = 0 ) = Da sottolineare che nelle due situazioni sopra descritte si applica il test del rapporto di verosimiglianza che individua la migliore regione critica; individua cioè, il test uniformemente più potente; a sostegno di una tale affermazione è sufficiente ipotizzare un’applicazione reiterata del teorema di Neyman-Pearson in corrispondenza a ciascuna specifica dell’ipotesi alternativa: la regione critica individuata è sempre la stessa, ed è quella che minimizza la probabilità dell’errore di II tipo, ovviamente, tale probabilità varierà al variare della specifica dell’ipotesi alternativa. caso d) H0 : µ = µ0 H1 : µ µ0 Nei due casi precedenti sono state considerate ipotesi alternative composite unidirezionali, in questo caso l’ipotesi alternativa composita è bidirezionale. In tale contesto l'asse reale viene suddiviso in tre parti (- , c1) , (c1 , c2) , (c2 , +) , l'intervallo (c1 , c2) costituirà la zona di accettazione, mentre i due intervalli (- , c1) e (c2 , +) costituiscono insieme la zona di rifiuto. Poiché la distribuzione t è simmetrica, si scelgono usualmente i valori di c1, c2 equidistanti dallo 0, cioè c2 = c e c1 =- c . Il valore critico c > 0 si otterrà allora dalla relazione P ( T < -c / µ = µ0 ) = P ( T c / µ = µ0 ) =/2. Evidentemente la procedura indicata non fornisce un test uniformemente più potente; infatti, se il vero valore di µ fosse superiore a µ0, il test più potente sarebbe quello indicato nel caso a); se invece il vero valore di µ fosse inferiore a µ0 il test più potente sarebbe quello indicato nel caso c). Non avendo maggiori informazioni sulle alternative, relativamente all'ipotesi H1: µ µ0, si preferisce attribuire alle due possibilità µ > µ0 e µ < µ0 uguale peso. Da rilevare che il test così ottenuto risulta quello uniformemente più potente nella classe ristretta dei cosiddetti test corretti o non distorti (test UMPU dall’inglese Uniformly Most Powerful Unbiased). Definizione 4 (Correttezza di un test). Un test si dice corretto o non distorto se soddisfa il vincolo , cioè, se la probabilità di non commettere 229 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi un errore di II tipo è sempre maggiore od uguale alla probabilità di commettere un errore di I tipo. Nei quattro casi sopra esaminati si rifiuta l'ipotesi H0 se la specifica determinazione della variabile casuale T cade nella zona critica (zona di rifiuto), si accetta altrimenti. Esempio 4.2 Si supponga di voler risolvere il seguente problema di test d'ipotesi H0 : = 30 H1 : < 30 al livello di significatività = 0,01, disponendo delle informazioni sulla media campionaria x = 26 e sulla varianza campionaria corretta s2 = 36 relative ad un campione di 25 elementi estratti da una popolazione normale. Non essendo nota la varianza della popolazione, la regione critica o regione di rifiuto dell'ipotesi nulla H0 : = 30 si individua facendo riferimento alla variabile casuale t di Student con 25-1 gradi di libertà t dove S x S / X Sx n . Tenendo presente l'ipotesi alternativa H1 : < 30 la regione critica resta quindi individuata dal punto critico - c - t - t0,01 - 2,492 che rappresenta la specifica determinazione della variabile casuale t di Student che ha alla sua sinistra l'1% dei casi. Poiché il valore campionario è t x - x - 26 - 30 - 3,33 sx s / n 6 / 25 si rifiuta l'ipotesi nulla H0 : = 30, al livello di significatività dell'1%. Esempio 4.3 Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35 contro l'ipotesi alternativa che non lo sia, al livello di significatività = 0,01. Il problema di test d'ipotesi da risolvere è H0 :μ 35 H0 :μ 35 Essendo la varianza della popolazione una incognita del problema (parametro di disturbo) si dovrà procedere ad una sua stima utilizzando i dati campionari S2 1 n (xi x )2 n 1 i 1 essendo 230 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi x 1 n 1 8 x xi 30,25 i 8 n i 1 i 1 s2 1 8 (xi 30,25)2 22,21 7 i 1 s s 2 4,71 La determinazione della variabile casuale test che in questo caso, essendo incognita la varianza, è la t di Student, è pari a t xμ x- μ 30,25 - 35 - 2,85 sx s / n 4,71 / 8 Essendo = 0,01 i valori critici della variabile t, con (8-1) =7 gradi di libertà che c1 - tα/ 2 - 3,499 e c2 tα/ 2 3,499 . Il valore definiscono la regione critica sono campionario -2,85 è contenuto nell'intervallo (-3,499 , 3,499), pertanto si accetta l'ipotesi nulla = 35 attribuendo la differenza riscontrata rispetto al valore campionario x 30,25 a fattori di carattere accidentale. Esempio 4.4 Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita per corrispondenza affermano di riuscire ad evadere, mediamente, un ordine di acquisto ogni 13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità, misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività) del 5%? Si deve sostanzialmente verificare se la media rilevata nel campione è più elevata, al livello di significatività del 5%, di quella dichiarata dagli impiegati. Ovviamente, dato che in questo particolare problema è auspicabile che il tempo di evasione di un ordine sia basso, il direttore acconsentirà all’aumento di stipendio solo se il tempo di evasione riscontrato nell’azienda non sia più alto rispetto a quello dichiarato dagli impiegati. Il problema di verifica d'ipotesi è quindi formalizzato nei termini seguenti H 0 : μ 13 H 1 : 13 La variabile casuale test di riferimento t X μ X- μ Sx S/ n ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà. Conviene sottolineare che, in questo specifico esempio, essendo la dimensione campionaria elevata (n = 400) si può fare riferimento alla distribuzione normale quale approssimazione della distribuzione t di student che fornisce un valore critico (test unidirezionale ), per = 231 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi 0,05, pari a 1,65. La regola di decisione è quella di rifiutare l'ipotesi H 0 se il valore assunto (valore empirico) dalla v.c. test nello specifico campione è 1,65, di accettare se il valore empirico è < 1,65. Poiché x 14 e s x s / n 10 / 400 si ha xμ 14 - 13 2 1,65 sx 10 / 400 si rifiuta l'ipotesi H0 concludendo che tempo medio richiesto per evadere un ordine è superiore ai 13 minuti dichiarati dagli impiegati. Esempio 4.5 Si supponga di disporre di un campione di 10 elementi rispetto al quale siano stati ottenuti i 10 valori x = 50, (x x) 2 i 1 i 99 e di dover risolvere il seguente problema di test d'ipotesi H : µ = 47 0 H1 : µ 47 ipotizzando la normalità della distribuzione della variabile di interesse. Non essendo nota la varianza della popolazione e relativamente ridotta la dimensione del campione non si può fare ricorso all'approssimazione normale, la variabile casuale test da utilizzare è, pertanto, la variabile casuale t di Student. X- μ S/ n T dove n (x x) 2 S i 11 n 1 quindi 10 2 S x2 = S = n (x - x) 2 i i=1 9×10 = La determinazione assunta dalla variabile casuale Ho : = 47 risulta essere t 99 = 1,1 90 t di Student sotto l'ipotesi nulla x 50 47 = 2,8604 Sx 1,0488 Per (n – 1) = 9 gradi di libertà ed = 0,01 i valori critici che delimitano la regione di accettazione sono tα/ 2 - 3,25 e. tα / 2 3,25 . Essendo 2,8604 < 3,25 si accetta l'ipotesi nulla Ho : = 47. 232 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Se si sceglie il livello di significatività = 0,05, i valori critici sono -t/2 = - 2,262 e t/2 =2,262; essendo 2,8604 > 2,262 l 'ipotesi nulla Ho : = 47 dovrà essere rifiutata. Esempio 4.6 Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta dalla nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57, 65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato, quando non sono sottoposte a diete speciali, mostrano un incremento medio di peso (nei primi tre mesi di vita) pari a 65 grammi, ci si domanda se le risultanze campionarie siano tali da poter attribuire alla dieta la differenza riscontrata nell'incremento medio di peso pari a 60,75; si vuole sapere cioè se la differenza d = (60,75 – 65) debba essere attribuita alla dieta o se non debba invece essere attribuita a fattori aventi carattere puramente accidentale. Una possibile risposta al quesito si può ottenere applicando la procedura di test sopra illustrata; la procedura può essere riassunta come segue: 1. si fissa il livello di significatività, ad esempio = 0,05; 2. si specificano le due ipotesi H0 : µ = 65 H1 : µ 65 L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il momento, che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi possa essere attribuito all'effetto della dieta; 3. si individua la variabile casuale test T X- 65 S / 12 che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale variabile descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra scritta) sotto l'ipotesi nulla H0; cioè a condizione che la dieta non abbia effetto e che quindi le differenze tra X e 65 siano da attribuire esclusivamente a fattori accidentali; 4. si determina il valore critico c che soddisfa la relazione P ( -c T c) = 0,95 Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di libertà, risulta c = 2,20; 5. si pone a confronto il valore t (la specifica determinazione della variabile casuale T) calcolato sui dati campionari t = 60,75 - 65 = -3.64 16,38 / 12 con il valore critico determinato al punto precedente. Essendo t = -3,64 < -2,20 = -c si rifiuta l'ipotesi nulla H0 : µ = 65, al livello di significatività = 0,05, si rifiuta cioè l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso. 233 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di peso inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo unidirezionale. In tal caso si dovrà porre H0 : µ = 65 H1 : µ < 65 si determina poi, in funzione della variabile test T X- 65 S / 12 il valore critico c che soddisfa la relazione P (T -c) = 0,05 Dalle tavole della distribuzione t di Student risulta c = 1,80. Essendo t = -3,64 < -1,80 = -c si rifiuta l'ipotesi H0 : µ = 65. Le due procedure di test adottate, bidirezionale e unidirezionale, portano entrambe alla stessa conclusione: rifiuto dell'ipotesi nulla. A tale proposito va però sottolineato che se la t campionaria avesse assunto un valore compreso nell'intervallo (-2,20 , -1,80) l'applicazione della procedura di test bidirezionale, a livello = 0,05 di significatività, avrebbe comportato un'accettazione dell'ipotesi nulla mentre, allo stesso livello di significatività, l'applicazione della procedura di test unidirezionale avrebbe comportato un suo rifiuto. I test sopra illustrati sono, per l’ipotesi alternativa unidirezionale e per l’ipotesi bidirezionale, rispettivamente, il test uniformemente più potente ed il test uniformemente più potente nella classe dei test corretti. 4.2.1 p-value Dalle considerazioni svolte, risulta evidente il ruolo fondamentale giocato dal livello di significatività del test. Stante l'arbitrarietà nella fissazione del livello , cioè della probabilità massima di errore di I specie che si è disposti a sopportare, spesso il ricercatore preferisce discutere di livello di significatività soltanto a posteriori. Nel caso specifico dell'esempio 4.6, si sarebbe detto che il risultato campionario t = - 3,64 è significativo, nel caso di test bidirezionale, al livello dello 0,8%; volendo esprimere con tale affermazione il fatto che l'area sottesa alla curva descritta dalla funzione di densità di probabilità della distribuzione t di Student corrispondente alla regione critica, definita dagli intervalli (- , -3,64), (3,64 , + ) è pari a 0,008. Tale valore viene usualmente detto P-value. Definizione 5 (P-value). In corrispondenza di una particolare determinazione t0 assunta da una qualunque variabile casuale test T X 1, X 2 , ..., X n si dice Pvalue la probabilità dei valori che superano, in valore assoluto e nella direzione estrema, il valore osservato. 234 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Questa definizione viene usualmente accettata quando T è una statistica usata per sottoporre a test l’ipotesi nulla H 0 : 0 contro un’ipotesi alternativa unidirezionale quando i valori estremi da considerare si collocano o nella coda di destra della distribuzione ( H 1 : θ θ 0 ) o nella coda sinistra della distribuzione ( H 1 : θ θ 0 ). Molto più problematica è la situazione nel caso di ipotesi bidirezionale H 1 : θ θ 0 , in questo caso i valori estremi da considerare sono sia quelli della coda di destra sia quelli della coda di sinistra, a ragione di ciò, alcuni autori sostengono che in tali circostanze il valore del P-value debba essere raddoppiato; nell’esempio sopra considerato, se l’ipotesi alternativa fosse stata H1 : µ 65 , il P-value sarebbe stato pari a 0,16 = 0,08 + 0,08. Nel caso in cui la variabile casuale test abbia distribuzione discreta si pone il problema di includere o meno nel P-value la probabilità corrispondente al valore osservato. Usualmente tale probabilità viene inclusa per intero, così da ottenere un test conservativo, cioè con un livello di significatività effettivo non superiore a quello nominale. Si richiama l’attenzione sul fatto che il ricorso al P-value è criticato da molti autori a ragione, sia del fatto sopra considerato relativo all’attribuzione di un valore numerico al P-value , essendo il valore stesso interpretabile come evidenza empirica contro l’ipotesi nulla ( P = 0,08 è sicuramente un’evidenza empirica contro l’ipotesi nulla H0 : µ = 65 più forte di quanto non lo sia P = 0,16 ), sia perché può accadere che ad uno stesso valore di P possono corrispondere realtà molto diverse. Se si presuppone, ad esempio, di voler risolvere il problema di test H0 : µ = 65 contro l’ipotesi alternativa H0 : µ 65 avendo a disposizione un campione di dimensione n estratto da una popolazione normale con varianza nota σ 2 1 , sotto X 65 l’ipotesi nulla la variabile casuale test Z x si distribuisce come una normale 1/ n standardizzata. In tale situazione, per n = 4 , x = 66 la determinazione della variabile casuale test è z = 2, cui corrisponde un P-value pari a 0,0228, allo stesso valore di P si perviene per n = 400 e x = 65,1. Ovviamente, le due situazioni sono decisamente diverse anche se la misura dell’evidenza empirica, in termini di P-value, è la stessa; ma questo è un problema che riguarda tutta l’impostazione classica della teoria del test dell’ipotesi e che trova una sua soddisfacente soluzione solo nell’ambito dell’impostazione bayesiana dell’inferenza statistica. I problemi di test delle ipotesi fino ad ora considerati facevano riferimento ad una variabile casuale normale con varianza incognita. Qualora la varianza fosse nota, per risolvere i quattro problemi di test indicati, si dovrebbe operare in modo analogo facendo però riferimento alla distribuzione normale anziché alla distribuzione t di Student. 235 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Esempio 4.7 Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di 1.000 ore; come acquirente si vuole verificare tale affermazione. Sottoponendo a prova un campione casuale di 100 lampadine si riscontra una durata media di 970 ore. Poiché è nota la variabilità (misurata dalla varianza) nella durata che risulta essere = 1.600, cosa si può concludere riguardo all'affermazione ad un livello di significatività del 5%? Il problema di verifica d'ipotesi da risolvere è H0 : = 1.000 H1 : 1.000 Essendo nota la varianza ed ipotizzando la normalità della distribuzione d’origine, la variabile casuale test di riferimento è Zx X- μ σ / n che, nell'universo dei campioni ha distribuzione normale standardizzata. I valori critici per una probabilità di errore di I tipo, prefissata al livello = 0,05, sono zα/ 2 - 1,96 e zα / 2 1,96 che individuano le zone di accettazione di H0 nell'intervallo (-1,96 , 1,96) mentre la regione di rifiuto è rappresentata dai semintervalli (- , -1,96) e (1,96 , +). Poiché la determinazione della variabile casuale test (valore empirico), pari a 970 1.000 -7,5 , ricade nell'intervallo ( - , -1,96) (regione critica) si rifiuta l'ipotesi 40 / 100 H0 concludendo che la durata media delle lampadine è inferiore a 1.000 ore. Esempio 4.8 Un'impresa afferma che le batterie prodotte hanno una durata media di 22 ore e che la loro variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3 ore. Nove batterie vengono sottoposte a prova e si accerta una durata media di 20 ore. Ipotizzando per la popolazione una variabilità pari a quella dichiarata dalla casa produttrice e la normalità della distribuzione, si vuol verificare la validità dell'affermazione fatta dall'impresa. 2 Poiché la durata delle batterie si distribuisce normalmente e la varianza è nota ( = 9), la media campionaria X si distribuirà, nell'universo dei campioni, normalmente con varianza σ x2 σ2 9 1 n 9 La formulazione delle due ipotesi (nulla e alternativa) è H0: µ = µ0 = 22 H1 : µ µ0 pertanto, fissato il livello di significatività = 0,05, la regione di accettazione dell'ipotesi 236 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi nulla risulta individuata dall'intervallo (-z , z cioè dall'intervallo (-1,96 , 1,96). Essendo z x- μ 0 20 - 22 -2 1 σ / n pari ad un valore inferiore al valore –1,96 che delimita la regione di accettazione, l'ipotesi nulla H0 : µ = 22 viene rifiutata, concludendo che la durata media delle batterie in questione è inferiore alle 22 ore. Se la varianza della popolazione non fosse nota ed il valore 9 corrispondesse alla stima campionaria corretta di tale entità incognita, la variabile casuale test di riferimento sarebbe la t di student con 8 (= 9-1) gradi di libertà. In questo caso, al livello di significatività i punti critici risulterebbero pari a -2,306 e 2,306, ed essendo il valore campionario assunto dalla variabile casuale t (= -2) contenuto nell'intervallo -2,306 — 2,306 si dovrebbe accettare l'ipotesi nulla attribuendo alla differenza riscontrata (tra valore ipotizzato e valore registrato per il campione) natura accidentale. Da sottolineare che nella situazione prospettata la mancanza di informazioni (varianza della popolazione incognita) porta a concludere in maniera opposta pur avendo la stessa evidenza campionaria: rifiuto di H0 nel caso di varianza nota, accettazione di H0 nel caso di varianza incognita; la maggiore variabilità dei risultati campionari fa “perdere” di “significatività statistica” all’evidenza empirica. 4.2.2 Potenza di un test Si esaminerà ora in modo dettagliato il problema di test di ipotesi relative alla media di una popolazione normale di varianza nota. Questo caso, pure se meno interessante del precedente da un punto di vista operativo in quanto la varianza è generalmente una quantità incognita, consente, da un lato di meglio precisare i concetti già esposti in merito alla procedura di test da utilizzare, dall'altro un maggiore approfondimento degli aspetti connessi alla determinazione della probabilità di commettere un errore di II tipo o anche alla probabilità di non commettere un errore di II tipo (potenza di un test). Si ammetta dunque di poter disporre di un campione di osservazioni x x1 ,x2 ,....,nn relative ad una popolazione normale di media incognita µ e varianza nota σ 2 , e di voler sottoporre a test le seguenti ipotesi: a) H0 : µ = µ0 H1 : µ = 0 > µ0 b) c) d) H0 : µ = µ0 H1 : µ > µ0 H0 : µ = µ0 H1 : µ < µ0 H0 : µ = µ0 H1 : µ µ0 237 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Se l'ipotesi nulla H0 è vera, la media campionaria 1 n X Xi n i 1 2 si distribuisce, nell'universo dei campioni, normalmente con media 0 e varianza /n. Per l'individuazione della migliore regione critica (quando esiste) si può procedere alla standardizzazione della variabile casuale X X- μ 0 σ / n e riferirsi alle tavole della distribuzione normale standardizzata utilizzando una procedura del tutto analoga a quella illustrata a proposito della distribuzione t di Student. Ad esempio per = 0,05, i valori critici di riferimento per le quattro possibili ipotesi alternative considerate sono: a) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64; Zx b) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64; c) c = -1,64, si rifiuta l'ipotesi nulla H0 se Z x < -1,64; d) c1 = -1,96 e c2 = 1,96, si rifiuta l'ipotesi H0 se Z x < -1,96 oppure Z x > 1,96. Nei quattro casi sopra considerati, sono stati individuati i valori critici facendo riferimento alla distribuzione normale standardizzata. Risulta subito evidente come sia possibile riferirsi direttamente alla variabile casuale X anziché alla sua standardizzata. Infatti, dall'uguaglianza X- μ 0 P Z x 1,64 P 1,64 P X μ 0 1,64 σ/ n 0,05 σ / n risulta immediatamente il valore critico del test per il primo (e secondo) caso considerato, in riferimento alla variabile casuale test X anziché Z x . Nella Fig. 4.3 si evidenziano graficamente, per tutti e quattro i casi di ipotesi alternativa considerati, la regione critica e quella di accettazione in riferimento alla variabile casuale test X ed al livello di significatività = 0,05: Nel primo grafico della Fig. 4.3 (quello relativo al caso a) dove entrambe le ipotesi formulate sono semplici) è stata evidenziata graficamente oltre alla regione di rifiuto dell'ipotesi H0 anche l'area corrispondente alla probabilità = 0,05 dell'errore di I tipo e l'area corrispondente alla probabilità H1 di commettere un errore di II tipo. La potenza o forza del test = 1 – ß ( H1 ), cioè la probabilità di non commettere un errore di II tipo, risulta graficamente espressa dall'area sottesa alla curva di destra relativa all'intervallo (c ,+). Dalla Fig. 4.3 e da quanto detto a proposito degli intervalli di confidenza si desume 238 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi che la potenza di un test resta influenzata: a) dal livello di significatività prescelto; b) dalla specificazione dell'ipotesi alternativa; c) dalla numerosità del campione. L'immediata considerazione da fare in merito alla relazione che lega la forza di un test al livello di significatività è che un test è tanto più potente quanto più è elevata la probabilità dell'errore di I tipo. Infatti, se si osserva la Fig. 4.4 si vede chiaramente come l'incremento del livello (probabilità dell'errore di I tipo), comportando un allargamento dell'intervallo di rifiuto (regione critica), determini una riduzione della probabilità dell'errore di II tipo e di conseguenza un aumento della potenza del test. 239 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Fig. 4.3 - Distribuzione campionaria e regione critica relative a quattro diverse specificazioni dell'ipotesi alternativa H1 rispetto all'ipotesi nulla H0 : µ = µ0 240 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Fig. 4.4 - Relazione tra potenza di un test e livello di significatività Si consideri ora il caso in cui si voglia sottoporre a test l'ipotesi nulla H0 : µ = µ0, contro l'ipotesi alternativa: a) H1 : 0 0 b) H1 : 0 0 c) H1 : 0 0 al livello di significatività. I tre problemi di test sono illustrati graficamente nella Fig. 4.5. Osservando le curve tracciate si vede chiaramente come la potenza del test cresca all'aumentare dello scarto tra il valore di µ specificato dall'ipotesi nulla ed il valore di µ specificato nell'ipotesi alternativa. Nella Fig. 4.6 si riporta il grafico della funzione forza del test in relazione a tutte le possibili specificazioni delle ipotesi alternative composite unidirezionali H1 : µ < µ0 e H1 : µ > µ0 e l'ipotesi alternativa composita bidirezionale H1 : µ µ0 241 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Fig. 4.5 - Relazione tra potenza del test e specificazione dell'ipotesi alternativa 242 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Fig. 4.6 - Grafico della funzione forza del test relativo all'ipotesi nulla H0 : contro tre diverse specificazioni dell'ipotesi alternativa composita H1 L'espressione analitica che consente di determinare il valore numerico assunto dal punto critico relativo alla variabile casuale test X , quando si vuole sottoporre a test un'ipotesi nulla del tipo H0: µ = µ0 contro un'ipotesi alternativa del tipo H1: µ > µ0 è data dall'uguaglianza c = µ0 + z /n dove z è la determinazione numerica della variabile casuale normale standardizzata che soddisfa la relazione P (Z > z) = . Evidentemente la relazione sopra scritta si riferisce ad un campione di osservazioni di dimensione n estratto da una popolazione normale di varianza nota . Osservando la relazione si rileva come l'entità c (valore critico) sia una funzione decrescente di n. Ciò sta a significare che ad un aumento della dimensione campionaria corrisponde una diminuzione nel valore numerico di c, il che comporta un ampliamento dell'intervallo che delimita la regione critica con un conseguente aumento della forza del test. A titolo esemplificativo si riporta il grafico della funzione forza del test in riferimento a due diverse dimensioni campionarie n ed m (n > m) 243 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Fig. 4.7 - Grafico della funzione forza del test relativo a due diverse dimensioni campionarie Un'ultima considerazione da fare in merito alla potenza o forza di un test statistico riguarda la varianza campionaria σ c2 della variabile casuale test . Dalle formule sopra scritte risulta che il valore critico c è legato funzionalmente ed in senso positivo a 2 ( c2 x2 2 / n) , ciò sta a significare che a più bassi valori di 2 , corrispondono più bassi valori di c e quindi più ampie regioni critiche. Sarà pertanto possibile, operando su 2 ottenere un incremento nella potenza di un test senza dover necessariamente procedere ad un aumento della dimensione campionaria o della probabilità dell'errore di I tipo. Questa affermazione ha naturalmente significato soltanto nei casi in cui sia effettivamente possibile operare su 2 , ad esempio, attraverso un’opportuna pianificazione della rilevazione campionaria o del disegno degli esperimenti. Il caso più semplice e più significativo è quello relativo alle modalità di estrazione delle unità campionarie quando si considera la media campionaria X quale variabile casuale test; infatti, come già sottolineato, se si procede all’estrazione da una popolazione finita rimettendo ogni volta l’unità estratta nella popolazione (campionamento con ripetizione) σ2 si ha σ , se invece si effettua l’estrazione in modo esaustivo (estrazione senza n 2 x ripetizione) si ha x2 2 N n 2 , dove N è la dimensione della popolazione e n N 1 n n è la dimensione del campione. Ovviamente, questa osservazione non riguarda l’esempio sopra riportato che fa riferimento alla distribuzione normale dove la dimensione N è infinita. Relativamente alla varianza σ c2 della variabile casuale test, si deve sottolineare che nella generalità dei casi tale varianza dipende dalla variabilità del fenomeno oggetto di studio, cioè, dalla varianza σ 2 della popolazione che, come più volte sottolineato, 244 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi è un’entità usualmente incognita (parametro di disturbo). Si dovrà, pertanto, procedere ad una stima di tale entità il che porta alla determinazione di una 2 2 stima σˆ c di σ c ; la radice positiva di tale quantità σ̂ c , come già sottolineato, viene usualmente detta errore standard. Esempio 4.9 Si consideri la variabile casuale continua X definita nel semiasse reale positivo esteso (X : 0 x + ) con funzione di densità di probabilità (distribuzione esponenziale negativa) f x; 1 e x e si supponga di voler risolvere il seguente problema di test d'ipotesi H0 : = 2 H1 : > 2 Supponendo, inoltre, la disponibilità di un campione di due elementi (n = 2) e definendo la regione critica attraverso la disuguaglianza X1 + X2 9,5 si può derivare l'espressione analitica della funzione forza del test (H1) determinandone il valore per H1: = 4. Come più volte sottolineato, la funzione forza del test rappresenta la probabilità di non commettere un errore di II tipo, cioè la probabilità di rifiutare l'ipotesi H0 quando l'ipotesi stessa è falsa. H1 P X C1 / H1 1- P X C0 / H1 Se si esplicita l'ipotesi alternativa nel modo seguente H 1 :θ θ 1 4 e si tiene conto della regola di decisione prescelta (accettare l'ipotesi H 0 quando X1 + X2 < 9,5), e del fatto che le due variabili casuali campionarie X1 e X 2 sono indipendenti, si avrà: 9,5 P ( X 1 + X 2 < 9,5/H 1 )= 0 f ( x1 ;θ1 )dx1 dx2 = 1- 9,5 0 (θ1 )= 1- β(θ1 )= 1- 9,5 0 9,5×x2 0 9,5×-x2 0 9,5×-x2 f ( x1 ;θ1 ) dx1 dx2 0 1 e θ12 x1 +x2 θ1 1 - e θ12 x1 +x2 θ1 θ +9,5 dx1 dx2 = 1 e θ1 Per 1 = 4 si ha 4+9,5 - 9,54 γ(4)= e = 0,31 . 4 Si è più volte affermato che la variabile casuale 245 dx1 dx2 9,5 θ1 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi X- μ S/ n ha una legge di distribuzione t di Student quando la popolazione che genera il campione è di tipo normale. Non sempre però, nella ricerca applicata, risulta soddisfatta la condizione di normalità; ci si deve allora chiedere che cosa succede alla legge di distribuzione della variabile T definita dalla formula quando una tale condizione non sussiste. L'osservazione da fare è che la variabile T si dimostra particolarmente sensibile alle variazioni nella legge di distribuzione della popolazione che genera il campione. Le considerazioni sopra svolte impongono una certa cautela nell’utilizzazione della distribuzione t di Student, nel senso che si può fare ricorso ad una tale distribuzione solo quando si è sufficientemente convinti della normalità, o approssimativa normalità, della popolazione che genera il campione. Tale affermazione vale naturalmente nei casi in cui la dimensione del campione non supera le 30 unità, oltre tale dimensione, come già sottolineato, la distribuzione t di Student e la distribuzione normale praticamente coincidono, basterà allora riferirsi alla distribuzione normale purché questa costituisca una buona approssimazione della distribuzione della media campionaria. Per quanto concerne i casi in cui si abbia a che fare con campioni di dimensione superiore a 30, si rimanda a quanto sommariamente detto a proposito degli intervalli di confidenza per campioni estratti da popolazioni di cui non è nota la legge di distribuzione. Infatti, si rileva immediatamente come le procedure proposte per sottoporre a test delle ipotesi statistiche, e quelle utilizzate per la determinazione degli intervalli di confidenza, presentino punti di contatto tali da consentire un passaggio immediato dall'intervallo di confidenza alla regione di accettazione. A sostegno di quanto sopra affermato si può, ad esempio, considerare il problema di T 2 test, sulla media µ di una popolazione normale con varianza nota pari a , definito dalle ipotesi H0 : μ μ 0 H1 : 0 La regione di accettazione dell'ipotesi H 0 : μ μ 0 al livello = 0,05 di significatività, risulta essere 1,96 X - 0 1,96 / n che può anche essere scritta X 1,96 σ / n μ 0 X 1,96 σ / n e tale espressione rappresenta l'analogo dell'intervallo di confidenza (al livello del 95%) per la media di una popolazione normale X 1,96 σ/ n μ X 1,96 σ/ 246 n Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi già visto in precedenza. L'implicazione è dunque che un intervallo per la media, al livello di confidenza del 95%, costituisce l'intervallo che include tutte quelle ipotesi, sulla media stessa, che verrebbero accettate in una procedura di test bidirezionale, qualora fosse stato fissato un livello di significatività pari a 0,05. *** La somiglianza tra le procedure di test e quelle di determinazione degli intervalli di confidenza, non deve naturalmente indurre a confondere i problemi di test con quelli di stima; essi sono logicamente e sostanzialmente diversi. *** 4.3 - Test sulla varianza Nel caso in cui si voglia sottoporre a test un'ipotesi sulla varianza di una popolazione normale con media incognita, disponendo di un campione di n elementi e per un certo , si deve operare in modo analogo a quanto fatto relativamente alla media. La variabile casuale campionaria di riferimento (variabile casuale test) diventa W n- 1 S 2 σ2 che ha una legge di distribuzione del tipo 2 con n-1 gradi di libertà ed è definita nell'intervallo (0 ,+). Caso a) b) H0 : σ 2 σ 02 H 1 : 2 *2 02 (od anche H1 : σ 2 02 ) Il valore critico c si ottiene dalla relazione P ( W c / 2 02 ) = Caso c) H 0 : 2 02 H1 : 2 02 Il valore critico c si ottiene dalla relazione P ( W c / 2 02 ) = Caso d) H 0 : 2 02 H1 : 2 02 2 I valori critici c1 e c2 (si noti che la distribuzione non è simmetrica) si ottengono dalle relazioni P ( W c 2 / 2 02 ) = /2 247 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi P ( W c1 / 2 02 )= 1-/2 Esempio 4.10 Sulla scorta di una lunga esperienza è stato calcolato lo scostamento quadratico medio sulla variabile descritta dal tempo di anestesia relativamente a soggetti di sesso maschile sottoposti ad uno specifico trattamento; tale scostamento è risultato pari a 0,25 ore. Lo stesso trattamento viene applicato ad un campione di 20 donne, e riscontrando uno scostamento quadratico medio, nel tempo di anestesia, pari a 0,32 ore. Sapendo che i venti soggetti femminili sottoposti a trattamento presentano, nei confronti dell'anestetico, le stesse condizioni dei soggetti maschili, si vuole spiegare l'incremento riscontrato nella variabilità. In altri termini, ci si chiede se l'incremento riscontrato sia da attribuire al genere oppure a fattori aventi natura accidentale. Il problema può essere formalizzato specificando l'ipotesi nulla e l'ipotesi alternativa nei termini che seguono H0 : σ 2f σ m2 0,25 H 1 : 2f m2 0,25 dove f sta ad indicare lo scostamento quadratico medio relativo alla popolazione di donne, m lo scostamento quadratico medio relativo alla popolazione di uomini. Sotto l'ipotesi nulla, e cioè a condizione che l'ipotesi nulla sia vera, la variabile casuale test w 19 S 2 σ m2 dove S2 1 20 (X i X)2 19 i 1 rappresenta la varianza calcolata sul campione di venti soggetti femminili, avrà una distribuzione del tipo con 19 gradi di libertà. Relativamente allo specifico campione si ha w= 19 0,32 2 = 31,1 0,25 2 Se si fissa un livello di significatività nell'ordine del 5%, si può determinare, sulla scorta delle tavole della distribuzione , il valore critico c per il quale risulta soddisfatta la relazione P (W c) = 0,95 Poiché risulta essere c = 30,1, la zona di accettazione sarà data dall'intervallo (0 , 30,1), mentre la regione critica risulterà espressa dall'intervallo (30,1 ,+ ). Stante tale situazione si rifiuta l'ipotesi nulla; si rifiuta, cioè, l'ipotesi che la differenza riscontrata nella variabilità sia da attribuire al caso. Se il livello di significatività viene fissato nell'ordine dell'1%, si deduce un valore critico c = 36,2. In tal caso, e cioè al livello di significatività dell'1%, il valore campionario ricadrebbe nella zona di accettazione della ipotesi nulla; verrebbe pertanto attribuita al caso la differenza riscontrata. 248 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Esempio 4.11 Una fabbrica di batterie di automobili dichiara che il proprio prodotto presenta una 2 variabilità nella durata (misurata dalla varianza) pari a 0,8 ( = 0,8). Un campione casuale di 16 batterie viene sottoposto a prova evidenziando una varianza corretta pari a 1. Si vuole verificare, al livello di significatività del 5% ( = 0,05) se la varianza nella durata del prodotto è superiore a 0,8. La formulazione delle ipotesi per il problema in esame è H 0 : 2 0,8 H1 : 2 0,8 mentre la v.c. test di riferimento è n - 1 S 2 W= ~ χ2 σ2 n-1 che, nell'universo dei campioni, ha una distribuzione del tipo con n - 1 gradi di libertà. Per = 0,05 e (n – 1) = 15 gradi di libertà il valore critico risulta essere 02,05 24,996 , pertanto la regola di decisione sarà (test unidirezionale): si accetta H0 se il empirico è 24,996, si rifiuta H0 se il empirico è > 24,996. Essendo χ 2 = n - 1 S 2 σ2 = 15 - 12 = 17,5 24,996 si accetta l'ipotesi H0. 0,8 4.4 - Test sulla probabilità Volendo utilizzare la teoria del test delle ipotesi per risolvere un problema di verifica d'ipotesi sulla probabilità di un particolare evento (la distribuzione di riferimento è la v.c. di Bernoulli), si può procedere come illustrato nelle pagine precedenti; si fissa cioè un livello di significatività (probabilità dell'errore di I tipo) e si individua poi la regione critica (di rifiuto dell'ipotesi nulla formulata) che massimizza la potenza del test (probabilità di non commettere un errore di II tipo). Se la dimensione del campione è sufficientemente elevata per sottoporre a test un'ipotesi su una probabilità si può fare ricorso alla distribuzione normale essendo questa un’approssimazione abbastanza buona della distribuzione binomiale per n sufficientemente elevato e n p > 5, n q > 5, dove n rappresenta la dimensione campionaria, p la probabilità dell'evento che interessa e q = 1- p la probabilità contraria. In particolare se X rappresenta il numero di successi in n prove bernoulliane (prove indipendenti), la proporzione campionaria X Pˆ n 249 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi p q n . Se si vuole quindi sottoporre a test una specifica ipotesi, al livello di significatività del tipo H 0 : p p0 contro l'ipotesi alternativa H1 : p p 0 si può fare ricorso alla ha una distribuzione approssimativamente normale con media p e varianza variabile casuale normale standardizzata Pˆ - p0 ~ N 0,1 p0 q0 / n Z dove q0 = 1-p0 . Si rifiuterà l'ipotesi se pˆ -p0 Z cioè se p̂ p0 Z p0 q0 / n p0 q0 n dove Z è il valore (punto critico) della distribuzione normale standardizzata che ha alla sua destra l' % dei casi. Si noti che l'ipotesi nulla H0 p p0 non specifica solo la media p0 della distribuzione bernoulliana ma anche la varianza p0 q0 . Esempio 4.12 Si supponga di voler sottoporre a test l'ipotesi H0 : p 2 3 contro l'ipotesi alternativa 2 disponendo di un campione di 200 osservazioni indipendenti che evidenzia una 3 150 frequenza relativa p̂ 0,75 . Poiché sotto l'ipotesi nulla H0, la proporzione 200 campionaria p̂ ha una distribuzione approssimativamente normale con media p 2/3 e H1 : p varianza p q / n 1/900 , se si sceglie il livello di significatività = 0,05, il punto critico che delimita la regione critica sarà z 1,645 . Pertanto l'ipotesi nulla H 0 : p 2/3 dovrà essere rifiutata quando p - 2/3 1,645 1 / 30 Cioè quando p̂ Essendo 2 1 1,645 0,722 3 30 p 0,75 0,722, l'ipotesi nulla H 0 : p 2 3 viene rifiutata al livello di significatività del 5%. Ad analoga conclusione si perviene se si fissa il livello di significatività = 0,01, infatti si ha pˆ ³ 2 1 + 2,34× = 0,744 . 3 30 Se si specifica l'ipotesi alternativa in termini di un preciso valore numerico risulta possibile, come chiarito in precedenza, calcolare la potenza del test. 250 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Nella tabella che segue, per = 0,01 e = 0,05, sono riportati i valori assunti dalla funzione forza del test in corrispondenza di alcune particolari specifiche dell'ipotesi alternativa. = 5% H1 : p 0,60 0,65 0,67 0,69 0,71 0,73 0,75 0,77 0,79 0,81 0,83 pq / 200 0,0346 0,0337 0,0332 0,0327 0,0321 0,0314 0,0306 0,0297 0,0288 0,0277 0,0266 0,722 p p q / 200 3,517 2,128 1,557 0,969 0,364 -0,264 -0,625 -1,626 -2,372 -3,188 -4,071 = 1% Potenza 0,000 0,017 0,059 0,166 0,358 0,604 0,822 0,948 0,991 0,999 1,000 0,744 p p q / 200 4,170 2,798 2,238 1,661 1,069 0,455 -0,186 -0,865 -1,587 -2,373 -3,222 Tab. 4.2- Potenza del test relativa a specifiche dell’ipotesi alternativa H1 : p Potenza 0,000 0,003 0,012 0,048 0,142 0,325 0,574 0,806 0,944 0,991 1,000 2 . 3 Ovviamente anche in riferimento alle proporzioni (probabilità) si possono presentare casi di test d'ipotesi del tipo H0 : p p0 contro l'alternativa bidirezionale H1 : p p0 od anche H0 : p0 p p1 contro l'alternativa H1 : p p0 p p1 . Esempio 4.13 Si supponga di avere a che fare con una distribuzione bernoulliana e di voler sottoporre a test l'ipotesi nulla H0 : p 0,5 al livello di significatività = 0,05. Si ammetta, inoltre, di poter disporre di un campione di n = 100 osservazioni indipendenti e di volere calcolare la potenza del test in riferimento a ciascuna delle seguenti specifiche dell'ipotesi alternativa a) H1 : p 0,55 b) H1 : p 0,60 c ) H1 : p 0,65 d ) H1 : p 0,70 e) H1 : p 0,75 Essendo sufficientemente elevata la dimensione campionaria e risultando, inoltre, n p e n q superiori a 5, si può approssimare la distribuzione binomiale con la distribuzione normale che, quando l’ipotesi nulla H0 : p 0,5 è vera, ha media μ n p 100 0,50 50 e varianza σ 2 n p q 100 0,5 0,5 25 . Poiché = 0,05 si rifiuta l'ipotesi nulla H0 : p 0,5 campionaria della variabile casuale normale standardizzata 251 quando la determinazione Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Z X- n p n p q assume un valore superiore al punto critico c = 1,65 che è il valore che soddisfa la relazione (quando l'ipotesi nulla è vera) X- 50 P 1,65 0,05 5 e in modo equivalente P X 50 5 1,65 0,05 cioè P X 58 0,05 La potenza di un test è misurata dalla probabilità di rifiutare un'ipotesi H 0 quando questa è falsa, si dovrà allora calcolare la probabilità X > 58 per ciascuna specifica dell'ipotesi alternativa cioè P X 58 / H1 0,05 I valori della potenza del test per i vari casi richiesti sono riportati nella tabella che segue H1: p = µ=np σ n p q p = 0,55 p = 0,60 p = 0,65 p = 0,70 p = 0,75 55 60 65 70 75 4,97 4,90 4,77 4,58 4,33 X μ σ Z 0,60 -0,11 -1,48 -2,62 -3,93 Potenza 0,274 0,659 0,929 0,996 1,000 Tab. 4.3 - Valori della potenza del test Esempio 4.14 Relativamente ad una distribuzione bernoulliana si vuole risolvere il problema di test d'ipotesi H0 : p 0,5 H1 : p 2 / 3 al livello di significatività = 0,01 e presupponendo la disponibilità di 36 osservazioni campionarie indipendenti. Si vuole evidenziare, inoltre, la crescita della potenza del test al crescere della dimensione campionaria considerando in particolare i valori n = 36, 64, 100, 144 e 196. La distribuzione binomiale può essere approssimata dalla distribuzione normale essendo, in tutti i casi considerati, la dimensione campionaria sufficientemente elevata e np, nq maggiore di 5. Per ciascuna specifica del valore n si calcola la media = n p e lo scostamento quadratico medio σ n p q in corrispondenza del valore p = 0,5 252 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi n =np 36 64 100 144 196 18 32 50 72 98 n pq 3 4 5 6 7 Poiché il valore p specificato dall'ipotesi alternativa H1, è più elevato di quello specificato dall'ipotesi nulla, al livello di significatività = 0,01, si rifiuta l'ipotesi H0 quando la determinazione campionaria della variabile casuale normale standardizzata assume un valore superiore al valore critico c = z = 2,3 essendo questo il valore che soddisfa la relazione X- 18 P 2,33 0,01 3 ed anche da cui P X 3 2,33 18 0,01 P X 24,99 0,01 I valori critici in corrispondenza degli altri valori di n sono n 64 4 2,33 32 41,32 n 100 5 2,33 50 61,65 n 144 6 2,33 72 85,98 n 196 7 2,33 982 114,31 Per n = 36 la potenza del test deriva dalla relazione 24,99 - 24 X- 24 P X 24,99 / H 1 P P Z 0,3498 0,36 2,83 2,83 Analogamente per gli altri valori di n. 41,32 - 42,67 n 64 P Z P Z - 0,3581 0,64 3,77 61,65 - 66,67 n 100 P Z P Z - 1,0658 0,86 4,71 85,98 - 96 n = 144 P Z = P Z - 1,7703 = 0,96 5,66 114,31 - 130' ,67 n 196 P Z P Z - 2,4788 0,99 . 6,60 253 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi 4.5 - Determinazione della dimensione campionaria Nella trattazione fino ad ora svolta è stata considerata fissa la dimensione campionaria, si presentano però spesso situazioni in cui non ci si limita alla fissazione del solo livello di significatività avendo anche interesse ad una potenza del test non inferiore ad una certa soglia. Per poter conseguire un tale obiettivo si potrà intervenire convenientemente sulla dimensione campionaria. Si consideri, il caso in cui, in riferimento a una distribuzione normale, si voglia sottoporre a test l'ipotesi nulla H 0 :μ μ 0 contro l'ipotesi alternativa H1 : 1 0 al livello di significatività e in modo tale che la potenza del test non sia inferiore a . Si ricorda che, γ H1 1 - β H1 , cioè, la potenza di un test rappresenta la probabilità di non commettere un errore di II tipo. Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza x 0 z n se si indica con z il valore Z della variabile casuale normale standardizzata che ha alla sua destra il % dei casi, il vincolo sulla potenza impone il rispetto della relazione P X 0 z / n od anche1 X 1 1 P 0 z / n / n deve, quindi, essere soddisfatta l'uguaglianza 0 1 z z / n da cui 1 Da rilevare che attraverso questo passaggio si sta considerando la distribuzione della media campionaria sotto l’ipotesi alternativa H1 : 1 , campionaria sotto l’ipotesi nulla X che, in entrambi i casi, è pari a X cioè X N 1 , / n 2 X e non la distribuzione della media N 0 , 2 / n ; da notare l’uguaglianza della varianza campionaria di x2 2 / n . 254 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi n= z + z 2 μ1 - μ0 / σ 2 Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è H1 : 1 0 anche se per correttezza formale a denominatore dell’espressione a secondo membro si dovrebbe porre μ0 - μ1 ma il risultato non cambia in quanto lo scarto deve essere elevato al quadrato. Se n non è intero si opera una approssimazione per eccesso. Esempio 4.15 Se si scelgono i valori α=0.05, γ=0,90, μ 0 100 ,μ 1 110 e σ 2 400 si avrà n= 1,645+1,282 2 = 34,268 100 - 110 / 20 2 si dovrà, pertanto, fissare la dimensione campionaria n = 35. Se con 0 1 si indica lo scarto tra la specificazione dell’ipotesi nulla e l’ipotesi alternativa la relazione che consente la derivazione della dimensione campionaria nel rispetto del vincolo sulla potenza diventa: n= z + z / σ 2 2 . pertanto, la dimensione campionaria potrà essere ottenuta soltanto quando tutti gli elementi presenti nella formula sono noti: livello di significatività ; potenza del test H1 ; specifica dello scarto tra le due ipotesi 0 1 e varianza della popolazione 2. Sulla scorta dell’ultima osservazione ne consegue che le formule per la determinazione della dimensione campionaria, spesso riportate nei testi didattici, che fanno riferimento ad ipotesi alternative composite hanno solo carattere indicativo in quanto per poter procedere a tale determinazione se deve comunque specificare in modo puntuale l’ipotesi alternativa; in particolare deve essere noto lo scarto 0 1 . La formula da impiegare è quella sopra riportata nel caso di ipotesi alternativa unidirezionale; mentre, nel caso di ipotesi bidirezionale la formula diventa2 2 Al riguardo si tenga presente l’osservazione sopra riportata nel paragrafo 4.2.1 riguardo al valore da assegnare al p-value nel caso di ipotesi alternative bidirezionali. 255 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi n= z /2 + z 2 / σ 2 z = /2 + z 2 2 2 . Come già sottolineato a proposito del problema della mancata conoscenza della varianza della popolazione nel caso della determinazione di una dimensione campionaria in grado di soddisfare un prefissato livello di informatività (cfr. paragrafo 3.4) di un intervallo di stima, anche in questo caso, per stabilire la dimensione del campione si dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o da un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione ridotta ed il cui unico scopo è quello di pervenire ad una stima della varianza incognita 2 . Il problema della mancata conoscenza della varianza della popolazione non sussiste, invece, quando si vuol procedere alla determinazione della dimensione campionaria, in funzione di una prefissata potenza, quando si desidera sottoporre a test ipotesi su una proporzione (parametro p di una v.c. di Bernoulli) H 0 : p p0 contro l’ipotesi alternativa H1 : p p1 p0 ; infatti, in questo caso, la varianza 2 p 1 p risulta specificata dalle due ipotesi per cui, sotto H 0 : p p0 , H2 0 p0 1 p0 , mentre sotto H1 : p p1 , H2 p1 1 p1 , infatti 1 in questo caso, ricorrendo all’approssimazione normale, si rifiuta l’ipotesi nulla quando x 0 z p0 1 p0 n Poiché il vincolo sulla potenza impone il rispetto della relazione X P p0 z p0 1 p0 n od anche X P p1 / p1 1 p1 / n p0 z p0 1 p0 / n p1 / n deve, quindi, essere soddisfatta l’uguaglianza p z 0 p0 1 p0 p1 / p1 1 p1 / n p1 1 p1 / n z da cui 2 z p0 1 p0 z p1 1 p1 . n p0 p1 Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è H1 : p p1 p0 ponendo a denominatore del secondo membro dell’uguaglianza la differenza p1 p0 256 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi 4.6 - Confronto tra campioni Nelle pagine precedenti è stato analizzato il problema della verifica di ipotesi statistiche sulla scorta di dati concernenti singoli campioni. Più specificamente, si è discusso della possibilità di utilizzazione dei dati campionari per la determinazione della struttura generale di una particolare popolazione rappresentata mediante un modello probabilistico, di forma nota ma caratterizzato da parametri incogniti. Verrà analizzato ora il problema del confronto tra due campioni, avendo come fine l'accertamento delle possibilità di una loro attribuzione alla stessa popolazione o a popolazioni aventi uno o più parametri caratteristici di uguale valore. Relativamente a due gruppi di osservazioni campionarie, anche se generati da una stessa popolazione, in cui si riscontra generalmente una qualche differenza, il problema da risolvere sarà quindi quello di accertare l'eventuale significatività statistica di una tale differenza. Evidentemente, ogni conclusione favorevole alla significatività di una differenza comporterà l'attribuzione dei due campioni, cui la differenza si riferisce, a popolazioni distinte. Nei punti seguenti le considerazioni saranno limitate in modo quasi esclusivo al problema del confronto di medie e varianze relative a campioni estratti da popolazioni normali. 4.6.1 Confronto tra medie Si supponga di avere a disposizione un gruppo di m osservazioni campionarie casuali x x1, x2 ,....., xm relative ad una popolazione normale X di media incognita µx e ' varianza nota σ x2 ed un secondo gruppo di n osservazioni campionarie casuali y y1 , y2 ,....., yn relative ad una popolazione normale Y di media incognita µy e ' varianza nota σ y2 . Si supponga, inoltre, che le due v.c. siano indipendenti e di voler verificare se la differenza eventualmente riscontrata tra le due medie campionarie x e y sia da attribuire al caso o al fatto che le due medie µx e µy, delle popolazioni che hanno generato i due campioni, sono diverse; si vuole in altri termini decidere per l'eventuale significatività statistica della differenza riscontrata. Il problema di cui sopra può essere formalizzato attraverso una specificazione dell'ipotesi nulla e dell'ipotesi alternativa seguendo la linea di ragionamento descritta nelle pagine precedenti. Le possibili formulazioni, strettamente legate alla problematica dell'analisi che si sta conducendo, portano alla considerazione dei tre casi seguenti: Caso a) H0 : µx = µy H1 : µx > µy 257 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Caso b) H0 : µx = µy H1 : µx < µy Caso c) H0 : µx = µy H1 : µx µy La variabile casuale Zx-y = X -Y σ x2 / m + σ y2 / n ha, quando l'ipotesi nulla è vera, legge di distribuzione normale standardizzata. Avendo individuato la legge di distribuzione di una funzione (quella che interessa) degli elementi campionari, sarà facile definire la regione critica e quella di accettazione per la risoluzione dei problemi indicati. Infatti, poiché nell'espressione sopra riportata compare la differenza tra le due medie campionarie, sarà facile l'estensione di quanto detto a proposito di una singola media al caso qui considerato. I valori critici nei tre casi proposti si derivano facilmente dalle relazioni: Caso a) P ( Z > c / µ x = µy ) = Caso b) si accetta l'ipotesi H0 se z < c, si rifiuta altrimenti: P ( Z <- c / µx = µy ) = si accetta l'ipotesi H0 se z > - c, si rifiuta altrimenti; Caso c) P ( Z < - c / µx = µy ) = /2 si accetta l'ipotesi H0 se - c z c, si rifiuta altrimenti. Nei tre casi considerati z rappresenta la specifica determinazione della variabile casuale normale standardizzata Z. Nelle indagini sperimentali ove i test statistici vengono applicati regolarmente per lunghi periodi di tempo, non risulta difficile una misura precisa della variabilità dei risultati; in tali situazioni potrà essere applicata la teoria sopra esposta, ogni qual volta si voglia procedere ad un confronto fra medie, attraverso un semplice ricorso alle tavole della distribuzione normale standardizzata. Va rilevato però che sono molto più frequenti i casi in cui la variabilità risulta essere anch'essa, oltre i valori medi, una incognita del problema. In tali circostanze si potrà, comunque, ricorrere all’approssimazione con la distribuzione normale quando la dimensione dei due campioni è sufficientemente elevata. Esempio 4.16 Per un campione casuale di 120 studenti dell'università di Firenze si rileva un'età media di 20,2 anni ed una varianza (campionaria corretta) pari a 1,44. Per un campione casuale di 100 studenti dell'università di Roma i valori riscontrati sono invece 21 anni e 2,25. Prefissando una 258 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi probabilità di errore di I tipo a livello = 0,05, si vuole verificare statisticamente l'uguaglianza nell'età media tra gli studenti dei due Atenei. Se con x si indica l'età media degli studenti dell'Università di Firenze e con y l'età media degli studenti dell'Università di Roma il problema di test da risolvere è: H0 : x = y H1 : x y Essendo le dimensioni campionarie sufficientemente elevate si può ritenere accettabile la congettura che la variabile casuale campionaria X- Y - μ x -μ y S x- y dove X e Y sono le due medie campionarie e Sx - y = ( S x2 e S y2 S x2 / m + S y2 / n le due varianze campionarie corrette) ha, nell'universo dei campioni, una distribuzione approssimativamente normale e può pertanto essere utilizzata quale v.c. test. La regione di accettazione di H0 resta definita dall'intervallo -1,96 – 1,96 mentre la regione di rifiuto è data dai due intervalli (- , -1,96) e (1,96 , +). Essendo la determinazione della variabile casuale test sotto l'ipotesi H0 pari a x y sx y 20,2 - 21 1,2 / 120 1,5 2 / 100 2 - 4,30 e quindi non compresa nell'intervallo (-1,96 , 1,96) si rifiuta l'ipotesi formulata di uguaglianza nell'età media degli studenti dei due Atenei al livello di significatività del 5%. Esempio 4.17 Un recente rapporto dell'Istituto Italiano di Ricerche sulla Popolazione afferma che l'età media al matrimonio delle persone che non conseguono il titolo di studio di scuola media superiore è inferiore a quello di coloro che conseguono tale titolo. Si vuole verificare, al livello di significatività del 5% ( = 0,05), tale affermazione avendo a disposizione due campioni casuali di 100 individui delle due categorie ed avendo riscontrato: per coloro che non posseggono un titolo di scuola media superiore un'età media al matrimonio pari a 22,5 anni e una varianza (campionaria corretta) pari a 1,96, mentre quelli che posseggono il titolo hanno evidenziato un'età al matrimonio di 23 anni e una varianza (campionaria corretta) pari a 3,24. Se con x e y si indica l'età media al matrimonio, rispettivamente, di coloro che non posseggono il titolo di scuola media superiore e di coloro che lo posseggono, il problema di test (unidirezionale) da risolvere è H0 :μ x μ y H1 :μ x μ y Essendo la dimensione campionaria sufficientemente elevata, la v.c. campionaria 259 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi X -Y - x - y Sx - y dove X e Y sono le medie campionarie, S X Y S x2 / m S y2 / n , S x2 e S y2 sono le due varianze campionarie corrette, ha, nell'universo dei campioni, distribuzione approssimativamente normale. Pertanto il valore critico -Z = -1,64 individua la regione critica nell'intervallo (-1,64 , +), mentre la regione di accettazione è definita da (- , -1,64). La determinazione empirica della variabile casuale test, quando l’ipotesi nulla H 0 : σ 2x σ 2y è vera, è z= x - y -0 = sx - y 22,5 - 23 1,4 2 / 100 + 1,8 2 / 100 = -0,5 = - 2,18 0,229 che risulta inferiore a -1,64. Si rifiuta pertanto l'ipotesi H0 : x y, concludendo che l'età media al matrimonio di coloro che non hanno conseguito il diploma di scuola media superiore è più bassa dell'età media al matrimonio di coloro che hanno conseguito il titolo. Si indichino con X e Y due variabili casuali normali di medie incognite µx e µy e di varianze pure incognite x2 = y2 = 2. Supponendo di disporre di due gruppi di osservazioni casuali indipendenti sulle variabili X e Y, si possono risolvere i problemi a), b) e c) trattati al punto precedente facendo ricorso alla variabile casuale t di Student anziché alla normale standardizzata. Infatti, essendo la varianza comune alle due popolazioni incognita, si deve sostituire, nella formula precedente, a 2 una sua stima. Così operando si ottiene la variabile casuale X -Y T= S m+ n / m n ~ tm+n-2 dove S2 rappresenta la stima di 2 ottenuta combinando opportunamente (media aritmetica ponderata delle varianze campionarie) le informazioni disponibili. In particolare si ha S 2 m - 1 S x2 n - 1 S y2 mn-2 per m e n dimensioni dei due campioni e 1 m 1 n 2 2 S x2 ( x x ) ; S ( yi y )2 . i y m -1 i 1 n -1 i 1 Si controlla facilmente quanto si già avuto modo di sottolineare a proposito degli intervalli di confidenza, cioè che la variabile casuale T, definita nella relazione sopra scritta, deriva dal rapporto fra una variabile casuale normale standardizzata e la radice di una variabile casuale χ 2 divisa per i propri gradi di libertà. Tale variabile ha legge di 260 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi distribuzione del tipo t di Student con m+n-2 gradi di libertà, poiché le due variabili poste a rapporto sono indipendenti. I valori critici c per i tre casi a), b) e c), considerati al punto precedente, derivano dalle relazioni Caso a) P (T > c / µx = µy) = si accetta l'ipotesi H0 se t < c, si rifiuta altrimenti; P (T < - c / µx = µy) = Caso b) si accetta l'ipotesi H0 se t - c, si rifiuta altrimenti; P (T < - c / µx µy) = /2 Caso c) si accetta l'ipotesi H0 se - c t < c, si rifiuta altrimenti. Dopo aver individuato il valore critico c, mediante l'uso delle tavole della distribuzione t, relativamente al caso che interessa (uno dei tre sopra considerati), si porrà a confronto tale valore critico con la determinazione campionaria specifica t della variabile casuale T. Esempio 4.18 Si consideri la seguente tabella dove vengono riportati i risultati relativi a campioni di osservazioni su due diverse famiglie di mycelio fungino della stessa specie. Famiglia A 246,3 Famiglia B 246,2 247,1 244,9 239,2 257,3 Tab. 4.4 - Peso secco in mg. di mycelio fungino relativo a due famiglie appartenenti alla stessa specie Relativamente al fenomeno che si sta analizzando si può ipotizzare ragionevolmente la normalità delle distribuzioni del peso e, trattandosi di funghi della stessa specie, anche un'uguale variabilità dei risultati in corrispondenza delle due famiglie; in tal caso ci si trova ad operare su due campioni di dimensione m = n = 3 estratti da popolazioni normali di uguale varianza (incognita). Si supponga di voler verificare statisticamente l'ipotesi (di uguaglianza) fra il peso medio, µx, dei funghi appartenenti alla famiglia A ed il peso medio µ y, dei funghi appartenenti alla famiglia B) Ho : µx = µy contro l'ipotesi alternativa H1 : µx µy al livello di significatività = 0,05. La procedura di test da applicare dovrà essere quindi di tipo bidirezionale. 261 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Per quanto detto sopra, il valore critico c (c > 0), suddividerà lo spazio campionario (- — +) relativo alla variabile casuale test T di riferimento, in una zona di accettazione costituita dall'intervallo (- c , c) e in una zona di rifiuto costituita dagli intervalli (( - ,- c) , (c ,+)). Sulle tavole della distribuzione t di Student, in corrispondenza a 4 gradi di libertà, si individua il valore c che soddisfa la relazione P (T < - c/µx = µy) = 0,025 che risulta essere 2,78. Tale valore critico c = 2,78 dovrà essere posto a confronto con la determinazione specifica della variabile casuale T. Dalle informazioni campionarie derivano i seguenti valori x = 247,6 , y = 246,1, s x2 83,17 , s y2 1,22 e quindi S2 = 42,195 . La derivazione specifica della variabile casuale T sarà pertanto t 247,6 246,1 42,195 2 / 3 1,5 0,2828 5,3038 poiché t = 0,28 < c = 2,78 l'ipotesi nulla H0 : µx = µy non viene rifiutata al livello di significatività del 5% ricadendo la determinazione t di T nell'intervallo (- c , c). Tale fatto, comporta sostanzialmente l'accettazione dell'ipotesi che i due campioni provengano da una stessa popolazione, ed una attribuzione delle differenze campionarie riscontrate a fattori aventi carattere puramente accidentale. Nell'esempio specifico, potrebbe interessare una diversa ipotesi alternativa; ad esempio l'ipotesi che il peso medio dei funghi appartenenti alla famiglia A sia più elevato del peso medio dei funghi appartenenti alla famiglia B (H1: µx > µy). In tale eventualità, allo stesso livello = 0,05 di significatività, risulta un valore critico c = 2,13 che comporta come nel caso di ipotesi alternativa bidirezionale, una accettazione dell'ipotesi nulla H 0 : µx = µy.. Esempio 4.19 Si supponga di dover decidere sulla durata di due diverse marche di lampadine di ugual prezzo avendo verificato la durata di 100 lampadine di ciascuna marca e riscontrato i seguenti valori campionari: medie campionarie x = 1.180, y = 1.160, varianze campionarie corrette s x2 = 14.400, s 2y = 1.600. La decisione deve essere presa al livello di significatività = 0,05. Il problema decisionale può essere impostato nei seguenti termini H0 : μ x μ y H1 : μ x μ y o, in modo equivalente H0 : μ x μ y 0 H1 : μ x μ y 0 262 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi dove μ x e μ y rappresentano la durata media delle lampadine, rispettivamente, della prima e della seconda marca. Per risolvere il problema di test d'ipotesi si può fare riferimento alla distribuzione normale essendo sufficientemente elevata la dimensione campionaria. La differenza tra le due medie X Y campionarie avrà, pertanto, nell'universo dei campioni, una distribuzione approssimativamente normale con media μ x μ y e varianza σ x2 y σ x2 / m σ y2 / n Al livello di significatività = 0,05 , i valori critici che individuano la regione di accettazione sono c1 - zα/ 2 - 1,96 e c2 zα/ 2 1,96 . Inoltre, sotto l'ipotesi nulla H0 il valore campionario assunto dalla variabile casuale test è pari a z 1180 1160 14400 1600 / 100 1,58 Essendo il valore 1,58 incluso nell'intervallo (- 1,96 , 1,96) si accetta l'ipotesi di uguale durata delle due diverse marche di lampadine, attribuendo a fattori accidentali la differenza di durata riscontrata nei due campioni. 4.6.2 Confronto tra proporzioni (probabilità) Capita spesso di dover affrontare situazioni in cui interessa accertare se la proporzione di individui o oggetti in due popolazioni distinte siano uguali o diverse. La percentuale degli elettori che voterà per il PD alla prossima consultazione elettorale sarà la stessa in Toscana e in Emilia Romagna? la percentuale dei bambini vaccinati che contrae la poliomielite è inferiore a quella dei bambini non vaccinati? ecc.. Per poter rispondere a tali quesiti si effettua una rilevazione campionaria in ciascuna delle popolazioni di interesse (elettori emiliani ed elettori toscani, bambini vaccinati e bambini non vaccinati, ecc.) e le proporzioni riscontrate nei campioni vengono poste a confronto. Le osservazioni campionarie sono variabili di tipo bernoulliano potendo assumere soltanto i valori 0 (non vota per il PD) ed 1 (vota per il PD). Nella prima popolazione gli indici caratteristici sono μ x p x e σ x2 p x q x , mentre nella seconda popolazione si ha μ y p y e σ 2y p y q y , dove, naturalmente, px è la probabilità di successo (voterà per il PD, non contrarrà la poliomielite, ecc.) nella prima popolazione e py la probabilità di successo nella seconda popolazione. L'ipotesi nulla può assumere la forma H0 : px p y contro l'ipotesi alternativa H1 : px p y (ipotesi bidirezionale) od anche 263 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi H1 : px p y (ipotesi unidirezionali) H1 : px p y Se si suppone di disporre, rispettivamente, di m rilevazioni campionarie dalla prima popolazione e n dalla seconda popolazione, la variabile casuale campionaria p̂ x p̂ y , cioè la differenza tra le proporzioni riscontrate nei due campioni indipendenti avrà nell'universo dei campioni distribuzione di tipo binomiale con media p x p y e varianza x2 / m y2 / n p x q x / m p y q y / n . Sotto l'ipotesi nulla H 0 : p x p y p , cioè se l'ipotesi nulla è vera, la variabile casuale differenza tra proporzioni campionarie avrà media nulla e varianza σ p̂2x p̂ y p q 1 /m 1 /n . Se la dimensione di due campioni è sufficientemente elevata la distribuzione binomiale può essere approssimata dalla distribuzione normale. Pertanto, sotto l'ipotesi nulla H 0 : p x p y p , la variabile casuale campionaria Z pˆ x pˆ y dove, Pˆ a b / m n , Pˆx Pˆy Pˆ Qˆ 1 / m 1 / n Qˆ 1-Pˆ ed a e b rappresentano il numero di successi, rispettivamente, nel primo e nel secondo campione, ha una distribuzione normale standardizzata. La procedura di test da adottare è quella illustrata in precedenza, quando si è fatto riferimento al problema del confronto tra medie per popolazioni normali con identica varianza incognita. Da sottolineare che in questo caso non si utilizza la distribuzione t di Student essendo, per assunzione, elevate le dimensioni campionarie. Esempio 4.20 Effettuata un'indagine di mercato riguardo al gradimento di un nuovo prodotto, due differenti gruppi sociali si sono espressi, rispettivamente, a favore nel 45% e nel 55% dei casi. Avendo inoltre accertato una variabilità nelle risposte (misurata attraverso lo scostamento quadratico medio corretto) pari, rispettivamente 0,04 e 0,03 e sapendo che i due gruppi costituenti il campione degli intervistati sono molto numerosi, si vuole verificare statisticamente, al livello di significatività del 10%, l'ipotesi che la percentuale di soggetti favorevole al nuovo prodotto è più elevata nel secondo gruppo rispetto a quelle del primo gruppo. Se con p x e p y si indicano le due percentuali di soggetti favorevoli al nuovo prodotto nel primo e nel secondo gruppo, il problema di test d'ipotesi è 264 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi H0 : px p y H1 : px p y od anche H0 : p y px 0 H1 : p y px 0 Indicando con p̂ x e p̂ y le percentuali che hanno espresso il loro gradimento del nuovo prodotto, nel primo e nel secondo gruppo sociale, con σ̂ p̂2 y p̂x S p̂2x S p̂2y la varianza stimata della v.c. differenza, e con S p̂2x , S p̂2 y le varianze campionarie corrette riscontrate nei due campioni, tenendo inoltre presente le elevate dimensioni campionarie, la variabile casuale Pˆ Pˆ - p y x y px ˆ Pˆ Pˆ y x ha, nell'universo dei campioni, distribuzione approssimativamente normale (standardizzata) e può essere, pertanto, assunta quale v.c. test di riferimento. Al livello di significatività = 0,1 il valore critico del test (unidirezionale) è z = 1,28, pertanto la regione critica resta individuata dall'intervallo (1,28 , +) mentre la regione di accettazione è data dall'intervallo ( - , 1,28). Poiché, sotto l'ipotesi nulla H0 , la determinazione campionaria delle v.c. test è p̂ y p̂ x σ̂ p̂ y p̂x 0,55 - 0,45 0,04 2 0,03 2 2 1,28 si rifiuta l'ipotesi formulata concludendo che la percentuale di coloro che esprimono gradimento del nuovo prodotto è superiore nel secondo gruppo sociale rispetto al primo gruppo. Esempio 4.21 Ad un campione di 325 studenti di sesso maschile e di 200 di sesso femminile è stato chiesto di esprimersi riguardo all'efficacia di un nuovo ausilio didattico. Tra i maschi 221 si sono espressi favorevolmente mentre sono state 120 le femmine che hanno espresso parere favorevole. I risultati campionari sono indice di una differenza significativa tra maschi e femmine riguardo al loro atteggiamento nei confronti della efficacia del nuovo ausilio didattico? Si vuole risolvere il problema per = 0,05. Il problema di test delle ipotesi assume la forma H0 : px p y H1 : px p y o, in modo equivalente H0 : px p y 0 265 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi H1 : p y px 0 dove px e rappresentano, rispettivamente, la proporzione di maschi e di femmine py favorevoli al nuovo ausilio didattico; ovviamente i valori si riferiscono all'intera popolazione. La variabile casuale campionaria Pˆ Pˆ - p y x y px ˆ Pˆ Pˆ y x dove Pˆx , e Pˆy sono le proporzioni di soggetti favorevoli, riscontrabili nei due campioni, ha, nell'universo dei campioni, una distribuzione approssimativamente normale con media 0 e varianza 1 (normale standardizzata). Al livello di significatività del 5% i valori che definiscono la regione critica sono; c1 - zα/ 2 - 1,96 e c2 zα/ 2 1,96 . Poiché p̂ y 120 / 200 0,60 si ha ˆ p̂x p̂ y p̂ x 221 / 325 0,68 e 0,68 0,32 / 325 0,60 0,40 / 200 0,043 e quindi sotto l'ipotesi nulla H 0 : p x p y , z 0,68 - 0,60 0 / 0,043 1,86 . Essendo il valore campionario 1,86 contenuto nell'intervallo (-1,96 , 1,96) si accetta l'ipotesi nulla di uguaglianza tra le due proporzioni nelle popolazioni attribuendo alla differenza riscontrata nei campioni natura accidentale. 4.6.3 Confronto tra varianze Una logica estensione di quanto sopra detto risulta essere l'analisi del problema relativo al confronto tra varianze di popolazioni normali con medie incognite. Si ammetta di poter disporre di due campioni di osservazioni indipendenti, il primo x x1 , x2 ,...., xm , relativo alla variabile casuale normale X di media μ x incognita e ' varianza σ x2 ; il secondo, y y1 , y2 ,...., yn relativo alla variabile casuale normale Y di ' media incognita μ y e varianza y2 . La variabile casuale espressa dal rapporto tra due variabili casuali indipendenti del tipo divise per i rispettivi gradi di libertà m 1 S x2 F x2 n 1 S y2 y2 / m -1 / n -1 2 2 1 m 1 n Yi Y , ha nell'universo dei campioni X i X e S y2 n 1 i 1 m 1 i 1 legge di distribuzione del tipo F con (m - 1) e (n - 1) gradi di libertà. Infatti, se dove S x2 266 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi l'ipotesi H 0 :σ x2 σ y2 è vera si ha m 1 S x2 / m- 1 σ x2 S x2 . n 1 S y2 / n- 1 S y2 σ y2 Se si vuole quindi risolvere il problema espresso dalle ipotesi H 0 : x2 y2 H 1 : σ x2 σ y2 basterà fissare il livello di significatività , e determinare poi il valore critico c che bipartisce l'intervallo (0 ,+ ) (si ricordi che la variabile casuale F è definita in tale intervallo) in modo che sia P F c / σ x2 σ y2 Si accetta l'ipotesi nulla H 0 :σ x2 σ y2 se la determinazione f sx2 della variabile sy2 S x2 casuale F 2 , relativa al campione specifico, risulta inferiore al valore critico, si Sy rifiuta altrimenti. Esempio 4.22 Un campione di 20 ragazzi e di 15 ragazze è stato sottoposto a una prova d'esame. La votazione media dei ragazzi è stata 78/100, mentre quella delle ragazze è stata 84/100; la variabilità dei risultati, misurata dallo scostamento quadratico medio corretto, è stata, rispettivamente, pari a 6/100 per i ragazzi e 8/100 per le ragazze. Si vuol sottoporre a test l'ipotesi di uguaglianza delle varianze σ x2 e σ 2y nelle due popolazioni contro l'ipotesi alternativa σ x2 < σ 2y , al livello di significatività = 0,05, presupponendo la normalità delle due distribuzioni. Il problema di test d'ipotesi può essere formulato nei seguenti termini H 0 : x2 y2 H1 x2 σ y2 Poiché le variabili casuali S y2 (n - 1) S x2 (m - 1) e σ x2 σ y2 dove m ed n rappresentano le dimensioni campionarie, S x2 e S y2 le varianze campionarie corrette, hanno nell'universo dei campioni distribuzione del tipo 2 con, rispettivamente,(m - 1) 267 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi ed (n - 1) gradi di libertà ed essendo i due campioni indipendenti, la variabile casuale m - 1 S x2 Fm ,n / m - 1 2 S x2 y σ x2 S y2 x2 n - 1 S y2 / n - 1 σ 2y è distribuita secondo una F di Fisher-Snedecor con (m-1) e (n-1) gradi di libertà. Sotto l'ipotesi nulla H 0 : x2 y2 , cioè quando l'ipotesi nulla è vera, la variabile casuale diventa S x2 F 2 Sy Il valore critico che definisce la zona di accettazione al livello = 0,05 di significatività è c Fm,n; = 1 Fn ,m; 1 2,26 , che rappresenta la particolare determinazione della variabile casuale F, con 15-1 = 14 e 20-1 = 19 gradi di libertà e che ha alla sua destra il 5% dei casi. Essendo il valore campionario F 82 1,78 62 inferiore al valore critico 2,26 si accetta l'ipotesi di uguale varianza attribuendo a fattori accidentali la differenza riscontrata nel campione. Esempio 4.23 Lo scostamento quadratico medio dello spessore di una particolare lamina metallica già in commercio è sufficientemente ridotto, il che consente un suo facile utilizzo nella fase di assemblaggio della componente stessa. Un nuovo produttore di lamine metalliche afferma che il suo prodotto, offerto ad un prezzo inferiore, presenta una variabilità dimensionale non superiore a quello già presente nel mercato. Due campioni casuali di 100 lamine dei due prodotti vengono sottoposti a misurazione evidenziando i seguenti risultati S x2 100 x x i / 99 0,041 i y / 99 0,058 2 i 1 per il prodotto X già presente sul mercato, S y2 100 y i 1 2 per il nuovo prodotto Y. Si chiede se risulta conveniente procedere all'acquisto del nuovo prodotto al livello di significatività del 5%. Le ipotesi per il problema sono H 0 : σ 2x σ 2y 268 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi H 1 : σ x2 σ y2 La variabile casuale test di riferimento m - 1 S x2 σ x2 n - 1 S y2 σ y2 / m - 1 / n - 1 S x2 y 2 2 Sy x 2 ha, nell'universo dei campioni una distribuzione del tipo F di Fisher-Snedecor con (m - 1) e (n - 1) gradi di libertà. Nel caso specifico, e sotto l'ipotesi H0 (cioè quando l'ipotesi nulla all’estremo dell’intervallo di definizione H 0 : σ 2x σ 2y è vera), si ha il valore critico c = 1,39. La regola di decisione è quella di rifiutare l'ipotesi H0 se l'F empirico è superiore a 1,39 mentre di accettare l'ipotesi se l'F empirico è inferiore a 1,39. Essendo F 0,041 0,7069 1,39 si accetta l'ipotesi H0 concludendo che, avendo una 0,058 probabilità di sbagliare del 5%, la variabilità nello spessore delle nuove lamine non è inferiore o uguale a quello delle vecchie lamine e non si procede al cambiamento del fornitore. 4.6.4 Confronto per dati appaiati Nelle pagine precedenti è stato considerato il problema del confronto fra due campioni nell'ipotesi di indipendenza assoluta tra gli elementi che li compongono; nel lavoro di ricerca può accadere però di dover analizzare situazioni nelle quali una tale condizione non risulta completamente soddisfatta. Può accadere cioè che tra le osservazioni, relative ai due campioni che devono essere sottoposti a confronto, esista una qualche relazione in modo tale da rendere possibile un confronto diretto fra ogni osservazione di un campione con la controparte dell'altro campione. Un esempio classico è rappresentato dal caso in cui le coppie di osservazioni siano relative ad una stessa unità statistica (la stessa unità sperimentale prima della cura e dopo la cura, il fatturato di una stessa azienda prima e dopo una specifica campagna pubblicitaria, ecc.), anche se vanno naturalmente riferite, almeno a priori, a due differenti popolazioni. Si indichi con ( Xi ,Yi ) l'i-esimo elemento di un insieme costituito da n coppie di osservazioni, e si assuma che la differenza Vi = Xi - Yi (i = 1, 2,...,n) rappresenti un'unità campionaria casuale relativa ad una popolazione normale di media v e varianza v2 . Allora la variabile casuale T V v Sv / n 269 ~ t n 1 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi n 1 n 2 V X Y e S (Vi V )2 /(n 1) i v n i 1 i 1 ha, nell'universo dei campioni, una distribuzione del tipo t di Student con n-1 gradi di libertà. Utilizzando la variabile casuale test T espressa nella formula sopra scritta sarà possibile sottoporre a test l'ipotesi H 0 : μ v 0 , contro un'ipotesi alternativa dove : V bidirezionale o unidirezionale, seguendo di pari passo la procedura esposta al punto precedente. Esempio 4.24 Si supponga di voler confrontare due diversi metodi di misura della percentuale di amido presente in un particolare tipo di patate. Si fissa a tal fine un livello di significatività = 0,05 e si effettuano le due misurazioni su sedici patate. I risultati dell’operazione di misura, e le differenze riscontrate in ciascuna patata, sono riportati nella tabella che segue n.progressivo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Percentuale di amido Metodo di mis A Metodo di mis B (x) (y) 21,7 21,5 18,7 18,7 18,3 18,3 17,5 17,4 18,5 18,3 15,6 15,4 17,0 16,7 16,6 16,9 14,0 13,9 17,2 17,0 21,7 21,4 18,6 18,6 17,9 18,0 17,7 17,0 18,3 18,5 15,6 15,5 Differenze 0,2 0,0 0,0 0,1 0,2 0,2 0,3 -0,3 0,1 0,2 0,3 0,0 -0,1 0,1 -0,2 0,1 Tab. 4.5 - Percentuale di amido presente in 16 patate Dai dati della tabella si ottiene v 0,075 ; sv 0,17 ne risulterà pertanto una determinazione campionaria della variabile casuale T pari a 0,075×4 = 1,7 0,17 Se interessa sottoporre a test l'ipotesi nulla H 0 : μ v 0 contro l'ipotesi alternativa t = 270 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi H 1 : μ v 0 (che sono equivalenti a H0 : µx = µy e H1 : µx µy), si deve ricercare il valore critico c che soddisfa la relazione P ( -c T c) = 0,95 Dalle tavole della distribuzione t di Student, in corrispondenza a 15 gradi di libertà, risulta c = 2,131 Essendo t = 1,7 < c = 2,131, si deve accettare la ipotesi di uguaglianza tra i due metodi di misura della percentuale di amido nelle patate. Esempio 4.25 I corsi per la lettura veloce dei testi sono ormai abbastanza popolari e diffusi. Si supponga che una particolare azienda di fornitura di servizi abbia fatto partecipare dieci suoi dipendenti, scelti casualmente, ai suddetti corsi e che abbia registrato i seguenti risultati Impiegato 1 2 3 4 5 6 7 8 9 10 Valutazione capacità di lettura dopo il corso 221 231 203 216 207 203 201 179 179 211 Valutazione capacità di lettura prima del corso 211 216 191 224 201 178 188 159 177 197 La valutazione della capacità di lettura risulta da una combinazione della velocità e della comprensione del testo letto. Cosa si può concludere riguardo all'efficacia del corso? La valutazione delle capacità di lettura è stata effettuata sugli stessi individui prima e dopo la partecipazione al corso, si tratta perciò di dati appaiati del tipo (xi , yi ), dove yi rappresenta la valutazione dopo la partecipazione al corso mentre xi la valutazione prima della partecipazione. Se si indicano con x e y le valutazioni medie teoriche relative alle due situazioni (prima e dopo il corso) configurate, il problema di verifica d'ipotesi ha la seguente formulazione H0 : μ x μ y H1 : μ x μ y e può essere risolto facendo riferimento alla variabile casuale test T V v Sv / n dove 271 ~ t n 1 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi 1 V= n (Y - X ); μ =μ - μ Sv = 1 n-1 n i i v x y i=1 Y - X -V n i 2 i i=1 che, nell'universo dei campioni, ha distribuzione t di Student con n-1 gradi di libertà. Sotto l'ipotesi H0, per 10-1 = 9 gradi di libertà e al livello di significatività = 0,01, il punto critico (test unidirezionale) è t = 2,82. La regola di decisione è quello di rifiutare l'ipotesi H0 se il t empirico è 2,82 accettare l'ipotesi se il t empirico è inferiore a 2,82. Poiché v = 10,9;sv = 9,28 il t empirico t= v sv / 10 = 10,9 = 3,715 9,28/ 10 è maggiore di 2,82 ,si rifiuta, pertanto, l'ipotesi d'uguaglianza con una probabilità d'errore dell’1%. Si rifiuta cioè l'ipotesi che la partecipazione al corso non abbia influenza sulla capacità di lettura degli individui che ne fruiscono. Si deve sottolineare che per la risoluzione dei problemi di confronto considerati nei due esempi precedenti si poteva fare riferimento, presupponendo l'indipendenza dei due campioni, alla variabile casuale test T; in tal caso la stima della varianza incognita 2 σ 2 x σ y2 σ 2 si poteva ottenere, come abbiamo visto, attraverso una combinazione delle stime calcolate sui singoli campioni. Si deve, però, osservare che il test t applicato alle coppie di osservazioni, presenta il vantaggio d'eliminare l'influenza di fattori estranei in quanto essi, avendo lo stesso effetto su ciascuna unità campionaria, verrebbero a compensarsi nelle differenze vi. Va inoltre detto che la procedura di test basata sulla singola osservazione, almeno così come è stata esposta, parte dall'assunto che i dati campionari derivino da popolazioni con identica varianza mentre la procedura di test sopra esposta non richiede il soddisfacimento della condizione di uguaglianza delle varianze delle due popolazioni. Nel caso in cui sia soddisfatta la condizione 2 x y2 2 e si abbia ragione di ritenere che i risultati sperimentali non siano influenzati da fattori estranei (campioni indipendenti), è da preferire la procedura di test esposta al punto precedente. Infatti, con una tale procedura si opera disponendo di (2n-2) gradi di libertà, il che implica una potenza del test, rispetto alla potenza del test svolto in questo punto, che è basato su (n-1) gradi di libertà, tanto più elevata quanto più piccola è la dimensione del campione. 4.6.5 Determinazione della dimensione campionaria Così come per il caso di campioni estratti da una sola popolazione, anche quando si 272 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi affronta il problema del confronto tra campioni estratti da due diverse popolazioni, si può aver interesse nell'introdurre un vincolo sul livello H1 della potenza del test per un prefissato livello di significatività. Si supponga, ad esempio, che in riferimento a popolazioni normali una differenza μ x μ y 10 sia rilevante e che si vuole, essere relativamente sicuri nell'individuare una tale differenza. In termini tecnici tale obiettivo si traduce nell’individuazione di un test con potenza sufficientemente elevata. Se si fissano i livelli = 0,05 e = 0,70, il problema sopra posto può essere risolto formulando l'ipotesi nulla H0 : x y 0 contro l'ipotesi alternativa H 1 : μ x μ y 10 La variabile casuale test X Y - μ x μ y σ x- y dove σ x2 e σ 2y X Y - μ x μ y σ x2 / m σ y2 / n sono le varianze delle due popolazioni m e n le dimensioni campionarie sotto l'ipotesi nulla H 0 : x y 0 ed al livello di significatività = 0,05 deve soddisfare la relazione X -Y P 1,645 0,05 x- y ed anche P X - Y 1,645 x - y 0,05 Il vincolo sulla potenza si traduce nella relazione X - Y - 10 1,645 x - y - 10 0,70 P x- y x- y Sapendo che il valore della variabile casuale normale standardizzata Z che ha alla sua destra il 70% dei casi è pari a -0,524 si avrà 1,645 - 10 / x-y - 0,524 ed anche x2 y σ x2 / m σ y2 / n 10 2 / 1,645 0,524 2 dal quale si possono ricavare i valori di m fissando n o, alternativamente, i valori di n fissando m od anche, se si ipotizza pari dimensione v=m=n i valori di v che soddisfano il vincolo sulla potenza. 273 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi Se, ad esempio, si suppone che σ x2 σ y2 12 e che la dimensione campionaria relativa alla prima popolazione sia m = 7, la dimensione n del secondo campione, al livello = 0,05 di significatività e con potenza = 0,70 è data dalla relazione 144 / 7 + 144 / n ≤ 100 / 1,645 + 0,524 2 che fornisce n ≥ 210. Per = 0,05 e = 0,70 e σ x2 σ y2 12 , la dimensione campionaria v per ciascun campione si ottiene dalla relazione 144 / v + 144 / v ≤ 100 / 1,645 + 0,524 2 che da v = m= n ≥ 13,549. Si sottolinea che la parità nella dimensione dei due campioni, non solo non richiede la specifica preliminare della dimensione di uno dei due campioni, che può anche risultare più che ragionevole in certe situazioni di ricerca (dimensione campionaria necessariamente ridotta per ragioni di costo o altra natura) la dimensione campionaria complessiva pari m+n=28 che soddisfa il vincolo sulla potenza è nettamente inferiore a quella necessaria quando si fissa la dimensione di uno dei due campioni a livello molto contenuto come nel caso sopra considerato (m = 7). Per contro, se ad es. si fissa m=12, a parità delle altre condizioni, il valore di n che deriva dalla relazione 144 / 12 + 144 / n ≤ 100 / 1,645 + 0,524 2 deve soddisfare la disuguaglianza n ≥ 15,558. Esempio 4.26 Per effettuare una verifica dell'effetto di un vaccino contro la poliomielite si deve pianificare la rilevazione (dimensionare il campione) in modo da ottenere risultati significativi sia in termini di probabilità dell'errore di I tipo sia, per le ovvie e rilevanti conseguenze, in termini di probabilità dell'errore di II tipo. Vista la scarsa diffusione della malattia, ci si deve aspettare una dimensione campionaria molto elevata sia nei confronti dei soggetti vaccinati che di quelli non vaccinati. Supponendo che la proporzione di bambini colpiti da poliomielite sia di 30 su 100.000 (cioè 0,0003), e che il vaccino sia effettivo al 50%, il che implica una riduzione del tasso al valore 0,00015, appare ragionevole imporre la condizione di aver un'elevata probabilità, ad es. pari a 0,90 (= = 1-), di evidenziare una tale differenza. Imponendo l'uguaglianza delle due dimensioni campionarie m = n si ottiene la seguente particolarizzazione della formula sopra introdotta 274 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 4. Test delle ipotesi m n dove z e z p x qx p y q y p x py z z 2 2 sono le convenienti determinazioni della variabile casuale normale standardizzata ottenuta in funzione dei prefissati livelli delle probabilità di errore e . Se si assume, quindi, p x = 0,00015, p y = 0,0003, = 0,05 e = 0,10, si avrà 0,00015× 1 - 0,00015 + 0,003× 1 - 0,0003 n 0,00015 - 0,0003 2 275 1,6450 + 1,282 2 = 171,400. Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Cap. 5 – Modello statistico lineare CAP. 5 – MODELLO STATISTICO LINEARE Introduzione Si supponga che la manifestazione di uno specifico fenomeno, ad esempio la domanda di un certo bene di consumo da parte delle famiglie, sia indicata con y e che sia possibile osservare n manifestazioni del fenomeno stesso y1 , y 2 ,...., yi ,...., y n . Si ipotizzi, inoltre, che altri caratteri, ad esempio reddito disponibile, prezzo del bene, prezzo di beni sostitutivi, ecc., influiscano sulle determinazioni y i . Se con x1 , x2 ,...., x j ,...., xm si indicano tali caratteri, è ipotizzabile tra la variabile y e le variabili xj una relazione del tipo y f x1 , x2 ,...., x j ,...., xm che, per ciascuna unità statistica di osservazione (ad es. la famiglia), diventa yi f x1i , x2i ...., x ji ,...., xmi per i = 1,2……,n. Si supponga ora che le m variabili xj possano essere distinte in tre gruppi: le prime k variabili x1 , x2 ,...., xk rappresentano fenomeni osservabili e sono molto influenti sul fenomeno y , le successive h variabili ( xk 1, xk 2 ,...., xk h ) , sempre molto influenti su y, non sono osservabili, mentre le residue variabili xk h1 , xk h2 ,...., xm sono poco influenti su y. Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può riscrivere la relazione precedente nel modo seguente y f x1 , x2 ,...., xk , xk 1 , xk 2 ,...., xk h v dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti. Essendo, comunque, non osservabili le variabili ( xk 1 , xk 2 ,...., xk h ) si è costretti ad introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti, la relazione iniziale diventa y f x1 , x2 ,...., xk w v dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili. Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto accettabile e compromettere, quindi, la capacità rappresentativa del modello. Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha y 0 1 x1 .... k xk z w v dove z rappresenta l’effetto non lineare su y delle variabili x1 , x2 ,...., xk . 277 La relazione (modello analitico rappresentativo del legame tra il carattere y, variabile dipendente o variabile endogena, ed i caratteri x1 , x2 ,...., xk , variabili indipendenti o variabili esplicative o variabili esogene) può essere riscritta nella forma y 0 1 x1 .... k xk u dove u z wv rappresenta la cosiddetta componente accidentale e y * 0 1 x1 .... k xk rappresenta la componente sistematica del modello. Si sottolinea che la linearità è riferita ai coefficienti variabili x1 , x2 ,...., xk , cioè, la generica variabile xi 0 , 1 ,...., k e non alle può rappresentare, sia la manifestazione osservata x di un fenomeno che si ritiene influente su y , sia qualunque trasformazione nota di tale manifestazione ad esempio x2, x3, 1/x, log x, o anche l’effetto combinato di più variabili (interazione) x1 x2 , x3 x5 , x1 x2 xk , ecc, . Il modello statistico lineare sopra definito assume diverse caratterizzazioni in relazione alla natura delle variabili inserite nel modello stesso. Se tutte le variabili, sia la variabile dipendente y che le variabili esplicative xi (i = 1, 2, …., k), sono quantitative, espresse cioè con scala di intervallo o di rapporto, il modello viene detto di regressione lineare. Nel caso in cui la variabile dipendente ha natura quantitativa mentre le variabili esplicative hanno natura qualitativa, sono cioè variabili categoriche (mutabili statistiche), si parla di modello di analisi della varianza (ANOVA quale acronimo di ANalysis Of VAriance). Quando alcune variabili esplicative hanno natura qualitativa ed altre natura quantitativa e la variabile dipendente è quantitativa, il modello viene detto di analisi della covarianza (ANCOVA quale acronimo di ANalysis of COVAriance). Nel caso in cui, è la variabile dipendente ad avere natura qualitativa mentre le variabili indipendenti sono quantitative si parla di modelli Logit, Probit e Tobit in relazione alla trasformazione cui viene assoggettata la variabile dipendente yi che per la sua natura politomica viene usualmente espressa dal simbolo ij che indica la probabilità che ha l’i-esima osservazione (i = 1, …, n) di ricadere nella j-esima categoria (j = 1, …, m) della variabile risposta, cioè, ij P(Yi j ) per (j = 1, …, m)1. Dei modelli richiamati, in questa sede si procederà alla descrizione sufficientemente dettagliata del solo modello di regressione lineare (semplice e multipla) e del modello di analisi della varianza (sia nella formulazione classica, collegato al piano o disegno degli esperimenti, sia nella sua espressione in termini di modello di regressione) segnalando, però, che se nel modello di regressione multipla si ipotizza per la componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli 1 Nelle situazioni di ricerca nelle quali i dati raccolti sono riferiti a variabili categoriche, e che usualmente vengono rappresentati in tabelle di contingenza (tabelle che riportano le frequenze delle osservazioni che ricadono nelle varie combinazioni delle categorie relative alle diverse variabili), se una delle variabili viene trattata come variabile dipendente (variabile risposta), il riferimento sono sempre i modelli logit, probit o tobit, se invece tutte le variabili vengono trattate alla stessa stregua (in modo simmetrico) i modelli di riferimento vengono detti Log-lineari. Di particolare interesse, soprattutto per le loro implicazioni operative, sono i modelli proposti in letteratura per trattare i dati categorici di tipo ordinale. Sull’argomento si può consultare, tra gli altri, McCullagh e Nelder (1989). 278 elencati possono essere trattati in maniera unitaria rappresentando particolari specificazioni di un’unica categoria che è quella dei modelli statistici lineari generalizzati (Nelder e Wedderburn, 1972). 5.1 - Modello di regressione lineare semplice Se si dispone di n osservazioni per ciascuna osservazione varrà la relazione: yi yi* ui β0 β1 x1i β2i x2i βk xki ui per i 1,2,...., n Per k = 1 , e ponendo x1 x , si ottiene l’espressione del modello di regressione lineare semplice (una sola variabile esplicativa) y β0 β1 x u y* u dove y* β0 β1 x , che per le n osservazioni disponibili, diventa yi yi* ui β0 β1 xi ui per i 1,2,....,n. Si ricorda che x i può rappresentare, sia la manifestazione diretta (osservazione) del fenomeno rappresentato con il simbolo algebrico x, sia una qualunque trasformazione nota di tale manifestazione o combinazione nota delle variabili esplicative. Se si dispone di n coppie di osservazioni yi , xi sulle due variabili di interesse e si procede alla loro rappresentazione nel piano cartesiano, Fig. 5.1 e Fig. 5.2, che evidenziano, rispettivamente, il caso di una sola osservazione y i (i = 1,2,….,n) in corrispondenza di ciascuna modalità x i (cfr. Fig. 1), e il caso di più osservazioni y ij ( i 1,2,....., s; j 1,2,...., ni ) in corrispondenza di ciascuna modalità x i (cfr. Fig. 5.2). y y . . . . .. . ... . . .. . . . . . . . ... . . . .. . . . . .… . x Fig, 5.1 – Distribuzione ipotetica di coppie di osservazioni (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). 279 . . * . . y . . . * . . xx1 . . . * . . . . . * . . . . * . . . . * . . Spezzata di regressione Costruita sulle medie delle distribuzioni condizionate . x2 x3 ………. x ……………….. x i x xs s-1 Fig. 5.2 - Distribuzione ipotetica di coppie di osservazioni (più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). In entrambe le situazioni prospettate è ipotizzabile una relazione di tipo lineare tra le due variabili; infatti, si può osservare come le due rette sovrapposte alle nuvole di punti (cfr. Figg: 5.3 e 5.4) rappresentino in modo abbastanza soddisfacente l’andamento dei punti stessi. yi* 0 1 xi per i = 1,2,…..,n. y y . . .. . . . . . . x . . . . .. . x Fig, 5.3 – Distribuzione ipotetica di coppie di osservazioni e retta interpolante (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). 280 . . * . . y Retta di regressione . . . * . . xx1 . . . * . . . . * . . . . * . . . . . * . . Spezzata di regressione Costruita sulle medie delle distribuzioni condizionate . x2 x3 ………. x ……………….. x i s-1 xs x Fig. 5.4 - Distribuzione ipotetica di coppie di osservazioni e retta interpolante (più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). Di rette sovrapponibili ai punti ne esistono un numero infinito, si tratta, allora, di individuare quella ritenuta migliore sulla scorta di un prefissato criterio di ottimalità, Il problema dal punto di vista statistico è, dunque, quello di procedere alla stima ottimale dei due parametri incogniti (coefficienti che definiscono la retta) β 0 (intercetta) e β 1 (coefficiente di regressione) o, più in generale, utilizzare le n coppie di informazioni campionarie yi , xi per “fare” inferenza sul modello lineare che si ritiene possa rappresentare in maniera soddisfacente il legame che sussiste tra le due variabili di interesse e che in una sorta di popolazione teorica (super-popolazione) dovrebbe, prescindendo dalla componente accidentale, risultare di tipo deterministico. Se la relazione fosse perfetta in corrispondenza di ciascun valore x i si dovrebbe osservare un unico valore y i uguale ad y i* , in realtà, come già sottolineato, una tale eventualità si riscontra molto raramente nella pratica operativa: la componente sistematica del modello spiega soltanto una parte della variabile dipendente; ad esempio, se si pensa che la domanda di un certo bene dipenda dal reddito disponibile è abbastanza ovvio ipotizzare che non tutti i soggetti in possesso di uno stesso ammontare di reddito domandino la stessa quantità del bene, la relazione tra reddito (variabile x) e quantità del bene domandato (variabile y ) è, pertanto del tipo yi yi* u i e non yi yi* . Nel modello introdotto le quantità note sono dunque y i ed x i mentre le quantità non note sono β 0 , β 1 e, quindi, y i* e u i . Si tratterà allora di utilizzare le informazioni campionarie disponibili per procedere ad una stima (puntuale o di 281 intervallo) delle entità incognite e, eventualmente, alla verifica di ipotesi statistiche sulle entità stesse. Le stime 0 e 1 di β 0 e β 1 consentono di ottenere i valori stimati sia di * * y i* , y i 0 1 xi , che di u i , ui yi y i . 5.1.1 Ipotesi di specificazione (caso A) Sul modello di regressione lineare semplice vengono usualmente introdotte delle ipotesi che specificano le condizioni di base che si ritiene, quantomeno in via di prima approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo particolare il modello stesso che viene detto modello classico di regressione lineare semplice. Le ipotesi di specificazione riguardano la variabile (esplicativa o indipendente) x i e, soprattutto la componente accidentale u i : 1. le x i (i = 1,2,….,n) sono quantità costanti in ripetuti campioni, sono, cioè, o variabili matematiche o determinazioni di variabili casuali, in quest’ultimo caso l’analisi viene effettuata condizionatamente ai valori x1 , x2 ,...., xn ; 2. le variabili casuali ui hanno valore atteso (media) nullo E ui 0 per i = 1,2,….,n ; 3. le variabili casuali u i hanno varianza costante (omoschedasticità) Var ui E ui2 2 per i = 1,2,….,n; 4. le variabili casuali u i sono incorrelate (incorrelazione) Cov ui ,u j E ui ,u j 0 per i j = 1,2,….,n. Le conseguenze sulle variabili yi (anche esse variabili casuali in quanto trasformazioni lineari di variabili casuali) 2 delle ipotesi introdotte sono: E yi E yi /xi β0 β1 xi yi* per i = 1,2,… ,n; a. b. c. V ar yi Var yi /xi σ 2 C ov yi , y j 0 per i = 1,2,…,n; per i j = 1,2,…,n. Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima puntuale dei due coefficienti incogniti 0 e 1 . Se con β̂ 0 e con β̂ 1 si indicano le due stime ottenute, ne risulta di conseguenza che la stima di y i* è, come già sottolineato, data da ŷi* β̂ 0 β̂ 1 xi per i = 1,2,…,n 2 Si noti che per semplicità di notazione è stato utilizzato il carattere minuscolo yi per indicare sia le variabili casuali che le loro determinazioni, dal contesto risulta chiara la natura assunta dal carattere. La stessa soluzione è stata adottata anche per altri caratteri. 282 mentre la stima di ui e data da ûi yi ŷi* che viene detto residuo di regressione o errore di regressione. Inoltre, a ragione dell’ipotesi E ui 0 , si ha yˆ i* βˆ 0 βˆ1 xi yˆ i . 5.1.2 Stima dei minimi quadrati Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli statistici lineari, il modello classico di regressione lineare costituisce la specificazione più semplice di tale classe di modelli. Se si pone Q β0 , β1 y n i 1 i yi* 2 y n i 1 i β0 β1 xi 2 il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori β 0 e β 1 che minimizzano la somma dei quadrati degli scarti sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il cui punto di massimo è infinito) della funzione Q β 0 ,β 1 che si ottiene risolvendo il sistema: Q β0 , β1 0 β0 Q β0 , β1 0 β1 che diventa n Q β0 , β1 n n 2 y β β x 2 y n β β i 0 1 i i 0 1 xi 0 β0 β0 i 1 i 1 i 1 n n Q β0 , β1 n n 2 y β β x 2 y x β x β xi2 0 i 0 1 i i i 0 i 1 β1 β1 i 1 i 1 i 1 i 1 cioè n n yi n β0 β1 xi i 1 n i 1 y i xi β 0 i 1 n n i 1 i 1 xi β 1 xi2 Risolvendo il sistema delle due equazioni nelle due incognite 0 e 1 si ottiene β̂ 0 y β̂ 1 x 283 n βˆ1 x i 1 n x i 1 x yi i i x 2 Codev y,x σ xy 2 b y/x Devx σx 1 1 n y i e x xi . n i 1 n i 1 E’ possibile a questo punto riproporre le Figg. 5.3 e 5.4 dove le rette interpolanti non sono più rette generiche ma quelle (cfr. Figg. 5.5 e 5.6) che derivano dall’applicazione del metodo dei minimi quadrati (rette dei minimi quadrati). Nella Fig. 5.6 è stata inserita anche l’ipotesi di normalità dei valori assunti dalla variabile y in corrispondenza di ciascun valore assunto dalla variabile x ; ma su quest’ultimo aspetto si avrà modo di tornare successivamente. dove y n y . . .. . . . . y . . . . . . . . . yˆ i * yˆ i ˆ0 ˆ1 xi x x Fig, 5.5 – Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (una sola osservazione y in corrispondenza di ciascuna modalità osservata della x ). y . . . .. . . . .. . . . x1 x2 . . . . . . xi . . . .. . . xk yˆ i * yˆ i ˆ0 ˆ1 xi x Fig. 5.6 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (più osservazioni di y in corrispondenza di ciascuna modalità osservata della x ). 284 Le varianze degli stimatori sono: 2 1 x 2 σ 2 Var β̂ 0 σ β̂ 0 n n xi x 2 i 1 1 Var β̂ 1 σ β̂21 n σ 2 2 xi x i 1 2 x x 2 1 n i 2 n x j x j 1 ˆ yˆ * 2* Var i yˆ i infatti, valendo le relazioni di uguaglianza: x x yj n 1 n βˆ0 y βˆ1 x y j n j 1 j 1 j n x x i 1 x 2 i n 1 xj x x y j aj y j n 2 j 1 n j 1 xi x i 1 n dove a j 1 xj x x 2 n n xi x i 1 x n βˆ1 j 1 n j x yj x x i 1 dove b j 2 i n x x y j bj y j n j 2 j 1 j 1 xi x i 1 n xj x n x x i 1 2 i 1 x x x x y n c y yˆ i* n i j j j j 2 j 1 n j 1 xr x r 1 x x x x 1 dove c j n i j 2 n xr x n r 1 285 e ricordando che la varianza di una combinazione lineare di variabili casuali indipendenti è pari alla combinazione delle varianze delle singole variabili casuali con coefficienti elevati al quadrato si ha: V ar ai y i i 1 n n ai2 Var yi i 1 n σ 2 ai2 i 1 da cui: Var Var βˆ 0 n 1 n j 1 Var βˆ1 2 n j 1 n n n 1 x j x x 2 a j y j a j var y j n j 1 j 1 j 1 n x i x 2 i 1 x j x 2 x 2 n xi x 2 2 i 1 σ2 1 n x n x i 1 i 2 x x x σ2 Var b j y j b2j var y j n j 2 j 1 j 1 j 1 xi x i 1 n n 2 n 286 2 σ2 σ2 1 n x x i 1 i σ2 2 2 Var yˆi* Var n n n 2 x x i x x σ 2 1 c y c var y j j j j j n 2 j 1 j 1 n j 1 x x r r 1 n n 1 2 j 1 n j 1 2 x x i x x 2 j n 2 x x r r 1 1 x x i x x j n 2 j 1 n xr x r 1 n σ2 ma 1 x x 1 i x x j n 2 n j 1 n xr x r 1 ed anche xi x n n j 1 n x r 1 r x n x 2 j 1 j x 0 2 2 xi x x x xi x j n 2 2 n 2 x x r xr x r 1 r 1 x n j 1 x 2 j xi x n x r 1 r 2 x 2 quindi 2 1 x x σ 2 Var yˆi* n i 2 n xr x r 1 Seguendo la stessa procedura, risulta facile anche la derivazione della covarianza tra le due variabili casuali stima β̂ 0 e β̂ 1 1 xj x x x x x n j σ2 n Cov βˆ0 , βˆ1 n σ2 2 2 2 j 1 n xi x xi x xi x i 1 i 1 i 1 Per quanto sopra detto si ottiene ŷi* β̂ 0 β̂ 1 xi y β̂ 1 x β̂ 1 xi y β̂ 1 xi x n Se si procede al calcolo della varianza dello stimatore yˆ i* basandosi su questa espressione si ha: 287 Var yˆ i* σ y2ˆ* Var βˆ 0 βˆ1 xi Var βˆ 0 xi2Var βˆ1 2 xi Cov βˆ 0 ,βˆ1 i 2 1 x 1 x σ 2 x2 n σ 2 2 xi n σ2 i n n xi x 2 x i x 2 x i x 2 i 1 i 1 i 1 2 xi x 2 1 n σ n 2 x j x j 1 che coincide con l’espressione già ottenuta. Si sottolinea che le stime dei minimi quadrati godono delle proprietà specificate dal teorema che segue. Teorema 1 (Gauss-Markov): Le stime dei minimi quadrati di 0 e 1 sono di minima varianza nell’ambito delle stime lineari e corrette (BLUE dall’inglese Best Linear Unbiased Estimator). Dimostrazione Si procederà alla dimostrazione per ˆ1 , considerazioni analoghe possono essere svolte nei confronti di ˆ . 0 Lo stimatore ˆ1 è lineare e corretto; infatti: x n βˆ1 j 1 j x y j n x i 1 x 2 i xj x n 2 j 1 xi x i 1 n n y b y (linearità) j j j j 1 inoltre n x x j ˆ E β1 E n j 1 2 xi x i 1 n x x j y j n j 1 2 xi x i 1 E y j (correttezza) n x j x j x n x x j j 1 x n 1 1 1 j n 0 2 2 j 1 xi x xi x i 1 i 1 Si consideri ora un generico stimatore lineare e corretto di 1 , ad esempio ˆ n ˆ1 j y j , dove, per il vincolo di correttezza deve risultare j 1 288 n n n ˆ E ˆ1 E j y j j E y j j 0 1 x j 1 j 1 j 1 j 1 cioè n j 1 j n 0 e j 1 j x j 1. ˆ Tenendo conto di quanto sopra scritto, si dimostra che Varˆ1 Varˆ1 . ˆ Var ˆ1 2j Var y j 2 2j 2 j b j b j j 1 j 1 j 1 n n n 2 dove b j n 2 xi x i 1 xj x n n n 2 2 j b j b 2j 2 j b j b j j 1 j 1 j 1 n n n n 2 2 j b j 2 b 2j 2 j b j b 2j j 1 j 1 j 1 j 1 2 j b j n j 1 2 n j xj ˆ Var 0 2 n j 1 xi x i 1 n j x j 1 x x 2 n i 1 n 2 i j 1 n i 1 1 2 xi x per il vincolo della correttezza n j 0 e j 1 n j 1 j xj quindi ˆ Var ˆ1 2 n j 2 b j Var ˆ1 Var ˆ1 j 1 dove, il segno di uguaglianza vale solo quando j b j . Come si può osservare le varianze degli stimatori β̂ 0 , β̂ 1 e ŷ i* dipendono dalla varianza 2 (parametro di disturbo), usualmente incognita, della componente accidentale. Una stima corretta di tale parametro è data da y n ˆ 2 i ŷi* 2 n û 2 i i 1 n2 n2 * dove, come già sottolineato, ûi yi ŷi rappresentano i residui di regressione (cfr. i 1 Fig. 5.7), mentre la stima della varianza della componente accidentale viene usualmente detta varianza residua e misura la parte (stimata) della variabilità della y i (variabile dipendente) non spiegata dalla variabile esplicativa x i (variabile indipendente). 289 Da quanto detto risultano le seguenti stime delle varianze degli stimatori ˆ 2ˆ σˆ β2ˆ ˆ Var ˆ0 ˆ Var βˆ1 2 1 x ˆ 2 n 2 n xi x i 1 1 n σˆ 2 2 xi x 0 1 i 1 xi x 2 1 n n x j x 2 j 1 Vˆar yˆ i* ˆ y2ˆ * i ˆ2 σ y uˆ2 . uˆ1 . x1 ûk . . . . .. . . .. . . . yˆ i * yˆ i ˆ0 ˆ1 xi ûi . x2 . xi xn x Fig. 5.7 - Distribuzione ipotetica di coppie di osservazioni, retta dei minimi quadrati e residui di regressione 5.1.3 Ipotesi di specificazione (caso B: normalità della componente accidentale) Se alle quattro ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore ipotesi di normalità della distribuzione della componente accidentale ui N 0, 2 per i = 1,2,...,n ne deriva, come conseguenza diretta, la normalità della distribuzione delle yi i. yi N β 0 β 1 xi ,σ 2 inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti, da cui: ii. ̂ 0 N β 0 ,σ β̂ 290 0 iii. ̂ 1 N β 1 ,σ β̂ iv. ŷ i* N yi* ,σ ŷ2* 1 i n n 2 σ̂ 2 uˆi2 n y y i 2 i = i 1 2 i 1 n2 2 2 σ2 Le conseguenze espresse ai punti i., ii., iii. e iv. sono di immediata verifica, infatti: i) le variabili yi β 0 β 1 xi ui sono distribuite normalmente in quanto v. trasformazioni di variabili casuali normali; le variabili ˆ , ˆ e yˆ * sono distribuite normalmente in quanto espresse da ii) 0 1 i combinazioni lineari di variabili casuali normali indipendenti. Meno immediata è la conseguenza espressa al punto v. I gradi di libertà derivano dal fatto che rispetto agli n gradi di libertà originari (le n osservazioni campionarie), due gradi di libertà si perdono nella operazione di stima; infatti, vengono imposti due vincoli per ottenere le stime di 0 e 1 . Pertanto, mentre le yi costituiscono n variabili casuali indipendenti , le n variabili casuali yˆi* yˆi , devono soddisfare i due vincoli introdotti per ottenere le stime 0 e 1 . Inoltre, nell’universo dei campioni, le due variabili casuali stima ˆ0 e ˆ1 hanno distribuzione indipendente dalla variabile casuale n W û i 1 2 i χ 2 con n – 2 σ gradi di libertà. L’ipotesi di normalità già introdotta nella Fig. 5.6, trova una più esplicita rappresentazione nella Fig. 5.8. 2 che ha, come già sottolineato, una distribuzione di tipo 291 f(u) y x yˆi * yˆi ˆ0 ˆ1 xi x 1 2 xi x Fig. 5.8 – Ipotesi di distribuzione normale della componente accidentale nel modello di regressione lineare semplice 5.1.4 Stima di massima verosimiglianza L’introduzione dell’ipotesi di normalità consente il calcolo della verosimiglianza del campione e di procedere, pertanto, all’uso del metodo della massima verosimiglianza per ottenere la stima dei parametri incogniti 0 , 1 e 2 . La verosimiglianza del campione è data da L β , β ,σ 0 n i 1 dove / y1 , y2 ,...., yn ; x1 ,x2 ,....,xn L β0 , β1 ,σ 2 / y , x L 2 1 1 2πσ 2 e 1 2σ 2 yi β0 β1 xi 2 2π 2 n / 2 e 1 2σ 2 β0 , β1 , σ 2 n yi β0 β1 xi 2 i 1 y' y1 , y2 ,...., yn e x ' x1 ,x2 ,....,xn . Le stime di massima verosimiglianza dei parametri incogniti si ottengono facilmente derivando ed uguagliando a zero le derivate del logaritmo della verosimiglianza. Risulta facile verificare che le stime di massima verosimiglianza 0 e 1 coincidono con le stime dei minimi quadrati ˆ0 e ˆ1 , mentre la stima di massima 292 n 2 è data da ~ 2 verosimiglianza della varianza û 2 i i 1 n ; ovviamente, u~i ûi e ~ yi yˆ i ~ yi* yˆ i* . Si segnala che per derivare le stime di massima verosimiglianza 0 e 1 si può anche evitare il ricorso alla derivazione della verosimiglianza (o della logverosimiglianza); infatti, al riguardo basta osservare che il massimo della verosimiglianza rispetto a β0 e β1 si ottiene quando è minima la quantità riportata ad 1 esponente dell’espressione e 2 2 n yi 0 1 xi i 1 2 n , cioè il minimo di y i 1 i 1 xi che 2 0 è l’espressione di base del metodo dei minimi quadrati. Relativamente alle stime di massima verosimiglianza ottenute si deve sottolineare che gli stimatori e pur coincidendo numericamente con gli stimatori ˆ e ˆ da 0 0 1 1 questi si diversificano in quanto (Teorema di Rao) sono di minima varianza nell’ambito degli stimatori corretti (BUE dall’inglese Best Unbiased Estimator), inoltre, la stima ~ 2 della varianza 2 non è corretta, cioè, E ~ 2 2 . 5.1.5 Stima di intervallo Per quanto sopra richiamato, si può procedere facilmente alla derivazione delle stime di intervallo per i parametri incogniti 0 , 1 e 2 e per le quantità yi* e y i . Infatti, facendo riferimento alla situazione più usuale, che è quella della non conoscenza del valore assunto dal parametro di disturbo 2 (varianza della componente accidentale), per prefissato si ottengono gli intervalli sotto riportati P ˆ t ˆ ˆ t ˆ 1- 0 /2 ˆ0 0 0 /2 ˆ0 P ˆ1 t / 2 ˆ ˆ 1 ˆ1 t / 2 ˆ ˆ 1 1 1- n 2 ˆ 2 n 2 ˆ 2 1 2 P 2 12 / 2 / 2 Si segnala che l’ultimo intervallo è stato derivato distribuendo simmetricamente il valore di nelle due code della distribuzione e che l’intervallo per 0 si ottiene attraverso i passaggi sotto riportati (ragionamento analogo vale per l’intervallo relativo a 1 ). Poiché β̂ 0 N β 0 ,σ β̂20 293 si avrà Z β̂ 0 = β̂ 0 β 0 N 0,1 σ β̂ 0 che non è elemento pivotale essendo incognita la varianza σ β̂20 dove è presente la varianza della componente accidentale; infatti σ β̂20 ma, se si tiene presente che 2 1 x σ 2 n n xi x 2 i 1 n 2 σˆ 2 W e che Z β̂ 0 χ n-2 2 σ e W sono variabili casuali indipendenti, si ha 2 Tβ̂ 0 β̂ 0 β 0 β̂ β 0 W / 0 t n2 σ β̂ 0 (n 2) σ̂ β̂ 0 che rappresenta la variabile casuale t di Student con (n-2) gradi di libertà (elemento pivotale) che consente la derivazione dell’intervallo sopra riportato applicando il procedimento di derivazione degli intervalli di confidenza illustrato nel Cap. 3. L’intervallo di stima relativo alle variabili yi assume particolare rilevanza; infatti, un tale intervallo può interessare sia valori corrispondenti a valori osservati di x, cioè x1 , x2 ,...., xn , sia valori non osservati di tale variabile. Ad esempio, si potrebbe aver interesse a determinare un intervallo di stima per y *p e/o per y p che corrispondono ad un valore non osservato x p ma assumibile dalla variabile x. Quando si procede alla stima per intervallo di y p , l’intervallo stesso assume la particolare connotazione di intervallo di previsione e la quantità y p βˆ 0 βˆ1 x p uˆ p viene detto errore di previsione. Ipotizzando la non conoscenza della varianza σ 2 della componente accidentale, l’intervallo per un generico valore y i* , corrispondenti a valori osservati della variabile esplicativa xi , può essere determinato facendo riferimento alla variabile casuale t di Student (elemento pivotale) T ŷ* i ŷ i* y i* ˆ ŷ* i ŷ i* y i* 1 ˆ n xi x 2 x n j 1 x 2 j ed anche per y *p e y p corrispondenti a valori non osservati di x 294 T y* p yˆ *p y *p σˆ yˆ* yˆ *p y *p 1 σˆ n p x x x x 2 p n j 1 2 j Gli intervalli, per un prefissato livello di confidenza 1- e per valori osservati e non osservati di x, sono: P ŷi* tα/ 2 σ̂ ŷ* yi* ŷi* tα/ 2 σ̂ ŷ* 1 - α i i cioè xi x 2 xi x 2 1 1 * * * ˆ ˆ P ŷ i tα /2 σ n y i ŷi tα /2 σ n n n 2 x j x x j x 2 j 1 j 1 e P yˆ *p t α/ 2 σˆ yˆ* y*p yˆ *p t α/ 2 σˆ yˆ* p p 1 α 1-α cioè 2 2 xp x xp x 1 1 * * * 1 α P yˆ p t α/ 2 σˆ n y p yˆ p t α/ 2 σˆ n n n x j x 2 x j x 2 j 1 j 1 Capita spesso, e ciò avviene soprattutto quando si vogliono effettuare previsioni, di essere interessati alla determinazione di intervalli di stima non per il valore teorico y * (cioè il valore che dovrebbe assumere la variabile dipendente in assenza di effetti accidentali e che è uguale, per le ipotesi di specificazione introdotte, al valore medio yh* E yh E 0 1 xh uh ma per il valore effettivo yh 0 1 xh uh (valore osservato od osservabile che include, quindi, anche l’effetto della componente accidentale). Per perseguire un tale obiettivo si deve osservare che, come già sottolineato, le stime puntuali di un generico valore ŷ *h e ŷ h , corrispondente ad una determinazione x h (h = i = p o qualunque altro indice), coincidono, cioè ŷ*h ŷ h β̂ 0 β̂ 1 xh , le loro varianze sono però diverse; infatti, se si considera l’errore di previsione û h y h ŷ h si ha: E û h E β 0 β 1 xh u h β̂ 0 β̂ 1 xh 0 295 2 Var uˆh E uˆh2 E 0 1 xh uh ˆ0 ˆ1 xh E 0 - ˆ0 1 - ˆ1 xh uh 2 2 Var ˆ0 Var ˆ1 xh Cov ˆ0 , ˆ1 xh Var uh 2 1 x x 2 1 n h 2 n x j x j 1 pertanto l’intervallo di stima per y h è dato da P ŷ h tα/ 2 σ̂ ŷ y h ŷ h tα/ 2 σ̂ ŷ h h 1 -α cioè x x 2 x x 2 1 1 P ŷ h tα/ 2 σ̂ 1 n h y h ŷ h tα/ 2 σ̂ 1 n h n n x j x 2 x j x 2 j 1 j 1 L’intervallo per y h risulta più ampio di quello relativo ad variabilità dovuta alla stima di 1 α y *h ; infatti: alla 0 e 1 si aggiunge la variabilità indotta dalla componente accidentale u h ; inoltre, l’ampiezza degli intervalli così determinati dipendono fortemente dallo scarto xh x e risultano tanto più ampi quanto più il valore di ferimento della x si allontana dal suo valore medio x . L’evidenziazione grafica di tale situazione è riportata nella Fig. 5.9. Intervallo di confidenza per yh y ŷ h β̂ 0 β̂ 1 xh y Intervallo di confidenza per y *h x x Fig. 5.9 – Intervalli di confidenza per i valori medi y *h e per i valori individuali y h . 296 5.1.6 Test delle ipotesi Per quanto detto nelle pagine precedenti e nel Cap. 4, è ora possibile risolvere facilmente qualunque problema di test delle ipotesi riguardo alle entità incognite presenti nel modello di regressione lineare semplice. Infatti, sotto la condizione di normalità della distribuzione della componente accidentale, basterà fare riferimento alle variabili casuali (variabili casuali test) Tβ̂ 0 ,Tβ̂ 1 ,Tŷ" ,Tŷi e W sopra definite. i Se, ad esempio, si volesse risolvere il problema di test delle ipotesi H0 :β 1 0 H1 :β 1 0 la regione di rifiuto dell’ipotesi nulla (nessun effetto della variabile esplicativa x sulla variabile dipendente y) risulterebbe definita dai semi-intervalli ( , t/2) e ( t/2 , +). Se il problema di test fosse H0 :β 1 0 H1 :β 1 0 cioè, di effetto nullo contro effetto negativo (e questo potrebbe essere un caso di interesse quando, ad esempio, x rappresenta il prezzo di un certo bene ed y la domanda del bene stesso: al crescere del prezzo la domanda del bene dovrebbe diminuire). La regione critica del test (rifiuto dell’ipotesi nulla) è costituita dal semiintervallo ( , t ). Le procedure di test sopra richiamate derivano dall’applicazione del test del rapporto di verosimiglianza che, come già sottolineato, fornisce (quando esiste, e i casi considerati rientrano in questa categoria) il test uniformemente più potente, nel caso di ipotesi alternativa unidirezionale, il test uniformemente più potente nella classe dei test non distorti, nel caso di ipotesi alternativa bidirezionale. 5.1.7 Trasformazioni di modelli non lineari È stato precisato che la linearità del modello di regressione semplice è riferita ai coefficienti e non alla variabile; infatti, ad esempio, il modello y β 0 β 1 x 3 è perfettamente equivalente al modello y 0 1 x sopra considerato. L’equivalenza è del tutto ovvia, infatti, se si pone z x 3 , si ottiene il modello di regressione lineare semplice y β 0 β 1 z . Le considerazioni svolte valgono quindi per tutti i modelli lineari nei parametri incogniti che li caratterizzano. E’, tuttavia, possibile in molti casi di interesse applicare le stesse procedure a modelli non lineari nei parametri, è ciò accade tutte le volte in cui risulta possibile ricondursi alla situazione di linearità operando opportune trasformazioni del modello non lineare. Ovviamente, quando si operano delle 297 trasformazioni sia le ipotesi di specificazioni sia le conclusioni cui si perviene vanno riferite al modello trasformato e non al modello originario. Alcuni esempi significativi sono quelli sotto riportati. i) y 0 x 1 eu log y log 0 1 log x u , la trasformata logaritmica fornisce il modello doppio logaritmico ii) y e0 1x eu log y 0 1 x u y 0 e1x eu log y log 0 1 x u e y 0 x 1 eu y log 0 1 log x u le cui trasformate logaritmiche forniscono i modelli semilogaritmici. 5.2 - Coefficiente di correlazione lineare Il coefficiente di correlazione lineare yx xy è stato introdotto come indice relativo di concordanza (rapporto tra l’indice assoluto di concordanza covarianza yx xy ed il valore massimo che | yx | può assumere e che è dato dal prodotto tra gli scostamenti quadratici medi y x ), cioè yx Codev y, x y x Dev y Dev x Tale coefficiente è anche uguale alla media geometrica dei due coefficienti di σ yx Codev y, x σ yx Codev y, x regressione e . Infatti, in b x/y 2 b y/x 2 σy Dev y σx Dev x riferimento al modello yi β 0 β 1 xi ui la stima dei minimi quadrati (e della Codev y,x σ xy massima verosimiglianza) di β 1 è pari a βˆ1 2 by / x , se si ipotizza Dev x σx un modello lineare del tipo xi 0 1 yi vi e si introducono le usuali ipotesi di specificazione, la stima dei minimi quadrati (e della massima verosimiglianza) di 1 è pari a ˆ1 Codev y, x yx 2 bx / y dal che risulta quanto affermato: Dev y y ˆ1 ˆ1 by / x bx / y yx Codev y, x . y x Dev y Dev x Una terza, forse la più interessante, interpretazione del coefficiente di correlazione lineare di Bravais-Pearson deriva dalle osservazioni che seguono. Dato il modello yi β 0 β 1 xi ui per i = 1,2,….,n 298 che soddisfa alle ipotesi di specificazione introdotte, la devianza totale della variabile osservata y è data da Dev (T ) Dev ( y ) yi y yi yˆi* yˆi* y n n 2 i 1 2 i 1 yi yˆi* yˆi* y Dev r Dev R n n 2 i 1 i 1 Dev r yi yˆi* n dove 2 2 viene detta devianza residua e misura la parte della i 1 devianza totale della variabile y che non risulta spiegata dalla supposta relazione con la n variabile x ; Dev R = ŷi* y 2 viene detta devianza di regressione e misura i 1 quanta parte della devianza di y è spiegata dalla relazione lineare con la variabile x . Il rapporto tra devianza di regressione e devianza totale Dev R Dev r R2 1 Dev T Dev T usualmente detto indice di determinazione, assume valori compresi nell’intervallo (0 , 1): assume valore 0 quando tutti i valori ŷi ŷi* che si trovano sulla retta di regressione sono uguali tra loro e, quindi, uguali a y (media della variabile y ), assume yi ŷi valore 1 quando tutti gli scarti sono uguali a zero, cioè, quando tutti i punti osservati si trovano sulla retta di regressione (adattamento totale del modello). Tenendo presente che n n 2 Dev R yˆi y βˆ0 βˆ1 xi y i 1 i 1 y βˆ x βˆ x y 2 n i 1 1 1 i 2 σ σ 2 βˆ12 xi x yx4 n σ x2 n yx2 σx σx i 1 2 n 2 si avrà 2 2 n σ yx / σ x2 σ yx Dev R R 2 2 ρ2 2 Dev T nσy σx σ y 2 cioè: l’indice di determinazione è uguale al quadrato del coefficiente di correlazione lineare, il che consente d’interpretare tale quadrato come misura della proporzione della variabilità totale della variabile y che risulta spiegata dalla supposta relazione lineare con la variabile x . Se in corrispondenza di ciascuna modalità xi (i = 1,2,….... ,s) della variabile x , si disponesse di più osservazioni yij (j = 1,2,….,ni), si potrebbe procedere alla seguente scomposizione della devianza totale della variabile y 299 ni ni Dev (T ) Dev ( y ) yij y yij yˆi* yˆi* yi yi y s s 2 i 1 j 1 ni 2 i 1 j 1 ni ni yij yˆi* yˆi* yi yi y s 2 i 1 j 1 i 1 j 1 dove: y i 1 ni s 2 i 1 j 1 ni yij yi s s 2 2 i 1 j 1 ni ni yi yˆi* yˆi* y s s 2 i 1 j 1 2 i 1 j 1 ni y j 1 ij e le tre diverse devianze ottenute dalla scomposizione (si ricorda che i doppi prodotti sono tutti nulli) sono di facile interpretazione: in un caso come primo elemento di riferimento si considerano i valori che si trovano sulla retta di regressione (cfr. Fig. 5.10), nel secondo caso il primo elemento di riferimento sono i valori (medie di gruppo) che si trovano sulla spezzata di regressione. y yi j . uˆ i yij yˆi yi j y yˆ i y . . ŷi yˆ i yi yi yi y y ˆ0 ˆ1 xi x x Fig. 5.10 – Scomposizione della devianza totale della variabile y Se si vuole sottoporre a test l’ipotesi di un effetto “significativo” della variabile x sulla variabile y , si può procedere come sopra indicato, cioè formulando l’ipotesi: H 0 : 1 0 H1 : 1 0 od anche facendo ricorso ad un test di bontà di adattamento del modello. Si è già osservato che W n 2 σ̂ 2 σ 2 se si considera ora la variabile 300 χ n2 2 yˆ Dev R V n i 1 2 che ha legge di distribuzione * i y 2 2 2 con un grado di libertà ed è indipendente dalla variabile W ; che ha legge di distribuzione 2 con (n-2) gradi di libertà, la variabile (rapporto tra due variabili 2 indipendenti divise per i rispettivi gradi di libertà) n W F V/ n 2 ŷ i 1 y 2 i σ2 n 2 σ̂ 2 : / n 2 2 σ ha, sotto l’ipotesi H 0 : β 1 0 (quando l’ipotesi è vera) legge di distribuzione del tipo F di Fisher-Snedecor con 1 e (n-2) gradi di libertà. Da rilevare che sotto l’ipotesi H 0 : β 1 0 contro l’ipotesi l’uguaglianza T 2 n2 H1 :β 1 0 vale F1,n2 , il che porta a concludere che nel caso di regressione lineare semplice la procedura per sottoporre a test l’ipotesi di adattamento del modello e l’ipotesi (bidirezionale) sul coefficiente angolare della retta di regressione sono del tutto equivalenti. In proposito vale la pena, infine, segnalare che tale procedura equivale anche a quella relativa al test diretto sul coefficiente di correlazione ; infatti, sotto l’ipotesi H 0 : ρ 0 contro l’ipotesi alternativa H 1 : ρ 0 , la variabile casuale test di riferimento è Tˆ ˆ n 2 1 ˆ 2 Dev x Dev R ˆ ˆ1 : 1 / n 2 1 Tˆ . 1 Dev y Dev T ˆ ˆ 1 5.3 - Modello di regressione lineare multipla Se si dispone di n k-uple ( xi1 , xi 2 ,....., xik ) di osservazioni e per ciascuna osservazione si ipotizza la relazione: yi β1 β2 xi 2 β3 xi 3 βk xik ui per i 1,2,...., n dove si è posto xi1 1 per i 1, 2,..., n, si ottiene l’espressione del modello di regressione lineare multipla (k-1 variabili esplicative). Utilizzando la notazione matriciale le n relazioni possono essere rappresentate in forma compatta y X u y u * n, k k ,1 n,1 n,1 dove: y X * n ,1 n , k k ,1 301 n,1 n,1 1 x12 x13 x 1 j x1k 1 y1 u1 y u 1 x22 x23 x 2 j x2 k 2 2 2 ................................ .... .... .... .... .... .... ................................ y ; X ; ; u yi ui n ,k n ,1 k ,1 n ,1 1 xi 2 xi 3 x ij xik j ................................ .... .... .... .... .... ................................ .... 1 x x x x k yn un n 2 n 3 nj nk 5.3.1 Ipotesi di specificazione (caso A) Come nel caso del modello di regressione lineare semplice vengono introdotte delle ipotesi che specificano le condizioni di base che si ritiene, quantomeno in via di prima approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo particolare il modello stesso che viene detto modello classico di regressione lineare multipla. Le ipotesi di specificazione riguardano le variabile (esplicative o indipendenti o variabili esogene) xij e, soprattutto, la componente accidentale u i : X è di rango massimo r X k n ed è 1. la matrice delle variabili esplicative n,k n,k costituita da quantità costanti in ripetuti campioni, si tratta, cioè, o di variabili matematiche o di determinazioni di variabili casuali, in quest’ultimo caso l’analisi viene effettuata condizionatamente ai valori osservati; 3. il vettore casuale u ha valore atteso (media) nullo n ,1 E u 0 n,1 n,1 4. la matrice di dispersione (matrice di varianze e covarianze) del vettore casuale u n ,1 Var u Σu E u u 2 I n n ,1 ' n ,1 1, n n,n dove In rappresenta la matrice identità, questa ipotesi specifica che le variabili casuali u i sono incorrelate ed omoschedastiche Le conseguenze sul vettore casuale u delle ipotesi introdotte sono (da ora in poi si n,1 omette per semplicità la dimensione delle matrici): E y E y / X X β y* a. b. Var y Var y / X y 2 I . Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima puntuale del vettore dei coefficienti di regressione incogniti . 302 5.3.2 Stima dei minimi quadrati Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli statistici lineari, il modello classico di regressione lineare costituisce la specificazione più semplice di tale classe di modelli. Se si pone Q β y -y n i 1 i * i 2 y - Xβ ' y - Xβ = y'y - β'X'y - y'Xβ + β'X'Xβ = = y'y - 2y'Xβ + β'X'Xβ il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori del vettore dei k parametri β che minimizza la somma dei quadrati degli scarti (forma quadratica) sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il cui punto di massimo è infinito) della funzione Q β che si ottiene risolvendo il sistema: Q β y'y - 2 β'X'y + β'X'Xβ β β 2 X'y 2 X'Xβ 0 0 -1 X'Xβ X'y βˆ = X'X X'y Dalle stime dei minimi quadrati β̂ si derivano le stime di y e y * yˆ * = yˆ = X X'X X'y = P y -1 dove P = X X'X X' -1 e i residui di regressione sono definiti dalla relazione -1 uˆ = y - yˆ = y - Xβˆ = y - X X'X X'y = -1 = I - X X'X X' y = M y = M u -1 dove M = I - X X'X X' . Le matrici idempotenti e simmetriche P ed M sopra definite vengono dette matrici fondamentali dei minimi quadrati. Si verificano facilmente le relazioni P2 = P ; M 2 = M ; P X = X ; M X = 0 ; P y M y = 0 ; P + M = I ' quindi y = Xβˆ + uˆ = P y + M y mentre la somma dei quadrati dei residui è data da y - yˆ y - yˆ = uˆ' uˆ = y' M ' 303 y Se con in' 1, 1, ........,1 si indica il vettore unitario, la media delle n osservazioni relative alla variabile y è definita da y 1/ n i' y mentre il vettore degli scarti è dato da s y = y - y e la somma dei quadrati degli scarti da s 2y s y 2 n n = s'y s y = y - i y y - i y = yi - y yi - yi + yi - y ' 2 i 1 n n i 1 i 1 2 i 1 n ( yi - yˆi ) 2 yˆi - y - 2 ( yi - yˆi ) yˆi - y 2 i 1 uˆ uˆ + yˆ - i y yˆ - i y - 2 y i' uˆ = uˆ uˆ + s'y s y = uˆ + s yˆ 2 ' 2 dove i' uˆ = 0 , in quanto nella matrice X è presente il termine costante, e s yˆ = yˆ - y . Le formule sopra riportate ripropongono, relativamente al modello di regressione lineare multipla, quanto già visto trattando della regressione semplice in merito alla scissione della devianza totale della variabile y, infatti: Dev (T)= Dev (y) s y n n 2 n n yi - y yi - yˆi + yˆi - y 2 i 1 2 i 1 yi - yˆi yˆi - y uˆ uˆ + s'yˆ s yˆ = uˆ + s yˆ 2 i 1 2 2 2 Dev r Dev R i 1 n dove, come già sottolineato, Dev r yi yˆi 2 è la devianza residua che misura i 1 la parte della devianza totale della variabile y che non risulta spiegata dalla supposta n relazione con le variabili x2 , x3 ,......, xk mentre Dev R = yˆi y è la devianza di 2 i 1 regressione che misura quanta parte della devianza di y è spiegata dalla relazione, lineare nei parametri 1 , 2 , ......, k , con le variabili x2 , x3 ,......, xk . Il coefficiente di determinazione, che misura la percentuale di devianza totale della variabile y spiegata dalla regressione, è definito da n R2 Dev R Dev T = 1- Dev r Dev T 1 uˆ sy 2 2 1 uˆ i 1 n s i 1 2 i 2 i s yˆ sy 2 2 ovviamente, 0 R 1. Teorema di Gauss-Markov – Gli stimatori dei minimi quadrati dei coefficienti di regressione 2 -1 βˆ = X ' X X ' y sono i migliori stimatori nell’ambito degli stimatori lineari e corretti, sono, cioè, BLU(E). 304 La linearità è del tutto evidente, la dimostrazione della correttezza è immediata, infatti, ricordando che X ' X X ' X = I, I β = β e E u = 0 , si ha -1 E βˆ = E X ' X -1 X' y = E X' X -1 X ' X β + u = E X ' X -1 X' X β + X' X -1 X ' u = β Per dimostrare l’efficienza per un vettore di stimatori si deve procedere alla definizione della matrice dell’errore quadratico medio. -1 Per βˆ = X ' X X ' y si ha ' EQM βˆ = Var βˆ = βˆ = E βˆ - β βˆ - β = ' = E (X ' X)-1 X ' y - β (X ' X)-1 X ' y - β = ' = E (X ' X)-1 X ' Xβ + u - β (X ' X)-1 X ' Xβ + u - β = . = E (X ' X)-1 X ' uu' X(X ' X)-1 = (X ' X)-1 X ' E uu' X(X ' X)-1 = = (X ' X)-1 X ' σ 2 I X(X ' X)-1 = σ 2 (X ' X)-1 ˆ Un vettore di stimatori β̂ si dice efficiente almeno quanto un diverso stimatore β̂ se la matrice ˆ A EQM βˆ EQM βˆ è semidefinita positiva (si ricorda che una matrice A si dice semidefinita positiva se x’A x ≥ 0 per tutti gli x in Rn). Si consideri ora un qualunque altro stimatore lineare e corretto di β ˆ βˆ = C' y dove C è una matrice (n,k) di coefficienti che, a ragione del vincolo di correttezza, deve ˆ soddisfare la relazione E βˆ = E C' y = E C ' X β + u = β cioè C ' X = I . Tenendo presente che -1 -1 ˆ ˆ βˆ = βˆ + βˆ - βˆ = βˆ + C ' y - X ' X X ' y = βˆ + C ' - X ' X X ' y si ha ' ˆ ˆ ˆ ˆ EQM βˆ = Var βˆ = βˆˆ σ 2 C ' C = E βˆ - β βˆ - β = = σ 2 (X ' X)-1 + σ 2 C ' - X ' X X ' -1 cioè 305 C' - X ' X X ' -1 ' -1 ˆ EQM βˆ = EQM ˆ + σ 2 C' - X ' X X ' dove la matrice C' - X ' X -1 X' = C' C - C' X X ' X = C' C - X ' X C' - X ' X -X X -1 ' -1 -1 C' - X ' X X ' -1 ' ' X' = X 'C + X ' X -1 X' X X' X -1 = -1 è semidefinita positiva, pertanto anche -1 ˆ A EQM βˆ - EQM ˆ = σ 2 C' C - X ' X è una matrice semidefita positiva. In particolare, per ogni coefficiente di regressione l’errore quadratico medio (che ˆ coincide con la varianza) di un qualunque stimatore lineare e corretto β̂ di β è sempre maggiore o uguale all’errore quadratico medio dello stimatore dei minimi quadrati β̂ ; infatti: ˆˆ ˆ i dove i 0 per i =1, 2, …..,k, e l’uguaglianza si i i realizza solo quando C' = X ' X X ' . -1 Oltre ai coefficienti di regressione i è usualmente incognita anche la varianza della componente accidentale . Per derivare uno stimatore corretto della varianza si osservi che3 2 E uˆ' uˆ = E u' Mu = tr E Muu' = tr Mσ 2 I = σ 2 n - k e -1 -1 tr M = tr M = I - X X'X X' = tr I - tr X X'X X' = n - k pertanto, una stima corretta di 2 è data da ˆ 2 u' u n-k 1 n 2 uˆi E σˆ 2 = σ 2 n - k i=1 n 3 Si ricorda che la traccia di di una matrice quadrata di ordine n è definita da tr A = aii ; inoltre valgono le i=1 seguenti relazioni: la traccia di uno scalare è lo scalare stesso; tr A B tr A tr B ; tr A× B×C tr C × A× B = ..... = tr C × B× A 306 per prodotti conformabili. n dove (n-k) rappresentano i gradi di libertà associati alla somma dei residui uˆi2 che i=1 derivano dalle n osservazioni originarie yi (che per ipotesi sono incorrelate) e dai k vincoli cui devono soddisfare che risultano dalle k equazioni normali che consentono di ottenere le stime dei coefficienti di regressione. Sostituendo a 2 la sua stima ˆ 2 nell’espressione ̂ 2 (X' X)-1 , si ottiene la stima della matrice di varianze e covarianze (matrice di dispersione) del vettore degli stimatori β̂ Σˆ ˆ ˆ 2 (X' X)-1 . 5.3.3 Ipotesi di specificazione (caso B: normalità della componente accidentale) Se alle tre ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore ipotesi di normalità del vettore casuale u N 0, 2 I ne deriva, come conseguenza diretta, la normalità della distribuzione del vettore y y N Xβ , 2 I inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti. 5.3.4 Stima di massima verosimiglianza La funzione di verosimiglianza del vettore casuale y è espressa dalla relazione 1 exp 2 2 i 1 n / 2 ' 1 2 2 exp 2 y - Xβ y - Xβ 2 il cui logaritmo è: L β, 2 f yi 2 2 n log L β , 2 n / 2 y x β n i 1 i ' i 2 n n 1 ' log 2 log 2 2 2 y - Xβ y - Xβ . 2 2 2 Le stime di massima verosimiglianza del vettore β e di 2 sono date da: u' u uˆ' uˆ 1 n 2 uˆi . n n n i 1 Come si può rilevare, le stime di massima verisimiglianza dei coefficienti di regressione coincidono con le stime dei minimi quadrati, mentre la stima della varianza è diversa e non è corretta. β= X X ' -1 X ye ' 2 307 Si dimostra (teorema di Rao) che gli stimatori di massima verosimiglianza β sono BU(E), sono, cioè, i migliori stimatori (i più efficienti) nell’ambito degli stimatori corretti. Da quanto sopra riportato derivano le seguenti proprietà: β βˆ N β, N ( Xβ, yˆ * ) y* yˆ * N ( Xβ, yˆ ) y yˆ n n 2 n - k ˆ 2 ' uu uˆ uˆ û ' = i 1 2 i n2 k n - k ˆ 2 uˆ' uˆ -1 -1 2 ' 2 ' dove yˆ = σ X X , yˆ = σ I + X X ; inoltre, β̂ e 2 sono 2 incorrelate e quindi, a ragione dell’ipotesi di normalità, indipendenti; infatti: 2 2 2 2 2 * -1 -1 E uˆ βˆ - β E I - X X ' X X ' uu' X X ' X 2 X X ' X 2 X X ' X 0. -1 -1 5.3.5 Stima di intervallo e test delle ipotesi È ora possibile procedere alla stima di intervallo e alla verifica di ipotesi statistiche sia riguardo ai coefficienti di regressione che alla varianza della componente accidentale; inoltre, si può procedere alla stima per intervallo delle variabili y* e y. Se si pone V = X ' X -1 e W = I - X ' X , risulta facile verificare le relazioni -1 che seguono j N j , 2v jj y*j N y*j , 2v jj yj N y*j , 2 w jj dove v jj e w jj rappresentano i valori che occupano la j - esima posizione, rispettivamente, nelle matrici V = X ' X e W = I - X ' X , che ripropone la stessa situazione già esaminata quando si è trattato del modello di regressione lineare semplice, l’unica differenza riguarda la variabile casuale χ 2n k che risulta ora caratterizzata da (n – k) -1 -1 308 gradi di libertà, essendo k i parametri 1 , 2 ,....., k stimati rispetto ai 2 parametri 0 , 1 considerati in precedenza. In particolare si ha: j j N 0,1 2v jj j j / 2v jj sˆ / 2 2 j j / sˆ2v jj tn k Una conveniente generalizzazione di quanto sopra richiamato è rappresentata dalla possibilità di sottoporre a verifica statistica ipotesi su specifiche combinazioni linerari dei coefficienti di regressione: H0 : R β = r dove R è una matrice di dimensione (q,k) di rango q ≤ k , r un vettore di dimensione q, con R e r noti. Da quanto sopra riportato deriva che R βˆ N R β, σ 2 R X ' X R' -1 e, sotto l’ipotesi nulla H 0 : R β = r , si ha 1 2 -1 R βˆ - r R X ' X R' ' -1 R βˆ - r χ 2q pertanto, per risolvere il problema di test d’ipotesi H0 : R β = r H1 : R β r basta far riferimento alla variabile casuale test (usualmente detta statistica di Wald) 309 1 ' -1 1 ' ' 2 R βˆ - r R X X R R βˆ - r / q F 2 2 ˆ n k s / / n k R βˆ - r R X X ' ' -1 R' -1 R βˆ - r sˆ 2 q Fq ,n k che, come indicato, si distribuisce come una v.c. F di Fisher-Snedecor con q e (n – k) gradi di libertà. Se nell’ultima espressione si pone q = 1, r = 0 e R è un vettore di dimensione (1,k) con valore pari ad 1 nel j-esimo elemento e 0 per tutti gli altri elementi, ricordando che F1,nk tn2k si ottengono gli stessi risultati già considerati relativamente ai singoli coefficienti di regressione. Un’ipotesi statistica di particolare interesse è H0 : 2 3 k 0 contro l’ipotesi alternativa che almeno un coefficiente sia diverso da 0. Questa ipotesi si specifica ponendo q = k – 1 e: 0 1 0 0 0 0 0 1 0 0 R ................. = 0k 1 I k 1 ; k 1 ,k ................. 0 0 0 0 1 0 0 rk 1 ... ... 0 Il test così specificato diventa R βˆ - r R X X ' F ' -1 R' sˆ2 q -1 R βˆ - r Fk 1,n k inoltre: s yˆ / 2 k 1 2 F uˆ / 2 n k 2 Dev R / k 1 R2 n k Dev r / n k 1 R 2 n 1 L’ultima relazione scritta sta ad indicare sia il fatto che l’ipotesi 310 Fk 1,nk H0 : 2 3 k 0 può essere espressa sia in termini di analisi della varianza (cfr. Tab. 5.1), sia la relazione tra il valore numerico assunto dall’indice di determinazione R 2 e la significatività del test: tanto più prossimo ad 1 è il valore assunto da R 2 tanto più significativa risulterà la v.c. test. Fonte di variabilità Regressione Residua Totale Somma dei quadrati (Devianze) 2 s yˆ n s'yˆ s yˆ yˆi y Devianze medie k-1 s yˆ / k 1 n-k uˆ / n k 2 n uˆ u u yˆ yi yˆi ' yˆ 2 n 2 s yˆ / k 1 2 F 2 2 i 1 s'y s y yi y F 2 i 1 2 sy Gradi di libertà uˆ / n k 2 n-1 i 1 Tab. 5.1 – Analisi della varianza per il modello di regressione Relativamente all’indice di determinazione R 2 si deve osservare che il valore numerico assunto dell’indice stesso dipende strettamente dal numero di variabili esplicative incluse nel modello, al limite, se il numero di tali variabili è pari ad (n – 1), R 2 1 ; infatti, in questo caso il sistema di equazioni normali è costituito da tante equazioni quante sono le incognite (k = n) e l’iperpiano di regressione si adatterà perfettamente a tutti i punti osservati (la varianza residua è uguale a 0). Per tale ragione, quando si procede alla stima di un modello di regressione multipla per misurare la bontà di adattamento del modello ai dati osservati si fa usualmente riferimento al cosiddetto R 2 corretto (per tener conto dei gradi di libertà) definito da: n 1 R2 . nk Al crescere del numero di variabili esplicative inserite nel modello, per motivi puramente numerici, cresce anche il valore assunto dall’indice R 2 mentre il valore assunto dall’indice R 2 può anche diminuire, cresce solo se il coefficiente di regressione della nuova variabile inserita risulta statisticamente significativo. Sono stati esaminati i due casi estremi di ipotesi: R2 1 sul singolo coefficiente di regressione H 0 : j 0 per j 2,3,....., k ; su tutti i coefficienti di regressione associati alle variabili esplicative H0 : 2 3 k 0 ; 311 ovviamente, si possono sottoporre a test ipotesi su gruppi di coefficienti o su combinazioni lineari di coefficienti specificando in modo adeguato la matrice R ed il vettore r. Ad esempio se si vuol sottoporre a test l’ipotesi H 0 : 2 3 4 0 , si dovrà porre: 0 1 0 0 0 R 0 0 1 0 0 ; 3 ,k 0 0 0 1 0 0 r3 0 . 0 5.4 - Modello di analisi della varianza (ANOVA) Il termine analisi della varianza è già stato introdotto nei paragrafi precedenti per indicare la scomposizione della variabilità presente nella variabile risposta nel modello di regressione distinguendo la variabilità da attribuire a fattori influenti (variabilità spiegata) dalla variabilità da attribuire a fattori accidentali (variabilità non spiegata). Nel modello di regressione multipla si è avuto modo di procedere ad una ulteriore scomposizione della variabilità spiegata in funzione della diversa natura dei fattori considerati. Storicamente però l’analisi della varianza viene introdotta facendo riferimento a procedure di test di ipotesi dove le variabili esplicative sono di natura categorica, in particolare si fa riferimento a situazioni sperimentali dove i fattori esplicativi sono espressi in scala nominale (Fisher, 1925). La trattazione estesa dell’argomento rientra nel contesto di quella parte della statistica usualmente denotata con il termine piano o disegno degli esperimenti. Al riguardo si deve sottolineare che sarebbe più appropriato parlare di analisi della devianza e non di analisi della varianza in quanto la scomposizione degli effetti viene operata sulla somma del quadrato degli scarti tra valori osservati e la loro media, cioè sulla devianza, a prescindere dal numero delle osservazioni che entrano in gioco solo al momento della verifica delle ipotesi come gradi di libertà associati alle diverse componenti della scomposizione della cosidetta devianza totale. In queste note si farà riferimento ai soli disegni fattoriali completi limitando la trattazione alle situazioni in cui i fattori sperimentali sono al massimo 3 (one-way, twoway e three-way ANOVA). L’esperimento fattoriale completo è caratterizzato dalla presenza di più osservazioni sperimentali in corrispondenza di ciascuna modalità, nel caso in cui si sta trattando di un solo fattore sperimentale, se i fattori sperimentali sono 2 o più di 2 si deve poter disporre di più osservazioni in corrispondenza di ogni possibile combinazione delle modalità dei fattori sperimentali considerati. 312 5.4.1 Analisi a un criterio di classificazione Si consideri la situazione sperimentale cha prevede l’impiego di un solo fattore sperimentale A caratterizzato da h modalità distinte Ai (i = 1, …, h) e di poter disporre di ni risposte sperimentali in corrispondenza dell’i-esima modalità Ai; si ipotizzi, cioè, una situazione sperimentale nella quale sono previsti h trattamenti ciascuno dei quali è replicato ni (i = 1, 2,…., h) volte. Il modello base per procedere ad un’analisi della varianza è Yi = μ+αi +ui = i +ui per i = 1,2,.....,h dove i = μ+αi la componente sistematica del modello e ui la componente accidentale, inoltre h i 1 i 0 , E ui 0, Var u i 2 e E (ui u j ) 0 per i j. Da quanto scritto deriva E Yi i i . Se si dispone, come ipotizzato, di ni risposte in corrispondenza della modalità Ai il modello per le h n ni i 1 osservazioni disponibili assume la forma Yir i uir = i uir per i 1, 2,....., h; r 1, 2,..., ni h dove risulta sempre soddisfatta la relazione i 0 , inoltre i 1 E (uir u jr ) 0 per i j e E(uir uis ) 0 per r s. In sostanza la situazione prospettata si riferisce ad h gruppi distinti di soggetti i quali, all’interno di ciascun gruppo, possono differire tra loro solo per l’effetto di fattori di carattere accidentale mentre i soggetti appartenenti a gruppi diversi possono differire, sia per effetto di fattori di carattere accidentale sia per effetto di fattori strutturali, le differenze strutturali sono evidenziate dalla diversità delle medie μi = μ+αi. A questo punto risulta facile l’interpretazione dei coefficienti αi che rappresentano lo scarto (in più o in meno) rispetto all’intera popolazione da attribuire all’appartenenza allo specifico gruppo i-esimo. Se si dispone di un campione di n osservazioni distribuite, come ipotizzato, negli h gruppi si può procedere alla risoluzione degli usuali problemi di inferenza: stima delle h medie incognite μi = μ+αi e/o verifica di ipotesi statistiche sulle medie stesse. L’ipotesi classica è quella di uguaglianza tra le h medie H0 : 1 2 h contro l’ipotesi alternativa che sia presente una qualche differenza tra le stesse medie. 313 Un modo perfettamente equivalente di definizione dell’ipotesi nulla è H0 : 1 2 h 0 contro l’ipotesi alternativa che un qualche αi sia diverso da zero. Per quanto detto in precedenza risulta facile derivare le stime dei minimi quadrati delle medie μi e di μ. A partire dalle osservazioni yir si ottiene ni yi. 1 ni yi. yir ; y i. yir i per i 1, 2,..., h ni ni r 1 r 1 h h ni 1 1 h 1 y.. yi. yir ; y.. y.. yi. n n i 1 n i 1 i 1 r 1 h ni yir i 1 r 1 1 n h y i 1 i. ni Se si considera la variabilità totale presente nelle osservazioni e si procede ad una sua misura attraverso il calcolo della devianza totale (Dev (T) = somma dei quadrati degli scarti dalla media) si ha h ni h ni Dev T ( yir y.. ) 2 ( yir y i. y i. y.. ) 2 i 1 r 1 h ni ( yir y i. ) 2 i 1 r 1 h ni ( yir y i. ) 2 i 1 r 1 h i 1 r 1 h ni ( yi. y.. )2 i 1 r 1 h (y i. h ni ( y i 1 r 1 ir y i. )( y i. y.. ) y.. ) 2 ni Dev r Dev A i=1 ni h dove Dev r ( yir y i. )2 e Dev A ( y i. y.. ) 2 ni . i 1 r 1 i=1 Dev (r) misura la variabilità da attribuire all’effetto di fattori di carattere accidentale (devianza residua) mentre Dev (A) misura la variabilità da attribuire all’effetto sia di fattori di carattere accidentale sia all’eventuale effetto del fattore sperimentale A (devianza sperimentale). Si tratta dell’usuale scomposizione della devianza in devianza entro i gruppi e devianza tra i gruppi. Se sono soddisfatte le ipotesi di specificazione poste a base del modello e si inserisce l’ulteriore e ragionevole (per il teorema del limite centrale) ipotesi di normalità della distribuzione della componente accidentale uir , si possono derivare senza eccessiva difficoltà le distribuzioni campionarie delle v.c. W1 = Dev (r)/ σ2 e W2= Dev (A)/ σ2 e dimostrare la loro indipendenza W1 Dev r / 2 n2h W2 Dev A / 2 h21 dove i gradi di libertà associati alla v.c. W1 sono pari al numero degli scarti indipendenti presenti nell’espressione h ni Dev r (Yir Y i. )2 i 1 r 1 314 che sono uguali al numero delle osservazioni indipendenti yir meno il numero di vincoli cui gli scarti devono soddisfare, poiché all’interno di ciascuno degli h gruppi la somma degli scarti dalla media è pari a 0, h sono i vincoli a fronte di n osservazioni indipendenti il che comporta un numero di gradi di libertà pari a (n-h); mentre i gradi di libertà associati alla v.c. W2 sono pari al numero degli scarti indipendenti presenti nell’espressione h ni h Dev A (Y i. Y .. )2 (Y i. Y .. )2 ni i 1 r 1 i 1 che sono uguali al numero delle osservazioni indipendenti meno il numero di vincoli cui gli scarti devono soddisfare, poiché h sono le variabili indipendenti e la somma degli scarti dalla media soddisfa un solo vincolo ( somma nulla), i gradi di libertà sono pari a (h-1). Se si procede alla definizione del rapporto tra le due v.c. indipendenti W1 e W2 divise per i rispettivi gradi di libertà h W W2 / n h W1 / h 1 Dev T / h 1 Dev r / n h (Y i 1 h i. Y .. ) 2 ni / h 1 ni (Y i 1 i 1 ir Y i. ) / n h Fh 1,n h 2 la v.c. risultante W, quando l’ipotesi nulla è vera, si distribuisce come una F di FisherSnedecor con (h-1) e (n-h) gradi di libertà. Se il valore empirico w assunto dalla v.c. W è superiore al valore riportato nelle tavole della distribuzione F con (h-1) e (n-h) gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza delle h medie μi viene rifiutata. Si riporta di seguito l’usuale rappresentazione tabellare dell’analisi della varianza ad un criterio di classificazione (un solo fattore sperimentale). Fonte di variazione Devianza Gradi di libertà Devianza media F h-1 DevM(A)= Dev(A)/(h-1) W=DevM(A)/ DevM (r) n-h DevM (r) = Dev (r)/(n-h) n-1 DevM (T)= h A Dev A (Y i. Y .. )2 ni i 1 h r ni Dev r (Yir Y i. )2 i 1 r 1 h T h Dev T (Y ir Y .. )2 i 1 i 1 Tab. 5.2 - Tavola per l’analisi della varianza ad un criterio di classificazione Lo svolgimento dell’analisi della varianza nei termini sopra descritti consente di pervenire ad una conclusione inferenziale riguardo al possibile effetto complessivo del fattore considerato ma 315 non consente l’individuazione della modalità che hanno inciso sui risultati nel caso di rifiuto dell’ipotesi nulla; non si individuano, cioè, gli scarti αi diversi da 0. Per poter perseguire un tale obiettivo si deve procedere all’effettuazione di una diversa analisi, usualmente denominata analisi delle medie, che si svolge attraverso l’introduzione del concetto di contrasto definito come combinazione lineare tra le risposte di un esperimento i cui coefficienti sommano a zero. Se h è il numero delle modalità che caratterizzano uno specifico fattore sperimentale risulta possibile procedere alla verifica statistica (test d’ipotesi) sul possibile effetto di specifiche modalità del fattore sperimentale definendo h – 1 contrasti (confronti) ortogonali). Se in un esperimento ad un criterio di classificazione (un solo fattore sperimentale) le modalità diverse del fattore sperimentale sono pari ad h, è possibile sottoporre a test h-1 ipotesi indipendenti definendo h-1 contrasti (confronti) ortogonali del tipo h Ci ais s per i 1, 2,..., h 1 s 1 h C j a js s per j 1, 2,..., h 1 s 1 dove h a is h a = 0; h js = 0 e ais a js 0 . Nel caso di un fattore caratterizzato da tre modalità due possibili confronti ortogonali sono s 1 s 1 s 1 3 C1 a1s s =3 1 s 1 3 C2 a2 s s 3 23 1 . s 1 5.4.2 Analisi a due criteri di classificazione Si consideri la situazione sperimentale cha prevede l’impiego di due fattori sperimentali, il primo fattore A è caratterizzato da h modalità distinte Ai (i = 1, …, h), il secondo fattore B è caratterizzato da k modalità distinte Bj (j = 1, …, k); in questa situazione il numero dei trattamenti diversi è pari a h × k . Si supponga di poter disporre di nij risposte sperimentali in corrispondenza della combinazione tra l’i-esima modalità Ai del fattore A la j-esima modalità Bj del fattore; pertanto, il numero delle risposte disponibili in questa situazione sperimentale è h k n nij i 1 j 1 . Per poter svolgere un’analisi della varianza completa quando si considerano più fattori sperimentali è necessario effettuare uno stesso numero di replicazioni per ciascun trattamento (esperimenti bilanciati o ortogonali). Quando tale condizione non è 316 soddisfatta si procede all’applicazione di una diversa procedura, usualmente detta analisi della varianza per classificazioni concatenate che, comunque, non verrà trattata in questa sede. Nel caso di esperimenti bilanciati si ha nij = m per i = 1.2,….., h e j = 1,2,…,k, le risposte disponibili sono pari a n hk m Il modello base per procedere ad un’analisi della varianza è Yij = μ+αi + j + ij +uij = ij +uij per i = 1,2,.....,h; j 1, 2,..., k dove ij = μ+αi + j + ij rappresenta la parte sistematica del modello e uij la parte accidentale, inoltre, h i 1 i k 0 , j 1 j h k i 1 j 1 0, ij 0, ij 0 E uij 0, Var u ij 2 e E (uij ui* j* ) 0 per i, j i* , j *. Da quanto scritto deriva E Yij ij i j ij . Se si dispone, come ipotizzato, di m risposte in corrispondenza di ciascun trattamento il modello per le n = h×k×m osservazioni disponibili assume la forma Yijr = μ+αi + j + ij +uijr = ij +uijr per i = 1,2,.....,h; j 1, 2,..., k ; r 1, 2,..., m dove E uijr 0, Var u ijr 2 e E (uijr ui* j*r* ) 0 per i, j, r i* , j * , r *. Le medie relative ai sottogruppi risultano dalle uguaglianze i.. = μ+αi ; . j. = μ+ j ; ij. = μ+αi j ij . Le risposte ai trattamenti possono essere rappresentate in una forma tabellare come quella di seguito riportata dove (cfr. Tab. 3): m k k r 1 j 1 j 1 r 1 m h h m h m m Yij . Yijr ; Yi.. Yij . Yijr ; Y. j . Yij . Yijr ; Y... Yijr i 1 i 1 r 1 i 1 r 1 r 1 valori questi che consentono la derivazione immediata delle medie, infatti, 1 1 m 1 1 k 1 k m Yij . Yij . Yijr ; Yi.. = Yi.. Yij . Yijr ; m m r 1 k m k m j 1 k m j 1 r 1 Y. j . h m m 1 1 h 1 h m 1 1 Y. j . Yij . Yijr ; Y... Y... Yijr hm h m i 1 h m i 1 r 1 hk m h k m i 1 r 1 r 1 317 …. A1 B1 Y111 Y112 …. Y11r …. Y11m Y11. …. …. …. …. …. …. …. …. …. Bk …. Y1k1 …. Y1k2 …. …. …. Y1kr …. …. …. Y1km …. Y1k. B1 Yi11 Yi12 …. Yi1r …. Yi1m Yi1. …. …. …. …. …. …. …. …. …. Y1.. …. Ai Bj Yij1 Yij2 …. Yijr …. Yijm Yij. …. …. …. …. …. …. …. …. Yi.. Bk Y111 Y112 …. Y11r …. Y11m Yik. …. …. …. …. …. …. …. …. …. Ah B1 Yh11 Yh12 …. Yh1r …. Yh1m Yh1. …. …. …. …. …. …. …. …. Bk Yhk1 Yhk2 …. Yhkr …. Yhkm Yhk. Yh.. Y… Y.1. , Y.2. ,….,Y.k. Tab. 5.3- Dati di base per l’analisi della varianza a due criteri di classificazione Disponendo delle n h k m risposte yijr dell'esperimento si può procedere alla stima e alla verifica di ipotesi sulle entità incognite presenti nel modello. Le stime dei minimi quadrati delle medie sono y 1 m ˆ ij . ij . yijr = yij . ; per i 1, 2,..., h e j 1, 2,..., k m m r 1 y 1 1 k m ˆ i.. i.. yi.. yijr yi.. ; per i 1, 2,..., h k m k m k m j 1 r 1 y. j . 1 1 h m y. j . yijr = y. j. ; per j 1, 2,..., k hm hm h m i 1 r 1 h k m 1 1 ˆ... y... yijr = y... . hk m h k m i 1 j 1 r 1 ˆ.j. Le ipotesi che interessa verificare sono l’eventuale effetto sui risultati sperimentali del: fattore A - H0: α1 = α2=……..= αh = 0 fattore B - H0: β1 = β 2=……..= β k = 0 interazione tra i due fattori (AB) - H0: (α β)11= (α β)12=……..= (α β)hk = 0 318 obiettivo questo che è facilmente perseguibile procedendo ad una adeguata scomposizione della variabilità presente nei dati, variabilità che come visto in precedenza viene misurata attraverso il computo e della devianza totale. h k m h Dev T ( yijr y... ) 2 k m h k m ( y i 1 J 1 r 1 h k i 1 J 1 r 1 m ( yijr yij . ) 2 ( yi.. y... ) 2 i 1 J 1 r 1 h k i 1 J 1 r 1 m ( yijr yij . ) 2 i 1 J 1 r 1 yij . yij . yi.. yi.. y. j . y. j . y... y... y... ) 2 ijr h ( yi.. y... )2 k m i 1 h k m h ( y. j. y... )2 ( y. j. y... )2 h m j 1 m (y i 1 J 1 r 1 k k ij . i 1 J 1 r 1 h k ( y i 1 J 1 ij . yi.. y. j . y... ) 2 yi.. y. j. y... ) 2 m Dev r Dev A Dev B Dev AB h k m dove Dev r ( yijr yij . ) 2 , Dev A i 1 J 1 r 1 h h (y i 1 i .. y... ) 2 k m, Dev B k (y j 1 . j. y... ) 2 h m e k Dev AB ( yij . yi.. y. j . y... ) 2 m . i 1 J 1 Nello sviluppo del quadrato tutti i doppi prodotti sono pari a zero, pertanto, la devianza totale risulta scomposta in quattro componenti: Dev(r) - che misura l’incidenza sulle risposte dei soli fattori di carattere accidentale. Dev(A) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore A e dei fattori di carattere accidentale. Dev(B) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore B e dei fattori di carattere accidentale. Dev(A B) - che misura l’incidenza sulle risposte dell’eventuale effetto dell’interazione tra i due fattori A e B e dei fattori di carattere accidentale. Senza eccessiva difficoltà si derivano le seguenti distribuzioni campionarie W1 Dev r / 2 n2hk W2 Dev A / 2 h21 W3 Dev B / 2 k21 W4 Dev A B / 2 (2h1)( k 1) Si dimostra, inoltre, che le v.c. W2, W3 e W4 hanno distribuzione indipendente da W1, mentre hanno distribuzione del tipo F le v.c. 319 WA WB W A B W2 / h 1 W1 /(n h k ) W3 / k 1 W1 /(n h k ) W4 / h 1 k 1 W1 /(n h k ) Dev A / h 1 Dev r /(n h k ) Dev B / k 1 Dev r /(n h k ) F h1,( nhk ) F k 1,( nhk ) Dev A B / h 1 (k 1) Dev r /(n h k ) F h 1 k 1,( n hk ) Si riporta di seguito la rappresentazione tabellare dell’analisi della varianza a due criteri di classificazione. Fonte di Devianza variazione A Dev A Gradi di Devianza libertà media h (Y Y .. ) k m 2 i. h-1 i 1 B Dev B k (Y Y .. ) h m 2 . j. k-1 j 1 (A B) Dev A B h k (Y i 1 (h-1) x (k-1) j 1 DevM(A)= WA=DevM(A)/ Dev(A)/(h-1) DevM (r) DevM(B)= WB=DevM(B)/ Dev(B)/(k-1) DevM (r) DevM(AB)= Y i .. Y . j . Y ) m 2 ij . Dev(AB)/ (h-1)(k-1) r Dev r h i 1 T Dev T k m h (Yijr Y ij . ) n-h x k j 1 r 1 h m (Y i 1 2 i 1 ijr Y ... ) 2 n-1 r 1 F WAB=DevM(A B)/ DevM (r) DevM (r) = Dev (r)/(n-h k) DevM (T)= Dev (r)/(n-1) Tab. 5.4 - Tavola per l’analisi della varianza a due criteri di classificazione Se il valore empirico wA assunto dalla v.c. WA è superiore al valore riportato nelle tavole della distribuzione F con (h-1) e (n-h . k) gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza delle h medie μi.. viene rifiutata: il fattore A ha effetto sui risultati sperimentali; se il valore empirico wB assunto dalla v.c. WB è superiore al valore riportato nelle tavole della distribuzione F con (k-1) e (n-h . k) gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza delle k medie μ.j. viene rifiutata: il fattore B ha effetto sui risultati sperimentali; se il valore empirico wAB assunto dalla v.c. WAB è superiore al valore riportato nelle tavole della distribuzione F con (h-1).(k-1) e (n-h . k) gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza delle h . k medie μij. viene rifiutata: l’interazione tra i due fattori A e B ha effetto sui risultati sperimentali. L’estensione a situazioni sperimentali che prevedono l’impiego, in modo bilanciato, di tre o più criteri di classificazione non presenta difficoltà. Si riporta, a titolo esemplificativo, il modello di analisi della varianza per tre fattori (analisi della varianza 320 a tre criteri di classificazione) A , B e C aventi, rispettivamente, h , k e g modalità e ciascun trattamento è replicato m volte; in totale, il numero dei trattamenti è pari a h . k . g, mentre il numero delle risposte è n = h × k × g × m. Yijsr = μ+αi + j + s ij + is + js + ijs +uijsr = ijs +uijsr per i = 1,2,.....,h; j 1, 2,..., k ; s 1, 2,..., g; r 1, 2,..., m Nella tabella che segue (Tab. 5.5) è riportata la scomposizione della devianza totale nelle devianze che interessano con i relativi gradi di libertà. Il numero dei trattamenti è pari a h × k × g e ciascun trattamento viene replicato m volte. Quando il numero dei trattamenti è elevato e le possibilità di replicazione, per motivi finanziari o di altra natura, sono limitate si procede spesso all’effettuazione di una sola replicazione (m = 1) per ciascun trattamento. Per poter effettuare un’analisi della varianza in tali situazioni è necessario avere informazioni a priori riguardo al possibile effetto dell’interazione sui risultati sperimentali; se si ritiene che una qualche interazione (usualmente quelle di ordine più elevato) non ha effetto, la variabile, opportunamente trasformata, riferita a tale interazione (che per ipotesi risente dei soli effetti di natura accidentale) verrà assunta come riferimento per i confronti. 321 Fonte di variazione A Devianza Gradi di libertà h (Y Dev A Y .. ) k g m (h-1) Y .. ) h g m (k-1) 2 i. i 1 B k (Y Dev B 2 . j. j 1 C g (Y ..s Y Dev C ) hk m 2 .. (g-1) s 1 (A B) (A C) (B C) Dev A B Dev A C Dev B C h k (Y i 1 j 1 h g (Y i 1 s 1 k g (Y Y i .. Y . j . Y ) g m (h-1) (k-1) i.s Y i .. Y ., s Y ... ) k m (h-1) (g-1) . js Y . j . Y ..s Y ) h m (k-1) (g-1) 2 ij . 2 2 j 1 s 1 Dev A B C (A B C) R T h k i 1 j 1 Yijs. Yij.. Yi.s. Y. js. Yi... Y. j.. Y..s. Y.... g 2 (h-1) (k-1) (g-1) s 1 Dev r Dev T Yijsr Yijs. h k g m i 1 j 1 s 1 r 1 Yijsr Y.... h k g m i 1 j 1 s 1 r 1 2 (m-1) h k g hkgm–1 =n1 2 Tab. 5.5 - Tavola per l’analisi della varianza a tre criteri di classificazione 5.5 - Analisi della varianza e modello di regressione A conclusione del paragrafo 5.4.1 è stato sottolineato che mediante il ricorso ai contrasti ortogonali è possibile verificare statisticamente la presenza o meno dell’effetto di singole modalità del fattore sperimentale per il quale è stata preliminarmente accertata l’influenza sui risultati sperimentali senza procedere ad un adeguato sviluppo del tema. La ragione dell’ omissione è giustificata dalla possibilità di conseguire un tale obiettivo, in modo decisamente più soddisfacente, ricorrendo ad un diverso strumento metodologico: il modello di regressione. A tal fine basterà procedere ad una adeguata specificazione del modello di regressione multipla introdotto nel paragrafo 5.3 y X u n,1 n,k k,1 dove 322 n,1 1 x12 x13 x 1 j x1k 1 y1 u1 y u 1 x22 x23 x 2 j x2 k 2 2 2 ................................ .... .... .... .... .... .... ................................ y ; X ; ; u yi ui n ,k n ,1 k ,1 n ,1 1 xi 2 xi 3 x ij xik j ................................ .... .... .... .... .... ................................ .... 1 x x x x k yn un n 2 n 3 nj nk Se si riprende in considerazione il modello ANOVA ad un criterio di classificazione sopra definito Yir i uir = i uir per i 1, 2,....., h; r 1, 2,..., ni e si procede alla sua rappresentazione in forma matriciale si ha y11 y12 :::: y1n1 __ y 21 y22 :::: y2 n 2 __ :::: y ; :::: n ,1 __ yh1 yh 2 :::: y hnh __ yh1 y h2 :::: yhnh 1 1 0 0 0 0 1 1 0 0 0 0 ::::::::::::::::::::::::::::: 1 1 0 0 0 0 _____________ 1 0 1 0 0 0 1 0 1 0 0 0 ::::::::::::::::::::::::::::: 1 0 1 0 0 0 _____________ :::::::::::::::::::::::::::: ; X n , h 1 :::::::::::::::::::::::::::: _____________ 1 0 0 0 1 0 1 0 0 0 1 0 ::::::::::::::::::::::::::::: 1 0 0 0 1 0 _____________ 1 0 0 0 0 1 1 0 0 0 0 1 ::::::::::::::::::::::::::::: 1 0 0 0 0 1 u11 u12 :::: u1n1 __ u 21 u22 :::: u2 n 1 2 .... __ :::: .... ; u :::: n ,1 i h 1,1 __ .... .... uh1 uh 2 h :::: u hnh __ uh1 u h2 :::: uhnh La matrice X in forma più compatta assume la forma n , h1 323 1n1 1n1 0n1 0n1 0n1 1 0 1 0 0 n2 n2 n2 n2 n2 A X :::::::::::::::::::::::::::::::::::::::::::::: n , h 1 n , h 1 1nh-1 0nh-1 0nh-1 1nh-1 0nh-1 1 0 0 0 1 nh nh nh nh nh dove si è utilizzato il simbolo A, al posto di X, per evidenziare la particolare natura della matrice, con 0ni e 1ni sono stati indicati i vettori di dimensione ni (i = 1, 2, .., h) composti, rispettivamente di 0 e 1. Ogni singola osservazione è espressa dalla relazione h per r 1, 2,..., n ( ni ) Yr 0 1 A1 2 A2 h Ah ur i 1 e la rappresentazione matriciale del modello è y A u n,h+1 h+1,1 n,1 n,1 Occorre sottolineare che la matrice A è di rango h, infatti, la prima colonna delle n , h1 matrice stessa è pari alla somma delle successive h colonne, pertanto la matrice B A' A h 1, h 1 h 1, n n , h 1 non è invertibile. Un modo per risolvere il problema è quello di ricorrere all’inversa generalizzata (inversa di Penrose) oppure di procedere ad una opportuna riparametrizzazione del modello. Riparametrizzazione 1 - Si procede all’eliminazione della prima colonna della matrice A (cell-means model). La matrice cosi ottenuta n , h1 1n1 0n1 0n1 0n1 1 0 1 0 0 2 n2 n2 n2 n2 * A ::::::::::::::::::::::::::::::::::::::: per :::::::: n,h h ,1 0nh-1 0nh-1 1nh-1 0nh-1 h 1 0 0 0 1 h nh nh nh nh è di rango pieno pari ad h n , pertanto la matrice B* A*' A* h ,h h ,n n ,h è invertibile. In forma compatta il modello diventa y A* u n ,1 n , h h,1 n ,1 e ogni singola osservazione assume la forma Yr 1 A2 2 A2 3 A3 h Ah ur La stima dei minimi quadrati dei coefficienti è 324 h per r 1, 2,..., n ( ni ). i 1 -1 βˆ * = A*' A* A*' y . Riparametrizzazione 2 - Si procede all’eliminazione dell’ultima colonna della matrice A (cell-reference model) ponendo αh = 0, in questo modo l’ultima categoria diventa n , h1 il riferimento delle altre categoria e l’eventuale effetto dell’ultima modalità viene conglobato nella media μ. Si sottolinea che il riferimento all’ultima colonna ha valore puramente esemplificativo; infatti,la scelta, può riguardare una qualunque delle h colonne in relazione al problema in esame tenendo presente che l’eliminazione della colonna comporta l’impossibilità di sottoporre a test l’effetto della corrispondente modalità del fattore in esame. La matrice che deriva dell’eliminazione dell’h-esima assume la forma 1n1 1n1 0n1 0n1 h 1 0 1 0 1 h n2 n2 n2 n2 ** A :::::::::::::::::::::::::::::::::::::::: per 2 h n , h 1 h ,1 1nh-1 0nh-1 0nh-1 1nh-1 ::::::::: 1 0 0 0 h 1 h nh nh nh nh ed è di rango massimo; pertanto, la matrice B** A**' A** h,h h,n n,h ammette inversa. In forma compatta il modello diventa y A** u n,1 n,h h,1 n,1 e ogni singola osservazione assume la forma Yr 0 1 A1 2 A2 h1 Ah 1 ur h per r 1, 2,..., n ( ni ) i 1 La stima dei minimi quadrati dei coefficienti è -1 βˆ ** = A**' A** A**' y . Riparametrizzazione 3 - Una terza possibile riparametrizzazione si ottiene tenendo conto del vincolo sui coefficienti model). Se si pone h h 1 i 1 i 1 i 0 h i (deviation from the mean h 1 i il vincolo viene inserito nel modello considerando la h i 1 matrice 325 1n1 1n1 0n1 0n1 0n1 1 0 1 0 1 0 n2 n2 n2 n2 n2 *** A ::::::::::::::::::::::::::::::::::::::::::::::: per 2 n,h h ,1 1nh-1 0nh-1 0nh-1 1nh-1 0 nh-1 ::::::::: 1 1 1 1 1 h 1 nh nh nh nh nh Si tratta di una riparametrizzazione analoga alla precedente dove, però, la categoria di riferimento non è più l’h-esima ma una categoria media virtuale. *** La matrice A è di rango massimo; pertanto, la matrice n ,h B*** A***' A*** h,h h ,n n ,h ammette inversa. In forma compatta il modello diventa y A*** u n,1 n,h h,1 n,1 che consente la derivazione delle stime dei minimi quadrati -1 βˆ *** = A***' A*** A***' y . La relazione tra le media di gruppo i i per i = 1, 2, ..., h e i coefficienti stimati utilizzando l’ultima parametrizzazione (che tiene conto del vincolo cui devono soddisfare i coefficienti i ) è espressa dall’uguaglianza 1 1 1 1 0 0 2 2 1 0 1 0 1 h 1 ::::: :::::::: ::::::::::::::::::::: ; = h i 2 i 1 h 1 h 1 1 1 0 1 :::: h h 1 1 1 1 h 1 Seguendo lo stesso procedimento si può esprimere il modello di analisi della varianza in termini di modello di regressione quando i fattori sperimentali sono 2 o più di 2; l’estensione a casi più generali presenta solo difficoltà formali. 5.6 - Analisi della covarianza (ANCOVA) L’introduzione dell’ipotesi di normalità ed incorrelazione delle componenti accidentali consente di ottenere sia stime per intervallo dei coefficienti ed intervalli di previsione, sia di sottoporre a test ipotesi sul valore dei coefficienti stessi (se uguali o diversi da zero) o su loro combinazioni linari (contrasti e contrasti ortogonali). Nel paragrafo 5.3.5 è stata illustrata la formulazione di ipotesi statistiche su combinazioni lineari dei parametri che caratterizzano il modello di regressione nella forma generale H0 : R β = r H1 : R β r 326 dove R è una matrice di dimensione (q,h) e di rango q ≤ h , r un vettore di dimensione q, con R e r noti. Tale formulazione consente, non solo di sottoporre a test l’ipotesi di nessun effetto totale del fattore o dei fattori e delle relative interazioni, ma di verificare anche ipotesi sull’effetto di singole modalità o di combinazioni di modalità attraverso l’impiego della v.c. test F R βˆ - r R X X ' F ' -1 R' -1 R βˆ - r sˆ2 q Fq ,n k . Basterà, infatti, sostituire alla matrice X la matrice A+ relativa al caso in esame e procedere al computo dei gradi di libertà corrispondenti. Nessun problema sostanziale si deve affrontare quando alcune delle variabili esplicative hanno natura categoriche e altre quantitativa. Il modello corrispondente, che viene detto di analisi della covarianza, nel caso in cui si considerano k-1 variabili esplicative quantitative (che in questo contesto vengono usualmente dette covariate), un solo fattore sperimentale caratterizzato da h modalità e si ipotizza assenza di interazione tra variabili quantitative e la variabile categorica assume la forma y X X A u . n,1 n,k k,1 n,h h,1 n,1 L’estensione a casi più generali presenta difficoltà formali di entità non trascurabile. 327 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Cap. 6 – Inferenza statistica bayesiana CAP. 6 – INFERENZA STATISTICA BAYESIANA Introduzione Nei capitoli precedenti è stata affrontata, in modo quasi esclusivo, la problematica dell’inferenza statistica parametrica, presupponendo, cioè, nota la forma analitica del modello rappresentativo del fenomeno o dei fenomeni oggetto d’analisi mentre non sono noti i parametri che li caratterizzano. I soli dati campionari sono stati utilizzati per pervenire ad una stima (puntuale o di intervallo) o per sottoporre a verifica empirica ipotesi riguardanti tali parametri. Dopo aver fissato ragionevoli criteri di ottimalità, sono state analizzate le procedure e le condizioni che consentono il perseguimento dei risultati che soddisfano uno o più criteri tra quelli elencati. Sono stati dunque i parametri (costanti non note) l’oggetto specifico della trattazione usualmente indicata come inferenza statistica classica o frequentista secondo l’impostazione di Fisher e Neyman-Pearson. Questo capitolo è dedicato alla trattazione, seppure molto sommaria di un modo diverso di risoluzione dei problemi di inferenza induttiva: l’approccio bayesiano all’inferenza statistica, basato su una filosofia di analisi dei dati alternativa a quella propria dell’approccio classico. Nell’approccio classico i dati campionari sono l’unica fonte utilizzata ed utilizzabile per pervenire ad una conoscenza “oggettiva”1 della realtà rispetto alla quale non si presuppone alcuna conoscenza pregressa, mentre nell’approccio bayesiano una tale conoscenza si presuppone e i dati campionari servono solo per procedere al suo aggiornamento. Poiché, come più volte sottolineato, per facilitare la comprensione della realtà caratterizzata dalla variabilità presente nelle 1 Giuseppe Pompilj (nel volume sulla teoria dei campioni 1961) scrive: “..Cercherò di illustrare il significato e la portata delle formule di Bayes riportando alcuni brani di un mio articolo della rivista Archimede (Pompilj, 1951a). L’esperienza quotidiana ci pone continuamente di fronte a contrasti apparentemente paradossali perché in essi le parti invocano, a sostegno delle opposte tesi, gli stessi fatti, su cui perfettamente concordano. Come mai, …., le parti concordano sui fatti (e talvolta anche nei minimi particolari di questi fatti) ed arrivano poi a conclusioni contrastanti? …….. …..Attraverso quale meccanismo ciascuno di noi si persuade di certe interpretazioni? Qual è di questa persuasione la componente soggettiva e quella oggettiva? Si tratta di problemi assai vecchi ; e non può certo soddisfare la spiegazione dogmatica degli antichi sofisti: l’uomo è la misura di tutte le cose ……. Nei Sei personaggi in cerca di autore quando il Capocomico interrompe la tirata della figliastra esclamando: veniamo al fatto; veniamo al fatto, signori miei! Queste sono discussioni – Il padre, il personaggio padre - interviene chiarendo: Ecco, sissignore! Ma un fatto è come un sacco: vuoto non si regge: perché si regga, bisogna prima farci entrar dentro la ragione e i sentimenti che lo han determinato. Questa battuta del padre contiene la vera essenza del problema testé delineato; perché una volta riconosciuto, secondo l’immagine pirandelliana, che un fatto è come un sacco, possiamo facilmente capire come a seconda di quel che ci si mette dentro potrà assumere un aspetto piuttosto che un altro. …..” Sullo stesso argomento si può utilmente consultare Corrado Gini che, oltre ad essere stato precursore (Gini, 1911) di quello che viene usualmente definito come approccio bayesiano empirico all’inferenza statistica (Chiandotto, 1978), in due contributi (1939 e 1943) anticipa gran parte delle critiche rivolte alla teoria dei test di significatività (inferenza statistica classica) negli anni successivi dai sostenitori dell’approccio bayesiano. 329 manifestazioni dei fenomeni di interesse, la realtà stessa viene rappresentata attraverso opportuni modelli analitici (modelli probabilistici), anche per rappresentare la conoscenza pregressa si procede all’introduzione di specifici modelli che in questo caso però non sono rappresentativi della variabilità oggettiva insita nei dati, in quanto i parametri che caratterizzano i modelli sono delle costanti, ma rappresentano invece una variabilità virtuale che dipende dalla mancanza di conoscenza o dalla conoscenza parziale di cui si dispone. Tecnicamente il problema si risolve considerando i parametri non più delle costanti incognite ma delle variabili casuali governate da una propria legge di distribuzione delle probabilità (probabilità a priori). L’approccio bayesiano viene rifiutato da una componente molto rilevante della comunità scientifica che ritiene l’approccio stesso troppo condizionato da possibili preconcetti che poco hanno a che vedere con l’oggettività del processo scientifico, e ciò vale in particolare nei casi in cui si perviene alla formulazione della legge di distribuzione a priori rifacendosi alla definizione soggettiva della probabilità 2. Quest’ultima considerazione evidenzia un fatto su cui vale la pena richiamare l’attenzione del lettore, e cioè sulla presunta oggettività dell’approccio classico alla problematica dell’inferenza induttiva che assegna ai soli dati campionari il compito di fornire informazioni sul fenomeno oggetto d’indagine: se si presuppone nota la forma analitica del modello rappresentativo della realtà, risulta ovvio che non sono solo i dati campionari a giocare un ruolo rilevante nel processo cognitivo, ma anche la conoscenza pregressa che suggerisce la forma del modello. Una conoscenza pregressa che potrebbe comunque essere fondata esclusivamente su dati campionari (dati oggettivi), ma allora si riproporrebbe il dilemma dell’esistenza di un a priori della conoscenza pregressa in un processo del quale non si intravede il motore primo. La conoscenza pregressa del processo generatore dei dati è l’elemento che suggerisce il modello probabilistico rappresentativo della realtà cui fare riferimento nell’analisi, modello che determina anche le conclusioni cui si perviene, che possono essere molto diverse, anche se basate sugli stessi dati campionari, se diversi sono i processi che hanno generato i dati. Esempio 6.1 Si supponga che in n lanci di una moneta la faccia testa si sia presentata k volte; l’evidenza empirica disponibile è, quindi, rappresentata da k successi in n prove indipendenti. Si tratta di una evidenza la cui rappresentazione attraverso un modello probabilistico dipende strettamente dal processo che l’ha generata; infatti, se il numero dei lanci è prefissato, il modello cui fare riferimento è la distribuzione binomiale; se invece il numero n dei lanci è il risultato di un processo che richiede di effettuare tanti lanci quanti ne occorrono per il conseguimento di k teste il modello da considerare è la distribuzione binomiale negativa. Ora, 2 Al riguardo conviene, comunque, sottolineare che in letteratura si ritrovano numerosi contributi di autori che propongono la derivazioni di distribuzioni a priori “oggettive” a partire dalla distribuzione a priori uniforme (a priori non informativa) proposta Laplace, a quelle proposte da Jeffreys, da Jaynes, da Bernardo e da altri autori. 330 se con p si indica la probabilità di testa, in presenza di uno stesso risultato campionario k successi in n prove indipendenti le conclusioni cui si perviene sono diverse: nel primo caso (numero di lanci prefissato) la variabile casuale X ha distribuzione binomiale con funzione di massa di probabilità n x f(x) = f(x;n,p) = p x 1 p n x n p x q n x x la cui media e varianza sono, rispettivamente E X n p e Var X n p q ; mentre, nel secondo caso la variabile casuale X ha distribuzione binomiale negativa (numero di insuccessi prima di ottenere k successi) con funzione di massa di probabilità (IIIa versione) k x 1 k k x 1 k x x P( X x) f ( x; k , p) p (1 p) p q x x dove n = k + x, la cui media e varianza sono, rispettivamente E X kq kq e Var X 2 . p p La verosimiglianza per i due diversi processi generatori dei dati è: 10 5 1 10 15 10 1510 5 e p / X 10 p 1 p p (1 p ) . 5 10 p / X 10 Come si può rilevare le due espressioni sono identiche a meno della costante di normalizzazione (permutazioni con ripetizione) 15 10 5 1 14 14 . 5 10 5 9 Le stime di massima verosimiglianza del parametro p (probabilità di successo) sono molto diverse, rispettivamente, p k 10 k 10 0, 67 nel primo caso e p 0, 4 nel k n 25 n 15 secondo caso. Diverse sono anche le conclusioni cui si perviene quando si procede alla verifica di ipotesi statistiche. L’esempio sottolinea la rilevanza delle “conoscenze a priori” nel condizionare sia la scelta della procedura di analisi statistica dei dati sia le conclusioni che dalle analisi stesse derivano. L’interpretazione restrittiva e (a parere dell’autore di queste note) scorretta dell’oggettività della scienza che esclude dal processo scientifico ogni elemento di soggettività non può giustificare il rifiuto dell’approccio bayesiano se basato sull’impiego di probabilità soggettive. Probabilità che derivano dal bagaglio conoscitivo posseduto dal soggetto che è chiamato ad esprimerle e che lo caratterizzano come scienziato. Il problema non risiede tanto nell’uso delle conoscenze a priori quanto nella natura e nel corretto impiego delle stesse; la natura dipende dalla qualità dello scienziato e un corretto impiego è rappresentato dalla formula di Bayes. 331 In letteratura sono stati proposti numerosi altri approcci all’inferenza statistica, oltre a quello classico (frequentista) e quello bayesiano (soggettivista), tra i più rilevanti si segnalano l’approccio 3: Fiduciale (Fisher, 1930, 1935 e 1956) Della verosimiglianza (Barnard, 1949, 1985; Birnbaum, 1962; Edwards, 1972; Azzalini, 1996 e Royall, 1997) Della plausibilità (Barndorff-Nielsen, 1976) Strutturale (Fraser, 1949 e 1968) Pivotale (Barnard, 1949, 1985) Prequentiale (Dawid, 1984, 1997 e 2000) Predittivo (Geisser, 1993) Bayesiano/verosimiglianza integrato (Aitkin, 2010) 6.1 La formula di Bayes Nei capitoli precedenti sono stati illustrati i metodi che consentono la derivazione di risultati che soddisfano a certi criteri di ottimalità predefiniti per la risoluzione di problemi di stima (puntuale e di intervallo) o di verifica di ipotesi statistiche relative ai parametri (uno o più costanti non note) presupponendo la conoscenza della funzione di massa o di densità di probabilità della v.c. X X f x;1 ,2 ,..., f x; e la disponibilità di un campione casuale semplice di osservazioni sulla v.c. X X X 1 , X 2 ,..., X i ,..., X n ' con funzione di massa o di densità di probabilità f x1 , x2 ,..., xn ;1 , 2 ,..., f x; f xi ; n i 1 dove f xi ; f x; . Nel contesto dell’inferenza statistica classica, un ruolo particolarmente rilevante è svolto dalla funzione di verosimiglianza. Al riguardo basta ricordare quanto detto a proposito del metodo di stima della massima verosimiglianza e del test del rapporto di massima verosimiglianza. Se si osserva l’espressione analitica della funzione di massa o di densità di probabilità del campione e della funzione di verosimiglianza n funzione di verosimiglianza L L ; x f / x f xi ; i 1 n funzione di massa o densità di probabilità f x; f x / f xi ; i 1 3 Sull’argomento si può consultare Barnett (1999). 332 si rileva immediatamente come ad una apparente uguaglianza formale corrisponde una rilevante differenza sostanziale; infatti, si tratta di due probabilità condizionate, nel primo caso, della variabile dato uno specifico risultato campionario L f / X x , nel secondo caso della variabile X dato uno specifico valore di . In altri termini, le due funzioni, di verosimiglianza e di probabilità (massa o densità), sono formalmente del tutto equivalenti ma è completamente diversa la loro interpretazione. Nel caso della funzione di verosimiglianza l’argomento è la variabile o il vettore di variabili una volta acquisita l’informazione campionaria X che rappresenta l’elemento condizionante, mentre nella funzione di massa o di densità di probabilità è il vettore casuale delle osservazioni campionare X la cui distribuzione dipende dai valori assunti dal/i parametro/i / . Per risolvere i problemi inferenziali si è fatto riferimento, a seconda della tipologia di problema, a specifiche variabili casuali, verificandone il comportamento nell’universo di tutti i possibili campioni estraibili dalla popolazione rappresentata dal modello f x; f x / ; in particolare, sono state considerate le funzioni degli elementi campionari: la v.c. stimatore i Ti X 1 , X 2 ,..., X n Ti X per i 1,2,..., la v.c. elemento pivotale Yi Ti X ;i = Ti X / i per 1 1, 2,..., la v.c. test Vi Ti X ;i =Ti X / i per i 1, 2,..., . Nota la legge di distribuzione nell’universo dei campioni delle variabili sopra elencate è possibile risolvere i problemi inferenziali verificando il soddisfacimento dei criteri di ottimalità predefiniti. Al riguardo si segnala che, nella generalità dei casi, quando il modello è caratterizzato da più parametri ma solo alcuni sono di interesse occorre intervenire sui cosi detti parametri di disturbo, cioè sui parametri ai quali non si è interessati ma che sono presenti quali elementi caratterizzanti la distribuzione campionaria delle tre variabili sopra elencate e che spesso non consentono il perseguimento dell’obiettivo prefissato. In tali circostanze, se non si riesce ad ottenere i risultati d’interesse, qualunque sia il valore assunto dal/dai parametro/i di disturbo si procede sostituendo al/i valore/i incognito/i del parametro/i una sua/loro stima. Operazione quest’ultima non sempre consente il perseguimento dell’obiettivo desiderato. Nelle pagine seguenti si avrà modo di evidenziare come il problema della presenza di parametri di disturbo trovi una immediata e soddisfacente soluzione nel contesto bayesiano. Inoltre, in tale contesto è possibile affrontare e risolvere in modo soddisfacente anche il problema della scelta del della forma analitica del modello quale rappresentazione semplificata della realtà. Nell’approccio bayesiano non si fa più riferimento ad un modello probabilistico f x; f x / rappresentativo del fenomeno d’interesse noto a meno del valore 333 assunto dal/i parametro/i che lo caratterizzano ed individuano lo specifico modello quale/i elemento/i condizionante/i, si fa invece riferimento ad una distribuzione congiunta (di massa o di densità di probabilità) f x, Entrambi gli argomenti della funzione x e hanno natura di variabili casuali, la prima dovuta alla naturale variabilità del fenomeno indagato (variabilità aleatoria) la seconda dovuta alla mancata conoscenza del suo valore numerico (variabilità virtuale o epistemica). Riprendendo quanto detto a proposito delle probabilità condizionate di eventi valgono le uguaglianze f x, f x / f x, / x f x dove rappresenta la forma analitica del modello rappresentativo del vettore casuale . Dalle due relazioni di uguaglianza si deriva l’espressione analitica della formula di Bayes f x / f x / / x f x f x / d dove è stato ipotizzato un spazio di variabilità dei parametri continuo. Se anziché fare riferimento alla variabile X si considera il vettore casuale campionario X X 1 , X 2 ,..., X i ,..., X n la formula di Bayes diventa ' / x f x / f x f x / f x / d L L f x dove f x f x / d definisce la distribuzione marginale di X X 1 , X 2 ,..., X i ,..., X n , usualmente detta ' distribuzione predittiva a priori di X , che rappresenta la costante di normalizzazione della distribuzione a posteriori di , il simbolo sta ad indicare la relazione di proporzionalità tra le due quantità poste a confronto, mentre L rappresenta nucleo (kernel in inglese) della distribuzione a posteriori4. 4 Il nucleo di una funzione di massa o di densità di probabilità è dato dalla rappresentazione analitica della stessa funzione dopo aver omesso tutti i termini che non sono funzioni della variabile casuale di riferimento, ad esempio alla funzione di densità di probabilità della v.c. normale 334 A fronte della distribuzione predittiva a priori si colloca la distribuzione predittiva a posteriori f x / x f x / , x / x d che fa riferimento ad un nuovo campione di possibili osservazioni X avendo già osservato n manifestazioni dello stesso fenomeno X = x . Le funzioni sopra introdotte hanno la seguente interpretazione probabilistica / x distribuzione condizionata pel parametro/i (probabilità a posteriori ) f x / distribuzione condizionata del campione (probabilità a priori del campione ) L f / X x distribuzione del parametro/i ( verosimiglianza ) distribuzione del parametro/i (probabilità a priori ) f x distribuzione marginale del campione (probabilità predittiva a priori ) f x / x distribuzione marginale del campione (probabilità predittiva a posteriori ) dove la probabilità va intesa come funzione di densità di probabilità nel caso continuo e come funzione di massa di probabilità nel caso discreto. Le ragioni principali che hanno frenato lo sviluppo e l’impiego della teoria e dei metodi propri dell’inferenza statistica bayesiana sono da ricercare soprattutto i due problemi presenti nella formula di bayes. Il primo è rappresentato dal già segnalato rifiuto da parte di molti autori del modo soggettivo con cui si perviene alla misura della probabilità a priori , anche a prescindere dalle difficoltà di traduzione, a volte molto rilevanti, delle conoscenze a priori in distribuzioni di probabilità significative. I l secondo problema risiede, invece, nella difficoltà di derivazione in forma chiusa (analiticamente) dell’espressione f x f x / d . Ad entrambi i problemi sono state proposte delle soluzioni che non sono però condivise dall’intera comunità scientifica soprattutto per ciò che concerne il problema della scelta della distribuzione a priori. Una delle proposte di rilevanza non marginale, e che offre una soluzione relativamente soddisfacente ad entrambi i problemi, è rappresentata dall’impiego delle distribuzioni a priori coniugate introdotte nel paragrafo 14 del primo capitolo. Infatti, f x, / è associato il nucleo e 2 1 2 2 n /2 e 1 2 x 2 2 1 x 2 2 2 che consente di scrivere f x, / 2 e 335 1 2 x 2 2 . tale scelta, fornendo direttamente l’espressione analitica della distribuzione a posteriori, oltre a risultare ragionevole in molti contesti di ricerca non richiede il computo della distribuzione marginale f x . In realtà, operativamente, il passaggio dalla distribuzioni a priori coniugata alla distribuzione a posteriori avviene facendo riferimento al nucleo della distribuzione: dal nucleo della distribuzione a priori coniugata si passa al nucleo della distribuzione a posteriori alla cui espressione completa si perviene attraverso la facile derivazione della costante di normalizzazione. Il mancato ricorso all’impiego delle distribuzioni a priori coniugate richiede necessariamente il computo dell’espressione a denominatore della formula di Bayes che, come già sottolineato, solo in rare occasioni può essere ottenuta per via analitica. Le stesse difficoltà di derivazione analitica si presentano allorquando si vuol procedere ad una sintesi della distribuzione a posteriori attraverso il computo di indici caratteristici (ad esempio i momenti della v.c. ). Se si considera una generica funzione g si deve procedere, cioè, al computo della relazione E g g / x d g f x / d f x / d dove le difficoltà di derivazione analitica riguardano entrambi gli integrali, quello a denominatore e quello a numeratore dell’espressione. I metodi classici di integrazione numerica, a ragione della complessità dei problemi, nella generalità dei casi, non portavano a soluzioni soddisfacenti cui si è invece pervenuti attraverso il ricorso ai cosidetti metodi Montecarlo (Markov Chain Monte Carlo - MCMC). All’introduzione dei metodi MCMC in ambito statistico si deve sostanzialmente attribuire l’enorme sviluppo, sia nel contesto teorico che in quello applicativo, dell’inferenza Bayesiana. Il principio si cui sono basati i metodi MCMC è relativamente semplice, si tratta di effettuare operazioni ripetute di campionamento casuale da una popolazione di riferimento fino a pervenire ad una approssimazione della distribuzione desiderata attraverso l’impiego delle catene di Markov ricorrendo a specifici algoritmi proposti in letteratura. Tra i più noti e di più largo impiego si segnalano l’algoritmo di MetropolisHastings, il Gibbs sampler, lo slice sampling e il perfect sampling; al riguardo si segnala, in particolare, il software gratuito WinBUGS5. Le difficoltà di traduzione delle informazioni a disposizione in distribuzioni di probabilità a priori e, soprattutto, il rifiuto delle stesse in quanto caratterizzate da elevata soggettività (preconcetti) associate alla constatazione che in molte situazioni di ricerca 5 Si tratta di un software molto flessibile sviluppato nell’ambito del progetto Bayesian inference Using Gibbs Sampling (BUGS) che consente l’analisi bayesiana di modelli statistici complessi attraverso l’impiego di metodi Markov Chain Monte Carlo (MCMC). Il progetto avviato nel 1989 dall’Unità Biostatistica MRC di Cambridge è stato successivamente sviluppato da questa Unità in collaborazione con l’Imperial College School of Medicine di Londra. 336 non si ritiene sufficiente, o del tutto assente, il bagaglio informativo disponibile a priori, hanno suggerito l’introduzione delle cosidette distribuzioni a priori oggettive6. Al paradigma bayesiano fanno, pertanto, riferimento almeno due scuole di pensiero: da un lato si collocano i sostenitori della scelta soggettiva della probabilità a priori (bayesiani soggettivisti), e in questa categoria si colloca anche l’autore di queste note, dall’altro lato si collocano coloro che ritengono sia possibile pervenire ad una misura “oggettiva” delle probabilità a priori (bayesiani oggettivisti). Nell’ambito di questa seconda categoria vanno però distinti almeno 2 diversi filoni: i bayesiani empirici che ritengono giustificato l’impiego del metodo bayesiano solo quando si dispone di un’evidenza empirica a priori adeguata; coloro che suggeriscono l’impiego di distribuzioni a priori usualmente, ma impropriamente, dette non informative7. In questa sede non si procederà all’approfondimento dell’argomento8 limitando l’esposizione a brevi considerazioni su alcune tipologie di distribuzioni a priori e alla presentazione di alcuni esempi di derivazione della distribuzione a posteriori in dipendenza di una scelta acritica9 della distribuzioni a priori. In particolare, verranno illustrati esempi di derivazione della distribuzione a posteriori per alcune variabili casuali considerando le distribuzioni a priori coniugate e alcune distribuzioni a priori non informative. Prima di procedere nelle esemplificazioni risulta conveniente anticipare alcuni concetti che verranno ripresi e meglio precisati nelle pagine successive. Nell’introdurre il concetto di probabilità a priori è stata utilizzata la generica espressione , si tratta ovviamente di una rappresentazione che necessita di ulteriori elementi caratterizzanti. Trattandosi di una distribuzione di massa o di densità di probabilità, l’espressione analitica sarà generalmente caratterizzata da uno o più parametri ' 1 , 2 ,......, s usualmente detti iperparametri; pertanto, per esplicitare tale dipendenza si deve utilizzare la forma / per rappresentare la probabilità a priori, mentre l’espressione della probabilità a posteriori diventa f x / , f x / , / x, f x f x / , d L , L , . f x 6 Altri termini utilizzati per qualificare tali distribuzioni sono: non informative, di default, convenzionali, di riferimento, non soggettive. 7 Uno dei più autorevoli sostenitori dell’approccio bayesiano oggettivo Bernardo (1997) al riguardo dichiara: ”Noninformative priors do not exist”. A dialogue with José M. Bernardo”. 8 Il lettore interessato può utilmente consultare, tra gli altri, il contributo di Berger “ The Case for Objective Bayesian Analysis” e quello di Goldstein (2006). Al riguardo particolarmente interessanti sono anche i lavori di Joyce (2009) e quello di Robert e al., (2009). 9 Il lettore interessato al tema può utilmente consultare i contributi di Kass e Wasserman (1996) e quello di Berger, Bernardo e Sun (2009). Per un’approfondimento sulla derivazione soggettiva delle distribuzioni di probabilità a priori si può, tra gli altri, consultare il lavoro di Jenkinson (2005). 337 di conseguenza, le distribuzioni predittive a priori e a posteriori assumono la forma f x / f x / , d e f x / x, f x / / x, d . 6.2 - Distribuzioni a priori coniugate Si riporta la definizione di distribuzione coniugata introdotta nel paragrafo 14 del I° capitolo di queste Note: “Quando la distribuzione di probabilità a posteriori appartiene alla stessa famiglia della distribuzione a priori, quest’ultima viene detta distribuzione di probabilità coniugata”. Come si avrà modo di verificare scorrendo gli esempi di seguito riportati, il ricorso alle distribuzioni a priori coniugate presenta notevoli vantaggi; infatti, si tratta spesso di distribuzioni molto flessibili che proprio per questa loro caratteristica si rivelano adeguate in molte situazioni di ricerca. Comunque, al fine di evitare errate conclusioni, il ricorso ad una tale tipologia di distribuzioni non deve essere acritico ma deve essere limitato ai soli casi in cui si possiede un adeguato patrimonio informativo a priori che ne giustifichi l’impiego. Esempio 6.2 (distribuzione di Bernoulli) Per la distribuzione di Bernoulli f x, p p x 1 p 1 x p; , per x : 0,1 , la v.c. Beta p 1 1 p p 1 1 p 1 0 1 1 dp è distribuzione coniugata a priori, infatti L p; x p p x 1 p p / x f x f x p 1 1 p 1 x 1 0 p x 1 1 p 1 x 1 p *1 1 p 1 * p 1 1 p 1 1 dp dove x *, 1 x * che è una distribuzione Beta con parametri * e *. Esempio 6.3 (distribuzione Binomiale) La v.c Beta è anche distribuzione coniugata a priori della distribuzione Binomiale, infatti, riprendendo la funzione di massa di probabilità della distribuzione binomiale n x F(x,n,p) = p x 1 p si ha 338 n x n p x q n x x p 1 1 p L p; x m p n m nm p / x m p 1 p / f x 1 1 f x m p 1 1 p dp 1 0 1! p 1 1 p 1 n! n x p x 1 p x ! n x ! 1! 1! 1 1! p 1 1 p 1 n! n x x p 1 p dp 0 1! 1! x ! n x ! x n x 1! p x 1 1 p n x 1 = x 1! n x 1! n x 1 p x 1 1 p = B( x , n x ) p m 1 1 p 1 m 1 p *1 1 p dove * m , * n m * 1 che è una distribuzione Beta con parametri * m e * n m . Esempio 6.4 (distribuzione Multinomiale) Come già sottolineato nel Cap. 1 la v.c di Dirichlet k 1 i i 1 ( p) ( p; ) k 1 k 1 p k 1 i 1 i i 1 p i 1 i i 1 i i 1 è distribuzione a priori coniugata della v.c. multinomiale n! f ( x , p) x1 ! x2 ! ... xk ! n k i 1 xi ! p1x1 p2x2 ... pkxk q n k xi i 1 infatti k 1 ( p / x m ) k 1 p p i 1 mi i i i 1 k 1 i 1 p i mi 1 i i 1 i Esempio 6.5 (distribuzione di Poisson) La funzione di verosimiglianza della v.c. di Poisson è L ( ; x ) i 1 n xi e n xi e n i1 xi ! La v.c. Gamma 339 p i* 1 i i 1 che è una distribuzione di Dirichlet con parametri * i mi . n k 1 1e ( ) 1e è distribuzione a priori coniugata della v.c. di Poisson, infatti n L ; x / x * 1 e p *1 1 p e n xi 1 n xi ! i1 e f x i 1 f x * e n 1 xi n dove xi *, * 1 i 1 n n x e che è una distribuzione Gamma con parametri * * i i 1 * n . Esempio 6.6 (distribuzione Normale) La funzione di verosimiglianza della v.c. Normale è L , ; x 2 1 2 2 e n /2 n 1 2 2 xi 2 e i 1 n 1 2 2 xi 2 i 1 e n 2 x 2 2 2 e n 2 x 2 2 Per nota, la v.c.Gamma inversa10 2 1 ( 2 / ; , ) e 2 2 1 e 2 è distribuzione a priori coniugata della v.c. Gamma inversa, infatti dalla verosimiglianza L , / x 2 1 2 2 n /2 e 1 2 2 n xi 2 i 1 si ha 10 Se Y , la x 1 e f ( x; , ) v.c X = 1/Y è x x 1e detta Gamma inversa ed ha funzione di densità x . Si segnala che a risultati analoghi si perviene anche se si considera la v.c. Gamma anziché la v.c. Gamma inversa. 340 2 / , x ; , e n 2 x 2 2 L / ; x 2 f x n 2 2 1 dove * 1 2 e 2 2 2 n /2 n 2 2 1 e e n 1 2 2 xi i 1 2 2 1 e 2 f x 2 n 2 x 2 * 2 1 e * 2 n n 2 e * x 0 . 2 2 che è una distribuzione Gamma inversa con parametri * n n 2 e * x 2 2 n n 2 Inv , x . 2 2 cioè : 2 / , x Per 2 nota, la v.c. normale / ; 0 , 2 2 0 1 2 2 0 n /2 e 1 2 0 2 02 è distribuzione a priori coniugata della v.c. Normale, infatti n 1 0 2 xi 2 f x / 1 1 2 2 i 1 212 2 / , x ; 0 , 0 e e / f x n /2 n /2 f x 2 2 2 02 1 1 e 2 2 n /2 n 1 2 2 xi x n x 2 2 i 1 1 2 2 n /2 0 e 1 0 2 2 02 / f x e 1 n 1 2 2 x 2 0 2 2 0 Ma n 2 x 2 1 02 2 0 2 n 02 2 n x 02 0 2 n 2 x 0 2 2 2 2 2 2 n 0 n 0 0 da cui / 2 , x; 0 , 02 e e dove * 1 2 *2 n 2 2 x 2 e 1 2 02 0 2 =e n x 02 1 2 1 2 n 02 2 2 2 0 2 n 02 * 2 n x 02 1 2 2 02 2 e . * 2 n 02 2 n 02 La distribuzione marginale a posteriori di / x è quindi normale / 2, x n x 02 0 2 2 02 N , . 2 2 2 n 02 n 0 341 2 Si dimostra la relazione n 2 n 2 x x 2 2 1 12 1 2 0 2 1 2 0 2 n 12 2 n x 12 1 2 n 2 x 1 2 2 2 2 2 2 n 1 n 1 1 n n n 1 1 1 2 x 2 2 2 2 2 x 2 2 2 02 2 2 0 0 0 0 n n n 1 1 1 2 2 2 2 2 x + 2 0 2 x 2 2 02 0 0 0 n n 1 1 2 2 x + 2 0 2 x 2 2 02 0 0 n 1 2 2 2 n 1 0 2 2 0 2 n 1 2 2 2 0 n n 1 1 2 x + 2 0 2 x + 2 0 0 0 2 n 1 n 1 2 2 2 2 0 0 2 2 n 1 n 2 1 2 2 x + 2 0 x 2 0 0 n 2 0 1 2 2 2 n 1 0 n 1 2 2 2 2 0 0 2 2 n 1 n 1 n 2 1 2 x + x + 2 0 2 x 2 0 02 0 2 n 02 2 2 0 0 2 2 2 n n 1 1 0 n 1 2 2 2 2 2 2 0 0 0 2 n 1 2 2 x + 2 0 2 2 2 2 0 n 0 n x 0 0 n x2 1 2 2 2 2 2 n 0 2 02 0 n 1 0 2 2 0 2 n 02 2 n x 02 0 2 n 2 x 0 2 2 2 2 2 2 n 0 n 0 0 c.v.d . Relativamente più onerosa è la derivazione della distribuzione a posteriori quando entrambi i parametri (media e varianza) sono incogniti. Se si considerano le distribuzioni a priori sopra definite, si assume implicitamente l’indipendenza tra e 2 ma in questo caso non è possibile ottenere una distribuzione a 342 priori coniugata, cosa che risulta invece possibile se si assume una relazione di dipendenza tra le 2 variabili esplicitandola nella definizione della distribuzione a priori , 2 / 2 2 . Le due distribuzioni sotto definite (normale e Gamma inversa) / 2 1 2 2 n /2 1 e 1 212 1 2 1 2 2 / n0 n /2 e 1 2 2 / n0 1 2 per 12 2 / n0 e 2 2 1 e 2 generano la distribuzione congiunta Normale-Gamma inversa 1 , 2 / 2 2 cioè , 1 2 2 e 1 2 2 / n0 1 2 NInv 1 , 2 2 2 2 / n0 e 1 2 2 2 / n0 2 1 e 2 2 e ; n ; , che è distribuzione a priori coniugata di una v.c. che 2 1 0 appartiene alla stessa famiglia. Infatti, se si considera la verosimiglianza L , ; x 2 1 2 2 n /2 e 1 n 2 xi 2 2 i1 tenendo presente che xi xi x x si ha L , 2 ; x 1 2 2 n /2 1 2 e 2 n /2 e n 1 2 2 xi i 1 2 1 2 ( n 1) s 2 n x 2 2 la distribuzione a posteriori congiunta è 343 1 2 2 n /2 e 1 n 2 2 xi x n x 2 2 i1 , / x 2 e 1 2 2 / n0 2 1 2 2 / n0 1 2 2 e 2 e 1 2 2 2 e n0 1 n x n n0 n n0 2 2 n0 1 2 ( n 1) s 2 n x 2 2 n n0 n 1 /2 e n /2 1 n 2 +n x 2 2 ( n 1) s 2 0 1 2 2 2 2 / n0 2 2 n 2 2 1 f x 1 2 n 2 2 1 / 2 2 L , 2 ; x n /2 2 1/2 1 2 2 e / f x / f x n n0 1 2 x 1 2 2 ( n 1) s n n0 2 2 / f x dove per derivare l’ultimo termine dell’ultima uguaglianza è stata utilizzata la relazione n x n0 1 2 2 n n n nx 0 x 1 n0 n 0 1 n0 n n n0 n n0 2 la cui dimostrazione è la stessa svolta in precedenza dove i coefficienti che moltiplicano i due quadrati sono n e n0 anziché n 2 e 1 12 . Se si pone : *2 2 / n n0 , * n * , * 2 si ha , / x 2 1 2 2 1 2 2 e e n0 1 nx , n n0 n n0 n n0 (n 1) 2 2 s x 1 2 2 n n0 / 2 2 L , 2 ; x f x n n0 2 2 n n0 2 *2 n0 1 n x n n0 n n0 * 2 2 n 2 2 1 * 2 1 e e n n0 1 ( n 1) 2 s x 1 2 2 2 n n0 2 * 2 che è una v.c. Normale-Gamma inversa, cioè , 2 / x NInv * , *2 ; * , * La distribuzione a posteriori marginale della v.c. 2 / x si deduce immediatamente dall’ultima relazione sopra scritta; infatti, se si integra rispetto a μ si ottiene 11 11 Questa operazione rappresenta un esempio di quanto affermato in precedenza riguardo al trattamento dei parametri di disturbo che possono essere spesso rimossi attraverso una semplice operazione di marginalizzazione. 344 / x 2 + - 1 2 2 1 2 2 e 2 1/2 * 1 * 2 * 2 1 * 2 2 *2 e * 2 1 * 2 1 * 2 * 2 e e d Che è una distribuzione Gamma inversa con parametri n * , * 2 n n0 (n 1) 2 2 s x 1 2 2 n n0 quindi 2 / x n 1 s 2 n n0 x 2 n Inv , 1 2 2 2 n n0 Inv * , * La distribuzione condizionata a posteriori di μ è / , x 2 , / x 2 2 / x 1 2 2 e 1 * 2 2 *2 * 2 1 * 2 1 e e * 2 e * 2 1 2 *2 * 2 quindi n nx N 0 1 , 2 / n n0 n n0 n n0 / 2, x Per derivare la distribuzione marginale a posteriori di μ conviene considerare una sottofamiglia della v.c. gamma inversa attraverso una specificazione dei parametri caratteristici ponendo 2 , = 12 nella distribuzione a priori della varianza. La 2 densità 2 1 ( 2 ) e 2 2 1 e 2 diventa ( ) 2 2 1 2 2 2 1 e / 2 12 2 2 2 2 1 e 12 2 2 che è una v.c. chi quadro inversa scalata 12con ν gradi di libertà e parametro di scala 12 cioè 2 InvS 2 , 12 . Con tale specifica la distribuzione a priori congiunta assume la forma 12 La v.c. chi-quadro inversa è definita come sottofamiglia della v.c. gamma inversa mediante una specifica dei parametri. Nella v.c. chi-quadro inversa scalata, oltre al parametro che misura i gradi di libertà, è presente un ulteriore parametro di scala. 345 1 , 2 / 2 2 1 2 2 e 1 2 2 / n0 1 2 2 1 2 / n0 2 e 1 2 2 2 / n0 e 2 2 1 2 2 1 e 12 2 2 / 2 12 2 2 che è una v.c.normale-chi quadro inversa scalata con ν gradi di libertà e parametro di scala 12 cioè , 2 2 NInvS 2 1 , ; , 12 . n0 Con tale specifica la distribuzione a posteriori congiunta assume la forma , / x 2 n 2 2 2 1 / 2 2 L , 2 ; x f x 1 2 / n n0 2 e 2 n 1 /2 n0 n0 1 n x n n0 n n0 2 1 2 2 2 / 1/2 2 1 2 e 1 2 2 n n0 2 2 x 1 2 1 ( n 1) s n n0 / 2 da cui , 2 / x 1 2 2 1 2 2 e e e n n0 n0 1 n x n n0 n n0 2 2 2 2 2 / n0 1 2 / n n0 2 1 n0 1 nx n n0 n n0 * 2 2 *2 * 2 2 1 n 3 2 2 2 e 2 2 2 e 1 2 2 1 n 1 s 2 2 n 1 2 e n n0 n n0 x 1 2 n /2 n n0 1 2 2 x 1 2 1 ( n 1) s n n0 2 2 * 2 2 dove 2 * n0 1 n x , *2 , * = n e * 12 (n1) s2 n n0 n n0 n n0 x . n n n n0 2 1 0 Pertanto, la distribuzione a priori congiunta è data dal prodotto di una v.c. normale e una v.c. 2 inversa scalata 2 , 2 / x NInvS 2 n0 1 n x , ; n , 12 (n1) s2 n n0 n n0 n n0 n n0 cioè , 2 / x 2 x n n 1 0 NInvS 2 * , *2 ; * , * . quindi, la distribuzione marginale a posteriori di 2 è 346 / f x n n0 2 InvS 2 n, 12 n 1 s 2 x 1 InvS 2 * , * n n0 2 / x . cioè, la distribuzione marginale a posteriori della varianza è una v.c. chi-quadro inversa scalata con * n gradi di libertà e con parametro di scala * 12 n 1 s 2 n n0 2 x 1 . n n0 Mentre la distribuzione marginale a posteriori di / x si ottiene integrando rispetto a 2 la distribuzione a posteriori congiunta . / x 0 0 0 1 2 2 , 2 / x d 2 e 1 2 / n n0 2 n 3 2 2 e 1 2 2 n0 1 n x n n0 n n0 2 2 n 1 2 e n n0 1 2 2 x 1 2 1 ( n 1) s n n0 2 2 2 n n0 n n x 12 ( n 1) s 2 x 1 2 n n0 0 1 n n0 n n0 n n0 d 2 d 2 Se si pone n n0 n nx 2 A n 1 s x 1 n n0 0 1 n n0 n n0 n n0 2 1 2 2 e z A / 2 2 2 A / 2 z d 2 d 2 A dz 2z2 si ha / x 0 A n 1 2 A 2z n 3 /2 A e z 2 dz A n 1 /2 2z 12 n 1 s 2 z n 1 /2 e z dz 0 2 n n0 n0 1 nx 2 x 1 n n0 n n0 n n0 n n0 2 n0 1 nx 2 2 1 n n0 / 1 n 1 s n n0 n n0 * 2 1 / * n n0 2 x 1 n n0 n 1 /2 n 1 /2 n 1 /2 con = 12 n 1 s 2 n n0 2 x 1 n n0 che, a meno della costante di normalizzazione, rappresenta una v.c. t scalata non centrale con * = n gradi di libertà, parametro di non centralità * 2 n nx 2 2 scala * 0 1 / 1 n 1 s n n n n 0 0 347 n0 1 nx e parametro di n n0 n n0 n n0 2 x 1 , cioè n n0 /x n nx NCSt * * , NCSt n 0 1 , 12 n 1 s 2 n n0 n n0 n n0 2 x 1 . n n0 Esempio 6.7 (distribuzioni multidimensionali) Nel Cap. 1 se è già avuto modo di considerare la v.c. di Dirichlet come distribuzione a priori coniugata della v.c multinomiale, in questo esempio si procederà all’esame della v.c. normale a k dimensioni. Operando in modo analogo a quanto già fatto per la v.c. normale semplice e ricordando che la funzione di densità di probabilità della v.c. normale a k dimensioni è espressa da 1 f ( x, , ) (2 ) k 1 2 e 1 x ' 1 x 2 2 dove x1 x 2 x xk 1 11 2 21 ; ; k1 k 2 12 1k 2 k 21 22 12 22 1k 1 kk k2 2k k1 k 2 k2 Per noto, la v.c., se si ipotizza che la matrice di dispersione (definita positiva) si distribuisce come una Wishart inversa con parametri (gradi di libertà) e 0 (matrice definita positiva) è facile verificare che la stessa è distribuzione a priori coniugata della v.c. multidimensionale Wishart inversa. Infatti, poiché la funzione a priori di densità di probabilità è ( 0 ) 0 2 nk 2 n 2 n k 1 2 e k n / 2 1 tr 0 1 2 n k 1 2 e 1 tr 0 1 2 dove k n / 2 è la funzione gamma multivariata k n / 2 k k 1 /4 n n / 2 1 i / 2 i 1 mentre la funzione di verosimiglianza per un campione di dimensione n estratto da una v.c. normale a k dimensioni è 1 L( , / X ) (2 ) nk 2 si ha 348 n 2 e 1 2 n ' 1 xi xi i 1 ( X 0 ) 1 (2 ) e nk 2 n2 e f X n 1 ' 1 xi xi 2 i 1 0 2 dove xi 0 2 n 1 ' 1 xi xi 2 i 1 ( X 0 ) L( , / X ) n 2 nk 2 n k 1 e n k 1 1 tr 0 1 2 2 1 tr 0 1 2 e k n / 2 nk 2 2 k n / 2 n 2 x1i , x2 i ,, xki è l’i-esimo vettore delle osservazione campionarie. ' Esempio 6.8 (famiglia esponenziale) Ai risultati sopra illustrati si poteva pervenire attraverso specificazioni delle conclusioni cui si perviene se si fa riferimento alla famiglia esponenziale regolare la cui distribuzione a priori coniugata è facilmente derivabile. Infatti, se si riprende in considerazione la funzione di verosimiglianza di una v.c. appartenente alla famiglia esponenziale regolare caratterizzata da un solo parametro (cfr. paragrafo 2 del secondo capitolo) f ( ; x1 , x2 ,....., xn ) f ; x n f , x i i 1 a n n hx e n t xi i 1 i i 1 e si introduce una distribuzione a priori per il parametro appartenente alla stessa famiglia esponenziale ( / , ) a e per 0, si ottiene la distribuzione a posteriori ( / x, , ) a n t x e a * * e che appartiene alla stessa famiglia. L’estensione al caso multi-parametrico è immediata. Infatti, se la distribuzione a priori appartiene alla famiglia esponenziale r ( / , ) a i i e i1 dove, 0, 1 , 2 ,...., r e 1 , 2 ,..., k , tenendo presente che la verosimiglianza della famiglia esponenziale nel caso multi-parametrico è 349 r i ti x L x a h x e i1 Si ottiene la distribuzione a posteriori del vettore dei parametri r ( / x, , ) a n i ti x i e i1 a * i e che appartiene alla famiglia esponenziale. 6.3 - Distribuzioni a priori non informative La prima regola per la determinazione di una distribuzione a priori non informativa è quella collegata al principio della ragione insufficiente, usualmente attribuita a Laplace, che assegna un’uguale probabilità a tutte le possibili alternative. Esempio 6.9 – (Distribuzione binomiale e distribuzione a priori Uniforme) Nell’esempio 6.3 si è proceduto alla derivazione della distribuzione a posteriori della binomiale introducendo la v.c. Beta come a priori. La distribuzione a posteriori è espressa dalla formula f p / n, x = p x 1 1 p n x 1 B( x , n x ) che è la funzione di densità di probabilità di una v.c. di tipo Beta con parametri x e n x . Ovviamente, per poter utilizzare questa distribuzione occorre conoscere i valori dei parametri e che identificano la specifica v.c. appartenente alla famiglia Beta; fissazione dei valori che può essere effettuata utilizzando il patrimonio informativo a disposizione o in modo completamente soggettivo. Se non si possiede alcuna informazione oggettiva e si ritiene opportuno evitare la valutazione puramente soggettiva si possono scegliere i valori 2 e 1 che definisce la funzione di densità a priori per il parametro p f p 1 1 0 che rappresenta la funzione di densità di un v.c. rettangolare, cioè una variabile casuale uniforme definita nell’intervallo unitario. La distribuzione a posteriore sopra definita diventa f p / n, x f p f x / p 1 0 f p f x / p dp p x 1 1 p n x B( x 2, n x 1) . Tra le altre proposte di derivazione della distribuzione a priori quella che ha avuto il maggior impatto e di più largo impiego è stata proposta da Jeffreys (1946). Questo autore suggerisce come regola generale per la derivazione della distribuzione a priori la radice quadrata positiva del determinante della matrice dell’informazione di Fisher 350 1/2 det I n i , j 1/2 2 log f x; det E i j 1/2 n 2 log f x; log f x; det E log f X i ; Cov , . i j i 1 i j Altre interessanti proposte, ma non esenti da critiche, sono quella basata sulla massimizzazione dell’entropia, sviluppata soprattutto da Jaynes (1957, 1968,…) e quella basata sulla massimizzazione della divergenza attesa di Kullback-Leibler / x E log tra la distribuzione a posteriori e la distribuzione a priori, la reference prior, proposta inizialmente da Bernardo (1979) e sviluppato successivamente soprattutto da questo stesso autore in collaborazione con Berger (1989, 1991, 1992,….)13. Un aspetto su cui richiamare l’attenzione quando si propone l’utilizzo di una distribuzione a priori di riferimento (distribuzione non informativa) è la possibilità che si tratti di una distribuzione impropria, cioè di una distribuzione per la quale vale la relazione d che può comportare come conseguenza una distribuzione a posteriori impropria, in questo caso non è possibile alcuna inferenza; non sorge nessun problema, invece, quando pur essendo impropria la distribuzione a priori la corrispondente distribuzione a posteriori è propria. 6.4 - Stima e test di ipotesi in ottica bayesiana Nei capitoli precedenti son stati illustrati alcuni tra i metodi statistici proposti in letteratura per la risoluzione dei problemi di stima, puntuale e di intervallo, e di verifica di ipotesi relativamente all’entità incognita , cioè al parametro o ai parametri che caratterizzano il modello f x; la cui forma analitica si presume nota. Sono state discusse, come più volte sottolineato, le soluzioni proposte nel contesto del cosi detto approccio frequentista all’inferenza statistica (inferenza statistica classica). In questo paragrafo verranno illustrate molto sommariamente le soluzioni proposte nel contesto bayesiano. 13 Al riguardo si sottolinea che diversi autori hanno proposto di utilizzare la terminologia reference prior (distribuzione a priori di riferimento) anziché la terminologia distribuzioni a priori non informativa sostenendo, a ragione secondo l’autore di queste note, che qualunque distribuzione a priori contiene un qualche elemento informativo. Accettando tale proposta si potrebbe connotare, come avviene in altri casi, tale distribuzione rifacendosi all’autore che l’ha proposta: quindi distribuzione a priori di Bernardo, o anche di Bernardo-Berger, anziché reference prior. Si sottolinea, inoltre, che le tre proposte di Jeffreys, Bernardo e Jaynes, pur differenziandosi tra loro, hanno numerosi punti di contatto. 351 Stima puntuale e di intervallo di parametri caratteristici Da quanto illustrato nei paragrafi precedenti dovrebbe emergere in modo evidente la logica di base del cosi detto paradigma bayesiano quando si vuol procedere all’analisi di un qualunque fenomeno attraverso l’impiego di un modello probabilistico capace di fornirne una rappresentazione soddisfacente. Il modello, la cui forma analitica si è presupposta nota, è caratterizzato da uno o più parametri nei confronti dei quali si presume una conoscenza a priori incerta che viene espressa facendo ricorso ad uno specifico modello probabilistico. Il livello di conoscenza attuale del ricercatore si incrementa attraverso l’acquisizione di informazioni campionarie (oggettive) che consentono l’aggiornamento dello stato di conoscenza attraverso un passaggio dalla distribuzione di probabilità a priori alla distribuzione di probabilità a posteriori che costituirà l’a priori del gradino successivo nel processo di apprendimento dall’esperienza. In questo contesto, l’utilizzazione dei dati campionari per derivare una stima puntuale di risulta improprio, infatti, i dati devono servire esclusivamente per procedere all’aggiornamento della conoscenza, che sarà ancora una volta espressa attraverso una distribuzione di probabilità, solo quando la distribuzione a posteriori degenera e si riduce ad un solo punto, cui è associata una probabilità pari ad 1, si prefigura un uso dei dati campionari per la derivazione di un valore puntuale di . Comunque, in diversi contesti operativi può risultare conveniente (o necessario) sintetizzare la distribuzione attraverso un unico indice, la scelta più ragionevole dovrebbe ricadere sul valor di cui è associata la probabilità a posteriori più elevata (la moda della distribuzione), in realtà si ricorre, nella generalità dei casi, al calcolo della media aritmetica e, talvolta, alla mediana. Ad esempio, nel caso mono-parametrico (un solo parametro caratteristico) per derivare una stima puntuale di si può procedere all’applicazione del metodo della massima verosimiglianza ottenendo come risultato la moda della distribuzione a posteriori M o argmax / x . Alternativamente si può procedere al calcolo della media aritmetica 14 ˆ o della mediana . ˆ ˆ E g d / x 1 ˆ Mˆ e d / x d / x . 2 14 Ovviamente, oltre alla media aritmetica, si può procedere al calcolo di tutti i momenti di interesse specificando in modo adeguato la funzione g nella relazione E g g d / x . 352 In ogni caso l’operazione di stima puntuale contraddice la logica bayesiana, logica che risulta invece interamente soddisfatta se si procede al computo di una stima per intervallo. Gli intervalli bayesiani di confidenza, usualmente denominati intervalli o regioni (nel caso si considerino più parametri) di credibilità, non solo sono coerenti con la logica bayesiana ma risolvono anche alcuni problemi interpretativi. Come si è avuto modo di sottolineare, quando è stata trattata la stima di intervallo nel contesto classico la quantità 1 che, inizialmente, cioè quando è riferita all’elemento pivotale, è una probabilità, al termine del processo perde tale natura; infatti, non si parla più di livello di probabilità ma di livello di confidenza. Nella stima per intervallo, l’entità casuale è l’intervallo stesso che ha una probabilità pari all’ 1 di contenere al suo interno il vero valore di (costante incognita), ma una volta ottenuto l’intervallo non ha più senso parlare di probabilità in quanto l’intervallo, o contiene al suo interno il vero valore di , allora la probabilità è pari ad 1, o non lo contiene, allora la probabilità e zero. Il termine confidenza sta ad indicare che si “confida” che l’intervallo ottenuto sia uno degli 1 % degli intervalli che contengono al proprio interno il vero valore di . Se si indica con C x la regione di credibilità a posteriori a livello 1 per si ha C x / x 1 Se in questa espressione si sostituisce alla probabilità a posteriori / x la probabilità a priori si ottiene la regione di credibilità a priori a livello 1 C 1 . Dalle considerazioni sopra svolte risulta in modo del tutto evidente che la regione (intervallo) di credibilità non è univocamente individuato, anche in questo caso come sottolineato a proposito degli intervalli di confidenza, l’obiettivo che si vuol perseguire è quello della derivazione della regione più informativa cioè della regione che, al prefissato livello di probabilità 1 - α , ha la dimensione più piccola. La conoscenza della distribuzione a posteriori del parametro consente, ovviamente, il calcolo immediato di intervalli di stima (intervalli di confidenza bayesiani o intervalli di credibilità); ad esempio un intervallo al livello di credibilità 1 - α è espresso da qualunque intervallo L1 , L2 che soddisfa l’uguaglianza L2 L1 d / x 1 . Come nel caso già trattato, tra tutti gli intervalli che soddisfano tale relazione si dovrà scegliere quello maggiormente informativo che nel caso di un solo parametro è rappresentato dall’intervallo di lunghezza minima. 353 La differenza tra gli intervalli di confidenza e gli intervalli di credibilità è sostanziale; infatti, come già chiarito in precedenza, mentre per gli intervalli di confidenza è l’intervallo stesso L1 , L2 che a priori, cioè prima di effettuare la rilevazione campionaria, ha una probabilità dell’( 1 – α) % di contenere al suo interno il vero valore del parametro ϴ , nel caso degli intervalli di credibilità la probabilità è riferita al parametro (variabile casuale) che ha una probabilità dell’(1 – α) % di essere contenuto nell’intervallo L1 , L2 . Riprendendo in considerazione quanto detto nel Capitolo 3 riguardo agli intervalli di confidenza, si può procedere alla determinazione degli intervalli di credibilità senza alcuna difficoltà, infatti, basterà fare riferimento alla distribuzione a posteriori del parametro o dei parametri di interesse. Si sottolinea, ancora una volta, la superiorità degli intervalli di credibilità, rispetto agli intervalli di confidenza, sia dal punto di vista interpretativo che da quello operativo quando sono presenti parametri di disturbo. Nel caso degli intervalli di confidenza il problema si può risolvere attraverso una stima puntuale del parametro di disturbo che richiede, però la derivazione di una diversa distribuzione campionaria degli estremi dell’intervallo stesso; derivazione che in alcuni casi non presenta alcuna difficoltà, come ad esempio la determinazione degli intervalli di confidenza per la media di una distribuzione normale semplice quando la varianza è incognita (dalla distribuzione normale si passa alla variabile t di Student), ma che in altri casi presenta notevoli difficoltà, al riguardo basta citare il caso della determinazione degli intervalli per la differenza tra medie di due distribuzioni normali quando le due corrispondenti varianze non sono note. Come segnalato più volte, nel contesto bayesiano il problema della presenza di parametri di disturbo si risolve attraverso una semplice operazione di marginalizzazione della distribuzione a posteriori. Test d’ipotesi Nel contesto classico di verifica di ipotesi statistiche sono state introdotte due ipotesi, l’ipotesi nulla o ipotesi di lavoro H 0 : Θ0 e l'ipotesi alternativa H1 : Θ1 dove Θ0 Θ1 Θ e Θ0 Θ1 , fissato un livello di significatività α (probabilità dell’errore di I° tipo, cioè rifiutare un’ipotesi nulla vera) si procede al rifiuto o all’accettazione (non rifiuto) dell’ipotesi nulla a seconda che il punto campionario cada o meno nella regione critica o, alternativamente si procede alla determinazione del pvalue (probabilità che la variabile casuale test assuma un valore “più estremo” di quello osservato se l’ipotesi nulla è vera) agendo di conseguenza. Nel contesto bayesiano il problema di verifica d’ipotesi diventa banale, infatti, avendo a disposizione la distribuzione a posteriori del parametro/i basterà procedere al computo delle probabilità a posteriori relative alle due ipotesi 0/ x P Θ 0 / x 1/ x P Θ1 / x 354 e procedere alla scelta dell’ipotesi che presenta la probabilità più elevata, cioè scegliere H 0 : Θ0 o H1 : Θ1 in funzione del valore assunto dal rapporto a posteriori (posterior odds) 0/ x P Θ 0 / x . 1/ x P Θ1 / x se favorevole ( >1 ) o meno ( < 1 ) all’ipotesi H 0 : Θ0 . Analogamente al rapporto tra le probabilità a posteriori si può procedere al calcolo del rapporto tra le probabilità a priori (prior odds) 0 P Θ 0 . 1 P Θ1 Il rapporto tra gli odds B0 0/ x 0 0/ x 1 P Θ 0 / x P Θ1 / 1/ x 1 1/ x 0 P Θ1 / x P Θ0 viene detto fattore di Bayes in favore dell’ipotesi H 0 : Θ0 , ovviamente il fattore di Bayes in favore dell’ipotesi H1 : Θ1 è espresso da B1 1 / B0 1/ x 0 P Θ1 / x P Θ 0 . 0/ x 1 P Θ 0 / x P Θ1 Procedere nell’accettazione o al rifiuto di una specifica ipotesi H 0 : Θ0 contro l’ipotesi alternativa H1 : 1 in funzione del valore assunto dalle probabilità a posteriori delle due ipotesi appare del tutto ragionevole, in realtà tale approccio presenta degli inconvenienti di natura tutt’altro che marginale. Ad esempio, nel caso di un ipotesi nulla semplice H 0 : 0 contro l’ipotesi alternativa composita bidirezionale H 0 : 0 , la procedura è inapplicabile essendo pari a 0 la probabilità a posteriori dell’ipotesi nulla 0 0/ x P 0 / x f x / d 0 in quanto 0 P 0 0 . Il problema si può risolvere o tenendo presente la relazione che tra intervalli di stima e test delle ipotesi, procedendo all’accettazione se 0 ricade nell’intervallo di credibilità calcolato per la v.c. , ma la procedura non ha più la natura di test d’ipotesi, oppure assegnando all’ipotesi nulla una probabilità a priori maggiore di 0 0 P 0 0 , cioè inserendo una probabilità a priori mistura tra una v.c. discreta ed una v.c. continua. Un modo alternativo per risolvere il problema di scelta dell’ipotesi è quello di fare riferimento al valore assunto dal fattore di bayes. Procedura questa che, pur non risolvendo il problema di scelta tra un’ipotesi nulla semplice ed un’ipotesi alternativa composita, presenta, come si avrà modo di chiarire nelle righe successive, indubbi vantaggi. 355 La procedura basata sul fattore di Bayes non presenta delle carenze anche quando entrambe le ipotesi sono semplici. Infatti, se entrambe le ipotesi sono semplici si ha 0/ x 0 f x / 0 e 1/ x 1 f x / 1 pertanto il fattore di Bayes B0 0/ x 0 0/ x 1 f x / 0 0 1 f x / 0 / 1/ x 1 1/ x 0 f x / 1 1 0 f x / 1 si riduce al rapporto tra le due verosimiglianze. Risultato questo che, se per un verso può soddisfare i critici dell’approccio bayesiano, per altro verso non può soddisfare i fautori dell’approccio bayesiano soggettivo in quanto implica una eliminazione “meccanica” della conoscenza a priori15. L’utilità del ricorso al fattore di Bayes emerge in modo evidente quando al problema di scelta delle ipotesi viene attribuita la valenza di scelta tra modelli alternativi di rappresentazione della realtà fenomenica. Se con M si indica un generico modello capace di rappresentare il fenomeno oggetto di analisi, l’ipotesi H 0 : Θ0 può essere interpretata anche come H 0 : 0 , cioè l’ipotesi che il modello rappresentativo della realtà sia proprio M 0 , dove rappresenta lo spazio contenente tutti i possibili modelli rappresentativi del fenomeno oggetto d’analisi, mentre l’ipotesi H1 : Θ1 resta specificata da H1 : 1 con M1 , il fattore di Bayes assume la forma B0 P 0 / x P 1 P 1 / x P 0 Θ0 Θ1 f x / 0 d f x / 1 d . Il fattore di Bayes, che è definito dal rapporto ponderato delle verosimiglianze dei due modelli, misura la capacità relativa del modello M 0 rispetto al modello M 1 , di rappresentare la realtà; proprietà, questa, indubbiamente apprezzabile. Per contro, la scelta del modello basata sul confronto tra le probabilità a posteriori solleva delle perplessità soprattutto se si tiene conto di quanto riportato nella premessa a queste Note: tutti i modelli sono sbagliati (hanno quindi probabilità 0 di essere veri) ma qualcuno è utile; ovviamente, l’utilità è strettamente condizionata dalla sua capacità rappresentativa della realtà16. 15 Diversa è la situazione quando la conoscenza a priori perde di rilevanza a ragione dell’acquisizione di evidenza empirica (campionaria oggettiva) sempre più estesa. Al riguardo se segnala la convergenza tra risultati bayesiani e quelli classici al crescere della dimensione campionaria, si dimostra, infatti, l’equivalenza asintotica dei due approcci. 16 In letteratura è stata proposta una regola pratica per interpretare il valore numerico assunto dal fattore di Bayes: se B0 1 l’evidenza (a priori e campionaria) supporta il modello M 0 ; se 101/2 B0 1 l’evidenza contro il modello M 0 è minima; se 101 B0 101/2 se 102 B0 101 se B0 10 2 l’evidenza contro il modello l’evidenza contro il modello l’evidenza contro il modello M 0 è sostanziale; M 0 è molto elevata; M 0 è decisiva. 356 Se i modelli alternativi non sono 2 M 0 e M1 ma s Mi per i 1, 2, ...,s il fattore di Bayes potrà essere calcolato per s s 1 / 2 confronti tra modelli. Calcolo questo non necessario per operare la scelta del modello, infatti, per perseguire tale finalità basterà operare s – 1 confronti: si calcola il fattore di Bayes per i modelli M1 e M 2 , il modello migliore viene confrontato co il modello M 3 e cosi via fino al confronto tra il modello M s ed il modello risultante dal processo di selezione che ha evidenziato la maggiore capacità rappresentativa. 6.5 - Regressione bayesiana Come illustrato nel capitolo precedente nel modello di regressione lineare multipla si studia la relazione tra una variabile spiegata (variabile dipendente) y e k-1 (k ≥ 2) variabili esplicative. Il modello è espresso dalla relazione yi β1 β2 xi 2 β3 xi 3 βk xik ui per i 1,2,...., n che in forma matriciale diventa y X u n,1 n,k k,1 n,1 dove 1 x12 x13 x 1 j x1k 1 y1 u1 y u 1 x22 x23 x 2 j x2 k 2 2 2 .... .... .... ................................ .... .... .... ................................ y ; X ; ; u n ,k n ,1 y u k ,1 n ,1 1 xi 2 xi 3 x ij xik j i i ................................ .... .... .... .... .... ................................ .... 1 x x x x yn un k nj nk n 2 n3 Le ipotesi di specificazione poste alla base del modello sono: 1. la matrice X nxk è costituita da variabili matematiche o determinazioni di variabili casuali, sono cioè costanti in ripetuti campioni; in particolare il primo vettore colonna della matrice è costituito da 1, il coefficiente 1 rappresenta, pertanto, l’intercetta dell’iperpiano di regressione; 2. la matrice X nxk è di rango massimo = k ≤ n; 3. il vettore unx1 ha componenti aleatorie con valore atteso nullo ( E un1 0n1 ), varianza costante (omoschedasticità Var ui E ui2 0 ) incorrelate ( E ui u j 0 per i j ), in forma matriciale Var u Σu E u u 2 I n n ,1 ' n,n 357 n ,1 1, n e risultano 4. ipotesi di normalità del vettore casuale u N 0, 2 I . Se le prime tre ipotesi sono soddisfatte, si possono derivare le stime dei minimi quadrati ˆ del vettore che sono date da: -1 βˆ = X ' X X ' y dove l’apice riportato ad esponente vuole indicare che si sta facendo riferimento alla matrice trasposta. Si ricorda che tali stime sono le migliori (minimizzano l’errore quadrato medio) nell’ambito delle stime lineari e corrette (BLU- Best Linear Unbiased). La stima corretta della varianza σ2 è data da: ˆ 2 y yˆ y yˆ / n k ) y X ˆ ' y X ˆ / n k ) ' ' 1 y ' I X X ' X X ' y / n k ) uˆ' uˆ / n k ) S 2 Se si introduce l’ipotesi di normalità si può calcolare la verosimiglianza L β , 2 f β , 2 / y, X f yi 2 2 n n /2 i 1 2 2 n /2 . 2 1 n exp 2 yi x'i β 2 i 1 ' 1 exp 2 y - Xβ y - Xβ 2 La stima di massima verosimiglianza del vettore è identica alle stime dei minimi quadrati: X ' X X ' y ˆ 1 ma, come già richiamato nel capitolo precedente le stime di massima verosimiglianza sono le migliori nell’ambito delle stime corrette (BU- Best Unbiased). Inoltre valgono le proprietà degli stimatori sotto elencate: l’ipotesi di incorrelazione tra le componenti accidentali ui (i 1, 2,...., n) implica l’indipendenza, ne consegue quindi l’indipedenza tra le componenti yi (i 1, 2,...., n) del vettore casuale y 1 ~ N , 2 X ' X y ~ N X , 2 X ' X 2 W n k ˆ 2 / 2 ~ n k Il vettore casuale e la v.c. W sono indipendenti. 1 Questi risultati consentono di procedere alla determinazione degli intervalli di i (i = 1, 2,……,k) e 2 , gli intervalli di confidenza per i parametri incogniti previsione in corrispondenza ad una specifica determinazione del vettore delle variabili esplicative x p e di procedere alla verifica di ipotesi statistiche. Al riguardo si ricorda 358 che se la varianza 2 non è nota basterà fare riferimento alla variabile t di Student, con n-k gradi di libertà, anziché alla variabile normale. Quanto sopra richiamato fa riferimento all’impostazione classica dell’inferenza statistica nel cui contesto i parametri sono costanti incognite da stimare e/o sui quali verificare ipotesi statistiche utilizzando soltanto l’informazione campionaria a disposizione. 6.5.1 Regressione bayesiana con distribuzioni a priori non informative e coniugate i (i = 1, 2,……,k) e 2 , essendo entità incognite, assumono la natura di variabili casuali con una propria distribuzione di probabilità. La verosimiglianza sopra introdotta soddisfa la relazione n /2 ' 1 L β , 2 f β , 2 / y, X 2 2 exp 2 y - Xβ y - Xβ 2 ' n /2 1 2 2 exp 2 y - Xβ - Xβˆ Xβˆ y - Xβ - Xβˆ Xβˆ 2 ' ' ' n /2 1 2 2 exp 2 y - Xβˆ y - Xβˆ 2 β - βˆ X ' y - Xβˆ β - βˆ X ' X β - βˆ 2 ' n /2 1 2 2 exp 2 n k S 2 β - βˆ X ' X β - βˆ 2 poiché Nell’impostazione bayesiana, i parametri β - βˆ X y - Xβˆ β - βˆ X y - X Xβˆ β - βˆ X Xβˆ - X Xβˆ β - βˆ 0 = 0 ' ' ' ' ' ' ' ' ' dove le statistiche βˆ e S 2 , stime corrette di β e 2 , sono congiuntamente sufficienti. Distribuzioni a priori non informative La procedura standard è per l’introduzione di distribuzioni a priori non informative prevede le seguenti distribuzioni c1 (costante ) inoltre, ponendo log 2 e c2 (costante ) , tenendo conto che lo Jacobiano della trasformazione da a 2 è pari a 2 si ha 2 2 , quindi , 2 2 per 2 0 17 17 Si tratta di una distribuzione a priori impropria che genera, comunque, una distribuzione a posteriori propria. Da sottolineare che anche se viene etichettata come non informativa, in realtà implica che la probabilità a priori associata a β , qualunque sia il suo valore, possa essere anche molto elevata. 359 Se si procede al prodotto di questa quantità (probabilità a priori) con la verosimiglianza si ha la distribuzione a posteriori , 2 / y, X L β , 2 , 2 2 n 2 /2 ' 1 exp 2 y - Xβ y - Xβ 2 ed anche ' 1 exp 2 n k S 2 β - βˆ X ' X β - βˆ 2 ' n k /2 1 k/2 1 1 2 exp 2 n k S 2 2 exp 2 β - βˆ X ' X β - βˆ 2 2 Se si fa riferimento all’ultimo membro della relazione si evince immediatamente la forma della distribuzione condizionata a posteriori del vettore β e la distribuzione , 2 / y, X 2 n 2 /2 marginale a posteriori del parametro 2 / 2, y ˆ 2 X' X 1 N n k n k S 2 / y Inv 2 2 dove il simbolo Inv sta ad indicare la variabile casuale Gamma inversa 18 Senza eccessiva difficoltà si deriva anche la distribuzione marginale a posteriori di β , infatti 2 / y , X , 2 / y d 2 0 ' 1 exp 2 n k S 2 β - βˆ X ' X β - βˆ d 2 0 2 ma l’espressione sotto il segno di integrale rappresenta, a meno della costante moltiplicativa l’espressione della funzione di densità di una variabile casuale Gamma inversa ' n Inv n k S 2 β - βˆ X ' X β - βˆ 2 pertanto, il valore dell’integrale è, semplicemente, dato dal reciproco della costante di normalizzazione della densità di una Inv , che è pari a , 2 n 2 /2 dove n 2 e ' n k S 2 β - βˆ X ' X β - βˆ . Se si pone n k si ha 18 Si ricorda che la funzione di densità di probabilità della v.c. X Gamma inversa è data da: f ( x; , ) 1 x x e per 0 x , 0 e 0 . ( ) 360 ' / y , X n k S 2 β - βˆ X ' X β - βˆ n k k /2 k /2 ' β - βˆ S 2 X ' X β - βˆ che rappresenta, a meno della costante moltiplicativa, l’espressione della funzione di densità di una variabile casuale t di Student multivariata19, cioè: 1 / y tk , βˆ , S 2 X ' X . Se si ricorre alla distribuzione a priori di Jeffreys definita da R , 2 k 2/2 si deriva la distribuzione a posteriori congiunta 2 / y, X 1 2 n k 2 /2 ' c 1 exp 2 n k S 2 β - βˆ X ' X β - βˆ 1 c 2 mentre le distribuzioni marginali a posteriori di β e 2 hanno la forma / 2 , y, X 2 / y, X 1 N βˆ , 2 X ' X Inv n / 2, S 2 n k / 2 . Distribuzione a priori informative Riprendendo in considerazione e generalizzando quanto riportato nell’esempio 6.5 riguardo alla distribuzione coniugata a priori di una v.c. normale, una possibile specificazione della distribuzione a priori nel caso in esame 2 2 2 è la distribuzione coniugata congiunta di una normale e una gamma inversa / 2 N * , 2 e 2 Inv , pertanto la distribuzione a priori assume la forma 19 La funzione di densità di probabilità t di Student multivariata di un vettore casuale V di dimensione k è data da k /2 ' 1 k / 2 1 w 1 w f w; , , 1/2 k /2 k /2 / 2 dove rappresentano i gradi di libertà, è un vettore di dimensione k (parametri di locazione) e matrice simmetrica definita positiva di dimensione k (parametri di scala). 361 è una , 2 / 2 2 cioè , e 1 * ' -1 * 2 2 12 (2 2 )1 2 2 1 e 2 N * , 2 Inv ( , ) che è distribuzione a priori coniugata di una 2 v.c. che appartiene alla stessa famiglia. Infatti, se si considera la verosimiglianza L β , 2 2 2 n /2 ' 1 exp 2 n k S 2 ˆ X ' X ˆ 2 la distribuzione a posteriori congiunta è data da , / y 2 e , 2 L , 2 / x 1 * ' -1 * 2 2 (2 2 )k /2 2 2 n /2 f y k /2 2 1 e 2 / 2 2 L , 2 / x f y ' 1 exp 2 n k S 2 ˆ X ' X ˆ 2 ma / f y * * ˆ X ' X ˆ ' ' -1 -1 * ˆ *-1 * ˆ ' ' dove -1 +X ' X 1 -1 +X ' X 1 * + X ' X -1 β* + X ' X βˆ 1 1 si ha , / y 2 1 exp 2 2 , 2 L , 2 / y f y / 2 2 L , 2 / y f y ' -1 ' 1 exp 2 n k S 2 * ˆ *-1 * ˆ 2 ' 1 -1 2 * 1 exp exp *2 2 2 ' dove * n / 2 e * n k S 2 * ˆ *-1 * ˆ ,quindi 2 2 n /2 1 362 , 2 / y NInv , 2 * , * che appartiene alla stessa famiglia della distribuzione a priori normale gamma inversa. Una proposta alternativa di distribuzione a priori informativa, molto utilizzata nel contesto econometrico, è quella suggerita da Zellner nel 1986, usualmente denominata G-prior , proposta che si differenzia dalla a-priori non informativa sopra illustrata per l’a-priori su β . Le due distribuzioni a priori sono 2 1/ 2 N 0 , g 2 X ' X Attraverso passaggi algebrici analoghi a quelli distribuzione congiunta a posteriori 2 / y 1 2 n 2 /2 . sopra riportati si deriva la 1 ' 1 g exp 2 n k S 2 β - βˆ X ' X β - βˆ 1 g 2 mentre la distribuzione marginale a posteriori del vettore β è ' g S 2 β0 - βˆ X ' X β0 - βˆ / g 1 1 1 X' X 0 βˆ , / y tk , g 1 n g 1 cioè, una v.c t di Student multivariata di dimensione k . I risultati riportati nelle righe precedenti consentono la risoluzione dei problemi di stima puntuale, stima d’intervallo e di test delle ipotesi seguendo la procedura già illustrata. Si sottolinea che nel contesto della regressione multipla assumono particolare rilevanza, sia i temi connessi alla scelta del modello più appropriato (quello che evidenzia la capacità rappresentativa più elevata della realtà sotto esame), nel cui ambito è ricompresa anche la problematica relativa alla selezione delle variabili esplicative da includere nel modello stesso, sia i temi collegati all’impiego del modello a fini previsionali, previsioni che potranno essere effettuate utilizzando la distribuzione predittiva a posteriori di Y. 363 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Cap. 7 – Teoria statistica delle decisioni CAP. 7 – TEORIA STATISTICA DELLE DECISIONI Introduzione Nella premessa a queste note didattiche si è affermato che la disciplina che si occupa della raccolta e del trattamento scientifico dei dati (manifestazioni dei fenomeni collettivi di interesse) per trasformarli in informazioni è la Statistica, se poi le informazioni stesse devono essere utilizzate per risolvere uno specifico problema decisionale, cioè un problema che si risolve nella scelta ottimale di una tra diverse alternative a disposizione, allora il contesto di riferimento è la Teoria delle decisioni. Nella fusione delle due discipline si sostanzia un’altra disciplina scientifica: “La Teoria statistica delle decisioni” o “Teoria delle decisioni statistiche” che per certi versi può essere intesa come generalizzazione ed estensione della Statistica che in questo modo risulta anche meglio caratterizzata nelle sue diverse connotazioni e meglio precisata nei contenuti. In altri termini si può anche definire la statistica come il fondamento logico e metodologico per la risoluzione dei problemi decisionali. In questa prospettiva la Statistica si caratterizza come disciplina scientifica che non si limita alla sola trasformazione dei dati in informazioni ma che si occupa anche della trasformazione delle informazioni in conoscenza utilizzabile a fini operativi di intervento (fini decisionali) 1. 7.1 - Teoria delle decisioni Oggetto di studio della teoria delle decisioni è il processo decisionale. Attraverso l’analisi del comportamento degli attori (individui o gruppi) coinvolti nel processo, si procede, cioè, all’esame di come i decisori prendono o dovrebbero prendere delle decisioni. Allo sviluppo della teoria delle decisioni hanno contribuito cultori di discipline diverse: filosofi e logici, matematici e statistici, psicologi e sociologi, economisti, ecc. Gli sviluppi della teoria spaziano dalle speculazioni astratte, relative ad agenti idealmente razionali, ai suggerimenti pratici per la risoluzione ottimale di specifici 1 Molti autori (Cox, 1958; Smith, 1961; Barnett, 1999) affermano che una distinzione deve essere fatta tra inferenza statistica e teoria statistica delle decisioni. Ma altri autori come Savage (1951) e Lindley (1965, 2006), e questo è anche il parere dell’autore di queste note didattiche, considerano la teoria statistica delle decisioni come una naturale e necessaria generalizzazione dell’inferenza statistica. Inoltre, l'approccio decisionale, combinando varie teorie di inferenza statistica, evita i dogmatismi che possono portare a situazioni paradossali, è esente da errori logici, è più efficace nel contesto applicativo e tratta con successo una gamma più ampia di problemi rispetto agli approcci tradizionali. L'approccio decisionale fornisce, cioè, una soluzione soddisfacente al cosiddetto problema pragmatico dell’induzione. 365 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 problemi decisionali, all’analisi dei processi decisionali coi come si svolgono nella realtà. In questa ottica si è soliti distinguere la teoria delle decisioni in due filoni principali: teoria normativa e teoria descrittiva. Chi si occupa di teoria descrittiva cerca di scoprire come le decisioni vengono prese nei diversi contesti operativi; chi si occupa di teoria normativa analizza il modo con cui le decisioni dovrebbero essere prese facendo riferimento ad agenti idealmente razionali, procedendo, cioè, all’esame delle conseguenze logiche di differenti regole decisionali o esplorando gli aspetti logicomatematici o filosofici di diverse descrizioni di comportamento razionale. Questa distinzione è utile ma alquanto artificiosa, essendo l’informazione sul modo effettivo di prendere decisioni, certamente rilevante ai fini della fissazione di regole su come le decisioni devono essere prese; d’altro lato nessuno studio sul comportamento effettivo di agenti può consentire il conseguimento di risultati soddisfacenti se lo stesso non viene, in qualche modo, posto a confronto con una sorta di comportamento ideale (razionale). La teoria descrittiva delle decisioni non interessa in questa sede essendo oggetto di discipline specifiche quali la psicologia, la sociologia e, per alcuni aspetti, l’economia. Qui verranno presentati gli elementi essenziali della teoria normativa delle decisioni 2: ci si occuperà, cioè, di come le decisioni dovrebbero essere prese per massimizzare il proprio “benessere” e non di come le decisioni sono effettivamente prese. Ma, come già sottolineato, il riferimento alla teoria normativa non può essere assoluto, si deve, infatti, tenere conto di tutta una serie di vincoli e di condizionamenti che emergono dall’analisi dei processi reali affinché le regole di comportamento razionale possano tradursi in comportamenti effettivi utili al decisore. Per caratterizzare e distinguere questo specifico sviluppo della teoria normativa delle decisioni alcuni autori hanno suggerito la dizione teoria prescrittiva che si caratterizza, appunto, per il fatto che le regole ideali di comportamento razionale analizzate devono poter essere tradotte in comportamenti effettivi (sui quali, come già sottolineato, incide una serie innumerevole di condizionamenti sia individuali che di contesto) tali da consentire al decisore il conseguimento del beneficio massimo. I fondamenti della moderna teoria delle decisioni o si trovano nell’opera di Von Neumann e Morgenstern (1947). I due autori mostrano come, sulla base di alcuni postulati o assiomi di comportamento razionale di colui che deve prendere una decisione, sia possibile introdurre una funzione a valori reali detta, a seconda del contesto in cui si opera, di valore, o di utilità, per cui una decisione fondata unicamente sulla massimizzazione del valore atteso di tale funzione consente l’individuazione della scelta ottimale in accordo al proprio schema di preferenze. Critiche di varia natura sono state rivolte al criterio dell’utilità attesa. Esse possono essere comunque ridotte e sintetizzate nei due punti seguenti: 2 Per un approfondimento dell’argomento si può utilmente consultare, tra gli altri, Chiandotto e Bacci (2015). 366 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 1. quelle rivolte all’evidenza empirica degli assiomi di comportamento razionale che sono alla base della moderna teoria dell’utilità; 2. quelle che sottolineano l’impossibilità pratica di derivare una funzione di valore o di utilità significativa. Alle critiche richiamate al punto 2 sono state fornite risposte che, nella generalità dei casi, risolvono il problema dell’elicitazione della funzione di utilità in modo soddisfacente3. Per quanto riguarda, invece, le critiche richiamate al punto 1 si può rispondere che esse hanno, ma non sempre, una certa rilevanza quando si considera il comportamento di un agente e si voglia poi accertare fino a che punto egli segue le linee di comportamento razionale attribuitegli. Quando però dal piano di verifica empirica di una teoria, intesa in senso unicamente descrittivo, si passa al piano normativo della stessa, tali critiche perdono, almeno in parte, di significato. Il problema della rilevanza degli assiomi sul comportamento del decisore, va visto, non nel senso di buona descrizione ma in quello di buona norma. Un tale problema risulta però estremamente delicato in quanto, come già sottolineato, le implicazioni normative degli assiomi, e quindi la bontà degli stessi, vanno giudicate in funzione dei risultati operativi cui conduce la teoria che su di essi è fondata. Qualunque decisione comporta una scelta tra più alternative, o azioni, o atti, ciascuna delle quali produrrà una tra più conseguenze che dipenderà dalle condizioni del contesto, lo stato di natura, nel quale il processo decisionale si svolge. Le decisioni, sono, pertanto, costituite da azioni, stati e conseguenze, con le ultime che dipendono, nella generalità dei casi, dallo stato di natura e dall’azione scelta. Quando si analizza un problema di decisione, l’analista, che può essere lo stesso soggetto che prende la decisione, deve individuare l’insieme rilevante delle azioni, degli stati e delle conseguenze per caratterizzare in modo adeguato il problema stesso. Attraverso l’individuazione di azioni, stati e conseguenze e costruendo, eventualmente, una tavola o un albero di decisione, si procede alla specificazione del problema decisionale. Alcune interessanti questioni sono legate alla specificazione di un problema decisionale. La prima riguarda la descrizione appropriata degli stati di natura. Ogni problema decisionale implica delle conseguenze che il soggetto della decisione considera migliori di altre, altrimenti non sussisterebbe un problema di scelta. In questo contesto assume particolare rilevanza il principio della dominanza secondo il quale devono essere escluse tutte le alternative che comportano conseguenze peggiori, qualunque sia lo stato di natura, di una qualche specifica alternativa. Se c’è un’alternativa che domina tutte le altre, il principio di dominanza porta a scegliere tale 3 Si tratta di critiche analoghe a quelle rivolte all’approccio bayesiano soggettivo. In tale approccio, come illustrato nel capitolo precedente, alla misura delle probabilità a priori si perviene attraverso una traduzione soggettiva delle proprie conoscenze, cioè al patrimonio informativo disponibile al momento in cui si procede all’analisi dei dati campionari (conoscenza oggettiva). 367 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 alternativa ed il problema decisionale è risolto in modo ottimale. Sfortunatamente casi del genere si riscontrano molto raramente nelle situazioni reali. Una seconda interessante questione legata alla specificazione del problema decisionale è quella relativa alla distinzione tra decisione giusta e decisione razionale, la decisione di chi agisce è giusta se si risolve in esiti ottimali. Se si disponesse di una conoscenza completa del futuro basterebbe, pertanto, fare riferimento al solo principio: prendi la decisione giusta. Purtroppo la maggior parte delle decisioni è basata sul ciò che si ritiene possa accadere e non su quello che accadrà realmente. Nella quasi totalità dei casi risulta quindi impossibile prendere una decisione giusta, si dovrà allora prendere una decisione razionale, valutando al meglio l’insieme parziale di informazioni a disposizione riguardo al vero stato del mondo, e non è affatto scontata l’equivalenza: decisione razionale = decisione giusta. Da quanto sopra detto emerge implicitamente una diversificazione tra situazioni decisionali. Usualmente si distinguono le decisioni a seconda del contesto informativo in cui l’agente opera in: 1. decisioni in situazioni di certezza 2. “ “ “ “ rischio 3. “ “ “ “ incertezza Se con A a1 , a2 ,..., ai ,..., am si indica l’insieme delle decisioni (azioni) alternative possibili, con 1 ,2 ,..., j ,...,n l’insieme dei possibili stati di natura e con C c11 ,c12 ,...,cij ,...,cmn l’insieme delle conseguenze, dove le conseguenze cij sono funzione dell’azione a i e dello stato j cij f ( ai , j ) per i=1, 2, ..., m ; j=1, 2, ..., n si può rappresentare il processo decisionale (dove è stato ipotizzato un numero discreto di alternative ed un numero discreto di stati di natura) in modo appropriato facendo ricorso alla tavola di decisione o all’albero di decisione: Azione Stato di natura P 1 P 2 P j P n a1 c11 c12 c1 j c1n a2 c21 c22 c2 j c2 n ai ci1 ci 2 cij cin am cm1 cm 2 cmj cmn Tab. 7.1 – Tavola di decisione 368 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 c11 1 2 c12 . . j . c1j . n . . c1n c21 a1 1 2 c22 . . j . n a2 c2j . . c2n . . . Nodo decisionale . ci1 ai . . . 1 2 ci2 . . j am Azioni . n . cij . . cin cm1 1 2 . j . Nodo aleatorio n cm2 . . cmj . . cmn Stati Conseguenze Fig. 7. 1 - Albero di decisione 369 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 7.2 - Decisioni basate sulle sole informazioni a priori Se l’agente, il decisore, conoscesse lo stato di natura, ad es.: j , il problema di scelta si ridurrebbe al confronto tra m conseguenze (nell’es. c1 j ,c2 j ,...,cij ,...,cmj ) e la scelta razionale equivarrebbe alla scelta giusta, sempre che siano note le conseguenze ed il decisore sia in grado di esprimere, in modo razionale, le sue preferenze riguardo alle conseguenze stesse. Il comportamento razionale consente, in altre parole, l’individuazione dell’alternativa ottimale che comporta il conseguimento del massimo beneficio. Il problema di decisione introdotto può, pertanto, essere rappresentato nel modo seguente: Azioni Conseguenze a1 c1 a2 c2 : : ai : : ci : : am : : cm dove con A, ai A, si indica lo spazio o insieme delle azioni e con C, ci C, lo spazio o insieme delle conseguenze. Come già sottolineato in precedenza, le considerazioni che s’intendono svolgere riguarderanno esclusivamente la teoria normativa delle decisioni; si considererà, cioè, la teoria che si preoccupa di definire come le decisioni dovrebbero essere prese dagli individui al fine di massimizzare il proprio benessere; essa, quindi, non fa riferimento ai comportamenti effettivamente osservabili nella realtà ma fa riferimento ad un individuo “idealmente razionale” e deduce, sulla scorta di assiomi e attraverso la dimostrazione di teoremi, un insieme di regole di comportamento cui l’individuo stesso deve uniformarsi. 7.2.1 Assiomi di comportamento razionale (parte I) Dato l’insieme di conseguenze C c1, c2 ,..., cm e le relazioni di preferenza , , 4 , si possono definire i seguenti assiomi, esplicativi di un comportamento razionale: 4 La relazione di preferenza forte (a b sta a significare che l'agente - il decisore - preferisce strettamente l'alternativa a all'alternativa. b). La relazione di preferenza debole (a b sta a significare che l'agente - il decisore - preferisce debolmente l'alternativa a all'alternativa b). La relazione di indifferenza (a b sta a significare che le due alternative forniscono all'agente - il decisore - esattamente lo stesso beneficio). 370 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Assioma 1: Comparabilità ci , c j C, ci c j oppure c j ci oppure sono vere entrambe Assioma 2: Transitività ci , c j , ck C , se ci c j e c j ck ci ck Assioma 3: Coerenza tra indifferenza e preferenza debole ci , c j C : ci cj (ci cj e cj ci) Assioma 4: Coerenza tra preferenza forte e preferenza debole ci , c j C : ci c j cj ci La rilevanza degli assiomi emerge con tutta chiarezza quando se ne evidenziano le implicazioni operative. La confrontabilità implica la necessità per il decisore di operare, comunque, una scelta tra due alternative anche se questa, in base al terzo assioma, può comportare indifferenza tra le stesse. La transitività e gli assiomi di coerenza rispondono a una richiesta di non contraddittorietà tra le preferenze espresse. Se i quattro assiomi sono soddisfatti, valgono i teoremi sotto riportati5. Teorema 1 (Esistenza della funzione di valore). Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale viene introdotta una relazione che soddisfa gli assiomi 1 - 4 esiste, e può essere costruita, una funzione a valori reali espressi in scala ordinale V(.) tale da soddisfare la relazione ci cj V(ci ) V(cj ). Il teorema 2 stabilisce l'esistenza di una funzione a valori ordinali perfettamente equivalente allo schema di preferenze del decisore. Teorema 2 (Unicità della funzione di valore). Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale viene introdotta una relazione che soddisfa gli assiomi 1 - 4, esistono due funzioni di valore V(.) e W(.) che soddisfano le relazioni ci cj V(ci ) V(cj ) e ci cj W(ci ) W(cj ) se e solo se V()=h(W(.)) dove h(.) è una funzione monotona crescente. Il teorema 3 stabilisce che la funzione a valori reali espressi in scala ordinale è unica a meno di una trasformazione monotona crescente. Per lo sviluppo successivo della trattazione risulta conveniente introdurre una nuova relazione tra oggetti, la relazione di scambio. Definizione - La relazione di scambio (a b sta ad indicare la cessione di b per avere in cambio a. Una generica relazione di scambio si indica con (ci cj) e si legge: “lo scambio di cj con ci, vale a dire la cessione di cj per ottenere ci”. Anche sulle 5 La dimostrazione dei teoremi è riportata, tra gli altri, in Chiandotto e Bacci (2004 e 2015). 371 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 relazioni di scambio ha senso introdurre le relazioni di preferenza forte, di preferenza debole e di indifferenza (per distinguerle dalle analoghe relazioni sugli oggetti saranno indicate con una “s” come pedice, s , s ,s). 7.2.2 Assiomi di comportamento razionale (parte II) Assioma 5: Ordinamento debole Sia la relazione che la relazione s soddisfano gli assiomi 1 – 4 Assioma 6: Coerenza tra e s ci, cj, ck C: ci cj (ci cj ) s (ck ck ) ck C Assioma 7: Coerenza interna della relazione di scambio a) (ci cj ) s (ck cz ) (cz ck ) s (cj ci ). b) (ci cj ) s (ck cz ) e (cj cl ) s (cz cy ) (ci cl ) s (ck cy ). Assioma 8: Solvibilità a) ci, cj, ck C y C tale che: (y ci ) s (cj ck ) b) ci, cj C y C tale che: (ci y ) s (y cj ) Assioma 9: Proprietà Archimedea Ogni sequenza standard strettamente limitata è finita cn / y cn ; cn cn1 s c1 c0 , dove indica il condizionamento alle relazioni che lo seguono; nel caso particolare che si sta trattando y cn significa che la sequenza è strettamente limitata e (cn c(n-1)) s (c1 c0) implica che (c1 c0) s (c2 c1) s (c3 c2) s … s (cn c(n-1)), ossia che la sequenza è standard. Se gli assiomi fin qui elencati risultano soddisfatti valgono i seguenti teoremi. Teorema 3 (Esistenza della funzione di valore misurabile) Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale vengono introdotte le relazioni e s che soddisfano gli assiomi 5 - 9 esiste, e può essere costruita, una funzione misurabile a valori reali espressi in scala di intervallo V(.) tale da soddisfare le relazioni ci cj V(ci ) V(cj ); (ci cj ) s (ch ck ) V(ci ) - V(cj ) V(ch ) - V(ck ). Il teorema 3 stabilisce l'esistenza di una funzione di valore misurabile perfettamente equivalente allo schema di preferenze del decisore. 372 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Teorema 4 (Unicità della funzione di valore misurabile) Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale vengono introdotte le relazioni e s che soddisfano gli assiomi 5 - 9, esistono due funzioni espresse su scala di intervallo V(.) e W(.) che soddisfano le relazioni ci (ci cj ) s (ch ck ) V(ci) - V(cj) V(ch) - V(ck); ci (ci cj ) cj V(ci) V(cj); cj W(ci) W(cj); s (ch ck ) W(ci) - W(cj) W(ch) - W(ck) se e solo se V(.)=+ W(.) per 0. Il teorema 4 stabilisce che la funzione di valore misurabile è unica a meno di una trasformazione lineare positiva. Se lo stato di natura non è noto ma si dispone di una misura della probabilità dei vari stati di natura, si parla di decisioni in situazioni di rischio. La tavola di decisione sopra riportata potrà essere riscritta nei termini seguenti Probabilità degli stati di natura P 2 ..... P n c11 c1n ..... c1n a2 c 21 c 22 c2n .... .... am ..... ..... c m1 ..... ..... cm2 ..... ..... ..... Azioni P1 a1 ..... ..... ..... c mn 7.2.3 Assiomi di comportamento razionale (parte III) Assioma 10: Ordinamento debole Ribadisce semplicemente che le preferenze del decisore sull’insieme delle lotterie L l1 , l2 ,..., lm 6 obbediscono agli assiomi 1 - 4. 6 Se per convenienza, e senza perdere in generalità, si assume che c1 c2 ........ cn una qualunque lotteria di riferimento è espressa nella forma c1 p cn p, c1 ; 0, c2 ; 0, c3 ;..........; (1 p), cn dove c1 è la conseguenza preferita a tutte le altre e non banale deve essere lotterie degeneri c1 cn cn è la conseguenza meno preferita; affinché il problema risulti . Si può osservare come le singole conseguenze possono essere interpretate come cij 0, ci1 ; 0, ci 2 ;.........;0, ci ( j 1) ; 1, cij ; 0, ci ( j 1) ;.........; 0, cim . 373 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Assioma 11: Continuità l1, l2, l3 L, se l1 l2 l3 p (con 0 p 1) tale che l2 p l1 + (1-p) l3 . L’assioma risponde ad un’esigenza di continuità nelle preferenze. Ad esso sono state mosse varie critiche di carattere logico: alcuni affermano che esistono “premi” per cui nessun valore di p è tale, per il decisore, da consentire il rispetto della relazione di indifferenza. Ad esempio, se la lotteria l3 ha come risultato unico possibile la morte del decisore, questi preferirà sempre e comunque la lotteria l2. In realtà questa critica può essere superata riconoscendo che ognuno di noi, ogni giorno, compie tante semplici azioni che comportano pur sempre una possibilità di morire (per es., attraversare la strada). Assioma 12: Monotonia Date due lotterie l1 e l2 L e tali che l1 l2 e due probabilità p e p’, allora (l1 p l2) (l1 p’ l2) p p’ In altre parole, il decisore sceglierà sempre la lotteria che gli dà la probabilità più alta di ottenere il risultato preferito. Assioma 13: Riduzione delle lotterie composte Sia data la lotteria composta l = (q1, l1; q2, l2; …..; qs, ls), avente, quindi, come premi le lotterie semplici l1, l2, …, ls e dove lj = (pj1, c1; pj2, c2;…..; pjr, cr) con j = 1, 2, …, s è la generica lotteria premio. Sia, poi, l’ la lotteria semplice (p1, c1; p2, c2; …; pr, cr), dove pi = q1p1i + q2 p2i + …..+ qs psi per i = 1, 2, …r, allora l l’. Assioma 14: Sostituzione o cancellazione Siano ci , c j C tali che ci ~ c j ; siano, poi, l ed l’ due lotterie, semplici o composte, tali che l = (……;q, ci ;……) l’ = (……; q, c j ; ……) allora l l’ Assioma 15: Indipendenza Dati ci , c j , ch C tali che ci ~ c j (ci p ch ) ~ (c j p ch ) Il rispetto degli assiomi 1-15 di comportamento razionale sopra riportati consente di dimostrare l’esistenza e l’unicità della funzione di utilità di un generico soggetto decisore. Teorema 5 (Esistenza della funzione di utilità) Se le preferenze di un individuo sull’insieme C obbediscono agli assiomi 1– 15, allora esiste una funzione di utilità u definita su C tale che: a) ci cj u(ci ) u(cj ) ci, cj C (Proprietà di ordinabilità) b) (p1, c1; p2, c2; ….; pr, cr) (p’1, c1; p’2, c2; ….; p’r, cr) u(p1, c1; p2, c2; ….; pr, cr ) u(p’1, c1; p’2, c2; ….; p’r, cr ) 374 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 p1u(c1) + p2 u(c2) + …..+ pr u(cr) p’1u(c1) + p’2 u(c2) + …..+ p’r u(cr) r r i 1 i 1 pi uxi pi' uxi (Proprietà di linearità) Teorema 6 (Unicità della funzione di utilità) Se u è una funzione di utilità su C, allora w u con > 0 è anch’essa una funzione di utilità che rappresenta lo stesso schema di preferenze. Analogamente, se u(.) e w(.) sono due funzioni di utilità su C che rappresentano lo stesso schema di preferenze, allora esistono un > 0 e un tali che w u . Il teorema 6 afferma, dunque, che per ogni individuo esiste una ed una sola funzione di utilità a meno di trasformazioni lineari positive. Un individuo razionale (che soddisfa cioè gli assiomi 1 - 15 per ottenere il massimo beneficio sceglierà l’azione a cui egli associa, in base al suo schema di preferenze, l’utilità attesa maggiore. Cioè l’alternativa a* che soddisfa la relazione n m a* argmax P j uij i 1 J 1 dove uij u ai , j è una funzione a valori reali detta di utilità. Pertanto, il criterio di decisione ottimale è quello della massimizzazione dell’utilità attesa. 7.3 - Decisioni in situazioni di estrema incertezza Se non si dispone di alcuna informazione sulla probabilità dei vari stati di natura, si parla di decisioni in situazioni di incertezza. Alcuni autori, quelli che si richiamano alla scuola bayesiana-soggettivista, non accettano la tripartizione sopra richiamata in quanto ritengono, non solo possibile, ma anche necessario, per una risoluzione ottimale dei problemi decisionali, procedere all’introduzione di una misura della plausibilità (probabilità soggettiva) dei vari stati di natura facendo così cadere la distinzione tra situazioni di rischio e situazioni di incertezza. Su questo punto si avrà modo di ritornare successivamente, qui si accoglie la possibilità dell’esistenza di situazioni che possono essere definite di estrema incertezza o di ignoranza assoluta, nelle quali non si può o non si vuole procedere alla misura della plausibilità dei vari stati di natura. Si supponga ora che le conseguenze siano esattamente definite, che siano espresse in termini di utilità yij cij u (ai , j ) per i=1, 2, ..., m ; j=1, 2, ..., n e che ragionevolmente, un’utilità più elevata sia preferita ad una utilità più bassa. L’azione ottima è, pertanto, quella cui corrisponde l’utilità più elevata. Quindi, nel caso in cui il decisore si trova ad operare in situazioni di certezza, cioè di conoscenza 375 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 dello stato di natura, il problema decisionale è praticamente risolto: basterà, infatti, scorrere la colonna delle utilità, individuare la più elevata e scegliere l'azione corrispondente a tale valore. Molto più problematico è il caso in cui il decisore si trova ad operare in situazioni di estrema incertezza. Infatti, se si guarda alla Tab. 7.2, dove ai simboli algebrici cij sono stati sostituiti i simboli y ij , che rappresentano le utilità, si vede chiaramente come, non essendo noto lo stato di natura, non sia possibile operare il confronto tra i valori numerici riportati nella tavola a meno che non ci si riconduca ad una situazione analoga a quella prospettata in precedenza (situazione di certezza) dove ad ogni azione diversa corrisponde un solo valore numerico; si tratta, in altre parole, di passare, in qualche modo, da n colonne ad una sola colonna. Azione Stato di natura a1 a2 ai am θ1 θ2 θj θn y11 y21 yi1 ym1 y12 y22 yi2 ym2 y1j y2j yij ymj y1n y2n yin ymn Tab. 7.2 - Tavola di decisione con conseguenze espresse in termini di utilità Il caso in cui l’agente non sia in grado o non voglia assegnare una distribuzione di probabilità agli stati di natura s’incontra frequentemente in pratica. Risulta quindi conveniente una breve rassegna dei criteri di decisione suggeriti per la risoluzione del problema di scelta in tali situazioni (di estrema incertezza). Per semplificare l’esposizione, senza perdere in generalità, ci si limiterà ad analizzare il caso discreto. Tra i criteri suggeriti per la soluzione del problema di decisione in situazioni di estrema incertezza assumono un certo rilievo: quelli che, grosso modo, fondano il criterio di decisione su elementi caratteristici (ad esempio la realizzazione più favorevole, quella meno favorevole, ecc.) della Tab. 7.2. 1. Criterio del max-min o criterio di Wald. Esso consiste nello scegliere l’azione a* che corrisponde al massimo delle utilità minime a* argmax (min yij ) i 376 j B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Questo criterio è proprio del pessimista estremo il quale è convinto che, qualunque azione egli scelga, si realizzerà sempre quello stato di natura (condizioni strutturali, economiche di produzione e di mercato, di lavoro, ecc.) che gli permetterà il conseguimento del beneficio minimo. Quindi, egli si premunirà contro la natura cercando di ottenere il massimo, tra i benefici minimi, che essa è disposta a concedere. 2. Criterio del max-max. All’opposto del pessimista estremo c’è l’estremo ottimista, ed è colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto benigna nei suoi confronti da concedere il beneficio massimo. La scelta ottimale risulta dalla relazione a* argmax (max yij ) j i 3. Criterio di Hurwicz. Considerando l’espressione a* argmax i min y (1 ) max y j ij j ij per compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti. L’ assume quindi il senso di indice di pessimismo; infatti, per = 1 si ha il criterio del max-min, per = 0 si ha il criterio del max-max. 4. Criterio di Savage o del min-max rimpianto. Per applicare il criterio di Savage, occorre sostituire agli elementi di ciascuna colonna della Tab. 2 la differenza tra l’elemento che ha valore massimo e l’elemento che occupa quella posizione rij max yij yij i scegliendo poi l’azione a* per la quale il massimo rimpianto assume valore minimo a* argmin (max rij ) i j Attraverso il criterio del min-max rimpianto l’operatore cerca di minimizzare i danni di una decisione errata. I quattro criteri di decisione presentati hanno tutti un certo carattere di accettabilità: naturalmente gli argomenti che possono essere avanzati a sostegno dell’uno o dell’altro criterio, sono di natura diversa, il che in effetti non presenta gravi inconvenienti. L’aspetto più problematico riguarda invece l’applicazione dei quattro criteri: infatti se essi vengono adottati in uno stesso problema di decisione ne può risultare una scelta di quattro azioni differenti. Da alcuni autori tale fatto è stato preso a pretesto per affermare che uno o più criteri devono essere necessariamente errati. Non sembra comunque che esistano ragioni sufficienti a sostegno di tale punto di vista; pare invece più giusta l’affermazione che tutti i criteri proposti hanno una portata applicativa limitata, e che a seconda delle circostanze dovrà essere adottato il criterio più opportuno. 377 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Un ulteriore criterio cui si fa riferimento quando si deve operare in situazioni di estrema incertezza è il cosiddetto criterio di Laplace o criterio della ragione insufficiente. Il criterio di Laplace individua quale azione migliore a* quella cui corrisponde il massimo della somma a* argmax i n y j 1 ij In base al criterio di Laplace, si attribuisce implicitamente a tutti gli stati di natura j uguale probabilità; ciò viene fatto in quanto non si hanno motivi sufficienti per ritenere che la distribuzione delle probabilità sia diversa da quella uniforme. Evidentemente una tale giustificazione risulta del tutto insoddisfacente perché non sono chiari i motivi per i quali lo stato d’ignoranza completa debba implicare necessariamente un’uguale probabilità degli stati di natura. Pertanto, o si prende atto che si sta operando in situazioni di estrema incertezza, e cioè di ignoranza completa riguardo alla plausibilità (probabilità) dei vari stati di natura, e si agisce di conseguenza, oppure si dovrà procedere esplicitamente alla valutazione (soggettiva) 7 delle probabilità attraverso procedure adeguate. In realtà, anche negli altri criteri si opera una sorta di introduzione indiretta delle probabilità, ma si tratta comunque di una assegnazione di probabilità che dipende più dalle azioni che dagli stati di natura. Infatti, se si considera, ad esempio, il criterio del max-max, questo si risolve, in sostanza e distintamente per ciascuna azione, nell’attribuzione di una distribuzione degenere di probabilità che assegna valore 1 alla probabilità dello stato di natura cui corrisponde la conseguenza più favorevole, mentre nel criterio del max-min si assegna valore 1 alla probabilità dello stato di natura cui corrisponde la conseguenza più sfavorevole. 7.4 - Struttura del processo decisionale In questo paragrafo, e nei due paragrafi successivi, verranno presi in considerazione gli aspetti più elementari della teoria statistica delle decisioni seguendo gli schemi classici introdotti da A. Wald nel 19508. Si ricorda che nelle pagine precedenti sono stati analizzati i problemi decisionali in situazioni di estrema incertezza (nessuna informazione sugli stati di natura) e in situazioni di rischio o incertezza presupponendo la conoscenza della distribuzione delle probabilità sugli stati di natura (decisioni basate sulle sole informazioni a priori), verificando che, nel contesto della teoria dell’utilità classica, l’azione ottima per il decisore è quella che massimizza l’utilità attesa. Il decisore deve scegliere tra una gamma di azioni alternative possibili ma le conseguenze di ciascuna azione dipendono da una situazione reale detta stato di natura. Il decisore, sia in situazioni di estrema incertezza (mancanza assoluta di informazioni sulle probabilità relative allo stato di natura), sia in quelle di rischio (conoscenza della 7 8 Su queste problematiche si veda quanto è stato detto nel capitolo precedente. L'argomento viene trattato estesamente in Ferguson (1967), De Groot (1970), Berger (1985) e Piccinato (1996), 378 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 distribuzione di probabilità sugli stati di natura), può procedere nella scelta oppure decidere di rinviare la scelta definitiva dell’azione procedendo all’acquisizione di ulteriori dati (di tipo campionario). Si sottolinea in proposito che l’acquisizione di dati comporta usualmente un costo che potrebbe non risultare compensato dal guadagno informativo; ma sul valore dell’informazione campionaria si avrà modo di soffermare l’attenzione successivamente. Le diverse tipologie di problemi decisionali da affrontare e risolvere sono pertanto di: decisione in assenza assoluta di informazioni (teoria classica delle decisioni); decisione basata sulle sole informazioni a priori (teoria bayesiana delle decisioni); decisione basata sulle sole informazioni campionarie (teoria statistica classica delle decisioni); decisione basata su informazioni campionarie e informazioni a priori (teoria statistica bayesiana delle decisioni). Nel paragrafo successivo verrà affrontato il terzo problema, quello cioè della risoluzione di problemi decisionali basandosi sulle sole informazioni campionarie, ma prima di procedere nella illustrazione risulta conveniente una elencazione dei fattori che entrano in gioco e che possono caratterizzare i problemi decisionali in tutte le loro possibili articolazioni. Gli elementi che possono caratterizzare lo svolgimento di un qualunque processo decisionale, sia in termini di spazi di riferimento che di funzioni, nelle diverse strutturazioni e fattispecie operative, sono: spazio parametrico o spazio degli stati di natura; in molte situazioni tale spazio è Rh e può trattarsi sia di uno spazio discreto che di uno spazio continuo; A spazio delle azioni finali (si assume che lo spazio sia discreto); E spazio delle prove o degli esperimenti (si assume che lo spazio sia discreto); S spazio o universo dei campioni come risultato di ciascun esperimento. Generalmente i risultati campionari vengono espressi da n (dimensione campionaria) k-uple, se k sono i caratteri presi in considerazione di numeri reali X1 , X 2 ,..., X i ,..., X n dove X i , i = 1, 2, ….,n, è un vettore di dimensione k; D spazio delle decisioni. In aggiunta agli spazi appena definiti risulta conveniente introdurre esplicitamente almeno tre funzioni: 379 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 la funzione di utilità U u a, , definita in precedenza, la funzione associa a ciascuna azione e stato di natura una conseguenza espressa in termini di utilità; la funzione di decisione a d x , funzione che proietta ciascun punto dello spazio campionario nello spazio delle azioni9; la funzione di perdita L l a, , la funzione associa a ciascuna azione e stato di natura una conseguenza espressa in termini di perdita. Le relazioni tra i diversi elementi sopra definiti sono illustrate nella Fig. 7.2 dove è riportata la struttura completa del processo decisionale le cui diverse articolazioni saranno caratterizzate dalla presenza di specifici elementi e particolari relazioni: Ad esempio, nella teoria classica delle decisioni (decisioni in situazioni di estrema incertezza), entrano in gioco soltanto lo spazio degli stati di natura, lo spazio delle azioni e lo spazio delle conseguenze (espresse in termini di utilità o di perdite). Spazio delle decisioni D Spazio degli esperimenti Spazio dei campioni x E S d x Spazio delle azioni A a Spazio parametrico (Stato di natura) Verosimiglianza f x , Θ Utilità U a, o Perdite La, Probabilità a posteriori P / x Probabilità a priori Fig. 7.2 - Struttura del processo decisionale L’introduzione della funzione di perdita L l a, (loss) consente la trattazione della teoria statistica delle decisioni nei termini più tradizionali secondo l’impostazione 9 Una regola di decisione (funzione di decisione) si dice semplice o non aleatoria se ad ogni punto corrisponde un solo punto a A a A , mista od aleatoria se ad ogni punto x S xS corrisponde una gamma di punti cui è associata una distribuzione di probabilità. Da rilevare che le regole di decisione semplici si ottengono come caso particolare di quelle miste quando lo spazio delle probabilità è degenere. 380 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 originaria data da Wald e che risulta più consona al tipico ragionamento statistico. A sostegno di tale affermazione basta fare riferimento ai problemi classici di stima statistica puntuale e di test delle ipotesi. Nel primo caso si ricorda che, una delle proprietà “augurabili” per lo stimatore ˆ T X di è l’efficienza che tradizionalmente viene misurata attraverso il computo dell’errore quadrato medio qualunque sia il vero valore del parametro ˆ * T x min E T X min EQM ˆ 2 basterà interpretare EQM ˆ come funzione di perdita che si vuol minimizzare. Nella teoria del test delle ipotesi, fissata la probabilità di commettere un errore di I tipo si cerca di minimizzare la probabilità di commettere un errore di II tipo; in questo caso, la perdita che si vuol minimizzare è rappresentata dalla probabilità dell’errore di secondo tipo. Se si ragiona in termini di perdite, interpretate semplicemente come utilità negative, si può riproporre la tabella di decisione esprimendo le conseguenze cij in termini di perdite cij l ai , j lij anziché in termini di utilità cij uai , j uij . Decisioni Stato di natura 1 2 …… d1 l d1 ,1 l d1 ,2 …… d2 l d 2 ,1 l d 2 ,2 .... ..... ..... di l di ,1 l di ,2 .... ..... ..... dm l d m ,1 l d m ,2 j l d1 , j l d 2 , j l di , j l d m , j ..... n ..... l d1 ,n ..... ..... ….. ..... ..... l d 2 ,n ..... l di ,n ..... l d m ,n Tab. 7.3 - Tavola di decisione con conseguenze espresse dalla funzione di perdita Se il decisore opera in condizioni di estrema incertezza, cioè nelle situazioni nelle quali non possiede informazioni sulla distribuzione di probabilità degli stati di natura, o non vuole utilizzare quelle in suo possesso perché poco affidabili, per risolvere il problema di scelta dovrà fare ricorso ad uno dei criteri proposti per risolvere i problemi decisionali in situazioni di estrema incertezza. illustrati nel paragrafo precedente. Di seguito vengono riproposti tre dei criteri introdotti considerando le perdite lij l ai , j anziché le utilità) uij l ai , j . 381 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Criterio del min-max o criterio di Wald. Esso consiste nello scegliere l’azione a* che corrisponde al minimo della massima perdita a* argmin( max lij ) j i Come già sottolineato questo criterio è proprio del pessimista estremo il quale è convinto che, qualunque azione egli scelga, si realizzerà sempre quello stato di natura cui è collegata la perdita massima. Criterio del min-min. All’opposto del pessimista estremo c’è l’estremo ottimista, ed è colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto benigna nei suoi confronti da concedere la perdita minima. La scelta ottimale risulta dalla relazione a* argmin ( min lij ) j i Criterio di Hurwicz. a* argmin α max lij + (1 - α) min lij i j j per compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti. L’ assume quindi il senso di indice di pessimismo; infatti, per = 1 si ha il criterio del min-max, per = 0 si ha il criterio del min-min. Se il decisore opera in condizioni di rischio, cioè nel presupposto che sia nota la distribuzione delle probabilità sugli stati, soddisfacendo i postulati di comportamento razionale sopra illustrati, il problema decisionale ha una soluzione immediata; infatti, basterà sostituire il principio di massimizzazione dell’utilità attesa con quello della minimizzazione della perdita attesa: Pertanto l’azione ottimale a * è definita dalla relazione n a* argmin E l ai , j argmin l ai , j P j ai ai i 1 Come già sottolineato, per risolvere il problema decisionale in situazioni di estrema incertezza, degli elementi sopra definiti e riproposti in forma grafica nella Fig. 7.2, quelli da considerare sono: la funzione di perdita e il corrispondente spazio delle conseguenze; lo spazio delle azioni; lo spazio degli stati di natura; mentre, per risolvere il problema decisionale in situazioni di rischio, degli elementi sopra definiti e riproposti in forma grafica nella Fig. 7.1, quelli da considerare sono: la funzione di perdita e il corrispondente spazio delle conseguenze; lo spazio delle azioni; lo spazio degli stati di natura; 382 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 la distribuzione delle probabilità (a priori) sugli stati di natura. 7.5 - Decisioni basate sulle sole informazioni campionarie Nelle due situazioni prospettate nel paragrafo precedente, l'operatore può procedere all'individuazione dell'azione a*, nell'insieme potenziale delle azioni A, ritenuta ottimale (attraverso l’impiego di uno dei criteri di decisione elencati, se si opera in condizioni di estrema incertezza, quella che minimizza la perdita attesa, se si opera in situazioni di rischio o incertezza), alternativamente, come già sottolineato, può decidere di acquisire informazioni sullo stato di natura predisponendo un particolare esperimento da scegliere dalla famiglia E di esperimenti potenziali. Da notare che qui l'esperimento va inteso in senso ampio, includente cioè tutti i casi di acquisizione di dati quali la rilevazione mediante indagine campionaria, la predisposizione di un esperimento in senso classico, la raccolta di dati già pubblicati, lo spoglio di schede contenenti le manifestazioni di certi fenomeni, ecc.. Ovviamente, l’acquisizione di informazioni campionarie, oltre a collocare il processo decisionale nel contesto statistico (dalla teoria delle decisioni alla teoria statistica delle decisioni), può comportare un costo che potrebbe non essere compensato dalla riduzione dell’incertezza. Sorge così un nuovo problema decisionale che abbisogna di soluzione; l’interrogativo a cui dare risposta è, quindi, se procedere o meno all’acquisizione di informazioni campionarie il cui valore (e convenienza) potrà essere misurato soltanto a posteriori, cioè dopo aver realizzato l’esperimento ed acquisito le informazioni. Il tema del valore dell’informazione campionaria verrà trattato nel paragrafo 7.7, il paragrafo 7.6 sarà dedicato, invece, alla illustrazione delle problematiche connesse alla integrazione delle informazioni a priori con informazioni campionarie (teoria statistica bayesiana delle decisioni), mentre in questo paragrafo si affronterà il tema della scelta ottimale tra le diverse alternative utilizzando le sole informazioni campionarie (decisioni basate sulle sole informazioni campionarie: teoria statistica classica delle decisioni). Come già sottolineato, seguendo una tradizione ormai consolidata, la presentazione farà riferimento alle perdite e non alle utilità; in proposito, si sottolinea ancora una volta che la funzione di perdita non è altro che una particolare caratterizzazione della funzione di utilità. L’argomento verrà introdotto attraverso l’illustrazione di un problema decisionale divenuto ormai classico in letteratura perché, nonostante la sua estrema semplicità, consente una trattazione approfondita di tutti gli aspetti di interesse: si deve decidere se non procedere (azione a1 ) o procedere (azione a 2 ) alla trivellazione di un pozzo non disponendo di informazioni sulla presenza o meno del petrolio nel terreno. Se il petrolio non è presente, lo stato di natura è 1 , se invece è presente, lo stato di natura è 2 , il costo della perforazione è pari a 300mila $, gli introiti, in caso di presenza del petrolio, sono pari a 900mila $; ovviamente l’introito in caso di assenza di petrolio è 0. 383 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Il problema decisionale è proposto nella Tab. 7.4, dove si fa riferimento alle utilità, e nella Tab. 7.5, dove le conseguenze sono espresse in termini di perdite. Se il decisore conoscesse le probabilità (a priori), ad esempio P1 0.50 e P 2 0.50 , ne risulterebbe un’utilità attesa pari a 0, in corrispondenza dell’azione a1 , mentre l’utilità attesa per a 2 è pari 300mila $, quindi la scelta ottimale è a* a2 . Per contro, le perdite attese sarebbero, rispettivamente pari a 300mila $, per l’azione a1 , e pari a 150mila $ per l’azione a 2 ; ovviamente, anche se si ragiona di termini di perdita si individua a 2 come azione ottimale. L’esito peraltro risulta scontato; infatti se si ragiona in termini di lotteria, puntando 300mila $ si ha una probabilità del 50% di ricevere la propria posta triplicata. Ovviamente questa conclusione è valida solo presupponendo una funzione di utilità lineare; un soggetto fortemente avverso al rischio potrebbe, infatti, decidere di non procedere alla trivellazione. Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 :presenza di petrolio 0 0 -300 600 Tab. 7.4 - Tavola di decisione: problema di trivellazione con utilità come conseguenze Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 :presenza di petrolio 0 600 300 0 Tab. 7.5 - Tavola di decisione: problema di trivellazione con perdite come conseguenze Gli aspetti concernenti l’influenza degli atteggiamenti individuali nei confronti delle scelte decisionali emergono anche nelle situazioni nelle quali non si possiede alcuna informazione sulle probabilità degli stati di natura. Infatti, se si fa riferimento alla Tab. 7.4 e si ricorre al criterio del max-min (pessimista) l’azione ottima risulta essere a1 , mentre il criterio del max-max (ottimista) individua a 2 come azione migliore. Nella Tab. 7.5 si riportano le soluzioni del problema decisionale fornite dal criterio di Hurwitz in corrispondenza di diversi valori assunti dal coefficiente (di pessimismo) . L’equivalenza riscontrata tra gli esiti di questo criterio e quelli che derivano dal criterio dell’utilità (perdita) attesa non è affatto generalizzabile a situazioni con stati di natura o azioni superiori a due. 384 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Osservando i dati riportati in tabella si rileva il valore dell’indice di pessimismo che induce il decisore a modificare la propria strategia, la soglia comporta la scelta dell’azione a1 (non trivellare) rispetto all’azione a 2 è 0.666 P 1 0.666 . Cioè, se si fa riferimento alla massimizzazione dell’utilità attesa, si decide di procedere alla trivellazione (azione a 2 ) se P 2 0.333 . Valori dell’indice di pessimismo 0 0,1 0,2 0,3 0,4 0,5 0,6 0,65 0,66 0,67 0,68 0,7 0,8 0,9 1 Azioni a1 : non perforare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 a 2 : perforare 600 510 420 330 240 150 60 15 6 -3 -12 -30 -120 -210 -300 Tab. 7.6 - Problema di trivellazione con utilità come conseguenze: criterio di Hurwitz Si supponga che il decisore abbia la possibilità di acquisire, informazioni sulla presenza o meno di petrolio nel terreno utilizzando indipendenti. I possibili esiti dell’utilizzo dei sismografi sono riportati l’informazione fornita dai sismografi non è certa, le probabilità corrispondenza dei due diversi stati di natura sono riportati nella tabella. Segnalazione del sismografo Assenza di petrolio Presenza di petrolio a costo zero, due sismografi nella Tab. 7.7; di errore, in Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio 0.6 0.4 0.3 0.7 Tab. 7.7 – Probabilità dell’esito del sismografo condizionato allo stato di natura 385 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Il decisore potrà decidere se trivellare o meno sulla scorta dell’informazione campionaria acquisibile il cui esito può essere: entrambi i sismografi indicano assenza di petrolio, entrambi i sismografi indicano presenza di petrolio; un sismografo indica presenza di petrolio mentre l’altro indica assenza. Se con 0 si indica assenza di petrolio e con 1 presenza di petrolio, lo Spazio campionario S sarà costituito dai quattro punti campionari: S 0,0, 0,1, 1,0, 1,1 cui sono associate le probabilità: P0,0 / 2 P0 / 2 P0 / 2 0.09 P0,0 / 1 P0 / 1 P0 / 1 0.36 P0,1 / 1 P0 / 1 P1 / 1 0.24 P1,0 / 1 P1 / 1 P0 / 1 0.24 P0,1 / 2 P0 / 2 P1 / 2 0.21 P1,0 / 2 P1 / 1 P0 / 2 0.21 P1,1 / 2 P1 / 2 P1 / 2 0.49 . P1,1 / 1 P1 / 1 P1 / 1 0.16 I due punti campionari estremi indicano, rispettivamente, assenza di petrolio e presenza di petrolio segnalata da entrambi i sismografi; mentre, i due punti intermedi indicano che uno solo, dei due sismografi, segnala la presenza di petrolio. In sostanza si è in presenza di tre punti campionari per due diversi stati di natura, quindi il numero delle funzioni di decisione possibili è pari a 2 3 = 8: Si ricorda che la funzione di decisione è una funzione che fa corrispondere ad ogni punto campionario una specifica azione. Nella Tab. 7.8 è riportata l’esplicitazione delle 8 funzioni di decisione. Punti campionari 0,0 0,1 o 1,0 1,1 d1 d2 Funzioni di decisione d3 d5 d6 d4 a1 a2 a1 a1 a2 a1 a2 a2 a1 a2 a1 a2 a1 a2 a1 a2 a1 a2 a2 a1 a1 a2 a2 a1 d7 d8 Tab. 7.8 – Probabilità dell’esito del sismografo condizionato allo stato di natura Se si analizza quanto riportato nella Tab. 7.8 si rileva immediatamente la scarsa razionalità di alcune funzioni di decisione, ad es., le funzioni d 1 e d 2 individuano, rispettivamente, l’azione a1 e l’azione a 2 qualunque sia l’esito campionario, mentre la funzione d 5 individua l’azione a 2 (procedere alla trivellazioni) quando entrambi i sismografi registrano assenza di petrolio, mentre individuano l’azione a1 (non procedere alla trivellazione) quando uno o entrambi i sismografi registrano presenza di petrolio. Prescindendo per il momento dalla ragionevolezza o meno delle funzioni di decisione, si può procedere al calcolo delle perdite attese (rischi) associate a ogni funzione di 386 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 decisione in corrispondenza dei due diversi stati di natura. A titolo esemplificativo si considera la funzione d 6 , la procedura di calcolo è illustrata nella Tab. 7.9. 1 2 Stato di natura 1 Punti campionari Azione scelta 0,0 a1 0 Prob. del campione 0.36 0,1 , 1,0 o 1,1 a2 300 0.64 Perdita 1 2 Stato di natura 2 600 Prob. del campione 0.09 0 0.91 Perdita Perdita attesa (Rischio) Col. 1 x Col. 2 1 2 Perdita attesa (Rischio) 0 54 192 0 192 54 Tab. 7.9 – Calcolo delle perdite attese per la funzione di decisione d 6 Nella Tab. 7.10 sono riportate le perdite attese (rischi) per tutte le funzioni di decisione introdotte. Decisioni Stati di natura 1 : assenza di petrolio 2 :presenza di petrolio d1 0 600 d2 300 0 d3 144 348 d4 48 306 d5 108 546 d6 192 54 d7 252 294 d8 156 252 Tab. 7.10 – Tavola delle perdite attese (rischi) Se si osserva la tabella si evince immediatamente che la natura del problema che il decisore deve risolvere è sostanzialmente analoga a quella già esaminata in precedenza; si tratta, cioè, di scegliere tra le 8 decisioni possibili quella che minimizza la perdita 387 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 attesa non avendo informazioni sulla probabilità degli stati di natura (situazione di estrema incertezza) facendo però riferimento a perdite e decisioni anziché a utilità e azioni. Il primo passo da compiere è, quindi, quello della verifica della presenza di un’eventuale decisione dominante, quella cioè caratterizzata da rischio minimo qualunque sia lo stato di natura. Osservando i valori riportati nella Tab. 7.9 si verifica l’assenza di una tale eventualità. Il secondo passo consiste nell’individuazione (e successiva eliminazione) di eventuali decisioni dominate da altre, ed è questo il caso delle decisione d 3 e d 5 , che risultano dominate dalla decisione d 4 , e della decisione d 7 , che risulta dominata dalla decisione d 8 . Tornando al problema decisionale nei suoi termini più generali si può affermare che la decisone ottima per l’operatore è quella che minimizza la perdita (massimizza l’utilità) per qualunque stato di natura e risultanza campionaria, ma una tale strategia difficilmente si riesce a determinare nella pratica; qualora si riuscisse ad individuarla si parlerebbe di strategia "uniformemente migliore". Per superare le difficoltà relative alla determinazione della strategia "ottima" è stato proposto, tra l’altro di restringere la classe delle decisioni ammissibili; si tratta di un metodo che prevede l'esclusione di strategie che non soddisfano a determinati requisiti ritenuti "augurabili" dall'operatore. Un tale modo di procedere consente da un lato l'eliminazione dall'analisi delle strategie meno efficienti, dall'altro incrementa le possibilità di esistenza di strategie uniformemente migliori, facilitandone l'individuazione, nella classe ristretta. Una delle condizioni che può essere considerata per restringere la classe delle decisioni possibili è l'invarianza. A giustificazione di tale restrizione si può dire che se un problema di decisione risulta simmetrico od invariante rispetto a certe operazioni, sembra ragionevole restringere la classe delle decisioni possibili a quelle che siano simmetriche od invarianti nei confronti delle stesse operazioni. Restringere la classe delle decisioni possibili si sostanzia nella introduzione di vincoli che devono essere soddisfatti dalle decisioni stesse. Si tratta, sostanzialmente, di una procedura del tutto analoga a quella adottata nel contesto della regressione lineare: infatti, in tale contesto, imponendo il soddisfacimento dei vincoli di linearità e correttezza è stato possibile individuare lo stimatore ottimale, cioè, lo stimatore BLU . Assegnando all’errore quadratico medio la natura di funzione di perdita, è stato possibile individuare la strategia dominante. Il tema della restrizioni della classe delle decisioni non verrà qui affrontato procedendo, invece, alla generalizzazione di quanto discusso nell’esempio sopra illustrato. Si farà riferimento ad un generico numero n di stati di natura, ad un generico numero r di funzioni di decisione e ad un generico vettore casuale X X 1, X 2 ,...., X n ' associato alla rilevazione campionaria frutto della conduzione di uno specifico esperimento. 388 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 In questo contesto la generica funzione di decisione assume la forma a d x1 , x2 ,...., xn d x , dove x x1 , x2 ,...., xn ' rappresenta l’esito dell’esperimento condotto (risultato campionario), cioè, la determinazione del vettore casuale X X 1, X 2 ,...., X n . Pertanto la perdita attesa (rischio) resta definita dalla ' relazione: R d , R d x , Ex l d x , . Relazione che per un vettore campionario relativo ad una variabile discreta diventa R d , E x l d x , x l d x , P x / x 1 x2 x l d x1 , x2 ,...., xn , f x1 , f x2 , ....... f xn , n dove f xi , , per i=1,2,….,n, rappresenta la funzione di massa di probabilità della variabile casuale X i associata all’i-esima unità campionaria. Se le variabili casuali X i originano da una variabile casuale continua, l’espressione algebrica del rischio (perdita attesa) è data da: R d , E x l d x , l d x , P x / x x1 x2 ...... l d x1 , x2 ,...., xn , f x1 , f x2 , ....... f xn , dx1dx2 .....dxn xn dove f xi , , per i=1,2,….,n, rappresenta la funzione di densità di probabilità della variabile casuale X i associata all’i-esima unità campionaria. La tavola di decisione che riassume i termini del problema decisionale (cfr. Tab. 7.11) è del tutto analoga alla Tab. 7.3, anche se ora è espressa in termini di funzioni di decisioni e di rischi (perdite attese) anziché di perdite; pertanto, per risolvere il problema decisionale, basterà fare ricorso ai criteri illustrati nel paragrafo 7.4. Decisioni Stato di natura 1 2 …… d1 Rd1 ,1 Rd1 , 2 …… d2 Rd 2 ,1 Rd 2 , 2 .... ………… ………… …… …… Rd i , 2 di Rd i ,1 .... ………… ………… …… …… dr R d r ,1 R d r ,2 …… j Rd1 , j Rd 2 , j ………… Rd i , j ………… R d r , j ....... ....... n Rd1 , n Rd 2 , n ....... ....... ………… …... ....... ………… ....... R d r ,n Rd i , n Tab. 7.11 - Tavola di decisione con conseguenze espresse dai rischi (perdite attese) 389 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 7.6 - Decisioni basate su informazioni a priori e informazioni campionarie Nei paragrafi precedenti si è visto come l'operatore possa utilizzare l'insieme delle probabilità a priori, che riflettono le sue "credenze" sulle possibilità di realizzazione dei vari stati di natura, per determinare l'utilità attesa o, alternativamente, la perdita attesa relativamente a ciascuna azione; è stato inoltre esaminato il caso in cui l'operatore, prescindendo da ogni informazione a priori, utilizza le informazioni campionarie per il computo del rischio. E' stato sottolineato anche il fatto che, generalmente, non è possibile individuare una funzione di decisione capace di minimizzare il rischio in corrispondenza di ciascuno stato di natura; cioè, nella generalità dei casi non esiste una decisione dominante. A tale proposito è stata esaminata la possibilità di ricorrere con opportuni adattamenti, ai criteri esposti nel paragrafo 7.4. Una seconda possibilità è, ovviamente, quella d'introdurre una distribuzione di probabilità sugli stati di natura, calcolando il rischio atteso, per poi procedere alla individuazione della decisione che minimizza tale rischio atteso (decisione ottimale). Evidentemente l'introduzione di una distribuzione di probabilità sugli stati di natura attribuisce al problema decisionale un carattere completamente diverso da quello discusso nel precedente paragrafo, assumendo una natura del tutto analoga ad un problema decisionale nel quale l'operatore, disponendo di certe informazioni a priori e non ritenendole sufficient i, decide di procedere all’acquisizioni di dati aggiuntivi per incrementare il suo bagaglio di conoscenze sul fenomeno in oggetto d’analisi. In questo paragrafo si vedrà come l'applicazione del criterio (paradigma) bayesiano alla tabella dei rischi conduca all’individuazione della decisione ottimale; cioè, quella che minimizza il rischio atteso (analisi in forma normale). Si vedrà, inoltre, come l'operatore possa integrare, con le informazioni aggiuntive di tipo campionario, le informazioni a priori mediante una loro revisione attraverso l'applicazione delle formule di Bayes (analisi in forma estensiva) pervenendo agli stessi risultati. In proposito si deve sottolineare che spesso la revisione delle probabilità a priori attraverso le formule di Bayes può risultare un'operazione estremamente complessa; e ciò è vero soprattutto se non si riesce ad individuare uno "statistic" 10 la cui distribuzione sia determinata univocamente dai dati campionari. Per contro, si deve tener presente del fatto che quando si è in presenza di un numero elevato di possibili stati di natura e di possibili risultanze campionarie risulta molto complicata, a volte anche impossibile, la definizione di tutte le possibili funzioni di decisione. 10 Si ricorda che uno statistic, statistica in italiano, è una funzione nota degli elementi campionari e che le probabilità a priori revisionate vengono dette probabilità a posteriori. 390 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Nel paragrafo precedente è stato illustrato un esempio in merito alla decisone di procedere o meno alla trivellazio ne di un pozzo per la ricerca del petrolio esaminando la possibilità di acquisizione di informazioni campionarie attraverso l’impiego di sismografi. Se si prende nuovamente in considerazione l’esempio partendo dalla tabella dei rischi e si osservano i dat i riportati nella Tab. 7.11 si rileva immediatamente che se lo stato di natura più probabile è 1 le decisioni migliori risultano essere d 1 e d 4 , mentre se è più probabile lo stato di natura 2 le decisioni migliori sono la d 2 e la d 6 . Si supponga ora che le probabilità associate ai due stati di natura siano P1 0.2 e P 2 0.8 , sulla scorta di tali probabilità si possono calcolare i rischi attesi riportati nella Tab. 7.12. Funzioni di decisione Stati di natura 1 : assenza di petrolio 2 :presenza di petrolio Dominanza d1 0 600 - d2 300 0 - d3 144 348 Dominata d4 48 306 - d5 108 546 Dominata d6 192 54 d7 252 294 Dominata d8 156 252 - Tab. 7.11 – Tavola delle perdite attese (rischi) Per chiarezza espositiva risulta utile riproporre la tabella delle funzioni di decisione Punti campionari 0,0 0,1 o 1,0 1,1 d1 d2 Funzioni di decisione d3 d5 d6 d4 a1 a2 a1 a1 a2 a1 a2 a2 a1 a2 a1 a2 a1 a2 a1 a2 a1 a2 a2 a1 a1 a2 a2 a1 d7 d8 Poiché la decisione che minimizza il rischio atteso è d 2 , cioè quella di procedere alla trivellazione qualunque sia l’esito della rilevazione campionaria, la conclusione cui si perviene è che l’informazione campionaria acquisita, in questo caso specifico, è del tutto irrilevante. 391 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 A prescindere dal risultato cui si è pervenuti ipotizzando l’acquisizione di informazioni campionarie con dimensione del campione pari a 2 ( n=2), il problema decisionale poteva essere affrontato e risolto in modo diverso secondo i passi di seguito indicati: 1. fissazione delle probabilità a priori sugli stati di natura; 2. esecuzione della rilevazione campionaria e registrazione dei risultati; 3. revisione, utilizzando la formula di bayes, delle probabilità a priori sugli stati di natura sulla base delle risultanze campionarie; 4. applicazione del criterio bayesiano per l’individuazione dell’azione cui corrisponde la perdita attesa minima. Se si fa ricorso a questa procedura, la tabella dei rischi non è più necessaria in quanto il criterio di decisione bayesiano può essere applicato direttamente alla tabella delle perdite utilizzando le probabilità a priori riviste; utilizzando, cioè, le probabilità a posteriori. Comunque, le due diverse procedure pervengono alla stessa conclusione. Funzioni di decisione Stati di natura 1 : assenza di petrolio 2 : presenza di petrolio P 2 0.8 P1 0.2 Rischi attesi d1 0 600 480 d2 300 0 60 d4 48 306 254 d6 192 54 82 d8 156 252 233 Tab. 7.12 – Tavola dei rischi attesi per le decisioni non dominate Se si assume che le probabilità a priori siano quelle sopra introdotte, P1 0.2 e P 2 0.8 , osservando i dati riportati nella Tab. 7.12 si individua d 2 quale decisione ottimale che, come osservato, è una decisione indipendente dal risultato campionario. Si ipotizzi ora una diversa distribuzione delle probabilità a priori, ad esempio, P1 0.55 e P2 0.45 , e si calcolano i rischi attesi si individua d 6 quale decisione ottimale (quella cui corrisponde il rischio atteso minimo). Si ricorda che la decisione d 6 prevede di non procedere alla trivellazione se entrambi i sismografi segnalano assenza di petrolio, di procedere alla trivellazione quando uno o entrambi i sismografi segnalano presenza di petrolio. Pertanto, se anziché procedere nel modo sopra indicato, cioè all’introduzione delle funzioni di decisione e al computo dei rischi attesi, si procedesse alla scelta dell’azione 392 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 ottimale basando il calcolo sulla distribuzione delle probabilità a posteriori si perviene alla stessa soluzione finale; infatti, ricordando la formula di Bayes f x / f f / x f x / f e i valori definiti nel capitolo precedente P0,0 / 1 P0 / 1 P0 / 1 0.36 P0,0 / 2 P0 / 2 P0 / 2 0.09 P0,1 / 1 P0 / 1 P1 / 1 0.24 P0,1 / 2 P0 / 2 P1 / 2 0.21 P1,0 / 1 P1 / 1 P0 / 1 0.24 P1,0 / 2 P1 / 1 P0 / 2 0.21 P1,1 / 1 P1 / 1 P1 / 1 0.16 P1,1 / 2 P1 / 2 P1 / 2 0.49 . cioè le probabilità che derivano dalla distribuzione binomiale n x n x p q x 2! 2! f 0 / 2 0.70 0.32 0.09 0.40 0.62 0.36 0!2! 0! 2! 2! 2! f 1 / 1 0.41 0.61 0.48 f 1 / 2 0.71 0.31 0.42 1!1! 1! 1! 2! 2! f 2 / 1 0.42 0.60 0.16 f 2 / 2 0.7 2 0.30 0.49 2!0! 2! 0! si deducono facilmente le probabilità a posteriori. Nel caso che si sta trattando n 2 mentre p 0.4 se 1 , p 0.7 se f 0 / 1 2 ,quindi: f 1 / 0 f 0 / 1 f 1 0.36 0.55 0.83 f 0 / 1 f 1 f 0 / 2 f 2 0.36 0.55 0.09 0.45 f 2 / 0 1 f 1 / 0 0.17 f 1 / 1 f 1/ 1 f 1 0.48 0.55 0.58 f 1/ 1 f 1 f 1/ 2 f 2 0.48 0.55 0.42 0.45 f 2 / 1 1 f 1 / 1 0.42 f 1 / 2 f 2 / 1 f 1 0.16 0.55 0.03 f 2 / 1 f 1 f 2 / 2 f 2 0.16 0.55 0.49 0.45 f 2 / 2 1 f 1 / 2 0.97 . Le tavole di decisione nei tre casi considerati sono di seguito riportate. 393 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Azioni a1 : non perforare a 2 : perforare Versione 2015 Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P 2 / 0 0.17 P1 / 0 0.83 Perdita attesa 0 600 102 300 0 249 Tab. 7.13 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi segnalano assenza di petrolio Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P 2 / 1 0.42 P1 / 1 0.58 Perdita attesa 0 600 252 300 0 174 Tab. 7.14 - Tavola di decisione con probabilità a posteriori nel caso in cui un solo sismografo segnala assenza di petrolio Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P1 / 2 0.03 P 2 / 2 0.97 Perdita attesa 0 600 582 300 0 9 Tab. 7.15 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi segnalano presenza di petrolio Osservando quanto riportato nelle Tabb. 7.13, 7.14 e 7.15 si perviene alla conclusione di non procedere alla trivellazione quando entrambi i sismografi segnalano assenza di petrolio (cfr. Tab. 7.13), di procedere invece alla trivellazione quando uno (cfr. Tab. 7.14) o entrambi (cfr. Tab. 7.15) i sismografi segnalano presenza di petrolio, scelte queste che corrispondono esattamente alla decisione d 6 , cioè la decisione che minimizza il rischio atteso. *** Si dimostra l’equivalenza tra la minimizzazione del rischio atteso (forma normale) e il criterio bayesiano basato sulle probabilità a posteriori (forma estensiva). 394 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Per una qualunque funzione di decisione d i è possibile procedere al computo del rischio (perdita attesa) Rdi , in corrispondenza di ogni stato di natura Θ . Se si conosce la distribuzione di probabilità sugli stati di natura sarà, inoltre, possibile procedere al calcolo del rischio atteso E Rdi , Rdi , f nel caso in cui lo stato di natura è discreto E Rdi , Rdi , f d nel caso in cui lo stato di natura è continuo. La scelta ottimale è la decisione d * argmin R di , f nel caso in cui lo stato di natura è di discreto d * argmin R d , f d i di nel caso in cui lo stato di natura è continuo. Si ricorda che: 1. la funzione di decisione è definita sullo spazio dei campioni, è cioè una funzione che fa corrispondere a ciascun punto campionario una specifica azione, a d x1 , x2 ,...., xn d x ; 2. il rischio corrisponde alla perdita attesa, R d , R d x , Ex l d x , , si avrà, pertanto, argmin E R d i , d i argmin E R di x , di . argmin E E x l d i x , di Considerando, senza perdere in generalità, il caso in cui sia lo spazio parametrico che lo spazio dei campioni sono discreti, si ha: argmin E R d i , d i argmin di argmin E E x l di x , di l d x , f x / x i f . Se si cambia l’ordine di sommatoria, si tiene conto della relazio ne a d x e dell’uguaglianza f x / f f / x f x si ha: 395 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni argmin x l di x , f x / f argmin E R d i , d i argmin di x Versione 2015 di l d x , f / x f x x i argmin l d i x , f / x di f x x argmin l a, f / x f x . di dove, nell’ultimo passaggio, si è tenuto a d x1 , x2 ,...., xn d x . pertanto a argmin E R di , d * i conto della argmin l a, f / x d relazione . i * dove con a si è voluto indicare l’azione ottimale quando nel problema decisionale si utilizzano sia le informazioni a priori che le informazioni campionarie, si tratta cioè della perdita attesa calcolata utilizzando le probabilità a posteriori. Al riguardo si ricorda che la corrispondente azione ottimale individuata utilizzando le sole informazioni a priori è data da a* argmin a l a, f . *** Questo risultato dimostra la completa equivalenza delle due diverse procedure, forma normale e forma estensiva, che consentono la minimizzazione della perdita attesa. I diversi passaggi hanno riguardato il caso in cui sia lo spazio parametrico che lo spazio dei campioni siano discreti; procedimento del tutto analogo vale anche nel caso in cui entrambi gli spazi siano continui o uno sia discreto e l’altro continuo. Nel caso in cui entrambi gli spazi sono continui si ha: argmin E R d i , argmin d d i argmin di i x l d x , f x / d x f x i l d x , f / x d i argmin l d i x , f / x d di x f x d x a argmin * a f x d x argmin l d i x , f / x d f x d x x di cioè: l d x , f / x d argmin l a, f / x d i a 396 d B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 il che dimostra la completa equivalenza tra i due criteri. Cosa questa d'altronde ovvia in quanto le due procedure sono basate sugli stessi dati e calcoli, l'unica differenza risiede nell'ordine con cui le operazioni analitiche vengono eseguite; infatti, entrambi si avvalgono delle pro babilità a priori e delle informazioni campionarie nel computo dei valori attesi (rischi o utilità). L'operatore sceglierà, vista la completa equivalenza dei due criteri, quello che risulta più facilmente trattabile dal punto di vista algebrico ed operativo. Se si riflette sulle operazioni che devono essere effettuate per pervenir e alla individuazione della decisione ottimale ci si rende immediatamente conto, però, dell’onerosità della procedura (forma normale) basata sull’introduzione delle funzioni di decisione; si è visto, infatti, nell’esempio che per un semplice problema decisionale in cui sono soltanto 2 le possibili azioni e 3 i possibili risultati campionari, il numero delle funzioni di decisione possibili risulta pari a 8 2 3 ; anche se, al riguardo, si deve sottolineare che le funzioni di decisione “ragionevoli”, cioè quelle da prendere in considerazione, sono soltanto 2: la d 4 e la d 6 . Concettualmente più semplice, è la procedura ( forma estensiva) basata sulla minimizzazione dell’utilità attesa considerando le pro babilità a posteriori; ma, come già sottolineato, anche in questo caso si possono incontrare notevoli difficoltà. Il paragrafo successivo sarà dedicato alla trattazione dei casi di aggiornamento delle probabilità a priori sulla scorta dell’evidenza campion aria, cioè di derivazione delle probabilità a posteriori, che si incontrano più frequentemente nella pratica. Mentre, a ulteriore chiarimento delle considerazioni sopra svolte, si dedica la parte conclusiva di questo paragrafo alla illustrazione di un altro caso decisionale. Esempio 7.1 Si supponga che la proporzione di pezzi difettosi presenti in un lotto possa assumere quattro diversi valori 1 0.02, 2 0.03, 3 0.04, 4 0.05 e che le probabilità (a priori) dei diversi stati di natura siano P1 0.10, P 2 0.20, P 3 0.40, P 4 0.30 , si supponga di aver estratto un campione casuale bernoulliano (estrazione con ripetizione) di 100 pezzi dal lotto e di aver riscontrato la presenza di 3 pezzi difettosi. Come si deve procedere nella revisione dell’informazioni a priori tenendo conto del le risultanze campionarie? Sostanzialmente quello che si vuol fare e passare da P j f j a P j / x f j / x , per j = 1, 2, 3 e 4. Se si indica con X il numero di pezzi difettosi riscontrabili nel lotto dei 10 0 pezzi esaminati, tale entità variabile potrà assumere i valori 0, 1, 2,…., x,…., 100 e la probabilità (verosimiglianza) di un qualunque risultato campionario 397 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 per uno specifico stato di natura è espressa dalla distribuzione binomiale 100 x 100 x . Pertanto, la probabilità totale è data da P X x / 1 x X x 1 X x 2 P X x P X x 3 X x 4 P X x / 1 P 1 P X x / 2 P 2 P X x / 3 P 3 P X x / 4 P 4 100 100 100 x 100 x x x 0,10 0, 20 0, 02 1 0, 02 0, 03 1 0, 03 x x 100 100 100 x 100 x x x 0, 40 0,30 0, 04 1 0, 04 0, 05 1 0, 05 x x da cui X 3 0, 02 X 3 0, 03 P X 3 P X 3 0, 04 X 3 0, 05 P X 3 / 0, 02 P 0, 02 P X 3 / 0, 03 P 0.03 P X 3 / 0, 04 P 0, 04 P X 3 / 0, 05 P 0, 05 100 100 3 97 3 97 0, 02 0,97 0,10 0, 03 0,97 0, 20 3 3 100 100 3 97 3 97 0, 04 0,96 0, 40 0, 05 0,95 0,30 3 3 0,18 0,10 0, 23 0, 20 0, 20 0, 40 0,14 0,30 0,186 Il valore 0,186 è, quindi, la probabilità che l’entità variabile X assuma la determinazione 3, cioè la probabilità di ottenere il risultato campionario ipotizzato P X 3 f 3 . Disponendo delle risultanze campionarie e delle probabilità a priori si può procedere al computo delle probabilità a posteriori. Le elaborazioni sono riassunte nella Tab. 7.16. Stato di natura Probabilità a priori Probabilità condizionata (verosimiglianza) f 3 / Probabilità congiunta f 3 / Probabilità a posteriori f / 3 f 3 / 4 f 3 / i 1 0,02 0,10 0,18 0,018 398 0,097 i i B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni 0,03 0,04 0,05 0,20 0,40 0,30 1,00 0,23 0,20 0,14 Versione 2015 0,046 0,080 0,042 0,186 0,248 0,430 0,225 1,000 Tab. 7.16 – Revisione delle probabilità a priori e computo delle probabilità a posteriori in corrispondenza di un risultato campionario pari a 3 relativo ad un campione di dimensione 100 Come si può facilmente desumere analizzando i dati riportati nella Tab. 7.16, i risultati campionari hanno prodotto delle variazioni nella distribuzione delle probabilità sugli stati di natura; a questo punto il decisore può utilizzare tali valori per procedere al calcolo delle perdite attese oppure procedere ad una ulteriore rilevazione campionaria, i cui risultati consentono una seconda revisione delle probabilità, in questo processo di revisione le probabilità a posteriori riportate nella tabella assumono la natura di probabilità a priori nel secondo passo di aggiornamento della conoscenza. Si può dimostrare senza eccessiva difficoltà che la procedura di aggiornamento delle probabilità in due passi successivi produce gli stessi risultati della procedura che congloba i risultati delle due rilevazioni in un solo campione che dovranno essere utilizzati per revisionare le probabilità a priori iniziali. I calcoli necessari per aggiornare le probabilità a priori sulla scorta dell’evidenza campionaria nell’esempio sopra illustrato sono relativamente semplici, in altri casi la soluzione non è cosi immediata. Fortunatamente, esistono situazioni, e sono abbastanza frequenti, in cui il problema dell’aggiornamento delle probabilità a priori può essere risolto in modo agevole, si tratta dei casi in cui è giustificato il ricorso alle distribuzioni a priori coniugate già considerate nei capitoli 2 e 6 di queste note. 7.7 - Il valore dell’informazione Si è detto nelle pagine precedenti come, in alcuni problemi di decisione, l'operatore possa ritenere di non avere informazioni suf ficient i sia in relazione agli stat i di natura (ed è il caso speci ficamente trattato) che alle conseguenze. Si è pure visto come in tali condizioni egli possa procrast inare il momento della scelta decidendo per l'acquisizione di ulterior i informazioni, magari di tipo campionario. Evidentemente la decisione di procedere all'acquisizione di ulteriori elementi d'informazione deve essere presa a priori. Un tale fatto introduce nel problema decisionale un elemento aggiuntivo d'incertezza relativo alle risultanze campionarie e quindi alla bontà delle informazioni. L'operatore sa che attraverso un'indagine potrà acquisire ulteriori informazioni che ridurranno quasi certamente lo stato d'incertezza in cui è costretto ad operare, ma non conosce esattamente la misura di tale riduzione. D'altra parte l'operatore sa 399 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 anche che l'effettuazione di un'indagine comporta delle spese, e che una dilazione della decisione potrebbe risultare eccessiva ed implicare quindi ulteriori cost i. Nel caso della scelt a degli in vestimenti pubblici, ad esempio, può risultare impossibile o estremamente costosa una dilazione nell'inizio dei lavori almeno per due ragioni, una legata a motivi di natura strettamente polit ica, l'altra di carattere prevalentemente tecnico. Infatti, basta pensare, all'urgenza di certe opere a carattere sociale, relativamente al primo caso, e al fatto che dal momento in cui le informazioni vengono acquisite al momento in cui una decisione d'investimento diviene operativa la situazione reale di riferimento può essere notevolmente mutata, relativamente al secondo caso. Riassumendo, in mer it o al problema dell'acquisizio ne di ulteriori informazioni si devono distinguere almeno tre fatti: 1. che l'indagine comporta un costo e. che non è noto con certezza fino a che punto tale costo sarà compensato dalle informazioni aggiuntive; 2. che per l'effettuazione dell'indagine, in genere, si può disp orre di un arco di tempo limitato; 3. che la decisione d'acquisire ulteriori informazioni deve essere presa a priori. Da quanto scritto ai punt i 1 e 2 si capisce immediatamente come un'indagine del genere debba avere quasi necessariamente carattere campionario. Va sottolineato il fatto che le informazioni aggiuntive possono essere utilizzate, oltre che per modificare la distribuzione delle pro babilità sugli stati di natura, anche per modificare l'insieme delle conseguenze o la forma della funzione di utilità. Nelle pagine successive verrà descritto sommariamente il pro blema dell'acquisizione di ulteriori informazioni attraverso indagini campionarie, discutendo alcune procedure attraverso le quali può essere stabilito un piano di campionamento ottimo in funzio ne di un problema decisionale, nei termini espost i nel paragrafo precedente. Poiché qui ci si limiterà, come già detto, a considerare il caso in cui i dati campionari vengono utilizzati dall'operatore per mo dificare la distribuzione della probabilità sugli stati di natura, quando si parlerà di piano di campionamento ottimo, l'ottimalità andrà riferita a tale aspetto del problema decisionale. La bontà di un campionamento viene misurata attraverso il confronto tra l'ut ilit à/perdita attesa calcolat a facendo us o dei dat i aggiuntivi, e l'utilità/perdita attesa ottenibile senza campionamento. In altri termini, se l'utilità attesa relativa all'azione migliore, calcolata utilizzando le informazioni campionarie e detraendo il costo sopportato è superiore all'ut ilit à attesa relativa alla migliore azione senza l'uso dei dat i campionari, allora ci si 400 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 troverà in condizioni tali per le quali il costo del campionamento è più che compensato dalla r iduzione dello stato d'incertezza in cui si è costrett i ad operare; si procederà quindi all'effettuazione dell'indagine. Un secondo problema relativo al campionamento (il primo è quello di deciderne l'effettuazione) riguarda la dimensione campionaria. Evidentemente, più si aumenta la dimensione del campione, maggiori saranno le informazioni disponibili; d'altra parte ad una più elevata riduzione dello stato d'incertezza cor risponderà un costo più elevato. Il piano di campionamento ottimo sarà quello che massimizza l'utilità attesa alla luce di questi due effetti contrastanti. In termini marginalist ici si può affermare che la dimensione del campione va aument ata fino a quando il costo di un’unità d'informazione addizionale bilancia l'incremento/decremento nell'utilità/perdita attesa (costo marginale pari all'utilità marginale). Prima di procedere alla trattazione puntuale del problema del campionamento conviene introdurre ulteriori concetti che si riveleranno di grande utilità nel corso dell’esposizione. Si tratta essenzialmente di due concetti: il valore atteso dell’informazione perfetta (expexted value of perfect information EVPI); il valore atteso dell’informazione campionaria ( expexted value of sample information EVSI). Il valore atteso dell’informazione perfetta viene è dato dalla differenza tra l’utilità o la perdita attesa che corrisponde all’azione ottima, cioè quella cui corrisponde la massima utilità attesa o la minima perdita attesa e l’utilità o perdita attesa calcolata ipotizzando la conoscenza perfetta dello stato di natura, Se il decisore sa che lo stato di natura è 1 lo stesso non avrà alcuna difficoltà ad individuare l’utilità/perdita corrispondente l’azione migliore, allo stesso modo può procedere in corrispondenza di tutti gli altri stati di natura 2 , 3 , ... , j , ... , n . Se si indica con l * j min l ai , j la perdita minima corrispondente a ciascun stato di natura, si i potrà procedere al computo della perdita attesa in situazione di incertezza ma sotto l’ipotesi di perfetta informazione a*p argmin a l * f Ricordando che l’azione migliore in situazione di incertezza è data dalla relazione l a, f a argmin a il valore atteso dell’informazione perfetta è espresso da EVPI = a*p a * argmin a l * f - argmin l a, f a Nel paragrafo precedente oltre ad aver dimostrato l’equivalenza tra forma normale e forma estensiva, quando nei problemi decisionali si può disporre sia di informazioni a 401 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 priori che di informazioni campionarie, è stata individuata come azione ottimale quella che risulta dalla relazione a argmin a l a, f / x , a questo punto è possibile definire il valore atteso dell’informazione campionaria (EVSI) che si ottiene, semplicemente, calcolando la differenza tra la perdita attesa basata sulle probabilità a priori e la perdita attesa basata sulle probabilità a posteriori, cioè EVSI a a argmin a l a, f argmin a l a, f / x Come già sottolineato qualunque rilevazione campionaria comporta un costo che può essere definito dalla relazione C n C f n Cv dove il costo totale del campionamento è costituito da una quota fissa più una quota variabile il cui ammontare dipende dalla dimensione campionaria. Pertanto il guadagno atteso netto associato alla rilevazione campionaria (expected net gain from sampling ENGS) è dato da ENGS EVSI C n EVSI C f Cv n EVSI C f n Cv dove l’ultimo membro dell’ultima espressione è la traduzione della funzione di costo nell’ipotesi di linearità del costo stesso. Ovviamente, la dimensione campionaria ottima è quella cui corrisponde il massimo valore ENGS 0 ; inoltre, C max EVPI . Se si riportano in un grafico alcune delle quantità sopra definite si perviene ad una figura del tipo di quella di seguito riportata (cfr. Fig. 7.3), dove, per l’ipotesi di linearità, il costo marginale del campionamento è costante, mentre la perdita attesa marginale dopo il campionamento è supposta decrescente. Un ulteriore grafico (cfr. Fig. 7.4) consente la visione e l’incidenza di altri elementi rilevanti nello svolgimento dei processi decisionali. 402 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Perdita attesa senza campionamento a min a l a, f Perdita totale attesa = a + C(n) Perdita totale attesa minima Costo del campionamento = C(n) Dimensione campionaria ottima Fig. 7.3 - Effetto del costo di campionamento e perdita attesa in corrispondenza della dimensione campionaria ottima. EVPI EVSI Costo del campionamento = C(n) ENGS Dimensione campionaria ottima Dimensione campionaria Fig. 7.4 - Valore atteso dell’informazione perfetta, valore atteso dell’informazione campionaria e guadagno netto atteso 403 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Ad illustrazione di quanto detto si riprenda in considerazione il problema decisionale di procedere o meno alla perforazione. La tabella di perdita relativa a questo problema già considerata in precedenza è quella sotto riportata dove è stata aggiunta la probabilità a priori sugli stati di natura e la perdita attesa in corrispondenza delle due azioni. Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio P 2 0, 45 P 1 0,55 Perdita attesa 0 600 270 300 0 165 Tab. 7.18 - Tavola di decisione: problema di trivellazione con perdite come conseguenze Sulla scorta delle sole informazioni a priori il decisore sceglierà l’azione a 2 cui corrisponde la perdita minore. Comunque il decisore, non completamente convinto dei valori assegnati alle probabilità a priori potrebbe decidere di acquisire ulteriori informazioni. In precedenza è stata esaminata la possibilità di acquisire informazioni sullo stato di natura impiegando dei sismografi a costo zero. Ma come più volte sottolineato qualunque rilevazione campionaria comporta un costo: nel caso specifico si ipotizza una funzione di costo lineare senza costi fissi C n n 10 , cioè l’uso di un sismografo costa 10 $, 2 sismografi (indipendenti) costano 20, ecc. ; ovviamente in questo caso la dimensione campionaria non potrà superare le 16 unità, con 17 unità si andrebbe incontro ad un costo superiore al vantaggio conseguibile. Nella tavola che segue sono riportate le probabilità che ha un sismografo di segnalare assenza o presenza di petrolio. Segnalazione del sismografo Assenza di petrolio Presenza di petrolio Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio 0.6 0.4 0.3 0.7 Tab. 7.19 – Probabilità dell’esito del sismografo condizionato allo stato di natura Tenendo conto di tali probabilità il decisore che intende acquisire ulteriori informazioni può perseguire due diverse vie, la prima, che è sicuramente la più efficiente ma non di facile attuazione, consiste nel procedere all’acquisizione di una informazione campionaria per decidere sulla scorta dell’evidenza acquisita se proseguire nel campionamento o operare la scelta definitiva. La seconda via è quella della effettuazione di un’analisi completa, detta analisi a preposteriori, che consente la individuazione della dimensione campionaria ottimale. 404 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 I due possibili esiti dell’utilizzo di un sismografo sono x = 0 (assenza di petrolio) oppure x = 1 (presenza di petrolio) con le relative probabilità: P X 0 PX 0 / 1 P 1 PX 0 / 2 P 2 0,6 0,55 0,3 0,45 0,465 P X 1 PX 1 / 1 P 1 PX 1 / 2 P 2 0,4 0,55 0,7 0,45 0,535 Ricordando la formula di Bayes f x / f f / x f x / f P1 / X 0 P1 / X 1 PX 0 / 1 P 1 0,6 0,55 0,71 PX 0 / 1 P 1 PX 0 / 2 P 2 0,6 0,55 0,3 0,45 PX 1 / 1 P 1 0,4 0,55 0,41 PX 1 / 1 P 1 PX 1 / 2 P 2 0,4 0,55 0,7 0,45 P 2 / X 0 1 P1 / X 0 1 0,71 0,29 P 2 / X 1 1 P1 / X 1 1 0,41 0,59 Si può ora riproporre la tabella di decisione inserendo le probabilità a posteriori Stato di natura assenza di 2 :presenza 1 : Azioni petrolio P 1 / 0 0, 71 petrolio P 2 / 0 0, 29 P 1 /1 0, 41 P 2 /1 0,59 P X 0 0, 465 P X 1 0,535 di Perdita attesa a1 : non perforare 0 600 X =0 174 a1 : non perforare 0 600 X=1 354 a 2 : perforare 300 0 X =0 213 a 2 : perforare 300 0 X=1 123 Tab. 7.20 – Perdita attesa condizionata per un campione di dimensione 1 Come si desume dalla Tab. 7.20 se l’esito campionario è X = 0, l’azione migliore è a1 non perforare (perdita attesa 174), se invece l’esito campionario è X = 1, l’azione migliore è a 2 perforare (perdita attesa 123). L’analisi a preposteriori fornisce gli elementi per decidere se procedere all’acquisizione dell’informazione (utilizzo di un sismografo del costo di 10$). La perdita attesa non condizionata è data da a min a l a, f / x 174 0,465 123 0,535 146,72 . 405 B. Chiandotto Inferenza statistica 7. Teoria statistica delle decisioni Versione 2015 Confrontando questa perdita con quella calcolata in corrispondenza della migliore azione in assenza di informazioni campionarie si ha EVSI a a 165 146,72 18,18 Se il decisore ritiene di dover proseguire nell’analisi a preposteriori e quindi procedere all’utilizzo di due sismografi si otterrebbero i seguenti risultati. Si precisa che si limiterà a riportare soltanto i valori relativi alle azioni ottimali in corrispondenza dei diversi risultati campionari. Le probabilità a posteriori sono date da P1 / X 0 0,83; P1 / X 1 0,58; P1 / X 2 0,29 P 2 / X 0 0,17; P 2 / X 1 0,42; P1 / X 2 0,71 e le perdite attese condizionate corrispondenti alle azioni ottimali sono a 0 102 a 1 174 a 2 87 Tenendo presente che P X 0 0,2385 , P X 1 0,4530 , P X 2 0,308 , la perdita attesa non condizionata è pari a $ 129,99. EVSI a a 165 129,99 35,01 ENGS = EVSI-C(2) = 35,01 – 20 =15,01. La conclusione è che risulta conveniente procedere nell’utilizzo di due sismografi. Ad analoga conclusione si perviene se si prevede l’utilizzo di tre sismografi; infatti la perdita attesa ottimale non condizionata dell’esito campionario è pari a $ 116,40, quindi EVSI a a 165 116,40 55,54 ENGS = EVSI-C(3) = 55,54 – 40 =18,60. Se si procede all’analisi ipotizzando l’utilizzo di 4 sismografi si perviene ad una conclusione diversa; infatti, la perdita attesa ottimala non condizionata dell’esito campionario è pari a $ 109,46, quindi EVSI a a 165 109,46 55,54 ENGS = EVSI-C(3) = 55,54 – 40 =15,54. Come si può rilevare il guadagno che si consegue in corrispondenza di un campione di dimensione n = 4 è inferire a quello accertato per n= 3 (15,54 contro 18,60), si accerta cioè una riduzione del vantaggio marginale dato dal campionamento, il che porta a fissare la dimensione ottima in n = 3. 406 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Riferimenti bibliografici Riferimenti bibliografici Aitkin M. (2010). Statistical Inference: An Integrated Bayesian/Likelihood Approach, Chapman & Hall/CRC Azzalini A. (1996). Statistical Inference Based on the Likelihood, Chapman & Hall. Barnard G.A. (1949). Statistical inference, JRSS, Series B, 11. Barnard G.A. (1985). Statistical inference. In Encyclopedia of Statistica Science, Vol. 6, Kotz S. e Johnson M.L. (eds). Barndorff-Nielsen (1976). Plausibilty Inference, JRSS, Series B, 38. Barnett V. (1999). Comparative Statistical Inference, Wiley. Berger (1985). Statistical Decision Theory and Bayesian Analysis, Springer. Berger J.O., Bernardo J.M. e Sun D. (2009). The formal definition of reference priors, The Annals of Statistics, Vol. 37, n.2. Bernardo, J. M. (1997). Noninformative priors do not exist: A discussion, J. Statistics Planning and Inference 65. Birnbaum A. (1962) On the foundation of statistical inference, JASA, 57. Box G:E.P. (1979). Robustness in the Strategy of Scientific Model Building, in Robustness in Statistics, Launer R.L. e Wilkinson G.N. (eds.), Academic Press. Casella G. e Berger R.L. (2002). Statistical Inference, 2nd ed., Duxbury. Chiandotto B. (1978). L’approccio bayesiano empirico alla problematica dell’inferenza statistica, in I fondamenti dell’inferenza statistica. Atti del Covegno, Firenze 28-30 aprile 1977. Dipartimento Statistico dell’Università di Firenze. Chiandotto B. e Bacci S. (2004). Decisioni razionali per il governo dell’università, un prerequisito essenziale: la teoria dell’utilità, Università degli Studi di Firenze. Chiandotto B., Bacci S. e Bertaccini B. (2004). I laureati e diplomati dell’Ateneo Fiorentino dell’anno 2000: Profilo e sbocchi occupazionali, http://valmon.disia.unifi.it/index.php?idp=P9. Università degli Studi di Firenze. 407 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Riferimenti bibliografici Chiandotto B. (2012). Statistica, Causalità e teoria delle Decisioni, http://local.disia.unifi.it/chiandot/INF_STAT/Dispense/Letture/STATISTICA%20CAUSALITA%20e%20T EORIA%20delle%20DECISIONI.pdf. Chiandotto B. (2013). Bayesian and non-bayesian approaches to statistical inference: a personal view in “Selected Issues in Statistical Methods and Applications in an Historical Perspective”, Studies in Theoretical and applied Statistics, Springer-Verlag. Cox D.R. (1958). Some problems connected with statistical inference. Ann. Math. Stat. 29. Dawid, A.P. (1984). Present position and potential developments: some personal views. Statistical theory. The prequential approach. JRSS, Series A, 147. Dawid, A.P. (1997). Prequential analysis. In Encyclopedia of Statistical Sciences, Kotz S., Read C.B. e Banks D.L. (eds), Wiley. Dawid A. P. (2000). Causal inference without counterfactuals, JASA 95. DeGroot M. (1970). Optimal statistical decisions, McGraw-Hill. Edwards A.W.F. (1972). Likelihood, Cambridge, University Press, 2nd ed. 1992. Ferguson T.S. (1967). Mathematical statistics: a decision theoretic approach, Academic Press. Fisher R.A. (1930). Inverse Probability. Proc. Camb. Phil. Soc., 26. Fisher R.A. (1935). The logic of Inductive inference, JRSS. 98. Fisher R.A. (1956). Statistical Method and Scientific Inference. Oliver and Boyd. Fraser D.A.S.(1968). The Structure of Inference, Wiley. Geisser (1993). Predictive Inference: An Introduction, Chapman & Hall. Gelman A., Carlin J., Stern H., Dunson D., Vehtari A., e Rubin D. (2013). Bayesian Data Analysis, 3rd ed., Chapman and Hall/CRC. Gini C. (1911).Considerazioni sulle probabilità a posteriori e applicazioni l rapporto dei sessi nelle nascite umane, Studi Economico-Giuridici dell’Università di Cagliari, ristampato in Metron, Vol. XV, 1949. Gini C. (1939). I pericoli della statistica, Atti della I Riunione della Società Italiana di Statistica. Gini C. (1943). I test di significatività, Atti della VII Riunione della Società Italiana di Statistica. Goldstein M. (2006). Subjective Bayesian Analysis: Principles and Practice, Bayesian Analysis, n. 3. Hanning J. (2009). On Generalized Fiducial Inference, Statistica Sinica, 19. Jenkinson D. (2005). The Elicitation of Probabilities - A review of the Statistical Literature, http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.106.6173&rep=rep1&type=pdf. 408 Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie INFERENZA STATISTICA (Note didattiche) Bruno Chiandotto Versione 2015 Riferimenti bibliografici Joyce J. (1999). The Foundations of Causal Decision Theory, Cambridge University Press. Kass R.E. e Wasserman L.A. (1996). The selection of prior distributions by formal rules, Journal of the American Statistical Association, 91. Keener R.W. (2010). Theoretical Statistics, Springer. Khuri A.I. (2003). Advanced Calculus with Applications in Statistics, Wiley. Kolmogorov A.N. (1956). Foundations of the Theory of Probability, 2nd ed., Chelsea Publishing Company. Lindley D.V. (1965). Introduction to Probability and Statistics from a Bayesian Viewpoint, Part 1: Probability, Part 2: inference, Cambridge University Press. Lindley D. V. (2006). Understanding Uncertainty. J. Wiley. NcCullagh P. e Nelder J.A. (1989). Generalized Linear Models, 2d ed., Chapman & Hall/CRC. Olive D. (2014). Statistical Theory and Inference, Springer. Piccinato L. (1996). Metodi per le decisioni statistiche, Springer. Pompilj G. (1951a). Lineamenti di una teoria della persuasione, Archimede, 3. Pompilj G. (1951b). Logica della conformità, Archimede, 4. Raiffa H. e Schlaifer R. (1961). Applied Statistical Decision Theory, Administration, Harvard University. Graduate School of Business Robert C.P. (2007). The Bayesian Choice: From Decision-Theoretic Foundations to Computational Implementation, 2nd ed., Springer. Rohatgi V.K. e Saleh E. (2011). An Introduction to Probability and Statistics, 2nd ed., Wiley. Royall R. (1997). Statistical Evidence: a Likelihood Paradigm, Chapman & hall. Royden H.L. (1963). Real Analysis, MacMillan. Savage L.J. (1951). The theory of statistical decision, JASA, 46. Savage L.J. (1954). The Foundations of Statistics, Wiley. Smith C.A.B. (1961). Consistency in Statistical Inference and Decision, Journal of the Royal Statistical Society, Series B, Vol. 23, n. 1. Vitali G. (1905). Sul problema della misura dei gruppi di punti di una retta, Tip. Gamberini e Parmeggiani. Wald A. (1950). Statistical Decision Functions, Wiley. 409