Marco Di Marzio Primi elementi di inferenza statistica Ringraziamenti Un sentito ringraziamento a Fabiola Del Greco e Agnese Panzera per la preziosa collaborazione. Indice 1 Probabilità 1.1 Esperimenti casuali . . . . . . . . . . . . 1.2 Algebra degli eventi . . . . . . . . . . . 1.3 Probabilità e sue concezioni . . . . . . . 1.4 Assiomi della probabilità . . . . . . . . . 1.5 Probabilità condizionata e indipendenza 1.6 Proprietà degli eventi indipendenti . . . 1.7 Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Esercizi svolti 12 3 Variabili casuali semplici 3.1 Variabili casuali . . . . . . . . . . . . . . . 3.2 Distribuzioni di probabilità . . . . . . . . 3.3 Famiglie parametriche . . . . . . . . . . . 3.4 Funzioni di ripartizione . . . . . . . . . . 3.5 Variabili casuali identicamente distribuite 3.6 Moda . . . . . . . . . . . . . . . . . . . . 3.7 Quantili . . . . . . . . . . . . . . . . . . . 3.8 Valore atteso . . . . . . . . . . . . . . . . 3.9 Varianza . . . . . . . . . . . . . . . . . . . 3.10 Coefficiente di variazione . . . . . . . . . . 3.11 Disuguaglianza di Chebyshev . . . . . . . 3.12 Variabili casuali standardizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Esercizi svolti 5 Principali variabili casuali discrete 5.1 Tre esperimenti casuali fondamentali 5.2 Variabile casuale binomiale . . . . . 5.3 Variabile casuale geometrica . . . . . 5.4 Variabile casuale ipergeometrica . . 5.5 Variabile casuale di Poisson . . . . . 1 1 3 5 6 7 9 10 19 19 21 23 23 25 25 25 26 27 29 30 31 32 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 37 38 39 40 41 6 Esercizi svolti 43 7 Principali variabili casuali continue 7.1 Esperimenti casuali descritti da variabili casuali 7.2 Variabile casuale normale . . . . . . . . . . . . 7.3 Variabile casuale normale standard . . . . . . . 7.4 Variabile casuale uniforme . . . . . . . . . . . . 7.5 Variabile casuale esponenziale . . . . . . . . . . 46 46 46 47 49 50 8 Esercizi svolti M. Di Marzio continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 iii Primi elementi di inferenza statistica (ed. maggio 2012) Indice 9 Variabili casuali multiple 9.1 Variabili casuali multiple e distribuzioni di 9.2 Funzioni di variabile casuale multipla . . . 9.3 Distribuzioni di probabilità marginali . . . 9.4 Distribuzioni di probabilità condizionate . 9.5 Variabili casuali indipendenti . . . . . . . 9.6 Covarianza . . . . . . . . . . . . . . . . . 9.7 Correlazione . . . . . . . . . . . . . . . . . 9.8 Indipendenza e incorrelazione . . . . . . . 9.9 Distribuzione normale doppia . . . . . . . probabilità congiunte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 Esercizi svolti 56 56 58 59 60 63 64 65 66 66 69 11 Funzioni di variabili casuali 11.1 Somma di variabili casuali . . . . . . . . . . . . . . 11.2 Distribuzioni del minimo e del massimo di variabili 11.3 Variabili casuali che derivano dalla normale . . . . 11.4 Somme di particolari variabili casuali indipendenti 11.5 Teorema centrale del limite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 78 80 82 83 84 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . campioni casuali gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 87 88 89 91 93 93 94 95 96 13 Verosimiglianza e sufficienza 13.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.3 Statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 97 98 99 . . . . casuali . . . . . . . . . . . . 12 Popolazione e campionamento 12.1 Popolazione, campione e inferenza . . . . . . . . . . . . . 12.2 Popolazione come pdf parametrica . . . . . . . . . . . . . 12.3 Campione casuale e osservato . . . . . . . . . . . . . . . . 12.4 Statistiche campionarie . . . . . . . . . . . . . . . . . . . 12.5 Media campionaria: valore atteso e varianza . . . . . . . . 12.6 Media campionaria: funzione di densità . . . . . . . . . . 12.7 Valore atteso della varianza campionaria . . . . . . . . . . 12.8 Funzione di densità della varianza campionaria nel caso di 12.9 Altre statistiche calcolate su campioni casuali gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Esercizi svolti 15 Stima 15.1 Il problema della stima . . . . . 15.2 Proprietà degli stimatori . . . . 15.3 Proprietà per piccoli campioni . 15.4 Proprietà per grandi campioni . 15.5 Costruzione degli stimatori . . 103 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Esercizi svolti 117 17 Stima per intervalli 17.1 Il problema della stima per intervalli . . . . . . . 17.2 Definizione di quantità pivotale . . . . . . . . . . 17.3 Quantità pivotali nel caso di popolazione normale 17.4 Quantità pivotali nel caso di grandi campioni . . 17.5 Costruzione di stimatori per intervalli . . . . . . 17.6 Intervalli di confidenza per la media . . . . . . . 17.7 Numerosità campionaria per la stima della media 17.8 Intervalli di confidenza per la proporzione . . . . 17.9 Intervalli di confidenza per la varianza . . . . . . 17.10Proprietà degli stimatori intervallari . . . . . . . 18 Esercizi svolti Primi elementi di inferenza statistica (ed. maggio 2012) 107 107 108 109 112 114 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 122 123 123 124 125 125 126 127 127 127 129 iv M. Di Marzio INDICE 19 Verifica d’ipotesi 19.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . . 19.2 Il test statistico . . . . . . . . . . . . . . . . . . . 19.3 Accuratezza del test statistico . . . . . . . . . . . 19.4 Costruzione del test statistico . . . . . . . . . . . 19.5 Verifica d’ipotesi sulla media . . . . . . . . . . . 19.6 Verifica di ipotesi sulla differenza tra medie . . . 19.7 Verifica di ipotesi nel caso di grandi campioni . . 19.8 Verifica d’ipotesi sulla proporzione . . . . . . . . 19.9 Verifica d’ipotesi sulla differenza tra proporzioni 19.10Verifica di ipotesi sulla varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 Esercizi svolti 21 Test Chi-quadrato 21.1 Formulazione generale 21.2 Test di conformità . . 21.3 Test di indipendenza . 21.4 Test di omogeneità . . 134 134 135 137 139 141 142 143 143 144 144 146 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 155 156 158 159 22 Esercizi svolti 162 23 Predizione 23.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 169 170 171 24 Inferenza su medie condizionate 24.1 Stima . . . . . . . . . . . . . . . 24.2 Proprietà degli stimatori B0 e B1 24.3 Stime intervallari e test su β1 . . 24.4 Test di linearità . . . . . . . . . . 175 175 179 181 182 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 Esercizi svolti 184 26 Affidabilità 26.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . 26.2 Andamenti tipici del tasso di guasto . . . . . . . . . 26.3 Tasso di guasto di alcune variabili casuali continue . 26.4 Stima della durata media . . . . . . . . . . . . . . . 26.5 Sistemi complessi . . . . . . . . . . . . . . . . . . . . 26.6 Sistemi in serie . . . . . . . . . . . . . . . . . . . . . 26.7 Sistemi in parallelo . . . . . . . . . . . . . . . . . . . 26.8 Sistemi in serie con parti positivamente correlate . . 26.9 Sistemi in parallelo con parti positivamente correlate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 Esercizi svolti A Analisi matematica A.1 Insiemi . . . . . . . . . . . . . . . . . A.2 Estremo superiore, estremo inferiore, A.3 Intervalli di numeri reali . . . . . . . A.4 Valore assoluto . . . . . . . . . . . . A.5 Simboli di sommatoria e produttoria A.6 Doppia sommatoria . . . . . . . . . . A.7 Lo spazio Rn . . . . . . . . . . . . . A.8 Funzioni . . . . . . . . . . . . . . . . A.9 Funzioni esponenziale e logaritmo . . A.10 Funzioni limitate . . . . . . . . . . . A.11 Limiti di funzioni e continuità . . . A.12 Derivata di una funzione . . . . . . . M. Di Marzio 194 194 195 196 198 200 200 201 201 202 203 . . . . . massimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v . e . . . . . . . . . . . . . . . minimo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 209 210 211 211 211 212 213 213 214 215 216 217 Primi elementi di inferenza statistica (ed. maggio 2012) Indice A.13 Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 A.14 Integrali indefiniti e integrali definiti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218 A.15 Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220 B Calcolo combinatorio 222 B.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 C Tavole statistiche 224 D Elenco delle abbreviazioni e dei simboli 231 Primi elementi di inferenza statistica (ed. maggio 2012) vi M. Di Marzio 1 Probabilità Indice 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.1 Esperimenti casuali . . . . . . . . . . . . . Algebra degli eventi . . . . . . . . . . . . . Probabilità e sue concezioni . . . . . . . . Assiomi della probabilità . . . . . . . . . . Probabilità condizionata e indipendenza Proprietà degli eventi indipendenti . . . . Formula di Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 3 5 6 7 9 10 Esperimenti casuali Spesso è necessario formulare previsioni su esiti di esperimenti (se prodotti dall’ uomo) o fenomeni (se presenti in natura). In generale il complesso degli esiti possibili è noto, ma quale esito in particolare si verificherà non è dato saperlo con certezza. Di tali situazioni aleatorie si occupa il calcolo delle probabilità. Per esso, come per ogni altro campo della scienza, esiste uno specifico linguaggio formalizzato. Così l’insieme di tutti i possibili esiti è detto spazio fondamentale ed è indicato con Ω, mentre il singolo esito è detto evento elementare e viene indicato con ω: Ω = {ω1 , ω2 , ...} , a seconda dell’esperimento o fenomeno che viene rappresentato, lo spazio fondamentale Ω può contenere un numero finito o infinito di eventi elementari. Infine qualunque sottoinsieme di Ω si definisce evento. Esempio 1.1. Si osservi il numero risultante dal lancio di un dado. Definire Ω e gli eventi E = numero pari ; F = numero non maggiore di 4 ; G = numero non minore di 5 ; H = numero multiplo di 3 . Si ha: Ω = {1, 2, 3, 4, 5, 6} ; E = {2, 4, 6} ; F = {1, 2, 3, 4} ; G = {5, 6} ; H = {3, 6} . Esempio 1.2. Da un mazzo di 40 carte napoletane se ne estrae una. I semi sono: B, C, D, S. Individuare gli eventi: I = asso ; L = carta minore di 3 che non abbia seme C ; M = carta del seme D . Si ha: I = {1B, 1C, 1D, 1S} ; L = {1B, 1D, 1S, 2B, 2D, 2S} ; M = {1D, 2D, 3D, 4D, 5D, 6D, 7D, 8D, 9D, 10D} . I concetti di esperimento o fenomeno prima considerati possono essere descritti da un modello formale detto esperimento casuale. L’esperimento casuale si definisce come una procedura di osservazione di uno solo degli elementi di uno spazio fondamentale Ω tale che: M. Di Marzio 1 Primi elementi di inferenza statistica (ed. maggio 2012) 1.1. Esperimenti casuali 1) l’elemento di Ω che verrà osservato, detto esito, non è prevedibile con certezza; 2) l’esperimento casuale è replicabile nelle stesse condizioni anche infinite volte. L’eperimento è definito casuale e non deterministico proprio perchè, sebbene ripetuto nelle identiche condizioni, esso fornisce di volta in volta esiti differenti che sono dettati dal caso. Una singola replica dell’esperimento è detta prova. In statistica il concetto di esperimento casuale serve a formalizzare la rilevazione di un carattere statistico. In questo caso Ω è l’insieme delle possibili modalità del carattere. La prova dell’esperimento è l’estrazione di una unità dalla popolazione e la rilevazione sulla stessa della modalità del carattere. Infine la modalità osservata costituisce l’esito. Esempio 1.3. Rileviamo il contenuto di cellulosa di 100 sacchetti ad alta resistenza estratti dalla massa prodotta dal nostro impianto durante la mattinata. Il carattere statistico è il contenuto di cellulosa 1 , e le 100 misurazioni sono altrettante prove di un esperimento casuale. Affinché in una prova si verifichi un evento è necessario che l’evento elementare che risulterà sia contenuto nell’ evento stesso. Allora Ω si verifica ad ogni prova poiché è l’insieme di tutti i possibili esiti. In quanto tale, Ω è anche detto evento certo. Esempio 1.4. Con riferimento all’esempio 1.1, nella tavola seguente sono riportati gli eventi che si verificano in corrispondenza di ogni evento elementare. ω Eventi 1 Ω, F 2 Ω, E, F 3 Ω, F , H 4 Ω, E, F 5 Ω, G 6 Ω, E, G, H Consideriamo due prove di un esperimento casuale con spazio fondamentale Ω1 . L’esito di tale esperimento ripetuto è dato da una coppia di valori, e lo spazio fondamentale, chiamato spazio prodotto, è costituito da tutte le possibili coppie di elementi di Ω1 , cioè il prodotto cartesiano (sez. A.7) tra Ω1 e se stesso: Ω = Ω1 × Ω1 = {(ωi , ωj ) : ωi ∈ Ω1 , ωj ∈ Ω1 }. Esempio 1.5. Si consideri l’esperimento casuale ‘lancio di due dadi’. Elencare gli elementi dello spazio fondamentale Ω. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4), (3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1), (6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}. In generale, per k ripetizioni dell’esperimento abbiamo: k fattori z }| { Ω = Ω1 × Ω1 × ... × Ω1 = {(ω1 , ω2 , ..., ωk ) : ωi ∈ Ω1 , ∀ i ∈ {1, 2, ..., k}}. Esempio 1.6. Dalla fornitura di lampadine appena consegnataci scegliamo a caso un elemento. Si indichi l’evento ‘lampadina difettosa’ con D, e l’evento contrario con N. Elencare gli elementi dello spazio fondamentale Ω relativo all’esperimento casuale ‘estrazione di 3 lampadine’. Ω = {D, N } × {D, N } × {D, N } = {DDD, N DD, DN D, DDN, N N D, DN N, N DN, N N N } . Si può immaginare anche che i singoli esperimenti siano tra loro differenti, cioè si possono eseguire consecutivamente n esperimenti casuali ognuno con uno specifico spazio fondamentale Ωi con i = 1, 2, ..., n. La n-upla di esiti è ancora elemento di uno spazio fondamentale prodotto che si indica come: Ω = Ω1 × Ω2 × ... × Ωn = {(ω1 , ω2 , ..., ωn ) : ωi ∈ Ωi , ∀ i ∈ {1, 2, ..., n}} . 1 di cui ovviamente conosciamo l’intervallo delle possibili modalità che in questo caso costituisce lo spazio fondamentale Ω. Primi elementi di inferenza statistica (ed. maggio 2012) 2 M. Di Marzio 1. PROBABILITÀ 1.2 Algebra degli eventi Poichè un evento è un insieme di eventi elementari, le relazioni tra eventi possono essere descritte per mezzo di operazioni logiche tra insiemi. Dato un generico spazio fondamentale Ω e i suoi sottoinsiemi {E1 , E2 , ...}, definiamo le seguenti operazioni (o relazioni) logiche: 1. Inclusione Un evento E1 è incluso in un evento E2 , cioè E1 ⊂ E2 , se tutti gli eventi elementari in E1 sono anche esiti elementari in E2 ; si dice anche che E1 implica E2 . 2. Uguaglianza Gli eventi E1 e E2 sono uguali, cioè E1 = E2 , se E1 ⊂ E2 e E2 ⊂ E1 . 3. Negazione (o complemento) Consiste di eventi elementari non appartenenti all’evento che viene negato: ω ∈ E1 se e solo se ω ∈ / E1 . Si dice anche che E1 è il complemento di E1 . ∪k 4. Unione Consiste di eventi elementari che appartengono ad almeno uno dei k eventi uniti: ω ∈ i=1 Ei se esiste almeno un indice i ∈ {1, 2, ..., k} tale che ω ∈ Ei . ∩k 5. Intersezione Consiste di eventi elementari che appartengono a tutti i k eventi intersecati: ω ∈ i=1 Ei se ω ∈ Ei ∀ i ∈ {1, 2, ..., k}. Si noti che spesso per l’intersezione vengono usate differenti notazioni; ad esempio, E1 ∩ E2 , può trovarsi indicato anche come E1 E2 oppure E1 , E2 . 6. Differenza La differenza tra due eventi E1 e E2 consiste di eventi elementari appartenenti a E1 che non sono in E2 : ω ∈ (E1 − E2 ) se e solo se ω ∈ (E1 ∩ E2 ). Un evento particolare è il cosiddetto evento impossibile, definito come la negazione di Ω e indicato con ∅. Poichè ∅ = Ω, l’evento impossibile non contiene alcun evento elementare, così, qualsiasi esito risulterà, mai si verificherà ∅, da cui il nome. Per E ⊂ Ω, si ha E ∩ ∅ = ∅, E ∪ ∅ = E, E = Ω − E, E ∩ E = ∅, E ∩ Ω = E, E ∪ Ω = Ω, Ω = E ∪ E, E = E. Dati gli eventi E1 , E2 e E3 appartenenti a Ω, le operazioni di intersezione, unione e negazione soddisfano le seguenti leggi. Leggi commutative: E1 ∩ E2 = E2 ∩ E1 , E1 ∪ E2 = E2 ∪ E1 . Leggi associative: E1 ∪ (E2 ∪ E3 ) = (E1 ∪ E2 ) ∪ E3 , E1 ∩ (E2 ∩ E3 ) = (E1 ∩ E2 ) ∩ E3 . Leggi distributive: E1 ∪ (E2 ∩ E3 ) = (E1 ∪ E2 ) ∩ (E1 ∪ E3 ), E1 ∩ (E2 ∪ E3 ) = (E1 ∩ E2 ) ∪ (E1 ∩ E3 ). Prima legge di De Morgan: E1 ∩ E2 = E1 ∪ E2 . Seconda legge di De Morgan: E1 ∪ E2 = E1 ∩ E2 . Nella figura 1.2 possiamo osservare una rappresentazione delle leggi di De Morgan tramite diagrammi di Venn. Se si considera tutta la parte scura si evince la prima legge, mentre se si considera solo la parte a quadretti si evince la seconda legge. Due eventi E1 e E2 si dicono incompatibili se E1 ∩ E2 = ∅. Una classe importante di eventi tra loro incompatibili è rappresentato dagli eventi elementari {ω1 , ω2 , ...} di un esperimento casuale. Una classe di sottoinsiemi {E1 , E2 , ..., Ek } dell’insieme A è detta partizione di A se k ∪ Ei = A e Ei ∩ Ej = ∅ ∀ i ̸= j. i=1 La figura 1.1 contiene esempi di relazioni tra eventi rappresentate con diagrammi di Venn. Nella tabella 1.1 riassumiamo alcuni interessanti casi della corrispondenza tra la terminologia della teoria degli insiemi, quella della probabilità e quella del mondo reale da noi descritto come esperimento casuale. M. Di Marzio 3 Primi elementi di inferenza statistica (ed. maggio 2012) 1.2. Algebra degli eventi Figura 1.1: Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn. 111111 000000 000000 111111 000000 111111 000000 111111 000000 111111 A=111111 000000 000000 111111 111111 000000 000000 111111 000000 111111 111111111 000000000 000000000 111111111 000000000 111111111 000000000 B= 111111111 000000000 111111111 Α A 111111 000000 000000 111111 000000 111111 000000 B=111111 000000 111111 111111111111111111111111111111111111111111 000000000000000000000000000000000000000000 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 B 00000000000000 11111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 A 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 00000000000000 11111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 00000000000000 11111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 0000000000000000000000000000000 1111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 000000000000000000000000000000000000000000 111111111111111111111111111111111111111111 Ω Figura 1.2: Leggi di De Morgan tramite diagrammi di Venn. Teoria degli insiemi Insieme Ω ω elemento di Ω, ω ∈ Ω Insieme ∅ E sottoinsieme di Ω, E ⊂ Ω E1 contenuto in E2 , E1 ⊂ E2 Negazione dell’insieme E, ∩ E n Intersezione di n insiemi, i=1 Ei ∪n Unione di n insiemi, i=1 Ei Differenza tra due insiemi, E1 − E2 Teoria della probabilità Evento certo Evento elementare Evento impossibile Evento E1 implica E2 Evento contrario ad E Intersezione di n eventi Unione di eventi Differenza tra eventi Esperimento casuale Tutti gli esiti Singolo esito Nessun esito Insieme di esiti Se E1 accade, anche E2 accade E non accade E1 , E2 , ..., En accadono insieme Almeno uno tra E1 , E2 , ..., En accade E1 accade e E2 non accade Tabella 1.1: Insiemi, probabilità ed esperimenti casuali. Primi elementi di inferenza statistica (ed. maggio 2012) 4 M. Di Marzio 1. PROBABILITÀ Esempio 1.7. Una linea produttiva industriale viene interrotta. Due eventi circa la durata del fermo sono: A = almeno 3 giorni e B = meno di 7 giorni. Descrivere: a) il complemento di A; b) l’evento intersezione tra A e B; c) l’evento unione tra A e B; d) A e B sono incompatibili? e) A e B sono collettivamente esaustivi? f ) Quanto vale (A ∩ B) ∪ (Ā ∩ B)? g) Quanto vale A ∪ (Ā ∩ B)? Di seguito le risposte. a) Ā = non più di 2 giorni; b) A ∩ B = da 3 a 6 giorni; c) A ∪ B = un qualunque numero di giorni; d) no; e) si; f ) B; g) A ∪ B. 1.3 Probabilità e sue concezioni Si consideri una prova di un generico esperimento casuale con spazio fondamentale Ω. Dato un evento E ⊂ Ω si definisce probabilità di E, e la si indica con P(E), una misura del grado di fiducia riposto nel verificarsi di E. Ma come assegnare le probabilità agli eventi? La risposta è complessa e spesso non definitiva. Sono state elabrate diverse concezioni di probabilità negli ultimi secoli. Purtroppo spesso una data concezione non è applicabile, e diverse concezioni portano a valutazioni diverse. Così bisogna ben ponderare la natura dell’esperimento casuale per capire quale concezione applicare. Di seguito riportiamo due tra le concezioni più importanti, quella classica e quella frequentista. Se si sa che gli esiti hanno la stessa probabilità di verificarsi e si conoscono tutti, allora P(E) è data dal rapporto tra il numero di eventi elementari favorevoli e il numero di eventi elementari possibili: P(E) = numero di eventi elementari favorevoli ♯E = , numero di eventi elementari possibili ♯Ω dove ♯A indica la cardinalità di A. Questa concezione è detta classica. I limiti di questa concezione sono nel difetto logico per cui si usa il concetto nella definizione del concetto stesso, infatti si dice “hanno la stessa probabilità...”, e inoltre nella scarsa applicabilità poichè, se si esclude l’ambito dei giochi di sorte, difficilmente l’equiprobabilità degli eventi elementari risulta plausibile. Esempio 1.8. Con riferimento all’esempio 1.1, gli eventi elementari sono equiprobabili, così possiamo applicare la definizione classica di probabilità. Si ottiene 1+1+1+1+1+1 ; 6 1+1 P(G) = ; 6 P(Ω) = 1+1+1 ; 6 1+1 P(H) = . 6 P(E) = P(F ) = 1+1+1+1 ; 6 Esempio 1.9. In una stanza sono presenti venti persone di cui cinque sono fumatori. Si scelgono casualmente tre individui. Qual è la probabilità che il primo e il secondo siano fumatori mentre il terzo non lo sia? Poniamo Fi = l’i-esimo individuo è un fumatore, per i = 1, 2, 3. Lo spazio fondamentale di questo esperimento ripetuto è dato da tutte le terne possibili estraibili senza reimmissione cioè Ω = Ω1 × Ω2 × Ω3 dove Ωi è lo spazio fondamentale della prova i-esima. Poichè gli individui hanno tutti la stessa probabilità di essere estratti, le terne sono equiprobabili, e di conseguenza possiamo usare la formulazione classica di probabilità. Così calcoleremo il rapporto tra il numero delle terne favorevoli all’evento {F1 , F2 , F3 } e il numero delle terne possibili. Il numero delle terne favorevoli è pari a 5 × 4 × 15, mentre il numero delle terne possibili è dato dalle permutazioni di 20 oggetti presi tre alla volta. La probabilità cercata è allora P(F1 , F2 , F3 ) = 5 × 4 × 15 . 20 × 19 × 18 In molti casi un esperimento si verifica ripetutamente nelle stesse condizioni, ad esempio n volte. Così i dati del passato rendono disponibile la frequenza assoluta del verificarsi di un evento E che qui indichiamo con nE . La concezione frequentista adotta come approssimazione di P(E) la frequenza relativa di E, precisando che più prove ci sono state, cioè più alto è il denominatore n della frequenza relativa, meglio la frequenza relativa approssima P(E). Purtroppo in questa concezione P(E) non è conoscibile poiché corrisponde alla frequenza ottenuta dopo aver effettuato infinite prove, formalmente: nE . n→∞ n P(E) = lim Rispetto alla concezione classica questo approccio presenta i seguenti vantaggi: la conoscenza di tutti gli esiti possibili non è richiesta, né è necessaria l’ipotesi di equiprobabilità. Purtroppo anche l’approccio frequentista soffre di limiti di applicabilità. Basti pensare che spesso si è interessati a probabilità di eventi non ripetibili nelle medesime condizioni. M. Di Marzio 5 Primi elementi di inferenza statistica (ed. maggio 2012) 1.4. Assiomi della probabilità Esempio 1.10. Abbiamo ripetuto 1000 volte il lancio di una moneta bilanciata e osservato la frequenza relativa dell’esito ‘Testa’. La figura 1.3 rappresenta l’andamento di tale frequenza relativa all’aumentare del numero delle prove. Questi dati costituiscono una chiara verifica empirica della tendenza della frequenza relativa alla probabilità, che sappiamo essere pari a 0.5. 1 Frequenza relativa 0.9 0.8 0.7 0.6 0.5 0.4 0 200 400 600 Numero prove 800 1000 Figura 1.3: Andamento della frequenza relativa di teste su 1000 lanci di una moneta. 1.4 Assiomi della probabilità Qualunque sia la concezione di probabilità adottata, è possibile definire la probabilità come una funzione reale che rispetta certi assiomi verificati da ogni concezione. Tale approccio permette una trattazione matematica della probabilità esclusivamente basata sugli assiomi e valida per ogni concezione. Segue la definizione assiomatica di probabilità. Dato uno spazio Ω, una funzione P che associa un numero reale ad ogni sottoinsieme di Ω è detta probabilità se soddisfa i seguenti assiomi: 1) P(Ω) = 1 ; 2) P(E) ≥ 0 ; 3) P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) se E1 ∩ E2 = ∅ ; dove E, E1 e E2 sono sottoinsiemi di Ω. Una rapida riflessione suggerisce che i tre assiomi elementari sono rispettati sia dalla concezione classica che dalla frequentista. Il terzo assioma ci fornisce la regola per ottenere la probabilità di un qualsiasi evento E ⊂ Ω. Infatti essendo gli eventi elementari incompatibili si ha ∑ P(E) = P(ωj ), {j: ωj ∈E} dove la sommatoria è estesa a tutti gli eventi elementari contenuti in E. Così la teoria della probabilità sviluppata a partire dagli assiomi fornisce le regole per calcolare la probabilità di un qualsiasi sottoinsieme di Ω quando gli eventi elementari hanno già avuta assegnata una probabilità secondo una data concezione. Esempio 1.11. Lanciamo un dado di cui non sappiamo se sia regolare. La concezione classica fornisce le seguenti probabilità P(2) = P(4) = P(6) = 1 6 mentre supponiamo che la concezione frequentista sostenga che P(2) = 1 ; 6 P(4) = 2 ; 6 P(6) = 3 . 6 Si osservi che le due concezioni attribuiscono probabilità differenti ai singoli esiti. Ora consideriamo l’evento ‘numero pari’. La teoria assiomatica fornisce una regola di calcolo della probabilità di uscita del numero pari valida per ogni concezione; in particolare, il terzo assioma impone che P(numero pari) = P(2) + P(4) + P(6) Usando gli assiomi è facile dimostrare le seguenti proprietà: i) P(∅) = 0 ; Primi elementi di inferenza statistica (ed. maggio 2012) 6 M. Di Marzio 1. PROBABILITÀ 1111 0000 0000 1111 0000 1111 0000 1111 A= 0000 1111 0000 1111 0000000 1111111 0000000 B=1111111 0000000 1111111 0000000 1111111 E= A E= 111 000 000 111 000 111 000 111 000 111 000 111 111111 000000 000000 111111 00000000000000000000000000 11111111111111111111111111 00000000000000 11111111111111 Ω 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000000000000 11111111111111 0 1 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000 11111 00000000000000 11111111111111 00000000000 11111111111 011111111111111111111111111 1 00000 11111 00000000000000 11111111111111 00000000000000000000000000 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 0 1 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 00000000000000 11111111111111 0 1 00000000000000000000000000 11111111111111111111111111 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 0 1 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 0 1 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000 11111 0 1 00000000000000 11111111111111 00000000000 11111111111 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000 11111 00000000000000 11111111111111 0 1 00000000000 11111111111 00000 11111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000 11111 00000000000000 11111111111111 00000000000 11111111111 011111111111111111111111111 1 00000 11111 00000000000000 11111111111111 00000000000000000000000000 00000 11111 00000000000000 11111111111111 00000000000 11111111111 00000 11111 0 1 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000000000000 11111111111111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 00000000000000 11111111111111 00000000000000000000000000 11111111111111111111111111 B 000000 E = 111111 000000 111111 Figura 1.4: Riduzione dello spazio fondamentale per effetto del verificarsi di A (risp. B). ii) P(E) = 1 − P(E) ; iii) 0 ≤ P(E) ≤ 1 ; iv) P(E1 ∪ E2 ) = P(E1 ) + P(E2 ) − P(E1 ∩ E2 ) (Teorema delle probabilità totali). Il teorema delle probabilità totali coincide con il terzo assioma se gli eventi sono incompatibili, essendo in questo caso P(E1 ∩ E2 ) = P(∅) = 0. Esempio 1.12. Un ristorante ha rilevato che: il 75% dei clienti richiede un antipasto (evento A), il 50% richiede un secondo (evento S), il 40% li richiede entrambi. Calcoliamo la probabilità che un cliente richieda almeno uno tra antipasto e secondo. Anzitutto, applicando la concezione frequentista di probabilità, abbiamo che P(A) = 0.75 ; P(S) = 0.50 ; P(A ∩ S) = 0.40 . Applicando il teorema delle probabilità totali abbiamo P(A ∪ S) = P(A) + P(S) − P(A ∩ S) = 0.75 + 0.50 − 0.40 = 0.85. 1.5 Probabilità condizionata e indipendenza Dati due eventi E1 e E2 sottoinsiemi di Ω, se P(E1 ) > 0 ci si può chiedere qual è la probabilità di E2 sapendo che si è verificato E1 . Questa probabilità è detta condizionata ed è indicata con P(E2 |E1 ). Per definizione P(E2 |E1 ) = P(E2 ∩ E1 ) . P(E1 ) Tale rapporto è interpretabile come segue. Poiché sappiamo che l’esito dell’esperimento è contenuto in E1 , per il calcolo della probabilità di E2 non tutti gli eventi elementari di Ω sono da considerarsi possibili, ma solo quelli in E1 , così come non tutti gli eventi elementari in E2 sono casi favorevoli ma solo quelli in E2 ∩ E1 . Esempio 1.13. Nella figura 1.4 si può notare che una volta verificatosi l’evento A (risp. B) i casi favorevoli per il verificarsi di E si riducono a quelli compresi in A ∩ E (risp. in B ∩ E), mentre i casi possibili sono contenuti in A (risp. in B). Quindi il condizionamento opera una riduzione dello spazio fondamentale: esso non è più Ω ma E1 . Ovviamente ogni evento è condizionato al proprio spazio fondamentale, infatti per ogni evento E in Ω si ha P(E) = P(E|Ω) = P(E ∩ Ω)/P(Ω) = P(E)/1 ; inoltre P(E|E) = 1 per ogni E ⊂ Ω. Dalla probabilità condizionata si evince il teorema delle probabilità composte: P(E1 ∩ E2 ) = P(E1 )P(E2 |E1 ), come si vede, la probabilità di una intersezione è calcolata in base alle probabilità dei singoli eventi. Per la legge commutativa P(E1 ∩ E2 ) = P(E2 ∩ E1 ), così P(E1 ∩ E2 ) = P(E1 )P(E2 |E1 ) = P(E2 ∩ E1 ) = P(E2 )P(E1 |E2 ). M. Di Marzio 7 Primi elementi di inferenza statistica (ed. maggio 2012) 1.5. Probabilità condizionata e indipendenza Generalizzando, dati gli eventi E1 , E2 , ..., En in Ω, se P(E1 ∩ E2 ∩ ... ∩ En−1 ) > 0 P(E1 ∩ E2 ∩ ... ∩ En ) = P(E1 )P(E2 |E1 )...P(En |E1 ∩ E2 ∩ ... ∩ En−1 ). Esempio 1.14. Per gli eventi E1 ed E2 , si possono descrivere le probabilità congiunte e condizionate per mezzo di una tabella a doppia entrata del tipo seguente: E1 E1 E2 P(E1 ∩ E2 ) P(E1 ∩ E2 ) P(E2 ) E2 P(E1 ∩ E2 ) P(E1 ∩ E2 ) P(E2 ) P(E1 ) P(E1 ) 1 tale struttura è analoga a una distribuzione statistica doppia dove ogni carattere ha due modalità e agli incroci sono poste le frequenze relative. In effetti, la distribuzione statistica doppia ci descrive quanto accaduto in passato. Circa il futuro, ci possiamo chiedere la probabilità di una modalità di un dato carattere (probabilità marginali) o una coppia di modalità dei due caratteri (probabilità congiunte). In tal caso interpretiamo le frequenze relative come approssimazioni delle probabilità (concezione frequentista). Ovviamente la tabella a doppia entrata può essere costruita anche per caratteri con più di due modalità. Nella suindicata tabella le probabilità marginali sono: P(E1 ), P(E1 ), P(E2 ), P(E2 ) ; le probabilità congiunte sono: P(E1 ∩ E2 ), P(E1 ∩ E2 ), P(E1 ∩ E2 ), P(E1 ∩ E2 ) ; infine le probabilità condizionate sono: P(E2 |E1 ), P(E2 |E1 ), P(E2 |E1 ), P(E2 |E1 ), P(E1 |E2 ), P(E1 |E2 ), P(E1 |E2 ), P(E1 |E2 ). Dati due eventi E1 e E2 sottoinsiemi di Ω, si dirà che essi sono indipendenti se e solo se P(E2 ∩ E1 ) = P(E2 )P(E1 ), o, in maniera equivalente, se e solo se P(E2 |E1 ) = P(E2 ), cioè il verificarsi di un evento non cambia la probabilità di verificarsi dell’altro. Questa formula esplicita che se c’è indipendenza il teorema delle probabilità composte si riduce alla condizione di indipendenza. Generalizzando, se gli eventi E1 , E2 , ..., En sono a due a due indipendenti, allora P(E1 ∩ E2 ∩ ... ∩ En ) = n ∏ P(Ei ). i=1 Esempio 1.15. Consideriamo il lancio di un dado. Definiamo i seguenti eventi: A = Numero pari ; B = Numero maggiore o uguale a 4 ; C = Numero maggiore di 4. Stabiliamo se c’è indipendenza tra gli eventi A e B e tra gli eventi A e C. Dobbiamo calcolare quanto vale P(A|B): P(A|B) = P(A ∩ B) P({4, 6}) 2/6 2 = = = . P(B) P({4, 5, 6}) 3/6 3 Come si vede, P(A|B) ̸= P(A) = 1/2, cioè i due eventi sono dipendenti. Va segnalato che il verificarsi B ha ridotto lo spazio campionario da {1, 2, 3, 4, 5, 6} a {4, 5, 6}. Per stabilire se gli eventi A e C sono indipendenti, al solito, calcoliamo P(A|C) per poi confrontarlo con P(A): P(A|C) = P(A ∩ C) P({6}) 1/6 1 = = = . P(C) P({5, 6}) 2/6 2 Risulta P(A|C) = P(A), cioè i due eventi sono indipendenti poiché la riduzione dello spazio campionario ha lasciato inalterata la probabilità di A. Primi elementi di inferenza statistica (ed. maggio 2012) 8 M. Di Marzio 1. PROBABILITÀ Incompatibilità Indipendenza Definizione E 1 ∩ E2 = ∅ P(E1 ∩ E2 ) = P(E1 )P(E2 ) Relazione tra eventi tra probabilità Rappresentazione su diagrammi di Venn non si rappresenta Conseguenza su P(E1 ∪ E2 ) su P(E1 ∩ E2 ) Tabella 1.2: Incompatibilità ed indipendenza. Essendo molto diffusa una certa confusione tra i concetti di incompatibilità e indipendenza tra gli eventi, è opportuno riportarne schematicamente le differenze nella tabella 1.2. Infine si può facilmente dimostrare che due eventi che hanno probabilità positiva non possono essere contemporaneamente incompatibili e indipendenti. Infatti se sono indipendenti la probabilità della loro intersezione è data dal prodotto di due numeri positivi e quindi è un numero positivo. D’altro canto se sono incompatibili la probabilità della loro intersezione deve essere nulla. Se due eventi non sono indipendenti si dicono dipendenti. Due eventi dipendenti E1 e E2 si dicono positivamente correlati se P(E1 ) < P(E1 |E2 ) , negativamente correlati se P(E1 ) > P(E1 |E2 ) . Oltre che tra eventi appartenenti allo spazio fondamentale di un singolo esperimento casuale, il concetto di indipendenza esiste anche tra esperimenti casuali come segue. Dati n esperimenti casuali, diremo che essi sono mutuamente indipendenti se P(A1 ∩ A2 ∩ ... ∩ An ) = n ∏ P(Ai ) i=1 Dove Ai è il generico evento appartenente allo spazio fondamentale Ωi associato all’i-esimo esperimento casuale, e A1 ∩ A2 ∩ ... ∩ An è un elemento dello spazio fondamentale prodotto Ω = Ω1 × Ω2 × ... × Ωn (sez. 1.1). Esempio 1.16. Consideriamo l’esperimento casuale composto dai seguenti due: 1) osservare la difettosità un manufatto e 2) osservare il sesso di un dipendente. Il manufatto può essere difettoso o non difettoso, per cui Ω1 = {D, N }, mentre il dipendente può essere maschio o femmina, per cui Ω2 = {M, F }. Si assuma inoltre che P(D) = 0.6 e P(M ) = 0.7 L’esperimento composto ha il seguente spazio campionario prodotto Ω = Ω1 × Ω2 = {(D, M ), (D, F ), (N, M ), (N, F )}. Si dirà che i due esperimenti sono indipendenti se e solo se: P(D, M ) = P(D)P(M ) = 0.42 ; P(D, F ) = 0.18 ; P(N, M ) = 0.28 ; P(N, F ) = 0.12 . 1.6 Proprietà degli eventi indipendenti L’indipendenza ha un certo numero di proprietà, le più importanti delle quali sono di seguito riportate. 1) Simmetria Se E1 è indipendente da E2 , allora anche E2 è indipendente da E1 . È facile dimostrare questa proprietà ricordando che P(E2 ∩ E1 ) = P(E1 ∩ E2 ) e quindi che P(E2 )P(E1 |E2 ) = P(E1 )P(E2 |E1 ), applicando la definizione di indipendenza P(E1 |E2 ) = P(E1 ) si ha: P(E2 )P(E1 ) = P(E1 )P(E2 |E1 ), da cui si ricava P(E2 ) = P(E2 |E1 ), cioè E2 è indipendente da E1 . 2) Indipendenza tra i complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2 . Infatti dire che la probabilità del verificarsi di E1 non cambia al verificarsi di E2 è esattamente lo stesso che dire che essa non cambia al non verificarsi di E2 . Sfruttando la simmetria, ricaviamo anche che E1 e indipendente da E2 . M. Di Marzio 9 Primi elementi di inferenza statistica (ed. maggio 2012) 1.7. Formula di Bayes 3) Indipendenza dei complementi Se E1 e E2 sono indipendenti, lo sono anche E1 e E2 . Infatti per la seconda legge di De Morgan P(E1 ∩ E2 ) = P(E1 ∪ E2 ), ora applicando il teorema delle probabilità totali e ricordando che E1 e E2 sono indipendenti, si ottiene P(E1 ∪ E2 ) = 1 − P(E1 ∪ E2 ) = 1 − (P(E1 ) + P(E2 ) − P(E1 ∩ E2 )) = 1 − P(E1 ) − P(E2 ) + P(E1 )P(E2 ) = (1 − P(E1 ))(1 − P(E2 )) = P(E1 )P(E2 ). Infine P(E1 ∩ E2 ) = P(E1 )P(E2 ). 4) Indipendenza di un evento da se stesso Affinché E sia indipendente da se stesso si deve verificare che P(E ∩ E) = P(E)P(E), cioé, essendo E ∩ E = E, si deve avere P(E) = P(E)P(E). Ma ciò è falso se 0 < P(E) < 1, infatti in questo caso P(E) < P(E)P(E) e quindi in generale esiste sempre dipendenza tra un evento e se stesso. Comunque due eventi fanno eccezione, nel senso di essere indipendenti da se stessi. Essi sono l’evento impossibile e l’evento certo. Infatti per entrambi si ha e P(∅) = P(∅)P(∅) = 0 1.7 P(Ω) = P(Ω)P(Ω) = 1. Formula di Bayes Sia la classe di k insiemi {C1 , C2 , ..., Ck } una partizione dello spazio Ω, e sia E un sottoinsieme non vuoto di Ω. Applicando la proprietà distributiva si ottiene: E =E∩Ω = E ∩ (C1 ∪ C2 ∪ ... ∪ Ck ) = (E ∩ C1 ) ∪ (E ∩ C2 ) ∪ ... ∪ (E ∩ Ck ) = k ∪ (E ∩ Ci ). i=1 Così la partizione {C1 , C2 , ..., Ck } di Ω induce la partizione {E ∩ C1 , E ∩ C2 , ..., E ∩ Ck } di E. Esempio 1.17. Nella figura 1.5 la partizione {A∩E, B∩E, C ∩E, } dell’evento E è indotta dalla partizione {A, B, C} dello spazio fondamentale Ω. 111 000 000 111 000 000 111 A= 111 000 111 000 111 00 11 00 E= B= 11 00 11 000000 111111 000000 C= 111111 000000 111111 000000 111111 A B C 111 000 000 111 000 000 111 E = 111 000 111 000 111 00 11 00 E = 11 00 11 000000 111111 000000 E = 111111 000000 111111 000000 Ω 111111 111 000 00000000000000000000000000 11111111111111111111111111 00000000000000000000000000 11111111111111111111111111 000 111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000000000000000000 11111111111111111111111111 000 111 00000000000000000000000000 11111111111111111111111111 00000000000 11111111111 11111111111 00000000000 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 000000 111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 00000000000 11111111111 Figura 1.5: Scomposizione di E indotta dalla partizione {A, B, C}. Primi elementi di inferenza statistica (ed. maggio 2012) 10 M. Di Marzio 1. PROBABILITÀ Essendo gli eventi {C1 , C2 , ..., Ck } incompatibili, anche gli insiemi {(E ∩ Ci ), i = 1, 2, ..., k} lo sono, per cui, appellandosi al terzo assioma della probabilità (si dice anche ‘al teorema delle probabilità totali per eventi incompatibili’) si ottiene: P(E) = P(E ∩ C1 ) + P(E ∩ C2 ) + ... + P(E ∩ Ck ) = k ∑ P(E ∩ Ci ) ; i=1 ma dal teorema delle probabilità composte abbiamo che P(E ∩ Ci ) = P(Ci )P(E|Ci ), per cui P(E) può essere scritto come somma di probabilità condizionate: P(E) = P(C1 )P(E|C1 ) + P(C2 )P(E|C2 ) + ... + P(Ck )P(E|Ck ) = k ∑ P(Ci )P(E|Ci ). i=1 Dato un qualsiasi elemento Ch della partizione, e supponendo che P(E) > 0, la formula di Bayes esprime tramite le espressioni finora trovate la probabilità di Ch dato E: P(Ch |E) = P(Ch )P(E|Ch ) P(Ch ∩ E) = ∑k . P(E) i=1 P(Ci )P(E|Ci ) Poichè la classe {C1 , C2 , ..., Ck } è una partizione, allora si verificherà un solo elemento di essa. Un modo per capire l’importanza della formula di Bayes sta nel connotarla temporalmente tramite un nesso di causalità. Allora sia l’evento E l’effetto di una sola tra un insieme di cause {C1 , C2 , ..., Ch } incompatibili e complessivamente necessarie (nel senso che una se ne deve verificare). La formula di Bayes risponde al quesito: qual è la probabilità che, essendosi verificato E, sia stata Ch a causarlo? Una tale interpretazione mette in luce la formula di Bayes come tecnica di aggiornamento delle aspettative sulla base di nuova conoscenza. In questo senso la probabilità di Ch può essere determinata senza sapere che E si è verificato. Per ovvie ragioni tale probabilità è detta probabilità a priori e viene indicata come P(Ch ). Quando si viene a sapere che E si è verificato, P(Ch ) deve essere aggiornata con una misura della compatibilità tra E e Ch data da P(E|Ch ) e chiamata verosimiglianza. Così la probabilità a priori viene aggiornata nella probabilità a posteriori P(Ch |E). In termini rigorosi questo può essere osservato riscrivendo la formula di Bayes come P(Ch |E) = P(Ch ) P(E|Ch ) , P(E) ora una buona compatibilità implica che P(E|Ch ) > P(E) e quindi un rapporto maggiore di uno che rende la probabilità a posteriori maggiore di quella a priori (e viceversa). Esempio 1.18. Una compagnia di assicurazione suddivide le persone in due classi: “soggette” e “non soggette” ad incidenti. Le statistiche mostrano che le persone “soggette” (S) hanno probabilità 0.5 di avere un incidente in un anno (I), e le “non soggette” (S) 0.3. Vogliamo conoscere la probabilità che un nuovo assicurato abbia un incidente entro un anno dalla stipula della polizza sapendo che il 25% della popolazione è soggetta ad incidenti. Poiché P(S) = 0.25, P(I|S) = 0.5 e P(I|S) = 0.3, la probabilità cercata è P(I) = P(S ∩ I) + P(S ∩ I) = P(S)P(I|S) + P(S)P(I|S) = 0.75 × 0.3 + 0.25 × 0.5 = 0.35. Se un nuovo assicurato ha un incidente entro un anno dall’acquisto della polizza, la probabilità che si tratti di una persona “soggetta” ad incidenti si ottiene ricorrendo alla formula di Bayes: P(S|I) = P(S)P(I|S) 0.25 × 0.5 = = 0.357 . P(I) 0.35 M. Di Marzio 11 Primi elementi di inferenza statistica (ed. maggio 2012) 2 Esercizi svolti Esercizio 2.1. Si consideri un esperimento casuale che consiste nel lanciare tre volte una moneta, e si determini lo spazio fondamentale nel caso si osservino: a) le sequenze di testa (T ) e croce (C); b) il numero di teste nei tre lanci. Soluzione a) Abbiamo il seguente spazio fondamentale composto da 8 esiti elementari Ω = {CCC, CCT, CT C, T CC, CT T, T CT, T T C, T T T }. b) Abbiamo il seguente spazio fondamentale composto da 4 esiti elementari Ω = {0, 1, 2, 3}. Esercizio 2.2. Da un sacchetto di quattro palline contrassegnate da 1 a 4 estraiamo due palline. Si determini lo spazio fondamentale nel caso a) si reintroduca la prima pallina estratta nell’urna; b) non si reintroduca la prima pallina estratta nell’urna. Soluzione a) Abbiamo il seguente spazio fondamentale (1, 1) (1, 2) (2, 1) (2, 2) Ω= (3, 1) (3, 2) (4, 1) (4, 2) composto da 16 esiti elementari (1, 3) (1, 4) (2, 3) (2, 4) . (3, 3) (3, 4) (4, 3) (4, 4) b) Abbiamo il seguente spazio fondamentale composto da 12 esiti elementari (1, 2) (1, 3) (1, 4) (2, 1) (2, 3) (2, 4) Ω= . (3, 1) (3, 2) (3, 4) (4, 1) (4, 2) (4, 3) Esercizio 2.3. Un esperimento consiste nel lanciare un dado fino a che esca il 6. Si determini lo spazio fondamentale nei seguenti casi a) si osservino le sequenze dei risultati; b) si contino i lanci fino a che esca 6. Soluzione a) Lo spazio campionario è infinito, esso è del seguente tipo: 6, (1, 6), (2, 6), (3, 6), (4, 6), (5, 6), Ω= ; (1, 1, 6), (1, 2, 6), (1, 3, 6), (1, 4, 6), (1, 5, 6), ... b) anche in questo caso lo spazio fondamentale è infinito, ed è del tipo seguente: Ω = {1, 2, 3, 4, 5, 6, 7....} . Primi elementi di inferenza statistica (ed. maggio 2012) 12 M. Di Marzio 2. ESERCIZI SVOLTI Esercizio 2.4. Un concessionario di autoveicoli offre automobili con le seguenti opzioni a) con o senza airbag; b) con o senza climatizzatore; c) con o senza impianto stereo; d) con tre diversi motori. Determinare l’insieme di tutte le possibili automobili offerte. Soluzione L’insieme delle possibili macchine definisce uno spazio prodotto Ω = {Ωa × Ωc × Ωs × Ωm } , cioè il prodotto cartesiano di quattro spazi fondamentali, dove Ωa = {a, ā}; Ωc = {c, c̄}; Ωs = {s, s̄}; Ωm = {m1 , m2 , m3 }. La cardinalità di Ω è (2 × 2 × 2 × 3) = 24. Esercizio 2.5. Si scelga a caso una carta da un mazzo di 52 carte. Definiamo i seguenti eventi: A = la carta scelta è un asso; B = la carta scelta è di picche. Determinare se i due eventi sono indipendenti. Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora, P(A ∩ B) = P({la carta scelta è un asso di picche}) = 1/52, e P(A)P(B) = 4/52 × 13/52 = 1/52. Quindi gli eventi sono indipendenti. Notiamo, invece, che A e B non sono incompatibili, e quindi la compatibilità non implica l’indipendenza. Esercizio 2.6. Si lancino due monete non truccate, ossia si ritiene che i possibili esiti siano equiprobabili. Definiamo i seguenti eventi: A = la prima moneta dà croce; B = la seconda moneta dà testa. Determinare se i due eventi sono indipendenti. Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora, P(A ∩ B) = P({C, T }) = 1/4; inoltre P(A) = P({C, T } ∪ {C, C}) = 1/2 e P(B) = P({T, C} ∪ {T, T }) = 1/2. Così i due eventi sono indipendenti. Esercizio 2.7. Si lanciano due dadi non truccati. Definiamo i seguenti eventi: A = la somma è 6; B = il primo dado dà 4. Determinare se i due eventi sono indipendenti. Soluzione Controlliamo se P(A ∩ B) = P(A)P(B). Ora, P(A ∩ B) = P({4, 2}) = 1/36; e P(A) = P({1, 5} ∪ {2, 4} ∪ {3, 3} ∪ {4, 2} ∪ {5, 1}) = 5/36 e P(B) = 1/6. Allora i due eventi non sono indipendenti. M. Di Marzio 13 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 2.8. Si lanciano due dadi non truccati. Definiamo i seguenti eventi: A = la somma è 7; B = il primo dado dà 4. Determinare se i due eventi sono indipendenti. Soluzione I due eventi sono indipendenti. Infatti lo spazio prodotto è [1, ..., 6]×[1, ..., 6]. Esso ha 36 elementi, così per la concezione classica di probabilità si ha P(A ∩ B) = P({4, 3}) = 1/36; e d’altro canto P(A) = P({1, 6} ∪ {2, 5} ∪ {3, 4} ∪ {4, 3} ∪ {5, 2} ∪ {6, 1}) = 6/36 e P(B) = 1/6. Esercizio 2.9. Una moneta non truccata viene lanciata due volte. Qual è la probabilità che esca testa (A) se al primo lancio è uscita testa (B)? Soluzione Calcoliamo la seguente probabilità condizionata: P(A | B) = P(A ∩ B) P(testa in entrambi i lanci) 1/4 = = = 1/2. P(B) P(testa al primo lancio) 1/2 Si può inoltre notare che P(A | B) = P(A), così gli eventi sono indipendenti. Esercizio 2.10. Si calcoli P(A | B) se a) P(A ∩ B) = 0; b) A ⊂ B; c) B ⊂ A. Soluzione Si ha P(A | B) = Per cui: a) P(A | B) = b) P(A | B) = c) P(A | B) = P(A ∩ B) . P(B) P(∅) P(B) = 0. P(A) P(B) . Poiché se A ⊂ B, allora P(A ∩ B) = P(A). P(B) P(B) = 1. Poiché se A ⊃ B, allora P(A ∩ B) = P(B). Esercizio 2.11. Siano A1 , A2 , A3 eventi a due a due indipendenti in Ω. Dimostrare che P(A1 ∪ A2 ∪ A3 ) = 1 − 3 ∏ (1 − P(Ai )). i=1 Soluzione Applicando la II Legge di De Morgan e considerando l’indipendenza abbiamo: P(A1 ∪ A2 ∪ A3 ) = 1 − P(A1 ∪ A2 ∪ A3 ) = 1 − P(A1 ∩ A2 ∩ A3 ) = 1 − P(A1 )P(A2 )P(A3 ) =1− 3 ∏ P(Ai ) = 1 − i=1 3 ∏ (1 − P(Ai )). i=1 Esercizio 2.12. A uno stadio di un’inchiesta investigativa l’ispettore è convinto al 60% della colpevolezza di un indagato. Supponiamo ora che l’ispettore acquisisca una nuova prova: l’indagato ha una certa caratteristica del colpevole. Se il 20% della popolazione possiede tale caratteristica, l’ispettore come modificherà la valutazione sulla colpevolezza dell’indagato? Primi elementi di inferenza statistica (ed. maggio 2012) 14 M. Di Marzio 2. ESERCIZI SVOLTI Soluzione Definiamo i seguenti eventi: A = l’indagato è colpevole; B = l’indagato possiede la caratteristica del criminale. Si ha: P(A | B) = P(A ∩ B) P(B | A)P(A) = P(B) P(B | A)P(A) + P(B | A)P(A) 1 × 0.6 = = 0.882. 1 × 0.6 + 0.2 × 0.4 Esercizio 2.13. Abbiamo un campione di 400 aziende classificate secondo il capitale sociale e il fatturato. I dati sono: Fatturato Capitale sociale < 5000 ≥ 5000 ≤ 250 80 30 > 250 90 200 Vogliamo conoscere come sono legate queste due grandezze così da ricostruire alcuni dati mancanti nella nostra ricerca. Definiamo i seguenti eventi: A = avere un capitale sociale inferiore o uguale a 250, B = avere un fatturato maggiore o uguale a 5000. a) Calcolare P(A), P(Ā), P(B), P(B̄), P(A ∩ B), P(A ∪ B), P(A|B), P(B|A), P(Ā|B). b) Verificare se e perché A e B sono incompatibili. c) Verificare se A e B sono indipendenti. Soluzione Per utilizzare la tavola introdotta prima dobbiamo calcolare i totali marginali e poi calcolare le frequenze relative. La tavola con le frequenze marginali sarà: Fatturato Capitale sociale < 5000 ≥ 5000 ≤ 250(A) 80 30 110 > 250(A) 90 200 290 170 230 400 a) Usando la concezione classica di probabilità: ‘casi favorevoli su casi possibili’ si ottiene: P(A) = 110 = 0.275; 400 P(A) = 1 − 0.275 = 0.725; P(B) = 230 = 0.575; 400 P(B) = 1 − 0.575 = 0.425; P(A ∩ B) = 30 = 0.075; 400 P(A ∪ B) = P(A) + P(B) − P(A ∩ B) = 0.275 + 0.575 − 0.075 = 0.775; P(A|B) = P(A ∩ B) 30 = = 0.13; P(B) 230 P(B|A) = P(A ∩ B) 30 = = 0.273. P(A) 110 P(A|B) = 1 − P(A|B) = 1 − 0.13 = 0.87; M. Di Marzio 15 Primi elementi di inferenza statistica (ed. maggio 2012) oppure P(A|B) = P(A ∩ B) 200 = = 0.87. P(B) 230 Si possono ottenere i medesimi risultati utilizzando il teorema delle probabilità totali. b) Se A e B sono incompatibili P(A ∪ B) = P(A) + P(B), cioè P(A ∩ B) = 0 ma, come si è visto prima, P(A ∩ B) = 0.075, così gli eventi sono compatibili. c) Se A e B sono indipendenti, si ha P(A | B) = P(A) P(B | A) = P(B), e ma P(A | B) = 0.130 ̸= P(A) = 0.275 e P(B | A) = 0.273 ̸= P(B) = 0.575. Esercizio 2.14. In una catena di montaggio si eseguono due operazioni in sequenza. L’esito della prima non dipende da quello della seconda. Le probabilità che le operazioni riescano senza difetti sono rispettivamente 0.9 e 0.8. Calcolare la probabilità che: a) nessuna delle due operazioni riesca; b) almeno una delle due operazioni non riesca; c) riesca esattamente una delle due. Soluzione Poniamo: Ri = l’operazione i -esima riesce; R̄i = l’operazione i -esima non riesce. a) Si deve calcolare P(R̄1 ∩ R̄2 ). Poiché gli eventi sono indipendenti avremo: P(R̄1 ∩ R̄2 ) = P(R̄1 ) × P(R̄2 ) ma P(R̄i ) = 1 − P(Ri ), per cui: P(R̄1 ∩ R̄2 ) = P(R̄1 ) × P(R̄2 ) = (1 − 0.9) × (1 − 0.8) = 0.1 × 0.2 = 0.02 b) Dobbiamo calcolare la probabilità che non ne riesca almeno una, cioè: o non riesce una, o non riesce l’altra, o non riescono entrambe ossia: P(R̄1 ∪ R̄2 ). Soluzione 1 Per il teorema delle probabilità totali avremo che: P(R̄1 ∪ R̄2 ) = P(R̄1 ) + P(R̄2 ) − P(R̄1 ∩ R̄2 ) = 0.1 + 0.2 − 0.02 = 0.28. Soluzione 2 Si consideri che R̄1 ∪ R̄2 = R1 ∩ R2 (I legge di De Morgan) allora P(R̄1 ∪ R̄2 ) = 1 − P(R1 ∩ R2 ) = 1 − (0.9 × 0.8) = 0.28. c) Ne riesce solo una, o l’una o l’altra, in simboli: P(R1 ∪ R2 ) − P(R1 ∩ R2 ). Soluzione 1 Per il teorema delle probabilità totali scriviamo P(R1 ∪ R2 ) = P(R1 ) + P(R2 ) − P(R1 ∩ R2 ) = 0.9 + 0.8 − (0.9 × 0.8) = 0.98 per cui la probabilità cercata sarà: P(R1 ∪ R2 ) − P(R1 ∩ R2 ) = 0.98 − (0.9 × 0.8) = 0.26. Primi elementi di inferenza statistica (ed. maggio 2012) 16 M. Di Marzio 2. ESERCIZI SVOLTI Soluzione 2 R1 ∪ R2 = R̄1 ∩ R̄2 (II legge di De Morgan), negando si ottiene: R1 ∪ R2 = R̄1 ∩ R̄2 che può essere scritto come R1 ∪ R2 = R̄1 ∩ R̄2 allora: P(R1 ∪ R2 ) = 1 − P(R̄1 ∩ R̄2 ) = 1 − 0.02 = 0.98, e quindi P(R1 ∪ R2 ) − P(R1 ∩ R2 ) = 0.98 − (0.9 × 0.8) = 0.26. Esercizio 2.15. A e B sono tali che P(A) = 2/7, P(B) = 1/3, P(Ā ∩ B̄) = 11/21. Calcolare: a) P(A ∪ B); b) P(A ∩ B); c) P(Ā ∩ B); d) P(A ∪ B̄); e) P(Ā ∪ B̄). Soluzione a) Sappiamo che P(Ā ∩ B̄) = P(A ∪ B) per cui P(A ∪ B) = 11/21. Ma P(A ∪ B) = P(A ∪ B) = 1 − P(A ∪ B) = 1 − 11/21 = 10/21. b) Per il teorema delle probabilità totali, per cui P(A ∪ B) = P(A) + P(B) − P(A ∩ B), così 10 2 1 2 1 10 3 = + − P(A ∩ B) = + − = . 21 7 3 7 3 21 21 c) Poiché (Ā ∩ B) = B − (A ∩ B) allora P(Ā ∩ B) = P(B) − P(A ∩ B) = 1/3 − 3/21 = 4/21. d) Poiché (A ∪ B̄) = B̄ ∪ (A ∩ B) e B̄ ∩ (A ∩ B) = ∅, allora P(A ∪ B̄) = P(B̄) + P(A ∩ B) = 2/3 + 3/21 = 17/21. e) Per il teorema delle probabilità totali si ha: P(Ā ∪ B̄) = P(Ā) + P(B̄) − P(Ā ∩ B̄) ( ) ( ) ( ) 2 1 11 5 2 11 18 = 1− + 1− − = + − = . 7 3 21 7 3 21 21 Esercizio 2.16. Guglielmo e Robin si sfidano al tiro con l’arco. La probabilità che Guglielmo centri il bersaglio è 0.35, mentre la probabilità che Robin non faccia centro è 0.6. Sapendo che la probabilità che almeno uno dei due sfidanti centri il bersaglio è pari a 0.75, calcolare la probabilità che entrambi facciano centro. Soluzione Definiamo i seguenti due eventi: G = Guglielmo colpisce il bersaglio; R = Robin colpisce il bersaglio. In simboli abbiamo P(G) = 0.35; P(R̄) = 0.6; P(G ∪ R) = 0.75. Dobbiamo calcolare P(G ∩ R). Per il teorema delle probabilità totali si ha: P(G ∪ R) = P(G) + P(R) − P(G ∩ R) e in numeri 0.75 = 0.35 + (1 − 0.6) − P(G ∩ R) da cui: P(G ∩ R) = −0.75 + 0.35 + 0.4 = 0. M. Di Marzio 17 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 2.17. Il direttore marketing di una società che produce telefonini sta analizzando le chance di mercato di un nuovo modello. In precedenza solo il 35% dei telefonini ha avuto successo. Il direttore sa inoltre che in precedenza l’ 85% dei telefonini che erano stati di successo sul mercato avevano avuto giudizio positivo dalla sezione marketing, mentre lo stesso giudizio era stato dato solo al 15% dei telefonini che si sarebbero rivelati fallimentari. Il direttore vuole conoscere la probabilità di successo del nuovo modello sapendo che lo stesso ha avuto giudizio positivo. Soluzione Siamo quindi di fronte agli eventi: S = telefonino di successo; S̄ = telefonino non di successo; F = giudizio positivo; F̄ = giudizio negativo. Ricaviamo subito P(S) = 0.35; P(S̄) = 0.65; P(F |S) = 0.85; P(F |S̄) = 0.15. Da cui: P(S)P(F |S) P(S)P(F |S) + P(S̄)P(F |S̄) 0.2975 0.35 × 0.85 = = 0.35 × 0.85 + 0.65 × 0.15 0.2975 + 0.0975 0.2975 = = 0.7532. 0.3950 P(S|F ) = Chiaramente P(S̄|F ) = 1 − 0.7532 = 0.2468. Possiamo concludere che il giudizio dell’esperto è molto importante poiché un telefonino qualsiasi avrà successo con probabilità 0.35 ma se l’esperto si è pronunciato favorevolmente la probabilità di successo sale a 0.7532. Esercizio 2.18. Una multinazionale gestisce le vendite dei suoi prodotti attraverso tre uffici A, B e C. La direzione della multinazionale, al fine di valutare la situazione finanziaria generale della struttura, rileva per ciascuno degli uffici la percentuale di vendite regolate attraverso la concessione di crediti e la percentuale di crediti di fornitura rimasti insoluti. I dati raccolti sono riportati di seguito: Crediti Crediti insoluti A 0.4 0.05 B 0.35 0.02 C 0.25 0.03 Sapendo che un cliente della multinazionale non ha adempiuto al pagamento del credito concessogli a fronte di un acquisto effettuato, determinare la probabilità che l’operazione in questione sia stata gestita dall’ufficio A. Soluzione Gli eventi da considerare per la risoluzione del problema in questione sono: I = credito insoluto; CA = vendite dell’ufficio A regolate con concessione di crediti; CB = vendite dell’ufficio B regolate con concessione di crediti; CC = vendite dell’ufficio C regolate con concessione di crediti. Ed è agevole ricavare che: P(CA ) = 0.40; P(CB ) = 0.35; P(CC ) = 0.25 P(I |CA ) = 0.05; P( I| CB ) = 0.02; P( I| CC ) = 0.03. La probabilità che il credito insoluto sia un credito di fornitura concesso dall’ufficio A è dato da: P(CA )P(I|CA ) , i = A, B, C P(CA |I) = ∑ i P(Ci )P(I|Ci ) dunque: P(CA |I ) = 0.40 × 0.05 = 0.58. 0.40 × 0.05 + 0.35 × 0.02 + 0.25 × 0.03 Primi elementi di inferenza statistica (ed. maggio 2012) 18 M. Di Marzio 3 Variabili casuali semplici Indice 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12 3.1 Variabili casuali . . . . . . . . . . . . . . . . Distribuzioni di probabilità . . . . . . . . . Famiglie parametriche . . . . . . . . . . . . Funzioni di ripartizione . . . . . . . . . . . . Variabili casuali identicamente distribuite . Moda . . . . . . . . . . . . . . . . . . . . . . . Quantili . . . . . . . . . . . . . . . . . . . . . Valore atteso . . . . . . . . . . . . . . . . . . Varianza . . . . . . . . . . . . . . . . . . . . . Coefficiente di variazione . . . . . . . . . . . Disuguaglianza di Chebyshev . . . . . . . . Variabili casuali standardizzate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 21 23 23 25 25 25 26 27 29 30 31 Variabili casuali Gli esiti di un esperimento casuale possono anche essere costituiti da valori non numerici detti categorie. Esempio 3.1. Di seguito sono mostrati alcuni esempi di spazi fondamentali composti da categorie: Ω1 = {mediocre, buono, ottimo}; Ω2 = {verde, giallo, rosso, viola}; Ω3 = {successo, insuccesso}. Ovviamente gli esperimenti possono essere oggetto di calcolo solo se i relativi spazi fondamentali sono insiemi numerici. Così, nel caso contrario, si rende necessaria una preliminare trasformazione numerica delle categorie. Per trasformare in numeri gli esiti usiamo una funzione, detta variabile casuale (v.c.), che associa un numero reale ad ogni evento elementare ω ∈ Ω. Di solito la v.c. è indicata con una lettera latina maiuscola, ad es. X, mentre un suo valore, detto anche modalità, è indicato in minuscolo, ad es. x. Così scriviamo X : Ω → R. Esempio 3.2. Nella tabella che segue sono riassunti i passi per la costruzione di vv.cc. definite su esiti non numerici. M. Di Marzio ESPERIMENTO ESITO Ispezione macchina Difettosa (d) Non difettosa (nd) Rilevazione metereologica Sereno (s) Nuvoloso (n) Pioggia (p) 19 V.C. { X= 0 1 1 Y= 2 3 MODALITÀ se d se nd {0, 1} se s se n se p {1, 2, 3} Primi elementi di inferenza statistica (ed. maggio 2012) 3.1. Variabili casuali Così i valori della tavola possono essere riassunti con la seguente notazione X(d) = 0, X(nd) = 1, Y (s) = 1, Y (n) = 2, Y (p) = 3. Per rendere generale il concetto di v.c., diciamo che anche sugli esiti numerici sono definite vv.cc., solo che in questo caso esse sono funzioni identità, cioè funzioni tali che f (x) = x. Esempio 3.3. Nella tabella viene riportata la costruzione di una v.c. che descrive un esperimento con esiti quantitativi che, evidentemente, è una funzione identità. ESPERIMENTO Numero figli ESITO V.C. 0 X= 1 2 0, 1, 2 MODALITÀ se 0 se 1 se 2 {0, 1, 2} Qui avremo X(0) = 0, X(1) = 1, X(2) = 2. In generale, data la v.c. X, l’evento X ∈ B definito sull’asse dei reali corrisponde nello spazio fondamentale Ω all’evento {ω ∈ Ω : X(ω) ∈ B}. Così, definita una v.c. X, lo studio dell’esperimento casuale viene condotto non più sugli esiti ω ma sulle modalità x = X(ω). Ovviamente Due vv. cc. X e Y definite sullo stesso spazio fondamentale Ω si dicono uguali se per ogni ω ∈ Ω abbiamo X(ω) = Y (ω). In particolare la conoscenza di come le probabilità sono distribuite tra le modalità equivale a sapere come le probabilità sono distribuite tra gli esiti. Così da ora in avanti un esperimento casuale verrà studiato solo indirettamente, tramite la descrizione dell’associata v.c.. Una v.c. X è detta discreta se assume un insieme finito o infinito numerabile di modalità; è detta continua se assume un insieme infinito non numerabile (intervallo continuo) di modalità. Si noti infine che le modalità sono classificabili come eventi incompatibili poichè chiaramente ad ogni esito dell’evento casuale si verifica una e una sola modalità di una data v. c.. Esempio 3.4. Le vv.cc. dell’esempio 3.2 e 3.3 sono tutte vv.cc. discrete. Esempi di vv.cc. continue sono: il tempo, la temperatura, l’intensità della corrente elettrica. Il concetto di v.c. è generalizzato da quello di funzione di v.c.. Sia g una funzione definita sui valori di una v.c. X. Ovviamente la funzione di v.c. Y = g(X) è anch’essa una v.c. poichè Y assumerà il generico valore y a seconda che si verifichino oppure no i valori di X che, una volta trasformati da g, valgano y. Esempio 3.5. La v.c. X descriva il numero di puntini risultante dal lancio di un dado. Sia data la funzione g : {1, 2, ..., 6} → {1, 2} tale che { g(x) = 1 2 se 1 ≤ x < 3 altrimenti. Y = g(X), è una funzione di v.c.. Due importanti funzioni di v.c. che ricorreranno molto spesso nella trattazione successiva sono la v.c. scarto e la v.c. standardizzata, rispettivamente: X − µX , σX X − µX ; dove µX e σX sono due particolari numeri studiati nelle sezioni 3.8 e 3.9. La seconda funzione è di particolare importanza, ad essa è dedicata la sezione 3.12. Altre importanti funzioni di v.c. sono le trasformazioni lineare e quadratica, rispettivamente: Y = aX + b ; Y = X2 dove a e b sono due numeri reali. Primi elementi di inferenza statistica (ed. maggio 2012) 20 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI 3.2 Distribuzioni di probabilità Dato un insieme di numeri reali B, spesso si vuole calcolare P(X ∈ B). Ricordando che le modalità costituiscono eventi incompatibili, una strategia ovvia consiste nel sommare le probabilità associate alle modalità appartenenti a B. Ad esempio, per una v. c. discreta, assumendo che B sia un intervallo [a, b], si scrive ∑ P(X = xi ) {i:a≤xi ≤b} Dove l’espressione {i : a ≤ xi ≤ b} indica l’insieme degli indici appartenenti alle modalità comprese nell’intervallo [a, b]. Così è fondamentale conoscere una funzione (pdf) che specifichi come la probabilità è distributa tra le modalità di X. Se X è discreta, la sua funzione di distribuzione di probabilità, detta pdf, è una legge pX che associa ai valori di X una probabilità non nulla, cioè un numero appartenente all’intervallo (0, 1]. Così, per esempio, se X ha S modalità, si ha: pX : {xi , i = 1, 2, ..., S} → (0, 1], inoltre la somma delle probabilità distribuite tra le modalità è pari a 1. In formule: i) pX (xi ) = P(X = xi ); ii) pX (x) = 0 se x ∈ / {xi , i = 1, 2, ..., S}; ∑S iii) i=1 pX (xi ) = 1. La seconda e la terza proprietà sono espressioni della stesso fatto. Infatti dire ‘è impossibile che X assuma valori diversi da quelli compresi nell’insieme {xi , i = 1, 2, ..., S}’ equivale a dire ‘è certo che X assuma uno dei valori compresi nell’insieme {xi , i = 1, 2, ..., S}’. Se X è continua, la sua pdf, detta funzione di densità di probabilità, è una funzione continua fX che associa la probabilità ad intervalli del tipo [a, b] di qualsiasi lunghezza tramite un integrale definito: ∫ b P(a ≤ X ≤ b) = fX (x)dx, a dove i) fX (x) > 0 se x appartiene all’insieme delle immagini di X, fX (x) = 0 altrimenti; ∫ +∞ ii) −∞ fX (x)dx = 1. ∫b Vediamo ora come ∫l’espressione a fX (x)dx è simile a quella del caso discreto descritto all’inizio del paragrafo. Infatti il simbolo indica una sommatoria di una infinità non numerabile di elementi. Inoltre fX (x)dx ∫b rappresenta l’area di un rettangolo dalla base infinitesima dx e altezza fX (x). Allora a fX (x)dx è una somma nel continuo delle aree di tali intervallini centrati su x per tutte le x comprese tra a e b ed è rappresentabile come area sottesa alla curva di fX (x) nell’intervallo [a, b]. In questo senso fX (x)dx approssima la probabilità di un intervallino infinitamente stretto centrato su x e l’integrale la probabilità associata all’intervallo [a, b]. È importante osservare che nel caso continuo la probabilità che una v.c. assuma un particolare valore è 0; infatti ∫ a P(X = a) = fX (x)dx = 0. a Pertanto, poiché a ≤ X ≤ b = (a < X < b) ∪ {a} ∪ {b}, si ha P(a ≤ X ≤ b) = P(a < X < b) + P(X = a) + P(X = b), e quindi nel caso continuo P(X ∈ [a, b]) = P(X ∈ (a, b)) = P(X ∈ [a, b)) = P(X ∈ (a, b]), cioè la probabilità dell’intervallo non cambia se gli estremi dell’intervallo sono inclusi oppure no. La figura 3.1 riassume la costruzione di vv.cc. discrete e continue e delle relative pdf. Esempio 3.6. Nel seguito viene riportata la distribuzione di probabilità della v.c. discreta X= numero di teste in 3 lanci di moneta bilanciata. M. Di Marzio 21 Primi elementi di inferenza statistica (ed. maggio 2012) 3.2. Distribuzioni di probabilità Figura 3.1: Rappesentazioni di vv.cc. discrete e continue con relative pdf. X 0 1 2 3 pX (x) 1/8 3/8 3/8 1/8 Si ha: pX (−1) = 0; e 3 ∑ pX (1.5) = 0; pX (4) = 0; 1 3 3 1 + + + = 1. 8 8 8 8 pX (x) = x=0 Esempio 3.7. La v.c. continua X ha la seguente pdf { Si ha ∫ ∫ 3 P(1 ≤ X ≤ 3) = ∫ 2 fX (x)dx = 1 ∫ 4 P(3 ≤ X ≤ 4) = 3 ∫ 6 2 3 0dx + 1 e Inoltre se 2 ≤ x ≤ 6 altrimenti. 1/4 0 fX (x) = 2 3 1 x 3 2 1 dx = = − = , 4 4 2 4 4 4 4 1 x 4 3 1 dx = = − = . 4 4 3 4 4 4 6 1 x 6 2 dx = = − = 1. 4 4 2 4 4 Esempio 3.8. Si consideri la v.c. continua X con pdf { fX (x) = Si ha quindi ∫ e−x 0 10 P(0 ≤ X ≤ 10) = se x ≥ 0 altrimenti. e−x dx = −e−x 0 e ∫ +∞ 10 = 1 − e−10 . 0 e−x dx = −e−x 0 +∞ = 1. 0 Circa le pdf di funzioni di v.c., si noti come, ricordando la loro definizione (sez. 3.1), la pdf di una funzione di v.c. Y = g(X) resta definita a partire da quella di X. Così a seconda se X sia discreta o continua, scriviamo ∫ ∑ P(Y = y) = pX (xi ), P(Y ∈ B) = fX (x) dx {x:g(x)∈B} {i:y=g(xi )} dove B rappresenta un intervallo di valori di Y . Esempio 3.9. Di seguito due pdf di funzioni di v.c. discreta. • Con riferimento all’esempio 3.5 la funzione di v.c. Y = g(X) ha la seguente pdf: pY (1) = pX (1) + pX (2) = 2/6 e pY (2) = pX (3) + pX (4) + pX (5) + pX (6) = 4/6. • La v.c. X abbia la seguente pdf Primi elementi di inferenza statistica (ed. maggio 2012) 22 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI X −2 1 2 4 pX (x) 1/10 2/10 3/10 4/10 si consideri la funzione reale g(x) = x2 . Di seguito la pdf della v.c. Y = g(X). Y 1 4 16 pY (y) 2/10 4/10 4/10 3.3 Famiglie parametriche Si consideri una v.c. X la cui pdf dipende da un insieme di valori caratteristici θ = (θ1 , θ2 , ..., θk ). Per indicare tale relazione di dipendenza della pdf da θ scriveremo rispettivamente pX (·; θ) e fX (·; θ) per le pdf di vv.cc. discrete e continue. La quantità θ è detta parametro della pdf. Quindi, indicato con Θ ⊆ Rk lo spazio parametrico, cioè l’insieme dei possibili valori che il parametro θ può assumere, la collezione {pX (·, θ) : θ ∈ Θ ⊆ Rk } definisce al variare di θ una famiglia parametrica di pdf nel caso discreto. Analogamente, nel caso continuo la famiglia parametrica di pdf sarà definita da {fX (·, θ) : θ ∈ Θ ⊆ Rk }. Esempio 3.10. Sia X una v.c. discreta la cui pdf, che dipende da un numero intero positivo n (scriveremo n ∈ Z+ ), { è data da: pX (x) = pX (x; n) = 1/n se x = 1, 2, ..., n 0 altrimenti. Allora, al variare di n, la collezione {pX (·; n) : n ∈ Z+ }, definisce una famiglia parametrica di pdf. Esempio 3.11. Sia X una v.c. continua la cui pdf, che dipende da un parametro λ > 0, è definita da: { fX (x) = fX (x; λ) = λe−λx se x ≥ 0 0 altrimenti. Allora, al variare di λ, la collezione {fX (·; λ) : λ > 0} definisce una famiglia parametrica di pdf. 3.4 Funzioni di ripartizione Spesso si vuole conoscere la probabilità che la v.c. X assuma un valore inferiore o uguale ad un certo a ∈ R. Tale probabilità viene definita probabilità cumulata. La funzione di ripartizione della v.c. X, indicata con FX (a) = P(X ≤ a), offre la probabilità cumulata di X in corrispondenza di ogni a ∈ R. Se la v.c. X è discreta si ha: ∑ FX (a) = pX (xi ). {i:xi ≤a} Poiché la distribuzione di una v.c. discreta assegna probabilità positiva a modalità tra loro distinte, la funzione di ripartizione è costante al di fuori di esse e ha discontinuità (salti) in loro corrispondenza; l’entità del salto su xi è pari a pX (xi ). Se la v.c. è continua, si ha: ∫ a FX (a) = −∞ fX (x)dx, e la funzione di ripartizione assume la forma di una funzione continua e ovunque derivabile. Ora possiamo dare una definizione alternativa, e molto semplice, di vv. cc. discrete e continue. Infatti diciamo che una v.c. X è discreta se FX è una funzione a scalini, continua se invece FX è funzione continua. Sia nel caso discreto che in quello continuo la funzione di ripartizione: M. Di Marzio 23 Primi elementi di inferenza statistica (ed. maggio 2012) 3.4. Funzioni di ripartizione 1. è non decrescente, ossia FX (a) ≤ FX (b) per a < b ; 2. FX (−∞) = limx→−∞ FX (x) = 0 ; 3. FX (+∞) = limx→+∞ FX (x) = 1. La funzione di ripartizione rende semplice il calcolo di probabilità di eventi che sono intervalli o anche unioni o intersezioni di intervalli sulla base delle tre seguenti identità: i) P(X ≤ a) = FX (a); ii) P(X > a) = 1 − FX (a); iii) P(a < X ≤ b) = FX (b) − FX (a). Si aggiunga che, ai fini del calcolo della probabilità dell’evento X ∈ E, è molto più semplice usare le regole qui sopra piuttosto che sommare le singole probabilità associate a tutti valori di X inclusi in E (che, molto spesso, hanno addirittura cardinalità infinita non numerabile). Esempio 3.12. Di seguito sono riportati i valori della funzione di ripartizione in corrispondenza dei valori assunti dalla v.c. X dell’esempio 3.6 X 0 1 2 3 pX (x) 1/8 3/8 3/8 1/8 FX (x) 1/8 4/8 7/8 1 Quindi si ha: FX (−1000) = 0; FX (1.5) = 4/8; FX (2.3) = 7/8; FX (10000) = 1. Per la v.c. X introdotta nell’esempio 3.7 la funzione di ripartizione è invece così definita ∫ a 1 a−2 FX (a) = dx = , 4 4 2 e risulta FX (−10) = 0; FX (1) = 0; FX (4) = 1/2; FX (50) = 1. Infine, la funzione di ripartizione della v.c. X introdotta nell’esempio 3.8 è ∫ a e−x dx = 1 − e−a , FX (a) = 0 e risulta FX (−200) = 0; FX (−1) = 0; FX (4) = 1 − e−4 ; FX (50) = 1 − e−50 ≃ 1. Dalle definizioni di funzione di ripartizione e funzione di densità si evince facilmente che esiste una regola per passare dalla funzione di ripartizione alla funzione di densità. Distinguiamo i casi discreto e continuo. ⋄ Caso Discreto Se X è una v.c. discreta, e se ne conosce la funzione di ripartizione, la relativa pdf è data dalla differenza tra due valori successivi della funzione di ripartizione: pX (xj ) = FX (xj ) − FX (xj−1 ) = [pX (x1 ) + pX (x2 ) + ... + pX (xj )] − [pX (x1 ) + pX (x2 ) + ... + pX (xj−1 )]. ⋄ Caso Continuo Se X ∫ x ha pdf continua che assume valori tra a e b, e si conosce la sua funzione di ripartizione FX (x) = a fX (u)du, allora per il teorema fondamentale del calcolo integrale si ha che la pdf è uguale alla derivata della funzione di ripartizione, ossia per ogni x ∈ (a, b) risulta fX (x) = F′X (x). Primi elementi di inferenza statistica (ed. maggio 2012) 24 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI Esempio 3.13. Si consideri la v.c. X dell’esempio 3.6. Si ha pX (2) = FX (2) − FX (1) = Se X è una v.c. continua che assume valori nell’intervallo 0 x−2 FX (x) = 6 1 7 4 3 − = . 8 8 8 (2, 8) con funzione di ripartizione se x ≤ 2 se 2 < x < 8 se x ≥ 8 allora per ogni valore di x appartenente all’intervallo (2, 8), fX (x) = F′X (x) = 1/6, mentre, per x ≤ 2 o x ≥ 8 fX (x) = 0. Se X è una v.c. continua che assume valori in [0, +∞) con funzione di ripartizione FX (x) = 1 − e−x , allora la sua funzione di densità nel punto x = 3 è pari a fX (3) = F′X (3) = e−3 . 3.5 Variabili casuali identicamente distribuite In questa sezione introduciamo una fondamentale definizione per la statistica, e cioè quella di vv. cc. identicamente distribuite. Due vv. cc. X e Y si dicono identicamente distribuite se, dato un qualsiasi insieme di numeri reali E, P(X ∈ E) = P(Y ∈ E), o, in altri termini, se FX (a) = FY (a) per ogni numero reale a. Si noti che il concetto di identica distribuzione è diverso da quello di uguaglianza, cioè FX = FY non implica affatto che X = Y . Esempio 3.14. Si abbia come esperimento casuale il lancio di tre monete, e su di esso siano definite le due vv. cc. X = numero di teste osservate; Y = numero di croci osservate. Risulta evidente che per ogni k = 0, 1, 2, 3 abbiamo P(X = k) = P(Y = k). Così X e Y sono identicamente distribuite, ma addirittura per nessun elemento ω dello spazio fondamentale Ω abbiamo X(ω) = Y (ω) e quindi non sono uguali. 3.6 Moda Come le distribuzioni statistiche, anche le pdf sono descritte tramite valori sintetici aventi generalmente una semplice espressione ma un forte contenuto informativo. Tra i principali valori sintetici abbiamo: moda, quantili, valore atteso, varianza, scarto quadratico medio e coefficiente di variazione. Moda, valore atteso e mediana indicano la posizione della distribuzione, costituendone altrettante definizioni di centro. Invece varianza, scarto quadratico medio e coefficiente di variazione indicano in che misura la massa della probabilità è dispersa intorno al valore atteso. Della moda ci occupiamo in questa sezione. Data una v.c. X, si definisce moda quella modalità in cui pX (o, nel caso continuo, fX ), raggiunge il suo massimo. Una pdf è detta multimodale se raggiunge il suo massimo in più di un punto. 3.7 Quantili q ∈ (0, 1). Data una v.c. X discreta, la generica sua modalità xi per cui FX (xi ) = q, si definisce quantile di ordine q. Si noti quindi che nel caso discreto non esiste sempre un quantile per qualsiasi q ∈ [0, 1]. Se invece X è una v.c. continua, il quantile di ordine q è definito come quella modalità ξ tale che FX (ξ) = q . Esempio 3.15. Il quantile di ordine 0.3 dell’esempio 3.6 è pari a 1; mentre il quantile di ordine 0.3 dell’esempio 3.7 vale 3.2; infine il quantile di ordine 0.5 dell’esempio 3.8 è pari a 0.693. Il quantile ha nomi specifici a seconda della forma di q: se q è espresso in decimi è anche detto decile, se q è espresso in centesimi è detto centile, infine se q è espresso in multipli di 0.25 è detto quartile. Decili, centili e quartili hanno un numero d’ordine. M. Di Marzio 25 Primi elementi di inferenza statistica (ed. maggio 2012) 3.8. Valore atteso Esempio 3.16. Il terzo decile è quel numero ξ tale che FX (ξ) = 0.3, oppure il quarantunesimo centile è quel numero ξ tale che FX (ξ) = 0.41, infine il terzo quartile è quel numero ξ tale che FX (ξ) = 0.75. Il secondo quartile1 si chiama mediana. Quindi la mediana è un numero che ha metà massa alla sua destra e metà massa alla sua sinistra. Ciò giustifica l’uso del termine ‘mediana’. Infine si consideri un numero α ∈ (0, 1), si definisce quantile superiore di ordine α, e si indica con ξα , quel numero ξ tale che 1 − FX (ξ) = α . La parola superiore indica che l’area α si trova a destra di ξ non a sinistra come accade per il quantile. Esempio 3.17. Il quantile superiore di ordine 1/8 dell’esempio 3.6 è pari a 2; mentre il quantile superiore di ordine 0.3 dell’esempio 3.7 vale 4.8; infine il quantile superiore di ordine 0.5 dell’esempio 3.8 è pari a 0.693. 3.8 Valore atteso Il valore atteso di una v.c. X, indicato con µX o E[X], rappresenta il centro della distribuzione intorno al quale sono dislocati i valori di X. Se la v.c. X è discreta e assume s modalità, il suo valore atteso è dato dalla somma dei prodotti di ciascuna modalità xi per la sua probabilità pX (xi ), quindi è una media ponderata delle modalità, dove i coefficienti di ponderazione sono le probabilità: µX = E[X] = s ∑ xi pX (xi ). i=1 Similmente, il valore atteso di una v.c. continua è: ∫ µX = E[X] = +∞ −∞ xfX (x) dx. Evidentemente l’operatore valore atteso E2 si usa indifferentemente per vv.cc. discrete o continue, così permettendo una trattazione unificata. Esempio 3.18. Determinare il valore atteso della v.c. X con pdf { 1/12 se 2 < x < 14 0 altrimenti . fX (x) = Si ha ∫ E[X] 14 xfX (x) dx = ∫ 2 14 x = 2 1 1 x2 dx = 12 12 2 14 =8. 2 Ricordando quanto detto nelle sezioni precedenti, resta naturalmente definito il valore atteso di una funzione di v.c. Y = g(X). In particolare E[g(X)] sarà pari a s ∑ ∫ g(xi )pX (xi ) +∞ o −∞ i=1 g(x)fX (x) dx a seconda che X sia discreta con s modalità, oppure continua. Esempio 3.19. Calcoliamo il valore atteso della v.c. Y dell’esempio 3.5: E[Y ] = E[g(X)] = 6 ∑ g(xi )pX (xi ) = 1 × i=1 1 1 1 1 1 10 1 +1× +2× +2× +2× +2× = . 6 6 6 6 6 6 6 Segue il calcolo dei valori attesi di alcune trasformazioni lineari di vv.cc.. 1 Anche 2 Il detto quinto decile oppure cinquantesimo centile. simbolo E deriva dal termine inglese Expectation. Primi elementi di inferenza statistica (ed. maggio 2012) 26 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI i) Dato un numero a ∈ R, µa = a; questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per una v.c. chiamata costante. Risulta allora evidente che il valore atteso di una costante a non può che essere la costante stessa. ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora: µY = aµX . Infatti poichè una costante moltiplicativa a può essere ‘portata fuori’ sia dalla sommatoria sia dall’integrale (a seconda che X sia discreta o continua) (sezz. A.5 e A.14), abbiamo µY = E[aX] = aE[X] = aµX . iii) Se invece Y = X + a, allora: µY = µX + a; dimostriamo tale proprietà per il caso discreto (X ha s modalità), il caso continuo è del tutto simile. Per quanto già appreso circa il valore atteso di una funzione di v.c. abbiamo E[Y ] = E[g(X)] = s ∑ g(xi )pX (xi ) = i=1 s ∑ (xi + a)pX (xi ) i=1 ovviamente la sommatoria può essere espressa come somma di due somme, inoltre ‘portando fuori a’, e ricordando che la somma delle probabilità è 1, otteniamo E[Y ] = s ∑ xi pX (xi ) + i=1 s ∑ apX (xi ) = i=1 s ∑ xi pX (xi ) + a = µX + a. i=1 Ma per la proprietà in questione il valore atteso della v.c. scarto g(X) = X − µ è nullo. iv) Se Y = a + bX con a e b numeri reali, allora: µY = a + bµX ; questo si evince per diretta applicazione delle proprietà precedenti. Esempio 3.20. Si consideri la v.c. X tale che E[X] = 2. Sia Y = 2X + 3. Si ha allora: E[Y ] = E[2X + 3] = 2E[X] + 3 = 2 × 2 + 3 = 7. 3.9 Varianza 2 La varianza di una v.c. X, indicata con σX oppure Var[X], misura il valore atteso degli scostamenti di X da µX , ed è quindi indicativa della dispersione dei valori di X intorno al centro della distribuzione. Come misura dello scostamento si adotta la funzione di v.c. g(X) = (X − µX )2 , così la varianza è data da E[g(x)]. Così, se X è una v.c. discreta con s modalità, si ha 2 σX = Var[X] = s ∑ (xi − µX )2 pX (xi ), i=1 Se invece X è una v.c. continua si ha ∫ 2 σX = Var[X] = +∞ −∞ (x − µX )2 fX (x)dx. Come l’operatore E, Var è utilizzato indifferentemente per vv.cc. discrete e continue, così permettendo una trattazione unificata. Ricaviamo ora una formulazione differente della varianza. Abbiamo appena appreso che Var[X] = E[(X − µX )2 ] M. Di Marzio 27 Primi elementi di inferenza statistica (ed. maggio 2012) 3.9. Varianza da cui è facile dedurre la seguente formulazione alternativa: Var[X] = E[X 2 ] − µ2X . Infatti Var[X] = E[(X − µX )2 ] = E[X 2 + µ2X − 2XµX ] = E[X 2 ] + E[µ2X ] − E[2µ2X ] = E[X 2 ] + µ2X − 2µ2X = E[X 2 ] − µ2X . La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è dato dalla somma dei valori attesi, si veda la sezione 11.1. Lo scarto quadratico medio (s.q.m.) di una v.c. X è definito come la radice quadrata della varianza presa con il segno positivo: √ 2 . σX = σX Lo s.q.m., come la varianza, misura la dispersione della distribuzione della v.c. intorno al suo valore atteso. Però, a differenza di essa, risulta espresso nella stessa unità di misura del carattere: questa proprietà molto importante è uno dei principali motivi del suo frequentissimo impiego. Se non c’è possibilità di equivoco sulla 2 v.c. in uso, si può scrivere σ, σ 2 e µ in luogo di σX , σX e µX . Esempio 3.21. Si calcoli la varianza della v.c. introdotta nell’esempio 3.6. Otteniamo Var[X] = 3 ∑ (x − E[x])2 pX (x) = x=0 = ( )2 ( )2 ( )2 ( )2 3 1 3 3 3 3 3 1 0− + 1− + 2− + 3− 2 8 2 8 2 8 2 8 9 1 1 3 1 3 9 1 3 × + × + × + × = = 0.75. 4 8 4 8 4 8 4 8 4 Esempio 3.22. Sia X una v.c. continua con pdf { fX (x) = Si ha allora ∫ ∫ 10 E[X] = 1/9 0 10 xfX (x) dx = 1 1 se 1 < x < 10 altrimenti. 1 1 x2 x dx = 9 9 2 10 = 1 1 (100 − 1) = 5.5, 18 ma essendo X 2 è una funzione di X, il suo valore atteso sarà ∫ ∫ 10 E[X 2 ] = 10 x2 fX (x) dx = 1 1 1 2 1 x3 x dx = 9 9 3 10 = 1 1 (1000 − 1) = 37, 27 si ottiene Var[X] = E[X 2 ] − µ2X = 37 − (5.5)2 = 6.75. Segue il calcolo delle varianze e s.q.m. di alcune trasformazioni lineari di vv.cc.. i) Dato un numero a ∈ R, σa2 = 0; σa = 0 questo può essere facilmente compreso se si pensa ad a come all’unica realizzazione possibile per una v.c. chiamata costante. Risulta allora evidente che la varianza di a è nulla. ii) Data una v.c. X, discreta o continua, si consideri la funzione Y = aX, allora: 2 σY2 = a2 σX ; σY = aσX . Primi elementi di inferenza statistica (ed. maggio 2012) 28 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI Infatti σY2 = E[(Y − E[Y ])2 ] = E[(aX − aE[X])2 ] = E[a2 (X − E[X])2 ] ma poichè sia dalla sommatoria sia dall’integrale (a seconda che X sia discreta o continua) una costante moltiplicativa a può essere ‘portata fuori’ (sezz. A.5 e A.14), si ha 2 σY2 = a2 E[(X − E[X])2 ] = a2 σX . iii) Se invece Y = X + a, allora: 2 σY2 = σX ; σY = σ X . Infatti σY2 = E[(Y − E[Y ])2 ] = E[(X + a − E[X + a])2 ] = E[(X + a − E[X] − a)2 ] = E[(X − E[X])2 ] 2 = σX . iv) Se Y = a + bX con a e b numeri reali, allora: 2 σY2 = b2 σX ; σY = bσX questo si evince per diretta applicazione delle proprietà precedenti. 3.10 Coefficiente di variazione Quando si vuole confrontare la variabilità di due vv.cc. non è corretto effettuare il confronto tramite varianza o s.q.m. poiché il valore di questi ultimi è influenzato dalla media del carattere o dalla unità di misura, le quali, invece, non dovrebbero giocare alcun ruolo nel confronto delle variabilità. Così differenti medie o unità di misura rendono spesso inutile l’uso di varianza o s.q.m., come negli esempi che seguono. Esempio 3.23. L’intuito ci suggerisce che 3 kg di s.q.m. tra i pesi dei neonati indica una variabilità di gran lunga maggiore di 4 kg di s.q.m. di tra i pesi delle madri. Sapere che lo s.q.m. della distribuzione del reddito in Giappone vale 1000 Yen mentre in Italia vale 1000 Euro, non è sufficiente per affermare che la variabilità del reddito nelle due nazioni è identica. Allora si deve ricorrere a un indice che non risenta nè dell’influenza dell’intensità media nè dell’influenza dell’unità di misura. Un indice di tal genere è il coefficiente di variazione: CV [X] = σX µX Esempio 3.24. Si considerino due vv.cc. X e Y . si vuole giudicare quale tra fX e fY presenta più variabilità a giudicare dai seguenti dati. µX = 2 , 2 σX = 16 ; µY = 6 , σY2 = 81 . Concludiamo che in fX c’è più variabilità poichè CV[X] = 2 mentre CV[Y ] = 1.5. Di certo il semplice confronto tra varianze avrebbe favorito di gran lunga la conclusione opposta. Un vantaggio del coefficiente di variazione è che esso è un numero puro, cioè non è espresso in termini di unità di misura. Purtroppo è però inapplicabile se la media è nulla o negativa. Infine un ulteriore inconveniente è che risulta troppo ‘sensibile’, e quindi poco indicativo se la media è vicina allo zero. Data una v.c. X e un numero a, si definisca la funzione Y = aX. Allora X e Y hanno lo stesso coefficiente di variazione: aσX σX CV[X] = = = CV[Y ]. aµX µX M. Di Marzio 29 Primi elementi di inferenza statistica (ed. maggio 2012) 3.11. Disuguaglianza di Chebyshev 3.11 Disuguaglianza di Chebyshev Siano dati una v.c. X e un numero reale positivo t; definiamo evento raro l’insieme dei valori di X la cui distanza dalla media µX , misurata come |x − µX |, valga almeno t, cioè {x : |x − µX | ≥ t} = (−∞, µX − t] ∪ [µX + t, +∞). Spesso è utile determinare la probabilità dell’evento raro, cioè P(|X − µX | ≥ t) , chiaramente questa probabilità determina anche la probabilità dell’evento complementare come P(|X − µX | < t) = 1 − P(|X − µX | ≥ t). Ovviamente occorre conoscere la pdf di X, ad esempio nel caso continuo abbiamo ∫ P(|X − µX | ≥ t) = ∫ µX −t −∞ +∞ fX (x) dx + fX (x) dx. µX +t Purtroppo a volte non è possibile determinare la pdf di una v.c., ma se ne conoscono solo valore atteso e varianza. La disuguaglianza di Chebyshev consente in questi casi di determinare valori massimi (risp. minimi) delle probabilità di eventi rari (risp. dei complementi degli eventi rari). 2 Sia X una v.c. con valore atteso µX e varianza σX , allora per ogni numero reale t > 0, si ha la seguente disuguaglianza di Chebyshev σ2 P(|X − µX | ≥ t) ≤ X . t2 Dato un numero reale k e posto t = kσX , se ne ottiene una formulazione più semplice P(|X − µX | ≥ kσX ) ≤ 1 , k2 ossia la probabilità che la v.c. X si discosti dal suo valore atteso di almeno k unità di s.q.m. è al più uguale a 1/k 2 . D’altro canto se si considera il complemento dell’evento raro si ha P(|X − µX | ≥ kσX ) ≤ 1 k2 ⇔ P(|X − µX | < kσX ) ≥ 1 − 1 , k2 così la probabilità che X si discosti dal suo valore atteso meno di k unità di s.q.m. è almeno pari a 1 − 1/k 2 . La disuguaglianza di Chebyshev è importante sia perché è valida per qualunque variabile casuale, sia perchè per applicarla basta conoscere valore atteso e varianza, non necessariamente la funzione di densità. Da ultimo si osservi che, affinché tale disuguaglianza sia informativa, è necessario che κ sia scelto maggiore di 1. Esempio 3.25. Supponiamo che una banca riceva in media 500 clienti al giorno con una varianza di 100. Si vuole calcolare la probabilità che nella giornata di domani, la banca riceverà tra i 300 ed i 700 clienti. A tale scopo sia X il numero dei clienti che la banca riceverà domani. Allora la probabilità cercata è P(300 < X < 700). Poiché si conosce che E[X] = 500 e Var[X] = 100, e poiché P(300 < X < 700) = P(−200 < X − 500 < 200) = P(|X − 500| < 200) = 1 − P(|X − 500| ≥ 200), dalla disuguaglianza di Chebyshev discende che P(|X − 500| ≥ 200) ≤ 100 = 0.0025. 2002 Si ha pertanto P(300 < X < 700) = P(|X − 500| < 200) ≥ 1 − 0.0025 = 0.9975. Primi elementi di inferenza statistica (ed. maggio 2012) 30 M. Di Marzio 3. VARIABILI CASUALI SEMPLICI 3.12 Variabili casuali standardizzate Un’importante trasformazione lineare di vv.cc. è la standardizzazione. Data una v.c. X, la v.c. X ∗ ottenuta sottraendo ad X il suo valore atteso e dividendo tale differenza per lo s.q.m. è definita v.c. X standardizzata. Formalmente: X − E[X] X∗ = √ . Var[X] Per la v.c. X ∗ si ha: Infatti E[X ∗ ] = 0 e Var[X ∗ ] = 1. [ ] X − E[X] E[X] − E[X] E[X ] = E √ = √ = 0, Var[X] Var[X] ] [ Var[X] Var[X] X − E[X] = √ = = 1. Var[X ∗ ] = Var √ 2 Var[X] Var[X] ( Var[X]) ∗ Per effetto della standardizzazione il centro della distribuzione di X diventa 0 e gli scarti dalla media di X vengono espressi in unità di s.q.m.. Si noti che, esprimendo di quante unità di s.q.m. X differisce dal suo valore atteso, la v.c. X ∗ è indipendente dall’unità di misura di X. Esempio 3.26. L’ammontare di pioggia in una data area è descritto da una v.c. X con E[X] = 1 cm e Var[X] = 4 cm2 . Assumiamo che all’ i-esima rilevazione di X risulti xi = 5 cm. Poiché x∗i = (5 − 1)/2 = 2, la distanza di xi dalla media è pari a due volte la deviazione standard di X. L’operazione di standardizzazione risulta molto utile qualora si vogliano confrontare vv.cc. con distribuzioni differenti. Esempio 3.27. Uno studente ha conseguito 26 all’esame di statistica e 30 all’esame di geografia. Assumiamo che la media e lo s.q.m. dei voti di tutti gli studenti siano rispettivamente pari a 22 e 4 per l’esame di statistica mentre queste quantità sono rispettivamente pari a 28 e 4 per l’esame di geografia. Standardizzando si vede che il voto dello studente è più elevato della media di (26 − 22)/4 = 1 unità di s.q.m. per l’esame di statistica e di (30 − 28)/4 = 0.5 per l’esame di geografia: il risultato ottenuto dallo studente all’esame di statistica è quindi relativamente migliore rispetto a quello ottenuto all’esame di geografia. M. Di Marzio 31 Primi elementi di inferenza statistica (ed. maggio 2012) 4 Esercizi svolti Esercizio 4.1. L’esperimento consiste nel lanciare due volte una moneta. Se la v.c. è il numero di teste uscite nei due lanci, qual è: a) il suo dominio; b) la legge di associazione; c) la sua immagine? Soluzione a) Ω = {T T, T C, CT, CC}. b) Contare il numero di teste. c) X = {0, 1, 2}. Esercizio 4.2. L’esperimento consiste nel lanciare due volte un dado. Se la v.c. è il numero di puntini nei due lanci, qual è: a) il suo dominio; b) la legge di associazione; c) la sua immagine? Soluzione a) In Ω abbiamo 36 eventi elementari: Ω = {(1, 1), (1, 2), (1, 3), ..., (6, 4), (6, 5), (6, 6)}. b) Contare il numero di puntini. c) X = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}. Esercizio 4.3. Per ciascuno dei seguenti casi si dica se la variabile è discreta o continua: a) la frequenza cardiaca; b) il tempo tra due decolli di aerei; c) la statura di un individuo; d) la quantità di denaro incassata. Soluzione a) Discreta. b) Continua. c) Continua. d) Discreta. Esercizio 4.4. Consideriamo il lancio di 3 monete e le vv.cc. X = n. di teste uscite; Y = n. di croci uscite; Z = n. di coppie consecutive di teste. Si vince 2 per ogni testa e si paga 1 per ogni croce; definiamo W = guadagno netto nel lancio delle 3 monete. Determinare le pdf di X, Z, Y e W . Soluzione Di seguito l’elenco degli esiti elementari (che sono equiprobabili) con i relativi valori delle vv. cc. Primi elementi di inferenza statistica (ed. maggio 2012) 32 M. Di Marzio 4. ESERCIZI SVOLTI Risultati X Y Z W Probabilità TTT 3 0 2 6 1/8 TTC 2 1 1 3 1/8 TCT 2 1 0 3 1/8 CTT 2 1 1 3 1/8 TCC 1 2 0 0 1/8 CTC 1 2 0 0 1/8 CCT 1 2 0 0 1/8 CCC 0 3 0 -3 1/8 Da questa tavola ricavano le distribuzioni di probabilità sommando le probabilità degli esiti elementari favorevoli alla modalità considerata. Cosi, ad esempio, {X = 1} = {T CC ∪ CT C ∪ CCT }. Per cui P(X = 1) = P (T CC) + P (CT C) + P (CCT ) = 3/8 . X pX (x) 0 1/8 1 3/8 2 3/8 3 1/8 Z pZ (z) 0 1 2 5/8 2/8 1/8 Y pY (y) W pW (w) 0 1 2 1/8 3/8 3/8 -3 0 3 1/8 3/8 3/8 3 1/8 6 1/8 1 1 1 1 Esercizio 4.5. Data la funzione di ripartizione della v.c. discreta X X 0 1 2 3 4 5 FX (xi ) 0 0.2 0.5 0.6 1 1 Determinare la funzione di distribuzione di probabilità in corrispondenza di ciascuna delle modalità xi . Soluzione Poiché la funzione di ripartizione della v.c. ∑ X fornisce la probabilità cumulata di X in corrispondenza di ogni a ∈ R e nel caso discreto FX (a) = pX (xi ), la pdf di X risulta: {i:xi ≤a} X 0 1 2 3 4 5 pX (xi ) 0 0.2 0.3 0.1 0.4 0 Esercizio 4.6. Si consideri la funzione { g(x) = 8 15 ( 1 )x se x = 0, 1, 2, 3 2 0 altrimenti. a) Verificare che g(x) è una pdf. b) Determinare i valori della funzione di ripartizione della v.c X. Soluzione a) Osserviamo innanzitutto che 0 ≤ g(x) ≤ 1 M. Di Marzio ∀ x ∈ {0, 1, 2, 3}, 33 Primi elementi di inferenza statistica (ed. maggio 2012) e ∀x∈ / {0, 1, 2, 3}. g(x) = 0 Occorre ora verificare che 3 ∑ g(x) = 1. x=0 Poiché 3 ∑ g(x) = x=0 = 8 15 ( )0 ( ) ( )2 ( )3 1 8 1 8 1 8 1 + + + 2 15 2 15 2 15 2 4 2 1 8 + + + = 1, 15 15 15 15 si conclude che g(x) è una funzione di distribuzione di probabilità. b) Poiché X è una v.c. distreta, la sua funzione di ripartizione è data da ∑ G(a) = g(xi ), {i:xi ≤a} si ha pertanto X 0 1 2 3 g(x) 8/15 4/15 2/15 1/15 G(xi ) 8/15 12/15 14/15 1 Esercizio 4.7. Determinare i valori delle costanti k1 e k2 tali che le funzioni seguenti siano funzioni di densità di probabilità: a) { g(x) = b) { h(x) = k1 x se 0 < x < 4 0 altrimenti. k2 x2 se 0 < x < 2 0 altrimenti. Soluzione a) Per determinare k1 , utilizziamo la proprietà ∫ ∫ 4 si ha 0 ∫ 4 ⇒ g(x)dx = 1 0 b) Per determinare k2 , utilizziamo la proprietà ∫ ∫ 2 0 ∫2 0 8k1 = 1 k1 = 1 . 8 2 k2 x2 dx = 0 ∫ ⇒ h(x)dx = 1. Poiché 2 h(x)dx = risulta g(x)dx = 1. Poiché k1 2 k1 x = (16 − 0) = 8k1 , 2 2 0 k1 xdx = 0 0 4 4 g(x)dx = ∫4 2 8k2 =1 3 ⇒ h(x)dx = 1 k2 8k2 k2 3 x = (8 − 0) = , 3 3 3 0 0 ⇒ k2 = 3 . 8 Esercizio 4.8. Sia X una v.c. discreta con funzione di ripartizione X 1 2 3 4 5 FX (xi ) 1/15 3/15 6/15 10/15 1 Primi elementi di inferenza statistica (ed. maggio 2012) 34 M. Di Marzio 4. ESERCIZI SVOLTI Determinare la pdf di X. Soluzione Poiché X è una v.c. discreta, per ogni valore x risulta pX (x) = FX (x) − FX (x − 1). Pertanto si ha pX (1) = FX (1) = 1 15 pX (2) = FX (2) − FX (1) = 3 1 2 − = 15 15 15 pX (3) = FX (3) − FX (2) = 6 3 3 − = 15 15 15 pX (4) = FX (4) − FX (3) = 10 6 4 − = 15 15 15 pX (5) = FX (5) − FX (4) = 1 − 5 10 = . 15 15 Si conclude pertanto che la pdf della v.c. X è data da { x/15 se x = 1, 2, 3, 4, 5 pX (x) = 0 altrimenti. Esercizio 4.9. Sia X una v.c. continua con funzione di ripartizione definita da { −(x + 1)e−x + 1 se x ≥ 0 FX (x) = 0 altrimenti. Determinare la pdf di X. Soluzione Poiché X è una v.c. continua, per ogni valore x vale la relazione seguente fX (x) = F′X (x). Si ha pertanto che per x = 0, fX (x) = 0; per x ≥ 0 si ha invece fX (x) = −e−x − (x + 1)(−e−x ) + 0 = −e−x + xe−x + e−x = xe−x . La pdf di X è allora definita da { fX (x) = xe−x se x ≥ 0 0 altrimenti. Esercizio 4.10. Calcolare il valore atteso, la varianza e lo scarto quadratico medio della v.c. X = n. di ipoteche approvate da una banca in una settimana. M. Di Marzio N. ipoteche Probabilità 0 0.10 1 0.10 2 0.20 3 0.30 4 0.15 5 0.10 6 0.05 35 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione µX = E[X] = S ∑ xi pX (xi ) i=1 = (0 × 0.1) + (1 × 0.1) + (2 × 0.2) + (3 × 0.3) + (4 × 0.15) + (5 × 0.1) + (6 × 0.05) = 0 + 0.1 + 0.4 + 0.9 + 0.6 + 0.5 + 0.3 = 2.8; 2 σX = N ∑ (xi − E[xi ])2 pX (xi ) i=1 = (0 − 2.8)2 0.10 + (1 − 2.8)2 0.10 + (2 − 2.8)2 0.20 + (3 − 2.8)2 0.30+ + (4 − 2.8)2 0.15 + (5 − 2.8)2 0.10 + (6 − 2.8)2 0.05 = 0.784 + 0.324 + 0.128 + 0.012 + 0.216 + 0.484 + 0.512 = 2.46; √ σ = 2.46 = 1.57. Esercizio 4.11. Data la v.c. X con funzione di densità di probabilità { 1/12 se 2 < x < 14 fX (x) = 0 altrimenti, determinare: a) E[9X]; b) Var[X + 5]. Soluzione a) Poiché ∫ ∫ 14 E[X] = 14 xfX (x)dx = 2 2 1 1 x2 xdx = 12 12 2 14 = 2 1 (196 − 4) = 8, 24 e E[aX] = aE[X] per un qualsiasi numero reale a, E[9X] = 9E[X] = 9 × 8 = 72. b) Ricordiamo che Var[X] = E[X 2 ] − (E[X])2 . Poichè ∫ 2 ∫ 14 2 E[X ] = x fX (x)dx = 2 2 14 1 x3 1 2 x dx = 12 12 3 14 = 2 1 (2744 − 8) = 76, 36 si ottiene Var[X] = 76 − 64 = 12. Poiché Var[X + a] = Var[X] per un qualsiasi numero reale a, Var[X + 5] = Var[X] = 12. Esercizio 4.12. Si consideri la v.c. X con E[X] = 3 e E[X 2 − 4X] = 5. Sia Y = 2X + 1. Determinare: a) E[Y ]; b) Var[Y ]. Soluzione a) E[Y ] = E[2X + 1] = 2E[X] + 1 = 2 × 3 + 1 = 7. b) Si osservi che E[X 2 − 4X] = E[X 2 ] − 4E[X] = 5 ⇒ E[X 2 ] = 5 + 4E[X] = 5 + 4 × 3 = 17. Da cui si ottiene Var[X] = E[X 2 ] − (E[X])2 = 17 − 9 = 8, e quindi Var[Y ] = Var[2X + 1] = 4Var[X] = 4 × 8 = 32. Primi elementi di inferenza statistica (ed. maggio 2012) 36 M. Di Marzio 5 Principali variabili casuali discrete Indice 5.1 5.2 5.3 5.4 5.5 5.1 Tre esperimenti casuali fondamentali . Variabile casuale binomiale . . . . . . Variabile casuale geometrica . . . . . . Variabile casuale ipergeometrica . . . Variabile casuale di Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 38 39 40 41 Tre esperimenti casuali fondamentali Tantissimi fenomeni aleatori sono ben descritti da uno di tre esperimenti casuali: il bernoulliano, l’ipergeometrico e il poissoniano. Ciascuna delle vv.cc. discrete che verranno introdotte descrivono aspetti di questi esperimenti. Un esperimento casuale si dice bernoulliano se ha due possibili esiti, genericamente chiamati successo (s) e insuccesso (i), con rispettive probabilità indicate come P(s) = π P(i) = 1 − π. e Si parla di n prove bernoulliane quando un esperimento bernoulliano viene ripetuto n volte e la probabilità π è la medesima in ogni prova. Esempio 5.1. Un classico caso di esperimento bernulliano ripetuto consiste nel lanciare diverse volte una moneta. Qui gli esiti incompatibili sono chiaramente testa e croce. L’esperimento ipergeometrico consiste nell’estrarre senza reinserimento un oggetto da una popolazione di oggetti di numerosità finita T . La popolazione è costituita da S elementi di tipo successo, ed I di tipo insuccesso, così T = S + I. Inoltre tutti gli elementi hanno la stessa probabilità di essere estratti alla prima estrazione, che é 1/T . Esempio 5.2. Il controllo in accettazione di una fornitura contiene un classico caso di esperimento ipergeometrico. Infatti da un numero finito di T pezzi se ne estraggono n. Un pezzo può essere difettoso (successo) o non difettoso (insuccesso). Un esperimento casuale si dice poissoniano se si osserva il numero di accadimenti di un evento all’interno di un prefissato intervallo t di tempo o spazio con le seguenti caratteristiche: 1) i numeri di accadimenti in due separati intervalli t1 e t2 sono indipendenti; 2) sono teoricamente possibili anche infiniti accadimenti quantunque piccolo sia l’intervallo di osservazione t, ma per valori di t molto piccoli una singola occorrenza è più probabile di due o più; 3) esiste un tasso λ di occorrenza media dei successi per unità di tempo, noto ed empiricamente determinato. Allora si deduce che il numero di accadimenti atteso nell’unità di tempo t è λt. Esempio 5.3. Due classici esperimenti poissoniani sono: a) osservazione del numero di difetti o non conformità in un’unità di prodotto quando non ci sono fattori sistematici a provocarli; b) osservazione del numero di chiamate che arrivano ad un centralino durante un prefissato periodo t. M. Di Marzio 37 Primi elementi di inferenza statistica (ed. maggio 2012) n=7 π=0.5 0.2 n=50 π=0.3 p(x;n,π) p(x;n,π) p(x;n,π) 5.2. Variabile casuale binomiale n=50 π=0.1 0.15 0.08 0.15 0.1 .1 0.04 0.05 0.05 0 0 2 4 6 x 0 0 7 20 40 0 0 x 50 20 40 50 x Figura 5.1: Distribuzioni binomiali con diversi valori dei parametri n e π. 5.2 Variabile casuale binomiale La v.c. binomiale conta il numero di successi in n prove bernoulliane. In formule X : Ω → [0, 1, ..., n] dove Ω è uno spazio prodotto. In particolare 2n esiti n f attori z }| { z }| { Ω = (s, i) × (s, i)... × (s, i) = {(iii...i), (iii...s), ..., (iss...s), (sss...s)}. Quindi lo spazio fondamentale è costituito da 2n esiti, ovvero tutte le possibili sequenze di lunghezza n in cui compaiono le modalità di un carattere dicotomico. La v.c. X binomiale ha la seguente pdf con parametri n e π { (n) x n−x se x = 0, 1, ..., n x π (1 − π) pX (x; n, π) = 0 altrimenti, e si scrive X ∼ B(n, π). Qui Θ = [1, 2, ..., n] × (0, 1). Valore atteso e varianza sono rispettivamente E[X] = nπ e Var[X] = nπ(1 − π). Il caso particolare con B(1, π), cioè pX (x; π) = π x (1 − π)1−x x ∈ {0, 1} π ∈ [0, 1]. è detto distribuzione di Bernoulli. Qui valore atteso e varianza sono pari a E[X] = π e Var[X] = π(1 − π). Spieghiamo adesso l’espressione di pX (x; n, π), cioè la probabilità ( ) di x successi in n prove. L’evento ‘x successi in n prove’ è formato dall’insieme delle nx possibili sequenze di lunghezza n ognuna contenenti x successi 1 . Poichè le n prove sono esperimenti casuali indipendenti, allora gli eventi associati a prove differenti sono indipendenti. Di conseguenza, applichiamo il teorema delle probabilità composte per eventi indipendenti per ottenere la probabilità della generica sequenza favorevole caratterizzata da n elementi e x successi: P(10001101.....1010) = π(1 − π)(1 − π)(1 − π)ππ(1 − π)π.....π(1 − π)π(1 − π) = π x (1 − π)(n−x) ; ( ) infine, si noti che le nx sequenze sono tra loro incompatibili ed equiprobabili, così, applicando il terzo assioma della probabilità, si ha: ( ) n x x n−x x n−x x n−x pX (x; n, π) = π (1 − π) + π (1 − π) + ... + π (1 − π) = π (1 − π)n−x . | {z } x (nx) addendi 1 Combinazioni di n posti in gruppi di x. Primi elementi di inferenza statistica (ed. maggio 2012) 38 M. Di Marzio 5. PRINCIPALI VARIABILI CASUALI DISCRETE Esempio 5.4. Un dado regolare viene lanciato 10 volte. Calcoliamo la probabilità di ottenere 4 numeri maggiori o uguali a 5. Si ha immediatamente ( ) 10 pX (4; 10, 2/6) = (2/6)4 (1 − 2/6)10−4 = 0.228. 4 Dalla figura 5.1 notiamo che la distribuzione binomiale è simmetrica se π = 0.5, inoltre al crescere di n essa tende ad assumere la forma di una curva normale (sez. 7.2) con media nπ e varianza nπ(1 − π) per effetto del teorema centrale del limite (sezione 11.5). Sempre dalla figura 5.1 ricaviamo che tale convergenza di pX (·; n, π) alla normale sarà tanto più lenta quanto più π è diverso da 0.5. 5.3 Variabile casuale geometrica Si consideri l’esperimento che consiste nel ripetersi di una prova bernoulliana fino al primo successo. La v.c. geometrica conta il numero di insuccessi che si verificano prima del primo successo. Formalmente abbiamo X : Ω → [0, 1, 2, ..., +∞) dove Ω = {s, is, iis, iiis, iiiis, iiiiis, ...}. Se X è geometrica e la probabilità dell’insuccesso è 1 − π, allora la sua distribuzione di probabilità sarà { π(1 − π)x se x = 0, 1, ... pX (x; π) = 0 altrimenti, e si scrive X ∼ G(π). Qui Θ = (0, 1). Il valore atteso e la varianza sono: E[X] = 1−π π e Var [X] = 1−π . π2 La funzione di ripartizione della v.c. geometrica è FX (k) = 1 − (1 − π)k+1 per ogni k intero positivo. Ciò è evidente se si considera che FX (k) = P(X ≤ k) = 1 − P(X > k), ma P(X > k) è la probabilità che le prime k + 1 prove siano insuccessi, cioè (1 − π)k+1 . Infine la probabilità che siano necessarie almeno k + 1 estrazioni per ottenere il primo successo è uguale alla probabilità che le prime k prove siano risultate tutte degli insuccessi, in formule: P(X ≥ k) = (1 − π)k . Esempio 5.5. Un’urna contiene 10 palline nere e 5 palline bianche. Viene estratta una pallina alla volta con reinserimento fino a quando esce una pallina nera. Calcolare a) la probabilità di estrarre esattamente 4 palline; b) la probabilità di estrarre almeno 3 palline. Dato che π = 10/15, abbiamo a) ( P(X = 3) = 5 15 )3 b) 10 = 0.0242; 15 [ ] 10 5 10 P(X ≥ 2) = 1 − P(X < 2) = 1 − + = 0.11. 15 15 15 Si osservi che la probabilità che escano almeno 3 palline corrisponde alla probabilità che nelle prime 2 prove escano esattemente 2 palline bianche. La figura 5.2 riporta alcuni esempi di distribuzione geometrica. Come appare intuitivo, al diminuire di π la distribuzione geometrica tende ad appiattirsi ed ingrossare la coda. Infatti se la probabilità del successo diminuisce, sequenze di insuccessi relativamente più lunghe diventano più probabili. Si osservi che per π = 0.8 si hanno probabilità significativamente diverse da zero fino a 3, per π = 0.4 questo accade fino a 8, infine per π = 0.1 questo accade fino a oltre 40. Infine, poiché se x = 0 allora π(1 − π)x = π, e se x > 0 allora π(1 − π)x < π, ne consegue che la moda è sempre nel punto 0. Un’ importante proprietà di cui gode la M. Di Marzio 39 Primi elementi di inferenza statistica (ed. maggio 2012) 0.08 0.4 p(x,π) 0.1 p(x;π) p(x;π) 5.4. Variabile casuale ipergeometrica 0.3 0.6 π=0.1 0.06 0.8 π=0.4 π=0.8 0.2 0.4 0.1 0.2 0.04 0.02 0 0 10 20 30 40 x 0 0 50 5 10 x 15 0 0 1 2 3 4 x 5 Figura 5.2: Distribuzioni geometriche con diversi valori del parametro π. distribuzione geometrica è quella dell’ assenza di memoria. Una v.c. X che misura i tempi di attesa del primo successo si definisce priva di memoria se P(X ≥ t + s|X ≥ t) = P(X ≥ s) . Così se per il primo successo si è già atteso fino a t, questo non cambia la probabilità di attendere ancora un tempo pari a s. In altre parole: la probabilità che trascorra ancora un periodo di lunghezza s dopo che è trascorso un periodo di lunghezza t è uguale alla probabilità che l’attesa duri in tutto s2 . Per dimostrare che la v.c. geometrica è priva di memoria ricordiamo che per questa vale P(X ≥ k) = (1−π)k , allora P(X ≥ t + s ∩ X ≥ t) P(X ≥ t) P(X ≥ t + s) = P(X ≥ t) (1 − π)t+s = (1 − π)t = (1 − π)s = P(X ≥ s). P(X ≥ t + s|X ≥ t) = 5.4 Variabile casuale ipergeometrica Si considerino n prove di un esperimento ipergeometrico. La v.c. ipergeometrica conta il numero degli oggetti di tipo successo verificatisi nelle n prove. In formule X : Ω → [0, 1, ..., n] dove Ω = tutte le combinazioni di T oggetti presi a gruppi di n. Posto I = T − S, la v.c. ipergeometrica ha la seguente pdf di parametri T, S, n (S )( I ) x ( n−x se x = 0, 1, ..., n ) T n pX (x; T, S, n) = 0 altrimenti, e si scrive X ∼ I(T, S, n). Qui Θ = [1, 2, ..., T ] × [1, 2, ..., S] × [1, 2, ..., n]. Valore atteso e varianza sono rispettivamente pari a E[X] = n × S ; T e Var[X] = n × S T −S T −n × × . T T T −1 Si noti la similitudine con media e varianza della pdf binomiale. Ponendo π = S/T , si potrebbe dire che l’unica differenza è nella varianza. Infatti la varianza della ipergeometrica è corretta con il fattore (T − n)/(T − 1) 2 Nella pratica l’assenza di memoria è un requisito difficile da riscontrare. Infatti l’esperienza comune suggerisce che tanto più lungo è il tempo trascorso, tanto più corta sarà l’attesa resuidua. Primi elementi di inferenza statistica (ed. maggio 2012) 40 M. Di Marzio T=10 n=5 S=4 0.4 0.3 T=10 n=7 S=4 0.5 0.4 0.3 0.2 2 3 4 x5 0 0 0.3 0.1 0.1 1 T=10 n=6 S=6 0.4 0.2 0.2 0.1 0 0 0.5 p(x;T,n,S) 0.5 p(x;T,n,S) p(x;T,n,S) 5. PRINCIPALI VARIABILI CASUALI DISCRETE 1 2 3 4 0 0 x 1 2 3 4 5 6 x 7 Figura 5.3: Distribuzioni ipergeometriche con diversi valori dei parametri T , n e S. dovuto al fatto che la popolazione è finita. Chiaramente, se T → +∞ quando sia S/T sia n sono fissati, allora le prove divengono indipendenti e la geometrica tende a coincidere con la binomiale. Questo si vede già dal fatto che T −n lim = 1. T →∞ T − 1 Poiché gli individui della popolazione hanno per ipotesi tutti la stessa probabilità di essere estratti, tutte le possibili n-ple sono equiprobabili, così alla formula ipergeometrica si perviene applicando la concezione classica della probabilità: al numeratore abbiamo il numero di casi favorevoli, mentre al denominatore il numero dei casi possibili. In particolare: ⋄ Denominatore: poiché si tratta di un esperimento ipergeometrico, il numero di casi possibili è dato da T Cn (sez. B.2). Infatti tutte le possibili n-ple senza reiserimento, dove si conta il numero di successi, differiscono solo per la presenza di almeno un oggetto e quindi sono combinazioni. ⋄ Numeratore: il numero di casi favorevoli si ottiene con il seguente ragionamento: a) Si calcola il numero di modi in cui x esiti favorevoli si possono estrarre dagli S esiti favorevoli presenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari a S Cx . b) Si calcola il numero di modi in cui n − x esiti non favorevoli si possono estrarre dagli I esiti non favorevoli presenti nel collettivo. Questo, poichè l’estrazione è senza reinserimento, sarà pari a I Cn−x . c) L’accostamento di una qualsiasi combinazione delle S Cx con una qualsiasi delle I Cn−x combinazioni costituisce un caso favorevole, così il numero di tutti i casi favorevoli è dato dal prodotto S Cx ×I Cn−x . In definitiva: pX (x; T, S, n) = S Cx ×I Cn−x = T Cn (S )( x I (Tn−x ) n ) . Esempio 5.6. Un chimico ha commesso 25 errori in 500 esperimenti indipendenti tra loro. Un secondo chimico controlla casualmente 7 di questi esperimenti. Qual è la probabilità che individui 2 errori? Indichiamo con X il numero di errori trovati dal secondo chimico. X si distribuisce come una ipergeometrica con S = 25, T = 500, n = 7, x = 2 e I = T − S = 475. Quindi ( )( ) P(X = 2) = pX (2; 500, 25, 7) = 25 2 475 (5007−2 ) ≃ 0.04. 7 La figura 5.3 riporta alcuni esempi di distribuzione ipergeometrica. In alcuni casi la probabilità è nulla. Ciò si verifica quando il campione è più numeroso degli elementi ‘insuccesso’ presenti nella popolazione. Infatti se T = 10, n = 7, e S = 4 allora si deve avere almeno un successo poiché n = 7 e I = 6. Così come se T = 10, n = 6, e S = 6 è impossibile avere meno di due successi poiché n = 6 e I = 4. 5.5 Variabile casuale di Poisson Si consideri un esperimento poissoniano con parametri λ e t. La v.c. di Poisson conta gli esiti che accidentalmente si manifestano nell’intervallo continuo t. In formule X : Ω → [0, 1, ..., +∞) M. Di Marzio 41 Primi elementi di inferenza statistica (ed. maggio 2012) 5.5. Variabile casuale di Poisson dove Ω è l’insieme di tutti i possibili conteggi di accadimenti nel periodo t, ossia: Ω = {0, 1, 2...}. La v.c. di Poisson ha distribuzione di probabilità pari a −λt x e (λt) x! pX (x; λt) = 0 se x = 0, 1, ... altrimenti, e si scrive X ∼ P(λt). Qui Θ = (0, +∞). Inoltre: λt=2 p(x;λt) p(x;λt) p(x;λt) 0.2 0.3 λt=20 0.08 λt=5 0.2 0.1 0.08 0.1 0 0 2 4 6 8 x 10 0 0 5 10 x 15 0 0 5 10 15 20 25 30 35 x 40 Figura 5.4: Distribuzioni di Poisson con diversi valori del parametro λ. E[X] = Var[X] = λt. Esempio 5.7. Supponiamo che, in media, in ogni 3 pagine di un libro c’è un errore tipografico. Se il numero di errori tipografici in una singola pagina si descrive come una v.c. di Poisson, calcolare la probabilità di avere almeno un errore su una pagina del libro. Poiché il problema riguarda una pagina, allora il nostro modello è una v.c. di Poisson con parametro λt = 1/3, quindi P(X = n) = pX (n; 1/3) = così calcoliamo come (1/3)n e−1/3 , n! P(X ≥ 1) = 1 − P(X = 0) = 1 − e−1/3 ≃ 0.28. Nella figura 5.4 sono riportate alcune distribuzioni di Poisson. Come si vede, la Poisson è asimmetrica con una lunga coda a destra. Inoltre, dato un certo valore di t, al crescere di λ tende alla normale con media e varianza λt per effetto del teorema centrale del limite (sezione 11.5). Primi elementi di inferenza statistica (ed. maggio 2012) 42 M. Di Marzio 6 Esercizi svolti Esercizio 6.1. Un’azienda produce DVD che hanno probabilità 0.02 di essere difettosi, indipendentemente l’uno dall’altro. La confezione di vendita contiene 20 pezzi presi a caso dalla produzione totale. La garanzia afferma che se è presente più di un pezzo difettoso la scatola verrà sostituita. a) Che percentuale di confezioni si prevede ritornerà? b) Se compro 5 confezioni con che probabilità ne dovrò restituire una? Soluzione Se X è il numero di pezzi difettosi in una scatola da 20 dischetti, X ∼ B(20, 0.02). Così: a) P(X > 1) = 1 − P(X = 0) − P(X = 1) = 1 − pX (0; 20, 0.02) − pX (1; 20, 0.02) 20! 20! 20−0 20−1 0.020 (1 − 0.02) − 0.021 (1 − 0.02) = 0.06; =1− 0! (20 − 0)! 1! (20 − 1)! b) ogni scatola viene resa con probabilità pari a circa 0.06. Allora se compriamo 5 scatole la probabilità di renderne una sarà: pX (1; 5, 0.06) = 5! 5−1 0.061 (1 − 0.06) = 0.234. 1! (5 − 1)! Esercizio 6.2. Un’azienda deve verificare i propri ordini di vendita. Così vengono osservati n ordini presi a caso. Secondo l’esperienza pregressa, la probabilità di avere un ordine errato è pari a 0.1. Come risulta comprensibile, gli esiti di osservazioni diverse non si influenzano stocasticamente. Si calcoli: a) la probabilità di osservare 3 ordini errati su 4. b) la probabilità di osservare almeno 3 ordini errati su 4. c) la probabilità di osservare meno di 3 ordini errati su 4. Soluzione Chiaramente si tratta di prove bernoulliane, dove X conta il numero di difetti, ossia X ∼ B(n, 0.1). Allora a) 4! 4−3 0.13 (1 − 0.1) . P(X = 3) = pX (3; 4, 0.1) = 3! (4 − 3)! b) Si ha X ≥ 3, allora scriviamo: P(X ≥ 3) = P(X = 3) + P(X = 4). P(X = 3) = 0.0036, come sappiamo. Resta quindi da calcolare P(X = 4): P(X = 4) = pX (4; 4, 0.1) = M. Di Marzio 4! 4! 4 0 4 0 (0.1) (1 − 0.1) = (0.1) (1 − 0.1) = 0.0001. 4! (4 − 4)! 4!0! 43 Primi elementi di inferenza statistica (ed. maggio 2012) Per cui: P(X ≥ 3) = pX (3; 4, 0.1) + pX (4; 4, 0.1) = 0.0036 + 0.0001 = 0.0037. c) Il valore di X deve essere inferiore a 3. Poiché n = 4 e π = 0.1, scriviamo: P(X < 3) = pX (0; 4, 0.1) + pX (1; 4, 0.1) + pX (2; 4, 0.1); 4! 0 4 pX (0; 4, 0.1) = (0.1) (1 − 0.1) = 0.6561; 0! (4 − 0)! 4! 1 3 pX (1; 4, 0.1) = (0.1) (1 − 0.1) = 0.2916; 1! (4 − 1)! 4! 2 2 pX (2; 4, 0.1) = (0.1) (1 − 0.1) = 0.0486; 2! (4 − 2)! da cui P(X < 3) = 0.9963. Una soluzione alternativa consiste nel considerare l’evento complemento P(X < 3) = 1 − P(X ≥ 3) = 1 − 0.0037 = 0.9963. Esercizio 6.3. Si assuma che una coppia decida di avere figli fino a che non abbia una femmina. Se la probabilità di avere una femmina è pari a 0.45, qual è la probabilità di avere 4 figli? Soluzione Si applica la legge geometrica, dove il successo è dato dalla nascita della figlia femmina. Così dato che X ∼ G(0.45) abbiamo: pX (3, 0.45) = 0.553 0.45 = 0.0748. Esercizio 6.4. Un ispettore è alla ricerca di saldature non conformi in una tubatura. La probabilità che una saldatura sia difettosa è pari a 0.05 e le saldature distano 10 metri. L’ispettore, ormai stanco, decide di fare una pausa al prossimo difetto riscontrato. Qual è la probabilità che l’ispettore debba camminare ancora per 500 metri prima della pausa? Soluzione Consideriamo i seguenti eventi: C = {Saldatura conforme}; N C = {Saldatura non conforme}; A = {Pausa dopo 500 metri}. Per cui: P(C) = 0.95 e P(N C) = 0.05. Poiché, 100 metri contengono 10 saldature, così fare una pausa dopo 500 metri significa trovare 49 saldature conformi e la 50-esima non conforme, quindi siccome X ∼ G(0.05) otteniamo pX (49; 0.05) = 0.9549 0.05 = 0.0040. Esercizio 6.5. Un dirigente deve formare un gruppo di lavoro selezionando tre membri in un ufficio da 6 uomini e 4 donne. Scrive i loro nomi su dei foglietti identici, li mette in un’urna e poi estrae una sequenza di 3 bigliettini. Calcolare: a) la probabilità che estragga 2 donne; b) il numero di donne atteso nel campione. Soluzione a) Poiché gli esiti sono due e incompatibili, poichè inoltre si tratta di estrazione senza ripetizione, ricorrono le condizioni dell’esperimento ipergeometrico, ossia X ∼ I(10, 4, 3). Usiamo la seguente simbologia: F = numero di donne nel gruppo di 10; M = numero di uomini nel gruppo di 10; n = ampiezza del campione; x = numero di donne contenute nel campione. Avremo: (F )( M ) 6! 4! 6×6 36 2!(4−2)! 1!(6−1)! n−x = = = 0.30. P(X = x) = (xM +F ) = 10! 120 120 3!(10−3)! n b) E[X] = n Primi elementi di inferenza statistica (ed. maggio 2012) F 3×4 = = 1.2. M +F 10 44 M. Di Marzio 6. ESERCIZI SVOLTI Esercizio 6.6. Supponiamo di voler esaminare il numero di clienti che raggiungono una banca in un’ora. Ipotizziamo che in media ci siano 180 arrivi in un’ora. Ci chiediamo: a) Qual è la probabilità di due arrivi in un minuto di tempo? b) Qual è la probabilità di più di due arrivi in un minuto di tempo? Soluzione Si può notare che ricorrono gli estremi dell’esperimento poissoniano, infatti ciascun arrivo è un evento discreto che si verifica in un particolare istante di tempo, nell’intervallo continuo di un’ora, ed è un evento indipendente perché l’arrivo di un cliente in un intervallo non dipende dall’arrivo di qualsiasi altro cliente in qualsiasi altro intervallo. Indichiamo con: t = l’intervallo di tempo considerato nel problema, cioè un minuto; X = il numero di successi per intervallo di tempo t; λ = il numero atteso di successi nell’intervallo di tempo usato come unità di misura, che nel nostro caso è l’ora. Allora, tenendo presente che l’unità di misura a cui λ si riferisce è l’ora, si ha: t = 1/60; λ = 180 quindi X ∼ P(3). a) Se e−λt (λt) , x! x P(X = x) = allora e− 60 (180/60) 9 = = 0.2240. 3 2! (2.71828) (2) 2 180 P(X = 2) = b) Calcoliamo qual è la probabilità che arrivino più di 2 clienti, cioè: P(X > 2) = P(X = 3) + P(X = 4) + P(X = 5) + ... In questo caso risulta più agevole il calcolo dell’evento complementare, ossia individuare qual è la probabilità che arrivino non più di 2 clienti, cioè P(X ≤ 2) e poi sottrarlo a 1: P(X > 2) = 1 − P(X ≤ 2) = 1 − [ P(X = 0) + P(X = 1) + P(X = 2)]. Allora e−180/60 (180/60) 1 = 3 = 0.0497; 0! (2.71828) 0 P(X = 0) = e−180/60 (180/60) 3 = 3 = 0.1494; 1! (2.71828) P(X > 2) = 1 − P(X ≤ 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] 1 P(X = 1) = = 1 − [0.0497 + 0.1494 + 0.2240] = 1 − 0.423 = 0.577. M. Di Marzio 45 Primi elementi di inferenza statistica (ed. maggio 2012) 7 Principali variabili casuali continue Indice 7.1 7.2 7.3 7.4 7.5 7.1 Esperimenti casuali descritti da variabili casuali Variabile casuale normale . . . . . . . . . . . . . Variabile casuale normale standard . . . . . . . . Variabile casuale uniforme . . . . . . . . . . . . . Variabile casuale esponenziale . . . . . . . . . . . continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 46 47 49 50 Esperimenti casuali descritti da variabili casuali continue A differenza del caso discreto, dove spesso gli esperimenti casuali generano esiti qualitativi del tipo successo, gli esperimenti descritti da vv.cc. continue hanno come esiti valori numerici. Così nel caso continuo, le vv.cc. non trasformano in numeri grandezze qualitative, ma sono semplici funzioni identiche applicate a numeri, cioè lasciano gli esiti numerici esattamente quali essi sono. Di conseguenza, come si vedrà tra poco, per la v.c. normale avremo che Ω = R, per la uniforme Ω = [a, b] e infine per la esponenziale Ω = [0, ∞). 7.2 Variabile casuale normale La v.c. X : R → R è detta normale se, dati due reali −∞ < µ < ∞, e 0 < σ < ∞, ha pdf fX (x; µ, σ) = 1 √ σ 2π (x − µ) 2σ 2 e − 2 − ∞ < x < ∞. Qui Θ = R × R+ . Si dimostra che E[X] = µ e Var[X] = σ 2 . Circa la funzione di ripartizione, purtroppo l’integrale ∫ a (x−µ)2 1 √ e− 2σ2 dx, F (a) = 2πσ −∞ non ha soluzione esplicita, così non esiste una espressione algebrica per la funzione di ripartizione della v.c. normale, che quindi viene calcolata tramite approssimazioni. In figura 7.1 sono rappresentate la pdf e la funzione di ripartizione di una v.c. normale. La distribuzione normale ha un ruolo centrale nell’ambito della statistica poichè si presta a descrivere il comportamento di numerosi fenomeni reali dove un valore è il più probabile e gli altri valori sono tanto meno probabili quanto più si discostano da quest’ultimo. I caratteri antropometrici (peso, altezza) sono ben approssimabili dal modello normale, così come numerose caratteristiche qualitative dei processi produttivi industriali. L’importanza della distribuzione normale è anche dovuta al fatto che la distribuzione di numerose vv.cc. di interesse per la statistica può, sotto ipotesi non troppo restrittive, essere ben approssimata dalla distribuzione normale grazie al teorema centrale del limite. ( ) Per indicare che la v.c. X ha pdf normale si scrive X ∼ N µ, σ 2 . La pdf della v.c. normale descrive una curva di forma campanulare, simmetrica che viene definita curva normale. Data la simmetria della curva, moda, media e mediana coincidono. La curva normale è asintotica rispetto all’asse delle ascisse e presenta due punti di flesso in corrispondenza di µ + σ e µ − σ. Primi elementi di inferenza statistica (ed. maggio 2012) 46 M. Di Marzio 0.4 F(x;µ,σ) f(x;µ,σ) 7. PRINCIPALI VARIABILI CASUALI CONTINUE 0.3 1 0.8 0.6 0.2 0.4 0.1 0 −4 0.2 −2 0 2 0 −4 x4 −2 0 2 x4 Figura 7.1: Una funzione di densità di una v.c. normale con relativa funzione di ripartizione. Le variazioni del solo parametro µ determinano traslazioni lungo l’asse reale come mostrato in figura 7.2. Le variazioni del solo parametro σ determinano, invece, variazioni nella forma che risulta più appuntita e con code leggere per valori più piccoli di σ e più appiattita e con code pesanti per valori di σ maggiori. Un esempio è riportato in figura 7.3. 7.3 Variabile casuale normale standard Sappiamo che ogni coppia dei parametri µ e σ individua una distinta distribuzione normale. Comunque tutte queste possono essere trasformate in un’unica distribuzione normale attraverso l’operazione di standardizzazione (sez. 3.12). Infatti, data una qualsiasi v.c. normale X con valore atteso µ e varianza σ 2 la v.c. X −µ Z= σ ha ancora distribuzione normale, ovviamente con valore atteso 0 e varianza 1. In simboli Z ∼ N (0, 1). La funzione di densità della v.c. normale standardizzata Z è data da: 1 −z2 fZ (z) = √ e 2 2π − ∞ < z < ∞. Spesso, per indicare la funzione di densità e la funzione di ripartizione della normale standard, si usano rispettivamente i simboli ϕ e Φ. Un esempio di standardizzazione di vv.cc. normali è contenuto in figura 7.4. Segue ora una fondamentale uguaglianza che spiega la notevole importanza pratica della v.c. normale standardizzata. Se X ∼ N (µ, σ 2 ), allora per ogni numero reale a si ha ( ) ( ) X −µ a−µ a−µ FX (a) = P(X ≤ a) = P ≤ =P Z≤ σ σ σ ( ) a−µ =Φ . σ Pertanto dati due numeri reali a e b, con a < b, dall’uguaglianza precedente si deduce che per una qualsiasi v.c. X ∼ N (µ, σ 2 ) la probabilità può essere calcolata tramite la funzione di ripartizione della normale standardizzata come segue ) ( ) ( a−µ b−µ −Φ . P(a < X < b) = Φ σ σ Circa il calcolo dei valori della funzione di ripartizione, si è visto che ∫ z t2 1 √ e− 2 dt, Φ(z) = 2π −∞ non ha soluzione in forma chiusa, così si ricorre ad apposite tavole che aiutano a calcolarlo. Le tavole forniscono i valori della funzione di ripartizione Φ(z) = P(−∞ < Z < z). Si tenga inoltre presente che per la simmetria della curva normale si ha Φ(−z) = 1 − Φ(z). M. Di Marzio 47 Primi elementi di inferenza statistica (ed. maggio 2012) f(x;µ,σ) 7.3. Variabile casuale normale standard 0.4 0.3 0.2 0.1 0 −6 −4 −2 0 2 4 x 6 f(x;µ,σ) Figura 7.2: Distribuzioni normali con differenti valori di µ: −3, 0, 3. 0.8 0.6 0.4 0.2 0 −6 −4 −2 0 2 4 x 6 Figura 7.3: Distribuzioni normali con differenti valori di σ: 0.6, 1, 3. Figura 7.4: Standardizzazione di vv.cc. normali. Esempio 7.1. Il diametro X di un lotto di viti prodotte in serie si distribuisce normalmente con media µ = 2 cm e deviazione standard σ = 0.5 cm. Si è interessati a determinare la frazione di viti con diametro superiore a 1 cm. A tale scopo, osserviamo innanzitutto che determinare la frazione di viti con diametro superiore a 1 significa determinare la probabilità che X assuma valori nell’intervallo (1, +∞), e quindi il valore dell’area colorata in figura 7.5. Ricorrendo all’operazione di standardizzazione si può scrivere ) ( 1−2 X −µ > = P(Z > −2). P(X > 1) = P σ 0.5 ( Si osservi che P(X > 1) = 1 − P(X ≤ 1) = 1 − P Primi elementi di inferenza statistica (ed. maggio 2012) X −µ 1−2 ≤ σ 0.5 48 ) = 1 − P(Z ≤ −2), M. Di Marzio f(x;µ,σ) 7. PRINCIPALI VARIABILI CASUALI CONTINUE 1 2 x1 Figura 7.5: L’area ombreggiata indica la quantità P(X > 1). e poiché Φ(−2) = 1 − Φ(2) si ha P(X > 1) = 1 − (1 − Φ(2)) = Φ(2) e dalla tavola in cui sono riportati i valori della funzione di ripartizione della v.c. normale standardizzata si vede che Φ(2) = 0.97725. Infine indichiamo il centile superiore di ordine α1 della normale standardizzata con zα , cioè zα è quel numero che soddisfa l’equazione P(Z ≥ zα ) = α. 7.4 Variabile casuale uniforme Dati due reali a e b, tali che b > a, la v.c. X : (a, b) → (a, b) è detta uniforme se ha pdf 1 se a < x < b b − a fX (x; a, b) = 0 altrimenti, e si scrive X ∼ U(a, b). Qui Θ = {(a, b) : a ∈ R, b ∈ R, b > a}. Si dimostra facilmente che E[X] = b+a 2 2 e Var[X] = (b − a) . 12 Quindi una v.c. X ha distribuzione uniforme in un intervallo (a, b) se la funzione di densità di X è costante in (a, b). Si può pervenire alla formulazione della pdf uniforme attraverso il seguente ragionamento. Ricordando che fX (x) misura quanto è verosimile che X assuma un valore prossimo a x, si ipotizzi che tale misura è la stessa per ogni x ∈ (a, b), allora fX sarà pari a una costante k > 0 per ogni x ∈ (a, b). Ora, essendo l’area sotto una pdf pari a 1, il valore di k si ottiene dividendo l’area per la lunghezza della base b − a. Se X ∼ U(a, b), dati due reali c, d ∈ (a, b) tali che c < d è immediato verificare che P(c < X < d) = d−c , b−a ossia la probabilità che la v.c. assuma valori nell’intervallo (c, d) interno all’intervallo (a, b) è data dal rapporto tra le ampiezze dei due intervalli, o in altri termini la probabilità che la v.c. uniforme assuma valori in un sottointervallo è proporzionale alla lunghezza del sottointervallo stesso. Si ha infatti ∫ d ∫ d 1 P(c < X < d) = fX (x) dx = dx c c b−a d x c d − = b−a c b−a b−a d−c = . b−a = 1 Si ricordi che α è espresso in centesimi compresi tra 0 e 1 M. Di Marzio 49 Primi elementi di inferenza statistica (ed. maggio 2012) 7.5. Variabile casuale esponenziale Per quanto detto, la funzione di ripartizione è data da: FX (x; a, b) = infatti ∫ x−a , b−a ∫ x FX (x) = x fX (u) du = a a 1 du b−a x u b−a a x−a = . b−a = F(x;a,b) f(x;a,b) In figura 7.6 sono rappresentate la pdf e la funzione di ripartizione della v.c. X ∼ U (a, b). La distribuzione 1 b−a 1 0.8 0.6 0.4 0.2 b a 0 x a b x Figura 7.6: Pdf e funzione di ripartizione di una v.c. uniforme. uniforme è un modello probabilistico adatto a rappresentare esperimenti che danno luogo ad eventi equiprobabili o esperimenti su cui non si hanno informazioni sufficienti per stabilire se determinati risultati siano più probabili rispetto ad altri. Un altro naturale impiego del modello uniforme sta nell’estrazione di numeri casuali compresi in (a, b). Questo perché sotto la distribuzione uniforme tutti gli intervalli di uguale lunghezza compresi tra a e b sono equiprobabili. Esempio 7.2. Ogni mattina un individuo giunge presso una stazione degli autobus alle ore 7:00. Se un autobus arriva presso la stazione ad un orario casuale tra le 7:00 e le 7:30, qual è la probabilità che l’individuo aspetti l’autobus per più di 10 minuti? Se l’autobus arriva alla stazione X minuti dopo le 7:00, allora X è una v.c. uniforme sull’intervallo (0, 30). La probabilità cercata è allora data da P(10 < X < 30) = 30 − 10 = 2/3 ≃ 0.6666. 30 7.5 Variabile casuale esponenziale Una v.c. X : [0, +∞) → [0, +∞) è detta esponenziale se ha pdf { λe−λx se x ≥ 0 fX (x; λ) = 0 altrimenti, e si scrive X ∼ E(λ). Qui Θ = (0, +∞). Si dimostra inoltre che E[X] = 1 λ e Var[X] = 1 . λ2 La funzione di ripartizione della v.c. esponenziale è data da FX (x; λ) = 1 − e−λx , Primi elementi di inferenza statistica (ed. maggio 2012) 50 M. Di Marzio 7. PRINCIPALI VARIABILI CASUALI CONTINUE ∫ infatti FX (x) = ∫ x fX (u) du = 0 x x λe−λu du = −e−λu = 1 − e−λx . 0 0 1 F(x;λ) f(x;λ) Come la v.c. discreta geometrica, l’esponenziale misura l’attesa del verificarsi di un dato evento casuale. λ=1 0.8 1 0.8 0.6 0.6 0.4 0.4 λ = 0.5 0.2 0 0 1 2 3 4 5 6 λ=1 λ = 0.5 0.2 0 0 x7 1 2 3 4 5 6 x7 Figura 7.7: Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1. Se per la geometrica l’attesa è espressa da un numero di esiti, in questo caso è misurata da lunghezze di grandezze continue come il tempo o lo spazio. Esempio 7.3. Per una rete di computer il tempo X (ore) necessario per la prima connessione degli utenti ha distribuzione esponenziale con λ = 25 connessioni per ora. Supponiamo di essere interessati alla probabilità che non vi siano connessioni in un intervallo di 6 minuti. Poiché 6 min = 0.1 ore, la probabilità cercata è P(X > 0.1) = 1 − P(X ≤ 0.1) = 1 − (1 − e−25×0.1 ) ≃ 0.082. Una proprietà che caratterizza la v.c. esponenziale, e la accomuna alla v.c. geometrica, è la proprietà dell’assenza di memoria. Ricordiamo che una v.c. X si definisce priva di memoria se: P(X ≥ t + s|X ≥ t) = P(X ≥ s), Per dimostrare l’assenza di memoria, si ricordi che la funzione di ripartizione della v.c. esponenziale è FX (x) = 1 − e−λx , allora P(X ≥ t + s ∩ X ≥ t) P(X ≥ t) P(X ≥ t + s) = P(X ≥ t) 1 − FX (t + s) = 1 − FX (t) P(X ≥ t + s|X ≥ t) = = 1 − {1 − e−λ(t+s) } 1 − {1 − e−λt } = e−λs = 1 − FX (s) = P(X ≥ s). Esempio 7.4. Il tempo di vita X (anni) di un certo tipo di televisore è una v.c. esponenziale con media 10. Se un individuo ha acquistato questo tipo di televisore più di 10 anni fa, qual è la probabilità che il suo televisore durerà per almeno altri 10 anni? Se X è una v.c. esponenziale, allora E[X] = 1/λ, quindi il parametro della distribuzione del tempo di vita del televisore è λ = 1/10. Per la proprietà di assenza di memoria della v.c. esponzenziale, la probabilità cercata è data da P(X > 20|X > 10) = P(X > 10) = 1 − (1 − e−(1/10)10 ) ≃ 0.37. M. Di Marzio 51 Primi elementi di inferenza statistica (ed. maggio 2012) 8 Esercizi svolti Esercizio 8.1. In uno zuccherificio le confezioni di zucchero vengono realizzate automaticamente e il peso X di ogni confezione è una v.c. normale con µ = 500 g e σ = 2 g. Calcolare la probabilità che il peso di una confezione a) sia inferiore a 504 g; b) sia almeno pari a 498 g; c) sia compreso tra 495 g e 506 g; d) sia compreso tra 501 g e 503 g. Soluzione Poiché X ∼ N (500, 4), la v.c. Z = (X − 500)/2 è una v.c. normale standardizzata, si ha: a) ( ) 504 − 500 P(X < 504) = P Z < = Φ(2) = 0.9772. 2 b) ) ( 498 − 500 = P(Z ≥ −1) P(X ≥ 498) = P Z ≥ 2 = 1 − Φ(−1) = 1 − (1 − Φ(1)) = 1 − (1 − 0.8413) = 0.8413. c) ( P(495 < X < 506) = P 495 − 500 506 − 500 <Z< 2 2 ) = P(−2.5 < Z < 3) = Φ(3) − Φ(−2.5) = Φ(3) − (1 − Φ(2.5)) = 0.9987 − (1 − 0.9938) = 0.9925. d) ( P(501 < X < 503) = P 503 − 500 501 − 500 <Z< 2 2 ) = P(0.5 < Z < 1.5) = Φ(1.5) − Φ(0.5) = 0.9332 − 0.6915 = 0.2417. Esercizio 8.2. Un questionario viene somministrato ad un gruppo di studenti. Sapendo che ad ogni risposta esatta è attribuito un punto e che i punteggi realizzati dal gruppo di studenti si distribuiscono normalmente con media µ = 80 e s.q.m. σ = 10, qual è il numero minimo di risposte esatte che uno studente deve fornire per posizionarsi entro il 10% dei migliori studenti del gruppo? Soluzione Considerata la v.c. X ∼ N (80, 100), occorre determinare il valore x tale che P(X ≥ x) = 0.10 o P(X < x) = 0.90. Poiché ( ) x − 80 P(X < x) = P Z < 10 Primi elementi di inferenza statistica (ed. maggio 2012) 52 M. Di Marzio 8. ESERCIZI SVOLTI e poiché dalla tavola della funzione di ripartizione della normale standardizzata risulta Φ(1.28) = 0.8997, allora x − 80 ≃ 1.28, 10 da cui x ≃ 92.8. Si conclude pertanto che lo studente dovrà rispondere correttamente ad almeno 93 domande. Esercizio 8.3. Si analizza un processo che produce sacchetti per la spesa. Vogliamo conoscere qualcosa in più sulle sue caratteristiche analizzando alcuni dati relativi allo stesso. In particolare, sappiamo che sono stati scartati il 4.475% di sacchetti perché troppo resistenti, infatti essi sono tutti più resistenti di 7.55 kg per cm2 , e il 13.567% perché troppo poco resistenti, infatti essi sono tutti meno resistenti di 3.35 kg per cm2 . Ammettendo che la resistenza abbia distribuzione normale, ci chiediamo quale modello normale meglio rappresenta l’intera produzione e quindi il processo. Soluzione Per identificare il modello normale che meglio rappresenta la popolazione prodotta, occorre stimare µ e σ. I dati riguardano due proposizioni probabilistiche: e P(X > 7.55) = 0.04475 P(X < 3.35) = 0.13567. Poiché i quantili della normale standard sono espressi in termini di µ e σ , troviamo i quantili corrispondenti alle due probabilità. Bisogna risalire ai quantili associati alle aree: 1 − 0.04475 = 0.9552 1 − 0.13567 = 0.86433. e Dalle tavole della funzione di ripartizione della normale standard si ricava z0.86433 = −1.1. e z0.04475 = 1.7 Questi due valori permettono di costruire un sistema di due equazioni in due incognite: { { { µ = 7.55 − 1.7σ µ=5 1.7 = 7.55−µ σ ⇒ ⇒ 3.35−µ − 1.1σ = 3.35 − 7.55 + 1.7σ σ = 1.5 − 1.1 = σ Esercizio 8.4. Si consideri la v.c. X ∼ U(a, b). Dimostrare che E[X] = (a + b)/2. Soluzione ∫ ∫ b E[X] = b xfX (x)dx = a x a 2 2 b 1 dx b−a 1 x a2 b − = b − a 2 a 2(b − a) 2(b − a) (b − a)(a + b) a+b = = . 2(b − a) 2 = Esercizio 8.5. Un autobus parte dal capolinea ogni 30 minuti e la prima corsa è alle 7:30. Se una persona non conosce l’orario dell’autobus e arriva al capolinea alle 8 e X minuti, dove X ∼ U(0, 60), calcolare la probabilità che debba aspettare a) al più 10 minuti; b) almeno 15 minuti. Soluzione a) Il passeggero dovrà aspettare al più 10 minuti, se giunge al capolinea tra le 8:20 e le 8:30 o tra le 8:50 e le 9:00 ossia se 20 < X < 30 o 50 < X < 60. Poiché per una v.c. X ∼ U(a, b), la probabilità di assumere valori in un sottointervallo (c, d) di (a, b) è data da P(c < X < d) = d−c , b−a la probabilità cercata è data da P(20 < X < 30) + P(50 < X < 60) = 30 − 20 60 − 50 1 + = ≃ 0.3334. 60 60 3 b) Il passeggero dovrà aspettare almeno 15 minuti se giunge al capolinea tra le 8:00 e le 8:15 o tra le 8:30 e le 8:45. La probabilità cercata è allora P(0 < X < 15) + P(30 < X < 45) = M. Di Marzio 53 1 15 45 − 30 + = = 0.5 60 60 2 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 8.6. Il capo del personale di una grande industria ha stabilito che un operaio impiega tra gli 8 e i 13 minuti per completare il suo compito in un processo di assemblaggio. Per saperne di più sul rendimento dell’operaio, ipotizzando che la distribuzione dei tempi di esecuzione sia uniforme, egli vuole determinare fX (x), E[X] e Var[X]. Inoltre, siccome una prestazione ottimale richiederebbe meno di 11 minuti, si vuole sapere quante operazioni sono effettuate entro i limiti di eccellenza. Soluzione Evidentemente a = 8 e b = 13, si ha pertanto { 1 fX (x; 8, 13) = Risulta inoltre E[X] = e 13−8 se 8 < x < 13 0 altrimenti. 21 b+a = = 10.5, 2 2 2 Var[X] = (b − a) 25 = = 2.08. 12 12 Infine, la probabilità cercata è P(X < 11) = 11 − 8 3 = = 0.6 13 − 8 5 per cui il dipendente in questione lavora in condizioni di eccellenza solo per il 60% del proprio operato. Esercizio 8.7. Sia X una v.c. uniforme in (a, b) con E[X] = 3/2 e Var[X] = 25/12. Determinare i valori dei parametri a e b. Soluzione Poiché per una v.c. X ∼ U(a, b) risulta E[X] = a+b 2 e Var[X] = (b − a)2 , 12 per determinare i valori dei parametri a e b risolviamo il seguente sistema di due equazioni in due incognite con il vincolo a < b: { a+b { { { 3 a+b=3 b=3−a b=3−a 2 = 2 ⇒ ⇒ ⇒ (b−a)2 25 2 2 (b − a) = 25 (3 − 2a) = 25 4a2 − 12a − 16 = 0. = 12 12 La soluzione dell’equazione 4a2 − 12a − 16 = 0 che soddisfa il vincolo 3 − a > a è data da a = −1. Si ha pertanto { a = −1 b = 4. Esercizio 8.8. Una banca ha il problema di ottimizzare la ripartizione di risorse umane tra il front-office – che è a contatto con il cliente – e il back-office – che svolge il relativo lavoro d’ufficio. A tal fine risulta importante conoscere i flussi di arrivo della clientela. Sapendo che si verificano in media 0.2 arrivi all’ora, ci si chiede qual è la probabilità che fino al prossimo arrivo trascorrano tra i 30 e i 45 minuti a partire da un istante qualsiasi. Soluzione Si noti che in questo problema la probabilità del tempo fino al prossimo arrivo non dipende da quando c’è stato l’ultimo arrivo, quindi se si inizia a contare l’attesa dall’ultimo arrivo o da qualsiasi altro momento non cambia nulla. In questo senso allora risulta corretto applicare un modello senza memoria come l’esponenziale. Essendo E[X] = 1/λ = 0.2, la pdf della v.c. esponenziale da utilizzare ha allora la forma fX (x; 5) = 5e−5x . Poiché 30 minuti corrispondono a 0.5 ore e 45 minuti a 0.75 ore, ricordando che FX (x) = 1 − e−λx si ottiene: ] ] [ [ P(0.5 < X < 0.75) = FX (0.75) − FX (0.5) = 1 − e−(5×0.75) − 1 − e−(5×0.5) = (1 − e−3.75 ) − (1 − e−2.5 ) ≃ 0.9765 − 0.9179 = 0.0586. Esercizio 8.9. Il tempo X necessario per effettuare un’operazione presso lo sportello di un ufficio postale è una v.c. esponenziale con varianza pari a 9 minuti. Calcolare a) il tempo medio impiegato dai clienti per effetture un’operazione presso lo sportello; b) la probabilità che un cliente impieghi più di 6 minuti per effettuare un’operazione; Primi elementi di inferenza statistica (ed. maggio 2012) 54 M. Di Marzio 8. ESERCIZI SVOLTI c) la probabilità che un cliente impieghi più di 10 minuti per effettuare un’operazione, sapendo che si trova allo sportello da più di 2 minuti. Soluzione a) Poiché X è una v.c. esponenziale E[X] = 1/λ. Essendo Var[X] = 1/λ2 = 9, risulta E[X] = 3. b) Poiché E[X] = 1/λ = 3, il parametro della pdf di X è λ = 1/3. La probabilità cercata è allora: [ ] P(X > 6) = 1 − P(X ≤ 6) = 1 − 1 − e−(1/3×6) = e−2 ≃ 0.1353. c) Poiché la v.c. esponenziale è priva di memoria si ha P(X > 12|X > 2) = P(X > 10). Pertanto la probabilità cercata è [ ] P(X > 10) = 1 − P(X ≤ 10) = 1 − 1 − e−(1/3×10) = e−10/3 ≃ 0.0357. Esercizio 8.10. Da osservazioni effettuate sul traffico presso un incrocio stradale, è risultato che il tempo X in giorni intercorrente tra due incidenti può essere convenientemente descritto da una v.c. esponenziale. Sapendo che con probabilità pari a 0.02 non ci saranno incidenti nei prossimi due giorni, determinare il tempo medio intercorrente tra due incidenti. Soluzione Poiché la v.c. X descrive il tempo intercorrente tra due incidenti, il tempo medio si determina ricavando il parametro λ della distribuzione di X. Poiché la probabilità di non avere incidenti nei due giorni successivi è data da P(X > 2) = 1 − P(X ≤ 2) = 1 − (1 − e−2λ ) = e−2λ , sapendo che e−2λ = 0.02, e passando ai logaritmi, si ottiene ln(e−2λ ) = ln 0.02 ⇒ −2λ = −3.91202 ⇒ λ ≃ 1.96. Si conclude quindi che presso l’incrocio in questione si verifica, in media, un incidente ogni 1/1.96 = 0.51 giorni. M. Di Marzio 55 Primi elementi di inferenza statistica (ed. maggio 2012) 9 Variabili casuali multiple Indice 9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 9.1 Variabili casuali multiple e distribuzioni di probabilità Funzioni di variabile casuale multipla . . . . . . . . . . Distribuzioni di probabilità marginali . . . . . . . . . . Distribuzioni di probabilità condizionate . . . . . . . . Variabili casuali indipendenti . . . . . . . . . . . . . . . Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . Correlazione . . . . . . . . . . . . . . . . . . . . . . . . . Indipendenza e incorrelazione . . . . . . . . . . . . . . . Distribuzione normale doppia . . . . . . . . . . . . . . . congiunte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 58 59 60 63 64 65 66 66 Variabili casuali multiple e distribuzioni di probabilità congiunte Le vv.cc. considerate finora – chiamate semplici – hanno origine dall’osservazione di un sigolo carattere ad ogni esito di un esperimento casuale. Se invece rileviamo le modalità di due o più caratteri, allora osserviamo realizzazioni di variabili casuali multiple. Esempio 9.1. L’esperimento consista nel lanciare una moneta tre volte. Definiamo le due variabili casuali X = numero di teste; Y = numero di croci negli ultimi due lanci. Così ad ogni elemento dello spazio fondamentale Ω = (T, C) × (T, C) × (T, C) è associata una coppia di numeri come segue: Ω X Y ω1 = T T T 3 0 ω2 = CT T 2 0 ω3 = T CT 2 1 ω4 = T T C 2 1 ω5 = CCT 1 1 ω6 = CT C 1 1 ω7 = T CC 1 2 ω8 = CCC 0 2 L’insieme di coppie {(3, 0), (2, 0), (2, 1), (1, 1), (1, 2), (0, 2)} costituisce l’immagine della v.c. multipla (X, Y ). In particolare (X, Y ) è detta v.c. doppia. Nel presente capitolo saranno principalmente studiate le vv.cc. doppie, cioè funzioni che associano ad un esito di un esperimento casuale una coppia di numeri. E’ importante sottolineare che n vv.cc. qualsiasi non formano una v.c. n-pla, perché ciò sia possibile tutte le vv.cc. devono essere definite sugli esiti di un unico esperimento casuale. Infine si noti che le espressioni n variabili casuali e variabili casuale n-pla sono usate quasi sempre, ma sempre in questo testo, come sinonimi. Primi elementi di inferenza statistica (ed. maggio 2012) 56 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE La v.c. doppia (X, Y ) è detta discreta (risp. continua) se entrambe le sue componenti sono discrete (risp. continue). La funzione di distribuzione di probabilità della v.c. doppia discreta (X, Y ) è quella funzione pXY che associa una probabilità ad ogni elemento del prodotto cartesiano tra l’immagine X e quella di Y ; la somma delle probabilità deve essere pari a uno. Formalmente se X assume s modalità e Y assume t modalità, abbiamo: s ∑ t ∑ pXY : {x1 , x2 , ...xs } × {y1 , y2 , ...yt } → (0, 1] e pXY (xi , yj ) = 1. i=1 j=1 inoltre pXY è nulla in corrispondenza di qualsiasi altro punto del piano. Le pdf delle vv.cc. doppie discrete vengono espresse tramite tabelle in cui l’elemento di posto (i, j) è la probabilità della realizzazione (xi , yj ). Esempio 9.2. Con riguardo all’esempio 9.1, possiamo riassumere tutti gli esiti con le relative probabilità nella seguente tabella X 0 Y 1 2 0 0 0 1/8 1 0 2/8 1/8 2 1/8 2/8 0 3 1/8 0 0 Così, ad esempio P(X = 2, Y = 1) = 2/8 , P(X < 3, Y > 1) = 2/8 , P(X > 2, Y < 1) = 1/8. La somma delle probabilità è pari a 1: 0 + 0 + 1/8 + 0 + 2/8 + 1/8 + 1/8 + 2/8 + 0 + 1/8 + 0 + 0 = 1. La funzione di densità di probabilità della v.c. doppia continua (X, Y ) è quella funzione fXY che associa un numero reale non negativo ad ogni elemento del prodotto cartesiano tra le immagini di X e Y , e tale che su quest’ultimo insieme il suo integrale sia pari a uno. Analogamente al caso discreto, fuori da [a, b] × [c, d] fXY vale zero. Formalmente, se X assume valori in [a, b] e Y in [c, d], scriviamo ∫ +∞ ∫ +∞ fXY : [a, b] × [c, d] → (0, +∞) e fXY (x, y) dxdy = 1. −∞ −∞ Così come nel caso unidimensionale, i valori di una pdf di v.c. doppia continua sono infiniti, e di conseguenza non possono essere rappresentati tramite tabelle, ma solo graficamente. Esempio 9.3. Si consideri la v.c. doppia (X, Y ) con funzione di densità { fXY (x, y) = 4xy 0 se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1 altrimenti. La figura 9.1 ne contiene il grafico. L’immagine di (X, Y ) è [0, 1] × [0, 1], ovviamente risulta ∫ +∞ ∫ +∞ ∫ 1∫ 1 fXY (x, y) dxdy = 4xy dxdy = 1. −∞ −∞ 0 0 Anche per il caso continuo possiamo, per esempio, calcolare ∫ 0.5 ∫ 0.5 P(X ∈ [0, 0.5], Y ∈ [0, 0.5]) = 4xy dx dy ∫ 0 0 0.5 ( 0.5 ) 2yx2 = ∫ 0 dy 0 0.5 = 0.5y dy 0 = 0.5 2 y 2 0.5 0 = 0.0625; M. Di Marzio 57 Primi elementi di inferenza statistica (ed. maggio 2012) 9.2. Funzioni di variabile casuale multipla f(x,y) 4 2 0 1 1 0.5 0.5 0 y 0 x Figura 9.1: Grafico della pdf dell’esempio 9.3. 0.3 (∫ 0.5 ∫ P(X ∈ [0.2, 0.5], Y ∈ [0, 0.3]) = ∫ 0 0.3 ( = 0.2 2yx ∫ 0 ∫ 0 ) 4xy dx dy 0.5 ) 2 dy 0.2 0.3 (0.5y − 0.08y)dy = 0.3 0.42y dy = 0 = 0.42 2 y 2 0.3 0 = 0.0189. 9.2 Funzioni di variabile casuale multipla In analogia a quanto detto nella sezione 3.1 per le funzioni di una v.c., introduciamo ora le funzioni di v.c. multipla. Si consideri la funzione g : Rn → R. Data la v.c. multipla (X1 , X2 , ..., Xn ), anche Y = g(X1 , X2 , ..., Xn ) è una v.c. la cui pdf pY si desume dalla relazione seguente ∑ pY (y) = P(Y = y) = P(X1 = x1 , X2 = x2 , ..., Xn = xn ). {x1 ,x2 ,...,xn :y=g(x1 ,x2 ,...,xn )} Esempio 9.4. Un primo esempio di funzione di variabile casuale doppia è la somma g(X, Y ) = X +Y . Due funzioni della v.c. doppia (X, Y ) che spesso incontreremo sono: g(X, Y ) = XY e g(X, Y ) = (X − µX )(Y − µY ) Esempio 9.5. Si consideri la v.c. che vale 1 se dal lancio di una moneta esce testa, e zero altrimenti. Il lancio di tre monete definisce la v.c. tripla (X1 , X2 , X3 ) dove ogni componente è una v.c. bernoulliana di parametro p = 0.5. Il numero di teste nel lancio delle tre monete è una funzione somma: Y = g(X1 , X2 , X3 ) = X1 + X2 + X3 , la sua pdf assume i seguenti valori pY (0) = pX1 X2 X3 (0, 0, 0) = 1/8; pY (1) = pX1 X2 X3 (1, 0, 0) + pX1 X2 X3 (0, 1, 0) + pX1 X2 X3 (0, 0, 1) = 3/8; pY (2) = pX1 X2 X3 (1, 1, 0) + pX1 X2 X3 (1, 0, 1) + pX1 X2 X3 (0, 1, 1) = 3/8; pY (3) = pX1 X2 X3 (1, 1, 1) = 1/8; Primi elementi di inferenza statistica (ed. maggio 2012) 58 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE Di conseguenza il valore atteso di una funzione di una v.c. doppia E[g(X, Y )], è così definito ∫ +∞ ∫ +∞ s ∑ t ∑ g(xi , yj )pXY (xi , yj ) o g(x, y)fXY (x, y) dx dy −∞ i=1 j=1 −∞ a seconda se la v.c. doppia è discreta, dove X ha s modalità e Y ha t modalità, oppure è continua. Esempio 9.6. Le due funzioni di v.c. doppia viste nell’esempio 9.4 hanno i seguenti valori attesi ∑s ∑t i=1 j=1 xi yj pXY (xi yj ) E[XY ] = ∫∞ ∫∞ −∞ xyfXY dx dy −∞ se (X, Y ) è discreta se (X, Y ) è continua. ∑s ∑t i=1 j=1 (xi − µX )(yj − µY )pXY (xi yj ) E[(X − µX )(Y − µY )] = ∫∞ ∫∞ −∞ (x − µX )(y − µY )fXY dx dy −∞ se (X, Y ) è discreta se (X, Y ) è continua. Quest’ultimo valore atteso è detto covarianza (sez. 9.6). Allo studio di alcune fondamentali funzioni di v.c. multipla è dedicato l’intero capitolo 11. 9.3 Distribuzioni di probabilità marginali Data la v.c. doppia discreta (X, Y ), si può definire la probabilità che X = xi (o Y = yj ) sommando le probabilità di tutti gli esiti che presentano la modalità xi (o yj ), in formule pX (xi ) = P(X = xi ) = t ∑ pXY (xi , yj ) e pY (yj ) = P(Y = yj ) = j=1 s ∑ pXY (xi , yj ). i=1 E’ evidente che i valori {pX (xi ) : i = 1, 2, ..., s} (risp. {pY (yj ) : j = 1, 2, ..., t}) costituiscono l’immagine della pdf di X (risp. Y ), pX (risp. pY ) è chiamata pdf marginale di X (risp. di Y ). Analogamente se (X, Y ) è continua, le pdf marginali sono ∫ +∞ ∫ +∞ fX (x) = fXY (x, y) dy e fY (y) = fXY (x, y) dx. −∞ −∞ Esempio 9.7. Nell’esempio 9.1 abbiamo le seguenti pdf marginali: X pX (xi ) = t ∑ pXY (xi , yj ) Y j=1 pY (yj ) = s ∑ pXY (xi , yj ) i=1 0 1/8 = 0 + 0 + 1/8 1 3/8 = 0 + 2/8 + 1/8 2 3/8 = 1/8 + 2/8 + 0 3 1/8 = 1/8 + 0 + 0 nell’esempio 9.3 si ha ∫ 1 4xy dy = 2x fX (x) = 0 2/8 = 0 + 0 + 1/8 + 1/8 1 4/8 = 0 + 2/8 + 2/8 + 0 2 2/8 = 1/8 + 1/8 + 0 + 0 ∫ per x ∈ [0, 1] e 1 fY (y) = 4xy dx = 2y per y ∈ [0, 1]. 0 0 L’espressione marginale si può spiegare come segue. In una distribuzione doppia discreta, che riporta i totali di riga e di colonna, i valori di pX (pY ), essendo proprio quei totali, si trovano ai margini della tabella. Una questione che potrebbe sorgere è questa: se conosciamo le pdf marginali, possiamo ricostruire la pdf congiunta? Per esempio, se conosciamo fX (x) e fY (y), possiamo ottenere fXY (x, y)? In generale, la risposta è no. Questo perchè di solito esistono molte pdf congiunte che hanno le stesse marginali. Esempio 9.8. Si considerino le due vv. cc. doppie (X, Y ) e (Z, W ) con rispettive pdf congiunte: 1 5 3 3 , fXY (1, 0) = , fXY (0, 1) = , fXY (1, 1) = 12 12 12 12 1 1 1 1 fW Z (0, 0) = , fW Z (1, 0) = , fW Z (0, 1) = , fW Z (1, 1) = , 6 3 6 3 ora si noti che fXY (x, y) e fW Z (x, y), seppure differenti, hanno le stesse marginali. Infatti: fX (0) = fW (0) = 1/3; fX (1) = fW (1) = 2/3; fY (0) = fZ (0) = 1/2; fY (1) = fZ (1) = 1/2; fXY (0, 0) = M. Di Marzio 59 Primi elementi di inferenza statistica (ed. maggio 2012) 9.4. Distribuzioni di probabilità condizionate 9.4 Distribuzioni di probabilità condizionate Data una realizzazione (xi , yj ) della v.c. doppia discreta (X, Y ), se P(X = xi ) > 0, per il teorema delle probabilità composte abbiamo P(Y = yj | X = xi ) = P(X = xi ∩ Y = yj ) , P(X = xi ) il membro di destra è un rapporto dove il numeratore è dato dalla pdf congiunta, mentre il denominatore è dato dalla pdf marginale di X. Questo rapporto tra pdf costituisce esso stesso un valore di una pdf chiamata pdf di Y condizionata all’evento X = xi . Esiste chiaramente anche la pdf di X condizionata all’evento Y = yj . In formule pY |xi (yj ) = pXY (xi , yj ) pX (xi ) e pX|yj (xi ) = pXY (xi , yj ) . pY (yj ) E’ facile dimostrare che le la somma di tutti i valori assunti dalle pdf condizionate è pari a 1, come deve essere per una pdf: ∑t t ∑ pX (xi ) j=1 pXY (xi , yj ) = =1 pY |xi (yj ) = pX (xi ) pX (xi ) j=1 ∑s s ∑ pXY (xi , yj ) pY (yj ) pX|yj (xi ) = i=1 = = 1. pY (yj ) pY (yj ) i=1 Similmente se (X, Y ) è continua, abbiamo le densità condizionate così definite: fY |x (y) = fXY (x, y) fX (x) e fX|y (x) = fXY (x, y) , fY (y) anche qui ∫ ∫ ∞ −∞ ∞ fX|y (x) dx = ∫ −∞ +∞ −∞ +∞ ∫ fY |x (y) dy = −∞ fXY (x, y) fY (y) dx = = 1; fY (y) fY (y) fX (x) fXY (x, y) dy = = 1. fX (x) fX (x) Esempio 9.9. Data la pdf doppia dell’esempio 9.2, alcune distribuzioni di probabilità condizionate sono: Y Y pY |0 (yj ) pY |1 (yj ) 0 0= 0 1/8 0 0= 0 3/8 1 0= 0 1/8 1 2 3 = 2/8 3/8 2 1= 1/8 1/8 2 1 3 = 1/8 3/8 X pX|0 (xi ) X pX|1 (xi ) 0 0= 0 2/8 0 0= 0 4/8 1 0= 0 2/8 1 1 2 = 2/8 4/8 2 1 2 = 1/8 2/8 2 1 2 = 2/8 4/8 3 1 2 = 1/8 2/8 3 0= 0 4/8 Esempio 9.10. Con riferimento all’esempio 9.3, le pdf condizionate sono fY |x (y) = 4xy = 2y 2x e rispettivamente per y ∈ [0, 1] e x ∈ [0, 1]. Primi elementi di inferenza statistica (ed. maggio 2012) fX|y (x) = 4xy = 2x 2y 60 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE Esempio 9.11. Un laboratorio di analisi misura la presenza di alcool nel sangue di un gruppo di uomini (0) e donne (1), fermati casualmente mentre guidano. Le variabili studiate sono il livello di alcool nel sangue (Y ) e il sesso (X). Risulta la seguente distribuzione doppia di probabilità: Y X < 0.05 ≥ 0.05 0 0.50 0.15 1 0.30 0.05 dalla quale otteniamo che la probabilità di fermare casualmente un automobilista che presenta un livello di alcool superiore al limite di 0.05 è pY (≥ 0.05) = 0.15 + 0.05 = 0.20. Vogliamo sapere se questa probabilità dipende dal sesso dell’automobilista. Supponiamo di fermare una donna, calcoliamo pY |1 (≥ 0.05) = pXY (≥ 0.05, 1) pXY (xi , yj ) 0.05 = = = 0.143. pX (xi ) pX (1) 0.35 Interpretazione: Mentre il 20% degli automobilisti fermati presentano nel sangue un livello di alcool superiore allo 0.05, solo il 14.3% delle donne superano il limite. La dipendenza dal sesso appare di conseguenza fondata. Calcoliamo adesso la pdf della presenza dell’alcol nel sangue condizionata al sesso maschile: pY |0 (< 0.05) = pXY (< 0.05, 0) 0.50 = = 0.77; pX (0) 0.65 pY |0 (≥ 0.05) = pXY (≥ 0.05, 0) 0.15 = = 0.23. pX (0) 0.65 Riassumendo, pY |0 può così rappresentarsi y < 0.05 ≥ 0.05 pY |0 0.77 0.23 Il valore atteso di una distribuzione condizionata viene definito valore atteso condizionato. Formalmente, ipotizziamo che X e Y hanno una distribuzione di probabilità congiunta discreta, il valore atteso conzionato di Y data X = xi è una funzione di xi così definita E[Y | xi ] = E[Y | X = xi ] = t ∑ yj pY |xi (yj ), E[X|yj ] = E[X|Y = yj ] = j=1 s ∑ xi pX|yj (xi ). i=1 Similmente per le vv.cc. continue abbiamo ∫ E[Y |x] = E[Y |X = x] = ∫ +∞ −∞ y fY |x (y) dy, +∞ E[X|y] = E[X|Y = y] = −∞ x fX|y (x) dx. Esempio 9.12. Con riferimento all’esempio 9.9, segue il calcolo delle rispettive medie condizionate E[Y |X = 0] = 0 × 0 + 1 × 0 + 2 × 1 = 2; 2 1 4 E[Y |X = 1] = 0 × 0 + 1 × + 2 × = ; 3 3 3 1 1 E[X|Y = 0] = 0 × 0 + 1 × 0 + 2 × + 3 × = 2 2 1 1 E[X|Y = 1] = 0 × 0 + 1 × + 2 × + 3 × 0 = 2 2 5 ; 2 3 . 2 Esempio 9.13. Date due vv.cc. continue con funzione di densità congiunta { fXY (x, y) = e−y 0 se 0 < x < 1 e y > 0 altrimenti, Il grafico di questa densità congiunta è contenuto nella figura 9.2. M. Di Marzio 61 Primi elementi di inferenza statistica (ed. maggio 2012) 9.4. Distribuzioni di probabilità condizionate f(x,y) 1 0.8 0.6 0.4 0.2 0 0 0.5 0.5 y 1 1 x Figura 9.2: Grafico della pdf dell’esempio 9.13. Calcolare E[X | Y = 2]. Usando la definizione abbiamo ∫ E[X | Y = 2] = +∞ −∞ ∫ 1 = ∫ x fXY (x, 2) dx fY (2) x e−2 dx. fY (2) 0 1 = xfX|Y (x | 2) dx 0 Poiché ∫ 1 fY (2) = fXY (x, 2)dx ∫ 0 1 = e−2 dx = e−2 , 0 abbiamo ∫ 1 E[X | Y = 2] = x 0 e−2 1 dx = x2 e−2 2 1 = 0 1 . 2 Si deve segnalare che il valore atteso condizionato non è un numero, come lo è il valore atteso semplice, ma una funzione reale di xi (risp. x) o yj (risp. y). Chiaramente se esso viene considerato prima di osservare X, allora sarà una funzione della v. c. Xi (risp. X) o Yj (risp. Y ). Una fondamentale proprietà del valore atteso condizionato, inteso come funzione di v.c., è la cosiddetta proprietà delle medie iterate: E[E[Y | X]] = E[Y ]; di seguito lo dimostriamo per il caso discreto, per il caso continuo bisogna semplicemente considerare gli integrali al posto delle sommatorie. Se X e Y sono due vv.cc. discrete che possono assumere rispettivamente s e t modalità, allora abbiamo che E[E[Y | X]] = s ∑ t ∑ yj pY |xi (yj )pX (xi ), i=1 j=1 Primi elementi di inferenza statistica (ed. maggio 2012) 62 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE inoltre, ricordando la definizione di pdf condizionata, scambiando le due sommatorie e richiamando la definizione di pdf marginale, otteniamo E[E[Y | X]] = s ∑ t ∑ yj pXY (xi , yj ) i=1 j=1 = t ∑ yj j=1 = t ∑ s ∑ pXY (xi , yj ) i=1 yj pY (yj ) j=1 = E[Y ]. La varianza di una distribuzione condizionata viene definita varianza condizionata. Così ad esempio, data la v.c. doppia (X, Y ), la varianza di Y condizionata all’evento X = x, sarà indicata come Var[Y | X = x]. In analogia al caso non condizionato, la varianza condizionata può essere espressa come la seguente differenza: Var[Y | X = x] = E[Y 2 | X = x] − (E[Y | X = x])2 . Esempio 9.14. Con riferimento all’esempio 9.13 abbiamo visto che E[X | Y = 2] = 1/2 e inoltre ∫ 1 E[X 2 | Y = 2] = x2 0 e−2 dx = 1/3 e−2 per cui Var[X | y = 2] = 9.5 1 1 − = 0.889. 3 4 Variabili casuali indipendenti In analogia al caso di eventi indipendenti (sez. 1.5), possiamo definire l’indipendenza tra le componenti di vv.cc. multiple. Data una v.c. doppia discreta (X, Y ), X e Y sono indipendenti se la pdf congiunta è data dal prodotto delle rispettive marginali, cioè se e solo se per ogni coppia (xi , yj ) pXY (xi , yj ) = pX (xi )pY (yj ). Analogamente, il caso di v.c. (X, Y ) continua richiede che, per ogni coppia (x, y) fXY (x, y) = fX (x)fY (y). Esempio 9.15. Con riferimento all’esempio 9.3, valutiamo se le vv.cc. X e Y sono indipendenti. La risposta è affermativa poiché la pdf congiunta fXY (x, y) = 4xy è pari al prodotto delle marginali, che sono rispettivamente fX (x) = 2x e fY (y) = 2y. Anche le vv.cc. X e Y con pdf congiunta −2x−3y se 0 ≤ x ≤ ∞ e 0 ≤ y ≤ ∞ 6e fXY (x, y) = 0 altrimenti sono indipendenti poiché la pdf congiunta fXY (x, y) = 6e−2x−3y è pari al prodotto delle marginali, che sono una pdf esponenziale di parametro λ = 3 e una pdf esponenziale di parametro λ = 2. Esempio 9.16. Una fondamentale generalizzazione di queste definizioni porterà nel seguito a formulare la densità congiunta associata a un campione casuale di n elementi. Il campione casuale è definito come una v.c. n-pla (X1 , X2 , ..., Xn ) le cui singole componenti sono vv.cc. indipendenti e identicamente distribuite. Così a causa dell’indipendenza la pdf congiunta del campione è data dal prodotto delle marginali. Ma essendo le componenti identicamente distribuite, le marginali sono tutte uguali, cioè pX1 = pX2 = ... = pXn = pX , allora per il caso discreto abbiamo n ∏ pX1 X2 ...Xn (x1 , x2 , ..., xn ) = pX1 (x1 ) × pX2 (x2 ) × ... × pXn (xn ) = pX (xi ). i=1 Analogamente, per il caso continuo se la pdf marginale comune è fX si ha fX1 X2 ...Xn (x1 , x2 , ..., xn ) = fX1 (x1 ) × fX2 (x2 ) × ... × fXn (xn ) = n ∏ fX (xi ). i=1 M. Di Marzio 63 Primi elementi di inferenza statistica (ed. maggio 2012) 9.6. Covarianza Per accertare l’indipendenza nel caso discreto bisogna verificare che pXY (xi , yj ) = pX (xi )pY (yj ) per tutte le coppie (xi , yj ). Ma spesso le possibili coppie (xi , yj ) sono molto numerose. D’altro lato, dimostrare la dipendenza può essere facile poiché basta trovare una sola coppia per cui non vale la regola del prodotto delle marginali. Ad esempio, due vv.cc. discrete sono dipendenti se nella distribuzione doppia esiste anche una sola coppia (xi , yj ) per cui pXY (xi , yj ) = 0. Questo perché x e y sono valori possibili e quindi pX (xi ) > 0 e pY (yj ) > 0, il che implica che nel caso di indipendenza pXY (xi , yj ) = pX (xi )pY (yj ) > 0, ricavando che le vv.cc. sono dipendenti. 9.6 Covarianza Così come si può essere interessati alla misura della concordanza tra variabili statistiche, allo stesso modo lo si può essere alla misura della concordanza tra componenti di una v.c. multipla. Data una v.c. doppia (X, Y ), una misura della concordanza tra le sue componenti X e Y è la covarianza. Se X e Y sono discrete con s e t modalità, allora la loro covarianza è definita come s ∑ t ∑ σXY = Cov [X, Y ] = (xi − µX )(yj − µY ) pXY (xi , yj ). i=1 j=1 Analogamente se X e Y sono continue ∫ σXY = Cov [X, Y ] = ∞ −∞ ∫ ∞ −∞ (x − µX )(y − µY )fXY (x, y) dxdy dove fXY (x, y) è la pdf della v.c. doppia (X, Y ). Utilizzando l’operatore valore atteso E possiamo denotare la covarianza con una simbologia comune ai casi discreto e continuo Cov[X, Y ] = E[(X − µX )(Y − µY )]. E’ facile derivare una formulazione alternativa della covarianza, cioè Cov[X, Y ] = E[XY ] − µX µY , infatti: Cov[X, Y ] = E[(X − µX )(Y − µY )] = E[XY − µX Y − XµY + µX µY ] = E[XY ] − µX µY − µX µY + µX µY = E[XY ] − µX µY . La terza uguaglianza deriva dalla seconda applicando la regola per cui il valore atteso di una somma è dato dalla somma dei valori attesi, si veda la sezione 11.1. Ora se X = Y si ha Cov[X, X] = E[X 2 ] − µ2X = Var[X]. Alcune proprietà della covarianza sono: 1) Cov[X, Y ] = Cov[Y, X]; 2) Se a è un numero reale, Cov[aX, Y ] = aCov[X, Y ]; 3) Se a e b sono due numeri reali, Cov[X + a, Y + b] = Cov[Y, X]; 4) Se a, b, c, d sono numeri reali, Cov[aX + b, cY + d] = acCov[Y, X]. Queste proprietà si dimostrano facilmente ricorrendo alle proprietà del valore atteso. Ad esempio, usando la relazione Cov[X, Y ] = E[XY ] − µX µY , dimostriamo la proprietà 4): Cov[aX + b, cY + d] = E[(aX + b)(cY + d)] − E[aX + b]E[cY + d] = E[acXY + bcY + adX + bd] − (aµX + b)(cµY + d) = ac(E[XY ] − µX µY ) = acCov[X, Y ]. Come detto, la covarianza fornisce informazioni circa la relazione tra due vv.cc. X e Y , in particolare ci dice come variano congiuntamente. Quindi, ricordando che la coviarianza è un valore atteso (del prodotto degli scarti) sono possibili i seguenti casi Primi elementi di inferenza statistica (ed. maggio 2012) 64 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE a) Cov(X, Y ) > 0, X e Y variano in media nello stesso senso (correlazione positiva), b) Cov(X, Y ) < 0, X e Y variano in media in senso opposto (correlazione negativa), c) Cov(X, Y ) = 0, X e Y variano in media indifferentemente l’una dall’altra (incorrelazione). 9.7 Correlazione 2 Date le due vv.cc. X e Y , con 0 < σX < ∞ e 0 < σY2 < ∞, definiamo coefficiente di correlazione tra X e Y , e lo indichiamo con ρXY , il seguente rapporto: ρXY = Cov[X, Y ] . σX σY Si noti che ρXY può essere inteso come la covarianza tra X e Y standardizzati (sez. 3.12), cioè ρXY = Cov[X ∗ , Y ∗ ] = Cov [ ] X − µX Y − µY , . σX σY Infatti, usando la proprietà 4) della covarianza otteniamo [ ] X − µX Y − µY , σX σY ] [ X µX Y µY = Cov − , − σX σX σY σY 1 1 = Cov[X, Y ] σX σY Cov[X, Y ] = . σX σY Cov[X ∗ , Y ∗ ] = Cov Il coefficiente di correlazione fornisce importanti informazioni su come X e Y variano congiuntamente. In particolare, ρXY misura la forza del legame lineare tra X e Y , cioè quanta parte della relazione tra X e Y può essere spiegata dalla legge lineare Y = aX + b, dove a e b sono costanti. Inoltre, a differenza della covarianza, ρXY non è sensibile alle scale di misura, ed ha un minimo e un massimo. Di seguito alcune sue proprietà a) −1 ≤ ρXY ≤ 1; b) ρXY = −1 se Y = aX + b, con a < 0; c) ρXY = 1 se Y = aX + b, con a > 0; d) ρXY = 0 se Cov[X, Y ] = 0. Dimostriamo la proprietà c). Se Y = aX + b e a > 0, allora: Cov[X, Y ] √ Var[X] Var[Y ] Cov[X, aX + b] √ =√ Var[X] Var[aX + b] aCov[X, X + b] √ =√ Var[X]a Var[X] aCov[X, X] √ =√ Var[X]a Var[X] aVar[X] = aVar[X] = 1. ρXY = √ M. Di Marzio 65 Primi elementi di inferenza statistica (ed. maggio 2012) 9.8. Indipendenza e incorrelazione 9.8 Indipendenza e incorrelazione Date le due vv.cc. discrete X e Y , il valore atteso del loro prodotto è dato da: s ∑ t ∑ E[XY ] = xi yj pXY (xi , yj ). i=1 j=1 Ma se X e Y sono indipendenti, allora pXY (xi , yj ) = pX (xi )pY (yj ), e quindi: E[XY ] = s ∑ t ∑ xi yj pXY (xi , yj ) i=1 j=1 = t s ∑ ∑ xi yj pX (xi )pY (yj ) i=1 j=1 = s ∑ xi pX (xi ) i=1 t ∑ yj pY (yj ) j=1 = E[X]E[Y ]. Così abbiamo dimostrato che nel caso di indipendenza il valore atteso del prodotto XY è pari al prodotto dei valori attesi di X e di Y . Nel caso continuo vale lo stesso risultato con una dimostrazione simile. Ora, è facile dimostrare che l’indipendenza implica l’incorrelazione, infatti utilizzando la formula appena ottenuta abbiamo che la covarianza di due vv.cc. indipendenti è: Cov[X, Y ] = E[XY ] − E[X]E[Y ] = E[X]E[Y ] − E[X]E[Y ] = 0. Invece l’incorrelazione non implica l’indipendenza. Si consideri l’esempio che segue dove due vv.cc. sono incorrelate ma dipendenti. Esempio 9.17. Sia X una v.c. tale che: P(X = −1) = P(X = 0) = P(X = 1) = 1/3, inoltre sia Y così definita { Y = se X ̸= 0 se X = 0. 0 1 Ora, XY = 0 e quindi E[XY ] = 0. Inoltre E[X] = 0. E quindi Cov[X, Y ] = E[XY ] − E[X]E[Y ] = 0. Ma X e Y sono chiaramente dipendenti poiché sono legate da una relazione funzionale deterministica. E’ infine facile ricavare dai dati di sopra la seguente distribuzione doppia di (X, Y ): Y −1 X 0 1 0 1/3 0 1/3 2/3 1 0 1/3 0 1/3 1/3 1/3 1/3 1 Evidentemente qui pXY (xi , yj ) ̸= pX (xi )pY (yj ) che è una ulteriore prova della dipendenza. 9.9 Distribuzione normale doppia La v.c. doppia (X, Y ) è detta normale doppia (o bivariata) se ha pdf congiunta pari a fXY (x, y; µX , µY , σX , σY , ρXY ) = )2 )( ) ( )2 ]} { [( ( 1 y − µY y − µY 1 x − µX x − µX √ = + , exp − − 2ρ XY 2(1 − ρ2XY ) σX σX σY σY 2πσX σY 1 − ρ2XY dove (x, y) ∈ R2 . Si dimostra che ρXY è il coefficiente di correlazione tra X e Y , circa gli altri parametri si 2 consideri che le distribuzioni marginali sono normali, in particolare X ∼ N (µX , σX ) e Y ∼ N (µY , σY2 ). Primi elementi di inferenza statistica (ed. maggio 2012) 66 M. Di Marzio 9. VARIABILI CASUALI MULTIPLE Molto importante risulta la densità di Y condizionata a X = x; si verifica facilmente (esercizio 10.13) che Y essa è una pdf normale con media µY + ρXY σσX (x − µX ) e varianza σY2 (1 − ρ2XY ). Così per la normale doppia vale il fondamentale risultato per cui la media condizionata risulta funzione lineare di x, mentre la varianza condizionata non dipende da x (tale ultima proprietà è chiamata omoschedasticità). Queste due importanti proprietà verranno invocate nella teoria della regressione statistica (sezioni 24.2, 24.3). Infine è facile dimostrare che se (X, Y ) è una v.c. doppia normale, allora, eccezionalmente, X e Y sono indipendenti se e solo se sono incorrelate. Infatti se ρXY = 0 allora fXY (x, y; µX , µY , σX , σY , 0) = { [( )2 ( )2 ]} 1 1 x − µX y − µY exp − + , 2πσX σY 2 σX σY che è esattamente il prodotto delle pdf marginali, così deduciamo che X e Y sono indipendenti. Inoltre, ricordando che l’indipendenza implica l’incorrelazione, se X e Y sono indipendenti, allora ρXY = 0. Nella figura 9.3 sono presentati tre casi di distribuzione normale doppia. Evidentemente, se la correlazione è diversa da zero le osservazioni sono ammassate intorno a una diagonale. Tanto più la correlazione è forte tanto più esse tendono a concentrarsi intorno alla diagonale. In corrispondenza del valore limite |ρ| = 1 si troverebbero addirittura tutte su di essa. M. Di Marzio 67 Primi elementi di inferenza statistica (ed. maggio 2012) 9.9. Distribuzione normale doppia 2 0.15 0.1 y f(x,y) 1 0 0.05 −1 0 2 y −2 2 0 0 −2 −2 −2 −1 0 1 2 1 2 1 2 X x 2 0.2 0.1 y f(x,y) 1 0 −1 0 2 2 0 y −2 0 −2 −2 −2 −1 x 0 x 2 0.2 0.1 y f(x,y) 1 0 −1 0 2 2 0 y −2 0 −2 −2 −2 x −1 0 x Figura 9.3: Grafici di normali bivariate. Tutte hanno parametri µX = 0, µY = 0, σX = 1, σY = 1; nella prima riga ρXY = 0, nella seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli di destra sono rappresentazioni tramite curve di livello. Primi elementi di inferenza statistica (ed. maggio 2012) 68 M. Di Marzio 10 Esercizi svolti Esercizio 10.1. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta Y X 1 2 3 1 a 2a 3a 2 b c d Trovare a, b, c e d sapendo che X e Y sono indipendenti e che 2pX (1) = pX (2). Soluzione Siccome deve essere pX (1)+pX (2) = 1, allora pX (1)+2pX (1) = 1 per cui si ricava che pX (1) = 1/3 e pX (2) = 2/3. Da cui 6a = 1/3 e quindi a = 1/18. Inoltre poiché X e Y sono indipendenti pXY (x, y) = pX (x)pY (y). Così, ad esempio, sappiamo che: a = pXY (1, 1) = pX (1) × pY (1) e quindi 1/18 = 1/3 × pY (1) 2/18 = 1/3 × pY (2) ⇒ ⇒ pY (1) = 3/18 pY (2) = 6/18 3/18 = 1/3 × pY (3) ⇒ pY (3) = 9/18. Infine b = 3/18 − 1/18 = 2/18 c = 6/18 − 2/18 = 4/18 d = 9/18 − 3/18 = 6/18. Esercizio 10.2. Le variabili casuali X e Y hanno la seguente distribuzione di probabilità congiunta Y X 1 2 3 1 1/3 a 1/6 2 b 1/4 c Dimostrare che X e Y sono indipendenti, qualunque siano i valori che a, b e c possono assumere. M. Di Marzio 69 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione Dimostriamolo per assurdo. Se c’è indipendenza, allora abbiamo che pX (1) × pY (1) = 1/3 pX (1) × pY (3) = 1/6. e Il che implica che pY (1) = 2pY (3). Poniamo pY (3) = W . Allora, la distribuzione marginale di Y sarà: pY (1) = 2W ; pY (2) = 1 − 3W ; pY (3) = W. Da ciò si deduce la distribuzione marginale di X espressa in termini di W . Sempre ipotizzando l’indipendenza, si ha che 2W pX (1) = 1/3, da cui pX (1) = 1/(6W ), e quindi pX (2) = 1 − 1/(6W ) = 6W − 1 . 6W Così nel caso di indipendenza (1 − 3W )(6W − 1) , 6W da cui possiamo ricavare una equazione di secondo grado nel modo seguente 1/4 = 1/4 = 6W − 1 − 18W 2 + 3W 3 15 ⇒ W = −18W 2 + 9W − 1 ⇒ −18W 2 + W − 1 = 0. 6W 2 2 Risolvendo l’equazione troviamo che essa ammette solo radici immaginarie. Così non esistono valori di W che permettono l’indipendenza. Esercizio 10.3. La v.c. X assume i valori 0, 1, 2, 3 mentre la v.c. Y i valori 0, 1, 2. Inoltre la distribuzione di probabilità congiunta è della forma pXY (x, y) = c |x − y| . a) Determinare il valore di c; b) calcolare P(X = Y ); c) calcolare P(| X − 1 |≤ 1); d) calcolare P(X + Y ≤ 3); e) X e Y sono indipendenti? Soluzione E’ immediato costruire la distribuzione di probabilità congiunta Y X 0 1 2 0 0 c 2c 1 c 0 c 2 2c c 0 3 3c 2c c Da cui si evince che: a) c = 1/14; b) P(X = Y ) = P({0, 0} ∪ {1, 1} ∪ {2, 2}) = P({0, 0}) + P({1, 1}) + P({2, 2}) = 0; c) P(| X − 1 |≤ 1) = P({0, 0} ∪ {0, 1} ∪ {0, 2} ∪ {1, 0} ∪ {1, 1} ∪ {1, 2} ∪ {2, 0} ∪ {2, 1} ∪ {2, 2}) = pX (0) + pX (1) + pX (2) = 3c + 2c + 3c = 8c; Primi elementi di inferenza statistica (ed. maggio 2012) 70 M. Di Marzio 10. ESERCIZI SVOLTI d) P(X + Y ≤ 3) = P({0, 0} ∪ {0, 1} ∪ {0, 2} ∪ {1, 0} ∪ {1, 1} ∪ {1, 2} ∪ {2, 0} ∪ {2, 1} ∪ {3, 0}) = 3c + 2c + 3c = 0 + c + 2c + c + 0 + c + 0 + 3c = 11c; e) X e Y non sono indipendenti. Infatti pXY (0, 0) = 0 ̸= 6c × 3c. Esercizio 10.4. Un’urna contiene tre palle rosse e due verdi. Si estraggono due palle a caso una dopo l’altra i) reinserendo la prima e ii) senza reinserire la prima. Definiamo le seguenti vv.cc. { { 1 se la prima è rossa 1 se la seconda è rossa X= Y = 0 se la prima è verde; 0 se la seconda è verde. Per i casi i) e ii) definire a) distribuzioni di probabilità congiunte, b) distribuzioni di probabilità condizionate, c) valori attesi condizionati. Soluzione a) Le distribuzioni di probabilità congiunte, con e senza reinserimento, sono rispettivamente X X Y 0 1 Y 0 1 0 4 25 6 25 6 25 9 25 0 2 20 6 20 6 20 6 20 1 1 b) Nel caso di reinserimento le densità condizionate sono X pX|0 (xi ) X pX|1 (xi ) Y pY |0 (yi ) Y pY |1 (yi ) 0 2 5 3 5 0 2 5 3 5 0 0 1 2 5 3 5 1 2 5 3 5 1 1 mentre nel caso di mancato reinserimento si ha X pX|0 (xi ) X pX|1 (xi ) Y pY |0 (yi ) Y pY |1 (yi ) 0 1 4 3 4 0 1 2 1 2 0 1 4 3 4 0 1 2 1 2 1 1 1 1 c) Infine, le medie condizionate sono nel caso di reinserimento e non reinserimento rispettivamente pari a { 3 { 3 { 3 { 3 y=0 x=0 y=0 x=0 5 5 4 4 E[X|Y ] = E[Y |X] = e E[X|Y ] = E[Y |X] = 3 3 1 1 y = 1; x = 1; y = 1; x = 1. 5 5 2 2 Esercizio 10.5. La densità congiunta di X, Y è data da { −(x+2y) 2e se 0 ≤ x < +∞ e 0 ≤ y < +∞ fXY (x, y) = 0 altrimenti. a) Calcolare P(X > 1, Y < 1); b) calcolare P(X < a); c) X e Y sono indipendenti? M. Di Marzio 71 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione a) ∫ 1 ∫ ∞ 2e−(x+2y) dxdy ( ∫ 1 ∞) = 2e−2y −e−x dy P(X > 1, Y < 1) = 0 1 0 = e−1 1 ∫ 1 2e−2y dy 0 = e−1 (1 − e−2 ); b) ∫ a ∫ ∞ P(X < a) = ∫ 0 2e−(x+2y) dydx 0 a = e−x dx 0 = 1 − e−a ; c) X e Y sono indipendenti poiché la densità congiunta è il prodotto di due densità esponenziali, con parametri rispettivamente 2 e 1. Esercizio 10.6. La densità congiunta di X, Y è data da fXY (x, y) = 15 2 x(2 − x − y) 0 se 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1 altrimenti. a) Si calcolino le pdf marginali; b) si calcoli la densità condizionata di X dato Y = y. Soluzione a) Le densità marginali sono rispettivamente: ∫ 1 15 15 x(2 − x − y) dy = x(1.5 − x) 2 2 1 15 15 x(2 − x − y) dx = (2/3 − y/2). 2 2 fX (x) = ∫ 0 fY (y) = 0 b) Abbiamo fXY (x, y) f (x, y) dx −∞ XY fX|y (x) = ∫ ∞ = ∫1 0 = 15/2x(2 − x − y) 15/2x(2 − x − y) dx x(2 − x − y) . 2/3 − y/2 Esercizio 10.7. La densità congiunta di X, Y è data da e−x/y e−y fXY (x, y) = y 0 se 0 ≤ x < +∞ e 0 ≤ y < +∞ altrimenti. Calcolare il valore atteso condizionato di X su Y , cioè E[X|Y = y]. Primi elementi di inferenza statistica (ed. maggio 2012) 72 M. Di Marzio 10. ESERCIZI SVOLTI Soluzione Iniziamo con il calcolare la densità condizionata fX|y (x) fXY (x, y) fXY (x, y) = ∫∞ fY (y) f (x, y) dx −∞ XY fX|y (x) = (1/y)e−x/y e−y = ∫∞ (1/y)e−x/y e−y dx 0 (1/y)e−x/y = ∫∞ (1/y)e−x/y dx 0 e−x/y , y = come si vede, la densità condizionata è semplicemente la pdf esponenziale con parametro 1/y. Quindi il valore atteso condizionato sarà esattamente il valore atteso di questa esponenziale, cioè y. In formule ∫ ∞ x −x/y e dx = y. E[X|Y = y] = y 0 Esercizio 10.8. La distribuzione doppia di X, Y è la seguente 2 2 27 x y se x ∈ [0, 3] e y ∈ [−1, 2] fXY (x, y) = 0 altrimenti. a) Dimostrare che fXY (x, y) è una densità congiunta; b) calcolare le densità marginali; c) X e Y sono indipendenti? Soluzione a) Bisogna dimostrare che ∫ 2 −1 ∫ 3 0 2 2 x ydxdy = 1. 27 Abbiamo che ∫ 2 −1 ∫ 3 0 2 2 x y dxdy = 27 ∫ 2 ( −1 ∫ 2 2 x3 y 27 3 3) dy 0 2 2 y 2 ydy = 3 3 −1 ( ) 4 1 = − 3 3 = −1 = 1. b) Le densità marginali sono rispettivamente ( ∫ 2 2 2 y2 2 2 x ydy = x fX (x) = 27 2 −1 27 ( ) 1 2 2 4 1 x − = x2 ; = 27 2 2 9 2 ) −1 ( 3 3) 2 x 2 2 x ydx = y 27 27 3 0 0 2 2 27 y = y. = 27 3 3 ∫ 3 fY (y) = c) X e Y sono indipendenti perché ( fX (x) × fY (y) = M. Di Marzio 1 2 x 9 )( 2 y 3 73 ) = 2 2 x y = fXY (x, y). 27 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 10.9. La densità congiunta di X, Y è data da { k(xy) se x ∈ [0, 1] e y ∈ [0, 1] fXY (x, y) = 0 altrimenti, dove k è una costante. a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta; b) calcolare le densità marginali; c) X e Y sono indipendenti? Soluzione a) Procediamo similmente all’esercizio precendente calcolando il seguente integrale ∫ 1∫ 1 ∫ 1 ( 2 1) x k xydxdy = k y dy 2 0 0 0 0 ( 2 1) ∫ 1 1 y y =k . =k dy = k 2 4 4 0 0 Quindi otteniamo che k = 4. b) Le densità marginali sono rispettivamente ∫ 1 fX (x) = 4(xy)dy 0 ∫ ( 1 = 4x ydy = 4x 0 ∫ y2 2 1) = 2x; 0 1 fY (y) = 4(xy)dx 0 ∫ 1 = 4y 0 ( x2 xdx = 4y 2 1) = 2y. 0 c) X e Y sono indipendenti perché fX (x)fY (y) = (2x)(2y) = 4xy = fXY (x, y). Esercizio 10.10. La densità congiunta di X, Y è data da { ke−(ax+by) se 0 ≤ x < +∞ e 0 ≤ y < +∞ fXY (x, y) = 0 altrimenti, dove a, b, k sono delle costanti. a) Calcolare il valore di k tale che fXY (x, y) sia una funzione di densità congiunta; b) calcolare le densità marginali; c) X e Y sono indipendenti? Soluzione a) Procediamo calcolando il seguente integrale ∫ ∞∫ ∞ ∫ ∞ ( −ax ∞) e −by −ax −by e dy k e e dxdy = k − a 0 0 0 0 ( ∫ 1 ∞ −by 1 e−by =k e dy = k − a 0 a b Quindi otteniamo che k = ab. b) Le densità marginali sono rispettivamente ∫ ∞ fX (x) = ∞) = 0 k . ab e−ax e−by dy = ae−ax ; 0 ∫ ∞ fY (y) = e−ax e−by dx = be−by . 0 c) X e Y sono indipendenti perché fX (x)fY (y) = (ae−ax )(be−bx ) = abe−(ax+by) = fXY (x, y). Primi elementi di inferenza statistica (ed. maggio 2012) 74 M. Di Marzio 10. ESERCIZI SVOLTI Esercizio 10.11. La densità congiunta di X, Y è data da 1 + xy se − 1 ≤ x ≤ 1 e − 1 ≤ y ≤ 1 4 fXY (x, y) = 0 altrimenti, dove k è una costante. a) Calcolare le densità marginali; b) X e Y sono indipendenti? c) Calcolare il valore atteso di X su Y . Soluzione a) Le densità marginali sono rispettivamente ∫ fX (x) = −1 ∫ fY (y) = 1 1 −1 ( 1 1 y2 x (1 + xy)dy = y+ 4 4 2 ( 1 1 x2 y (1 + xy)dx = x+ 4 4 2 ) 1 −1 1 1 = 4 [( ) ( )] x x 1 1+ − −1 + = , 2 2 2 1 4 [( ) ( )] y y 1 1+ − −1 + = . 2 2 2 ) = −1 b) X e Y non sono indipendenti perché fX (x)fY (y) = 11 ̸= fXY (x, y). 22 c) Dato che fX|y (x) = fXY (x, y) 1 + xy = , fY (y) 2 il valore atteso di X condizionato a Y = y è il seguente ∫ 1 ∫ 1 ∫ 1 + xy 1 1 E[X|y] = xfX|y (x)dx = x dx = x + x2 ydx 2 2 −1 −1 −1 ( [( ) ( )] 1 ) 1 x2 x3 1 y 1 y y 1 = + y + − − = . = 2 2 3 −1 2 2 3 2 3 3 Esercizio 10.12. L’ufficio acquisti di un’azienda ha rilevato l’ammontare X (centinaia di euro) delle forniture richieste nell’ultimo mese ed il ritardo medio Y (giorni) nelle relative consegne. Sulla base dei dati raccolti si è costruita la pdf doppia seguente: X Y [10, 14) [14, 18) [18, 22) [22, 26) 7 5/45 4/45 0 1/45 10/45 8 6/45 3/45 4/45 0 13/45 9 0 0 6/45 2/45 8/45 10 0 0 6/45 8/45 14/45 11/45 7/45 16/45 11/45 1 a) Costruire la pdf marginale della v.c. X; b) costruire la distribuzione della v.c. Y condizionata all’intervallo [14, 18) di X; c) costruire la distribuzione della v.c. X condizionata all’evento Y = 9; d) calcolare i valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4; e) determinare la probabilità che il ritardo nella consegna di una fornitura sia pari a 8; M. Di Marzio 75 Primi elementi di inferenza statistica (ed. maggio 2012) f ) determinare la probabilità che una consegna pervenuta con ritardo y = 10 giorni rispetto al tempo concordato sia di ammontare [18, 22) ; g) determinare la probabilità che una fornitura di ammontare [22, 26) pervenga all’azienda con un ritardo di 7 giorni. Soluzione a) La distribuzione marginale del carattere X è: X [10, 14) [14, 18) [18, 22) [22, 26) pX (xi ) 11/45 7/45 16/45 11/45 b) La distribuzione di Y condizionata all’intervallo di modalità [14, 18) di X è: Y 7 8 9 10 pY |[14,18) (yj ) 4/7 3/7 0 0 c) La distribuzione della v.c. X condizionata alla modalità y3 = 9 di Y è: X [10, 14) [14, 18) [18, 22) [22, 26) pX|9 (xi ) 0 0 6/8 2/8 d) I valori attesi condizionati E[Y |X = xj ] per j = 1, 2, 3, 4 sono: E[Y |X = x1 ] = 7.545; E[Y |X = x2 ] = 7.4286; E[Y |X = x3 ] = 9.125; E[Y |X = x4 ] = 9.545. e) La probabilità che il ritardo nella consegna di una fornitura sia pari a 8 è 13 . 45 pY (8) = f) La probabilità che una consegna pervenuta con ritardo y = 10 sia di ammontare compreso in [18, 22) è pX|10 ([18, 22)) = pXY ([18, 22), 10) 6/45 6 = = . pY (10) 14/45 14 g) La probabilità che una fornitura di ammontare compreso in [22, 26) pervenga all’azienda con un ritardo y = 7 giorni è pXY ([22, 26) , 7) 1/45 1 pY |[22,26) (7) = = = . pX ([22, 26)) 11/45 11 Esercizio 10.13. Se la v.c. (X, Y ), ha distribuzione normale doppia, dimostrare che la densità condizionata di Y su X = x è ]2 } { [ 1 σY √ √ fY |x (y; µX , µY , σX , σY , ρXY ) = (x − µX ) . exp − y − µY − ρXY σX σY 2π 1 − ρ2XY Soluzione Ricordando la definizione di pfd condizionata abbiamo fXY (x, y; µX , µY , σX , σX , ρXY ) fX (x; µX , σX ) fY |x (y; µX , µY , σX , σY , ρXY ) = { 2πσX σY 1 √ 1−ρ2XY exp )2 [( 1 − 2(1−ρ 2 XY ) { = σX Primi elementi di inferenza statistica (ed. maggio 2012) 1 √ ( − 2ρXY x−µX σX 2π exp − 12 76 )( x−µX σX ) y−µY σY )2 ]} ( + y−µY σY )2 } ( x−µX σX M. Di Marzio 10. ESERCIZI SVOLTI ( )2 ( )2 ( )( ) )2 } { ( 1 ρXY x − µX y − µY 1 x − µX √ exp − + − + 2(1 − ρ2XY ) 1 − ρ2XY σX σY 2(1 − ρ2XY ) 2 σX σY 2π 1 − ρ2XY )2 ( ) ( )( ) )2 } { ( ( 1 1 x − µX 1 ρXY x − µX y − µY 1 y − µY √ √ = exp 1− + − 2 σX 1 − ρ2XY 1 − ρ2XY σX σY 2(1 − ρ2XY ) σY σY 2π 1 − ρ2XY { ) )( ) )2 } ( ( ( 2 −ρ2XY 1 y − µY 1 x − µX ρXY x − µX y − µY √ √ = exp − + 2(1 − ρ2XY ) σX 1 − ρ2XY σX σY 2(1 − ρ2XY ) σY σY 2π 1 − ρ2XY = x−µX σX √ = σY √ 2π 1 √ 1 − ρ2XY = M. Di Marzio σY { −ρ2 XY exp √ y−µY σY 2 σY 2 (x σX − µX )2 + 2ρXY 2(1 σY σX (x − µX )(y − ρ2XY )σY2 − µY ) − (y − µY )2 } { [ ]2 } 1 σY √ exp − y − µ − ρ (x − µ ) . Y XY X σX 2π 1 − ρ2XY 77 Primi elementi di inferenza statistica (ed. maggio 2012) 11 Funzioni di variabili casuali Indice 11.1 11.2 11.3 11.4 11.5 11.1 Somma di variabili casuali . . . . . . . . . . . . . . . Distribuzioni del minimo e del massimo di variabili Variabili casuali che derivano dalla normale . . . . Somme di particolari variabili casuali indipendenti Teorema centrale del limite . . . . . . . . . . . . . . . . . . . casuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 80 82 83 84 Somma di variabili casuali Tutta la statistica si basa sul concetto di funzione di più variabili casuali (sez. 9.2). In questo capitolo ne studieremo alcune tra le più importanti. In particolare in questa sezione presentiamo il calcolo di valore atteso e varianza della v.c. somma. In seguito daremo risposte più complete, infatti vedremo che in casi particolari si può ottenere (sez. 11.4) o approssimare (sez. 11.5) addirittura la pdf della somma. Spesso è utile conoscere valore atteso e varianza della somma di vv.cc. per ciascuna delle quali già siano noti valore atteso e varianza. Esempio 11.1. Supponiamo che gli incassi giornalieri di ciascuno dei 100 punti vendita di un supermercato siano rappresentati da vv.cc. indipendenti con media 25 e varianza 20 (migliaia di euro). Di conseguenza il totale degli ∑100 incassi giornalieri della catena si rappresenta come una v.c. i=1 Xi dove Xi rappresenta l’incasso del punto vendita i. Ovviamente, a fini previsivi, siamo interessati a valore atteso e varianza dell’incasso totale. Date n vv.cc. X1 , X2 , ..., Xn , si consideri la v.c. somma n ∑ Xi i=1 il valore atteso di tale somma è dato dalla somma dei valori attesi ] [ n n ∑ ∑ Xi = E[Xi ] E i=1 i=1 Dimostriamo questa legge, detta additività del valore atteso, solo nel caso di una v.c. doppia continua, gli altri casi si deducono facilmente. Così dobbiamo dimostrare che E[X + Y ] = E[X] + E[Y ] infatti applicando la definizione di valore atteso di una funzione di v.c. doppia (sez. 9.2) abbiamo ∫ ∞∫ ∞ E[X + Y ] = (x + y)fXY (x, y) dxdy −∞ −∞ ] ] ∫ ∞ [∫ ∞ ∫ ∞ [∫ ∞ = x fXY (x, y) dy dx + y fXY (x, y) dx dy −∞ −∞ −∞ −∞ ∫ ∞ ∫ ∞ = x fX (x) dx + y fY (y) dy −∞ −∞ = E[X] + E[Y ]. Primi elementi di inferenza statistica (ed. maggio 2012) 78 M. Di Marzio 11. FUNZIONI DI VARIABILI CASUALI Esempio 11.2. Un’impresa ha partecipato a tre gare d’appalto sottoponendo preventivi di 10, 20 e 40 euro. Gli esiti delle gare sono indipendenti e le probabilità di successo sono rispettivamente 0.2, 0.8 e 0.3. Qual è il profitto totale che l’azienda si aspetta? Il profitto totale è una v.c. S = X1 + X2 + X3 , e quindi E[S] = E[X1 ] + E[X2 ] + E[X3 ]. Poiché se non si vince l’appalto il ricavo sarà nullo, allora E[S] = 10 × 0.2 + 0 × 0.8 + 20 × 0.8 + 0 × 0.2 + 40 × 0.3 + 0 × 0.7 = 30. Certamente, se tutte le medie sono uguali e pari a µ, risulta [ n ] n n ∑ ∑ ∑ E Xi = E[Xi ] = µ = nµ. i=1 i=1 i=1 Esempio 11.3. Nell’esempio 11.1 abbiamo che E[S] = 100 × 25 = 2500. Circa la varianza della somma, si dimostra che [ n ] n ∑ n ∑ ∑ Var Xi = Cov[Xi , Xj ] i=1 i=1 j=1 = n ∑ Var[Xi ] + i=1 n ∑ n ∑ Cov[Xi , Xj ] i=1 j=1 i̸=j ricordando che Cov[Xi , Xi ] = Var[Xi ]. Ma se X1 , X2 , ..., Xn sono indipendenti le covarianze sono nulle poiché l’indipendenza implica l’incorrelazione (sez. 9.8). Allora per vv.cc. indipendenti si ha: [ n ] n ∑ ∑ Xi = Var [Xi ] . Var i=1 i=1 Se inoltre X1 , X2 , ..., Xn hanno tutte la stessa varianza σ 2 n ∑ i=1 Var [Xi ] = n ∑ σ 2 = nσ 2 . i=1 Esempio 11.4. Nell’esempio 11.1 abbiamo che Var[S] = 100 × 20 = 2000. Dimostriamo la formula della varianza di una somma di variabili casuali nel caso di due sole vv.cc. X e Y . Sapendo che Var[W ] = E[W 2 ] − (E[W ])2 , per W = X + Y abbiamo Var[X + Y ] = E[(X + Y )2 ] − (E[X + Y ])2 = E[X 2 + Y 2 + 2XY ] − (E[X] + E[Y ])2 = E[X 2 ] + E[Y 2 ] + 2E[XY ] − (E[X])2 − (E[Y ])2 − 2E[X]E[Y ] = E[X 2 ] − (E[X])2 + E[Y 2 ] − (E[Y ])2 + 2E[XY ] − 2E[X]E[Y ] = Var[X] + Var[Y ] + 2Cov[X, Y ]. Chiaramente Var[X − Y ] = Var[X] + Var[Y ] − 2Cov[X, Y ]. ∑n Si osservi che Var[X] misura la dispersione della v.c. X intorno al suo valore medio, mentre Var [ i=1 Xi ] misura la dispersione congiunta delle vv.cc. X1 , X2 , ..., Xn intorno ai loro valori medi, infatti essa comprende anche le covarianze. Esempio 11.5. Sapendo che le vv.cc. X1 , X2 , X3 sono tali che E[X1 ] = 2 e Var[X1 ] = 1; E[X2 ] = 1 e Var[X2 ] = 4; E[X3 ] = 0 e Var[X3 ] = 9, calcolare media e varianza di T = X1 + 4X2 + 2X3 M. Di Marzio 79 Primi elementi di inferenza statistica (ed. maggio 2012) 11.2. Distribuzioni del minimo e del massimo di variabili casuali a) nel caso in cui X1 , X2 , X3 sono a due a due indipendenti; b) se Cov[3X1 , 4X2 ] = −6; Cov[X1 , X3 ] = 2.5; Cov[2X2 , X3 ] = −2. a) Abbiamo E[T ] = E[X1 + 4X2 + 2X3 ] = E[X1 ] + 4E[X2 ] + 2E[X3 ] = 6; Var[T ] = Var[X1 + 4X2 + 2X3 ] = Var[X1 ] + 16Var[X2 ] + 4Var[X3 ] = 1 + 64 + 36 = 101; b) si noti anzitutto che il valore atteso non cambia. Ora, se Cov[3X1 , 4X2 ] = −6 allora 12Cov[X1 , X2 ] = −6 per cui Cov[X1 , X2 ] = −0.5. Analogamente, se Cov[2X2 , X3 ] = −2, allora Cov[X2 , X3 ] = −1, per cui: Var[T ] = Var[X1 + 4X2 + 2X3 ] = Var[X1 ] + 16Var[X2 ] + 4Var[X3 ] + 4 × 2 × Cov[X1 , X2 ] + 2 × 2 × Cov[X1 , X3 ] + 4 × 2 × 2 × Cov[X2 , X3 ] = = 1 + 64 + 36 − 4 + 10 − 16 = 91. Supponiamo di avere n vv.cc. X1 , X2 , ..., Xn , ognuna con media µi e m vv.cc. Y1 , Y2 , ..., Ym , ognuna con media νi . La proprietà che segue è detta additività della covarianza: [∑ ] ∑ n m n ∑ m ∑ Cov Xi , Yj = Cov[Xi , Yj ], i=1 j=1 i=1 j=1 per dimostrare questo, ricordiamo che nella sezione 11.1, l’additività del valore atteso permette di scrivere [∑ ] ∑ [∑ ] ∑ n n m m E Xi = µi , E Yj = νj , i=1 allora Cov [∑ n i=1 Xi , i=1 m ∑ j=1 j=1 [(∑ ] )(∑ )] n n m m ∑ ∑ Yj = E Xi − µi Yj − νj j=1 i=1 =E =E = = [∑ n (Xi − i=1 [∑ n ∑ m i=1 m ∑ µi ) j=1 ] j=1 (Yj − νj ) j=1 ] (Xi − µi )(Yj − νj ) i=1 j=1 n ∑ m ∑ E[(Xi − µi )(Yj − νj )] i=1 j=1 n ∑ m ∑ Cov[Xi , Yj ]. i=1 j=1 Si noti che per passare dalla terzultima alla penultima equazione abbiamo ancora sfruttato l’additività del valore atteso. 11.2 Distribuzioni del minimo e del massimo di variabili casuali Date n vv.cc. X1 , X2 , ..., Xn indipendenti e identicamente distribuite, aventi pdf continua fX , siano e Y1 = min(X1 , X2 , ..., Xn ) Yn = max(X1 , X2 , ..., Xn ). Dalla definizione di Y1 risulta che la funzione di ripartizione del minimo è FY1 (y) = P(Y1 ≤ y) = 1 − P(Y1 > y) = 1 − P(X1 > y ∩ X2 > y ∩ ... ∩ Xn > y), poiché Y1 è maggiore di y se e solo se Xi > y, ∀i = 1, 2, ..., n. Poiché le vv.cc. X1 , X2 , ..., Xn sono indipendenti si ottiene n ∏ FY1 (y) = 1 − P(Xi > y) =1− i=1 n ∏ [1 − FXi (y)], i=1 Primi elementi di inferenza statistica (ed. maggio 2012) 80 M. Di Marzio 11. FUNZIONI DI VARIABILI CASUALI ed essendo le vv.cc. X1 , X2 , ..., Xn identicamente distribuite FY1 (y) = 1 − [1 − FX (y)]n . Ricordando che la pdf di una v.c. continua può essere definita come derivata della funzione di ripartizione, si ottiene fY1 (y) = F′Y1 (y) = n[1 − FX (y)]n−1 fX (y). Dalla definizione di Yn risulta che la funzione di ripartizione del massimo è FYn (y) = P(Yn ≤ y) = P(X1 ≤ y ∩ X2 ≤ y ∩ ... ∩ Xn ≤ y), in quanto Yn è minore o uguale a y se e solo se ogni v.c. Xi , i = 1, 2, ..., n, è minore o uguale a y. Pertanto FYn (y) = n ∏ FXi (y), i=1 poiché le vv.cc. X1 , X2 , ..., Xn sono indipendenti; ma essendo anche identicamente distribuite, risulta n ∏ FXi (y) = [FX (y)]n . i=1 La pdf della v.c. Yn è allora definita da fYn (y) = F′Yn (y) = n[FX (y)]n−1 fX (y). Esempio 11.6. Siano X1 , X2 , ..., Xn n vv.cc. indipendenti uniformemente distribuite nell’intervallo [0, θ]. Determinare le pdf delle vv.cc. a) Yn = max{X1 , X2 , ..., Xn }; b) Y1 = min{X1 , X2 , ..., Xn }. Soluzione a) Ciascun elemento del campione ha pdf e funzione di ripartizione pari a { 1 se 0 ≤ x ≤ θ θ fX (x; θ) = 0 altrimenti, ∫ e ∫ u FX (u) = u fX (x; θ) dx = 0 0 x 1 dx = θ θ u = 0 u . θ Se Yn = yn , allora xi = yn per uno solo degli i ∈ {1, 2, ..., n}, mentre per le restanti n − 1 osservazioni si ha xi ≤ yn . Così la funzione di ripartizione del massimo è pari alla probabilità che ogni elemento del campione sia minore o uguale ad esso. Quindi, tenendo conto dell’indipendenza, possiamo scrivere: FYn (yn ) = {FX (yn )}n derivando si ottiene la funzione di densità: F′Yn (yn ) = fYn (yn ) = n(FX (yn ))n−1 fX (yn ) = n ( y )n−1 1 n(yn )n−1 n = . θ θ θn b) Se Y1 = y1 , xi = y1 per uno solo degli i ∈ {1, 2, ..., n} e inoltre P(Xi ≥ y1 ) = 1 − FX (y1 ) = 1 − y1 . θ Ricordando che Y1 può essere una qualsiasi delle n vv.cc. X1 , X2 , ..., Xn , si ottiene che la funzione di ripartizione del minimo, con ragionamento analogo al precedente, è FY1 (y1 ) = {1 − FX (y1 )}n infine, derivando si ottiene: ( )n−1 ( n(θ − y1 )n−1 y1 )n−1 1 θ − y1 1 fY1 (y1 ) = n 1 − =n = . θ θ θ θ θn M. Di Marzio 81 Primi elementi di inferenza statistica (ed. maggio 2012) 11.3. Variabili casuali che derivano dalla normale 11.3 Variabili casuali che derivano dalla normale Ora si introducono alcune variabili casuali che rivestono un ruolo importantissimo nella statistica inferenziale, ossia la v.c. chi-quadrato, la v.c. t di Student e la v.c. F di Fisher. Esse sono definibili più o meno direttamente come funzioni di vv.cc. normali. Siano X1 , X2 , ..., Xr r vv.cc. indipendenti e tutte con distribuzione normale standard, allora la v.c. somma dei quadrati r ∑ X2r = Xi2 i=1 è detta v.c. chi-quadrato con r gradi di libertà; qui X è la lettera greca χ in maiuscolo. 1 0.8 r=1 0.6 0.4 r=2 r=3 0.2 r=4 r=6 0 0 5 10 15 Figura 11.1: Funzioni di densità della v.c. X2r per diversi valori di r. Si può dimostrare che E[X2r ] = r Var[X2r ] = 2r. e la pdf della v.c. X2r non viene riportata poiché non di interesse per questo corso, comunque, come si vede dalla figura 11.1, essa è asimmetrica ma tende alla normale N (r, 2r) all’aumentare dei gradi di libertà. In analogia a quanto appreso per la v.c. normale standard (sez. 7.3), indichiamo con χ2α,r la quantità che soddisfa l’equazione P(X2r > χ2α,r ) = α. Se X e Y sono vv.cc. indipendenti e rispettivamente normale standard e chi-quadrato con r gradi di libertà, allora la v.c. X Tr = √ Y /r è detta t di Student con r gradi di libertà. La pdf della v.c. Tr non viene riportata, si tratta comunque di una funzione simmetrica rispetto allo 0, di forma campanulare come la normale ma con code più alte; inoltre, come si può vedere dalla figura 11.2, al crescere dei gradi di libertà r tende alla normale standard. Tale convergenza, a differenza degli altri casi, è quasi completa già per piccoli valori di n. Infatti, come regola generale, la convergenza alla normale è tanto più veloce tanto più simmetrica è la distribuzione di partenza. In analogia a quanto appreso per le vv.cc. normale standard e chi-quadrato, indichiamo con tα,r la quantità che soddisfa l’equazione P(Tr > tα,r ) = α. Se X e Y sono vv.cc. indipendenti chi-quadrato rispettivamente con r1 e r2 gradi di libertà, allora la v.c. Fr1 ,r2 = X/r1 Y /r2 è detta F di Fisher con r1 e r2 gradi di libertà. La pdf della v.c. Fr1 ,r2 non viene riportata, comunque, come si può vedere dalla figura 11.3, è definita solo per valori positivi, è asimmetrica, ma come la χ2 , al crescere dei gradi di libertà, si trasforma in una distribuzione normale. In analogia a quanto appreso per le vv.cc. normale standard, chi-quadrato e t di Student, indichiamo con fα,r1 ,r2 la quantità che soddisfa l’equazione P(Fr1 ,r2 > fα,r1 ,r2 ) = α. Primi elementi di inferenza statistica (ed. maggio 2012) 82 M. Di Marzio 11. FUNZIONI DI VARIABILI CASUALI 0.5 r=4 r=∞ r=1 0.4 f(x) 0.3 0.2 0.1 0 −5 0 5 x f(x) Figura 11.2: Funzioni di densità della v.c. Tr per diversi valori di r. 1 r1=10, r2=4 r1=10,r2=50 r1=10,r2=300 0.8 0.6 0.4 0.2 0 0 1 2 3 x 4 Figura 11.3: Funzioni di densità della v.c. Fr1 ,r2 per alcune coppie (r1 , r2 ). 11.4 Somme di particolari variabili casuali indipendenti Se di n vv.cc. conosciamo non solo medie e varianze, ma sappiamo che hanno tutte la stessa pdf, anche se con parametri diversi, esistono casi in cui la famiglia parametrica a cui apprtiene la pdf della somma è la stessa a cui appartengono le singole vv.cc. sommate. Seguono alcuni dei casi più importanti. ⋄ Somma di vv.cc. binomiali Se n vv.cc. indipendenti X1 , X2 , ..., Xn hanno distribuzione binomiale di parametri rispettivamente (m1 , π), (m2 , π), ..., (mn , π), senza alcun ∑n calcolo possiamo concludere che ∑n la v.c. somma i=1 Xi ha distribuzione binomiale con parametri ( i=1 mi , π). Infatti, Xi rappresenta il numero di successi in mi prove dove P(successo) = π. Allora siccome le vv.cc. X1 , X2 , ..., Xn sono ∑n indipendenti, ne segue che S rappresenta il numero di successi in i=1 mi prove indipendenti, ognuna ∑n delle quali dà successo con probabilità π. Così S è una v.c. binomiale di parametri i=1 mi e π. ⋄ Somma di vv.cc. di Poisson Date n vv.cc. di Poisson indipendenti X1 , X2 , ∑ ..., Xn ognuna con disn tribuzione di Poisson con parametri rispettivamente λ t , λ t , ..., λ t , la v.c. 1 1 2 2 n n i=1 Xi si distribuisce ∑n come una v.c. di Poisson con parametro i=1 λi ti . ⋄ Somma di vv.cc. normali Siano X1 , X2 , . . . , Xn , n vv.cc. ∑ normali indipendenti aventi rispettivan 2 2 2 mente parametri (µ , σ ), (µ , σ ), ..., (µ , σ ), allora la v.c. 1 ∑ 2 n n 1 2 i=1 Xi ha distribuzione normale con ∑n n 2 parametri i=1 µi e σ . i=1 i ⋄ Somma di vv.cc. chi-quadrato Date n vv.cc. chi-quadrato X1 , X2 , ..., Xn rispettiva∑indipendenti n mente con parametri r1 , r2 , ..., rn ,∑ la variabile casuale somma i=1 Xi si distribuisce ancora come una n v.c. chi-quadrato con parametro i=1 ri . Questo è ovvio, infatti ogni v.c. chi-quadrato è una somma di vv.cc. normali standard indipendenti elevate al quadrato, così la somma di vv.cc. chi-quadrato è una somma di somme di quadrati di normali standard. M. Di Marzio 83 Primi elementi di inferenza statistica (ed. maggio 2012) 11.5. Teorema centrale del limite 1 f(x) n=2 n=3 0.8 n=4 n=6 0.6 n=10 0.4 0.2 0 0 1 2 3 4 5 6 7 Figura 11.4: Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettive approssimazioni normali date dal teorema centrale del limite (linea tratteggiata). 11.5 Teorema centrale del limite Il teorema centrale del limite (TCL) è uno dei risultati più importanti del calcolo delle probabilità. La sua portata nell’ambito della statistica è enorme. Teorema 11.1. Teorema centrale del limite per la somma Siano X1 , X2 , . . . , Xn , n vv.cc. indipendenti e identicamente distribuite (i.i.d.) con µ e varianza σ 2 entrambe finite. ∑media n Al crescere di n la v.c. somma Sn = i=1 Xi tende ad avere distribuzione normale con media nµ e varianza nσ 2 . In formule ( ) Sn − nµ √ lim P ≤ z = Φ(z). n→∞ nσ 2 Che valore atteso e varianza di S siano nµ e nσ 2 è gia assicurato dalle proprietà della somma di variabili casuali i.i.d. viste nella sezione 11.1. Piuttosto la grossa novità introdotta da questo teorema sta nello stabilire che la distribuzione della v.c. somma converge alla distribuzione normale, qualunque sia la pfd delle vv.cc. sommate. Quindi per n sufficientemente grande la conoscenza della distribuzione delle singole vv.cc. diventa poco rilevante ai fini del calcolo della distribuzione della somma, in quanto in virtù del TCL la distribuzione della somma è approssimabile dalla pdf di una v.c. normale. Ma quanto grande deve essere il campione affinché l’approssimazione normale sia buona? Questo dipende molto dalla simmetria della pdf comune alle vv.cc.. Per densità simmetriche si ha una buona convergenza anche per n ≤ 10, come si può vedere nella figura 11.4, mentre una forte asimmetria ritarda la convergenza. Una regola pratica abbastanza efficace suggerisce che l’approssimazione è buona se n > 30. Esempio 11.7. Nella figura 11.4 si riportano le pdf delle somme di n vv.cc. Xi ∼ U (0, 1), i.i.d. con i = 1, ..., n, nei casi in cui n assume i valori seguenti: 2, 3, 4, 6, 10. Inoltre sono anche riportate le relative approssimazioni normali date dal TCL (linea tratteggiata). Va rilevato che in questo caso l’approssimazione è subito molto buona. Come si è appreso nella sezione 11.4 esistono vv.cc. che possono essere espresse come somma di vv.cc. i.i.d.. Ma secondo il TCL tali somme tendono ad avere distribuzione normale al crescere di n. Così concludiamo che in base al TCL le vv.cc. esprimibili come somme di vv.cc. i.i.d. hanno tutte distribuzione asintotica normale. Questo vale per la v.c. di Poisson, che tende alla normale al crescere del valore del parametro λ (si veda la figura 5.4). Due ulteriori casi, che ora esaminiamo in dettaglio, sono quelli delle vv.cc. chi-quadrato e binomiale. ◃ Approssimazione normale della v.c. chi-quadrato poiché una v.c. chi-quadrato con r gradi di libertà è una somma di r vv.cc. chi-quadrato indipendenti con un grado di libertà, il TCL assicura che la v.c. chi-quadrato tende ad avere distribuzione normale con media r e varianza 2r, all’aumentare di r. Si veda la figura 11.1 per una verifica empirica. Così se r è grande vale la seguente approssimazione ) ( χ2α,r − r ≃ α, P Z≥ √ 2r Primi elementi di inferenza statistica (ed. maggio 2012) 84 M. Di Marzio 11. FUNZIONI DI VARIABILI CASUALI da cui si deduce che χ2α,r − r √ ≃ zα 2r e quindi √ χ2α,r ≃ r + zα 2r. Questa approssimazione è utile quando bisogna calcolare il valore χ2α,r e r è tanto grande da non essere presente nelle tavole. √ Esempio 11.8. Controlliamo il valore dell’approssimazione χ2α,r ≃ r + zα 2r√ con α = 0.05. Per r = 10 abbiamo che il vero valore è 18.31, mentre l’approssimazione è pari a 10 + 1.645 √2 × 10 = 17.35. Per r = 50 abbiamo che il vero valore è 67.50, mentre l’approssimazione è pari a 50 + 1.645 2 × 50 √ = 66.45. Infine per r = 100 abbiamo che il vero valore è 124.34, mentre l’approssimazione è pari a 100 + 1.645 2 × 100 = 123.26. ◃ Approssimazione normale della v.c. binomiale Abbiamo appreso che una v.c. binomiale Y con parametri n e π è una somma di n vv.cc. binomiali con parametri 1 e π. Così è applicabile il TLC. Allora, date n vv.cc. binomiali con parametri 1 e π, la loro somma – che è una v.c. binomiale – è distribuita, al tendere di n a infinito, come una normale N (nπ, nπ(1 − π)). La convergenza alla normale è tanto più veloce quanto più simmetrica è la curva, cioè tanto più π è vicino a 0.5. Si osservi la figura 5.1 per una verifica empirica. In formule ( ) Y − nπ lim P √ < z = Φ(z). n→∞ nπ(1 − π) Tale approssimazione richiede calcoli molto semplici e può essere utilizzata quando l’uso diretto della distribuzione binomiale è reso proibitivo da numeri molto grandi. Esempio 11.9. Si vuole sapere con che probabilità in 1000 giocate alla roulette il numero 2 esce almeno 25 volte. Chiaramente il numero di volte in cui esce 2 è descritto da una v.c. binomiale Y con parametri n = 1000 e π = 1/37. Così esistono 2 soluzioni dirette di questo problema P(Y ≥ 25) = 1000 ∑ x=25 ( ) 1000 (1/37)x (1 − 1/37)1000−x x ma questa soluzione richiede il calcolo di 976 addendi. La soluzione che segue richiede il calcolo di 25 addendi P(Y ≥ 25) = 1 − P(Y < 25) ( ) 24 ∑ 1000 =1− (1/37)x (1 − 1/37)1000−x . x x=0 L’approssimazione normale fornita dal TCL afferma che Y tende a distribuirsi come una normale con parametri 1 1 1 1000 37 e 1000 37 (1 − 37 ) così si ottiene la seguente veloce soluzione P(Y ≥ 25) = P √ 1 Y − 1000 37 1 1000 37 (1 − 1 25 − 1000 37 1 ) 37 ≥ √ 1 1000 37 (1 − 1 ) 37 = P(Z ≥ −0.4) = Φ(0, 4) = 0, 6554. Segue un’altra formulazione del TCL banalmente equivalente alla precedente ma di più immediata utilità per ∑i=1 X −µ la statistica. Tale formulazione si ottiene dividendo il numeratore e il denominatore di nσ√ni per n. Teorema 11.2. Teorema centrale del limite per la media Siano X1 , X2 , . . . , Xn , n vv.cc. i.i.d. con media µ e varianza σ 2 entrambe finite. ∑n Al crescere di n la v.c. media X = i=1 Xi /n tende ad avere distribuzione normale con media µ e varianza σ 2 /n. In formule ) ( X −µ √ ≤ z = Φ(z). lim P n→∞ σ/ n M. Di Marzio 85 Primi elementi di inferenza statistica (ed. maggio 2012) 11.5. Teorema centrale del limite 1 0.8 n=1 n=2 0.6 0.5 0.4 0.2 0 0 1.5 1 2 3 4 0 0 5 n=10 1 2 0.5 1 0 0 1 2 2 3 3 0 0 4 n=30 1 2 Figura 11.5: Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30 è anche riportata la rispettiva approssimazione normale data dal teorema centrale del limite (linea tratteggiata). Esempio 11.10. Si consideri una popolazione esponenziale di parametro 1, cioè fX (x) = e−x x ≥ 0. Si dimostra che la media in questo caso ha distribuzione fX (x) = {nn /(n−1)!}xn−1 e−nx per x > 0. In figura 11.5 sono rappresentate distribuzioni di questa media campionaria per diverse numerosità campionarie. Per n = 1 abbiamo ovviamente una distribuzione esponenziale fX (x) = e−x . Come emerge dall’analisi degli altri casi, per effetto del TCL all’aumentare di n la distribuzione tende ad essere normale. In particolare la media sarà sempre 1, ma lo s.q.m. che, come sappiamo è √ pari a 1/ n, diminuisce progressivamente. Si può osservare come la distribuzione delle media campionaria nel caso di una distribuzione fortemente non normale tende velocemente alla normale. Infatti già per n = 10 c’è una asimmetria non troppo elevata.√ Per n = 30 siamo già molto vicini alla normale (in tratteggio è anche rappresentata la funzione di densità N (1, 1/ 30)). Primi elementi di inferenza statistica (ed. maggio 2012) 86 M. Di Marzio 12 Popolazione e campionamento Indice 12.1 12.2 12.3 12.4 12.5 12.6 12.7 12.8 Popolazione, campione e inferenza . . . . . . . . . . . . . Popolazione come pdf parametrica . . . . . . . . . . . . . Campione casuale e osservato . . . . . . . . . . . . . . . . Statistiche campionarie . . . . . . . . . . . . . . . . . . . . Media campionaria: valore atteso e varianza . . . . . . . Media campionaria: funzione di densità . . . . . . . . . . Valore atteso della varianza campionaria . . . . . . . . . Funzione di densità della varianza campionaria nel caso gaussiani . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.9 Altre statistiche calcolate su campioni casuali gaussiani 12.1 . . . . . . . . . . . . . . di . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . casuali . . . . . . . . . . 87 88 89 91 93 93 94 95 96 Popolazione, campione e inferenza Per popolazione si intende l’insieme degli elementi su cui un carattere statistico viene studiato. Il singolo elemento è chiamato unità statistica. Salvo casi eccezionali i caratteri statistici assumono intensità differenti nelle varie unità statistiche: studiare un carattere statistico presso una popolazione significa accertare come le modalità si distribuiscono tra le unità. Ad esempio, è importante conoscere quali modalità sono maggiormente presenti di altre, inoltre se le modalità osservate sono tutte vicine tra loro oppure distanti. Non di rado sono di interesse anche popolazioni il cui numero di elementi non ha limite massimo, dette infinite. Le popolazioni infinite sono chiaramente ipotetiche. Un esempio rilevante di popolazione infinita è costituito dai prodotti ottenibili ripetendo indefinitamente una lavorazione nelle stesse condizioni. Il carattere statistico viene spesso rilevato solo su una porzione limitata della popolazione chiamata campione; in tali casi l’indagine non viene estesa a tutte le unità statistiche allo scopo di contenerne i costi. Tuttavia il campione viene analizzato per conoscere la popolazione. Di conseguenza è necessario che il campione sia rappresentativo, cioè che la distribuzione del carattere presso il campione sia somigliante alla distribuzione del carattere presso la popolazione. Per inferenza statistica si intende l’insieme delle tecniche induttive che sulla base della informazione campionaria producono conclusioni riguardo aspetti incogniti della popolazione. Tali conclusioni sono definibili generalizzazioni supportate da valutazioni probabilistiche circa la precisione di ciò che si afferma. Esempio 12.1. Occorre determinare il prezzo di una fornitura. Sulla base dell’intuito e della sensazione affermiamo “Ho visto 30 dei 1000 pezzi che mi vuoi vendere e mi sembra che i pezzi di questa fornitura non rispettino le specifiche”. Mentre il prendere una decisione su base statistica inferenziale comporta una affermazione più scientifica: “Dopo aver osservato un campione casuale di 30 pezzi estratto dai 1000 della fornitura, posso concludere con un livello di fiducia pari al 99% che il 45% della fornitura non è conforme.” Esempio 12.2. In un’azienda vengono prodotte viti lunghe 10 cm. La legge impone di vendere solo viti che non differiscono di oltre il 2% dalla misura dichiarata. Così bisogna controllare che l’intera produzione sia conforme alla legge, cioè tutte le viti devono avere lunghezza compresa tra 9.98 e 10.02 cm. Come effettuare un tale controllo? Certamente misurare ognuna delle decine di migliaia di viti prodotte non è proponibile. Il metodo statistico inferenziale ci suggerisce di analizzare un campione della produzione totale, che sia rappresentativo della popolazione, e misurare M. Di Marzio 87 Primi elementi di inferenza statistica (ed. maggio 2012) 12.2. Popolazione come pdf parametrica solo le viti appartenenti ad esso: con una certa probabilità, proporzionale al loro numero, le viti del campione presentano le caratteristiche delle viti della popolazione. Esempio 12.3. Si è interessati alla qualità dei circuiti che escono da una linea di produzione di memorie ram. Un giudizio sulla qualità riguarda di certo la distribuzione di un certo carattere X presso la popolazione dei circuiti che sono prodotti nel lungo periodo. Per fare inferenza su una popolazione del genere, che è infinita, si può rilevare il carattere X su un campione di n elementi. 12.2 Popolazione come pdf parametrica Affinché la distribuzione di un carattere presso una popolazione sia analizzata da metodologie sofisticate come quelle inferenziali, è necessario che essa sia stilizzata attraverso una funzione definita sui valori del carattere. Quest’ultima sarà l’autentico oggetto dell’inferenza, non l’effettiva distribuzione presso la popolazione. Appare evidente che le funzioni più indicate per rappresentare la distribuzione di un carattere presso una popolazione sono le pdf. Infatti in corrispondenza di un dato intervallo di valori del carattere la frequenza relativa è perfettamente resa dalla probabilità che la pdf associa all’intervallo stesso. Esempio 12.4. Una volta rappresentata la distribuzione del carattere peso all’interno di una popolazione con una pdf normale con media 65 e varianza 9, qualunque caratteristica della distribuzione viene dedotta dalla pdf. Ad esempio sappiamo che la percentuale di individui che pesano meno di 77 chili è pari al 15.87%, e che questa è uguale a quella di individui che pesano più di 83 chili. Il grado di rispondenza al vero di queste conclusioni dipende da come fedelmente il modello normale prescelto descriva la distribuzione del mondo reale. Segue ora una impostazione del problema inferenziale detta parametrica. Molto spesso appare fondato che la distribuzione del carattere sia stilizzata da una legge appartenente a una data famiglia parametrica di pdf (si veda la sezione 3.3) nota {fX (·; θ) : θ ∈ Θ ⊆ Rk }, oppure, nel caso discreto {pX (·; θ) : θ ∈ Θ ⊆ Rk }. Questo significa che prima di osservare i dati si elenca un’insieme di alternative, numerose quanto i possibili valori del parametro. Il problema è capire quale particolare pdf descriva la distribuzione del carattere nella popolazione. Siccome ognuna delle pdf della famiglia differisce da qualsiasi altra solo per il valore del parametro, decidere quale sia la popolazione consiste nello scegliere un valore per il parametro sulla base dei dati campionari. Si rifletta a questo punto come possa essere statisticamente semplice l’approccio parametrico: se la famiglia è stata correttamente specificata, per una buona inferenza tutto viene ridotto alla stima del parametro sulla base del campione, operazione quasi mai complicata. In effetti i parametri non saranno mai noti con certezza perché i dati a disposizione non riguardano l’intera popolazione. Così il procedimento inferenziale si limita a ridurre l’ignoranza circa il parametro con un’affermazione del tipo ‘con alta probabilità il parametro ha questo valore’. Esempio 12.5. Un astronomo vuole misurare la precisione di uno strumento che rileva la distanza in anni luce tra pianeti. La precisione dello strumento è data dalla distribuzione del carattere ‘errore’ presso la popolazione ipotetica costituita dalle infinite misurazioni di una stessa distanza. L’astronomo effettua allora n misurazioni indipendenti della distanza tra due particolari pianeti. Egli considera questi valori come un campione generato da una popolazione infinita ipotetica di misurazioni appartenente alla famiglia parametrica normale che, ricordiamo, ha come parametri media e varianza. Sulla base del campione stima la media, che misura la distanza effettiva, e lo s.q.m. che misura la precisione. Operata la stima, l’astronomo assumerà di conoscere completamente la popolazione, e potrà calcolare con che probabilità commetterà un certo errore nelle prossime misurazioni. Esempio 12.6. Per studiare la misura delle viti dell’esempio 12.2 appare indicato il modello normale. In questo modo la completa conoscenza di tutta la produzione dipende solo dai due parametri µ e σ. Due stime quindi risolvono il problema. Esempio 12.7. Per studiare la proporzione di simpatizzanti di un partito politico si usa un modello bernoulliano di parametro π. Così l’unica cosa non nota è la proporzione di favorevoli π, cioè il parametro della distribuzione di Bernoulli. La semplice stima di π risolve il problema. Esempio 12.8. Si studia il numero di incidenti che avvengono in un periodo t su una strada statale. Il modello di Poisson è il più indicato in questo caso. Anche qui c’è un solo parametro da stimare che è λt, ovvero il tasso medio di incidenti nel periodo t. Primi elementi di inferenza statistica (ed. maggio 2012) 88 M. Di Marzio 12. POPOLAZIONE E CAMPIONAMENTO Figura 12.1: Istogrammi dei dati campionari. Esempio 12.9. Si studia il tempo di durata di una certa componente elettronica. Il modello esponenziale è il più indicato in questo caso. Anche qui c’è un solo parametro da stimare, che è λ. Esempio 12.10. A volte i parametri della popolazione coincidono con la media o la varianza. Tuttavia, i parametri, essendo contenuti nella espressione della popolazione, sono di conseguenza sempre contenuti nelle espressioni di media e varianza. Se come modelli per la popolazione consideriamo le famiglie parametriche introdotte nei capitoli precedenti, abbiamo quanto segue. a) Se la popolazione è bernoulliana, il parametro π è anche la media della popolazione. b) Se la popolazione è di Poisson, il parametro λt corrisponde sia alla media sia alla varianza. c) Se la popolazione è geometrica, il parametro π non corrisponde né alla media né alla varianza. d) Se la popolazione è uniforme continua, i parametri a e b, non corrispondono a media o varianza. Qui lo spazio parametrico è contenuto in R2 . e) Se X è normale, µ è la media e σ è lo s.q.m.. Qui lo spazio parametrico è R × R+ . f ) Se la popolazione è esponenziale, il parametro λ non corrisponde alla media. La fase dell’indagine statistica in cui si sceglie la famiglia parametrica viene chiamata specificazione del modello. Naturalmente l’efficacia del procedimento inferenziale poggia totalmente su questa fase. Se si sbaglia famiglia, qualunque suo membro fornirà una spiegazione molto povera dei dati e una previsione molto lontana dal vero. Se abbiamo una realizzazione da una popolazione normale con media negativa e specifichiamo la famiglia esponenziale, nessuna pdf esponenziale potrà mai costituire una buona approssimazione, indipendentemente dalla bontà del metodo di stima. Ma come scegliere la famiglia parametrica? Come appare dagli esempi che precedono, si è sempre guidati da informazioni a priori, cioè informazioni su X che precedono l’osservazione del campione, di regola originarie di altre competenze scientifiche. Comunque anche la rappresentazione grafica dei dati campionari può orientare la scelta nel senso che la ‘forma’ del campione può offrire indicazioni sulla ‘forma’ della popolazione generatrice. Esempio 12.11. Si consideri l’istogramma dei dati campionari (i rettangoli hanno area pari alla frequenza relativa associata agli intervalli che costituiscono la loro base). Si osservi la figura 12.1: se l’istogramma dei dati campionari è quello di sinistra, i dati ci suggeriscono una famiglia normale; se invece l’istogramma è quello di destra i dati ci suggeriscono un modello esponenziale. 12.3 Campione casuale e osservato Ora si introduce l’unica modalità di estrazione del campione considerata in questo corso, cioè il campionamento casuale semplice. Si consideri l’esperimento casuale ripetuto che consiste nell’osservare n volte una v.c. X. Inoltre si assuma che le osservazioni siano indipendenti tra loro. Questo esperimento genera una v.c. multipla X1 , X2 , ..., Xn 1 chiamata campione casuale. L’osservazione di un campione casuale produce un insieme di valori numerici x1 , x2 , . . . , xn , detto campione osservato o realizzazione campionaria. Se fX (·; θ) indica la pdf di X, allora per ogni j ∈ [1, 2, ..., n] ∫ b P(Xj ∈ [a, b]) = fX (x; θ) dx, a oppure, nel caso discreto, P(Xj ∈ [a, b]) = ∑ pX (xi ) a≤xi ≤b 1 Per indicare una v.c. multipla dovremmo scrivere (X , X , ..., X ), ma per comodità di notazione le parentesi tonde verranno n 1 2 omesse. M. Di Marzio 89 Primi elementi di inferenza statistica (ed. maggio 2012) 12.3. Campione casuale e osservato così Xj ha la stessa pdf di X, è una copia di X. Di conseguenza il campione è inteso come una v.c. n−dimensionale a componenti indipendenti e identicamente distribuite (i.i.d.). La pdf congiunta di X1 , X2 , ..., Xn è pari a fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = fX1 (x1 ; θ) fX2 (x2 ; θ) ...fXn (xn ; θ) n ∏ = fX (xi ; θ) . i=1 Similmente, se X è discreta, la distribuzione di probabilità congiunta è così definita: pX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = pX1 (x1 ; θ)pX2 (x2 ; θ) ...pXn (xn ; θ) n ∏ pX (xi ; θ). = i=1 Nella pratica si studiano generalmente popolazioni finite e a volte infinite ipotetiche. Ora si osservi che per ottenere un campione casuale da una popolazione finita occorre reinserire di volta in volta l’elemento estratto nella popolazione. In questo modo prima di ogni estrazione la distribuzione di probabilità della v.c. da osservare resta sempre la stessa, realizzando l’indipendenza e l’identica distribuzione. Ovviamente nel caso di popolazione ipotetica infinita il reinserimento perde completamente di importanza, essendo a tutti gli effeti indifferente se l’individuo estratto venga reinserito. Esempio 12.12. Data una popolazione esponenziale con parametro λ = 2, si calcolino le pdf congiunte delle seguenti realizzazioni campionarie {0.1, 0.1, 0.3, 2} e Applicando la definizione fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = ∏n {0.01, 0.05, 0.03, 0.02}. i=1 fX (xi ; θ), si ha: fX1 X2 X3 X4 (0.1, 0.1, 0.3, 2; 2) = 2e−2×0.1 × 2e−2×0.1 × 2e−2×0.3 × 2e−2×2 = 24 e−2×2.5 = 0.1078, e fX1 X2 X3 X4 (0.01, 0.05, 0.03, 0.02; 2) = 2e−2×0.01 × 2e−2×0.05 × 2e−2×0.03 × 2e−2×0.02 = 24 e−2×0.11 = 12.8403. Si noti che la seconda realizzazione ha densità molto maggiore della prima. Ciò perché è composta da elementi che si trovano in regioni della densità esponenziale più probabili. Esempio 12.13. Data una popolazione di Poisson con parametro λt = 1.5, si calcolino le pdf congiunte corrispondenti alle seguenti due realizzazioni campionarie: {1, 1, 2, 3} e {5, 6, 7, 4}. ∏ Applicando la definizione pX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) = n i=1 pX (xi ; θ), abbiamo: 1.52 e−1.5 1.53 e−1.5 1.57 e−6 × = = 0.0035, 2! 3! 2!3! 1.56 e−1.5 1.57 e−1.5 1.54 e−1.5 × × × 6! 7! 4! pX1 X2 X3 X4 (1, 1, 2, 3; 1.5) = 1.5e−1.5 × 1.5e−1.5 × 1.55 e−1.5 5! 1.522 e−6 = = 0.0000000017745. 5!6!7!4! pX1 X2 X3 X4 (5, 6, 7, 4; 1.5) = Si può notare che la seconda realizzazione ha pdf congiunta molto minore della prima. Questo perché essa è composta da elementi che hanno probabilità molto minori sotto il modello di Poisson considerato. Indichiamo con C l’insieme dei possibili valori di X. Poiché il campione è casuale, cioè per ogni i si ha Xi = X, allora l’insieme X di tutti i possibili campioni estraibili, detto spazio o universo campionario, è dato dal seguente prodotto cartesiano: X = C × C × .... × C. X è il dominio della pdf congiunta, così la pdf congiunta è una funzione da X in [0, +∞) o [0, 1], a seconda se X sia continua o discreta. Esempio 12.14. Dato un campione casuale di tre elementi estratto dalla distribuzione: a) bernoulliana, b) di Poisson; Primi elementi di inferenza statistica (ed. maggio 2012) 90 M. Di Marzio 12. POPOLAZIONE E CAMPIONAMENTO descriviamo gli universi campionari di appartenenza del campione. Poiché il campione considerato è casuale, cioè a componenti i.i.d., gli spazi campionari sono del tipo X = X × X × X. Allora a) X = {0, 1} × {0, 1} × {0, 1} = {(000), (001), (010), (100), (011), (101), (110), (111)}; b) X = {0, 1, 2, ...} × {0, 1, 2, ...} × {0, 1, 2, ...} = {(x1 , x2 , x3 ) : xi ∈ {0, 1, 2, ...}, ∀i ∈ {1, 2, 3}}. Esempio 12.15. Dato un campione casuale di due elementi da una v.c. uniforme con parametri a = 0 e b = θ, determinare spazio parametrico e spazio campionario. Lo spazio parametrico è chiaramente il semiasse positivo R+ . Lo spazio campionario è definito in maniera più complicata del solito, infatti in questo caso esso cambia con θ poiché con θ cambia l’insieme dei valori che X può assumere. Ad esempio, per θ = 5 si ha X5 = [0, 5] × [0, 5] mentre per θ = 30 si ha X30 = [0, 30] × [0, 30]. Così in questo caso usiamo una definizione più generale di spazio campionario, e cioè l’insieme di tutti gli spazi campionari che corrispondono ai possibili valori di θ: ∪ X= Xθ . θ∈Θ 12.4 Statistiche campionarie Operativamente l’inferenza statistica è fondata su opportune misure di sintesi dell’informazione campionaria chiamate statistiche campionarie. Per statistica campionaria si intende una funzione t nota (cioè che non contiene parametri incogniti) così definita: t : X → R. Esempio 12.16. Si di voler stimare il parametro θ. La quantità ∑supponga n 1 mentre la quantità incognito θ. θ i=1 1 n ∑n i=1 Xi è una statistica campionaria Xi non lo è poiché non è una funzione nota del campione. Essa infatti dipende dal parametro Se la statistica t ha come argomento il campione casuale, allora costituisce v.c. T funzione di v.c. multipla poiché funzione delle n variabili casuali componenti il campione: T = t(X1 , X2 , ..., Xn ). Mentre se applicata a una realizzazione campionaria x1 , x2 , . . . , xn , t genera una realizzazione numerica di T , indicata con t e chiamata valore campionario di T : t = t(x1 , x2 , ..., xn ). Alcune importanti statistiche sono riportate nella tabella 12.1. Qui la v.c. X ha g modalità, mentre la v.c. Y ha h modalità. Inoltre la frequenza assoluta della i-esima modalità è indicata con ni , ∑ mentre la ∑g h frequenza assoluta della coppia di modalità (xi , yj ) è indicata con nij ; infine n = i=1 ni e m = j=1 nj . In caso di ambiguità gli indici sono accompagnati dalla indicazione in pedice del carattere a cui si riferiscono, così ad esempio possiamo avere SX , codxy , devx . . . .etc. Se la popolazione generatrice è bernoulliana (cioè X ∈ {0, 1}), la statistica media campionaria è chiamata proporzione campionaria ed è indicata con P , essa indica la frazione dei casi favorevoli presenti nel campione. Esempio 12.17. Si dispone della seguente realizzazione campionaria estratta da una popolazione bernoulliana {1, 1, 0, 0, 0, 1, 1, 0, 0, 0}. Per calcolare la proporzione di successi nel campione applichiamo la statistica media campionaria. Si ottiene (1 + 1 + 0 + 0 + 0 + 1 + 1 + 0 + 0 + 0) × 1/10 = 4/10. Così nella realizzazione sotto esame c’è il 40% di successi. Esempio 12.18. Una grande azienda rileva, su un campione di 60 operai, il numero X di anni di servizio ed il numero medio Y di ore di straordinario mensilmente effettuate. I dati raccolti sono riportati nella tabella seguente: M. Di Marzio 91 Primi elementi di inferenza statistica (ed. maggio 2012) 12.4. Statistiche campionarie Argomento della statistica campionaria Campione casuale Media Devianza X= DEV = S2 = Varianza Scarto quadratico medio S= COD = Coefficiente di correlazione R = √∑ n Xi i=1 n ∑n i=1 (Xi ∑n i=1 x= − X)2 dev = (Xi −X)2 n−1 s2 = (Xi −X)2 n i=1 n−1 ∑m j=1 (Xi i=1 ∑n ∑n √∑ ∑n Codevianza Realizzazione campionaria cod = ∑m ∑g xi ni n i=1 (xi ∑g i=1 ∑h (xi −x)2 ni n−1 j=1 (xi i=1 − x)2 ni (xi −x)2 ni n−1 i=1 ∑g ∑g − X)(Yj − Y ) √∑ m 2 2 i=1 (Xi − X) j=1 (Yi − Y ) i=1 i=1 √∑ g s= − X)(Yj − Y ) ∑g − x)(yj − y)nij ∑h − x̄)(yj − ȳ)nij √∑ h 2 2 i=1 (xi − x̄) ni j=1 (yj − ȳ) nj j=1 (Xi r = √∑ g j=1 (xi i=1 Tabella 12.1: Alcune statistiche campionarie. Y [2, 6) [6, 10) X [10, 14) [14, 18) 6 2 0 0 8 10 8 4 4 2 4 14 10 8 6 10 2 26 12 6 4 0 0 10 20 14 12 14 60 Si vuole conoscere l’atteggiamento dei dipendenti verso lo straordinario a seconda dell’anzianità. Un indice statistico utile a tale scopo è la codevianza campionaria. Si ricordi che, ai fini del calcolo, alle classi vanno sostituiti i rispettivi valori centrali. Ora, poiché x = 9.33 e y = 9.2, risulta: cod = (4 − 9.33) (6 − 9.2) 2 + (16 − 9.33) (6 − 9.2) 8 + (4 − 9.33) (8 − 9.2) 4 + (8 − 9.33) (8 − 9.2) 4+ + (12 − 9.33) (8 − 9.2) 2 + (16 − 9.33) (8 − 9.2) 4 + (4 − 9.33) (10 − 9.2) 8 + (8 − 9.33) (10 − 9.2) 6+ + (12 − 9.33) (10 − 9.2) 10 + (16 − 9.33) (10 − 9.2) 2 + (4 − 9.33) (12 − 9.2) 6 + (8 − 9.33) (12 − 9.2) 4 = = −254.16. Si conclude che c’è discordanza tra i due caratteri: con l’aumentare dell’anzianità di servizio si tende a chiedere meno ∑ straordinari. La codevianza si poteva calcolare anche con la formula cod = n x i=1 i yi − nx y. La somma dei prodotti è pari a 4896, di conseguenza cod = 4896 − 60 × 9.33 × 9.2 = −254.16. Se T è continua (rispettivamente discreta), la relativa pdf fT (t) (risp. pT (ti )) è proporzionale al numero di realizzazioni campionarie in corrispondenza delle quali T = t (risp. per le quali T = ti ). La pdf è in entrambi i casi chiamata distribuzione campionaria della statistica T . Poiché la statistica campionaria T è una v.c. espressa come funzione degli elementi del campione casuale, di regola la pdf di T sarà funzione delle pdf dei singoli elementi campionari fX (xi ; θ)(oppure pX (xi ; θ)). Quindi, di regola, la pdf di T dipenderà dal parametro incognito θ. Riassumendo, abbiamo ad esempio per il caso continuo: fT (t; θ) ∝ ♯{(x1 , x2 , ...., xn ) : t(x1 , x2 , ...., xn ) = t}, dove il simbolo ∝ significa ‘proporzionale a’ e ♯A indica la cardinalità dell’insieme A. Primi elementi di inferenza statistica (ed. maggio 2012) 92 M. Di Marzio 12. POPOLAZIONE E CAMPIONAMENTO 12.5 Media campionaria: valore atteso e varianza Da questa sezione in poi studiamo la distribuzione campionaria di varie statistiche campionarie sotto l’ipotesi di campionamento casuale semplice. Ricordiamo che ciò significa che gli elementi del campione sono vv.cc. i.i.d.. Iniziamo con la media campionaria, cioè: dato un campione casuale X1 , X2 , ..., Xn estratto da una pdf con media µ e varianza σ 2 , calcoliamo valore atteso e varianza di X. ∑n ∑n Per il valore atteso si ricordi che, date n vv.cc. identicamente distribuite, E[ i=1 Xi ] = i=1 E[Xi ] = nµ. Così [ n ] ∑ Xi 1 E = nµ = µ. n n i=1 ∑n ∑n Per la varianza si ricordi che, date n vv.cc. i.i.d., Var[ i=1 Xi ] = i=1 Var[Xi ] = nσ 2 . Così [ n ] 1∑ 1 σ2 Var . Xi = 2 nσ 2 = n i=1 n n È importante sottolineare come questi risultati non dipendano dalla particolare distribuzione di X, ma solo dal fatto che gli elementi del campione sono identicamente distribuiti e indipendenti. Esempio 12.19. Sia X1 , X2 , ..., Xn un campione casuale generato da una popolazione fX . ⋄ Se X ha distribuzione bernoulliana di parametro π, allora [ n ] [ n ] ∑ Xi ∑ Xi π(1 − π) =π e Var = . E n n n i=1 i=1 ⋄ Se X ha distribuzione di Poisson di parametro λt, allora [ E n ∑ Xi n i=1 ] [ = λt e Var n ∑ Xi n i=1 ] = λt . n ⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà [ n ] [ n ] ∑ Xi ∑ Xi 2r E =r e Var = . n n n i=1 i=1 ⋄ Se X ha distribuzione normale di parametri µ e σ 2 [ n ] ∑ Xi E =µ e n i=1 [ n ] ∑ Xi σ2 Var = . n n i=1 Così fX è centrata sulla media della popolazione generatrice, ed è più concentrata di essa. Si capisce facilmente che X ha una varianza minore di X considerando che per campioni differenti ci può essere uno stesso valore della media. A differenza della varianza, la deviazione standard della distribuzione di X diminuisce solo a un tasso pari a √ n, ciò vuol dire che per dimezzare la deviazione standard di X occorre quadruplicare le osservazioni, e non semplicemente raddoppiarle. Esempio 12.20. Si consideri una popolazione normale con media 0 e s.q.m. 2. La distribuzione della media campionaria calcolata su campioni di 9 elementi sarà ancora normale per il teorema sulla somma di vv.cc. normali. √ Inoltre, per quanto appena visto, X avrà media 0 e s.q.m. 2/ 9. Si veda la figura 12.2. Se si vuole dimezzare la varianza della media campionaria occorre utilizzare un campione di 18 elementi, così la varianza passerà da 4/9 a 4/18. √ Se invece si vuole dimezzare lo s.q.m. bisognerà quadruplicare il campione così lo s.q.m. passerà da 2/3 a 2/ 9 × 4 = 2/6. 12.6 Media campionaria: funzione di densità Dato un campione casuale di n elementi, se la media della popolazione è µ e la varianza σ 2 , il TCL afferma che, qualunque sia la popolazione, la media campionaria, per n grande, ha distribuzione approssimativamente normale con media µ e varianza σ 2 /n (sez. 11.5). Così grazie al TCL siamo in grado di approssimare la M. Di Marzio 93 Primi elementi di inferenza statistica (ed. maggio 2012) f(x) 12.7. Valore atteso della varianza campionaria 0.6 0.5 0.4 0.3 0.2 0.1 0 −6 −4 −2 0 2 4 6 x Figura 12.2: fX (·; θ) e fX (·; θ) (curva più concentrata). distribuzione della più importante statistica campionaria senza conoscere la popolazione generatrice. Tuttavia nei quattro casi particolari della sezione 11.4 possiamo derivare le distribuzioni esatte di X. Il ragionamento considera la seguente banale identità: ( n ) ( ) ∑ k P X= =P Xi = k , n i=1 che permette di utilizzare direttamente i risultati trovati per la pdf della somma. Qui di seguito esponiamo i quattro casi in dettaglio. ⋄ Se X ∼ B(1, π) allora, come visto, ∑n la media campionaria si indica con P e si chiama proporzione campionaria. In questo caso poiché i=1 Xi ∼ B(n, π), allora anche la proporzione ha la stessa distribuzione, infatti è ovvio che ( n ) ( ) ∑ k Xi = k P P = =P n i=1 così P assume i valori 0, 1/n, 2/n, ..., 1 con probabilità rispettivamente pari a ( ) ( ) ( ) n 0 n 1 n n π (1 − π)n , π (1 − π)n−1 , ..., π (1 − π)0 . 0 1 n ∑n ⋄ Se X ∼ P(λt) sappiamo che i=1 Xi ∼ P(nλt), e la media assumerà i valori k/n, k = 1, 2, ..., con probabilità pari a ( n ) ( ) ∑ e−nλt (nλt)k k P X= Xi = k = =P . n k! i=1 In definitiva vediamo che in entrambi i casi si assegnano le probabilità delle somme ai valori delle medie. ∑n ⋄ Se X ha distribuzione chi-quadrato con r gradi di libertà, allora la v.c. i=1 Xi ha anch’essa distribuzione chi-quadrato con nr gradi di libertà e quindi ( ) k fX = fX2nr (k). n ⋄ Se infine X ∼ N (µ, σ 2 ) si ha direttamente che X ∼ N (µ, σ 2 /n). 12.7 Valore atteso della varianza campionaria Dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione con media µ e varianza σ 2 , si dimostra che il valore atteso della statistica varianza campionaria è pari alla varianza della popolazione, cioè E[S 2 ] = σ 2 . La dimostrazione di ciò usa questa equazione n ∑ (Xi − X)2 = i=1 Primi elementi di inferenza statistica (ed. maggio 2012) n ∑ (Xi − µ)2 − n(X − µ)2 i=1 94 M. Di Marzio 12. POPOLAZIONE E CAMPIONAMENTO che ora dimostriamo essere vera. Infatti: n ∑ (Xi − µ)2 = i=1 n ∑ (Xi − X + X − µ)2 i=1 = n ∑ [(Xi − X) + (X − µ)]2 i=1 = n ∑ [(Xi − X)2 + (X − µ)2 + 2(Xi − X)(X − µ)] i=1 = = n ∑ i=1 n ∑ (Xi − X)2 + n ∑ (X − µ)2 + 2(X − µ) i=1 n ∑ (Xi − X) i=1 (Xi − X)2 + n(X − µ)2 . i=1 Possiamo ora affrontare il calcolo del valore atteso: [ ] n ∑ 1 E[S 2 ] = E (Xi − X)2 n − 1 i=1 [ n ] ∑ 1 2 2 = E (Xi − µ) − n(X − µ) n−1 i=1 [ n ] ∑ 1 E[(Xi − µ)2 ] − nE[(X − µ)2 ] = n − 1 i=1 ] [ n ∑ 1 2 = σ − nVar[X] n − 1 i=1 ( ) 1 σ2 1 = nσ 2 − n × = (n − 1)σ 2 = σ 2 . n−1 n n−1 Si noti che nel passaggio dalla prima alla seconda equazione abbiamo usato l’uguaglianza ottenuta nella prima parte della sezione, e nel passaggio dalla seconda alla terza si è ricorso all’additività del valore atteso. 12.8 Funzione di densità della varianza campionaria nel caso di campioni casuali gaussiani Dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione normale con media µ e varianza σ 2 , è possibile conoscere la distribuzione esatta di S 2 . Infatti in questo caso si dimostra che S 2 ha una distribuzione proporzionale a quella di una v.c. chi-quadrato con n−1 gradi di libertà. In particolare è una variabile casuale del tipo σ2 X2 . n − 1 n−1 Si è detto proporzionale poiché si tratta di una v.c. chi-quadrato moltiplicata per la costante σ 2 e divisa per i suoi gradi di libertà. Presentiamone una dimostrazione non rigorosa ma molto semplice basata sull’uguaglianza utilizzata per la dimostrazione di E[S 2 ] = σ 2 dove entrambi i membri sono divisi per σ 2 : n ∑ (Xi − µ)2 i=1 σ2 = n ∑ (Xi − X)2 σ2 i=1 + n(X − µ)2 . σ2 Ora il membro di sinistra dell’equazione è una somma di n normali standard elevate al quadrato, così è una v.c. X2n . Il secondo addendo del membro di destra è una normale standard al quadrato, cioè una v.c. X21 . Così poiché una v.c. chi-quadrato è espressa come somma di vv.cc. chi-quadrato indipendenti, allora il membro di destra dell’equazione deve essere la somma di due vv.cc. chi-quadrato una con n − 1 gradi di libertà, e l’altra con un grado di libertà. Se moltiplichiamo il primo addendo del membro di destra per σ 2 e lo dividiamo per n − 1, la quantità risultante, che è la varianza campionaria, ha ovviamente la distribuzione prima specificata. M. Di Marzio 95 Primi elementi di inferenza statistica (ed. maggio 2012) 12.9. Altre statistiche calcolate su campioni casuali gaussiani 12.9 Altre statistiche calcolate su campioni casuali gaussiani Dato un campione casuale X1 , X2 , ..., Xn estratto da una pdf normale con media µ e varianza σ 2 , si può dedurre la distribuzione esatta di due statistiche campionarie molto utili per l’inferenza. Abbiamo dimostrato che il primo addendo del membro di destra dell’equazione nel paragrafo precedente, cioè U= (n − 1)S 2 σ2 è una v.c. Chi quadrato con n − 1 gradi di libertà. Esempio 12.21. Il tempo di esecuzione di un processo produttivo è descritto da una v.c. normale con media 30 e varianza 7.093. Una volta osservata l’esecuzione di 15 processi, si vuole calcolare la probabilità che la varianza campionaria sia maggiore di 12. Si ha ( ) ( ) (n − 1)S 2 14 × 12 P(S 2 > 12) = P = P X214 > 23.685 = 0.05. > 2 σ 7.093 Il valore della probabilità è stato ottenuto tramite le tavole della v.c. chi-quadrato. Sempre sotto l’ipotesi di normalità sappiamo inoltre che la v.c. Z= X −µ √ σ/ n ha distribuzione normale standard. Di conseguenza X −µ √ = Tn−1 . S/ n √ Questo perché Tn−1 = Z/ U/(n − 1). In termini poco formali si può dire che la media campionaria standardizzata utilizzando la varianza campionaria è una v.c. t di Student con n − 1 gradi di libertà. Dati due campioni casuali indipendenti X1 , X2 , ..., Xn e Y1 , Y2 , ..., Ym estratti da popolazioni normali con diverse medie ma uguali varianze σ 2 , si ha 2 SX /σ 2 S2 = X = Fn−1,m−1 , 2 2 SY /σ SY2 in quanto il rapporto di due vv.cc. chi-quadrato indipendenti rispettivamente divise per i propri gradi di libertà ha distribuzione F di Fisher con n − 1 e m − 1 gradi di libertà. L’aspetto notevole delle vv.cc. introdotte in questa sezione è che hanno distribuzioni che non dipendono da µ e σ 2 sebbene queste siano contenute nelle loro definizioni. L’impiego statistico di U , Z, Tn−1 , X2n−1 e Fn−1,m−1 sfrutterà proprio queste caratteristiche per costruire intervalli di confidenza e test statistici. Primi elementi di inferenza statistica (ed. maggio 2012) 96 M. Di Marzio 13 Verosimiglianza e sufficienza Indice 13.1 Funzione di verosimiglianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Sintesi dell’informazione tramite statistiche . . . . . . . . . . . . . . . . . . . . 13.3 Statistiche sufficienti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1 97 98 99 Funzione di verosimiglianza Sia la v.c. X discreta o continua, da qui in avanti indichiamo la sua pdf con fX (·; θ). Riassumiamo lo scenario dell’inferenza parametrica. Dopo la fase di specificazione si ritiene che una famiglia del tipo {fX (·; θ) : θ ∈ Θ ⊆ Rk } contiene una pdf la quale descrive adeguatamente come il carattere di interesse sia distribuito presso la popolazione. Tale pdf è nota a meno del valore assunto dal parametro θ. Inoltre si dispone della realizzazione x1 , x2 , ..., xn di un campione casuale X1 , X2 , ...., Xn che proviene da essa. Ora introduciamo lo strumento basilare dell’inferenza statistica. Fissata una realizzazione campionaria x1 , x2 , ..., xn , per funzione di verosimiglianza si intende la pdf congiunta del campione avente come parametro la realizzazione campionaria x1 , x2 , ...., xn e come variabile θ; in simboli: L(θ; x1 , x2 , ..., xn ) = n ∏ fX (θ; xi ) i=1 dove L(θ; x1 , x2 , ..., xn ) : Θ → R+ . Per brevità la notazione L(θ; x1 , x2 , ..., xn ) è spesso rimpiazzata da L(θ). Si noti che la funzione di verosimiglianza contiene tutta l’informazione su cui si basa l’inferenza statistica, infatti la sua formulazione scritta evidenzia due ingredienti: 1) l’informazione a priori, cioè l’informazione di cui si dispone prima di osservare il campione, che è la conoscenza della famiglia parametrica; 2) l’informazione a posteriori rispetto all’osservazione del campione, cioè la realizzazione campionaria. Esempio 13.1. Come detto, per poter scrivere la funzione di verosimiglianza dobbiamo sapere a quale famiglia parametrica appartiene la popolazione generatrice e dobbiamo disporre di una realizzazione campionaria. Seguono esempi di funzioni di verosimiglianza. ⋄ Se si specifica la famiglia normale con σ = 1, data la realizzazione x1 = 2, x2 = 4, x3 = 6, si ha la seguente funzione di verosimiglianza: ( )3 { } 1 1 L(µ; 2, 4, 6) = √ exp − [(2 − µ)2 + (4 − µ)2 + (6 − µ)2 ] . 2 2π Il grafico di L(µ; 2, 4, 6) è a sinistra in figura 13.1. Incidentalmente osserviamo che in questo caso lo spazio parametrico può essere anche considerato R, non R × R+ , questo perché conosciamo la varianza. M. Di Marzio 97 Primi elementi di inferenza statistica (ed. maggio 2012) L(µ;2,4,6) π8(1−π)10−8 13.2. Sintesi dell’informazione tramite statistiche 2 3 4 5 6 0 µ 0.2 0.4 0.6 0.8 π 1 Figura 13.1: Funzioni di verosimiglianza dell’esempio 13.1. ⋄ Se si specifica la famiglia bernoulliana, e si ha la realizzazione x1 = 1, x2 = 1, x3 = 1, x4 = 0, x5 = 1, x6 = 1, x7 = 1, x8 = 1, x9 = 0, x10 = 1 si ottiene: L(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = π 8 (1 − π)10−8 . In figura 13.1 possiamo osservare i grafici delle due funzioni di verosimiglianza. Infine, volendo effettuare un parallelo tra funzione di densità congiunta del campione (sez. 12.3) e funzione di verosimiglianza si può dire quanto segue. Nel caso di pdf congiunta è fissato il valore di θ e quindi per quel θ sono fornite le densità di tutte le realizzazioni in X e si scrive fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) : X → R+ . Mentre nel caso di funzione di verosimiglianza è fissata una realizzazione x1 , x2 , ..., xn e si fornisce la densità associata a quella particolare realizzazione sotto tutte le diverse ipotesi di θ, cioè sotto tutte le ipotesi di popolazione. Con altre parole si può dire che la funzione di verosimiglianza indica per ogni valore di θ la (densità di) probabilità che avevamo di osservare ciò che poi si è verificato. Nel caso fosse necessario trovare il massimo della funzione di verosimiglianza, per comodità di calcolo, piuttosto che L(θ) conviene massimizzare il suo logaritmo neperiano (anche detto naturale) che è chiamato funzione di log-verosimiglianza ed è indicato come L(θ) = log(θ). Infatti essendo il logaritmo una trasformazione monotòna, L(θ) ha gli stessi massimi di L(θ). Tuttavia il logaritmo trasforma i prodotti in somme ed elimina le funzioni esponenziali e quindi ha una espressione molto più facile da trattare. Esempio 13.2. Le funzioni di log-verosimiglianza relative all’esempio 13.1 sono rispettivamente 1 1 L(µ; 2, 4, 6) = 3 log √ − [(2 − µ)2 + (4 − µ)2 + (6 − µ)2 ] 2 2π e L(π; 1, 1, 1, 0, 1, 1, 1, 1, 0, 1) = 8 log π + (10 − 8) log(1 − π). Nella figura 13.2 sono riportati i rispettivi grafici. Si può notare che, anche se diverso da L, L = log L ne conserva i punti di massimo, che sono rispettivamente 4 e 0.8. 13.2 Sintesi dell’informazione tramite statistiche Si consideri una generica statistica T con un numero finito m di modalità. dell’informazione contenuta nel campione osservato x1 , x2 , ...xn in due sensi: Essa produce una sintesi 1) Si passa dall’elemento (x1 , x2 , ..., xn ) di uno spazio n-dimensionale X ⊆ Rn ad uno spazio unidimensionale poiché la statistica è un numero. 2) I valori assunti dalle statistiche sono molto meno numerosi delle realizzazioni campionarie possibili. Nel nostro caso scriviamo m < ♯X. Segue una giustificazione formale di questo fatto. La funzione t induce una partizione sullo spazio X. Infatti X è divisibile in sottoinsiemi incompatibili ognuno dei quali contiene realizzazioni che generano uno stesso valore della statistica: X = X1 ∪ X2 ∪ ... ∪ Xm , dove Xi è l’insieme di realizzazioni in corrispondenza di cui t genera il valore ti , inoltre - ma questo è ovvio - qualunque realizzazione appartiene a un solo elemento della partizione {Xi , i = 1, 2, ..., m}. Primi elementi di inferenza statistica (ed. maggio 2012) 98 M. Di Marzio log L(µ;2,4,6) 8logπ+(10−8)log(1−π) 13. VEROSIMIGLIANZA E SUFFICIENZA 0 2 4 6 µ 8 0 0.5 π 1 Figura 13.2: Funzione di log-verosimiglianza dell’esempio 13.2. Esempio 13.3. Si abbia una popolazione di Bernoulli, cioè una popolazione in cui ogni individuo detiene (1) o meno (0) una caratteristica. Estraiamo un campione di tre elementi. Si avrà: X = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}. Si consideri la statistica somma campionaria T = n ∑ Xi . i=1 Anzitutto essa realizza una sintesi rispetto al campione perché al posto di considerare terne di numeri ne considera la somma. Inoltre, la partizione indotta da T è di 4 sottoinsiemi in corrispondenza dei 4 valori che la somma può assumere. Infatti t = 0 induce il sottoinsieme {(0, 0, 0)}; t = 1 induce {(1, 0, 0), (0, 1, 0), (0, 0, 1)}; t = 2 induce {(1, 1, 0), (1, 0, 1), (0, 1, 1)}; t = 3 induce {(1, 1, 1)}. I quattro sottoinsiemi non hanno elementi in comune e la loro unione coincide con lo spazio campionario X. In parole più semplici diciamo che di solito esistono meno valori della statistica campionaria – in questo caso 4 – rispetto al numero delle realizzazioni – in questo caso 8 –. 13.3 Statistiche sufficienti Una procedura inferenziale potrebbe giovarsi dell’ utilizzo di una statistica t = t(x1 , x2 , ..., xn ) al posto di x1 , x2 , ..., xn ; infatti, per quanto detto nella sezione precedente, si otterrebbe una notevole semplificazione dei calcoli. Ma questa semplificazione determina perdita di informazione: che t contenga meno informazione di x1 , x2 , ..., xn lo si vede dal fatto che t non è una funzione biunivoca: in genere x1 , x2 , ..., xn non può essere individuata a partire da t, mentre il converso è banalmente vero. Però non tutta l’informazione contenuta in x1 , x2 , ..., xn è rilevante poiché non tutta riguarda il parametro incognito θ. In definitiva risulta conveniente rimpiazzare x1 , x2 , ..., xn con t esclusivamente se t e x1 , x2 , ..., xn contengono le stesse informazioni su θ, cioè se nel rimpiazzo si perde solo informazione che non riguarda θ. T si dice sufficiente per θ se, indifferentemente da quali siano i valori assunti da x1 , x2 , ..., xn e da θ, t contiene tutta l’informazione rilevante per θ presente nella realizzazione che lo ha generato. Il tipo di sintesi che la statistica sufficiente opera si può rendere con il seguente parallelo. Si pensi al complesso dell’informazione campionaria come una miscela di pulviscoli di legno, ferro e plastica. Si consideri l’informazione rilevante per il campione come la polvere di ferro. Si immagini la statistica sufficiente come una calamita. Si paragoni il processo di sintesi al passaggio della calamita sulla miscela di polveri. La calamita riterrà tutto il pulviscolo di ferro tralasciando l’informazione non necessaria, cioè gli altri pulviscoli. Per una definizione formale di statistica sufficiente è necessario premettere quanto segue. Supponiamo che t(x1 , x2 , ..., xn ) = t. Ora (T = t) si verifica se e solo se si verifica un elemento della partizione di X corrispondente a t. Di conseguenza (X1 = x1 , X2 = x2 , ..., Xn = xn ) ∩ (T = t) ha la stessa probabilità dell’intersezione tra la realizzazione e quella partizione. Ma tale intersezione è ovviamente pari alla realizzazione stessa. Come conseguenza si ha che fX1 X2 ...Xn T (x1 , x2 , ..., xn , t; θ) = fX1 X2 ...Xn (x1 , x2 , ..., xn ; θ) M. Di Marzio 99 Primi elementi di inferenza statistica (ed. maggio 2012) 13.3. Statistiche sufficienti Una statistica T è detta sufficiente se e solo se la pdf condizionata di x1 , x2 , ..., xn dato T = t, cioè fX1 X2 ...Xn T (x1 , x2 , ..., xn , t; θ) fT (t; θ) fX X ...X (x1 , x2 , ..., xn ; θ) = 1 2 n fT (t; θ) fX1 X2 ..Xn |t (x1 , x2 , ..., xn |T = t; θ) = ha un’espressione che non dipende da θ per qualsiasi realizzazione t di T . Il fatto che fX1 X2 ...Xn |t (x1 , x2 , ..., xn |T = t) non dipende da θ significa che la variabilità delle realizzazioni campionarie che fanno capo al medesimo valore t non è generata da θ. Allora avere a disposizione l’una o l’altra di due diverse realizzazioni che danno lo stesso valore di t è indifferente ai fini della conoscenza di θ. Una formulazione alternativa di statistica sufficiente è data dal seguente criterio di fattorizzazione. Una statistica T si dice sufficiente se e solo se esistono due funzioni non negative, g e h, tali che per qualsiasi realizzazione campionaria x1 , x2 , ..., xn possiamo scrivere: L(θ; x1 , x2 , ..., xn ) = g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn ). Per capire che il senso di questa definizione è identico a quello della definizione precedente, si considerino due realizzazioni campionarie, x1 , x2 , ..., xn e x′1 , x′2 , ..., x′n . Ora, se T (x1 , x2 , ..., xn ) = T (x′1 , x′2 , ..., x′n ), allora il rapporto tra le due rispettive verosimiglianze sarà pari a h(x1 , x2 , ..., xn ) L(θ; x1 , x2 , ..., xn ) g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn ) = = , ′ ′ ′ ′ ′ ′ ′ ′ ′ L(θ; x1 , x2 , ..., xn ) g(T (x1 , x2 , ..., xn ); θ) × h(x1 , x2 , ..., xn ) h(x′1 , x′2 , ..., x′n ) come si vede il rapporto delle verosimiglianze è fisso per qualsiasi valore di θ. Di conseguenza i grafici delle funzioni di verosimiglianza sono proporzionali. Ma verosimiglianze proporzionali garantiscono stesso contenuto informativo, ad esempio hanno stessi massimi e minimi, e quindi identiche conclusioni inferenziali indipendentemente dal fatto che i due campioni x1 , x2 , ..., xn e x′1 , x′2 , ..., x′n siano diversi. Esempio 13.4. Dato il campione casuale X1 , X2 , X3 estratto da una popolazione bernoulliana, dimostrare che: a) S1 = X1 + X2 + X3 è una statistica sufficiente per π; b) S2 = X1 X2 + X3 è una statistica non sufficiente per π. a) Per dimostrare che la statistica S1 è sufficiente per π, occorre determinare la distribuzione del campione X1 , X2 , X3 condizionata ai valori della statistica ossia fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) = fX1 X2 X3 (x1 , x2 , x3 ; π) fS1 (s1 ; π) e verificare se essa dipende dal parametro π che identifica la legge distributiva bernoulliana. Lo spazio campionario di riferimento è X = {(0, 0, 0), (0, 0, 1), (0, 1, 0), (1, 0, 0), (0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)} . La pdf del campione è ∑ fX1 X2 X3 (x1 , x2 , x3 ; π) = π Inoltre, poiché la statistica S1 = binomiale: ∑ i xi (1 − π)3− ∑ xi . xi è una somma di vv.cc. bernoulliane, essa segue una legge di distribuzione ( fS1 (s1 ; π) = ) ∑ ∑ 3 ∑ π xi (1 − π)3− xi . xi E dunque si hanno i seguenti calcoli: Primi elementi di inferenza statistica (ed. maggio 2012) 100 M. Di Marzio 13. VEROSIMIGLIANZA E SUFFICIENZA fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) Realizzazione campionaria s1 (0, 0, 0) 0 (0, 0, 1) 1 fX1 X2 X3 (0, 0, 1; π)/fS1 (1; π) = (1 − π)2 π/[ (3) (1 − π)2 π] = 1/3 1 (0, 1, 0) 1 fX1 X2 X3 (0, 1, 0; π)/fS1 (1; π) = (1 − π)2 π/[ (3) (1 − π)2 π] = 1/3 1 (1, 0, 0) 1 fX1 X2 X3 (1, 0, 0; π)/fS1 (1; π) = (1 − π)2 π/[ (3) (1 − π)2 π] = 1/3 1 (0, 1, 1) 2 fX1 X2 X3 (0, 1, 1; π)/fS1 (2; π) = (1 − π)π 2 /[ (3) (1 − π)π 2 ] = 1/3 2 (1, 0, 1) 2 fX1 X2 X3 (1, 0, 1; π)/fS1 (2; π) = (1 − π)π 2 /[ (3) (1 − π)π 2 ] = 1/3 2 (1, 1, 0) 2 fX1 X2 X3 (1, 1, 0; π)/fS1 (2; π) = (1 − π)π 2 /[ (3) (1 − π)π 2 ] = 1/3 2 (1, 1, 1) 3 fX1 X2 X3 (0, 0, 0; π)/fS1 (0; π) = (1 − π)3 /[ (3) (1 − π)3 ] = 1 0 fX1 X2 X3 (1, 1, 1; π)/fS1 (3; π) = π 3 /[ (3) 3 π ]=1 3 Poiché fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) risulta indipendente da π, si conclude che S1 = X1 + X2 + X3 è una statistica sufficiente per π. ∑ A ben guardare, al risultato si perviene in maniera immediata. Infatti poiché s1 = xi possiamo scrivere ∑ fX1 X2 X3 |s1 (x1 , x2 , x3 |s1 ) = ∑ fX1 X2 X3 (x1 , x2 , x3 ; π) π xi (1 − π)3− xi 1 ∑ = ( 3 ) = ( 3 ) ∑x xi ∑ ∑ i (1 − π)3− fS1 (s1 ; π) π x x i i così la distribuzione condizionata del campione X1 , X2 , X3 dato S1 = s1 non dipende da π, per qualsiasi valore di S1 . b) Le modalità della statistica S2 sono: Realizzazione campionaria Realizzazione di S2 (0, 0, 0) 0 (0, 0, 1) 1 (0, 1, 0) 0 (1, 0, 0) 0 (0, 1, 1) 1 (1, 0, 1) 1 (1, 1, 0) 1 (1, 1, 1) 2 Essendo le sequenze di 0 e 1 (insuccessi e successi), che identificano le realizzazioni campionarie, incompatibili ed equiprobabili, le densità fS2 (s2 ; π) sono ottenute come somma delle probabilità delle sequenze (x1 , x2 , x3 ) tali che s2 = x1 x2 + x3 dove i ∈ {0, 1, 2} (ossia i possibili valori che la statistica S2 può assumere). Pertanto: fS2 (0; π) = (1 − π)3 + (1 − π)π(1 − π) + π(1 − π)(1 − π) = (1 − π)3 + 2π(1 − π)2 = (1 − π)2 (1 − π + 2π) = (1 − π)2 (1 + π); fS2 (1; π) = (1 − π)(1 − π)π + (1 − π)ππ + π(1 − π)π + ππ(1 − π) = (1 − π)2 π + 3π 2 (1 − π) = (1 − π)π(1 − π + 3π) = (1 − π)π(1 + 2π); fS2 (2; π) = π 3 . M. Di Marzio 101 Primi elementi di inferenza statistica (ed. maggio 2012) 13.3. Statistiche sufficienti Si ricava, dunque: fX1 X2 X3 |s2 (x1 , x2 , x3 |s2 ) Realizzazione campionaria S2 (0, 0, 0) 0 (0, 0, 1) 1 (0, 1, 0) 0 fX1 X2 X3 (0, 1, 0; π)/fS2 (0; π) = (1 − π)2 π/[(1 − π)2 (1 + π)] = π 1+π (1, 0, 0) 0 fX1 X2 X3 (1, 0, 0; π)/fS2 (0; π) = (1 − π)2 π/[(1 − π)2 (1 + π)] = π 1+π (0, 1, 1) 1 fX1 X2 X3 (0, 1, 1; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] = π 1+2π (1, 0, 1) 1 fX1 X2 X3 (1, 0, 1; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] = π 1+2π (1, 1, 0) 1 fX1 X2 X3 (1, 1, 0; π)/fS2 (1; π) = (1 − π)π 2 /[(1 − π)π(1 + 2π)] = π 1+2π (1, 1, 1) 2 fX1 X2 X3 (0, 0, 0; π)/fS2 (0; π) = (1 − π)3 /[(1 − π)2 (1 + π)] = fX1 X2 X3 (0, 0, 1; π)/fS2 (1; π) = (1 − π)2 π/[(1 − π)π(1 + 2π)] = 1−π 1+π 1−π 1+2π fX1 X2 X3 (1, 1, 1; π)/fS2 (2; π) = π 3 /π 3 = 1 Poiché la distribuzione condizionata del campione X1 , X2 , X3 dati i valori s2 assunti da S2 dipende da π, si conclude che la statistica S2 non è sufficiente per π. Primi elementi di inferenza statistica (ed. maggio 2012) 102 M. Di Marzio 14 Esercizi svolti Esercizio 14.1. Su una popolazione di 3 elementi si è rilevato X, ottenendo {2, 6, 10}. a) Determinare quanti e quali campioni casuali di numerosità n = 2 è possibile estrarre e calcolare il valore medio del carattere X in ciascun campione; b) costruire la distribuzione delle frequenze assolute e relative della media campionaria; c) costruire la pdf della v.c. media campionaria. Soluzione a) Il numero di campioni casuali di numerosità n = 2 estraibili da una popolazione di numerosità N = 3 è pari al numero di disposizione con reimmissione, cioè N n = 32 = 9. I possibili campioni e le rispettive medie sono: (2, 2) x = 2; (6, 2) x = 4; (10, 2) x = 6; (2, 6) x = 4; (6, 6) x = 6; (10, 6) x = 8; (2, 10) x = 6; (6, 10) x = 8; (10, 10) x = 10. b) La distribuzione delle frequenze con cui ciascuna media si presenta è: xi 2 4 6 8 10 ni 1 2 3 2 1 9 ni /N n 1/9 2/9 3/9 2/9 1/9 1 c) Poiché i campioni sono equiprobabili, la probabilità di estrazione di ciascun campione è di 1/9, così la distribuzione campionaria della v.c. X è data da: xi 2 4 6 8 10 pX (xi ) 1/9 2/9 3/9 2/9 1/9 1 Esercizio 14.2. Determinare media, varianza e scarto quadratico medio della distribuzione campionaria di X, costruita nell’esercizio precedente. Soluzione La media della v.c. media campionaria è ottenuta come somma dei valori xi ponderati con le rispettive probabilità: µX = ∑ i xi pX (xi ) = 2 × 2 3 2 1 1 + 4 × + 6 × + 8 × + 10 × = 6. 9 9 9 9 9 La varianza della v.c. media campionaria è, invece, data dalla somma dei quadrati delle differenze tra i valori xi ponderati con le rispettive probabilità ∑ 2 2 = (xi − µX ) pX (xi ) σX i 2 = (2 − 6) M. Di Marzio 1 2 2 2 3 2 2 2 1 + (4 − 6) + (6 − 6) + (8 − 6) + (10 − 6) = 5.33. 9 9 9 9 9 103 Primi elementi di inferenza statistica (ed. maggio 2012) Infine, lo scarto quadratico medio della distribuzione campionaria in esame, ottenuto come radice quadrata positiva della varianza è pari a √ 2 = 2.31. σX = + σX Agli stessi risultati si arriva tramite il teorema su media e varianza della media campionaria: µX = µX = 6 ; σX 3.266 σX = √ = √ = 2.31. n 2 Esercizio 14.3. Considerata la distribuzione di frequenze della variabile X costruita nell’esercizio 14.1, determinare la probabilità che un campione casuale estratto dalla popolazione di riferimento, presenti media maggiore di 2 ma non superiore a 6. Soluzione Per determinare la probabilità richiesta dall’esercizio consideriamo i valori della funzione di ripartizione in corrispondenza di X i = 6 e di X i = 2. Infatti: ( ) P 2 < X ≤ 6 = FX (6) − FX (2) . Dalla distribuzione di frequenza della variabile X si ricava: FX (2) = da cui: 1 9 e FX (6) = 6 1 2 3 + + = . 9 9 9 9 ( ) 6 1 5 P 2<X≤6 = − = . 9 9 9 In alternativa ) ( 2 3 5 P 2 < X ≤ 6 = P(4) + P(6) = + = . 9 9 9 Esercizio 14.4. La durata in ore di un certo tipo di lampadine X si distribuisce secondo una legge incognita con ( deviazione ) standard σX = 8. Supponendo di estrarre un campione casuale di 36 lampadine e sapendo che P X ≤ 1400 = 0.9332 calcolare µX . Soluzione Poiché, per il TCL, al crescere della numerosità campionaria la distribuzione della v.c. media campionaria può essere convenientemente approssimata dalla distribuzione normale, con media µX e varianza √ 2 σX /n, la quantità (X − µX ) n/σ tenderà a distribuirsi secondo una√normale standard. X √ Dall’uguaglianza Z = (X − µX ) n/σX si ricava che µX = X − ZσX / n. Di questa equazione conosciamo le grandezze: x = 1400, σX = 8, n = 36. Inoltre Z può essere trovato(col seguente ) ragionamento. Il dato di cui si dispone è P X ≤ 1400 = 0.9332 e, per quanto detto, possiamo scrivere: ( ) P X ≤ 1400 = P (Z ≤ z) = 0.9332. Sulle tavole della funzione di ripartizione della pdf normale standardizzata si trova il valore z = 1.5 in corrispondenza di 0.9332. Pertanto, sostituendo nell’equazione impostata inizialmente, si ottiene: 8 µX = 1400 − 1.5 √ = 1398. 36 Esercizio 14.5. In un’azienda produttrice di software, le ore settimanali di straordinario si distribuiscono con media µ = 6 e varianza σ 2 = 0.36. Si sa che questa settimana 49 programmatori hanno prenotato lo straordinario. Gli accantonamenti predisposti possono bastare per al massimo 300 ore. Sorge il problema se gli accantonamenti siano sufficienti. A tal fine ci si chiede qual è la probabilità che il totale delle ore settimanali di straordinario che saranno richieste sia non superiore a 300. Soluzione Sebbene non si conosca la distribuzione delle ore settimanali di straordinario, per il TCL, la ∑n pdf della v.c. somma campionaria Y = i=1 Xi è approssimabile alla distribuzione normale con parametri 2 µY = nµX e σY2 = nσX . Pertanto la distribuzione del totale delle ore di straordinario del campione di 49 programmatori, tende a distribuirsi normalmente con media e scarto quadratico medio √ √ µY = nµX = 49 × 6 = 294 ; σY = nσX = 7 0.36 = 4.2 . Primi elementi di inferenza statistica (ed. maggio 2012) 104 M. Di Marzio 14. ESERCIZI SVOLTI ( ) 300 − 294 P (Y ≤ 300) = P Z ≤ = P (Z ≤ 1.4286) . 4.2 Allora Consultando le tavole della funzione di ripartizione della pdf normale standardizzata, in corrispondenza di z = 1.43, si ottiene P (Z ≤ 1.4286) = 0.9236. Esercizio 14.6. Un’azienda intende attivare una linea di produzione ad elevata automazione in grado di aumentare notevolmente la quantità prodotta giornaliera e che inoltre favorisce un notevole risparmio sulla forza lavoro. Dalle informazioni del fornitore l’azienda viene a sapere che ci si deve attendere un 10% di produzione non conforme al giorno. Dopo alcuni calcoli di budget si decide di non attivare la linea di produzione se, su un campione casuale di 500 pezzi, la percentuale D di pezzi difettosi è pari o superiore al 13%. Determinare la probabilità che l’azienda non attivi la linea di produzione. Soluzione Con un campionamento casuale da una popolazione che è chiaramente bernoulliana, P è la ∑n statistica proporzione campionaria: P = X/n dove X = i=1 Xi è la statistica somma campionaria e misura il numero di pezzi difettosi presenti nel campione. Allora P si distribuirà come una binomiale riscalata con n, per cui media, varianza e s.q.m. saranno rispettivamente pari a: π(1 − π) 0.1 × 0.90 = = 0.00018, n 500 √ √ π(1 − π) 0.10 × 0.90 σP = = = 0.0134. n 500 σP2 = µP = π = 0.1, Una ovvia soluzione è quella di calcolare la probabilità in questione facendo uso della distribuzione binomiale, dovendo calcolare: P (X ≥ 13) = 100 ∑ 0.1x (1 − 0.1) 100−x oppure P (X ≥ 13) = 1 − x=13 12 ∑ 0.1x (1 − 0.1) 100−x x=0 ciò risulta piuttosto laborioso, mentre una semplice soluzione è offerta dall’approssimazione normale della proporzione campionaria fornita dal TCL. Allora si ragionerà nel seguente modo. Si consideri che per il TCL al crescere della numerosità campionaria n la distribuzione della proporzione campionaria dei difetti P sarà approssimabile dalla distribuzione normale. Allora, ricorrendo alla standardizzazione, si ha: P − µP Z= . σP Quindi, la probabilità che l’azienda non attivi la linea di produzione in questione è pari a ( ) 0.13 − 0.10 P (P ≥ 0.13) = P Z ≥ = P (Z ≥ 2.24) . 0.0134 Ricavando dalle tavole delle aree funzione di ripartizione della pdf della normale standardizzata il valore corrispondente a z = 2.24, si ottiene la probabilità che l’azienda non attivi la linea di produzione: P (P ≥ 0.13) = 1 − P (Z ≤ 2.24) = 1 − 0.9875 = 0.0125. Esercizio 14.7. Sia X1 , . .∑ . , Xn un campione casuale estratto da una pdf B(n, π). Dimostriamo che la n statistica campionaria T = i=1 Xi è sufficiente per π. Soluzione Come si sa, la somma di n bernoulliane di parametro π si distribuisce come una binomiale di parametri n e π. Inoltre la densità congiunta campionaria è n ∏ π xi (1 − π)(1−xi ) = π ∑ xi (1 − π) ∑ (1−xi ) = π t (1 − π)n−t ; i=1 allora: pX1 X2 ...Xn (x1 , x2 , ..., xn ; π) π t (1 − π)n−t = (n) t = n−t pT (t; π) t π (1 − π) ( )−1 n t che non dipende da π. M. Di Marzio 105 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 14.8. Sia X1 , . . . , Xn un campione casuale∑ da una popolazione normale con parametri µ e σ 2 . n Dimostriamo che la statistica media campionaria X = i=1 Xi /n è sufficiente per µ. Soluzione Nello scrivere la densità condizionata consideriamo prima il numeratore, cioè la densità congiunta campionaria e esprimiamolo in una formulazione conveniente al nostro caso: { } n ∏ ( )−1/2 (xi − µ)2 2πσ 2 exp − fX1 X2 ...Xn (x1 , ..., xn ; µ, σ) = 2σ 2 i=1 { ∑n } ( )−n/2 (xi − µ)2 = 2πσ 2 exp − i=1 2 2σ utilizzando la relazione trovata nella sezione 12.7 otteniamo } { ∑n ( ) (xi − x̄)2 + n(x̄ − µ)2 2 −n/2 fX1 X2 ...Xn (x1 , ..., xn ; µ, σ) = 2πσ exp − i=1 . 2σ 2 Riguardo la pdf della media campionaria fX (x̄; µ, σ 2 ), sappiamo che in questo caso è normale con parametri µ e σ 2 /n. Per cui la densità condizionata sarà: { ∑n } 2 2 ( ) 2 −n/2 i=1 (xi −x̄) +n(x̄−µ) 2πσ exp − 2 2σ fX1 X2 ...Xn (x1 , ..., xn ; µ, σ) { } = ( 2πσ2 )−1/2 n(x̄−µ)2 fX (x̄; µ, σ) exp − n 2σ 2 { ∑n } 2 ( ) −1/2 2 −(n−1)/2 i=1 (xi − x̄) =n 2πσ exp − 2σ 2 che non dipende da µ. Così abbiamo provato che X è sufficiente per µ. Esercizio 14.9. Sia X1 , X2 , ..., Xn un campione casuale da una pdf uniforme nell’intervallo [0, θ]. Dimostrare che a) Yn = max{X1 , X2 , ..., Xn } è una statistica sufficiente per θ; b) Y1 = min{X1 , X2 , ..., Xn } non è una statistica sufficiente per θ. Soluzione a) Per dimostrare che Yn è una statistica sufficiente per θ occorre dimostrare che la pdf congiunta del campione dato Yn = yn non dipende da θ. Poiché le vv.cc. X1 , X2 , ..., Xn hanno pdf { 1 se 0 ≤ x ≤ θ θ fX (x; θ) = 0 altrimenti, e, come dimostrato nell’esercizio 11.6 fYn (yn ) = n(yn )n−1 , θn si ottiene fX1 X2 ...Xn Yn (x1 , x2 , ..., xn , yn ; θ) fX X ...X (x1 , x2 , ..., xn ; θ) = 1 2 n fYn (yn ) fYn (yn ) n (1/θ) 1 = = . (n(yn )n−1 )/θn n(yn )n−1 fX1 X2 ...Xn |yn (x1 , x2 , ..., xn ; θ|Yn = yn ) = Pertanto la pdf congiunta del campione dato Yn = yn non dipende da θ, e si conclude che Yn è una statistica sufficiente per θ. b) come dimostrato nell’esercizio 11.6, dato che fY1 (y1 ) = n(θ − y1 )n−1 , θn si ha che fX1 X2 ...Xn Y1 (x1 , x2 , ..., xn , y1 ; θ) fX X ...X (x1 , x2 , ..., xn ; θ) = 1 2 n fY1 (y1 ) fY1 (y1 ) 1 (1/θ)n = . = (n(θ − y1 )n−1 )/θn n(θ − y1 )n−1 fX1 X2 ...Xn |y1 (x1 , x2 , ..., xn ; θ|Y1 = y1 ) = Pertanto la pdf congiunta del campione dato Y1 = y1 dipende dal parametro θ; di conseguenza la statistica Y1 non è sufficiente per θ. Primi elementi di inferenza statistica (ed. maggio 2012) 106 M. Di Marzio 15 Stima Indice 15.1 Il problema della stima . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 15.2 Proprietà degli stimatori . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 15.3 Proprietà per piccoli campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 15.4 Proprietà per grandi campioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 15.5 Costruzione degli stimatori 15.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 Il problema della stima Supponiamo di essere interessati a ridurre la nostra ignoranza sulla distribuzione di un carattere quantitativo X in una popolazione. Sappiamo già che la distribuzione del carattere appartiene a una famiglia parametrica a noi nota indicata con {fX (·; θ); θ ∈ Θ ⊂ Rk }, ma non sappiamo quale sia. In altri termini, ne conosciamo la forma funzionale a meno del valore del parametro. Così dobbiamo stimare θ sulla base della realizzazione di un campione casuale estratto da fX (·; θ). A tale fine usiamo una statistica campionaria ϑ̂ che trasforma i dati campionari in valori del parametro: ϑ̂ : X → Θ. Essendo una statistica, ϑ̂ può essere applicata al campione casuale, e allora definisce la v.c. stimatore indicata come Θ̂ = ϑ̂(X1 , X2 , ..., Xn ) , oppure può essere applicata a una particolare realizzazione campionaria, e allora definisce il valore campionario di Θ̂ che è chiamato stima ed è indicato come θ̂ = ϑ̂(x1 , x2 , ..., xn ) . Tradizionalmente, con una infelice traduzione dall’inglese, si parla di stima puntuale in luogo di stima. Tuttavia l’espressione inglese point estimation sarebbe meglio tradotta con l’espressione, ancorché poco in uso, stima per punti. Esempio 15.1. Un tecnico che pesa minerali sa che la popolazione ipotetica degli errori di pesatura ha forma normale. Qui la stima dei parametri equivale alla stima di media e varianza. Si vogliono stimare i parametri sulla base della realizzazione campionaria 1 x1 , x2 ..., xn . Indicata con X la v.c. continua che descrive gli errori di misurazione, per la pdf normale si ha µ = E[X] e σ 2 = Var[X]. In analogia all’espressione formale dei parametri il tecnico può operare le seguenti stime n n 1∑ 1∑ xi e σˆ2 = (xi − µ)2 µ̂ = n i=1 n i=i 1 Da qui in avanti per realizzazione campionaria si intenderà, quando non diversamente specificato, la realizzazione di un campione casuale. M. Di Marzio 107 Primi elementi di inferenza statistica (ed. maggio 2012) 15.2. Proprietà degli stimatori Ogni realizzazione x1 , x2 , ..., xn di un campione casuale X1 , X2 , ..., Xn dà luogo a una particolare stima θ̂: la popolazione ipotetica delle stime, corrispondente all’insieme delle possibili realizzazioni X, definisce la pdf di Θ̂ che è indicata con fΘ̂ (·; θ), ed è chiamata distribuzione campionaria dello stimatore. Si noti che essa in generale dipende da θ poichè la fonte di casualità di Θ̂ è la pdf del campione casuale che, a sua volta, dipende da θ. Esempio 15.2. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione normale di parametri µ e σ. La statistica media campionaria X può essere scelta come stimatore per la media della popolazione µ, e la sua pdf campionaria è normale con parametri µ e σ 2 /n, come dimostrato nella sezione 12.5. Così scriviamo fX (·; µ, σ) = N (µ; σ 2 /n). Come già osservato alla fine della sezione 12.4 la pdf dello stimatore contiene il parametro da stimare, come evidenziato dal suo simbolo generico fΘ̂ (·; θ). 15.2 Proprietà degli stimatori Di regola per la stima di un parametro incognito θ è possibile ricorrere a molte statistiche campionarie, così bisogna applicare criteri che consentano di scegliere tra le diverse opzioni. Esempio 15.3. Alcune statistiche utilizzabili come stimatori del parametro µ di una pdf normale sono: X= n 1∑ Xi ; n i=1 T = X2 + X1 ; 2 Q = mediana[X1 , X2 , ..., Xn ] ; V = X1 ; R = moda[X1 , X2 , ..., Xn ] . Il modo più ragionevole di giudicare uno stimatore consiste nel riferirsi alle caratteristiche della sua distribuzione campionaria fΘ̂ (·; θ). In particolare, è importante valutare come fΘ̂ (·; θ) è dislocata intorno al valore del parametro θ. Naturalmente è auspicabile che fΘ̂ (·; θ) sia concentrata intorno a θ. Esempio 15.4. Supponiamo di dover stimare il parametro µ della popolazione dell’esempio 12.20. Usiamo gli stimatori X e V dell’esempio 15.3. Le rispettive distribuzioni campionarie sono rappresentate in figura 12.2. Chiaramente lo stimatore preferibile è X perché molto più concentrato intorno al valore del parametro che è 0. Tale idea di concentrazione è definita in vari modi tramite funzioni della v.c. errore Θ̂ − θ . Si può infatti misurare la distorsione, cioè quanto il valore atteso dell’errore sia piccolo (vd. sez. 15.3). Oppure l’errore quadratico medio, quanto il valore atteso dell’errore al quadrato sia piccolo (vd. sez. 15.3). In questi casi misuriamo quanto possiamo aspettarci che la stima risulti vicina al parametro. Proprietà come queste sono definite, forse impropriamente, per piccoli campioni o esatte perché si calcolano per una fissata ampiezza campionaria. Di cruciale importanza è il comportamento dello stimatore al crescere della numerosità campionaria. Le proprietà per cui lo stimatore riesce a sfruttare in termini di maggiore accuratezza l’aumento dell’informazione dato dall’aumento della numerosità campionaria sono dette per grandi campioni o asintotiche. Esempio 15.5. Da una pdf normale standard sono state estratte 500 realizzazioni di campioni casuali di numerosità crescenti che vanno da 1 a 500. Per ognuno di questi campioni è stata calcolata la media come stima di µ = 0. La figura 15.1 rappresenta i valori delle medie campionarie in corrispondenza delle rispettive numerosità. Risulta evidente che la precisione delle stime aumenta con l’aumentare di n. L’aumento di accuratezza dovuto all’aumentare di n può essere descritto in vari modi: il valore atteso del quadrato dell’errore deve tendere a 0, oppure la probabilità che l’errore si annulli deve tendere a 1 (vd. sez. 15.4). Si noti che nello specificare le proprietà dello stimatore, pretenderemo sempre che queste devono essere valide per qualsiasi valore di θ. Ciò per il semplice fatto che non sappiamo qual è il valore di θ, così, per essere affidabile, una proprietà deve mantenersi ovunque – o come anche si dice uniformemente – valida lungo l’intero spazio parametrico Θ. Primi elementi di inferenza statistica (ed. maggio 2012) 108 M. Di Marzio 15. STIMA media campionaria 0.5 0 −0.5 −1 0 100 200 300 400 numerosità campionaria 500 Figura 15.1: Stime di µ = 0 tramite la media campionaria. 15.3 Proprietà per piccoli campioni Come si è detto, un primo modo di misurare la bontà di uno stimatore è considerare il valore atteso del suo errore. In particolare, essendo il parametro θ una quantità fissa, si ha E[Θ̂ − θ] = E[Θ̂] − θ. E[Θ̂] − θ è detta distorsione ed indicata con dist[Θ̂]. Come differenza tra due quantità fisse, la distorsione non è una v.c.. A parità di altre condizioni preferiamo lo stimatore con distorsione più prossima allo zero. Uno stimatore Θ̂ si dice non distorto o corretto se per qualsiasi valore di θ in Θ si ha E[Θ̂] = θ (oppure dist[Θ̂] = 0). In pratica ciò implica che se si potesse ripetere la stima un grosso numero di volte su altrettanti campioni della stessa numerosità, la media di tutte le stime ottenute sarebbe molto vicina o coincidente con il valore del parametro. Esempio 15.6. Sia X1 , X2 , ..., Xn un campione casuale, ecco due casi di statistiche utilizzabili come stimatori corretti. ⋄ La media campionaria X è uno stimatore corretto per la media µ della popolazione, infatti E[X] = µ. Nel caso di popolazione bernoulliana diciamo che la statistica proporzione campionaria P è uno stimatore corretto di π poiché E[P ] = π. ⋄ La varianza campionaria S 2 (lo s.q.m. campionario S) è uno stimatore corretto per la varianza (s.q.m.) della popolazione σ 2 (σ), infatti E[S 2 ] = σ 2 . Ne consegue che anche lo s.q.m. campionario è corretto per σ, cioè E[S] = σ. Esempio 15.7. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf N (0, σ 2 ). Lo stimatore T = 2 1 n ∑n i=1 Xi2 è corretto per σ . Per dimostrare ciò si consideri la quantità ∑ Xi2 nT = , 2 σ σ2 i=1 n che, in quanto somma di n vv.cc. normali standard al quadrato, è una v.c. chi-quadrato con n gradi di libertà. Si ha ] ] = n, e quindi nE[T = n, da cui allora che E[ nT σ2 σ2 E[T ] = nσ 2 = σ2 . n Esempio 15.8. Dato il campione casuale X1 , X2 , X3 dalla pdf esponenziale fX (x; λ) = λe−λx , λ ≥ 0, lo stimatore 3/(X1 + X2 + X3 ) è corretto per il parametro λ. Infatti ] [ 3 3 3 3 = = = = λ. E X1 + X2 + X3 E[X1 + X2 + X3 ] E[X1 ] + E[X2 ] + E[X3 ] 3/λ M. Di Marzio 109 Primi elementi di inferenza statistica (ed. maggio 2012) 15.3. Proprietà per piccoli campioni La correttezza ci assicura che in media lo stimatore né sottostima né sovrastima il parametro, cioè non contiene deviazioni sistematiche rispetto a θ. Tuttavia essa non è una caratteristica che basta da sola poiché non dice alcunchè circa la dispersione di fΘ̂ (·; θ) intorno a θ. Ma una dispersione elevata vanifica la correttezza poiché in tal caso si possono avere stime molto lontane da θ anche se in media queste sono pari ad esso. Ora si introduce una misura che tiene conto sia della distorsione che della varianza dello stimatore. Dato uno stimatore Θ̂ di θ, l’ errore quadratico medio (EQM) di Θ̂ è la quantità definita da: EQM[Θ̂] = E[(Θ̂ − θ)2 ]. In quanto media della differenza al quadrato tra Θ̂ e θ, l’indice EQM[Θ̂] è una misura della dispersione di Θ̂ intorno a θ, esattamente come la varianza di una v.c. è una misura della dispersione della v.c. intorno al suo valore atteso. Si noti che, a differenza della distorsione, l’errore quadratico medio non può essere negativo. L’errore quadratico medio può scriversi come somma di varianza dello stimatore e distorsione al quadrato, infatti EQM[Θ̂] = E[(Θ̂ − θ)2 ] = E[(Θ̂ − µΘ̂ + µΘ̂ − θ)2 ] = E[{(Θ̂ − µΘ̂ ) + (µΘ̂ − θ)}2 ] = E[(Θ̂ − µΘ̂ )2 + (µΘ̂ − θ)2 + 2(Θ̂ − µΘ̂ )(µΘ̂ − θ)] = E[(Θ̂ − µΘ̂ )2 ] + E[(µΘ̂ − θ)2 ] + 2E[(Θ̂ − µΘ̂ )(µΘ̂ − θ)]; ma 2E[(Θ̂ − µΘ̂ )(µΘ̂ − θ)] = (µΘ̂ − θ)2E[Θ̂ − µΘ̂ ] = (µΘ̂ − θ)2(µΘ̂ − µΘ̂ ) = 0, inoltre E[(µΘ̂ − θ)2 ] = (µΘ̂ − θ)2 per cui EQM[Θ̂] = E[(Θ̂ − µΘ̂ )2 ] + (µΘ̂ − θ)2 = Var[Θ̂] + dist2 [Θ̂]. Esempio 15.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale di parametri µ incognito e σ 2 = 2. Si consideri come stimatore di µ la statistica T = X1 + X2 . Poiché EQM[T ] = E[(T − µ)2 ] = Var[T ] + dist2 [T ], essendo Var[T ] = Var[X1 + X2 ] = Var[X1 ] + Var[X2 ] = 2σ 2 = 4 e dist2 [T ] = (E[T ] − µ)2 = (E[X1 + X2 ] − µ)2 = (E[X1 ] + E[X2 ] − µ)2 = (2µ − µ)2 = µ2 si ha EQM[T ] = 4 + µ2 . Il criterio dello EQM suggerisce di scegliere lo stimatore con lo EQM più basso per qualsiasi valore di θ in Θ. Tale proprietà assicura che grossi scostamenti della stima dal vero valore del parametro si verificheranno con probabilità inferiore a quella di scarti contenuti. Ma come si vede dalla sua definizione, lo EQM dipende da θ. Purtroppo ne deriva che non sempre è possibile utilizzare tale criterio, poiché non si può trovare uno stimatore con errore quadratico medio uniformemente minimo lungo tutto lo spazio parametrico Θ. Esempio 15.10. Siano W1 e W2 stimatori del parametro θ per cui EQM[W1 ] = (θ/4)2 e EQM[W2 ] = (θ/4 + 5)2 . Lo spazio parametrico è Θ = [−30, 10]. Se θ ∈ [−30, −10] si ha EQM[W1 ] > EQM[W2 ], mentre se θ ∈ [−10, 10] è vero il contrario. Sulla base del confronto tra gli EQM non è allora possibile stabilire quale sia lo stimatore migliore per il semplice motivo che non sappiamo in quale zona si trova il parametro. La figura 15.2 illustra il caso. Se gli stimatori Θ̂1 e Θ̂2 sono entrambi corretti, si ha che EQM[Θ̂i ] = Var[Θ̂i ], per i = 1, 2. In questo caso particolare, se Var[Θ̂1 ] < Var[Θ̂2 ] si sceglierà lo stimatore Θ̂1 poiché la sua distribuzione è più concentrata intorno al parametro. Allora diremo che Θ̂1 è più efficiente di Θ̂2 . Se tra tutti gli stimatori corretti di un parametro esiste il più efficiente si dirà che esso è efficiente in senso assoluto. Primi elementi di inferenza statistica (ed. maggio 2012) 110 M. Di Marzio 15. STIMA EQM[W ] EQM[W1] 20 2 15 10 5 0 −5 −10 −30 −20 −10 0 10 Θ Figura 15.2: Errori quadratici medi degli stimatori W1 e W2 . Esempio 15.11. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale con media µ incognita e varianza σ 2 = 4. Scegliamo lo stimatore di µ tra le seguenti statistiche campionarie T1 = X 1 ; T2 = X1 + X2 . 2 Poiché E[T1 ] = E[X1 ] = µ [ ] X1 + X2 1 µ+µ = (E[X1 ] + E[X2 ]) = = µ, 2 2 2 gli stimatori T1 e T2 sono entrambi corretti per µ. Per stabilire quale dei i due stimatori sia il più efficiente, confrontiamo Var[T1 ] e Var[T2 ]. Poiché Var[T1 ] = Var[X1 ] = σ 2 = 4 e E[T2 ] = E e [ X1 + X2 Var[T2 ] = Var 2 ] = 1 σ2 + σ2 σ2 4 (Var[X1 ] + Var[X2 ]) = = = = 2, 4 4 2 2 risulta Var[T2 ] < Var[T1 ], e quindi tra T1 è T2 lo stimatore più efficiente è T2 . Ma come fare se Var[Θ̂1 ] < Var[Θ̂2 ] ma E[Θ̂1 ] ̸= θ e E[Θ̂2 ] = θ? Efficienza e distorsione si compongono nel criterio dello EQM per cui è sempre sufficiente confrontare EQM[Θ̂1 ] e EQM[Θ̂2 ]. Esempio 15.12. Si considerino due stimatori della media della popolazione µ, W1 e W2 , tali che: E[W1 ] = µ, E[W2 ] = µ + 3, Var[W1 ] = 26, Var[W2 ] = 16, Sebbene distorto, W2 è più efficiente, infatti EQM[W1 ] = 26 mentre EQM[W2 ] = 25. Esempio 15.13. Sia X1 , X2 , ..., Xn un campione casuale generato da una pdf normale con media incognita µ e varianza σ 2 = 4. Si considerino come stimatori di µ lo stimatore T1 proposto nell’esempio 15.11 e lo stimatore W = X1 + X2 . Poiché T1 è uno stimatore corretto per µ si ha EQM[T1 ] = Var[T1 ] = 4. Per lo stimatore W si ha invece E[W ] = E[X1 + X2 ] = E[X1 ] + E[X2 ] = 2µ. Pertanto W non è uno stimatore corretto per µ e dist[W ] = E[W ] − µ = 2µ − µ = µ. Poiché Var[W ] = Var[X1 + X2 ] = σ 2 + σ 2 = 8, risulta EQM[W ] = Var[W ] + dist2 [W ] = 8 + µ2 . Pertanto EQM[T1 ] < EQM[W ] e si conclude che tra T1 e W lo stimatore da preferire per µ è T1 . M. Di Marzio 111 Primi elementi di inferenza statistica (ed. maggio 2012) 15.4. Proprietà per grandi campioni Passando a una differente proprietà, definiamo lineare uno stimatore Θ̂ che sia espresso come funzione lineare degli elementi del campione, cioè se: n ∑ Θ̂ = ai Xi . i=1 dove le quantità a1 , a2 , ..., an sono costanti. Esempio 15.14. Sia dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione con media µ e varianza ∑ σ 2 . La media campionaria X = n−1 n i=1 Xi è uno stimatore lineare. Qui ai = 1/n per i = 1, 2, ..., n. Dato un campione casuale estratto da una pdf con media µ, ora dimostriamo un risultato molto interessante che ∑n accredita la media come il migliore stimatore tra quelli i=1 ai = 1. ∑n per cui ai ≥ 0 per ogni i ∈ [1, 2, ..., n] e Dimostriamo prima che gli stimatori lineari per cui i=1 ai = 1 e ai ≥ 0 sono corretti: ] [ n n n ∑ ∑ ∑ ai Xi = ai µ = µ ai = µ. E i=1 i=1 i=1 [ ] Passiamo adesso alla varianza. Sappiamo che Var X = σ 2 /n. Invece per un generico stimatore lineare abbiamo che [ n ] n n ∑ ∑ ∑ a2i . Var ai Xi = a2i Var[Xi ] = σ 2 i=1 i=1 i=1 Così il confronto tra gli EQM si riduce allo studio del segno della differenza tra le due varianze. Si ha [ n ] ( n ) ∑ ∑ 2 1 2 ai − Var ai Xi − Var[X] = σ n i=1 i=1 ( n ) ∑ 2 2 1 2 =σ ai − + n n i=1 ( n ) ∑n n ∑ 2 2 1∑1 2 i=1 ai =σ + ai − n n i=1 n i=1 ( ) n ∑ 2 2ai 1 = σ2 ai − + 2 n n i=1 )2 n ( ∑ 1 = σ2 ≥ 0. ai − n i=1 Poiché la differenza tra le due varianze è positiva, allora abbiamo dimostrato che la media aritmetica ha errore quadratico medio (o varianza) uniformemente minima all’interno della classe considerata. 15.4 Proprietà per grandi campioni Le proprietà finora presentate riguardano un’ampiezza n del campione fissata. Ora ci chiediamo come dovrebbe comportarsi uno stimatore all’aumentare dell’ampiezza campionaria. In effetti, al crescere di n cresce l’informazione sul parametro. Quindi vorremmo che lo stimatore fosse in grado di sfruttare l’aumento dell’informazione per essere via via più preciso; le proprietà di uno stimatore al crescere dell’ampiezza del campione sono dette, come anticipato, per grandi campioni o asintotiche. Nel seguito sono enunciate alcune tra le principali proprietà asintotiche degli stimatori. Nell’enunciare dette proprietà lo stimatore sarà indicato con Θ̂n per sottolineare che la sua pdf fΘ̂n (·; θ) cambia forma al variare di n. Lo stimatore Θ̂n si definisce asintoticamente corretto, se all’aumentare di n la sua distorsione tende a 0, per qualsiasi valore di θ in Θ. In formule lim E[Θ̂n ] − θ = 0. n→+∞ Esempio 15.15. Si consideri un campione casuale X1 , X2 , ..., Xn generato da una pdf di Poisson con parametro incognito λ. Lo stimatore ∑n Tn = i=1 Xi n−1 è uno stimatore distorto per λ. Si ha infatti [ n ] [ ∑n ] n ∑ 1 1 ∑ nλ i=1 Xi E[Tn ] = E = E Xi = ̸= λ. E [Xi ] = n−1 n−1 n − 1 n −1 i=1 i=1 Primi elementi di inferenza statistica (ed. maggio 2012) 112 M. Di Marzio 15. STIMA Tuttavia poiché dist[Tn ] = E[Tn ] − λ = nλ nλ − nλ + λ λ −λ= = , n−1 n−1 n−1 si ha che λ = 0, n−1 e si conclude pertanto che Tn è uno stimatore asintoticamente corretto per λ. lim dist[Tn ] = lim n→+∞ n→+∞ Lo stimatore Θ̂n si definisce coerente (o consistente) in media quadratica, se all’aumentare di n il suo EQM tende ad annullarsi per qualsiasi valore di θ in Θ. In formule lim EQM[Θ̂n ] = 0. n→+∞ Ora, essendo EQM[Θ̂n ] = Var[Θ̂n ] + dist2 [Θ̂n ], le condizioni lim E[Θ̂n ] − θ = 0 e n→+∞ lim Var[Θ̂n ] = 0 n→+∞ sono necessarie e sufficienti affinché Θ̂n sia consistente in media quadratica. Esempio 15.16. Sia X1 , X2 , ..., Xn un campione casuale avente pdf generatrice normale con varianza nota σ 2 = 5 e media incognita µ. Lo stimatore ∑n i=1 Xn = Xi n è uno stimatore corretto per µ. Si ha pertanto EQM[X n ] = Var[X n ] = σ2 5 = , n n e poiché lim EQM[X n ] = lim n→+∞ n→+∞ 5 = 0, n lo stimatore X n è consistente in media quadratica. Esempio 15.17. Si consideri lo stimatore T dell’esempio 15.7. Esso è consistente in media quadratica. Infatti, abbiamo già provato che la distorsione è nulla, così resta da provare che la varianza tende a 0 con l’aumentre di n. Ricordando che per la variabile casuale chi-quadrato con n gradi di libertà, indicata con X2n , risulta Var[X2n ] = 2n, abbiamo [ 2 ] [ ] σ 2 σ4 2nσ 4 2σ 4 Var[T ] = Var Xn = 2 Var X2n = = . 2 n n n n Ora 2σ 4 lim = 0. n→∞ n Esempio 15.18. Dato un campione casuale di n elementi da una popolazione con varianza σ 2 , si consideri il seguente stimatore per la media aritmetica: T = 0.8X1 + 0.2 ∑n i=2 Xi n−1 Sebbene T sia corretto, e quindi anche asintoticamente corretto, tuttavia esso non é coerente in media quadratica, poichè al crescere di n la varianza non tende a zero, infatti ∑ ( ) 0.22 n 0.04 i=2 Var[Xi ] = 0.64 + σ2 Var[T ] = 0.82 Var[X1 ] + (n − 1)2 n−1 così limn→+∞ EQM[T ] = 0.64σ 2 . Esempio 15.19. Lo stimatore T dell’esempio 15.9 non è consistente poichè, se n → ∞, il suo errore quadratico medio continua comunque a valere 4 + µ2 poichè non dipende da n. Lo stimatore Θ̂n si definisce semplicemente coerente (o consistente), se al crescere della dimensione campionaria assume, con probabilità 1, valori sempre più vicini al valore effettivo del parametro da stimare per qualsiasi valore di θ in Θ. In formule lim P(|Θ̂n − θ| < ε) = 1, n→+∞ dove ε è un numero positivo piccolo a piacere. M. Di Marzio 113 Primi elementi di inferenza statistica (ed. maggio 2012) 15.5. Costruzione degli stimatori Ma quale relazione esiste tra i due tipi di coerenza? La coerenza in media quadratica implica la coerenza semplice. Segue una dimostrazione di questa relazione che riguarda il solo caso di stimatori corretti. Con la simbologia appena introdotta, si consideri la seguente formulazione della disuguaglianza di Chebyshev (sez. 3.11). Posto µn = E[Θ̂n ] e σn2 = Var[Θ̂n ]: P(|Θ̂n − µn | < kσn ) ≥ 1 − 1 , k2 dove k > 0. Ponendo ϵ = kσn si ottiene P(|Θ̂n − µn | < ϵ) ≥ 1 − σn2 , ϵ2 passando al limite si ha σn2 , n→+∞ ϵ2 lim P(|Θ̂n − µn | < ϵ) ≥ 1 − lim n→+∞ se Θ̂n è corretto, allora µn = θ; inoltre la coerenza in media quadratica implica che limn→+∞ σn2 = 0, così lim P(|Θ̂n − θ| < ϵ) ≥ 1, n→+∞ infine, ricordando che la probabilità non può essere maggiore di uno, si ottiene che lim P(|Θ̂n − θ| < ε) = 1. n→+∞ Esempio 15.20. Si consideri lo stimatore X n dell’esempio 15.16. Poiché X n è consistente in media quadratica, allora è anche semplicemente consistente. Risulta infatti P(|X n − µ| < ϵ) ≥ 1 − σ 2 /n ϵ2 e poiché lim n→+∞ σ2 = 0, n risulta lim P(|X n − µ| < ϵ) = 1. n→∞ Uno stimatore Θ̂n si definisce asintoticamente normale se la sua pdf tende alla normale, per qualsiasi valore di θ in Θ. In formule Θ̂n − E[Θ̂n ] lim P √ ≤ z = Φ(z) n→+∞ Var[Θ̂n ] Grazie alla vasta applicabilità del TCL, tanti stimatori sono asintoticamente normali, ciò semplificando notevolmente le analisi teoriche. Esempio 15.21. Dato il campione casuale X1 , X2 , ..., Xn , la media campionaria è asintoticamente normale in virtù del TCL. 15.5 Costruzione degli stimatori Finora sono stati trattati alcuni dei principali criteri per giudicare uno stimatore. In questa sezione verrà affrontato il problema della costruzione di uno stimatore. Sebbene ne esistano di numerosi, discutiamo solo due metodi: il metodo dell’analogia e il metodo della massima verosimiglianza. Un terzo, il metodo dei minimi quadrati, si riferisce a un problema inferenziale leggermente diverso e verrà presentato nel capitolo 24. Il metodo dell’analogia è molto naturale ed intuitivo. Esso consiste nell’utilizzare come stimatore la formula che il parametro ha nella popolazione. Un esempio al riguardo è riportato nell’esempio 15.1. Purtroppo lo stimatore per analogia non presenta proprietà rilevanti, così non è quasi mai consigliabile. Il metodo della massima verosimiglianza è unanimemente riconosciuto come il più importante per le numerose e importanti proprietà vantate (accennate al termine di questa sezione). Giova anzitutto ricordare la definizione di funzione di verosimiglianza su cui tutto si basa. Primi elementi di inferenza statistica (ed. maggio 2012) 114 M. Di Marzio 15. STIMA La funzione di verosimiglianza di un campione casuale è L(θ; x1 , x2 , ..., xn ) = n ∏ fX (θ; xi ); i=1 essa ha per dominio lo spazio parametrico Θ, e per ogni valore θ ∈ Θ fornisce la probabilità (o densità) congiunta – quindi una misura della credibilità – che la realizzazione x1 , x2 , ..., xn abbia origine da fX (·; θ). Evidentemente il valore di θ che rende massima L(θ) indica la popolazione presso cui la realizzazione x1 , x2 , ..., xn ha maggiore probabilità di essere estratta, e quindi la popolazione con cui la realizzazione è maggiormente compatibile. Di conseguenza risulta fondato scegliere come stima proprio quel valore del parametro che identifica l’elemento della famiglia parametrica più compatibile con la realizzazione campionaria osservata. La stima di massima verosimiglianza di θ è il valore θ̂ dello spazio parametrico Θ in corrispondenza del quale la funzione di verosimiglianza L(θ) raggiunge il massimo, cioè se θ̂ è la stima di massima verosimiglianza, allora L(θ̂) ≥ L(θ) ∀θ ∈ Θ. Bisogna osservare, comunque, che la stima così ottenuta è un semplice numero. Per cui se si usasse una diversa realizzazione campionaria (stessa numerosità o numerosità diversa) si dovrebbe rifare tutto il calcolo (cioè formulare L(θ) e trovarne il punto d’ascissa del massimo). Questo si evita se invece la stima può essere espressa come una statistica, cioè se si riesce a scriverla come una funzione della generica realizzazione campionaria, cioè se si riesce a trovare una funzione ϑ̂ tale che θ̂ = ϑ̂(x1 , x2 , ..., xn ), se così fosse, per ottenere la stima basterebbe applicare ϑ̂ alla realizzazione osservata. Inoltre ϑ̂ renderebbe automaticamente definito lo stimatore di massima verosimiglianza di θ che sarebbe Θ̂ = ϑ̂(X1 , X2 , ..., Xn ). L’esempio 15.23 approfondisce questo aspetto, mostrando come la media campionaria identifichi il massimo della funzione di verosimiglianza per qualsiasi realizzazione. Da un punto di vista matematico, trovare il punto di massimo di una funzione richiede il calcolo di derivate di ordine superiore al primo. Nel caso di L(θ) si ha la fortunata circostanza per cui quasi sempre basta trovare il valore del parametro, se esiste, che annulla la derivata prima. Poiché la trasformazione logaritmica di una funzione ha gli stessi punti di stazionarietà della funzione ed è più semplice da studiare, nella pratica non si trova il massimo di L(θ) ma della funzione di log-verosimiglianza L(θ) = log L(θ). Esempio 15.22. Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf normale di parametri µ = 0 e σ 2 incognito. Troviamo lo stimatore di massima verosimiglianza di σ 2 . Per comodità di notazione poniamo θ = σ 2 . La funzione di verosimiglianza è L(θ) = n ∏ i=1 2 √ xi 1 e− 2θ = 2πθ La funzione di log-verosimiglianza è L(θ) = −n log √ ( √ 1 2πθ )n ∑n 2πθ − i=1 e− ∑n 2 i=1 xi 2θ . x2i 2θ e la derivata della log-verosimiglianza è ∑n x2i ∂L(θ) n =− + i=12 ; ∂θ 2θ 2θ dopo aver eguagliato a zero quest’ultima espressione, moltiplicando entrambi i membri dell’equazione per 2θ e poi risolvendo si ottiene la stima di massima verosimiglianza ∑n 2 i=1 xi . θ̂ = σ̂ 2 = n In questo particolare caso lo stimatore di massima verosimiglianza ottenuto è anche corretto come dimostrato nell’esempio 15.7. Esempio 15.23. Supponiamo che un campione casuale di 3 elementi sia estratto dalla distribuzione binomiale di parametri n = 1 e π (o bernoulliana) pX (x; π) = π x (1 − π)1−x . Ogni realizzazione campionaria è allora costituita da una successione di 0 e di 1. La funzione di verosimiglianza è M. Di Marzio 115 Primi elementi di inferenza statistica (ed. maggio 2012) 15.5. Costruzione degli stimatori L(π) = e se poniamo y = ∑3 i=1 3 ∏ π xi (1 − π)1−xi = π ∑3 i=1 xi ∑3 (1 − π)3− i=1 xi i=1 xi otteniamo la seguente log-verosimiglianza ln L(π) = y ln π + (3 − y) ln(1 − π) e quindi la seguente derivata ∂ ln L(π) y 3−y = − . ∂π π 1−π Ponendo questa espressione uguale a zero e risolvendo per π, troviamo la stima ∑3 y i=1 xi π̂ = = . 3 3 Le funzioni possibili sono ovviamente le seguenti L0 = L(π; Σxi = 0) = (1 − π)3 L1 = L(π; Σxi = 1) = π(1 − π)2 L2 = L(π; Σxi = 2) = π 2 (1 − π) L(π) L3 = L(π; Σxi = 3) = π 3 . 1 0.8 L0 L3 L1 L2 0.6 0.4 0.2 0 0 0.2 0.4 0.6 0.8 π1 Figura 15.3: Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π In figura 15.3 sono rappresentate le funzioni Li , i = 0, 1, 2, 3, è immediato osservare come per ogni curva la funzione è massimizzata dal valore ∑3 i=1 xi π̂ = 3 che per L0 è 0, per L1 è 1/3, per L2 è 2/3 e per L3 è 1. Abbiamo empiricamente verificato che per ognuna delle funzioni di verosimiglianza, la stima di massima verosimiglianza ne individua il punto di ascissa del massimo. Si può provare che lo stimatore di massima verosimiglianza è asintoticamente normale. La normalità asintotica risulta molto comoda poiché, quando non si riesce a determinare la distribuzione dello stimatore di massima verosimiglianza, si possono sempre fare affermazioni probabilistiche basate sul modello normale con la consapevolezza di non sbagliarsi troppo. Un’altra rimarchevole proprietà è che lo stimatore di massima verosimiglianza è coerente in tutte le varie accezioni. Comunque a volte gli stimatori di massima verosimiglianza sono distorti, ma sempre asintoticamente corretti. Si noti infine che in tutti gli esempi e gli esercizi svolti nel capitolo successivo la stima di massima verosimiglianza dipende dal campione∑ solo attraverso una statistica∑sufficiente. Ad esempio, con riguardo all’esempio 15.23 3 3 la statistica sufficiente è i=1 xi . Così ogni valore di i=1 xi (non ogni realizzazione campionaria!) individua una funzione di verosimiglianza. Che la stima di massima verosimiglianza dipenda da statistiche sufficienti accade nella generalità dei casi e risulta di certo un aspetto notevole della teoria classica dell’inferenza statistica. Primi elementi di inferenza statistica (ed. maggio 2012) 116 M. Di Marzio 16 Esercizi svolti Esercizio 16.1. Sia X1 , X2 , X3 un campione casuale estratto da una popolazione esponenziale di parametro λ incognito. Stabilire quale dei seguenti stimatori della media della popolazione 1/λ è corretto: T1 = X1 + 1, T2 = 2X1 + X2 , 3 T3 = min(X1 , X2 , X3 ) Soluzione Per stabilire la correttezza degli stimatori, si procede al calcolo del loro valore atteso. Si ottiene allora E[T1 ] = E[X1 + 1] = E[X1 ] + 1 = 1/λ + 1, [ ] 2X1 + X2 1 1 E[T2 ] = E = E[2X1 + X2 ] = (E[2X1 ] + E[X2 ]) . 3 3 3 ( ) 1 2 1 1 3 1 + = × = 1/λ, = (2E[X1 ] + E[X2 ]) = 3 3 λ λ 3 λ Inoltre ricordando che se Y1 = min(X1 , X2 , ..., Xn ) allora fY1 (x) = n[1 − FX (x)]n−1 fX (x), poiché se X ha distribuzione esponenziale si ha { λe−λx se x ≥ 0 fX (x; λ) = 0 altrimenti, risulta FX (x) = 1 − e−λx , e fT3 (x) = 3[1 − (1 − e−xλ )]2 λe−xλ = 3e−2xλ λe−xλ = 3λe−3xλ , e quindi T2 ha distribuzione esponenziale di parametro 3λ e E[T3 ] = 1 . 3λ Poiché per definizione uno stimatore T è corretto per il parametro θ se risulta E[T ] = θ, si conclude che T2 è uno stimatore corretto per 1/λ, mentre gli stimatori T1 e T3 sono distorti. Esercizio 16.2. Sia X un’osservazione casuale generata da una distribuzione uniforme nell’intervallo [θ, θ + 1], dove θ è un numero reale positivo. Stabilire quale tra i due seguenti stimatori è preferibile per θ: W1 = X, Soluzione Poiché ∫ E[W1 ] = E[X] = θ+1 xdx = θ W2 = 2X. x2 2 θ+1 = θ θ2 1 (θ + 1)2 − =θ+ 2 2 2 e E[W2 ] = E[2X] = 2E[X] = 2θ + 1, gli stimatori W1 e W2 sono entrambi distorti per θ e, in particolare, risulta dist[W1 ] = E[W1 ] − θ = θ + M. Di Marzio 117 1 1 −θ = , 2 2 Primi elementi di inferenza statistica (ed. maggio 2012) e dist[W2 ] = E[W2 ] − θ = 2θ + 1 − θ = θ + 1. Per stabilire quale tra i due stimatori sia preferibile si procede allora al confronto tra i rispettivi errori quadratici medi. Ricordando che per una v.c. X si ha Var[X] = E[X 2 ] − (E[X])2 , poiché ∫ θ+1 θ+1 x3 θ3 3θ2 + 3θ + 1 (θ + 1)3 E[W12 ] = E[X 2 ] = x2 dx = = − = , 3 θ 3 3 3 θ si ottiene Var[W1 ] = E[W12 ] 3θ2 + 3θ + 1 − (E[W1 ]) = − 3 ( 2 e Var[W2 ] = Var[2X] = 4Var[X] = 1 EQM[W1 ] = Var[W1 ] + (dist[W1 ]) = + 12 2 EQM[W2 ] = Var[W2 ] + (dist[W2 ])2 = )2 = 1 12 4 1 = . 12 3 Risulta dunque e 1 +θ 2 ( )2 1 1 = 2 3 1 2 + (θ + 1) 3 2 e poiché la quantità (θ + 1) è positiva risulta EQM[W1 ] < EQM[W2 ]. Si conclude pertanto che tra i due stimatori di θ è preferibile W1 . Esercizio 16.3. Un’azienda tessile ha immesso sul mercato un tessuto innovativo realizzato utilizzando, per ogni metro, una quantità θ di seta. Un’azienda concorrente, dopo accurate ricerche di laboratorio, individua due possibili stimatori T1 e T2 per la quantità incognita θ, tra loro indipendenti, entrambi corretti rispetto a θ. Supponendo di combinare linearmente T1 e T2 in un terzo stimatore T3 = kT1 + (1 − k)T2 (dove 0 < k < 1), verificare se T3 è corretto rispetto a θ per qualsiasi valore di k. Soluzione Essendo T1 e T2 entrambi corretti rispetto al parametro θ, E (T1 ) = E (T2 ) = θ. Pertanto E[T3 ] = E [kT1 + (1 − k) T2 ] = kE[T1 ] + (1 − k) E[T2 ] = kθ + (1 − k) θ = θ e si conclude che T3 è uno stimatore corretto per θ, per qualunque valore di k. Esercizio 16.4. Considerato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione esponenziale con media incognita θ, si dimostri che X è uno stimatore consistente per θ. Soluzione Poiché la pdf del carattere X osservato presso la popolazione è definita da { λe−λx se x ≥ 0 fX (x; λ) = 0 altrimenti, risulta E[X] = 1/λ, e quindi θ = 1/λ. Si ha pertanto [ ∑n ] nE[Xi ] 1 i=1 Xi E[X] = E = = = θ, n n λ e si conclude che lo stimatore X è corretto per θ. Pertanto, ricordando che se X ha distribuzione esponenziale di parametro λ, Var[X] = 1/λ2 e Var[X] = 1/(nλ2 ), per la disuguaglianza di Chebyshev si ha √ 1 P(|X − 1/λ| ≤ k/(λ n)) ≥ 1 − 2 . k √ Posto allora ϵ = k/(λ n), risulta k 2 = nλ2 ϵ2 e quindi P(|X − 1/λ| ≤ ϵ) ≥ 1 − Poiché lim n→∞ 1 . nλ2 ϵ2 1 =0 nλ2 ϵ2 risulta lim P(|X − 1/λ| ≤ ϵ) = 1 n→∞ e si conclude che X è uno stimatore consistente per θ. Primi elementi di inferenza statistica (ed. maggio 2012) 118 M. Di Marzio 16. ESERCIZI SVOLTI Esercizio 16.5. Il numero X di veicoli in transito presso una stazione di servizio, in cinque intervalli di tempo di un’ora, indipendenti e disgiunti, è risultato pari a: 14, 20, 18, 8, 25. Assumendo che X si distribuisce secondo una legge di Poisson di parametro λ, stimare, con il metodo della massima verosimiglianza, il numero medio di veicoli in transito in un’ora presso la stazione di servizio. Soluzione Poiché la pdf di X è data da −λ x e λ x! pX (x; λ) = 0 se x = 0, 1, ... altrimenti la funzione di verosimiglianza è data da L (λ) = n ∏ pX (xi ; λ) = n −λ xi ∏ e λ i=1 i=1 xi ! ∑ e−nλ λ xi = n ∏ xi ! i=1 operando la trasformazione logaritmica, la log-verosimiglianza risulta L(λ) = ln L (λ) = −nλ + n ∑ xi ln λ − ln i=1 n ∏ xi ! i=1 Derivando L(λ) ed eguagliando a zero la derivata risulta ∂L (λ) = −n + ∂λ ∑ xi =0 λ da cui si ottiene la stima di massima verosimiglianza di λ ∑ xi 14 + 20 + 18 + 8 + 25 λ̂ = = = 17. n 5 Esercizio 16.6. In una catena di montaggio, il tempo X impiegato da ciascuna macchina per completare la sua produzione giornaliera si distribuisce normalmente con media µ e varianza σ 2 incognite. Per un campione di n = 6 macchine della catena di montaggio si è registrato un tempo medio x̄ = 10 ed una devianza di 36. Stimare i parametri µ e σ 2 della popolazione con il metodo della massima verosimiglianza. Soluzione La funzione di verosimiglianza per un campione generato da un modello distributivo normale è data da [ ] [ ] n n ( ) ∏ ( 2 )−n/2 1 1 ∑ 1 2 2 2 √ L µ; σ = exp − 2 (xi − µ) = σ 2π exp − 2 (xi − µ) . 2 2σ 2σ i=1 i=1 σ 2π Dalla trasformazione logaritmica si ottiene ( L µ; σ 2 ) n n n 1 ∑ 2 2 = − ln σ − ln 2π − 2 (xi − µ) . 2 2 2σ i=1 Le derivate di L(µ; σ 2 ) rispetto a µ e σ 2 risultano, rispettivamente ( ) ∑ ∂L µ; σ 2 1 1 ∑ = − 2 (−2) (xi − µ) = 2 (xi − µ) ; ∂µ 2σ σ ( ) ∂L µ; σ 2 n 1 ∑ 2 =− 2 + 4 (xi − µ) . 2 ∂σ 2σ 2σ Le stime di massima verosimiglianza per µ e σ 2 si ottengono allora risolvendo il seguente sistema di equazioni 1 ∑ (xi − µ) = 0 σ2 − n + 1 ∑ (xi − µ)2 = 0. 2σ 2 2σ 4 M. Di Marzio 119 Primi elementi di inferenza statistica (ed. maggio 2012) Risolvendo rispetto a µ la prima equazione del sistema si ottiene la stima ∑ xi µ̂ = = x̄ = 10 n ∑ xi n e sostituendo nella seconda equazione − = x̄ si ha n 1 ∑ 2 + 4 (xi − x̄) = 0 2 2σ 2σ da cui si ottiene la stima ∑ 2 (xi − x̄) 36 = = 6. n 6 Esercizio 16.7. Sia X1 , X2 , ..., Xn un campione casuale da una distribuzione geometrica di parametro π incognito. Determinare lo stimatore di massima verosimiglianza per π. σ̂ 2 = Soluzione Poiché la pdf di una v.c. geometrica X è definita da { π(1 − π)x se x = 0, 1, ... pX (x; π) = 0 altrimenti la funzione di verosimiglianza è data da L(π) = = n ∏ i=1 n ∏ pX (xi ; π) π(1 − π)xi i=1 = π n (1 − π) ∑n i=1 xi . La log-verosimiglianza risulta allora L(π) = n log π + n ∑ xi log(1 − π), i=1 e equagliando a zero la derivata parziale di L calcolata rispetto a π, si ottiene ∑n ∑n xi n(1 − π) − π i=1 xi ∂L (π) n = − i=1 = = 0, ∂π π 1−π π(1 − π) da cui risulta n − nπ − π n ∑ xi = 0 i=1 e quindi π(n + n ∑ xi ) = n. i=1 Pertanto π̂ = n+ n ∑n i=1 xi . Esercizio 16.8. Sia X1 , X2 , ..., Xn un campione casuale da una distribuzione uniforme di parametri 0 e θ > 0. Si trovi lo stimatore di massima verosimiglianza di θ. Soluzione Indichiamo con yn la statistica campionaria massimo, cioè: yn = max(x1 , x2 , ..., xn ) e notiamo che θ è il massimo valore possibile per X. Chiaramente la funzione di verosimiglianza è nulla in (0, yn ) perché è impossibile che il il massimo valore possibile per X, cioè θ, sia minore di una qualsiasi osservazione campionaria. Così ∏n 1 n i=1 θ = θ1n se yn ≤ θ ≤ +∞ ∏ L(θ) = fX (xi ; θ) = 0 altrimenti. i=1 In questo caso il punto di massimo si identifica facilmente considerando che 1/θn è strettamente decrescente e quindi il suo massimo conincide con il minimo di Θ, cioè yn . Primi elementi di inferenza statistica (ed. maggio 2012) 120 M. Di Marzio 16. ESERCIZI SVOLTI Esercizio 16.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione presso la quale il carattere X ha distribuzione uniforme nell’intervallo [0, θ]. Considerato Yn = max(X1 , X2 , ..., Xn ) come possibile stimatore di θ, verificarne le proprietà asintotiche. Soluzione Ricordiamo che se Yn = max(X1 , X2 , ..., Xn ), allora la pdf di Yn è definita da fYn (x) = n[FX (x)]n−1 fX (x). Poiché se X è uniformemente distribuita nell’intervallo [0, θ], la sua pdf è data da { 1 se 0 ≤ x ≤ θ θ fX (x; θ) = 0 altrimenti, e la sua funzione di ripartizione è FX (x) = x ; θ la pdf di Yn risulta allora ( x )n−1 1 nxn−1 = . θ θ θn Procedendo al calcolo del valore atteso di Yn si ottiene ∫ θ E[Yn ] = xfYn (x)dx fYn (x) = n ∫ 0 θ = 0 nxn−1 n x n dx = n θ θ ∫ θ x×x n−1 0 n dx = n θ ∫ θ xn dx 0 θ = n θn+1 n xn+1 nθ = = , n n θ n+1 0 θ n+1 n+1 e quindi Yn è uno stimatore distorto per θ. Poiché però nθ = θ, n→∞ n + 1 lim Yn è asintoticamente corretto per θ. Poiché Yn è asintoticamente corretto per verificare la consistenza in media quadratica di Yn è sufficiente verificare che lim Var[Yn ] = 0. n→∞ Utilizzando la relazione Var[Yn ] = E[Yn2 ] − (E[Yn ])2 , poiché ∫ E[Yn2 ] θ x2 = 0 n = n θ ∫ nxn−1 dx θn θ xn+1 dx = 0 n+2 n xn+2 θn n + 2 θ 0 n θ nθ2 = n = , θ n+2 n+2 risulta ( )2 nθ nθ2 − Var[Yn ] = n+2 n+1 [ ] 2 2 nθ2 n2 θ 2 2 n(n + 1) − n (n + 2) = − = θ n + 2 (n + 1)2 (n + 2)(n + 1)2 nθ2 . = (n + 2)(n + 1)2 Si ha allora nθ2 = 0, n→∞ n→∞ (n + 2)(n + 1)2 e si conclude che Yn è uno stimatore di θ consistente in media quadratica. Inoltre poiché la consistenza in media quadratica implica la consistenza semplice, Yn è anche uno stimatore semplicemente consistente. lim Var[Yn ] = lim M. Di Marzio 121 Primi elementi di inferenza statistica (ed. maggio 2012) 17 Stima per intervalli Indice 17.1 Il problema della stima per intervalli . . . . . . . 17.2 Definizione di quantità pivotale . . . . . . . . . . . 17.3 Quantità pivotali nel caso di popolazione normale 17.4 Quantità pivotali nel caso di grandi campioni . . 17.5 Costruzione di stimatori per intervalli . . . . . . . 17.6 Intervalli di confidenza per la media . . . . . . . . 17.7 Numerosità campionaria per la stima della media 17.8 Intervalli di confidenza per la proporzione . . . . 17.9 Intervalli di confidenza per la varianza . . . . . . . 17.10Proprietà degli stimatori intervallari . . . . . . . . 17.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 123 123 124 125 125 126 127 127 127 Il problema della stima per intervalli Uno stimatore per punti Θ̂ genera un singolo numero θ̂ come inferenza su θ ∈ R. Purtroppo quasi sempre tale singolo numero non costituisce una stima esatta di θ. Se infatti fΘ̂ (·; θ) è discreta, allora spesso stime prossime a θ hanno probabilità molto simili ad una stima uguale a θ. Inoltre se fΘ̂ (·; θ) è continua, la probabilità che ∫ θ abbiamo di ottenere una stima esatta di θ è nulla, infatti P(Θ̂ = θ) = θ fΘ̂ (θ̂; θ) dθ̂ = 0. Così uno stimatore per punti è in genere inadeguato per l’uso pratico. Una naturale risposta metodologica a questo inconveniente consiste nello specificare: i) un intervallo di valori di θ plausibili, e ii) una misura della fiducia che tale intervallo contenga θ. Esempio 17.1. Spesso definiamo intervalli per stimare grandezze quantitative: 1) abbiamo ricevuto dai 20 ai 25 clienti. 2) il fatturato sarà tra 1.5 e 1.65 milioni di euro. Di norma, pur non specificandolo, abbiamo un elevatissimo livello di fiducia che le grandezze incognite siano comprese nell’intervallo da noi espresso. Formalmente, questo modo di ridurre l’ignoranza circa la popolazione incognita fX (·; θ) consiste nel selezionare un elemento di Θ × Θ, cioè una coppia di possibili valori del parametro che costituiscono gli estremi dell’intervallo. Tale selezione è basata sulla realizzazione di un campione casuale estratto da fX (·; θ), ed avviene per il tramite di una funzione ι del tipo ι : X → Θ × Θ. Come lo stimatore per punti è una statistica, così ι è una coppia di statistiche, che indichiamo con S1 e S2 , che definiscono un intervallo casuale Iθ = ι(X1 , X2 , ..., Xn ) = (S1 , S2 ) e il suo valore campionario iθ = ι(x1 , x2 , ..., xn ) = (s1 , s2 ). Primi elementi di inferenza statistica (ed. maggio 2012) 122 M. Di Marzio 17. STIMA PER INTERVALLI In luogo dell’espressione stimatore intervallare spesso si usa quella di intervallo di confidenza (o fiducia) per sottolineare la presenza del livello di confidenza (o fiducia) al fianco di un intervallo casuale. Così si ha questa definizione. Si abbiano un intervallo casuale Iθ = (S1 , S2 ), dove per ogni realizzazione campionaria S1 è minore di S2 , e un numero α compreso tra 0 e 1; se P(S1 < θ < S2 ) = 1 − α per qualsiasi valore di θ, l’intervallo casuale Iθ è definito intervallo di confidenza per θ al livello 100(1 − α)%. La definizione può essere così interpretata. In corrispondenza dello spazio campionario X, ι genera una popolazione ipotetica di realizzazioni del tipo iθ = (s1 , s2 ). Allora 1−α è la proporzione di queste realizzazioni contenenti θ. Per cui prima di osservare iθ sappiamo che quest’ultima conterrà θ con probabilità 1−α. Emerge con chiarezza una interpretazione frequentista della probabilità associata all’intervallo casuale Iθ . Purtroppo, oltre allo stimatore, anche la stima iθ è chiamata intervallo di confidenza, ingenerando un po’ di confusione. Se infatti la distinzione tra stimatore Iθ e stima iθ è chiara, una interpretazione completamente diversa spetta alla quantità 1 − α a seconda del caso. Quando per la stima intervallare si dice ‘vi è un livello di confidenza dell’ (1 − α)100% che iθ = (s1 , s2 ) contenga θ ’, questo non significa che c’è una probabilità pari a (1 − α) che la stima includa il parametro: la stima, essendo una realizzazione, è come il parametro, ossia una quantità fissa che, come tale, include o meno il parametro stesso. Quindi, l’evento θ ∈ iθ non ha natura aleatoria, di conseguenza la quantità 1 − α, se associata alla stima, deve ritenersi un livello di fiducia, confidenza, non già una probabilità. 17.2 Definizione di quantità pivotale Si consideri una funzione reale τ che dipende sia dal campione sia dal parametro non noto θ, formalmente τ : X × Θ → R. In corrispondenza di un campione casuale X1 , X2 , ..., Xn , τ definisce una v.c. T : T = τ (X1 , X2 , ..., Xn ; θ) , mentre in corrispondenza di una realizzazione x1 , x2 , ..., xn τ definisce un valore t di T t = τ (x1 , x2 , ..., xn ; θ) . Una v.c. del tipo T = τ (X1 , X2 , ..., Xn ; θ) è detta quantità pivotale se e solo se la sua pdf fT è completamente nota (e quindi non dipende dal parametro incognito θ). Dalla definizione di quantità pivotale vediamo che essa contiene θ nella sua espressione, e quindi non è una statistica poiché non è una funzione nota del campione. Esempio 17.2. Si consideri un campione casuale X1 , X2 , ..., Xn estratto da una pdf normale con media µ e varianza 4. Sappiamo che X ha distribuzione N (µ, 4/n). Così X −µ è una quantità pivotale poiché: 1) dipende dal parametro incognito µ e dalla statistica X, 2) ha distribuzione N (0, 4/n) che è del tutto nota. Anche X −µ √ 2/ n è una quantità pivotale perché: 1) dipende da X e µ e 2) la sua pdf è N (0, 1). Invece la quantità X , µ con µ ̸= 0, non è una quantità pivotale poiché, anche se funzione del parametro incognito µ e da X, ha pdf N (1, 4/(nµ2 )) che, essendo la varianza funzione del parametro incognito µ, non è nota del tutto. 17.3 Quantità pivotali nel caso di popolazione normale Ora introduciamo alcune quantità pivotali che si renderanno utili per la costruzione sia di intervalli di confidenza sia di test statistici. Nei punti 1) – 4) supponiamo di avere un campione casuale estratto da una popolazione normale N (µ, σ 2 ). Nei punti 5) e 6) supponiamo di avere due campioni casuali estratti da due popolazioni normali N (µ1 , σ12 ) e N (µ2 , σ22 ); qui ovviamente X i e Si2 sono media e varianza del campione i-esimo. M. Di Marzio 123 Primi elementi di inferenza statistica (ed. maggio 2012) 17.4. Quantità pivotali nel caso di grandi campioni 1. La quantità pivotale X −µ √ σ/ n ha una pdf normale standard poichè X ha pdf N (µ, σ 2 /n) (sez. 12.6). 2. La quantità pivotale n ∑ (Xi − µ)2 σ2 i=1 ha distribuzione chi-quadrato con n gradi di libertà poiché somma di n vv.cc. normali standard elevate al quadrato. 3. La quantità pivotale n ∑ (Xi − X)2 σ2 i=1 ha distribuzione chi-quadrato con n − 1 gradi di libertà (sez. 12.8). 4. La quantità pivotale X −µ √ S/ n ha distribuzione t di Student con n − 1 gradi di libertà. Infatti / X −µ X −µ S √ = √ σ S/ n σ/ n dove il numeratore ha distribuzione normale standard e il denominatore è la radice quadrata del rapporto ∑n tra una v.c. chi-quadrato e i suoi gradi di libertà. Infatti i=1 (Xi − X)2 /σ 2 è una v.c. chi-quadrato con n − 1 gradi di libertà. 5. La quantità pivotale X 1 − X 2 − (µ1 − µ2 ) √ σ12 /n1 + σ22 /n2 ha distribuzione normale standard poiché la v.c. X 1 − X 2 ha distribuzione N (µ1 − µ2 , σ12 /n1 + σ22 /n2 ) per il teorema sulla somma di vv.cc. normali (sez. 11.4). 6. Se estraiamo i due campioni da distribuzioni normali con varianze uguali, allora la quantità pivotale √ (X 1 − X 2 ) − (µ1 − µ2 ) (n1 − 1)S12 + (n2 − 1)S22 √ con Sp = n1 + n2 − 2 Sp (1/n1 + 1/n2 ) si distribuisce come una t di Student con n1 + n2 − 2 gradi di libertà per motivi analoghi a quelli visti nel punto 2. 17.4 Quantità pivotali nel caso di grandi campioni Data una qualunque popolazione, il TCL assicura che, se il campione è casuale e grande (n > 30), le pdf di media e proporzione campionaria tendono alla normale. Così, ad esempio, le quantità pivotali dei punti 1 e 5 della sezione precedente sono ancora approssimativamente valide se la popolazione non è normale ma il campione è grande. Il TLC ci aiuta a stabilire quantità pivotali nell’importantissimo caso di popolazione bernoulliana. Infatti, se la popolazione è bernoulliana, per il TLC la proporzione campionaria P tende a distribuirsi come una normale con media π e varianza π(1 − π)/n . Ne conseguono le seguenti quantità pivotali per grandi campioni estratti da popolazioni bernoulliane. 1. La quantità pivotale P −π √ P (1 − P )/n ha pdf approssimativamente N (0, 1). Primi elementi di inferenza statistica (ed. maggio 2012) 124 M. Di Marzio 17. STIMA PER INTERVALLI 2. La quantità pivotale P −π √ π(1 − π)/n ha pdf approssimativamente N (0, 1). 3. Nel caso di due popolazioni bernoulliane, la quantità pivotale (P1 − P2 ) − (π1 − π2 ) SP1 −P2 √ con SP1 −P2 = P1 (1 − P1 )/n1 + P2 (1 − P2 )/n2 ha pdf approssimativamente N (0, 1) perché si tratta di una somma standardizzata di due vv.cc. che hanno distribuzione asintotica normale. 17.5 Costruzione di stimatori per intervalli Ricordiamo anzitutto il problema della stima intervallare: dato un campione casuale X1 , X2 , ..., Xn estratto da una popolazione appartenente alla famiglia parametrica {fX (·; θ); θ ∈ Θ ⊂ Rk }, vogliamo un intervallo di confidenza per il parametro incognito θ. A tal riguardo immaginiamo di disporre di una quantità pivotale T = τ (X1 , X2 , ..., Xn , θ). Il punto fondamentale è che T ha pdf nota, così, una volta stabilito α, possiamo sempre trovare due suoi valori t1 e t2 per cui P(t1 < τ (X1 , X2 , ..., Xn , θ) < t2 ) = 1 − α. Se per ogni realizzazione x1 , x2 , ..., xn nella disuguaglianza t1 < τ (X1 , X2 , ..., Xn , θ) < t2 è possibile isolare θ per ottenere θ ∈ ι(x1 , x2 , ..., xn , t1 , t2 ) (procedimento di inversione) allora si potrà scrivere: P(t1 < τ (X1 , X2 , ..., Xn , θ) < t2 ) = P(θ ∈ ι(x1 , x2 , ..., xn , t1 , t2 )) = 1 − α. Ricordando la definizione di intervallo di confidenza, si evince che l’intervallo casuale Iθ = ι(X1 , X2 , ..., Xn , t1 , t2 ) è un intervallo di confidenza per θ allo (1 − α)100%. Quindi una volta osservata la realizzazione x1 , x2 , ..., xn si ottiene la stima intervallare iθ = ι(x1 , x2 , ..., xn , t1 , t2 ) che ha un livello di confidenza del 100( 1 − α)%. Nelle prossime sezioni applicheremo il metodo della quantità pivotale per ottenere intervalli di confidenza di vari parametri e popolazioni. In ogni caso si ipotizzerà la disponibilità di un campione casuale X1 , X2 , ..., Xn e di un prefissato valore di α. Ovviamente gli stimatori saranno costituiti dagli intervalli contenuti nei secondi membri delle equazioni che descrivono l’inversione. 17.6 Intervalli di confidenza per la media 1. Se X ha distribuzione N (µ, σ 2 ) e σ 2 è noto, per la stima intervallare della media si ricorre alla quantità X −µ √ . Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte come pivotale Z = σ/ n segue ( ) ( ) X −µ σ σ √ < zα/2 = P X − zα/2 √ < µ < X + zα/2 √ P −zα/2 < =1−α σ/ n n n ottenendo lo stimatore intervallare per la media quando la varianza è nota. ( ) 2. Se X ha distribuzione N µ, σ 2 e σ 2 non è noto, per la stima intervallare della media si ricorre al( ) X −µ √ . Si trova tα/2,n−1 tale che P −tα/2,n−1 < T < tα/2,n−1 = 1 − α. la quantità pivotale T = S/ n Dopodiché si inverte: ) ( ) ( S S X −µ √ < tα/2,n−1 = P X − tα/2,n−1 √ < µ < X + tα/2,n−1 √ =1−α P −tα/2,n−1 < S/ n n n ottenendo lo stimatore intervallare per la media quando la varianza non è nota. M. Di Marzio 125 Primi elementi di inferenza statistica (ed. maggio 2012) 17.7. Numerosità campionaria per la stima della media 3. Se rileviamo due caratteri indipendenti X1 e X2 , e inoltre il carattere X1 ha distribuzione N (µ1 , σ12 ) e X2 ha distribuzione N (µ2 , σ22 ), e entrambe le varianze σ12 e σ22 sono note, usiamo la quantità pivotale X 1 − X 2 − (µ1 − µ2 ) Z= √ 2 . Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte σ1 /n1 + σ22 /n2 come segue ) (X 1 − X 2 ) − (µ1 − µ2 ) √ P zα/2 < < zα/2 = σ12 /n1 + σ22 /n2 ) ( √ √ ) ) ( ( 2 2 2 2 P X 1 − X 2 − zα/2 σ1 /n1 + σ2 /n2 < µ1 − µ2 < X 1 − X 2 + zα/2 σ1 /n1 + σ2 /n2 = 1 − α. ( ottenendo lo stimatore intervallare per la differenza tra medie con varianze note. 4. Se rileviamo due caratteri indipendenti X1 e X2 , e inoltre se X1 ha distribuzione N (µ1 , σ 2 ) e X2 ha distribuzione N (µ2 , σ 2 ) e quindi le varianze sono uguali, ricorriamo alla quantità pivotale T = ( ) (X 1 − X 2 ) − (µ1 − µ2 ) √ . Si trova tα/2,n1 +n2 −2 tale che P −tα/2,n1 +n2 −2 < T < tα/2,n1 +n2 −2 = 1 − α. Sp (1/n1 + 1/n2 ) Dopodiché si inverte: ( P −tα/2,n1 +n2 −2 (X 1 − X 2 ) − (µ1 − µ2 ) √ < < tα/2,n1 +n2 −2 Sp 1/n1 + 1/n2 ) = √ √ ( ) 1 1 1 1 = P (X 1 − X 2 ) − tα/2,n1 +n2 −2 Sp + < µ1 − µ2 < (X 1 − X 2 ) + tα/2,n1 +n2 −2 Sp + =1−α n1 n2 n1 n2 ottenendo lo stimatore intervallare della differenza tra due medie quando le varianze sono uguali ma incognite. Si noti infine, che, nel caso di grandi campioni, cioè se n > 30, tutte le quantità pivotali di questa sezione hanno distribuzione asintotica normale standard per il TCL, indipendentemente dalla popolazione generatrice. Di conseguenza l’inversione basata sulla normale standard appare teoricamente giustificata anche senza ipotesi di normalità della famiglia parametrica, basta solo che il campione sia grande e casuale. 17.7 Numerosità campionaria per la stima della media Prima di estrarre il campione ci si può chiedere qual è la numerosità n ottimale per la stima intervallare di µ. Infatti osservare campioni più numerosi è più costoso, ma rende le stime più precise. Così è naturale che la scelta di n dipenda dalla precisione desiderata. Come misura della precisione desiderata si considera la semiampiezza dell’intervallo, detta errore campionario e indicata con Err. Se σ è noto, l’errore campionario è indipendente dal campione, quindi non è una v.c., e può essere conosciuto prima della estrazione del campione. Infatti σ Err = zα/2 √ . n √ Allora si ragiona nel modo seguente. Poiché Err = zα/2 σ/ n, elevando al quadrato entrambi i membri dell’equazione si ottiene: 2 zα/2 σ2 Err2 = n e risolvendo rispetto ad n: n= (z α/2 σ Err )2 . Di conseguenza, una volta scelta la precisione desiderata Err, l’ultima equazione fornisce l’ampiezza campionaria n che la genera. Se σ 2 non è noto, l’ampiezza dell’intervallo non può essere conosciuta prima dell’osservazione del campione √ poiché dipende da esso. Infatti in questo caso Err = zα/2 s/ n ed è funzione di una realizzazione della v.c. S. Così, se non si conosce σ, l’ampiezza non può essere predeterminata con esattezza. Primi elementi di inferenza statistica (ed. maggio 2012) 126 M. Di Marzio 17. STIMA PER INTERVALLI 17.8 Intervalli di confidenza per la proporzione La proporzione π può essere stimata in maniera semplice solo nel caso di grandi campioni come segue. 1. Se X ha distribuzione bernoulliana π x (1 − π)1−x con x ∈ {0, 1}, e il campione è grande, la quantità P −π pivotale utile è Z = √ . Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché P (1 − P )/n si inverte come segue ( ) P −π P −zα/2 < √ < zα/2 = P (1 − P )/n ( ) √ √ = P P − zα/2 P (1 − P )/n < π < P + zα/2 P (1 − P )/n = 1 − α. che porta allo stimatore intervallare per la proporzione nel caso di grandi campioni. 2. Siano dati due caratteri bernoulliani indipendenti X1 e X2 , dove X1 ha distribuzione π1x1 (1 − π1 )1−x1 mentre X2 ha distribuzione π2x2 (1 − π2 )1−x2 con xi ∈ {0, 1} per i ∈ {1, 2}. Dati due campioni casuali indipendenti, tali che n1 + n2 > 30, usiamo la quantità pivotale Z = (P1 − P2 ) − (π1 − π2 ) . Si trova zα/2 tale che P(−zα/2 < Z < zα/2 ) = 1 − α. Dopodiché si inverte SP1 −P2 come segue ( ) (P1 − P2 ) − (π1 − π2 ) P −zα/2 < < zα/2 = SP1 −P2 ( ) = P (P1 − P2 ) − zα/2 SP1 −P2 < π1 − π2 < (P1 − P2 ) + zα/2 SP1 −P2 = 1 − α. ottenendo lo stimatore intervallare per la differenza tra proporzioni nel caso di grandi campioni. 17.9 Intervalli di confidenza per la varianza 1. Se X ∑ ha distribuzione N (µ, σ 2 ) e µ è noto, per la stima intervallare di σ 2 si ricorre alla quantità pivotale n U = i=1 (Xi − µ)2 /σ 2 . Si trovano le due quantità χ21−α/2,n e χ2α/2,n tali che che P(χ21−α/2,n < U < χ2α/2,n ) = 1 − α. Dopodiché si inverte come segue (∑ ) ∑n ∑n ( ) n 2 2 2 2 2 2 i=1 (Xi − µ) i=1 (Xi − µ) i=1 (Xi − µ) P χ1−α/2,n < <σ < =1−α < χα/2,n = P σ2 χ2α/2,n χ21−α/2,n ottenendo lo stimatore intervallare per la varianza quando la media è nota. 2. Se ci troviamo nella stessa ∑n situazione del punto precedente, ma la media non è nota, si ricorre alla quantità pivotale V = i=1 (Xi − X)2 /σ 2 . Si trovano le due quantità χ21−α/2,n−1 e χ2α/2,n−1 tali che che P(χ21−α/2,n−1 < V < χ2α/2,n−1 ) = 1 − α. Dopodiché si inverte come segue (∑ ) ∑n ∑n ( ) n 2 2 2 (X − X) (X − X) (X − X) i i i i=1 P χ21−α/2,n−1 < i=1 2 < χ2α/2,n−1 = P < σ 2 < i=1 = 1−α σ χ2α/2,n−1 χ21−α/2,n−1 ottenendo lo stimatore intervallare per la varianza quando la media non è nota. 17.10 Proprietà degli stimatori intervallari Finora si è trattato un solo metodo di costruzione di intervalli di confidenza, cioè il metodo della quantità pivotale. Esistono però altri metodi di costruzione che, in corrispondenza della stessa realizzazione campionaria, possono portare a stime differenti. Di conseguenza, esattamente come nella stima puntuale, occorre scegliere tra gli stimatori sulla base di qualche proprietà di accuratezza. Di seguito esponiamo unicamente la principale proprietà di accuratezza per stimatori intervallari, verificando che quasi tutti gli stimatori generati dal metodo della quantità pivotale considerati la posseggono. La stima per intervalli più precisa possibile è quella che, a parità di α, genera l’intervallo più stretto possibile. Infatti più è stretto l’intervallo, più riduciamo l’ignoranza sul parametro. Bisogna rimarcare che se due M. Di Marzio 127 Primi elementi di inferenza statistica (ed. maggio 2012) 17.10. Proprietà degli stimatori intervallari intervalli hanno ampiezza differente, ma il più ampio presenta un valore di α minore, non si può di regola giudicare quale sia il migliore. Infatti al più stretto è associato un livello di confidenza minore, cioè un rischio maggiore di non racchiudere il parametro incognito. Ovviamente, data una quantità pivotale T , si riduce l’ampiezza scegliendo le quantità t1 e t2 più vicine possibile nel rispetto del vincolo P(t1 < T < t2 ) = 1 − α. Infatti le coppie (t1 , t2 ) che soddisfano tale vincolo sono molte. Se fT (·; θ) è continua sono addirittura infinite. Quanto detto è formalmente descritto dal seguente problema di minimo vincolato (il vincolo è la seconda riga): min(t2 − t1 ) , t1 ,t2 con P(t1 < T < t2 ) = 1 − α ; tale problema ha una soluzione semplice nel caso fT (·; θ) sia simmetrica e unimodale. Infatti una breve riflessione suggerisce che in tal caso l’intervallo più stretto è centrato sulla moda. Ma le quantità pivotali da noi utilizzate sono, a parte il caso della varianza, vv.cc. t di Student o normali, quindi hanno distribuzione simmetrica e con unica moda pari a zero. Ora si comprende perchè nei casi in cui la quantità pivotale T è normale o t di Student si è posto t1 = −tα/2 e t2 = tα/2 , cioè un intervallo centrato sullo zero. In definitiva gli stimatori intervallari che abbiamo ricavato sono ottimi ad eccezione di quelli per la varianza, basati su quantità pivotali con distribuzione chi-quadrato (non simmetriche). Esempio 17.3. Data una quantità pivotale Q, Sia fQ (·, θ) = N (0, 1) e 1 − α = 0.95. L’equazione P(q1 < Q < q2 ) = 0.95 è soddisfatta da infiniti intervalli, tra i quali troviamo: (q1 = −1.35, q2 = 5.22); (q1 = −1.68, q2 = 2.70); (q1 = −1.96, q2 = 1.96). Noi scegliamo (q1 = −1.96, q2 = 1.96), che, essendo centrato su 0, ha ampiezza minima. Primi elementi di inferenza statistica (ed. maggio 2012) 128 M. Di Marzio 18 Esercizi svolti Esercizio 18.1. Per ottimizzare i flussi di magazzino in entrata, un’azienda vuole verificare di tanto in tanto il livello medio dei tempi di consegna dei fornitori. Sulla base dell’esperienza pregressa si sa che il tempo X in giorni intercorrente tra l’invio degli ordini e la consegna ha distribuzione N (µ, 9). Si estrae un campione di n = 36 ordini e si osserva un tempo medio x̄ = 16. Determinare la stima intervallare per la media incognita µ al livello di confidenza del 95% . Soluzione Poiché X ∼ N (µ, σ 2 /n), e σ 2 è noto, la quantità pivotale utilizzata per la costruzione dell’intervallo di confidenza per µ è X −µ √ , Z= σ/ n che ha pdf N (0, 1). Partendo dalla relazione { } P −zα/2 ≤ Z ≤ zα/2 = 1 − α, e applicando il procedimento di inversione, si ottiene l’intervallo casuale al livello del (1 − α)% { } σ σ Iµ = X − zα/2 √ , X + zα/2 √ . n n Essendo 1 − α = 0.95 e, quindi, α = 0.05, dalle tavole della normale standardizzata si ricavano i valori delle soglie ±zα/2 = ±z0.025 = ±1.96. Quindi, sostituendo alla v.c. X la sua realizzazione x̄ = 16 e sapendo che √ √ σ/ n = 3/ 36, la stima intervallare al livello del 95% per µ risulta } { 3 3 = {15.02, 16.98} . iµ = 16 − 1.96 √ , 16 + 1.96 √ 36 36 Esercizio 18.2. In una multinazionale di abbigliamento, la programmazione e il controllo dell’attività di approvvigionamento richiede il continuo monitoraggio del numero dei capi venduti X. Si ha ragione di ritenere che X si distribuisce normalmente con media µ e varianza σ 2 incognite. Si estrae un campione casuale di n = 9 negozi e si osserva un numero medio di capi venduti x̄ = 200 e uno scarto quadratico medio s = 12.72. Costruire l’intervallo di confidenza per il numero medio µ di capi venduti nella settimana dalla catena di negozi, al livello del 98%. Soluzione Poiché la varianza della popolazione non è nota ed il campione osservato è un piccolo campione (n < 30), per la costruzione dell’intervallo di confidenza si ricorre alla quantità pivotale T= X −µ √ s/ n che ha distribuzione t di Student con n − 1 gradi di libertà. Pertanto, partendo dalla relazione P(−tα/2,n−1 < T < tα/2,n−1 ), e applicando il procedimento di inversione, la stima intervallare al livello (1 − α)% per µ avrà forma } { s s . iµ = x − tα/2,n−1 √ , x + tα/2,n−1 √ n n M. Di Marzio 129 Primi elementi di inferenza statistica (ed. maggio 2012) Sostituendo allora le informazioni a disposizione e ricavando dalle tavole della t di Student i valori ±tα/2,n−1 = ±t0.01,8 = ±2.896, si ottiene { } 12.72 12.72 iµ = 200 − 2.896 √ , 200 + 2.896 √ = {187.721, 212.279}. 9 9 Esercizio 18.3. In una grande azienda si vuole verificare se le risorse finanziarie accantonate per il pagamento degli straordinari hanno bisogno di essere ridimensionate per il prossimo futuro. Il numero di ore mensili di straordinario effettuate dai dipendenti si distribuisce normalmente con media µ e varianza σ 2 incognite. Si estrae un campione casuale di n = 81 dipendenti e si osserva un numero medio di ore mensili di straordinario x̄ = 24 ed uno scarto quadratico medio s = 5.96. Costruire l’intervallo di confidenza al livello del 99% per la media incognita µ della popolazione generatrice. Soluzione Pur essendo la varianza della popolazione non nota, poiché il campione osservato è un campione grande (n > 30), per la costruzione dell’intervallo di confidenza si ricorre alla quantità pivotale Z= X −µ √ . s/ n La stima intervallare per la media incognita µ al livello di confidenza (1 − α)% ha allora forma { } s s iµ = x̄ − zα/2 √ , x̄ + zα/2 √ , n n e sostituendo le informazioni a disposizione e ricavando dalle apposite tavole i valori ±zα/2 = ±z0.005 = ±2.575 si ottiene { } 5.96 5.96 iµ = 24 − 2.575 √ , 24 + 2.575 √ = {22.29, 25.71} . 81 81 Esercizio 18.4. Si vuole misurare lo scarto di efficienza esistente tra due linee di produzione che realizzano il medesimo prodotto. I tempi X1 e X2 rispettivamente impiegati dalle due linee di produzione si distribuiscono normalmente con medie µ1 e µ2 e varianze σ12 = 9 e σ22 = 16. Da n1 = 81 osservazioni di X1 è stato rilevato un tempo medio x̄1 = 24, mentre da n2 = 100 osservazioni di X2 è stato rilevato un tempo medio x̄2 = 20. Determinare la stima intervallare per la differenza tra le medie µ1 e µ2 dei tempi impiegati dalle due linee di produzione, al livello 1 − α = 0.95. ) ( Soluzione Poiché (X 1 − X 2 ) ∼ N µ1 − µ2 ; σ12 /n1 + σ22 /n2 , la quantità pivotale utilizzata per costruire l’intervallo di confidenza al livello (1 − α)% per µ1 − µ2 è Z= (X 1 − X 2 ) − (µ1 − µ2 ) √ . σ12 /n1 + σ22 /n2 Applicando allora il procedimento di inversione, a partire da { } P −zα/2 ≤ Z ≤ zα/2 = 1 − α si ottiene, la stima intervallare al livello (1 − α)% di forma { } √ √ 2 2 2 2 iµ1 −µ2 = (x̄1 − x̄2 ) − zα/2 σ1 /n1 + σ2 /n2 , (x̄ − x̄2 ) + zα/2 σ1 /n1 + σ2 /n2 . √ √ Essendo x̄ − x̄2 = 24 − 20 = 4, σ12 /n1 + σ22 /n2 = 9/81 + 16/100 = 0.52 e ricavando dalle apposite tavole i valori ±zα/2 = ±z0.025 = ±1.96, si ottiene allora la stima intervallare iµ1 −µ2 = {4 − 1.96 × 0.52, 4 + 1.96 × 0.52} = {2.98, 5.02} . Esercizio 18.5. I tempi X1 e X2 impiegati per la manutenzione dei macchinari in due aziende A e B si distribuiscono normalmente con medie µ1 e µ2 e varianze incognite ma uguali σ12 = σ22 . Per un campione casuale di n1 = 4 macchinari dell’azienda A si è registrato un tempo medio di manutenzione x̄ = 16 e una varianza s21 = 2, mentre per un campione casuale di n2 = 6 macchinari dell’azienda B si è registrato un tempo medio x̄2 = 10 e una varianza s22 = 3. Costruire l’intervallo di confidenza al livello del 98% per la differenza. Primi elementi di inferenza statistica (ed. maggio 2012) 130 M. Di Marzio 18. ESERCIZI SVOLTI Soluzione Poiché la numerosità campionaria (che nel caso di due campioni è dato dalla somma delle numerosità) n = n1 + n2 = 10 è piccola e le varianze σ12 = σ22 = σ 2 non note, la stima intervallare al livello (1 − α)% per la differenza µ1 − µ2 assume la forma { } √ √ iµ1 −µ2 = (x̄ − x̄2 ) − tα/2,n1 +n2 −2 sp 1/n1 + 1/n2 , (x̄ − x̄2 ) + tα/2,n1 +n2 −2 sp 1/n1 + 1/n2 √ dove sp = ((n1 − 1) s21 + (n2 − 1) s22 ) / (n1 + n2 − 2) = √ (3 · 2 + 5 · 3) / (4 + 6 − 2) = 1.62 è la stima della varianza incognita delle due popolazioni. Pertanto, essendo x̄ − x̄2 = 16 − 10 = 6 e ricavando dalle tavole della t di Student, in corrispondenza di α/2 = 0.01 e di n1 + n2 − 2 = 8 gradi di libertà, i valori delle soglie ±tα/2,n1 +n2 −2 = ±t0.01,8 = ±2.896 risulta { } √ √ iµ1 −µ2 = 6 − 2.896 × 1.62 1/4 + 1/6, 6 + 2.896 × 1.62 1/4 + 1/6 = {2.9716, 9.0284} . Esercizio 18.6. In una ispezione di qualità si confrontano i bulloni prodotti dalle aziende A e B. In un campione casuale di n1 = 200 bulloni estratto dalla produzione dell’azienda A si è rilevato un diametro medio x̄1 = 4 cm e una varianza s21 = 0.56, mentre in un campione casuale di n2 = 180 bulloni estratto dalla produzione dell’azienda B si è rilevato un diametro medio x̄2 = 2 cm e una varianza s22 = 0.6. Supponendo che i diametri dei bulloni prodotti dalle due aziende in questione si distribuiscano normalmente con medie µ1 e µ2 e varianze σ12 = σ22 = σ 2 incognite, costruire l’intervallo di confidenza al livello del 95% per la differenza µ1 − µ2 tra i diametri medi dei bulloni prodotti dalle due aziende. Soluzione Poiché n = n1 + n2 = 380 è sufficientemente grande, pur non essendo nota la varianza delle popolazioni di origine dei campioni, la stima intervallare al livello di confidenza (1 − α)% per la differenza µ1 − µ2 assume la forma } { √ √ iµ1 −µ2 = (x̄1 − x̄2 ) − zα/2 sp (1/n1 + 1/n2 ), (x̄1 − x̄2 ) + zα/2 sp (1/n1 + 1/n2 ) √ dove sp = (n1 − 1)s21 + (n2 − 1) s22 = n1 + n2 − 2 √ 199 × 0.56 + 179 × 0.6 = 0.76 200 + 180 − 2 è la stima della varianza incognita delle due popolazioni. Pertanto, essendo x̄ − x̄2 = 4 − 2 = 2 ed essendo le soglie ±zα/2 = ±z0.025 = ±1.96, la stima intervallare al livello di confidenza del 95% per la differenza µ1 − µ2 è { } √ √ iµ1 −µ2 = 2 − 1.96 × 0.76 (1/200 + 1/180), 2 + 1.96 × 0.76 (1/200 + 1/180) = {1.85, 2.15} . Esercizio 18.7. In un campione casuale di n = 1000 prodotti venduti da un’azienda nell’ultimo anno, 200 risultano venduti a clienti esteri. Costruire un intervallo di confidenza al livello del 95% per la proporzione π dei prodotti esportati dall’ azienda nell’ultimo anno. Soluzione Essendo elevata la numerosità del campione, la quantità pivotale utilizzata per la costruzione dell’intervallo di confidenza al livello (1 − α)% per la proporzione π è P −π Z=√ , P (1 − P ) /n che ha pdf approssimativamente N (0, 1). Applicando il procedimento di inversione a partire da { } P −zα/2 ≤ Z ≤ zα/2 = 1 − α, l’intervallo di confidenza al livello (1 − α)% per π è dato da √ √ Iπ = {P − zα/2 P (1 − P )/n, P + zα/2 P (1 − P )/n}. Poichè la realizzazione campionaria di P è pari a 200/1000 = 0.2, trovando sulle tavole i valori delle soglie ±zα/2 = ±z0.025 = ±1.96 si ottiene la stima intervallare √ √ iπ = {0.2 − 1.96 (0.2 × 0.8)/1000, 0.2 + 1.96 (0.2 × 0.8)/1000} = {0.18, 0.22}. M. Di Marzio 131 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 18.8. Un’azienda ha avviato due differenti processi produttivi per la realizzazione di uno stesso prodotto e vuole verificare quale sia il più efficiente. Estraendo un campione casuale di n1 = 100 pezzi prodotti utilizzando il primo processo ed un campione casuale di n2 = 100 pezzi prodotti utilizzando il secondo processo si sono rilevati, rispettivamente, rispettivamente 40 e 20 di pezzi difettosi. Costruire l’intervallo di confidenza al livello del 98% per la differenza π1 − π2 tra le percentuali di pezzi difettosi prodotti attraverso i due processi. Soluzione Poiché i campioni presentano una numerosità sufficientemente grande, la quantità pivotale utilizzata per costruire l’intervallo di confidenza per π1 − π2 è (P1 − P2 ) − (π1 − π2 ) Z=√ , P1 (1 − P1 )/n1 + P2 (1 − P2 )/n2 che ha approssimativamente pdf N (0, 1). Allora, a partire da { } P −zα/2 ≤ Z ≤ zα/2 = 1 − α, l’intervallo di confidenza al livello (1 − α)% per π1 − π2 è dato da √ √ P1 (1 − P1 ) P2 (1 − P2 ) P1 (1 − P1 ) P2 (1 − P2 ) Iπ1 −π2 = (P1 − P2 ) − zα/2 + , (P1 − P2 ) + zα/2 + . n1 n2 n1 n2 Pertanto, poichè le realizzazioni campionarie di P1 e P2 risultano rispettivamente 40/100 = 0.4 e 20/100 = 0.2, individuati sulle tavole i valori delle soglie ±zα/2 = ±z0.01 = ±2.33, la stima intervallare al livello del 98% è data da { } √ √ 0.4 × 0.6 + 0.2 × 0.8 0.4 × 0.6 + 0.2 × 0.8 iπ1 −π2 = (0.4 − 0.2) − 2.33 , (0.4 − 0.2) + 2.33 100 100 = {0.05, 0.35} . Esercizio 18.9. Nell’ambito della programmazione di una ricerca di mercato, un’azienda intende stimare il numero medio µ, in giorni, necessario alla realizzazione delle campagne pubblicitarie per il lancio dei suoi prodotti. Da indagini passate, è risultato che questi tempi si distribuiscono normalmente con s.q.m. σ = 6 giorni. Determinare quale deve essere la numerosità n del campione di misurazioni dei tempi di realizzazione per ottenere un intervallo di confidenza al livello del 95% che possa dare una precisione di Err = 4 giorni. √ Soluzione Il margine di errore della stima di µ che si è disposti a tollerare è Err = zα/2 σ/ n. Elevando al quadrato entrambi i membri dell’equazione si ottiene Err2 = e risolvendo rispetto ad n ( n= 2 zα/2 × σ2 n zα/2 × σ Err )2 . Poiché 1−α = 0.95, α = 0.05 e α/2 = 0.025 risulta zα/2 = 1.96. Sostituendo nell’equazione σ = 6, zα/2 = 1.96 ed Err = 4, risulta )2 ( 1.96 × 6 n= = 8.6436, 4 arrotondando per eccesso il valore ottenuto all’intero più vicino, risulta dunque che la numerosità campionaria necessaria è n = 9. Esercizio 18.10. Un’industria che produce lamiere metalliche ha ricevuto un ordine di acquisto di un grosso quantitativo di lamiere di un dato spessore. Per assicurare la qualità della propria fornitura, l’azienda vuole tenere sotto controllo la propria produzione. Assumendo che lo spessore X delle lamiere prodotte ha distribuzione normale con media µ = 3 cm, e avendo osservato un campione di lamiere per le quali gli spessori sono risultati essere x1 = 2.88, x2 = 2.93 e x3 = 2.98 determinare la stima intervallare al livello del 95% per la varianza incognita σ 2 dello spessore. Primi elementi di inferenza statistica (ed. maggio 2012) 132 M. Di Marzio 18. ESERCIZI SVOLTI Soluzione Poiché X ha distribuzione normale con media µ nota, ed la numerosità del campione è n < 30, la quantità pivotale da utilizzare per costruire l’intervallo di confidenza per σ 2 è ∑n (Xi − µ)2 U = i=1 2 , σ che ha distribuzione chi-quadrato con n gradi di libertà. Partendo allora dalla relazione P(χ21−α/2,n < U < χ2α/2,n ) = 1 − α, utilizzando il procedimento di inversione, l’intervallo di confidenza al livello (1 − α)% per σ 2 risulta {∑ } ∑n n 2 2 i=1 (Xi − µ) i=1 (Xi − µ) , Iσ2 = . χ2α/2,n χ21−α/2,n Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n = χ20.025,3 = 9.35 e χ21−α/2,n = χ21−0.025,3 = 0.22, ed avendo osservato la realizzazione x1 = 2.88, x2 = 2.93, x3 = 2.98, la stima intervallare al livello del 95% per σ 2 risulta } { (2.88 − 3)2 + (2.93 − 3)2 + (2.98 − 3)2 (2.88 − 3)2 + (2.93 − 3)2 + (2.98 − 3)2 iσ2 = , 9.35 0.22 = {0.0021, 0.0895}. Esercizio 18.11. Si vuole verificare se la quantità X di una sostanza inquinante emessa dalle marmitte prodotte da un’azienda sono contenute entro limiti prestabiliti. A tal fine, si estrae un campione di n = 3 marmitte dalla produzione settimanale dell’azienda e attraverso prove su strada si rilevano le seguenti quantità (in mg per Km) della sostanza nociva rilasciate: x1 = 895, x2 = 902, x3 = 894. Sapendo che la quantità emessa della sostanza in esame ha distribuzione normale di parametri µ e σ 2 incogniti, determinare la stima intervallare di σ 2 al livello di confidenza del 99%. Soluzione Poiché X ha distribuzione normale con media µ incognita, e la numerosità del campione è n < 30, la quantità pivotale da utilizzare per costruire l’intervallo di confidenza per σ 2 è ∑n (Xi − X)2 V = i=1 2 , σ che ha distribuzione chi-quadrato con n − 1 gradi di libertà. Partendo allora dalla relazione P(χ21−α/2,n−1 < V < χ2α/2,n−1 ) = 1 − α, utilizzando il procedimento di inversione, l’intervallo di confidenza al livello (1 − α)% per σ 2 risulta {∑ } ∑n n 2 2 i=1 (Xi − X) i=1 (Xi − X) Iσ2 = , . χ2α/2,n−1 χ21−α/2,n−1 Dalle tavole della distribuzione chi-quadrato si ricavano i valori χ2α/2,n−1 = χ20.005,2 = 10.6 e χ21−α/2,n−1 = χ21−0.005,2 = 0.01, ed essendo ∑3 xi 895 + 902 + 894 = = 897, x = i=1 3 3 la stima intervallare al livello del 99% per σ 2 risulta { } (895 − 897)2 + (902 − 897)2 + (894 − 897)2 (895 − 897)2 + (902 − 897)2 + (894 − 897)2 iσ 2 = , 10.6 0.01 = {3.58, 3008}. M. Di Marzio 133 Primi elementi di inferenza statistica (ed. maggio 2012) 19 Verifica d’ipotesi Indice 19.1 Ipotesi statistiche . . . . . . . . . . . . . . . . . . . 19.2 Il test statistico . . . . . . . . . . . . . . . . . . . . 19.3 Accuratezza del test statistico . . . . . . . . . . . . 19.4 Costruzione del test statistico . . . . . . . . . . . . 19.5 Verifica d’ipotesi sulla media . . . . . . . . . . . . 19.6 Verifica di ipotesi sulla differenza tra medie . . . 19.7 Verifica di ipotesi nel caso di grandi campioni . . 19.8 Verifica d’ipotesi sulla proporzione . . . . . . . . . 19.9 Verifica d’ipotesi sulla differenza tra proporzioni 19.10Verifica di ipotesi sulla varianza . . . . . . . . . . . 19.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 135 137 139 141 142 143 143 144 144 Ipotesi statistiche L’inferenza statistica, finora espressa in termini di stima, può anche essere condotta esaminando la compatibilità tra un’ipotesi sul valore del parametro e i dati campionari. Il risultato di tale procedura consiste nella decisione di (non) rigetto dell’ipotesi accompagnata dalla probabilità di aver commesso un errore. Esempio 19.1. Prima dell’acquisto di una fornitura risulta consigliabile prelevare un campione di merce e verificare, sulla base dell’evidenza empirica, se quanto affermato dal fornitore è supportato dai fatti. In particolare vengono formulate due ipotesi su una caratteristica quantitativa della merce, una racchiude la specificazione numerica asserita dal fornitore, l’altra specificazioni numeriche alternative. Sulla base del campione osservato si deve decidere se scartare la prima. In termini formali, la verifica di ipotesi statistiche può essere descritta come segue. Sia X un carattere quantitativo, immaginiamo di voler acquisire informazioni su fX (·; θ). Sappiamo che fX (·; θ) appartiene alla famiglia parametrica {fX (·; θ); θ ∈ Θ ⊂ Rk }, ma non conosciamo il valore del parametro θ. Al solito possiamo osservare un campione casuale X1 , X2 , ..., Xn . Tale modello statistico, usuale per la stima, nel caso di verifica di ipotesi prevede di un elemento aggiuntivo. Infatti si suppone anche che lo spazio parametrico Θ è bipartito negli insiemi non vuoti Θ0 e Θ1 tali che Θ0 ∪ Θ1 = Θ e Θ0 ∩ Θ1 = ∅. Si deve stabilire, sulla base di una realizzazione campionaria, se scartare l’affermazione θ ∈ Θ0 . La notazione { H0 : θ ∈ Θ 0 H1 : θ ∈ Θ 1 , rappresenta il sistema di ipotesi da sottoporre a verifica. L’affermazione H0 è detta ipotesi nulla, mentre l’affermazione H1 è detta ipotesi alternativa. Normalmente l’ipotesi nulla racchiude lo status quo ante, così se essa non verrà rigettata la situazione pratica sottostante resterà immutata, mentre in caso contrario ci saranno cambiamenti. Con riferimento all’esempio 19.1, l’affermazione del fornitore costituisce l’ipotesi Primi elementi di inferenza statistica (ed. maggio 2012) 134 M. Di Marzio 19. VERIFICA D’IPOTESI nulla, così se quest’ultima non verrà scartata continueremo a rivolgerci allo stesso fornitore, mentre in caso contrario lo sostituiremo. Un’ipotesi si definisce semplice se esprime un singolo valore del parametro θ, e quindi se specifica completamente la pdf fX (·; θ), altrimenti si dice composta. Esempio 19.2. Si consideri il campione casuale estratto dalla pdf fX (·; θ). Il sistema d’ipotesi H0 : θ = 5 H : θ ̸= 5, 1 contrappone un’ipotesi nulla semplice ad un’ipotesi alternativa composta. Un’ipotesi composta Hi , i ∈ {0, 1} si definisce ⋄ bidirezionale se ha espressione Hi : θ ̸= k, con k ∈ Θ; ⋄ unidirezionale se ha espressione Hi : θ > k (oppure Hi : θ < k), con k ∈ Θ. 19.2 Il test statistico Lo statistico, di fronte a una prestabilita bipartizione {Θ0 , Θ1 }, ha il compito di formulare una regola o test che, sulla base dei dati campionari, permette di decidere se θ ∈ Θ0 . In particolare si definisce test statistico una funzione Γ che associa ad ogni realizzazione campionaria la decisione di non rigettare (A) oppure la decisione di rigettare (R) l’ipotesi nulla: Γ : X → {A, R}. Si noti che Γ non è una funzione reale poichè assume valori in uno spazio decisionale. A volte useremo l’espressione accettare H0 , ma in realtà questo non sarebbe corretto. Infatti l’evidenza empirica può non essere sufficiente per scartare H0 , oppure essere sufficiente per scartarla, mai per accettare H0 o H1 . L’insieme A delle realizzazioni campionarie che portano ad accettare H0 , cioè A = {x1 , x2 , .., xn : Γ(x1 , x2 , .., xn ) = A} è detto regione di accettazione, mentre l’insieme R delle realizzazioni campionarie che portano a rifiutare H0 , cioè R = {x1 , x2 , .., xn : Γ(x1 , x2 , .., xn ) = R} è detto regione di rifiuto. Ovviamente A e R formano una bipartizione di X, cioè: A∪R=X e A ∩ R = ∅. Così una qualsiasi bipartizione di X del tipo {A, R} identifica un test statistico, per cui le espressioni test e bipartizione di X sono interscambiabili. Normalmente ogni realizzazione campionaria è in una certa misura compatibile sia con il caso θ ∈ Θ0 sia con il caso θ ∈ Θ1 , di conseguenza non si può mai scartare una ipotesi senza rischio di sbagliarsi. Esempio 19.3. Sia X1 , X2 un campione casuale estratto da una popolazione presso la quale il carattere X ha distribuzione uniforme nell’intervallo [0, θ]. Lo spazio parametrico è ovviamente Θ = R+ . Si vuole verificare il seguente sistema di ipotesi H0 : θ ≤ 3 H : θ > 3. 1 La realizzazione (5, 6) è compatibile esclusivamente con H1 ; essa conduce pertanto a rifiutare H0 senza rischio di errore. La realizzazione (1, 2) risulta invece compatibile con entrambe le ipotesi del sistema e quindi non conduce a scartare (accettare) H0 senza possibilità di errore 1 . In particolare è possibile rifiutare l’ipotesi nulla H0 quando questa è vera. L’errore così definito è detto errore di I tipo e la probabilità del suo verificarsi è indicata con α(θ), ossia α(θ) = P(x1 , x2 , ..., xn ∈ R|θ ∈ Θ0 ) ∫ ∫ ∏ n = ··· fX (xi ; θ)dx1 dx2 , ..., dxn R con θ ∈ Θ0 . i=1 1 Si noti che il caso della densità uniforme è uno dei pochi, come descritto nell’esempio 12.15, in cui lo spazio campionario X è determinato dal valore del parametro. M. Di Marzio 135 Primi elementi di inferenza statistica (ed. maggio 2012) 19.2. Il test statistico H0 vera H0 falsa Accetto H0 decisione corretta errore II tipo Rifiuto H0 errore I tipo decisione corretta Tabella 19.1: Possibili esiti della verifica di ipotesi. L’altro errore che può essere commesso è quello di accettare l’ipotesi nulla H0 quando questa è falsa; si parla di errore di II tipo e la probabilità del suo verificarsi è indicata con β(θ), ossia β(θ) = P(x1 , x2 , ..., xn ∈ A|θ ∈ Θ1 ) ∫ ∫ ∏ n fX (xi ; θ)dx1 dx2 , ..., dxn = ··· A con θ ∈ Θ1 . i=1 Nella tabella 19.1 sono schematizzati i possibili esiti della verifica di un sistema di ipotesi. Dalle formule precedenti emerge che le probabilità di errore sono funzione del parametro incognito θ. Poiché α(θ) è la probabilità di rifiutare H0 condizionatamente al fatto che H0 è vera, α(θ) ha come dominio Θ0 , mentre per l’analoga ragione β(θ) ha come dominio Θ1 . In formule α : Θ0 → [0, 1] , β : Θ1 → [0, 1] . Si definisce funzione di potenza del test la funzione ℘(θ) che per ogni θ fornisce la probabilità di rifiutare l’ipotesi nulla, in formule ℘(θ) = P(x1 , x2 , ..., xn ∈ R|θ ∈ Θ). Esempio 19.4. Sia X1 , X2 , ..., X5 un campione casuale estratto da una popolazione bernoulliana di parametro π incognito. In questo caso lo spazio parametrico è P = [0, 1]. Si vuole verificare il sistema d’ipotesi H0 : π ≤ 1/2 H : π > 1/2. 1 Consideriamo un test Γ1 che conduce al rifiuto di H0 se e solo se si osservano tutti esiti successo, ossia se X∑ i = 1 per ogni i = 1, 2, ..., 5, e un test Γ2 che conduce al rifiuto di H0 se si osservano 3, 4 o 5 esiti successo. Posto Y = 5i=1 Xi , allora Y ∼ B(π, 5), e le funzioni di potenza dei test Γ1 e Γ2 risultano rispettivamente ( ) 5 5 ℘1 (π) = P(Y = 5) = π (1 − π)0 = π 5 5 e ℘2 (π) = P(Y ∈ {3, 4, 5}) = ( ) ( ) ( ) 5 3 5 4 5 5 π (1 − π)2 + π (1 − π) + π (1 − π)0 3 4 5 esse sono illustrate nella figura 19.1. ℘2 1 0.8 0.6 0.4 ℘ 0.2 1 0 0.2 0.4 0.6 0.8 π1 Figura 19.1: Funzioni di potenza dei test Γ1 e Γ2 . Primi elementi di inferenza statistica (ed. maggio 2012) 136 M. Di Marzio 19. VERIFICA D’IPOTESI 0 ℘(θ) 1 ℘(θ) 1 Θ0 0.2 0.5 0.8 0 Θ 1 Θ1 0.2 Θ0 0.8 Θ1 Figura 19.2: Funzioni di potenza dei test dell’esempio 19.6. Esempio 19.5. Si estrae una singola osservazione X1 da una pdf N (µ, 1). Il sistema di ipotesi da saggiare è H0 : µ ≤ 0 H : µ > 0. 1 Si utilizza il test che non rigetta H0 se X1 ≤ 0. Qui lo spazio parametrico è ovviamente M = R. La funzione di potenza è ℘(µ) = P(X1 > 0) = P(X1 − µ > 0 − µ) = P(Z > −µ) = 1 − Φ(−µ) = Φ(µ). Così la funzione di potenza coincide con la funzione di ripartizione della pdf normale standard. Come si vedrà in seguito, alla funzione di potenza si ricorre per valutare l’accuratezza di un test, così come si ricorre al criterio dello EQM per valutare l’accuratezza di uno stimatore per punti. Ovviamente in Θ0 si ha che ℘(θ) = α(θ). Così, tramite la funzione di potenza, si definisce il livello di significatività α di un test come la massima probabilità di commettere l’errore di I tipo: α = sup ℘(θ). θ∈Θ0 19.3 Accuratezza del test statistico Si è visto che ogni possibile bipartizione di X del tipo {A, R} definisce un test statistico, così normalmente sono disponibili molti test per un dato problema. Nasce quindi l’esigenza di un criterio per scegliere il test migliore. Evidentemente un test potrà essere giudicato ottimale se rende piccole, nei limiti del possibile, le probabilità degli errori di I e di II tipo. In particolare sarebbe auspicabile una bipartizione di X tale che la funzione di potenza ℘(θ) sia: ⋄ la più alta possibile (idealmente uguale a 1) quando θ ∈ Θ1 , ⋄ la più bassa possibile (idealmente uguale a 0) quando θ ∈ Θ0 . Esempio 19.6. Nella parte sinistra della figura 19.2 è riportata la funzione di potenza ideale del test H0 : θ ∈ [0, 0.5] H : θ ∈ (0.5, 1], 1 mentre nella parte destra è riportata la funzione di potenza del test peggiore possibile per il sistema di ipotesi H0 : θ ∈ [0.2, 0.8] H : θ ∈ [0, 0.2) ∪ (0.8, 1]. 1 M. Di Marzio 137 Primi elementi di inferenza statistica (ed. maggio 2012) 19.3. Accuratezza del test statistico ℘(θ) 1 α Θ0 −7 Θ 1 Figura 19.3: Funzioni di potenza di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7. Ovviamente bipartizioni senza rischio, come quelle dell’esempio precedente, corrispondono al caso, per nulla realistico, in cui ogni realizzazione campionaria è compatibile con una sola delle ipotesi. Di conseguenza la realtà dei fatti impone α(θ) > 0, β(θ) > 0 ∀θ ∈ Θ ; inoltre, a ben vedere, le probabilità α(θ) e β(θ) non possono essere ridotte contemporaneamente. Se infatti volessimo ridurre α(θ) (rispettivamente β(θ)) per ogni θ ∈ Θ0 (risp. Θ1 ), allora dovremmo ridurre la regione R (risp. A) che è la regione di integrazione nella formulazione di α(θ) (risp. β(θ)): ma poiché R = X − A (risp. A = X − R), riducendo R (risp. A) si aumenta A (risp. R) e quindi il valore dell’integrale che definisce β(θ) (risp. α(θ))2 . Comunque da tale ragionamento si deduce che si può ottenere una bipartizione ottimale se spostando realizzazioni campionarie da A in R la probabilità di un errore scende più di quanto la probabilità dell’altro errore salga. In applicazione dei principi appena esposti, si sceglie, tra i test di un prestabilito livello α, quello che rende minima la probabilità β(θ) per ogni θ ∈ Θ1 . Un test siffatto viene chiamato uniformemente più potente di livello α. Formalmente diremo che nella classe di tutti i test con livello α fissato, adottati per verificare il sistema di ipotesi { H0 : θ ∈ Θ 0 H1 : θ ∈ Θ 1 , un test con funzione di potenza ℘∗ (θ) è uniformemente più potente se risulta ℘∗ (θ) ≥ ℘(θ), per ogni funzione di potenza ℘(θ) di ciascun altro test a livello α e per ogni θ ∈ Θ1 . Purtoppo come nei problemi di stima per punti in genere non sempre esiste tra più stimatori di un parametro θ quello che ha EQM minore per ogni valore θ ∈ Θ, egualmente non sempre esiste tra diversi test al livello α uno che possa vantare funzione di potenza maggiore per ogni valore θ ∈ Θ1 . Esempio 19.7. In figura 19.3 sono rappresentate le funzioni di potenza di due test utilizzabili per il sistema di ipotesi H0 : θ ≤ −7 H : θ > −7. 1 Essi hanno uguale livello di significatività, ma non ce n’è uno uniformemente più potente. Fissato il livello α, si adotta la seguente procedura di verosimiglianza per ottenere la bipartizione con potenza massima: la regione di rifiuto include tutte le realizzazioni campionarie aventi probabilità più alta sotto l’ipotesi alternativa. Come conseguenza la regione di accettazione include le realizzazioni campionarie meno probabili sotto l’ipotesi alternativa e quindi, per quel dato valore di α, sarà minimizzata la probabilità di commettere un errore di II tipo. Fin qui è stata discussa l’accuratezza per campioni di ampiezza fissa. Alla base dell’intera teoria esposta sta il fatto che, data una fissata ampiezza n, le probabilità di errore α e β non possono essere ridotte contestualmente. Comunque, come si è appreso per la stima, ci aspetteremmo che all’aumentare della numerosità campionaria l’accuratezza del test dovrebbe aumentare poiché l’informazione sul parametro aumenta. Questo è quello che infatti accade nella generalità dei casi. Infatti si osserva che al tendere di n all’infinito entrambe le probabilità α(θ) e β(θ) diminuiscono contestualmente, fino ad annullarsi entrambe. L’effetto in termini di funzione di potenza è che quest’ultima tende alla sua forma ideale. 2 Si osservi che questo ragionamento si basa sul fatto che le funzioni integrande sono non negative. Primi elementi di inferenza statistica (ed. maggio 2012) 138 M. Di Marzio VERIFICA D’IPOTESI ℘(µ) 19. 1 0.8 n=1 n=10 n=100 n=10000000 0.6 0.4 0.2 0 −3 −2 −1 0 1 2 µ 3 Figura 19.4: Funzioni di potenza del test dell’esempio 19.5 per varie numerosità campionarie. Esempio 19.8. Si consideri il test dell’esempio 19.5; nella figura 19.4 ne è riportata la funzione di potenza in corrispondenza di campioni di varia entità. Chiaramente per n molto grande la funzione di potenza assume la forma ideale, divenendo così quasi impossibile commettere errori di prima o seconda specie. 19.4 Costruzione del test statistico Consideratene le proprietà di accuratezza, presentiamo adesso un metodo di costruzione del test statistico. Da qui in avanti saranno presi in considerazione solo sistemi di ipotesi in cui l’ipotesi nulla è semplice, ossia H0 : θ = θ0 . In tal caso il livello di significatività è semplicemente α = α(θ0 ) = ℘(θ0 ). Un test statistico è specificato tramite la statistica test, cioè una statistica campionaria D = δ(Θ̂; θ0 ) che misura la discrepanza tra una stima θ̂ ed l’ipotesi nulla θ0 . L’uso della statistica test permette una forte semplificazione poichè realizza la riduzione delle regioni di punti n-dimensionali A e R in due regioni A e R di punti appartenenti all’asse reale. Inoltre, essendo una discrepanza, permette di applicare il principio di massimizzazione della potenza poichè a discrepanze maggiori corrispondono realizzazioni campionarie meno probabili sotto l’ipotesi nulla. Logicamente, se il valore della discrepanza cade in A, si ottiene l’accettazione, in caso contrario il rifiuto. Una quantità pivotale T = τ (X1 , X2 , ...Xn ; θ) (sez. 17.2) può trasformarsi in statistica test per la verifica di ipotesi semplici H0 : θ = θ0 se al parametro θ si sostituisce il valore θ0 . Esempio 19.9. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione bernoulliana con proporzione π e sia n > 30. Assumiamo di aver formulato un sistema di ipotesi in cui l’ipotesi nulla è H0 : π = π0 . La quantità Z= √ P − π0 π0 (1 − π0 )/n è una statistica test. Infatti misura la discrepanza tra P e π0 e per il TCL ha pdf N (0, 1), che è del tutto nota. Un test statistico è stato definito come una procedura che porta ad accettare o rifiutare H0 sulla base dei dati, con la logica che segue. Misurata la discrepanza d = δ(θ̂; θ0 ) tra la stima θ̂ e il valore del parametro sotto l’ipotesi nulla θ0 , si presentano due alternative: ⋄ se d è ‘bassa’, l’evidenza empirica supporta H0 ; ⋄ se d è ‘alta’, l’evidenza empirica non supporta H0 . Così, dato α, la regione di rifiuto R del test ottimale contiene tutti i valori più grandi della statistica test poichè questi sono i più rari sotto l’ipotesi nulla. Illustriamo la procedura di costruzione di regioni di rifiuto per i diversi sistemi di ipotesi che saranno presi in considerazione. Come detto, si includono nella regione di rifiuto il α100% dei casi più rari. ⋄ Ipotesi alternative unidirezionali Sia X1 , X2 , ..., Xn un campione casuale dalla pdf fX (·; θ) e sia D la statistica test utilizzata per sottoporre a verifica il seguente sistema di ipotesi { H0 : θ = θ0 H1 : θ > θ 0 . M. Di Marzio 139 Primi elementi di inferenza statistica (ed. maggio 2012) 19.4. Costruzione del test statistico La soglia che divide la regione di rifiuto dalla regione di accettazione è data dal valore d∗ tale che ∫ +∞ fD (d)dd = α. d∗ Quindi, indicato con d il valore della statistica test in corrispondenza della realizzazione campionaria osservata, l’ipotesi nulla sarà rigettata se d > d∗ , mentre sarà accettata se d < d∗ . In maniera equivalente ricorrendo al calcolo del livello di significatività osservato γ = P(D ≥ d|θ = θ0 ), se risulta γ ≥ α, la discrepanza d si giudica bassa e H0 viene accettata; se invece risulta γ < α, d si considera alta, l’ipotesi nulla viene rifiutata ed il test si definisce significativo. Qui ‘significativo’ è da intendersi nel senso che l’evidenza empirica è sufficiente per rigettare l’ipotesi nulla, e quindi il test statistico motiva un cambiamento della situazione preesistente. In caso di accettazione il test è detto non significativo poiché l’informazione racchiusa in H0 non è contrastata, confermando ciò che già era conosciuto. Se il sistema di ipotesi da sottoporre a verifica è invece { H0 : θ = θ0 H1 : θ < θ 0 , allora la soglia che divide la regione di accettazione dalla regione di rifiuto è data dal valore d∗ tale che ∫ d∗ −∞ fD (d)dd = α, e l’ipotesi nulla sarà rifiutata se il valore della statistica test in corrispondenza della realizzazione campionaria osservata si rivela inferiore a d∗ . Equivalentemente calcolata la probabilità γ = P(D ≤ d|θ = θ0 ), se risulta γ > α si accetta H0 , mentre se γ < α si rifiuta H0 . ⋄ Ipotesi alternativa bidirezionale Sia X1 , X2 , ..., Xn un campione casuale dalla pdf fX (·; θ) e sia D la statistica test utilizzata per sottoporre a verifica il seguente sistema di ipotesi { H0 : θ = θ0 H1 : θ ̸= θ0 . Sia d la discrepanza osservata in corrispondenza della realizzazione campionaria x1 , x2 , ..., xn . La regione di accettazioni del test sarà delimitata dai valori d∗1 e d∗2 tali che d∗1 < d∗2 e ∫ d1 ∗ −∞ fD (d) dd = ∫ α 2 +∞ e d∗ 2 fD (d) dd = α , 2 e l’ipotesi nulla verrà rigettata se il valore della statistica test in corrispondenza della realizzazione campionaria osservata risulta d < d∗1 oppure d > d∗2 . Equivalentemente, si procede a determinare le probabilità γ1 = P(D ≥ d|θ = θ0 ) e γ2 = P(D ≤ d|θ = θ0 ). Quindi si rifiuta H0 se in corrispondenza della realizzazione campionaria osservata risulta γ1 < α/2 oppure γ2 < α/2. Il metodo appena descritto sarà ora usato per costruire test su medie, percentuali e varianze. Primi elementi di inferenza statistica (ed. maggio 2012) 140 M. Di Marzio 19. VERIFICA D’IPOTESI Ipotesi H0 Ipotesi H1 Regione R µ = µ0 µ > µ0 {z : z ≥ zα } µ = µ0 µ < µ0 {z : z ≤ −zα } µ = µ0 µ ̸= µ0 {z : |z| ≥ zα/2 } Tabella 19.2: Regioni di rifiuto per test sulla media di popolazioni normali con σ 2 noto. 19.5 Verifica d’ipotesi sulla media Sia X1 , X2 , ..., Xn un campione casuale da una pdf N (µ, σ 2 ). Si vuole sottoporre a test la media incognita µ. Fissato il livello di significatività α, si formula l’ipotesi nulla H0 : µ = µ0 . Sono possibili due casi. ◃ Caso 1: varianza nota Se la varianza della popolazione σ 2 è nota, la statistica test adeguata è Z= X − µ0 √ ; σ/ n Come statistica test, Z misura la discrepanza tra x ed il valore espresso dall’ipotesi nulla µ0 e inoltre ha pdf nota, cioè N (0, 1). Se l’ipotesi alternativa è H1 : µ > µ0 , H0 viene rifiutata quando γ = P(Z ≥ z|µ = µ0 ) ( ) x̄ − µ0 √ =P Z≥ σ/ n <α ma P (Z ≥ zα ) = α, così la regione di rifiuto del test è definita da R = {z : z ≥ zα }. Con l’ipotesi alternativa H1 : µ < µ0 , si rifiuta H0 se γ = P(Z ≤ z|µ = µ0 ) ( ) x̄ − µ0 √ =P Z≤ σ/ n < α, e poiché qui α = P(Z ≤ −zα ), la regione di rifiuto è definita da R = {z : z ≤ −zα }. Per l’ipotesi alternativa bidirezionale H1 : µ ̸= µ0 si calcolano invece le probabilità ( ) ( ) x̄ − µ0 x̄ − µ0 √ √ γ1 = P(Z ≥ z|µ = µ0 ) = P Z ≥ e γ2 = P(Z ≤ z|µ = µ0 ) = P Z ≤ σ/ n σ/ n e si rifiuta se γ1 < α/2 o γ2 < α/2. La regione di rifiuto è allora definita da R = {z : z ≥ zα/2 } ∪ {z : z ≤ −zα/2 } = {z : |z| ≥ zα/2 }. Nella tabella 19.2 sono indicate le regioni di rifiuto finora ricavate. ◃ Caso 2: varianza non nota Se la varianza della popolazione σ 2 è incognita, allora la statistica test adeguata a verificare l’ipotesi H0 : µ = µ0 è T= M. Di Marzio 141 X̄ − µ0 √ , S/ n Primi elementi di inferenza statistica (ed. maggio 2012) 19.6. Verifica di ipotesi sulla differenza tra medie Ipotesi H0 Ipotesi H1 Regione R µ = µ0 µ > µ0 {t : t ≥ tα,n−1 } µ = µ0 µ < µ0 {t : t ≤ −tα,n−1 } µ = µ0 µ ̸= µ0 {t : |t| ≥ tα/2,n−1 } Tabella 19.3: Regioni di rifiuto per test sulla media di popolazioni normali con σ 2 non noto. che ha distribuzione t di Student con n − 1 gradi di libertà. Anche in questo caso la verifica di ipotesi verrà condotta seguendo il procedimento descritto in precedenza. Quindi ad esempio, se il sistema da sottoporre a verifica contrappone all’ipotesi nulla l’ipotesi alternativa unidirezionale H1 : µ > µ0 , si rifiuta H0 se γ = P(T ≥ t|µ = µ0 ) ( ) x̄ − µ0 √ =P T≥ s/ n < α, ed essendo P (T ≥ tα,n−1 ) = α, la regione di rifiuto del test rimane definita come R = {t : t ≥ tα,n−1 }. Nella tabella 19.3 sono riassunte le regioni di rifiuto corrispondenti ai diversi sistemi di ipotesi riguardanti la media di popolazioni normali quando la varianza σ 2 è incognita. 19.6 Verifica di ipotesi sulla differenza tra medie Spesso può risultare interessante confrontare le medie di due popolazioni. In questi casi ha senso testare l’ipotesi di uguaglianza tra le medie contro le diverse possibili ipotesi alternative. Supponiamo di avere due campioni casuali indipendenti estratti rispettivamente da una pdf N (µ1 , σ12 ) e da una pdf N (µ2 , σ22 ). Si vuole testare l’ipotesi H0 : µ1 − µ2 = 0. Pertanto, fissato il livello di significatività α possono aversi i due casi di seguito proposti. ◃ Caso 1: varianze note Se le varianze σ12 e σ22 delle popolazioni di origine dei due campioni sono entrambe note, la statistica test adottata è X1 − X2 Z=√ 2 σ1 /n1 + σ22 /n2 che coincide con la quantità pivotale utilizzata come stimatore intervallare per la differenza tra medie (sez. 17.6), condizionata a µ1 − µ2 = 0. Si consideri l’ipotesi alternativa H1 : µ1 − µ2 > 0. Fissato il livello di significativà α, seguendo un ragionamento del tutto analogo a quello adottato nel caso di una sola media, se γ = P(Z ≥ z|µ1 − µ2 = 0) ( ) x̄1 − x̄2 =P Z≥ √ 2 σ1 /n1 + σ22 /n2 <α l’ipotesi nulla viene rigettata. Equivalentemente, poiché P(Z ≥ zα ) = α la regione di rifiuto del test è definita da R = {z : z ≥ zα }. Nella tabella 19.5 sono riportate le regioni di rifiuto per la verifica di sistemi di ipotesi sulla differenza tra medie di due popolazioni normali. Primi elementi di inferenza statistica (ed. maggio 2012) 142 M. Di Marzio 19. VERIFICA D’IPOTESI Ipotesi H0 Ipotesi H1 Regione R µ1 − µ2 = 0 µ1 − µ2 > 0 {z : z ≥ zα } µ 1 − µ2 = 0 µ1 − µ2 < 0 {z : z ≤ −zα } µ 1 − µ2 = 0 µ1 − µ2 ̸= 0 {z : |z| ≥ zα/2 } Tabella 19.4: Regione di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze note. Ipotesi H0 Ipotesi H1 Regione R µ1 − µ2 = 0 µ1 − µ2 > 0 {t : t ≥ tα,n1 +n2 −2 } µ1 − µ2 = 0 µ1 − µ2 < 0 {t : t ≤ −tα,n1 +n2 −2 } µ1 − µ2 = 0 µ1 − µ2 ̸= 0 {t : |t| ≥ tα/2,n1 +n2 −2 } Tabella 19.5: Regioni di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze non note. ◃ Caso 2: varianze incognite uguali Studiamo solo il caso in cui le varianze σ12 e σ22 sono incognite, ma è noto che sono uguali, ossia σ12 = σ22 = σ 2 . Per l’ipotesi nulla H0 : µ1 = µ2 si usa la statistica test T= X − X2 √ 1 , Sp 1/n1 + 1/n2 che ha distribuzione t di Student con n1 + n2 − 2 gradi di libertà. Seguendo la usuale logica si ottengono le regioni di rifiuto riportate nella tabella 19.5. 19.7 Verifica di ipotesi nel caso di grandi campioni Nel caso di grandi campioni, cioè nel caso in cui la numerosità dei campioni considerati è maggiore di 30, per effetto del TCL le statistiche test adottate per le verifiche di ipotesi indipendentemente dalla popolazione di origine hanno distribuzione approssimativamente normale. Di conseguenza se il campione è casuale i test sulla media e sul confronto tra medie sono basati sulla normale standard, e quindi restano sempre possibili nel senso che non è più necessaria l’ipotesi di normalità per la popolazione generatrice. 19.8 Verifica d’ipotesi sulla proporzione Sia X1 , X2 , ..., Xn un campione casuale di numerosità n > 30 estratto da una popolazione bernoulliana di parametro incognito π. Dato un sistema di ipotesi dove H0 : π = π0 , se è vera l’ipotesi nulla la statistica test Z=√ P − π0 π0 (1 − π0 )/n segue una distribuzione N (0, 1) per effetto del TCL. Assumendo allora che l’ipotesi contrapposta ad H0 sia H1 : π > π0 e fissato il livello α, l’ipotesi nulla sarà rifiutata se γ = P(Z ≥ z|π = π0 ) ) ( P − π0 =P Z≥ √ π0 (1 − π0 )/n < α. Allo stesso modo, se P(Z ≥ zα ) = α, la regione di rifiuto del test è definita da R = {z : z ≥ zα }. Ragionando come di consueto si determinano le regioni di rifiuto per i diversi sistemi di ipotesi, come riportate nella tabella 19.6. M. Di Marzio 143 Primi elementi di inferenza statistica (ed. maggio 2012) 19.9. Verifica d’ipotesi sulla differenza tra proporzioni Ipotesi H0 Ipotesi H1 Regione R π = π0 π > π0 {z : z ≥ zα } π = π0 π < π0 {z : z ≤ −zα } π = π0 π ̸= π0 {z : |z| ≥ zα/2 } Tabella 19.6: Regioni di rifiuto per test sulla proporzione per grandi campioni. 19.9 Verifica d’ipotesi sulla differenza tra proporzioni Supponiamo di estrarre due campioni casuali indipendenti di rispettive numerosità n1 > 30 e n2 > 30 da due distribuzioni bernoulliane di parametri incogniti π1 e π2 . Assumiamo di voler verificare l’ipotesi che le due proporzioni π1 e π2 siano uguali ossia l’ipotesi H0 : π1 − π2 = 0. Ora, sappiamo che sotto l’ipotesi nulla le +n2 p2 . La proporzioni sono identiche ma non conosciamo il valore comune. Esso verrà stimato con p = n1np11 +n 2 statistica test da adottare, che al solito è una quantità pivotale condizionata all’ipotesi nulla, sarà Z= (P1 − P2 ) , SP √ dove SP = ( p(1 − p) 1 1 + n1 n2 ) che segue approssimativamente una legge distributiva Normale standard 3 (non si confonda il simbolo SP con Sp , incontrato nella sezione 19.6). Le regioni di rifiuto corrispondenti alle diverse ipotesi alternative possono essere allora costruite attraverso il ragionamento sviluppato in precedenza. Tali regioni di rifiuto sono riportate nella tabella 19.7. Ipotesi H0 Ipotesi H1 Regione R π1 − π2 = 0 π1 − π2 > 0 {z : z ≥ zα } π1 − π2 = 0 π1 − π2 < 0 {z : z ≤ −zα } π1 − π2 = 0 π1 − π2 ̸= 0 {z : |z| ≥ zα/2 } Tabella 19.7: Regioni di rifiuto per test sulla differenza di proporzioni per grandi campioni. 19.10 Verifica di ipotesi sulla varianza Sia X1 , X2 , ..., Xn un campione casuale estratto da una pdf N (µ, σ 2 ). Vogliamo testare la varianza σ 2 . In particolare assumiamo il sistema di ipotesi dove H0 : σ 2 = σ02 . Fissato il livello di significatività α, possono presentarsi i due casi seguenti. ◃ Caso 1: media nota Se la media della pdf di origine del campione è nota, la statistica test da impiegare è ∑n (Xi − µ)2 U = i=1 2 , σ0 che si distribuisce come un chi-quadrato con n gradi di libertà (sez. 12.7). Con lo stesso ragionamento adottato per determinare le regioni di rifiuto degli altri test considerati, fissato il livello α, e assumendo H1 : σ 2 > σ02 l’ipotesi nulla sarà rifiutata se γ = P(U ≥ u|σ 2 = σ02 ) ∑n ( ) 2 i=1 (xi − µ) =P U ≥ σ02 < α, 3 Si usa la quantità pivotale Z = p1 −p2 −(π1 −π2 ) , Sp Primi elementi di inferenza statistica (ed. maggio 2012) e poichè H0 : π1 = π2 , il condizionamento ad H0 porta alla statistica vista. 144 M. Di Marzio 19. VERIFICA D’IPOTESI e poiché P(U ≥ χ2α,n ) = α, la regione di rifiuto del test è data da R = {u : u ≥ χ2α,n }. Per le altre formulazioni del sistema di ipotesi si segue il consueto ragionamento che conduce a determinare le regioni di rifiuto riportate nella tabella 19.8. Ipotesi H0 Ipotesi H1 Regione R σ 2 = σ02 σ 2 > σ02 {u : u ≥ χ2α,n } σ 2 = σ02 σ 2 < σ02 {u : u ≤ χ21−α,n } σ 2 = σ02 σ 2 ̸= σ02 {u : u ≤ χ21−α/2,n oppure u ≥ χ2α/2,n } Tabella 19.8: Regioni di rifiuto per test sulla varianza di popolazioni normali con µ noto. ◃ Caso 2: media non nota Se la media della popolazione di origine del campione non è nota, allora la statistica test da adottare è ∑n (Xi − X)2 V = i=1 2 , σ0 che ha distribuzione chi-quadrato con n − 1 gradi di libertà (sez. 12.7). Le regioni di rifiuto per le diverse formulazioni dell’ipotesi alternativa sono riportate nella tabella 19.9. Ipotesi H0 Ipotesi H1 Regione R σ 2 = σ02 σ 2 > σ02 {v : v ≥ χ2α,n−1 } σ 2 = σ02 σ 2 < σ02 {v : v ≤ χ21−α,n−1 } σ 2 = σ02 σ 2 ̸= σ02 {v : v ≤ χ21−α/2,n−1 oppure v ≥ χ2α/2,n−1 } Tabella 19.9: Regioni di rifiuto per test sulla varianza di popolazioni normali con µ non noto. M. Di Marzio 145 Primi elementi di inferenza statistica (ed. maggio 2012) 20 Esercizi svolti Esercizio 20.1. Abbiamo osservato un campione casuale di 100 elementi da una popolazione bernoulliana. Per il test con sistema di ipotesi { H0 : π = 0.5 H1 : π = 0.6, calcoliamo la funzione di potenza sapendo che la zona di rifiuto è data da {z : z ≥ 1.68}. Soluzione In questo caso Θ = {0.5, 0.6}, così la funzione di potenza assume solo due valori, precisamente ℘(0.5) e ℘(0.6). Il primo è α, mentre il secondo è 1 − β(0.6). Dopo qualche semplice calcolo si ottiene che ℘(0.5) = α = 0.2483 , ℘(0.6) = 1 − β(0.6) = 0.9110. Esercizio 20.2. Sia X1 un’osservazione casuale estratta da una popolazione con distribuzione esponenziale di parametro θ incognito. Si vuole mettere alla prova il sistema di ipotesi { H0 : θ = 1.5 H1 : θ = 2.5, e si decide di accettare l’ipotesi H0 se x1 ≤ 3, e di rifiutarla se x1 > 3. Calcolare le probabilità di commettere gli errori di I e II tipo. Soluzione L’errore di I tipo è l’errore che si commette rifiutando H0 quando questa è vera. La relativa probabilità è definita come α(θ) = P(X1 > 3|θ = 1.5) = 1 − P(X1 ≤ 3|θ = 1.5), e poiché per X ∼ E(θ) si ottiene P(X ≤ x) = FX (x) = 1 − e−θx , α(1.5) = 1 − (1 − e−1.5×3 ) = e−1.5×3 ≃ 0.011. L’errore di II tipo è invece l’errore che si commette accettando l’ipotesi nulla quando questa è falsa. Pertanto, la probabilità di commettere questo tipo di errore è data da β(θ) = P(X1 ≤ 3|θ = 2.5) = 1 − e−2.5×3 ≃ 0.9994 Esercizio 20.3. Sia X1 , X2 , ..., Xn un campione casuale estratto da una popolazione in cui il carattere X ha distribuzione uniforme in [0, θ]. Si confrontino due possibili test, Γ1 e Γ2 , per verificare il sistema di ipotesi seguente { H0 : θ ∈ [5, 6] H1 : θ ∈ / [5, 6]. Il test Γ1 è specificato ricorrendo alla statistica Yn = max(X1 , X2 , ..., Xn ) e conduce ad accettare H0 se yn < 4.6 oppure yn > 5.9. Il test Γ2 è invece specificato ricorrendo alla statistica media campionaria X e conduce ad accettare H0 se x̄ < 2.30 oppure x̄ > 2.95. Quale test tra Γ1 e Γ2 è preferibile? Primi elementi di inferenza statistica (ed. maggio 2012) 146 M. Di Marzio 20. ESERCIZI SVOLTI Soluzione Nel problema in esame, lo spazio parametrico è definito da Θ = (0, +∞). accettazione per il test Γ1 è definita da La regione di A1 = {(x1 , x2 , ..., xn ) : Yn < 4.6 o Yn > 5.9}, e la funzione di potenza è ℘1 (θ) = P(Yn < 4.6|θ ∈ Θ) + P(Yn > 5.9|θ ∈ Θ). Si ricordi che, poiché Yn è il massimo di v.c. uniformi i.i.d., e poiché per X ∼ U(0, θ) si ha FX (x) = P(X ≤ x) = x/θ, risulta P(Yn < x) = P(X1 < x, X2 < x, ..., Xn < x) = n ∏ FXi (x) = (FX (x))n = ( x )n i=1 e P(Yn > x) = 1 − P(Yn < x) = 1 − ( x )n θ θ , . Ma poiché Yn è definita in [0, θ], si ottiene { P(Yn < x) = 1 ( x )n θ e { P(Yn > x) = se x ≥ θ se 0 ≤ x < θ, se x > θ 0 1− Nel caso considerato risulta allora ( x )n se 0 ≤ x < θ. θ { 1 ( 4.6 )n P(Yn < 4.6|θ ∈ Θ) = θ se θ ≤ 4.6 se θ > 4.6 e P(Yn > 5.9|θ ∈ Θ) = 1 − P(Yn ≤ 5.9|θ ∈ Θ) { 0 se θ ≤ 5.9 = ( 5.9 )n 1− θ se θ > 5.9 1 ( ) 4.6 n ℘1 (θ) = θ ( 4.6 )n da cui θ se θ ≤ 4.6 +1− ( 5.9 )n θ se 4.6 < θ ≤ 5.9 se θ > 5.9. Per il test Γ2 , la regione di accettazione è definita da A2 = {(x1 , x2 , ..., xn ) : x̄ < 2.30 o x̄ > 2.95}, e la funzione di potenza è ℘2 (θ) = P(X < 2.30|θ ∈ Θ) + P(X > 2.95|θ ∈ Θ). Essendo le v.c. costituenti il campione i.i.d. uniformi in [0, θ], risulta E[Xi ] = θ/2 e Var[Xi ] = θ2 /12 per ogni i ∈ {1, 2, ..., n}, e per n sufficientemente grande X ∼ N (θ/2, θ2 /(12n)). Pertanto risulta ℘2 (θ) = P(X < 2.30) + P(X > 2.95) ) ( ) ( 2.30 − θ/2 2.95 − θ/2 X − θ/2 X − θ/2 √ √ √ √ < +P > =P θ/ 12n θ/ 12n θ/ 12n θ/ 12n ( ) ( ) 2.30 − θ/2 2.95 − θ/2 √ √ =Φ +1−Φ . θ/ 12n θ/ 12n Nella figura 20.1 sono rappresentate le due funzioni di potenza per n = 30: è evidente che non c’è un test preferibile poichè le funzioni stesse si intersecano. M. Di Marzio 147 Primi elementi di inferenza statistica (ed. maggio 2012) ℘(θ) ℘1(θ) 1 ℘ (θ) 2 0.6 0 4 4.5 5 5.5 6 6.5 θ7 Figura 20.1: Funzioni di potenza dei test Γ1 e Γ2 . Esercizio 20.4. Per ottimizzare i tempi di produzione, un’azienda tratta l’acquisto di una nuova macchina. Il fornitore sostiene che il tempo X impiegato dalla macchina per eseguire il ciclo di produzione si distribuisce normalmente con media µ = 12 ore e s.q.m. σ = 2.5 ore. Da indagini preliminari, l’azienda acquirente ha ragione di ritenere che il tempo X pur avendo distribuzione normale con σ = 2.5 ore, ha media µ > 12. Si decide allora di monitorare i tempi di produzione del macchinario facendogli ripetere n = 4 volte il ciclo produttivo. Così si osserva un tempo medio pari a x̄ = 16 ore. Verificare al livello di significatività α = 0.01 che il tempo impiegato dal macchinario per completare la produzione sia superiore a quello dichiarato dal fornitore. Soluzione Il problema decisionale affrontato può essere formalizzato attraverso il seguente sistema di ipotesi { H0 : µ = 12 H1 : µ > 12. Dato che il tempo X si distribuisce normalmente con σ noto, la statistica test da adottare per saggiare le ipotesi del sistema è X − µ0 √ , Z= σ/ n che ha distribuzione N (0, 1). Avendo l’ipotesi altenativa la seguente espressione H1 : µ > µ0 , ed al livello α = 0.01 dalle tavole della normale standard risulta zα = z0.01 = 2.33, la regione di rifiuto del test è definita da R = {z : z ≥ 2.33}. Poiché la realizzazione campionaria della statistica test è z= 16 − 12 √ = 3.2, 2.5/ 4 risulta z > zα , e si rifiuta l’ipotesi nulla al livello di significatività fissato. Si conclude pertanto che il tempo medio impiegato dal macchinario per completare il ciclo produttivo è superiore a quello dichiarato dal fornitore. Esercizio 20.5. In un’azienda di materiali per l’edilizia, una macchina per tagliare barre di acciaio è stata programmata per una lunghezza pari a 150 cm. Un controllo sulle ultime n = 16 barre prodotte dalla macchina rivela che la loro lunghezza media è x̄ = 144 cm con uno s.q.m. s = 5. Assumendo che la lunghezza delle barre di acciaio prodotte dalla macchina si distribuisce normalmente, verificare, al livello di significatività α = 0.05, l’ipotesi che ci sia stato un errore di programmazione e, dunque, che la lunghezza media delle barre da essa prodotte non sia di 150 cm. Soluzione Il sistema di ipotesi da sottoporre a verifica è { H0 : µ = 150 H1 : µ ̸= 150, Primi elementi di inferenza statistica (ed. maggio 2012) 148 M. Di Marzio 20. ESERCIZI SVOLTI e siccome X si distribuisce normalmente, σ è incognito e la numerosità del campione n = 16 è inferiore a 30, la statistica test da utilizzare è X − µ0 √ T= s/ n che ha distribuzione t di Student con n − 1 = 16 − 1 = 15 gradi di libertà. Inoltre essendo l’ipotesi alternativa di tipo bidirezionale, dalla tavole della distribuzione t di Student risulta tα/2,n−1 = t0.025,15 = 2.131, la regione di rifiuto del test è R = {t : |t| ≥ 2.131}. Poiché la realizzazione campionaria della statistica test è 144 − 150 √ = −4.8, 5/ 16 t= risulta |t| > 2.131 e si rifiuta H0 al livello di significatività prescelto. Si conclude pertanto che c’è stato un errore nella programmazione della macchina. Esercizio 20.6. Un’azienda sta pensando di interrompere i rapporti commerciali con un fornitore per i suoi frequenti ritardi nell’effettuare le consegne. Su un campione di n = 100 ordini inviati al fornitore negli ultimi tempi, l’azienda ha registrato un ritardo medio di consegna pari a x̄ = 8 giorni con uno s.q.m. s = 2.8. L’azienda è disposta a tollerare un ritardo medio di 7 giorni. Supponendo che il ritardo segua una distribuzione normale, verificare l’ipotesi a livello α = 0.05 che l’azienda non interrompa i rapporti commerciali con il fornitore. Soluzione Occorre un test riferito al seguente sistema di ipotesi { H0 : µ = 7 H1 : µ > 7, e dato che si è ipotizzata una distribuzione normale dei ritardi nelle consegne da parte del fornitore, σ è incognito e la numerosità del campione n = 100 è superiore a 30, la statistica test da utilizzare è: Z= X − µ0 √ , s/ n che ha distribuzione N (0, 1). Avendo l’ipotesi alternativa la seguente espressione H1 : µ > µ0 , dalle tavole della normale standard si ricava il valore della soglia zα = z0.05 = 1.65, la regione di rifiuto del test è R = {z : z ≥ 1.65}. La realizzazione della statistica test in corrispondenza del campione osservato è z= 8−7 √ = 3.57, 2.8/ 100 ed essendo 3.57 > 1.65, si rifiuta H0 . Si conclude pertanto che l’azienda deciderà di interrompere i rapporti commerciali con il fornitore. Esercizio 20.7. Un carattere X ha presso una popolazione distribuzione normale con media µ incognita e varianza σ 2 = 16. Un campione casuale è estratto dalla popolazione e fissato il livello di significatività α = 0.08, si vuole verificare il seguente sistema di ipotesi { H0 : µ = 5 H1 : µ = 6. Determinare l’ampiezza campionaria n necessaria affinché la funzione di potenza del test sia pari a 0.5. M. Di Marzio 149 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione Essendo nota la varianza della popolazione di appartenza del campione, la statistica test da impiegare è X −5 Z= √ , 4/ n che ha distribuzione N (0, 1). Poichè l’ipotesi alternativa ha espressione H1 : µ > µ0 , e poichè dalle tavole della distribuzione normale standard in corrispondenza di α = 0.08 risulta zα = z0.08 = 1.41, la regione di rifiuto del test è definita da R = {z : z ≥ 1.41}. Quindi fissato α, la funzione di potenza del test è data dalla probabilità di rifiutare l’ipotesi nulla quando questa è falsa, l’ampiezza campionaria necessaria affinchè tale probabilità sia pari a 0.5 si determina a partire dalla relazione seguente ) ( X − µ0 √ ≥ 1.41 µ = 6 = 0.5. P 4/ n Siccome ( P risulta che ) ( ) 4 X − µ0 √ ≥ 1.41 µ = 6 = P X ≥ 1.41 √ + µ0 µ = 6 4/ n n ( ) 4 = P X ≥ 1.41 √ + 5 µ = 6 n ( ) √ 1.41 × 4/ n + 5 − µ √ =P Z≥ µ=6 σ/ n ( ) √ 1.41 × 4/ n + 5 − 6 √ =P Z≥ 4/ n ( ) 1 = P Z ≥ 1.41 − √ 4/ n ( √ ) n P Z ≥ 1.41 − = 0.5. 4 E dato che P (Z ≥ z) = 0.5 se z = 0 si ottiene 1.41 − da cui √ √ n/4 = 0 n = 1.41 × 4 = 5.64 e quindi n ≃ 32. Esercizio 20.8. Al fine di valutare l’opportunità di rinnovare il sistema di sicurezza dei suoi impianti, un’azienda vuole confrontare il numero di incidenti annui occorsi ai suoi operai generici con quello degli incidenti annui occorsi ai suoi operai specializzati. Su un campione di n1 = 36 operai generici si è rilevato un numero medio di incidenti annui pari a x̄1 = 7, mentre su un campione di n2 = 34 operai specializzati si è rilevato un numero medio di incidenti annui x̄2 = 6. Ammettendo che il numero di incidenti occorsi ogni anno alle due categorie di operai si distribuisce normalmente con varianze rispettivamente pari a σ12 = 2 e σ22 = 4 verificare al livello α = 0.01 che il numero medio degli incidenti occorsi nell’azienda sia indipendente dalla qualifica degli operai. Soluzione Il problema può essere formalizzato attraverso il seguente sistema di ipotesi { H0 : µ1 = µ2 H1 : µ1 ̸= µ2 supposta una distribuzione normale degli incidenti occorsi agli operai dell’azienda con varianze note, la statistica test da adottare è X1 − X2 Z=√ 2 σ1 /n1 + σ22 /n2 Primi elementi di inferenza statistica (ed. maggio 2012) 150 M. Di Marzio 20. ESERCIZI SVOLTI che ha distribuzione N (0, 1). Poiché l’ipotesi alternativa è di tipo bidirezionale e in corrispondenza del livello di significatività α = 0.01, risulta zα/2 = z0.005 = 2.58, la regione di rifiuto del test è definita da R = {z : |z| > 2.58}. Essendo la realizzazione campionaria della statistica test 7−6 z=√ = 2.4 2/36 + 4/34 risulta allora |z| < 2.58 e si accetta pertanto l’ipotesi di indipendenza del numero di incidenti dalla qualifica degli operai vittime di essi. Esercizio 20.9. Un’azienda dispone di due magazzini localizzati in zone differenti; ci si chiede se ampliarli. Così è necessario confrontare il numero di camion che arrivano settimanalmente. In n1 = n2 = 5 settimane si è rilevato un numero medio di arrivi x̄1 = 20 e una varianza s21 = 1.2 per il magazzino 1, mentre per il magazzino 2 si è avuto x̄2 = 18 e s22 = 1.6. Assumendo che durante la stagione di attività dell’azienda gli arrivi settimanali dei camion merci presso i magazzini seguano una distribuzione normale con varianze σ12 = σ22 = σ 2 , verificare l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativa bidirezionale H1 : µ1 ̸= µ2 , al livello di significatività α = 0.01. Soluzione Poiché la numerosità campionaria n = n1 + n2 = 5 + 5 = 10 è piccola ed i campioni generati da popolazioni normali con uguale varianza incognita, la statistica test da utilizzare è T= X − X2 √ 1 , Sp 1/n1 + 1/n2 che ha distribuzione t di Student con n1 + n2 − 2 = 8 gradi di libertà. Essendo l’ipotesi alternativa formulata è bidirzionale e dalla tavola della distribuzione t di Student in corrispondenza del livello di significatività fissato si ottiene t0.005,8 = 3.355, la regione di rifiuto del test è definita da R = {t : |t| > 3.355}. Stimando la varianza incognita comune a partire dai dati campionari si ottiene √ √ s21 (n1 − 1) + s22 (n2 − 1) 1.2 (5 − 1) + 1.6 (5 − 1) sp = = = 1.18, n1 + n2 − 2 5+5−2 e la realizzazione campionaria della statistica test risulta t= 20 − 18 √ = 2.68. 1.18 1/5 + 1/5 Pertanto, risulta che |t| < 3.355, quindi si accetta l’ipotesi nulla di uguaglianza tra gli arrivi medi dei camion merci presso i due magazzini. Esercizio 20.10. Per decidere tra due potenziali localizzazioni di un nuovo centro commerciale, un imprenditore osserva due campioni casuali di abitanti delle due zone e ne rileva il reddito. In particolare, in un campione di n1 = 50 abitanti della zona A si è rilevato un reddito medio annuo x̄1 = 20 mila euro e una varianza s21 = 8 mila, mentre in un campione di n2 = 54 abitanti della zona B si è rilevato un reddito medio annuo x̄2 = 24 mila euro e una varianza s22 = 6 mila. Assumendo che i redditi degli abitanti delle due zone si distribuiscono con rispettive varianze σ12 e σ22 incognite ma supposte uguali, verificare, al livello α = 0.05, l’ipotesi H0 : µ1 = µ2 contro l’ipotesi alternativa bidirezionale H1 : µ1 ̸= µ2 . Soluzione Pur non essendo note le varianze σ12 e σ22 delle due popolazioni, né le distribuzioni dei redditi, poiché la numerosità campionaria n = n1 + n2 = 50 + 54 = 104 è elevata, è possibile adottare la statistica test X1 − X2 Z= √ Sp 1/n1 + 1/n2 √ (n1 −1)S12 +(n2 −1)S22 dove, come si sa, Sp = che ha distribuzione N (0, 1). n1 +n2 −2 M. Di Marzio 151 Primi elementi di inferenza statistica (ed. maggio 2012) L’ipotesi alternativa è bidirezionale quindi in corrispondenza del livello di significatività fissato risulta zα/2 = z0.025 = 1.96, e la regione di rifiuto del test è definita da R = {z : |z| > 1.96}. La realizzazione campionaria della statistica test è z=√ 20 − 24 (1 49×8+53×6 102 50 + 1 54 ) = −7.72, e poichè risulta |z| > 1.96 si rigetta l’ipotesi nulla di uguaglianza del reddito medio annuo degli abitanti delle due zone. Esercizio 20.11. Da un’indagine condotta sulla composizione del management delle aziende italiane è risultato che il 35% delle aziende italiane è gestito da donne. Inoltre, in un campione di n = 100 aziende localizzate nel sud Italia è risultato che 15 sono gestite da donne. Verificare, al livello α = 0.1, se il campione può ritenersi rappresentativo della realtà aziendale italiana. Soluzione Il problema posto nell’esercizio è quello di verificare l’ipotesi sul parametro π di una popolazione bernoulliana, essendo π la percentuale di aziende gestite da donne. In particolare, il sistema di ipotesi da sottoporre a verifica è { H0 : π = 0.35 H1 : π ̸= 0.35. Poiché l’ampiezza del campione è superiore a 30, si giustifica l’ approssimazione della popolazione di origine del campione alla distribuzione normale di parametri π e π (1 − π) /n , per cui usiamo la statistica test Z=√ P − π0 π0 (1 − π0 ) n . Siccome l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard, in corrispondenza del livello di significatività fissato, risulta zα/2 = z0.05 = 1.64, la regione di rifiuto del test è definita da R = {z : |z| > 1.64}. Essendo la realizzazione campionaria della statistica test 0.15 − 0.35 z= √ = −4.19, 0.35×0.65 100 risulta |z| > 1.64 e si rifiuta l’ipotesi che il campione di aziende osservato sia rappresentativo della realtà aziendale italiana. Esercizio 20.12. Un’azienda automobilistica, prima di immettere sul mercato un nuovo modello di un’auto già in commercio, realizza un sondaggio di opinioni. In particolare, l’indagine rivela che su un campione di n1 = 100 donne il 36% preferisce il nuovo modello di auto rispetto a quello già in commercio mentre, su un campione di n2 = 100 uomini solo il 25% preferisce il nuovo modello. Verificare, al livello α = 0.01, l’ipotesi che non ci sia differenza nelle preferenze in base al sesso dei potenziali acquirenti. Soluzione Indicata con π1 (rispettivamente π2 ) la proporzione di soggetti che nella popolazione di donne (risp. uomini) preferiscono il nuovo modello di auto, il sistema d’ipotesi da sottoporre a verifica è { H0 : π 1 = π 2 = π H1 : π1 ̸= π2 . Le elevate numerosità campionarie giustificano il ricorso alla statistica test P1 − P2 Z=√ p (1 − p) (1/n1 + 1/n2 ) che ha distribuzione N (0, 1). Primi elementi di inferenza statistica (ed. maggio 2012) 152 M. Di Marzio 20. ESERCIZI SVOLTI Poichè l’ipotesi alternativa è bidirezionale e dalle tavole della normale standard risulta zα/2 = z0.005 = 2.57, la regione di rifiuto del test è R = {z : |z| > 2.57}. La stima della proporzione, comune ad entrambe le popolazioni, di soggetti che preferiscono il nuovo modello è ottenuta da 0.36 × 100 + 0.25 × 100 p1 × n1 + p2 × n2 = = 0.305 p= n1 + n2 100 + 100 e la realizzazione campionaria della statistica test risulta allora 0.36 − 0.25 z=√ ( 1 0.305 × 0.695 × 100 + 1 100 ) = 1.68. Dato che |z| < 2.57 si accetta, al livello di significatività prescelto, l’ipotesi nulla di indipendenza delle preferenze dal sesso dei potenziali acquirenti. Esercizio 20.13. Un produttore di batterie per auto ha immesso sul mercato un nuovo modello per il quale il tempo di durata ha distribuzione normale con media µ = 3 anni. Il produttore sostiene che la varianza del tempo di durata delle batterie è pari a 1 anno. Su un campione di 5 batterie del nuovo tipo prodotto, sono stati registrati seguenti tempi (anni) di durata 1.9, 2.4, 3.0, 3.5, 4.2. Verificare al livello α = 0.05, la veridicità dell’affermazione del produttore. Soluzione Il sistema da sottoporre a verifica è il seguente { H0 : σ 2 = 1 H1 : σ 2 ̸= 1, e essendo nota la media della popolazione generatrice del campione, la statistica test da utilizzare è ∑n (Xi − µ)2 U = i=1 2 σ0 che si distribuisce come un chi-quadrato con n = 5 gradi di libertà. Poiché l’ipotesi alternativa è bidirezionale ed in corrispondenza di α = 0.05 e n = 5 risulta χ21−α/2,n = χ20.975,5 = 0.831 e χ2α/2,n = χ20.025,5 = 12.832, la regione di rifiuto del test è definita da R = {u : u ≤ 0.831 oppure u ≥ 12.832}. La realizzazione campionaria della statistica test è u= (1.9 − 3)2 + (2.4 − 3)2 + (3 − 3)2 + (3.5 − 3)2 + (4.2 − 3)2 = 3.26, 1 risulta χ21−α/2,n < u < χ2α/2,n , e si accetta l’ipotesi nulla al livello di significativita fissato, concludendo che l’affermazione del produttore è vera. Esercizio 20.14. In un’azienda che produce componenti meccaniche, è stato introdotto un nuovo macchinario per la produzione di bulloni. Il diametro dei bulloni prodotti dalla nuova macchina segue una distribuzione normale con media µ e varianza σ 2 entrambe incognite. Per valutare la qualità della produzione ottenuta attraverso il nuovo macchinario si misura il diametro di un campione di 4 bulloni prodotti, ottenendo i risultati seguenti 1.8, 2.4, 2.8 3. Verificare al livello α = 0.01 il sistema di ipotesi seguente { H0 : σ 2 = 1.5 H1 : σ 2 > 1.5 M. Di Marzio 153 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione Dato che la media della popolazione dei diametri dei bulloni prodotti dalla macchina è non nota, la statistica test da utilizzare per verificare il sistema di ipotesi sulla varianza è ∑n (Xi − X)2 V = i=1 2 , σ0 che ha distribuzione chi-quadrato con n − 1 = 3 gradi di libertà. Poiché l’ipotesi alternativa è H1 : σ 2 > σ02 e poiché in corrispondenza del livello di significatività fissato e dei gradi di libertà risulta χ2α,n−1 = χ20.01,3 = 11.341, la regione di rifiuto del test è definita da R = {χ2 : χ2 > 11.341.} Quindi risulta 1.8 + 2.4 + 2.8 + 3 = 2.5, 4 la realizzazione campionaria della statistica test è x̄ = v= (1.8 − 2.5)2 + (2.4 − 2.5)2 + (2.8 − 2.5)2 + (3 − 2.5)2 = 0.56, 1.5 e essendo v < χ20.01,3 , si accetta l’ipotesi nulla al livello di significativà fissato. Primi elementi di inferenza statistica (ed. maggio 2012) 154 M. Di Marzio 21 Test Chi-quadrato 21.1 Formulazione generale I test su modelli distributivi illustrati nei capitoli precedenti riguardano ipotesi formulate sul valore dei parametri di pdf la cui famiglia parametrica di appartenenza è nota. Test di questo tipo si definiscono test parametrici. I test non parametrici sono invece metodi di verifica di modelli distributivi che non richiedono di conoscere una famiglia parametrica che contiene la popolazione. Da ciò consegue che per essi l’ipotesi nulla non riguarda semplicemente un parametro, ma un modello distributivo preso per intero. Esempio 21.1. Seguono le descrizioni di uno scenario inferenziale parametrico e di alcuni scenari non parametrici. • Scenario parametrico Sia A il carattere di interesse. E’ noto che fA è normale con σ 2 = 4. Testare l’ipotesi distributiva secondo cui A ha pdf normale di parametri µ = 5 e σ 2 = 4, equivale a condurre un test parametrico sulla media con ipotesi nulla H0 : µ = 5. • Scenari non parametrici i) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA , e si vuole testare l’ipotesi nulla H0 : fA = N (5, 4). ii) Sia A il carattere di interesse. Non si hanno informazioni extracampionarie su fA , e si vuole testare l’ipotesi nulla H0 : fA ∈ {N (µ, σ 2 ), µ ∈ R, σ ∈ R+ }. iii) Dati due caratteri A e B, non si hanno informazioni extracampionarie sulla loro distribuzione congiunta fAB , e si vuole verificare l’ipotesi che essa sia uguale a fA fB , cioè che A e B siano indipendenti. Appare chiaro che l’ottica del test non parametrico è completamente rovesciata. Qui il risultato rilevante è l’accettazione dell’ipotesi nulla, mentre nel caso parametrico è il rifiuto di essa. In questo capitolo consideriamo un solo test non parametrico, il test Chi-quadrato. Come si vedrà, tale test si presta ad essere applicato, con formulazioni differenti, a più di un problema inferenziale. Tuttavia è semplice darne una illustrazione generale. Si consideri una popolazione le cui unità sono classificate in base alle modalità A1 , A2 , ..., Ak assunte da un carattere A. Qui le Ai , i ∈ {1, 2, ..., k}, possono essere categorie di un carattere qualitativo ordinabile, valori di un carattere quantitativo discreto, o ancora classi di valori di un carattere quantitativo discreto o continuo. Si vuole verificare un’ipotesi su fA in assenza di informazioni extracampionarie. La distribuzione di frequenze di A osservata sui dati campionari è interpretabile come l’immagine statistica di fA . Così, per appurare la (non) coincidenza di fA con la distribuzione suggerita dall’ipotesi nulla, è naturale confrontare le frequenze della distribuzione ottenuta dal campione con quelle attese sotto l’ipotesi nulla, che sono chiamate teoriche. Si noti che vengono coinvolte solo frequenze, così, a differenza dei test parametrici, il test Chi-quadrato è applicabile anche nel caso di caratteri qualitativi. In particolare, indicata con Oi , i = 1, 2, ..., k, la v.c. che descrive la frequenza assoluta campionaria associata ad Ai , e indicata con Ei la rispettiva frequenza teorica, la statistica test adottata per tale confronto è X2 = ∑k i=1 (Oi − Ei )2 . Ei Si osservi ∑k che per il test in esame lo spazio campionario è rappresentato da tutte le k-uple o1 , o2 , ..., ok tali che i=1 oi = N , ossia ogni possibile realizzazione campionaria è un punto in Nk che ha come coordinate i valori delle k frequenze associabili alle modalità A1 , A2 , ..., Ak in un campione di ampiezza N . Pertanto le M. Di Marzio 155 Primi elementi di inferenza statistica (ed. maggio 2012) 21.2. Test di conformità regioni di accettazione (A) e di rifiuto (R) sono sottoinsiemi di Nk . Al solito, specificando il test attraverso la statistica X2 si realizza una riduzione delle regioni A e R nelle regioni A e R di punti unidimensionali, dove ogni punto costituisce una possibile realizzazione χ2 di X2 . Poiché la statistica X2 è una misura della discrepanza tra frequenze osservate e frequenze teoriche, l’ipotesi nulla sarà scartata per valori alti di tale discrepanza, mentre non sarà scartata se il valore di tale discrepanza è basso. Chiaramente, dato un certo valore del livello di significatività, al fine di stabilire la regione di rifiuto occorre conoscere la distribuzione della statistica X2 . In particolare, se oi ≥ 5 per ogni i ∈ {1, 2, ..., k} e: a) è vera l’ipotesi nulla; e b) il campione è grande, si dimostra che X2 ha una distribuzione che può essere ben approssimata da una distribuzione chi-quadrato con ν gradi di libertà, dove ν è il numero dei parametri coinvolti. Di seguito tale dimostrazione nel caso in cui fA abbia due soli valori, p1 e p2 . Indichiamo con N1 e N2 i valori della distribuzione osservata sul campione e con p10 e p20 i valori espressi dall’ipotesi nulla. Risulta allora 2 2 X2 = (N1 − N p10 ) (N2 − N p20 ) + N p10 N p20 2 = [N − N1 − N (1 − p10 )]2 (N1 − N p10 ) + N p10 N (1 − p10 ) 2 2 (N1 − N p10 ) (N1 − N p10 ) + N p10 N (1 − p10 ) (1 − p10 + p10 )(N1 − N p10 )2 = N p10 (1 − p10 ) ( )2 N1 − N p10 = √ . N p10 (1 − p10 ) = Ora supponiamo che sia vera l’ipotesi nulla. In questo caso avremo che E[N ] = N p10 e VAR[N ] = N p10 (1 − p10 ). Di conseguenza la formula sopra rappresenta una v.c. standardizzata elevata al quadrato. Ma se N è abbastanza grande, dal TCL per somme di vv.cc. indipendenti (sez. 11.5) discende che ( N1 − N p10 )2 √ N p10 (1 − p10 ) ∼ Z 2, dove Z è una v.c. normale standard, ed essendo la v.c. X2ν la somma dei quadrati di ν vv.cc. normali standard, segue che X2 ha distribuzione Chi-quadrato con un grado di libertà. Come per i test parametrici, una volta fissato il livello di significatività α, la regione di rifiuto del test sarà definita dall’insieme delle realizzazioni χ2 di X2 che risultano meno probabili sotto l’ipotesi nulla ossia R = {χ2 : χ2 > χ2α,ν }. In altri termini, fissato α si determina il livello di significatività osservato γ = P(X2 > χ2 ) e, se risulta γ < α, la discrepanza χ2 tra frequenze osservate e frequenze teoriche si giudica alta, con conseguente rigetto dell’ipotesi nulla. Studieremo il test chi-quadrato per la verifica delle tre ipotesi seguenti: ⋄ ipotesi sulla forma distributiva di un carattere presso una popolazione; ⋄ ipotesi di indipendenza tra due caratteri; ⋄ ipotesi di omogeneità della distribuzione di uno stesso carattere presso più popolazioni. 21.2 Test di conformità Sia A un carattere, discreto o continuo, con pdf fA non nota. Nella tabella 21.1 è rappresentata fA , dove pi = P(A = Ai ) se A è un carattere discreto con k modalità, oppure pi = P(A ∈ Ai ) se il carattere A, discreto o continuo, è stato diviso in k classi. Primi elementi di inferenza statistica (ed. maggio 2012) 156 M. Di Marzio 21. TEST CHI-QUADRATO A A1 A2 ... Ai ... Ak P(Ai ) p1 p2 ... pi ... pk 1 Tabella 21.1: Distribuzione di probabilità del carattere A. Si vuole verificare che fA sia tale che pi = pi0 , i ∈ {1, 2, ..., k}, cioè { H0 : pi = pi0 con i = 1, 2, ..., k. H1 : pi ̸= pi0 Si estrae un campione casuale di ampiezza N , e si osservano le frequenze assolute Ni corrispondenti a ciascuna delle Ai . Per determinare le frequenze teoriche, cioè le frequenze attese sotto l’ipotesi nulla, occorre distinguere tra i due casi seguenti. ◃ Caso 1 Se l’ipotesi nulla esprime un modello completamente specificato, ossia se le pi0 , i ∈ {1, 2, ..., k}, sono note, le frequenze attese sotto l’ipotesi nulla sono definite come E[Ni |pi = pi0 ] = N pi0 con i = 1, 2, ..., k. Infatti ciascuna osservazione campionaria può assumere oppure no il valore Ai , e poiché per definizione la frequenza osservata Ni esprime il numero di unità del campione che presentano il valore Ai , allora la v.c. Ni rappresenta il numero di successi in N prove indipendenti 1 , dove la probabilità di successo nella singola prova è pi . Così Ni ha distribuzione binomiale ed il suo valore atteso sotto l’ipotesi nulla è N pi0 . In questo caso la statistica test X2 si specifica come segue 2 X = k ∑ (Ni − N pi0 )2 i=1 N pi0 , e ha distribuzione approssimativamente chi-quadrato con k − 1 gradi di libertà. Infatti, questo caso ∑in k−1 i parametri sono costituiti da k − 1 probabilità pi poiché per la k-sima si ha pk = 1 − i=1 pi . Fissato il livello di significatività α, la regione di rifiuto del test è allora definita da R = {χ2 : χ2 > χ2α,k−1 }. ◃ Caso 2 Se l’ipotesi nulla esprime un modello distributivo di cui non sono noti i parametri θ1 , θ2 , ..., θm , il sistema d’ipotesi è formulato specificando le probabilità pi in termini dei parametri incogniti: { H0 : pi = pi0 (θ1 , θ2 , ..., θm ) H1 : pi ̸= pi0 (θ1 , θ2 , ..., θm ), e ovviamente per determinare le frequenze attese sotto l’ipotesi nulla sarà necessario stimare gli m parametri incogniti della distribuzione ipotizzata. Così, ottenute le stime p̂i0 = pi0 (θ̂1 , θ̂2 ..., θ̂m ) la statistica test adottata è 2 X = i = 1, 2, ..., k, k ∑ (Ni − N p̂i0 )2 i=1 N p̂i0 che ha distribuzione chi-quadrato con k − m − 1 gradi di libertà. I gradi di libertà sono k − m − 1 poiché le m stime θ̂1 , θ̂2 , ..., θ̂m portano alla determinazione numerica di m probabilità2 . Di conseguenza, fissato il livello di significatività α, la regione di rifiuto del test risulta R = {χ2 : χ2 > χ2α,k−m−1 }. 1 Le prove sono indipendenti perché il campione è casuale. θ̂1 , θ̂2 , ..., θ̂m si possono conoscere m probabilità risolvendo un sistema di m equazioni in m incognite. Ogni equazione esprime una probabilità come incognita funzione dei valori noti θ̂1 , θ̂2 , ..., θ̂m . 2 Con M. Di Marzio 157 Primi elementi di inferenza statistica (ed. maggio 2012) 21.3. Test di indipendenza 21.3 Test di indipendenza Siano A e B due caratteri che presso una popolazione assumono rispettivamente r e t modalità o classi. Assumendo che A e B siano caratteri discreti (rispettivamente continui), posto pij = P(A = Ai , B = Bj ) (risp. P(A ∈ Ai , B ∈ Bj )), pi• = P(A = Ai ) (risp. P(A ∈ Ai )) p•j = P(B = Bj ) (risp. P(B ∈ Bj )), e la pdf della v.c. doppia (A, B) può essere rappresentata attraverso la tabella 21.2. B A B1 B2 ··· Bj ··· Bt Totale A1 p11 p12 ··· p1j ··· p1t p1• A2 .. . Ai .. . Ar p21 .. . pi1 .. . pr1 p22 .. . pi2 .. . pr2 ··· ··· ··· p2j .. . pij .. . prj ··· p2t .. . pit .. . prt p2• .. . pi• .. . pr• p•1 p•2 ··· p•j ··· p•t 1 ··· ··· Tabella 21.2: Distribuzione doppia di probabilità dei caratteri A e B. Si vuole verificare l’ipotesi di indipendenza tra i caratteri A e B. Si è appreso che una distribuzione doppia discreta è a componenti indipendenti se e solo se per ogni coppia di modalità la pdf congiunta è data dal prodotto delle pdf marginali. Così il sistema da sottoporre a verifica è { H0 : pij = pi• p•j per ogni coppia (i, j), H1 : pij ̸= pi• p•j per almeno una coppia (i, j). I dati campionari sono rappresentati tramite la distribuzione doppia di frequenza riportata nella tabella 21.3. B A B1 B2 ··· Bj ··· Bt Totale A1 N11 N12 ··· N1j ··· N1t N1• A2 .. . Ai .. . Ar N21 .. . Ni1 .. . Nr1 N22 .. . Ni2 .. . Nr2 ··· ··· ··· N2j .. . Nij .. . Nrj ··· N2t .. . Nit .. . Nrt N2• .. . Ni• .. . Nr• N•1 N•2 ··· N•j ··· N•t N ··· ··· Tabella 21.3: Distribuzione doppia di frequenza dei caratteri A e B. Il generico elemento Nij interno alla tabella rappresenta la frequenza assoluta associata a (Ai , Bj ); i totali ∑t di riga Ni• = j=1 Nij , i ∈ {1, 2, ..., r}, costituiscono la distribuzione delle frequenze osservate del carattere ∑r A, mentre i totali di colonna N•j = i=1 Nij , j ∈ {1, 2, ..., t}, costituiscono la distribuzione delle frequenze osservate del carattere B. Come per il test di conformità, si distingue tra i due seguenti casi. Primi elementi di inferenza statistica (ed. maggio 2012) 158 M. Di Marzio 21. TEST CHI-QUADRATO ◃ Caso 1 Se le pdf di A e di B sono entrambe note, ossia se pi• e p•j sono date per ogni i ∈ {1, 2, ..., r} e per ogni j ∈ {1, 2, ..., t}, le frequenze attese sotto l’ipotesi nulla, o teoriche, sono E[Nij |pij = pi• p•j ] = N pi• p•j con i = 1, 2, ..., r, e j = 1, 2, ..., t. Infatti Nij fornisce il numero di successi in N prove indipendenti, dove la probabilità del singolo successo è pij . Così vale il modello binomiale, e il valore atteso della frequenza associata alla coppia (Ai , Bj ) è dato da E[Nij ] = N pij con i = 1, 2, ..., r, e j = 1, 2, ..., t. Di conseguenza la statistica test da adottare per verificare l’ipotesi di indipendenza sarà X2 = r ∑ t 2 ∑ (Nij − N pi• p•j ) N pi• p•j i=1 j=1 che ha distribuzione asintotica chi-quadrato con rt − 1 gradi di libertà. Essendoci infatti rt probabilità, ∑r ∑t i parametri sono rt − 1 poiché i=1 j=1 pij = 1. Fissato il livello di significatività α, la regione di rifiuto del test è allora definita da R = {χ2 : χ2 > χ2α,rt−1 }. ◃ Caso 2 Se le probabilità pi• e p•j non sono note, si considerano le rispettive stime ottenute applicando la concezione frequentista di probabilità p̂i• = Ni• N e p̂•j = N•j . N Le frequenze attese sotto l’ipotesi nulla sono allora definite da E[Nij |pij ] = N p̂i• p̂•j Ni• N•j =N N N Ni• N•j = . N Di conseguenza la statistica test adottata per verificare l’ipotesi di indipendenza risulta essere ( )2 N N r ∑ t Nij − i•N •j ∑ X2 = Ni• N•j i=1 j=1 N che ha approssimativamente distribuzione chi-quadrato con (r − 1)(t − 1) gradi di libertà. Il∑ numero di r gradi di libertà tiene conto del fatto che sono stimate r − 1 probabilità marginali pi• (poiché i=1 pi• = ∑t 1) e t − 1 probabilità marginali p•j (poiché j=1 p•j = 1). Così ν = (rt − 1) − (r − 1 + t − 1) = rt − r − t + 1 = (r − 1)(t − 1). Infine, fissato il livello di significatività α, la regione di rifiuto del test è R = {χ2 : χ2 > χ2α,(r−1)(t−1) }. 21.4 Test di omogeneità Si consideri un carattere A discreto o continuo, ripartito nelle modalità o classi A1 , A2 , ..., Ar , osservabile su t popolazioni P1 , P2 , ..., Pt . Si vuole verificare l’ipotesi che le t popolazioni siano omogenee rispetto al carattere A, nel senso che fA è la stessa in tutte le popolazioni. Indicata con pij la probabilità che A assuma la modalità Ai nella popolazione Pj , la distribuzione del carattere A (non nota) presso ciascuna popolazione può essere rappresentata come nella tabella 21.4. Il sistema d’ipotesi è { H0 : pi1 = pi2 = ... = pit = pi0 per ogni i ∈ {1, 2, ..., r}, H1 : pij ̸= pi0 M. Di Marzio per almeno una coppia (i, j). 159 Primi elementi di inferenza statistica (ed. maggio 2012) 21.4. Test di omogeneità Popolazioni A P1 P2 ··· Pj ··· Pt A1 p11 p12 ··· p1j ··· p1t A2 .. . Ai .. . Ar p21 .. . pi1 .. . pr1 p22 .. . pi2 .. . pr2 ··· .. . ··· .. . ··· p2j .. . pij prj ··· .. . ··· .. . ··· p2t .. . pit .. . prt 1 1 ··· 1 ··· 1 Tabella 21.4: Distribuzione di probabilità del carattere A presso t popolazioni. Campioni A C1 C2 ··· Cj ··· Ct A1 N11 N12 ··· N1j ··· N1t N1• A2 .. . Ai .. . Ar N21 .. . Ni1 .. . Nr1 N22 .. . Ni2 .. . Nr2 ··· .. . ··· .. . ··· N2j .. . Nij ··· Nrj ··· .. . ··· N2t .. . Nit .. . Nrt N2• .. . Ni• .. . Nr• N•1 N•2 ··· N •j ··· N•t N Tabella 21.5: Distribuzione di frequenza del carattere A presso t campioni. Si osservano allora le frequenze assolute associate alle modalità Ai , i = 1, 2, ..., r, nei campioni indipendenti C1 , C2 , ..., Ct estratti rispettivamente dalle popolazioni P1 , P2 , ..., Pt . La distribuzione delle frequenze assolute corrispendenti alle modalità di A rilevato sulle realizzazioni campionarie t è riportata nella tabella 21.5. Il totale N rappresenta il numero di unità complessivamente osservate. Inoltre i totali di colonna, di generico elemento N•j , indicano le ampiezze dei t campioni, mentre i totali di riga, di generico elemento Ni• , indicano il numero di unità che su N osservazioni presentano modalità Ai , i ∈ {1, 2, ..., r}. Per la determinazione delle frequenze teoriche occorre distinguere tra i due casi illustrati di seguito. ◃ Caso 1 Se le probabilità pi0 , i ∈ {1, 2, ..., r}, sono specificate nell’ipotesi nulla, allora le frequenze teoriche sono definite dal valore atteso di una v.c. binomiale di parametri N•j e pi0 , ossia E[Nij |pi1 = pi2 = ... = pit = pi0 ] = N•j pi0 . La statistica test da adottare per verificare l’ipotesi di omogeneità è allora X2 = r ∑ t ∑ (Nij − N•j pi0 )2 N•j pi0 i=1 j=1 che ha approssimativamente distribuzione chi-quadrato con t(r − 1) gradi di ∑ libertà. Infatti per la r j-sima popolazione i parametri coinvolti sono le r − 1 probabilità pij (essendo i=1 pij = 1), e poiché sono considerate t popolazioni, il numero totale dei parametri è t(r − 1). Pertanto, fissato il livello di significatività α, la regione di rifiuto del test è R = {χ2 : χ2 > χ2α,t(r−1) }. ◃ Caso 2 Se le probabilità pi0 , i ∈ {1, 2, ..., r}, non sono specificate, allora bisogna stimarle nel solito modo Ni• per i = 1, 2, ..., r. p̂i0 = N Primi elementi di inferenza statistica (ed. maggio 2012) 160 M. Di Marzio 21. TEST CHI-QUADRATO Le frequenze attese sotto l’ipotesi nulla sono allora N•j Ni• , N E[Nij |pi1 = pi2 = ... = pik ] = N•j p̂i0 = e la statistica test adottata per verificare l’ipotesi di omogeneità è X2 = ( r ∑ t Nij − ∑ i=1 j=1 N•j Ni• N )2 N•j Ni• N , che ha approssimativamente distribuzione chi-quadrato con (r − 1)(t − 1) gradi di Infatti sono ∑libertà. r coinvolti t(r − 1) parametri, ma sono state stimate r − 1 probabilità pi0 (poiché i=1 pi0 = 1); i gradi di libertà sono allora ν = t(r − 1) − (r − 1) = rt − t − r + 1 = (r − 1)(t − 1). Fissato il livello di significatività α, la regione di rifiuto del test rimane definita come R = {χ2 : χ2 > χ2α,(r−1)(t−1) }. M. Di Marzio 161 Primi elementi di inferenza statistica (ed. maggio 2012) 22 Esercizi svolti Esercizio 22.1. Un’indagine campionaria svolta su N = 50 conversazioni telefoniche interurbane effettuate dagli abbonati di una compagnia telefonica ha dato luogo alla seguente distribuzione di frequenza delle durate in minuti Durate (Ai ) <5 [5, 10) [10, 15) [15, 20) ≥ 20 N Frequenze (Ni ) 6 12 15 14 3 50 Verificare al livello α = 0.01 l’ipotesi che la durata A delle telefonate interurbane degli abbonati della compagnia abbia distribuzione N (12, 16). Soluzione Indicata con pi la probabilità che una conversazione telefonica casualmente selezionata abbia durata appartenente all’intervallo Ai , dove Ai ∈ {(−∞, 5), [5, 10), [10, 15), [15, 20), [20, +∞)}, e ricordando che se A ∼ N (µ, σ 2 ): ∫ c 2 2 1 √ e−(a−µ) /(2σ ) da P (A ∈ (b, c)) = b σ 2π il sistema d’ipotesi da sottoporre a verifica è ∫ ci 1 −(a−12)2 /(2×16) da per ognii ∈ {1, 2, ..., 5}, H0 : pi = bi 4√2π e Hi : pi ̸= ∫ ci 2 √1 e−(a−12) /(2×16) bi 4 2π da, per almeno un i ∈ {1, 2, ..., 5}, dove bi e ci sono gli estremi di Ai . Poiché l’ipotesi nulla specifica completamente la pdf del carattere A, le frequenze teoriche sono definite da E[Nij |pi = pi0 ] = N pi0 . Prima di definire la statistica test da adottare, poiché la classe [20, +∞) ha frequenza osservata inferiore a 5, si procede innanzitutto ad accorpare questa classe con la classe precedente. Le classi di durata diventano allora 4 e la statistica test da adottare è X2 = 4 ∑ (Ni − N pi0 )2 N pi0 i=1 , che ha distribuzione chi-quadrato con 4 − 1 = 3 gradi di libertà. Poiché il livello di significatività fissato è α = 0.01 e dalla tavola della distribuzione chi-quadrato risulta χ20.01,3 = 11.341, la regione di rifiuto del test è R = {χ2 : χ2 > 11.341}. Per determinare le frequenze attese sotto l’ipotesi nulla occorre, come detto, moltiplicare l’ampiezza N del campione per le probabilità pi0 . Queste probabilità possono essere facilmente calcolate utilizzando le tavole della distribuzione normale standard. Così, ad esempio, per le prime due classi si ottiene ) ( 5 − 12 = P (Z < −1.75) p10 = P (A < 5) = P Z < 4 = Φ(−1.75) = 1 − Φ(1.75) = 1 − 0.9599 = 0.0401, Primi elementi di inferenza statistica (ed. maggio 2012) 162 M. Di Marzio 22. ESERCIZI SVOLTI e ( p20 = P (A ∈ [5, 10)) = P 5 − 12 10 − 12 <Z< 4 4 ) = P (−1.75 < Z < −0.5) = Φ(−0.5) − Φ(−1.75) = (1 − Φ(0.5)) − (1 − Φ(1.75)) = Φ(1.75) − Φ(0.5) = 0.9599 − 0.6915 = 0.2684. Procedendo in modo analogo per le altre classi, è possibile determinare la realizzazione campionaria della statistica test attraverso la tabella seguente Classi A Classi Z Ni pi0 N pi0 Ni − N pi0 (Ni − N pi0 )2 /N pi0 <5 (-∞, -1.75) 6 0.0401 2.005 3.995 7.960 [5, 10) [-1.75, -0.5) 12 0.2684 13.420 -1.420 0.150 [10, 15) [-0.5, 0.75) 15 0.4649 23.245 -8.245 2.925 ≥ 15 [0.75, +∞) 17 0.2266 11.330 5.67 2.837 50 1 50 Totale 13.872 Poiché la realizzazione campionaria della statistica test è χ2 = 13.872, risulta χ2 > 11.341 e si rifiuta l’ipotesi nulla al livello di significatività fissato. Si conclude allora che la durata delle telefonate interurbane effettuate dagli abbonati della compagnia non ha distribuzione N (12, 16). Esercizio 22.2. In un’azienda, il numero X di incidenti avvenuti agli addetti alla produzione nell’ultimo anno ha dato luogo alla seguente distribuzione di frequenze N. incidenti (xi ) 0 1 2 3 4 ≥5 Frequenze (Ni ) 10 7 11 9 7 6 50 Verificare al livello α = 0.05 l’ipotesi che gli incidenti che colpiscono gli addetti alla produzione dell’azienda seguono una distribuzione di Poisson. Soluzione Indicata con pi la probabilità che un operaio casualmente selezionato abbia subito xi incidenti, il sistema di ipotesi da sottoporre a verifica è (λt)xi e−λt per ogni i ∈ {1, 2, ..., 6}, H0 : p i = xi ! H1 : pi ̸= (λt)xi e−λt xi ! per almeno un i ∈ {1, 2, ..., 6}. Poiché il parametro λt che caratterizza la distribuzione degli incidenti sotto l’ipotesi nulla è incognito, si procede alla sua stima. In particolare, ricordando che la stima di massima verosimiglianza del parametro λt di una distribuzione di Poisson è data dalla media campionaria, si ottiene ∑6 b = x̄ = i=1 xi Ni λt N 0 × 10 + 1 × 7 + 2 × 11 + 3 × 9 + 4 × 7 + 5 × 6 = 50 = 2.28. La frequenza attesa sotto l’ipotesi nulla in corrispondenza dell’i-esima modalità è allora data da N p̂i0 = 50 2.28xi e−2.28 , xi ! e la statistica test da adottare per sottoporre a verifica il sistema di ipotesi è 2 X = 6 ∑ (Ni − N p̂i0 )2 N p̂i0 i=1 , che ha approssimativamente distribuzione chi-quadrato con 6 − 1 − 1 = 4 gradi di libertà. Poiché α = 0.05 e dalle tavole della distribuzione chi-quadrato risulta χ20.05,4 = 9.49, la regione di rifiuto del test è definita da R = {χ2 : χ2 > 9.49}. La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente M. Di Marzio 163 Primi elementi di inferenza statistica (ed. maggio 2012) xi Ni p̂i0 N p̂i0 Ni − N p̂i0 (Ni − N p̂i0 )2 /N p̂i0 0 10 0.1023 5.115 4.885 4.665 1 7 0.2332 11.660 -4.660 1.862 2 11 0.2658 13.290 -2.290 0.394 3 9 0.2020 10.100 -1.100 0.120 4 7 0.1152 5.760 1.240 0.267 ≥5 6 0.1838 9.190 -3.190 1.107 Totale 50 1 50 8.415 Poiché la realizzazione campionaria della statistica test è χ2 = 8.415, risulta χ2 < 9.49 e, al livello di significatività fissato, i dati non smentiscono l’ipotesi nulla. Si conclude allora che il numero di incidenti subiti dagli addetti alla produzione dell’azienda ha distribuzione di Poisson. Esercizio 22.3. Presso la popolazione dei dipendenti di una grande azienda i caratteri sesso(A) e settore di lavoro(B) presentano le seguenti distribuzioni di probabilità A p(A) F 0.6 M 0.4 1 B p(B ) Produzione (p) 0.6 Vendite (v) 0.3 Direzione (d) 0.1 1 Su un campione di N = 54 dipendenti dell’azienda, è stata rilevata la seguente distribuzione doppia di frequenza dei caratteri A e B A p B v d Ni• F 8 10 6 24 M 13 7 10 30 N•j 21 17 16 54 Verificare al livello α = 0.05 l’ipotesi che il settore di lavoro sia indipendente dal sesso degli impiegati dell’azienda. Soluzione Indicata con pij la probabilità che un dipendente dell’azienda casualmente selezionato abbia sesso Ai e lavori nel settore Bj , il sistema di ipotesi da verificare è { H0 : pij = pi• p•j per ogni (i, j) ∈ {1, 2} × {1, 2, 3}, H1 : pij ̸= pi• p•j per almeno un (i, j) ∈ {1, 2} × {1, 2, 3}, dove pi• (rispettivamente p•j ) è la probabilità con cui il carattere A(risp. B) assume la modalità Ai (risp. Bj ). Poiché le probabilità pi• e p•j sono note per ogni i ∈ {1, 2} e per ogni j ∈ {1, 2, 3}, le frequenze attese sotto l’ipotesi nulla sono definite da E[Nij |pij = pi• p•j ] = N pi• p•j , e la distribuzione doppia di frequenza dei caratteri A e B è riportata di seguito A p B v F 19.44 9.72 3.24 32.4 M 12.96 6.48 2.16 21.6 N•j 32.4 16.2 5.4 54 Primi elementi di inferenza statistica (ed. maggio 2012) 164 d Ni• M. Di Marzio 22. ESERCIZI SVOLTI La statistica test adottata per verificare l’ipotesi di indipendenza è X2 = 2 ∑ 3 2 ∑ (Nij − N pi• p•j ) N pi• p•j i=1 j=1 che ha approssimativamente distribuzione chi-quadrato con 2 × 3 − 1 = 5 gradi di libertà. Poiché α = 0.05, e dalle tavole della distribuzione chi-quadrato risulta χ20.05,5 = 11.070, la regione di rifiuto è definita da R = {χ2 : χ2 > 11.070}. La realizzazione campionaria della statistica test è determinata attraverso la seguente tabella (Ai , Bj ) Nij N pi• p•j Nij − N pi• p•j (Nij − N pi• p•j )2 /(N pi• p•j ) (F, p) 8 19.44 -11.44 6.7322 (F, v) 10 9.72 0.28 0.0081 (F, d) 6 3.24 2.76 2.3511 (M, p) 13 12.96 0.04 0.0001 (M, v) 7 6.48 0.52 0.0417 (M, d) 10 2.16 7.84 28.4563 54 54 37.5895 Poiché la realizzazione campionaria della statistica test è χ2 = 37.5895, risulta χ2 > 11.070 e si rifiuta al livello di significatività fissato l’ipotesi di indipendenza tra sesso e settore di lavoro. Esercizio 22.4. Un’indagine svolta su un campione di N = 132 aziende italiane appartenenti a settori produttivi diversi, ha evidenziato le seguenti percentuali di produzione esportata Produzione esportata Settore produttivo < 20% 20% − 40% > 40% Ni• Alimentare (A) 43 16 3 62 Siderurgico (S) 6 11 10 27 Tessile (T) 9 18 16 43 N•j 58 45 29 132 Verificare, al livello α = 0.001, che la percentuale di produzione esportata sia indipendente rispetto al settore produttivo di appartenenza delle aziende italiane. Soluzione Sia pij la probabilità che un’azienda casualmente selezionata abbia la percentuale i di produzione esportata ed appartenga al settore produttivo j e sia pi• (rispettivamente p•j ) la probabilità che un’azienda selezionata casualmente abbia percentuale i di produzione esportata (risp. appartenga al settore produttivo j). Il sistema di ipotesi da sottoporre a verifica è { H0 : pij = pi• p•j per ogni (i, j) ∈ {1, 2, 3} × {1, 2, 3} H1 : pij ̸= pi• p•j per almeno un (i, j) ∈ {1, 2, 3} × {1, 2, 3}. Poiché le distribuzioni marginali dei due caratteri considerati sono incognite, occorre determinarne le rispettive stime N•j Ni• e p̂•j = . N N Le frequenze attese sotto l’ipotesi nulla risultano pertanto definite da p̂i• = E[Nij |pij = p̂i• p̂•j ] = M. Di Marzio 165 Ni• N•j , N Primi elementi di inferenza statistica (ed. maggio 2012) e la statistica test adottata per saggiare l’ipotesi di indipendenza è ( )2 N N 3 ∑ 3 Nij − i•N •j ∑ X2 = , Ni• N•j i=1 j=1 N che ha distribuzione chi-quadrato con (3 − 1)(3 − 1) = 4 gradi di libertà. Poiché α = 0.001 e dalla tavola della distribuzione chi-quadrato risulta χ20.001,4 = 18.47, la regione di rifiuto del test è definita da R = {χ2 : χ2 > 18.47}. La realizzazione campionaria della statistica test è determinata allora attraverso la tabella seguente ( )2 / Ni• N•j Ni• N•j Ni• N•j Ni• N•j Modalità Nij N − N − ij ij N N N N (A, 20%) 43 27.24 15.76 9.11 (A, 20% − 40%) 16 21.14 -5.14 1.25 (A, > 40%) 3 13.62 -10.62 8.28 (S, 20%) 6 11.86 -5.86 2.90 (S, 20% − 40%) 11 9.20 1.80 0.35 (S, > 40%) 10 5.93 4.07 2.79 (T, 20%) 9 18.89 -9.89 5.18 (T, 20% − 40%) 18 14.66 3.34 0.76 (T, > 40%) 16 9.45 6.55 4.55 132 132 35.17 Poiché la realizzazione campionaria della statistica test è χ2 = 35.17, risulta χ2 > 18.47 e si rigetta, al livello di significativà prescelto, l’ipotesi di indipendenza tra percentuale di produzione esportata e settore di appartenenza delle aziende italiane. Esercizio 22.5. Su due campioni di persone rispettivamente residenti in regioni del nord e del sud dell’ Italia, è stato condotto un sondaggio su una nuova proposta di legge, ottenendo i risultati seguenti Aree Pareri Sud N ord Ni• Favorevole (f) 60 40 100 Contrario (c) 80 100 180 N•j 140 140 280 Verificare al livello α = 0.01 che in entrambe le aree geografiche italiane la proposta di legge raccolga il 50% di pareri favorevoli. Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dai residenti nel Nord e nel Sud Italia. L’ipotesi da verificare è se tali popolazioni siano omogenee rispetto al giudizio su una nuova proposta di legge ed in particolare se in entrambe ci sia la stessa percentuale (50%) di persone favorevoli e di persone contrarie alla nuova proposta. Pertanto, indicata con pij la probabilità che selezionato casualmente un individuo questo sia residente nella zona j-sima e presenti la preferenza i-sima, il sistema di ipotesi da verificare è { H0 : pi1 = pi2 = 0.5 per ogni i ∈ {1, 2}, H1 : pi1 ̸= pi2 per almeno un i ∈ {1, 2}. Le frequenze attese sotto l’ipotesi nulla sono allora definite da E[Nij |pi1 = pi2 = 0.5] = N•j pi0 = N•j × 0.5. La distribuzione delle frequenze teoriche è riportata nella tabella seguente Primi elementi di inferenza statistica (ed. maggio 2012) 166 M. Di Marzio 22. ESERCIZI SVOLTI Aree Pareri Sud Nord Ni• Favorevole (f) 70 70 140 Contrario (c) 70 70 140 N•j 140 140 280 La statistica test da usare per saggiare l’ipotesi di indipendenza è X2 = 2 2 ∑ ∑ (Nij − N•j pi0 )2 N•j pi0 i=1 j=1 che ha distribuzione chi-quadrato con 2 (2 − 1) = 2 gradi di libertà. Poiché α = 0.01 e dalla tavola della distribuzione chi-quadrato risulta χ20.01,2 = 9.210, la regione di rifiuto del test è R = {χ2 : χ2 > 9.210}. La realizzazione campionaria della statistica test è determinata come segue Nij N•j pi0 Nij − N•j pi0 (Nij − N•j pi0 )2 /N•j pi0 (f, S) 60 70 -10 1.4286 (f, N) 40 70 -30 12.8571 (c, S) 80 70 10 1.4286 (c, N) 100 70 30 12.8571 280 280 28.5714 Poiché χ2 = 28.5714 risulta χ2 > 9.210, e si rifiuta al livello α = 0.01 l’ipotesi che in entrambe le aree geografiche il 50% dei residenti sia favorevole alla nuova proposta di legge. Esercizio 22.6. Un’azienda produttrice di componenti elettronici realizza gli assemblaggi necessari all’ottenimento di un certo tipo di trasformatori attraverso quattro macchinari A, B, C e D. Si estrae un campione dalla produzione di ciascuna macchina ottenendo i risultati seguenti. Macchinari Assemblaggi A B C D Ni• Difettosi (d) 10 16 14 20 60 Non difettosi (nd) 50 34 46 50 180 N•j 60 50 60 70 240 Verificare al livello α = 0.05 che tra i macchinari dell’azienda non c’è differenza di prestazioni. Soluzione Nel problema in esame le popolazioni di interesse sono rappresentate dalle produzioni dei 4 macchinari dell’azienda. L’ipotesi da verificare è se tali popolazioni siano omogenee rispetto alle caratteristiche di difettosità. In particolare, indicata con pij la probabilità che scelto casualmente un prodotto dalla produzione della j-sima macchina esso presenti la caratteristica i-sima, il sistema da verificare è { H0 : pi1 = pi2 = pi3 = pi4 = pi0 per ogni i ∈ {1, 2}, per almeno un i ∈ {1, 2}. H1 : H0 non vera Poiché le probabilità pi0 comuni sotto l’ipotesi nulla sono incognite, si procede alla loro stima come segue N1• 60 N2• 180 = = 0.25, p̂20 = = = 0.75. N 240 N 240 Le frequenze attese sotto l’ipotesi nulla sono allora definite da p̂10 = E[Nij |pi1 = pi2 = pi3 = pi4 = p̂i0 ] = N•j p̂i0 = N•j Ni• , N per i ∈ {1, 2}, e se ne riporta la distribuzione nella tabella che segue M. Di Marzio 167 Primi elementi di inferenza statistica (ed. maggio 2012) Macchinari Assemblaggi A B C D Ni• Difettosi (d) 15 12.5 15 17.5 60 Non difettosi (nd) 45 37.5 45 52.5 180 N•j 60 50 60 70 240 La statistica test da impiegare per verificare l’ipotesi di omogeneità tra le prestazioni dei macchinari è allora definita da ( )2 N N 2 ∑ 4 Nij − •jN i• ∑ X2 = , N•j Ni• i=1 j=1 N che ha distribuzione chi-quadrato con (2 − 1) (4 − 1) = 3 gradi di libertà. Poiché α = 0.05 e dalla tavola della distribuzione chi-quadrato risulta χ20.05,3 = 7.815, la regione di rifiuto del test è R = {χ2 : χ2 > 7.815}. La realizzazione campionaria della statistica test è determinata attraverso la tabella seguente ( )2 / N•j Ni• N•j Ni• N•j Ni• N•j Ni• Nij N − N − ij ij N N N N (d, A) 10 15 -5 1.6667 (d, B) 16 12.5 3.5 0.9800 (d, C) 14 15 -1 0.0667 (d, D) 20 17.5 2.5 0.3571 (nd, A) 50 45 5 0.5555 (nd, B) 34 37.5 -3.5 0.3266 (nd, C) 46 45 1 0.0222 (nd, D) 50 52.5 -2.5 0.1190 240 240 4.094 Poiché χ2 = 4.094 risulta χ2 < 7.815, e si accetta l’ipotesi di omogeneità tra le prestazioni dei quattro macchinari dell’azienda. Primi elementi di inferenza statistica (ed. maggio 2012) 168 M. Di Marzio 23 Predizione Indice 23.1 Predittori ottimi non condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . 169 23.2 Predittori ottimi condizionati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170 23.3 Due modelli di media condizionata . . . . . . . . . . . . . . . . . . . . . . . . . . 171 23.1 Predittori ottimi non condizionati Supponiamo di sapere come un carattere Y si distribuisce presso una popolazione, cioè di conoscere fY . Spesso è di interesse prevedere, sulla base di fY , il valore y associato a un individuo estratto a caso. La predizione di y produce un numero il piu possibile prossimo a y. Si noti che la predizione può essere considerata una procedura logicamente contraria a quella della stima. Infatti l’obiettivo non è conoscere una caratteristica di una pdf ignota sulla base dei dati, come accade per la stima, ma predire i dati che verranno estratti da una pdf completamente nota. Poiché la predizione, che indichiamo con cfY , sfrutta solo la conoscenza di fY , non avrà natura casuale, ma sarà sempre la stessa ogni volta che y dovrà essere previsto. Chiamiamo la v.c. E = Y − cfY errore di approssimazione o predizione. Per errore quadratico medio (o rischio) di predizione si intende il valore atteso del quadrato dell’errore di predizione EQMP[cfY ] = E[E 2 ] = E[(Y − cfY )2 ]. Come valore atteso della funzione di v.c. (Y − cfY )2 , il rischio avrà le seguenti espressioni1 E[E 2 ] = ∑t 2 j=1 (yj − cfY ) p(yj ) se Y è discreta con t modalità, ∫ +∞ −∞ (y − cfY )2 fY dy se Y è continua. La predizione ottima di y è quel numero c∗fY per cui il rischio è minimo, in formule c∗fY = arg min E[(Y − cfY )2 ]. cfY È facile dimostrare che c∗fY = E[Y ]. Infatti EQMP[cfY ] = E[(Y − cfY )2 ] = E[(Y − E[Y ] + E[Y ] − cfY )2 ] = E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ] + 2E[(Y − E[Y ])(E[Y ] − cfY )] = E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ] + 2(E[Y ] − cfY )E[(Y − E[Y ])] = E[(Y − E[Y ])2 ] + E[(E[Y ] − cfY )2 ] = Var[Y ] + E[(E[Y ] − cfY )2 ] 1 Nel resto del capitolo X e Y saranno supposte continue. M. Di Marzio 169 Primi elementi di inferenza statistica (ed. maggio 2012) 23.2. Predittori ottimi condizionati ora, Var[Y ] non dipende da cfY , così E[(E[Y ] − cfY )2 ] ≥ 0, la predizione ottima c∗fY di y è quella che annulla E[(E[Y ] − cfY )2 ]. Di conseguenza c∗fY = E[Y ] e EQMP[c∗fY ] = Var[Y ]. Un’altra evidente proprietà di c∗fY è che in media essa produce previsioni esatte, infatti E[Y − c∗fY ] = E[Y ] − E[Y ] = 0. 23.2 Predittori ottimi condizionati Sia data una v.c. doppia (X, Y ) di cui conosciamo fXY . Assumiamo di voler predire i valori di Y sapendo che essa è correlata con X, e che x può essere usata per predire y. Con riferimento al loro differente ruolo, X è chiamata variabile esplicativa e Y variabile risposta. Esempio 23.1. Alcune coppie di variabili esplicative e risposta: il prezzo e il fatturato; l’altezza e il peso; la quantità di studio e il rendimento; il titolo di studio e la retribuzione; i prezzi del sottostante di un’opzione e dell’opzione. Se, come è naturale, scegliamo di utilizzare anche l’informazione contenuta in x, allora∫il nostro predittore si deve basare sulla pdf condizionata fY |x , non semplicemente sulla marginale fY (y) = fXY (x, y) dx. Tale problema è chiamato predizione condizionata, qui il predittore, che indichiamo come gfY |x , è una funzione di x, così come lo sarà pure il rischio EQMP[gfY |x ] = E[(Y − gfY |x )2 ], dove il valore atteso è preso rispetto alla densità condizionata fY |x . Per le stesse ragioni viste nel caso non condizionato, anche qui il predittore ottimo di y, cioè la funzione che minimizza EQMP[gfY |x ], è il valore atteso, che in questo caso è condizionato. Tale valore atteso può essere inteso come funzione deterministica o come v.c.. Infatti dopo l’osservazione di x esso è una funzione deterministica di x, cioè µY |x = E[Y |X = x]. Ma prima di osservare x la media condizionata è una v.c., poiché applicata alla v.c. X, cioè µY |X = E[Y |X]; in quest’ultimo caso il valore atteso è preso rispetto alla pdf fXY . Così, osservato x, abbiamo le seguenti espressioni di media condizionata e relativo rischio ottimo µY |x = E[Y |X = x], EQMP[µY |x ] = Var[Y |X = x] dove valore atteso e varianza sono entrambi calcolati usando la pdf condizionata fY |x . Prima di osservare x abbiamo invece le seguenti espressioni µY |X = E[Y |X], E[EQMP[µY |X ]] = E[Var[Y |X]] dove valore atteso e varianza sono entrambi calcolati usando la pdf congiunta fXY . Prima di osservare x il rischio è naturalmente definito come il valore atteso di EQMP[µY |X ]. Infatti se esiste un rischio condizionato per ogni valore x, allora il rischio prima di osservare x sarà una media di tutti quelli condizionati. Ora è facile dimostrare che il rischio ottimo condizionato prima di osservare x è minore del rischio ottimo non condizionato visto nella sezione precedente, per cui sarà sempre conveniente fare predizioni condizionate. In formule: E[EQMP[µY |X ]] = E[Var[Y |X]] ≤ EQMP[E[Y]] = Var[Y] così da concludere che una predizione condizionata ha rischio non maggiore di quello di una predizione non condizionata E[Y ], risultando formalmente giustificata la scelta – operata prima di osservare x – di usare l’informazione contenuta in x per predire il valore di Y . Infatti ricordando che Var[X] = E[X 2 ] − (E[X]2 ) si ha che Var[Y |X] = E[(Y − E[Y ])2 |X] = E[Y 2 |X] − (E[Y |X])2 , e risulta E[Var[Y |X]] = E[E[Y 2 |X] − (E[Y |X])2 ] = E[E[Y 2 |X]] − E[(E[Y |X])2 ] = E[Y 2 ] − E[(E[Y |X])2 ] + (E[Y ])2 − (E[Y ])2 = Var[Y ] − E[(E[Y |X])2 ] + (E[Y ])2 = Var[Y ] − E[(E[Y |X])2 ] + (E[E[Y |X])2 = Var[Y ] − Var[E[Y |X]] ≤ Var[Y ] Primi elementi di inferenza statistica (ed. maggio 2012) 170 M. Di Marzio 23. PREDIZIONE nei passaggi dalla seconda alla terza equazione e dalla quarta alla quinta abbiamo usato la proprietà delle medie iterate (sez. 9.4). Così E[Var[Y |X]] ≤ Var[Y ]. La funzione µY |· è chiamata in molti modi diversi. In questa sede i termini predittore ottimo di Y tramite X, linea delle medie condizionate di Y rispetto a X e funzione di regressione di Y su X saranno usati come sinonimi. Esempio 23.2. Data una v.c. doppia (X, Y ), con la seguente pdf di Y condizionata a x: per x ∈ [0, 21 ] mentre per x ∈ 1 fY |x (y) = 2x 0 ( 12 , 1] fY |x (y) = 0 ≤ y ≤ 2x altrimenti 1 0≤y≤1 0 altrimenti. Ricavare: a) il predittore ottimo di Y tramite X; b) il rischio di predizione. a) Poichè la v.c. Y si distribuisce uniformente, la funzione di regressione di Y dato X è la seguente µY |x b) Mentre il rischio di predizione è x = 1 2 1 2 se 1/2 ≤ x ≤ 1. se 0 ≤ x ≤ 2 x 3 Var[Y |X = x] = 1 12 0≤x≤ 1 2 1 ≤ x ≤ 1. 2 La figura 23.1 rappresenta sia la la linea delle medie (in grassetto), sia tutti i possibili valori della coppia (x, y) (area ombreggiata). Y 0000000000000000 1111111111111111 1111111111111111 0000000000000000 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0000000000000000 1111111111111111 0 1 1/2 X Figura 23.1: Predittore ottimo dell’esempio 23.2. 23.3 Due modelli di media condizionata La specificazione della media condizionata µY |· richiede la conoscenza della pdf congiunta fXY . Infatti da fXY si ricava fY |X , e con rispetto a quest’ultima essa si calcola la media condizionata. Nella trattazione che segue ci limiteremo studiare il caso in cui è noto che (X, Y ) ha pdf normale doppia. Esso somma la semplicità di trattazione a una notevole applicabilità negli studi pratici. Sarà inoltre presentato un secondo rilevante caso, dove la specificazione di µ[Y |·] non richiede l’uso della pdf congiunta, infatti spesso si può affermare che il predittore ha forma lineare indipendentemente da quale sia la pdf di (X, Y ). M. Di Marzio 171 Primi elementi di inferenza statistica (ed. maggio 2012) 23.3. Due modelli di media condizionata ⋄ Modello normale Come si è appreso nella sezione 9.9, se (X, Y ) ha pdf normale doppia di parametri 2 µ X , σX , µY , σY2 , e ρXY , allora la pdf condizionata fY |x è anch’essa normale. Il suo valore atteso µY |X = µY + ρXY σY (X − µX ) σX è, come si è visto nella sezione precedente, il predittore ottimo di Y condizionato a X. Si deve sottolineare che esso è lineare in X. Mentre la sua varianza, cioè Var[Y |X] = σY2 (1 − ρ2XY ), ne costituisce il rischio condizionato, che evidentemente è lo stesso per ogni valore di X. Per cui, eccezionalmente, nel caso di normalità i rischi prima e dopo l’ossevazione di X sono gli stessi, formalmente E[Var[Y |X]] = E[EQMP[µY |X ]] = E[σY2 (1 − ρ2XY )] = σY2 (1 − ρ2XY ) = Var[Y |X]. Come si vede, il rischio è inversamente proporzionale al quadrato del coefficiente di correlazione, così più al crescere della correlazione dimuinuisce il rischio (migliora la precisione) del predittore µY |· . Ciò è intuitivo se si considera che l’informazione su Y contenuta in X è proporzionale al valore del loro coefficiente di correlazione ρXY . Ad esempio, se le vv.cc. sono incorrelate sono anche indipendenti per l’ipotesi di normalità, così ci aspettiamo che l’uso di x per predire Y sia superfluo. In questo caso il rischio del predittore condizionato raggiunge il suo massimo che è σY2 . Si noti che tale massimo coincide con il rischio del predittore non condizionato, ciò conferma che il predittore condizionato ha rischio non maggiore di quello non condizionato. Se al contrario la correlazione è molto alta, il rischio è molto basso, infatti i dati tendono ad ammassarsi intorno a una retta (si veda la figura 9.3), e di conseguenza un predittore lineare fornisce approssimazioni soddisfacenti. Esempio 23.3. Abbia (X, Y ) pdf normale con σY2 = 10 e ρXY = 0.25. Se si ignora la v.c. X, e si operano predizioni su Y attraverso E[Y ], il rischio è EQMP[E[Y ]] = Var[Y ] = 10. Se invece si ricorre alla funzione di regressione di Y su X, allora EQMP[µY |X ] = (1 − ρ2XY )σY2 = (1 − 0.0625)10 = 9.9375. Sfruttando l’informazione ausiliaria contenuta in X si riduce il rischio di oltre il 6%. ⋄ Linearità Spesso non si conosce la pdf congiunta, ma si può ragionevolmente supporre che la media condizionata è funzione lineare di X, ossia che E[Y |X] = µY |X = β0 + β1 X. Questa specificazione esprime una famiglia di rette indicizzata dalla coppia di parametri (β0 , β1 ). Si deve comunque conoscere quale particolare retta costituisce il predittore ottimo. A tale scopo occorre specificare i parametri β0 e β1 che caratterizzano la funzione di regressione come segue. Poiché β0 +β1 X dovrà essere il predittore ottimo di Y dato X, i parametri (β0 , β1 ) devono essere tali da minimizzare il rischio. Anzitutto troviamo una espressione conveniente per quest’ultimo EQMP[µY |X ] = E[(Y − (β0 + β1 X))2 ] = E[Y 2 + (β0 + β1 X)2 − 2Y (β0 + β1 X)] = E[Y 2 + β02 + β12 X 2 + 2β0 β1 X − 2β0 Y − 2β1 XY ] = E[Y 2 ] + β02 + β12 E[X 2 ] + 2β0 β1 E[X] − 2β0 E[Y ] − 2β1 E[XY ], per determinare β0 e β1 si procede al calcolo delle derivate parziali rispetto a β0 e β1 , ottenendo il seguente sistema ∂EQMP[µY |X ] = 2β + 2β E[X] − 2E[Y ] 0 1 ∂β0 ∂EQMP[µY |X ] = 2β1 E[X 2 ] + 2β0 E[X] − 2E[XY ] ∂β1 ed eguagliando a 0 le equazioni del sistema si ricava { β0 + β1 E[X] = E[Y ] β0 E[X] + β1 E[X 2 ] = E[XY ] . Primi elementi di inferenza statistica (ed. maggio 2012) 172 M. Di Marzio 23. PREDIZIONE Moltiplicando la prima equazione per E[X], e sottraendo l’equazione così ottenuta dalla seconda equazione del sistema si determina β1 E[XY ] − E[X]E[Y ] E[X 2 ] − (E[X])2 Cov[X, Y ] = , Var[X] β1 = e di conseguenza, specificando β1 nella prima equazione del sistema si ottiene β0 = E[Y ] − β1 E[X] = E[Y ] − Cov[X, Y ] E[X]. Var[X] Il predittore lineare ottimo è allora Cov[X, Y ] Cov[X, Y ] E[X] + X Var[X] Var[X] Cov[X, Y ] = E[Y ] + (X − E[X]) Var[X] µY |X = E[Y ] − e l’errore quadratico medio di previsione ad esso corrispondente, che è il minimo possibile, si calcola come segue EQMP[µY |X ] = E[(Y − µY |X )2 ] [{ }2 ] Cov[X, Y ] (X − E[X]) = E Y − E[Y ] − Var[X] [ { }2 { }] Cov[X, Y ] Cov[X, Y ] = E (Y − E[Y ])2 + (X − E[X]) − 2(Y − E[Y ]) (X − E[X]) Var[X] Var[X] ( )2 Cov[X, Y ] (Cov[X, Y ])2 = Var[Y ] + Var[X] − 2 Var[X] Var[X] (Cov[X, Y ])2 = Var[Y ] − Var[X] ( ) (Cov[X, Y ])2 = Var[Y ] 1 − Var[Y ]Var[X] Avviene, senza alcuna sorpresa, che il predittore lineare ottimo coincide con quello ottenuto nel caso della normale, dove si era constatato che il predittore ottimo è lineare. Esempio 23.4. Nella figura 23.2 osserviamo un modello di predittore lineare ottimo. Si possono osservare le tre previsioni µY |x1 , µY |x2 , µY |x3 operate dal predittore ottimo µY |x = β0 + β1 x. I Rispettivi valori di Y verificatisi sono y1 , y2 , y3 , mentre gli errori di previsione sono e1 , e2 , e3 . Riassumendo, abbiamo discusso le seguenti specificazioni del predittore lineare ottimo: 2 ⋄ se (X, Y ) ha pdf normale con parametri µX , µY , σX , σY2 , ρXY : µY |X = µY + ρXY σY (X − µX ); σX ⋄ se la media di Y è funzione lineare di X: µY |X = E[Y ] + Cov[X, Y ] (X − E[X]). Var[X] ) σY ( ] risp. Cov[X,Y misura di quanto varia la media di Y per variazioni marginali di X ed è Var[X] σX ( ) σY ] anche chiamata coefficiente di regressione; la quantità µY + ρXY − µX risp. E[Y ] + Cov[X,Y − E[X] Var[X] σX rappresenta l’intercetta verticale. La quantità ρXY M. Di Marzio 173 Primi elementi di inferenza statistica (ed. maggio 2012) 23.3. Due modelli di media condizionata Figura 23.2: Esempio di modello predittivo lineare ottimo. Primi elementi di inferenza statistica (ed. maggio 2012) 174 M. Di Marzio 24 Inferenza su medie condizionate Indice 24.1 24.2 24.3 24.4 24.1 Stima . . . . . . . . . . . . . . . Proprietà degli stimatori B0 e Stime intervallari e test su β1 Test di linearità . . . . . . . . . . B1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 179 181 182 Stima Data la v.c. doppia (X, Y ), immaginiamo di voler determinare la media di Y condizionata ad un certo valore di X, cioè µY |x = E[Y |X = x], quando non abbiamo completa conoscenza di fXY . Tale predittore non può essere calcolato, quanto meno perché, come detto, fXY non è del tutto nota. Comunque si può sempre stimarlo sulla base di una realizzazione (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) di un campione casuale (X1 , Y1 ), (X2 , Y2 ), ..., (Xn , Yn ) generato da fXY . Di seguito sono illustrati alcuni metodi di costruzione di stimatori di µY |x , ognuno di essi presuppone un differente grado conoscenza di fXY : naturalmente più ipotesi si possono fare a priori, più accurato1 risulterà lo stimatore che ne verrà fuori. In breve, si può affermare quanto segue sui metodi che presenteremo. Un metodo che non richiede informazioni extra-campionarie è quello non parametrico. Ovviamente esso non può incorrere nell’errore di errata specificazione, ma è poco efficace. Il metodo dei minimi quadrati presuppone più informazione a priori poichè richiede che il predittore ottimo sia una retta. Il metodo della massima verosimiglianza fa uso del massimo dell’informazione a priori, infatti richiede sia l’epressione parametrica della media condizionata µY |x sia la conoscenza della famiglia parametrica di appartenenza della densità congiunta fXY . Al termine della sezione 24.2 si vedrà che il metodo della massima verosimiglianza ha proprietà migliori del metodo dei minimi quadrati. Infine il metodo dell’analogia svolge un ruolo assai mediocre poichè, sebbene semplice e intuitivo, richiede la conoscenza della funzione di regressione avendo particolari proprietà di accuratezza. Nella tabella 24.1 è mostrata la notazione usata per la distribuzione di frequenza rilevata sul campione (X ha r modalità, Y ne ha t). In particolare, data una numerosità n, sono riportate le seguenti frequenze assolute: nij che è associata alla coppia (xi , yj ), ni• che è associata a xi e infine n•j che è associata a yj . I dati campionari sono di solito graficamente rappresentati attraverso il diagramma di dispersione, cioè un sistema di assi cartesiani dove ogni asse indica un carattere e ogni punto una delle r × t coppie {(xi , yj ), i = 1, ..., r, j = 1, ..., t} di modalità osservate. ◃ Metodo non parametrico Un metodo non parametrico per la stima di medie condizionate consiste nel calcolo diretto delle stesse sui dati campionari, in corrispondenza dei diversi valori assunti da X: mY |xi t 1 ∑ = yj nij . ni• j=1 Inoltre, congiungendo attraverso segmenti i punti di coordinate (xi , mY |xi ) si ottiene una spezzata, detta spezzata di regressione. Sebbene la spezzata dia un’idea dell’andamento globale del fenomeno, 1 Esattamente come nel resto dell’inferenza, un metodo si intende tanto più accurato quanto migliori sono le proprietà possedute. M. Di Marzio 175 Primi elementi di inferenza statistica (ed. maggio 2012) 24.1. Stima Y X y1 y2 ··· yj ··· yt Totale x1 n11 n12 ··· n1j ··· n1t n1• x2 .. . n21 .. . n22 .. . ··· n2j .. . ··· n2t .. . n2• .. . xi .. . ni1 .. . ni2 .. . ··· nij .. . ··· nit .. . ni• .. . xr nr1 nr2 ··· nrj ··· nrt nr• n•1 n•2 ··· n•j ··· n•t n Tabella 24.1: Notazione per la distribuzione doppia di frequenza dei caratteri X e Y . chiaramente i valori della spezzata diversi dai punti di coordinate (xi , mY |xi ) non possono in alcun modo essere considerati come stime di medie condizionate. Esempio 24.1. Abbiamo osservato un campione casuale di numerosità n = 51 con la seguente distribuzione doppia di frequenze Y X 1 2 3 4 5 6 7 8 9 10 11 12 1 1 2 3 2 1 0 0 0 0 0 0 0 9 2 0 0 0 2 3 5 5 3 2 1 0 0 22 3 0 0 0 0 1 4 4 1 0 0 0 0 10 4 0 0 0 0 0 0 1 2 2 2 2 1 10 1 2 4 4 5 9 10 6 4 3 2 1 51 Nella figura 24.1 di sinistra i dati sono rappresentati attraverso il diagramma di dispersione. Ogni coppia (xi , yi ) è rappresentata da un punto; ma essendo molte coppie uguali molti punti sono sovrapposti così nel grafico non ne possiamo contare 51. Consideriamo adesso le stime dei previsori ottimi in corrispondenza dei valori di X osservati: X 1 2 3 4 mY |xi 3 6.36 6.50 9.50 Nella figura 24.1 di destra possiamo notare la spezzata di regressione. ◃ Metodo dell’analogia Nel caso non comune che la formula del predittore sia nota una strategia molto intuitiva per ottenere uno stimatore del predittore consiste nel sostituire le quantità del campione alle quantità della popolazione contenute nella formula. (x − µX ), inoltre sia (1.1, 1.7), (0.9, 2), (1.3, 2.3) la realizzazione di un campione casuale estratto dalla pdf incognita della v.c. (X, Y ). Sulla base dei dati campionari risulta Esempio 24.2. Immaginiamo di sapere che il predittore ottimo abbia forma µy + ρXY σX σY (1.1 − 1.1)2 + (0.9 − 1.1)2 + (1.3 − 1.1)2 1.1 + 0.9 + 1.3 = 1.1, s2X = = 0.0267, 3 3 (1.7 − 2)2 + (2 − 2)2 + (2.3 − 2)2 1.7 + 2 + 2.3 ȳ = = 2, s2Y = = 0.06 3 3 x̄ = e rXY = (1.1 − 1.1)(1.7 − 2) + (0.9 − 1.1)(2 − 2) + (1.3 − 1.1)(2.3 − 2) √ = 0.5. 0.0267 × 0.06 Primi elementi di inferenza statistica (ed. maggio 2012) 176 M. Di Marzio 24. INFERENZA SU MEDIE CONDIZIONATE Figura 24.1: Rappresentazione grafica di dati bidimensionali. Pertanto la stima del predittore lineare ottimo, ottenuta con il metodo dell’analogia, è data da √ 0.0267 mY |x = 2 + 0.5 √ (x − 1.1) = 1.175 + 0.33x. 0.06 ◃ Metodo dei minimi quadrati Nella sezione 23.3 è stato definito il predittore lineare ottimo µY |· = β0 + β1 ·, ottimo perchè β0 e β1 sono stati determinati in modo da rendere minimo l’errore quadratico atteso di predizione. Se fXY è ignota, ma si sa che la media condizionata è funzione lineare di X, non resta che stimare β0 e β1 . A tal fine una strategia ragionevole appare il trattare la realizzazione campionaria come popolazione, ed applicare ad essa il metodo descritto nella sezione 23.3 per la determinazione di β0 e β1 . Così, data la realizzazione (x1 , y1 ), (x2 , y2 ), ..., (xn , yn ) di un campione casuale estratto da fXY , i parametri della retta delle medie condizionate vengono stimati tramite il metodo dei minimi quadrati, secondo il quale le stime di β0 e β1 minimizzano EQMP[β0 + β1 xi ] = n ∑ (yi − (β0 + β1 xi ))2 , i=1 cioè la versione empirica dell’errore quadratico di predizione. Poichè risulta n ∑ (yi − (β0 + β1 xi ))2 = i=1 n ∑ (yi2 + (β0 + β1 xi )2 − 2yi (β0 + β1 xi )) i=1 = n ∑ (yi2 + β02 + β12 x2i + 2β0 β1 xi − 2β0 yi − 2β1 xi yi ) i=1 = n ∑ i=1 yi2 + nβ02 + β12 n ∑ i=1 x2i + 2β0 β1 n ∑ xi − 2β0 i=1 n ∑ yi − 2β1 i=1 n ∑ xi yi , i=1 le derivate parziali rispetto a β0 e β1 sono ∑n ∑n ∂EQMP[β0 + β1 xi ] = 2nβ0 + 2β1 i=1 xi − 2 i=1 yi ∂β0 ∑ ∑ ∑ ∂EQMP[β0 + β1 xi ] = 2β1 ni=1 x2i + 2β0 ni=1 xi − 2 ni=1 xi yi , ∂β1 da cui eguagliando a 0 si ottiene ∑n ∑n nβ0 + β1 i=1 xi = i=1 yi ∑n ∑n ∑n β0 i=1 xi + β1 i=1 x2i = i=1 xi yi . M. Di Marzio 177 Primi elementi di inferenza statistica (ed. maggio 2012) 24.1. Stima ∑n x i Moltiplicando per i=1 la prima equazione del sistema e sottraendo l’equazione così ottenuta dalla n seconda equazione del sistema, si ottiene ∑n ∑n ∑n n i=1 xi yi − i=1 xi i=1 yi ∑ ∑ b1 = n n n i=1 x2i − ( i=1 xi )2 = ∑n (x − x̄)(yi − ȳ) i=1 ∑n i 2 i=1 (xi − x̄) = rXY e di conseguenza sY sX ∑n i=1 b0 = ∑n yi − b1 n = ȳ − rXY i=1 xi n sY x̄. sX ◃ Metodo della massima verosimiglianza Se oltre all’ipotesi di linearità vale anche l’ipotesi di normalità della v.c. (X, Y ), allora la distribuzione condizionata di Y sarà normale (sez. 9.9) con media β0 + β1 x e varianza incognita che indichiamo con σ 2 . In questo caso è possibile stimare β0 , β1 e σ 2 ricorrendo al metodo della massima verosimiglianza. La funzione di verosimiglianza è data dal prodotto delle densità condizionate: L(β0 , β1 , σ 2 ) = n ∏ i=1 √ 1 2πσ 2 (yi − (β0 + β1 xi ))2 2σ 2 e − ∑n 2 −n/2 = (2πσ ) − i=1 (yi e e la corrispondente funzione di log-verosimiglianza è n n L(β0 , β1 , σ ) = − log 2π − log σ 2 − 2 2 2 ∑n − (β0 + β1 xi ))2 , 2σ 2 i=1 (yi − (β0 + β1 xi ))2 . 2σ 2 La stima di massima verosimiglianza per σ 2 è ottenuta da ∑n 2 ∂L(β0 , β1 , σ 2 ) n i=1 (yi − (β0 + β1 xi )) = − + =0 ∂σ 2 2σ 2 2σ 4 moltiplicando entrambi i membri dell’equazione per 2σ 4 e risolvendo. Si ottiene infine: ∑n (yi − (β0 + β1 xi ))2 2 s = i=1 . n Le stime di massima verosimiglianza di β0 e β1 si ottengono invece risolvendo il seguente sistema ∑n ∑n nβ0 + β1 i=1 xi − i=1 yi ∂L(β0 , β1 , σ 2 ) =0 =− ∂β0 σ2 ∑n ∑n ∑n 2 2 ∂L(β0 , β1 , σ ) = − β1 i=1 xi + β0 i=1 xi − i=1 xi yi = 0, ∂β1 σ2 a questo punto si osservi che moltiplicando entrambi i membri di ciascuna equazione del sistema per σ 2 si ritrovano le equazioni proprie del metodo dei minimi quadrati. Quindi il metodo di massima verosimiglianza e il metodo dei minimi quadrati producono stime identiche se fXY ha pdf normale. Si noti, infine, che le stesse stime sono generate anche dal metodo dell’analogia. Così in tutti i casi parametrici abbiamo ottenuto ∑n ∑n 2 (xi − x̄)(Yi − Y ) i=1 (Yi − mY |xi ) 2 i=1 ∑ Y − B x̄ ; S = . ; B = B1 = 1 0 n 2 n i=1 (xi − x̄) Si noti che gli stimatori sono espressi come funzione del campione casuale (x1 , Y1 ), (x2 , Y2 ), ..., (xn , Yn ) che proviene dalla pdf condizionata fY |x . Primi elementi di inferenza statistica (ed. maggio 2012) 178 M. Di Marzio 24. INFERENZA SU MEDIE CONDIZIONATE Esempio 24.3. Sia (2, 4), (0, 0.9), (1, 2) la realizzazione di un campione casuale estratto dalla pdf della v.c. (X, Y ). Poiché risulta 4 + 0.9 + 2 2+0+1 x̄ = =1 ȳ = = 2.3, 3 3 le stime dei minimi quadrati b0 e b1 , risultano ∑n (xi − x̄)(yi − ȳ) (2 − 1)(4 − 2.3) + (0 − 1)(0.9 − 2.3) + (1 − 1)(2 − 2.3) i=1 ∑n b1 = = = 1.55; 2 (2 − 1)2 + (0 − 1)2 + (1 − 1)2 i=1 (xi − x̄) b0 = ȳ − b1 x̄ = 2.3 − (1.55)1 = 0.75. Le stime b0 e b1 così ottenute coincidono con le stime di massima verosimiglianza dei parametri β0 e β1 , nel caso in cui (X, Y ) è una v.c. normale. Pertanto la stima del predittore ottimo in entrambi i casi è mY |x = 0.75 + 1.55x. 24.2 Proprietà degli stimatori B0 e B1 Disponiamo di un campione casuale (x1 , Y1 ), (x2 , Y2 ), ..., (xn , Yn ) che proviene dalla pdf condizionata fY |x . Così i valori attesi saranno presi rispetto alla pdf condizionata fY |x , di conseguenza: E[Yi ] = β0 + β1 xi . Il nostro scopo adesso è ricavare due importanti proprietà degli stimatori B0 e B1 , e cioé la correttezza e la linearità. Vedremo infine che, sulla base di queste due, sarà possibile stabilire anche la proprietà dell’efficienza relativa tramite il teorema di Gauss-Markov. ⋄ Correttezza Gli stimatori B0 e B1 sono stimatori corretti rispettivamente per i parametri β0 e β1 . Infatti, posto Var[Yi ] = σ 2 , risulta [ ∑n (x − x̄)(Yi − i=1 ∑n i 2 i=1 (xi − x̄) E[B1 ] = E [ ∑n i=1 (xi =E Y) ] ∑n ] − x̄)Yi − i=1 (xi − x̄)Y ∑n 2 i=1 (xi − x̄) [ ∑n ] (xi − x̄)Yi i=1 = E ∑n 2 i=1 (xi − x̄) ∑n (xi − x̄)(β0 + β1 xi ) i=1∑ n 2 i=1 (xi − x̄) = = = β0 ∑n ∑n − x̄) + β1 i=1 (xi ∑ n i=1 (xi − i=1 (xi − x̄)xi x̄)2 ∑n β1 i=1 (xi − x̄)xi ∑n 2 i=1 (xi − x̄) ora ∑ntroviamo una espressione conveniente per il numeratore sottraendo da esso la quantità nulla x̄ i=1 (xi − x̄). Così si ha ∑n i=1 (xi − x̄)xi = = = da cui si ottiene M. Di Marzio ∑n i=1 ∑n i=1 ∑n i=1 (xi − x̄)xi − x̄ ∑n i=1 (xi − x̄) (xi − x̄)(xi − x̄) (xi − x̄)2 , ∑n β1 i=1 (xi − x̄)2 E[B1 ] = ∑n = β1 . 2 i=1 (xi − x̄) 179 Primi elementi di inferenza statistica (ed. maggio 2012) 24.2. Proprietà degli stimatori B0 e B1 e di conseguenza E[B0 ] = E[Y − B1 x̄] [ ∑n i=1 =E Yi ] n − E[B1 x̄] 1∑ E[Yi ] − x̄E[B1 ] n i=1 n = 1 = n ( nβ0 + β1 n ∑ ) xi − β1 x̄ i=1 = β0 + β1 x̄ − β1 x̄ = β0 . ⋄ Linearità Gli stimatori B0 e B1 sono stimatori lineari, nel senso che essi sono funzioni lineari delle vv.cc. Y1 , Y2 , . . . , Yn . Per provarlo basta porre x̄(xi − x̄) 1 − ∑n 2 n i=1 (xi − x̄) ∑n ∑n risultando B0 = i=1 ci Yi e B1 = i=1 di Yi . Infatti ci = n ∑ c i Yi = i=1 n ( ∑ 1 x̄(xi − x̄) − ∑n 2 n i=1 (xi − x̄) i=1 = n ( ∑ Yi =Y − ∑n i=1 (xi ) x̄(xi − x̄)Yi − ∑n 2 n i=1 (xi − x̄) i=1 ma essendo Y xi − x̄ 2 i=1 (xi − x̄) di = ∑n x̄ Yi ) ∑n Y (x − x̄) ∑ni=1 i i 2 i=1 (xi − x̄) − x̄) = 0, si può sottrarlo al numeratore della frazione ottenendo (∑n ) ∑n n ∑ x̄ i=1 Yi (xi − x̄) − Y i=1 (xi − x̄) ∑n ci Yi = Y − 2 i=1 (xi − x̄) i=1 ∑n x̄ i=1 (xi − x̄)(Yi − Y ) ∑n =Y − 2 i=1 (xi − x̄) = Y − B1 x̄ = B0 . Inoltre procedendo in modo simile si dimostra anche la linearità di B1 : ∑n n ∑ (xi − x̄)Yi di Yi = ∑i=1 n 2 i=1 (xi − x̄) i=1 ∑n = i=1 ∑n Yi (xi − x̄) − Y i=1 (xi − x̄) ∑n 2 i=1 (xi − x̄) ∑n = (x − x̄)(Yi − i=1 ∑n i 2 i=1 (xi − x̄) Y) = B1 . Primi elementi di inferenza statistica (ed. maggio 2012) 180 M. Di Marzio 24. INFERENZA SU MEDIE CONDIZIONATE Un notevole risultato relativo agli stimatori dei minimi quadrati B0 e B1 è fornito dal seguente teorema di Gauss–Markov: All’interno della classe degli stimatori lineari e corretti, gli stimatori dei minimi quadrati sono quelli con varianza minima. Infine, se vale l’ipotesi di normalità B0 e B1 possono essere considerati stimatori di massima verosimiglianza, e di conseguenza sono coerenti, asintoticamente normali e a varianza asinoticamente minima nella classe di tutti gli stimatori. Evidentemente le proprietà degli stimatori di massima verosimiglianza sono migliori di quelle dei minimi quadrati (riassunte nel teorema di Gauss–Markov). 24.3 Stime intervallari e test su β1 Sappiamo che la costruzione di stimatori intervallari e test statistici per β1 richiede la conoscenza di adatte quantità pivotali. Ora nei casi dove (X, Y ) è normale bivariata oppure semplicemente µY |X (x) = β0 + β1 x, siamo giunti allo stimatore puntuale B1 . Di tale stimatore conosciamo il valore atteso. Se riusciamo ad ottenerne la varianza e la pdf, allora abbiamo prodotto ulteriori informazioni per costruire una quantità pivotale. Iniziamo con la varianza. A tale scopo, ricordando che si tratta di una varianza condizionata, assumiamo che quest’ultima sia costante per tutte le xi . Questa ipotesi, molto semplificatrice, viene detta omoschedasticità. Si noti che non è necessario assumere esplicitamente l’omoschedasticità se si assume che fXY è normale, infatti in questo caso essa è già una caratteristica del modello, come già osservato nella sezione 9.9. ∑n Ricordando che B1 = i=1 di Yi , dove di = ∑n xi(x−x̄ 2 , si ottiene i −x̄) i=1 [ Var[B1 ] = Var n ∑ ] d i Yi = σ 2 i=1 =σ 2 n ( ∑ i=1 n ∑ d2i i=1 x − x̄ ∑n i 2 i=1 (xi − x̄) )2 ∑n (xi − x̄)2 = σ 2 ∑ni=1 { i=1 (xi − x̄)2 }2 σ2 . 2 i=1 (xi − x̄) = ∑n Riguardo il calcolo della pdf dobbiamo introdurre l’ipotesi di normalità di fXY . Infatti in tal caso la pdf marginale fY è anche normale (sez. 9.9). Ma B1 è una somma ponderata delle {Yi , i = 1, ..., n} che, a loro volta, sono i.i.d.. Così B1 ha distribuzione normale (sez. 11.4). Così nel caso di normalità di (X, Y ) ( ) σ2 B1 ∼ N β1 , . devx Da qui sarà facile costruire quantità pivotali sia se σ 2 è nota, sia se non lo è. Si deve tuttavia osservare che nella pratica quasi mai ricorre il caso di varianza nota. ◃ σ 2 nota Abbiamo la seguente quantità pivotale B1 − β1 √ σ/ devx che ha pdf normale standard. √∑ ◃ σ 2 non nota Stimiamo σ con Ṡ = n i=1 (mY |xi − Yi )2 n−2 . Si ha la quantità pivotale B1 − β1 √ Ṡ/ devx che ha pdf t di Student con n − 2 gradi di libertà. Una formula di calcolo spesso conveniente è ∑n ∑n 2 (mY |xi − Yi )2 = Yi2 − nY − B12 devx . i=1 M. Di Marzio i=1 181 Primi elementi di inferenza statistica (ed. maggio 2012) 24.4. Test di linearità Sulla base di queste quantità pivotali possiamo inferire circa β1 . ⋄ Stima intervallare Dato un livello di confidenza α, a seconda che la varianza sia nota oppure no, abbiamo le seguenti due inversioni ◃ σ 2 nota ( ) ) ( z α2 σ z α2 σ B1 − β1 α α √ √ √ P −z 2 < < z 2 = P B1 − < β1 < B1 + = 1 − α. σ/ devx devx devx ◃ σ 2 non nota ( ) ( ) t α2 ,n−2 Ṡ t α2 ,n−2 Ṡ B1 − β1 < t α2 ,n−2 = P B1 − √ = 1 − α. P −t α2 ,n−2 < < β1 < B1 + √ √ devx devx Ṡ/ devx ⋄ Test statistici Siamo interessati a sapere se l’evidenza empirica sostiene oppure no l’ipotesi che β1 abbia un certo valore β10 (che va letta come ‘beta-uno-zero’). Così mettiamo alla prova i seguenti sistemi di ipotesi { { { H0 : β1 = β10 H0 : β1 = β10 H0 : β1 = β10 H1 : β1 > β10 H1 : β1 < β10 H1 : β1 ̸= β10 . Anche qui, prefissato il livello di significatività α, abbiamo due casi a seconda che la varianza sia nota o meno. ◃ σ 2 nota Sotto l’ipotesi nulla lo stimatore puntuale ha distribuzione normale con parametri β10 e σ 2 /devx . Così la statistica test B1 − β10 √ σ/ devx ha distribuzione normale standard se è vera l’ipotesi nulla. ◃ σ 2 non nota Sotto l’ipotesi nulla si si ha la seguente statistica test B1 − β10 √ Ṡ/ devx che ha distribuzione t di Student con n − 2 gradi di libertà. Le zone di rifiuto dei test Z e T sono riportate nella tabella seguente a seconda di H1 : H0 β1 = β10 24.4 Regioni di rifiuto R Z T H1 β1 > β10 {z : z > zα } {t : t > tα,n−2 } β1 < β10 {z : z < zα } {t : t < tα,n−2 } β1 ̸= β10 {z : |z| > z α2 } {t : |t| > t α2 ,n−2 } Test di linearità Data una popolazione fXY ci chiediamo se il predittore ottimo sia lineare. Ovviamente se il predittore lineare è quello ottimo, allora il suo rischio presso la densità fXY deve essere basso. Uno stimatore del rischio è Ṡ 2 . Partendo da n n ∑ ∑ (Yi − mY |xi + mY |xi − Y )2 , (Yi − Y )2 = i=1 i=1 si ottiene facilmente che n ∑ (Yi − Y )2 = i=1 Primi elementi di inferenza statistica (ed. maggio 2012) n ∑ (mY |xi − Yi )2 + i=1 n ∑ (mY |xi − Y )2 i=1 182 M. Di Marzio 24. INFERENZA SU MEDIE CONDIZIONATE cioè la devianza di Y , chiamata totale si scompone in devianza dell’errore o residua e devianza spiegata dalla regressione. Il rapporto ∑n 2 i=1 (mY |xi − Y ) F = ∑ n 2 (m −Y ) i=1 Y |xi i (n−2) è chiaramente una misura empirica della bontà di accostamento e quindi del rischio. Infatti, poiché la loro somma è fissa e pari alla devianza totale, all’aumentare del numeratore il denominatore diminuisce e viceversa. Se allora F è molto grande l’accostamento è buono, viceversa è molto scarso se F assume valori inferiori all’unità. Si dimostra inoltre che F sotto l’ipotesi H0 : β1 = 0 (che significa assenza di linearità) ha distribuzione F di Fisher con 1 e n − 2 gradi di libertà. Così il test F per la verifica della linearità a livello α si riferisce al sistema di ipotesi { H0 : β1 = 0 H1 : β1 ̸= 0 , e ha zona di rifiuto pari a R = {f : f ≥ fα,1,n−2 }. Dove la soglia va calcolata per 1 e (n − 2) gradi di libertà. Allora F è una statistica test per verificare la presenza di legame lineare tra Y da X. Se F assume un valore elevato e quindi la statistica cade nella zona di rifiuto, i dati smentiscono l’ipotesi nulla di indipendenza e consideriamo valido il modello di regressione ipotizzato. Si deve osservare che nel caso di una unica variabile esplicativa il test F equivale a un test T con ipotesi nulla H0 : β1 = 0. Esempio 24.4. Considerata la realizzazione del campione casuale utilizzata nell’ esempio 24.3 si vuole condurre un test di linearità al livello α = 0.05. Il sistema di ipotesi da verificare è allora H0 : β1 = 0 H1 : β1 ̸= 0 , e la statistica test da adottare è ∑3 (mY |xi − Y )2 . F = ∑3 i=1 2 i=1 (mY |xi − Yi ) /1 Essendo f0.05,1,1 = 161.4, la regione di rifiuto del test è R = {f : f ≥ 161.4}. I dati a disposizione possono riassumersi come segue yi mY |xi = 0.75 + 1.55xi 2 4 3.85 0 1 0.9 2 0.75 2.3 xi e poiché ȳ = 2.3, risulta n ∑ (mY |xi − ȳ)2 = (3.85 − 2.3)2 + (0.75 − 2.3)2 + (2.3 − 2.3)2 = 4.805, i=1 e n ∑ (mY |xi − yi )2 = (4 − 3.85)2 + (0.9 − 0.75)2 + (2 − 2.3)2 = 0.135, i=1 così la realizzazione della statistica test è f= 4.805 = 35.59. 0.135/1 Essendo 35.59 < 161.4, si rifiuta l’ipotesi di non linearità (indipendenza lineare) e quindi di buon adattamento del modello lineare ai dati osservati. M. Di Marzio 183 Primi elementi di inferenza statistica (ed. maggio 2012) 25 Esercizi svolti Esercizio 25.1. Data una v.c. doppia (X, Y ) con la seguente pdf condizionata: per x ∈ [0, 21 ] 1 0 ≤ y ≤ 2x fY |x (y) = 2x 0 altrimenti mentre per x ∈ ( 12 , 1] { 1 fY |x (y) = e date le seguenti pdf marginali fX (x) = 1≤y≤0 0 altrimenti, 8 3 x se 0 ≤ x ≤ 1/2 4 3 se 1/2 ≤ x ≤ 1, determinare: a) la stima del predittore lineare ottimo di Y tramite X; b) l’errore di predizione. Soluzione a) Per determinare la stima del predittore lineare ottimo occorre stimare i parametri β0 e β1 che compaiono nella sua espressione. Quindi, procediamo con il calcolare i valori attesi delle vv.cc. X ed Y ∫ ∫ 1 xfX (x)dx = E[X] = 0 0 e ∫ E[Y ] = ∫ 1 1 yfY (y)dy = 0 0 1/2 8 x xdx + 3 ∫ 1 x 1/2 81 1 1 11 dx = + = 32 9 2 18 ( ) ∫ 1 ∫ 1 4 2 2 2 4 4 2 2 y − y dy = ydy − y dy = − = , 3 3 3 9 9 0 3 0 3 e le varianze Var[X] = E[X 2 ] − (E[X])2 = 31 121 37 − = ; 72 324 648 Var[Y ] = E[Y 2 ] − (E[Y ])2 = 16 13 5 − = . 18 81 162 e Primi elementi di inferenza statistica (ed. maggio 2012) 184 M. Di Marzio 25. ESERCIZI SVOLTI Occorre ora calcolare la covarianza tra X e Y . Poiché la pdf congiunta è fXY (x, y) = fY |x (y)fX (x), quest’ultima risulta essere pari a 34 per 0 ≤ x ≤ 1 e 0 ≤ y ≤ 1. Allora abbiamo che ∫ E[XY ] = = = = = ∫ 1 ∫ 1 4 4 xy dydx + xy dydx 3 3 0 0 1/2 0 ∫ 1/2 ( 2 2x ) ∫ 1 ( 2 1) 4 y 4 y x x dx + dx 3 0 2 0 3 1/2 2 0 ( ( 1/2 ) 1 ) 2 x4 2 x2 4 + 3 4 0 3 2 1/2 ( ) 2 1 2 1 1 + − 3 16 3 2 8 1 7 1 + = . 24 4 24 1/2 ∫ 2x La covarianza risulta allora 7 22 13 − = . 24 81 648 Cov[X, Y ] = E[XY ] − E[X]E[Y ] = Si ottiene quindi β1 = Cov[XY ] 13 648 13 = × = Var[X] 648 37 37 e 4 13 11 17 − × = . 9 37 18 74 β0 = E[Y ] − β1 E[X] = Così la stima del predittore lineare ottimo è 13 17 x+ . 37 74 mY |x = b) L’errore di predizione è ricavato come segue EQMP[µY |x ] = Var[Y | x] ( ) (Cov[X, Y ])2 = Var[Y ] 1 − Var[Y ]Var[X] ( ( )2 ) 13 162 648 13 1− × = 0.073. = 162 648 13 37 Esercizio 25.2. L’ufficio vendite di una grande azienda concede dilazioni di pagamento ai clienti in base al numero di ordini da essi mensilmente effettuati. La direzione dell’azienda, per valutare la corretta gestione della clientela da parte dell’ufficio, rileva il numero X di ordini effettuati da ciascun cliente nell’ultimo mese e la durata Y (giorni) delle dilazioni ad essi concesse. I dati sono riportati nella tabella seguente: Y (1, 3] (3, 5] X (5, 7] 7 8 4 2 0 14 14 4 6 0 0 10 21 0 5 4 11 20 28 0 0 6 10 16 12 15 12 21 60 (7, 9] a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e tracciare la spezzata di regressione; M. Di Marzio 185 Primi elementi di inferenza statistica (ed. maggio 2012) b) determinare la stima del predittore lineare ottimo delle dilazioni tramite il numero degli ordini mensili effettuati; c) qual è la durata della dilazione di pagamento che ci si aspetta l’azienda concederà ad un cliente che effettua 10 ordini al mese? Soluzione a) Per la rappresentazione grafica dei dati è necessario determinare, preventivamente, il valore centrale delle classi di modalità del carattere X. Si ottiene, pertanto: X Y 2 4 6 8 7 8 4 2 0 14 14 4 6 0 0 10 21 0 5 4 11 20 28 0 0 6 10 16 12 15 12 21 60 Le stime del predittore lineare ottimo mY |xi risultano mY |xi X 9.334 2 14.467 4 22.167 6 24.334 8 Il diagramma di dispersione dei dati e la spezzata di regressione sono rappresentanti nella figura 25.1. 30 25 20 15 10 5 0 0 2 4 6 8 Figura 25.1: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio 25.2. b) Poiché x̄ = 5.4, ȳ = 18.434, devx = 314.4, e codxy = 803.556, le stime dei parametri β1 e β0 del predittore lineare ottimo risultano rispettivamente: 803.556 codxy = = 2.56, devx 314.4 e quindi la stima del predittore lineare ottimo è b1 = b0 = ȳ − b1 x̄ = 18.434 − 2.56 × 5.4 = 4.61, mY |x = 4.61 + 2.56x. Sempre nella 25.1 si può osservare il grafico del predittore lineare ottimo. c) Quindi, se un cliente effettua x = 10 ordini mensili, si può prevedere che gli verrà concessa una dilazione della durata di mY |10 = 4.61 + 2.56 × 10 = 30.21 ≃ 30 giorni. Primi elementi di inferenza statistica (ed. maggio 2012) 186 M. Di Marzio 25. ESERCIZI SVOLTI Esercizio 25.3. Una multinazionale, al fine di valutare l’efficienza nella gestione delle risorse umane impiegate nella produzione, rileva il numero X di addetti ai macchinari nel settore produzione e la quantità prodotta Y da ciascuna macchina per completare il ciclo produttivo. I dati raccolti sono riportati nella tabella seguente: X Y 6 7 8 9 38 8 5 3 0 16 44 3 4 0 0 7 51 3 5 3 4 15 57 1 1 2 3 7 60 0 0 2 3 5 15 15 10 10 50 a) Rappresentare i dati in tabella attraverso il diagramma di dispersione e stimare l’andamento delle medie del carattere Y condizionate alle modalità di X attraverso la spezzata di regressione; b) stimare il predittore lineare ottimo della quantità prodotta tramite il numero di addetti ai macchinari; c) qual è la quantità che un macchinario produrrà se il numero di addetti è pari a 10? Soluzione a) Per la costruzione della spezzata di regressione occorre determinare le medie condizionate mY |xi : mY |xi X 43.067 6 45.200 7 50.100 8 55.500 9 Diagramma di dispersione dei dati e la spezzata di regressione sono riportati nella figura 25.2. 65 60 55 50 45 40 35 30 5 6 7 8 9 10 Figura 25.2: Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo. b) Poiché x̄ = 7.3, ȳ = 47.6, devx = 60.5 e codxy = 251, le stime dei parametri del predittore lineare ottimo sono rispettivamente: b1 = codxy 251 = = 4.15; devx 60.5 b0 = ȳ − b1 x̄ = 47.6 − 4.15 × 7.3 = 17.3. Così abbiamo mY |x = 17.3 + 4.15x. M. Di Marzio 187 Primi elementi di inferenza statistica (ed. maggio 2012) Sempre nella figura 25.2 è riportato il grafico del predittore lineare ottimo. c) Quindi, se il numero di addetti a un macchinario è x = 10, la quantità che si prevede sarà prodotta dal macchinario è mY |10 = 17.3 + 4.15 × 10 = 58.8. Esercizio 25.4. Un centro di ricerca, nell’ambito di un’indagine sui livelli dei salari degli operai metalmeccanici, ha intervistato 20 operai di una grande azienda automobilistica, rilevando gli anni di lavoro X ed il salario Y annualmente percepito (migliaia di euro). L’elaborazione dei dati raccolti ha dato luogo ai seguenti risultati: x̄ = 10.5; ȳ = 20; codxy = 340.6; devx = 234.4. Stimare il predittore lineare ottimo del salario percepito dagli operai tramite gli anni di lavoro X. Soluzione Le stime dei parametri del predittore lineare ottimo sono rispettivamente b1 = codxy 340.6 = 1.45; = devx 234.4 b0 = ȳ − b1 x̄ = 20 − 1.45 × 10.5 = 4.775. Pertanto, la stima del predittore ottimo lineare risulta essere mY |x = 4.775 + 1.45x; si prevede quindi che una variazione di un anno nell’anzianità lavorativa degli operai determini un incremento in media di 1450 euro nel salario annualmente percepito. Esercizio 25.5. Nell’ambito di un’indagine sulla presenza delle aziende italiane nei mercati esteri, sono stati rilevati, su un campione di 10 aziende, il numero X di clienti esteri e l’ammontare Y delle esportazioni (migliaia di euro). L’indagine ha prodotto i risultati seguenti: X 18 26 28 34 36 42 48 52 54 60 Y 54 64 54 62 68 70 76 66 76 74 a) Stimare il predittore lineare ottimo dell’ammontare delle esportazione tramite il numero di clienti esteri. b) Assumendo che fY |xi = N (β0 + β1 xi , 16), costruire l’intervallo di confidenza per il coefficiente di regressione dell’ammontare delle esportazione sul numero di clienti esteri al livello 1 − α = 90%. Soluzione a) Poiché x̄ = 39.8, ȳ = 66.4, devx = 1683.6 e codxy = 840.8, le stime dei parametri del predittore lineare ottimo dell’ammontare delle esportazioni tramite il numero dei clienti esteri risultano rispettivamente: b1 = codxy 840.8 = = 0.4994 devx 1638.6 e b0 = ȳ − b1 x̄ = 66.4 − 0.4994 × 39.8 = 46.52. Pertanto, la stima del predittore lineare ottimo delle esportazioni tramite il numero dei clienti esteri è mY |x = 46.52 + 0.4994x. b) L’ assunzione di normalità distributiva delle Yi equivale ad assumere che ( ) σ2 B1 ∼ N β1 , . devx Essendo nota la varianza condizionata σ 2 , la quantità pivotale cui ricorrere per la stima intervallare del coefficiente di regressione di Y su X è data da B1 − β1 √ ∼ N (0, 1) . σ/ devx Pertanto, l’intervallo di confidenza per il coefficiente β1 , al livello 1 − α = 90% risulta: ) ( ( ) √ √ B1 − β1 √ P −zα/2 < < zα/2 = P B1 − zα/2 σ/ devx < β1 < B1 + zα/2 σ/ devx = 0.90. σ/ devx essendo 1 − α = 0.90 e, dunque, α = 0.1, dalle tavole della normale standardizzata si ricavano i valori delle soglie ±zα/2 = ±z0.05 = ±1.64. Primi elementi di inferenza statistica (ed. maggio 2012) 188 M. Di Marzio 25. ESERCIZI SVOLTI Essendo √ √ devx = 10 ∑ 2 (xi − x̄) = 41.03, sostituendo allo stimatore B1 la stima b1 = 0.4994 ottenuta i=1 considerando le realizzazioni yi in precedenza osservate sul campione di aziende, l’intervallo di confidenza al livello del 90% per il coefficiente di regressione di Y su X risulta: ( ) 4 4 iβ1 = 0.4994 − 1.64 , 0.4994 + 1.64 = (0.3395, 0.6593) . 41.03 41.03 Esercizio 25.6. La società capogruppo di un gruppo aziendale, al fine di verificare la corretta applicazione di una strategia di rinnovamento della struttura tecnico-produttiva dettata alle sue controllate, ha rilevato per 5 di esse il numero X di nuovi macchinari acquistati e l’incremento Y della produzione realizzato nell’ultimo mese: X 1 2 3 5 10 Y 102 192 270 410 760 a) Stimare il predittore lineare ottimo dell’incremento della quantità prodotta tramite il numero dei macchinari introdotti. b) Posto fY |xi = N (β0 + β1 xi , σ 2 ), costruire l’intervallo di confidenza per il coefficiente di regressione della quantità prodotta sul numero di macchinari introdotti dalle aziende al livello 1 − α = 95%. Soluzione a) Poiché x̄ = 4.2, ȳ = 346.8, devx = 50.8 e codxy = 3663.2, le stime dei parametri del predittore lineare ottimo dell’incremento della quantità prodotta risultano, rispettivamente, b1 = codxy 3663.2 = = 72.11 devx 50.8 e b0 = ȳ − b1 x̄ = 346.8 − 72.11 × 4.2 = 43.937. Pertanto, la stima del predittore lineare ottimo dell’ incremento della quantità prodotta tramite il numero dei macchinari introdotti è mY |x = 43.937 + 72.11x. b) Accogliendo l’ipotesi di normalità distributiva delle v.c. Yi lo stimatore B1 avrà distribuzione: ( ) σ2 B1 ∼ N β1 , devx e la quantità pivotale cui ricorrere per la costruzione dell’ intervallo di confidenza del coefficiente di regressione, essendo incognito σ 2 , risulta: B1 − β1 , √ Ṡ/ devx che ha approssimativamente distribuzione t di Student con n − 2 gradi di libertà, con √∑ n 2 i=1 (mY |xi − Yi ) Ṡ = n−2 lo stimatore dell s.q.m. condizionato. Pertanto, l’intervallo di confidenza per il coefficiente β1 , al livello 1 − α = 95% risulta: ( ) ) ( √ √ B1 − β1 P −tα/2,n−2 < < tα/2,n−2 = P B1 − tα/2,n−2 Ṡ/ devx < β1 < B1 + tα/2,n−2 Ṡ/ devx = 0.95. √ Ṡ/ devx Sulle tavole della t di Student, in corrispondenza del valore α/2 = 0.025 e dei gradi di libertà n−2 = 5−2 = 3, si individuano i valori ±tα/2,n−2 = ±t0.025,3 = ±3.182. Essendo √∑ √ n 2 364.3133 i=1 (mY |xi − yi ) ṡ = = = 11.02 n−2 5−2 e v u n u∑ 2 devx = t (xi − x̄) = 7.127, i=1 sostituendo allo stimatore B1 la stima b1 = 72.11, l’intervallo di confidenza al livello del 95% per il coefficiente di regressione di Y su X risulta: ) ( 11.02 11.02 , 72.11 + 3.182 = (67.19, 77.03) . iβ1 = 72.11 − 3.182 7.127 7.127 M. Di Marzio 189 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 25.7. Un’azienda, al fine di valutare l’entità delle risorse monetarie da destinare alla pubblicità dei suoi prodotti, ha riconsiderato l’ammontare X (migliaia di euro) degli investimenti effettuati in campagne pubblicitarie e l’incremento Y (migliaia di euro) di fatturato realizzato con riferimento agli ultimi 5 anni di attività: X 2 4 6 8 10 Y 18 26 16 34 36 Sulla base delle osservazioni compiute, l’azienda ritiene che l’incremento di fatturato potenzialmente realizzabile sia legato all’entità degli investimenti effettuati in campagne pubblicitarie da una relazione di dipendenza lineare. a) Determinare la stima del coefficiente di regressione dell’incremento di fatturato sull’entità degli investimenti in pubblicità. b) Assumendo che fY |xi = N (β0 + β1 xi , 36), verificare l’ipotesi H0 : β1 = 4 contro l’ipotesi alternativa bidirezionale H1 : β1 ̸= 4, al livello di significatività α = 0.01. Soluzione a) Essendo devx = 40 e codxy = 88, la stima del coefficiente di regressione dell’incremento di fatturato sull’ammontare degli investimenti in campagne pubblicitarie risulta: b1 = 88 codxy = = 2.2. devx 40 b) Essendo nota la devianza condizionata σ 2 , la statistica test da impiegare per saggiare l’ipotesi nulla è: B1 − β10 √ σ/ devx che ha distribuzione N (0, 1). √ n √ √ √ ∑ 2 Essendo σ = 36 = 6 e devx = (xi − x̄) = 40 = 6.32, la realizzazione campionaria della statistica i=1 test sotto l’ipotesi nulla risulta: z= 2.2 − 4 = −1.89. 6/6.32 Dalle tavole della normale standard si ricava zα/2 = z0.005 = 2.57 e, poiché |z| < zα/2 si accetta, al livello di significatività prescelto, l’ipotesi nulla in base alla quale l’incremento di 1000 euro degli investimenti in pubblicità determina in media un incremento di 4000 euro nell’ammontare di fatturato annuo. Esercizio 25.8. L’ufficio vendite di una grande azienda ha rilevato, con riferimento ad un campione di ordini di acquisto, il valore X (migliaia di euro) delle forniture richieste ed il ritardo Y (giorni) nel relativo pagamento da parte dei clienti. X 9 6 8 5 Y 5 3 5 3 L’ufficio vendite ritiene che i ritardi nel pagamento degli ordini di acquisto sia legato al loro ammontare da una relazione di dipendenza lineare. a) Determinare la stima del coefficiente di regressione del ritardo nei pagamenti da parte dei clienti sull’ammontare degli ordini di acquisto. b) Assumendo che fY |xi = N (β0 + β1 xi , σ 2 ), verificare l’ipotesi H0 : β1 = 0.5 contro l’ipotesi alternativa unidirezionale H1 : β1 > 0.5, al livello di significatività α = 0.2. Soluzione a) Poiché devx = 10 e codxy = 6, la stima dei minimi quadrati del coefficiente di regressione che descrive la dipendenza lineare tra il ritardo nei pagamenti da parte dei clienti e l’ammontare degli ordini di acquisto risulta: 6 codxy = = 0.6. b1 = devx 10 b) Essendo incognito σ 2 la statistica test da adottare per saggiare l’ipotesi nulla è: β1∗ − β10 √ Ṡ/ devx Primi elementi di inferenza statistica (ed. maggio 2012) 190 M. Di Marzio 25. ESERCIZI SVOLTI che si distribuisce come una t di Student con n − 2 = 4 − 2 = 2 gradi di libertà. Essendo v u n √ u∑ √ 2 devx = t (xi − x̄) = 10 = 3.16 i=1 √∑ e n i=1 (mY |xi ṡ = − Yi )2 n−2 √ = 0.4 = 0.447 2 la realizzazione campionaria della statistica test sotto l’ipotesi nulla risulta: 0.6 − 0.5 = 0.7. 0.447/3.16 t= Dalle tavole della t di Student si ricava il valore soglia della regione di rifiuto tα,n−2 = t0.2,2 = 1.061, e poiché risulta t < 1.061, si accetta l’ipotesi nulla al livello di significatività prescelto. Esercizio 25.9. Una multinazionale, al fine di valutare le politiche di gestione del personale adottate dalle sue filiali, ha rilevato per 5 di esse l’ammontare X (migliaia di euro) degli investimenti in nuove tecnologie ed il numero Y di dipendenti licenziati con riferimento all’ultimo anno. I risultati ottenuti sono riportati di seguito: X 10 15 20 25 30 Y 2 4 3 6 5 a) Stimare il predittore lineare ottimo del numero dei dipendenti licenziati tramite l’ammontare degli investimenti in nuove tecnologie. b) Verificare a livello 1 − α = 0.95 l’ipotesi di indipendenza lineare del numero dei licenziamenti dall’entità degli investimenti in nuove tecnologie. Soluzione a) Poiché x̄ = 20, ȳ = 4, devx = 250 e codxy = 40, le stime dei parametri del predittore lineare ottimo del numero dei licenziamenti risultano rispettivamente: b1 = codxy 40 = = 0.16 devx 250 b0 = ȳ − b1 x̄ = 4 − 0.16 × 20 = 0.8. e Pertanto, la stima della funzione di regressione del numero dei licenziamenti sull’ammontare degli investimenti in nuove tecnologie è mY |x = 0.8 + 0.16x, ottenendo: xi 10 15 20 25 30 yi 2 4 3 6 5 mY |xi 2.4 3.2 4 4.8 5.6 b) L’ipotesi da sottoporre a verifica è H0 : β1 = 0. La statistica test cui ricorrere per la verifica di ipotesi è: ∑n (mY |xi − ȳ)2 F = ∑n i=1 2 i=1 (mY |xi − yi ) /(n − 2) che sotto l’ipotesi di indipendenza formulata ha distribuzione F di Fisher con 1 e n − 2 = 5 − 2 = 3 gradi di libertà. Quindi la statistica test, in corrispondenza del campione osservato, risulta: f= 6.4/1 = 5.333. 3.6/3 Dalle tavole della F di Fisher, in corrispondenza di 1 e 3 gradi di libertà e del livello α = 0.05, si ricava il valore della soglia della zona di rifiuto f0.05;1;3 = 10.13. Poiché f < f0.05;1;3 , si accetta l’ipotesi di indipendenza lineare del numero di licenziamenti dall’ammontare degli investimenti in nuove tecnologie. M. Di Marzio 191 Primi elementi di inferenza statistica (ed. maggio 2012) Esercizio 25.10. Dimostrare che lo stimatore dei minimi quadrati B0 è il più efficiente nella classe degli stimatori lineari e corretti di β 0 . Soluzione Per dimostrare che B0 è il più efficiente nella classe degli stimatori lineari non distorti occorre dimostrare che Var[B0 ] è uniformemente minima rispetto alla varianza di ogni stimatore lineare non distorto di β0 . Chiaramente, poichè le Yi sono vv.cc. indipendenti e Var[Yi ] = σ 2 per oni i ∈ {1, 2, ..., n} risulta [∑ ] n n ∑ 2 Var[B0 ] = Var ci Yi = σ c2i . Si consideri ora un generico stimatore T = i=1 ∑n i=1 ui Yi tale che E[T ] = β0 . Siccome ] ui Yi i=1 E[T ] = E [∑ n i=1 n ∑ = n ∑ ui E[Yi ] = i=1 = β0 n ∑ i=1 n ∑ u i + β1 i=1 allora dovrà risultare n ∑ Ricordando che B0 = n ∑ e ui = 1 ui xi = 0. i=1 [∑ ] n n ∑ 2 Var[T ] = Var ui Yi = σ u2 . i=1 ∑n i=1 ci Yi , n ∑ i=1 i=1 e posto per ogni i ∈ {1, 2, ..., n}, ui = ci + ∆i dovrà aversi ui xi , i=1 i=1 La varianza di T è invece ui (β0 + β1 xi ) ci + n ∑ ∆i = 1 n ∑ e i=1 ci xi + i=1 n ∑ ∆i xi = 0, i=1 ma poiché, essendo B0 corretto, si ha n ∑ ci = 1 e i=1 dovrà risultare n ∑ n ∑ ci xi = 0 i=1 ∆i = 0 n ∑ e i=1 ∆i xi = 0. i=1 Si ha allora n ∑ u2i = i=1 n ∑ (ci + ∆i )2 i=1 = n ∑ c2i + i=1 e essendo n ∑ i=1 ∆2i +2 n ∑ ci ∆i , i=1 ) x̄(xi − x̄) 2 ci ∆ i = − ∑n ∆i 2 n i=1 (xi − x̄) i=1 i=1 ∑n n x̄ (xi − x̄)∆i n∑ = ∆i − ∑ni=1 2 n i=1 i=1 (xi − x̄) ∑n ∑n xi ∆i − x̄ i=1 ∆i = 0 − x̄ i=1∑n 2 i=1 (xi − x̄) 0−0 = −x̄ ∑n = 0, 2 i=1 (xi − x̄) n ∑ Primi elementi di inferenza statistica (ed. maggio 2012) n ( ∑ 1 192 M. Di Marzio 25. ESERCIZI SVOLTI risulta n ∑ u2i = i=1 e quindi c2i ≤ i=1 ∑n c2i + i=1 n ∑ Ricordando allora che Var[T ] = σ 2 n ∑ n ∑ ∆2i i=1 n ∑ i=1 2 2 i=1 ui e Var[B0 ] = σ u2i . ∑n 2 i=1 ci , si conclude che Var[B0 ] ≤ Var[T ], e quindi B0 ha varianza minima nella classe degli stimatori lineari corretti di β0 . Esercizio 25.11. Determinare le varianze degli stimatori dei minimi quadrati B0 e B1 dei parametri β0 e β1 del predittore lineare ottimo. Soluzione Poiché B0 = n ∑ ci Yi e B1 = i=1 ci = n ∑ di Yi , dove i=1 x̄(xi − x̄) 1 − ∑n 2 n i=1 (xi − x̄) xi − x̄ , 2 i=1 (xi − x̄) di = ∑n e ed essendo Var[Yi ] = σ 2 , si ha [∑ ] n n ∑ Var[B0 ] = Var ci Yi = σ 2 c2i i=1 =σ 2 i=1 n ( ∑ 1 i=1 x̄(x − x̄) − ∑n 2 n i=1 (xi − x̄) )2 ) n ( ∑ 1 x̄2 (x − x̄)2 2x̄(x − x̄) 2 =σ + ∑n − ∑n 4 n2 n i=1 (xi − x̄)2 i=1 (xi − x̄) i=1 ∑n ∑ ( ) n 2x̄ i=1 (x − x̄) x̄2 i=1 (xi − x̄)2 n 2 =σ − ∑n + ∑n 4 n2 n i=1 (xi − x̄)2 i=1 (xi − x̄) ( ) 2 1 x̄ = σ2 + ∑n 2 n i=1 (xi − x̄) ) ( ∑n (x − x̄)2 + nx̄2 i=1 ∑ni = σ2 (xi − x̄)2 n ∑n ( ∑n i=1 ) 2 2 − 2x̄ i=1 xi + nx̄2 i=1 xi + nx̄ ∑n = σ2 n i=1 (xi − x̄)2 ∑n ) ( ∑n 2 + 2nx̄2 − 2x̄ i=1 xi 2 i=1 xi ∑ =σ n n i=1 (xi − x̄)2 ∑n ( ∑n ) 2 + 2x̄(nx̄ − i=1 xi ) 2 i=1 xi ∑ =σ n n i=1 (xi − x̄)2 ∑n x2 = σ 2 ∑n i=1 i 2 n i=1 (xi − x̄) e [∑ ] n n ∑ Var[B1 ] = Var di Yi = σ 2 d2i i=1 =σ 2 n ( ∑ i=1 xi − x̄ 2 i=1 (xi − x̄) )2 ∑n i=1 ∑n (xi − x̄)2 = σ 2 ∑i=1 n 4 i=1 (xi − x̄) σ2 . 2 i=1 (xi − x̄) = ∑n M. Di Marzio 193 Primi elementi di inferenza statistica (ed. maggio 2012) 26 Affidabilità Indice 26.1 26.2 26.3 26.4 26.5 26.6 26.7 26.8 26.9 26.1 Definizioni . . . . . . . . . . . . . . . . . . . . . . . . . . . Andamenti tipici del tasso di guasto . . . . . . . . . . . Tasso di guasto di alcune variabili casuali continue . . Stima della durata media . . . . . . . . . . . . . . . . . . Sistemi complessi . . . . . . . . . . . . . . . . . . . . . . Sistemi in serie . . . . . . . . . . . . . . . . . . . . . . . . Sistemi in parallelo . . . . . . . . . . . . . . . . . . . . . Sistemi in serie con parti positivamente correlate . . . Sistemi in parallelo con parti positivamente correlate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 195 196 198 200 200 201 201 202 Definizioni L’affidabilità di un prodotto si definisce come l’attitudine dello stesso a svolgere una certa funzione sotto prefissate condizioni operative, e per un dato periodo di tempo. Obiettivo primario della teoria dell’affidabilità è lo studio della durata di funzionamento. Dal punto di vista statistico la durata di funzionamento – cioè il tempo di attesa di un guasto – può essere concepito come la realizzazione di una variabile casuale T continua e non negativa. La pdf di T , fT , è chiamata funzione di densità di guasto. Inoltre la funzione di ripartizione di T è chiamata funzione di inaffidabilità, infatti FT (t) = P(T ≤ t) esprime la probabilità di durata inferiore o uguale a t. Per converso la (funzione di) affidabilità è definita come R(t) = 1 − FT (t), essa fornisce la probabilità di sopravvivere al tempo t. Consideriamo il caso di funzionamento senza guasti fino al tempo t, vogliamo conoscere la probabilità che il guasto avvenga entro un brevissimo intervallo di tempo (t, t + dt). Chiaramente stiamo cercando una probabilità condizionata che può esprimersi come: P(T ∈ (t, t + dt) ∩ T > t) P(T > t) P(T ∈ (t, t + dt)) = 1 − FT (t) fT (t)dt = 1 − FT (t) = λ(t)dt. P(T ∈ (t, t + dt)|T > t) = La funzione di densità condizionata λ (t) = fT (t) 1 − FT (t) è chiamata tasso (istantaneo) di guasto, ed esprime l’attitudine al guasto al tempo t a condizione che fino ad allora non se ne sia verificato alcuno. Ciò a differenza di fT (t), che è proporzionale alla probabilità di guasto in t indipendentemente da quanto avvenuto in precedenza. Primi elementi di inferenza statistica (ed. maggio 2012) 194 M. Di Marzio 26. AFFIDABILITÀ Ricaviamo adesso una relazione importante per cui a partire da λ(t) si ottiene FT (t). Per definizione fT (s) 1 − FT (s) F′T (s) = 1 − FT (s) d = − log(1 − FT (s)). ds λ (s) = Integrando entrambi i membri tra 0 e t, si ottiene ∫ t λ(s)ds = − log(1 − FT (t)) + log(1 − FT (0)) 0 = − log(1 − FT (t)) infatti log(1 − FT (0)) = 0 poché la durata è descritta da una v.c. positiva per cui FT (0) = 0. Moltiplicando per −1 e risolvendo rispetto a 1 − FT (t) si ha { ∫ t } exp − λ(s)ds = 1 − FT (t). 0 Così abbiamo che { ∫ t } R(t) = exp − λ(s)ds { ∫ t } FT (t) = 1 − exp − λ(s)ds . e 0 0 Quindi se conosciamo il tasso di guasto possiamo risalire alla relativa funzione di ripartizione. Infine un’altra grandezza molto importante è la durata media di funzionamento definita come il valore atteso della funzione di densità di guasto ∫ +∞ E[T ] = t fT (t)dt. 0 Nell’ambito della teoria dell’affidabilità l’inferenza si basa su un campione casuale reperito da una popolazione di oggetti le cui durate sono considerabili vv.cc. i.i.d.. La distribuzione comune delle durate di tutti gli oggetti si suppone nota a meno di un parametro θ. L’obiettivo è stimare θ, infatti questo renderà possibile approssimare importanti caratteristiche incognite di T come λ(t) e E[T ]. 26.2 Andamenti tipici del tasso di guasto Il tasso di guasto è uno strumento molto adatto per valutare un oggetto lungo l’intero periodo di funzionamento. Spesso vengono utilizzate rappresentazioni grafiche del tasso di guasto poiché offrono una visione semplice e intuitiva del comportamento del prodotto. Infatti grazie a queste è possibile stabilire, in modo visivo, se il prodotto invecchia prematuramente, se ha alta probabilità di guasto all’inizio della propria vita utile, ecc.. Una tipica curva tasso di guasto per componenti elettronici (che hanno un periodo di funzionamento in assenza di usura) è rappresentata nella figura 26.1, dove si può osservare che durante tutta la Figura 26.1: Tipica funzione tasso di guasto per componenti elettronici. vita del prodotto esiste una probabilità costante di guasto dovuta a fattori casuali esterni. Inoltre nella M. Di Marzio 195 Primi elementi di inferenza statistica (ed. maggio 2012) 26.3. Tasso di guasto di alcune variabili casuali continue fase iniziale si aggiunge la probabilità di guasto prematuro dovuta a difetti di produzione, chiaramente tale probabilità decresce col tempo fino ad annullarsi dopo poco. Nella fase centrale (o di maturità) si verifica il funzionamento in assenza di difetti produttivi e nel pieno dell’efficienza: il guasto è solo dovuto a fattori casuali esterni. Infine nella fase finale, quando il pezzo comincia ad invecchiare, al danneggiamento casuale si aggiunge una probabilità di guasto crescente perché l’usura aumenta al passare del tempo. Rispetto ai componenti elettronici, la curva del tasso di guasto per componenti meccanici può essere diversa, la figura 26.2 ne riporta un esempio tipico. La seconda fase ha una durata molto minore, e la fase di usura inizia presto ma determina una pendenza meno accentuata, infatti per il componente meccanico l’usura insorge molto presto ma non porta troppo velocemente all’inefficienza. Figura 26.2: Tipica funzione tasso di guasto per componenti meccanici. 26.3 Tasso di guasto di alcune variabili casuali continue Abbiamo appreso che la durata di vita T è una v.c. continua e non negativa. Così ogni v.c. continua la cui funzione di densità fornisce probabilità non nulle solo per valori positivi, può essere usata come modello teorico della durata di vita. Di conseguenza per ognuna di tali densità si possono ricavare funzione di tasso di guasto e durata media. Di seguito studiamo le vv.cc. normale, uniforme e esponenziale come modelli di durata. ⋄ Se T ∼ N (µ, σ 2 ), allora T può assumere anche valori negativi: questo comporta che una probabilità di guasto positiva risulta definita anche per tempi negativi. Così non tutte le possibili vv.cc. normali costituiscono un modello ammissibile, ma solo quelle che hanno una media sufficientemente più grande della varianza di modo che la quasi totalità della densità risulti distribuita sul semiasse positivo dei reali. La funzione di tasso di guasto associata alla densità normale è così definita { } √ (t − µ)2 (σ 2π)−1 exp − fT (t) 2σ 2 λ(t) = = . 1 − FT (t) 1 − Φ(t) In quanto sempre crescente, il tasso di guasto della normale può essere utilizzato se il guasto è dovuto esclusivamente a fenomeni di usura. Nella figura 26.3 è rappresentata la funzione tasso di guasto per 1 σ=1 0.8 λ(t) 0.6 0.4 0.2 σ = 1.5 σ =0.5 0 t µ Figura 26.3: Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5. la densità normale al variare dello s.q.m.. Se lo s.q.m. è molto basso, fino a poco prima della media il Primi elementi di inferenza statistica (ed. maggio 2012) 196 M. Di Marzio 26. AFFIDABILITÀ tasso di guasto è quasi piatto poiché la probabilità di rottura fino a quel punto è molto ridotta, mentre in corrispondenza di un suo intorno aumenta drasticamente. Se invece lo s.q.m. è alto i tempi di rottura non sono concentrati e si possono verificare anche molto prima o molto dopo la media. Questo genera una funzione più o meno lineare. In definitiva, la forma complessiva della funzione descrive una curva tanto meno concava quanto più lo s.q.m. è basso. ⋄ Se T ∼ E(θ), la corrispondente funzione tasso di guasto è: λ(t) = fT (t) θe−θt = = θ. 1 − FT (t) 1 − (1 − e−θt ) Nella figura 26.4 è rappresentata la funzione tasso di guasto per la densità esponenziale al variare del λ(t) 2 θ=1.5 1.5 θ=1 1 θ=0.5 0.5 0 t Figura 26.4: Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5. parametro θ. Come si vede, essa è costante, così rappresenta perfettamente una fase di vita del prodotto dove solo i danneggiamenti casuali hanno influenza sulla durata (spesso si tratta della fase centrale). Certamente un tasso di guasto costante è un modo alternativo di definire l’assenza di memoria della pdf esponenziale. L’ampio uso pratico della pdf esponenziale è teoricamente giustificato dal teorema di Drenick, che in affidabilità è l’analogo del teorema centrale del limite. Esso stabilisce che per un sistema costituito da numerosi oggetti le cui curve di affidabilità sono diverse, all’aumentare del numero dei componenti il tasso di guasto di lungo periodo dell’intero sistema tende ad essere costante nel tempo, per cui la durata del sistema è rappresentabile da una distribuzione esponenziale. ⋄ Se T ∼ U(a, b), la funzione di tasso di guasto corrispondente è: λ(t) = fT (t) 1/(b − a) 1 = = . 1 − FT (t) 1 − (t − a)/(b − a) b−t Nella figura 26.5 è rappresentata la funzione tasso di guasto per la densità U(0, b) al variare di b. Nel λ(t) 120 100 80 b=3 b=2 b=1 60 40 20 0 −20 0 0.5 1 1.5 2 2.5 3 t 3.5 Figura 26.5: Funzioni tasso di guasto per la densità uniforme con b = 1, 2, 3. caso della uniforme il tasso di guasto presenta un asintoto verticale in corrispondenza dell’estremo superiore del supporto; questo perché se la durata è uniforme con parametri a e b, e se fino a prima di b l’oggetto non si è ancora guastato, in b si deve per forza guastare. Così viene modellata la circostanza insolita di avere una durata massima nota a priori. Per via della sua forma, questo modello di tasso di guasto detiene scarsa rilevanza pratica. M. Di Marzio 197 Primi elementi di inferenza statistica (ed. maggio 2012) 26.4. Stima della durata media 26.4 Stima della durata media Consideriamo una popolazione di oggetti che hanno durate descritte da vv.cc. i.i.d.. Ipotizziamo che le conoscenze a priori permettano di specificare una data famiglia parametrica di pdf per la v.c. durata. In particolare una specificazione spesso ricorrente riguarda la famiglia esponenziale {θe−θt , θ > 0, t ≥ 0}. L’obiettivo è stimare il parametro θ e di conseguenza la durata media 1/θ. Esistono diversi metodi di campionamento, in corrispondenza di ciascuno dei quali è definito uno stimatore di massima verosimiglianza di θ. ⋄ Campionamento con prove simultanee La realizzazione campionaria si ottiene mettendo a funzionare n oggetti simultaneamente, registrando i tempi di durata ad ogni guasto, e interrompendo l’esperimento quando si siano guastati r oggetti. Le durate ottenute si dispongono in ordine non decrescente, di conseguenza in questo caso l’i-esimo oggetto del campione è quello che si guasta al tempo ti , che a sua voltà è l’i-esimo tempo più breve. Otteniamo ora uno stimatore della durata media col metodo della massima verosimiglianza. La funzione di verosimiglianza è la probabilità della realizzazione campionaria intesa come funzione del parametro, e quindi, in questo caso, il prodotto dei seguenti due fattori ∏r 1) La densità associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr , cioè j=1 θe−θtj , 2) La probabilità che i restanti n − r durino più di tr cioè (1 − FT (tr ))n−r = (e−θtr )n−r . In definitiva si ha: −θtr n−r L(θ; t1 , t2 , ..., tr ) = (e ) r ∏ j=1 θe−θtj ∑r = θr e−(n−r)θtr e−θ j=1 tj r ∑ = θr exp −θ tj + (n − r)tr ; j=1 per cui L(θ; t1 , t2 , ..., tr ) = r log θ − θ [∑ r ] tj + (n − r)tr , j=1 derivando e uguagliando a zero si ha ∂L(θ; t1 , t2 , ..., tr ) r ∑ = − tj − (n − r)tr = 0 ∂θ θ j=1 r risolvendo per 1/θ si ottiene la stima di massima verosimiglianza della media r ∑ 1 θ̂ = tj + (n − r)tr j=1 . r ⋄ Campionamento con interruzione prefissata Questo caso è simile al precedente, l’unica differenza è che l’esperimento si interrompe ad un tempo prefissato T. La realizzazione campionaria utile per stimare θ è generata facendo funzionare n oggetti contestualmente, a differenza di prima, però, il campionamento termina al tempo T. Qui la funzione di verosimiglianza è il prodotto tra ∏r 1) la densità che r oggetti abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr ≤ T, cioè j=1 θe−θtj , 2) la probabilità che i restanti n − r durino più di T, cioè e−θT(n−r) . In definitiva si ha: L(θ; t1 , t2 , ..., tr ) = r ∏ θe−θtj × e−θT(n−r) j=1 = θr exp{−θ r ∑ tj + (n − r)T}, j=1 Primi elementi di inferenza statistica (ed. maggio 2012) 198 M. Di Marzio 26. AFFIDABILITÀ per cui L(θ; t1 , t2 , ..., tr ) = r log θ − θ [∑ r ] tj + (n − r)T . j=1 Derivando e uguagliando a zero si ricava [∑ ] r r ∂L(θ; t1 , t2 , ..., tr ) = − tj + (n − r)T = 0 ∂θ θ j=1 così, risolvendo per 1/θ, si perviene alla stima di massima verosimiglianza r ∑ 1 θ̂ = tj + (n − r)T j=1 . r ⋄ Campionamento con prove sequenziali A differenza dei due casi precedenti, dove le prove sono contestuali, in questo caso il campionamento impone prove successive. Immaginiamo di disporre di una riserva infinita di oggetti e di esaminarli uno dopo l’altro, mettendone in funzione uno nuovo ogni volta che il precedente si guasta; l’esperimento termina al tempo prefissato T. Se entro T si sono guastati r oggetti, i nostri dati sono le durate t1 , t2 , ..., tr . Si noti che, a differenza di prima, qui l’i-esimo oggetto non è l’oggetto dalla i-esima durata più breve, ma l’ i-esimo messo in funzione. r ∑r ∑ Anzitutto se il numero di guasti è pari ad r, allora i=1 ti < T e tr+1 > T − ti . Così i due fattori i=1 sono: 1) la densità ∏r associata a r oggetti che abbiano rispettive durate t1 ≤ t2 ≤ ... ≤ tr tali che cioè j=1 θe−θtj , ∑r r ∑ 2) la probabilità che tr+1 > T − ti , cioè e−θ(T− j=1 tj ) . ∑r i=1 ti < T, i=1 Di conseguenza la funzione di verosimiglianza è: L(θ; t1 , t2 , ..., tr ) = r ∏ θe−θtj × e−θ(T− j=1 = θr e−θ ∑r j=1 tj −θT+θ ∑r j=1 tj ) ∑r j=1 tj = θr e−θT , di conseguenza L(θ; t1 , t2 , ..., tr ) = r log θ − θT. Derivando e uguagliando a zero si ha r ∂L(θ; t1 , t2 , ..., tr ) = −T=0 ∂θ θ quindi risolvendo per 1/θ si ottiene la stima di massima verosimiglianza 1 θ̂ = T . r quando la durata è descritta da una densità esponenziale, a seconda del disegno campionario considerato, gli stimatori di massima verosimiglianza del tempo medio di funzionamento nei casi trattati sono: ∑r j=1 tj + (n − r)tr r ∑r 1 tj + (n − r)T j=1 = θ̂ r T . r Il numeratore di ciascuna espressione è chiamato total time on test cioè, a ben vedere, indica il tempo totale di funzionamento degli oggetti considerati nell’esperimento. In questo senso tutte le stime di massima verosimiglianza condividono una stessa logica: il tempo medio di funzionamento è espresso come il tempo totale di funzionamento degli oggetti considerati nel campione diviso per il numero r dei guasti osservati. M. Di Marzio 199 Primi elementi di inferenza statistica (ed. maggio 2012) 26.5. Sistemi complessi 26.5 Sistemi complessi Per sistema complesso si intende un insieme di elementi interconnessi. Il problema che ci poniamo è misurare l’affidabilità del sistema complesso. Appare generalmente indicato basarsi sullo studio dell’affidabilità delle singole componenti. La rappresentazione del legame affidabilistico tra queste ultime avviene tramite lo strumento del diagramma a blocchi. Il diagramma è sempre formato da un insieme di blocchi collegati da ponti tale che esiste almeno un cammino blocchi-ponti che collega due blocchi particolari, detti rispettivamente ingresso e uscita. L’interpretazione del diagramma a blocchi è la seguente. Se una componente è guasta ogni cammino che la include è interrotto in quel punto, mentre il sistema funziona fino a che vi sia un cammino non interrotto tra il punto di ingresso e il punto di uscita. Il diagramma può anche essere interpretato come un sistema elettrico dove i singoli componenti sono interruttori. Se un interruttore è aperto, di lì l’elettricità non passa. Così l’elettricità attraversa il sistema solo se esiste un cammino tra l’ingresso e l’uscita formato da interruttori chiusi. Esempio 26.1. Come esempio si consideri il sistema complesso rappresentato nella figura 26.6 dove le linee rappresentano i ponti, i rettangoli i blocchi, la figura circolare a sinistra l’entrata e quella a destra l’uscita. Il sistema Figura 26.6: Sistema complesso con 6 componenti. non funziona se è guasto almeno uno dei componenti con etichetta appartenente all’insieme {1, 2, 3, 6}, oppure se sia il blocco 4 sia il blocco 5 sono guasti. Se invece è guasto solo il blocco 5, oppure è guasto solo il blocco 4 il sistema funziona. 26.6 Sistemi in serie Una relazione affidabilistica molto ricorrente tra componenti di sistemi complessi è la disposizione in serie. In questo caso perché il sistema non funzioni è sufficiente che uno solo dei componenti sia guasto. Nella figura 26.7 è rappresentato il diagramma a blocchi relativo a un sistema con quattro componenti in serie. Come detto, il sistema in serie funziona solo se tutte le parti funzionano. Pertanto, se le durate in vita delle Figura 26.7: Sistema in serie con 4 componenti. componenti sono indipendenti, allora l’affidabilità del sistema è pari al prodotto delle rispettive affidabilità RS (t) = R1 (t) × R2 (t) × ... × Rn (t), dove RS (t) è l’affidabilità al tempo t del sistema S, e Ri (t) l’affidabilità al tempo t della i-esima tra le n componenti. Si noti che se t > 0, allora Ri (t) < 1, quindi con l’aumentare delle parti l’affidabilità del sistema diminuisce. Così per aumentare l’affidabilità del sistema o si utilizzano componenti maggiormente affidabili, oppure si riduce il numero delle componenti. Chiaramente, se le singole funzioni di affidabilità sono diverse tra loro, RS (t) può rivelarsi complessa. Tuttavia, se vale l’assunzione che le funzioni di densità di guasto sono esponenziali, allora si ottiene una formulazione molto semplice. Infatti, se abbiamo un sistema in serie con n componenti le cui rispettive densità di guasto sono fi (t) = λi e−λi t per i = 1, 2, ..., n, allora la i-esima affidabilità è pari a Ri (t) = 1 − Fi (t) = 1 − (1 − e−λi t ) = e−λi t Primi elementi di inferenza statistica (ed. maggio 2012) 200 M. Di Marzio 26. AFFIDABILITÀ di conseguenza l’affidabilità del sistema sarà RS (t) = e−λ1 t × e−λ2 t × ... × e−λn t ( ) n ∑ = exp −t λi . i=1 Essendo FS (t) = 1 − RS (t), la funzione di densità di guasto del sistema è pari a dFS (t) dt ) ( n ∑ d λi =0− exp −t dt i=1 ( ) n n ∑ ∑ = λi exp −t λi fS (t) = i=1 che è una pdf esponenziale con parametro λS = i=1 ∑n i=1 λi pertanto il tasso di guasto è λS (t) = n ∑ λi i=1 (la notazione dell’equazione sopra potrebbe essere un po’ fuorviante poiché in effetti in questo caso particolare il tasso ∑n di guasto non dipende dal tempo). Infine si deduce facilmente il tempo medio di funzionamento, cioè 1/ i=1 λi . 26.7 Sistemi in parallelo Un sistema è definito in parallelo se può considerarsi non funzionante solo quando tutti i blocchi tra entrata e uscita sono guasti. In figura 26.8 è rappresentato il diagramma a blocchi di un sistema in parallelo di 3 componenti. In un sistema in parallelo ogni componente garantisce le prestazioni richieste al sistema anche Figura 26.8: Sistema in parallelo con 3 componenti. se tutti gli altri componenti sono guasti. Ovviamente è molto costoso, infatti ad una funzione che è in grado di svolgere un singolo componente sono dedicati più componenti. La formula dell’affidabilità di un sistema in parallelo può esprimersi come il complemento a 1 della probabilità che tutti i componenti siano guasti. Così, se le durate sono indipendenti si ha: n ∏ RS (t) = 1 − Fi (t), i=1 dove RS (t) è l’affidabilità del sistema S al tempo t, e Fi (t) la probabilità di guasto entro tempo t associata alla i-esima tra le n componenti. Per definizione Fi (t) < 1, quindi l’affidabilità di S aumenta col numero delle componenti o con l’affidabilità delle singole. 26.8 Sistemi in serie con parti positivamente correlate Consideriamo un sistema con due componenti, a e b, e indichiamo con A e B i rispettivi eventi di rottura. Se abbiamo una configurazione in serie l’affidabilità del sistema è definita come P(Ā ∩ B̄). Ora indichiamo le probabilità di guasto come segue: pA = P(A) e pB = P(B). M. Di Marzio 201 Primi elementi di inferenza statistica (ed. maggio 2012) 26.9. Sistemi in parallelo con parti positivamente correlate Se i due componenti sono positivamente correlati, la probabilità condizionata che a si guasti quando si è già guastato b deve essere maggiore o uguale alla probabilità che a si guasti, cioè P(A|B) ≥ P(A). Egualmente, la correlazione positiva implica che P(Ā|B̄) ≥ P(Ā), ma dato che P(Ā ∩ B̄) = P(Ā | B̄)P(B̄), di conseguenza P(Ā ∩ B̄) ≥ P(Ā)P(B̄) = (1 − pA )(1 − pB ), questo significa che l’affidabilità P(Ā ∩ B̄) di un sistema in serie è maggiore o uguale il prodotto delle affidabilità individuali delle parti. Notando che il membro di destra rappresenta l’affidabilità nel caso di indipendenza, se ne deduce che la presenza di correlazione aumenta l’affidabilità del sistema. Al contrario, poiché Ā ∩ B̄ ⊂ B̄ e Ā ∩ B̄ ⊂ Ā P(Ā ∩ B̄) ≤ min{P(Ā), P(B̄)} = min{1 − pA , 1 − pB }, in definitiva si ottiene min{1 − pA , 1 − pB } ≥ P(Ā ∩ B̄) ≥ (1 − pA )(1 − pB ). Tale conclusione si estende al caso di un sistema di n componenti, se Ai indica la rottura della i-esima componente, i limiti per l’affidabilità del sistema sono ( n ) n ∩ ∏ min{1 − pi , i = 1, ..., n} ≥ P Āi ≥ (1 − pi ). i=1 26.9 i=1 Sistemi in parallelo con parti positivamente correlate Utilizzando la notazione della sezione precedente, la rottura per un sistema a due componenti in parallelo è indicata dall’evento A ∩ B. Si è visto che la correlazione positiva implica che P(A | B) ≥ P(A), e ricordando che P(A ∩ B) = P(A | B)P(B), allora P(A ∩ B) ≥ P(A)P(B) = pA pB questo è un limite inferiore per la probabilità di rottura quando A e B sono correlate positivamente. Per converso, il limite superiore è dato da P(A ∩ B) ≤ min{P(A), P(B)} = min{pA , pB }. In definitiva min{pA , pB } ≥ P(A ∩ B) ≥ pA pB . Il caso generale esteso a n componenti correlate con eventi di rottura individuali {Ai , i = 1, ..., n} si esprime come (n ) n ∩ ∏ Ai ≥ min{pi , i = 1, ..., n} ≥ P pi . i=1 i=1 La prima delle due disuguaglianze rivela che, a differenza del caso di sistemi in serie, la correlazione positiva implica una diminuzione dell’affidabilità anche per sistemi in parallelo. Primi elementi di inferenza statistica (ed. maggio 2012) 202 M. Di Marzio 27 Esercizi svolti Esercizio 27.1. Un esperimento di prova simultanea di 30 transistor viene interrotto al decimo guasto. Si sa che il tempo di vita di ogni transistor è descritto da una v.c. esponenziale di parametro incognito θ. Si osservano, per i componenti che si guastano, le ore di vita seguenti: t1 = 4.1 t2 = 7.3 t3 = 13.2 t4 = 18.8 t5 = 24.5 t6 = 30.8 t7 = 38.1 t8 = 45.5 t9 = 53 t10 = 62.2. Qual è la stima di massima verosimiglianza per la vita media dei transistor? Soluzione La stima di massima verosimiglianza della durata media dei transistor nel caso di prove simultanee con interruzione all’r-esimo guasto è ∑r 1 j=1 tj + (n − r)tr = r θ̂ nel nostro caso r = 10 e n = 30. Per cui: 1 297.5 + 20 × 62.2 = = 154.15. 10 θ̂ Si noti come la stima di massima verosimiglianza si discosti molto dai tempi di guasto registrati perché al denominatore troviamo il numero di guasti r mentre al numeratore abbiamo la somma di n > r durate. Esercizio 27.2. Si tengono in prova contemporaneamente 30 oggetti per stimarne il tempo di vita decidendo di interrompere l’esperimento alla centesima ora. Alla fine dell’esperimento si sono avuti 20 guasti, rispettivamente ai tempi 1.2 29 1.8 41 2.2 42 4.1 42.4 5.6 49.3 8.4 60.5 11.8 61 13.4 94 16.2 98 21.7 99.2 qual è la stima di massima verosimiglianza della durata media se si ipotizza che le durate si distribuiscono come v.c. esponenziali i.i.d. di parametro θ? Soluzione In questo caso abbiamo avuto l’interruzione ad un tempo prefissato che è di 100 ore. Allora la stima di massima verosimiglianza della durata media è ∑r 1 j=1 tj + (n − r)T = r θ̂ nel nostro caso r = 20, n = 30 e T = 100. Per cui: 1 θ̂ = 702.8 + 10 × 100 = 85.14. 20 Esercizio 27.3. Il rischio di contrarre un tumore ai polmoni per un fumatore almeno quarantenne può essere approssimato dalla funzione: ( λ (t) = 0.027 + 0.025 t − 40 40 )4 , t > 40 dove t rappresenta l’età in anni. Supponendo che un fumatore di 40 anni non muoia per altre cause e che non smetta mai di fumare, qual è la probabilità che giunga a 50 anni di età senza contrarre questa malattia? M. Di Marzio 203 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione Se T è l’età in cui il fumatore muore, abbiamo: P (T > 50) = 1 − P (T ≤ 50) = R(50) da cui, sfruttando la relazione { ∫ t } R(t) = exp − λ(s)ds 0 otteniamo { ∫ 50 } 0.025 4 R(50) = exp − 0.027 + (t − 40) dt 404 { (40 )} 5 50 0.025 (t − 40) = exp − 0.027t + 404 5 40 } { 5 0.025 (50 − 40) − 0.027 × 40 = exp 0.027 × 50 + 404 5 ≃ e−0.27 = 0.7632. Esercizio 27.4. Il tempo T di vita di un prodotto ha tasso di guasto pari a: λ (t) = t3 , t > 0. Calcolare: a) la funzione di ripartizione e la funzione di densità di T ; b) la probabilità che un esemplare funzioni tra gli istanti 0.4 e 1.4; c) la probabilità che un esemplare di età 1 funzioni almeno per un’altra unità di tempo. Soluzione a) La funzione di ripartizione di T si ottiene applicando la relazione tra FT e λ. { ∫ t } FT (t) = 1 − exp − λ(s)ds 0 { ∫ t } 3 = 1 − exp − s ds { (0 )} t 1 4 = 1 − exp − s 4 0 { 4} t = 1 − exp − 4 la funzione di densità si ottiene derivando fT (t) = F′T (t) { 4 }( ) t 1 = 0 − exp − × 4t3 4 4 = t3 e−t 4 /4 . b) P(0.4 < T < 1.4) = FT (1.4) − FT (0.4) { } ( { }) 1.44 −0.44 = 1 − exp − − 1 − exp 4 4 = 0.6109. Primi elementi di inferenza statistica (ed. maggio 2012) 204 M. Di Marzio 27. ESERCIZI SVOLTI c) In questo caso bisogna calcolarsi una probabilità condizionata: { ∫ } 2 3 exp − s ds 0 R(2) { ∫ } = P(T ≥ 2|T > 1) = 1 R(1) exp − s3 ds { ∫ = exp − 0 2 ∫ 3 s ds + 0 { (∫ = exp − } 1 3 s ds 0 ) ∫ 1 } 3 s ds + s ds + s ds 0 1 0 { ( )} { ∫ 2 } 2 s4 3 = exp − s ds = exp − 4 1 1 )} { ( 4 1 2 − = exp − 4 4 ∫ 1 3 2 3 = 0.0235. Esercizio 27.5. Gli interruttori {a, b, c, d} sono collegati ai cavi elettrici A e B. La corrente attraversa un interruttore se esso è chiuso, nella figura 27.1 sono tutti aperti. Gli interruttori si aprono o si chiudono tutti contemporaneamente; inoltre la probabilità di malfunzionamento (non chiudersi) per ogni interruttore sia π. a) Qual è la probabilità che il circuito da A a B si chiuda? b) Se si aggiunge un cavo {e}, qual è la probabilità che il circuito non si chiuda? c) Se si aggiunge un interruttore ad {e}, con che probabilità il circuito da A a B non si chiuda? Soluzione a) Il caso è rappresentato nella figura 27.1, dove il collegamento tra A e B può essere descritto come una coppia di sistemi in serie disposti in parallelo. Un sistema in serie composto dagli interruttori Figura 27.1: Sistema dell’esercizio 27.5 punto a). {a, b}, e l’altro dagli interruttori {c, d}. La probabilità di funzionare per un singolo interruttore è 1 − π 2 così la probabilità di funzionare per uno dei due sistemi in serie è (1 − π) mentre quella di non funzionare 2 1 − (1 − π) . Essendo le due linee in parallelo, almeno una deve funzionare. La probabilità che almeno una [ ]2 2 funzioni è data dalla differenza tra 1 e probabilità che entrambe non funzionino, cioè 1 − 1 − (1 − π) . b) L’inserimento del cavo {e} porta a una nuova configurazione del circuito, come è illustrato nella figura 27.2. In particolare si hanno due sistemi in serie, uno formato dagli interruttori {a, e, c}, e un altro formato Figura 27.2: Sistema dell’esercizio 27.5 punto b). dagli interruttori {b, e, d}. Ciascuno dei due sistemi è in parallelo. Ognuno dei due sistemi ha probabilità di non funzionare π 2 e quella di funzionare 1 − π 2 . Essendo a loro volta i due sistemi in serie, l’intero circuito funziona con probabilità (1 − π 2 )2 . La probabilità cercata, quella di non funzionare, è allora 1 − (1 − π 2 )2 . M. Di Marzio 205 Primi elementi di inferenza statistica (ed. maggio 2012) c) L’inserimento di un interruttore al cavo {e} porta ad una ulteriore configurazione del circuito, come si può vedere in figura 27.3. In particolare, se l’interruttore {e} non funziona, anch’esso con probabilità π, Figura 27.3: Sistema dell’esercizio 27.5 punto c). allora il sistema diventa come nella domanda a). Se invece l’interruttore {e} funziona, con probabilità 1 − π, si è esattamente nel caso della domanda b). Così, applicando il teorema delle probabilità totali per eventi incompatibili si ha: P(circuito funziona) = P(circuito funziona ∩ {e} funziona) + P(circuito funziona ∩ {e} non funziona) = P({e} funziona)P(circuito funziona|{e} funziona) + P({e} non funziona)P(circuito funziona|{e} non funziona) = (1 − π)(1 − π 2 )2 + π{1 − [1 − (1 − π)2 ]2 } mentre quella complementare è la probabilità cercata 1 − π{1 − [1 − (1 − π)2 ]2 } − (1 − π)(1 − π 2 )2 = 2π 5 − 5π 4 + 2π 3 + 2π 2 . Esercizio 27.6. Un componente elettronico è formato da tre elementi in serie ciascuno con tempi di vita indipendenti ed esponenziali di parametri rispettivamente λ = 0.3, µ = 0.1, γ = 0.2 rispettivamente, come si può vedere in figura 27.4. Indichiamo con T la v.c. ‘tempo di vita del componente’. Figura 27.4: Sistema dell’esercizio 27.6 punto a). a) Come si distribuisce T ? Qual è la sua vita media? b) Per aumentare l’affidabilità e ridurre gli interventi di sostituzione, viene proposto di aggiungere un componente identico in parallelo. Come si distribuisce la vita del nuovo complesso? c) Un’altra possibilità consiste nel considerare un complesso triplicando il primo componente e raddoppiando il terzo. Qual è la probabilità che questo nuovo complesso sopravviva al tempo t = 1? Soluzione a) Se indichiamo con T1 , T2 e T3 i tempi di vita dei singoli elementi, essendo il sistema è in serie, è chiaro che T = min(T1 , T2 , T3 ) per cui: 1 − FT (t) = P{min(T1 , T2 , T3 ) > t} = P(T1 > t ∩ T2 > t ∩ T3 > t) = P(T1 > t)P(T2 > t)P(T3 > t) = R1 (t)R2 (t)R3 (t) = (1 − (1 − e−λt ))(1 − (1 − e−µt ))(1 − (1 − e−γt )) = e−(λ+µ+γ)t . Questo implica che FT (t) = 1 − e−(λ+µ+γ)t , così la v.c. T si distribuisce come una esponenziale con parametro λ + µ + γ. La media di T vale dunque: E[T ] = 1 = 1.67. λ+µ+γ b) Se T e W sono i tempi di vita dei componenti in parallelo, come è rappresentato nella figura 27.5, il tempo di vita dell’intero complesso è X = max{T, W }. Calcoliamo la funzione di ripartizione GX (t) di X Primi elementi di inferenza statistica (ed. maggio 2012) 206 M. Di Marzio 27. ESERCIZI SVOLTI Figura 27.5: Sistema dell’esercizio 27.6 punto b). GX (t) = P{max{T, W } ≤ t} = P(T ≤ t ∩ W ≤ t) = P(T ≤ t)P(W ≤ t) ( )2 = 1 − e−(λ+µ+γ)t la pdf di X è data dalla derivata, gX (t) = G′T (t): ( ) gX (t) = 2 1 − e−(λ+µ+γ)t e−(λ+µ+γ)t (λ + µ + γ), da cui sostituendo si ha ( ) gX (t) = 2 1 − e−(0.3+0.1+0.2)t e−(0.3+0.1+0.2)t (0.3 + 0.1 + 0.2) ( ) = 2 1 − e−(0.6)t e−(0.6)t (0.6) ( ) = 1.2 1 − e−0.6t e−0.6t = 1.2e−0.6t − 1.2e−1.2t . c) Il tempo di vita dell’intero complesso è min{T1 , T2 , T3 } dove T1 è il tempo di vita del complesso dei primi tre componenti, T2 il tempo di vita del quarto componente e T3 il tempo di vita del complesso del quinto e sesto componente, come si può vedere in figura 27.6. Figura 27.6: Sistema dell’esercizio 27.6 punto c). P(T1 ≤ t) = (1 − e−λt )3 , P(T2 ≤ t) = 1 − e−µt , , P(T3 ≤ t) = (1 − e−γt )2 ; per cui, molto semplicemente, si ha: P(T > t) = P(T1 > t)P(T2 > t)P(T3 > t) = (1 − (1 − e−λt )3 )e−µ t (1 − (1 − e−γ t )2 ), da cui, andando a sostituire i rispettivi valori, si ha P(T1 ≤ 1) = (1 − (1 − e−0.3×1 )3 )e−0.1×1 (1 − (1 − e−0.2×1 )2 ) ≃ 0.97. Esercizio 27.7. Un deposito d’acqua è localizzato in una regione semiarida. Il clima locale è caratterizzato da tempeste alluvionali che hanno luogo casualmente durante tutto l’anno. Inoltre ci può essere insufficienza di acqua se alla fine della primavera il livello di acqua immagazzinato è basso e la successiva estate si rivela secca. Si indichi con F l’evento di una alluvione catastrofica, con D l’evento di una estate secca, e con L un livello basso delle riserve idriche a fine primavera. Da analisi idrogeologiche si sono stimate le relative probabilità πF , πD e πL . Infine, sia E un guasto del sistema, cioè il deposito riceve più acqua di quella che può trattenere, oppure non riesce a soddisfare la domanda. Così E = F ∪ DL. I dati climatici mostrano correlazione positiva tra D e L, ma correlazione negativa tra F e DL. Studiare l’affidabilità del sistema Ē = F̄ ∩ DL. M. Di Marzio 207 Primi elementi di inferenza statistica (ed. maggio 2012) Soluzione F e DL sono correlate negativamente, allora P(F | DL) ≤ P(F ). Per cui: P(Ē) ≤ (1 − πF )(1 − P(DL)). P(DL) non è nota, quindi vanno stimati il suo minimo e il suo massimo dati da: min(1 − πD , 1 − πL ) ≤ P(DL) ≤ 1 − πD πL ⇒ P(DL) ≥ πD πL di conseguenza P(Ē) ≤ (1 − πF )(1 − πD πL ). Per esempio, se πF = 0.01, πD = 0.15 e πL = 0.1, allora P(Ē) ≤ (1 − 0.01)(1 − 0.15 × .1) = 0.99 × 0.985 = 0.975. Il che significa che il sistema ha una probabilità di guasto di almeno il 2.5%. Esercizio 27.8. Due rifugi montani sono connessi dalle due strade a e b. Durante una tempesta di neve c’è una probabilità di 0.2 che il traffico venga interrotto in a (evento A), e una probabilità pari a 0.1 che il traffico venga interrotto in b (evento B). Studiare l’affidabilità del collegamento stradale tra i due rifugi sia nell’ipotesi di indipendenza delle occorrenze di interruzioni e sia nell’ipotesi che una limitata dotazione di attrezzature permette la rimozione della neve su entrambe le strade. Soluzione Il collegamento stradale tra i due rifugi può essere considerato un sistema in parallelo con probabilità di guasti individuali πA = 0.2, e πB = 0.1. Assumendo l’indipendenza dei guasti, il rischio di interruzione della comunicazione stradale πf è semplicemente πf = πA πB = 0.2 × 0.1 = 0.02. Se le attrezzature permettono di rimuovere la neve, allora bisogna considerare gli eventi di guasto positivamente correlati. Per cui l’affidabilità πf¯ del sistema può essere stimata attraverso limiti inferiori e superiori nel seguente modo. Siccome πf = P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) ≤ min(πA , πB ) allora 1 − πf = πf¯ ≥ 1 − min(πA , πB ) = max(1 − πA , 1 − πB ) ≥ min(1 − πA , 1 − πB ). Inoltre, siccome le componenti sono correlate πf = P(A ∩ B) = P(A|B)P(B) = P(B|A)P(A) ≥ P(A)P(B) = πA πB ; di conseguenza 1 − πA πB ≥ πf¯ ≥ min(1 − πA , 1 − πB ); cioè 0.98 ≥ πf¯ ≥ 0.80 e 0.10 ≥ πf ≥ 0.02. Primi elementi di inferenza statistica (ed. maggio 2012) 208 M. Di Marzio A Analisi matematica Indice A.1 A.2 A.3 A.4 A.5 A.6 A.7 A.8 A.9 A.10 A.11 A.12 A.13 A.14 A.15 A.1 Insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estremo superiore, estremo inferiore, massimo e minimo Intervalli di numeri reali . . . . . . . . . . . . . . . . . . . . Valore assoluto . . . . . . . . . . . . . . . . . . . . . . . . . . Simboli di sommatoria e produttoria . . . . . . . . . . . . . Doppia sommatoria . . . . . . . . . . . . . . . . . . . . . . . Lo spazio Rn . . . . . . . . . . . . . . . . . . . . . . . . . . . Funzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funzioni esponenziale e logaritmo . . . . . . . . . . . . . . Funzioni limitate . . . . . . . . . . . . . . . . . . . . . . . . . Limiti di funzioni e continuità . . . . . . . . . . . . . . . . Derivata di una funzione . . . . . . . . . . . . . . . . . . . . Derivate parziali . . . . . . . . . . . . . . . . . . . . . . . . . Integrali indefiniti e integrali definiti . . . . . . . . . . . . . Calcolo di integrali doppi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 210 211 211 211 212 213 213 214 215 216 217 218 218 220 Insiemi Un insieme è una collezione di oggetti distinti detti elementi dell’insieme. Un insieme è generalmente indicato con una lettera maiuscola, mentre il suo generico elemento è indicato con una lettera minuscola. Per indicare in simboli che a è un elemento dell’insieme A si scrive a ∈ A. Un insieme può essere indicato elencando i suoi elementi oppure specificando, se esiste, una proprietà che accomuna questi elementi. Esempio A.1. Seguono alcuni esempi di insiemi. ⋄ Insieme dei numeri naturali compresi tra 1 e 5: {1, 2, 3, 4, 5} {x ∈ N : 1 ≤ x ≤ 5}. o ⋄ Insieme dei numeri interi negativi maggiori di −7: {−1, −2, −3, −4, −5, −6} o {x ∈ Z− : x > −7}. ⋄ Insieme delle prime 4 lettere dell’alfabeto latino: {a, b, c, d}. Dati due insiemi A e B, A è un sottoinsieme di B, in simboli A ⊆ B (o B ⊇ A), se tutti gli elementi di A sono anche elementi di B, ovvero: A ⊆ B se e solo se a ∈ B per ogni a ∈ A. M. Di Marzio 209 Primi elementi di inferenza statistica (ed. maggio 2012) A.2. Estremo superiore, estremo inferiore, massimo e minimo Si noti che se A ⊆ B e B ⊆ A, allora A e B hanno gli stessi elementi, ovvero A = B. Se non si ha A = B, allora si avrà A ̸= B e si dirà che A è diverso da B. Se invece A ⊆ B e A ̸= B, si scrive A ⊂ B (o B ⊃ A), e A è detto sottoinsieme proprio di B. Esempio A.2. L’insieme dei numeri naturali N = {0, 1, 2, ...} è sottoinsieme proprio dell’insieme dei numeri interi Z = {..., −2, −1, 0, 1, 2, ...}. L’insieme Z è sottoinsieme proprio dell’insieme dei numeri razionali Q = {p/q : p ∈ Z, q ∈ Z, q ̸= {0}}. L’insieme Q è sottoinsieme proprio del’insieme R dei numeri reali. In definitiva, valgono le seguenti relazioni di inclusione N ⊂ Z ⊂ Q ⊂ R. Si definisce cardinalità di un insieme A, e si indica con ♯A, il numero di elementi dell’insieme A. Un insieme A si definisce finito se ha un numero finito di elementi o, in simboli, se ♯A < ∞. Se A non è finito, allora si dice infinito. Un insieme infinito si definisce numerabile se può essere posto in corrispondenza biunivoca con l’insieme N dei numeri naturali. Esempio A.3. Gli insiemi dell’esempio A.1 sono tutti insiemi finiti aventi rispettivamente cardinalità 5, 6 e 4. Esempio A.4. Sono esempi di insiemi infiniti: ⋄ l’insieme N dei numeri naturali, ⋄ l’insieme Z dei numeri interi, ⋄ l’insieme R dei numeri reali. Esempio A.5. Seguono alcuni esempi di insiemi numerabili ⋄ L’insieme N dei numeri naturali è ovviamente un insieme numerabile; ⋄ l’insieme dei numeri naturali dispari è numerabile, poichè esiste una corrispondenza biunivoca tra ogni n ∈ N ed ogni numero naturale dispari 2n + 1; ⋄ gli insiemi dell’esempio A.1 sono tutti insiemi numerabili. Si dimostra, infine, che l’insieme R dei numeri reali non è numerabile. A.2 Estremo superiore, estremo inferiore, massimo e minimo Un insieme A ⊂ R si definisce limitato superiormente se esiste un numero che risulta maggiore di tutti gli elementi dell’insieme. Si definisce estremo superiore di un insieme A limitato superiormente, e si indica con sup A, un numero M tale che: i) per ogni a ∈ A risulta a ≤ M ; ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che M − ϵ < a ≤ M. Un insieme A ⊂ R si definisce limitato inferiormente se esiste un numero che risulta minore di tutti gli elementi dell’insieme. Si definisce estremo inferiore di un insieme A limitato inferiormente, e si indica con inf A, un numero m tale che: i) per ogni a ∈ A risulta a ≥ m; ii) per ogni ϵ > 0 esiste almeno un elemento a di A tale che m < a ≤ m + ϵ. Segue un’ importante proprietà degli insiemi di numeri reali, anche nota come proprietà della completezza di R. Ogni insieme non vuoto di numeri reali limitato superiormente (rispettivamente inferiormente) è dotato di estremo superiore (risp. estremo inferiore). Pertanto se A ⊂ R è un insieme non vuoto limitato superiormente (risp. inferiormente) esiste sempre sup A ∈ R (risp. inf A ∈ R). Infine, se sup A è un elemento di A, allora esso definisce il massimo di A che si indica con max A; se inf A è un elemento di A, allora esso definisce il minimo di A che si indica con min A. Primi elementi di inferenza statistica (ed. maggio 2012) 210 M. Di Marzio A. ANALISI MATEMATICA A.3 Intervalli di numeri reali Dati due numeri reali a e b, tali che a < b, è possibile definire i seguenti intervalli limitati di estremi a e b: [a, b] = {x ∈ R : a ≤ x ≤ b} [a, b) = {x ∈ R : a ≤ x < b} (a, b] = {x ∈ R : a < x ≤ b} (a, b) = {x ∈ R : a < x < b}. Quando uno degli estremi dell’intervallo non è finito, l’intervallo si dice illimitato e possono aversi i seguenti casi: [a, +∞) = {x ∈ R : x ≥ a} (a, +∞) = {x ∈ R : x > a} (−∞, b] = {x ∈ R : x ≤ b} (−∞, b) = {x ∈ R : x < b}. Infine R = (−∞, +∞). Dato x0 ∈ R, si definisce intorno di x0 di raggio δ > 0 l’intervallo (x0 − δ, x0 + δ). Dalla definizione di intorno discende che ogni intervallo aperto in R contiene un intorno di ciascuno dei sui punti. A.4 Valore assoluto Si definisce valore assoluto di un numero reale x, il numero reale { x se x ≥ 0 |x| = −x se x < 0. Esempio A.6. | − 3| = 3; |1.2| = 1.2. Dalla definizione di valore assoluto discende che, dato un numero reale positivo a, la disuguaglianza |x| < a equivale a x < a, se x ≥ 0 e −x < a se x < 0; quindi le seguenti tre espressioni sono intercambiabili |x| < a, −a < x < a, x ∈ (−a, a). Esempio A.7. Dati due numeri reali x e y, dove y ∈ R+ la relazione |x − 3| < y può essere riscritta come 3 − y < x < 3 + y. Infatti per x − 3 ≥ 0 si ha x − 3 < y e quindi x < 3 + y; per x − 3 < 0 si ha −(x − 3) < y e quindi 3 − y < x. A.5 Simboli di sommatoria e produttoria Si consideri un insieme finito di n numeri reali {x1 , x2 , ..., xn }. La ∑somma dei numeri x1 , x2 , ..., xn può essere scritta in forma compatta utilizzando il simbolo di sommatoria n ∑ xi = x1 + x2 + ... + xn . i=1 Dato un numero reale k, si hanno le identità seguenti n ∑ i=1 M. Di Marzio k = k + k + ... + k = nk, {z } | n volte 211 Primi elementi di inferenza statistica (ed. maggio 2012) A.6. Doppia sommatoria e n ∑ kxi = kx1 + kx2 + ... + kxn i=1 = k(x1 + x2 + ... + xn ) n ∑ =k xi . i=1 Il ∏prodotto tra i numeri x1 , x2 , ..., xn può essere scritto in forma compatta, ricorrendo al simbolo di produttoria n ∏ xi = x1 × x2 × ... × xn . i=1 Inoltre, dato un numero reale k, risulta n ∏ i=1 k = k × k × ... × k = k n , | {z } n volte e n ∏ kxi = kx1 × kx2 × ... × kxn i=1 = k n (x1 × x2 × ... × xn ) n ∏ = kn xi . i=1 Se non c’è equivoco su quali siano ∏ gli estremi ∑ della produttoria (sommatoria), questi possono anche essere omessi, scrivendo, ad esempio, xi oppure xi . A.6 Doppia sommatoria Considerato l’insieme di numeri reali con doppio indice {xij , i ∈ {1, 2, ..., n}, j ∈ {1, 2, ..., m}}, che può essere rappresentato in forma di tabella come x11 x12 · · · x21 x22 · · · .. .. .. . . . x1m x2m .. . ··· xnm xn1 xn2 , la somma degli elementi xij può essere scritta ricorrendo al simbolo di doppia sommatoria n ∑ m ∑ ∑∑ xij = x11 + x12 + ... + x1m + x21 + x22 + ... + x2m + .... + xn1 + xn2 + ... + xnm . i=1 j=1 Dato un numero reale k si ha inoltre n ∑ m ∑ kxij = k i=1 j=1 e n ∑ m ∑ xij , i=1 j=1 n ∑ m ∑ k = nmk. i=1 j=1 Primi elementi di inferenza statistica (ed. maggio 2012) 212 M. Di Marzio A. ANALISI MATEMATICA Dati due insiemi di numeri reali {x1 , x2 , ..., xn } e {y1 , y2 , ..., ym }, la somma dei prodotti tra ciascun elemento del primo insieme e ciascun elemento del secondo, può scriversi come m n ∑ ∑ xi yj = x1 y1 + x1 y2 + ... + x1 ym + x2 y1 + x2 y2 + ... + x2 ym + ... + xn y1 + xn y2 + ... + xn ym . i=1 j=1 Risulta inoltre n ∑ m ∑ xi yj = (x1 + x2 + ... + xn )(y1 + y2 + ... + ym ) i=1 j=1 = n ∑ i=1 xi m ∑ yj j=1 Infine, per l’insieme di numeri reali {zij , i ∈ {1, 2, ..., n}, j ∈ {1, 2, ..., m}}, si ha n ∑ m ∑ xi zij = x1 z11 + x1 z12 + ... + x1 z1m + x2 z21 + x2 z22 + ... + x2 z2m + ... + xn zn1 + xn zn2 + ... + xn znm i=1 j=1 = n ∑ xi i=1 A.7 m ∑ zij . j=1 Lo spazio Rn Fissato un intero n ≥ 1, l’insieme Rn , anche detto spazio dei reali in n dimensioni, è l’insieme definito dal prodotto cartesiano 1 dell’insieme R per se stesso n volte; in formule Rn = R × R × ... × R . | {z } n volte L’insieme R ha quindi per elementi tutte le possibili n-uple di numeri reali x definite come n x = (x1 , x2 , ..., xn ) con xi ∈ R per ogni i ∈ {1, 2, ..., n}. Gli elementi x ∈ Rn si definiscono numeri reali in n dimensioni. Geometricamente x ∈ Rn individua le coordinate di un punto in un iperspazio n-dimensionale. Esempio A.8. Seguono alcuni esempi di numeri reali in n dimensioni: ⋄ x = 0.4 è un numero reale (in una dimensione); ⋄ x = (0, 0, 0) è un numero reale in 3 dimensioni; ⋄ x = (0.2, 0.4, 1, 1, 66) è un numero reale in 5 dimensioni. A.8 Funzioni Siano X ed Y due insiemi di numeri reali. Una funzione f da X in Y è una legge che associa ad ogni x ∈ X uno e un solo y ∈ Y ; y è detto valore della funzione f in x, in simboli y = f (x). Gli insiemi X e Y sono detti rispettivamente dominio e codominio di f , mentre l’insieme f (X) = {f (x) : x ∈ X} ⊆ Y è detto insieme delle immagini di f . 1 Dati due insiemi A e B, si definisce prodotto cartesiano di A e B, e si indica con A × B, l’insieme di tutte le coppie ordinate (a, b) con a ∈ A e b ∈ B. M. Di Marzio 213 Primi elementi di inferenza statistica (ed. maggio 2012) A.9. Funzioni esponenziale e logaritmo La corrispondenza univoca che f realizza dall’insieme X all’insieme Y è espressa in simboli da f : X → Y. Se f esprime una corrispondenza biunivoca tra X ed Y , ossia se ad ogni elemento y ∈ Y corrisponde uno ed un solo elemento x ∈ X tale che f (x) = y e viceversa, allora f definisce una funzione biettiva. Se il dominio di f è definito dal prodotto cartesiano tra n insiemi di numeri reali, ossia se X ⊂ Rn , allora f è detta funzione di n variabili reali. Esempio A.9. Sia f una funzione definita in R da f (x) = x, allora f :R→R è una funzione di una variabile reale che associa ad ogni elemento di R se stesso ed è detta funzione identità. Esempio A.10. Sia f una funzione definita nello spazio R2 da per ogni x = (x1 , x2 ). f (x) = x1 + x2 Allora f : R2 → R è una funzione di due variabili reali, che associa ad ogni elemento di R2 , cioè ad ogni coppia di numeri reali, il numero reale dato dalla loro somma. Dati due numeri interi positivi m e n, tali che m < n, si dice che la funzione f opera una riduzione dello spazio dei reali in n dimensioni nello spazio dei reali in m dimensioni se f : Rn → Rm , o equivalentemente se f : X → Y, dove X ⊆ Rn e Y ⊆ Rm . Esempio A.11. La funzione f dell’esempio 7, associando ad ogni coppia di numeri reali (x1 , x2 ) il numero reale x1 + x2 , opera una riduzione dello spazio R2 nello spazio R. Esempio A.12. Sia f una funzione definita nello spazio R3 da f (x) = (x1 + x2 , x3 ) per ogni x = (x1 , x2 , x3 ). La funzione f opera una riduzione dello spazio R3 nello spazio R2 . Infatti poichè (x1 + x2 , x3 ) è un numero reale in 2 dimensioni, si ha f : R3 → R2 . A.9 Funzioni esponenziale e logaritmo La funzione esponenziale f (x) = ex (dove e indica il numero di Nepero 2.7182845... ) è una funzione che associa ad ogni numero reale x il numero reale ex che può anche scriversi come exp(x) o exp{x}. Di seguito sono elencate alcune proprietà della funzione esponenziale: i) per ogni numero reale x, ex > 0; ii) se x > 0, ex > 1 e e−x = 1/(ex ) < 1; iii) data una coppia di reali a e b, vale la seguente identità ea eb = ea+b , e più, in generale, considerati i numeri reali x1 , x2 , ..., xn , ex1 ex2 ...exn = n ∏ ∑n exi = e(x1 +x2 +...+xn ) = e i=1 xi . i=1 Primi elementi di inferenza statistica (ed. maggio 2012) 214 M. Di Marzio A. ANALISI MATEMATICA La funzione logaritmo in base b è definita per ogni numero reale positivo x da f (x) = logb x, dove b è la base del logaritmo e x > 0 è l’argomento del logaritmo. Il logaritmo di x è l’esponente da dare a b per ottenere x; in simboli f (x) = logb x ⇔ x = bf (x) . Se b = e, ossia quando il logaritmo ha come base e, si ha la funzione f (x) = loge x definita logaritmo naturale: loge x è spesso indicato semplicemente come log x o come ln x. Dalla definizione di logaritmo discende che log 1 = 0, log e = 1; poiché e0 = 1 e e1 = e. Nel seguito sono enunciate alcune proprietà della funzione logaritmo. i) Per ogni coppia di numeri reali positivi a e b risulta log(ab) = log a + log b. In generale, dati n numeri reali positivi x1 , x2 , ..., xn si ha (n ) n ∏ ∑ log(x1 × x2 × ... × xn ) = log xi = log x1 + log x2 + ... + log xn = log xi . i=1 i=1 ii) Dato il numero reale positivo a e il numero naturale n risulta log an = n log a. iii) Per ogni coppia di numeri reali positivi a e b risulta (a) log = log a − log b. b Si osservi che la proprietà iii) discende dalla i) e dalla ii). Infatti, poichè a/b = ab−1 per la i) si ha log(a/b) = log a+log b−1 e applicando la ii) al secondo addendo a destra dell’uguglianza si ottiene log(a/b) = log a−log b. A.10 Funzioni limitate Sia X ⊆ R e f : X → R. La funzione f si dice limitata superiormente (rispettivamente limitata inferiormente) in un insieme A ⊆ X se esiste un numero reale M (risp. m) tale che f (x) ≤ M (risp. f (x) ≥ m) per ogni x ∈ A. La funzione f si definisce limitata in A se e solo se è limitata sia superiormente sia inferiormente in A. Se f è una funzione limitata superiormente in A ⊆ X, allora l’insieme delle immagini f (A) ⊆ R è limitato superiormente e dalla proprietà della completezza enunciata nella sezione A.2 discende che l’insieme f (A) è dotato di estremo superiore. L’estremo superiore di f (A) è anche detto estremo superiore di f in A e si indica con sup f o sup f (x). A x∈A Pertanto, se f è limitata superiormente in A, supA f = sup f (A). Se supA f ∈ f (A) allora esso definisce il massimo di f in A che si indica con max f o max f (x). A x∈A Sia f una funzione limitata inferiormente in A ⊆ X, allora l’insieme f (A) ⊆ R è limitato inferiormente e dalla proprietà della completezza discende che f (A) è dotato di estremo inferiore. L’estremo inferiore di f (A) è anche detto estremo inferiore di f in A e si indica con inf f A o inf f (x). x∈A Pertanto, se f è limitata inferiormente in A, inf A f = inf f (A). Se inf A f ∈ f (A) allora esso definisce il minimo di f in A che si indica con min f o min f (x). A M. Di Marzio x∈A 215 Primi elementi di inferenza statistica (ed. maggio 2012) A.11. Limiti di funzioni e continuità A.11 Limiti di funzioni e continuità Sia f una funzione di una variabile reale definita in tutti i punti di un intervallo [a, b] escluso al più il punto c anch’esso interno all’intervallo. Si dice che, per x che tende a c, la funzione f ha per limite il numero reale l e si scrive lim f (x) = l x→c se comunque scelto un numero ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza ad esso, un intorno completo di c tale che, per ogni x appartenente a tale intorno (escluso al più x = c), si ha |f (x) − l| < ϵ. Esempio A.13. Si consideri la funzione f (x) = x2 . Poichè al tendere di x a 0 si può sempre scegliere un numero reale ϵ > 0, arbitrariamente piccolo, tale che |x2 − 0| < ϵ, risulta limx→0 x2 = 0. Si dice che per x che tende a c la funzione f (x) ha per limite infinito e si scrive lim f (x) = ∞, x→c se comunque fissato un numero reale M > 0, arbitrariamente grande, si può determinare in corrispondenza ad esso, un intorno di c tale che per ogni x appartenente a tale intorno (escluso al più c), si ha |f (x)| > M. Esempio A.14. Si consideri la funzione f (x) = 1/x, definita per ogni numero reale x ̸= 0. Al tendere di x a 0 la funzione assume valori sempre più grandi in valore assoluto e quindi, è sempre possibile scegliere un numero M arbitrariamente grande, per il quale |f (x)| > M. Si conclude pertanto che limx→0 1/x = ∞. Si dice che per x che tende all’infinito la funzione f (x) ha limite finito l e si scrive lim f (x) = l, x→∞ se comunque scelto un numero reale ϵ > 0, arbitrariamente piccolo, si può determinare in corrispondenza ad esso, un intorno di infinito tale che, per ogni x appartenente a questo intorno, si ha |f (x) − l| < ϵ. Esempio A.15. Si consideri la funzione introdotta nell’esempio A.14. Poichè per x che tende all’infinito è sempre possibile scegliere un numero ϵ > 0, arbitrariamente piccolo, tale che |1/x − 0| < ϵ, risulta limx→∞ 1/x = 0. Si dice che per x che tende all’infinito, la funzione f (x) ha limite infinito e si scrive lim f (x) = ∞, x→∞ se, comunque si scelga un numero reale M > 0, arbitrariamente grande, si può determinare, in corrispondenza ad esso, un intorno di infinito tale che, per ogni x appartenente a detto intorno, si ha |f (x)| > M. Esempio A.16. Si consideri la funzione f (x) = x3 . Poichè al tendere di x ad infinito si può sempre scegliere un numero reale M > 0, arbitrariamente grande, tale che |x3 | > M , risulta limx→∞ x3 = ∞. Sia f una funzione definita in un intorno di x0 ∈ R. La funzione f è continua in x0 se il limite di f (x) per x che tende ad x0 è pari a f (x0 ), in simboli lim f (x) = f (x0 ). x→x0 In altri termini, f è continua in x0 se per ogni ϵ > 0 esiste un numero reale δ > 0 tale che |f (x) − f (x0 )| < ϵ quando |x − x0 | < δ. Una funzione continua in ogni punto di un insieme I ⊆ R, si definisce continua in I. Primi elementi di inferenza statistica (ed. maggio 2012) 216 M. Di Marzio A. ANALISI MATEMATICA A.12 Derivata di una funzione Sia f una funzione definita in un intervallo I ⊆ R ed x0 un punto interno ad I. Diamo ad x0 un incremento arbitrario ∆x0 = h, positivo o negativo, tale che (x0 + h) ∈ I. La differenza ∆f (x0 ) = f (x0 + h) − f (x0 ), rappresenta l’incremento che subisce la funzione quando si passa dal valore x0 al valore x0 + h. Il rapporto f (x0 + h) − f (x0 ) ∆f (x0 ) = ∆x0 h è definito rapporto incrementale della funzione f relativo al punto x0 e all’incremento h. Se esiste ed è finito, il limite per h che tende a zero di tale rapporto incrementale definisce la derivata della funzione f in x = x0 . In simboli f (x0 + h) − f (x0 ) f ′ (x0 ) = lim . h→0 h Nel seguito sono riportate alcune funzioni elementari f (x) e le loro funzioni derivate f ′ (x). f (x) = k per ogni k ∈ R f ′ (x) = 0 f (x) = kx per ogni k ∈ R f ′ (x) = k f (x) = xk per ogni k ∈ R f ′ (x) = kxk−1 f (x) = k x per ogni k > 0, k ̸= 1 f ′ (x) = k x log k f (x) = ex f ′ (x) = ex f ′ (x) = f (x) = log x f (x) = 1 x f ′ (x) = − x12 1 x Seguono ora alcune tra le regole di derivazione che consentono il calcolo di derivate di funzioni costruite a partire dalle funzioni elementari. Siano f (x) e g(x) due funzioni che ammettono derivate f ′ (x) e g ′ (x). Allora: a) se h(x) = f (x) + g(x), h′ (x) = f ′ (x) + g ′ (x); b) se h(x) = f (x)g(x), h′ (x) = f ′ (x)g(x) + f (x)g ′ (x); c) se h(x) = f (x)/g(x), h′ (x) = f ′ (x)g(x)−f (x)g ′ (x) ; (g(x))2 d) se h(x) = f (g(x)), h′ (x) = f ′ (g(x))g ′ (x). Esempio A.17. Sia h(x) = x2 + 3x. Posto f (x) = x2 e g(x) = 3x, dalla a) discende che h′ (x) = 2x + 3. ′ Esempio A.18. Sia h(x) = 3x. Posto f (x) = 3 e g(x) = x, dalla b) discende che h (x) = 3. M. Di Marzio 217 Primi elementi di inferenza statistica (ed. maggio 2012) A.13. Derivate parziali 2 Esempio A.19. Sia h(x) = e−x . Considerate le funzioni f (x) = ex e g(x) = −x2 , risulta h(x) = f (g(x)) e poiché ′ 2 ′ 2 f (x) = e e g (x) = −2x, dalla c) discende che h′ (x) = e−x (−2x) = −2xe−x . x 2 2 Esempio A.20. Sia h(x) = log(1−x ). Considerate le funzioni f (x) = log x e g(x) = 1−x , risulta h(x) = f (g(x)), ed essendo f ′ (x) = 1/x e g ′ (x) = −2x, dalla c) discende che 1 2x (−2x) = − . 1 − x2 1 − x2 h′ (x) = A.13 Derivate parziali Sia f una funzione di due variabili reali, definita in un intervallo I ⊆ R2 e sia (x0 , y0 ) un punto interno ad I. Si dice che f è derivabile rispetto alla variabile x nel punto (x0 , y0 ) se esiste ed è finito il limite seguente lim x→x0 f (x, y0 ) − f (x0 , y0 ) . x − x0 Tale limite definisce la derivata parziale di f rispetto ad x e si indica con ∂f (x0 , y0 ) . ∂x Analogamente f è derivabile rispetto alla variabile y in (x0 , y0 ) se esiste ed è finito lim y→y0 f (x0 , y) − f (x0 , y0 ) . y − y0 Tale limite è la derivata parziale di f rispetto a y nel punto (x0 , y0 ) e si indica con ∂f (x0 , y0 ) . ∂y Se f è derivabile rispetto ad x (rispettivamente rispetto ad y) in ogni punto di I, si dice allora che f è derivabile rispetto ad x (risp. y) in I. Il calcolo della derivata parziale di f rispetto ad x (risp. y) avviene considerando y (risp. x) costante e calcolando la derivata di f come funzione della sola variabile x (risp. y). Esempio A.21. Sia f (x, y) = xy. Le derivate parziali della funzione f rispetto alle due variabili sono ripettivamente ∂f (x, y) =y ∂x ∂f (x, y) = x. ∂y e Esempio A.22. Considerata la funzione f definita in R da f (x, y) = x + 2xy − y + 3x + 2y − 1, le derivate 2 2 2 parziali della funzione rispetto alle variabili x ed y sono rispettivamente ∂f (x, y) = 2x + 2y + 3 ∂x e ∂f (x, y) = 2x − 2y + 2. ∂y A.14 Integrali indefiniti e integrali definiti Sia f una funzione di una variabile, definita nell’intervallo [a, b]. Una funzione F derivabile in [a, b] si definisce primitiva della funzione f se F ′ (x) = f (x) per ogni x ∈ [a, b]. Si noti che se F è una primitiva di f , anche F + c, dove c è un qualsiasi numero reale, è una primitiva di f . L’insieme {F + c, c ∈ R} di tutte le primitive di f è detto integrale indefinito di f e si indica con il simbolo ∫ f (x)dx, e si scrive anche ∫ f (x)dx = F (x) + c. Nel seguito sono riportate alcune funzioni elementari f (x) e le loro funzioni primitive F (x). Primi elementi di inferenza statistica (ed. maggio 2012) 218 M. Di Marzio A. ANALISI MATEMATICA f (x) = k per ogni k ∈ R F (x) = kx f (x) = xn per ogni n ∈ R F (x) = f (x) = ex f (x) = xn+1 n+1 F (x) = ex 1 x F (x) = log x f (x) = − x12 F (x) = 1 x Esempio A.23. Sia f (x) = x/3 + 2. Risulta allora ∫ f (x)dx = x2 + 2x + c. 6 Infatti dalle regole di derivazione enunciate nella sezione precedente discende che data la funzione F (x) = x2 /6+2x+c, si ha F ′ (x) = (2x)/6 + 2 = x/3 + 2. Esempio A.24. Sia f (x) = e−x . Risulta allora ∫ f (x)dx = −e−x + c. Se infatti si considera la funzione F (x) = −e−x + c, si ha F ′ (x) = (−e−x )(−1) = e−x . Esempio A.25. Sia f (x) = 1/(1 − x). Risulta allora ∫ f (x)dx = − log(1 − x) + c, poichè data la funzione F (x) = − log(1 − x) + c si ha F ′ (x) = −1/(1 − x) × −1 = 1/(1 − x). Sia f una funzione continua in un intervallo [a, b]. L’area sottesa al grafico di f nell’intervallo [a, b] è misurata dall’ integrale definito di f nell’intervallo [a, b] che in simboli è indicato come ∫ b f (x)dx, a dove a e b sono anche detti estremi di integrazione. Di seguito sono enunciate alcune tra le principali proprietà degli integrali definiti i) ∫ a f (x)dx = 0; a ii) dato un numero reale k ∫ ∫ b b kf (x)dx = k a f (x)dx; a iii) se f e g sono due funzioni continue nell’intervallo [a, b] si ha ∫ ∫ b (f (x) + g(x))dx = a M. Di Marzio f (x)dx + a 219 ∫ b b g(x)dx. a Primi elementi di inferenza statistica (ed. maggio 2012) A.15. Calcolo di integrali doppi Se f è integrabile in [a, b], la funzione integrale di f in x ∈ [a, b] è definita da ∫ x F(x) = f (t)dt. a Dalle proprietà prima enunciate discende che ∫ a F(a) = f (x)dx = 0 ∫ e F(b) = a b f (x)dx. a Teorema A.1. (Teorema fondamentale del calcolo integrale) Se f è una funzione continua nell’intervallo [a, b], la corrispondente funzione integrale è derivabile in [a, b] e per ogni x ∈ [a, b] si ha F′ (x) = f (x). Dal teorema fondamentale del calcolo integrale discende che la funzione integrale è una primitiva della funzione f . Data una primitiva F di f , l’integrale di f definito in [a, b] è uguale alla differenza tra il valore assunto da F nell’estremo superiore ed il valore di F nell’estremo inferiore di integrazione; in simboli ∫ b f (x)dx = F (b) − F (a). a b Il numero F (b) − F (a) viene generalmente scritto in forma simbolica come F (x) e perciò si ha a ∫ b b f (x)dx = F (x) . a a Esempio A.26. Sia f (x) = x. Poichè una primitiva di f (x) è F (x) = (x2 )/2, si ha ∫ 1 1 f (x)dx = 0 x2 1 1 = −0= . 2 0 2 2 x x Esempio A.27. Sia f (x) = e . Poichè una primitiva di f (x) è F (x) = e , risulta ∫ 1 1 f (x)dx = ex = e1 − e0 = e − 1. 0 0 Esempio A.28. Sia f (x) = 1/(2x). Poichè una primitiva di f (x) è F (x) = log(2x)/2, risulta ∫ 2 2 f (x)dx = 1 log(2x) log 4 − log 2 log 2 = = . 2 2 2 1 A.15 Calcolo di integrali doppi Sia f una funzione di due variabili reali x e y. Il volume racchiuso dalla regione D del piano sotto il grafico di f (x, y) è ottenuto ricorrendo al calcolo dell’integrale doppio di f (x, y) su D. Formalmente, data la funzione f di variabili reali x e y, e la regione D = {(x, y) ∈ R2 : a ≤ x ≤ b, g1 (x) ≤ y ≤ g2 (x)}, dove g1 e g2 sono funzioni continue in [a, b], se esiste l’integrale ∫ g2 (x) F(x) = f (x, y)dy, per ogni x ∈ [a, b], g1 (x) ed F è integrabile in [a, b], allora ∫ b ∫ I= F(x)dx = a a b [∫ ] g2 (x) ∫ ∫ f (x, y)dy dx = f (x, y)dxdy D g1 (x) è l’integrale doppio di f (x, y). La regione D è detta anche dominio di integrazione. Primi elementi di inferenza statistica (ed. maggio 2012) 220 M. Di Marzio A. ANALISI MATEMATICA Esempio A.29. Data la funzione f (x, y) = ex−y e il dominio di integrazione D = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1}, l’integrale doppio di f (x, y) su D è definito da ∫ 1 [∫ ] ex−y dy dx, 1 I= 0 0 e poichè risulta ∫ 1 1 ex−y dy = −ex−y = −ex−1 − (−ex−0 ) = ex − ex−1 , 0 0 si ha ∫ 1 I= 1 ex − ex−1 dx = ex − ex−1 = e − 1 − (1 − e−1 ) = e + e−1 − 2. 0 0 Esempio A.30. Consideriamo la funzione f (x, y) = xy con dominio di integrazione D = {(x, y) ∈ R2 : 0 ≤ x ≤ 1, 0 ≤ y ≤ 1 − x}. L’integrale doppio di f (x, y) su D è definito da ∫ 1 ∫ 1−x I= xy dydx. 0 Poiché risulta ∫ 1−x xy dy = x 0 si ha ∫ 1 I= 0 y2 2 0 1−x = 0 x(1 − x)2 x3 − 2x2 + x = , 2 2 x3 − 2x2 + x 1 dx = 2 2 ( x4 x3 x2 −2 + 4 3 2 ) 1 = 0 1 . 24 Seguono alcune proprietà degli integrali doppi. Dato un numero reale k, si ha ∫ ∫ ∫ ∫ kf (x, y) dxdy = k f (x, y) dxdy. D D Date le funzioni g(x) e h(y) continue, rispettivamente, negli intervalli [a, b] e ∈ [c, d] si ha ∫ b ∫ ∫ d g(x)h(y)dxdy = a c ∫ b d g(x)dx h(y)dy. a c Infine, data una funzione m(x), continua in [a, b], e data la regione D = {(x, y) ∈ R2 : a ≤ x ≤ b, c ≤ y ≤ d}, risulta ∫ ∫ ∫ b ∫ m(x)f (x, y) dxdy = D M. Di Marzio ∫ d m(x)f (x, y) dxdy = a c d m(x) a 221 [∫ b ] f (x, y) dy dx. c Primi elementi di inferenza statistica (ed. maggio 2012) B Calcolo combinatorio Indice B.1 Disposizioni e permutazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 B.2 Combinazioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 B.3 Disposizioni con ripetizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 B.1 Disposizioni e permutazioni Scegliamo r oggetti da un insieme di n oggetti (r ≤ n) estraendoli uno dopo l’altro. Ogni possibile sequenza così ottenuta viene chiamata disposizione (o disposizione semplice). In generale, due disposizioni si distinguono per la presenza di almeno un oggetto o per l’ordine. Se n = r le disposizioni sono anche dette permutazioni e sono tra loro differenti solo per l’ordine. Ci si può chiedere quante sono le possibili disposizioni. A tale scopo basta fare il seguente ragionamento. Nella prima estrazione scegliamo dall’intero insieme di oggetti. Così, se r = 1, abbiamo n possibili scelte di un oggetto. Per la seconda estrazione l’oggetto scelto non è più disponibile (è diventato il primo oggetto della disposizione) e così il numero di oggetti da cui si sceglie è n − 1. Così, se r = 2, abbiamo n(n − 1) possibili disposizioni. Per la terza estrazione gli oggetti scelti nella prima e nella seconda prova non sono più disponibili e così il numero di oggetti da cui scegliere è n − 2, allora le disposizioni possibili di r = 3 oggetti saranno n(n − 1)(n − 2). In generale, il numero di possibili disposizioni di n oggetti presi a r alla volta è: n Dr = n(n − 1) · · · (n − r + 1), ma poiché n! = n(n − 1) · · · (n − r + 1)(n − r)(n − r − 1) · · · (3)(2)(1) moltiplicando e dividendo per (n − r)! si ottiene una più comoda rappresentazione: n Dr = n(n − 1) · · · (n − r + 1) n(n − 1) · · · (n − r + 1)(n − r)(n − r − 1) · · · (3)(2)(1) = (n − r)(n − r − 1) · · · (3)(2)(1) n! = . (n − r)! Si noti che se n = r, poichè 0!=1, si ha Pn =n Dn = n! n! = = n! (n − n)! 0! Esempio B.1. Marco, Agnese e Fabiola si sfidano in una maratona. Il numero dei possibili diversi ordini di arrivo è pari al numero di permuatazioni dell’insieme {Marco, Agnese, Fabiola}. Quindi i possibili ordini di arrivo sono 3! = 6, ossia: {M AF, M F A, F M A, F AM, AM F, AF M }. Primi elementi di inferenza statistica (ed. maggio 2012) 222 M. Di Marzio B. CALCOLO COMBINATORIO B.2 Combinazioni Se da un insieme di n oggetti scegliamo r oggetti distinti (r ≤ n), senza tener conto dell’ordine in cui essi saranno disposti, allora ogni gruppo di r oggetti così ottenuto è chiamato combinazione. Si noti che, a differenza delle disposizioni, due combinazioni si possono distinguere solo per la presenza di un oggetto e non per l’ordine. La formula delle combinazioni si evince da quella delle disposizioni, tenendo presente che, in corrispondenza di r! disposizioni che hanno gli stessi oggetti e che quindi differiscono solo per l’ordine, abbiamo una sola combinazione. Allora le combinazioni di n oggetti presi r alla volta, indicate con n Cr , saranno pari a: n Cr = n Dr r! = n! . (n − r)!r! (n) Il rapporto a destra dell’uguaglianza è generalmente indicato con coefficiente binomiale. r che si legge n sopra r ed è detto Esempio B.2. Si determini quante disposizioni e combinazioni di tre lettere si possono formare con W, X, Y, Z. 4 D3 = 4! = 24; (4 − 3)! 4 C3 = 4 D3 3! = 4! = 4, (4 − 3)!3! inoltre si considerino le 24 disposizioni come rappresentate nella tabella seguente WXY WXZ WZY XYZ WYX WZX WYZ XZY XWY XWZ ZWY YXZ XYW XZW ZYW YZX YWX ZWX YWZ ZXY YXW ZXW YZW ZYX subito emerge che ad ogni riga di 6 = (3!) disposizioni corrisponde una sola combinazione. B.3 Disposizioni con ripetizione Sia nel caso delle disposizioni, sia nel caso delle combinazioni scegliamo r oggetti da un insieme di n oggetti (r ≤ n) senza reinserimento. Un caso diverso si ha quando ogni volta che estraiamo un oggetto lo reinseriamo. Il reinserimento rende possibile la presenza di un oggetto fino a r volte nel gruppo. Chiamiamo disposizioni con ripetizione, tutti quei gruppi di r oggetti che si possono formare a partire da n oggetti, dove due gruppi sono diversi per la presenza di un elemento o per l’ordine, e dove un elemento può presentarsi più di una volta. Ma quante sono le possibili disposizioni? La risposta è molto semplice. Poichè operiamo il reinserimento, al primo posto del gruppo può esserci qualunque oggetto degli n, ma anche al secondo, al terzo e così via, così per gruppi da un elemento avremmo n disposizioni, per gruppi da due elementi avremmo n × n disposizioni, per gruppi da tre elementi n × n × n disposizioni, e così via. In generale abbiamo il seguente numero di disposizioni con ripetizione n Dr = n × n · · · × n = nr . | {z } r volte Esempio B.3. Si consideri il seguente gruppo di n = 4 oggetti {a, b, c, d}. Quali sono le disposizioni semplici, le combinazioni e le disposizioni con ripetizione di ampiezza r = 2? Si hanno le seguenti 4!/(4 − 2)! = 12 disposizioni semplici {ab, ac, ad, ba, bc, bd, ca, cb, cd, da, db, dc}; inoltre si hanno le seguenti 4!/[(4 − 2)!2!] = 6 combinazioni {ab, ac, ad, bc, bd, cd}; infine si hanno le seguenti 42 = 16 disposizioni con ripetizione {aa, ab, ac, ad, ba, bb, bc, bd, ca, cb, cc, cd, da, db, dc, dd}. M. Di Marzio 223 Primi elementi di inferenza statistica (ed. maggio 2012) C Tavole statistiche Funzione di ripartizione della distribuzione normale standard Centili superiori della distribuzione t di Student Centili superiori della distribuzione Chi-quadrato Centili superiori della distribuzione F di Fisher Primi elementi di inferenza statistica (ed. maggio 2012) 224 M. Di Marzio C. TAVOLE STATISTICHE Funzione di ripartizione della distribuzione normale standard La tavola fornisce i valori della v.c. Z e rispettiva funzione di ripartizione Φ(z) = P(Z ≤ z). Φ(z) z * M. Di Marzio z 0 0.1 0.2 0.3 0.4 0.0 0.5000 0.5398 0.5793 0.6179 0.6554 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.02 0.5080 0.5478 0.5871 0.6255 0.6628 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.09 0.5359 0.5753 0.6141 0.6517 0.6879 0.5 0.6 0.7 0.8 0.9 0.6915 0.7257 0.7580 0.7881 0.8159 0.6950 0.7291 0.7611 0.7910 0.8186 0.6985 0.7324 0.7642 0.7939 0.8212 0.7019 0.7357 0.7673 0.7967 0.8238 0.7054 0.7389 0.7704 0.7995 0.8264 0.7088 0.7422 0.7734 0.8023 0.8289 0.7123 0.7454 0.7764 0.8051 0.8315 0.7157 0.7486 0.7794 0.8078 0.8340 0.7190 0.7517 0.7823 0.8106 0.8365 0.7224 0.7549 0.7852 0.8133 0.8389 1.0 1.1 1.2 1.3 1.4 0.8413 0.8643 0.8849 0.9032 0.9192 0.8438 0.8665 0.8869 0.9049 0.9207 0.8461 0.8686 0.8888 0.9066 0.9222 0.8485 0.8708 0.8907 0.9082 0.9236 0.8508 0.8729 0.8925 0.9099 0.9251 0.8531 0.8749 0.8944 0.9115 0.9265 0.8554 0.8770 0.8962 0.9131 0.9279 0.8577 0.8790 0.8980 0.9147 0.9292 0.8599 0.8810 0.8997 0.9162 0.9306 0.8621 0.8830 0.9015 0.9177 0.9319 1.5 1.6 1.7 1.8 1.9 0.9332 0.9452 0.9554 0.9641 0.9713 0.9345 0.9463 0.9564 0.9649 0.9719 0.9357 0.9474 0.9573 0.9656 0.9726 0.9370 0.9484 0.9582 0.9664 0.9732 0.9382 0.9495 0.9591 0.9671 0.9738 0.9394 0.9505 0.9599 0.9678 0.9744 0.9406 0.9515 0.9608 0.9686 0.9750 0.9418 0.9525 0.9616 0.9693 0.9756 0.9429 0.9535 0.9625 0.9699 0.9761 0.9441 0.9545 0.9633 0.9706 0.9767 2.0 2.1 2.2 2.3 2.4 0.9772 0.9821 0.9861 0.9893 0.9918 0.9778 0.9826 0.9864 0.9896 0.9920 0.9783 0.9830 0.9868 0.9898 0.9922 0.9788 0.9834 0.9871 0.9901 0.9925 0.9793 0.9838 0.9875 0.9904 0.9927 0.9798 0.9842 0.9878 0.9906 0.9929 0.9803 0.9846 0.9881 0.9909 0.9931 0.9808 0.9850 0.9884 0.9911 0.9932 0.9812 0.9854 0.9887 0.9913 0.9934 0.9817 0.9857 0.9890 0.9916 0.9936 2.5 2.6 2.7 2.8 2.9 0.9938 0.9953 0.9965 0.9974 0.9981 0.9940 0.9955 0.9966 0.9975 0.9982 0.9941 0.9956 0.9967 0.9976 0.9982 0.9943 0.9957 0.9968 0.9977 0.9983 0.9945 0.9959 0.9969 0.9977 0.9984 0.9946 0.9960 0.9970 0.9978 0.9984 0.9948 0.9961 0.9971 0.9979 0.9985 0.9949 0.9962 0.9972 0.9979 0.9985 0.9951 0.9963 0.9973 0.9980 0.9986 0.9952 0.9964 0.9974 0.9981 0.9986 3.0 3.1 3.2 3.3 3.4 0.9987 0.9990 0.9993 0.9995 0.9997 0.9987 0.9991 0.9993 0.9995 0.9997 0.9987 0.9991 0.9994 0.9995 0.9997 0.9988 0.9991 0.9994 0.9996 0.9997 0.9988 0.9992 0.9994 0.9996 0.9997 0.9989 0.9992 0.9994 0.9996 0.9997 0.9989 0.9992 0.9994 0.9996 0.9997 0.9989 0.9992 0.9995 0.9996 0.9997 0.9990 0.9993 0.9995 0.9996 0.9997 0.9990 0.9993 0.9995 0.9997 0.9998 225 Primi elementi di inferenza statistica (ed. maggio 2012) Centili superiori della distribuzione t di Student Dati γ ed r, la tavola fornisce le soglie tγ,r tali che P(Tr > tγ,r ) = γ. Per i test bidirezionali γ = α/2, per gli unidirezionali γ = α. γ * tγ,r r 1 2 3 4 5 0.40 0.325 0.289 0.277 0.271 0.267 0.30 0.727 0.617 0.584 0.569 0.559 0.20 1.376 1.061 0.978 0.941 0.920 0.10 3.078 1.886 1.638 1.533 1.476 γ 0.050 6.314 2.920 2.353 2.132 2.015 0.025 12.706 4.303 3.182 2.776 2.571 0.010 31.821 6.965 4.541 3.747 3.365 0.005 63.657 9.9250 5.8410 4.604 4.032 0.001 318.309 22.327 10.215 7.173 5.893 6 7 8 9 10 0.265 0.263 0.262 0.261 0.260 0.553 0.549 0.546 0.543 0.542 0.906 0.896 0.889 0.883 0.879 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2.365 2.306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 5.208 4.785 4.501 4.297 4.144 11 12 13 14 15 0.260 0.259 0.259 0.258 0.258 0.54 0.539 0.538 0.537 0.536 0.876 0.873 0.870 0.868 0.866 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2.160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 4.025 3.930 3.852 3.787 3.733 16 17 18 19 20 0.258 0.257 0.257 0.257 0.257 0.535 0.534 0.534 0.533 0.533 0.865 0.863 0.862 0.861 0.860 1.337 1.333 1.330 1.328 1.325 1.746 1.740 1.734 1.729 1.725 2.120 2.110 2.101 2.093 2.086 2.583 2.567 2.552 2.539 2.528 2.921 2.898 2.878 2.861 2.845 3.686 3.646 3.610 3.579 3.552 21 22 23 24 25 0.257 0.256 0.256 0.256 0.256 0.532 0.532 0.532 0.531 0.531 0.859 0.858 0.858 0.857 0.856 1.323 1.321 1.319 1.318 1.316 1.721 1.717 1.714 1.711 1.708 2.080 2.074 2.069 2.064 2.060 2.518 2.508 2.500 2.492 2.485 2.831 2.819 2.807 2.797 2.787 3.527 3.505 3.485 3.467 3.450 26 27 28 29 30 0.256 0.256 0.256 0.256 0.256 0.531 0.531 0.530 0.530 0.530 0.856 0.855 0.855 0.854 0.854 1.315 1.314 1.313 1.311 1.310 1.706 1.703 1.701 1.699 1.697 2.056 2.052 2.048 2.045 2.042 2.479 2.473 2.467 2.462 2.457 2.779 2.771 2.763 2.756 2.750 3.435 3.421 3.408 3.396 3.385 31 32 33 34 35 0.256 0.255 0.255 0.255 0.255 0.530 0.530 0.530 0.529 0.529 0.853 0.853 0.853 0.852 0.852 1.309 1.309 1.308 1.307 1.306 1.696 1.694 1.692 1.691 1.690 2.040 2.037 2.035 2.032 2.030 2.453 2.449 2.445 2.441 2.438 2.744 2.738 2.733 2.728 2.724 3.375 3.365 3.356 3.348 3.340 36 37 38 39 40 0.255 0.255 0.255 0.255 0.255 0.529 0.529 0.529 0.529 0.529 0.852 0.851 0.851 0.851 0.851 1.306 1.305 1.304 1.304 1.303 1.688 1.687 1.686 1.685 1.684 2.028 2.026 2.024 2.023 2.021 2.434 2.431 2.429 2.426 2.423 2.719 2.715 2.712 2.708 2.704 3.333 3.326 3.319 3.313 3.307 41 42 43 44 45 0.255 0.255 0.255 0.255 0.255 0.529 0.528 0.528 0.528 0.528 0.850 0.850 0.850 0.850 0.850 1.303 1.302 1.302 1.301 1.301 1.683 1.682 1.681 1.680 1.679 2.020 2.018 2.017 2.015 2.014 2.421 2.418 2.416 2.414 2.412 2.701 2.698 2.695 2.692 2.690 3.301 3.296 3.291 3.286 3.281 46 47 48 49 50 ∞ 0.255 0.255 0.255 0.255 0.255 0.253 0.528 0.528 0.528 0.528 0.528 0.524 0.850 0.849 0.849 0.849 0.849 0.842 1.300 1.300 1.299 1.299 1.299 1.282 1.679 1.678 1.677 1.677 1.676 1.645 2.013 2.012 2.011 2.010 2.009 1.690 2.410 2.408 2.407 2.405 2.403 2.326 2.687 2.685 2.682 2.680 2.678 2.576 3.277 3.273 3.269 3.265 3.261 3.090 Primi elementi di inferenza statistica (ed. maggio 2012) 226 M. Di Marzio C. TAVOLE STATISTICHE Centili superiori della distribuzione Chi-quadrato Dati α ed r, la tavola fornisce i valori χ2α,r tali che P(X2r > χ2α,r ) = α. α *χ2 α,r r 1 2 3 4 5 6 7 8 9 10 0.995 0.00 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 0.99 0.00 0.02 0.11 0.30 0.55 0.87 1.24 1.65 2.09 2.56 0.9750 0.00 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.70 3.25 0.95 0.00 0.10 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 0.90 0.02 0.21 0.58 1.06 1.61 2.20 2.83 3.49 4.17 4.87 0.75 0.10 0.58 1.21 1.92 2.67 3.45 4.25 5.07 5.90 6.74 0.50 0.45 1.39 2.37 3.36 4.35 5.35 6.35 7.34 8.34 9.34 α 0.25 1.32 2.77 4.11 5.39 6.63 7.84 9.04 10.22 11.39 12.55 0.10 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 0.05 3.84 5.99 7.81 9.49 11.07 12.59 14.07 15.51 16.92 18.31 0.0250 5.02 7.38 9.35 11.14 12.83 14.45 16.01 17.53 19.02 20.48 0.01 6.63 9.21 11.34 13.28 15.09 16.81 18.48 20.09 21.67 23.21 0.005 7.88 10.60 12.84 14.86 16.75 18.55 20.28 21.95 23.59 25.19 0.001 10.83 13.82 16.27 18.47 20.52 22.46 24.32 26.12 27.88 29.59 11 12 13 14 15 16 17 18 19 20 2.60 3.07 3.57 4.07 4.60 5.14 5.70 6.26 6.84 7.43 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 3.82 4.40 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 5.58 6.30 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 7.58 8.44 9.30 10.17 11.04 11.91 12.79 13.68 14.56 15.45 10.34 11.34 12.34 13.34 14.34 15.34 16.34 17.34 18.34 19.34 13.70 14.85 15.98 17.12 18.25 19.37 20.49 21.60 22.72 23.83 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.20 28.41 19.68 21.03 22.36 23.68 25.00 26.30 27.59 28.87 30.14 31.41 21.92 23.34 24.74 26.12 27.49 28.85 30.19 31.53 32.85 34.17 24.72 26.22 27.69 29.14 30.58 32.00 33.41 34.81 36.19 37.57 26.76 28.30 29.82 31.32 32.80 34.27 35.72 37.16 38.58 40.00 31.26 32.91 34.53 36.12 37.70 39.25 40.79 42.31 43.82 45.31 21 22 23 24 25 26 27 28 29 30 8.03 8.64 9.26 9.89 10.52 11.16 11.81 12.46 13.12 13.79 8.90 9.54 10.20 10.86 11.52 12.20 12.88 13.56 14.26 14.95 10.28 10.98 11.69 12.40 13.12 13.84 14.57 15.31 16.05 16.79 11.59 12.34 13.09 13.85 14.61 15.38 16.15 16.93 17.71 18.49 13.24 14.04 14.85 15.66 16.47 17.29 18.11 18.94 19.77 20.60 16.34 17.24 18.14 19.04 19.94 20.84 21.75 22.66 23.57 24.48 20.34 21.34 22.34 23.34 24.34 25.34 26.34 27.34 28.34 29.34 24.93 26.04 27.14 28.24 29.34 30.43 31.53 32.62 33.71 34.80 29.62 30.81 32.01 33.20 34.38 35.56 36.74 37.92 39.09 40.26 32.67 33.92 35.17 36.42 37.65 38.89 40.11 41.34 42.56 43.77 35.48 36.78 38.08 39.36 40.65 41.92 43.19 44.46 45.72 46.98 38.93 40.29 41.64 42.98 44.31 45.64 46.96 48.28 49.59 50.89 41.40 42.80 44.18 45.56 46.93 48.29 49.64 50.99 52.34 53.67 46.80 48.27 49.73 51.18 52.62 54.05 55.48 56.89 58.30 59.70 31 32 33 34 35 36 37 38 39 40 14.46 15.13 15.82 16.50 17.19 17.89 18.59 19.29 20.00 20.71 15.66 16.36 17.07 17.79 18.51 19.23 19.96 20.69 21.43 22.16 17.54 18.29 19.05 19.81 20.57 21.34 22.11 22.88 23.65 24.43 19.28 20.07 20.87 21.66 22.47 23.27 24.07 24.88 25.70 26.51 21.43 22.27 23.11 23.95 24.80 25.64 26.49 27.34 28.20 29.05 25.39 26.30 27.22 28.14 29.05 29.97 30.89 31.81 32.74 33.66 30.34 31.34 32.34 33.34 34.34 35.34 36.34 37.34 38.34 39.34 35.89 36.97 38.06 39.14 40.22 41.30 42.38 43.46 44.54 45.62 41.42 42.58 43.75 44.90 46.06 47.21 48.36 49.51 50.66 51.81 44.99 46.19 47.40 48.60 49.80 51.00 52.19 53.38 54.57 55.76 48.23 49.48 50.73 51.97 53.20 54.44 55.67 56.90 58.12 59.34 52.19 53.49 54.78 56.06 57.34 58.62 59.89 61.16 62.43 63.69 55.00 56.33 57.65 58.96 60.27 61.58 62.88 64.18 65.48 66.77 61.10 62.49 63.87 65.25 66.62 67.99 69.35 70.70 72.05 73.40 45 50 55 60 65 70 75 80 85 90 95 100 24.31 27.99 31.73 35.53 39.38 43.28 47.21 51.17 55.17 59.20 63.25 67.33 25.90 29.71 33.57 37.48 41.44 45.44 49.48 53.54 57.63 61.75 65.90 70.06 28.37 32.36 36.40 40.48 44.60 48.76 52.94 57.15 61.39 65.65 69.92 74.22 30.61 34.76 38.96 43.19 47.45 51.74 56.05 60.39 64.75 69.13 73.52 77.93 33.35 37.69 42.06 46.46 50.88 55.33 59.79 64.28 68.78 73.29 77.82 82.36 38.29 42.94 47.61 52.29 56.99 61.70 66.42 71.14 75.88 80.62 85.38 90.13 44.34 49.33 54.33 59.33 64.33 69.33 74.33 79.33 84.33 89.33 94.33 99.33 50.98 56.33 61.66 66.98 72.28 77.58 82.86 88.13 93.39 98.65 103.90 109.14 57.51 63.17 68.80 74.40 79.97 85.53 91.06 96.58 102.08 107.57 113.04 118.50 61.66 67.50 73.31 79.08 84.82 90.53 96.22 101.88 107.52 113.15 118.75 124.34 65.41 71.42 77.38 83.30 89.18 95.02 1.84 106.63 112.39 118.14 123.86 129.56 69.96 76.15 82.29 88.38 94.42 1.43 106.39 112.33 118.24 124.12 129.97 135.81 73.17 79.49 85.75 91.95 98.11 104.21 110.29 116.32 122.32 128.30 134.25 140.17 80.08 86.66 93.17 99.61 105.99 112.32 118.60 124.84 131.04 137.21 143.34 149.45 M. Di Marzio 227 Primi elementi di inferenza statistica (ed. maggio 2012) Centili superiori della distribuzione F di Fisher r1 r2 1 1 2 2 3 3 3 4 4 4 5 5 5 6 6 6 7 7 7 8 8 8 9 9 9 10 10 10 11 11 11 161.45 4052.2 18.51 98.5 10.13 34.12 167.03 7.71 21.2 74.14 6.61 16.26 47.18 5.99 13.75 35.51 5.59 12.25 29.25 5.32 11.26 25.41 5.12 10.56 22.86 4.96 10.04 21.04 4.84 9.65 19.69 1 199.5 4999.5 19 99 9.55 30.82 148.5 6.94 18 61.25 5.79 13.27 37.12 5.14 10.92 27 4.74 9.55 21.69 4.46 8.65 18.49 4.26 8.02 16.39 4.1 7.56 14.91 3.98 7.21 13.81 2 215.71 5403.4 19.16 99.17 9.28 29.46 141.11 6.59 16.69 56.18 5.41 12.06 33.2 4.76 9.78 23.7 4.35 8.45 18.77 4.07 7.59 15.83 3.86 6.99 13.9 3.71 6.55 12.55 3.59 6.22 11.56 3 224.58 5624.6 19.25 99.25 9.12 28.71 137.1 6.39 15.98 53.44 5.19 11.39 31.09 4.53 9.15 21.92 4.12 7.85 17.2 3.84 7.01 14.39 3.63 6.42 12.56 3.48 5.99 11.28 3.36 5.67 10.35 4 230.16 5763.6 19.3 99.3 9.01 28.24 134.58 6.26 15.52 51.71 5.05 10.97 29.75 4.39 8.75 20.8 3.97 7.46 16.21 3.69 6.63 13.48 3.48 6.06 11.71 3.33 5.64 10.48 3.2 5.32 9.58 5 233.99 5859 19.33 99.33 8.94 27.91 132.85 6.16 15.21 50.53 4.95 10.67 28.83 4.28 8.47 20.03 3.87 7.19 15.52 3.58 6.37 12.86 3.37 5.8 11.13 3.22 5.39 9.93 3.09 5.07 9.05 6 236.77 5928.4 19.35 99.36 8.89 27.67 131.58 6.09 14.98 49.66 4.88 10.46 28.16 4.21 8.26 19.46 3.79 6.99 15.02 3.5 6.18 12.4 3.29 5.61 10.7 3.14 5.2 9.52 3.01 4.89 8.66 7 α 8 240.54 6022.5 19.38 99.39 8.81 27.35 129.86 6 14.66 48.47 4.77 10.16 27.24 4.1 7.98 18.69 3.68 6.72 14.33 3.39 5.91 11.77 3.18 5.35 10.11 3.02 4.94 8.96 2.9 4.63 8.12 9 241.88 6055.9 19.4 99.4 8.79 27.23 129.25 5.96 14.55 48.05 4.74 10.05 26.92 4.06 7.87 18.41 3.64 6.62 14.08 3.35 5.81 11.54 3.14 5.26 9.89 2.98 4.85 8.75 2.85 4.54 7.92 10 243.91 6106.3 19.41 99.42 8.74 27.05 128.32 5.91 14.37 47.41 4.68 9.89 26.42 4 7.72 17.99 3.57 6.47 13.71 3.28 5.67 11.19 3.07 5.11 9.57 2.91 4.71 8.45 2.79 4.4 7.63 12 245.95 6157.3 19.43 99.43 8.7 26.87 127.37 5.86 14.2 46.76 4.62 9.72 25.91 3.94 7.56 17.56 3.51 6.31 13.32 3.22 5.52 10.84 3.01 4.96 9.24 2.85 4.56 8.13 2.72 4.25 7.32 15 248.01 6208.7 19.45 99.45 8.66 26.69 126.42 5.8 14.02 46.1 4.56 9.55 25.39 3.87 7.4 17.12 3.44 6.16 12.93 3.15 5.36 10.48 2.94 4.81 8.9 2.77 4.41 7.8 2.65 4.1 7.01 20 250.1 6260.6 19.46 99.47 8.62 26.5 125.45 5.75 13.84 45.43 4.5 9.38 24.87 3.81 7.23 16.67 3.38 5.99 12.53 3.08 5.2 10.11 2.86 4.65 8.55 2.7 4.25 7.47 2.57 3.94 6.68 30 252.2 6313 19.48 99.48 8.57 26.32 124.47 5.69 13.65 44.75 4.43 9.2 24.33 3.74 7.06 16.21 3.3 5.82 12.12 3.01 5.03 9.73 2.79 4.48 8.19 2.62 4.08 7.12 2.49 3.78 6.35 60 * ,r 238.88 5981.1 19.37 99.37 8.85 27.49 130.62 6.04 14.8 49 4.82 10.29 27.65 4.15 8.1 19.03 3.73 6.84 14.63 3.44 6.03 12.05 3.23 5.47 10.37 3.07 5.06 9.2 2.95 4.74 8.35 1 2 fα,r Per livelli di α pari a 0.05, 0.01, 0.001, e le coppie (r1 , r2 ), la tavola fornisce i valori fα,r1 ,r2 tali che P(Fr1 ,r2 > fα,r1 ,r2 ) = α. α 0.05 0.01 0.05 0.01 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 120 ∞ 253.25 254.32 6339.4 6365.6 19.49 19.5 99.49 99.5 8.55 8.53 26.22 26.13 123.97 123.46 5.66 5.63 13.56 13.46 44.4 44.05 4.4 4.37 9.11 9.02 24.06 23.79 3.7 3.67 6.97 6.88 15.98 15.75 3.27 3.23 5.74 5.65 11.91 11.7 2.97 2.93 4.95 4.86 9.53 9.33 2.75 2.71 4.4 4.31 8 7.81 2.58 2.54 4 3.91 6.94 6.76 2.45 2.4 3.69 3.36 6.186 6 -continua- M. Di Marzio 228 Primi elementi di inferenza statistica (ed. maggio 2012) M. Di Marzio α 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 -seguer1 r2 12 12 12 13 13 13 14 14 14 15 15 15 16 16 16 17 17 17 18 18 18 19 19 19 20 20 20 21 21 21 22 22 22 23 23 23 24 24 24 25 25 25 4.75 9.33 18.64 4.67 9.07 17.82 4.6 8.86 17.14 4.54 8.68 16.59 4.49 8.53 16.12 4.45 8.4 15.72 4.41 8.29 15.38 4.38 8.18 15.08 4.35 8.1 14.82 4.32 8.02 14.59 4.3 7.95 14.38 4.28 7.88 14.2 4.26 7.82 14.03 4.24 7.77 13.88 1 3.89 6.93 12.97 3.81 6.7 12.31 3.74 6.51 11.78 3.68 6.36 11.34 3.63 6.23 10.97 3.59 6.11 10.66 3.55 6.01 10.39 3.52 5.93 10.16 3.49 5.85 9.95 3.47 5.78 9.77 3.44 5.72 9.61 3.42 5.66 9.47 3.4 5.61 9.34 3.39 5.57 9.22 2 3.49 5.95 10.8 3.41 5.74 10.21 3.34 5.56 9.73 3.29 5.42 9.34 3.24 5.29 9.01 3.2 5.18 8.73 3.16 5.09 8.49 3.13 5.01 8.28 3.1 4.94 8.1 3.07 4.87 7.94 3.05 4.82 7.8 3.03 4.76 7.67 3.01 4.72 7.55 2.99 4.68 7.45 3 3.26 5.41 9.63 3.18 5.21 9.07 3.11 5.04 8.62 3.06 4.89 8.25 3.01 4.77 7.94 2.96 4.67 7.68 2.93 4.58 7.46 2.9 4.5 7.27 2.87 4.43 7.1 2.84 4.37 6.95 2.82 4.31 6.81 2.8 4.26 6.7 2.78 4.22 6.59 2.76 4.18 6.49 4 3.11 5.06 8.89 3.03 4.86 8.35 2.96 4.69 7.92 2.9 4.56 7.57 2.85 4.44 7.27 2.81 4.34 7.02 2.77 4.25 6.81 2.74 4.17 6.62 2.71 4.1 6.46 2.68 4.04 6.32 2.66 3.99 6.19 2.64 3.94 6.08 2.62 3.9 5.98 2.6 3.85 5.89 5 3 4.82 8.38 2.92 4.62 7.86 2.85 4.46 7.44 2.79 4.32 7.09 2.74 4.2 6.8 2.7 4.1 6.56 2.66 4.01 6.35 2.63 3.94 6.18 2.6 3.87 6.02 2.57 3.81 5.88 2.55 3.76 5.76 2.53 3.71 5.65 2.51 3.67 5.55 2.49 3.63 5.46 6 2.91 4.64 8 2.83 4.44 7.49 2.76 4.28 7.08 2.71 4.14 6.74 2.66 4.03 6.46 2.61 3.93 6.22 2.58 3.84 6.02 2.54 3.77 5.85 2.51 3.7 5.69 2.49 3.64 5.56 2.46 3.59 5.44 2.44 3.54 5.33 2.42 3.5 5.23 2.4 3.46 5.15 7 2.85 4.5 7.71 2.77 4.3 7.21 2.7 4.14 6.8 2.64 4 6.47 2.59 3.89 6.19 2.55 3.79 5.96 2.51 3.71 5.76 2.48 3.63 5.59 2.45 3.56 5.44 2.42 3.51 5.31 2.4 3.45 5.19 2.37 3.41 5.09 2.36 3.36 4.99 2.34 3.32 4.91 8 2.8 4.39 7.48 2.71 4.19 6.98 2.65 4.03 6.58 2.59 3.89 6.26 2.54 3.78 5.98 2.49 3.68 5.75 2.46 3.6 5.56 2.42 3.52 5.39 2.39 3.46 5.24 2.37 3.4 5.11 2.34 3.35 4.99 2.32 3.3 4.89 2.3 3.26 4.8 2.28 3.22 4.71 9 2.75 4.3 7.29 2.67 4.1 6.8 2.6 3.94 6.4 2.54 3.8 6.08 2.49 3.69 5.81 2.45 3.59 5.58 2.41 3.51 5.39 2.38 3.43 5.22 2.35 3.37 5.08 2.32 3.31 4.95 2.3 3.26 4.83 2.27 3.21 4.73 2.25 3.17 4.64 2.24 3.13 4.56 10 2.69 4.16 7 2.6 3.96 6.52 2.53 3.8 6.13 2.48 3.67 5.81 2.42 3.55 5.55 2.38 3.46 5.32 2.34 3.37 5.13 2.31 3.3 4.97 2.28 3.23 4.82 2.25 3.17 4.7 2.23 3.12 4.58 2.2 3.07 4.48 2.18 3.03 4.39 2.16 2.99 4.31 12 2.62 4.01 6.71 2.53 3.82 6.23 2.46 3.66 5.85 2.4 3.52 5.54 2.35 3.41 5.27 2.31 3.31 5.05 2.27 3.23 4.87 2.23 3.15 4.7 2.2 3.09 4.56 2.18 3.03 4.44 2.15 2.98 4.33 2.13 2.93 4.23 2.11 2.89 4.14 2.09 2.85 4.06 15 2.54 3.86 6.4 2.46 3.66 5.93 2.39 3.51 5.56 2.33 3.37 5.25 2.28 3.26 4.99 2.23 3.16 4.78 2.19 3.08 4.59 2.16 3 4.43 2.12 2.94 4.29 2.1 2.88 4.17 2.07 2.83 4.06 2.05 2.78 3.96 2.03 2.74 3.87 2.01 2.7 3.79 20 2.47 3.7 6.09 2.38 3.51 5.63 2.31 3.35 5.25 2.25 3.21 4.95 2.19 3.1 4.7 2.15 3 4.48 2.11 2.92 4.3 2.07 2.84 4.14 2.04 2.78 4 2.01 2.72 3.88 1.98 2.67 3.78 1.96 2.62 3.68 1.94 2.58 3.59 1.92 2.54 3.52 30 2.38 3.54 5.76 2.3 3.34 5.3 2.22 3.18 4.94 2.16 3.05 4.64 2.11 2.93 4.39 2.06 2.83 4.18 2.02 2.75 4 1.98 2.67 3.84 1.95 2.61 3.7 1.92 2.55 3.58 1.89 2.5 3.48 1.86 2.45 3.38 1.84 2.4 3.29 1.82 2.36 3.22 60 ∞ 2.34 2.3 3.45 3.36 5.59 5.42 2.25 2.21 3.25 3.17 5.14 4.97 2.18 2.13 3.09 3 4.77 4.6 2.11 2.07 2.96 2.87 4.47 4.31 2.06 2.01 2.84 2.75 4.23 4.06 2.01 1.96 2.75 2.65 4.02 3.85 1.97 1.92 2.66 2.57 3.84 3.67 1.93 1.88 2.58 2.49 3.68 3.51 1.9 1.84 2.52 2.42 3.54 3.38 1.87 1.81 2.46 2.36 3.42 3.26 1.84 1.78 2.4 2.31 3.32 3.15 1.81 1.76 2.35 2.26 3.22 3.05 1.79 1.73 2.31 2.21 3.14 2.97 1.77 1.71 2.27 2.17 3.06 2.89 -continua- 120 C. TAVOLE STATISTICHE 229 Primi elementi di inferenza statistica (ed. maggio 2012) -segueα 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 0.05 0.01 0.001 r1 r2 26 26 26 27 27 27 28 28 28 29 29 29 30 30 30 35 35 35 40 40 40 50 50 50 60 60 60 70 70 70 80 80 80 90 90 90 100 100 100 ∞ ∞ ∞ 4.23 7.72 13.74 4.21 7.68 13.61 4.2 7.64 13.5 4.18 7.6 13.39 4.17 7.56 13.29 4.12 7.42 12.9 4.08 7.31 12.61 4.03 7.17 12.22 4 7.08 11.97 3.98 7.01 11.8 3.96 6.96 11.67 3.95 6.93 11.57 3.94 6.9 11.5 3.84 6.63 10.83 1 3.37 5.53 9.12 3.35 5.49 9.02 3.34 5.45 8.93 3.33 5.42 8.85 3.32 5.39 8.77 3.27 5.27 8.47 3.23 5.18 8.25 3.18 5.06 7.96 3.15 4.98 7.77 3.13 4.92 7.64 3.11 4.88 7.54 3.1 4.85 7.47 3.09 4.82 7.41 3 4.61 6.91 2 2.98 4.64 7.36 2.96 4.6 7.27 2.95 4.57 7.19 2.93 4.54 7.12 2.92 4.51 7.05 2.87 4.4 6.79 2.84 4.31 6.59 2.79 4.2 6.34 2.76 4.13 6.17 2.74 4.07 6.06 2.72 4.04 5.97 2.71 4.01 5.91 2.7 3.98 5.86 2.6 3.78 5.42 3 2.74 4.14 6.41 2.73 4.11 6.33 2.71 4.07 6.25 2.7 4.04 6.19 2.69 4.02 6.12 2.64 3.91 5.88 2.61 3.83 5.7 2.56 3.72 5.46 2.53 3.65 5.31 2.5 3.6 5.2 2.49 3.56 5.12 2.47 3.53 5.06 2.46 3.51 5.02 2.37 3.32 4.62 4 2.59 3.82 5.8 2.57 3.78 5.73 2.56 3.75 5.66 2.55 3.73 5.59 2.53 3.7 5.53 2.49 3.59 5.3 2.45 3.51 5.13 2.4 3.41 4.9 2.37 3.34 4.76 2.35 3.29 4.66 2.33 3.26 4.58 2.32 3.23 4.53 2.31 3.21 4.48 2.21 3.02 4.10 5 2.47 3.59 5.38 2.46 3.56 5.31 2.45 3.53 5.24 2.43 3.5 5.18 2.42 3.47 5.12 2.37 3.37 4.89 2.34 3.29 4.73 2.29 3.19 4.51 2.25 3.12 4.37 2.23 3.07 4.28 2.21 3.04 4.2 2.2 3.01 4.15 2.19 2.99 4.11 2.1 2.8 3.74 6 2.39 3.42 5.07 2.37 3.39 5 2.36 3.36 4.93 2.35 3.33 4.87 2.33 3.3 4.82 2.29 3.2 4.59 2.25 3.12 4.44 2.2 3.02 4.22 2.17 2.95 4.09 2.14 2.91 3.99 2.13 2.87 3.92 2.11 2.84 3.87 2.1 2.82 3.83 2.01 2.64 3.47 7 2.32 3.29 4.83 2.31 3.26 4.76 2.29 3.23 4.69 2.28 3.2 4.64 2.27 3.17 4.58 2.22 3.07 4.36 2.18 2.99 4.21 2.13 2.89 4 2.1 2.82 3.86 2.07 2.78 3.77 2.06 2.74 3.7 2.04 2.72 3.65 2.03 2.69 3.61 1.94 2.51 3.27 8 2.27 3.18 4.64 2.25 3.15 4.57 2.24 3.12 4.5 2.22 3.09 4.45 2.21 3.07 4.39 2.16 2.96 4.18 2.12 2.89 4.02 2.07 2.78 3.82 2.04 2.72 3.69 2.02 2.67 3.6 2 2.64 3.53 1.99 2.61 3.48 1.97 2.59 3.44 1.88 2.41 3.10 9 2.22 3.09 4.48 2.2 3.06 4.41 2.19 3.03 4.35 2.18 3 4.29 2.16 2.98 4.24 2.11 2.88 4.03 2.08 2.8 3.87 2.03 2.7 3.67 1.99 2.63 3.54 1.97 2.59 3.45 1.95 2.55 3.39 1.94 2.52 3.34 1.93 2.5 3.3 1.83 2.32 2.96 10 2.15 2.96 4.24 2.13 2.93 4.17 2.12 2.9 4.11 2.1 2.87 4.05 2.09 2.84 4 2.04 2.74 3.79 2 2.66 3.64 1.95 2.56 3.44 1.92 2.5 3.32 1.89 2.45 3.23 1.88 2.42 3.16 1.86 2.39 3.11 1.85 2.37 3.07 1.75 2.18 2.74 12 2.07 2.81 3.99 2.06 2.78 3.92 2.04 2.75 3.86 2.03 2.73 3.8 2.01 2.7 3.75 1.96 2.6 3.55 1.92 2.52 3.4 1.87 2.42 3.2 1.84 2.35 3.08 1.81 2.31 2.99 1.79 2.27 2.93 1.78 2.24 2.88 1.77 2.22 2.84 1.67 2.04 2.51 15 1.99 2.66 3.72 1.97 2.63 3.66 1.96 2.6 3.6 1.94 2.57 3.54 1.93 2.55 3.49 1.88 2.44 3.29 1.84 2.37 3.14 1.78 2.27 2.95 1.75 2.2 2.83 1.72 2.15 2.74 1.7 2.12 2.68 1.69 2.09 2.63 1.68 2.07 2.59 1.57 1.88 2.27 20 1.9 2.5 3.44 1.88 2.47 3.38 1.87 2.44 3.32 1.85 2.41 3.27 1.84 2.39 3.22 1.79 2.28 3.02 1.74 2.2 2.87 1.69 2.1 2.68 1.65 2.03 2.55 1.62 1.98 2.47 1.6 1.94 2.41 1.59 1.92 2.36 1.57 1.89 2.32 1.46 1.7 1.99 30 1.8 2.33 3.15 1.79 2.29 3.08 1.77 2.26 3.02 1.75 2.23 2.97 1.74 2.21 2.92 1.68 2.1 2.72 1.64 2.02 2.57 1.58 1.91 2.38 1.53 1.84 2.25 1.5 1.78 2.16 1.48 1.75 2.1 1.46 1.72 2.05 1.45 1.69 2.01 1.32 1.47 1.66 60 1.75 2.23 2.99 1.73 2.2 2.92 1.71 2.17 2.86 1.7 2.14 2.81 1.68 2.11 2.76 1.62 2 2.56 1.58 1.92 2.41 1.51 1.8 2.21 1.47 1.73 2.08 1.44 1.67 1.99 1.41 1.63 1.92 1.39 1.6 1.87 1.38 1.57 1.83 1.22 1.32 1.45 120 1.69 2.13 2.82 1.67 2.1 2.75 1.65 2.06 2.69 1.64 2.03 2.64 1.62 2.01 2.59 1.56 1.89 2.38 1.51 1.8 2.23 1.44 1.68 2.03 1.39 1.6 1.89 1.35 1.54 1.79 1.32 1.49 1.72 1.3 1.46 1.66 1.28 1.43 1.62 1 1 1 ∞ M. Di Marzio 230 Primi elementi di inferenza statistica (ed. maggio 2012) D Elenco delle abbreviazioni e dei simboli v.c. pdf vv.cc. i.i.d. TCL = ̸ = < ≤ > ≥ ± ≃ ∝ ⇒ ⇔ f :X →Y lim ∞ e ex ; exp{x} log x min max sup A ∀ N Z Z+ Z− R R+ R− Rk ∈ ∈ / ⊂ ⊆ A∪B A∩B A−B A×B ∅ A ♯A Ω ω P(A) P(A|B) P(A, B) f ′ (x0 ) ∫ ∫ bf (x)dx ∫a∫f (x)dx f (x, y)dxdy variabile casuale funzione di distribuzione (densità) di probabilità di una v.c. discreta (continua) variabili casuali indipendenti e identicamente distribuite teorema centrale del limite uguale diverso minore minore o uguale maggiore maggiore o uguale più e meno approssimativamente uguale proporzionale a implica se e solo se funzione f da X in Y limite infinito numero di Nepero funzione esponenziale di variabile x logaritmo di x in base e, logaritmo naturale di x minimo massimo estremo superiore dell’insieme A per ogni insieme dei numeri naturali insieme dei numeri interi insieme dei numeri interi positivi insieme dei numeri interi negativi insieme dei numeri reali insieme dei numeri reali positivi insieme dei numeri reali negativi spazio dei numeri reali in k dimensioni appartiene a, è elemento di non appartiene a, non è elemento di è un sottoinsieme proprio di è incluso in, è un sottoinsieme di unione degli insiemi A e B intersezione degli insiemi A e B differenza tra gli insiemi A e B prodotto cartesiano tra gli insiemi A e B insieme vuoto insieme complementare dell’insieme A cardinalità dell’insieme A spazio fondamentale evento elementare probabilità dell’evento A probabilità dell’evento A condizionata all’evento B probabilità dell’evento A ∩ B derivata della funzione f nel punto x0 integrale indefinito della funzione f (x) integrale definito della funzione f (x) nell’intervallo [a, b] integrale della funzione f (x, y) nel dominio D D M. Di Marzio 231 Primi elementi di inferenza statistica (ed. maggio 2012) Pn pX fX FX pXY fXY pY |x fY |x E[X] E[Y |x] Var[X] Var[Y |x] Dev[X] Cov[X, Y ] Cod[X, Y ] ρXY n! k Dn ( ) n k Cn ; k X ∼ B(n, π) X ∼ G(π) X ∼ I(T, S, n) X ∼ P(λt) X ∼ U (a, b) X ∼ E(λ) X ∼ N (µ, σ 2 ) Z Φ(·) Tn tα,n X2n χ2α,n Fn,m fα,n,m X θ Θ Θ̂ θ̂ EQM[Θ̂] dist[Θ̂] X x̄ S2 s2 P p R; RXY r; rxy COD; CODXY cod; codxy DEV ; DEVX dev; devx pX1 X2 ...Xn fX1 X2 ...Xn L L Iθ iθ Err A R H0 H1 R α(θ) β(θ) ℘(θ) γ zα Nij Ni• N•j nij ni• n•j E EQMP[Y ] µY |x mY |x β0 , β1 B0 , B1 b0 , b1 R(t) λ(t) T permutazioni di n oggetti pdf della v.c. discreta X pdf della v.c. continua X funzione di ripartizione della v.c. X pdf della v.c. discreta (X, Y ) pdf della v.c. continua (X, Y ) pdf della v.c. discreta Y dato X = x pdf della v.c. continua Y dato X = x valore atteso della v.c. X valore atteso della distribuzione della v.c. Y condizionata ad X = x varianza della v.c. X varianza della distribuzione della v.c. Y condizionata ad X = x devianza della v.c. X covarianza tra le vv .cc. X e Y codevianza tra le vv.cc. X e Y coefficiente di correlazione tra X e Y fattoriale di n disposizioni di n oggetti a k a k combinazioni di n oggetti a k a k la v.c. X ha distribuzione binomiale di parametri n e π la v.c. X ha distribuzione geometrica di parametro π la v.c. X ha distribuzione ipergeometrica di parametri T , S e n la v.c. X ha distribuzione di Poisson di parametro λt la v.c. X ha distribuzione uniforme in (a, b) la v.c. X ha distribuzione esponenziale di parametro λ la v.c. X ha distribuzione normale con media µ e varianza σ 2 v.c. normale standard funzione di ripartizione della v.c. normale standard v.c. t di Student con n gradi di libertà valore della v.c. Tn tale che P(Tn > tα,n ) = α v.c. Chi-quadrato con n gradi di libertà 2 valore della v.c. X2n tale che P(Xn > χ2α,n ) = α v.c. F di Fisher con n e m gradi di libertà valore della v.c. Fn,m tale che P(Fn,m > fα,n,m ) = α spazio campionario parametro generico di una distribuzione spazio parametrico stimatore per punti di θ stima per punti di θ errore quadratico medio di Θ̂ distorsione di Θ̂ v.c. media campionaria realizzazione della v.c. media campionaria varianza campionaria realizzazione della v.c. varianza campionaria v.c. proporzione campionaria realizzazione della v.c. proporzione campionaria coefficiente di correlazione tra X e Y in funzione di un campione casuale valore di R (RXY ) in corrispondenza della realizzazione campionaria codevianza tra X e Y in funzione di un campione casuale valore di COD (CODXY ) in corrispondenza della realizzazione campionaria devianza di X in funzione di un campione casuale valore di DEV (DEVX ) in corrispondenza della realizzazione campionaria funzione di distribuzione di probabilità congiunta del campione casuale X1 , X2 , ..., Xn funzione di densità di probabilità congiunta del campione casuale X1 , X2 , ..., Xn funzione di verosimiglianza funzione di log-verosimiglianza intervallo di confidenza per il parametro θ stima intervallare del parametro θ errore campionario regione di accettazione di un test statistico regione di rifiuto di un test statistico ipotesi nulla ipotesi alternativa regione di rifiuto indotta da una statistica test probabilità dell’errore di I tipo nella verifica di ipotesi su θ probabilità dell’errore di II tipo nella verifica di ipotesi su θ funzione di potenza di un test sul parametro θ livello di significatività osservato valore della v.c. Z tale che P(Z > zα ) = α frequenza congiunta delle modalità Ai e Bj frequenza della modalità Ai frequenza della modalità Bj frequenza congiunta delle modalità xi e yj frequenza della modalità xi frequenza della modalità yj errore di predizione errore quadratico medio di predizione associato a Y funzione di regressione di Y su X stima della funzione di regressione di Y su X parametri del predittore lineare ottimo stimatori di β0 e β1 stime di β0 e β1 funzione di affidabilità funzione tasso di guasto tempo di interruzione del campionamento con prove simultanee o sequenziali Primi elementi di inferenza statistica (ed. maggio 2012) 232 M. Di Marzio Elenco delle figure 1.1 1.2 1.3 1.4 1.5 Alcune operazioni tra insiemi rappresentate attraverso diagrammi di Venn. . Leggi di De Morgan tramite diagrammi di Venn. . . . . . . . . . . . . . . . . Andamento della frequenza relativa di teste su 1000 lanci di una moneta. . . Riduzione dello spazio fondamentale per effetto del verificarsi di A (risp. B). Scomposizione di E indotta dalla partizione {A, B, C}. . . . . . . . . . . . . . . . . . 4 4 6 7 10 3.1 Rappesentazioni di vv.cc. discrete e continue con relative pdf. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 5.1 5.2 5.3 5.4 Distribuzioni Distribuzioni Distribuzioni Distribuzioni . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 40 41 42 7.1 7.2 7.3 7.4 7.5 7.6 7.7 Una funzione di densità di una v.c. normale con relativa funzione di ripartizione. Distribuzioni normali con differenti valori di µ: −3, 0, 3. . . . . . . . . . . . . . . Distribuzioni normali con differenti valori di σ: 0.6, 1, 3. . . . . . . . . . . . . . . Standardizzazione di vv.cc. normali. . . . . . . . . . . . . . . . . . . . . . . . . . L’area ombreggiata indica la quantità P(X > 1). . . . . . . . . . . . . . . . . . . Pdf e funzione di ripartizione di una v.c. uniforme. . . . . . . . . . . . . . . . . . Pdf e funzione di ripartizione di vv.cc. esponenziali per diversi valori di λ : 0.5, 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 48 48 48 49 50 51 9.1 9.2 9.3 Grafico della pdf dell’esempio 9.3. . . . . . . . . . . . . Grafico della pdf dell’esempio 9.13. . . . . . . . . . . . Grafici di normali bivariate. Tutte hanno parametri µX seconda ρXY = 0.8 e nella terza ρXY = −0.8. I pannelli . . . . . . . . nella . . . . 58 62 Funzioni di densità della v.c. per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funzioni di densità della v.c. per diversi valori di r. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Funzioni di densità della v.c. Fr1 ,r2 per alcune coppie (r1 , r2 ). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Distribuzioni di varie somme di vv.cc. uniformi indipendenti di parametri 0 e 1 con rispettive approssimazioni normali date dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.5 Distribuzioni delle medie di n vv.cc. esponenziali indipendenti di parametro 1. Nel caso n = 30 è anche riportata la rispettiva approssimazione normale data dal teorema centrale del limite (linea tratteggiata). . . . . . . . . . . . . . . . . 82 83 83 12.1 Istogrammi dei dati campionari. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 fX (·; θ) e fX (·; θ) (curva più concentrata). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 94 13.1 Funzioni di verosimiglianza dell’esempio 13.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Funzione di log-verosimiglianza dell’esempio 13.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 99 binomiali con diversi valori dei parametri n e π. . . . . . . geometriche con diversi valori del parametro π. . . . . . . ipergeometriche con diversi valori dei parametri T , n e S. di Poisson con diversi valori del parametro λ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . = 0, µY = 0, σX = 1, σY = 1; nella prima riga ρXY = 0, di destra sono rappresentazioni tramite curve di livello. . . . . . . . . . . . . . . . . X2r Tr 11.1 11.2 11.3 11.4 68 84 86 15.1 Stime di µ = 0 tramite la media campionaria. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 15.2 Errori quadratici medi degli stimatori W1 e W2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 15.3 Funzioni di verosimiglianza per diversi campioni da una pdf binomiale di parametri 1 e π . . . . . . . . . . . . . . . . . . 116 19.1 19.2 19.3 19.4 Funzioni Funzioni Funzioni Funzioni di di di di potenza potenza potenza potenza dei test Γ1 e Γ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . dei test dell’esempio 19.6. . . . . . . . . . . . . . . . . . . . . . . di due test per l’ipotesi H0 : θ ≤ −7 contro H1 : θ > −7. . . . . . del test dell’esempio 19.5 per varie numerosità campionarie. . . . 20.1 Funzioni di potenza dei test Γ1 e Γ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 137 138 139 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148 23.1 Predittore ottimo dell’esempio 23.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171 23.2 Esempio di modello predittivo lineare ottimo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 24.1 Rappresentazione grafica di dati bidimensionali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 25.1 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo dell’esercizio 25.2. . . . . . . . . 186 25.2 Diagramma di dispersione, spezzata di regressione e stima del predittore lineare ottimo. . . . . . . . . . . . . . . . . . . 187 26.1 26.2 26.3 26.4 Tipica funzione tasso di guasto per componenti elettronici. . . . . . . Tipica funzione tasso di guasto per componenti meccanici. . . . . . . . Funzioni tasso di guasto per la densità normale con σ = 0.5, 1, 1.5. . . Funzioni tasso di guasto per la densità esponenziale con θ = 0.5, 1, 1.5. M. Di Marzio 233 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 196 196 197 Primi elementi di inferenza statistica (ed. maggio 2012) Elenco delle figure 26.5 26.6 26.7 26.8 Funzioni tasso di guasto per la densità uniforme con Sistema complesso con 6 componenti. . . . . . . . . Sistema in serie con 4 componenti. . . . . . . . . . . Sistema in parallelo con 3 componenti. . . . . . . . b= . . . . . . 1, 2, 3. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 200 200 201 27.1 27.2 27.3 27.4 27.5 27.6 Sistema Sistema Sistema Sistema Sistema Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 205 206 206 207 207 dell’esercizio dell’esercizio dell’esercizio dell’esercizio dell’esercizio dell’esercizio 27.5 27.5 27.5 27.6 27.6 27.6 punto punto punto punto punto punto a). b). c). a). b). c). . . . . . . . . . . . . . . . . . . . . . . . . Primi elementi di inferenza statistica (ed. maggio 2012) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234 . . . . . . . . . . . . M. Di Marzio Elenco delle tabelle 1.1 1.2 Insiemi, probabilità ed esperimenti casuali. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Incompatibilità ed indipendenza. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 9 12.1 Alcune statistiche campionarie. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 19.1 19.2 19.3 19.4 19.5 19.6 19.7 19.8 19.9 Possibili esiti della verifica di ipotesi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Regioni di rifiuto per test sulla media di popolazioni normali con σ 2 noto. . . . . . . . . . . . . . . . . Regioni di rifiuto per test sulla media di popolazioni normali con σ 2 non noto. . . . . . . . . . . . . . Regione di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze note. . . . Regioni di rifiuto per test sulla differenza tra medie di due popolazioni normali con varianze non note. Regioni di rifiuto per test sulla proporzione per grandi campioni. . . . . . . . . . . . . . . . . . . . . . Regioni di rifiuto per test sulla differenza di proporzioni per grandi campioni. . . . . . . . . . . . . . . Regioni di rifiuto per test sulla varianza di popolazioni normali con µ noto. . . . . . . . . . . . . . . . Regioni di rifiuto per test sulla varianza di popolazioni normali con µ non noto. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 141 142 143 143 144 144 145 145 21.1 21.2 21.3 21.4 21.5 Distribuzione Distribuzione Distribuzione Distribuzione Distribuzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 158 158 160 160 di probabilità del carattere A. . . . . . . . . . . . doppia di probabilità dei caratteri A e B. . . . . . doppia di frequenza dei caratteri A e B. . . . . . . di probabilità del carattere A presso t popolazioni. di frequenza del carattere A presso t campioni. . . . . . . . . . . . . . . . . . 24.1 Notazione per la distribuzione doppia di frequenza dei caratteri X e Y . M. Di Marzio 235 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176 Primi elementi di inferenza statistica (ed. maggio 2012)