«MANLIO ROSSI-DORIA» Collana a cura del Centro per la Formazione in Economia e Politica dello Sviluppo Rurale e del Dipartimento di Economia e Politica Agraria dell’Università di Napoli Federico II 6 Nella stessa collana: 1. Qualità e valorizzazione nel mercato dei prodotti agroalimentari tipici, a cura di F. de Stefano, 2000. 2. L’economia agrobiologica in Campania: un difficile percorso, a cura di F. de Stefano, G. Cicia e T. del Giudice, 2000. 3. Istituzioni, capitale umano e sviluppo del Mezzogiorno, a cura di M.R. Carrillo e A. Zazzaro, 2001. 4. Introduzione alla statistica per le applicazioni economiche. Vol. I, Statistica descrittiva, C. Vitale 2002. 5. Aspetti economici e prospettive dela coltivazione della patata in Italia, a cura di P. Lombardi, 2002 6. Introduzione alla statistica per le applicazioni economiche. Vol. II, Probabilità e Statistica, C. Vitale 2002. In preparazione: O. W. MAIETTA, L’analisi quantitativa dell’efficienza. Tecniche di base ed estensioni recenti. COSIMO VITALE INTRODUZIONE ALLA STATISTICA PER LE APPLICAZIONI ECONOMICHE Volume secondo PROBABILITÀ E STATISTICA Edizioni Scientifiche Italiane VITALE Cosimo Introduzione alla statistica per le applicazioni economiche vol. II, Probabilità e statistica. Collana: «Manlio Rossi - Doria, a cura del Centro per la Formazione in Economia e Politica dello Sviluppo Rurale e del Dipartimento di Economia e Politica Agraria dell’Università di Napoli Federico II, 4 Napoli: Edizioni Scientifiche Italiane, 2002 pp. X+302; cm 24 ISBN 88-495-0552-3 © 2002 by Edizioni Scientifiche Italiane s.p.a. 80121 Napoli, via Chiatamone 7 00185 Roma, via dei Taurini 27 Internet: www.esispa.com E-mail: [email protected] I diritti di traduzione, riproduzione e adattamento totale o parziale e con qualsiasi mezzo (compresi i microfilm e le copie fotostatiche) sono riservati per tutti i Paesi. Fotocopie per uso personale del lettore possono essere effettuate nei limiti del 15% di ciascun volume/fascicolo di periodico dietro pagamento alla SIAE del compenso previsto dall’art. 68, comma 4 della legge 22 aprile 1941, n. 633 ovvero dell’accordo stipulato tra SIAE , AIE, SNS e CNA, CONFARTIGIANATO, CASA, CLAAI, CONFCOMMERCIO, CONFESERCENTI il 18 dicembre 2000. Associazione Italiana per i Diritti di Riproduzione Delle Opere dell’ingegno (AIDRO) Via delle Erbe, 2 – 20121 Milano Tel. E fax 02-809506; e-mail: [email protected] INDICE Capitolo 1 Introduzione al calcolo delle probabilità 1.1 Introduzione 1.2 I concetti primitivi del calcolo delle probabilità 1 4 1.3 I postulati del calcolo delle probabilità 5 Prova Evento Probabilità Primo postulato Secondo postulato Terzo postulato Quarto postulato Quinto postulato 1.4 La misura della probabilità 1.5 Il teorema di Bayes 20 26 Capitolo 2 Le variabili casuali 2.1 Introduzione 2.2 Variabili casuali discrete e distribuzioni di frequenza 31 34 2.3 Le variabili casuali doppie discrete 38 2.4 Le variabili casuali continue 41 La media aritmetica La varianza Il momento di ordine r L'indice di asimmetria L'indice di curtosi Momento misto di ordine 1,1 La covarianza La correlazione Momenti condizionati VIII Indice La media La varianza La mediana L'indice di asimmetria L'indice di curtosi 2.5 Le variabili casuali doppie continue Momento misto di ordine 1,1 La covarianza Momenti condizionati 52 Capitolo 3 Variabili casuali di uso comune 3.1 La variabile casuale uniforme 57 3.2 3.3 3.4 3.5 63 70 75 89 La uniforme discreta La uniforme continua La variabile casuale binomiale La variabile casuale di Poisson La variabile casuale Normale Alcune v.c. derivate dalla Normale La v.c. Chi-quadrato La v.c. T di Student La v.c. F di Fisher La v.c. Lognormale 3.6 La variabile casuale Normale doppia 3.7 Alcuni teoremi limite Alcune leggi di convergenza Il teorema del limite centrale La disuguaglianza di Chebychev 100 103 Capitolo 4 Elementi di teoria della stima parametrica 4.1 Introduzione 4.2 La stima parametrica 4.3 Cenni di teoria delle decisioni 113 114 116 4.4 Alcune proprietà ottimali degli stimatori 119 Metodo del mini-max Metodo dell'area minima Metodo delle proprietà ottimali La sufficienza La non distorsione L'efficienza La consistenza 4.5 Alcuni metodi di costruzione delle stime Metodo dei momenti 131 Indice IX Metodo dei minimi quadrati Metodo di massima verosimiglianza 4.6 La distribuzione di probabilità di alcuni stimatori campionari 139 4.7 Due metodi di inferenza basati sul ricampionamento 148 Distribuzione di probabilità della media campionaria Distribuzione di probabilità dei percentili campionari Distribuzione di probabilità della varianza campionaria Distribuzione di probabilità della correlazione campionaria La procedura jakknife La procedura bootstrap Capitolo 5 Introduzione al test delle ipotesi 5.1 Introduzione 5.2 Il lemma di Neyman Pearson 5.3 Test basato sul rapporto di verosimiglianza. 155 158 Caso di Ho semplice 160 Caso di Ho complessa 164 5.4 Test basato sul rapporto di verosimiglianza. 5.5 Particolari test basati su MLR 165 5.6 Alcuni test non parametrici 192 5.7 Cenni agli intervalli di confidenza 210 Test sulla media Test sulla differenza fra medie Test su una proporzione Test sul confronto di 2 proporzioni Test su dati appaiati Test sulla varianza Confronto fra due varianze Test sul coefficiente di correlazione Test di adattamento Test sull'indipendenza Test di Wilcoxon Test dei segni Intervallo di confidenza per la media Intervallo di confidenza per una percentuale Intervallo di confidenza per la varianza Intervallo di confidenza per la correlazione Capitolo 6 Il modello di regressione 6.1 Introduzione 6.2 La costruzione del modello di regressione 6.3 Il modello di regressione lineare semplice 217 219 220 X Indice 6.4 La stima dei parametri del modello 6.5 Proprietà delle stime dei minimi quadrati 6.6 La verifica del modello di regressione 223 237 240 6.7 Modello di regressione non lineare 254 6.8 Modello di regressione lineare in forma matriciale 258 Appendice 263 Tavole statistiche Bibliografia Indice analitico 264 293 297 Test sui parametri del modello Misura della bontà di adattamento Analisi dei residui Modelli non lineari nelle esplicative Modelli non lineari ma linearizzabili Modelli non linearizzabili Capitolo 1 INTRODUZIONE AL CALCOLO DELLE PROBABILITÀ 1.1 Introduzione Nei capitoli riportati nel Volume I: Statistica Descrittiva, abbiamo illustrato una serie di strumenti statistici idonei per descrivere fenomeni che si suppongono completamente noti. In altri termini ritenevamo di operare in un universo certo : l’incertezza è bandita, si possono solo raccogliere e sintetizzare informazioni e derivare le eventuali relazioni esistenti fra più fenomeni. Un universo così fatto viene anche detto deterministico : una causa produce sempre e sicuramente gli stessi effetti, gli stessi risultati. In altri termini è come se si vivesse in un mondo regolato da un orologio perfetto capace di misurare in modo preciso ed indiscutibile il trascorrere del tempo. In questo e nei capitoli che seguono ci occuperemo di un mondo dominato dall’incertezza : niente è sicuro, tutto è incerto per la presenza costante di elementi aleatori, casuali. In un universo deterministico la ripetizione di un dato esperimento produce sempre gli stessi risultati, una implicazione importante di tale concezione è che le stesse leggi valgono in qualsiasi tempo, anzi è come se si potesse ritornare indietro nel tempo per potere ripetere esattamente l’esperimento ed ottenere esattamente lo stesso risultato. In tale universo vale la reversibilità temporale si può viaggiare avanti ed indietro nel tempo a proprio piacimento, quanto meno da un punto di vista teorico. In un mondo dominato dall’incertezza, invece, la ripetizione di uno stesso esperimento non è detto che produca identici risultati e come conseguenza non è possibile ipotizzare l’irreversibilità temporale dato che in tal caso è impossibile essere certi di ritrovare lo stesso preciso evento che si è verificato in un tempo precedente. Il tempo ha una determinata direzione in accordo con il secondo principio della termodinamica. D’altro lato, per potere ipotizzare un mondo dominato dall’incertezza, dalla 2 Capitolo 1 casualità, dall’aleatorietà, è necessario spiegare come questa incertezza nasce e perché non è controllabile quanto meno da un punto di vista teorico. Un modo per definire il caso è quello di supporre che tutto ciò che esiste evolve, si modifica nel tempo irreversibile e nella loro evoluzione i risultati generati sono molto sensibili alle condizioni iniziali, cioè alle condizioni da cui si è partiti per generare tutta la successione di fenomeni effettivamente realizzati. In altri termini, nel mondo della casualità, i fenomeni sono generati da sistemi dinamici, cioè sistemi di forze che evolvono nel tempo, e questi sistemi sono estremamente sensibili alle condizioni iniziali: piccolissime variazioni nelle condizioni iniziali producono, dopo un tempo più o meno lungo, effetti completamente diversi. E’ questa sensibilità ciò che rende incerti i risultati ottenuti da esperimenti che, in apparenza, sembrano identici. Questo perché, nella realtà, è praticamente impossibile ricreare esattamente le condizioni iniziali di un sistema e se il sistema è sensibile alle condizioni di partenza dopo qualche di tempo i risultati che si ottengono dalla catena di reazioni e contro reazioni diventano del tutto imprevedibili. E’ interessante osservare che essendo gli eventi il risultato di sistemi d inamici è impossibile verificare se e quali eventi sono simultanei. Il caso quindi è frutto della non conoscenza esatta, della ignoranza delle condizioni iniziali. Se fossimo in grado di conoscere, misurare e riprodurre in modo esatto le condizioni iniziali saremmo in grado di prevedere qualsiasi fenomeno. E’ la nostra limitatezza di umani che non ci permette e non ci permetterà mai di capire e prevedere esattamente i fenomeni. Insomma, galleggiamo in un mondo d’incertezza solo perché siamo limitati: il caso non è intrinseco ai fenomeni ma è il concentrato della nostra limitatezza, della nostra ignoranza. Esempio 1 Se si lancia una moneta il risultato può essere testa o croce, ma è impossibile predire con sicurezza che il lancio di una data moneta in un dato momento dia come risultato, per esempio, testa. Questo è dovuto al fatto che il risultato generato dal sistema di forze che lo governano è molto sensibile alle condizioni di partenza: posizione iniziale della moneta, circonferenza, peso e spessore della moneta, forza impressa alla moneta, forza di gravità operante in quel punto ed in quel tempo, condizioni climatiche esistenti al momento del lancio, e così via. Nella figura seguente è schematizzato, a sinistra, il caso di sistema sensibile alle condizioni iniziali ove la pallina sottoposta ad una spinta scivolerà lungo una qualsiasi direzione della semisfera per fermarsi in uno qualsiasi dei punti della superficie sottostante. Il punto in cui la pallina si ferma è estremamente sensibile alle condizioni iniziali (forza impressa, sua direzione ecc.) e quindi non è possibile prevedere con certezza dove questa va a fermarsi. Nella stessa figura, a destra, è schematizzato il caso di un sistema indipendente dalle condizioni iniziali: il punto in cui la pallina si ferma è sempre lo stesso qualsiasi siano le condizioni iniziali. Introduzione al calcolo delle probabilità 3 Una diversa concezione ( Curnout) del caso è legata alla esistenza di serie di fenomeni indipendenti: il caso è generato dall’incontro di serie di fenomeni indipendenti fra di loro. In questa definizione di caso è implicita l’ipotesi che nell’universo possono esistere fenomeni che sono fra di loro indipendenti. Questo vuole dire mettere in discussione la supposizione che l’intero universo sia solidale con se stesso. Esempio 2 Consideriamo le due serie di fenomeni seguenti: 1) un individuo si avvia all’uscio della propria abitazione 2) una tegola del tetto si muove per effetto delle condizioni meteorologiche queste due serie si possono considerare indipendenti fra di loro. Supponiamo che mentre l’individuo si affaccia sulla soglia di casa un colpo di vento gli faccia cadere la tegola in testa procurandogli una profonda contusione: è successo che le due serie indipendenti si sono incontrate ed hanno prodotto un evento casuale: la ferita del personaggio preso in considerazione. Osserviamo che ripetendo l’esperimento nelle stesse condizioni non è detto di ottenere lo stesso risultato, la testa rotta del malcapitato. In questo capitolo non ci addentreremo ulteriormente sulle varie interpretazioni ed ipotesi formulate per spiegare il caso. Questo lo prenderemo come dato: prendiamo atto del fatto che molti, se non tutti, gli atti che dominano la nostra esistenza e quella dell’universo sono influenzati dal caso ed il nostro scopo sarà quello di individuare delle leggi capaci di governare i fenomeni casuali. Per fare questo dobbiamo elaborare regole che ci permettono di misurare la casualità dei diversi fenomeni a questo scopo utilizzeremo una metodologia che prende il nome di assiomatizzazione. In altri termini, fisseremo dei concetti primitivi, formuleremo degli assiomi o postulati, mescoleremo queste due entità per deri- 4 Capitolo 1 vare dei teoremi che permetteranno, operativamente, di regolare e dominare il caso. 1.2 I concetti primitivi del calcolo delle probabilità I concetti primitivi sono tre e sono tali perché i concetti primitivi non vengono definiti. Nel calcolo delle probabilità questi concetti sono: prova, evento, probabilità Visto che questi concetti sono non definibili, ma lasciati alla comune intuizione, vediamo di illustrarli con degli esempi e dei sinonimi. PROVA Prova è sinonimo di esperimento in cui sono noti i risultati possibili che possono ottenersi, ma non quello particolare che poi effettivamente si presenterà in una data prova. In questo senso, il risultato che si verificherà a seguito di un esperimento è, prima di effettuare la prova, incerto. Se l’esperimento viene ripetuto, ammesso che ciò sia tecnicamente possibile, non è certo che si possa ottenere il risultato precedente. Da questo punto di vista ogni atto del mondo reale può essere inteso come un esperimento, una prova. Così, è una prova: (a) il lancio di un dado, (b) l’organizzazione di uno sciopero, (c) una manovra economica del governo, (d) sottoporsi ad un intervento chirurgico, (e) il tempo di vita di un macchinario, ecc. EVENTO L’evento è uno dei possibili risultati che la prova, l’esperimento può generare. Formalmente un evento è una proposizione, cioè una frase compiuta che caratterizza completamente uno dei possibili risultati di una determinata prova. Gli eventi derivanti da una data prova possono essere finiti, infiniti ed anche una infinità continua. Così, è un evento: (a) esce la faccia del dado con due puntini, (b) il fallimento dello sciopero, (c) la riuscita della manovra, (d) la guarigione dell’ammalato, (e) la durata di 3 anni, 2 mesi, 12 giorni, 10 ore, 25 secondi della vita del macchinario. Nel seguito gli eventi generati da una prova verranno indicati con le prime lettere maiuscole dell’alfabeto latino ( A, B, C, D, ...) eventualmente accompagnate con un indice ( E1 , E2 , E3 , ...., Ek , ...). Introduzione al calcolo delle probabilità 5 PROBABILITÀ La probabilità è un numero compreso fra zero ed uno che viene associato ad ogni evento generato da una data prova e misura il grado di verificarsi di quell’evento. In particolare, la probabilità vale zero per eventi che non possono mai verificarsi e vale uno per quelli che sicuramente si presenteranno in ogni prova. Di solito, per indicare la probabilità di un evento si usano i simboli: p, P(A), p i , p( x) . I tre concetti primitivi del calcolo delle probabilità sopra riportati sono ben illustrati dalla seguente frase: una prova genera gli eventi con determinate probabilità. Fissata una data prova questa genera un insieme di eventi che indichiamo con S. Questo insieme viene chiamato insieme campionario associato a quella prova. D’ora in poi supporremo che gli eventi costituenti S sono fra di loro incompatibili nel senso che non se ne possono presentare simultaneamente due o più di due. 1.3 I postulati del calcolo delle probabilità Come in tutte le discipline assiomatizzate, anche nel calcolo delle probabilità esistono, accanto ai concetti primitivi, i postulati che sono delle affermazioni che non vengono dimostrate. Nel calcolo delle probabilità i postulati (o assiomi) sono cinque. Il primo di questi riguarda gli eventi. PRIMO POSTULATO Gli eventi generati da una prova formano una algebra di Boole completa Vediamo cosa s’intende con questa affermazione. In primo luogo cerchiamo di capire cos’è un’algebra di Boole. Osserviamo, a questo proposito, che gli eventi sono delle frasi, delle proposizioni e quindi se vogliamo sottoporle a manipolazioni bisogna utilizzare un’algebra diversa da quella ben nota dei numeri: l’algebra che utilizzeremo è quella di Boole. L’algebra di Boole, come tutte le algebre, è chiusa rispetto alle operazioni su di essa definite. Questo vuole dire che quando effettueremo quelle operazioni Capitolo 1 6 su eventi derivanti da una prova (gli elementi di S ) saremo sicuri di ottenere ancora un evento riferibile alla prova considerata. Inoltre, questo concetto di chiusura si suppone valido anche per particolari successioni infinite di eventi ed è per questo motivo che si dice che l’algebra è completa. In sintesi, se sottoponiamo gli elementi di S alle operazioni che definiremo qui di seguito i risultati sono ancora eventi. E’ solo e solamente su questo nuovo insieme di eventi ottenuto a partire da S che vengono calcolate le probabilità. Nell’algebra di Boole le operazioni fondamentali sono tre e precisamente: unione, indicata con il simbolo ∪ intersezione, indicata con il simbolo ∩ negazione, indicata con il simbolo ¯ 1) L’unione di due eventi L’unione (o somma logica) tra i due eventi A e B è quell’evento, diciamo D, che si verifica quando si verifica A, oppure B, oppure A e B contemporaneamente. Formalmente si scrive: A∪B=D e si legge: A unito a B, oppure A o B 2) L’intersezione di due eventi L’intersezione (o prodotto logico) dei due eventi A e B è l’evento, diciamo E, che si verifica se e solo se si verificano contemporaneamente sia A che B. Formalmente si scrive: A∩B=E e si legge: A intersecato B, oppure A e B 3) La negazione di un evento La negazioni di un evento A è l’evento, diciamo F, che si verifica quando non si verifica A. Formalmente si scrive: A= F e si legge: A negato, oppure non A. Le operazioni di unione e di intersezione vengono dette anche binarie perché per poterle utilizzare sono necessari almeno due eventi, l’operazione di nega- Introduzione al calcolo delle probabilità 7 zione viene detta unaria dato che per poterla utilizzare è sufficiente un solo evento. Naturalmente, le operazioni suddette possono essere utilizzate per un numero qualsiasi di eventi di S. Tra tutti i possibili eventi generati a partire da S, ne esistono due particolari: − l’evento impossibile − l’evento certo. L’evento impossibile si indica con il simbolo Ø ed è l’evento che non si verifica mai in ogni prova; l’evento certo si indica con il simbolo Ω ed è l’evento che si verifica sempre in ogni prova. Le operazioni dell’algebra di Boole possono essere schematicamente illustrate con dei grafici che vengono detti diagrammi di Venn. In questi diagrammi l’evento certo viene disegnato con un quadrangolo all’interno del quale vengono delimitati degli insiemi che rappresentano gli eventi. Qui di seguito illustriamo, utilizzando i diagrammi di Venn, le tre operazioni (aree tratteggiate) sugli eventi che abbiamo definito in precedenza. L’unione fra i due eventi A e B A∪B=D L’intersezione fra i due eventi A e B A∩B=E Capitolo 1 8 La negazione di un evento A Definiamo ora gli eventi incompatibili. bili. Dati due eventi A e B se risulta A∩B = Ø, si dice che A e B sono incompati- Intuitivamente, due eventi sono incompatibili se non possono presentarsi contemporaneamente e quindi o si presenta l’uno, oppure si presenta l’altro. Per due eventi incompatibili, da un punto di vista grafico, si ha una situazione come quella rappresentata nella figura che segue A∩B=Ø Come si può notare dalla figura, i due eventi incompatibili non hanno aree in comune fra di loro, sono completamente disgiunti. Come tutte le algebre anche quella di Boole ha delle regole che elenchiamo qui di seguito: a) proprietà commutativa A ∩ B = B ∩ A; A∪B=B∪A b) proprietà di idempotenza A ∩ A = A; A∪A=A c) proprietà associativa Introduzione al calcolo delle probabilità ( A ∩ B ) ∩ C = A ∩ ( B ∩ C ); d) e) proprietà distributiva A ∩ ( B ∪C) = (A ∩ B) ∪ ( A ∩C); 9 ( A ∪B) ∪C = A ∪( B ∪ C) A∪ ( B ∩C) = ( A ∪B) ∩ ( A ∪C) proprietà involutoria A= A f) regole del de Morgan A ∩ B = = A ∪ Β; A ∪ B = = A ∩ Β. Osserviamo che le regole del de Morgan mettono in relazione fra di loro tutte e tre le operazioni definite nell’algebra di Boole. Inoltre, da queste regole segue che per definire l’algebra di Boole basta definire solo due di quelle operazioni: l’unione e la negazione, oppure l’intersezione e la negazione. La terza operazione, infatti, può essere derivata dalle due considerate proprio tramite le regole del de Morgan. Esempio 3 Consideriamo una prova che consiste nel lancio di un dado. I possibili eventi che questa prova può generare sono: esce la faccia con un puntino = A1 esce la faccia con due puntini = A2 esce la faccia con tre puntini = A3 esce la faccia con quattro puntini = A4 esce la faccia con cinque puntini = A5 esce la faccia con sei puntini = A6 Osserviamo che i sei eventi sono fra di loro incompatibili e che l’insieme campionario in questo caso è S = {A1 , A2 , A3 , A4 , A5 , A6}. Da S deriviamo i seguenti eventi: D = esce una faccia con un numero dispari di puntini = { A1 ∪ A3 ∪A5} P = esce una faccia con un numero pari di puntini = { A2 ∪A4 ∪A6} M = esce una faccia con un numero primo di puntini = { A1 ∪A2 ∪A3 ∪A5} Ω = esce una qualsiasi delle sei facce = { A1 ∪A2 ∪A3 ∪A4 ∪A5 ∪A6} Avremo così che Capitolo 1 10 D∪P= Ω ; D = P; D ∩ P = Ø; P ∩ M = A2 ; P ∩ M = A2 ; M = {A4 ∪ A6}; D ∩ Ω = D. Dalle definizioni delle operazioni e delle regole dell’algebra e da quelle relative agli eventi impossibile e certo seguono immediatamente anche le relazioni seguenti Ø∪A=A Ø ∩A=Ø Ø=Ω Ω∪A=Ω Ω∩A=A Ω =Ø SECONDO POSTULATO Dato un evento A qualsiasi appartenente ad una algebra di Boole, la sua probabilità è unica e non negativa. In simboli si ha P(A) ≥ 0. L’affermazione dell’univocità della probabilità è molto importante: implica che allo stesso evento non è possibile attribuire più di una probabilità. TERZO POSTULATO La probabilità dell’evento certo è sempre pari ad uno: P( Ω) = 1 Questo postulato serve per definire un limite superiore alla probabilità, inoltre, combinato con il precedente permette di dimostrare che la probabilità di un qualsiasi evento A è sempre compresa fra zero ed uno: 0 ≤ P(A) ≤ 1. QUARTO POSTULATO Se A e B sono eventi incompatibili la probabilità della loro unione è uguale alla somma delle probabilità di ciascuno di essi. Introduzione al calcolo delle probabilità 11 In simboli abbiamo: se è A∩B=Ø P( A ∪ B) = P(A) + P(B) allora risulta In altri termini, se si hanno due eventi incompatibili la loro somma logica si trasforma, tramite l’applicazione della probabilità, nella somma aritmetica. Quanto detto è illustrato nel diagramma di Venn seguente in cui gli eventi sono rappresentati dalle figure circolari e le probabilità dalle aree in esse racchiuse. Come si può notare dalla figura, la probabilità di A ∪ B (misurata in termini di aree) è data dall’area di A più l’area di B. Dimostriamo alcuni semplici teoremi che derivano dai quattro postulati fin qui presentati. Teorema 1 La probabilità dell’evento impossibile è sempre pari a zero: Dimostrazione Sappiamo che è sempre P(Ø) = 0. Ω ∩Ø=Ø Ω ∪Ø=Ω e quindi l’evento certo e quello impossibile sono incompatibili ed applicando il terzo ed il quarto postulato si ha 1 = P( Ω ) = P( Ω ∪ Ø) = P( Ω ) + P(Ø) = 1 + P(Ø) Da cui, tenendo conto del primo e dell’ultimo termine di questa catena di uguaglianze, si ricava P(Ø) = 1 - 1 = 0 che dimostra quanto asserito. Capitolo 1 12 Teorema 2 Dato un evento A qualsiasi si ha sempre P( A ) = 1 - P(A) Dimostrazione A Osserviamo in primo luogo che i due eventi A e A sono incompatibili dato che o si verifica A o si verifica la sua negazione A . Inoltre, risulta sempre A ∪ A = Ω. Se su quest’ultima identità applichiamo il terzo ed il quarto postulato otteniamo 1 = P(Ω) = P( A ∪ A ) = P(A) + P( A ), da cui si ricava P( A ) = 1 - P(A) che dimostra quanto asserito. Teorema 3 Se A, B, C sono tre eventi incompatibili a due a due fra di loro: si ha che A ∩ B = Ø, A ∩ C = Ø, B ∩ C = Ø, P( A ∪ B ∪ C) = P( A) + P( B) + P( C). Dimostrazione Dalla regola associativa dell’algebra di Boole sappiamo che è sempre poniamo A ∪ B ∪ C = (A ∪ B) ∪ C, D = (A ∪ B) e facciamo vedere che D e C sono incompatibili. Infatti, D∩ C = (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) = Ø ∪ Ø = Ø, ove si è utilizzata la proprietà distributiva e quella dell’idempotenza. Ma allora per l’evento D ∪C, così come per l’evento A ∪B, possiamo utilizzare il quarto postulato ed ottenere Introduzione al calcolo delle probabilità 13 P( A ∪ B ∪ C) = P( D∪ C) = P( D) + P( C) = P( A ∪ B) + P( C) = = P( A) + P( B) + P( C) che dimostra quanto asserito. Il teorema appena dimostrato può essere generalizzato facilmente al caso di una successione A1 , A2 , ..., An di eventi a due a due incompatibili, e quindi tali che Ai ∩ Aj = Ø per ogni i ≠ j, ottenendo P( A1 ∪A2 ∪ ... ∪An ) = P( A1 ) + P( A2 ) + ... + P( An ). Teorema 4 Dati i due eventi A e B qualsiasi, e quindi tali che potrebbe anche essere A∩B ≠ Ø, si ha P( A ∪B) = P( A) + P( B) - P( A ∩ B). Dimostrazione Diamo in primo luogo una dimostrazione euristica basata sui diagrammi di Venn. Dato che A e B non sono incompatibili si avrà una situazione come quella descritta dalla figura seguente e la probabilità di A ∪B sarà data dall’area tratteggiata in figura che è uguale a tutta l’area in A + tutta l’area in B – l’area della parte comune A ∩ B questa sottrazione è necessaria altrimenti l’area comune verrebbe contata due volte. Questo ci fornisce il risultato cercato. Dimostriamo ora formalmente quanto abbiamo cercato di fare intuitivamente, a tale proposito notiamo che è sempre Capitolo 1 14 A = A ∩ Ω = A ∩ ( B ∪ B ) = ( A ∩ B) ∪ (A ∩ B ) come è anche illustrato nella figura seguente Ma i due eventi ( A ∩ B) e (A ∩B ) sono fra di loro incompatibili (come si vede anche dalla figura) dato che risulta ( A ∩ B) ∩ ( A ∩ B ) = ( A ∩ A) ∩ ( B ∩ B ) = A∩Ø = Ø, per cui si avrà P( A) = P[( A ∩ B) ∪ ( A ∩ B )] = P( A ∩ B) + P( A ∩ B ), da cui si ricava P( A ∩ B ) = P( A) - P( A ∩ B). D’altro lato, si può anche scrivere ( A ∪ B) = B ∪ ( A ∩ B ) e gli eventi B ed (A ∩ B ) sono incompatibili per cui, ricordando il risultato prima ottenuto, risulta P( A ∪B) = P( B) + P( A ∩ B ) = P( B) + P( A) - P( A∩B) che dimostra quanto affermato. Teorema 5 Siano A , B , C tre eventi qualsiasi, si ha P( A ∪B ∪ C) = P( A) + P( B) + P( C) - P( A ∩B) - P( A ∩ C) - P( B ∩ C) + + P( A ∩ B ∩C). Dimostrazione Poniamo D = A ∪B per cui, utilizzando ripetutamente il teorema 4 avremo, P( A ∪B ∪C) = P( D ∪C) = P( D) + P( C) - P( D∩C) = Introduzione al calcolo delle probabilità 15 = P( A ∪B) + P( C) - P(D∩C) = P(A) + P(B) - P(A ∩ B) + P(C) - P(D ∩ C) = = P( A) + P( B) + P( C) - P( A ∩ B) - P( D ∩ C). D’altro lato, abbiamo P( D ∩ C) = P[( A ∪ B) ∩ C] = P[( A ∩ C) ∪(B ∩ C)] = = P( A ∩ C) + P( B ∩ C) - P[( A ∩ C) ∩( B ∩ C)] = = P( A ∩ C) + P( B ∩ C) - P[( A ∩ B) ∩( C ∩ C)] = = P( A ∩ C) + P( B ∩ C) - P( A ∩ B ∩ C). Sostituendo questa espressione in quella precedentemente ricavata si ottiene P( A ∪B ∪C) = P( A) + P( B) + P( C) - P( A ∩ B) [P( A ∩C) + P( B ∩C) - P( A ∩B ∩C)] = = P( A) + P( B) + P( C) - P( A ∩B) - P( A ∩C) - P( B ∩C) + P( A ∩B ∩C) che dimostra quanto affermato. Sul teorema precedente osserviamo che gli addendi che compongono l’espressione a destra sono sette e precisamente: quelli che coinvolgono un solo 3 evento sono tre: P( A), P( B), P( C), cioè sono 1 ed hanno segno positivo; quelli che coinvolgono due eventi sono ancora tre: P( A ∩ B ), P( A ∩ C ), 3 P( B ∩ C), cioè sono 2 ed hanno segno negativo; quelli che coinvolgono tre 3 eventi è uno solo: P(A ∩ B ∩ C), cioè 3 ed ha segno positivo. Questa os servazione ci permette di generalizzare il teorema precedente al caso della probabilità dell’unione di k eventi qualsiasi. Ove, in generale, vale la seguente uguaglianza n! n = k k! ( n − k)! con n ! = n × (n-1) × (n-2) ×.....× 3 × 2 × 1, Capitolo 1 16 e si legge “n fattoriale”, cioè il prodotto dei primi n numeri interi. QUINTO POSTULATO Per introdurre l’ultimo postulato dobbiamo definire gli eventi condizionati. Dati i due eventi A e B si dice che B condiziona A, e si scrive (A|B), se il verificarsi di B altera la probabilità del verificarsi di A. L’evento condizionato (A|B) si legge anche: A dato B. L’evento A è detto evento condizionato mentre B viene detto condizionante. Osserviamo che affinché A sia condizionato da B questo secondo evento deve verificarsi prima di A per cui vi è un ordinamento temporale da B ad A anche se per alcuni è plausibile una relazione di simultaneità fra i due eventi (che però non è osservabile in nessun modo, come già accennato all’inizio del capitolo) e quindi sarebbe giustificato considerare simultaneamente i due eventi condizionati ( A|B) e ( B|A). Da un punto di vista geometrico effettuare il condizionamento B significa restringere lo spazio da Ω a B e quindi interessarsi a come A si comporta nel nuovo spazio B. Graficamente si ha una situazione schematizzata nel diagramma che segue ove l’evento certo si riduce da Ω ad Ω* = B e l’evento condizionato ( A|B) è dato dal comportamento di A all’interno del nuovo evento certo B. Possiamo ora formulare il quinto postulato che afferma: P( A|B) = con P( B) > 0. P( A ∩ B ) P( B ) Introduzione al calcolo delle probabilità 17 Osserviamo che: (a) l’evento condizionante B deve essere diverso dall’evento impossibile altrimenti quel rapporto perderebbe di significato; (b) se l’evento condizionante B coincide con l’evento certo Ω questo non esercita alcun condizionamento su A: (c) la divisione per P(B) nel quinto postulato serve per fare in modo che P(A|B) raggiunga il valore uno se e solo se A = B, cioè se A coincide con il nuovo evento certo Ω*. Dalla formulazione del postulato si ha anche P( A ∩ B) = P( A|B) P( B). Possiamo ora definire gli eventi indipendenti. L’evento A è indipendente dall’evento B se e solo se risulta P( A|B) = P( A) In altri termini, A è indipendente da B se B non esercita alcun condizionamento, alcuna influenza sulla probabilità del verificarsi di A. Una diversa definizione di eventi indipendenti si ottiene sostituendo il risultato di questa uguaglianza nell’espressione del quinto postulato: P( A|B) = P( A ∩ B ) = P( A) P (B ) da cui si ricava immediatamente che A è indipendente da B se e solo se risulta P( A ∩ B) = P( A) P( B) e quindi se e solo se il prodotto logico si trasforma nel prodotto aritmetico. Da questa ultima espressione segue immediatamente che se A è indipendente da B anche B è indipendente da A. Teorema 6 Se A e B sono indipendenti lo sono anche A e B . Capitolo 1 18 Dimostrazione Bisogna dimostrare che se è vera questa uguaglianza P(A ∩ B) = P(A) P(B), allora è vera anche la seguente P( A ∩ B ) = P( A ) P( B ). Da una delle due formule del de Morgan sappiamo che A ∪ B = = A ∩ Β. Applicando la probabilità ad ambo i membri di questa uguaglianza e tenendo conto dell'indipendenza fra A e B, diviene ( ) P A ∪ B = P( A ∩ B) = P( A) P( B). D’altra parte risulta ( ) P A ∪ B = 1 - P( A ∪ B ) = 1 - P( A ) - P( B ) + P( A ∩ B ). Uguagliando gli ultimi membri di queste due ultime espressioni otteniamo P(A) P(B) = 1 - P( A ) - P( B ) + P( A ∩ B ) , da cui si ricava P( A ∩ B ) = P( A ) + P( B ) - 1 + P(A) P(B) = = P( A ) + [1 - P(B)] - 1 + P(A) P(B) = = P( A ) - P(B) + P(A) P(B) = P( A ) - P(B)[1 - P(A)] = = P( A ) - P(B) P( A ) = P( A ) [1- P(B)] = P( A ) P( B ) che dimostra quanto affermato. Teorema 7 Se A e B sono due eventi indipendenti allora lo saranno anche A e B . Dimostrazione Ricordiamo che è sempre Introduzione al calcolo delle probabilità 19 A ∩ Ω = A ∩(B ∪ B ) = (A ∩ B) ∪ (A ∩ B ) ed i due eventi (A ∩ B) e (A ∩ B ) sono incompatibili per cui risulta P(A) = P(A ∩ B) + P(A ∩ B ) = P(A) P(B) + P(A ∩ B ), da cui ricaviamo P(A ∩ B ) = P(A) - P(A) P(B) = P(A)[1- P(B)] = P(A) P( B ) che dimostra quanto affermato. Si osservi che dato i k eventi A1 , A2 , ..., Ak se sono indipendenti a due a due non è detto che lo siano a tre a tre e così via. Questo vuole dire che k eventi sono indipendenti se lo sono a due a due, a tre a tre, a quattro a quattro, …, a k a k. Nel prossimo paragrafo mostreremo con un esempio quanto qui affermato. Cerchiamo di capire, ora, le relazioni che passano fra eventi incompatibili ed eventi indipendenti. Se A e B sono incompatibili, per definizione si ha A ∩B = Ø. Da un punto di vista logico, il fatto che A e B siano incompatibili vuole dire che il presentarsi di uno di questi eventi esclude il presentarsi dell’altro e quindi fra i due eventi deve esistere un legame (in questo caso di repulsione) molto forte per cui due eventi incompatibili non possono mai essere indipendenti Questa conclusione può essere ottenuta anche per via analitica nel modo che segue. Teorema 8 Se è P(A) > 0 ed A e B sono incompatibili questi due eventi non possono mai essere indipendenti. Dimostrazione Se A e B sono incompatibili risulta P(A ∩ B) = P(Ø) = 0 e sostituendo nel quinto postulato si ha Capitolo 1 20 P(A|B) = 0 P( A ∩ B ) = = 0 < P(A), P(B) P( B ) pertanto non può mai essere P(A|B) = P(A) (che è la definizione di indipendenza fra A e B) in conclusione A non può essere indipendente da B. 1.4 La misura della probabilità Fino ad ora abbiamo studiato, a partire dai concetti primitivi e dai postulati, alcune delle leggi che regolano la probabilità. D’altro lato, noi siamo anche interessati a fornire una misura della probabilità degli eventi. In questo paragrafo affronteremo proprio questo argomento. Consideriamo una prova che genera i k eventi S = {A1 , A2 , ...., Ak} e supponiamo che questi k eventi soddisfino le seguenti tre condizioni: 1) necessarietà: almeno uno dei k eventi deve necessariamente presentarsi, cioè A1 ∪A2 ∪ ... ∪Ak = Ω; 2) incompatibilità: i k eventi sono incompatibili a due a due: Ai ∩ Aj = Ø , 3) per ogni i ≠ j; equiprobabilità: tutti i k eventi hanno la stessa probabilità di verificarsi: P(Ai ) =p per i = 1, 2, ...,k. In questo problema l’incognita è il valore p della probabilità di ciascun evento. Questo valore, se sono vere le tre condizioni specificate, si calcola molto semplicemente. Infatti, dalla prima condizione si ha P(A1 ∪A2 ∪ ... ∪Ak ) = P(Ω) = 1 che utilizzando la seconda diviene Introduzione al calcolo delle probabilità 21 1 = P(Ω) = P( A1 ∪A2 ∪ ... ∪Ak ) = P(A1 ) + P(A2 ) + ... + P(Ak ). Se usiamo anche la terza condizione si avrà infine 1 = P( A1 ) + P( A2 ) + ... + P( Ak ) = k p, da cui si ricava p= 1 . k In conclusione, possiamo affermare che dati i k eventi Ai , i=1, 2, ...,k, se sono necessari, incompatibili ed equiprobabili risulta 1 P(Ai ) = , i =1, 2, ...,k. k Dati i k eventi A1 , A2 , ..., Ak necessari, incompatibili ed equiprobabili, si vuole determinare la probabilità dell’evento A= A2 ∪ A7 ∪ A11 , risulta immediatamente P(A2 ∪ A7 ∪ A11 ) = P(A2 ) + P(A7 ) + P(A11 ) = 1 1 1 3 + + = k k k k e come si vede, al numeratore vi è il numero dei casi favorevoli (in questo caso tre) ed al denominatore il numero dei casi equamente possibili (cioè k ). Questo ci permette di enunciare la seguente regola pratica: se una prova genera k eventi necessari, incompatibili ed equiprobabili, la probabilità di A = unione di un sotto insieme dei k eventi , è data da P(A) = Numero dei casi favorevoli ad A Numero di tutti i casi possibili Esempio 4 Consideriamo come prova il lancio di un dado regolare. I possibili eventi generati da que- Capitolo 1 22 sta prova, come sappiamo, sono sei per cui risulta k=6. Questi 6 eventi sono necessari dato che una faccia necessariamente deve presentarsi, sono incompatibili perché se si presenta una faccia non se ne può presentare un’altra, sono equiprobabili perché abbiamo supposto il dado 1 regolare. Questo vuole dire che la probabilità di presentarsi di ciascuna faccia è . Mentre 6 3 1 P{Esce una faccia con un numero pari di puntini } = = . 6 2 Nell’esempio che segue mostriamo che eventi indipendenti a due a due non necessariamente lo sono a tre a tre. Esempio 5 Consideriamo un’urna con 4 palline identiche numerate da 1 a 4. In tal modo, posto Ai = pallina numerata con i , i = 1, 2, 3, 4 avremo: Ω = {A1 ∪A2 ∪ A3 ∪A4} e risulta 1 P(Ai ) = 4 ; i = 1, 2, 3, 4 Consideriamo gli eventi: A = {A1 ∪A2}, B = {A1 ∪A3}, C = {A1 ∪A4} per cui risulta: P( A) = P( A1 ) + P( A2 ) = P( B ) = P( A1 ) + P( A3 ) = 1 1 1 = P( C) = P( A1 ) + P( A4 ) = + = 4 4 2 Inoltre: A ∩ B = A ∩ C = B ∩ C = A1 e quindi: P( A ∩ B ) = 1 1 1 = = P( A) P( B) 4 2 2 Introduzione al calcolo delle probabilità P(A ∩C) = 1 1 1 = = P(A) P(C) 4 2 2 P(B ∩C) = 1 1 1 = = P(B) P(C) 4 2 2 23 ed implica che A, B, C sono indipendenti a due a due. D’altro lato A ∩ B ∩ C = A1 per cui P(A ∩ B ∩C) = P(A1) = mentre P(A) P(B) P(C) = 1 4 1 11 1 1 = ≠ 2 22 8 4 In definitiva, possiamo dire che i tre eventi A, B, C sopra definiti sono indipendenti a due a due, ma non lo sono a tre a tre. Analizziamo ora le tre condizioni (necessità, incompatibilità, equiprobabilità) indispensabili per misurare la probabilità con il metodo sopra descritto. Questo ci servirà per verificare se questa procedura è abbastanza generale da potere essere utilizzato in una grande classe di casi o si tratta solo di una particolare s ituazione senza rilevante utilità applicativa. 1) necessità: è sempre possibile definire gli eventi generati da una prova, aggiungendone ed eliminandone alcuni, di modo che questi siano un sistema di eventi necessari; 2) incompatibilità: è sempre possibile definire gli eventi generati da una prova di modo che questi siano fra di loro incompatibili a due a due; 3) equiprobabilità: questa condizione può essere verificata solo in quelle prove, in quegli esperimenti, che possono essere programmati e ripetuti (estrazioni da urne, lancio di dadi regolari, lancio di monete non truccate ecc.). In altri termini, delle tre condizioni date, la terza è quella più difficile da verificare e giustificare. Per esempio, se la prova consiste nell’estrazione di palline da urne l’equiprobabilità si può ottenere richiedendo che le palline siano tutte della stessa dimensione e dello stesso materiale, a meno del colore, ed effettuare l’estrazione al buio. Se invece l’esperimento consiste nel sottoporsi ad un i ntervento chirurgico i possibili eventi (guarigione, invalidità, morte ecc.) quasi mai sono equiprobabili, né possono essere riformulati in modo da renderli tali. Ma Capitolo 1 24 c’è di più, richiedere la equiprobabilità nell’ambito della misura della probabilità vuole dire avere misurato quello che si vuole misurare: si cade in una tautologia, un circolo vizioso. Il problema della misura della probabilità viene comunque risolto in modo pragmatico ricorrendo ad un ulteriore postulato che, pur non facendo parte del corpus dei postulati del calcolo delle probabilità, è utile per ottenere una misura empirica della probabilità di un determinato evento. Tale postulato è il postulato empirico del caso. Il postulato empirico del caso afferma che in una successione di prove r ipetute molte volte, sempre nelle stesse condizioni, la frequenza relativa fi delle volte in cui un evento si è effettivamente verificato: fi = numero dei casi in cui si è presentato l ' evento , numero delle prove effettuate si avvicina sempre più alla probabilità pi del verificarsi dell’evento stesso al crescere delle prove effettuate. In modo più sintetico possiamo affermare che all’aumentare del numero delle prove, la frequenza relativa di un evento (si calcola dopo che le prove sono state effettuate) tende alla probabilità dell’evento stesso (si calcola prima che la prova venga effettuata): pi ≈ fi Notare che la frequenza è un concetto a posteriori: si calcola dopo avere effettuato l’esperimento, la probabilità è un concetto a priori: si calcola prima che l’esperimento sia stato effettivamente fatto. Esempio 6 Consideriamo un’urna contenente 50 palline tutte delle stesse dimensioni e dello stesso materiale a meno del colore: 30 sono bianche e 20 sono rosse. Indichiamo con: Introduzione al calcolo delle probabilità 25 Bi = esce, all’i-esima estrazione, pallina di colore bianco, Ri = esce, all’i-esima estrazione, pallina di colore rosso. Supponiamo di volere estrarre due palline dall’urna e di essere interessati a calcolare la probabilità dell’evento seguente: A = esce una pallina bianca ed una rossa. Questo evento, in termini formali, può essere scritto nel modo seguente: A = (B1 ∩ R2 ) ∪ (R1 ∩ B2 ). Osserviamo che non siamo interessati all’ordine dei colori e che i due eventi (B1 ∩ R2 ) e (R1 ∩ B2) sono fra di loro incompatibili dato che o si presenta la prima coppia di palline o si presenta la seconda coppia. Osserviamo ancora che le due palline possono essere estratte in due modi alternativi: a) con reimmissione (estrazione bernoulliana): la prima pallina estratta viene reinserita nell’urna per effettuare la seconda estrazione; b) senza reimmissione (estrazione in blocco): la prima pallina estratta viene tolta dall’urna per cui, alla seconda estrazione, questa si modifica. Analizziamo i due casi separatamente: a) Con reimmissione: Questo tipo di estrazione dà luogo ad eventi indipendenti nel senso che le estrazioni successive sono indipendenti dalle precedenti dato che non modificano la composizione dell’urna. Abbiamo P(A) = P[(B1 ∩R2 ) ∪ (R1 ∩B2 )] = P(B1 ∩R2 ) + P(R1 ∩B2 ) = = P(B1) P(R2 ) + P(R1 ) P(B2 ) = 30 20 20 30 12 + = = 0.48. 50 50 50 50 25 b) Senza reimmissione: Questo tipo di estrazione dà luogo ad eventi dipendenti: le estrazioni successive dipendono da quelle precedenti dato che modificano la composizione dell’urna: Capitolo 1 26 Avremo: P(A) = P[(B1 ∩R2 ) ∪ (R1 ∩B2 )] = P(B1 ∩R2 ) + P(R1 ∩ B2 ) = P(B1) P(R2|B1 ) + P(R1 ) P(B2|R1 ) = 30 20 20 30 120 + = ≈ 0.4898 50 49 50 49 245 Come si può notare, le probabilità ottenute con i due metodi di estrazione sono differenti. E’ facile verificare che al crescere della numerosità dell’urna le due probabilità tendono ad avvicinarsi. 1.5 Il teorema di Bayes In questo paragrafo presenteremo un risultato che va sotto il nome di teorema o regola di Bayes e si ottiene come applicazione del quinto postulato. Questo risultato si riferisce al caso in cui un dato evento, diciamo E, non si presenta mai da solo, ma sempre insieme ad altri eventi, diciamo H1, H2, ..., Hk. Da un punto di vista pratico, il teorema di Bayes permette di risolvere il seguente problema: − − − − sono note le probabilità P(H i ), i = 1, 2, ...,k sono note le probabilità P(E|Hi ), i = 1, 2, ...,k; sappiamo che E si è verificato; vogliamo calcolare le probabilità: P(H i| E). Introduzione al calcolo delle probabilità 27 Notare che, se le Hi sono individuate come le possibili cause che possono generare E, la formula di Bayes permette di calcolare la probabilità che il verificarsi di E sia attribuibile alla causa Hi . Si tratta del complicato ed irrisolto problema della ricerca delle cause essendo, come detto, funzione delle P(H i ) che nella realtà sono incognite e lasciate alla determinazione soggettiva del ricercatore: si è verificato incontrovertibilmente un dato fatto, bisogna valutare quale è stata la causa che più verosimilmente lo ha determinato. Vediamo ora come il problema sopra illustrato può essere risolto. Supponiamo, senza perdere in generalità, che i k eventi Hi siano necessari ed incompatibili: H1 ∪H2 ∪ ... ∪Hk = Ω Hi ∩Hj = Ø, i ≠j Possiamo così scrivere le identità seguenti E = E ∩ Ω = E ∩( H1 ∪H2 ∪ ... ∪Hk ) = = ( E ∩H1 ) ∪ ( E ∩H2 ) ∪.... ∪ ( E ∩Hk ) Osserviamo che gli eventi ( E ∩ H1 ), ( E ∩H2 ), ...., ( E ∩ Hk ) sono a due a due incompatibili e quindi possiamo scrivere P(E) = P( E ∩ H1 ) + P( E ∩ H2 ) + ....+ P( E ∩ Hk ). Inoltre, per il quinto postulato risulta Capitolo 1 28 P( E|Hi ) = da cui ricaviamo P( H i ∩ E ) P( H i ) P( Hi ∩ E) = P( Hi ) P( E|Hi ), che sostituita in P( E) diviene P( E) = P( H1 ) P( E|H1 ) + P( H2 ) P( E|H2 ) + ... + P( Hk ) P( E|Hk ). Riutilizzando il quinto postulato si ha P( Hi|E) = P( H i ∩ E ) P( E ) e sostituendo in quest'ultima espressione le precedenti due otteniamo la regola di Bayes: P( H i ∩ E ) P( Hi|E) = = P( E ) = P( H i ) P( E| Hi ) , i=1,2,...,k P( H1 )P ( E| H1 ) + P( H 2 ) P( E| H2 ) + ... + P( H k ) P( E| Hk ) − − − Le probabilità P( Hi ) vengono dette a priori, le probabilità P( E|Hi ) vengono dette probative o verosimiglianze, le probabilità P( Hi|E) vengono dette a posteriori. Ciò che di solito risulta di difficile determinazione sono proprio le probabilità a priori che spesso vengono lasciate alla soggettività del ricercatore o si basano su esperienze passate. Esiste un filone molto importante della statistica che viene sviluppato a partire dal teorema di Bayes e prende il nome di Statistica Bayesiana. Nel seguito non affronteremo una tale problematica. Esempio 7 Nella produzione di un lotto di dadi si è verificato un guasto per cui nei due terzi dei dadi prodotti al posto del numero 1 è stato impresso il numero 3. Scelto un dado a caso, senza Introduzione al calcolo delle probabilità 29 guardare se è buono o difettoso, si effettuano 5 lanci ottenendo il risultato E={F 2 ∩ F3 ∩ F3 ∩ F5 ∩ F4} ove Fi indica l’evento: si presenta la faccia con i puntini. Vogliamo calcolare la probabilità che il dado estratto sia difettoso. Indichiamo con D : il dado estratto è difettoso D : il dado estratto è buono si ha immediatamente Ω = D ∪D e quindi bisogna calcolare P(D|E). E’ chiaro che si tratta di un tipico problema di ricerca della causa che può essere risolto utilizzando la formula di Bayes ove risulta k=2, H1 = D, H2 = D . Si otterrà quindi P( D|E) = P( D )P( E| D ) P( D ) P( E| D ) + P ( D ) P( E| D ) e dato che P(D) = 2 ; 3 P( D ) = 1 - 2 1 = ; 3 3 P( E|D) = P[( F2 ∩ F3 ∩ F3 ∩ F5 ∩ F4 )|D] = 12211 4 = 5; 66666 6 11111 1 − P( E| D ) = P[( F2 ∩ F3 ∩ F3 ∩ F5 ∩ F4 )|D ] = = 5; 66666 6 avremo 2 4 8 3 65 P( D|E) = = . 2 4 1 1 9 + 3 65 3 65 Si osservi che abbiamo supposto note le probabilità a priori P( D) e P( D ) mentre tutto il resto è stato derivato. Capitolo 2 LE VARIABILI CASUALI 2.1 Introduzione Fino ad ora abbiamo trattato degli eventi (possibili risultati di una data prova sintetizzati nell’insieme campionario S) e della probabilità che a ciascuno di questi eventi rimane associata. In altri termini, definita una data prova, risultano ad essa associati i k eventi A1 , A2 , ..., Ak con le relative probabilità p1 , p2 , ..., pk. Abbiamo visto che le probabilità sono dei numeri non negativi mentre gli eventi sono delle frasi, delle proposizioni e come tali di difficile manipolazione (si deve ricorrere a operazioni logiche come avviene nell’algebra di Boole). Scopo di questo capitolo è quello di associare agli eventi dei numeri per avere elementi che possano essere facilmente analizzati con la normale algebra numerica. Ricordiamo, intanto, che gli elementi di S possono essere sempre manipolati di modo che siano necessari ed incompatibili. Qui di seguito supporremo, per l’appunto, che i k eventi Ai generati da una specifica prova siano e ffettivamente necessari ed incompatibili. Questo vuol dire che è sempre pi = P(Ai ) ≥ 0, i=1, 2 ,...,k; k ∑ pi = 1. i =1 In tal modo i k eventi ottenibili dall’esperimento, assieme alle proprie probabilità, possono essere riportati in una tabella: Capitolo 2 32 Eventi A1 A2 ... Ak Probabilità p1 p2 ... pk 1 Definiamo ora una funzione univoca X(.) che associa ad ogni evento Ai un numero della retta reale x i , i=1, 2 ,...,k. In tal modo questa tabella diviene Valori x1 x2 ... xk Probabilità p1 p2 ... pk 1 Questa tabella rappresenta la variabile casuale (nel seguito v.c.) generata da quell’esperimento sotto la funzione X(⋅). Naturalmente, non è detto che la relazione fra numeri reali ed eventi debba essere necessariamente biunivoca, ma ad eventi diversi potrebbe corrispondere lo stesso valore della retta reale come evidenziato nella figura seguente S = ove agli otto eventi generati dalla prova corrispondono, tramite la X(⋅), cinque Le variabili casuali 33 valori distinti della retta reale. Più precisamente, la relativa v.c. associabile alla precedente figura avrebbe la struttura qui di seguito riportata xi x1 x2 x3 x4 x5 pi p4 p2+p5 p1 p3+p6 p7+p8 1 Le variabili casuali, così come abbiamo fatto per le distribuzioni di frequenza, le indicheremo con una delle ultime lettere maiuscole dell’alfabeto latino (X, Y, Z, U, V, ...). Poiché la legge di associazione fra eventi e numeri è soggettiva, vuol dire che dagli eventi generati da una data prova si possono derivare più variabili casuali mutando la legge di associazione X(⋅). In pratica, dato un certo esperimento, la legge di associazione X(⋅) sarà scelta fra le infinite possibili in base alle esigenze concrete che si vogliono studiare. Esempio 1 Consideriamo come prova il lancio di un dado regolare. In questo caso i possibili eventi generati dalla prova sono sei che indichiamo con A1 , A2 , ..., A6 , ove si è posto Ai = Esce la faccia con i puntini. Sappiamo che è P(Ai ) = pi = 1/6 e quindi possiamo scrivere Ai A1 A2 A3 A4 A5 A6 pi 1 6 1 6 1 6 1 6 1 6 1 6 Se scegliamo come funzione di insieme la seguente X(Ai ) = i , i=1,2,...,6 otteniamo la v.c. ad essa associata: xi pi 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 Capitolo 2 34 Supponiamo ora che il lancio del dado sia da mettere in relazione ad una scommessa: se si verificano gli eventi A1 oppure A2 oppure A3 vinco una lira, mentre se escono le facce A4 oppure A5 oppure A6 perdo una lira. In questo caso la funzione di insieme che ci interessa ha la struttura seguente 1 X(Ai ) = − 1 se i = 1,2 ,3 se i = 4,5 ,6 e la relativa v.c. associata allo stesso esperimento avrà la struttura seguente: xi -1 3 6 pi 1 3 6 2.2 Variabili casuali discrete e distribuzioni di frequenza Come abbiamo fatto per le distribuzioni di frequenza, anche le variabili casuali si distinguono in discrete e continue, semplici e multiple ed in particolare doppie. Una v.c. X è discreta se i valori che assume sono in numero discreto finito o numerabile. Una variabile casuale discreta è nota se lo è la sua distribuzione di probabilità, ovvero se sono noti i singoli valori assunti con le rispettive probabilità. La d istribuzione di probabilità di una v.c. discreta finita assume una struttura come quella qui di seguito riportata xi x1 x2 ... xk pi p1 p2 ... pk 1 Le variabili casuali 35 Affinché X sia una v.c. discreta è necessario e sufficiente che le probabilità pi , i =1, 2 ,...,k, soddisfino le due condizioni già menzionate: pi ≥ 0, i =1 ,2 ,...,k ; k ∑ pi = 1, i =1 indipendentemente dalla prova che la ha generata. Notare che i valori x i sono assunti dalla X, non con certezza, ma con probabilità pi , da cui il nome di variabile casuale o variabile aleatoria. Mostriamo ora che le v.c. sono, nel senso che illustreremo fra poco, una generalizzazione delle distribuzioni di frequenza. A tale proposito consideriamo il seguente esempio. Esempio 2 Supponiamo di aver rilevato il numero x i dei componenti di 105 famiglie ottenendo la distribuzione di frequenza che segue ove, accanto alle frequenze assolute, abbiamo riportato anche quelle relative xi ni fi 1 10 10 105 2 20 20 105 3 40 40 105 4 20 20 105 6 10 10 105 7 5 5 105 Se estraiamo a caso una famiglia delle 105 considerate otteniamo uno dei seguenti eventi A1, A2, A3, A4, A6, A7, ove l’indice indica il numero dei componenti della famiglia estratta, così per esempio risulta A3 = Viene estratta una famiglia con tre componenti Osserviamo che P(A1 ) = 10 20 40 20 10 ; P(A2 ) = ; P(A3 ) = ; P(A4 ) = ; P(A6 ) = ; 105 105 105 105 105 P(A7 ) = 5 105 ove queste probabilità sono state calcolate utilizzando la regola del rapporto fra casi favorevoli Capitolo 2 36 e casi possibili. In tal modo, i possibili risultati dell'esperimento sono riassunti nella tabella che segue xi pi A1 10 105 A2 20 105 A3 A4 A6 A7 40 105 20 105 10 105 5 105 Consideriamo ora la seguente regola che associa a ciascuno degli eventi Ai un numero reale X(Ai ) = i in altri termini X(Ai ) è la funzione che associa all'evento Ai il numero dei componenti della famiglia cui l’evento si riferisce. Otteniamo la v.c. discreta xi pi 1 10 105 2 20 105 3 40 105 4 20 105 6 10 105 7 5 105 Come si può notare, questa variabile casuale ha la stessa struttura della distribuzione di frequenza anche se la sua interpretazione e significato logico è del tutto differente: la distribuzione di frequenza è una fotografia della realtà, la variabile casuale è legata alla aleatorietà dell’estrazione di un elemento dalla popolazione delle famiglie. Da quanto abbiamo illustrato nell’esempio precedente segue che ad ogni distribuzione di frequenza e ad ogni popolazione rappresentabile con una distribuzione di frequenza è possibile associare una variabile casuale che ha la stessa struttura della distribuzione di frequenza data. In genere, però, non vale il viceversa dato che possono esistere fenomeni ipotetici che non possono essere descritti con distribuzioni di frequenza, ma possono essere analizzati ricorrendo a variabili casuali. Un esempio tipico è costituito dai possibili redditi che un individuo avrebbe potuto guadagnare in un dato anno. Si tratta di un fenomeno ipotetico che può essere analizzato con una qualche variabile casuale, ma non può essere descritto da una distribuzione di frequenza. Tutto questo implica che la classe delle variabili casuali include quella delle distribuzioni di frequenza: le variabili casuali sono una generalizzazione delle distribuzioni di frequenza. Le variabili casuali 37 Una implicazione di questo risultato è che tutte le analisi, siano esse grafiche o analitiche, che abbiamo fatto per le distribuzioni di frequenza valgono per le variabili casuali. In particolare, avremo i momenti seguenti. LA MEDIA ARITMETICA Data la v.c. X la sua media aritmetica è data da µ= E(X) = k ∑ x i pi. i =1 LA VARIANZA Data la v.c. X la sua varianza è data da σ 2 = E[(X - µ) 2] = k ∑ ( x i − µ ) 2 pi . i =1 IL MOMENTO DI ORDINE r Data la v.c. X il suo momento di ordine r è dato da µr = E(X r) = k ∑x ir pi i =1 L’INDICE DI ASIMMETRIA Data la v.c. X il suo indice di asimmetria è dato da X − µ 3 1 γ1 =E = 3 σ σ k ∑ i =1 ( x i − µ ) 3 pi L’INDICE DI CURTOSI Data la v.c. X il suo indice di curtosi è dato da X − µ 4 1 k 4 γ2 = E - 3 = 4 ∑ ( x i − µ ) pi - 3 σ σ i =1 Le proprietà e l’interpretazione di questi indici, e di quelli analoghi qui non Capitolo 2 38 riportati per brevità, sono le stesse di quelle viste nel volume primo per le d istribuzioni di frequenza. Esempio 3 Calcoliamo media, mediana e varianza delle due variabili casuali riportate nell’esempio 1 Per la prima variabile casuale otteniamo µ= 1 21 (1 + 2 + 3 + 4 + 5 + 6 ) = = 3.5 6 6 Me = σ 2 = µ2 - µ 2 = = 3+4 = 3.5 2 1 2 ( 1 + 2 2 + 3 3 + 4 2 + 5 2 + 6 2 ) - (3.5)2 = 6 91 35 - 12.25 = = 2.91667. 6 12 Per la seconda variabile casuale otteniamo µ= 1 ( −1 + 1 ) = 0 2 Me = σ 2 = µ2 = −1 + 1 =0 2 1 [(-1) 2 + 1 2] = 1. 2 Osserviamo che questa seconda variabile casuale è standardizzata. 2.3 Le variabili casuali doppie discrete Oltre alle variabili casuali semplici discrete esistono quelle multiple discrete ed in particolare le doppie. In questo paragrafo ci occuperemo brevemente di queste ultime. Una variabile casuale doppia discreta di solito viene indicata con (X, Y) e descritta in una tabella a doppia entrata come quella riportata qui di seguito all’interno delle cui caselle sono poste le probabilità che ciascuna coppia Le variabili casuali 39 (x i , yj ) assume: Y\ X y1 y2 y3 ... yh x1 x2 x3 ... xk p11 p12 p13 ... p1h p1. p21 p22 p23 ... p2h p2. p31 p32 p33 ... p3h p3. ... ... ... ... ... ... pk1 pk2 pk3 ... pkh pk. In particolare p.1 p.2 p.3 ... p.h 1 pi j = P{X=x i ∩Y=yj }. In altri termini, pi j è la probabilità che la variabile casuale X assuma il valore x i e contemporaneamente la variabile casuale Y assuma il valore yj . Di solito, per semplificare la scrittura si usa la simbologia seguente pi j = P{X=x i , Y=yj } Osserviamo ancora che è pi . = h ∑ j =1 pi j ; k p. j = ∑ pi j ; i =1 1= k ∑ i =1 h pi . = ∑ p. j = j =1 k h ∑ ∑ i =1 j =1 pi j Così come abbiamo fatto per le distribuzioni di frequenza, anche dalle variabili casuali doppie è possibile derivare le due variabili casuali marginali X ed Y, le h variabili casuali condizionate (X|Y=yj ) le cui rispettive probabilità condizionate sono date da pi j i=1, 2, …, k pi|j = P{X=x i|Y=yj} = p. j e le k variabili casuali condizionate (Y|X=x i ) le cui rispettive probabilità condizionate sono date da pi j pj|i = P{Y=yj|X=x i } = j=1, 2, …, h ; pi . inoltre, X ed Y sono indipendenti se e solo se risulta 40 Capitolo 2 pi j = pi . p. j per ogni i , j. Ovviamente le elaborazioni che abbiamo fatto sulle distribuzioni di frequenza doppie possono essere effettuate sulle variabili casuali doppie. In particolare, un ruolo rilevante assumono i momenti di seguito riportati. MOMENTO MISTO DI ORDINE 1,1 Data la v.c. doppia (X, Y) questo momento è dato da µ11 = µx y = E( X Y) = k h ∑ ∑ x i yj pi j . i =1 j =1 LA COVARIANZA Data la v.c. doppia (X, Y) questo momento è dato da σxy = cov(X , Y) = E[(X-µx )(Y-µy )] = k h ∑ ∑ i =1 j =1 ( x i − µ x )( y j − µ y ) pi j che misura gli eventuali legami lineari esistenti fra X ed Y. LA CORRELAZIONE Data la v.c. doppia (X , Y) questo momento è dato da ρx y = corr(X,Y) = σ xy σx σ y che misura l’intensità degli eventuali legami lineari esistenti fra le due variabili casuali X ed Y. MOMENTI CONDIZIONATI Dalle v.c. doppie del tipo (X, Y) è possibile derivare le h variabili casuali semplici condizionate del tipo (X|Y=yj ). Naturalmente, di queste h variabili casuali semplici possiamo calcolare i relativi momenti ottenendo gli h momenti condizionati. In particolare, la media di (X|Y=yj ), di solito indicata con µx|y j oppure con EX(X|Y=yj ), è definita come Le variabili casuali µx|y = Ex(X|Y=yj ) = j k ∑ i =1 41 k ∑ x i pi|j = i =1 xi pij p. j , per j=1,...,h E’ facile verificare che la media della marginale è pari alla media delle medie condizionate, in simboli: Ey [Ex ( X|Y=yj ) ] = E( X). Infatti, Ey [Ex ( X|Y=yj )] = k ∑ j =1 h ∑ µx|y p.j = j j =1 xi h ∑ i =1 pi j = k ∑ j =1 h k ∑ ∑ j =1 i =1 pij p = p. j . j xi h k ∑ ∑ j =1 i =1 x i pi j = x i pi . = µx = E( X) Considerazioni del tutto simili valgono per µy|x = Ex ( Y|X=x i ). i Un risultato analogo può essere esteso alla varianza, infatti si può verificare (lo abbiamo già dimostrato per le distribuzioni di frequenza doppia) che: la varianza della marginale è pari alla media delle varianze condizionate più la varianza delle medie condizionate, in simboli Var( X) = Ey [Var( X|Y=yj ) ] + Var y [E( X|Y=yj ) ]. 2.4 Le variabili casuali continue Accanto a prove che generano un numero finito o numerabile di eventi ed a cui, fissata una funzione di insieme X(Ai ), rimane associata una v.c. discreta X, ne esistono altre che generano una infinità continua di eventi a cui potrà essere associata una v.c che assumerà tutti i valori di un intervallo (che potrà coincidere 42 Capitolo 2 eventualmente con l’intera retta reale). In tal modo si otterrà una v.c. X continua. Per le v.c. continue non sarà possibile utilizzare una formalizzazione identica a quella delle discrete dato che in questo caso i valori assunti non sono elencabili e quindi non sarà possibile attribuire a ciascuno di questi una probabilità corrispondente, ma sarà necessario definire una funzione che ne descriva il meccanismo probabilistico. Per chiarire meglio la situazione del caso continuo illustriamola con un esempio. Esempio 4 Consideriamo un sistema di assi cartesiani ed un cerchio di raggio unitario e centro l’origine degli assi. Supponiamo che su questo cerchio sia fissata una freccia perfettamente equilibrata con perno il centro del sistema e punta che ruota intorno alla circonferenza del cerchio. Se si fa ruotare la freccia intorno al perno la sua punta, dopo un certo numero di giri, si fermerà in qualche punto della circonferenza. Se si ripete l’esperimento non è certo che la freccia si fermi nello stesso punto. Questo vuol dire che l’esperimento genera una infinità continua di eventi casuali identificabili con tutti i punti della circonferenza che, per quanto detto, è pari all’intervallo [0; 2ð]. La figura che segue illustra il meccanismo dell’esperimento sopra descritto. Si vuole calcolare la probabilità che la freccia si fermi esattamente nel punto A della circonferenza e la v.c. definita dalla funzione X(A) = lunghezza dell’arco (0, A) La variabile casuale così descritta è una variabile casuale continua dato che può assumere valori in tutti i punti dell’intervallo [0; 2π ]. Vediamo ora se, per calcolare P(A) valgono le condizioni di necessità, incompatibilità ed equiprobabilità per cui risulta possibile utilizzare, per calcolare le probabilità, la formula: casi favorevoli diviso casi possibili. Gli eventi generati da questa prova sono sicuramente necessari dato che la freccia deve fermarsi in un qualche punto della circonferenza; sono sicuramente incompatibili dato che se si Le variabili casuali 43 ferma in un punto non si può fermare contemporaneamente in un altro; sono equiprobabili perché abbiamo supposto il meccanismo perfettamente equilibrato perciò la probabilità che la freccia si fermi in un punto deve essere uguale alla probabilità che si fermi in un altro punto qualsiasi della circonferenza. Ma allora dovrebbe essere P(A) = N . Casi favorevoli N . Casi equalmente possibili D’altro lato, abbiamo visto che vi è un solo caso favorevole ed una infinità continua di casi egualmente possibili e quel rapporto non risulta definibile matematicamente per questa strada. In altri termini, questo esempio ci mostra che nel caso di esperimenti che generano una infinità continua di eventi la probabilità non può essere misurata con gli strumenti fino ad ora considerati. Per superare questo inconveniente utilizziamo una strategia simile a quella adottata per costruire gli istogrammi delle distribuzioni di frequenza il cui carattere era riportato per classi di modalità. In quel contesto un problema simile veniva risolto rappresentando le frequenze come aree di rettangoli. In questo caso, invece di calcolare la probabilità in un punto, calcoliamo la probabilità in un intorno di ampiezza infinitesimo di quel punto [x o ; xo + d x ), definiamo una funzione che descriva il meccanismo probabilistico dell’esperimento e misuriamo la probabilità come l’area sottesa dalla funzione in un intorno infinitesimo del punto prescelto. La funzione, che indichiamo di solito con f(x), che descrive il meccanismo probabilistico dell’esperimento viene chiamata funzione di densità della variabile casuale continua X, nel seguito indicheremo on f.d. Nella figura che segue è schematizzato quanto detto. Capitolo 2 44 La relazione fra funzione di densità (nel seguito f.d.) e probabilità è, in questo modo, data da P{x o ≤ X < xo + d x} = f(x o ) dx ove dx è l’incremento infinitesimo e quindi la base infinitesima del rettangolo che ha per altezza f(x o ). Si osservi che la f.d. f(x) non coincide con la probabilità, ma è proporzionale a questa. In generale, la probabilità che la v.c. X assuma un valore nell’intervallo (c ; d) sarà data da d P{c < X < d} = ∫ f(x) d x. c Osserviamo che, essendo d x un incremento infinitesimo sarà sempre positivo questo vuol dire che, affinché sia soddisfatto il postulato del calcolo delle probabilità P(A) ≥ 0, deve necessariamente essere f(x) ≥ 0 per ogni x reale. Inoltre, anche se la v.c. X assume valori nell’intervallo (a; b), la sua funzione di densità può essere definita su tutto l’asse reale con la restrizione che sia f(x) = 0 esternamente all’intervallo (a ; b), come è stato schematizzato nell’ultima figura. D’altro lato, l’evento (-∞ < X < ∞) è un evento certo e perché sia soddisfatto il postulato P(Ω) = 1, deve necessariamente essere +∞ ∫ f(x)d x = 1. −∞ Da quanto abbiamo fino ad ora detto segue ancora che P{c ≤ X ≤ c} = P{X=c} = f(c) × 0 = 0, questo vuol dire che è sempre P{c < X < d} = P{c ≤ X < d}= P{c < X ≤ d} = P{c ≤ X ≤ d} In altri termini, quando si ha a che fare con v.c. continue, l’aggiunta o la eliminazione di un punto o di un insieme numerabile di punti non cambia la relativa probabilità. Le variabili casuali 45 In definitiva, possiamo affermare che tutte le funzioni f(x) per cui sono valide le due condizioni seguenti f(x) ≥ 0 per ogni x reale; +∞ ∫ f(x) d x = 1 −∞ sono f.d. che possono descrivere il meccanismo probabilistico di qualche v.c. continua. Queste due condizioni sono le equivalenti di quelle viste nel caso d iscreto: pi ≥ 0 per i=1, 2, ...k; k ∑ i =1 pi = 1. Esempio 5 Ritorniamo alla prova dell'esempio 4 e deriviamo la f.d. della variabile casuale lì definita. Abbiamo visto che tale v.c. assumerà valori con probabilità diversa da zero nell’intervallo [0; 2π ]. Inoltre, dato che abbiamo supposto il meccanismo perfettamente equilibrato vuol dire che ad intervallini contenuti in [0; 2π ] di uguale lunghezza devono corrispondere uguali probabilità che la freccia vi si fermi. In altri termini, la probabilità deve essere proporzionale alla lunghezza dell’intervallo preso in considerazione. Tutto questo è vero se e solo se la f.d. è costante in ogni punto di [0; 2π ], cioè: f(x) dx = P{x o ≤ X ≤ x o +d x} = c dx qualsiasi sia xo in [0; 2 π ]. La costante c , che è l’unica incognita del problema, può essere ricavata tenendo conto che necessariamente deve essere 1 = P{0 ≤ X ≤ 2π } = c[ 2π - 0] = c 2π da cui si deriva c = 1 che ci permette di ottenere la relativa f.d. 2π 1 f(x) = 2π 0 per x ∈ [0 ,2π ] altrove Il grafico di questa funzione è riportato nella figura che segue: 46 Capitolo 2 Come si può capire dall’esempio appena fatto, la forma della funzione di densità dipende dalle caratteristiche specifiche dell’esperimento. La forma di tale funzione può cambiare sostanzialmente cambiando, anche in modo marginale, queste caratteristiche come è evidenziato nell’esempio che segue. Esempio 6 Supponiamo che il meccanismo probabilistico descritto nell’esempio 4 non sia perfettamente π 3π equilibrato, ma sia noto che la probabilità che la freccia si fermi nell’intervallo , sia 2 2 doppia rispetto alla probabilità che si fermi altrove e quindi, indicando con p tale probabilità deve essere 1 2p + p = 1 ⇒ p= 3 e si ottiene una situazione come quella descritta dalla figura che segue 1 π Questo vuol dire che la probabilità che la freccia si fermi nell’intervallo 0 , è paria a , 6 2 Le variabili casuali 47 π 3π 2 2 , 2 è 3 e la probabilità che si fermi la probabilità che si fermi nell’intervallo 1 3π nell’intervallo , 2π è ancora . In tal modo, la forma della funzione di densità è 2 6 quella qui di seguito rappresentata Risulta così molto facile derivare c1 e c2 dato che deve essere π 1 c1 = ; 2 6 da cui si ricava immediatamente c1 = 2 3π π − c2 = 3 2 2 1 ; 3π c2 = 2 3π In definitiva, la funzione di densità di questa v.c. può essere scritta nel modo seguente 1 3π 2 f(x) = 3π 0 per per π e 2 π 3π ≤x ≤ 2 2 0≤x < per 3π < x ≤ 2π 2 altrove Una volta nota la f.d. è possibile calcolare tutte le probabilità di interesse della v.c. data. Per π π π esempio, se si vuole la probabilità che la freccia si fermi nell’intervallo , + si ottiene 4 2 4 facilmente Capitolo 2 48 π π π P ≤ X ≤ + = 4 2 4 π/ 2 = ∫ π/ 4 1 dx + 3π 3π/ 4 ∫ π/ 2 f(x) dx = π/4 3π / 4 ∫ π/2 ∫ 3π/ 4 f(x) dx + π/ 4 2 dx = 3π ∫ f(x) dx = π/ 2 1 1 1 1 1 − + − = . 6 12 2 3 4 Per le v.c., siano esse discrete o continue, è sempre possibile derivare la relativa funzione di ripartizione: la funzione di ripartizione di una qualsiasi v.c. X è data da F(x) = P{X ≤ x} Nel caso discreto questa funzione si costruisce nel modo già visto per le distribuzioni di frequenza. Se invece X è una v.c. continua risulta x F(x) = ∫ f(v) dv −∞ Nella figura che segue è schematizzato il modo di costruzione di una funzione di ripartizione di una v.c. X definita nell’intervallo (a; b). Come si intuisce dalla definizione e come si ricava dal grafico sopra riportato, risulta sempre a F(a) = ∫ −∞ b f(x) dx = 0; F(b) = ∫ −∞ f(x) dx = 1 Le variabili casuali inoltre è 49 F(x 1 ) ≤ F(x 2 ) per tutti gli x1 < x2. Questo vuol dire che la funzione di ripartizione è sempre non decrescente ed ha un andamento simile a quello schematizzato nella figura che segue. Abbiamo visto che nota la f.d. f(x) di una variabile casuale continua X è sempre possibile derivare la sua funzione di ripartizione, ma è facile verificare anche il viceversa nel senso che nota F(x), se F(x) è continua e derivabile allora è sempre possibile ottenere f(x) tramite la seguente: d F(x). dx f(x) = Come abbiamo visto per le v.c. discrete, anche per quelle continue è possibile definire degli indici sintetici che mettono in rilievo caratteristiche rilevanti del fenomeno. In particolare, si dice che la v.c. X continua ammette momento di ordine r, che indichiamo con µr , se esiste finito il seguente integrale: ∞ ∫| x r | f(x) dx −∞ e risulta µr = ∞ ∫x r f(x) dx −∞ Si può dimostrare che se esiste questo momento, allora esistono tutti quelli di ordine inferiore ad r, ma non è vero il viceversa. Qui di seguito riportiamo alcuni dei momenti più utilizzati. Capitolo 2 50 LA MEDIA Data la v.c. X continua la sua media, se esiste, è data da ∞ µ = E(X) = ∫ x f(x) dx. −∞ LA VARIANZA Data la v.c. X continua la sua varianza, se esiste, è data da 2 2 σ = E[(X-µ) ) = ∞ ∫ ( x − µ ) 2 f(x) dx. −∞ La varianza esiste se esiste µ2 e risulta sempre σ 2 = µ2 - µ 2. LA MEDIANA Data la v.c. X continua la sua mediana Me esiste sempre ed è data dalla soluzione della seguente equazione Me ∫ f(x) dx= F(Me ) = 0.5. −∞ L’INDICE DI ASIMMETRIA Data la v.c. X continua l’indice di asimmetria esiste se esiste il suo momento terzo µ3 ed è dato da γ1 = ∞ 3 x−µ ∫ σ f ( x ) dx −∞ cioè dal momento terzo della standardizzata di X. L’INDICE DI CURTOSI Data la v.c. X l’indice di curtosi esiste se esiste il suo momento quarto µ4 ed è dato da Le variabili casuali γ2 = ∞ 51 4 x−µ ∫ σ f ( x ) dx - 3 −∞ cioè dal momento quarto della standardizzata di X meno tre. Esempio 7 Consideriamo la v.c. definita nell’esempio 6, abbiamo visto che la sua funzione di densità è data da 1 3π 2 f(x) = 3π 0 per per π e 2 π 3π ≤x ≤ 2 2 0≤x < per 3π < x ≤ 2π 2 altrove Da questa segue immediatamente che la funzione di ripartizione è data da 0 x 3π 2x 1 − F(x) = 3π 6 x +1 3π 3 1 il cui grafico è qui di seguito riportato per per per per per x <0 π 2 π 3π ≤x< 2 2 3π ≤ x < 2π 2 0≤x < x ≤ 2π Capitolo 2 52 La media e la mediana di questa v.c. sono date rispettivamente da ∞ µ= ∫ π /2 f(x) dx = −∞ ∫ 0 = x dx + 3π 3 π /2 ∫ π /2 2x dx + 3π 2π ∫ 3 π /2 x dx = 3π π 18π 2π 16π 9π + − + − =π 24 24 24 24 24 2 Me 1 − = 0.5 3π 6 ⇒ 4Me - π = 3 π ⇒ Me = π come era da attendersi dato che questa variabile casuale è simmetrica. 2.5 Le variabili casuali doppie continue Nel caso di v.c. doppie continue queste non possono più essere descritte con una tabella a doppia entrata, ma è necessario, come abbiamo visto nel caso semplice, ricorrere ad una f.d. doppia f(x ,y) che ne descriva il meccanismo probabilistico. Generalizzando quanto abbiamo detto nel paragrafo precedente, affinché una generica funzione f(x ,y) possa essere considerata una funzione di densità relativa a una qualche v.c. doppia continua (X ,Y) è necessario e sufficiente che soddisfi le seguenti due condizioni f(x ,y) ≥ 0 per ogni (x , y) del piano reale ∞ ∞ ∫ ∫ −∞ −∞ f(x ,y ) dx dy =1 Le variabili casuali 53 Nota la funzione di densità doppia f(x , y) di una data v.c. (X , Y) è possibile calcolare la probabilità di determinati eventi tenendo conto che fra f.d. e probabilità esiste la seguente relazione P{x ≤ X < x+dx , y ≤ Y < y+dy} = f(x ,y) dx dy Altezza Area di base In tal modo la probabilità non è altro che il volume sottostante la funzione di densità doppia. Come abbiamo visto nel caso discreto, dalla v.c. doppia (X , Y) con f.d. f(x ,y) è possibile derivare le v.c. semplici marginali e condizionate. Più precisamente: la funzione di densità della marginale X è data da ∞ ∫ fx (x) = f(x , y) dy ; −∞ la funzione di densità della marginale Y è data da ∞ ∫ f y (y) = −∞ f(x ,y) dx ; Capitolo 2 54 la funzione di densità della condizionata ( X| Y=y) è, per fy ( y ) > 0, data da fx|y ( x ) = f ( x, y ) ; f y( y ) la funzione di densità della condizionata ( Y| X=x) è, per fx ( x ) > 0, data da fy|x ( y ) = f ( x, y ) . fx ( x ) Osserviamo, infine, che le due v.c. X ed Y sono indipendenti se e solo se risulta f(x , y) = fx (x) fy ( y) per ogni (x ,y ) del piano reale che generalizza al caso continuo quanto detto per il caso discreto. Qui di seguito generalizziamo al caso continuo alcuni indici definiti per le doppie discrete. MOMENTO MISTO DI ORDINE 1,1 Data la v.c. doppia continua (X,Y), il suo momento di ordine 1,1 è dato da µx y = E(X Y) = ∞ ∞ ∫ ∫x y f(x , y) dx dy . −∞ −∞ LA COVARIANZA Data la v.c. doppia continua (X , Y) la covarianza fra X ed Y è data da σxy = E[(X-µx )(Y-µy )] = ∞ ∞ ∫ ∫ −∞ −∞ ( x − µ x )( y − µ y ) f(x,y) dx dy = = µx y - µx µy Le variabili casuali 55 che permette di derivare la correlazione identicamente a quanto fatto nel caso d iscreto. Mostriamo ora che, data la v.c. doppia ( X , Y) con f.d. f( x ,y) se X ed Y sono indipendenti allora sono anche incorrelate cioè risulta σx y =0. Infatti, utilizzando nella formula della covarianza la condizione di indipendenza si ottiene σx y = ∞ ∞ ∫ ∫ −∞ −∞ ∞ ∫ −∞ ∞ ∞ ∫ ∫ −∞ −∞ ( x − µ x )( y − µ y ) f(x ,y) dx dy = ( x − µ x )( y − µ y ) fx(x) fy( y) dx dy = ( x − µx ) fx ( x) dx ∞ ∫ −∞ ( y − µ y ) fy ( y) dy = 0 per una delle proprietà della media aritmetica. MOMENTI CONDIZIONATI Le considerazioni fatte nel caso di variabili casuali doppie discrete continuano a valere in quello continuo. In particolare, la media condizionata di (X|Y=y) è data da ∞ µx|y = Ex (X|Y=y) = ∫ x fx|y ( x) dx −∞ e valgono ancora i risultati già illustrati che legano la media e la varianza delle marginali con quelle delle condizionate E( X) = Ey [ Ex (X|Y=yj )] Var( X) = Ey [Var( X|Y=yj )] + Var y [ E(X|Y=yj )]. Capitolo 3 VARIABILI CASUALI DI USO COMUNE In questo capitolo presenteremo e commenteremo brevemente alcune delle più semplici ed utilizzate variabili casuali, siano esse discrete o continue. 3.1 La variabile casuale uniforme La v.c. uniforme è una delle più semplici fra quelle di norma utilizzate. Spesso il suo uso, piuttosto che per analizzare fenomeni reali, è di tipo teorico: simulazione di estrazioni casuali, derivazione di altre variabili casuali più complesse, dimostrazioni di particolari risultati teorici, ecc. Di variabili casuali uniformi ne esistono due versioni: l’uniforme discreta e l’uniforme continua. Entrambe verranno qui di seguito illustrate nell’ordine dato. LA V.C. UNIFORME DISCRETA La v.c. uniforme discreta assume i valori x i , i=1, 2, ...,N, tutti con la stessa 1 probabilità . N La più semplice v.c. uniforme discreta ha la seguente distribuzione di probabilità: xi 1 2 ... N pi 1/N 1/N ... 1/N 1 Capitolo 3 58 Il relativo diagramma di probabilità ha una forma come quella illustrata nella figura seguente Come si può notare, l’unico parametro che caratterizza questa v.c. è dato dal numero N. A motivo del suo diagramma di probabilità, questa v.c. viene anche chiamata rettangolare. Per indicare che una v.c. X si distribuisce come quella uniforme con parametro N si usa, indifferentemente, una delle due notazioni seguenti: X~ U(N); X~ R(N) Se si tiene conto che, per costruzione, questa v.c. è simmetrica intorno alla media segue immediatamente che media e mediana coincidono ed il comune valore è dato da µ = Me = N +1 2 cioè il centro dell’intervallo su cui la uniforme è definita. Utilizzando il risultato notevole 1 2 + 2 2+ 3 2 + ... + N 2 = è possibile derivare il momento secondo µ2= = N ∑ i =1 x i2 pi = N ( N + 1)( 2 N +1 ) 6 N ∑ i =1 i2 1 = N 1 2 ( N + 1 )( 2 N + 1 ) ( 1 + 2 2 + 3 2 + ... + N 2 ) = . N 6 Questi primi due momenti ci permettono di derivare la varianza: Variabili casuali di uso comune σ 2 = µ2 - µ 2 = 59 2 ( N + 1 )( 2 N + 1 ) N + 1 - = 6 2 2( N + 1 )( 2 N + 1 ) − 3( N + 1) 2 = 12 = ( N + 1)[ 2( 2 N + 1 ) − 3( N + 1)] ( N + 1 )( N −1 ) N 2 −1 = = . 12 12 12 Nota la media e la varianza di una v.c. è facile calcolare il relativo coefficiente di variazione N −1 µ ( N 2 − 1 ) /12 σ N −1 6 CV = = = = . µ µ 3( N + 1 ) |µ | Utilizzando il risultato notevole 1 3 + 2 3 + 3 3 + ... + N 3 = N 2 ( N +1)2 4 è possibile derivare il momento terzo µ3 = N ∑ i =1 x 3i pi = N ∑ i3 i =1 1 1 3 N ( N +1 ) 2 = ( 1 + 2 3 + 3 3 + ... + N 3 ) = N N 4 Ricordando che la v.c. uniforme è simmetrica segue immediatamente che il suo indice di asimmetria è sempre nullo: γ1 = 0 Utilizzando il seguente risultato notevole 1 4 + 2 4 + 3 4 + ... + N 4 = è possibile calcolare il momento quarto µ4 = N ∑ i =1 x 4i pi = = N ∑ i =1 i4 N ( N + 1 )( 2 N + 1 )( 3 N 2 + 3 N − 1) 30 1 1 4 = ( 1 + 2 4 + 3 4 + ... + N 4 ) = N N ( N + 1 )( 2 N + 1 )( 3 N 2 + 3 N − 1 ) 30 Capitolo 3 60 I primi quattro momenti così individuati permettono di calcolare il relativo indice di curtosi che dopo alcuni passaggi algebrici risulta: γ2 = µ4 − 4 µ3 µ + 6 µ2 µ 2 − 3 µ 4 σ4 6( N 2 +1) −3=− 5( N 2 −1 ) questo vuole dire che la v.c. uniforme discreta sopra presentata è sempre platicurtica qualsiasi sia N; inoltre, per N sufficientemente grande si ha γ2 ≈ - 6/5. Dalla v.c. X è possibile derivare una nuova v.c., diciamo Y, ottenuta come trasformazione lineare di X: Y=a+bX ove (a,b) sono costanti reali. Nel caso in cui X è l’uniforme discreta sopra riportata, la v.c. Y avrà la seguente struttura yi a+b1 a+b2 ... a+bN pi 1/N 1/N ... 1/N 1 che è ancora uniforme. Nel caso in cui sia a=- µ =σ 3( N + 1 ) 1 ; b= = N −1 σ 12 N 2 −1 si ha la v.c. uniforme standardizzata. Esempio 1 La v.c. xi pi 1 1 6 2 1 6 3 1 6 4 1 6 5 1 6 6 1 6 connessa al lancio di una dado regolare, definita nell’esempio 1 del capitolo precedente, è una particolare v.c. uniforme discreta con N = 6. Utilizzando le formule sopra riportate si ottiene Variabili casuali di uso comune 61 facilmente: µ = Me = 3.5; µ2 = da cui si ottiene σ2 = 35 ; 12 CV = 91 ; µ3 = 73.5 ; 6 5 ; 21 γ1 = 0; µ4 = 350 γ2 = - 222 . 175 L’UNIFORME CONTINUA La v.c. uniforme continua è definita nell’intervallo (a, b) e possiede la seguente funzione di densità 1 per a ≤ x ≤ b f(x) = b − a altrove 0 Il tipico grafico di questa funzione di densità è riportato nella figura s eguente: Il momento r-esimo di questa v.c. si ottiene abbastanza facilmente b µr = ∫ x a b r 1 1 x r +1 b r +1 − a r +1 dx = = ; r =1, 2, ... b −a b − a r + 1 a ( b − a )( r +1 ) Capitolo 3 62 da cui si derivano come casi particolari i primi quattro momenti: µ1 = b2 − a2 b+a = ; 2( b − a ) 2 µ3 = µ2 = b3 − a 3 ; 3( b − a ) b4 − a4 b5 − a 5 ; µ4 = 4( b − a ) 5( b − a ) da cui si può ottenere σ2= b3 − a 3 (b + a)2 ( b − a )2 − = ; 3( b − a ) 4 12 CV = γ1 = 0; γ2 = b −a ; 3( b + a ) µ 4 − 4 µ3 µ + 3 µ22 σ 4 -6=- 6 5 Il segno negativo di γ2 sta a significare che l’uniforme continua è platicurtica, come d’altronde intuitivamente ci si aspettava. Si osservi che l’indice di curtosi della uniforme continua è indipendente dai due parametri (a, b) che la caratterizzano. Nella figura seguente riportiamo la funzione di ripartizione F(x) della v. c. uniforme continua definita nell'intervallo (a, b). Variabili casuali di uso comune 63 Esempio 2 La v.c. continua X con funzione di densità 1 2π f(x) = 0 x ∈ [ 0, 2π ] per altrove riportata nell’esempio 5 del capitolo precedente, è una particolare v.c. uniforme continua con a=0 e b= 2π . Il momento r-esimo di questa variabile casuale diviene semplicemente µr = ( 2π ) r +1 2π ( r + 1) da cui si ottiene immediatamente µ = Me = π ; σ2= 1 π2 ; CV = 3 3 3.2 La variabile casuale binomiale Prima di introdurre la v.c. binomiale riportiamo brevemente la v.c. di Bernoulli. Si tratta della più semplice v.c. che si possa definire. Più precisamente la v.c. X si dice di Bernoulli e si indica con X~B(1; p), se assume solo due valori: 0 con probabilità (1-p) ed 1 con probabilità p, ove è 0 ≤ p ≤ 1, o equivalentemente xi 0 1 pi 1-p p 1 in cui, di solito, si pone 1-p = q . Questa v.c. può essere generata estraendo una unità di rilevazione da una popolazione le cui unità assumono solo due caratteri contrapposti tipo: Si - No, Giusto - Sbagliato, Buono - Difettoso, ecc. Una tale situazione si può schematizzare con una urna contenente palline di due colori, per esempio bianche (in proporzione pari a p) e rosse (in proporzione pari a q ), Capitolo 3 64 associando il numero uno se la pallina estratta è bianca ed il numero zero se è rossa. Esempio 3 La prova consiste nel lancio di una moneta ben equilibrata. Gli eventi possibili sono in tal caso T=Esce la faccia testa, C=Esce la faccia croce. Ciascuno dei due eventi ha probabilità p =1/2 di verificarsi. Se associamo a T il numero zero ed a C il numero uno otteniamo la v.c. seguente xi 0 1 pi 1/2 1/2 1 che è una particolare Bernoulli con p=1/2. Della v.c. di Bernoulli è immediato calcolare il momento di ordine r, infatti si ottiene µr = k ∑ i =1 x ri pi = 0r (1-p)+ 1r p = p. Da cui si ricava in particolare µ = p; γ1 = σ 2 = p q; 1−2 p ; p( 1 − p ) γ2 = 1 - 6. p( 1 − p ) La v.c. Binomiale può essere definita come una generalizzazione della v.c. di Bernoulli ottenuta quando dall’urna estraiamo, con reimmissione, N palline e siamo interessati al numero delle palline bianche che possono presentarsi. Per dire che X è distribuita come una Binomiale si scrive X~B(N; p). Dato che le N estrazioni vengono effettuate con reimmissione, gli N eventi che si ottengono sono fra di loro indipendenti e ciascuno di questi genera una v.c. di Bernoulli indipendente, questo vuole dire che risulta X ~B(N; p) = N ∑ i =1 Bi (1; p) Variabili casuali di uso comune 65 ove Bi ( 1; p) è la v.c. di Bernoulli associata alla i-esima estrazione. In altri termini, la v.c. Binomiale è data dalla somma di N v.c. di Bernoulli indipendenti. Vediamo ora di costruire la distribuzione di probabilità di questa v.c. utilizzando lo schema dell’estrazione da una urna. Supponiamo, pertanto, di avere la solita urna contenute solo palline Bianche e Rosse con la proporzione delle bianche pari a p mentre quella delle rosse pari a q = 1 - p. Indichiamo con Bi = esce pallina bianca alla i-esima estrazione R i = esce pallina rossa alla i-esima estrazione. E’ ovvio che risulta P(B i ) = p , P(Ri )=q=1-p per i =1, 2, ...,N. Si vuole calcolare la probabilità del seguente evento: Ax = in N estrazioni (effettuate con rimessa) la pallina bianca si presenta x volte. Per calcolare la probabilità di Ax uno degli eventi che si deve presentare è il seguente B1 ∩ B2 ∩ ... ∩ B x ∩ R x+1 ∩ R x+2 ∩ ... ∩ R N e per quello che abbiamo fino ad ora detto (gli eventi sono indipendenti, P(Bi ) = p , P(Ri ) =1- p= q ) risulta immediatamente P(B1 ∩ B2 ∩ ... ∩ Bx ∩ Rx+1 ∩ Rx+2 ∩ ... ∩ RN ) = p x q N - x Ma perché A x sia verificata, le x palline bianche possono presentarsi non necessariamente ai primi x posti: i modi, incompatibili, in cui le x palline bianche possono presentarsi, sono tanti quante sono le combinazioni di N oggetti ad x N N ad x cioè x , inoltre ciascuno di questi x eventi ha la stessa probabilità p x q N - x di verificarsi. Questo vuole dire che la probabilità cercata è data da p x q N - x. P(Ax ) = N x Capitolo 3 66 Se ora si considera la funzione di insieme f(Ax ) = x si ottiene la v.c. Binomiale. Si osservi che i valori che può assumere x sono 0 (nessuna delle N palline estratte è bianca), 1 (una sola delle N palline estratte è bianca), 2 (due delle N palline estratte sono bianche), ..., N (tutte le N palline estratte sono bianche). In definitiva possiamo affermare che la v.c. X è una Binomiale, con parametri N e p, se assume valori x con probabilità p x q N-x ; px = P(X=x) = N x x = 0, 1, ...,N La distribuzione di questa v.c. discreta può essere scritta sotto la solita forma di tabella px x 0 N p 0 1 N p 1 qN-1 1 N p 2 qN-2 2 2 ... ... N N p N 0 N qN-0 qN-N 1 Il nome di binomiale per questa v.c. deriva dal fatto che le quantità N x non sono altro che i coefficienti della potenza N-esima di un binomio. Infatti, è noto che a 0 b N-0 + (a+b) N = N 0 N a 1 1 a N bN-N. b N-1 + ... + N N Questo risultato ci permette di dimostrare immediatamente che la somma di tutte le probabilità della v.c. Binomiale (come deve essere per qualsiasi v.c. d i - Variabili casuali di uso comune 67 screta) è pari ad uno. Infatti, risulta N N px = p0 qN-0 + 0 x=0 ∑ N 1 N-1 p q + ... + 1 N N N-N p q = N = (p+q)N = 1N = 1. È abbastanza facile verificare che le probabilità px di B(N; p) possono essere calcolate recursivamente tramite le seguenti: po = (1-p)N px = px-1 p N − x +1 ⋅ N 1− p per x=1,2, ..., N Nella figura che segue riportiamo la distribuzione di probabilità della binomiale con N=15 e tre diversi valori di p. Da questo grafico si evince che la binomiale è simmetrica intorno alla propria media se p=q=1/2, è asimmetrica positiva per p < 1/2, è asimmetrica negativa per p>1/2, in ogni caso assume una forma di tipo campanulare. La derivazione dei primi due momenti di una v.c. Binomiale è piuttosto semplice. Infatti, dato che Capitolo 3 68 B(N;p) = N ∑ i =1 Bi (1; p), risulta: N µ = E[ B(N; p)] = E ∑ Bi ( 1; p ) = i =1 N ∑ i =1 E[Bi (1; p) ] = N ∑ p=Np i =1 2 N µ2 = E[ B (N; p)] = E ∑ B i ( 1; p ) = i =1 2 N = E ∑ Bi2 ( 1, p ) + ∑∑ Bi ( 1, p ) B j (1, p ) = Np + N(N-1) p2. i =1 i≠ j Ove si è tenuto conto del fatto che Bi e Bj sono v.c. indipendenti per cui E(Bi Bj ) = E(Bi ) E(Bj ). La derivazione formale degli altri momenti è più complessa a meno di utilizzare strumenti di analisi più sofisticati e non affrontati in questo contesto. Si può, comunque, dimostrare che è µ3 = N(N-1)(N-2) p 3 + 3N(N-1) p 2 + Np µ4 = N(N-1)(N-2)(N-3) p 4 + 6N(N-1)(N-2) p 3 + 7N(N-1) p 2 + Np La conoscenza dei primi due momenti permette di derivare la varianza della Binomiale: σ 2 = [Np + N(N-1) p 2] - (N p) 2 = N p(1-p) = N p q La Binomiale possiede, fra le altre, la seguente proprietà riproduttiva : se Xi~B(Ni ; p) , i =1, 2, ..., k , sono k v.c. Binomiali indipendenti allora la v.c. X= k ∑ i =1 Xi Variabili casuali di uso comune 69 è ancora una Binomiale e precisamente X~B(N1+N2+...+Nk ; p). Esercizio 4 E’ noto che, in media, il 10% delle piante immesse in un nuovo impianto muore. Al livello di almeno il 99% si vuole determinare il numero delle piante da immettere nel vivaio in modo che almeno 6 di queste sopravvivano. Posto: p = 0.9 (successo di sopravvivenza di una pianta) 1-p = 0.1 (insuccesso di sopravvivenza di una pianta) X = N° piante che sopravvivono e dato che la sopravvivenza o meno di una pianta si può considerare indipendente da quella delle altre, ha senso supporre che la loro distribuzione sia di tipo Binomiale. In tal modo si ha: P{X ≥ 6} = N ∑ Nx ( 0.9 ) x (0.1) N-x ≥ 0.99 x =6 e bisogna calcolare N. Dato che (a) per N = 9 si ha: P(X ≥ 6) = 9 ∑ 9x ( 0.9 ) x (0.1) 9-x = 0.99167; x (0.1) 8-x = 0.96191 x =6 (b) per N = 8 si ha: P(X ≥ 6) = 8 ∑ 8x ( 0.9 ) x =6 segue che deve essere N = 9 perché, con probabilità maggiore o eguale a 0.99, almeno 6 piante sopravvivano. Dalla v.c. Binomiale è possibile derivare, con una particolare trasformazione lineare, una nuova variabile casuale che ha una certa importanza sia da un punto di vista teorico che applicato. Se X è una v.c. Binomiale B(N; p), la v. c. Binomiale frequenza è data da Capitolo 3 70 F= X 1 N = ∑ Bi (1; p) N N i =1 Come si può notare, la v.c. Binomiale frequenza non è altro che la media di N v.c. di Bernoulli ottenute come estrazione con reimmissione delle N palline. Scritta in forma di tabella, la distribuzione di probabilità di questa variabile casuale è la seguente px x 0 1/N 2/N .…… 1 N p 0 0 q N-0 N p 1 q N-1 1 N p 2 q N-2 2 .……………… N p N N q N-N 1 Di questa variabile casuale, nota media e varianza della Binomiale da cui è stata derivata, è facile ricavare X 1 µ = E(F) = E = Np = p N N 1 pq X var( F) = var = 2 N p q = N N N e come si può osservare, la media di F è proprio pari a p, mentre la variabilità di F decresce al crescere di N. 3.3 La variabile casuale di Poisson La v.c. di Poisson è una variabile casuale discreta e viene, di solito, utilizzata per analizzare fenomeni connessi a conteggi: numero di automobili che passano Variabili casuali di uso comune 71 in un dato punto in un determinato intervallo di tempo, numero di clienti serviti in una fila in un determinato tempo ecc. Essa può essere definita sia direttamente, sia come un particolare limite della v.c. Binomiale. Qui di seguito, per ragioni di semplicità, seguiremo questa seconda strada. A tale proposito consideriamo la generica v.c. X ~B(N; p) e facciamo tendere N all’infinito e p a zero di modo che sia sempre Np = λ . Questo vuole dire che il tasso d’incremento di N e quello di decremento di p devono essere uguali. Dato che questa v.c. deriva dalla Binomiale con p → 0 vuol dire che la probabilità che si verifichi l’evento che la definisce è molto piccolo. Per tale motivo la v.c. di Poisson viene anche detta degli eventi rari . La distribuzione di probabilità della Binomiale può essere scritta come segue: N! N! 1 x x N px qN-x = px (1-p)N-x = N p (1-p)N-x = x x x ! ( N − x )! ( N − x )! N x ! N! 1 Np ( Np ) x 1 − = x x! N ( N − x )! N N Np 1 − N −x Dato che per ottenere la Poisson deve essere Np= λ possiamo anche scrivere: N! 1 x λ N px qN-x = λ 1 − x x ( N − x )! N x ! N N λ 1 − N −x e ricordando i seguenti limiti notevoli N! λ = 1; lim 1 − N → ∞ ( N − x )! N x N →∞ N lim N = e − λ; λ lim 1 − N → ∞ N si ottiene 1 x −λ N x N-x λ e , lim x p q = N →∞ x! p →0 N p =λ In definitiva possiamo affermare che x = 0, 1, 2, ... −x =1 Capitolo 3 72 la v.c. X si distribuisce come una Poisson con parametro λ , e si scrive X~P( λ ), se la sua distribuzione di probabilità è data da P(X=x) = 1 x −λ λ e , x! x = 0, 1, 2, ... Nella figura seguente è riportata la distribuzione di probabilità della Poisson per tre diversi valori del parametro λ da cui si rileva che si tratta di una v.c. che è sempre asimmetrica positiva. Scritta sotto forma di tabella la v.c. di Poisson diviene x px −λ 0 e 1 λ e −λ 2 λ2 e − λ / 2 3 λ3 e −λ / 6 ... .………. x ... λx e −λ / x ! .………. 1 Le probabilità di una P(λ) soddisfano le seguenti relazioni po = e − λ Variabili casuali di uso comune λ x px = px-1 73 per x =1, 2, ..... per cui risulta facile calcolarle recursivamente. Dato che la Poisson si può ottenere come un particolare limite della Binomiale e dato che una Binomiale è sempre esprimibile come la somma di N Bernoulli indipendenti, segue che ogni v.c. di Poisson può essere espressa come una particolare somma di infinite Bernoulli indipendenti: P( λ ) = lim B(N; p) = lim N →∞ p →0 N p =λ N ∑ Bi ( 1; p ) N →∞ i =1 p →0 N p =λ Anche la v.c. di Poisson soddisfa una forma di riproducibilità, infatti, si può dimostrare che se Xi ~Pi ( λi ), i=1,2,...,k, indipendenti allora si ha k X= ∑ i =1 Xi = P( λ1 + λ 2 + ... + λ k ), cioè la somma di k Poisson indipendenti è ancora una Poisson. I primi due momenti della v.c. di Poisson possono essere calcolati a partire da quelli della v.c. Binomiale. Infatti, si ha µ = E[P( λ )] = lim E[B(N; p)] = lim Np = λ N→∞ p→ 0 Np =λ N→∞ p→ 0 Np =λ µ2 = E[P 2( λ )] = lim E[B2(N;p)] = lim [Np + N(N-1)p2] = N→∞ p→ 0 Np =λ N→∞ p→ 0 Np =λ = lim [ λ + λ2 − λp ] = λ + λ2 . N→∞ p→ 0 Np =λ Il calcolo degli altri momenti può essere ottenuto utilizzando strumenti non riportati in questo manuale, in quel contesto si può dimostrare che è µ3 = λ3 + 3λ2 + λ Capitolo 3 74 µ4 = λ4 + 6λ3 + 7λ2 + λ. Questi momenti permettono di derivare la varianza 2 σ 2 = µ2 - µ = λ + λ2 - λ2 = λ; l’indice di asimmetria della Poisson γ1 = 1 λ che mostra come la v.c. di Poisson è sempre asimmetrica positiva e l’indice di curtosi 1 γ2 = λ che mostra come la v.c. di Poisson è sempre leptocurtica. Come si può notare media e varianza coincidono in una v.c. di Poisson. Questo vuol dire che condizione necessaria (ma non sufficiente) perché un fenomeno aleatorio connesso a qualche conteggio sia rappresentabile con una Poisson è che media e varianza di tale fenomeno siano uguali. Esercizio 5 Da esperienze passate si ricava che la probabilità di avere un parto trigemino è p = 1/8000. Calcolare la probabilità che osservando 10.000 parti a caso: (a) se ne abbiano non più di 4 trigemini; (b) almeno 4 trigemini. Dato che le nascite sono indipendenti e che avere o non avere un parto trigemino si riduce allo schema: successo, insuccesso, per risolvere il problema si può utilizzare la v.c. Binomiale con N =10.000 e p = 1/8.000. E quindi: (a) P{X ≤ 4} = 4 ∑ j =0 4 P(x=j) = ∑ Nj p j (1-p) n-j = 0.99088; j =0 (b) P{X ≥ 4} = 1 - P{X < 4} = 1 - 3 ∑ P(x=j) = j =0 3 n-j N = 1- ∑ j ( p ) j (1-p) = 1 - 0.96174 = 0.03826. j =0 Dato che N = 10.000 è “grande” e p = 1/8.000 è “piccolo” si può usare Variabili casuali di uso comune l’approssimazione con una Poisson con λ = (a) P{X ≤ 4} = 4 4 ∑ P(X=j) = ∑ j =0 j =0 (b) P{X ≥ 4} = 1 - P{X < 4} = 1 - 75 10.000 = 1.25 ottenendo: 8.000 e − λ λj = 0.99006; j! 3 3 ∑ P( x = j ) = 1 - ∑ j =0 j =0 e − λ λj = j! = 1 - 0.96109 = 0.03891. Esercizio 6 Un venditore di manufatti complessi sa che il numero di vendite per settimana si comporta come una v.c. di Poisson. Inoltre, gli è noto che, in media, vende 2 manufatti al giorno. Determinare lo stock di magazzino in modo che quel venditore abbia probabilità di almeno il 99% di avere merce per soddisfare la domanda di una settimana. In tal caso è λ = 2 beni venduti in media al giorno × 7 = giorni della settimana 14 e quindi bisogna trovare N per cui P{X ≤ N} ≥ 0.99 cioè N ∑ j =0 e −λλ j -λ = e j! N ∑ j =0 λj ≥ 0.99 j! Si può verificare che per N= 23 si ha: P{X ≤ 23} = 0.99067 e quindi il venditore deve tenere in magazzino almeno 23 manufatti per essere sicuro al 99% di soddisfare tutte le richieste di una settimana. 3.4 La variabile casuale Normale La v.c. Normale è la più nota ed usata fra tutte le v.c. che sono state deri- Capitolo 3 76 vate e da questo punto di vista assume un ruolo fondamentale nella statistica. Questa v.c. è continua ed assume tutti i valori dell’asse reale, spesso è nota anche come v.c. degli errori accidentali dato che storicamente è stata ottenuta analizzando la distribuzione degli errori di misura di uno stesso fenomeno o anche v.c. di Gauss dato che fu uno dei primi matematici a derivarla e ad analizzarne le relative proprietà. La sua enorme rilevanza in ambito applicato e teorico r isale al fatto che questa v.c. è legata, come vedremo nel seguito, al modello lineare che è uno dei modelli più semplici per descrivere ed interpretare fenomeni anche molto complessi. La v.c. normale è funzione di soli due parametri: la media µ e la varianza 2 σ . Questo vuole dire che nota la media e la varianza di un fenomeno aleatorio e noto che questo fenomeno si distribuisce normalmente, risulta perfettamente individuata la sua funzione di densità, cioè il meccanismo probabilistico che la caratterizza. Per dire che una v.c. X si distribuisce come una Normale con media µ e varianza σ2 si usa la notazione seguente X~N(µ, σ 2). La f.d. di una v.c. Normale con media µ e varianza σ 2 è data da f(x) = 1 exp − ( x − µ )2 2 2 σ 2πσ 1 2 ove con la notazione exp{a} abbiamo indicato e a. Analizziamo ora alcune delle caratteristiche matematiche della f.d. di questa v.c. Osserviamo in primo luogo che essa è simmetrica intorno alla media cioè risulta f(µ - x) = f(µ + x) per ogni x . Infatti, si ha f(µ - x) = 1 exp − ( µ − x − µ )2 = 2 2σ 2πσ 1 2 1 2 exp − x 2σ 2 2πσ 1 2 Variabili casuali di uso comune f(µ+ x) = 1 exp − ( µ + x − µ )2 = 2 2σ 2πσ 1 2 77 1 exp − x2 2 2σ 2πσ 1 2 che dimostra quanto affermato. Essendo la distribuzione simmetrica risulta sempre µ = Me La f.d. di una normale ha un unico massimo per x=µ. Per dimostrare questa affermazione poniamo 1 1 c= ; a= 2 2 2 σ 2πσ per cui la f.d. della normale si può scrivere f(x) = c ⋅ exp{-a(x-µ)2} = c exp{a( x − µ ) 2 } e dato che le costanti (c, a) sono positive, f(x) è tanto più grande quanto più exp{a(x-µ)2} è piccola, ed essendo questa quantità un’esponenziale con esponente non negativo il suo valore minimo si ha per x = µ che dimostra quanto affermato. Si osservi che nel punto di massimo x=µ la f.d. della Normale vale f(µ) = c = 1 2πσ 2 Dato che, per definizione, l’area al di sotto della f.d. deve essere sempre pari ad uno e che è sempre f(x) ≥ 0, perché f(x) abbia un massimo in x=µ questa funzione deve prima crescere e poi simmetricamente decrescere. Ciò vuole dire che f(x) deve avere per asintoto orizzontale l’asse delle x e due flessi che, si può dimostrare, sono posizionati rispettivamente in µ - σ ed in µ+ σ. Nella figura che segue è riportato il grafico di una generica f.d. di una Normale con media µ e varianza σ 2. 78 Capitolo 3 Supponiamo di avere due fenomeni aleatori X ed Y che si distribuiscono entrambi come normali con uguale varianza e medie diverse: X~N(µx , σ 2); Y~N(µy , σ 2) con µx ≤ µy, allora la forma delle funzioni di densità delle due normali è la stessa, cambia solo il punto in cui queste sono localizzate ed in particolare la seconda, essendo centrata su µy, si trova più a destra della prima come è illustrato nella figura che segue. Consideriamo ora il caso in cui le v.c. Normali abbiano uguale media ma varianza diversa. In tal caso le rispettive funzioni di densità saranno tutte centrate nello stesso punto, ma quella con varianza più elevata sarà più schiacciata sull'asse delle x. Nella figura che segue sono state riportate le f.d. Variabili casuali di uso comune 79 di tre Normali tutte e tre con la stessa media pari a zero e varianza data rispettivamente da 1, 2 e 3. Come si può notare, quella che ha la varianza maggiore (σ 2 = 3 ) , cioè quella più dispersa, ha il massimo minore. Le variabili casuali Normali posseggono una proprietà riproduttiva estremamente importante. Infatti, si può dimostrare che la trasformazione lineare di una Normale è ancora una normale. Più precisamente, se è X~N(µ, σ 2) allora si può dimostrare che è anche Z = a + b X ~N(a + b µ , b 2 σ 2) In particolare, come già visto in altra occasione, se è a=− si ottiene Z=− µ , σ b= 1 σ µ 1 X −µ + X= ~N(0, 1) σ σ σ che è la v.c. Normale standardizzata. Graficamente la f.d. della Normale standardizzata ha un andamento simile a quello riportato nella figura che segue Capitolo 3 80 Dato un fenomeno aleatorio X che è noto distribuirsi come una Normale con media µ e varianza σ 2, si vuole calcolare la probabilità che X cada nell’intervallo [a, b]. Sappiamo che questa probabilità è data da b P{a ≤ X ≤ b} = ∫ a 1 exp − ( x − µ ) 2 dx 2 2 πσ 2σ 1 2 e per risolvere l’integrale è necessario conoscere la primitiva della f.d. della Normale. Ma si può dimostrare che la primitiva della f.d. della Normale non esiste in forma esplicita e quindi quell’integrale può essere calcolato solo in via approssimata. Per risolvere, anche se solo in modo approssimato, il problema si ricorre alla seguente procedura: (a) si sono tabulate le probabilità relative alla Normale standardizzata (vedi le tavole nell’apendice); (b) si standardizza la v.c. X ed i relativi estremi dell’intervallo [a , b]; (c) si usa la tavola delle probabilità della standardizzata per calcolare le probabilità cercate. Nel caso precedentemente considerato si ha a − µ X − µ b − µ b −µ a − µ ≤ ≤ P{a ≤ X ≤ b}= P ≤Z ≤ = P σ σ σ σ σ per cui la probabilità che X cada nell’intervallo [a, b] risulta uguale, in virtù del fatto che la standardizzazione è una trasformazione lineare e quindi biunivoca per cui conserva le relative probabilità, alla probabilità che Z cada nell'intervallo Variabili casuali di uso comune 81 a − µ b − µ σ , σ . Da un punto di vista grafico si ha una situazione come quella qui appresso riportata Esempio 7 Supponiamo di avere un fenomeno X che si distribuisce normalmente e precisamente X~N(3, 4). Si vuole calcolare la probabilità seguente P{2 ≤ X ≤ 5} Da un punto di vista grafico si deve calcolare l’area tratteggiata nella figura seguente Standardizzando si ha Capitolo 3 82 5−3 2 − 3 P{2 ≤ X ≤ 5} = P ≤Z ≤ = P{ - 0.5 ≤ Z ≤ 1} = 2 2 = P{-∞ < Z ≤ 1} - P{-∞ < Z ≤ -0.5}. D’altra parte, per la simmetria, della f.d. della Normale si ha P{-∞ < Z ≤ -0.5} = 1- P{-∞ < Z ≤ 0.5} e quindi risulta P{2 ≤ X ≤ 5} = P{ - 0.5 ≤ Z ≤ 1} = P{-∞ < Z ≤ 1} - P{-∞ < Z ≤ -0.5}= = P{-∞ < Z ≤ 1}- [1- P{-∞ < Z ≤ 0.5}]. Ricorrendo alle tavole della Normale standardizzata avremo infine P{2 ≤ X ≤ 5}= P{-∞ < Z ≤ 1}- [1- P{-∞ < Z ≤ 0.5}] = = 0.8413 - (1 - 0.6915) = 0.5328. Data la v.c. Z Normale standardizzata, si può dimostrare che questa possiede tutti i momenti e sono dati da 0 r! µr = E( Z r ) = 2 r / 2 ( r / 2 )! se r è dispari se r è pari e come si può notare, i momenti di ordine dispari della Normale standardizzata sono tutti nulli. In particolare risulta: E(Z 0) = 1; E(Z) = 0; E(Z 2) = 1; E(Z 3) = 0; E(Z 4) = 3 e quindi γ1 = E(Z 3) = 0; γ2 = E(Z 4) - 3 = 4 ⋅ 3 ⋅ 2 ⋅1 - 3 = 3 - 3 = 0. 22 ⋅2 2 Noti i momenti della standardizzata, quelli della generica v.c. X~N(µ , σ ), Variabili casuali di uso comune 83 tenuto conto che X=µ+σZ, sono dati da r ∑ E(X r) = r µ r- j σ j j =0 j j E(Z ) da cui si ottengono i seguenti risultati particolari: 1 E(X) = ∑ j =0 E(X 2) = 2 ∑ j =0 1 µ 1- jσ jE(Z j) = 1 µσ 0E(Z 0) + 1 µ 0σ E(Z) = µ; 0 0 1 2 µ j 2- j j j σ E(Z ) = 2 µ 2 σ 0 E(Z 0) + 2 µ σ E(Z) + 0 1 0 2 2 + 22 µ σ E(Z ) = µ 2 + σ 2; E(X 3) = 3 ∑ j =0 + E(X 4) = 3 µ j 3- j j j σ E(Z ) = 3 µ 3σ 0E(Z 0) + 3 µ 2σ E(Z) + 0 1 3 µ σ 2 E(Z 2) + 3 µ 0σ 3 E(Z 3) = µ 3 + 3µ σ 2; 2 3 4 ∑ j =0 4 µ4- j σ j E(Z j) = 4 µ j 0 2 2 2 4 + 2 µ σ E(Z ) + 4 0 0 3 σ E(Z ) + 14 µ σ E(Z) + 4 µ σ 3 E(Z 3) + 3 4 µ0 σ 4 E(Z 4) = 4 = µ 4 + µ 2σ 2 + 3σ 4. Esempio 8 Supponiamo che un dato fenomeno si distribuisca normalmente con µ=3 e σ 2 = 4 si vogliono calcolare le seguenti probabilità (a) P{1.5 ≤ X ≤ 4.3} Capitolo 3 84 (b) P{4.21 ≤ X ≤ 6.35} (a) La probabilità che si vuole calcolare è data dall’area in tratteggio seguente Standardizzando si ottiene 4.3 − 3 1.5 − 3 P{1.5 ≤ X ≤ 4.3}= P ≤Z ≤ = P{-0.75 ≤ Z ≤ 0.65} = 2 2 = P{-∞ < Z ≤ 0.65} - P{-∞ < Z ≤ -0.75} = = P{-∞ < Z ≤ 0.65} - [1 - P{-∞ < Z ≤ 0.75}] = = 0.7422 - (1- 0.7734) = 0.5156. (b) La probabilità che si vuole calcolare è data dall’area tratteggiata seguente Variabili casuali di uso comune 85 Standardizzando si ottiene 6.35 − 3 4.21 − 3 ≤Z ≤ P{4.21 ≤ X ≤ 6.35} = P = P{0.605 ≤ Z ≤ 1.675} 2 2 ≈ P{0.60 ≤ Z ≤ 1.67} = P{-∞ < Z ≤ 1.67} - P{-∞ < Z ≤ 0.60} = = 0.95254 - 0.7257 = 0.2268. Ove, dato che la tavola della standardizzata permette di prendere in considerazione solo due cifre decimali (una sulla prima colonna della tabella e l’altra sulla prima riga della tabella), si è dovuto procedere ad una approssimazione al valore più vicino. Prima di illustrare gli esempi che seguono, richiamiamo le seguenti ben note identità |X - b | ≤ c = -c ≤ X-b ≤ c = b-c ≤ X ≤ b+c |X - b | ≥ c = (X-b ≥ c) ∪(X-b ≤ -c) = (X ≥ b+c) ∪ (X ≤ b-c) Esempio 8 Supposto che il fenomeno X si distribuisca come una v.c. Normale con media µ e varianza σ 2 qualsiasi, calcolare (a) (b) (c) P{|X - µ| ≤ σ} P{|X - µ| ≤ 2σ} P{|X - µ| ≤ 3σ} (a) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene P{|X - µ| ≤ σ}= P{µ-σ ≤ X ≤ µ+σ} = µ +σ − µ µ −σ − µ ≤Z ≤ = P = P{-1 ≤ Z ≤ 1} = σ σ = 2P{-∞ < Z ≤ 1} - 1 = 2 × 0.8413 - 1 = 0.6826. Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore 86 Capitolo 3 dell’intervallo [µ-σ; µ+σ] è più del 68% come illustrato nella figura che segue (b) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene P{|X - µ| ≤ 2σ}= P{µ-2σ ≤ X ≤ µ+2σ} = µ + 2σ − µ µ − 2σ − µ = P ≤Z ≤ = P{-2 ≤ Z ≤ 2} = σ σ = 2P{-∞ < Z ≤ 2} - 1 = 2 × 0.97725 - 1 = 0.9545. Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore nell’intervallo [µ-2σ; µ+2σ] è più del 95% come illustrato nella figura che segue (c) Utilizzando la prima delle identità sopra riportate e standardizzando si ottiene Variabili casuali di uso comune 87 P{|X - µ| ≤ 3σ}= P{µ-3σ ≤ X ≤ µ+3σ} = µ + 3σ − µ µ − 3σ − µ ≤Z ≤ = P = P{-3 ≤ Z ≤ 3} = σ σ = 2P{-∞ < Z ≤ 3} - 1 = 2 × 0.99865 - 1 = 0.9973. Questo vuole dire che la probabilità che una qualsiasi v.c. Normale assuma un valore nell’intervallo [µ-3σ; µ+3σ] è più del 99,7% . Una conseguenza pratica molto rilevante dei risultati visti nell’esempio precedente è che, anche se teoricamente la v.c. Normale può assumere valori da -∞ a +∞ , la quasi totalità dei casi (più del 99.7%) cade nell'intervallo finito [µ-3σ; µ+3σ]. In altri termini, le code della funzione di densità della Normale si avvicinano a zero molto rapidamente, anche se raggiungono esattamente tale valore solo a ±∞ . Questo vuole dire che la Normale può approssimare abbastanza bene fenomeni reali i cui valori sono definiti in un intervallo finito. Utilizzando le tavole della Normale standardizzata, vediamo di risolvere un problema inverso da quello affrontato negli esercizi precedenti. A tal fine, supponiamo di avere un fenomeno X che si distribuisce normalmente con media µ e varianza σ 2 noti, cioè X~N(µ, σ 2), vogliamo individuare la costante a di modo che, fissato α, sia P{|X - µ| ≤ a} = α In altri termini, si vuole risolvere, rispetto ad a, la seguente equazione integrale µ+ a P{|X - µ| ≤ a}= P{µ-a ≤ X ≤ µ+a} = ∫ f(x)dx = α µ− a Da un punto di vista grafico vuole dire individuare l’ampiezza dell'intervallo [µa; µ+a], che è pari a 2a, una volta fissata la probabilità α relativa a tale intervallo. Il problema è illustrato nella figura seguente. Capitolo 3 88 Standardizzando si ha α = P{|X - µ| ≤ a}= P{µ-a ≤ X ≤ µ+a} = µ+a−µ a µ −a − µ −a ≤Z ≤ ≤Z ≤ =P = P σ σ σ σ da cui si ricava che è equivalente a = 2P a 0 ≤ Z ≤ σ a α P 0 ≤ Z ≤ = σ 2 a α P − ∞ ≤ Z ≤ = + 0.5. σ 2 Dalla tavola della standardizzata, in corrispondenza di α* = si ricava il valore zα∗ ≈ α + 0.5, 2 a e quindi a ≈ zα∗ σ. σ Esempio 9 Supponiamo che sia X~N( µ, 4) e si voglia individuare la costante a per cui risulti In questo caso si ha P{|X - µ| ≤ a}= 0.65. Variabili casuali di uso comune 89 0.65 + 0.5 = 0.825. 2 Il valore più vicino ad α* riportato nella tavola della Normale standardizzata è 0.8238 in corrispondenza del quale si ha zα∗= 0.93 e quindi risulta * α= a ≈ 2 (0.93) = 1.86. Un’ultima interessante proprietà connessa alla v.c. Normale, riportata qui di seguito senza dimostrazione, è che una qualsiasi combinazione lineare di Normali indipendenti si distribuisce ancora come una v.c. Normale Più precisamente, date le seguenti v.c. Xi~N(µi , σ 2i ), i=1,2,...,k, indipendenti, la nuova v.c. Y = co + c1 X1 + c2 X2 + ... + ck Xk si distribuisce come una Normale con media e varianza date rispettivamente da µy = co + c1 µ1 + c2 µ2 + ... + ck µk σ 2y = c12 σ 12 + c 22 σ 22 + ... + c k2 σ k2 cioè Y ~N(co + c1 µ1 + c2 µ2 + ... + ck µk; c12 σ 12 + c 22 σ 22 + ... + c k2 σ k2 ) Questo risultato ha una grande rilevanza per una serie di sviluppi teorici ed applicati alcuni dei quali illustreremo nei capitoli seguenti. 3.5 Alcune v.c. derivate dalla Normale. In questo paragrafo tratteremo brevemente di alcune v.c. che hanno rilevanza pratica e si ottengono come particolari trasformazioni di v.c. Normali. In particolare tratteremo, nell’ordine, delle v.c.: Chi-quadrato, T di Student, F di Fisher e Lognormale. Capitolo 3 90 LA V.C. CHI-QUADRATO La v.c. Chi-quadrato con k gradi di libertà si indica con χ k2 ed è definita nel modo che segue. Siano date k v.c. normali standardizzate: Z1~N(0, 1), Z2~N(0, 1), ..., Zk~N(0, 1) e supponiamo che siano indipendenti per cui risulta f(z1 , z2 , ..., zk ) = f1(z1) f2(z2) ... fk(zk) cioè la funzione di densità della v.c. k-pla (Z1 , Z2 , ..., Zk ) è pari al prodotto delle k funzioni di densità marginali. Allora la nuova v.c. Y= k ∑ i =1 Z i2 prende il nome di v.c. Chi-quadrato con k gradi di libertà. Ove si definisce gradi di libertà = numero delle variabili - numero dei vincoli e nel caso sopra definito si ha che il numero delle variabili è, per costruzione, pari a k, il numero dei vincoli è zero per cui i gradi di libertà risultano proprio pari a k. Da un punto di vista geometrico, i gradi di libertà indicano la dimensione in cui ci si può muovere nella costruzione della v.c. Y. Nel seguito incontreremo casi in cui il calcolo dei gradi di libertà è più elaborato. In altri termini, la v.c. Chi-quadrato con k gradi di libertà è data dalla somma di k normali standardizzate indipendenti al quadrato. La v.c. χ k2 è continua ed è definita, per come è stata costruita, nell'intervallo (0; +∞ ). Si dimostra che la f.d. della v.c. Y~χ k2 è data da f(y) = e − y / 2 y ( k / 2 ) −1 2 k/ 2 Γ ( k / 2 ) per y > 0 Variabili casuali di uso comune 91 ove Γ(p) è detta funzione gamma e risulta Γ(p) = ∞ ∫ p-1 x e- x dx per p > 0; Γ(p+1) = p Γ( p), 0 mentre se p è un numero intero si ha Γ(p) = (p-1) ! ; ... 1 1× 3 × 5 × × ( 2 p −1) π Γ p+ = ; 2 2p inoltre 1 Γ = π . 2 La forma di tale f.d. è riportata nella figura che segue per tre diversi valori dei gradi di libertà. Per quel che riguarda la media e la varianza della v.c. Chi-quadrato, ricordando che E(Z) =0, E(Z 2) = 1, E(Z 3) = 0, E(Z 4) = 3, risulta k E(χ k2 ) = E Z i2 = i =1 ∑ k ∑ i =1 E[Z i2 ] = k Capitolo 3 92 var(χ k2 ) k = ∑ i =1 k = var Z i2 = i =1 k ∑ E{[Z i2 - E(Z i2 )] 2} = k ∑ ∑ i =1 var[Z i2 ] = E[Z 4i - 2Z i2 E(Z i2 ) + (E(Z i2 ))2] = i =1 = k ∑ [3 - 2E(Z i2 ) + 1] = i =1 k ∑ [3 - 2 + 1] = 2k i =1 possiamo così calcolare il momento secondo della v.c. χ k2 ottenendo µ2 = σ 2 + µ 2 = 2 k + k 2 In generale, si può dimostrare, che il momento r-esimo della v.c. χ k2 è dato da µr = E(Y r) = 2 r Γ (r + k /2 ) = k (k+2) (k+4) ... (k+2(r-1)) Γ ( k /2 ) da cui si deriva µ1 = k µ2 = 2k + k 2 = k (k+2) µ3 = 8k + 6k 2 + k 3 = k (k+2) (k+4) µ4 =48k + 44k 2 + 12k 3 + k 4 = k (k+2) (k+4) (k+6) che permette di calcolare σ 2 = 2k ; γ1 = 8 > 0; k γ2 = 12 > 0. k Da cui si ricava che la v.c. χ k2 è sempre asimmetrica positiva e leptocurtica qualsiasi sia k, asimmetria e curtosi tendono a zero al crescere di k. La v.c. Chi-quadrato gode, come è facile verificare, della seguente proprietà riproduttiva: la somma di due Chi-quadrato indipendenti è ancora una v.c. Chi- Variabili casuali di uso comune 93 quadrato che ha per gradi di libertà la somma dei gradi di libertà. Formalmente, se X~χ k2 ; Y~χ h2 sono indipendenti, allora risulta V = X + Y ~χ k2 +h LA V.C. T DI STUDENT Date le due v.c. Z ~ N( 0, 1) ed Y ~ χ k2 indipendenti, definiamo v.c. T di Student con k gradi di libertà la seguente Z N( 0 ,1) = Y /k χ k2 / k T(k) = La v.c. T di Student è funzione del solo parametro k e la sua f.d., si dimostra, è data da f(t) = 1 Γ (k + 1) 1 2 1 + t 2 /k kπ 1 Γ k 2 ( )−( k+1) /2 , - ∞<t< ∞ Il grafico di f(t), per due diversi valori di k è riportato nella figura seguente Capitolo 3 94 Come si può notare dalla figura, la v.c. T di Student è simmetrica intorno allo zero qualsiasi sia k. Quando è k=1 questa variabile casuale prende anche il n ome di v.c. di Cauchy. Per quel che riguarda i momenti, si dimostra che data la v.c. T(k) il momento µr esiste se risulta r < k. Inoltre, i momenti di ordine d ispari, quando esistono, sono nulli. In generale si ha 1 1 k r / 2 Γ ( r + 1)Γ ( k − r ) 2 2 µr = E( T r) = 1 1 Γ k Γ 2 2 se r è pari ed r<k. Otteniamo così come casi particolari: µ1 = 0 se k > 1; µ3 = 0 se k > 3; k k−2 3k 2 µ4 = ( k − 2 )( k − 4 ) µ2 = se k > 2 se k > 4 che permettono di ricavare σ2 = k k −2 se k > 2; γ1 = 0 se k >3; γ2 = 6 >0 se k >4. k −4 Questo vuole dire che la v.c. T di Student, oltre ad essere simmetrica, è sempre leptocurtica. Tenendo conto che Variabili casuali di uso comune 95 1 2 1 1 1 E χ k2 = k =1; var χ k2 = 2 2k = k k k k k 1 2 χ k è costante e pari ad uno mentre la sua vak 1 2 rianza tende a zero quando k cresce all'infinito. Ciò implica che χ k , al dik vergere di k all’infinito, assume il suo valore medio 1 con certezza. Ma allora, dalla definizione della v.c. T di Student segue che la media della v.c. T(k) = N ( 0, 1) χ k2 / k si ha che la variabile casuale che figura al denominatore tende con certezza al valore 1 e di conseguenza T(k) → N(0, 1). In altri termini, al crescere dei gradi di libertà della v.c. T di Student questa tende alla v.c. Normale standardizzata. Nella figura seguente è messa a confronto la f.d. di una N(0, 1) con una T(10) In pratica, basta che sia k ≥ 30 perché T(k) sia ben approssimata da una Normale standardizzata. LA V.C. F DI FISHER Date le due v.c. indipendenti X ∼ χ h2 e Y~ χ k2 , la nuova v.c. Capitolo 3 96 F= X/h Y /k si chiama v.c. F di Fisher con h e k gradi di libertà e si scrive F~F(h,k). Come si può notare, la v.c. F di Fisher è funzione di una coppia di gradi di libertà, in particolare h sono i gradi di libertà relativi al numeratore della F e k sono quelli relativi al denominatore. Una caratteristica importante di questa v.c. è che il suo inverso è ancora una v.c. F di Fisher con i gradi di libertà scambiati. In altri termini, se F~F(h,k) allora e quindi 1 ~F(k,h) F P{0 ≤ F(h,k) ≤ 1/Fo } = P{F o ≤ F(k,h) < + ∞ } per Fo > 0. Inoltre, la v.c. F di Fisher può essere considerata una generalizzazione della v.c. T di Student dato che si verifica facilmente, dalle definizioni delle due v.c., che se è X~T(k) risulta immediatamente 2 N ( 0 , 1) 2 = χ1 /1 ~F(1,k) X = χ k2 / k χ k2 / k 2 cioè, il quadrato di una v.c. T di Student con k gradi di libertà è una v.c. F di Fisher con (1, k) gradi di libertà. Infine, si può dimostrare che la funzione di densità di questa v.c. è 1 Γ ( h + k ) h/2 F h / 2 −1 2 h f( F) = 1 1 k (1 + F h /k )( h + k ) 2 Γ h Γ k 2 2 per 0 ≤ F< ∞ . Nella figura che segue è riportato il grafico della f.d. della F di Fisher per tre diverse coppie di gradi di libertà. Variabili casuali di uso comune 97 Come si vede, si tratta di una distribuzione asimmetrica positiva, qualsiasi siano i gradi di libertà. Per quel che riguarda i momenti di questa v.c., si può dimostrare che è 1 1 kr Γ h + r Γ k − r 2 2 µr = E(F r) = 1 1 r h Γ h Γ k 2 2 1 1 per - 2 h < r < 2 k da cui, come casi particolari, si ottiene: µ1 = k k −2 per k > 2 µ2 = k2 ( h + 2 ) h ( k − 2 )( k − 4 ) per k > 4 µ3 = µ4 = k 3 ( h + 2 )( h + 4 ) 2 h ( k − 2 )( k − 4 )( k − 6 ) k 4 ( h + 2 )( h + 4 )( h + 6 ) h 3 ( k − 2 )( k − 4 )( k − 6 )( k − 8 ) per k > 6 per k > 8 che implicano var(F) = 2 k 2 (h + k − 2 ) h(k − 2 )2 (k − 4 ) per k>4 Capitolo 3 98 γ1 = γ2 = 8( k − 4 ) ( 2 h + k − 2 ) >0 h( h + k − 2 ) k−6 12[( k − 2 ) 2 ( k − 4 ) + h ( h + k − 2 )( 5 k − 22 )] >0 h ( k − 6 )( k − 8 )( h + k − 2 ) per k > 6 per k > 8. Questo vuole dire che la F di Fisher è sempre asimmetrica positiva e leptocurtica. Osserviamo che, utilizzando argomentazioni simili a quelle illustrate per la T di Student, segue immediatamente che per k → ∞ si ha F(h,k) → χh2 . h LA V.C. LOGNORMALE Un’ultima v.c. che qui analizziamo, ottenibile come una particolare trasformazione della Normale, è la v.c. Lognormale. Si tratta di una v.c. di diffusa utilizzazione pratica specie in economia, medicina, geologia ed in particolare nella descrizione della durata di vita di prodotti industriali. Questa v.c. è funzione di due parametri, ma ne esiste una generalizzazione poco utilizzata nelle applicazioni che è funzione di tre parametri. Per dire che la v.c. Y si distribuisce come una Lognormale con parametri (λ, δ) di solito viene utilizzata la simbologia Y~LN(λ, δ). Più precisamente, data la v.c. X~N(λ, δ) la nuova v.c. Y=e X prende il nome di v.c. Lognormale con parametri (λ, δ). Per costruzione, la Lognormale assume valori non negativi. Il nome di Lognormale nasce dal fatto che la v.c. log(Y) si distribuisce come una Normale con parametri (λ, δ). Partendo dalla distribuzione della Normale non è difficile dimostrare che la funzione di densità della Lognormale a due parametri è Variabili casuali di uso comune f(x) = 1 log x − λ 2 exp − , δ x 2π δ 2 1 99 -∞ < λ < ∞ , δ > 0 Nella figura seguente è riportato il grafico della f.d. della Lognormale per tre diverse coppie dei parametri Se X~LN(λ, δ ) si dimostra che il suo momento r-esimo è E(X r) = exp{r λ + r 2 δ 2/2} da cui si ottengono, in particolare µ1 = e λ e δ 2 µ3 = e 3 λ e 9 δ /2 2 /2 µ2 = e 2 λ e 2δ ; 2 µ4 = e 4 λ e 8δ ; 2 Questi permettono di calcolare 2 2 γ1 = e δ + 2 e δ − 1 > 0 2 2 σ 2 = e 2 λ e δ e δ −1 ; 2 2 2 γ2 = e 4δ + 2 e 3δ + 3 e 2δ − 6 > 0 . La v.c. Lognormale è una v.c. sempre asimmetrica positiva e leptocurtica, si Capitolo 3 100 osservi che la distribuzione Lognormale è tanto più vicina alla simmetria ed alla mesocurtosi quanto più δ è piccolo. Questo implica che la Lognormale può approssimare fenomeni che si distribuiscono normalmente scegliendo un δ opportunamente piccolo. 3.6 La variabile casuale Normale doppia In questo paragrafo tratteremo brevemente della v.c. Normale doppia vista come generalizzazione della Normale semplice già analizzata nelle pagine precedenti. La v.c. Normale doppia (X, Y) è definita sull’intero piano (x, y) ed è funzione dei cinque parametri: µ x , µ y , σ x2 , σ 2y , σx y Di solito, per indicare che la v.c. ( X , Y) si distribuisce come una Normale doppia si usa la notazione seguente: ( X , Y) ~ N2 ( µx , µy , σ x2 , σ 2y , σx y ) Fra le v.c. continue multivariate la Normale è quella che, in assoluto, è la più utilizzata nelle pratiche applicazioni date le sue numerose proprietà. Il successo di tale v.c. è dovuto anche, se non soprattutto, ai semplici sviluppi formali che l'uso di tale variabile casuale implica. La funzione di densità dipende, come già accennato, dalle medie e dalle varianze delle due marginali e dalla loro covarianza. Più precisamente si dimostra che è: f (x) = 1 2πσ x σ y 2 1 − ρ xy ( x − µ ) 2 x − µx 1 x . exp − − 2ρ 2 2 σx σx 2( 1 − ρ xy ) . y−µy σ y + ( y − µ y ) 2 σ 2y Si può dimostrare che ogni combinazione lineare di una Normale doppia è ancora una normale. Da questo risultato segue come caso particolare che ciascuna marginale di una normale doppia è una normale semplice: Variabili casuali di uso comune X~N(µx , σ 2x ) 101 Y~N(µy , σ 2y ) ma di solito non è vero il viceversa. Infatti, possono esistere v.c. che non sono Normali doppie, ma hanno le marginali distribuite come Normali. Nelle figure che seguono è riportato il grafico della f.d. della normale doppia per differenti valori dei parametri µx = µy =0, σ 2x =1, σ 2y =2, ρxy =0.5 µx = µy =0, σ 2x =1, σ 2y =2, ρxy = 0 µx = µy =0, σ 2x = σ 2y =2, ρxy =0.5 Data la v.c. (X, Y) Normale doppia è facile verificare che condizione necessaria e sufficiente perché X ed Y siano indipendenti è che sia ρxy = 0. Da questo Capitolo 3 102 risultato segue che nella Normale doppia, ma il risultato è facilmente estensibile a quella multipla: se un fenomeno si distribuisce come una normale multipla, allora l’indipendenza delle marginali è equivalente alla loro incorrelazione Si dimostra facilmente che se (X, Y) è una normale doppia allora la v.c. condizionata (X|Y=y) è ancora una v.c. Normale semplice e precisamente σ xy (X|Y=y) ~ N µ x + 2 ( y − µ y ); σy σ xy2 σ − 2 . σ y 2 x La stessa cosa vale per la condizionata (Y|X=x) che è una Normale semplice data da σ xy σ xy2 (Y|X=x) ~ N µ y + 2 ( x − µx ); σ 2y − 2 . σx σ x Come si può notare, la media della v.c. condizionata (Y|X=x) è una retta nei valori assunti dalla variabile condizionante x: µy|x = µy + σ σ µ y − xy2 µx + xy x = βo + β1 x. ( x − µ ) = x 2 σx σx σ x2 σ xy Naturalmente, una relazione simile vale per la media della v.c. condizionata (X|Y=y): σ xy µx|y = µx + 2 ( y − µ y ) = αo + α1 y σy La funzione di densità della normale doppia ha un unico massimo per (x , y) = (µx , µy ) ed è costante sull'ellisse con centro in ( µx , µy ). L’equazione di tale ellisse è data da Variabili casuali di uso comune 103 2 ( x − µ ) 2 x − µx y − µ y ( y − µ y ) x =c − 2ρ + 2 σx σy σ 2y σ x ove c > 0 è una costante positiva qualsiasi. La situazione è illustrata nella figura che segue ove si è supposto che fosse σx y > 0. Si può dimostrare che se ( X , Y) ~N2 ( µx , µy , σ 2x , σ 2y , σx y ) risulta X-Y ~ N( µx - µy ; σ 2x + σ 2y +2 σx y ) X+Y ~ N( µx + µy ; σ 2x + σ 2y +2 σx y ) e se, inltre, è µx=µy=0 si ha 1 2 2 [ X σ y2- 2 XY σx y + Y σ 2x ] ~ χ 22 2 σ σ − σ xy 2 x 2 y che generalizza al caso bivariato il risultato del caso univariato. 3.7 Alcuni teoremi limite Nel seguito di questo paragrafo presenteremo alcuni risultati asintotici che hanno una certa rilevanza nelle pratiche applicazioni. Capitolo 3 104 ALCUNE LEGGI DI CONVERGENZA In primo luogo tratteremo di alcuni tipi di convergenza di successione di v.c. A tale proposito, consideriamo la successione di variabili casuali indipendenti X1 , X2 , …, Xn ,… ≡ {Xn } con medie e varianze date rispettivamente da µ1 , µ2 , ..., µn , .... σ 12 , σ 22 , ...., σ n2 , .... e consideriamo la v.c. media 1 n Xn = n ∑ Xj j =1 Dall’indipendenza delle Xi segue immediatamente che E( X n ) = 1 n var( X n ) = n ∑ µ j = µ (n) j =1 1 n2 n ∑ σ 2j . j =1 Si noti che nel caso particolare, ma di rilevanza pratica, in cui è µ1 = µ2 = … = µn = … = µ σ 12 = σ 22 = … = σ n2 = … = σ 2 si ha immediatamente E( X n ) = µ ; Var( X n ) = Ciò detto, diamo le seguenti definizioni. σ2 . n Definizione 1 La successione di v.c. { X n } converge in probabilità o debolmente alla v.c. X se Variabili casuali di uso comune 105 per ogni ε > 0 risulta lim P{|Xn - X| < ε} = 1. n→ ∞ Spesso, per dire che Xn converge in probabilità ad X si usa una delle seguenti notazioni P Xn → X plim Xn = X ; n→ ∞ Definizione 2 La successione di v.c. {Xn } converge in media quadratica (quadratic mean, ed in forma abbreviata q.m.) alla v.c. X se lim E[(Xn - X)2] = 0 n →∞ o equivalentemente q . m. Xn → X. Si può dimostrare che la convergenza in media quadratica implica quella in probabilità. Si può dimostrare che, data la successione di v.c. {Xn }, se 1 n →∞ n 2 lim n ∑ σ 2j = 0 j =1 allora P X n - µ(n) → 0 Data la successione di v.c. {X n } nel caso particolare in cui risulti E(Xi ) = µ per ogni i allora P X n - µ → 0. P Se g( ⋅) è una funzione continua e se Xn → X allora Capitolo 3 106 P g(Xn ) → g(X). Definizione 3 Data la successione di v.c. {Xn }, indicando con Fn ( x ) la funzione di ripartizione di Xn , n=1,2,..., e con F(x) quella di una generica v.c. X, diremo che {Xn } converge in distribuzione o in legge ad X se lim Fn (x) = F(x) n →∞ in ogni punto di continuità di F(x). Se {Xn } converge, in distribuzione ad X allora F(x) viene detta la distribuzione asintotica della successione di v.c. Spesso, per dire che {Xn } converge in distribuzione ad X si scrive L Xn → X. Si può dimostrare che la convergenza in probabilità implica quella in distribuzione. In generale, non è vero il viceversa. I due tipi di convergenza si equivalgono se X è una v.c. degenere cioè se assume il valore costante c con probabilità 1. In tal caso si dimostra che P Xn → c L ⇔ Xn → c. L Se g(⋅) è una funzione continua e se Xn → X allora E[g(Xn )] → E[g(X)]. Definizione 4 La successione di v.c. {Xn } converge uniformemente in distribuzione alla v.c. X se lim sup |F n ( x ) - F( x )| = 0. n →∞ x Si può dimostrare che se {Xn } converge in distribuzione a X e se la fun- Variabili casuali di uso comune 107 zione di ripartizione di X è continua allora la convergenza è uniforme. Qui di seguito riportiamo brevemente altri risultati sulla convergenza in probabilità ed in distribuzione: (a) date la successione di v.c. doppie {Xn , Yn }, se P L |Xn - Yn | → 0; Yn → Y allora L Xn → Y. (b) Date la successione di v.c. doppie {Xn , Yn }, se L Xn → X; P Yn → 0 allora P Xn Yn → 0. (c) Date la successione di v.c. doppie {Xn , Yn }, se L Xn → X; P Yn → c allora L Xn + Yn → X + c ; L Xn Yn → Xc. Esempio 10 Quest'ultimo risultato trova una immediata applicazione al caso della v.c. T di Student con g gradi di libertà che per g tendente ad infinito tende ad una normale standardizzata. Infatti, dato che Z T(g) = X/g con Z Normale standardizzata ed X chi-quadrato con g gradi di libertà, e dato che E(X/g)=1 mentre var(X/g)=2/g 2, segue immediatamente che X/g converge in media quadratica, e quindi in probabilità, ad uno al divergere di g, ma allora T(g) convergerà in d istribuzione a Z e questo dimostra quanto affermato. Capitolo 3 108 IL TEOREMA DEL LIMITE CENTRALE Qui di seguito illustriamo un importante risultato teorico che giustifica il largo uso che in statistica viene fatto della v.c. Normale. A tale proposito supponiamo di avere una successione di v.c. indipendenti: X1 , X2 , ..., Xn , ... con medie finite e varianze finite e strettamente positive. Consideriamo la seguente v.c. standardizzata Zn = ( X1 + X 2 + ... + X n ) − E( X 1 + X 2 + ... + X n ) = var( X1 + X 2 + ... + X n ) = ( X1 + X 2 + ... + X n ) − ( µ1 + µ 2 + ... + µn ) σ 12 + σ 22 + ... + σ n2 Sotto condizioni abbastanza generali, si dimostra che Zn converge in distribuzione alla v.c. Normale standardizzata per n → ∞ : L Zn → N(0, 1). Questo risultato è una delle versioni del Teorema del limite centrale. Nelle condizioni date, per n finito ma grande si avrà l’approssimazione Zn ≈ Z ~N(0, 1) che equivale a ( X1 + X 2 + ... + X n ) − ( µ1 + µ 2 + ... + µn ) σ 12 + σ 22 + ... + σ n2 ≈Z da cui si ricava (X1 + X2 + ...+ Xn ) ≈ (µ1+ µ2+ ...+ µn ) + σ 12 + σ 22 + ... + σ n2 ⋅ Z. Ma al secondo membro dell’ultima espressione vi è una trasformazione lineare Variabili casuali di uso comune 109 di una Normale standardizzata che, come sappiamo, è ancora una v.c. Normale e precisamente: (X1 + X2 + ...+ Xn ) ≈ N[(µ1+ µ2+ ...+ µn ); (σ 12 + σ 22 + ...+ σ n2 )] Esempio 11 Sappiamo che la v.c. Chi-quadrato con k gradi di libertà è data dalla somma di k Normali standardizzate indipendenti al quadrato. Ma allora se k è grande (in pratica basta che sia k ≥ 30) è possibile utilizzare il teorema limite centrale ed ottenere χ k2 ≈ N(k, 2k) Nella figura che segue è riportata la f.d. di un χ 220 e la relativa N(20,40) Sappiamo che la v.c. Binomiale con parametri (N, p) è data dalla somma di N v.c. di Bernoulli indipendenti. Se N è grande (in pratica basta che sia Np > 20, oppure p ≈ 0.5) possiamo utilizzare il teorema limite centrale ed ottenere l’approssimazione B(N, p) ≈ N(Np, Np(1-p)) Nella figura seguente viene confrontata la distribuzione di una Binomiale con la relativa Normale. 110 Capitolo 3 Sappiamo che la v.c. di Poisson è il limite in distribuzione, per N→ ∞ e p→0 con Np= λ , della v.c. Binomiale. Ma allora possiamo utilizzare il teorema limite centrale e se λ è grande (in pratica, essendo λ =Np basta che sia λ ≥ 20) ed ottenere l'approssimazione P(λ) ≈ N(λ, λ). LA DISUGUAGLIANZA DI CHEBYCHEV Il risultato che presenteremo qui di seguito, senza dimostrazione, permette di mettere in relazione media e varianza di una qualsiasi v.c. con le probabilità. Si tratta di un risultato molto generale dato che vale qualsiasi sia il fenomeno in studio, l’unica condizione è che possegga media e varianza finite. Il rovescio della medaglia è che e l’approssimazione che si ottiene è piuttosto grossolana. Più precisamente, data una qualsiasi v.c. X con media µ e varianza σ 2 finite, vale sempre la disuguaglianza seguente 1 P{|X - µ| ≥ k σ} ≤ 2 , ove è k > 0 k Dato che è 1 = P{- ∞ <X-µ<+ ∞ } = P{|X-µ| ≥ k σ ∪ |X-µ|< k σ} = P{|X -µ| ≥ k σ} + P{|X - µ|< k σ}, la disuguaglianza di Chebychev si può equivalentemente scrivere Variabili casuali di uso comune P{|X - µ|< k σ} ≥ 1 o anche 111 1 k2 P{µ - k σ < X < µ + k σ} ≥ 1 - 1 . k2 Da quanto abbiamo appena detto segue immediatamente che data una qualsiasi v.c. X con media e varianza finita per k = 1, 2, 3 si ha sempre per k=1: per k=2: per k=3: 1 =0 12 1 P{µ - 2 σ < X < µ + 2 σ} ≥ 1 - 2 = 0.75 2 1 P{µ - 3 σ < X < µ + 3 σ} ≥ 1 - 2 = 0.888 3 P{µ - 1 σ < X < µ + 1 σ} ≥ 1 - Esempio 12 In questo esempio calcoliamo le probabilità sopra viste per tre v.c. di cui è nota la relativa distribuzione in modo da avere una idea della capacità della disuguaglianza di Chebychev di fornire limiti più o meno accettabili. (a) Supponiamo che sia X~N(µ; σ2), nell'esempio 8 abbiamo visto che qualsiasi siano i parametri µ e σ2 si ha sempre per k=1: P{µ-1σ < X < µ + 1σ} = 0.6826 per k=2: P{µ-2σ < X < µ + 2σ} = 0.9545 per k=3: P{µ-3σ < X < µ + 3σ} = 0.9973. 2 (b) Supponiamo che sia X~U(0; 6) in tal caso sappiamo che è µ = 3, σ = 3 e risulta immediatamente 2 3 = 0.577 6 per k=2: P{3 - 2 3 < X < 3 + 2 3 } = 1 per k=1: P{3 - 3 < X < 3 + 3 } = per k=3: P{3 - 3 3 < X < 3 + 3 3 } = 1. (c) Supponiamo di avere la seguente v.c. Capitolo 3 112 xi pi 0 1 32 1 5 32 2 10 32 3 10 32 4 5 32 5 1 32 per cui risulta µ = 2.5 e σ 2 = 1.25 ed otteniamo immediatamente per k=1: P{2.5- 1. 25 < X < 2.5+ 1. 25 } = P{1.382 < X < 3.619} = = P{X = 2} + P{X = 3} = 10 10 + = 0.625 32 32 per k=2: P{2.5-2 1. 25 < X < 2.5+2 1. 25 } = P{0.264 < X < 4.736} = = P{X = 1} + P{X = 2} + P{X = 3} + P {X = 4}= = 5 10 10 5 + + + = 0.9375 32 32 32 32 per k=3: P{2.5-3 1. 25 < X < 2.5+3 1. 25 } = P{-0.354 < X < 5.854} = = P{0 ≤ X ≤ 5} = 1. Come era da attendersi, i limiti che si ottengono con la disuguaglianza di Chebychev sono molto grossolani. Nelle pratiche applicazioni questo strumento viene raramente utilizzato. Il suo uso è riservato quasi esclusivamente a sviluppi teorici. Capitolo 4 ELEMENTI DI TEORIA DELLA STIMA PARAMETRICA 4.1 Introduzione Nell’ambito della Teoria delle Probabilità si suppone di conoscere esattamente le caratteristiche delle variabili casuali o popolazioni soggette a situazioni di incertezza. In altri termini, di ogni v.c. X, descrivente le caratteristiche di dati fenomeni, si suppone di conoscere la loro distribuzione probabilistica. In pratica, di un fenomeno descritto da X si conoscono solo un numero finito e limitato di informazioni ed utilizzando queste bisogna risalire ad alcune caratteristiche determinanti della popolazione. Nel seguito supporremo che le informazioni di cui si dispone siano solo di tipo campionario. Tali informazioni vengono utilizzate per inferire sulla popolazione o sulla variabile casuale da cui le informazioni sono state ottenute. L’inferenza è, quindi, una tipica procedura induttiva: risalire dal particolare (le informazioni raccolte su X e di cui si dispone) al generale (la popolazione o variabile casuale X oggetto di analisi) con tecniche messe a punto dalla statistica. D’altra parte, quando si parla di informazioni parziali o campionarie è necessario specificare il tipo di campione che si prende in considerazione dato che questo influenza in modo decisivo le conclusioni che vengono prese sulla popolazione o v.c. E’ evidente che bisogna possedere un campione che sia rappresentativo della v.c. e non delle aspirazioni soggettive del ricercatore. Per evitare gli inconvenienti legati alle aspirazioni soggettive degli operatori, nella formazione del campione bisogna affidarsi a procedure neutrali cioè a metodi che prescindono da influenze personali. Il modo più semplice per ottenere tali campioni, come accennato all’inizio del corso, è di considerare campioni casuali, cioè campioni costruiti in modo tale che ogni unità della popolazione abbia la stessa probabilità di fare parte del campione. E’ utilizzando campioni casuali che verrà costruita la teoria della sti- Capitolo 4 114 ma, quella del test delle ipotesi e la teoria della regressione così come verranno illustrate nei capitoli seguenti. Infatti, nel seguito, quando si parlerà di campioni ci si riferirà esclusivamente a campioni casuali. 4.2 La stima parametrica L’importanza dell’inferenza risiede nella necessità e possibilità di costruire un modello per la popolazione a partire dal campione su di essa osservato in modo da potere capire quale è la struttura o alcuni aspetti importanti della struttura della popolazione. A tale proposito supponiamo di avere un fenomeno aleatorio descritto dalla v.c. X con funzione di densità (nel caso continuo) o distribuzione di probabilità (nel caso discreto) f(x; θ) ove la funzione f( .) si suppone nota mentre θ è il parametro incognito da stimare (da cui il nome di stima parametrica) utilizzando le informazioni campionarie che si hanno su X. Naturalmente, θ può anche essere, e spesso lo è, un vettore di k parametri incogniti: θ = (θ1 , θ2 , ..., θk ) Esempio 1 a) Supponiamo che il fenomeno X sia distribuito come una v.c. Normale, cioè X~N(µ, σ 2). In tale caso f( .) è data da f(x; µ, σ2) = 1 2πσ 2 1 exp − ( x − µ ) 2 2 2σ ed è nota a meno del vettore composto da due parametri θ = (µ, σ 2). b) Supponiamo che il fenomeno X si distribuisca come una v.c. Binomiale, cioè risulta X~B(N, p). In tal caso f( .) è data da N p(x) = x p x (1-p) N - x, x = 0 ,1, 2, ..., N che è nota a meno del vettore di parametri θ = (N, p). c) Supponiamo che il fenomeno di interesse X si distribuisca come una v.c. di Poisson, cioè sia X~P( λ). In tal caso f( .) è data da Elementi di teoria della stima parametrica p( x ) = che è nota a meno del parametro θ =λ. 115 λ x e −λ , x=0, 1, 2,... x! Il nostro problema, come già detto in precedenza, consiste nel valutare quanto vale (nella terminologia statistica stimare ) il parametro incognito θ, nota la forma di f( .), sulla base di un campione casuale estratto da X. Inoltre, si vuole che la stima così ottenuta sia accettabile , cioè soddisfi un certo numero di proprietà ritenute indispensabili. Sia quindi X~f(x; θ) ed x = (x 1 , x2 , ..., xn ) un campione estratto bernoullianamente (cioè con rimessa ) da X. Se si ripete l’operazione di campionamento x varia al variare del campione e descrive la v.c. n-pla: X = (X1 , X2 , ..., Xn ) detta v.c. campionaria. Dato che l’estrazione è fatta con rimessa le v.c. X1 , X2 , ..., Xn sono fra di loro indipendenti ed inoltre, per quanto abbiamo illustrato nel paragrafo 2.2, hanno tutte la stessa distribuzione coincidente con quella della popolazione da cui sono state estratte: Xi ~ f(x i ; θ), i = 1, 2 ,..., n Questo vuole dire che la v.c. campionaria ha la distribuzione di probabilità X = (X1 , X2 , ..., Xn ) ~ f(x 1 ; θ) f(x 2 ; θ) ... f(x n ; θ) = n = ∏ f(x i ; θ) i =1 Naturalmente, qualsiasi sia il parametro da stimare la sua stima, che indichiamo con θ̂ , sarà sempre una funzione del campione: θ̂ = dn ( x ) = d(x 1 , x2 , ..., xn ) Al variare del campione θ̂ varia e descrive una v.c. che prende il nome di stimatore di θ: θ̂ = dn ( X ) = d(X1 , X2 , ..., Xn ) (notare che, per semplicità, per la stima e lo stimatore utilizziamo, impropria- 116 Capitolo 4 mente, lo stesso simbolo) la cui distribuzione, note la forma funzionale di f( .) e dn ( .), è teoricamente derivabile. 4.3 Cenni di teoria delle decisioni Vediamo di affrontare in questo paragrafo il problema della stima da un punto di vista molto generale. D’altra parte, abbiamo già accennato al fatto che stimare vuole dire valutare in base all’esperienza (il campione) quanto vale un qualche cosa (i parametri). Questo vuole dire che quando si stima un parametro incognito non si fa altro che prendere una decisione su quel parametro mescolando informazioni a priori e informazioni campionarie. Vediamo, perciò, c ome il problema di stima può essere affrontato utilizzando la teoria delle decisioni statistiche di cui nel seguito si daranno brevi cenni. A tale proposito supponiamo di avere un fenomeno descritto dalla v.c. X di cui si conosce la sua funzione di densità (o se discreta la sua distribuzione di probabilità) a meno di un parametro θ. Supponiamo che tale funzione di densità sia data da f(x ; θ) con θ parametro incognito. Il problema è stimare θ utilizzando l’informazione sulla funzione di densità di X e le informazioni campionarie ottenute da X. Per fare questo definiamo: - l’insieme degli stati di natura o insieme parametrico: Ω, definito da tutti i possibili valori che θ può assumere - la variabile casuale campionaria: Xn = (X1 ,..., Xn ) ottenuta da X con rimessa - la funzione di decisione (o stimatore ) : dn = d(X1 ,..., Xn ) - l’insieme delle azioni : D, definito da tutte le possibili decisioni dn - la funzione di perdita: l(d ; θ) che misura il costo che bisogna sopportare se si sceglie la decisione dn e si verifica θ - la funzione di rischio: R(dn ; θ) = E[l(dn ; θ) ] che rappresenta la perdita media. Questo ci permette di giudicare uno stimatore non da come si comporta in un dato campione, ma su tutti i possibili campioni che possono essere estratti da X. Utilizzando questi elementi, è necessario definire una regola, logicamente corretta, che ci permetta di scegliere in D la decisione d * ottimale in qualche senso. Una regola di decisione accettabile potrebbe essere la seguente: si sceglie d * tale che sia Elementi di teoria della stima parametrica R ( d * ; θ ) ≤ R ( d ; θ ) R ( d * ; θ ) < R ( d ; θ ) 117 per ogni θ ∈ Ω per almeno un θ ∈ Ω La figura seguente illustra il caso in cui è D ={d1 , d2 , d3} ove la decisione d3 è quella preferibile dato che, qualsiasi sia θ∈Ω, il relativo rischio è inferiore a quello delle altre due decisioni possibili. Per poter calcolare R(dn ; θ) è necessario conoscere la forma funzionale di l(dn ; θ). Nelle pratiche applicazioni si considera, per la sua semplicità di calcolo e per alcune proprietà statistiche che possiede, la seguente l(dn ; θ) = (dn - θ) 2 che viene anche chiamata perdita quadratica, oppure l(dn ; θ)= d n − θ Entrambe le perdite sopra definite sono nulle se la decisione presa coincide con il parametro incognito, mentre crescono quanto più dn e θ divergono. La regola di decisione sopra riportata ci permette di effettuare un parziale ordinamento sull’insieme delle decisioni D dato che vi sarà un sotto insieme, diciamo D*⊂ D che soddisferà la regola di decisione e D* potrà contenere anche infiniti elementi. L’insieme D* viene detto insieme delle decisioni ammissibili rispetto alla funzione di perdita utilizzata. Capitolo 4 118 È chiaro che si è interessati non a D, ma a D* ed al modo come scegliere una sola decisione (stimatore ) da D*. Naturalmente, se D* contiene un solo d* questa è la decisione (stimatore ) ottimale di θ. Se D* contiene più di un elemento risulta impossibile, a meno di non introdurre altre condizioni, derivare la decisione ottimale. Anche se esiste uno stimatore ottimo d *, secondo la regola di decisione considerata, può succedere che sia d * = g(Xn ; θ), cioè lo stimatore ottimo risulti funzione del parametro incognito che si vuole stimare per cui d * ha poco o punto utilità pratica. Esistono diverse strategie che permettono di superare le difficoltà prima segnalate, qui di seguito accenniamo ad alcune. METODO DEL MINI-MAX Consiste nel considerare come stimatore di θ quella decisione d * tale che sia max R(d *; θ) = min max R(d ; θ), θ d θ * cioè si sceglie quello stimatore d il cui rischio massimo è più piccolo dei massimi di tutti gli altri stimatori. Questo metodo ha l’inconveniente di focalizzare l’attenzione su un punto specifico: i massimi dei diversi rischi, per cui si può presentare una situazione simile a quella della figura seguente. In tal caso il principio ci porta a scegliere la decisione d2 anche se d1 è nettamente preferibile per quasi tutti i θ esclusi quelli di un intorno di θ * in cui il rischio di d1 è di poco superiore a quello di d2 . In ogni caso, questo metodo è molto utile per alcune sue implicazioni teoriche e per i legami che ha con altri approcci. METODO DELL'AREA MINIMA Consiste nel considerare come stimatore di θ quel d * tale che Elementi di teoria della stima parametrica A(d *) = ∫ R(d * ; θ) d θ= min Ω d ∈D ∫ 119 R(d ; θ) d θ Ω Cioè quello stimatore d * il cui rischio, al variare di θ, ha area minima. Questo metodo di stima ha il limite di individuare come stimatore ottimale stimatori che da un punto di vista intuitivo si è portati a considerare poco accettabili come illustrato nella figura che segue in cui, se è A(d1 ) = ∞ e A(d2 ) < ∞ si sceglie con questo metodo d2 anche se, intuitivamente, si è portati a preferire d1 . METODO DELLE PROPRIET À OTTIMALI La logica di questo principio è quella di considerare, come stimatori di θ, quelle decisioni dn che soddisfano alcune proprietà ottimali. In altri termini, al posto di D si considera un suo sotto insieme, D*, di modo che le decisioni appartenenti a D* soddisfano alcune condizioni di ottimalità. Una volta fissate queste proprietà si elaboreranno dei metodi di stima che, automaticamente, sotto date condizioni più o meno restrittive, posseggono alcune di quelle proprietà. Ciò permette di elaborare stimatori con date proprietà senza che debbano, di volta in volta, essere verificate. 4.4 Alcune proprietà ottimali degli stimatori La stima di θ sarà accettabile se il relativo stimatore θ̂ soddisfa una o più proprietà ritenute importanti. In questo paragrafo illustreremo brevemente a lcune di queste proprietà ottimali. SUFFICIENZA Data la v.c. X con f.d. o distribuzione di probabilità f(x ; θ), con θ inco- Capitolo 4 120 gnito e da stimare, sia X=(X1 ,..., Xn ) la v.c. campionaria estratta da X e d( X) = d lo stimatore di θ. È evidente che nel passaggio dalla v.c. campionaria n-pla X = (X1 ,..., Xn ) alla v.c. semplice d = d( X) si possono perdere informazioni su θ. Uno stimatore d( X) è sufficiente se possiede le stesse informazioni che X=(X1 ,..., Xn ) ha su θ. Ciò vuole dire che fra tutti i possibili stimatori di θ bisogna prendere in considerazione, se esistono, solo quelli che non disperdono alcuna informazione che il campione ha sul parametro incognito che si vuole stimare. Esempio 2 Se il parametro da stimare è µ e X=(X1 ,..., Xn ) la v.c. campionaria, è evidente che m d1 = ∑ i=1 con m < n Xi, è meno informativo su µ di quanto non lo sia n d2 = ∑ i=1 Xi . Questo concetto viene formalizzato nella definizione seguente d( X) è uno stimatore sufficiente per il parametro θ se e solo se la distribuzione condizionata ( X|d( X) = d) è indipendente da θ per ogni d. Da questa definizione segue immediatamente che se d è sufficiente per θ, quello che rimane di X dopo la sintesi, cioè ( X|d( X) = d), non possiede altre informazioni sul parametro incognito θ. Un modo semplice per stabilire se uno stimatore d( X) sia sufficiente per il parametro θ è di utilizzare, piuttosto che la definizione precedente, che da un punto di vista operativo è piuttosto complessa, il seguente teorema riportato senza dimostrazione. Teorema (di fattorizzazione) Sia d(X) uno stimatore di θ∈Ω, condizione necessaria e sufficiente perché Elementi di teoria della stima parametrica d(X) sia sufficiente per θ è che sia f(x 1 ,x 2 ,…,x n ; θ) = f(x ;θ) = 121 n ∏ i=1 f(x i ; θ) = g[d(x) ; θ] h(x) ove g[d(x) ; θ] dipende da θ e dalle osservazioni campionarie solo tramite d(x), mentre h(x) è indipendente da θ. Come corollario a questo teorema si può dimostrare che se θ̂ = d(X) è sufficiente per θ, allora essa è l’unica statistica sufficiente per θ, ad eccezione di una qualsiasi funzione di d(X), con una corrispondenza uno ad uno, che è ancora sufficiente per θ. L’importanza di questo risultato risiede nel fatto che se esiste uno stimatore sufficiente (cioè che non disperde le informazioni contenute nel campione) per θ allora esistono infiniti stimatori sufficienti date da tutte le sue trasformazioni biunivoche. Questo vuole dire che la sola sufficienza non basta per caratterizzare uno stimatore come accettabile, ma è necessario prendere in considerazione anche altre possibili proprietà. Funzioni che non sono in corrispondenza uno ad uno con uno stimatore sufficiente possono, in particolari casi, essere ancora sufficienti. La definizione di sufficienza ed il teorema di fattorizzazione possono essere estesi al caso di un vettore θ di k parametri, ma questo problema non verrà affrontato in queste lezioni. Notare che, dato il parametro θ da stimare e la v.c. campionaria X=(X1, .., Xn ), esiste sempre uno stimatore detto ordinamento statistico, ( X ( 1 ) ≤ ... ≤ X ( n ) ) ottenuto ordinando in senso non decrescente le n osservazioni campionarie (x 1, .., x n ), che è sufficiente per il parametro o il vettore di parametri. In pratica, si cerca di individuare la statistica sufficiente minimale cioè quel vettore di dimensione m < n e possibilmente con m = 1 nel caso di un singolo parametro, che contenga le stesse informazioni che ha l’ordinamento statistico su θ. Ricordiamo che l’ordinamento dei dati l’abbiamo più volte utilizzato nella statistica descrittiva ed in particolare nel calcolo dei quartili e nella concentrazione. Esempio 3 Supponiamo di avere un fenomeno X distribuito come una v.c. di Poisson con parametro λ incognito. Si vuole derivare uno stimatore sufficiente per λ a partire dal campione casuale x = (x 1 ,..., xn ) estratto da X. In questo problema risulta θ = λ e Capitolo 4 122 λ x e −λ x! p(x ; λ) = e quindi, utilizzando il teorema di fattorizzazione, avremo p(x 1, x2, ..., xn ; λ) = n ∏ p(x i ; λ) = i =1 n ∏ i =1 λx i e −λ = xi ! λ∑ i e −nλ x 1 ! x 2 !... x n ! x = in cui si può identificare d(x) = n ∑ x i ; h(x) = i =1 1 ; x 1 ! x 2 !... x n ! g[d(x ) ; λ] = λd ( x ) e −nλ Questo vuole dire che lo stimatore n d(X) = è sufficiente per λ, ma lo è anche lo stimatore λ̂ = ∑ i =1 Xi 1 1 n d(X) = X n i =1 i n ∑ essendo una trasformazione lineare, e quindi biunivoca, di d(X). Si noti che in questo caso λ̂ è la media campionaria delle osservazioni. Si noti che dato un generico θ relativo a X ~ f(x ; θ) e la v.c. campionaria (X1 ,..., Xn ), spesso non si riesce a ricavare, ma molte volte non esiste, uno stimatore sufficiente per θ e quando esiste non è unico. Una implicazione di questa osservazione è che la sola sufficienza non basta per rendere uno stimatore accettabile. NON DISTORSIONE Una proprietà molto importante di uno stimatore è la non distorsione: data la v.c. X~f(x ;θ), con θ incognito, lo stimatore dn (X) = d(X1 ,..., Xn ) è non distorto per θ se E[dn (X)] = θ, qualsiasi sia n. Elementi di teoria della stima parametrica 123 In altri termini, d(X) è non distorto per θ se il baricentro della sua distribuzione coincide proprio con θ, cioè d(X) non sovrastima né sottostima, in m edia, il parametro o il vettore di parametri di interesse. La non distorsione non è invariante, in generale, sotto trasformazioni funzionali per cui anche se d(X) è non distorto per θ, di solito, g(d(X)) è distorto per g(θ). Notare che la sola non distorsione non basta per rendere accettabile uno stimatore dato che possono esistere stimatori non distorti ma del tutto inaccettabili come si mostra nell’esempio che segue. Esempio 4 Sia data la v.c. X~f(x ; µ), con µ la media incognita di X. Sia x = (x 1 ,..., xn ) un campione estratto da X, consideriamo gli stimatori: µ̂ = 1 n X = X; n i =1 i ∑ µ̂( i ) = Xi , i=1, ..., n mostriamo che tutti questi stimatori sono non distorti. Infatti, si ha: 1 n 1 n Xi = E(Xi ) = µ E( µ̂ ) = E n i =1 n i =1 ∑ ∑ E( µ̂( i ) ) = E(Xi ) = µ , i = 1, ..., n che dimostra quanto avevamo asserito. Notare che µ̂ è la media campionaria. Si può dimostrare che se uno stimatore possiede entrambe le proprietà che abbiamo illustrato fino ad ora: sufficienza e non distorsione allora è lo stimatore ottimale per il parametro incognito nel senso che la sua variabilità è la più piccola possibile. Abbiamo visto che uno stimatore dn (X) dipende, oltre che dalle caratteristiche delle v.c. Xi , anche dalla numerosità n. Può capitare che dn (X) sia distorto ma che tale distorsione diventi sempre più piccola al crescere di n. In tal caso diremo che lo stimatore dn (X) è asintoticamente non distorto per θ se risulta lim E[dn (X)] = θ n→∞ Capitolo 4 124 Naturalmente, uno stimatore non distorto è sempre asintoticamente non d istorto. Se uno stimatore è distorto se ne può misurare la distorsione Dn = E( θ̂ ) - θ. Dn tende a zero se lo stimatore è asintoticamente non distorto, mentre è identicamente pari a zero se è non distorto. Se è Dn > 0 lo stimatore sovrastima s istematicamente il parametro incognito, viceversa se è Dn < 0 lo sottostima s istematicamente. EFFICIENZA Sia X~f( x ; θ) con θ parametro incognito, sia X = (X1 , X2 , ..., Xn ) la v.c. campionaria ottenuta da X e dn ( X ) uno stimatore di θ. La quantità E[(dn (X) - θ) 2] prende il nome di errore quadratico medio (spesso siglato con MSE) dello stimatore dn ( X ). Risulta immediatamente: E[(dn ( X ) -θ) 2] = E{[dn ( X ) - E(dn ( X )) + E(dn ( X )) - θ] 2} = 2 = E{[(dn ( X ) - E(dn ( X ))) + Dn ] }= 2 = E{[dn (X) - E(dn (X))] + D n2 +2[dn ( X )-E(dn ( X ))] Dn }= 2 = E{[dn (X) - E(dn (X))] } + D n2 } + 2Dn E[dn ( X )-E(dn ( X ))] = var(dn ( X )) + D n2 ove nell’ultima espressione si è tenuto conto del fatto che la media degli scarti dalla media è sempre nulla. In definitiva abbiamo che, qualsiasi sia lo stimatore dn ( X ) di θ risulta sempre MSE(dn ) = var(dn ( X )) + D n2. In altri termini, MSE(dn ) è la somma di due addendi: - la varianza dello stimatore: var(dn ) Elementi di teoria della stima parametrica 125 - la distorsione al quadrato dello stimatore: D n2 = [E(dn)-θ] . 2 Come si può notare, a parità di altre condizioni, MSE decresce al decrescere della distorsione e coincide con la varianza nel caso in cui lo stimatore è non distorto. Quanto detto ci porta a restringere la classe degli stimatori a quelli non distorti e all’interno di questa ricercare quello, se esiste, che ha varianza minima. Gli stimatori che sono non distorti e con varianza minima fra quelli non distorti vengono chiamati efficienti o anche stimatori UMVU (Uniformly Minimum Variance Unbiased). Fra le altre cose, si può dimostrare che se dn(X) è non distorto e sufficiente per θ allora è anche UMVU. Ma risulta anche che non sempre esistono stimatori non distorti di un parametro θ che si vuole stimare. E quindi non sempre esistono stimatori efficienti. Esempio 5 Supponiamo di avere una popolazione X che assume i tre valori seguenti 1, 2, 3 e quindi possiede la seguente distribuzione di frequenza xi fi 1 1/3 2 1/3 3 1/3 Tot 1 In tal caso risulta immediatamente µx= 2, σ x2 = 2 / 3 . Vogliamo stimare il parametro θ=µx utilizzando i risultati di un campione estratto bernoullianamente di ampiezza n=2. La v.c. campionaria X=(X1, X2), costituita da tutti i possibili campioni che si possono estrarre da X, assume in tal coso le seguenti 9 coppie di valori (1, 1) (1, 2) (1, 3) (2, 1) (2, 2) (2, 3) (3, 1) (3 2) (3, 3) che implicano la seguente variabile casuale campionaria doppia X = (X1, X2) x1\x2 1 2 3 p.j 1 1/9 1/9 1/9 1/3 2 1/9 1/9 1/9 1/3 3 1/9 1/9 1/9 1/3 pi. 1/3 1/3 1/3 1 Come si può notare, le marginali X1 e X2 della v.c. campionaria hanno la stessa distribuzio- Capitolo 4 126 ne della popolazione X ed inoltre sono indipendenti dato che risulta pi j = pi. p.j equivalente a 1/9=(1/3)( 1/3) per ogni i e j. Per stimare µ usiamo le seguenti 6 funzioni della v.c. campionaria: ˆ 1 = X1 ; µ ˆ 2 = min( X 1 , X 2 ) ; µ ˆ 3 = max( X 1 , X 2 ) ; µ ˆ 4 = ( X1 + X 2 ) ; X = ( X 1 + X 2 ) /2 ; µ 6 = µ X1 X 2 ed otteniamo per ciascuno i valori che possono assumere µ̂1 1 1 1 2 1 1 µ̂ 2 µ̂ 3 µ̂ 4 X µ̂ 6 1 1 2 3 1,5 1 1 3 4 2 2 1 2 3 1,5 2 3 2 2 2 2 4 2 2 2 2 3 5 2,5 3 1 3 4 2 3 2 3 5 2,5 6 3 6 3 3 3 6 3 3 che implicano le seguenti 6 v.c. per ciascuno degli stimatori considerato µ̂1 xi 1 2 2 µ̂ 2 pi 1/3 1/3 1/3 xi 1 2 3 µ̂ 3 pi 5/9 3/9 1/9 1 xi 1 2 3 1 µ̂ 4 µ̂ 6 X pi 1/9 3/9 5/9 xi 2 3 4 pi 1/9 2/9 3/9 xi 1 1,5 2 pi 1/9 2/9 3/9 1 5 6 2/9 1/9 2,5 3 2/9 1/9 1 1 xi 1 2 3 2 6 3 pi 1/9 2/9 2/9 1/9 2/9 1/9 1 Nella tabella che segue riportiamo la media, la varianza e l’errore quadratico medio (MSE) per ciascuno dei 6 stimatori che abbiamo derivato Stimatore Media Varianza MSE µ̂1 2 0,6666 0,6666 µ̂ 2 1,5555 0,4691 0,6666 µ̂ 3 µ̂ 4 2,4444 0,4691 0,6666 4 1,3333 5,3333 µ̂ 6 X 2 1,9101 0,3333 0,3512 0,3333 0,3593 Si nota così che i due stimatori µ̂1 e X sono non distorti, ma che X è il più efficiente dei 6 Elementi di teoria della stima parametrica 127 dato che il suo MSE è il più piccolo. Osserviamo che X è la v.c. media campionaria cioè la media costruita sulla v.c. campionaria X =(X1, X2). Esempio 6 Nell’esempio 3 abbiamo visto che se X~P( λ) con λ incognita, uno stimatore sufficiente di λ è dato da 1 n X . n i =1 i ∑ λ̂ = X = D’altro lato risulta 1 E( λ̂ ) = E n n n 1 ∑ X i = n ∑ i =1 i =1 E(Xi) = 1 n λ=λ. n i =1 ∑ Questo vuole dire che λ̂ è non distorto e sufficiente per λ e quindi efficiente. Dato che non sempre esistono stime UMVU si è cercato di costruire stimatori sotto condizioni meno restrittive. La definizione seguente serve a tale scopo Si dice che dn (X) è efficiente asintoticamente per θ se per ogni altro stimatore d n* (X) questi sono entrambi asintoticamente non distorti e risulta [ lim E n ( d n ( X ) − θ ) n →∞ ] 2 < lim E n →∞ [ n( d * n( ] 2 X ) − θ ) , per ogni θ∈Ω. In termini meno precisi, possiamo dire che dn (X) è asintoticamente efficiente per θ se la sua variabilità tende a zero più rapidamente della variabilità di qualsiasi altro stimatore d n* ( X ) . Infine, diciamo che dn (X) è più efficiente di d n* ( X ) se EFR = MSE( d n ) MSE( d *n ) <1 Quest’ultima formula permette di calcolare l’efficienza relativa fra due stimatori. Si osservi che nel caso in cui dn e d n* sono entrambi non distorti si ottiene più semplicemente Capitolo 4 128 EFR = var( d n ) var( d n* ) CONSISTENZA Abbiamo visto che non sempre si riesce a costruire stimatori UMVU per un parametro di interesse sia perché non si riesce ad individuare uno stimatore non distorto, sia perché spesso riesce difficile mostrare che questo è sufficiente. Per ottenere stimatori con qualche proprietà ottimale si è spesso costretti a r ichiedere che soddisfino almeno qualche proprietà asintotica, quella più rilevante da un punto di vista pratico è la consistenza: lo stimatore dn (X) è consistente in media quadratica a g(θ) se lim E[(dn (X) - g(θ))2] = 0; per ogni θ∈Ω n→∞ Questa definizione implica che dn (X) è consistente per g(θ) in media quadratica se contemporaneamente è lim var(dn (X)) = 0; lim Dn (g(θ)) = 0 n→∞ n→∞ Naturalmente, nel caso in cui dn (X) è non distorto per g(θ) la definizione di consistenza in media quadratica diviene lim var(dn (X)) = 0 n→ ∞ Da un punto di vista grafico, la consistenza è illustrata nella figura seguente Elementi di teoria della stima parametrica 129 Esempio 7 Data una v.c. X~f(x; µ), con σ2< ∞ , abbiamo visto che X è non distorta per µ inoltre, tenendo conto che le Xi sono v.c. indipendenti, risulta 1 n 1 var( X ) = var X i = 2 n i =1 n ∑ n ∑ i =1 1 n2 var(Xi ) = n ∑ σ2= i =1 σ2 n e quindi X è uno stimatore consistente in media quadratica per la media µ. Esempio 8 Data una v.c. X~f(x ; µ , σ2) dimostriamo che S2= 1 n n ∑ (X i − X )2 i =1 è uno stimatore asintoticamente non distorto e consistente per σ 2. Sappiamo che X è uno stimatore non distorto e consistente per µ. In particolare si ha σ2 2 2 2 = var( X ) = E( X 2 ) - [E( X )] = E( X ) - µ n da cui si ricava E( X 2) = D’altra parte abbiamo 1 E(S 2) = E n = 1 n n ∑ σ2 +µ2 n n i =1 ∑ X i2 − X 2 = E(X i2 ) - E( X 2) = i =1 1 n n ∑µ 2 −E (X 2 i= e sostituendo in questa espressione quella ricavata per E( X 2) si ottiene E(S 2) = µ2 - σ2 σ 2 n −1 2 -µ2=σ2= σ n n n ) Capitolo 4 130 che dimostra come S2 sia uno stimatore asintoticamente non distorto per σ 2. S2 viene detta varianza campionaria . Da questo risultato è facile verificare che 1 n 2 ( Xi − X) n − 1 i =1 ∑ s2= è uno stimatore non distorto per σ 2. Inoltre si ha var(S 2) = E[(S 2) 2] - [E(S 2)] 2 = E[(m2 - m12 ) 2] - [E(S 2)] 2 = = E(m 22 ) - 2E(m2 m 12 ) + E(m 14 ) - ( n −1 ) 2 4 σ n2 ove con mr = 1 n X ir n i =1 ∑ si è indicato il momento campionario r-esimo. E dopo alcuni passaggi algebrici si può dimostrare che è n − 3 ( n −1) 2σ 4 var(S 2) = γ 2 + 3 − 3 n −1 n Questo implica che S 2 è consistente, in media quadratica per σ 2. Ovviamente anche s 2 sarà consistente in media quadratica per σ 2. Esempio 9 Data la v.c. doppia (X,Y) da cui è estratto il campione casuale (Xi , Yi ), i=1, 2 ,...,n , il coefficiente di correlazione campionario, come stimatore della correlazione ρ di (X,Y), è dato da n r= ∑ ( X i − X )( Yi − Y ) i =1 ∑ Si può dimostrare che 12 n n 2 ( Yi − Y ) 2 ( Xi − X ) i =1 i =1 ∑ Elementi di teoria della stima parametrica 131 lim var( n r) = (1-ρ2) 2 n→∞ e quindi r è uno stimatore consistente di ρ. 4.5 Alcuni metodi di costruzione delle stime Nei paragrafi precedenti abbiamo illustrato alcune proprietà ottimali che uno stimatore deve possedere per essere considerato accettabile. Inoltre, ricorrendo all’errore quadratico medio, o alla varianza per gli stimatori non distorti, si è elaborata una procedura capace di discriminare fra diversi stimatori. In questo paragrafo illustreremo i metodi di stima più utilizzati nelle pratiche applicazioni che ci permettono di ottenere, automaticamente e sotto specificate condizioni, stimatori che posseggono alcune delle proprietà analizzate. In sintesi, i metodi di stima che verranno presi in considerazione sono: (a) metodo dei momenti (b) metodo dei minimi quadrati (c) metodo della massima verosimiglianza In fine, tratteremo brevemente della distribuzione di probabilità di alcuni dei più noti stimatori. In questo ambito presenteremo due tecniche basate sul riuso del campione (il jackknife ed il bootstrap) per ottenere informazione sulla distribuzione di probabilità degli stimatori. METODO DEI MOMENTI Questo metodo di stima è il più semplice da applicare ed è quello che, per la sua utilizzazione, richiede un numero limitato di condizioni. Infatti, per utilizzarlo non è necessaria la conoscenza della distribuzione della popolazione su cui si vuole fare inferenza, ma solo delle informazioni sulla struttura di alcuni dei suoi momenti. In pratica, questo metodo di stima viene applicato quando non è possibile ricorrere ad altri più precisi e potenti. La sua logica può essere illustrata nel modo seguente. Data la popolazione X~f(x ; θ ) con θ = (θ1 ,…,θk ) vettore di parametri incogniti e da stimare. Siano +∞ µr = ∫ x r f(x ; θ) dx , r =1,2,...,k −∞ i primi k momenti teorici della popolazione X che si suppone esistano finiti. Naturalmente tali momenti sono funzione dei parametri incogniti θ , cioè Capitolo 4 132 µr = µr (θ θ ), r=1,2,...,k Il problema che ci si pone è quello di stimare il vettore dei parametri θ a partire dalla v.c. campionaria X = (X1 ,…, Xn ) estratta da X. Se si suppone di c oθ ), r =1, 2, …, k , indicando con noscere la forma funzionale µr (θ 1 n X ir , r = 1 , 2 ,…, k n i =1 i momenti campionari, uno stimatore di θ può essere ottenuto risolvendo rispetto a θ il seguente sistema di k equazioni in k incognite mr = ( ∑ µ1( θ ) = m 1 µ ( θ ) = m 2 2 .......... ......... µ k ( θ ) = m k ) Se indichiamo con θ̂θ = θˆ 1 ,....,θˆ k una soluzione del sistema, questa rappresenta uno stimatore di θ ottenuto con il metodo dei momenti. Esempio 10 Se X=(X1 ,…, Xn ) è la variabile campionaria generata da un campione casuale estratto da una qualsiasi v.c. X si ha 1 n µ1 = Xi = X n i =1 ∑ e quindi m1 = X è lo stimatore della media, se esiste, della v.c. X ottenuto con il metodo dei momenti. Un limite del metodo dei momenti è che bisogna, a priori, conoscere i legami che esistono fra i parametri da stimare ed i momenti della v.c. di cui si vogliono stimare i parametri. L’uso di questo metodo di stima non richiede la conoscenza della distribuzione della v.c., ma solo quella della forma funzionale dei primi k momenti in funzione dei parametri che vogliamo stimare. Inoltre, è un metodo di stima facilmente applicabile e quindi può essere utilizzato per g enerare stime preliminari. Il sistema da risolvere è, in generale, non lineare ed ammette spesso più di una soluzione; in tali casi è necessario utilizzare un qualche criterio di scelta come l’errore quadratico medio.Si può dimostrare che gli stimatori ottenuti con il metodo dei momenti sono, in generale, distorti. Si può dimostrare che se la v.c. X di cui vogliamo stimare i parametri ammette i momenti fino all’ordine k, gli stimatori ottenuti con il metodo dei mo- Elementi di teoria della stima parametrica 133 menti sono consistenti. Esempio 11 Data una qualsiasi v.c. X con i primi due momenti finiti, si voglia stimare media e v arianza di tale v.c. utilizzando il metodo dei momenti. Dato che è µ1 = µ e µ2 = µ 2 + σ 2 si ottiene il sistema seguente µ = m1 2 2 µ + σ = m 2 da cui si ricava µ̂ = X σ̂ 2 = 1 n n 1 n ∑ X i2 − X 2 = n ∑( X i − X ) 2 = S 2 i =1 i =1 e, come è ben noto, X è non distorto e consistente per µ, mentre σ̂ 2 è consistente ed asintoticamente non distorto per σ 2. Ricordiamo che lo stimatore non distorto di σ 2 s2= 1 n ( Xi − X )2 n − 1 i =1 ∑ non è uno stimatore dei momenti. Con il metodo dei momenti si può ottenere, facilmente, lo stimatore di qualsiasi momento della v.c. X senza conoscere la forma funzionale della f.d. di X. Infatti, lo stimatore dei momenti di µr , se esiste, è dato da mr = µ̂ r = 1 n r X n i =1 i ∑ che risulta essere non distorto e consistente per µr . METODO DEI MINIMI QUADRATI Questo metodo, che viene fatto risalire a Gauss, è largamente utilizzato per la stima dei parametri specie nell’ambito della modellistica econometrica. Il suo successo e la sua conseguente diffusione sono legati, sia ad alcune proprietà che i relativi stimatori, in date circostanze, posseggono, sia alla sua facilità di applicazione. Capitolo 4 134 Per illustrare la logica di tale metodo supponiamo di avere la v.c. X, la cui distribuzione di probabilità dipende dal parametro θ da stimare, e la v.c. campionaria X = (X1 ,…, Xn ) estratta da X. Supponiamo, inoltre, che sia E(X) = g(θ) In tali condizioni si ha E(Xi ) = g(θ θ ), i = 1 , 2 , ..., n questo implica che gli scarti ei = Xi - g(θ θ ), i = 1 , 2 , ..., n rappresentano le deviazioni dalla media che si riscontrano nelle osservazioni campionarie. Ovviamente risulta E(ei) = E(Xi ) - g(θ θ ) = 0, i = 1 , 2 , ..., n Da quanto abbiamo detto sembra naturale scegliere come stimatore di θ quel valore che minimizza la somma dei quadrati degli scarti, cioè n n i =1 i =1 ∑ e i2 = ∑ [X i − g( θ ) ]2 = min . θ Lo stimatore così ottenuto viene chiamato dei minimi quadrati (o anche LSE: Least Square Estimation). Questo metodo può essere facilmente generalizzato al caso in cui si vuole stimare un vettore di p parametri incogniti e le informazioni di cui si dispone non sono necessariamente indipendenti ed identicamente distribuite. Questo aspetto più generale lo tratteremo nell’ultimo capitolo quando illustreremo il modello di regressione. Per l’applicazione di questo metodo non è necessaria la conoscenza della d istribuzione della popolazione, ma solo la forma funzionale di E(Xi ) = gi ( ) Gli stimatori ottenuti con tale metodo sono, in generale, consistenti ma non i più efficienti. Esempio 12 Data la v.c. Y con distribuzione dipendente dal parametro θ e tale che sia E(Y) = θ ed Elementi di teoria della stima parametrica 135 E(Yi ) = θ, i=1,2,…,n, stimiamo θ con il metodo dei minimi quadrati. In tal caso si ha ∑ e i2 = ∑( Yi − θ ) 2 = min imo da cui si ricava d dθ ∑ e 2i = − 2 ∑( Yi − θ ) = 0 e lo stimatore LS per θ è dato da 1 θˆ = n ∑Y i =Y Notare che in questo caso è d2 dθ 2 ∑ e 2i = 2n > 0 e quindi effettivamente θ̂ minimizza la somma dei quadrati degli scarti. Notare che lo stimatore della media ottenuta con il metodo dei minimi quadrati coincide con quello ottenuto con il metodo dei momenti. METODO DI MASSIMA VEROSIMIGLIANZA Anche l’idea originaria di questo metodo di stima, pure in un contesto differente, pare sia da attribuire a Gauss anche se è stato Fisher ad investigarne le proprietà ed a divulgarlo. Gli stimatori generati da tale metodo vengono di solito indicati con MLE (Maximum Likelihood Estimators) ed hanno una grande rilevanza sia sul piano teorico che operativo dato che, generalmente, forniscono stimatori abbastanza accettabili per le numerose proprietà, spesso di tipo asintotico, che posseggono. L’uso di questo metodo di stima, a differenza di quanto accade con quello dei minimi quadrati, richiede la conoscenza della d istribuzione della v.c. di cui vogliamo stimare i parametri. Data la v.c. X con distribuzione di probabilità o funzione di densità f(x ; θ) nota a meno di θ, con θ ∈ Ω, la distribuzione di probabilità (nel caso discreto) o la funzione di densità (nel caso continuo) della v.c. campionaria X = (X1 , X2 , ..., Xn ) generata da n estrazioni bernoulliane da X è data da f(x 1 , x2 , ..., xn ) = f(x 1 ; θ) f(x 2 ; θ) ... f(x n ; θ) vista come funzione della n-pla x = ( x1 , x2 , ... , xn ). La stessa funzione si chiama funzione di verosimiglianza se vista come funzione di θ e si indica con Capitolo 4 136 n L(θ ; x) = ∏ f(x i ; θ) i =1 in questo caso (x 1 , x2 , ..., xn ) è noto e rappresenta gli n valori che il campione casuale ha effettivamente assunti. Notare che la funzione di verosimiglianza è funzione solo di θ ed è sempre non negativa dato che è il prodotto di n funzioni di densità. Data la v.c. X con distribuzione f(x ; θ ) nota a meno di θ su cui è stata c ostruita la funzione di verosimiglianza L(θ ; x), si chiama stimatore ML di θ quel θ̂ tale che n L(θ̂ ; x) = max L(θ ; x) = max θ∈Ω θ ∈Ω ∏ f(x i ; θ ) i =1 E' da notare che la definizione di stima ML è equivalente a L(θ̂ ; x) ≥ L(θ ; x), L(θ̂ ; x) > L(θ ; x), ∀ θ ∈ Ω; per almeno un θ; Se la v.c. X è discreta e quindi f(x i ; θ) = P(Xi = x i ; θ), risulta L(θ̂ ; x) = max P(X1 = x 1 , X2 = x 2 ,…, Xn = x n ; θ) θ ∈Ω e nella stima ML bisogna scegliere quel θ per cui è massima la probabilità che si presenti proprio il campione che è stato estratto. Se X è continua si ha f(x i ; θ)d x i = P(x i ≤ Xi < x i + d x i ; θ) che implica una interpretazione identica al caso discreto. Le definizioni sopra date, e le relative interpretazioni, continuano a valere anche quando θ è un vettore di parametri. Nella figura seguente è schematizzata l’individuazione della stima di massima verosimiglianza come individuazione del massimo assoluto nella funzione di verosimiglianza. Come abbiamo sottolineato, e come è illustrato nella figura che segue, nella scelta della stima ML non è importante quanto vale il massimo della funzione di verosimiglianza, ma dove questo è localizzato. Se invece di L(θ ; x) consideriamo il suo logaritmo, essendo la funzione logaritmo monotona crescente, i Elementi di teoria della stima parametrica 137 punti dove la funzione è massima o minima rimangono immutati. Questo vuole dire che L(θ ; x) e logL(θ ; x) forniscono esattamente la stessa stima ML. Spesso si preferisce ricercare le stime ML massimizzando logL(θ ; x) perché questo ne semplifica la procedura: l( θ ; x) = logL( θ ; x) = n ∑ log f(x i ; θ) i =1 * Riportiamo, senza dimostrazione, una serie di risultati che caratterizzano gli stimatori ML e ne giustificano il loro largo uso. Teorema Sotto condizioni molto generali risulta che: (a) se T è l’unica, a meno di trasformazioni uno ad uno, statistica sufficiente per θ e se θ̂ è lo stimatore ML di θ allora θ̂ è funzione di T; (b) se θ* è uno stimatore UMVU di θ allora lo stimatore ML è funzione di θ*; (c) θ̂ è l’unico stimatore ML consistente di θ; (d) gli stimatori ML sono asintoticamente normali; (e) se θ̂ è uno stimatore ML di θ allora g(θ̂ ) è uno stimatore ML di g( θ), qualsiasi sia la funzione g( ⋅). L’importanza del punto (e) sopra riportato è evidente dato che permette di ottenere stimatori ML, con le relative proprietà, come funzioni di altri stimatori ML. In particolare, se si vuole stimare g(θ) e questo è complicato, si può stimare θ con ML ottenendo θ̂ , che spesso risulta di più facile derivazione, e quindi Capitolo 4 138 risalire a g( θ̂ ) che è sicuramente uno stimatore ML di g( θ). I risultati stabiliti nel caso di stima ML di un solo parametro possono essere estesi, con qualche complicazione in più, al caso di più parametri. Esempio 13 Supponiamo che sia X ~ N(µ ; σ 2) con µ e σ 2 incogniti, si vuole stimare tali parametri con il metodo della massima verosimiglianza utilizzando il campione x = (x 1 ,…, xn ) estratto da X. Dato che 1 1 f(x ; µ , σ2) = exp − ( x − µ )2 2 2 2σ 2πσ la funzione di verosimiglianza risulta pari a L(µ , σ 2; x)= n ∏( 2πσ i =1 2 -n/2 = (2πσ ) 2 1 ) -1/2 exp − ( x i − µ )2 = 2 2σ 1 exp − 2 2σ ∑( x i − µ )2 e prendendone il logaritmo si ha n n 1 log(2π) − log(σ 2) − (x i − µ )2 2 2 2 2σ 2 Derivando quest'ultima espressione rispetto a µ e σ ed uguagliando a zero si ottiene il s eguente sistema di due equazioni in due incognite: ∑ log L(µ , σ2; x) = − 1 σ 2 ( x i − µ ) = 0 − n 1 + 1 ( x i − µ )2 = 0 2 σ 2 2σ 4 ∑ ∑ da cui, dopo alcuni semplici passaggi, si ottengono gli stimatori ML Elementi di teoria della stima parametrica 139 ˆ 1 Xi = X µ = n σˆ 2 = 1 ( X − X ) 2 = S 2 i n ∑ ∑ che, in questo caso particolare, coincidono con quelli dei momenti. Se le osservazioni x i , i=1,2,…,n, pur essendo indipendenti non sono identicamente distribuite, e quindi la distribuzione di Xi è fi (x i ; θ), allora la funzione di verosimiglianza diviene L( θ ; x) = n ∏ fi (x i ; θ) i =1 e le proprietà degli stimatori ML non risultano più vere, in particolare non è vero neanche che tali stimatori sono, in generale, consistenti. 4.6 La distribuzione di probabilità di alcuni stimatori campionari Prima di entrare nel merito delle tecniche che presenteremo, notiamo che nell’inferenza statistica si possono, schematicamente, individuare due momenti distinti: I Il momento della stima di una quantità statistica II Il momento della valutazione delle proprietà della quantità statistica stimata L’ambito in cui ci muoveremo in questo e nel prossimo paragrafo è essenzialmente il II: valutare le proprietà statistiche di una quantità stimata con uno dei metodi disponibili. In questo paragrafo l’attenzione è rivolta ad alcuni semplici metodi analitici utilizzabili per derivare la distribuzione di alcuni stimatori come quelli della media, della varianza, della correlazione, mentre nel prossimo tratteremo di due procedure numeriche basate su particolari tecniche di ricampionamento dei dati osservati per derivare la distribuzione, praticamente, di tutti gli stimatori che si incontrano nelle applicazioni correnti. Abbiamo visto che, data una v.c. X con µ e σ 2 finite ma incognite, degli stimatori accettabili di questi parametri sono: Capitolo 4 140 1 X=n n ∑ per µ Xi i=1 M̂ e = Mediana{X1 , ..., Xn } σ̂ 2 = s2= 1 n n ∑ (X i − µ )2 per Me per σ 2, se µ è nota i =1 1 n (Xi − X)2 n − 1 i =1 ∑ per σ 2, se µ è incognita e che data una v.c. doppia (X,Y), uno stimatore accettabile del coefficiente di correlazione ρ è quello campionario n r = ∑ ( X i − X )( Yi − Y ) i =1 12 n n 2 ( Yi − Y ) 2 ( Xi −X ) i =1 i =1 ∑ ∑ Dato che questi stimatori sono delle v.c. con distribuzione di probabilità dipendente da quella della v.c. di partenza, sorge il problema di derivare, in modo esatto o approssimato, la loro distribuzione in modo da potere inferire sulle relative proprietà statistiche. DISTRIBUZIONE DI PROBABILITÀ DELLA MEDIA CAMPIONARIA Data la v.c. X con media e varianza finite, supponiamo che σ 2 sia nota. Uno stimatore accettabile di µ è la media campionaria 1 n Xi n i =1 ove le Xi sono, per costruzione indipendenti, inoltre sappiamo che X = ∑ E( X ) = µ ; var( X ) = σ2 n che ci permettono di costruire la v.c. standardizzata Elementi di teoria della stima parametrica Z= X −µ var( X ) = n 141 ∑( Xi − µ ) σ ed applicando il teorema limite centrale si ha L Z → N(0,1) Questo vuole dire che se n è sufficientemente grande, in pratica basta che sia n ≥ 30, qualsiasi sia la distribuzione di X risulta σ 2 X ≈ N µ ; n Nel caso particolare, ma di grande rilevanza applicata, in cui è X~N(µ, σ2) segue immediatamente che, per una delle proprietà delle v.c. normali (una trasformazione lineare di normali indipendenti è ancora una normale) risulta qualsiasi sia n. σ2 X ~ N µ ; n In definitiva, possiamo affermare che qualsiasi sia la distribuzione di partenza da cui è estratto il campione, se questa possiede media e varianza finita, allora la media campionaria X , per n sufficientemente grande, può essere approssimata da una v.c. normale con media µ e varianza σ 2/n. Nelle due pagine seguenti mostriamo la distribuzione effettiva di X a partire da v.c. note ma molto diverse fra di loro. I grafici vanno letti per colonna. 142 Capitolo 4 Distribuzione della v.c. X Distribuzione di X per n=2 Distribuzione di X per n=4 Distribuzione di X per n=25 Elementi di teoria della stima parametrica Distribuzione della v.c. X Distribuzione di X per n=2 Distribuzione di X per n=4 Distribuzione di X per n=25 143 Capitolo 4 144 Le figure delle due pagine precedenti mostrano quanto sia potente, nel caso dello stimatore della media, il Teorema del Limite Centrale. Infatti, partendo da distribuzioni molto diverse (triangolare, uniforme, esponenziale, a forma di U), per n=25 si ottiene una distribuzione che è molto simile a quella della normale. Il risultato precedente può essere facilmente esteso al caso di trasformazioni di X . Infatti, si può dimostrare che data la trasformazione Y = g( X ), se g(⋅) ha derivata prima g’(µ) non nulla in µ, posto v 2 = σ 2[g’(µ)] 2 si ha v 2 Y = g( X ) ≈ N g( u ), n cioè lo stimatore g( X ) di g(µ) è, per n sufficientemente grande, approssimativamente normale con media g(µ) e varianza v 2/n. In definitiva, possiamo affermare che la distribuzione di X o di una sua trasformata regolare g( X ) è sempre, in modo esatto o approssimata, normale. DISTRIBUZIONE DI PROBABILITÀ DEI PERCENTILI CAMPIONARI Data una v.c. X continua, e quindi con f.d. f(x), indichiamo con Qp il p-esimo percentile di X cioè tale da soddisfare l’equazione seguente Qp ∫ f(x) dx = p, −∞ e con Q̂ p la relativa stima ottenuta sul campione e definita nel modo seguente [ proporzione osservazio ni ≤ Q̂ p ] ≥ p Q̂ p : [ proporzione osservazio ni ≥ Q̂ p ] ≥ 1 − p Se Q̂ p è unico si dimostra (teorema di Glivenko-Cantelli) che Elementi di teoria della stima parametrica 145 p( 1 − p ) L n Q̂ p − Q p → N 0 ; . [ f ( Q )] 2 p In altri termini, sotto le condizioni sopra riportate, se n è sufficientemente grande (in pratica deve essere n ≥ 80) risulta ( ) p( 1 − p ) Q̂ p ≈ N Q p ; n [ f ( Q p )] 2 Si noti che per p=0.5 il relativo percentile è la mediana, per p=0.25 è il primo quartile, per p=0.75 è il terzo quartile. Si osservi che Q̂ p è asintoticamente non distorta e consistente per Qp . DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA Distinguiamo due diverse situazioni (A) Caso di µ nota 2 Supponiamo che la v.c. X abbia media µ nota e varianza σ incognita e mo2 menti µ3 e µ4 finiti, in tal caso uno stimatore accettabile di σ è σ̂ 2 = 1 n ∑( X i − µ ) 2 n i =1 Dato che le v.c. (Xi - µ)2 sono indipendenti per costruzione ed hanno media e varianza finita per ipotesi, applicando il teorema limite centrale per n sufficientemente grande risulta σˆ 2 ≈ N σˆ 2 ; var(σˆ 2 ) con 1 n 1 var( σ̂ 2 ) = 2 var((Xi - µ) 2) = var[( X - µ) 2] n i =1 n ( ) ∑ = 1 [µ4 - 4µ3 µ + 6µ2 µ 2 - 3µ 4- σ 4] n Nel caso particolare in cui è X~N(µ; σ 2) da σ̂ 2 si ottiene Capitolo 4 146 n σˆ 2 σ2 n Xi − µ = σ i =1 ∑ 2 e per costruzione (Xi - µ)/σ = Zi è una normale standardizzata per cui n σˆ 2 = σ2 n ∑ Z i2 ~ χ n2 . i =1 In altri termini, se la variabile casuale X è normale allora σ̂ 2 è proporzionale ad una v.c. Chi-quadrato con n gradi di libertà, inoltre risulta immediatamente σ 2 2 σ 2 2 2 E( σ̂ 2 ) = E χ n = E( χn ) = σ n n σ 2 2 σ 4 2 2σ 4 var(σ̂ 2 ) = var χ n = 2 var( χn ) = . n n n (B) Caso di µ incognita 2 In questa situazione, uno stimatore accettabile di σ è dato da: S2 = 1 n ( X i − X )2 n i =1 ∑ e vale il seguente Teorema Se X~N(µ ; σ2) allora n 2 S ~ χ n2−1 ; σ2 σ2 X ~ N µ, n con X e S 2 indipendenti. Una conclusione analoga si ha se al posto di S 2 si considera lo stimatore ottimale s 2. Elementi di teoria della stima parametrica 147 Questo risultato è di grande importanza pratica perché ci permette di derivarne altri di notevole interesse. In particolare, dato che n( X − µ ) ~ N(0; 1); σ n −1 2 s ~ χ n2−1 2 σ e queste v.c. sono indipendenti, segue immediatamente che t= N ( 0 ;1 ) χ n2−1 ( n −1 ) = (X −µ) n σ 1 n −1 s 2 σ 2 n −1 = (X −µ) n ~ T(n-1) s Cioè, t si distribuisce, al variare del campione nell’universo campionario, come una v.c. T di Student con (n-1) gradi di libertà. Come si può notare, la v.c. (X −µ) n s ha una distribuzione indipendente dai parametri incogniti µ e σ2, per questo viene detta pivotale. DISTRIBUZIONE DELLA CORRELAZIONE CAMPIONARIA Abbiamo visto che, data una v.c. doppia (X, Y) una stima accettabile della correlazione fra X ed Y è data dalla correlazione campionaria la cui distribuzione è derivata nei teoremi seguenti: Teorema Data la v.c. (X, Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ ) con correlazione ρ = 0, sia (Xi , Yi ), i = 1,2,…,n, la v.c. campionaria estratta da (X , Y), sia r la stima campionaria di ρ, si dimostra che r n−2 1−r 2 ~ T(n-2) . Osserviamo che in questo caso X ed Y sono indipendenti. Teorema Data la v.c. (X , Y) ~ N2 ( µx , µy , σ 2x , σ 2y , ρ), con correlazione ρ ≠ 0, se Capitolo 4 148 (Xi ,Yi ), i =1, 2, …, n, è la v.c. campionaria estratta da (X, Y), posto 1 1 + r Z = log ; 2 1 − r zp= 1 1 + ρ log 2 1 − ρ per n moderatamente grande risulta 1 4 − ρ 2 + (Z - z p ) ≈ N 0; n − 1 2( n − 1 ) E’ facile verificare che 1 4−ρ4 1 + ≈ n − 1 2( n − 1 ) n − 3 4.7 Due metodi di inferenza basati sul ricampionamento Nel paragrafo precedente abbiamo derivato, in modo esatto o approssimato, la distribuzione degli stimatori della media, dei percentili, della varianza e della correlazione utilizzando procedure di tipo analitico. Di solito queste procedure, esclusi i semplici casi sopra analizzati, richiedono assunzioni molto r estrittive come la normalità di X, ma anche sotto questa assunzione, in molti casi, la distribuzione che si conosce è solo di tipo asintotico, quando si riesce a derivarla, e spesso non è analiticamente trattabile. Qui di seguito presentiamo due procedure che forniscono informazioni sulla distribuzione di probabilità dello stimatore riutilizzando ripetutamente i dati campionari. Le procedure di riuso del campione, ed in particolare le metodologie che vanno sotto il nome di Bootstrap e Jackknife, hanno assunto nei problemi di inferenza un ruolo sempre più rilevante come vie alternative a quella analitica classica. Questo ha portato alla comparsa di un numero sempre più rilevante di l avori nella letteratura internazionale sia di tipo teorico che applicato sulle metodologie citate. Una caratteristica specifica su cui poggiano queste tecniche di r icampionamento, ed il Bootstrap in particolare, è la simulazione con metodi Monte Carlo di una procedura statistica, utilizzando il minor numero possibile di a ssunzioni a priori. Nel seguito porremo maggiore attenzione alla procedura Bootstrap nella versione non parametrica, che è quella che riserva i maggiori sviluppi ed i più interessanti sbocchi applicativi, e la problematica ad essa connessa, e a quella Jackknife per la sua semplicità d’uso e per le relazioni che questa ha con il Elementi di teoria della stima parametrica 149 Bootstrap. Più in particolare: - data la variabile casuale o popolazione X con f.r. F(x ; θ), con θ parametro incognito di interesse; - sia X=(X1 ,…,Xn ) la v.c. campionaria estratta da X; - sia θ̂ n = θ(X) uno stimatore di θ ottenuto con uno dei metodi classici di stima, si vuole inferire sulle proprietà statistiche di θ̂n come stimatore di θ. Da un punto di vista statistico ciò può volere dire, per esempio: (a) ottenere una stima di var( θ̂ n ) (b) fissate le costanti a e b, e ottenere una stima di P{a ≤ θ̂ n -θ ≤ b} (c) trovare le quantità σ̂ , x ( 1−α) , x ( α) di modo che sia P{θ ∈ [ θ̂ n - n-1/2 σ̂ x ( 1−α) ; θ̂ n - n-1/2 σ̂ x ( α) ]} = 1-2α. La soluzione a problemi del tipo sopra esposti può essere ottenuta con due diversi approcci: (i) tenuto conto delle caratteristiche di X, delle informazioni contenute in X=(X1 ,...,Xn ), del problema che si vuole risolvere, si deriva analiticamente, in modo esatto o asintotico, la distribuzione di Rn (funzione monotona di θ̂ n ) e la si usa per ottenere risposte ai problemi del tipo (a)-(c). Questa impostazione è stata seguita nel paragrafo precedente. I casi più noti di statistiche Rn sono Rn (x ;θ̂ ) = θ̂ n - θ Rn (x ; θ̂ ) = θˆ n − θ sn con sn stima dello scarto quadratico medio di θ̂ n ; (ii) in molte situazioni è difficile o impossibile ottenere la distribuzione di probabilità di Rn , altre volte l’approssimazione asintotica che si ottiene è non soddisfacente specie per piccoli campioni. In questi casi si può tentare di stimare la distribuzione di R n con metodi di simulazione Monte Carlo basati Capitolo 4 150 sul ricampionamento da X=(X1 ,...,Xn ). Le procedure Bootstrap e Jackknife sono di questo tipo. Qui di seguito presentiamo sinteticamente le due procedure nella loro versione originaria. LA PROCEDURA JACKKNIFE Questa procedura è stata proposta per la prima volta da Quenouille nel 1956 e ripresa e generalizzata da Tukey nel 1958. E’ una procedura nata, ed usata per molti anni, essenzialmente per ridurre o eliminare la distorsione presente in alcuni stimatori. Successivamente il suo uso è stato esteso alla stima della varianza di stimatori ed infine per derivare una distribuzione approssimata dello stimatore o di una sua trasformazione. Dato il campione x =(x 1 ,…,x n ) e la stima θ̂ n = θ(x) di θ, costruiamo le stime θ̂( i ) = θ(x (i) ), i=1, 2 ,…, n, ove x (i) = x escluso xi . Le n stime θ̂( i ) rappresentano la distribuzione Jackknife di θ̂ n , queste vengono utilizzate per ottenere stime Jackknife di θ, della distorsione e della varianza di θ̂ n . Più in particolare, (i) la stima Jackknife di θ basata su θ̂ n è 1 θˆ J ( ⋅ ) = n n ∑ θˆ (i) ; i =1 (ii) la stima della distorsione di θ̂ n è d̂ J ( θ̂ n ) = (n-1) ( θˆ J ( ⋅ ) - θ̂ n ) si dimostra che questa stima, sotto condizioni non eccessivamente restrittive, è non distorta per la distorsione vera di θ̂ n (iii) la stima Jackknife corretta di θ basata su θ̂ n risulta ( ) ( ) θˆ J = θˆ n − ( n − 1 ) θˆ J(.) − θˆ n = θˆ J ( ⋅ ) - n θˆ J ( ⋅ ) − θˆ n = Elementi di teoria della stima parametrica = [ ] [ ( n 1 n ˆ ˆ =1 n θ − ( n − 1 ) θ ∑ n (i) ∑ θˆ ( i ) + n θˆ n − θˆ ( i ) n i =1 n i =1 151 )]; (iv) la stima Jackknife della varianza di θ̂ n è data da ( ) n [ n −1 V J2 θˆ n = θˆ( i ) − θˆ J (.) ∑ n i =1 ] 2 (v) Tukey nel 1958 ipotizzò che tJ = θˆ J − θˆ n V θˆ J ( n) potesse essere approssimata con una v.c. normale standardizzata. Altri autori come Arvesen, Beran, Miller, Sen dimostrarono che l’ipotesi di Tukey è vera sotto condizioni. E’ importante osservare che la procedura Jackknife per la stima della varianza di θ̂ n non sempre fornisce risultati accettabili. Per esempio tale stima, a meno di non considerare generalizzazioni particolari del Jackknife qui non presentate, non è consistente per la varianza della mediana campionaria e per i percentili campionari in generale. Esempio 14 Sia θ = µ e θˆ n = X lo stimatore di µ. In questo caso è noto che E( X ) = µ; var( X ) = σ2/n ed una stima non distorta di var( X ) è 2 ^ (x- ) = s var n con s2= Se si utilizza la procedura Jackknife si ottiene 1 n ( x − θˆ n ) 2 . n − 1 i =1 i ∑ Capitolo 4 152 x( i ) = 1 n −1 n ∑ j ≠i xj= n 1 n −1 n n 1 ∑x j − n −1 x i = j =1 nx − xi n −1 e quindi x J(.) = mentre è n 2 x −nx 1 n x = =x ∑ n i =1 ( i ) n ( n −1) d̂ J ( x ) = ( n − 1 ) ( x J(.) − x ) = 0 . In definitiva, in questo caso si ha x J(.) = x J = x Per la stima Jackknife della varianza di x si ottiene: V J( x ) = [ n −1 n ∑ x( n i =1 j) − x J(.) ]2 = n n−1 ∑ n xn −−1x i n i =1 2 − x = 2 = n −1 n x − x i 1 1 n s2 2 = [ x − x ] = . ∑ ∑ i n i =1 n − 1 n n − 1 i =1 n Come si può notare, in questo caso particolare, l’uso della procedura Jackknife genera gli stessi stimatori di quella classica. Naturalmente questo non succede in generale. LA PROCEDURA BOOTSTRAP Questa procedura è una generalizzazione di quella Jackknife. E’ stata proposta per la prima volta da Efron nel 1979. Ripresa da altri ricercatori, oltre allo stesso Efron, è stata via via approfondita ed applicata a numerose situazioni concrete. Dato il campione x = (x 1 ,…, xn ), estratto bernoullianamente dalla v.c. X con funzione di ripartizione F(x ;θ), data la stima θ̂ n =θ(x) di θ, si estraggono con rimessa da x i campioni x 1* , x *2 ,..., x *B e si calcolano le stime di θ: θˆ1* = θ ( x 1* ) , θˆ 2* = θ ( x *2 ) ,..., θ B* = θ ( x *B ) Elementi di teoria della stima parametrica 153 le B stime θ̂ *b rappresentano la distribuzione Bootstrap di θ̂ n e vengono utilizzate per ottenere: (i) la stima Bootstrap di θ tramite 1 θˆ B = B B ∑θˆ * b i =1 (ii) la stima Bootstrap della varianza di θ̂ n utilizzando la seguente ∑[ ( ) 1 B * ˆ VB θˆ n = θb − θ B B − 1 b =1 ] 2 (iii) si ipotizza che tB = θˆ B − θˆ n 1 /2 V θˆ [ ( )] B n si distribuisce asintoticamente come una normale standardizzata. Efron, Bickel, Hall fissano le condizioni, che risultano essere molto generali, per cui una tale affermazione è vera. Capitolo 5 INTRODUZIONE AL TEST DELLE IPOTESI 5.1 Introduzione Il problema che affronteremo qui di seguito è uno dei più importanti per la Statistica sia da un punto di vista teorico che applicativo: cercare una regola che permetta di decidere se, dato un certo prefissato livello di probabilità di commettere uno specificato errore, sia da accettare o da rifiutare una ipotesi formulata su una data v.c. o popolazione. Più precisamente, la problematica può essere formalizzata nel modo seguente. Supponiamo di avere un fenomeno descritto da una v.c. X con distribuzione di probabilità (o funzione di densità, nel caso continuo) f(x ; θ), con: a) f( . ; θ) nota e θ∈Ω incognito (caso parametrico) b) f( . ) incognita (caso non parametrico). Nel seguito tratteremo più dettagliatamente del caso parametrico, ma non tralasceremo di fornire alcuni utili strumenti per quello non parametrico. Supponiamo di agire in un ambito parametrico e di voler analizzare un fenomeno X che è distribuito secondo una legge probabilistica f(x ; θ) nota a meno di θ. Supponiamo di aver estratto da X il campione x n = (x 1 ,…,x n ). Formuliamo le seguenti ipotesi su θ e quindi sulla struttura probabilistica di X Ho : θ ∈Θo verso H1 : θ ∈ Θ1 con Θo ∩ Θ1 = Ø e tali che Θo ∪ Θ1 = Ω. Bisogna individuare una strategia ottimale in modo da poter decidere se è da accettare o rifiutare l’ipotesi Ho . Dato che θ è incognito non sapremo mai se è vera Ho oppure è vera H1 ; potremo 156 Capitolo 5 dire solo che Ho è vera con un certo livello di probabilità. L’insieme Ω viene detto insieme parametrico generato da θ; mentre le ipotesi Ho ed H1 sopra r iportate si chiamano rispettivamente ipotesi nulla ed alternativa. Nel caso particolare in cui Θo si riduce ad un solo punto, Ho si chiama ipotesi semplice. Una considerazione analoga vale per Θ1 e H1 . La decisione per stabilire se Ho è da rifiutare o accettare (in favore di H1) viene presa utilizzando le informazioni campionarie contenute in x n = (x 1 ,…, x n ). Al variare di tutti i possibili campioni, fissata la numerosità campionaria n, si ottiene la v.c. campionaria Xn = (X1 ,…, Xn ) che descrive un insieme, chiamiamolo C, detto spazio campionario. Il problema del test è di individuare in C una regione C1 per cui se il particolare campione x n = (x 1 ,…, xn ) di cui si dispone appartiene a C1 si rifiuta Ho, mentre se appartiene all’insieme complementare Co = C - C1 non si può rifiutare Ho . Come si vede, la decisione se r ifiutare o meno Ho viene presa sullo spazio campionario, ma viene fatta valere per quello parametrico. Schematicamente questo processo decisionale è rappresentato nella figura seguente: Dato che non sappiamo in quale regione θ cade, le possibili conseguenze che si possono avere nel rifiutare o accettare Ho sono le seguenti: E1 = si rifiuta Ho , mentre in realtà Ho è vera E2 = si accetta Ho , mentre in realtà Ho è falsa G1= si accetta Ho , che è effettivamente vera G2= si rifiuta Ho , che è effettivamente falsa. Come si vede le prime due delle quattro conseguenze possibili sono errori, Introduzione al test delle ipotesi 157 mentre le seconde due danno luogo a decisioni giuste. Da un punto di vista formale questi quattro possibili risultati sono degli eventi condizionati e si possono scrivere: E1 = (X n ∈C1|θ ∈Θo ) E2 = (X n ∈C-C1|θ ∈Θ1 ) G1 = (X n ∈C-C1|θ ∈Θo ) G2 = (X n ∈C1|θ ∈Θ1 ). L’evento E1 prende il nome di errore del primo tipo, l’evento E2 prende il nome di errore del secondo tipo. Di solito, l’errore del primo tipo viene considerato più rilevante per le conseguenze pratiche che può portare e quindi si cerca di controllarlo in qualche modo. Notiamo, infine che G1 = E 1 ; G 2 = E2 . Dato che E1 , E2 , G1 , G2 sono degli eventi, essendo funzione della v.c. campionaria X n , ammetteranno una qualche probabilità e precisamente: P(E1 ) = P( X n ∈C1|θ ∈Θo ) = α(C1 ; θ) P(E2 ) = P( X n ∈C-C1|θ ∈Θ1 ) = β(C1 ; θ) Naturalmente risulta P(G1 ) = 1 - α(C1 ; θ) P(G2 ) = 1 - β(C1 ; θ) La probabilità dell’errore del primo tipo α(C1 ; θ) viene chiamata livello di significatività del test. La probabilità di G2 , indicata di solito con π(C1 ; θ) = 1 β(C1 ; θ), viene chiamata potenza del test. La regione C1 viene chiamata regione critica, mentre Co viene detta regione di accettazione. Come si può notare, i due errori sono funzione della regione critica e del valore vero di θ . L’ipotesi Ho riflette, in generale, la situazione prima che l’esperimento (l’estrazione del campione di n elementi) venga effettuato nel senso che se si accetta Ho la situazione rimane immutata. In questa impostazione Capitolo 5 158 bisogna cautelarsi dalle conseguenze che si hanno per il rifiuto di Ho , dato che ciò comporta la modifica delle condizioni e delle acquisizioni fino ad allora ritenute valide. E’ partendo da queste considerazioni che si ritiene più grave l’errore del primo tipo rispetto a quello del secondo tipo ed è per questo che si procede in modo da cautelarsi il più possibile rispetto alla possibilità di commettere tale errore (impostazione di Neyman e Pearson). Esempio 1 Supponiamo di avere la popolazione X~f(x ; θ), ove X rappresenta il reddito di una qualche categoria di lavoratori e sia θ = µ. Supponiamo che dalle dichiarazioni dei redditi risulti che, in media, questi soggetti abbiano dichiarato µo = 15 mila euro. Supponiamo che il ministro delle finanze sia poco convinto della veridicità delle dichiarazioni delle persone suddette. In tal caso, le ipotesi che il ministro vuole sottoporre a test sono Ho : µ ≤ µo = 15.000 verso H1 : µ > µo = 15.000, osserviamo che lo spazio parametrico è dato dall’intera retta reale Ω = (- ∞ ; + ∞ ). Per decidere se si deve accettare o rifiutare Ho si estrae, con rimessa, da X un campione di n elementi x n = (x 1 , x2 , ..., xn ) e sulla base delle informazioni contenute in questo campione si decide su Ho . Al variare del campione varia x n e descrive la v.c. campionaria Xn = (X1 , X2 , ..., Xn ) che descrive il nostro spazio campionario. In questo contesto sulla base dei risultati del campione posso: E1 = Penalizzare quei soggetti (rifiuto Ho ), mentre hanno detto il vero E2 = Accettare quanto dichiarato (accetto Ho ), mentre hanno detto il falso G1 = Accettare quanto dichiarato (accetto Ho ) ed hanno detto il vero G2 = Penalizzare quei soggetti (rifiuto Ho ) che hanno dichiarato il falso. Osserviamo come effettivamente E1 sia l’errore più grave perché se viene commesso si penalizza (per esempio si commina una condanna penale) un innocente. 5.2 Il lemma di Neyman-Pearson Come emerge dal paragrafo precedente, il problema che si deve affrontare è di individuare la regione critica C1 tale che α(C1 ; θ) e β(C1 ; θ) siano piccoli qualsiasi sia θ. D’altro lato, si evince immediatamente che se è α(C1 ; θ) = 0 necessariamente deve essere β(C1 ; θ) = 1 e viceversa e quindi non è possibile decidere rendendo nulli contemporaneamente α e β. La strategia per risolvere il Introduzione al test delle ipotesi 159 problema, ormai generalmente accettata, è quella di scegliere C1 in modo che α(C1 ; θ) non superi una certa soglia prefissata, qualsiasi sia θ, e contemporaneamente sia β(C1 ; θ) minimo. Più precisamente: il test uniformemente più potente è quello che permette di scegliere la regione critica C1 tale che, per ogni altra regione critica C*1 , sia contemporaneamente: P(E1) = P(Xn ∈C*1 |θ∈Θo ) = P(Xn ∈C1|θ∈Θo ) ≤ α min P(E2 ) = min P(Xn ∈C-C*1 |θ ∈Θ1 ) = P(Xn ∈C-C1|θ ∈Θ1 ) per qualsiasi θ ∈Θ1. Un test che soddisfa la definizione sopra riportata ha la potenza massima dato che in tal caso risulta π(C1 ; θ) > π(C*1 ; θ). I test uniformemente più potenti non sempre esistono, il lemma seguente mostra che tale test sicuramente esiste, e mostra come ottenerlo, in un caso particolare: Lemma (di Neyman e Pearson) Data la v.c. X, che per semplicità supponiamo continua, con f.d. f(x ; θ), se H o : θ = θo verso H 1 : θ = θ1 e quindi si ha Ω = θo ∪θ1, se Xn =(X1 ,…, Xn ) è la v. c. campionaria, allora il test con P(Xn ∈C1|θ = θo ) = α basato sulla regione critica C1 tale che L ( x n ; θ1 ) ≥k L( x n ; θ 0 ) per X∈ C1 ; L ( x n ; θ1 ) <k L( x n ; θ 0 ) per X ∉ C1 , ove k è una costante per cui P(Xn ∈C1|θ = θo ) = α mentre L(x n ; θ) è la funzione di verosimiglianza, è il test più potente. Per poter applicare il lemma è, comunque, necessario conoscere la distribuzione di Xn a meno di θ in modo da poter costruire la funzione di verosimi- Capitolo 5 160 glianza. Inoltre, questo lemma permette di ottenere la regione critica solo in casi molto particolari. Il problema maggiore risiede nel fatto di dovere individuare una statistica pivotale (cioè indipendente dai parametri della v.c. di partenza) che, fissata la probabilità dell’errore di primo tipo, minimizzi quello del secondo tipo qualunque sia il valore del parametro incognito in Θ1. Se abbandoniamo la seconda caratteristica, o quanto meno richiediamo che questa si verifichi solo per grandi campioni, si ha un allargamento della classe dei possibili test che si possono costruire in modo da comprendere anche casi di importanza applicativa. Questa è la strategia che seguiremo nel seguito. 5.3 Test basato sul rapporto di verosimiglianza. Caso di Ho semplice (LRT) Data la variabile casuale X con distribuzione di probabilità (discreta o continua) f(x ; θ) si voglia sottoporre a test le ipotesi Ho : θ = θo verso H1 : θ ∈Θ1 con Ω = {θo ∪Θ1}. Sulla base di un campione casuale x n = (x 1 ,…,x n ) si c ostruisce la funzione di verosimiglianza L( xn ; θ ) = n ∏ f(xi ; θ) i =1 che sotto Ho diviene L( xn ; θo ) = n ∏ f(xi ; θo ) i =1 mentre la stima di massima verosimiglianza di θ è, come sappiamo, quel θ̂ tale che risulti max L( xn ; θ ) = L( x n ; θ̂ ) θ ∈Ω Si chiama rapporto di massima verosimiglianza (nel seguito MLR) la funzione λ(x n ) = L( x n ; θ o ) L( x n ; θ o ) = , max L ( x n ; θ ) L ( x n ; θˆ ) θ∈Ω Introduzione al test delle ipotesi 161 da cui segue immediatamente che 0 < λ( x n ) ≤ 1. Se λ( x n ) è vicino ad 1 si è portati ad accettare Ho dato che, per n grande, risulta θo ≈ θ̂ ; viceversa, se λ( x n ) è lontano da 1 allora Ho è poco verosimile e si è portati a rifiutarla dato che θo ≠ θ̂ . Queste considerazioni ci portano ad affermare che il test basato su LRT definisce la regione di rifiuto (regione critica) costituita da tutti i campioni x n tali che P{λ(Xn ) ≤ k | θ = θo } = α E’ facile verificare che se anche H1 è semplice ed il parametro è uno solo, il test basato su MLR coincide con quello più potente. Se H1 è composta il test basato su MLR non sempre coincide con quello uniformemente più potente. Per poter determinare la regione critica nel test basato su MLR è necessario derivare la distribuzione di probabilità di λ(Xn ). Nei due esempi seguenti tratteremo due casi particolari di test basati su MLR. Esempio 2 Supponiamo che X~N(µ; σ 2), con σ 2 noto, e si voglia sottoporre a test le ipotesi Ho: µ = µo verso H 1: µ ≠ µo sulla base di un campione di ampiezza n estratto da X. In questo caso si ha 1 L(x n ; µo ) = (2πσ 2)-n/2 exp − 2 2σ 1 L(x n ; x ) = (2πσ 2)-n/2 exp − 2 2σ e quindi la regione critica è data da ∑ ( x i − µo ) 2 ∑ (x i − x)2 Capitolo 5 162 1 λ( x n ) = exp 2 2σ ∑ (x − x )2 − i 1 2σ 2 ∑ (x i 1 x − µ o − 2 σ / n che, equivalentemente, può essere scritta nel modo seguente n = exp − ( x − µo ) 2 = exp 2 2σ x − µo σ / n − µo ) 2 = 2 ≤ k 2 ≥ -2 log k. D’altro lato, dato che 0 < k ≤ 1 segue che log(k) < 0 e quindi - 2log(k) > 0. Posto -2log(k) = z 2 si ottiene x − µo σ / n 2 ≥ z 2 ⇔ zc= |x − µo | ≥ z α/2. σ/ n La statistica z c viene chiamata statistica test e sotto l’ipotesi Ho , in questo caso, si distribuisce come una v.c. Normale standardizzata così che si rifiuta Ho al livello α se risulta z c ≥ z α/2, ove z α/2 si trova sulle tavole della normale standardizzata ed è ottenuta in modo che fissato α deve essere | X − µo | 2 α = P ≥ z α/ 2 σ/ n Il test basato su MLR ha alcune importanti proprietà come stabilito nel s eguente Teorema (di Wilks) Data la v.c. X con distribuzione f(x; θ) se si sottopongono a test le ipotesi H o : θ = θo verso H1 : θ∈Θ1 utilizzando il rapporto di verosimiglianza allora 1) L -2 log λ( X n ) → χ 2 ( g) ove g è il numero dei parametri da sottoporre a test. Questo risultato permette Introduzione al test delle ipotesi 163 di costruire il test anche se non è nota la distribuzione di λ(Xn )sotto la condizione che n sia sufficientemente grande (spesso basta che sia n ≥ 25) 2) Se C1 è la regione critica per Ho, allora lim P{Xn∈C1|θ ∈Θ1} = lim P(G2 ) = 1 n→ ∞ n→ ∞ indipendentemente da θ. In altri termini, se n è sufficientemente grande allora la potenza del test è vicina ad uno per ogni θ ≠ θo . Esempio 3 Supponiamo che sia X~N(µ , σ 2), con µ e σ 2 incogniti, e si voglia sottoporre a test le ipotesi Ho : µ = 2; σ 2= 9 H1 : µ ≠ 2; σ 2 ≠ 9 verso supposto di avere estratto un campione casuale con n=30, X =3, S2=30. In questo caso, utilizzando il rapporto di massima verosimiglianza si ha 1 ( 2π 9 ) −n / 2 exp − ( x i − 2 )2 18 = λ(x n ) = n 1 ( 2πS 2 ) −n / 2 exp − 2 ( x i − x ) 2 2 S n ∑ ∑ S2 = 9 n/2 n n n exp − S 2 − ( x − 2 ) 2 18 2 18 o equivalentemente - 2 log(λ(x n )) = -n [log S2 - log9 + 1 - S2/9 - ( x - 2)2/9]. La distribuzione esatta sia di λ(Xn ) che di -2log(λ(Xn )) è molto complicata e quindi si può ricorrere all’approssimazione con il Chi-quadrato per ottenere una regione critica approssimata. In questo caso si ha L - 2log (λ(Xn )) → χ Dato che 2 ( 2) . Capitolo 5 164 -2 log (λ(x n )) = -30[log30-log9 + 1 - 30/9 - (3-2)2/9] = 37.21, dalle tavole del Chi - quadrato risulta χ 2 ( 2 ; 1−0.05 ) = χ 5.99; 2 ( 2 ; 1−0.01 = χ 9.21; 2 ( 2 ; 1−0. 001 ) = 13.8, possiamo rifiutare Ho al livello α =1‰ . 5.5 Test basato sul rapporto di verosimiglianza. Caso di Ho complessa (LRT) Se le ipotesi Ho e H1 sono entrambe complesse, cioè se Ho : θ∈Θo con Ω = Θo ∪Θ1, allora H1 : θ∈Θ1, verso il test MLR è basato sul rapporto sup L ( x n , θ ) sup L ( x n , θ ) λ(x n ) = θ ∈Θ 0 sup L ( x n ,θ ) = θ ∈Ω θ ∈Θ 0 L ( x n ,θˆ ) Quanto abbiamo detto fino ad ora può essere esteso al caso in cui θ sia un vettore di parametri incogniti. Una generalizzazione di quanto affermato nel teorema riportato nel paragrafo precedente è data nel seguente Teorema (di Wilks) Data la v.c. X con distribuzione f(x ;θ) se si sottopongono a test le ipotesi Ho : θ∈Θo verso H1 : θ∈Θ1 Allora L -2 log λ(Xn ) → χ 2 ( g) ove g = Dimensione(Ω) - Dimensione(Θo ) . Introduzione al test delle ipotesi 165 5.6 Particolari test basati su MLR In questo paragrafo presentiamo alcuni test, di larga utilizzazione pratica, basati sul rapporto di massima verosimiglianza e sotto l’ipotesi che la popolazione, o le popolazioni, di partenza siano distribuite normalmente. TEST SULLA MEDIA Supponiamo che sia X~N(µ ; σ 2), con µ e σ 2 2 incogniti e quindi risulti θ =(µ ; σ ), e si voglia sottoporre a test le ipotesi Ho : µ = µo , σ 2>0 verso H1: µ ≠ µo , σ 2>0 utilizzando il MLR test. In questo caso Ω è costituito da un semipiano, mentre Θo si riduce ad una semiretta così come illustrato nella figura Si ha 1 n 2 sup L(x n ; µ , σ ) = L(x n ; µo , s o2 ), con s o2 = 2 2 sup L(x n ; µ , σ ) = L(x n ; x , S ), con 2 S = θ ∈Θ 0 θ ∈Ω ∑( x 1 n i ∑( x e quindi il rapporto di verosimiglianza è 1 ( 2πs o2 ) −n / 2 exp− 2 ∑ ( x i − µo ) 2 2 s o λ( x n ) = 1 ( 2πS 2 ) −n / 2 exp− ( x i −x ) 2 2 ∑ 2S − µo ) 2 i − x)2 Capitolo 5 166 Dopo una serie di sviluppi, che per brevità non riportiamo, si arriva alla seguente statistica test: t= n ( n − 1) ( X − µ o ) ∑( X i − X )2 = n ( X − µo ) T ~ (n-1) s con s2= 1 n −1 ∑( X i −X) 2 ed indicando con tc il valore di T ottenuto nel campione si rifiuta Ho se risulta |tc| = n x − µo s ≥ t(n-1; 1-α/2) Graficamente si ottiene Naturalmente, con gli stessi ragionamenti sopra fatti si ha che: a) se si vuole sottoporre a test le ipotesi Introduzione al test delle ipotesi Ho : µ ≤ µo , σ 2>0 verso 167 H1 : µ > µo , σ 2>0 si rifiuta Ho al livello α se risulta tc = n ( x − µo ) ≥ t(n-1; 1-α) = - t(n-1; α) s . Graficamente si ha una situazione come quella descritta nella figura seguente b) se si vuole sottoporre a test le ipotesi Ho : µ ≥ µo , σ 2>0 verso H1 : µ < µo , σ 2>0 si rifiuta Ho al livello α se risulta tc = ( ) n x − µ0 ≤ t ( n−1; α) = −t ( n−1;1−α) s Graficamente si ha una situazione come quella descritta nella figura seguente Capitolo 5 168 Ricordiamo che la v.c. T di Student è simmetrica intorno allo zero e quindi risulta t(n-1; 1-α) = - t(n-1; α). Si osservi ancora che se come stima di σ 2 al posto di s 2 (stima non distorta di σ 2) si usa S 2 (stima asintoticamente non distorta di σ 2), tenuto conto delle relazioni che intercorrono fra s 2 ed S 2, segue immediatamente che tc si può scrivere indifferentemente tc = n − 1( x − µ o ) n( x − µ o ) = . S s Nelle pratiche applicazioni, di solito, i livelli a cui si fissa α sono rispettivamente 5%, 1%, 1‰ ed è conveniente utilizzare la prima delle due espressioni. Giustificazione empirica Vediamo ora di dare una giustificazione, basata su argomentazioni di tipo intuitivo, alla derivazione della statistica test tc sopra riportata. Per fare questo focalizziamo la nostra attenzione al caso in cui Ho : µ ≤ µo , σ 2>0 verso H1 : µ > µo , σ 2>0 (per gli altri il ragionamento è simile) ove µ e σ 2 sono i parametri incogniti di una v.c. X distribuita come una normale. Sappiamo che la stima ottimale di µ e σ 2 è data rispettivamente da x e s 2 e queste sono indipendenti. In tale situazione siamo portati a rifiutare Ho se ( x - µ o ) è positiva e grande, mentre siamo portati ad accettarla se ( x - µ o ) è piccola. Bisogna stabilire cosa si intende per grande e per piccola. Puntualizzando, se è vera Ho , una statistica test che sembra Introduzione al test delle ipotesi 169 plausibile è σ2 ( x - µo ) ~ N 0; n e dato che la sua distribuzione dipende dal parametro incognito σ 2 non può essere usata per costruire il test. Se la standardizziamo otteniamo x − µo σ /n 2 = n ( x − µo ) σ2 ~ N(0, 1) che, dipendendo ancora da σ, non è pivotale e, quindi, non utilizzabile come statistica test. Se al posto di σ 2 sostituiamo la sua stima ottimale s 2 otteniamo tc = n ( x − µo ) ~ T( n-1) s che è la statistica test pivotale derivata in precedenza. Esempio 4 Supponiamo di avere un fenomeno aleatorio X e che sia X~N(µ, σ 2) con µ e σ 2 incogniti. Si vuole sottoporre a test le ipotesi Ho : µ ≤ 3 verso H1 : µ >3 Estraiamo da X un campione casuale di n = 10 elementi ottenendo i seguenti risultati campionari 3; 5; 4; 2; 5; 6; 3; 4; 5; 2 La media e la varianza campionaria sono in questo caso, rispettivamente x = 3.9; che implicano S 2 = m2 - x 2 = 1.69; S = 1.3 Capitolo 5 170 n −1( x − µo ) 3( 3.9 − 3 ) = = 2.077 S 1.3 Dalle tavole della v.c. T di Student con g = 9 gradi di libertà otteniamo tc = t( 9; 1-0.05) = 1.833; t( 9; 1-0.01) = 2.821 Questo vuole dire che al livello di α = 5% si può rifiutare Ho ma non la si può rifiutare al livello di α = 1%. In definitiva diremo che il test è significativo al 5%. Se le ipotesi da sottoporre a test fossero state Ho : µ = 3 verso H1 : µ ≠ 3 in tal caso il valore di |tc | sarebbe stato esattamente lo stesso, mentre avremmo avuto t( 9; 1-0.025) = 2.262; t( 9; 1-0.05) = 3.250 ed in questo caso non potevamo rifiutare Ho neanche al livello del 5% . Esempio 5 Data la popolazione X~N(µ , σ 2), con µ e σ 2 incogniti, verificare Ho : µ ≤ 20 verso H1 : µ > 20 utilizzando le informazioni di un campione di n=26 elementi da cui si è ricavato x = 22.5 e S 2 = 16. Sappiamo che in questo caso la regione critica ottimale, ottenuta tramite il rapporto di massima verosimiglianza, è data da Introduzione al test delle ipotesi tc = x − µo S / n −1 ≥ t( 25; 171 1-α) che in questo caso diventa tc = 22.5 − 20 = 3.125 ≥ t( 25; 4 / 25 1-α) ove t( 25; 1-α) è, al solito, l’(1-α) percentile della T-di Student con 25 gradi di libertà. In particolare, per i tre livelli di α = 5%; 1%; 1‰ si ottiene rispettivamente t( 25; 1-.05) = 1.708; t( 25; 1-.01) = 2.465; t( 25; 1-.001) = 3.45 ed essendo tc = 3.125 > t( 25; 1-.01) = 2.465; tc = 3.125 < t( 25; 1-.001) = 3.45 si rifiuta Ho al livello α = 1%, ma non si può rifiutare al livello dell’1‰. In tal caso si dice più sinteticamente che il test è significativo all’1%. D’altro lato, si ricava che la regione critica è anche data da λ2/n (x) = 1 ≤ k1 T2 1+ n −1 o equivalentemente da T2 ≥ k2 -2log(λ(x)) = n log 1 + n −1 Ma per n moderatamente grande, se è vera Ho , sappiamo dal Teorema di Wilks che è T2 ≈ χ (21 ) -2log(λ(X )) = n log 1 + n − 1 e quindi una regione critica approssimata è ottenuta da Capitolo 5 172 P{ χ (21 ) ≥ k} = 1 - P{ χ (21 ) < k} = α ⇔ P{ χ (21 ) < k| µ = µo } = 1-α ove k = χ (21; 1− a ) si deriva dalle tavole della v.c. χ (21 ) . In questo caso risulta T2 = 26 log n log 1 + n −1 ( 3.1257 ) 2 1 + 25 = 8.57 Mentre per i soliti tre livelli di α = 5%; 1%; 1‰, dalle tavole del Chi-quadrato con un grado di libertà otteniamo rispettivamente χ (21; 1− 0.05 ) = 3.84; χ(21; 1 −0. 01 ) = 6.63; χ (21; 1 − 0.001) = 10.8 e dato che è -2log(λ(x)) = 8.57 > χ (21; 1 −0.05 ) = 3.84; -2log(λ(x)) = 8.57 < χ (21; 1 −0.001 ) = 10.8 si arriva alle stesse conclusioni di quelle ottenute con la regione critica esatta. TEST SUL CONFRONTO FRA DUE MEDIE Supponiamo che X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) siano due v.c. indipendenti e si voglia sottoporre a test, utilizzando MLR, le ipotesi Ho : µ1 = µ2 , σ 12 >0, σ 22 > 0 Η 1 : µ1 ≠ µ 2 , σ 12 >0, σ 22 > 0 Per far questo utilizziamo i due campioni indipendenti x 1 = (x 11 , x12 ,..., x1m ); x 2 = (x 21 , x22 ,..., x2n ) estratti, rispettivamente da X1 ed X2 . Si ha Introduzione al test delle ipotesi 173 Ω = {µ1 , µ2 , σ 12 , σ 22 } : spazio a quattro dimensioni Θo = {µ1= µ2 , σ 12 , σ 22 } : spazio a tre dimensioni. Dato che i due campioni sono indipendenti la funzione di verosimiglianza è L( x1 , x 2 ; µ1 , µ2 , σ 12 , σ 22 ) = L1( x 1 ; µ1 , σ 12 ) L 2 ( x 2 ; µ2 , σ 22 ) ed il rapporto di verosimiglianza è pari a λ( x1 , x 2 ) = L1 ( µ, σ12 ) L 2 ( µ, σ 22 ) [µ ,σ 1 ,σ 2 ] L ( x 1 , x 2 , σˆ 12 , σˆ 22 ) max con µ = µ1 = µ2 . E risulta molto complicata la ricerca del massimo del numeratore di λ(x 1 ,x 2 ). Questo problema, noto come problema di Behrens-Fisher, non ammette una soluzione esatta e le soluzioni approssimate trovate sono tutte più o meno soddisfacenti. Una delle più semplici dovuta a Banerji nel 1960 propone di usare la seguente regione critica al livello α: rifiutare Ho se la disuguaglianza seguente è vera t 2S 2 t 2 S 2 | x 1 - x 2 | ≥ 1 1 + 2 2 n2 n1 1 /2 ⇔ n1n2( x 1 - x 2 )2 ≥ n2 t12 S 12 + n1 t 22 S 22 ove n1 = m-1, n2 = n-1, ti è il valore calcolato sulla T-di Student con ni gradi di libertà tale che { } P T( ni ) ≥ t i = α / 2 per i= 1, 2. Il problema risulta di più facile soluzione se viene ridotto al seguente Ho : µ1 = µ2 = µ , σ 12 = σ 22 = σ 2 >0 verso Capitolo 5 174 H1 : µ1 ≠ µ2 , σ 12 = σ 22 = σ 2 >0 In questo caso le due v.c. X1 ed X2 hanno la stessa variabilità e quindi la stessa forma e differiscono, se Ho è falsa, solo per la media (caso di omoschedasticità). Si ha che Ω = {µ1 , µ2 , σ 2}: 2 Θo = {µ , σ }: spazio a tre dimensioni spazio a due dimensioni In tal modo, la stima ML di µ1 , µ2 , σ 2 in Ω è data, rispettivamente, da x1= S2 = 1 m m ∑ x 1i ; x2= i =1 1 m ( x 1i − x 1 ) 2 + m + n i =1 ∑ 1 n n ∑ n ∑ (x i =1 x 2i i =1 2i − x 2 )2 per cui m+n L( x1 , x 2 , S )= 2 2 2π {∑ ( x 1i − x 1 ) + ∑ ( x 2 i − x 2 ) } ( m +n ) / 2 2 exp{-(m+n)/2} Viceversa, la stima ML di µ e σ 2 in Θο è data, rispettivamente, da x= S 2= = m x1 + n x 2 m +n n 1 m 2 ( x − x ) + ( x 2i − x 2 )2 = ∑ 1i ∑ 1 m + n i =1 i =1 n 1 m mn 2 ( x − x ) + ( x 2i − x 2 )2 + ( x1 − x 2 ) 2 ∑ 1i ∑ 1 m + n i =1 m +n i =1 Introduzione al test delle ipotesi 175 e quindi, il rapporto di verosimiglianza risulta pari a mn ( x1 − x 2 ) 2 m +n λ( x ) = 1 + m n 2 2 ∑ ( x 1i − x 1 ) + ∑ ( x 2 i − x 2 ) i =1 i =1 (m +n ) / 2 che dopo alcune semplificazione, non riportate per brevità, diviene: 2/(m+n) [λ(X)] T2 = 1 + m + n −2 −1 Per quanto detto nel caso del test su una sola media si ha: 1) Se è H 1: µ1 ≠ µ2 ⇔ H 1: µ1 - µ2 ≠ 0 si rifiuta Ho se risulta tc = x1 − x 2 ( m − 1 )s 12 + ( n − 1 )s 22 mn( m + n − 2 ) > t ( n + m − 2 ; 1 −α/ 2 ) m +n Graficamente le regioni di accettazione e rifiuto sono: con g= m+n-2. 2) Se è H 1: µ1 > µ2 ⇔ H 1: µ1 - µ2 > 0 Capitolo 5 176 si rifiuta Ho al livello α se tc = x1 − x 2 ( m −1 )s 12 +( n − 1) s 22 mn( m +n − 2 ) > t(m+n-2;1-α) , m +n che graficamente diviene: 3) Se è H 1 : µ1< µ2 ⇔ H1 : µ1 - µ2 < 0 la regione critica è data da (si rifiuta Ho se) tc = x1 − x 2 ( m −1 )s +( n − 1 )s 2 1 2 2 mn( m +n − 2 ) < t(m+n-2;α) = - t(m+n-2;1-α) , m +n che graficamente diviene: Giustificazione empirica Vediamo ora di dare una giustificazione di tipo intuitivo alla derivazione della statistica test tc sopra riportata. Per fare questo focalizziamo la nostra attenzione al caso in cui si vuole sottoporre a test Ho : µ1 ≤ µ2 , σ 2>0 verso Η1 : µ1 > µ2 , σ 2>0 ove i tre parametri µ1 , µ2 , σ 2 sono relativi a X1~N(µ1 ; σ 2) e X2~N(µ2 ; σ 2) con X1 e X2 indipendenti. In tal caso siamo portati a rifiutare Ho se x 1 - x 2 è Introduzione al test delle ipotesi 177 positiva e grande, mentre siamo portati ad accettarla se la stessa è piccola. Bisogna stabilire cosa si intende per grande e per piccolo. Se è vera Ho una statistica test plausibile è σ2 σ2 = N + ( x 1 - x 2 ) ~ N 0 ; m n 1 2 1 0 ; σ m + n , ma non è utilizzabile dato che la sua distribuzione dipende dal parametro incognito σ 2. Se la standardizziamo otteniamo x1 − x 2 ~ N(0, 1) 1 1 σ + m n che, dipendendo ancora da σ 2, non è utilizzabile come statistica test. Se al posto di σ 2 sostituiamo la sua stima ottimale m s2= ∑ ( x1 i − x1 ) 2 + i =1 n ∑( x 2i −x 2 )2 i =1 = m +n−2 ( m − 1 )s 12 + ( n − 1) s 22 m S12 + n S 22 = m +n − 2 m +n − 2 otteniamo sotto Ho tc = x1 − x 2 1/ 2 1 1 s + m n = x1 − x 2 m S12 + n S 22 m n( m + n − 2 ) ~ T(m+n-2) m +n che è la statistica pivotale derivata in precedenza. Notare che per la stima di σ 2, comune a X1 e X2 , abbiamo utilizzato congiuntamente le informazioni campionarie provenienti da X1 e da X2 , in tal modo s 2 risulta non distorta e sufficiente, e quindi ottimale, per σ 2. TEST SU UNA PROPORZIONE Supponiamo di avere una popolazione finita P composta da H unità di rilevazione (ampiezza della popolazione) con un carattere di interesse dicotomico nel senso che K unità della popolazione sono del tipo 1 ed H-K del tipo 0. In Capitolo 5 178 pratica, vi sono molte situazioni con tali caratteristiche, per esempio: buono/cattivo; giusto/sbagliato; si/no; maschio/femmina; testa/croce; acquisto/non acquisto; produco/non produco; ecc. Indichiamo con p= K H−K , q = 1-p = H H rispettivamente la proporzione degli elementi di tipo 1 e di tipo 0 presenti nella popolazione. In genere, è nota H ma è incognita K e quindi p. Il problema che si vuole affrontare è quello di costruire un test per il parametro incognito p del tipo: Ho : p = po verso H1 : p > po con 0 < po < 1 fissato. Per dare una risposta al problema, estraiamo bernoullianamente (cioè con reimmissione) da P un campione di ampiezza n ottenendo (x 1 , x2 , ..., xn ) . Al variare del campione ciascuna x i descriverà una v.c. Xi con la stessa struttura della popolazione e precisamente P(Xi = 1) = p; P(Xi = 0) = 1-p = q, per i =1, 2, ..., n . In altri termini, ciascuna Xi è una v.c. di Bernoulli indipendente e la stima ottimale di p è data semplicemente dalla frequenza relativa: ˆp = x 1 + x 2 + ... + x n n che, per quanto già visto per la v.c. Binomiale frequenza, risulta ˆp ~ BF(n, p) con E( ˆp ) = p , var( ˆp ) = pq . n Ma allora, ricorrendo ad una procedura simile a quella del test sulla media, si può utilizzare come statistica test la seguente Introduzione al test delle ipotesi zc= ˆp − po = po ( 1 − po ) n 179 n ( ˆp − po ) po ( 1 − po ) ed è facile verificare che, al variare del campione, se Ho è vera, zc descrive la v. c. Zc con E(Zc) = 0, var(Zc) = 1. La distribuzione esatta di Z è di complessa derivazione. D’altro lato, ricordando il teorema del limite centrale, si ricava facilmente che per n moderatamente grande si ha Zc ≈ N(0, 1). In pratica, si può ritenere n grande se risulta n>10 nel caso in cui sia p≈q e negli altri casi se è npo ( 1 − po ) ≥ 15 30 Hpo ( 1 − po ) n ≥ 3 Hpo ( 1 − po ) − 11 in queste condizioni si rifiuterà Ho al livello α se risulta zc > z(1-α). Se l’ipotesi alternativa è H1: p < po la relativa regione critica al livello α è data da zc < z(α) = - z(1-α), mentre se l’ipotesi alternativa è H1: p ≠ po la regione di rifiuto al livello α è data da | zc | > z(1-α/2) ove le quantità del tipo z(α) sono i percentili della normale standardizzata e sono riportati nelle tavole della normale standardizzata. Capitolo 5 180 TEST SUL CONFRONTO DI DUE PERCENTUALI Nel caso in cui si voglia sottoporre a confronto le percentuali p1 e p2 di due popolazioni dicotomiche: Ho : p1 = p2 verso H1 : p1 > p2 utilizzando le informazioni di due campioni bernoulliani estratti indipendentemente da ciascuna delle due popolazioni: x 11 , x12 , ..., x1n ; x 21 , x22 , ..., x2m con ragionamenti del tutto simili si ha che la statistica test risulta pari a zc= p̂1 − p̂ 2 [ p̂( 1 − ˆp )](1/ n + 1/ m) ove abbiamo posto: n ˆp 1 = ∑x i =1 n m 1i , ˆp 2 = ∑x 2i i =1 m , ˆp = n p̂1 + m p̂ 2 . n +m Sotto Ho , per n ed m sufficientemente grandi, risulta Zc ≈ N(0, 1) per cui si rifiuterà Ho al livello α se risulta z c > z(1-α). Per i casi H1: p1 < p2 ed H1: p1 ≠ p2 si procede con la usuale tecnica vista precedentemente. Se l’estrazione campionaria è fatta senza reimmissione, come succede nelle pratiche applicazioni, gli sviluppi formali sono più complessi anche se i risultati finali si modificano solo marginalmente. Infatti, in questo caso, indicando con f = n la percentuale di elementi estratti dalla popolazione, detta anche frazione di H campionamento, si dimostra che è ancora Introduzione al test delle ipotesi mentre ˆp = x 1 + x 2 + ... + x n ; n var( ˆp ) = 181 E( ˆp ) = p pq (1 − f ) n e sotto Ho , se n è grande ed f piccola, si ottiene zc = p̂ − p o po(1− po ) (1 − f ) n che al variare del campione si distribuisce con buona approssimazione come una v.c. N(0, 1) e quindi la regione critica è definita come al solito. E’ interessante osservare che per popolazioni infinitamente grandi è f = 0 ed i risultati, come intuitivamente atteso, coincidono con quelli dell’estrazione bernoulliana. Esempio 6 In una fabbrica con H=1120 operai ve ne sono alcuni che soffrono di una determinata allergia che si sospetta dovuta alla presenza di una particolare sostanza usata nella lavorazione. Inoltre, è noto che nella popolazione in generale la percentuale di coloro che soffrono di quella allergia, è pari a po = 0.30. Si vuole stabilire se fra gli operai della fabbrica vi è una maggiore incidenza di quella patologia rispetto a quanto succede nella popolazione in generale oppure no. In tal caso bisogna sottoporre a test Ho : p = po = 0.3 verso H1 : p>0.3 Per rispondere al quesito viene estratto a caso un campione di N=95 operai e sottoposti alla relativa prova allergologica. Da queste prove è risultato che 36 operai erano allergici alla sostanza sospetta e 59 non allergici. Avremo, pertanto ˆp = 36/95 =0.379, 1- ˆp = 59/95 = 0.621 e quindi, supponendo che l’estrazione sia bernoulliana otteniamo z c = 1.68 e dato che per α = 0.05 risulta z(1-0.05) = 1.65, rifiuto l’ipotesi Ho al livello del 5%. Se l’estrazione fosse stata effettuata senza reimmissione in tal caso avremmo avuto f= 95/1120 Capitolo 5 182 = 0.084821 e quindi z c = 1.756 ed anche in questo caso avremmo rifiutato Ho al livello del 5%. In definitiva possiamo dire che, con un livello di errore del primo tipo pari al 5%, la sostanza utilizzata in quella produzione ha una incidenza nell’allergia superiore a quanto riscontrato nella popolazione. Osserviamo, infine, che in questo caso si ha np o ( 1 − po ) = 19.95 > 15 30 npo ( 1 − po 95 > 3 np ( 1 − p ) −11 = 55.8 o o e quindi l’approssimazione alla normale risulta giustificata. TEST SU DATI APPAIATI Supponiamo di avere una popolazione doppia (X,Y) e precisamente (X, Y)~N(µx , µy , σ 2x , σ 2y , σx y ), ove i cinque parametri della normale doppia sono incogniti, e si voglia sottoporre a test Ho : µy ≤ µx verso H1 : µy > µx sulla base di un campione di ampiezza n estratto da (X,Y) : (x 1 , y1 ), (x 2 , y2 ), ..., (x n , yn ) . Osserviamo che, affinché il test abbia senso, i due caratteri X ed Y devono essere confrontabili. In particolare X può essere interpretato come il carattere di controllo, mentre Y come il trattamento in un dato esperimento a cui gli n soggetti sono stati sottoposti. Per esempio se ad n individui viene prima somministrato, a loro insaputa, un placebo e poi un dato farmaco allora X è l’effetto placebo ed Y l’effetto farmaco. Osserviamo ancora che in situazioni del genere fra X ed Y esiste di solito un qualche legame lineare misurato da σx y di cui bisogna tener conto nel test. In altri termini, si tratta di un test sul confronto fra medie con dati dipendenti. Osserviamo inoltre che, per ciascun soggetto, la decisione di somministrare prima il farmaco o prima il placebo viene effettuata a caso. La derivazione formale del test avviene con una procedure simile, anche se più elaborata, a quella illustrata nel caso di X ed Y indipendenti. Qui di seguito riportiamo, per semplicità, la giustificazione empirica. Introduzione al test delle ipotesi 183 Anche in questo caso è plausibile rifiutare Ho se ( y - x ) è positiva e grande e quindi bisogna stabilire quando quella quantità è grande e quando è piccola. Se Ho è vera, per una proprietà della normale, al variare del campione si ha σ x2 +σ 2y − 2σxy Y − X ~ N 0 ; n ( ) e standardizzando si ottiene ( ) +σ 2y − 2σ xy n Y −X σ x2 ~ N(0, 1). Sostituendo in quest’ultima espressione al posto di σ 2x , σ 2y , σx ottimale data rispettivamente da s 2x = 1 n −1 n ∑ ( x i − x )2 ; s 2y = i =1 sxy = 1 n −1 si ricava tc = n ∑( x i n ∑( y i i =1 −x )( y i − y ) i =1 ( n Y −X s x2 1 n −1 +s 2y ) − 2 s xy ~T(n-1) . Si rifiuta Ho al livello prefissato α se risulta tc > t(n-1; 1-α). Con un ragionamento simile: a) si rifiuta Ho : µy ≥ µx verso H1 : µy < µx se tc < -t(n-1; 1-α) , y − y) 2 la loro stima Capitolo 5 184 b) si rifiuta Ho : µy = µx verso H1 : µy ≠ µx se |tc | < t(n-1; 1-α/2) . Notare che posto D = Y - X, che rappresenta il vantaggio del trattamento sul controllo, si ha immediatamente var(D) = var(Y-X) = σ x2 + σ 2y − 2σ xy ( D ~ N µz , σ z2 = σ x2 + σ 2y − 2σ xy ) di = yi - xi , i = 1, 2, ..., n ; d= 1 n n ∑ ( y i − xi ) = y - x ; var(D ) = σ x2 + σ 2y − 2σ xy i =1 s 2D = n 1 n ( d − d ) 2 = s 2x + s 2y - 2 sx y , n − 1 i =1 i ∑ e la statistica test tc si può scrivere più semplicemente come tc = nd ~ T(n-1) . sD In altri termini, il test su dati appaiati si riduce al test sulla media di Z ed in questo particolare caso si testa Ho : µD ≤ 0 verso H1 : µD > 0. Si osservi che nelle pratiche applicazioni è conveniente calcolare la statistica test in questo ultimo modo. Esempio 7 Nella tabella seguente abbiamo riportato il consumo di gasolio per miglia di N=7 macchine prima (X) e dopo un dato trattamento (Y) Introduzione al test delle ipotesi Macchine xi yi di=yi -xi 1 17.2 18.3 1.1 2 21.6 20.8 -0.8 3 19.5 20.9 1.4 4 19.1 21.2 2.1 185 5 22.0 22.7 0.7 6 18.7 18.6 -0.1 7 20.3 21.9 1.6 Si vuole sottoporre a test l’ipotesi che il trattamento non ha avuto, in media, alcun effetto contro l’ipotesi che ha avuto un effetto positivo. Per far questo utilizziamo il test per dati appaiati calcolando la stima della media e della varianza di Z. Otteniamo: d= 1. 1 − 0.8 + 1.4 + 2.1 + 0.7 − 0.1 + 1.6 6 = = 0.857 7 7 s 2D = 1.022857 e quindi tc = 7 0.857 = 2.237 1.0136 e dato che al livello α = 0.05 risulta t(6;1-0.05) = 1.943 avremo tc =2.237 > t(6;1-0.05) = 1.943 per cui rifiuteremo l’ipotesi che il trattamento non abbia alcun effetto e siamo portati ad accettare quella che abbia, invece, un effetto positivo. Notare che se in questo caso non avessimo tenuto conto della dipendenza dei dati avremmo dovuto utilizzare la statistica test tc = x−y ( ( n −1 ) s x2 + s 2y ) n 2 ( n −1 ) n ottenendo tc = 0.97 che ci porterebbe, erroneamente, all’accettazione di Ho e quindi al rifiuto che il trattamento abbia in media effetto sul consumo di gasolio. TEST SULLA VARIANZA Supponiamo che sia X1~N(µ ; σ 2), con µ e σ 2 incogniti, e si voglia sottoporre a test, utilizzando la MLR, le ipotesi. Ho : σ 2 = σ 2 o verso H1 : σ 2 > σ Nella figura che segue sono indicati gli spazi Ω , Θ1 , Θo . 2 o Capitolo 5 186 Ω Abbiamo già visto che è 1 L(x n ; µ , σ 2) = (2πσ 2)-n/2 exp − 2 2σ ∑ (x − µ)2 . i e dopo alcuni sviluppi si ottiene il rapporto di massima verosimiglianza: S2 λ( x n ) = 2 σo n /2 2 1 n exp − ( x i − x ) + 2 ∑ 2 2σ o dopo una serie di passaggi risulta si rifiuta Ho al livello α se 1 σ 02 ∑ ( x i − x ) 2 > χ (2n−1; 1−α) ⇔ χ c2 = ( n −1)s 2 σ o2 = nS 2 >χ σ o2 2 ( n−1 ;1 −α) . Introduzione al test delle ipotesi 187 Se le ipotesi da sottoporre a verifica sono Ho : σ 2 = σ 2 o H1 : σ 2 < σ verso 2 o la regione critica per Ho , con gli stessi ragionamenti, diventa 1 σ 02 ∑( x i − x ) 2 <χ 2 ( n −1 ; 1−α) χ c2 ⇔ = ( n −1)s 2 σ o2 nS 2 = 2 < χ (2n −1; 1−α) σo Giustificazione empirica Qui di seguito diamo una giustificazione empirica per la determinazione della regione di rifiuto del test. Osserviamo che si vuole sottoporre a test Ho : σ 2 = σ o2 ⇔ σ2 =1 σ o2 H1 : σ 2 > σ o2 verso ⇔ σ2 >1 σ o2 sulla base di un campione casuale (x 1 , x2 , ..., xn ) estratto da X~N(µ , σ 2). Sappiamo che la stima ottimale per σ 2 è s 2 e quindi risulta plausibile utilizzare come statistica test s2 σ o2 nel senso che più questa quantità è grande più si è portati a rifiutare Ho . Ma sappiamo che, se è vera Ho , al variare del campione è χc = ( n −1)s 2 σ o2 = n S2 σ o2 ~ χ (2n −1 ) che è pivotale e quindi utilizzabile per costruire il test. Esempio 8 2 Data la popolazione X~N( µ ; σ ) si voglia sottoporre a test Capitolo 5 188 Ho : σ 2 = σ o2 = 4 verso H1 : σ 2 > σ 2 o tenuto conto che sulla base di un campione di n=26 osservazioni risulta x = 3; s 2 = 1 n n ∑( x i − 3 ) 2 = 6.3 i =1 Sappiamo che la regione di rifiuto per Ho è data da χ c2 = n ∑ i =1 xi −x σ o 2 ( n − 1 ) s 2 nS 2 = = 2 ≥ χ (2n −1; 1−α) 2 σo σo nel nostro caso si ha 6.3 = 39.375 4 mentre dalle tavole del Chi-quadrato con (n-1) = 25 gradi di libertà risulta χ c2 = 25 χ (2n −1; 1−0.05 ) = 37.7; χ (2n −1;, 1−0.01 ) = 44.3 ed essendo χ 2 c < χ (2n −1; 1−0.05 ) = 37.7 e χ 2 c > χ (2n −1; 1−0.01 ) = 44.3 si rifiuta Ho al livello del 5%, ma non si può rifiutare al livello dell’1%. In altri termini, il test è significativo al 5%. CONFRONTO FRA DUE VARIANZE Supponiamo che siano X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) due popolazioni indipendenti e si voglia sottoporre a test le ipotesi Ho : σ 12 = σ 22 = σ2 verso H1 : σ 12 > σ utilizzando le informazioni contenute nei due campioni casuali x 1 = (x 11 , ..., x1n ); In questo caso è x 2 = (x 21 , ..., x2m ) . 2 2 Introduzione al test delle ipotesi 189 Θo = {µ1 , µ2 , σ 2} Ω = {µ1 , µ2 , σ 12 , σ 22 } e quindi max L( µ1 , µ2 , σ 12 , σ 22 ) = max L 1( µ1 , σ 12) max L 2 ( µ2 , σ 22 ) Ω Ω Ω 2 2 2 max L( µ1 , µ2 ,σ ) = max L 1( µ1 , σ ) max L 2( µ2 , σ ) Θo Θo Θo E dopo alcuni passaggi dato che sotto Ho , è n ∑( X 1i F= i =1 m ∑( X 2i X1 ) 2 /( n − 1 ) = X 21 ) 2 /( m −1 ) s 12 ~ F( n −1; m −1 ) s 22 i =1 In conclusione, si rifiuta Ho al livello α se risulta Fc = s12 s 22 = n − 1 m S12 > F(n-1, m-1;1-α) . n m − 1 S 22 Per calcolare Fc si pone al numeratore la stima della varianza supposta in H1 maggiore. Naturalmente i valori della F(n-1, m-1;1-α) si ricercano sulle tavole della F-di Fisher con (n-1 , m-1) gradi di libertà al livello 1-α. Giustificazione empirica Sappiamo che X1~ N(µ1 ; σ 12 ) e X2~ N(µ2 ; σ 22 ) sono indipendenti e si vuole sottoporre a test le ipotesi Ho : σ 12 = σ 22 ⇔ σ12 =1 σ 22 verso H1 : σ 12 > σ 22 ⇔ utilizzando le informazioni contenute nei due campioni casuali x 1 = (x 11 , ..., x1n ); x 2 = (x 21 , ..., x2m ). σ12 >1 σ 22 Capitolo 5 190 Consideriamo le stime ottimali di σ 12 e σ 22 ottenendo s 12 e s 22 e la statistica s 12 s 22 che ci porterà a rifiutare Ho quanto più questa è di molto più grande di 1, ma sappiamo che sotto Ho è s 12 ~ F( n-1 , s 22 Fc = m-1) che è pivotale e quindi utile per costruire il test. Esempio 9 Supponiamo che sia X1~N(µ1 ; σ 12 ) e X2~N(µ2 ; σ 22 ) si vuole sottoporre a test le ipotesi Ho : σ 12 = σ 22 verso H1 : σ 12 > σ 22 sulla base di un campione di n=15 elementi estratti da X1 , che ha fornito s 12 = 1 n −1 ∑ (x 1i − x 1 ) 2 = 8, ed un campione di m=20 elementi estratti da X2 , che ha fornito s 22 = 1 m −1 ∑ (x 2i − x 2 ) 2 = 4. Sappiamo che in tali circostanze la regione critica ottimale è data da Fc = s 12 > F(n-1, m-1; s 22 1-α) e nel nostro caso è Fc = 2 ; F(14 , 19 ; 1- 0.05) = 2.23 Introduzione al test delle ipotesi 191 per cui non si può rifiutare Ho al livello α = 5%. TEST SUL COEFFICIENTE DI CORRELAZIONE Bisogna distinguere due casi: ρ = 0 e ρ ≠ 0. Caso di ρ=0 Supponiamo di avere la v.c. doppia (X, Y)~N2(µ1 , µ2 , σ 2x , σ voglia sottoporre a test Ho : ρ = 0 2 y , ρ) e si H1 : ρ ≠ 0 verso sulla base del campione (x 1 , y1 ),…,(x n , yn ) estratto dalla normale doppia (X, Y). In tal caso sappiamo che, sotto Ho , è tc = r n−2 2 ~ T(n-2) 1−r ove r è la stima dei momenti di ρ: ( x i −x )( y i − y ) r= ( x i −x ) 2 ( yi − y )2 ∑ ∑ ∑ Si rifiuta, al livello α, Ho se è |tc| = |r | n − 2 1−r 2 > t(n-2; 1-α/2) . Caso di ρ ≠ 0 Si voglia sottoporre a test Ho : ρ = ρo ≠ 0 verso H1: ρ ≠ ρo , con 0 < |ρo | < 1. È possibile trovare solo una regione approssimata basata sulla seguente trasformazione (detta di Fisher) Capitolo 5 192 zc= 1 1 + r log ; 2 1 − r 1 1 + ρo log 2 1 − ρ o zo = dato che si può dimostrare, come accennato nel capitolo precedente, che sotto Ho al variare del campione è (Z c – z o ) L n − 3 → N(0; 1), questo risultato ci permette di derivare la seguente regione critica approssimata. Per n moderatamente grande si rifiuta, al livello α , Ho se risulta z c − z o n − 3 > z (1-α/2 ) , ove, al solito, con z(1-α/2) si è indicato l’(1-α/2)-esimo percentile della normale standardizzata. Esempio 10 Data la normale doppia (X, Y), vogliamo sottoporre a test le ipotesi Ho : ρ = 0.5 verso H1: ρ ≠ 0.5 sulla base di un campione di n=103 elementi e con r = 0.4. In queste condizioni è zc = e quindi 1 1. 4 log = 0.4236; 2 0.6 zo = 1 1.5 log = 0.549 2 0. 5 |z c – z o | 103 − 3 = |0.4236 - 0.549|10 = 1.254 Dalle tavole della normale standardizzata, con α =0.05, risulta z(1- 0.025) = 1.96, e con quel fissato α non si può rifiutare Ho . 5.7 Alcuni test non parametrici In questo paragrafo presenteremo brevemente alcuni test non parametrici di diffusa utilizzazione in una grande varietà di pratiche applicazioni. Introduzione al test delle ipotesi 193 TEST DI ADATTAMENTO Supponiamo di avere una qualsiasi v.c. X discreta o discretizzata con struttura probabilistica incognita ed una v.c. Y discreta o discretizzata nota. Inoltre, supponiamo che entrambe assumano le stesse modalità ai , le modalità possono essere sia delle qualità che delle quantità. In particolare supponiamo che la d istribuzione di Y sia la seguente yi pio a1 p1o a2 p2o a3 p3o ... ak pko ... Tot. 1 Se poniamo pi = P(X = ai ), i =1, 2, ...,k , le ipotesi che vogliamo sottoporre a test sono Ho : pi = pio , i=1,2,..,k, ⇔ Distrib.(X) = Distrib.(Y) H1 : pi ≠ pio , per almeno una i ⇔ Distrib.(X) ≠ Distrib.(Y) Queste ipotesi vanno verificate sulla base di un campione di ampiezza n estratto bernoullianamente da X e riportato nella distribuzione di frequenza della tabella seguente Valori xi Frequenze ni Stime di pi a1 n1 ˆp 1 a2 n2 ˆp 2 … … … ak nk ˆp k Tot. n 1 ove con ni abbiamo indicato la frequenza assoluta riferita alla modalità ai e con ˆp i = ni /n la frequenza relativa, cioè la percentuale delle volte che su n prove fatte su X si è presentato il risultato ai che, per quanto detto nel capitolo relativo alle variabili casuali, sono stime ottimali delle probabilità pi . Questo tipo di test lo risolveremo in due modi alternativi, ma che, di solito, portano agli stessi risultati. Il primo modo è quello di calcolare il rapporto di massima verosimiglianza ed utilizzare l’approssimazione asintotica. Precisamente, in questo caso è Dimensione( Ω) = k-1; Dimensione( Θo ) = 0, Capitolo 5 194 notare che la dimensione di Ω è k-1 dato che le variabili sono k date da p1 , ..., pk ed esiste l’unico vincolo ∑p io = ∑p i = 1. Tenuto conto che ad ogni estrazione campionaria di tipo bernoulliano è associata una v.c. di Bernoulli, avremo n v.c. di Bernoulli indipendenti di cui n1 assumeranno il valore a1 con probabilità p1 , n2 assumeranno il valore a2 con probabilità p2 , ..., nk assumeranno il valore ak con probabilità pk ; la relativa funzione di verosimiglianza sarà data da k L(pi ) = ∏ p nii i =1 e il rapporto di massima verosimiglianza è k λ= ∏ p nioi ∏ ni i i =1 k k = p̂ ∏ i =1 n p io i = n n p̂ i k ∏ i =1 n p io i ni i =1 e quindi, per n sufficientemente grande, sotto Ho si ha -2 log(λ) = - 2 k ∑ ni log (pio / ˆpi ) = -2n log(n) - 2 i =1 k p ∑ n i log nioi ≈ χ i =1 2 ( k −1 ) Si rifiuta Ho al livello α se risulta -2 log(λ) > χ 2 ( k−1, 1−α) . Alternativamente, si può anche dimostrare che, se n pio ≥ 5 per tutti gli i =1, 2 ,…,k, allora se Ho è vera risulta χ 2c = ( n i − n pio ) 2 = n pio i =1 k ∑ k ∑ i =1 n 2i − n ≈ χ(2k −1 ) n p io Introduzione al test delle ipotesi 195 e si rifiuta Ho al livello α se risulta χ c2 > χ (2k −1; 1−α) . Il test basato sul Chi-quadrato sopra descritto è indipendente dalle modalità ai e quindi può essere applicato anche a fenomeni qualitativi non ordinabili. Si dimostra che questo test è poco potente, cioè la probabilità dell’errore del secondo tipo è elevata e si tende a non rifiutare Ho anche quando è manifestamente falsa. Se la distribuzione della v.c. di confronto Y è continua, per esempio nell’intervallo (a, b) contenente il minimo ed il massimo delle ai , e se supponiamo che le ai siano state ordinate in senso crescente, questa viene discretizzata calcolando le probabilità pio = P{hi-1 ≤ Y < hi}, per i=2,...,k-1 p1o = P{a ≤ Y < h2}; pko = P{hk-1 ≤ Y ≤ b} ove si è posto hi = (ai + ai+1)/2. Queste probabilità verranno utilizzate per calcolare la relativa regione critica. Esempio 11 In un grande magazzino si suppone che la probabilità che un avventore entri nel negozio e faccia delle compere in uno dei sei giorni lavorativi della settimana è data da: giorni: pio: L 0.1 M 0.1 M 0.1 G 0.1 V 0.2 S 0.4 Si vuole verificare tale ipotesi sulla base di una indagine campionaria fatta su n=200 clienti scelti a caso che ha dato i seguenti risultati Capitolo 5 196 Distribuzione empirica giorni L M M G V S Tot.200 Distribuzione teorica ni ˆpi giorni 24 25 23 18 45 65 0.120 0.125 0.115 0.090 0.225 0.325 1.000 Tot. L M M G V S n pio 20 20 20 20 40 80 200 Sappiamo che una regione critica approssimata è data da k ∑ -2log(λ) = -2 i =1 p ni log io > χ (2k −1; 1−α ) p̂ i ove k rappresenta il numero delle modalità della distribuzione, ed una alternativa alla precedente è data da k ( n i − np i ) 2 χ c2 = > χ (2k −1; 1−α ) np i i =1 ∑ È facile verificare che nel nostro esempio risulta -2log(λ) = -2 k ∑ i =1 χ c2 = k ∑ i =1 χ p ni log io = 6.152 p̂ i ( n i − n p io ) 2 = 6.1375 n pio 2 ( k −1 ,1−0 .05 ) = 11.1 ed ambedue le regioni critiche ci portano all’accettazione di Ho . TEST SULL’INDIPENDENZA Data una qualsiasi v.c. doppia (X, Y) discreta si vuole sottoporre a test Ho : X ed Y sono indipendenti Introduzione al test delle ipotesi 197 verso H1 : X ed Y non sono indipendenti sulla base di un campione casuale di n unità estratto da (X, Y). Se supponiamo che X ed Y sono v.c. discrete o discretizzate ed assumono coppie di valori (x i , yj ) per cui P(X=x i , Y=yj )= pi j , i=1, ..., k , j=1, ..., h , allora l’ipotesi Ho è equivalente alla seguente Ho : pi j = pi . p. j , per ogni i , j , ove con pi. e p.j abbiamo indicato le probabilità delle marginali X ed Y e più precisamente pi . = P(X = xi ) , p. j = P( Y = yj ) . I risultati del campione possono essere riportati in una tabella a doppia e ntrata del tipo seguente Y\X y1 y2 ... yk x1 x2 … xh n11 n12 ... n1k n1 . n21 n22 ... n2k n2 . … … ... .. ... nh 1 nh 2 ... nhk nh . n. 1 n. 2 ... n. k n in cui le marginali ni . ed n. j sono supposte fissate e quindi uguali per tutti i possibili campioni di ampiezza n che si possono estrarre da (X, Y). In queste condizioni risulta Dimensione( Ω) = h k-1; Dimensione( Θo ) = h-1+k-1 e quindi Dimensione( Ω) - Dimensione( Θo ) = h k-1- (h-1+k-1) = (h-1) (k-1) e questo perché esistono i vincoli: (a) la somma delle frequenze ni j deve essere pari ad n, (b) le frequenze marginali sono fissate. Capitolo 5 198 Con un ragionamento simile a quello fatto per il test di adattamento, si verifica facilmente che la funzione di verosimiglianza è data da L(pij ) = ∏p n ij ij i,j ed il rapporto di massima verosimiglianza diviene k λ= h ∏ p̂ ∏ p̂ ni. i. i =1 n.j .j j =1 k h i =1 j =1 ∏∏ ˆp nij ij ove si è posto ˆpi . = n i . ; n ˆp. j = n.j n ; ˆpij = n ij n Anche in questo caso, per N sufficientemente grande, sotto Ho risulta -2 log( λ ) = ∑∑ n =2 i ij log( n ij ) + n log( n ) − ∑ ni . log( ni . ) − ∑ n. j log( n. j ) ≈ χ i j j 2 ( k −1 )( h −1 ) e si rifiuta Ho al livello α se è -2 log( λ) >χ 2[( k−1 )( h −1 ); 1−α ] . ni .n. j ≥ 5, per ogni i, j (in altri termini, in ogni n casella della tabella doppia teorica le frequenze sono pari ad almeno 5), allora Si dimostra anche che, se Introduzione al test delle ipotesi χ c2 = k h ∑∑ ( n ij − n *ij ) 2 n *ij i =1 j 199 ≈ χ (2k−1 )( h−1 ) ove si è posto n *ij = ni . n. j n e si rifiuta per Ho al livello α se risulta χ c2 > χ 2 [( k−1 )( h −1 ); 1−α] . Esempio 12 Data la seguente tabella che classifica i voti, riportati da un campione casuale di studenti, per classi di voti e diversa facoltà Fac.\ Voti A B C D Totale 18-21 15 3 4 10 32 22-24 8 2 3 4 17 25-27 10 4 8 0 22 28-30 7 6 5 11 29 Totale 40 15 20 25 100 si vuole sottoporre a verifica l’ipotesi che Voti e Facoltà siano indipendenti. Per far questo a ccorpiamo le righe A e B da un lato e quelle C e D dall’altro, inoltre mettiamo insieme le c olonne 18-21 e 22-24. In tal modo otteniamo la seguente tabella Fac.\ Voti A ∪B C ∪D Totale 18-24 28 21 49 25-27 14 8 22 28-30 13 16 29 per la quale, a differenza di quella originaria, è sempre n *ij = ni .n. j n e la relativa regione critica al livello α è data da ≥5 Totale 55 45 100 Capitolo 5 200 χ c2 = ∑∑ i ( n ij − n *ij ) 2 n *ij j > χ ((2h −1 )( k−1 );1−α ) o equivalentemente χ c2 = n n 2ij ∑∑ n n i j i. j. − 1 > χ ((2h −1 )( k−1 );1−α ) Tenuto conto che è χ c2 = 1.966 χ (22 ,1 −.05 ) = 5.99 non è possibile rifiutare Ho al livello di probabilità del 5%. Se utilizziamo la regione critica ottenuta con il rapporto di verosimiglianza si ottiene - 2 log(λ) = 5.452 ed ancora una volta non è possibile rifiutare Ho . TEST DI WILCOXON Questo test viene utilizzato per confrontare due medie, relative a popolazioni indipendenti, quando non è plausibile l’ipotesi di normalità delle stesse e la numerosità dei due campioni è relativamente piccola. Supponiamo di avere le due popolazioni X ed Y con funzione di ripartizioni date rispettivamente da F(t) e G(t) incognite. Si vuole sottoporre a test Ho : F(t) = G(t) verso H1 : G(t) ≤ F(t) . Notiamo che se H1 è vera la v.c. Y tende ad assumere valori più grandi della v.c. X. Inoltre, tenendo conto che F(t) = P(X ≤ t) e G(t) = P(Y ≤ t) segue che, se H1 è vera, deve essere P(Y>t) ≥ P(X>t) = 1-G(t) ≥ 1-F(t) Questo vuol dire che, equivalentemente, si ha ⇔ G(t) ≤ F(t). Introduzione al test delle ipotesi H1: P(Y>t) ≥ P(X>t) ⇔ 201 G(t) ≤ F(t). Se la H1 è vera si dice che Y è stocasticamente più grande di X. Graficamente, se è vera H1 , si ha una situazione come quella descritta nella figura seguente Per risolvere il problema se accettare o rifiutare Ho estraiamo, senza ripetizione, da X un campione di ampiezza n e, indipendentemente, da Y un campione di ampiezza m ottenendo rispettivamente: x 1 , x2 , ...., xn y1 , y2 , ...., ym Consideriamo il campione di ampiezza n +m: x 1 , x2 , ...., xn , y1 , y2 , ...., ym , ordiniamolo in senso crescente ed associamogli i primi n+m numeri interi: In,m = {1, 2, ..., n, n+1, n+2, ..., n+m}; consideriamo i ranghi delle n estrazioni dalla X e delle m estrazioni dalla Y {r 1 , r2 , ..., rn } {r n+1 , rn+2 , ..., rn+m } ove: r 1 è il posto occupato dalla X1 in In, m r 2 è il posto occupato dalla X2 in In, m .............................................. r n è il posto occupato dalla Xn in In, m Capitolo 5 202 r n+1 è il posto occupato dalla Y1 in In, m ............................................... r n+m è il posto occupato dalla Ym in In, m Bisogna ora: (a) selezionare una statistica test, (b) trovare il valore soglia per il test, fissato α . Si può dimostrare che non esiste una soluzione ottimale per il punto (a), d’altro lato è intuitivo capire che più la media delle Y è grande rispetto alla m edia delle X, più si è portati a rifiutare Ho . In questa ottica, siccome non conosciamo la distribuzione di X e di Y e quindi non abbiamo informazioni sulle loro medie, la cosa più ovvia è di confrontare la media di {r 1 , r2 , ..., rn } con quella di {r n+1 , rn+2 , ..., rn+m } costruendo, in similitudine a quanto fatto per il confronto di due medie provenienti da due popolazioni normali indipendenti, la relativa statistica tc : tc = r 2 − r1 n +m 1 ( ri − r ) 2 n + m − 2 i =1 ∑ nm n+m ove si è posto: 1 n r1 = n ∑ ri ; r2 = i =1 1 n+m ri ; m i = n +1 ∑ r= 1 n +m ri . n + m i =1 ∑ Ricordando quanto detto per l’uniforme discreta, si ha immediatamente r= n + m +1 ; 2 n+m ∑ (r i − r ) 2 = (n+m) i =1 Inoltre n+m ∑ i =1 ri = n ∑ ri + ma allora, posto è facile verificare che è ∑ i =n +1 i =1 Wc = n +m n +m ∑ i =n +1 ri ri ( n + m ) 2 −1 . 12 Introduzione al test delle ipotesi 1 12 nm( n + m − 2 ) tc = m ( n + m ) 2 −1 1 /2 203 1/ 2 3nm( n + m − 2 ) Wc - (n+m+1) 2 ( n + m ) −1 . Notiamo che tc dipende, a meno di costanti note, funzioni di n e di m, solo da Wc . La statistica Wc è detta statistica di Wilcoxon. In definitiva, possiamo affermare che per sottoporre a test Ho basta calcolare solo Wc , cioè la somma dei ranghi del campione estratto da Y (quello supposto statisticamente più grande). Per derivare il valore critico, fissato α = P(E1 ), è necessario derivare, sotto l’ipotesi Ho , la distribuzione di Wc al variare dei due campioni estratti rispettivamente da X e da Y. Osserviamo che Wc assume il valore minimo quando tutti gli m ranghi delle Yi sono ai primi m posti ed in tal caso si ha Wm= 1+2+...+m=m(m+1)/2, mentre assume il valore massimo quando tutti gli m ranghi delle Yi sono agli ultimi m posti ed in tal caso si ha WM= (n+1)+(n+2)+...(n+m)=m(m+2n+1)/2 e quindi si ha che m( m + 1) m( m + 2 n + 1 ) ≤ Wc ≤ 2 2 e di conseguenza si è portati a rifiutare Ho quando Wc è grande. L’esempio che segue mostra come il test va costruito in un caso concreto. Esempio 13 I controllori di un impianto nucleare operano con due differenti politiche, diciamo la PI e la PII. Nella tabella che segue sono riportati i tempi, misurati in ore, fino a che si verifica un guasto sia sotto PI che sotto PII. Si vuole sottoporre a test Ho : PI = PII H1 : PII migliore di PI ⇔ GII(t) ≤ FI(t) Per stabilire se accettare o rifiutare Ho furono condotti n=5 esperimenti sotto PI e m=5 sotto PII ottenendo X: PI Y: PII 1 7 3 2 26 150 3 10 40 4 8 34 5 29 32 Capitolo 5 204 In questo caso è n=m=5. Attribuiamo i ranghi alle n+m=10 osservazioni, per far questo dobbiamo in primo luogo ordinare le 10 osservazioni in senso crescente indicando quale si riferisce ad X e quale ad Y ed otteniamo: ri X Y 1 3 2 7 x 3 8 x 4 10 x 5 26 x 6 29 x y 7 32 8 34 9 40 10 150 y y y y I ranghi saranno (r 1 , r2 , r3 , r4 , r5 ) = (2, 3, 4, 5, 6) per il carattere X (r 6 , r7 , r8 , r9 , r10 ) = (1, 7, 8, 9, 10) per il carattere Y Avremo Wc = 1+7+8+9+10 = 35 Bisogna verificare se il valore Wc=35 è da considerare “grande” oppure piccolo. Nel caso in questione, sappiamo che è 15 ≤ Wc ≤ 40 e quindi: più Wc è “vicino” a 40 più siamo portati a rifiutare Ho più Wc è “vicino” a 15 più siamo portati ad accettare Ho Per stabilire se Wc =35 è grande o piccolo è necessario calcolare la probabilità, ottenuta al variare del campione nell’universo campionario, dell’evento: (W ≥ 35 sotto l’ipotesi che Ho sia vera). Se questa probabilità è “grande” sono portato ad accettare Ho , se è “piccola” sono portato a rifiutare Ho . In termini formali bisogna calcolare: p = P(W ≥ 35 | Ho ). Osserviamo che se in questo caso usassimo l’usuale test t sul confronto fra due medie indipendenti otterremmo x = 16 tc = y = 51.8 s 2x = 90 51.8 − 16 4( 90 ) + 4( 2574.56 ) s 2y = 2574.56 25( 5 + 5 − 2 ) = 1.55 10 Introduzione al test delle ipotesi 205 e rifiuteremmo Ho (cioè che µx e µy sono uguali) con una probabilità compresa fra 5% e 10%. Notiamo ancora che in questo caso l’ipotesi che le due varianze siano uguali (indispensabile per poter applicare correttamente il t-test) non può essere accettata dato che risulta Fc = s 2y s 2x = 28.61 mentre F(4, 4; 1-0.01) = 16.00 cosa che può avere forti conseguenze sulla potenza del test t. Per l’uso del test W sono state costruite delle tavole, riportate in appendice, che permettono di calcolare p a partire dalla distribuzione di U=W- m( m + 1) 2 con n, m ≤ 10 ed m ≥ n. Le tavole suddette riportano le probabilità m( m + 1 ) m( m + 1 ) P(W ≥ Wc ) = P W − ≥ Wc − = 2 2 m( m +1 ) = P U ≥ Wc − = P{U ≥ n m - a} = P{U ≤ a} 2 in funzione delle costanti a = n m - Wc+ m( m + 1) 2 k1 = min{n, m} k2 = max{n, m} Esempio 14 Nel caso dell’esempio precedente risulta: Con P(W ≥ 35) = P{U ≥ 25 - 5} Wc = 35; n = 5; m = 5; k1 = 5; k2 = 5; a = 25-35+15 = 5 ed in corrispondenza della tripla Capitolo 5 206 (k1 = 5; k2 = 5; a = 5) dalla tavola citata si trova p = 0.0754 che è vicino a quello trovato sotto l’ipotesi di normalità e di uguale variabilità di X ed Y. Nel caso in cui è n, m > 10 il valore di p può essere trovato utilizzando l’approssimazione di U alla normale. Per far questo è necessario derivare la media e la varianza di U. Si può dimostrare che è E(U) = e che risulta nm ; 2 var(U) = nm ( n + m + 1 ) 12 nm 2 ≈ N(0, 1) 1/ 2 nm ( n + m + 1 ) 12 U− pertanto si rifiuta Ho al livello α se è nm 2 ≥ z(1-α). 1/ 2 nm ( n + m + 1 ) 12 U− Osserviamo che nell’esercizio precedente risulta 1.57 ≥ z(1-α) che porta al rifiuto di Ho solo se è α ≥ 0.059 contro il valore di p=0.0754. Come si può notare, l’approssimazione asintotica non è molto buona e questo dipende essenzialmente dal fatto che in questo caso è n, m < 10. Si può dimostrare che la v.c. U è simmetrica intorno alla sua media e quindi si ha nm nm P U = + k = P U = − k 2 2 ma allora la quantità Introduzione al test delle ipotesi U− 207 nm 2 è una statistica test per il caso bilaterale Ho : F(t) = G(t) H1 : G(t) < F(t) ∪ F(t) < G(t). Si può, inoltre, dimostrare che il test di Wilcoxon è competitivo con il test T-di Student dato che la massima perdita di potenza di W rispetto a t è inferiore al 5% nel caso in cui il test t è ottimale (fenomeni distribuiti normalmente e con uguale varianza), altrimenti la potenza di W è nettamente superiore a quella del test t. Nel test di Wilcoxon sopra illustrato si è implicitamente supposto che fra i dati campionari di X e di Y non vi siano valori ripetuti. In pratica spesso alcuni valori possono ripetersi ed in tal caso il valore dei ranghi non può essere associato a ciascun x i ed yi in modo univoco. Quando si presentano casi di questo tipo ai valori che si ripetono viene sostituito al rango teorico la loro media. Per essere più chiari, supponiamo che i valori osservati per Y ed i relativi ranghi in assenza di ripetizioni fossero yi : ri : 76 5 81 7 81 8 90 10 90 11 90 12 100 14 in tal caso questi ranghi dovranno essere sostituiti dai seguenti ri : 5 7.5 7.5 11 11 11 14 ove 7.5 è la media di 7 ed 8 mentre 11 è la media di 10, 11 e 12, quindi si procede come già visto. Il test che ne risulta è ancora abbastanza buono specie se n ed m sono maggiori di 10. TEST DEI SEGNI Questo test è la variante non parametrica del test sul confronto fra medie per dati appaiati se l’ipotesi di normalità bivariata non è sostenibile; inoltre, vedremo che può essere particolarizzato per sottoporre a test una sola media rimuovendo l’ipotesi di normalità del fenomeno. Supponiamo di avere un fenomeno bivariato (X, Y) e di aver osservato a Capitolo 5 208 caso un campione di n coppie (x i , yi ) indipendenti ed identicamente distribuite. Più in particolare supponiamo che: x i è il controllo yi è il trattamento. Sia Z = Y-X e zi = yi - xi , i=1,2,..., n. Supponiamo che la funzione di ripartizione F(t) di Z sia incognita ma continua. Si vuole sottoporre a test l’ipotesi Ho : Il trattamento Y non ha effetto. Questa ipotesi equivale a dire che Zi = Yi - Xi ha la stessa funzione di ripartizione di - Zi = Xi - Yi . Ma allora Zi è simmetrica intorno allo zero, cioè: P{- Z ≥ t} = P{Z ≥ - t} = 1 - P{Z < -t}, In definitiva, Ho diviene Ho : F(t) = 1 - F(-t) = F( t ) ove si è posto F( t ) = 1 - F(-t). Per quel che riguarda l’ipotesi alternativa, in questo caso, è H1 : Il trattamento Y ha effetto positivo che è equivalente a dire che Z è stocasticamente più grande di -Z, cioè P{Y - X > t} ≥ P{X - Y > t} che a sua volta equivale a F(t) ≤ F( t ) . In definitiva, le ipotesi che si vuole sottoporre a test possono essere formalizzate nel modo seguente Ho : F(t) = F( t ) verso H1 : F(t) ≤ F( t ) . Sia S la statistica così ottenuta sc = Numero[z i = ( yi - xi ) > 0] cioè sc = numero delle differenze (yi -xi ) positive. Osserviamo che, nell’universo dei campioni, è sempre 0 ≤ S ≤ n questo vuol dire che si rifiuta Ho se sc è grande, cioè supera un certo valore critico. Dall’impostazione data al problema sc può an- Introduzione al test delle ipotesi 209 che essere interpretata come numero di successi (quanti zi sono positivi) in n prove indipendenti e dato che P(Z i > 0) = 1 - F(0). Segue immediatamente che sc , sotto Ho , ed al variare del campione nell’universo campionario genera la v.c. Binomiale S : S ~ B(n; 1-F(0)) Se Ho è vera ci si aspetta che il numero delle z i positive sia uguale a quelle nega1 tive, in altri termini che 1-F(0) = per cui risulta 2 (S | Ho ) ~ B(n; 1/2) pertanto il valore critico si ottiene dalla v.c. Binomiale con parametri (n; 1/2 ) r iportata in una delle tavole dell’appendice. Inoltre, se è n > 10 la B(n; 1/2) è bene approssimata da una normale con media n/2 e varianza n/4 per cui si rifiuta Ho al livello α se risulta n 1 2 s c − − 2 2 > z(1-α) n ove la costante 1/2 è stata introdotta per tenere conto del fatto che la Binomiale, che è discreta, è stata approssimata con la Normale che è continua. Esempio 15 Riprendiamo i dati dell’esempio 7 Macchine xi yi zi=yi-xi 1 17.2 18.3 1.1 2 21.6 20.8 -0.8 3 19.5 20.9 1.4 da cui risulta immediatamente sc = 5 ed avremo 4 19.1 21.2 2.1 5 22.0 22.7 0.7 6 18.7 18.6 -0.1 7 20.3 21.9 1.6 Capitolo 5 210 p = P(S ≥ 5) = P(S=5) + P(S=6) + P(S=7) = = 7 1 1 + 7 1 1 + 7 1 1 = 0.22656 5 2 2 2 5 6 2 2 6 7 2 0 2 7 La probabilità di rifiutare Ho quando è vera è più del 22% e quindi si è portati ad accettare Ho . Se utilizziamo l’approssimazione normale otteniamo n 1 2 s c − − 2 2 = 0.7559 > z(1-α) n e dalle tavole della normale segue immediatamente che questa disuguaglianza è verificata se è 1α ≤ 0.7749 che implica α ≥ 0.2251 che è una discreta approssimazione del valore esatto prima derivato. Ricordiamo che nell’esempio 7 il test su dati appaiati sotto l’ipotesi di normalità portava al rifiuto di Ho . Osserviamo che questo test può anche essere utilizzato per ipotesi alternative bilaterali tenendo conto che in tal caso la statistica test diviene semplicemente 2 sc − n 2 n Osserviamo ancora che il test proposto può essere utilizzato, come caso particolare, per costruire test non parametrici su una media ponendo nelle formule e nei ragionamenti precedenti zi = yi - µo . Nel test del segno appena visto viene preso in considerazione il segno delle differenze zi =yi - xi ma non il loro valore, questo porta ad una riduzione della potenza che lo rende spesso non affidabile. 5.7 Cenni agli intervalli di confidenza In questo paragrafo tratteremo brevemente di un argomento di grande utilità pratica. Nelle applicazioni a fenomeni concreti, il più delle volte, non interessa sapere se per un generico parametro incognito θ è da accettare o rifiutare una data ipotesi, ma in quale intervallo cade una volta fissata una determinata probabilità. In termini generali, fissata la probabilità di errore del primo tipo α Introduzione al test delle ipotesi 211 bisogna derivare le funzioni c1(Xn ) e c2(Xn ) di modo che risulti P {c1 ( X n ) ≤ θ ≤ c 2 ( X n )} = 1 − α e l’intervallo [c1(Xn ) ; c2(Xn )] sia ottimale in qualche senso. Nel seguito per ottimale intenderemo l’inervallo più piccolo possibile. Ove Xn indica, come al s olito, la v.c. generata dal campione di n elementi estratto da X. Rileviamo che [c1(Xn ) ; c2(Xn )] è esso stesso una v.c. visto che è funzione di Xn e quindi la formula sopra scritta va interpretata come il più piccolo intervallo casuale [c1(Xn ) ; c2(Xn )] che contiene, nell’1-α per cento dei casi, il parametro incognito θ. In pratica, si possiede un solo campione x n = (x 1 , x2 , …, x n ) che permette di calcolare un solo intervallo. Per questo si parla di intervallo di confidenza o intervallo fiduciario visto che si spera che quest’unico intervallo contenga il parametro vero con probabilità pari ad 1-α. I casi che illustreremo nel seguito, di rilevanza pratica, chiariscono quanto si è fin qui affermato. In generale, per derivare tale intervallo utilizzeremo la regione di accettazione dei test bilaterali. INTERVALLO DI CONFIDENZA PER LA MEDIA 2 2 Sia X~N(µ ; σ ), con µ e σ incogniti, e si voglia costruire, sulla base del campione osservato x=(x 1 ,…,x n ), un intervallo in cui con probabilità pari ad 1- α cada il valore incognito della media. Questo intervallo viene detto intervallo di confidenza per la media. Dal test delle ipotesi bilaterale della media sappiamo che per Ho : µ = µo verso H1 : µ ≠ µo ha senso usare la statistica tc = n ( x − µo ) s che sotto Ho si distribuisce come una T-di Student con (n-1) gradi di libertà con regione critica C1 data, per la simmetria della v.c. T, da n | x − µo | ≥ t(n-1; 1-α/2) = - t(n-1; α/2) s Capitolo 5 212 ove al solito è P(T ≥ t (n-1; 1-α/2) ) = α/2; P(T ≤ t(n-1; α/2) ) = α/2. Questo implica che la regione di accettazione C o è data, qualsiasi sia µo , da t(n-1; α/2) ≤ n( x − µ ) ≤ t(n-1; 1-α/2) s che, dopo semplici passaggi algebrici, tenuto conto della simmetria della v.c. T, implica il seguente intervallo di confidenza per µ x- s t(n-1; 1-α/2) ≤ µ ≤ x + n s t(n-1; 1-α/2) n Se la popolazione di partenza non è normale l’intervallo trovato è valido solo asintoticamente. Esempio 16 Data la popolazione X~N(µ ; σ 2), con µ e σ 2 incogniti, si vuole costruire per µ un intervallo di confidenza al livello 1 - α = 0.95 sulla base di un campione di n=10 osservazioni per il quale è risultato x = 3 e s 2 = 5. Sappiamo che l’intervallo di confidenza ottimale per µ al livello 1- α è Dato che è s x + n t ( n −1, a / 2 ) ; x+ s t ( n −1, 1 −a / 2 ) n Introduzione al test delle ipotesi t(9; = - t(9; 1- α /2) α /2) 213 = 2.262 l’intervallo di confidenza risulta pari a [3 - 5 /10 2.262; 3 + 5 /10 2.262] = [1.4005; 4.8526] INTERVALLO DI CONFIDENZA PER UNA PERCENTUALE Abbiamo visto che nel caso di popolazioni dicotomiche ed estrazione bernoulliana un test accettabile per Ho : p = po verso H1: p po è basato sulla statistica asintoticamente pivotale zc= n ( p̂ − p o ) po(1 − po ) che sotto Ho si distribuisce asintoticamente come una N(0, 1). La relativa regione critica C1 è n p̂ − p o po(1 − po ) > z(1-α/2)= - z(α/2) questo implica che la regione di accettazione è data, qualsiasi sia po , da z(α/2) ≤ n ( p̂ − p o ) po(1 − po ) ≤ z(1-α/2) che dopo semplici trasformazioni, tenendo conto della simmetria della normale e sostituendo ai valori incogniti le relative stime, implica il seguente intervallo di confidenza al livello 1-α per il parametro p nel caso di estrazione bernoulliana ˆp - z(1- /2) α p̂( 1 − p̂ ) ≤ p ≤ ˆp + z(1-α/2) n p̂( 1 − p̂ ) n Notiamo che l’errore tollerabile ε al livello 1-α prima di effettuare l’estrazione del campione è dato da Capitolo 5 214 ε = | ˆp - p| = z(1-α/2) p( 1 − p ) n ove p è incognito. Se teniamo conto che p(1-p) è massimo per p=1/2 si ha i mmediatamente che 1 ε = | ˆp - p| ≤ z(1-α/2) 2 n questo permette di calcolare l’errore massimo tollerabile al livello (1-α) fissato n, da questa è possibile derivare n fissato ε: n≤ z (21−α / 2 ) 4ε 2 che rappresenta la numerosità massima del campione, fissato l’errore tollerabile, al livello (1-α). Con un ragionamento simile, nel caso di estrazione senza reimmissione si ha che l’intervallo di confidenza al livello 1-α per il parametro p nel caso di estrazione senza reimmissione è dato da ˆp - z(1- /2) α p̂( 1 − ˆp ) ( 1 − f ) ≤ p ≤ ˆp + z(1-α/2) n p̂( 1 − ˆp ) (1 − f ) n mentre, l’errore massimo tollerabile, fissato n ed α, è pari a ε = | ˆp - p| ≤ z(1-α/2) (1− f ) , 2 n la numerosità massima, fissato l’errore tollerabile ed α, è pari a n≤ H z (21−α/ 2 ) 4Hε 2 + z (21−α/ 2 ) ove con H si è indicata la numerosità della popolazione da cui il campione viene estratto. Introduzione al test delle ipotesi 215 Esempio 17 Riprendiamo il caso riportato nell’esempio 6 in cui è H = 1120, n = 95, f = 0.08482, ˆp = 0.379 In queste condizioni l’intervallo di confidenza per p nel caso di estrazione con reimmissione al livello 1-α = 0.95 è dato da 0.379 - 1.96(0.049774) ≤ p ≤ 0.379 + 1.96(0.049774) ⇔ ⇔ [0.2814 ≤ p ≤ 0.4765] Nel caso di estrazione senza reimmissione l’intervallo di confidenza è dato da 0.379 - 1.96(0.049774)0.95665 ≤ p ≤ 0.379 + 1.96(0.049774)0.95665 ⇔ ⇔ [0.2857 ≤ p ≤ 0.4723] Come si può notare l’intervallo di confidenza ottenuto nel caso di estrazione in blocco, come atteso, è più corto di quello dell’estrazione bernoulliana. Questo è una conferma della maggiore efficienza dell’estrazione in blocco rispetto a quella bernoulliana. Deriviamo ora l’errore massimo tollerato per n=95 ed al livello α = 5% nei due sistemi di estrazione. Dalle formule sopra riportate otteniamo ε ≤ 1.96(0.0512989) = 0.1005 ε ≤ 1.96(0.0512989)0.95665 = 0.0962 per il caso bernoulliano per il caso in blocco. Come si può vedere l’errore massimo è abbastanza rilevante visto che in ogni caso supera il 9%. Capitolo 6 IL MODELLO DI REGRESSIONE 6.1 Introduzione In questo capitolo conclusivo generalizziamo quanto esposto nell’ultimo capitolo del Volume I. In particolare affrontiamo da un punto di vista probabilistico il problema di grande rilevanza pratica riguardante l’esistenza di una relazione fra una data variabile (variabile endogena o dipendente ) ed una o più altre variabili (variabili esplicative o indipendenti ). Il legame è del tipo cause-effetto che supponiamo di tipo unidirezionale: sono le variabili esplicative che causano quella dipendente, ma non è ammesso, logicamente, il viceversa. Questa problematica è il primo passo di una disciplina abbastanza importante e complessa che va sotto il nome di Econometria. Da un punto di vista formale, se indichiamo con Y la variabile dipendente e con X1 , X2 , ..., Xk le k variabili esplicative che entrano nel problema si suppone che sia Y = f(X1 , X2 , ..., Xk ; β ) (1) ove f( ) è una qualche funzione nota a meno del vettore di parametri β. Più precisamente: X1 , X2 , ..., Xk sono le cause Y è l’effetto β è un vettore di parametri incogniti f( ) è una funzione nota Se si escludono fenomeni di tipo fisico, ed anche in quell’ambito la cosa è discutibile, è ben difficile sostenere che fra cause ed effetto vi sia una perfetta relazione matematica. Di solito su Y, oltre alle k variabili esplicative (X1 , X2 , ..., Xk ) individuate, esercitano la loro influenza tutta una serie di micro-cause Capitolo 6 218 (compresi gli inevitabili errori di misurazione dei fenomeni) di difficile o impossibile osservazione che sintetizziamo sotto la voce caso. Da un punto di vista statistico queste micro-cause possono essere rappresentate da una variabile casuale non osservabile, che chiamiamo errore o scarto, e che indichiamo con e. Un modo molto semplice per includere in Y l’influenza di e è quello di sommare questa variabile casuale nella (1) ottenendo il modello di regressione Y = f(X1 , X2 , ..., Xk ; β ) + e (2) Nella (2) Y è essa stessa una variabile casuale visto che è una funzione dell’errore casuale e. Nel seguito supporremo che il carattere descrivente Y è un fenomeno continuo, l’estensione al caso discreto non viene qui presentata. Esempio 1 Indichiamo con R il reddito individuale di un certo insieme di soggetti, con C i relativi consumi, dalla teoria economica sappiamo che ha senso scrivere C = f(R ) + e In altri termini, con questa relazione diciamo che i consumi individuali sono una qualche funzione del reddito individuale a cui si somma una variabile scarto che può essere identificata con i diversi gusti, la diversa religione, errori di misurazione ecc. Indichiamo con D la domanda di un dato bene, P il prezzo unitario di quel bene, R il reddito del consumatore, Pc il prezzo unitario di un bene complementare, Ps il prezzo unitario di un bene sostitutivo, sappiamo dalla teoria economica che ha senso la relazione seguente D = f(P, R , Pc , Ps ) + e Indichiamo con CA il consumo di carburante e con CI la cilindrata di date autovetture, ha senso scrivere la relazione seguente CA = f(CI ) + e. Nella (2), per procedere oltre, esplicitiamo la forma funzionale di f( ) e quindi ci poniamo così in un ambito parametrico (le uniche incognite sono i parametri β presenti nel modello). Si potrebbe anche utilizzare un approccio più complesso, che in questa sede non viene presentato, in cui la forma funzionale f( ) è essa stessa incognita (caso non parametrico) e da stimare. Per sempl ificare ancora gli sviluppi ed i risultati teorici, nel seguito supporremo che f( ) sia lineare e di conseguenza parleremo di modello di regressione lineare. Nel caso in cui vi sia una sola variabile esplicativa ed f( ) è lineare si parla di Il modello di regressione lineare 219 regressione lineare semplice, se le variabili esplicative sono più di una si parla di regressione lineare multipla. Tratteremo in modo diffuso della regressione lineare semplice avvertendo che, almeno da un punto di vista concettuale, tutto ciò che viene detto per questo caso vale per quello, più interessante da un punto di vista applicativo, multiplo. La scelta di analizzare e presentare in modo dettagliato il modello di regressione lineare semplice è che in tal caso molti sviluppi formali si semplificano ed i relativi calcoli applicativi possono essere eseguiti anche con una semplice calcolatrice tascabile. D’altro lato, almeno concettualmente, faremo vedere come questi sviluppi si generalizzano al caso multiplo e presenteremo in tal senso anche qualche applicazione a fenomeni reali. 6.2 La costruzione del modello di regressione La costruzione di un modello, ed in particolare quello di regressione, consiste in una serie di passaggi, di stadi, logici e formali molto complessi che rendono l’operazione abbastanza delicata. Vediamo di ripercorrerne, sinteticamente le tappe più rilevanti: (1) (2) (3) (4) (5) (6) in primo luogo è necessario individuare il fenomeno su cui si vuole costruire il modello; tenendo conto della teoria o di pezzi di teoria già esistenti si individuano la variabile dipendente Y e quelle esplicative (X1 , X2 , ..., Xk ), quindi si raccolgono informazioni statistiche su (Y ; X1 , X2 , ..., Xk ); utilizzando la teoria già esistente o lavori che già hanno affrontato, in tempi o contesti differenti, la stessa problematica ed i relativi risultati ottenuti si formula il modello di regressione esplicitando la forma funzionale f( ); si stimano i parametri incogniti del modello formulato con un metodo di stima che porti, quanto meno, a stimatori consistenti; si verifica che il modello formulato e stimato sia “accettabile” sottoponendolo ad una serie di test; se il modello viene “accettato” si usa a fini interpretativi, previsivi, descrittivi, di controllo ecc. Se il modello non viene ritenuto idoneo a rappresentare il fenomeno in studio si ritorna al punto (1) per ripercorrere il ciclo e terminarlo fino a che il modello non viene accettato. Nella figura che segue sono riportate le tappe dello schema logico per la costruzione di un modello. Come si può arguire da quanto abbiamo detto schematicamente qui sopra, le fasi più delicate nell’elaborazione di un modello sono la sua formulazione identificazione e la sua verifica. Infatti, un modello elaborato per uno o più de- 220 Capitolo 6 gli scopi sopra accennati può non superare la fase di verifica (fallimento del modello). In tal caso è necessario cercare di scoprire gli ostacoli che lo rendono non utilizzabile e rimuoverli. In generale, i motivi più frequenti per cui un modello fallisce sono dovute ad una o più delle seguenti cause: (i) la teorizzazione che è stata utilizzata per formulare il modello non regge alla prova dei fatti ed il modello elaborato non si adatta alla realtà osservata. È molto difficile individuare una tale fonte di errore. Ogni modello, per quanto complesso, è una semplificazione della realtà e di solito si assume che sia valido per quella realtà fino a prova contraria; (ii) la teorizzazione è corretta ma la formulazione-identificazione del modello è errata. Così, se utilizziamo un modello lineare, mentre in realtà le relazioni sono non lineari i risultati che si ottengono sono scadenti; (iii) i dati a disposizione, in qualità o in quantità, oppure il metodo di stima non sono idonei. 6.3 Il modello di regressione lineare semplice Poniamo ora la nostra attenzione al caso di un modello di regressione lineare semplice. In altri termini, supponiamo che per i fenomeni che si stanno studiando si può ritenere valido un modello di regressione lineare semplice e quindi che sia Il modello di regressione lineare Y = βo + β1 X + e 221 (3) con: Y la variabile dipendente che descrive il fenomeno di interesse, X l’unica variabile esplicativa (causa) di Y, e la variabile casuale scarto non osservabile, βo e β1 due parametri incogniti e da stimare. Osserviamo che nella (3), βo + β1 X rappresenta l’equazione di una retta ove βo è la relativa intercetta mentre β1 è il coefficiente angolare. Per poter procedere alla stima dei parametri incogniti del modello (3) è necessario: (a) avere informazioni sulle due variabili osservabili Y ed X , (b) formulare delle ipotesi sulla variabile casuale scarto non osservabile e. A tale proposito supponiamo di disporre di un campione casuale di n coppie estratte da (X , Y) ottenendo la seguente rilevazione statistica: (x 1 , y1 ), (x 2 , y2 ), ..., (x n , yn ). Naturalmente, queste n coppie di osservazioni possono essere analizzate con gli strumenti della statistica descrittiva di cui abbiamo parlato nei capitoli iniziali ed in particolare possono dare luogo ad una distribuzione di frequenza doppia ed ai relativi indici descrittivi ivi presentati. Se il modello (3) è vero, e tale lo riteniamo fino a prova contraria, allora sarà vero per ogni coppia di osservazioni ottenendo y1 = βo + β1 x 1 + e1 y2 = βo + β1 x 2 + e2 ......................……… yn = βo + β1 x n + en ove e1 è la variabile casuale scarto non osservabile associata alla prima osservazione campionaria, e2 è la variabile casuale scarto non osservabile associata alla seconda osservazione campionaria, ..., en è la variabile casuale scarto non osservabile associata alla n-esima osservazione campionaria. Ovviamente, le n coppie di osservazioni potrebbero anche costituire una serie storica doppia osservata in n tempi diversi sulla stessa unità di rilevazione in tal caso anche ei , i=1,2,...,n, risulta ordinata nel tempo. 222 Capitolo 6 Esempio 2 Nel caso del consumo in funzione del reddito, il modello di regressione lineare diviene C = βo + β1 R + e ed avendo a disposizione le n coppie di osservazioni (ci , ri ) avremo: ci = βo + β1 r i + ei i = 1, 2, ..., n Se le n coppie di osservazioni (ci ,ri ) sono state ottenute intervistando n individui a caso di una data popolazione allora queste sono scambiabili e le informazioni contenute nella rilevazione doppia sono equivalenti a quella della distribuzione di frequenza doppia ad essa associata. Se le n coppie di osservazioni si riferiscono sempre alla stessa unità di rilevazione (lo stesso individuo, oppure la stessa regione, oppure lo stesso paese) osservata in n tempi diversi, di solito equispaziati, allora si ha una serie storica doppia le cui coppie di rilevazioni non sono scambiabili pena la perdita di informazioni sull’evoluzione temporale del fenomeno. Una volta formulato il modello e ottenute le n coppie di osservazioni è n ecessario stimare i parametri incogniti. Per poter far questo bisogna formulare le ipotesi classiche del modello di regressione: (1) il modello è perfettamente specificato, nel senso che non vi sono altre variabili che spiegano Y e la forma lineare del modello è corretta; (2) la variabile X è deterministica, nel senso che al variare del campione variano i valori assunti da ei ma le x i sono sempre le stesse; (3) E(ei ) = 0 per i = 1,2,.., n. In altri termini, le n variabili casuali scarto ei valgono in media tutte zero e quindi, in media, non esercitano alcuna influenza su Y; (4) var(ei ) = σ 2 per i = 1, 2,..., n. In altri termini, le n variabili casuali scarto hanno tutte la stessa variabilità (ipotesi dell’omoschedasticità); (5) cov(ei , ej ) = 0 per i ≠ j = 1 , 2 , ..., n . In altri termini, fra variabili casuali scarto relative ad osservazioni diverse non esistono legami lineari (ipotesi dell’incorrelazione); (6) ei ~N(0 , σ 2), i = 1, 2,..., n , e sono indipendenti fra di loro. In altri termini, le variabili casuali scarto si distribuiscono come normali indipendenti tutte con la stessa media pari a zero e la stessa varianza σ 2 (ipotesi di normalità, questa ipotesi include le ipotesi (3)-(5)). Il modello di regressione lineare 223 Da quanto è stato detto fino ad ora rileviamo che in complesso i parametri da stimare sono tre e precisamente βo , β1 , σ 2. Se il modello di regressione lineare fosse stato multiplo, per esempio con le tre variabili esplicative X, Z, V, avremmo dovuto avere n quadruple di informazioni (yi , xi , zi , vi ), i=1,2,...,n, e per ciascuna di esse sarebbe risultato yi = βo + β1 x i + β2 z i + β3 vi + ei (4) In tal caso le ipotesi classiche fatte continuerebbero a valere con l’aggiunta dell’ulteriore ipotesi che fra le x i , z i , vi non vi siano perfetti legami lineari, mentre i parametri da stimare crescerebbero, in questo caso sarebbero cinque e precisamente: βo , β1 , β2 , β3 , σ 2. Ritornando al caso semplice, tenuto conto dell’ipotesi (3) si ha immediatamente E(Yi ) = βo + β1 x i , i = 1, 2, ..., n questo vuol dire che Y, in media, è una funzione lineare della X, inoltre tenuto conto contemporaneamente dell’ipotesi (2) risulta var(Yi ) = var(ei ) = σ 2, i = 1, 2, ..., n che per l’ipotesi (6) implica Yi ~ N[ βo + β1 x i , σ 2] , i = 1, 2, ..., n cioè le Yi sono normali indipendenti. Considerazioni analoghe valgono per il caso multiplo. 6.4 La stima dei parametri del modello Dato il modello di regressione lineare semplice, utilizzando le n informazioni campionarie, stimiamo in primo luogo i due parametri βo e β1 . Per far questo utilizziamo il già visto Metodo dei Minimi Quadrati. Per capire come opera logicamente questo metodo di stima nel caso del modello di regressione consideriamo la rappresentazione grafica a scatter delle coppie di valori osservati (x i , yi ), i=1,2,...,n. In altri termini, riportiamo su un sistema di assi cartesiani le n coppie di punti osservati, si otterrà una rappresen- Capitolo 6 224 tazione tipo quella riportata nella figura seguente. Il problema che si vuole a ffrontare è di adattare agli n punti la retta “ottimale” il che equivale a scegliere la coppia di parametri ottimali (βo , β1 ) che descrivono tale retta. Come è ben noto, in n punti passano infinite rette e quella “ottimale” deve essere scelta secondo una qualche funzione obiettivo. Il metodo dei minimi quadrati ordinari in sigla OLS (Ordinary Least Squares), sceglie, fra le infinite rette possibili, quella che minimizza la somma dei quadrati degli scarti. Questo vuol dire che nel metodo dei minimi quadrati il criterio obiettivo per la scelta della retta “ottimale” è la minimizzazione della somma dei quadrati degli scarti. Traduciamo quanto detto qui sopra in espressioni algebriche in modo da poter ottenere delle formule operative per le stime dei due parametri della retta in questione. Dalla relazione ipotizzata si ricavano gli n scarti: yi = βo + β1 x i + ei , i = 1, 2, ...,n ei = yi - βo - β1 x i , i = 1, 2, ...,n e quindi la somma dei loro quadrati: n ∑ i =1 e i2 = n ∑( y i − β o − β1 x i ) 2 i =1 e fra le infinite coppie ( βo , β1 ) e quindi fra le infinite corrispondenti rette possibili scegliamo quella che minimizza l’ultima espressione, Il modello di regressione lineare 225 cioè quella per cui risulta n ∑e i =1 2 i = n ∑ ( y i − β o − β 1 x i ) 2 = minimo(βo , β1 ) i =1 La soluzione del problema di minimo per ottenere le stime di βo e β1 è prettamente matematico ed in questo caso ha una soluzione piuttosto semplice. Infatti, per trovare questo minimo basta considerare le derivate prime di e i2 rispetto alle due incognite βo e β1 , uguagliarle a zero, risolvere il relativo sistema di equazioni lineari. Più precisamente: ∑ ∂ ∂β o n ∑ ( y i − βo − β1x i ) 2 = 2 n ∑ ( y i − β o − β1 x i )( −1 ) = i =1 i =1 n ∑ = -2 ( y i − β o − β1 x i ) = 0 i =1 ∂ ∂β1 n ∑ ( y i − β o − β1x i ) 2 = 2 i =1 n ∑ ( y i − β o − β1 x i )( − x i ) = i =1 = -2 n ∑ ( y i − β o − β1 x i ) x i = 0. i =1 Da cui, dividendo ambo i membri delle due equazioni per -2, deriviamo il s eguente sistema lineare nelle due incognite βo e β1: n ( y i − β o − β1 x i ) = 0 i =1 n ( y i − β o − β1 x i ) x i = 0 i =1 ∑ ∑ che posto x= 1 n n ∑ i =1 xi y= 1 n n ∑ i =1 yi Capitolo 6 226 mxy = 1 n n ∑ x i yi i =1 m2x = 1 n n ∑ x i2 i =1 può essere scritto n y − n β o − β 1 n x = 0 n m − β n x − β n m = 0 1 1 2x xy Dividendo ambo i membri delle due equazioni per n, ricavando βo dalla prima equazione e sostituendolo nella seconda si può scrivere β o = y − βˆ 1 x m xy − ( y − β1 x ) x = β1 m 2 x Posto S xy = mxy - x y : S 2x = m2x - x 2 : si ottiene covarianza campionaria di (X, Y) varianza campionaria di X β o = y − β1 x S = β S 2 1 x xy Risolvendo rispetto ai due parametri incogniti si ha infine che le stime dei minimi quadrati ordinari dei parametri della retta di regressione sono β̂1 = S xy S 2 x , β̂ o = y - βˆ 1 x L’equazione della retta di regressione che minimizza la somma dei quadrati degli scarti è data da ˆy = βˆ o + βˆ 1 x Osserviamo che: Il modello di regressione lineare 227 (a) la retta di regressione passa sempre per il punto medio ( x , y ), infatti in ˆy = βˆ o + βˆ 1 x per x = x si ottiene ( ) βˆ o + βˆ 1 x = y − βˆ 1 x + βˆ 1 x = y (b) in corrispondenza di ciascuna x i osservata è possibile individuare la relativa yi stimata, che indichiamo con ˆy i , situata sulla retta di regressione: ˆyi = βˆ 0 + βˆ 1 x i i = 1, 2, .., n (c) dai valori osservati yi e da quelli stimati ˆyi possiamo derivare gli scarti stimati, che indichiamo con ê i , dati da ê i = yi - ˆyi i = 1 , 2 , .., n (d) se ricordiamo che una delle proprietà della media aritmetica è quella di minimizzare la somma dei quadrati degli scarti ci rendiamo subito conto che la retta di regressione stimata con il metodo dei minimi quadrati è proprio una stima in media ed è presumibile che le stime così ottenute abbiano le stesse proprietà della stima della media; (e) una conseguenza di quanto detto al punto (d) è che la somma degli scarti stimati è sempre nulla: la somma degli scarti positivi è pari alla somma degli scarti negativi. La dimostrazione formale di questa affermazione è semplice, infatti n ∑ i =1 ê i = n ∑ i =1 ( y i − ˆy i ) = ∑ [ yi n i =1 ( )] − βˆ o + βˆ 1 x i = Capitolo 6 228 n ∑ i =1 yi - n ∑ i =1 ( β̂ o - n ∑ n ∑ βˆ 1 x i = i =1 ∑ ( y − βˆ x )- β̂ ∑ x n yi - n 1 i =1 1 i =1 i = i =1 ) = n y - n y − n βˆ 1 x − n βˆ 1 x = n y − n y + n βˆ 1 x − n βˆ 1 x = 0 che dimostra quanto affermato. Graficamente si ha una situazione simile a quella riportata nella figura seguente Una immediata implicazione di questa uguaglianza è che n ∑y i =1 i = n ∑ ˆy i i =1 e dividendo ambo i membri per n segue immediatamente che la media campionaria delle yi è esattamente uguale alla media campionaria delle ˆy i ; (f) le stime β̂ o e β̂1 sono funzioni delle sole osservazioni campionarie e quindi al variare del campione variano e descrivono due variabili casuali. Le proprietà di β̂ o e β̂1 sono derivate dal comportamento di tali v.c. Esempio 3 Su 7 autovetture a gasolio, scelte a caso da un dato parco macchine, è stato verificato il consumo, per miglia, prima di un determinato intervento (variabile X) e dopo l’intervento (variabile Y) ottenendo le 7 coppie di risultati seguenti (17.2; 18.3) (21.6; 20.8) (19.5; 20.9) (19.1; 21.2) (22.9; 22.7) (18.7; 18.6) (20.3; 21.9) Il modello di regressione lineare 229 si vuole verificare se fra X ed Y esiste il legame lineare : Y = βo + β1 X + e In questo caso notiamo che il legame logico è del tipo X “causa” Y, infatti Y è ottenuto “dopo” X. Inoltre, se costruiamo la rappresentazione a scatter (X, Y) otteniamo la figura che segue Da questo grafico deduciamo che il legame lineare ipotizzato è abbastanza plausibile visto che le sette coppie di osservazioni tendono a disporsi lungo una retta crescente. Per quanto riguarda la stima di βo e β1 con il metodo dei minimi quadrati, i calcoli possono essere organizzati come nella tabella seguente. A partire dalle 7 coppie di osservazioni (x i , yi ), riportate nelle prime due colonne della tabella, deriviamo le x 2i e xi yi riportate nella terza e quarta colonna rispettivamente. xi 17.20 21.60 19.50 19.10 22.00 18.70 20.30 138.40 yi 18.30 20.80 20.90 21.20 22.70 18.60 21.90 144.40 x 2i x i yi ˆy i 95.840 66.560 80.250 64.810 84.000 49.690 12.090 2753.240 14.760 49.280 07.550 04.920 99.400 47.820 44.570 2868.300 18.60094 22.07043 20.41454 20.09913 22.38584 19.78372 21.04536 144.39996 Dalla tabella deriviamo immediatamente: 138. 4 x= = 19.771429 7 y= 144. 4 = 20.62857 7 ê i = yi- ˆy i -0.300945 -1.270433 0.485460 1.100868 0.314161 -1.183723 0.854645 0.000033 Capitolo 6 230 m2x = 2753. 24 = 393.32001 7 mxy = S x2 = m2x - x 2 = 2.4106 2868.3 = 409.75715 7 S xy = mxy - x y = 1.9008 che ci permettono di ottenere le stime cercate S xy β̂1 = S x2 β̂ o = y - β̂1 x = 5.0384 = 0.78852 Una volta ottenute le stime dei due parametri deriviamo le stime della variabile dipendente ˆy i = β̂ o + β̂1 x i: ˆy1 = βˆ o + βˆ 1 x 1 = 5.0384 + (0.78852)17.20 = 18.600944 ˆy = βˆ + βˆ x = 5.0384 + (0.78852)21.6 = 22.070432 2 o 1 2 ................................................................................................... ˆy 7 = βˆ o + βˆ 1 x 7 = 5.0384 + (0.78852)20.3 = 21.045356 Ottenuti i valori stimati ˆy i (penultima colonna della tabella sopra riportata) deriviamo le stime dei residui ê i = yi - ˆy i riportate nell’ultima colonna della citata tabella. Osserviamo, infine, che teoricamente dovrebbe risultare ∑ ˆy i = ∑y ; i ∑ ê i =0 23 22 21 ^ Y Y 20 19 18 1 2 3 4 5 6 7 In pratica, per gli arrotondamenti che necessariamente devono essere fatti, queste uguaglianze quasi mai sono verificate in modo esatto come si nota anche dalla tabella sopra riportata ove le Il modello di regressione lineare 231 dette uguaglianze sono solo praticamente confermate, sono cioè vere a meno di approssimazioni trascurabili. Nel grafico qui sopra riportato abbiamo messo a confronto i valori osservati della variabile dipendente Y con quelli ottenuti con il modello lineare. Vediamo che il modello ipotizzato riesce a cogliere in modo accettabile il fenomeno preso in considerazione. Nella figura seguente abbiamo riportato il diagramma a scatter fra i due fenomeni osservati con la relativa retta di regressione adattata e l’indicazione dell’ampiezza dei residui stimati oltre che del relativo segno. 23 Y 22 21 20 19 18 17 18 19 20 21 22 X 23 Nell’esempio sopra riportato abbiamo mostrato in dettaglio come si può procedere per costruire le stime dei minimi quadrati dei due parametri βo e β1 nel modello di regressione lineare semplice e come sia possibile con semplici strumenti grafici verificare, in prima approssimazione, la bontà del modello ipotizzato. In pratica, i calcoli sopra riportati ed i relativi grafici non vengono fatti manualmente, ma si utilizzano in modo sistematico gli strumenti che vengono forniti dalla tecnologia. La diffusione e l’utilizzo intensivo dei computers (hardware) e dei relativi programmi di calcolo (software) permettono di effettuare queste elaborazioni in modo preciso e veloce. Naturalmente l’utilizzatore deve sapere cosa l’elaboratore sta calcolando e come i risultati vanno interpretati. Tutto questo è ancora più rilevante quando il modello utilizzato è di regressione multipla (le variabili esplicative sono più di una) e le relative elaborazioni bisogna necessariamente effettuarle con tali strumenti avanzati. Teniamo conto che nelle pratiche applicazioni molto spesso il modello è di tipo multiplo. In questo caso la procedura di stima è una semplice generalizzazione di quella vista ma, ripetiamo, i calcoli diventano molto più lunghi e complessi e quindi non eseguibili se non con gli strumenti informatici ormai largamente disponibili. Per rimanere nel concreto, supponiamo che il modello di cui vogliamo sti- Capitolo 6 232 mare i parametri sia il seguente yi = βo + β1 x i + β2 z i + β3 vi + ei , i = 1 , 2 , .., n in questo caso è necessario risolvere il seguente problema di minimo n ∑ i =1 e i2 = n ∑(y i − β o − β1 x i − β 2 z i − β 3 v i ) 2 = minimo(βo , β1 , β2 , β3 ) i =1 che si ottiene risolvendo rispetto a (βo , β1 , β2 , β3 ) il seguente sistema non omogeneo di quattro equazioni lineari che ammetterà, sotto l’ipotesi che fra le tre variabili esplicative non vi siano perfetti legami lineari, una ed una sola soluzione. Tale soluzione la daremo in forma esplicita nelle pagine successive quando riscriveremo il modello di regressione in termini di matrici e vettori. n ∂ n 2 e 2 = − ∑i ∑ ( y i − β0 − β1 x i − β 2 z i − β 3 vi ) = 0 i =1 ∂β 0 i =1 n ∂ n e i2 = −2 ∑ ( y i − β 0 − β1 x i − β 2 z i − β 3 v i ) x i = 0 ∑ ∂β1 i =1 i =1 n n 2 ∂ e 2 = − ∑ ( y i − β 0 − β1 x i − β 2 z i − β 3 v i ) z i = 0 ∂β ∑ i 2 i =1 i =1 n n ∂ 2 e 2 = − ∑i ∑ ( y i − β0 − β1 x i − β 2 z i − β 3 vi )v i = 0 i =1 ∂β 3 i =1 Nell’esempio che segue stimeremo un modello di regressione con tre variabili esplicative e ne commenteremo i relativi risultati. Esempio 4 Nella tabella seguente riportiamo i tassi relativi ai Nati vivi (NV), Matrimonialità (MTR), Mortalità (MRT), in Cerca di prima occupazione (CPO) relativi al 1993 per le venti regioni italiane: Piemonte Valle d'Aosta Lombardia Trentino-Alto A. NV 7.5 7.4 8.4 10.5 MTR 4.9 4.8 4.7 5.2 MRT 11.4 10.1 9.0 9.0 CPO 2.507 1.201 1.739 0.879 ^ NV 8.024250 8.094782 8.341146 9.181734 ê - 0.524250 - 0.694782 0.058853 1.318266 Il modello di regressione lineare Veneto Friuli-Ven. Giu. Liguria Emilia-Romagna Toscana Umbria Marche Lazio Abruzzo Molise Campania Puglia Basilicata Calabria Sicilia Sardegna Italia 8.2 7.2 6.5 7.1 7.0 7.9 8.2 9.7 9.4 9.2 13.4 11.7 9.4 10.9 12.4 9.3 9.4 5.0 4.4 4.7 4.4 4.6 5.0 4.7 4.9 4.8 4.9 6.3 6.1 5.5 5.4 5.7 5.0 5.1 9.1 12.5 13.8 11.4 11.5 11.2 10.2 8.9 9.8 10.3 7.8 7.5 8.3 8.0 9.1 8.1 9.5 1.495 1.581 3.055 1.503 2.468 2.927 2.199 4.835 3.955 5.622 11.030 7.281 7.199 9.527 8.389 7.006 4.602 233 8.847956 6.582482 6.915501 6.938589 7.413622 8.336814 8.001959 9.162971 8.556788 8.800165 13.01526 12.23962 10.81801 11.03327 11.08948 9.905586 9.400000 - 0.647956 0.617518 - 0.415501 0.161411 - 0.413622 - 0.436813 0.198041 0.537028 0.843211 0.399834 0.384737 - 0.539623 - 1.418008 - 0.133274 1.310516 - 0.605586 0.000000 Le variabili sopra riportate sono state ottenute tramite le seguenti: NV = numero nati vivi nel 1993 × 1000 popolazion e media nel 1993 MTR = numero matrimoni nel 1993 × 1000 popolazion e media nel 1993 MRT = numero morti nel 1993 × 1000 popolazion e media nel 1993 CPO = in cerca 1 a occupazion e nel 1993 × 100 popolazion e media nel 1993 Osserviamo che utilizziamo dati relativi e non assoluti visto che vogliamo capire se esiste un legame fra NV (l’effetto) e MTR, MRT, CPO (le cause) e questo ha senso solo se eliminiamo la diversa numerosità di popolazione esistente fra le diverse regioni italiane. Per i fenomeni in studio ipotizziamo che il seguente modello lineare NV = βo + β1 MTR + β2 MRT + β3 CPO + e Capitolo 6 234 sia idoneo a spiegare il fenomeno Nati vivi per le diverse regioni italiane. Da un punto di vista logico ci attendiamo che: (a) fra Matrimoni e Nati vivi vi sia un legame lineare positivo (questo ci fa attendere un β1>0) visto che è logico supporre un aumento del tasso di natalità in corrispondenza dell’aumento del tasso di matrimonialità; (b) il legame sia negativo fra Morti e Nati vivi (valore atteso di β2 < 0) dato che in una popolazione sviluppata, come quella italiana, la mortalità è alta perché la popolazione è più vecchia e quindi la natalità è più bassa; (c) siamo molto scettici a ipotizzare un legame diretto ed immediato fra in Cerca di prima occupazione e Nati vivi anche se non può essere escluso del tutto dato che chi è giovane e non ha un lavoro difficilmente si sposa e mette al mondo figli. In margine, notiamo la forte dicotomia che esiste fra le regioni del centro-nord e quelle del sud. I legami a coppie (NV, MTR), (NV, CPO), (NV, MRT) sono riportati negli scatter seguenti 15 13 10 8 5 4.0 4.5 5.0 5.5 6.0 15 15 13 13 10 10 8 8 5 6.5 5 0 25 50 75 100 125 5 8 10 13 15 che confermano le ipotesi fatte, in particolare emerge un legame lineare non marginale fra NV e CPO. Le stime dei quattro parametri con il metodo dei minimi quadrati sono rispettivamente: Il modello di regressione lineare β̂ o = 2.1456; β̂1 = 1.9073; 235 β̂ 2 = - 0.3331; β̂ 3 = 0.0131 ed il segno dei valori stimati è quello atteso. Queste stime ci hanno permesso di ottenere i valori stimati di NV tramite la seguente NV̂ = 2.1456 + 1.9073 MTR - 0.3331MRT + 0.0131CPO ed i relativi residui stimati ê . I valori di NV̂ e di ê sono riportati nelle ultime due colonne della tabella. Nella figura che segue abbiamo riportato i grafici dei valori osservati e stimati della variabile dipendente NV, per le 20 regioni ed il relativo scatter. I risultati sembrano complessivamente accettabili. 14 13 12 11 NV 10 9 ^ NV 8 7 6 5 10 15 20 15 13 10 8 ^ NV 5 5 8 10 13 15 Una volta stimati i parametri βi del modello di regressione è necessario stimare anche σ 2, la varianza comune delle variabili casuali ei . Ricordiamo, i n- Capitolo 6 236 fatti, che per ipotesi si ha σ 2 = var(ei ) = var(Yi ) , i = 1, 2, ..., n con ei = Yi - E(Yi ) , i = 1, 2, ..., n e sembra ovvio che la stima di questo parametro debba essere fatta a partire dagli scarti stimati ê i = yi - ˆy i , i = 1, 2, ..., n che conferma come ˆy i , e quindi β̂ i , siano delle stime in media. Come a bbiamo già mostrato per la stima della varianza in generale uno stimatore non distorto e consistente è dato dalla somma dei quadrati degli scarti dalla media stimata diviso per i gradi di libertà (che in quel contesto erano n-1). Nel caso del modello di regressione lineare semplice, yi = βo + β1 x i + e i , la somma degli scarti dalla media stimata è data da n ∑ ( y i − ˆy i ) 2 = i =1 n ∑ ê 2 i i =1 mentre i relativi gradi di libertà sono n-2 dato che per ottenere gli ê i è necessario prima stimare i due parametri incogniti βo e β1. In definitiva una stima accettabile di σ 2 nel caso del modello di regressione lineare semplice è data da s2= 1 n −2 n ∑ ê 2 i . i =1 Con ragionamenti del tutto simili si ottiene la stima di σ 2 nel caso di modello di regressione lineare multiplo. Così per il modello di regressione lineare definito nella (4) la stima di σ 2 è data da s2= 1 n −4 n ∑ ê i =1 2 i Il modello di regressione lineare 237 Esempio 5 La stima di σ 2 nel caso visto nell’esempio 3 è data da 5.382467 = 1.076493 5 La stima di σ2 nel caso visto nell’esempio 4 è data da s2= s2= 9. 61101 = 0.600688. 16 6.5 Proprietà delle stime dei minimi quadrati Nel paragrafo precedente abbiamo visto come è possibile stimare i parametri del modello di regressione lineare utilizzando il metodo dei minimi quadrati. Le stime ottenute sono delle stime in media e quindi dovrebbero possedere le stesse proprietà che gode la classica stima della media: non distorsione e consistenza. Qui di seguito dimostriamo in modo formale queste proprietà delle stime dei minimi quadrati per il caso del modello di regressione lineare sempl ice. Ricordiamo che è Yi = βo + β1 x i + ei inoltre nS xy = n ∑ ( x i − x )( Yi − Y ) = i =1 n ∑ ( x i − x ) Yi - Y i =1 n S 2x = n ∑ i =1 n ∑ i =1 ( xi − x )2 = n ∑ i =1 ( xi − x ) = n ∑ ( x i − x ) Yi , i =1 ( x i − x )( x i − x ) = n ∑ ( x i − x ) xi i =1 ove si è tenuto conto che la somma degli scarti dalla propria media è sempre identicamente nulla. In tal modo avremo Capitolo 6 238 n β̂1 = S xy S x2 = ∑ n ( x i − x )( Yi − Y ) i =1 n ∑ = ( xi − x ) ∑ (x i − x )Yi i =1 = nS x2 2 i =1 n = n ∑ = βo ∑ i =1 ( x i − x )( β o + β1 x i + e i ) = nS x2 n ( xi − x ) + β1 i =1 nS x2 = β1 + n ∑ i =1 ∑ n ∑ (x ( x i − x )x i i =1 + nS x2 i − x )e i i =1 nS x2 = n ( xi −x ) ei = β1 + w1i ei nS x2 i=1 ∑ Allo stesso modo risulta β̂ o = Y - β̂1 x = βo + β1 x + = βo + 1 n n ∑ i =1 ei - x n ∑ i =1 1 n n ∑ i =1 ei - β1 + ( xi −x ) ei = βo + nS x2 = βo + n ∑ n ∑ i =1 n ∑ i =1 ( xi − x ) ei x = nS x2 1 ( x i − x )x − ei = nS x2 n woi ei i =1 ove si è posto w1i = ( xi − x ) , nS x2 1 ( x − x ) x ( m 2 x − x i x ) woi = − i 2 = . nS x nS x2 n Da queste espressioni deduciamo che le due stime sono pari ai rispettivi parametri incogniti più una combinazione lineare delle variabili casuali ei . Inoltre, da queste relazioni, tenendo conto che le x i sono deterministiche mentre le ei sono variabili casuali incorrelate e con media zero, risulta immediatamente: Il modello di regressione lineare ( x i − x )x 1 − E(ei ) = βo S x2 1 n ∑ n i =1 E( β̂ o ) = βo + E( β̂1 ) = β1 + 239 n ∑ i =1 ( xi −x ) - E(ei ) = β1 nS x2 e quindi queste stime sono non distorte. Ricordando quanto detto per le combinazioni di variabili casuali incorrelate con varianza costante si ha n 1 var( β̂ o ) = 2 n = 1 n2 n ∑ i =1 ∑ i =1 2 ( x i − x )x 1 − var(ei ) = S x2 ( xi − x )2x 2 ( xi −x ) x 2 − 2 1 + σ = S x4 S x2 =σ2 2 x 1 n+ n2 =σ2 1 n2 n ∑ x −2 i =1 x 2 nS x2 n + S x4 n ( x i − x )2 S x4 ∑ (x i i =1 S x2 −x ) = x2 m 2 1 = σ 1 + = σ 2 2 x2 2 n Sx nS x ove si è tenuto conto che S 2x = m2x - x 2; allo stesso modo var( β̂1 ) = n ∑ i =1 2 ( x i − x ) 2 var(ei ) = σ 2 nS x n ∑ i =1 ( xi −x )2 = n 2 S x4 nS x2 1 =σ2 2 4 n Sx nS x2 e quindi queste stime sono consistenti. =σ2 Si può ancora dimostrare (Teorema di Gauss-Markov) che le stime dei minimi Capitolo 6 240 quadrati, oltre ad essere non distorte, consistenti e lineari nelle ei , sono quelle che hanno la varianza minima fra tutte le stime non distorte e lineari nelle ei . In sigla si dice che tali stime sono BLUE (Best Linear Unbiased Estimates). Con una procedura simile, anche se un pò più elaborata, si può dimostrare che anche s 2 è non distorta e consistente per σ 2. Dalle espressioni di var( β̂ o ) e var( β̂1 ) vediamo che queste sono funzione del parametro incognito σ 2 che può essere stimato con s 2. Ciò vuol dire che le stime delle varianze dei parametri stimati, che indichiamo rispettivamente con s 2βo e s 2β1 , sono date rispettivamente da s 2βo = s 2 m2 x , nS x2 s 2β1 = s 2 1 nS x2 che essendo funzione solo dei dati osservati possono essere calcolate numericamente. Nel caso del modello di regressione multipla le stime che si ottengono sono ancora BLUE, ma gli sviluppi formali sono più complessi. In tal caso il calcolo numerico viene fatto solo tramite computer utilizzando l’appropriato software. Esempio 6 Nel caso dell’esempio 3 le stime di s 2βo e s 2β1 sono rispettivamente s 2βo = 25.0918, s 2β1 = 0.0638 Nel caso dell’esempio 4 le stime s 2βi sono rispettivamente s 2β o = 16.0851, s 2β1 = 0.4232, s β22 = 0.0227, s 2β 3 = 0.00009304. 6.6 La verifica del modello di regressione Una volta che il modello è stato identificato e stimato è necessario procedere alla sua verifica. In altri termini è necessario stabilire se si adatta in modo soddisfacente ai dati osservati. Da un punto di vista analitico questo implica verificare se, con i dati che si hanno a disposizione, effettivamente tutte le variabili esplicative, o solo alcune di queste, si possono statisticamente considerare cause della variabile dipendente. Questa verifica può essere eseguita utilizzando strumenti diversi. Qui di seguito ne analizzeremo solo tre: test sui parametri stimati, Il modello di regressione lineare 241 un indice di accostamento globale del modello ai dati osservati, alcune analisi sui residui. Perché un modello sia considerato accettabile e quindi idoneo ad essere utilizzato è necessario che superi tutte le verifiche di cui tratteremo nel seguito. Se qualcuna di tali verifiche non è superata è necessario riformulare il modello, integrando eventualmente le osservazioni di cui si dispone. TEST SUI PARAMETRI DEL MODELLO Consideriamo per il momento il caso del modello di regressione lineare semplice yi = βo + β1 x i + ei e la relativa stima ˆy i = β̂ o + β̂1 x i si vuole sottoporre a test Oppure Ho : βo = 0 verso H1 : βo ≠ 0 Ho : β1 = 0 verso H1 : β1 ≠ 0 È immediato capire che se si dovesse accettare, per esempio, l’ipotesi Ho : β1 = 0 vorrebbe dire che la variabile X non esercita alcuna influenza su Y e quindi il modello va riformulato scegliendo altre variabili esplicative più idonee a spiegare il fenomeno Y. Da un punto di vista intuitivo siamo portati a rifiutare Ho se il valore stimato | β̂1 | è grande e lontano da zero, viceversa siamo portati ad accettare Ho se | β̂1 | è piccolo e vicino a zero. Per stabilire fino a che punto detto valore è grande o piccolo è necessario conoscere, al variare del campione, la distribuzione probabilistica di β̂1 o di una sua trasformazione monotona di modo che sia pivotale (cioè indipendente dai parametri incogniti). È a questo fine che si introduce l’ipotesi di normalità: le variabili casuali scarto ei si suppongono indipendenti fra di loro e distribuite come una normale con media zero e varianza costante. Tenendo conto di questa ipotesi e del fatto che sia β̂1 che β̂ o sono delle combinazioni lineari delle ei , per una delle proprietà della normale si ha immediatamente σ2 1 β̂1 ~ N β1 ; n S x2 Capitolo 6 242 β̂ o ~ N βo ; σ 2 m2 x n S x2 Come si può notare da queste due espressioni la distribuzione delle stime β̂1 e β̂ o , al variare del campione, è simile (a meno di una costante moltiplicativa della varianza) a quella della media campionaria x sotto l’ipotesi di normalità: σ2 , X ~ N µ ; n questo ci porta a costruire una statistica test simile a quella utilizzata per la media. In definitiva, la statistica test per Ho : βo = 0 verso H1 : βo ≠ 0 è data da toc = | βˆ o | |βˆ o | n = s s βo Sx . m2 x Si rifiuta Ho al livello α se risulta toc > t(n-2; 1- α/2) . Allo stesso modo la statistica test per Ho : β1 = 0 verso H1 : β1 ≠ 0 è data da t1c = | βˆ 1 | | βˆ 1 | n Sx . = s β1 s Si rifiuta Ho al livello α se t1c > t(n-2 ; 1- α/2) . Il modello di regressione lineare 243 Ovviamente, per i test unilaterali del tipo Ho : β1=0 verso H1 : β1>0 si procede con una tecnica simile a quella già vista nel capitolo relativo alla teoria del test. Nel caso di modello di regressione lineare multiplo la logica del test sui parametri è esattamente la stessa, ma non sono più valide le formule che abbiamo appena visto. In tal caso, la verifica di Ho : βi = 0 verso H1 : βi ≠ 0, i = 0, 1, ..., k implica una statistica test del tipo tic = | βˆ i | | βˆ i | n δix , = s βi s i = 0, 1, ..., k ove δix è una complicata quantità positiva funzione dei valori osservati sulle variabili esplicative calcolabile numericamente (tramite elaboratori) ma non facilmente esplicitabile in modo formale. In questo caso, se le variabili esplicative del modello sono k, si rifiuterà Ho al livello α se risulta tic > t(n-k-1; 1- α/2) i = 0, 1, ..., k . Esempio 7 Riprendiamo il caso riportato nell’esempio 3 e costruiamo i test per Ho : βi = 0 H1 : βi ≠ 0, i = 0, 1 verso Abbiamo già visto che è β̂ o = 5.0384 , e quindi risulta to c = β̂1 = 0.7885 , s 2βo = 25.0918 , s 2β1 = 0.0638 5.0384 = 1.006 25.0918 e t1 c = 0.7885 = 3.12 0.0638 ed essendo t(5; 2.5%) = 2.571, al livello α=5%, non si può rifiutare l’ipotesi Ho per i = 0, viceversa possiamo rifiutarla per i=1. Questo vuol dire che il modello di regressione va riformulato nel seguente Capitolo 6 244 Y = β1 X + e In tal caso si otterrà β̂1 = 1.0417907 e s 2β1 = 0.00039175 che implicano t1c = 1.0417907 0.00039175 = 52.63 e rifiutiamo ancora l’ipotesi Ho che β1 sia pari a zero. In definitiva, il modello di regressione privo di intercetta potrebbe essere quello idoneo per descrivere il fenomeno Y in funzione di X. Osserviamo che un modello di regressione accettabile deve avere almeno 15 gradi di libertà con g = n-k-1. In questo caso i gradi di libertà sono solo cinque e di conseguenza i risultati sono molto instabili. Riprendiamo ora l’esempio 4, abbiamo visto che le variabili esplicative sono tre e risulta: β̂ o = 2.1456; β̂1 = 1.9073; β̂ 2 = - 0.3331; s 2βo = 16.0851; s 2β1 = 0.4232; s 2β 2 = 0.0227; da queste ricaviamo to c = t2 c = 2.1456 = 0.53, 16.0851 0.3331 = 2.21, 0.0227 t1 c = t3 c = β̂ 3 = 0.0131 s 2β 3 = 0.00009304 1.9073 = 2.93, 0.4232 0.0131 = 1.36 0.00009304 ricordando che è n = 20, al livello α = 5%, avremo t(16; 1-0.025)=2.12 pertanto non possiamo rifiutare Ho : βi = 0 per i = 0, 3. In altri termini, sia l’intercetta βo che β3 , il coefficiente di COP, non sono statisticamente diversi da zero al livello del 5%. Tenuto conto di questi risultati riformuliamo il modello NV = β1 MTR + β2 MRT + e e stimiamone i relativi parametri ottenendo: β̂1 = 2.4871; β̂ 2 = - 0.3548 s 2β1 = 0.019418; s 2β 2 = 0.005014 risulta Il modello di regressione lineare t1 c = 2.4871 = 17.85; 0.019418 t2 c = 245 0.3548 = 5.01 0.005014 mentre è t(18; 1-0.025)=2.101 ed in entrambi i casi si può rifiutare l’ipotesi Ho e affermare che entrambi i parametri sono da considerarsi statisticamente diversi da zero. Da questo secondo caso possiamo trarre alcune utili considerazioni: (a) dato che è corr(NV; CPO) = 0.804 si poteva a priori pensare che effettivamente la variabile CPO avesse una qualche influenza su NV, da quanto è emerso in questa analisi tale legame è di tipo spurio essendo evidentemente già conglobato in MTR; (b) l’esclusione di una variabile nel modello di regressione può portare a risultati molto diversi nella stima dei parametri, infatti la stima di β1 dal caso di tre variabili esplicative al caso di due variabili esplicative passa, rispettivamente, da 1.9073 a 2.4871 (c) in termini di accostamento globale l’esclusione o l’inclusione della variabile non significativa CPO non crea grandi differenze, come si può verificare controllando il grafico seguente costruito con βo = β1 = 0 e quello visto nell’esempio 4 in cui erano presenti tutti e quattro i parametri. 14 13 12 11 NV 10 9 ^ NV 8 7 6 5 10 15 20 MISURA DELLA BONTÀ DI ADATTAMENTO Definiamo ora uno strumento che ci permetta di misurare l’accostamento tra i dati osservati e quelli stimati e quindi di stabilire se globalmente il modello di regressione stimato descrive in modo accettabile le osservazioni che si hanno a disposizione. In altre parole, vogliamo calcolare un indice che ci indica fino a che punto il modello di regressione lineare stimato, nella sua globalità, approssima i dati osservati. Capitolo 6 246 Consideriamo, per il momento, il caso della regressione lineare semplice. In questo contesto la situazione ottimale si ha quando tutte le n coppie (x i , yi ) osservate sono allineate lungo una retta che, ovviamente, coincide con quella di regressione per cui i relativi residui osservati ê i sono tutti identicamente nulli. Viceversa il caso peggiore si ha quando tutte le n coppie osservate (x i , yi ) sono disperse nel piano (X, Y) e risulta del tutto irrealistica l’approssimazione con una retta. Le due situazioni qui richiamate sono schematizzate nelle figure seguenti 1) Caso ottimale 2) Caso peggiore Nelle pratiche applicazioni ben difficilmente si hanno situazioni estreme come quelle sopra illustrate e sorge la necessità di misurare fino a che punto si è vicini al caso ottimale o a quello peggiore. A tale scopo si costruisce un indice di correlazione multipla, che si indica con R2, e misura l’intensità del legame l ineare esistente fra la variabile dipendente Y e quelle esplicative X1 , X2 , ..., Xk . Prima di definire questo nuovo indice dimostriamo che è sempre n ∑ ê (ˆy i i − y) = 0 i =1 Infatti, n ∑ ê ( ˆy i i − y) = i =1 n ∑( y i − ˆy i )( ˆy i − y ) = i =1 n ∑ ( y i − βˆ o − βˆ1 x i )( βˆ o + βˆ 1 x i − βˆ o − βˆ 1 x ) = i =1 = β̂1 n ∑ ( y i − βˆ o − βˆ1 x i )( x i − x ) = i =1 Il modello di regressione lineare β̂1 247 ∑ ( y i x i − βˆ o x i − βˆ1 x i2 − y i x + βˆ o x + βˆ 1 x i x ) = n i =1 n β̂1 x i y i − β̂ o i =1 ∑ n ∑ x i - β̂1 i =1 n ∑ x i2 - x i =1 n ∑ y i + n β̂ o x + β̂1 x i =1 n ∑x i =1 ( i = ) = βˆ 1 n m xy − nβˆ o x − n βˆ 1 m 2 x − n x y + n βˆ o x + n βˆ 1 x 2 = = β̂1 n [mxy - x y - β̂1 (m2x - x 2)] = β̂1 n (S xy - β̂1 S 2x ) = S xy = β̂1 n S xy − 2 S x2 = 0 Sx Tenendo conto di questo risultato si ha immediatamente n ∑ ( y i − y )2 = i =1 n ∑ ( y i − ˆy i + ˆy i − y ) 2 = i =1 ∑ [ê n 2 i n ∑ [ê i + ( ˆy i − y )]2 = i =1 ] ∑ ê + ( ˆy i − y ) 2 + 2ê i ( ˆy i − y ) = i =1 n 2 i i =1 + n ∑ ( ˆy i − y )2 i =1 Se dividiamo il primo e l’ultimo membro di quest’ultima uguaglianza per n si ottiene 1 n 1 n 2 1 n ( yi − y ) 2 = ê i + ( ˆy i − y ) 2 n i =1 n i =1 n i =1 ∑ ∑ ∑ o equivalentemente S 2y = S ê2 + S 2ˆy In altri termini, se il modello di regressione è lineare ed è stimato con il metodo dei minimi quadrati, allora la varianza stimata (stima distorta) delle y osservate è sempre uguale alla varianza dei residui stimati più la varianza delle ˆy interpolate. Capitolo 6 248 Se dividiamo ambo i membri dell’ultima uguaglianza per S 2y si ottiene S 2ˆy Sˆe2 1= 2 + 2 Sy Sy Siamo ora in condizione di dare la seguente definizione l’indice R2 è dato da R2 = S 2ˆy S 2y =1- Sˆe2 S 2y e misura la percentuale della variabilità di Y spiegata dal modello di regressione adattato ad Y. Da quanto abbiamo appena detto è facile verificare che è sempre 0 ≤ R2 ≤ 1 Per meglio illustrare il significato di questo indice, analizziamo i due casi estremi: R2 = 0 ed R2 = 1. Caso di R2 = 0. R2 = 0 è equivalente a S 2ˆy = 0, cioè 1 n n ∑ ( ˆy i − y ) 2 = 0 i =1 che equivale a ( ˆy1 − y ) = ( ˆy 2 − y ) = ... = ( ˆy n − y )= 0 da cui infine ˆy1 = ˆy 2 = ... = ˆy n = y . In altri termini, nel caso di R2 = 0 tutti i valori interpolati sono uguali fra di loro e coincidono con la propria media. Nel caso della regressione lineare semplice si ha una situazione come quella schematizzata nella figura seguente Il modello di regressione lineare 249 y Quanto detto si verifica se e solo se risulta β̂1 = 0 e quindi β̂ o = y , ma questo vuol dire che al variare di X la Y, in media, non varia. In altri termini, in un caso del genere la variabile esplicativa X non esercita, in media, alcuna influenza su Y per cui il modello considerato non è accettabile e va riformulato. Queste considerazioni possono essere estese al caso multiplo con k ≥ 2 variabili esplicative. Infatti, si può dimostrare che R2 = 0 è equivalente a β̂1 = β̂ 2 = .... = β̂ k = 0 e quindi β̂ o = y . Questo vuol dire che, in media, nessuna delle k variabili esplicative X1 , X2 , ..., Xk esercita una influenza su Y, di conseguenza il modello utilizzato è inaccettabile e va riformulato. È anche possibile elaborare un test delle ipotesi che permetta di stabilire se 2 R è significativamente diverso da zero. Più precisamente, supponendo che le v.c. scarto ei siano tutte indipendenti e distribuite normalmente, le ipotesi che vengono sottoposte a test sono Ho : β1= β2 = ... = βk = 0 H1: almeno uno dei βi ≠ 0, in tal caso si può dimostrare che la statistica test ottimale è data da 2 R2 /k ( n − k −1 ) S ˆy Fc = = ( 1 − R 2 ) /( n − k − 1 ) k S ê2 che, sotto Ho , si distribuisce come una v.c. F(k; n-k-1). Questo vuol dire che si rigetta, al livello α, l’ipotesi Ho se risulta Capitolo 6 250 Fc > F( k; n-k-1; α ) Ove F( k; n-k-1; α ) è tale che P( F(k; n-k-1) > F( k; n-k-1; α ) ) = α e si ricava, come già sappiamo, dalle tavole della v.c. F di Fisher riportate in appendice. Caso di R2 = 1 R2 = 1 è equivalente a S ê2 = 0 che a sua volta è equivalente a n ∑ ê 2 i = 0. i =1 Questo si verifica se e solo se risulta ê1 = ê 2 = ... = ê n = 0. In definitiva, si ha R2 = 1 se e solo se tutti i residui osservati sono identicamente nulli ma questo è equivalente a dire che tutte le y osservate sono coincidenti con quelle teoriche e quindi risulta yi = ˆy i per i=1,2,...,n. In altri termini, le yi osservate sono tutte allineate lungo una retta che coincide necessariamente con quella di regressione. Graficamente si ha una situazione come quella descritta nella figura seguente ˆy = βˆ o + βˆ 1 x Questo risultato vale, con identica interpretazione, anche quando si hanno k ≥ 2 variabili esplicative. Nelle pratiche applicazioni molto difficilmente si otterrà uno dei casi limite Il modello di regressione lineare 251 sopra illustrati, ma si avranno valori di R2 interni all'intervallo [0; 1]. Tali valori limite sono utili per meglio interpretare questo indice: più R2 è vicino ad uno più il modello è globalmente accettabile, più R2 è vicino a zero più il modello globalmente è da rifiutare. Per esempio, se in una data applicazione risulta R2 = 0.86 vuol dire che l’86% della varianza di Y è spiegato dal modello di regressione lineare, mentre il restante 14% è spiegato dai residui. Esempio 8 Riprendiamo l’esempio 3, abbiamo visto che il modello da prendere in considerazione è Y = β1 X + e in tal caso si ottiene R2 = 0.592. Questo vuol dire che il 59.2% della variabilità di Y è spiegato dal modello di regressione utilizzato, mentre il restante 40.8% è dovuto ai residui. Riprendiamo l’esempio 7, siamo arrivati alla conclusione che abbia senso il modello NV = β1 MTR + β2 MRT + e in tal caso si ottiene R2 = 0.846. In altri termini, la variabilità di NV è spiegata per l’84.6% dal modello suddetto, mentre il restante 15.4% è spiegato dai residui e quindi da fattori accidentali. Facciamo ora vedere che R2 è una generalizzazione del coefficiente di correlazione già analizzato. Più precisamente mostriamo che nel caso della regressione lineare semplice R2 coincide con la correlazione stimata al quadrato: R2 = r 2 = S xy2 S x2 S 2y Partendo dalla definizione di R2 si ha R2 = S 2ˆy S 2y , ma nel caso della regressione semplice, tenendo conto delle espressioni di ˆy i , y e β̂1 si ha sempre Capitolo 6 252 S 2ˆy = 1 n n ∑ ( ˆy i − y ) 2 = i =1 1 βˆ 12 n n ∑ i =1 1 n ˆ ∑ ( β o + βˆ 1 x i − βˆ o − βˆ 1 x ) 2 = n i =1 ( x i − x ) 2 = β̂12 S 2x = S xy2 S x4 S 2x = S xy2 S x2 Sostituendo quest’ultima nella formula di R2 si ottiene il risultato cercato. ANALISI DEI RESIDUI Un terzo modo per stabilire se il modello adattato ai dati può essere accettato e quindi utilizzato, oppure va rifiutato e quindi riformulato è quello di analizzare i residui stimati. Se nei residui stimati vi è ancora una qualche struttura è evidente che il modello selezionato non riesce a catturare completamente l’evoluzione del fenomeno e quindi va riformulato, ristimato e ritestato. Se le n osservazioni di cui si dispone sono relative a serie storiche, oppure posseggono un qualche altro ordinamento naturale, un modo di verificare se nei residui vi è una qualche struttura è quello di costruire i due grafici come qui di seguito indicato. Primo grafico In un sistema di assi cartesiani si riportano le coppie di punti ( i , ê i ) se nei residui stimati vi è una qualche ulteriore struttura questa dovrebbe emergere dal relativo grafico. Nella figura che segue è riportato il tipico caso in cui fra i residui esiste una ulteriore struttura che il modello non è riuscito a catturare. Infatti, in questo grafico a residui positivi tendono a susseguirsi residui positivi ed a quelli negativi ancora residui negativi. Il modello di regressione lineare 253 Secondo grafico In un sistema di assi cartesiani si rappresentano le coppie ( ê i , ê i −1 ), se nei r esidui vi è una qualche struttura dovrebbe emergere dal grafico ed il relativo modello dovrebbe essere riformulato. Nella figura che segue viene riportato il tipico caso in cui fra i residui esiste una ulteriore struttura di cui è necessario tener conto. In questo caso si può notare come la maggior parte dei punti siano concentrati nel primo e nel terzo quadrante. Se le osservazioni di cui si dispone non posseggono un ordinamento naturale, un modo per verificare se nei residui vi è una qualche ulteriore struttura è quella di costruire uno scatter rappresentando le n coppie di osservazioni ( ê i , yi ). Se il modello utilizzato non è idoneo a rappresentare la variabile dipendente Y, nello scatter sopra citato deve essere visibile una qualche struttura. 14 23 22 12 21 10 20 8 19 18 6 -2 -1 0 1 RESID 2 -2 -1 0 1 RESID 2 Le due figure qui sopra riportate si riferiscono agli scatter ( eˆi , NVi ) e ( eˆi , yi ) connessi alle stime dei modelli di regressione degli esempi 7 ed 8. Come si Capitolo 6 254 può notare, in questi non si intravedono strutture apparenti e quindi i modelli utilizzati possono essere considerati idonei per rappresentare i fenomeni in studio. 6.7 Modello di regressione non lineare Le analisi che abbiamo fatto nei paragrafi precedenti sono relative al caso in cui la relazione esistente fra la variabile dipendente Y e quelle esplicative (X1, X2 , ..., Xk ) sia di tipo lineare. Molto spesso, considerazioni teoriche, evidenze empiriche o entrambe portano a formulare modelli non lineari. In questi casi è necessario distinguere fra tre situazioni alternative, qui di seguito sommariamente illustrate, che implicano soluzioni diverse. MODELLI NON LINEARI NELLE ESPLICATIVE Questo è il caso più semplice da affrontare dato che la stima dei suoi parametri e la relativa verifica non si discosta sostanzialmente da quello lineare già conosciuto. Per essere più chiari supponiamo che sia Y = βo + β1 e X + β2 V 2 + a ove a è la variabile casuale scarto o residuo. Come si può notare, questo modello è lineare nei parametri incogniti, ma è non lineare nelle due variabili esplicative X e V. D’altra parte, se poniamo e X = X*, V 2 = V* cioè lavoriamo sull’esponenziale della variabile X e sui quadrati della variabile V, otteniamo il nuovo modello Y = βo + β1 X* + β2 V* + a che risulta lineare nei parametri e nelle nuove variabili esplicative X*, V* e tutto quanto illustrato per il modello lineare continua a valere per questo particolare modello non lineare. MODELLI NON LINEARI MA LINEARIZZABILI In molti casi un modello non lineare nei parametri può essere ricondotto a quello lineare con una semplice trasformazione monotona. In tal modo i risultati illustrati nelle pagine precedenti valgono per il modello trasformato e dato che la trasformazione è di tipo monotona, è sempre possibile risalire al m o- Il modello di regressione lineare 255 dello originario. Qui di seguito presentiamo tre modelli non lineari nei parametri incogniti e la relativa trasformazione monotona che li riconduce al caso lineare: Y = βo e (β1 X1 + β2 V ) a Y = βo X Y= β1 V β2 a 1 β o + β1 X + a ove con a abbiamo indicato la variabile casuale residuo ed Y è strettamente positiva. Questi modelli possono essere ricondotti facilmente alla forma lineare, rispettivamente, con le trasformazioni seguenti: log(Y) = log( βo ) + β1 X + β2 V + log(a) log(Y) = log( βo ) + β1 log(X) + β2 log(V)+ log(a) 1 = βo +β1 X+e. Y MODELLI NON LINEARIZZABILI Esistono molti modelli di regressione non lineari e non linearizzabili con semplici trasformazioni monotone. Così, se è Y = β o + X β1 + V β2 + a il modello è non lineare nei parametri e non è facilmente linearizzabile. In tal caso per procedere è necessario utilizzare una stima non lineare dei minimi quadrati dato che bisogna minimizzare l’espressione seguente ∑ [y i - βo - X n i =1 β1 -V β2 2 ] = min(βo , β1 , β2 ). Esistono algoritmi numerici abbastanza affidabili all’interno di pacchetti applicativi per computer che permettono di ottenere le relative stime. In tal caso, però, alcuni degli strumenti di verifica del modello che abbiamo qui illustrato non sono più validi. Capitolo 6 256 Esempio 9 Nella tabella seguente sono riportate le variabili Capitale (CAP), Lavoro (LAV) e Fatturato (FT) riguardanti la produzione di beni di abbigliamento osservati annualmente dal 1980 al 2000 in Italia. I dati sono espressi a prezzi costanti. CAP LAV FT 3915220 4048943 4166672 4275791 4388399 4496368 4605069 4719635 4847538 4981877 5122586 5260057 5386359 5470796 5551208 5644872 5744835 5846054 5955667 6075031 6209550 22061.4 22059.0 22181.8 22319.9 22400.6 22595.6 22783.9 22895.6 22131.2 22202.0 23425.6 23608.4 23457.2 22749.8 22529.2 22528.3 22600.2 22691.5 22925.7 23111.5 23454.3 1341394 1351868 1360399 1377220 1415209 1457306 1494116 1538714 1599473 1645403 1677885 1701210 1714149 1699000 1736505 1787278 1806815 1843426 1876807 1907064 1962649 Nella figura seguente sono riportate le tre variabili citate dopo averle trasformate in numeri indici a base fissa per renderli confrontabili 160 150 140 cap 130 ft 120 110 lav 100 90 80 82 84 86 88 90 92 94 96 98 00 Possiamo osservare che il capitale ed il fatturato crescono entrambi ad un tasso elevato, mentre Il modello di regressione lineare 257 il lavoro oscilla e rimane sostanzialmente immutato nel periodo considerato. Ai dati osservati si vuole adattare una funzione di produzione non lineare del tipo FTt = β o CAPtβ1 LAVt( 1 −β1 ) + e t questo è un modello non lineare né linearizzabile nei due parametri β o e β1 e per poterlo stimare utilizziamo il metodo non lineare dei minimi quadrati. I risultati della stima sono riportati nella tabella che segue Stima coeff βo β1 R2 S.E. SSR Errore ST tc Prob. 0.731225 0.100128 7.302883 0.0000 0.848242 0.025076 33.82630 0.0000 0.987024 Media di FT 1633042.0 23101.32 1.01E+10 S.D. di FT 197661.0 Come si può notare, la stima di entrambi i parametri è da considerare buona ed il valore di R2 è molto elevato il che porterebbe a considerare il modello stimato accettabile. Se si considera come il modello adatta i dati e l’andamento dei residui stimati si ottiene la figura seguente 2000000 Osservati Stimati 1800000 1600000 60000 1400000 40000 1200000 20000 0 residui -20000 -40000 -60000 80 82 84 86 88 90 92 94 96 98 00 Come si può notare, nei residui è presente una componente ciclica che rende il modello poco a ccettabile. Per catturare questo aspetto del fenomeno si è considerato il modello seguente β CAPtβ1 LAVt( 1− β1 ) + e t FTt = o e t = φ1 e t −1 + φ2 e t − 2 + a t Capitolo 6 258 ove a t è la nuova variabile casuale errore. In questo caso la stima non lineare dei minimi quadrati fornisce i risultati riportati nella tabella che segue βo β1 φ1 φ2 Coefficienti Std. Error t-Statistica Prob. 0.654055 0.127621 5.124958 0.0001 0.868796 0.035754 24.29893 0.0000 1.090955 0.202491 5.387668 0.0001 -0.576220 0.186839 -3.084048 0.0076 R2 0.995371 Media FT 166319.0 S.E. SSR 13607.83 2.78E+09 S.D. di FT 182575.7 Tutti i parametri stimati sono statisticamente diversi da zero e l’indice R 2 è molto elevato e questo ci porta a concludere che questo modello potrebbe essere preferibile a quello precedentemente utilizzato. Se consideriamo il grafico che mostra come il modello stimato adatta i dati ed i relativi residui otteniamo la figura seguente che ci porta a concludere che questo secondo modello è effettivamente migliore di quello stimato precedentemente. 2000000 Osservati Interpolati 1800000 40000 1600000 20000 1400000 1200000 0 residui -20000 -40000 82 84 86 88 90 92 94 96 98 00 6.8 Modello di regressione in forma matriciale Il modello di regressione lineare può essere più facilmente ed utilmente r iscritto utilizzando la notazione matriciale. Per vedere come questo si può ottenere consideriamo il caso in cui vi sono due sole variabili esplicative: la X e la V. In tal modo le n osservazioni soddisfano le n relazioni: Il modello di regressione lineare 259 y1 = βo + β1 x 1 + β2 v1 + e1 y2 = βo + β1 x 2 + β2 v2 + e2 ....................................................... yn = βo + β1 x n + β2 vn + en che in forma matriciale possono essere anche scritte nel modo seguente y1 y 2 ... = ... yn ⇔ y = 1 x 1 1 x 2 ... ... ... ... 1 x n X v1 v 2 ... ... v n e1 β o e 2 β + ... 1 β 2 ... e n β + ⇔ e dove y , X , β , e , sono, rispettivamente, il vettore delle y , la matrice delle variabili esplicative X, il vettore dei parametri β ed il vettore dei residui e . In altri termini, il modello di regressione lineare si può sempre scrivere nel modo seguente y=Xβ +e con l’avvertenza che y ed e sono due vettori di n elementi, la matrice X ha n righe e (k+1) colonne, mentre il vettore β ha (k+1) coefficienti incogniti da stimare. Per le ipotesi fatte sul modello di regressione ( X è deterministica mentre E(e) = 0) risulta immediatamente E(y) = X β . Indichiamo con A l’inversa di una matrice quadrata, cioè quella per cui si ha AA −1 = I , ove I indica la matrice identica composta da tutti uno sulla diagonale principale e zero altrove, e con A' la trasposta di una matrice qualsiasi. Premoltiplicando ambo i membri dell’ultima espressione per X' si ottiene -1 Capitolo 6 260 X' E( y ) = ( X' X ) β da cui, essendo (X' X) quadrata ed invertibile per le ipotesi fatte sul modello di regressione lineare, si ricava la soluzione β = (X' X ) -1X' E( y) Se al posto di E(y), che è incognito, sostituiamo una stima, in particolare i valori osservati y, si ottiene la stima del vettore dei parametri incogniti: β̂ = (X ′ X) −1 X ′ y questa, per costruzione, è una stima in media e quindi minimizza la somma dei quadrati degli scarti ed ha tutte le proprietà della stima della media. In particol are è facile verificare che β̂β è non distorta per β . Infatti, ricordando che y = X β + e si ha β̂β = (X ' X) -1X ' y = (X ' X) -1X ' [X β + e] = = (X ' X ) -1(X ' X) β + (X' X) -1X ' e = β + (X' X ) -1X ' e e tenuto conto che E(e) = 0 ed X è deterministica si ricava E( β̂β ) = β + (X' X) -1X ' E( e) = β che generalizza quanto abbiamo visto nel caso di regressione lineare semplice (teorema di Gauss-Markov). Allo stesso modo si ha che: - il vettore delle y stimate è dato da: ŷ = X β̂β - il vettore degli scarti stimati è dato da: ê = y - ŷ - la stima non distorta di σ 2 è data da: s2= - il coefficiente di correlazione multipla è: eˆ' eˆ n − k −1 Il modello di regressione lineare R2 = 261 eˆ ' eˆ ( yˆ − y )' ( yˆ − y ) =1( y − y )' ( y − y ) ( y − y )' ( y − y ) ove con y- si è indicato il vettore che ha tutti gli elementi uguali e pari alla media campionaria -y . Con una procedura simile è facile verificare che la matrice delle varianze e covarianze di β̂β è data da var( β̂β ) = σ 2( X ' X) -1. La generalizzazione degli altri risultati illustrati nei paragrafi precedenti si ottiene con procedimenti simili ricorrendo a noti risultati di algebra lineare. BIBLIOGRAFIA AITKEN C.G.C Statstics and the Evolution of Evidence for Forensic Scientists, Wiley & Sons, New York (1995) ANDERSON TW., FINN J.D. The New Statistical Analysis of Data, Springer, New York (1996) AZZALINI A. Statistical Inference Based on the Likelihood, Chapmann & Hall, London (1996) BARNES J.W. Statistical Analysis for Engeneers and Scientists, McGraw Hill, New York (1994) BETTUZZI G. Strumenti per l’Indagine Statistica, vol. I, CLUEB, Bologna (1993) BICKEL P. J., DOCKSUM K.A. Mathematical Statistics: Basic Ideas and Selected Topics, Holden-Day, San Francisco (1977) BLALOCK H. M. Social Statistics, McGraw-Hill, 2° ediz., New York (1972) BOLDRINI M. Statistica, Giuffrè, Milano (1968) C ALVELLI A., QUINTANO C. La Statistica. Elementi di Metodologia ed Applicazioni in Campo Sociale ed Economico, Liguori Editore, Napoli (1982) C APPUCCIO N., ORSI R. Econometria, Il Mulino, Bologna (1991) C ASELLA G., BERGER R.L. Statistical Inference, Duxbury Press, Belmont CA (1990) C ASTELLANO V. Istituzioni di Statistica, Ed. Ilardi, Roma (1968) C ECCHI C. I Numeri indici, Cacucci, Bari (1995) C HIEPPA M., RIBECCO N., VITALE C. Teoria e Metodi Statistici, ESI, Napoli (1994) C IFARELLI M. Elementi di Calcolo delle Probabilità, Giappichelli, Torino (1995) C ORBETTA P. Metodi di Analisi Multivariata per le Scienze Sociali, Il Mulino, Bologna (1992) C OSTANTINI D. GIORGI G.M., HERZEL A., M ONARI P., S CARDOVI I., Metodi Statistici per le Scienze Economiche e Sociali, Monduzzi, Bologna (1994) C OX D.R., HINKLEY D.V. Theoretical Statistics, Chapmann Hall, London (1974) C RESCIMANNI A. Grafici in Statistica, La Nuova Italia Scientifica, Roma (1996) DABONI L. Calcolo delle Probabilità ed Elementi di Statistica, UTET, Torino (1996) DALL’AGLIO G. Calcolo delle Probabilità, Zanichelli, Bologna (1987) DAVISON A.C., HINCKEY D.V. Bootstrap Methods and their Application, Cambridge University Press, Cambridge (1997) De FINETTI B. Teoria delle Probabilità, vol. I e II, Einaudi, Torino (1970) 294 Bibliografia DEL VECCHIO F. Elementi di Statistica per la Ricerca Sociale, Cacucci, Bari (1996) DIANA G., SALVAN A. Campionamento da Popolazioni Finite, CLEUP, Padova (1987) DI C IACCIO A., BORRA S. Introduzione alla Statistica Descrittiva, McGraw Hill, Milano (1996) EFRON B. D., TIBSHIRANI R.J. An Introduction to the Bootstrap, Chapmann & Hall, New York (1993) FRASER A.A.S. Inference and Linear Models, McGraw-Hill, New York (1979) FROSINI B., MONTANARI M., NICOLINI G. Il Campionamento da Popolazioni Finite, UTET, Torino (1994) GIRONE G., SALVEMINI T. Lezioni di Statistica, vol. I, Cacucci, Bari (1984) GIUSTI F. Introduzione alla Statistica, Loescher Editore, Torino (1983) GIUSTI F., GUERRIRERI G. Elementi di Statistica, Cacucci, Bari (1980) GNEDENKO B.V. La Teoria della Probabiltà, Editori Riuniti, Roma (1979) GORIEROUX G., M ONFORT A. Statistical and Econometric Models, vol. I, Cambridge University Press, Cambridge (1995) HJORTH J.S.U. Computer Intensive Statistical Methods, Chapmann & Hall, London (1993) HODGES J.L., LEHMANN E. L. I Concetti Fondamentali della Probabilità e della Statistica, vol. I, Probabilità, Il Mulino, Bologna (1971) HODGES J.L., LEHMANN E. L. I Concetti Fondamentali della Probabilità e della Statistica, vol. II, Statistica, Il Mulino, Bologna (1972) HOEL P. G., PORT S., STONE C. Introduction to Statistical Theory, Houghton Miffin, Boston (1971) HOGG R.V., C RAIG A.T. Introduction to Mathematical Statistics, MacMillan Company, New York (1970) JALLA E. Per un’Analisi Statistica degli Aggregati Economici, Giappichelli, Torino (1980) JOHNSON N. L., KOTZ S. Distributions in Statistics: Discrete Distributions, Houghton Mifflin, New York (1969) JOHNSON N. L., KOTZ S. Distributions in Statistics: Continuous Univariate Distributions , vol. I, Houghton Mifflin, New York (1970) JOHNSON N. L., KOTZ S. Distributions in Statistics: Continuous Univariate Distributions , vol. II, Houghton Mifflin, New York (1970) KENDALL M.G., STUART A. The Advanced Theory of Statistics, vol I: Distribution Theory , Griffin, London (1976) KENDALL M.G., STUART A. The Advanced Theory of Statistics, vol II: Inference and Relationship, Griffin, London (1979) LANDENNA G. Fondamenti di Statistica Descrittiva, Il Mulino, Bologna (1984) LANDENNA G., MARASINI D. La Teoria della Stima Puntuale, Cacucci, Bari Bibliografia 295 (1992) LANDENNA G., MARASINI D., FERRARI P. Probabilità e Variabili Casuali, Il Mulino, Bologna (1997) LANDENNA G., MARASINI D., FERRARI P. Teoria della Stima, Il Mulino, Bologna (1997) LANDENNA G., MARASINI D., FERRARI P. La Verifica di Ipotesi Statistiche, Il Mulino, Bologna (1998) LEHMANN E.L. Theory of Point Estimation, Wiley, New York (1983) LEHMANN E.L. Testing Statistical Hypotheses, Wiley, New York (1986) LEHMANN E.L. Nonparametrics: Statistical Methods Based on Ranks, Holden-Day, San Francisco (1975) LESSI O. Corso di Calcolo delle Probabilità, Metria Edizioni, Padova (1990) LETI G. Statistica Descrittiva, Il Mulino, Bologna (1983) LINDGREN B.W. Statistical Theory, MacMillan, New York (1976) LINDSEY J.K. Parametric Statistical Inference, Claredon Press, Oxford (1996) LOMBARDO E. Analisi Esplorativa di Dati Statistici, Edizioni Kappa, Roma (1994) M AGAGNOLI U. Elementi di Statistica Descrittiva, CLUEB, Bologna (1993) M ANTOVAN P. Introduzione alla Probabilità e all’Inferenza Statistica, CEDAM, Padova (1993) M ONFORT A. Cours de Statistique Mathématique, Economica, Paris (1982) M OOD A.M., GRAYBILL F.A., BOES D.C. Introduzione alla Statistica, McGraw Hill, Milano (1993) NADDEO A. Statistica di Base, Edizioni Kappa, Roma (1981) NADDEO A. Inferenza Statistica, La Nuova Italia Scientifica, Roma (1987) NADDEO A., LANDENNA G. Metodi Statistici nella Ricerca Scientifica e Industriale, Franco Angeli, Milano (1986) NEWBOLD P. Statistics for Business and Economics, 2° edit., Prentice-Hall, N.J. (1995) O’HAGEN A. Bayesian Inference, E. Arnold, Cambridge (1994) OLIVIERI D. Fondamenti di Statistica, CEDAM, Padova (1995) ORSI R. Probabilità e Inferenza Statistica, Il Mulino, Bologna (1985) PACE L., SALVAN A. Teoria della Statistica, CEDAM, Padova (1996) PERACCHI F. Econometria, McGraw Hill, Milano (1995) PERSICO P., VINCI S. Principi di Econometria, Liguori Editore, Napoli (1981) PESARIN F. Introduzione al Calcolo delle Probabilità, La Nuova Italia Scientifica, Roma (1989) PICCINATO L. Metodi per le Decisioni Statistiche, Springer, Milano (1996) PICCOLO D., VITALE C. Metodi Statistici per l’Analisi Economica, Il Mulino, Bologna (1984) 296 Bibliografia PICCOLO D. Statistica, Il Mulino, Milano (1998) PIERACCINI L. Fondamenti di Inferenza Statistica, Giappichelli, Torino (1991) PINDYCK R.S., RUBINFELD D.L. Econometric Methods and Econometric Forecasts, 3° edit., McGraw Hill, New York (1991) POMPILJ G. Teoria dei Campioni, Veschi, Roma (1967) PREDETTI A. I Numeri Indici. Teoria e Pratica, 6° ediz., Giuffré, Milano (1991) RAO C.R. Linear Statistical Inference and Its Applications, Wiley & Sons, New York (1973) RICCI F. Elaborazione Statistica delle Informazioni, Zanichelli, Bologna (1975) RIZZI A. Inferenza Statistica, UTET, Torino (1992) ROHATGI V.K. An Introduction to Probability Theory and Mathematical Statistics, Wiley, New York (1976) ROHATGI V.K. Statistical Inference, Wiley, New York (1984) RUELL D. Caso e Caos, Bollati Boringhieri, Torino (1992) SALVEMINI T. Lezioni di Statistica, vol. I, Cacucci, Bari (1970) SCALA C. Funzioni di Densità di Probabilità: Atlante Descrittivo, Monotypia Franchi, Città di Castello (PG) (1988) SCARDOVI I. Appunti di Statistica, vol. I, Edizioni Patron, Bologna (1980) SCHEFFÈ H. The Analysis of Variance, Wiley & Sons, New York (1959) SHAO J., TU D. The Jackknife and the Bootstrap, Springer, New York (1995) SHAPIRO S.S. Come Provare la Normalità ed altre Ipotesi per le Distribuzioni di Frequenza, n. 3, Editoriale Italica, Milano (1995) SILVEY S.D. Statistical Inference, Penguin Education Books, London (1970) SPRENT P. Applied Nonparametric Statistical Methods, 2° edit., Chapmann & Hall, London (1993) STUART A. Sondaggi di Opinione, Idee per il Campionamento, Tascabili Newton, Roma (1996) THOMPSON M.E. Theory of Sample Survey, Wiley & Sons, New York (1997) TUKEY J.W. Esploratory Data Analysis, Addison-Wesley, Reading (1971) VAJANI L. Statistica Descrittiva, ETAS Libri, Milano (1974) VITALI O. Statistica per le Scienze Applicate, vol. I, Cacucci, Bari (1991) WELSH A.M. Aspects of Statistical Inference, Wiley & Sons, New York (1996) WILKS S. Mathematical Statistics, Wiley, New York (1963) ZANI S. Analisi dei Dati Statistici, vol. I, Giuffrè, Milano (1994) ZENGA M. Introduzione alla Statistica Descrittiva, Vita e Pensiero, Milano (1988). Indice Analitico Algebra - di Boole 5, 12 - lineare 261 Ampiezza - del campione 161, 178, 182, 193, 197, 201 - della popolazione 177 Approssimazione 80, 85 - asintotica 87, 95, 100, 137 - distribuzione 87, 95, 100 Arvesen 151 Asimmetria 37, 50, 59, 67, 72, 74, 92, 97-99 Assiomatizzazione 3 Banerji 173 Baricentro 123 Bayes 26, 27, 28, 29 Behrens 173 Beran 151 Bernoulli 63, 73, 115, 125, 152, 178, 190, 193 Bickel 15 Binomiale 63, 109, 178, 209 Binomio 66 Boole 5, 6, 7, 8, 9, 10, 12, 31 Bootstrap 131, 148, 149, 150, 152, 153 Campione 113, 114, 115, 123, 125, 138, 141, 150, 152, 242 - casuale 113, 121, 132, 136, 155, 156, 158, 160, 161, 169, 170, 172, 181, 182, 187, 197, 199, 201, 208, 211, 212, 221 - bernoulliano 115, 135, 152, 178, 180, 181, 193 - con reimmissione 115, 178 - frazione 180 - indipendente 172, 180 - numerosità 214 - senza reimmissione (ripetizione) 200 Cantelli 144 Carattere - confontabile 182 - dicotomico177 297 Caso 2, 218 Cauchy 94 Chebychev 110, 111, 112 Coefficiente - angolare 221 - binomiale 67 - di correlazione 191, 251, - di correlazione multipla 258 - di variazione 59 Combinazioni 65, 89, 100 Consistenza 128, 133, 137, 145, 239 - media quadratica 128 Controllo 182, 208 Convergenza 104 - debolmente 104 - distribuzione (legge) 106 - media quadratica 105 - probabilità 104 - uniforme 106 Correlazione 40, 55, 140, 147, 191, 251 - campionaria 130, 140, 147 - multipla 246, 260 Covarianza 40, 54, 100 - campionaria 226 Curnout 3 Curtosi 37, 50, 60, 74 de Morgan 9, 18 Deterministico 1 Diagonale principale 259 Diagramma 16 - a scatter 223, 234 - di Venn 11 Distorsione 122, 132, 150, 239 Distribuzione - asintotica 106 - Bernoulli 64, 65, 70, 73, 109 - binomiale 64, 109, 110 - condizionata 120 - di frequenza 35, 36, 193, 221 - di probabilità 34, 149 - empirica 196 - leptocurtica 75, 93, 94, 98, 99 - lognormale 98, 99 - normale (Gauss) 75, 90, 95, 98, 100, 107, 108, 109 298 Indice Analitico - Poisson 70, 110 - teorica 196 Disuguaglianza di Chebychev 110 Efficienza 124 - asintotica 127 - relativa 127, 128 Efron 152, 153 Errore 218 - primo tipo, 157 - quadratico medio (MSE) 124 - secondo tipo 157, 195 - tollerabile 213 Estrazione 23, 213, 214 - Bernoulliana (con rimessa) 25, 115, 152, 193, 214 - senza reimmissione (in blocco) 25, 180, 214 Evento 4, 24, 32, 36, 44, 155 - certo 7, 10 - condizionato 16 - condizionante 16, 17 - equiprobabile 20, 21, 23, 42 - incompatibile 10, 19, 21, 23, 24 - impossibile 7, 11 - indipendente 17 - necessario 20, 21, 23, 42 - negato 6, 8, 12 Fattoriale 16 Fisher 89, 95, 135, 173, 189, 191, 250 Frequenza - assoluta 35, 193 - marginale 197 - relativa 24, 35, 178, 193 Funzione 217 - condizionata 54 - decisione 116 - densità (f.d.) 43, 47, 51, 53, 114, 135, 144 - doppia 52 - gamma 91 - insieme 34, 41, 66 - lineare 221 - marginale 53 - obiettivo 222 perdita 116, 117 ripartizione 48, 51, 200, 208 rischio 116 verosimiglianza 136, 159, 173, 194, 198 Gauss 133, 135, 239 Glivenko 144 Gradi di libertà 90, 170, 189, 236, 244 Hall 153 Indice - asimmetria 37, 50, 74 - curtosi 37, 50, 60, 74 Incorrelazione 102, 222 Indipendenza - fra eventi 17 - fra variabili casuali (v.c.) 54, 65, 68, 73, 89, 90, 92, 93, 95, 101, 104, 108, 109, 115, 172, 178, 188, 196, 200, 249 - fra campioni 172, 201 Insieme - campionario 5, 9 - degli stati di natura (parametrico) 116, 156 - decisioni ammissibili 117 - delle azioni 116 - parametrico 116 Intercetta 221, 244 Intersezione 6 Intervallo - casuale 211 - di confidenza 211 - per media 211 - per percentuale 213 Ipotesi - alternativa 156 - bilaterale 210, 211 - classica 222 - complessa 164 - nulla 156 - semplice 156 Indice Analitico Jackknife 131, 148 Legge de Morgan 9, 18 Livello di significatività 157 Markov 239 Matrice 259 - identica 259 - quadrata 259 - varanza e covarianza 261 Media 37, 50 - campionaria 122, 123, 127, 140 2402 261 - condizionata 55, 102 - marginale 55 - perdita 116 - quadratica 128 Mediana 50, 58, 140, 145 - campionaria 140 Mean square error (MSE) 124, 127 Metodo di stima 131 - area minima 118 - mini-max 118 - minimi quadrati (LS) 131, 133, 223 - minimi quadrati non lineare 257 - momenti 131 - massima verosimiglianza (ML) 131, 135 - Monte Carlo 148, 149 - proprietà ottimali 119 - ricampionamento 148 Miller 151 Misura - bontà adattamento 245 - della probabilità 20 - legame lineare 246 - percentuale variabilità 248 Modello - in forma matriciale 258 - linearizzabile 254 - multiplo 223, 258 - non lineare 254 - regressione 134, 217, 218 - regressione lineare 216, 221 - specificazione 222 299 - stima 223 - verifica 240 - verifica adattamento 245 - verifica residui 252 - verifica test 241 Momento - campionario 130, 132 - condizionato 40, 55 - di ordine r 37, 49, 61, 63, 64, 82, 92, 94, 97, 99, 131 - misto 49, 54 - quarto 59, 62, 69, 74, 92 - secondo 58, 62, 69, 73, 92 - terzo 59, 62, 69, 73, 92 Negazione 6 Neyman 158, 159 Non distorsione 122, 123, 150, 168, 236, 237, 260 - asintotica 123, 168 - misura 124 Omoschedasticità 174, 222 Ordinamento statistico 121 Osservazione campionaria 121, 134 Parametro 114, 259 Pearson 158, 159 Percentile 145, 179, 192 - campionario 144, 151 Perdita quadratica 117 Pivotale 147, 160, 169, 177, 190, 213 Poisson 70, 114, 121 Popolazione 114, 125, 131, 149, 165, 177, 180, 188, 200, 212, 213 Postulato 5, 10, 16, 20, 26 - empirico del caso 23 Potenza - del test 157, 163 - massima 157 Probabilità 4, 10, 21, 31, 35, 39, 53 - a posteriori 28 - a priori 28 - condizionate 16, 39 - errore del I tipo 157 - errore del II tipo 157 300 - probativa 28 Prodotto logico 17 Proprietà riproduttiva 92 Prova 4, 20, 23 Quenouille 150 Rango 201, 202, 203, 206 Regione - accettazione 157, 175, 211, 212, 213 - critica (di rifiuto) 157, 161, 173, 176, 179, 187, 211, 213 - critica approssimata 163, 171, 196 - di rifiuto 175 - ottimale 170 Regressione 114, 134, 217 - lineare 219, 251, 259 - multipla 219, 229, 236, 237, 240, 243, 247, 259 - non lineare 254 - semplice 219, 220, 236, 235, 241, 251, 260 - stimata 245 Residui (scarti) 228, 236, 241, 246, 250, 252, 260 Retta 102, 221, 246, 250 - di regressione 226, 227, 231, 246, 250 Ricampionamento 139, 150 R-quadro (R 2) 246, 248, 261 Scarto 124, 134, 218, 224, 227, 236, 260 Scarto quadratico medio 149 Sen 151 Serie storica 221, 252 Significatività del test 170, 171, 188 Simmetria 58, 59, 67, 76, 82, 94, 100, 206 Spazio - campionario 156, 158 - parametrico 156, 158 Statistica 202 - test 162, 166, 169, 184, 185, 242, 243 - pivotale 147, 160, 169, 177, 241 Indice Analitico Stima 114, 219 - accettabile 115, 119, 123 - BLUE 240 - correlazione 130, 140 - massima verosimiglianza (ML) 135, 138, 160, 174 - in media 227, 236 - media 132, 140 - mediana 140 - minimi quadrati (LS) 134, 224, 226 - momenti 132, 139 - non lineare 255 - parametrica 114 - percentili 144 - residui (scarti) 227 - varianza 129, 130, 140, 236, 240, 247, 260 Stimatore 115, 116, 118 - asintoticamente non distorto 124, 129, 130, 145 - BLUE 240 - consistente 128, 133, 137, 239 - distribuzione 140, 144, 145, 147, 241 - massima verosimiglianza (ML) 136 - minimi quadrati (LS) 134 - momenti 132, 133 - non distorto 122, 129, 130, 239, 240 - ottimo 119, 123, 177, 178, 183, 187, 190, 193 - sufficiente 120, 122 - sufficiente minimale 121 - UMVU 125, 128, 137 Student 89, 93, 94, 95, 96, 147, 168, 170, 171, 173, 207, 211 Sufficienza 120, 121, 122, 123, 125, 127 - minimale 121 Teorema 11, 12, 13, 14, 17, 18, 19 - del limite centrale (CLT) 108, 141, 144, 145, 179 - di Bayes 26 Indice Analitico - fattorizzazione 120, 122 - di Gauss-Markov 239, 260 - di Glivenko-Cantellli 144 - di Neyman-Pearson 159 - di Wilks 162, 164, 171 Teoria delle decisioni 116 Test 155, 156, 241, 249 - adattamento 193 - confronto fra varianze 188 - confronto fra medie 172 - confronto fra proporzioni 180 - dati appaiati 182 - LRT (MLR) 160, 164, 165 - non parametrico 192 - parametrico 155, 241 - più potente 159 - potenza 157 - segni 207 - su coefficiente di correlazione 191 - sull’indipendenza 196 - su proporzione 177 - sulla media 165 - sulla varianza 185 - uniformemente più potente 159 - Wilcoxson 200 Trattamento 182, 208 Tukey 150, 151 Unione 6 Unità di rilevazione 63, 177 Valore - critico 208 - osservato 227 - soglia 202 - stimato 227 Variabile - dipendente 217 - endogena 217 - esplicativa 217 - indipendente 217 Variabile casuale (v.c.) 32, 42 - Bernoulli 63, 109, 178, 194 - Binomiale 64, 70, 71, 74, 109, 114, 209 301 - Binomiale frequenza 70, 178 - campionaria 115, 116, 12, 125, 132, 134, 135, 147, 149, 156, 157, 158 - Cauchy 94 - Chi-quadrato 90, 109, 146 - condizionata 39, 54 - continua 41 - degenere 106 - discreta 32 - doppia 38, 107, 130, 140, 147 - errore 218 - errori accidentali 76 - F di Fisher 89, 95, 250 - incorrelate 238 - Lognormale 89, 98 - media 104, 127 - marginale 39, 53 - multinormale 100, 102 - multivariata (multipla) 34, 38 - normale (Gauss) 76, 89, 114, 141, 145, 165 - normale condizionata 102 - normale doppia 100, 147, 191 - normale standardizzata 79, 82, 95, 107, 108, 151 - Poisson 71, 75, 110, 114, 121 - residuo 259 - standardizzata 38, 50, 181 - scarto 218, 221, 222 - T di Student 90, 93, 107, 147, 168, 170, 211 - uniforme 57 - uniforme continua 61 - uniforme discreta 57 - uniforme standardizzarta 60 Varianza 37, 50, 58, 70, 74, 76, 89, 92, 100, 110, 185, 188 - campionaria 129, 145, 169, 226 - condizionata 41, 55 - dei parametri 239, 240 - di uno stimatore 124 - marginale 41, 55 - stimata 129 302 Venn 7 Vettore 259 - di parametri 164, 217, 259 - residui 259 Wilcoxon 200, 203, 207 Wilks 162, 164, 171 Indice Analitico APPENDICE Appendice 264 N Tav. 1 Numero di combinazioni di N ad n ad n: n 2 3 4 5 2 3 4 5 1 3 6 10 1 4 10 1 5 1 6 7 8 9 10 15 21 28 36 45 20 35 56 84 120 15 35 70 126 210 6 21 56 126 252 1 7 28 84 210 1 8 36 120 11 12 13 14 15 55 66 78 91 105 165 220 286 364 455 330 495 715 1.001 1.365 462 792 1.287 2.002 3.003 462 924 1.716 3.003 5.005 330 792 1.716 3.432 6.435 N|n 6 7 8 9 10 1 9 45 1 10 1 165 495 1.287 3.003 6.435 55 220 715 2.002 5.005 11 66 286 1.001 3.003 11 12 1 12 78 364 1.365 1 13 91 455 Appendice 265 Continua 16 17 18 19 20 2 3 4 5 6 7 8 9 120 136 153 171 190 560 680 816 969 1.140 1.820 2.380 3.060 3.876 4.845 4.368 6.188 8.568 11.628 15.504 8.008 12.376 18.564 27.132 38.760 11.440 19.448 31.824 50.388 77.520 12.870 24310 43 758 75.582 125.970 11.440 24.310 48.620 92.378 167.960 8.008 19448 43 758 92.378 184.756 4.368 12376 31 824 75.582 167.960 1.820 6188 18 564 50.388 125.970 21 22 23 24 25 210 231 253 276 300 1.330 1.540 1 771 2.024 2.300 5.985 7.315 8.855 10.626 12.650 20.349 26.334 33.649 42.504 53.130 54.264 74.613 100.947 134.596 177.100 116.280 170.544 245.157 346.104 480.700 203.490 319.770 490.314 735.471 1.081.575 293.930 497.420 817.190 1.307.504 2.042.975 352.716 646.646 1.144.066 1.961.256 3.268.760 352.716 705.432 1.352.078 2.496.144 4.457.400 293.930 646.646 1.352.078 2.704.156 5.200.300 N|n 10 11 12 Appendice 266 { Tav. 2 Probabilità P − ∞ < Z ≤ z 1 −α }= Φ (z ) = 1 − α 1−α della v.c. normale standardizzata Z per diversi valori di z 1−α z 1-α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.1 0.2 0.3 0.4 .5000 .5398 .5793 .6179 .6554 .5040 .5438 .5832 .6217 .6591 .5080 .5478 .5871 .6255 .6628 .5120 .5517 .5910 .6293 .6664 .5160 .5557 .5948 .6331 .6700 .5199 .5596 .5987 .6368 .6736 .5239 .5636 .6026 .6406 .6772 .5279 .5675 .6064 .6443 .6808 .5319 .5714 .6103 .6480 .6844 .5359 .5753 .6141 .6517 .6879 0.5 0.6 0.7 0.8 0.9 .6915 .7257 .7580 .7881 .8159 .6950 .7291 .7611 .7910 .8186 .6985 .7324 .7642 .7939 .8212 .7019 .7357 .7673 .7967 .8238 .7054 .7389 .7704 .7995 .8264 .7088 .7422 .7734 .8023 .8289 .7123 .7454 .7764 .8051 .8315 .7157 .7486 .7794 .8078 .8340 .7190 .7517 .7823 .8106 .8365 .7224 .7549 .7852 .8133 .8389 1.0 1.1 1.2 1.3 1.4 .8413 .8643 .8849 .9032 .9192 .8438 .8665 .8869 .9049 .9207 .8461 .8686 .8888 .9066 .9222 .8485 .8708 .8907 .9082 .9236 .8508 .8729 .8925 .9099 .9251 .8531 .8749 .8944 .9115 .9265 .8554 .8770 .8962 .9131 .9279 .8577 .8790 .8980 .9147 .9292 .8599 .8810 .8997 .9162 .9306 .8621 .8830 .9015 .9177 .9319 1.5 1.6 1.7 1.8 1.9 .9332 .9452 .9554 .9641 .9713 .9345 .9463 .9564 .9649 .9719 .9357 .9474 .9573 .9656 .9726 .9370 .9484 .9582 .9664 .9732 .9382 .9495 .9591 .9671 .9738 .9394 .9505 .9599 .9678 .9744 .9406 .9515 .9608 .9686 .9750 .9418 .9525 .9616 .9693 .9756 .9429 .9535 .9625 .9699 .9761 .9441 .9545 .9633 .9706 .9767 2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817 Appendice 267 Continua z 1-α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 2.1 2.2 2.3 2.4 .9821 .9861 .9893 .9918 .9826 .9864 .9896 .9920 .9830 .9868 .9898 .9922 .9834 .9871 .9901 .9925 .9838 .9875 .9904 .9927 .9842 .9878 .9906 .9929 .9846 .9881 .9909 .9931 .9850 .9884 .9911 .9932 .9854 .9887 .9913 .9934 .9857 .9890 .9916 .9936 2.5 2.6 2.7 2.8 2.9 .9938 .9953 .9965 .9974 .9981 .9940 .9955 .9966 .9975 .9982 .9941 .9956 .9967 .9976 .9982 .9943 .9957 .9968 .9977 .9983 .9945 .9959 .9969 .9977 .9984 .9946 .9960 .9970 .9978 .9984 .9948 .9961 .9971 .9979 .9985 .9949 .9962 .9972 .9979 .9985 .9951 .9963 .9973 .9980 .9986 .9952 .9964 .9974 .9981 .9986 3.0 31 3.2 3.3 3.4 .9987 .9990 .9993 .9995 .9997 .9987 .9991 .9993 .9995 .9997 .9987 .9991 .9994 .9995 .9997 .9988 .9991 .9994 .9996 .9997 .9988 .9992 .9994 .9996 .9997 .9989 .9992 .9994 .9996 .9997 .9989 .9992 .9994 .9996 .9997 .9989 .9992 .9995 .9996 .9997 .9990 .9993 .9995 .9996 .9997 .9990 .9993 .9995 .9997 .9998 Appendice 268 { Tav. 3 Alcuni valori di z 1-α in termini di 1-α = Φ(z 1-α ) = P Z ≤ z 1−α Φ( z 1-α ) .50 .55 .60 .65 .70 .75 .80 .85 .90 z 1-α Φ( z 1-α ) 0.000 0.126 0.253 0.385 0.524 0.674 0.842 1.036 1.282 .91 .92 .93 .94 .95 .96 .97 .98 .99 z 1-α 1.341 1.405 1.476 1.555 1.645 1.751 1.881 2.054 2.326 Φ( z 1-α ) .9950000 .9990000 .9995000 .9999000 .9999500 .9999900 .9999950 .9999990 .9999999 z 1-α 2.576 3.090 3.291 3.719 3.891 4.265 4.417 4.753 5.199 } Appendice 269 { } Tav. 4 Probabilità P 0 ≤ Z ≤ z 0. 5 −α = 0.5 − α nella v.c. normale standardizzata Z per differenti valori di z 0.5 −α z 0.5−α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.0 0.1 0.2 0.3 0.4 .0000 .0398 .0793 .1179 .1554 .0040 .0438 .0832 .1217 .1591 .0080 .0478 .0871 .1255 .1628 .0120 .0517 .0910 .1293 .1664 .0160 .0557 .0948 .1331 .1700 .0199 .0596 .0987 .1368 .1736 .0239 .0636 .1026 .1406 .1772 .0279 .0675 .1064 .1443 .1808 .0319 .0714 .1103 .1480 .1844 .0359 .0753 .1141 .1517 .1879 0.5 0.6 0.7 0.8 0.9 .1915 .2257 .2580 .2881 .3159 .1950 .2291 .2611 .2910 .3186 .1985 .2324 .2642 .2939 .3212 .2019 .2357 .2673 .2967 .3238 .2054 .2389 .2703 .2995 .3264 .2088 .2422 .2734 .3023 .3289 .2123 .2454 .2764 .3051 .3315 .2157 .2486 .2794 .3078 .3340 .2190 .2517 .2823 .3106 .3365 .2224 .2549 .2852 .3133 .3389 1.0 1.1 1.2 1.3 1.4 .3413 .3643 .3849 .4032 .4192 .3438 .3665 .3869 .4049 .4207 .3461 .3686 .3888 .4066 .4222 .3485 .3708 .3907 .4082 .4236 .3508 .3729 .3925 .4099 .4251 .3531 .3749 .3944 .4115 .4265 .3554 .3770 .3962 .4131 .4279 .3577 .3790 .3980 .4147 .4292 .3599 .3810 .3997 .4162 .4306 .3621 .3830 .4015 .4177 .4319 1.5 1.6 1.7 1.8 1.9 .4332 .4452 .4554 .4641 .4713 .4345 .4463 .4564 .4649 .4719 .4357 .4474 .4573 .4656 .4726 .4370 .4484 .4582 .4664 .4732 .4382 .4495 .4591 .4671 .4738 .4394 .4505 .4599 .4678 .4744 .4406 .4515 .4608 .4686 .4750 .4418 .4525 .4616 .4693 .4756 .4429 .4535 .4625 .4699 .4761 .4441 .4545 .4633 .4706 .4767 Appendice 270 Continua z 0.5−α 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 2.0 2.1 2.2 2.3 2.4 .4772 .4821 .4861 .4893 .4918 .4778 .4826 .4864 .4896 .4920 .4783 .4830 .4868 .4898 .4922 .4788 .4834 .4871 .4901 .4925 .4793 .4838 .4875 .4904 .4927 .4798 .4842 .4878 .4906 .4929 .4803 .4846 .4881 .4909 .4931 .4808 .4850 .4884 .4911 .4932 .4812 .4854 .4887 .4913 .4934 .4817 .4857 .4890 .4916 .4936 2.5 2.6 2.7 2.8 2.9 .4938 .4953 .4965 .4974 .4981 .4940 .4955 .4966 .4975 .4982 .4941 .4956 .4967 .4976 .4982 .4943 .4957 .4968 .4977 .4983 .4945 .4959 .4969 .4977 .4984 .4946 .4960 .4970 .4978 .4984 .4948 .4961 .4971 .4979 .4985 .4949 .4962 .4972 .4979 .4985 .4951 .4963 .4973 .4980 .4986 .4952 .4964 .4974 .4981 .4986 3.0 .4987 .4987 .4987 .4988 .4988 .4989 .4989 .4989 .4990 .4990 Tavole statistiche 271 Tav. 5 Valori tα della v.c. T di Student per differenti livelli di probablità e diversi gradi di libertà P{ tα ≤ T( g ) <∞ }= α g\α g\1-α 1 2 3 4 5 0.40 0.25 0.60 0.75 .325 1.000 .289 .816 .277 .765 .271 .741 .267 .727 0.10 0.90 3.087 1.886 1.638 1.533 1.476 0.05 0.95 6.314 2.920 2.353 2.132 2.015 0.025 0.975 12.706 4.303 3.182 2 776 2 571 0.01 0.99 31.821 6.965 4.541 3.747 3.365 0.005 0.995 63.657 9.925 5.841 4.604 4.032 0.0005 0.9995 636.619 31.598 12.924 8.610 6.869 6 7 8 9 10 .265 .263 .262 .261 .260 .718 .711 .706 .703 .700 1.440 1.415 1.397 1.383 1.372 1.943 1.895 1.860 1.833 1.812 2.447 2 365 2 306 2.262 2.228 3.143 2.998 2.896 2.821 2.764 3.707 3.499 3.355 3.250 3.169 5 959 5.408 5.041 4.781 4.587 11 12 13 14 15 .260 .697 .259 .695 .259 .694 .258 . 692 .258 .691 1.363 1.356 1.350 1.345 1.341 1.796 1.782 1.771 1.761 1.753 2.201 2.179 2 160 2.145 2.131 2.718 2.681 2.650 2.624 2.602 3.106 3.055 3.012 2.977 2.947 4.437 4.318 4.221 4.140 4.073 16 17 18 19 20 .258 .257 .257 .247 .257 1.337 1.333 1.330 1.328 1.325 1.746 1.740 1.734 1.729 1.725 2 120 2 110 2 101 2.093 2 086 2.583 2.567 2.552 2.539 2.528 2.921 2.898 2.878 2.861 2.845 4.015 3.965 3.922 3.883 3.850 .690 .689 .688 .688 .687 Tavole statistiche 272 Continua g\α g\1-α 21 22 23 24 25 0.40 0.25 0.10 0.60 0.75 0.90 .257 .686 1.323 .256 .686 1.321 .256 .685 1.319 .256 .685 1.318 .256 .684 1.316 26 27 28 29 30 .256 .256 .256 .256 40 60 120 ∞ 0.05 0.025 0.01 0.005 0.0005 0.95 0.975 0.99 0.995 0.9995 1.721 2 080 2.518 2.831 3.819 1.717 2 074 2.508 2.819 3.792 1.714 2 069 2.500 2.807 3.767 1.711 2.064 2.492 -2.797 3.745 1.708 2 060 2.485 2.787 3.725 .256 .684 .684 .683 .683 .683 1.315 1.314 1.313 1.311 1.310 1.706 1.703 1.701 1.699 1.697 2.056 2 052 2 048 2 045 2 042 2.479 2 473 2.467 2.462 2.457 2.779 2.771 2.763 2.756 2.750 3.707 3.690 3.674 3.659 3.646 .255 .254 .254 .253 .681 .679 .677 .674 1.303 1.296 1.289 1.282 1.684 1.671 1.658 1.645 2 021 2 000 1.980 1.960 2.423 2.390 2.358 2.326 2.704 2.660 2.617 2.576 3.551 3.460 3.373 3.291 Tavole statistiche Tav. 6 Valori di χ 2 g ,α 273 2 della v.c. χ per differenti livelli di probabilità e gradi di 2 libertà: P{χ 2g ,α ≤ χ < ∞} = α g\α 1 2 3 4 0.250 0.100 0.050 0.025 0.010 1.32330 2.77259 4.10835 5.38527 2.70554 4.60517 6.25139 7.77944 3.84146 5.99147 7.81473 9.48773 5.02389 7.37776 9.34840 11.1433 6.63490 9.21034 11.3449 13.2767 7.87944 10.5966 12.8381 14.8602 10.828 13.816 16.~66 18.467 5 6 7 8 9 6.62568 7.84080 9.03715 10.2188 11.3887 9.23635 10.6446 12.0170 13.3616 14.6837 11.0705 12.5916 14.0671 15.5073 16.9190 12.8325 14.4494 16.0128 17.5346 19.0228 15.0863 16.8119 18.4753 20.0902 21.6660 16.7496 18.5476 20.2777 21.9550 23.5893 20.515 22.458 24.322 26.125 27.877 10 11 12 13 14 12.5489 13.7007 14.8454 15.9839 17.1170 15.9871 17.2750 18.5494 19.8119 21.0642 18.3070 19.6751 21.0261 22.3621 23.6848 20.4831 21.9200 23.3367 24.73s6 26.1190 23.2093 24.7250 26.2170 27.6883 29.1413 25.1882 26.7569 28.2995 29.8194 31.3193 29.588 31.264 32.909 34.528 36.123 15 16 17 18 19 18.2451 19.3688 20.4887 21.6049 22.7178 22.3072 23.5418 24.7690 25.9894 27.2036 24.9958 26.2962 27.5871 28.8693 30.1435 27.4884 28.84s4 30.1910 31.5264 32.8523 30.5779 31.9999 33.4087 34.8053 36.1908 32.8013 34.2672 35.7185 37.1564 38.5822 37.697 39.252 40.790 42.312 43.820 20 21 22 23 23.8277 24.9348 26.0393 27.1413 28.4120 29.6151 30.8133 32.0069 31.4104 32.6705 33.9244 35.1725 34.1696 35.4789 36.7807 38.0757 37.5662 38.9321 40.2894 41.6384 39.9908 41.4010 42.7956 44.1813 45.315 46.797 48.268 49.728 0.005 0.001 Tavole statistiche 274 Continua g\α 24 0.250 28.2412 0.100 33.1963 0.050 36.4151 0.025 0.010 0.005 0.001 39.3641 42.9798 45.5585 51.179 25 26 27 28 29 29.3389 30.4345 31.5284 32.6205 33.7109 34.3816 35.5631 36.7412 37.9159 39.0875 37.6525 38.8852 40.1133 41.3372 42.5569 40.6465 41.9232 43.1944 44.4607 45.7222 44.3141 45.6417 46.9630 48.2782 49.5879 46.9278 48.2899 49.6449 50.9933 52.3356 52.600 54.052 55.476 56.892 58.302 30 40 50 60 34.7998 45.6160 56.3336 66.9814 40.2560 51.8050 63.1671 74.3970 43.7729 55.7585 67.5048 79.0819 46.9792 59.3417 71.4202 83.2976 50.8922 63.6907 76.1539 88.3794 53.6720 66.7659 79.4900 91.9517 59.703 73.402 86.661 99.607 70 80 90 100 77.5766 88.1303 98.6499 109.141 85.5271 96.5782 107.565 118.498 90.5312 101.879 113.145 124.342 95.0231 106.629 118.136 129.561 100.425 112.329 124.116 135.807 104.215 116.321 128.299 140.169 112.317 124.839 137.208 149.449 Tavole statistiche 275 2 Tav. 7 Valori di χ 2g ,α della v.c. χ per differenti livelli di probabilità e gradi di ( ) libertà: P 0 ≤ χ 82 g 9 ≤ χ g2,α = α g\α 0.005 0.010 0.025 0.050 . . -8 -8 -8 1 3927 10 15709 10 98207 10 39321.10-7 2 0.01002 0.02010 0.05063 0.10259 3 0.07172 0.11483 0.21579 0.35185 4 0.20699 0.29711 0.48442 0.71072 0.100 0.250 0.500 0.01579 0.21072 0.58437 1.06362 0.10153 0.57536 1.21253 1.92255 0.45493 1.38629 2.36597 3.35670 5 6 7 8 9 0.41174 0.67572 0.98926 1.34441 1.73492 0.55430 0.87208 1.23904 1.64648 2.08791 0.83121 1.23734 1.68987 2.17973 2.70039 1.14547 1.63539 2.16735 2.73264 3.32511 1.61031 2.20413 2.83311 3.48954 4.16816 2.67460 3.45460 4.25485 5.07064 5.89883 4.35146 5.34812 6.34581 7.34412 8.34283 10 11 12 13 14 2.15585 2.60321 3.07382 3.56503 4.07468 2.55821 3.05347 3.57056 4.10691 4.66043 3.24697 3.81575 4.40379 5.00874 5.62872 3.94030 4.57481 5.22603 5.89186 6.57063 4.86518 5.57779 6.30380 7.04150 7.78953 6.73720 7.58412 8.43842 9.29906 10.1653 9.34182 10.3410 11.3403 12.3398 13.3393 15 16 17 18 19 4.60094 5.14224 5.69724 6.26481 6.84398 5.22935 5.81221 6.40776 7.01491 7.63273 6.26214 6.90766 7.56418 8.23075 8.90655 7.26094 7.96164 8.67176 9.39046 10.1170 8.54675 9.31223 10.0852 10.8649 11.6509 11.0365 11.9122 12.~919 13.6753 14.5620 14.3389 15.3385 16.3381 17.3379 18.3376 20 21 22 7.43386 8.03366 8.64272 8.26040 8.89720 9.54249 9.59083 10.2829 10.9823 10.8508 11.5913 12.3380 12.4426 13.2396 14.0415 15.4518 16.3444 17.2396 19.3374 20.3372 21.3370 Tavole statistiche 276 Continua g\α 23 24 0.005 9.26042 9.88623 0.010 10.1957 10.8564 0.025 11.6885 12.4011 0.050 13.0905 13.8484 0.100 14.8479 15.6587 0.250 18.1373 19.0372 0.500 22.3369 23.3367 25 26 27 28 29 10.5197 11.1603 11.8076 12.4613 13.1211 11.5240 12.1981 12.8786 13.5648 14.2565 13.1197 13.8439 14.5733 15.3079 16.0471 14.6114 15.3791 16.1513 16.9279 17.7083 16.4734 17.2919 18.1138 18.9392 19.7677 19.9393 20.8434 21.7494 22.6572 23.5666 24.3366 25.3364 26.3363 27.3363 28.3362 30 40 50 60 13.7867 20.7065 27.9907 35.5346 14.9535 22.1643 29.7067 37.4848 16.7908 24.4331 32.3574 40.4817 18.4926 26.5093 34.7642 43.1879 20.5992 29.0505 37.6886 46.4589 24.4776 33.6603 42.9421 52.2938 29.3360 39.3354 49.3349 59.3347 70 80 90 100 43.2752 51.1720 59.1963 67.3276 45.4418 53.5400 61.7541 70.0648 48.7576 57.1532 65.6466 74.2219 51.7393 60.3915 69.1260 77.9295 55.3290 64.2778 73.2912 82.3581 61.6983 71.1445 80.6247 90.1332 69.3344 79.3343 89.3342 99.3341 Appendice Tav. 8 Valori Fk, h; h\k 1 2 3 4 1- α 277 della v.c. F per α = 0.10 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1- α ) = 0.90 Numeratore 1 2 3 4 5 6 7 8 9 39.86 49.50 53.59 55.83 57.24 58.20 58.91 59.44 59.86 8.53 9.00 9.16 9.24 9.29 9.33 9.35 9.37 9.38 5.54 5.46 5.39 5.34 5.31 5.28 5.27 5 25 5.24 4.54 4.32 4.19 4.11 4.05 4.01 3.98 3.95 3.94 10 12 15 20 60.19 60.71 61.22 61.74 9.39 9.41 9.42 9.44 5.23 5.22 5.20 5.18 3.92 3.90 3.87 3.84 24 62.00 9.45 5.18 3.83 30 40 60 120 ∞ 62.26 62.53 62.79 63.06 63.33 9.46 9.47 9.47 9.48 9.49 5.17 5.16 5.15 5.14 5 13 3.82 3.80 3.79 3.78 3.76 5 6 7 8 9 4.06 3.78 3.59 3.46 3.36 3.78 3.46 3.26 3.11 3.01 3.62 3.29 3.07 2.92 2.81 3.52 3.18 2.96 2.81 2.69 3.45 3.11 2.88 2.73 2.61 3.40 3.05 2.83 2.67 2.55 3.37 3.01 2.78 2.62 2.51 3.34 2.98 2.75 2.59 2.47 3.32 2.96 2.72 2.56 2.44 3 30 2.94 2.70 2.54 2.42 3.27 2.90 2.67 2.50 2.38 3.24 2.87 2.63 2.46 2.34 3.21 2.84 2.59 2.42 2.30 3.19 2.82 2.58 2.40 2.28 3.17 2.80 2.56 2.38 2.25 3.16 2.78 2.54 2.36 2.23 3.14 2.76 2.51 2.34 2.21 3.12 2.74 2.49 2.32 2.18 3.10 2.72 2.47 2.29 2.16 10 11 12 13 14 3.29 2.23 3.18 3.14 3.10 2.92 2.86 2.81 2.76 2.73 2.73 2.66 2.61 2.56 2.52 2.61 2.54 2.48 2.43 2.39 2.52 2.45 2.39 2.35 2.31 2.46 2.39 2.33 2.28 2.24 2.41 2.34 2.28 2.23 2.19 2.38 2.30 2.24 2.20 2.15 2.35 2.27 2.21 2.16 2.12 2.32 2.25 2.19 2.14 2.10 2.28 2.21 2.15 2.10 2.05 2.24 2.17 2.10 2.05 2.01 2.20 2.12 2.06 2.01 1.96 2.18 2.10 2.04 1.98 1.94 2.16 2.08 2.01 1.96 1.91 2.13 2.05 1.99 1.93 1.89 2.11 2.03 1.96 1.90 1.86 2.08 2.00 1.93 1.88 1.83 2.06 1.97 1.90 1.85 1.80 15 16 17 3.07 3.05 3.03 2.70 2.67 2.64 2.49 2.46 2.44 2.36 2.33 2.31 2.27 2.24 2.22 2.21 2.18 2.15 2.16 2.13 2.10 2.12 2.09 2.06 2.09 2.06 2.03 2.06 2.03 2.00 2.02 1.99 1.96 1.97 1.94 1.91 1.92 1.89 1.86 1.90 1.87 1.84 1.87 1.84 1.81 1.85 1.81 1.78 1.82 1.78 1.75 1.79 1.76 1.75 1.72 1.72 1.69 Appendice 278 Continua Numeratore h\k 18 19 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞ 3.01 2.62 2.42 2.29 2.20 2.13 2.08 2.04 2.00 1.98 1.93 1.89 1.84 1.81 1.78 1.75 1.72 1.69 1.66 2.99 2.61 2.40 2.27 2.18 2.11 2.06 2.02 1.98 1.96 1.91 1.86 1.81 1.79 1.76 1.73 1.70 1.67 1.63 20 21 22 23 24 2.97 2.96 2.95 2.94 2.93 2.59 2.57 2.56 2.55 2.54 2.38 2.36 2.35 2.34 2.33 2.25 2.23 2.22 2.21 2.19 2.16 2.14 2.13 2.11 2.10 2.09 2.08 2.06 2.05 2.04 2.04 2.02 2.01 1.99 1.98 2.00 1.98 1.97 1.95 1.94 1.96 1.95 1.93 1.92 1.91 1.94 1.92 1.90 1.89 1.88 1.89 1.87 1.86 1.84 1.83 1.84 1.83 1.81 1.80 1.78 1.79 1.78 1.76 1.74 1.73 1.77 1.75 1.73 1.72 1.70 1.74 1.72 1.70 1.69 1.67 1.71 1.69 1.67 1.66 1.64 1.68 1.66 1.64 1.62 1.61 1.64 1.62 1.60 1.59 1.57 1.61 1.59 1.57 1.55 1.53 25 26 27 28 29 2.92 2.91 2.90 2.89 2.89 2.53 2.52 2.51 2.50 2.50 2.32 2.31 2.30 2.29 2.28 2.18 2.17 2.17 2.16 2.15 2.09 2.08 2.07 2.06 2.06 2.02 2.01 2.00 2.00 1.99 1.97 1.96 1.95 1.94 1.93 1.93 1.92 1.91 1.90 1.89 1.89 1.88 1.87 1.87 1.86 1.87 1.86 1.85 1.84 1.83 1.82 1.81 1.80 1.79 1.78 1.77 1.76 1.75 1.74 1.73 1.72 1.71 1.70 1.69 1.68 1.69 1.68 1.67 1.66 1.65 1.66 1.65 1.64 1.63 1.62 1.63 1.61 1.60 1.59 1.58 1.59 1.58 1.57 1.56 1.55 1.56 1.54 1.53 1.52 1.51 1.52 1.50 1.49 1.48 1.47 30 40 60 120 2.88 2.84 2.79 2.75 2 71 2.49 2.44 2.39 2.35 2 30 2.28 2.23 2.18 2.13 2 08 2.14 2.09 2.04 1.99 1.94 2.05 2.00 1.95 1.90 1 85 1.98 1.93 1.87 1.82 1.77 1.93 1.87 1.82 1.77 1.72 1.88 1.83 1.77 1.72 1.67 1.85 1.79 1.74 1.68 1.63 1.82 1.76 1.71 1.65 1.60 1.77 1.71 1.66 1.60 1.55 1.72 1.66 1.60 1.55 1.49 1.67 1.61 1.54 1.48 1 42 1.64 1.57 1.51 1.45 1.38 1.61 1.54 1,48 1.41 1.34 1.57 1.51 1.44 1.37 1.30 1.54 1.47 1.40 1.32 1.24 1.50 1.42 1.35 1.26 1.17 1.46 1.38 1.29 1.19 1.00 ∞ Appendice 279 Tav. 9 Valori Fk, h; 1-α della v.c. F per α = 0.05 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1-α ) = 0.95 h \k 1 2 3 4 1 161.4 199.5 215.7 224.6 2 18.51 19.00 19.16 19.25 3 10.13 9.55 9.28 9.12 4 7.71 6.94 6.59 6.39 Numeratore ∞ 5 230.2 19.30 9.01 6.26 6 234.0 19.33 8.94 6.16 7 236.8 19.35 8.89 6.09 8 238.9 19.37 8.85 6.04 9 240.5 19.38 8.81 6.00 10 241.9 19.40 8.79 5.96 12 243.9 19.41 8.74 5.91 15 245.9 19.43 8.70 5.86 20 248.0 19.45 8.66 5.80 24 249.1 19.45 8.64 5.77 30 250.1 19.46 8.62 5.75 40 251.1 19.47 8.59 5.72 60 252.2 19.48 8.57 5.69 120 253.3 19.49 8.55 S.66 254.3 19.50 8.53 5.63 5 6 7 8 9 6.61 5.99 5.59 5.32 5.12 5.79 5.14 4.74 4.46 4.26 5.41 4.76 4.35 4.07 3.86 5.19 4.53 4.12 3.84 3.63 5.05 4.39 3.97 3.69 3.48 4.95 4.28 3.87 3.58 3.37 4.88 4 21 3.79 3.50 3.29 4.82 4.15 3.73 3.44 3.23 4.77 4.10 3.68 3.39 3.18 4.74 4.06 3.64 3.35 3.14 4.68 4.00 3.57 3.28 3.07 4.62 3.94 3.51 3.22 3.01 4.56 3.87 3.44 3.15 2.94 4.53 3.84 3.41 3.12 2.90 4.50 3.81 3.38 3.08 2.86 4.46 3.77 3.34 3.04 2.83 4.43 3.74 3.30 3.01 2.79 4.40 3.70 3.27 2.97 2.75 4.36 3.67 3.23 2.93 2.71 10 11 12 13 14 4.96 4.84 4.75 4.67 4.60 4.10 3.98 3.89 3.81 3.74 3.71 3.59 3.49 3.41 3.34 3.48 3.36 3.26 3.18 3.11 3.33 3.20 2.11 3.03 2.96 3.22 3.09 3.00 2.92 2.85 3.14 3.01 2.91 2.83 2.76 3.07 2.95 2.85 2.77 2.70 302 2.90 2.80 2.71 2.65 2.98 2.85 2.75 2.67 2.60 2.91 2.79 2.69 2.60 2.53 2.85 2.72 2.62 2.53 2.46 2.77 2.65 2.54 2.46 2.39 2.47 2.61 2.51 2.42 2.35 2.70 2.57 2.47 2.38 2.31 2.66 2.53 2.43 2.34 2.27 2.62 2.49 2.38 2.30 2.22 2.58 2.45 2.34 2.25 2.18 2.54 2.40 2.30 2.21 2.13 15 16 4.54 3.68 3.29 3.06 2.90 2.79 2.71 2.64 2.59 2.54 2.48 2.40 2.33 2.29 2.25 2.20 2.16 2.11 2.07 4.49 3.63 3.24 3.01 2.85 2.74 2.66 2.59 2.54 2.49 2.42 2.35 2.28 2.24 2.19 2.15 2.11 2.06 2.01 Appendice 280 Continua Numeratore h\k 17 18 19 1 2 3 4 5 6 7 8 9 10 12 15 20 24 30 40 60 120 ∞ 4.45 3.59 3.20 2.96 2.81 2.70 2.61 2.55 2.49 2.45 2.38 2.31 2.23 2.19 2.15 2.10 2.06 2.01 1.96 4.41 3.55 3.16 2.93 2.77 2.66 2.58 2.51 2.46 2.41 2.34 2.27 2.19 2.15 2.11 2.06 2.02 1.97 1.92 4.38 3.52 3.13 2.90 2.74 2.63 2.54 2.48 2.42 2.38 2.31 2.23 2.16 2.11 2.07 2.03 1.98 1.93 1.88 20 21 22 23 24 4.35 4.32 4.30 4.28 4.26 3.49 3.47 3.44 3.42 3.40 3.10 3.07 3.05 2.03 3.01 2.87 2.84 2.82 2.80 2.78 2.71 2.68 2.66 2.64 2.62 2.60 2.57 2.55 2.53 2.51 2.51 2.49 2.46 2.44 2.42 2.45 2.42 2.40 2.37 2.36 2.39 2.37 2.34 2.32 2.30 2.35 2.32 2.30 2.27 2.25 2.28 2.25 2.23 2.20 2.18 2.20 2.18 2.15 2.13 2.11 2.12 2.10 2.07 2.05 2.03 2.08 2.05 2.03 2.01 1.98 2.04 2.01 1.98 1.96 1.94 1.99 1.96 1.94 1.91 1.89 1.95 2.92 1.89 1.86 1.84 1.90 1.87 1.84 1.81 1.79 1.84 1.81 1.78 1.76 1.73 25 26 27 28 29 4.24 4.23 4.21 4.20 4.18 3.39 3.37 3.35 3.34 3.33 2.99 2.98 2.96 2.95 2.93 2.76 2.74 2.73 2.71 2.70 2.60 2.59 2.57 2.56 2.55 2.49 2.47 2.46 2.45 2.43 2.40 2.39 2.37 2.36 2.35 2.34 2.32 2.31 2.29 2.28 2.28 2.27 2.25 2.24 2.22 .24 .22 .20 .19 .18 2 16 2.15 2.13 2.12 2.10 2.09 2.07 2.06 2.04 2.03 2.01 1.99 1.97 1.96 1.94 1.96 1.95 1.93 1.91 1.90 1.92 1.90 1.88 1.87 1.85 1.87 1.85 1.84 1.82 1.81 1.82 1.80 1.79 1.77 1.75 1.77 1.75 1.73 1.71 1.80 1.71 1 69 1.67 1.65 1.64 30 40 60 20 4.17 4.08 4.00 3.92 3.84 3.32 3.23 3.15 3.07 3.00 2.92 2.84 2.76 2.68 2.60 2.69 2.61 2.53 2.45 2.37 2.53 2.45 2.37 2.29 2.21 2.42 2.34 2.25 2.17 2.10 2.33 2.25 2.17 2.09 2.01 2.27 2.18 2.10 2.02 1.94 2.21 2.12 2.04 1.96 1.88 .16 .08 .99 .91 .83 2.09 2.00 1.92 1.83 1 75 2.01 1.92 1.84 1.75 1.67 1.93 1.84 1.75 1.66 1 57 1.89 1.79 1.70 1.61 1.52 1.84 1.74 1.65 1.55 1.46 1.79 1.69 1.59 1.50 1.39 1.74 1.64 1.53 1.43 1.32 1.68 1.58 1.47 1.35 122 1.62 1.51 1.39 1.25 1 00 ∞ Appendice Tav. 10 Valori Fk, h; 1-α 2 3 4 799.5 864.2 899.6 39.00 39.17 39.25 16.04 15.44 10.10 10.65 9.98 9.60 281 della v.c. F per α = 0.025 e differenti coppie di gradi di libertà: P( 0 < Fk, h < Fk, h; 1-α )= 0.975 5 921.8 39.30 14.88 9.36 6 7 937.1 948.2 39.33 39.36 14.73 14.62 9.20 9.07 Numeratore 8 9 956.7 963.3 39.37 39.39 14.54 14.47 8.98 8.90 10 12 15 20 968.6 976.7 984.9 993.1 39.40 39.41 39.43 39.45 14.42 14.34 14.2 14.17 8.84 8.75 8.66 8.56 24 30 997.2 1001 39.46 39.46 14.12 14.08 8.51 8.46 40 60 120 1006 1010 1014 39.47 39.48 39.45 14.04 13.99 13.95 8.41 8.36 8.31 ∞ h\k 1 2 3 4 1 647.8 38.5l 17.44 12.22 5 6 7 8 9 10.01 8.81 8.07 7.57 7.21 8.43 7.26 6.54 6.06 5.71 7.76 6.60 5.89 5.42 5.08 7.39 6.23 5.52 5.05 4.71 7.15 5.99 5.29 4.82 4.48 6.98 5.82 5.12 4.65 4.32 6.85 5.70 4.99 4.53 4.20 6.76 5.60 4.90 4.43 4.10 6.68 5.52 4.82 4.36 4.03 6.62 5.46 4 76 4 30 3.96 6.52 5.37 4.67 4.20 3.87 6.43 5.27 4.57 4.10 3.77 6.33 5.17 4.47 4.00 3.67 6.28 5.12 4.42 3.95 3.61 6.23 5.07 4.36 3.89 3.56 6.18 5.01 4.31 3.84 3.51 6.12 4.96 4.25 3.78 3.45 6.07 4.90 4.20 3.73 3.35 6.02 4.85 4.14 3.67 3.33 10 11 12 13 14 6.94 6.72 6.55 6.41 6.30 4.56 5.26 5.10 4.97 4.86 4.83 4.63 4.47 4.35 4.24 4.47 4.28 4.12 4.00 3.89 4.24 4.04 3.89 3.77 3.66 4.07 3.88 3.73 3.60 3.50 3.95 3.76 3.61 3.48 3.38 3.85 3.66 3.51 3.39 3.29 3.78 3.59 3.44 3.31 3.21 3.72 3.53 3.37 3.25 3.15 3.62 3.43 3.28 3.15 3.05 3.52 3.33 3.18 3.05 2.95 3.42 3.23 3.07 2.95 2.84 3.37 3.17 3.02 2.89 2.79 3.31 3.12 2.96 2.84 2.73 3.26 3.06 2.91 2.78 2.67 3.20 3.00 2.85 2.72 2.61 3.14 2.94 2.79 2.66 2.55 3.08 2.88 2.72 2.60 2.49 15 16 6.20 6.12 4.77 4.69 4.15 4.08 3.80 3.73 3.58 3.50 3.41 3.34 3.29 3.22 3.20 3.12 3.12 3.05 3.06 2.99 2.96 2.89 2.86 2.79 2.76 2.68 2.70 2.63 2.64 2.57 2.59 2.51 2.52 2.45 2.46 2.38 2.40 2.32 1018 39.50 13.90 8.26 Appendice 282 Continua h\k 17 18 19 1 6.04 5.98 5.92 2 4.62 4.56 4.51 3 4.01 3.95 3.90 4 3.66 3.61 3.56 5 3.44 3.38 3.33 6 3.28 3.22 3.17 7 3.16 3.10 3.05 8 3.06 3.01 2.96 20 21 22 23 24 5.87 5.83 5.79 5.75 5.72 4.46 4.42 4.38 4.35 4.32 3.86 3.82 3.78 3.75 3.72 3.51 3.48 3.44 3.41 3.38 3.29 3.25 3.22 3.18 3.15 3.13 3.09 3.05 3.02 2.99 3.01 2.97 2.93 2.90 2.87 25 26 27 28 29 5.69 5.66 5.63 5.61 5.59 4.29 4.27 4.24 4.22 4.20 3.69 3.67 3.65 3.63 3.61 3.35 3.33 3.31 3.29 3.27 3.13 3.10 3.08 3.06 3.04 2.97 2.94 2.92 2.90 2.88 30 40 60 120 5.57 5.42 5.29 5.15 5.02 4.18 4.05 3.93 3.80 3.69 3.59 3.46 3.34 3.23 3.12 3.25 3.13 3.01 2.89 2.79 3.03 2.90 2.79 2.67 2.57 2.87 2.74 2.63 2.52 2.41 ∞ Numeratore 9 2.98 2.93 2.88 10 2.92 2.87 2.82 12 2.82 2.77 2.72 15 2.72 2.67 2.62 20 2.62 2.56 2.51 24 2.56 2.50 2.45 30 2.50 2.44 2.39 40 2.44 2.38 2.33 2.91 2.87 2.84 2.81 2.78 2.84 2.80 2.76 2.73 2.70 2.77 2.73 2.70 2.67 2.64 2.68 2.64 2.60 2.57 2.54 2.57 2.53 2.50 2.47 2.44 2.46 2.42 2.39 2.36 2.33 2.41 2.37 2.33 2.30 2.27 2.35 2.31 2.2~ 2.24 2.21 2.29 2.25 2.21 2.18 2.15 2.85 2.82 2.80 2.78 2.76 2.75 2.73 2.71 2.69 2.67 2.68 2.65 2.63 2.61 2.59 2.61 2.59 2.57 2.55 2.53 2.51 2.49 2.47 2.45 2.43 2.41 2.35 2.36 2.34 2.32 2.30 2.28 2.25 2.23 2.21 2.24 2.22 2.19 2.17 2.15 2.18 2.16 2.13 2.11 2.05 2.75 2.62 2.63 2.39 2.29 2.65 2.53 2.41 2.30 2.19 2.57 2.45 2.33 2.22 2.11 2.51 2.39 2.27 2.16 2 05 2.41 2.29 2.17 2.05 1.94 2.31 2.18 2.06 1.94 1.83 2.20 2.07 1.94 1.82 1.71 2.14 2.01 1.88 1.76 1.64 2.07 1.94 1.82 1.69 1.57 60 2.38 2.32 2.27 ∞ 120 2.32 2.26 2.20 2.25 2.19 2.13 2.22 2.18 2.14 2.11 2.08 2.16 2.11 2.08 2.04 2.01 2.09 2.04 2.00 1.97 1.94 2.12 2.09 2.07 2.05 2.03 2.05 2.03 2.00 1.98 1.96 1.98 1.95 1.93 1.91 1.85 1.91 1.88 1.85 1.83 1.81 2.01 1.88 1.74 1.61 1.48 1.94 1.80 1.67 1.53 1.39 1.87 1.72 1.58 1.43 1.27 1.79 1.64 1.48 1.31 1.00 Appendice 283 Tav. 11 Valori Fk, h; 1-α della v.c. F per α = 0.001 e differenti coppie di gradi di libertà: P(0 < Fk, h < Fk, h; 1-α ) = 0.99 h\k 1 2 3 4 5 6 7 8 9 1 2 3 4 4052 4999 5403 5625 98.50 99.00 99.17 99.25 34.12 30.82 29.46 28.71 21.20 18.00 16.69 15.98 Numeratore 5 6 7 5764 5859 5928 99.30 99.33 99.36 28.24 27.91 27.67 15.52 15.21 14.98 8 9 10 5982 6022 6056 99.37 99.39 99.40 27.49 27.35 27.23 14.80 14.66 14.55 16.26 13.27 12.06 11.39 10.97 10.67 10.46 13.75 10.92 9.78 9.15 8.75 8.47 8.26 12.25 9.55 8.45 7.85 7.46 7.19 6.99 11.26 8.65 7.59 7.01 6.63 6.37 6.18 10.56 8.02 6.99 6.42 6.06 5.80 5.61 10.29 10.16 10.05 8.10 7.98 7.87 6.84 6.72 6.62 6.03 5.91 5.81 5.47 5.35 5.26 12 15 20 24 30 40 60 6106 6157 6209 6235 6261 S287 6313 99.42 99.43 99.45 99.46 99.47 99.47 99.48 27.05 26.87 26.69 26.60 26.50 26.41 26.32 14.37 14.20 14.02 13.93 13.84 13.75 13.65 ∞ 120 6339 99.49 26.22 13.56 6366 99.50 26.13 13.46 9.89 7.72 6.47 5.67 5.11 9.72 7.56 6.31 5.52 4.96 9.55 7.40 6.16 5.36 4.81 9.47 7.31 6.07 5.28 4.73 9.38 7.23 5.99 5.20 4.65 9.29 7.14 5.91 5.12 4.57 9.20 7.06 5.82 5.03 4.48 9.11 6.97 5.74 4.95 4.40 9.02 6.88 5.65 4.86 4.31 10 11 12 13 14 15 10.04 9.65 9.33 9.07 8.86 8.68 7.56 7.21 6.93 6.70 6.51 6.36 6.55 6.22 5.95 5.74 5.65 5.42 5.99 5.67 5.41 5.21 5.04 4.89 5.64 5.32 5.06 4.86 4.69 4.56 5.39 5.07 4.82 4.62 4.46 4.32 5.20 4.89 4.64 4.44 4.28 4.14 5.06 4.74 4.5o 4.30 4.14 4.00 4.94 4.63 4.39 4.19 4.03 3.89 4.85 4.54 4.30 4.10 3.94 3.80 4.71 4.40 4.16 3.96 3.80 3.67 4.56 4.25 4.01 3.82 3.66 3.52 4.41 4.10 3.86 3.66 3.51 3.37 4.33 4.02 3.78 3.59 3.43 3.29 4.25 3.94 3.70 3.51 3.35 3.21 4.17 3.86 3.62 3.43 3.27 3.13 4.08 3.78 3.54 3.34 3.18 3.05 4.00 3.69 3.45 3.25 3.09 2.96 3.91 3.60 3.36 3.17 3.00 2.87 16 17 8.53 8.40 6.23 6.11 5.29 5.18 4.77 4.67 4.44 4.34 4.20 4.10 4.03 3.93 3.89 3.79 3.78 3.68 3.69 3.59 3.55 3.46 3.41 3.31 3.26 3.16 3.18 3.08 3.10 3.00 3.02 2.92 2.93 2.83 2.84 2.75 2.75 2.65 Appendice 284 Continua h\k 18 19 8 3.71 3.63 Numeratore 2 6.01 5.93 3 5.09 5.Ol 4 4.58 4.5o 5 4.25 4.17 6 4.01 3.94 7 3.84 3.77 20 21 22 23 24 8.10 5.85 8.02 5.78 7.95 5.72 7.88 5.66. 7.82 5.61 4.94 4.87 4.82 4.76 4.72 4.43 4.37 4.31 4.26 4.22 4.10 4.04 3.99 3.94 3.90 3.87 3.81 3.76 3.71 3.67 3.70 3.64 3.59 3.54 3.5o 3.56 3.51 3.45 3.41 3.36 3.46 3.40 3.35 3.03 3.26 3.37 3.31 3.26 3.21 3.17 3.23 3.17 3.12 3.07 3.03 3.09 3.03 2.98 2.93 2.89 2.94 2.88 2.83 2.78 2.74 2.86 2.80 2.75 2.70 2.66 25 26 27 28 29 7.77 7.72 7.68 7.64 7.60 5.57 5.53 5.49 5.45 5.42 4.68 4.64 4.60 4.57 4.54 4.18 4.14 4.11 4.07 4.04 3.85 3.82 3.78 3.75 3.73 3.63 3.59 3.56 3.53 3.5o 3.46 3.42 3.39 3.36 3.33 3.32 3.29 3.26 3.23 3.20 3.22 3.18 3.15 3.12 3.09 3.13 3.09 3.06 3.03 3.00 2.99 2.96 2.93 2.90 2.87 2.85 2.81 2.78 2.75 2.73 2.70 2.66 2.63 2.60 2.57 30 40 60 120 7.56 7.31 7.08 6.85 6 63 5.39 5.18 4.98 4.79 4.61 4.51 4.31 4.13 3.95 3.78 4.02 3.83 3.65 3.48 3.32 3.70 3.51 3.34 3.17 3 02 3.47 3.29 3.12 2.96 2 80 3.30 3.12 2.95 2.79 2.64 3.17 2.99 2.82 2.66 2 5l 3.07 2.89 2.72 2.56 2.41 2.98 2.80 2.63 2.47 2.32 2.84 2.66 2.50 2.34 2.18 2.70 2.52 2.35 2.19 2.04 2.55 2.37 2.20 2.03 1.88 ∞ 1 8.29 8.18 9 3.60 3.52 10 3.51 3.43 12 3.37 3.30 15 3.23 3.15 20 3.08 3.00 24 3.00 2.92 30 2.92 2.84 ∞ 40 2.84 2.76 60 2.75 2.67 120 2.66 2.58 2.57 2.49 2.78 2.72 2.67 2.62 2.58 2.69 2.64 2.58 2.54 2.49 2.61 2.55 2.50 2.45 2.40 2.52 2.46 2.40 2.35 2.31 2.42 2.36 2.31 2.26 2.21 2.62 2.58 2.55 2.52 2.49 2.54 2.50 2.47 2.44 2.41 2.45 2.42 2.38 2.35 2.33 2.36 2.33 2.29 2.26 2.23 2.27 2.23 2.20 2.17 2.14 2.17 2.13 2.10 2.06 2.03 2.47 2.29 2.12 1.95 1.79 2.39 2.20 2.03 1.86 1.70 2.30 2.11 1.94 1.76 1.59 2.21 2.02 1.84 1.66 1.47 2.11 1.92 1.73 1.53 1.32 2.01 2.80 1.60 1.38 1 00 285 Appendce Tav. 12 Distribuzione di Wilcoxon: P( U ≤ a ) k1 = min( n, m ), k2 = max( n, m ), P(U ≤ a) = P( U ≥ n m – a ) k1 a k2=3 3 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 .0500 .1000 .2000 .3500 .5000 .6500 .8000 .9000 .9500 1.000 4 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 k2=4 k2=5 k2=6 k2=7 k2=8 k2=9 k2=10 k2=11 k2=12 .0286 .0571 .1143 .2000 .3143 .4286 .5714 .6857 .8000 .8857 .9429 .9714 1.0000 .0179 .0357 .0714 .1250 .1964 .2857 .3929 .5000 .6071 .7143 .8036 .8750 .9286 .9643 .9821 1.0000 .0119 .0238 .0476 .0833 .1310 .1905 .2738 .3571 .4524 .5476 .6429 .7262 .8095 .8690 .9167 .9524 .9762 .9881 1.0000 .0083 .0167 .0333 .0583 .0917 .1333 .1917 .2583 .3333 .4167 .5000 .5833 .6667 .7417 .8083 .8667 .9083 .9417 .9667 .0061 .0121 .0242 .0424 .0667 .0970 .1394 .1879 .2485 .3152 .3879 .4606 .5394 .6121 .6848 .7515 .8121 .8606 .9030 .0045 .0091 .0182 .0318 .0500 .0727 .1045 .1409 .1864 .2409 .3000 .3636 .4318 .5000 .5682 .6364 .7000 .7591 .8136 .0035 .0070 .0140 .0245 .0385 .0559 .0804 .1084 .1434 .1853 .2343 .2867 .3462 .4056 .4685 .5315 .5944 .6538 .7133 .0027 .0055 .0110 .0192 .0302 .0440 .0632 .0852 .1126 .1456 .1841 .2280 .2775 .3297 .3846 .4423 .5000 .5577 .6154 .0022 .0044 .0088 .0154 .0242 .0352 .0505 .0681 .0901 .1165 .1473 .1824 .2242 .2681 .3165 .3670 .4198 .4725 .5275 .0143 .0286 .0571 .1000 .1714 .2429 .3429 .4429 .5571 .6571 .7571 .8286 .9000 .9429 .9714 .9857 1.0000 .0079 .0159 .0317 .0556 .0952 .1429 .2063 .2778 .3651 .4524 .5476 .6349 .7222 .7937 .8571 .9048 .9444 .9683 .9841 .9921 1.0000 .0048 .0095 .0190 .0333 .0571 .0857 .1286 .1762 .2381 .3048 .3810 .4571 .5429 .6190 .6952 .7619 .8238 .8714 .9143 .9429 .9667 .9810 .9905 .9952 1.0000 .0030 .0061 .0121 .0212 .0364 .0545 .0818 .1152 .1576 .2061 .2636 .3242 .3939 .4636 .5364 .6061 .6758 .7364 .7939 .8424 .8848 .9182 .9455 .9636 .9788 .0020 .0040 .0081 .0141 .0242 .0364 .0545 .0768 .1071 .1414 .1838 .2303 .2848 .3414 .4040 .4667 .5333 .5960 .6586 .7152 .7697 .8162 .8586 .8929 .9232 .0014 .0028 .0056 .0098 .0168 .0252 .0378 .0531 .0741 .0993 .1301 .1650 .2070 .2517 .3021 .3552 .4126 .4699 .5301 .5874 .6448 .6979 .7483 .7930 .8350 .0010 .0020 .0040 .0070 .0120 .0180 .0270 .0380 .0529 .0709 .0939 .1199 .1518 .1868 .2268 .2697 .3177 .3666 .4196 .4725 .5275 .5804 .6334 .6823 .7303 .0007 .0015 .0029 .005I .0088 .0132 .0198 .0278 .0388 .0520 .0689 .0886 .1128 .1399 .1714 .2059 .2447 .2857 .3304 .3766 .4256 .4747 .5253 .5744 .6234 .0005 .0011 .0022 .0038 .0066 .0099 .0148 .0209 .0291 .0390 .0516 .0665 .0852 .1060 .1308 .1582 .1896 .2231 .2604 .2995 .3418 .3852 .4308 4764 .5236 286 Appendice Continua k1 5 6 a k2=5 k2=6 k2=7 0 .0040 .0022 .0013 1 .0079 .0043 .0025 2 .0159 .0087 .0051 3 .0278 .0152 .0088 4 .0476 .0260 .0152 5 .0754 .0411 .0240 6 .1111 .0628 .0366 7 .1548 .0887 .0530 8 .2103 .1234 .0745 9 .2738 .1645 .1010 10 .3452 .2143 .1338 11 .4206 .2684 .1717 12 .5000 .3312 .2159 13 .5794 .3961 .2652 14 .6548 .4654 .3194 15 .7262 .5346 .3775 16 .7897 .6039 .4381 17 .8452 .6688 .5000 18 .8889 .7316 .5619 19 .9246 .7857 .6225 20 .9524 .8355 .6806 21 .9722 .8766 .7348 22 .9841 .9113 .7841 23 .9921 .9372 .8283 24 .9960 .9589 .8662 25 1.0000 .9740 .8990 0 .0011 .0006 1 .0022 .0012 2 .0043 .0023 3 .0076 .0041 4 .0130 .0070 5 .0206 .0111 6 .0325 .0175 7 .0465 .0256 8 .0660 .0367 9 .0898 .0507 10 .1201 .0688 11 .1548 .0903 12 .1970 .1171 13 .2424 .1474 14 .2944 .1830 15 .3496 .2226 16 .4091 .2669 17 .4686 .3141 18 .5314 .3654 19 .5909 .4178 20 .6504 .4726 21 .7056 .5274 k2=8 k2=9 k2=10 k1 .0008 .0016 .0031 .0054 .0093 .0148 .0225 .0326 .0466 .0637 .0855 .1111 .1422 .1772 .2176 .2618 .3108 .3621 .4165 .4716 .5284 .5835 .6379 .6892 .7382 .7824 .0003 .0007 .0013 .0023 .0040 .0063 .0100 .0147 .0213 .0296 .0406 .0539 .0709 .0906 .1142 .1412 .1725 .2068 .2454 .2864 .3310 .3773 .0005 .0010 .0020 .0035 .0060 .0095 .0145 .0210 .0300 .0415 .0559 .0734 .0949 .1199 .1489 .1818 .2188 .2592 .3032 .3497 .3986 .4491 .5000 .5509 .6014 .6503 .0002 .0004 .0008 .0014 .0024 .0038 .0060 .0088 .0128 .0180 .0248 .0332 .0440 .0567 .0723 .0905 .1119 .1361 .1638 .1942 .2280 .2643 .0003 .0007 .0013 .0023 .0040 .0063 .0097 .0140 .0200 .0276 .0376 .0496 .0646 .0823 .1032 .1272 .1548 .1855 .2198 .2567 .2970 .3393 .3839 .4296 .4765 .5235 .0001 .0002 .0005 .0009 .0015 .0024 .0037 .0055 .0080 .0112 .0156 .0210 .0280 .0363 .0467 .0589 .0736 .0903 .1099 .1317 .1566 .1838 7 a 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 29 30 31 32 33 34 35 k2=7 k2=8 k2=9 k2=10 .0003 .0006 .0012 .0020 .0035 .0055 .0087 .0131 .0189 .0265 .0364 .0487 .0641 .0825 .1043 .1297 .1588 .1914 .2279 .2675 .3100 .3552 .4024 .4508 .5000 .5492 .5976 .6448 .7325 .7721 .8086 .8412 .8703 .8957 .9175 .0002 .0003 .0006 .0011 .0019 .0030 .0047 .0070 .0103 .0145 .0200 .0270 .0361 .0469 .0603 .0760 .0946 .1159 .1405 .1678 .1984 .2317 .2679 .3063 .3472 .3894 .4333 .4775 .5667 .6106 .6528 .6937 .7321 .7683 .8016 .0001 .0002 .0003 .0006 .0010 .0017 .0026 .0039 .0058 .0082 .0115 .0156 .0209 .0274 .0356 .0454 .0571 .0708 .0869 .1052 .1261 .1496 .1755 .2039 .2349 .2680 .3032 .3403 .4185 .4591 .5000 .5409 .5815 .6212 .6597 .0001 .0001 .0002 .0004 .0006 .0010 .0015 .0023 .0034 .0048 .0068 .0093 .0125 .0165 .0215 .0277 .0351 .0439 .0544 .0665 .0806 .0966 .1148 .1349 .1574 .1819 .2087 .2374 .3004 .3345 .3698 .4063 .4434 .4811 .5189 Appendce Continua 22 23 24 25 26 27 28 .7576 .8030 .8452 .8799 .9102 .9340 .9535 .5822 .6346 .6859 .7331 .7774 .8170 .8526 .4259 .4749 .5251 .5741 .6227 .6690 .7136 .3035 .3445 .3878 .4320 .4773 .5227 .5680 .2139 .2461 .2811 .3177 .3564 .3962 .4374 287 288 Appendice Continua k1 a k2=8 k2=9 k2=10 k1 a k2=9 k2=10 k1 a 8 0 1 2 3 4 5 6 7 8 9 10 1l 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 .0001 .0002 .0003 .0005 .0009 .0015 .0023 .0035 .0052 .0074 .0103 .0141 .0190 .0249 .0325 .0415 .0524 .0652 .0803 .0974 .1172 .1393 .1641 .1911 .2209 .2527 .2869 .3227 .3605 .3992 .4392 .4796 .5201 .5608 .6008 .6395 .6773 .7173 .7473 .7791 .8089 .0000 .0001 .0002 .0003 .0005 .0008 .0012 .0019 .0028 .0039 .0056 .0076 .0103 .0137 .0180 .0232 .0296 .0372 .0464 .0570 .0694 .0836 .0998 .1179 .1383 .1606 .1852 .2117 .2404 .2707 .3029 .3365 .3715 .4074 .4442 .4813 .5187 .5558 .5926 .6285 .6635 .0000 .0000 .0001 .0002 .0003 .0004 .0007 .0010 .0015 .0022 .0031 .0043 .0058 .0078 .0103 .0133 .0171 .0217 .0273 .0338 .0416 .0506 .0610 .0729 .0864 .1015 .1185 .1371 .1577 .1800 .2041 .2299 .2574 .2863 .3167 3482 .3809 .4143 .4484 .4827 .5173 9 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 36 39 40 41 42 43 44 45 .0000 .0000 .0001 .0001 .0002 .0004 .0006 .0009 .0014 .0020 .0028 .0039 .0053 .0071 .0094 .0122 .0157 .0200 .0252 .0313 .0385 .0470 .0567 .0680 .0807 .0951 .1112 .1290 .1487 .1701 .1933 .2181 .2447 .2729 .3024 .3332 .3652 .3981 .4317 .4657 .5000 .5343 .5683 .6019 .6348 .6668 .0000 .0000 .0000 .000l .0001 .0002 .0003 .0005 .0007 .0011 .0015 .0021 .0028 .0038 .0051 .0066 .0086 .0110 .0140 .0175 .0217 .0267 .0326 .0394 .0474 .0564 .0667 .0782 .0912 .1055 .1214 .1388 .1577 .1781 .2001 .2235 .2483 .2745 .3019 .3304 .3598 .3901 .4211 .4524 .4841 .5159 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 k2=10 .0000 .0000 .0000 .0000 .0001 .0001 .0002 .0002 .0004 .0005 .0008 .0010 .0014 .0019 .0026 .0034 .0045 .0057 .0073 .0093 .0116 .0144 .0177 .0216 .0262 .0315 .0376 .0446 .0526 .0615 .0716 .0827 .0952 .1088 .1237 .1399 .1575 .1763 .1965 .2179 .2406 .2644 .2894 .3]53 .3421 .3697 289 Appendce Continua 46 47 48 49 50 .3980 .4267 .4559 .4853 .5147 290 Appendice Tav. 13 Distribuzione della statistica del segno: P(SN ≤ a) a\N 2 0 .2500 1 .7500 2 1.0000 3 4 3 .1250 .5000 .8750 1.0000 4 .0625 .3125 .6875 .9375 1.0000 5 .0313 .1875 .5000 .8125 .9687 6 .0156 .1094 .3438 .6562 .8906 7 .0078 .0625 .2266 .5000 .7734 8 .0039 .0352 .1445 .3633 .6367 9 .0020 .0195 .0898 .2539 .5000 a\N 0 1 2 3 4 5 6 7 8 10 .0010 .0107 .0547 .1719 .3770 .6230 .8281 .9453 .9893 11 .0005 .0059 .0327 .1133 .2744 .5000 .7256 .8867 .9673 12 .0002 .0032 .0193 .0730 .1938 .3872 .6128 .8062 .9270 13 .0001 .0017 .0112 .0461 .1334 .2905 .5000 .7095 .8666 14 .0001 .0009 .0065 .0287 .0898 .2120 .3953 .6047 .7880 15 .0000 .0005 .0037 .0176 .0592 .1509 .3036 .5000 .6964 16 .0000 .0003 .0021 .0106 .0384 .1051 .2272 .4018 .5982 17 .0000 .0001 .0012 .0064 .0245 .0717 .1662 .3145 .5000 a\N 0 1 2 3 4 5 6 7 8 9 10 11 12 18 .0000 .0001 .0007 .0038 .0154 .0481 .1189 .2403 .4073 .5927 .7597 .8811 .9519 19 .0000 .0000 .0004 .0022 .0096 .0318 .0835 .1796 .3238 .5000 .6762 .8204 .9165 20 .0000 .0000 .0002 .0013 .0059 .0207 .0577 .1316 .2517 .4119 .5881 .7483 .8684 21 .0000 .0000 .0001 .0007 .0036 .0133 .0392 .0946 .1917 .3318 .5000 .6682 .8083 22 .0000 .0000 .0001 .0004 .0022 .0085 .0262 .0669 .1431 .2617 .4159 .5841 .7383 23 .0000 .0000 .0000 .0002 .0013 .0053 .0173 .0466 .1050 .2024 .3388 .5000 .6612 24 .0000 .0000 .0000 .0001 .0008 .0033 .0113 .0320 .0758 .1537 .2706 .4194 .5806 25 .0000 .0000 .0000 .0001 .0005 .0020 .0073 .0216 .0539 .1148 .2122 .3450 .5000 291 Appendce Continua a\N 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 26 .0000 .0000 .0000 .0000 .0003 .0012 .0047 .0145 .0378 .0843 .1635 .2786 .4225 .5775 .7214 .8365 .9157 27 .0000 .0000 .0000 .0000 .0002 .0008 .0030 .0096 .0261 .0610 .1239 .2210 .3506 .5000 .6494 .7790 .8761 28 .0000 .0000 .0000 .0000 .0001 .0005 .0019 .0063 .0178 .0436 .0925 .1725 .2858 .4253 .5747 .7142 .8275 29 .0000 .0000 .0000 .0000 .0001 .0003 .0012 .0041 .0121 .0307 .0680 .1325 .2291 .3555 .5000 .6445 .7709 30 .0000 .0000 .0000 .0000 .0000 .0002 .0007 .0026 .0081 .0214 .0494 .1002 .1808 .2923 .4278 .5722 .7077 31 .0000 .0000 .0000 .0000 .0000 .0001 .0004 .0017 .0053 .0147 .0354 .0748 .1405 .2366 .3601 .5000 .6399 32 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0011 .0035 .0100 .0251 .0551 .1077 .1885 .2983 .4300 .5700 a\N 0 1 2 3 4 5 6 7 8 9 10 1l 12 13 14 15 16 17 18 19 20 34 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0004 .0015 .0045 .0122 .0288 .0607 .1147 .1958 .3038 .4321 .5679 .6962 .8042 .8853 35 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0009 .0030 .0083 .0205 .0448 .0877 .1553 .2498 .3679 .5000 .6321 .7502 .8447 36 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0002 .0006 .0020 .0057 .0144 .0326 .0662 .1215 .2025 .3089 .4340 .5660 .6911 .7975 37 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0004 .0013 .0038 .0100 .0235 .0494 .0939 .1620 .2557 .3714 .5000 .6286 .7443 38 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0002 .0008 .0025 .0069 .0168 .0365 .0717 .1279 .2088 .3136 .4357 .5643 .6864 39 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0005 .0017 .0047 .0119 .0266 .0541 .0998 .1684 .2612 .3746 .5000 .6254 40 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0000 .0001 .0003 .0011 .0032 .0083 .0192 .0403 .0769 .1341 .2148 .3179 .4373 .5627 33 .0000 .0000 .0000 .0000 .0000 .0000 .0002 .0007 .0023 .0068 .0175 .0401 .0814 .1481 .2434 .3642 .5000