Il campionamento I concetti di probabilità introdotti sono utili per affrontare il problema del loro utilizzo nell’ambito della statistica induttiva, cioè di quella parte della statistica che si occupa, con riferimento a un certo fenomeno, di un numero ristretto di unità dalle quali si vogliono ricavare informazioni valide per l’intera popolazione. Spesso è infatti impossibile esaminare l’intera popolazione riferita a un certo fenomeno e quindi ci si limita ad osservare una parte di questa che servirà per fornire informazioni valide per l’insieme delle unità. Il principio fondamentale alla base dell’inferenza statistica è stabilire in che modo deve avvenire la scelta del campione perché è evidente che campioni diversi danno luogo a informazioni diverse e di conseguenza alcuni campioni possono essere più simili alla popolazione di altri. Il processo di induzione fa riferimento alla probabilità e il campione probabilistico o casuale,in base al quale ogni elemento della popolazione ha una probabilità nota e non nulla di essere scelto ,è il più semplice da utilizzare. Con riferimento a questa scelta si dice che ogni elemento della popolazione ha la stessa probabilità di essere estratto e ogni elemento viene scelto in modo indipendente l’uno dall’altro. Ne consegue che il primo elemento estratto della c.c.X sarà uno dei possibili valori che può assumere la v.c. stessa , lo stesso vale per il secondo e così via fino ad arrivare a n corrispondente alla numerosità del campione stesso. Le v.c. X1, X2,…..,Xn ,tra loro indipendenti,costituiranno l’insieme degli elementi che sono stati estratti alla prima, alla seconda,..alla ennesima estrazione e ancora ognuna di questa v.c. si presenterà con le stesse caratteristiche della popolazione di origine cioè avrà la stessa distribuzione di probabilità.. Principali distribuzioni campionarie – Campionamento con reintroduzione L’estrazione delle unità può essere con reintroduzione o senza reintroduzione. Nel campionamento con reintroduzione gli elementi di volta in volta estratti per formare i diversi campioni di dimensione n che formano lo spazio campionario vengono reintrodotti nell’urna che, per questa ragione, rimane sempre costante nella sua composizione.Le estrazioni sono così indipendenti. Somma campionaria Quando si desidera avere risultati il più possibile corretti un esperimento dovrebbe essere ripetuto molto volte e la statistica del parametro che interessa dovrebbe essere calcolata su ogni campione estratto dal momento che la media delle statistiche campionarie calcolate su più campioni è più stabile, cioè presenta una minore variabilità, rispetto alla statistica calcolata su un solo campione.La somma campionaria non è altro che la somma degli elementi estratti alla prima, alla seconda alla ennesima estrazione : S X 1 X 2 X 3 ....... X n e se di questa somma si vuole conoscere il valore medio si avrà : E S E X 1 E X 2 E X 3 ...... E X n 1 Poichè le variabili casuali sono indipendenti e distribuite in modo uguale alla popolazione di origine, potremo scrivere : ES .... n la media della somma campionaria è uguale a n volte la media della popolazione dove n sta a indicare la dimensione campionaria. Lo stesso ragionamento può essere fatto per il calcolo della varianza ottenendo : var S var X 1 var X 2 var X 3 ...... var X n var S 2 2 2 .... 2 n 2 d .s.S n La distribuzione riferita alle diverse somme campionarie con le corrispondenti probabilità è chiamata distribuzione stimatore e le singole si sono le stime della somma calcolate campione pert campione Distribuzione delle medie campionarie Consideriamo il caso di una distribuzione normale X N , 2 dalla quale vengono estratti dei campioni di dimensione n per i quali si calcola la media: X 1 X i n Le n osservazioni campionarie possono essere considerate come n v.c. campionarie aventi ognuna la stessa distribuzione di tipo normale con la stessa media e la stessa varianza. Dalla formula vediamo che la media può essere considerata come una combinazione lineare di n variabili casuali distribuite allo stesso modo e dal momento che provengono da una popolazione di tipo normale anche la media campionaria sarà distribuita in modo normale per qualunque valore finito di n. Ora calcoliamo la media e la varianza della distribuzione della media campionaria : 1 1 1 E X E X i E X 1 X 2 X 3 .... X n n n n n La distribuzione delle medie campionaria ha una media uguale al valore del parametro della popolazione. 1 2 1 1 var X var X i 2 var X 1 X 2 X 3 .... X n 2 n 2 n n n n 2 ds X n la varianza della distribuzione campionaria risulta inferiore alla varianza della popolazione e la dispersione della media campionaria dipende dalla dimensione del campione e dalla varianza della popolazione.Da quanto detto ricaviamo che : 1)data l’ampiezza n del campione le medie campionarie saranno tanto più concentrate intorno alla media della popolazione quanto più piccola è la varianza della stessa ; 1) data la varianza della popolazione la varianza della distribuzione delle medie campionarie sarà tanto più piccola quanto maggiore sarà la dimensione del campione. La distribuzione riferita alle diverse medie campionarie con le corrispondenti probabilità è chiamata distribuzione stimatore e le singole si sono le stime della somma calcolate campione per campione La distribuzione stimatore media campionaria è uno stimatore corretto perché la sua media coincide con la media della popolazione. E X Distribuzione delle varianze campionarie La varianza campionaria può essere definita come : 1 2 n X i ^ X 2 e assumerà valori diversi che dipenderanno dal campione estratto. Se noi vogliamo calcolare la media di tutte le possibile varianze che possono essere calcolate nello spazio campionario possiamo aspettarci che tale media coincida o meno con la varianza della popolazione. Per verificarlo consideriamo il valore atteso delle varianze campionarie : E 2 1 E X i n il valore di X i E X i 2 2 X X 2 2 costituisce per noi una incognita ma sappiamo che : e E X n 2 2 perciò noi possiamo scrivere il valore atteso della varianza campionaria aggiungendo e sottraendo il valore della media della popolazione, ottenendo : 3 E 2 2 1 1 E X i X E X i X n n 2 2 1 2 E X i E X 2 E X i X n 2 1 1 2 2 E X i E X E X i X n n n 1 1 2 1 2 2E X X i n n n n 2 2 n 1 2E X 2 2 2 2 n n n n n 2 2 2 2 la media delle varianze campionarie non è uno stimatore corretto ma moltiplicando entrambi i n termini dell’uguaglianza per il rapporto si ottiene : n 1 n 2 2 E n 1 questa espressione può essere scritta sotto la forma : n 2 2 E n 1 n 1 E X i n 1 n 1 E X i n 1 2 X X 2 2 2 che è uno stimatore corretto di 2 Questo stimatore viene indicato con s2 e avrà la forma : 2 X i X e rappresenta lo stimatore corretto della varianza della s2 n 1 popolazione.Scriveremo pertanto che: E s2 2 4 Campionamento senza reintroduzione In questo tipo di campionamento l’elemento estratto non viene reintrodotto nell’urna che viene quindi, di volta in volta , modificata. Questa modalità di estrazione non ha alcuna influenza sul calcolo della media della distribuzione della somma e delle medie campionarie che rimangono invariate rispetto al campionamento con reintroduzione e introduce invece una modifica nel calcolo delle varianze perché le estrazioni sono tra loro dipendenti . Le formule delle due distribuzioni campionarie principali, somma e media, saranno : Somma campionaria ES .... n var S n 2 N n N 1 d .s.S n N n N 1 Media campionaria x 2 2 N n n N 1 x n x N n N 1 Nel caso di campionamento senza reintroduzione quando prendiamo in esame le varianze delle distribuzioni campionarie X1, X2,…. Xn dal momento che le estrazioni sono tra loro dipendenti dobbiamo considerare tutte le possibili covarianze tra le distribuzioni campionarie. Esse sono in numero di ( n-1 )+ ( n-2 ) + ( n-3)…..:Dal momento che la somma dei primi ( n-1 ) termini ordinati nn 1 in senso crescente è pari a : e sapendo che la covarianza tra le coppie di distribuzioni Xi,Xj 2 è: covX i , X j si avrà : var X 1 n2 2 N 1 2 nn 1 2 1 2 2 nn 1 n 2 2 n 2 N 1 n N 1 2 n 1 2 N n 1 n N 1 n N 1 5 Distribuzioni di tipo binomiale Se il campionamento è riferito a questo tipo di popolazioni le relazioni che si osserveranno per quanto riguarda le medie e le varianze delle distribuzioni campionarie ottenute secondo il tipo di campionamento saranno: Campionamento con reintroduzione Distribuzione della somma campionaria: s n s2 n 1 s n 1 Distribuzione della media campionaria x 2 1 n x 1 n x Campionamento senza reintroduzione Distribuzione della somma campionaria s n s2 n 1 N n N 1 s n 1 N n N 1 Distribuzione della media campionaria x 2 x 1 N n n N 1 6 1 N n N 1 n x Esercizio Cerchiamo ora di chiarire con i numeri i concetti esposti riguardanti le principali distribuzioni campionarie prendendo in esame la seguente popolazione : xi : 10, 20, 30 Calcoliamo la media aritmetica e la varianza di questi dati : x 10 20 30 60 20 3 3 100 400 900 1400 400 400 466.67 400 66.67 3 3 Costruiamo lo spazio campionario relativo all’estrazione con reintroduzione di tutti i possibili campioni di ampiezza 2 che si possono ottenere dalla popolazione esaminata. Lo spazio campionario sarà formato da 9 campioni pari a Nn =32 = 9 e viene mostrato nella tabella che segue : x2 Spazio campionario X1 X2 10 10 10 20 20 20 30 30 30 10 20 30 10 20 30 10 20 30 Calcoliamo la media e la varianza delle due distribuzioni campionarie X1, X2 X 10 10 10 20 20 20 30 30 30 180 20 9 9 X2 100 100 100 400 400 400 900 900 900 4200 400 400 466.67 9 9 1 1 7 La distribuzione X2 presenta gli stessi valori cambiati solo come posizione e quindi ha la stessa media e la stessa varianza di X1. Le due distribuzioni hanno pertanto media e varianza uguali alla popolazione di origine. Costruiamo la distribuzione somma campionaria e media campionaria ,che sono le due distribuzioni stimatore, e calcoliamo la media e la varianza ( i valori che compaiono in colonna in corrispondenza delle due distribuzioni sono le stime calcolate campione per campione): si 2 si 20 30 40 30 40 50 40 50 60 360 x 2 x i 400 900 1600 900 1600 2500 1600 2500 3600 15600 10 15 20 15 20 25 20 25 30 180 i 100 225 400 225 400 625 400 625 900 3900 360 40 9 s s n 2 20 40 s2 15600 1600 1733.33 1600 133.33 9 s2 n 2 2 66.67 133.33 180 20 9 X 3900 2 x 400 = 433.33 – 400 = 33.33 9 X x valgono le seguenti relazioni : x lo stimatore media campionaria è uno stimatore corretto x 2 x 2 n 66.67 33.33 c.v.d. 2 8 Errore campionario- Distribuzione media campionaria x : 10.15, 20,15….30 e la media della popolazione costituisce l’errore campionario, mentre la differenza tra E( x ) e la media della popolazione è la distorsione o bias. Ogni differenza tra le i i La distribuzione della media campionaria è uno stimatore corretto della media della popolazione perché la distorsione è uguale a zero: E X Costruiamo la distribuzione delle varianze campionarie corrette e non corrette e calcoliamo la media : σi 2 si 2 / 25 100 25 / 25 100 25 / 300 / 50 200 50 / 50 200 50 / 600 ^ 2 E( i )=300/9=33.33 stimatore non corretto Per correggere questo valore dobbiamo moltiplicare il risultato ottenuto per il rapporto : Infatti : 33.33 2 =66.66.. n n 1 E( s i2 )=600/9=66.67 stimatore corretto Il valore atteso di si2 è invece uno stimatore corretto perché ogni devianza è stata divisa per n-1 gradi di libertà. 9 Campionamento senza reintroduzione Se l’elemento estratto non viene reintrodotto nell’urna si ha il campionamento senza reintroduzione e lo spazio campionario sarà formato da N ( N –1 ) campioni di ampiezza 2. Nel caso esaminato la spazio campionario sarà composto da 3 2 = 6 campioni e viene rappresentato nella tabella cvhe segue : X1 X2 10 10 20 20 30 30 20 30 10 30 10 20 Le distribuzioni stimatore somma e media campionaria e i calcoli necessari per ottenere il valore delle medie e varianze campionarie sono indicate nel prospetto che segue : si 2 si 30 40 30 50 40 50 240 900 1600 900 2500 1600 2500 10000 x 2 x i 15 20 15 25 20 25 120 i 225 400 225 625 400 625 2500 Calcoliamo le medie e le varianze delle due distribuzioni : s 240 40 6 s n 2 20 40 s2 10000 1600 1666.67 1600 66.67 6 s2 n 2 x x N n 32 1 2 66.67 133.33 66.67 N 1 3 1 2 120 20 6 10 2500 400 = (416.67 – 400) = 16.67 6 2 x x 2 2 x n x N n 66.67 1 66.67 16.67 c.v.d. N 1 2 2 4 Gli stimatori-Generalità ^ Uno stimatore del parametro della popolazione viene indicato con mentre è il parametro della ^ popolazione.Poiché scrivere : ^ è costruito partendo dalle osservazioni campionarie possiamo anche ^ x1 , x2 ,..., xn che sta ad indicare che teta segnato è una funzione delle v.c.estratte. ^ Questa distribuzione avrà una media : E e una varianza data da : 2 ^ ^ ^ ^ ^ var E E E E 2 2 la deviazione standard di questa quantità è indicata come l’errore standard dello stimatore. Alcuni concetti devono essere ancora richiamati : ^ 1) l’errore campionario è dato dalla differenza : ; ^ 2) il bias o distorsione da : E ; 2 ^ 3) l’errore quadratico medio da : E chiamato anche mean square error e abbreviato con MSE. L’errore campionario è semplicemente la differenza tra il valore dello stimatore e il vero valore del parametro che si intende stimare; il bias è la differenza tra la media della distribuzione campionaria di un certo stimatore e il vero valore del parametro da stimare e infine l’errore quadratico medio è legato alla dispersione della distribuzione dello stimatore e per questo motivo ha un concetto simile a quello della varianza.Osserviamo la differenza tra la varianza dello stimatore e l’errore quadratico medio. Si vede subito che se lo stimatore è uno stimatore corretto i due valori sono coincidenti altrimenti si verificherà una differenza nei loro valori.La relazione tra l’errore quadratico medio e la varianza dello stimatore può essere mostrata nel modo seguente : 2 ^ ^ ^ ^ MSE E E E E 2 2 ^ ^ ^ E E E 11 2 2 ^ ^ ^ ^ ^ ^ E E E E 2 E E E Consideriamo il doppio prodotto : la quantità: ^ ^ E E 0 perché il valore atteso di questa quantità è uguale a : ^ ^ E E 0 : e la formula finale sarà: 2 ^ ^ ^ MSE E E E 2 cioè l’errore quadratico medio è uguale alla varianza dello stimatore più il quadrato della distorsione o bias.Da questo discende che l’errore quadratico medio non può mai essere più piccolo della varianza dello stimatore e la differenza tra i due è data dal bias al quadrato e ancora che quando lo stimatore è corretto l’errore quadratico medio coincide con la varianza dello stimatore.. Proprietà degli stimatori 1) Correttezza Uno stimatore si dice corretto quando in media tende ad assumere il valore del parametro che si ^ ^ intende stimare : E se E si dice che lo stimatore presenta uno distorsione o ^ bias data da : E ; 2) efficienza Se prendiamo in esame il requisito della correttezza i migliori stimatori sono quelli che presentano distorsione nulla ma questi stimatori possono essere più di uno e allora tra questi si sceglierà quello che presenta la varianza minima. Possiamo quindi dire che : ^ lo stimatore è uno stimatore efficiente di se presenta le seguenti caratteristiche : ^ 1) è corretto cioè : E ; ^ ^ ^ 2) è la var var 1 dove 1 è un qualunque altro stimatore corretto del parametro della popolazione . 12 Sotto condizioni abbastanza generali si può dimostrare che lo stimatore a varianza minima sarà fornito dalla disuguaglianza di Cramer-Rao attraverso la quale è possibile determinare il limite inferiore di una stimatore non distorto di un certo parametro: Se esiste uno stimatore non distorto che ha una varianza uguale a questo limite allora quello stimatore è il più efficiente ed è unico: 1 Var Y 2 nE log f x; stimatore dove con Y abbiamo indicato una generica distribuzione cioè la varianza di uno stimatore è maggiore o al più uguale all’inverso di n volte il valore atteso della derivata della funzione logaritmica calcolata rispetto al parametro della popolazione elevata al quadrato:Lo stimatore che rispetta questo limite inferiore è lo stimatore più efficiente. Infatti ad ogni parametro corrisponde un valore minimo della varianza dello stimatore corretto al di sotto del quale , qualunque sia lo stimatore utilizzato, la varianza non può discendere. Esempio Si supponga di estrarre un campione casuale ( X1, X2, ….,Xn) da una popolazione distribuita secondo una legge di Poisson di parametro : f x; x exp x! si chiede di determinare il limite inferiore di Cramer –Rao. Risoluzione Per prima cosa trasformiamo la funzione sotto forma logaritmica e poi deriviamo rispetto a . Si avrà : log f x; x log log x! log f x; x x 1 Andiamo al teorema di Cramer-Rao. Scriveremo : var Y 1 x nE 2 1 n 1 2 E x 2 n 1 1 2 1 n n che è il limite inferiore della varianza dello stimatore corretto di . Questo valore è pari alla varianza dello stimatore della distribuzione della media campionaria che quindi è uno stimatore corretto ed efficiente. 13 Esempio Sia data una funzione relativa ad una distribuzione di tipo normale e si chiede di verificare il limite inferiore di Cramer-Rao per la varianza dello stimatore : f x; 2 2 1 2 1 x 2 exp 2 2 trasformando in logaritmi si otterrà : 1 log f x; log 2 2 2 1 2 2 x 2 log f x; x 2 e applicando la disuguaglianza di Cramer –Rao alla derivata del logaritmo della funzione normale si avrà: Var Y 1 x nE 2 2 1 n 1 4 E x 2 1 n 2 4 1 2 n n 2 che è la varianza della distribuzione delle medie campionarie. Tra tutti i possibili stimatori corretti della media della popolazione lo stimatore media campionaria è quello che presenta varianza minima. 3) consistenza Uno stimatore viene definito consistente se la dispersione dello stimatore intorno al parametro da stimare diventa sempre più piccola all’aumentare della dimensione campionaria.In base a questa ^ proprietà quanto più elevata è la dimensione del campione tanto più lo stimatore tenderà a fornire stime sempre più vicine a . La consistenza è una proprietà molto importante per gli stimatori perché assicura la coerenza tra l’aumento della dimensione campionaria e le informazioni contenute nel campione. Esempio Dato un campione casuale estratto da una popolazione normale N , 2 lo stimatore media campionaria è come abbiamo visto uno stimatore corretto ed efficiente perché : 2 var Y E X n Tale stimatore è anche consistente perché all’aumentare della dimensione campionaria si verifica che : 14 var 0 X lim lim n n n 2 Stimatori di massima verosimiglianza Abbiamo già avuto modo di osservare che la stima di un parametro varierà a seconda delle possibili scelte degli elementi campionati. Di fronte a una ennupla di osservazioni campionarie come si dovrà scegliere il campione che fornisce la stima migliore per il parametro della popolazione? A priori la bontà di una stima può essere giudicata con riferimento alle proprietà che abbiamo precedentemente esaminato : 1) correttezza ; 2) efficienza ; 3) consistenza ma spesso gli stimatori esaminati rispettano solo una o due delle proprietà enunciate e allora la scelta fra tutti i possibili campioni è legata al tipo di problema da affrontare e di volta in volta si sceglierà se operare con stimatori consistenti piuttosto che corretti e efficienti o altrimenti può essere preferibile scegliere stimatori efficienti e distorti piuttosto che corretti ma poco efficienti.Vi sono diversi modi di stimare i parametri ma tra questi uno è particolarmente importante perché dà luogo a stimatori che , in generale, sono sempre consistenti anche se non sempre corretti . Questo metodo è il metodo della massima verosimiglianza . Con l’utilizzo di questo metodo tra tutti i possibili campioni estratti si sceglierà quello che presenta la massima probabilità di generare il valore del parametro che interessa. Dal momento che le n v.c. osservate sono tra loro indipendenti la funzione di verosimiglianza che si vuole rendere massima sarà data dal prodotto delle densità di probabilità relative a ciascuna osservazione campionaria: Tale funzione sarà espressa sotto forma di una funzione l che è data da prodotto delle funzioni di densità corrispondenti agli elementi estratti: l f x1 f x2 .... f xn l f xi Le stime di massima verosimiglianza si ottengono massimizzando tale funzione rispetto ai parametri che compaiono in essa e per far questo si richiede che le derivate parziali calcolate rispetto ai parametri siano uguagliate a zero.Si avrà pertanto, a seconda del numero dei parametri : l l l 0; 0;......; 0 1 2 n Per ottenere queste stime è più semplice trasformare la funzione di verosimiglianza in logaritmi effettuando la trasformazione : L log e l dal momento che il log ( l) è una trasformazione monotona di l e quindi si avrà che: L log f xi la soluzione richiesta sarà data da: L L L 0; 0;.........; 0 1 2 n 15 Esempio Supponiamo che X sia una variabile di Bernoulli che assume i valori 0 e 1 con probabilità 1 ; . Le funzioni di densità saranno : f 0 1 f 1 La distribuzione di probabilità di X può essere descritta da : f x x 1 1 x Supponiamo ora di estrarre un campione casuale di n valori e di voler trovare la stima di massima verosimiglianza per . Las funzione di verosimiglianza sarà : l f x1 f x 2 ....... f x n x1 1 1 x1 x2 1 1 x 2 ...... xn 1 1 x n xi 1 nx i e passando ai logaritmi otterremo: L xi log n xi log 1 In questa espressione l’unico parametro incognito è e derivando rispetto a questo si ha : L xi n xi 1 1 ^ uguagliando a zero la derivata calcolata rispetto a che stiamo parlando di una stima ,si ottiene : L ^ xi ^ xi n ^ 1 che è stato così contrassegnato per indicare 0 moltiplicando per il minimo comune multiplo le due parti dell’equazione si avrà ancora : ^ ^ xi 1 xi n 0 e effettuando tutte le possibili semplificazioni dopo aver eseguito i prodotti : ^ x lo stimatore di massima verosimiglianza per la media della popolazione è la i n proporzione dei successi trovata nel campione. 16 Esempio Consideriamo la funzione di densità di una curva normale di espressione : 1 x 2 exp 2 2 il suo logaritmo è : f x 2 2 1 2 1 1 x 2 log 2 2 2 2 2 e la sua funzione di verosimiglianza avrà la forma : l f x1 f x2 ...... f xn Passando ai logaritmi il prodotto si trasforma in sommatoria e scriveremo : L log f xi e sostituendo i valori precedentemente trovati : 1 1 xi 2 calcolando la derivata parziale uguagliata a zero rispetto a L log 2 2 2 2 2 ^ si otterrà : L 1 2 xi 2 0 2 x i n lo stimatore di massima verosimiglianza per la media della popolazione non è altro che la media calcolata sul campione . Nella funzione normale compare anche il parametro 2 per cui possiamo derivare anche rispetto a questo parametro ottenendo : ^ xi n ^ e L n 1 2 x i 0 2 2 4 2 2 x i che è lo stimatore di massima verosimiglianza della n varianza della popolazione normale. ^ 2 n 1 .Ricordando che E 2 il valore ottenuto non è uno stimatore corretto e allora uno n stimatore di massima verosimiglianza non sempre fornisce stime corrette. ^ 2 n xi 2 ^ 2 e 2 17 Le statistiche o v.c. campionarie Per compiere inferenza ( calcolo degli intervalli di confidenza, prova delle ipotesi) abbiamo necessità di utilizzare particolari statistiche campionarie riferite ai diversi parametri della popolazione sui quali l’inferenza stessa dovrà essere applicata. Statistiche campionarie riferite alla varianza della popolazione Per compiere inferenza sulla varianza della popolazione la statistica campionaria di riferimento è il chi quadro che assume il significato di combinazione lineare di n variabili standardizzate elevate al quadrato: Si distinguono due casi: 1)si conosce la media della popolazione; 2) non si conosce la media della popolazione e occorre stimarla attraverso il calcolo della media campionaria. 1° caso) la sommatoria di n v.standardizzate al quadrato sarà: 2 X i 2 2 ^ 2 n 2 cioè si avrà un n2 con n gradi di libertà perché dal momento che la media è conosciuta non abbiamo dovuti calcolare la media campionaria: Media e varianza del 2 con media della popolazione conosciuta: E 2 n var 2 2n 2° caso) media della popolazione ignota il 2 lo otterremo nel modo che segue: 2 Xi X 2 n 1s 2 2 2 e questa volta si avrà un chi quadro con n-1 gradi di libertà dal momento che un grado di libertà è stato utilizzato per calcolare la nedia campionaria: n21 18 Media e varianza del 2 con media della popolazione sconosciuta: E 2 n 1 var 2 2n 1 La variabile 2 è continua, non può essere negativa e varia tra zero e infinito dato che è il risultato della somma di quantità positive.La sua forma dipende dal numero dei gradi di libertà e si dice che all’aumentare dei gradi di libertà la curva tende a disporsi secondo una normale. Riprendiamo ora in esame la formula: E 2 n 1 E n 1s 2 2 sostituendo a chi quadro la sua espressione si avrà: n-1 n n11 E s2 2 2 resta cioè dimostrato che il valore atteso della varianza campionaria corretta è uguale alla varianza della popolazione. Ora consideriamo la varianza di chi quadro: var 2 2n 1 scriveremo: var n 1s 2 2 2n 1 e isolando la varianza dello stimatore corretto della varianza della popolazione: var s 2 2n 1 4 n 12 2 4 n 1 Il valore di chi quadro va letto sulle tavole in corrispondenza di un certo livello di probabilità o significatività e del numero dei gradi di libertà. Statistiche campionarie per la media della popolazione Quando si compie inferenza con riferimento alla media della popolazione occorre distinguere due casi : 1° caso) varianza della popolazione nota o campioni di grande dimensione: 2° caso) varianza della popolazione sconosciuta. 19 1° caso) La variabile di riferimento e la v.c.zeta campionaria che non è altro che la standardizzazione della distribuzione media campionaria: Si avrà: z x n Le caratteristiche della distribuzione z sono già state illustrate e il riferimento è quindi a una curva che si presenta come una normale con media pari a e varianza pari a n . 2° caso Quando invece la varianza della popolazione non è nota e occorre stimarla attraverso s 2 è necessario il ricorso a un’altra statistica campionaria , la v.c. t che viene definita come rapporto tra due v.c. campionarie: z ,variabile normale standardizzata e la radice di una v.c. chi quadro ponderato con i corrispondenti gradi di libertà: x t n n 1s 2 n 1 2 x n s x s n la distribuzione ottenuta è strettamente legata al campionamento da popolazioni normali e fa riferimento alla deviazione standard stimata . E’ una variabile di tipo continuo definita nell’intervallo ; e presenta una forma simmetrica che dipende dai gradi di libertà e dal valore della probabilità : Media e varianza della v.c. t Et 0 var t n n2 con n 2 La distribuzione t a differenza della normale presenta le code più ingrossate ed è più schiacciata verso l’asse delle ascisse.Questo significa che la distribuzione è meno precisa. All’aumentare dei gradi di libertà la distribuzione di t tende alla distribuzione normale standardizzata. 20 Anche i valori di t sono stati tabulati e vengono letti in corrispondenza di un certo livello e dei gradi di libertà. Grafico della distribuzione t f(t) t Distribuzione F Questa distribuzione e viene utilizzata quando si vuole testare l’omogeneità tra due varianze o nella costruzione della tabella Anova per testare l’ipotesi di uguaglianza tra più medie. Prende il nome dagli studiosi Fisher e Snedecor che per primi la analizzarono e viene definita come rapporto tra due chi quadro ponderati con i corrispondenti gradi di libertà: F n1 1s12 n1 1 12 n2 1s 22 n2 1 22 s12 22 s2 2 Quando si testa l’omogeneità o uguaglianza tra varianze si verifica che: 12 22 e il rapporto si riduce a : F s12 s 22 con l’avvertenza che al numeratore figurerà il valore della varianza corretta più grande. Intervallo di confidenza per la media della popolazione- Campionamento con reintroduzione 1° caso: conosciuto Quando si conosce il della popolazione per costruire l’intervallo di confidenza a un certo grado di fiducia dobbiamo impostare la seguente disuguaglianza: 21 x P z a z 2 2 n 1 P x z a x z 1 n n 2 2 confidenza per la media sarà: x z e da questa si si ricava che con prob 1-l’ntervallo di n 2 2° caso: sconosciuto l’intervallo di confidenza per la media della popolazione assumerà la seguente espressione: x P ta t 1 2 ,n 1 , n 1 s 2 n s s 1 P x t a x t , n 1 , n 1 n n 2 2 grado di fiducia pari a 1-a sarà: x t 2 .n 1 e l’ntervallo di confidenza per la media con un s n Le quantità : z n 2 t 2 .n 1 s n vengono chiamate grado di precisione della stima e indicate con . 22 Determinazione della numerosità campionaria Quando ad viene attribuito un certo grado di precisione è possibile trovare la numerosità campionaria necessaria perché quel grado di precisione venga rispettato: z n 2 t 2 .n 1 s n Elevando le due espressioni al quadrato si otterrà: z 2 n 2 t 2 2 2 , n 1 z 2 2 2 dalla quale si ottiene: n 2 s 2 e n sarà uguale a : n n 2 2 t 2 2 , n 1 s2 2 Intervalli di confidenza per la media -Campionamento senza reintroduzione 1° caso: conosciuto x P z a z N n 2 2 n N 1 P x z a n 2 1 N n x z N 1 n 2 N n 1 N 1 e da questa si si ricava che con prob 1-l’ntervallo di confidenza per la media sarà: x z 2 n N n N 1 23 2° caso: sconosciuto l’intervallo di confidenza per la media della popolazione assumerà la seguente espressione: x P t a t 1 , n 1 , n 1 s N n 2 2 n N 1 N n s s N n 1 e l’ntervallo di confidenza per la P x t a x t , n 1 , n 1 N 1 N 1 n n 2 2 media con un grado di fiducia pari a 1- sarà: x t 2 .n 1 s n N n N 1 Anche in questo caso posto il grado di precisione della stima pari a potremo trovare la numerosità campionaria necessaria con la seguente formula(quando si conosce il ): z 2 N 2 n 2 2 2 2 N 1 z 2 e quando il non è conosciuto nella formula comparirà s. Intervallo di confidenza per una proporzione: Campionamento con reintroduzione: L’espressione di partenza sarà: P z a 2 P z 1 P1 P 2 n P1 P P1 P 1 P P z a P z n n 2 2 1-l’ntervallo di confidenza per la media sarà: P z 2 e da questa si ricava che con prob. P1 P n 24 Intervallo di confidenza per una proporzione: Campionamento senza reintroduzione: P z a 2 P z 1 P1 P N n 2 n N 1 P1 P N n P1 P N n 1 P P z a P z n N 1 n N 1 2 2 con prob 1-l’ntervallo di confidenza per la media sarà: P z 2 e da questa si ricava che P1 P N n n N 1 Intervallo di confidenza per la varianza: Partendo dall’espressione: n 1s 2 2 P 2 2 2 1 2 1 e isolando 2 si otterrà: n 1s 2 n 1s 2 2 P 2 2 1 a 1 , n 1 2 2 ,n 1 che con un grado di fiducia pari a 1- conterrà il vero valore della varianza della popolazione. 25 Esercizio Si lancino due dadi e sia X = numero di volte in cui si presenta un numero pari e Y = somma dei numeri pari estratti. Si chiede di costruire la tabella a doppia entrata risultante dall’esperimento e di calcolare: 1) la media e la varianza delle due variabili aleatorie x e y; 2) la media e la varianza della distribuzione somma. Risoluzione Per costruire la tabella finale seguiamo il seguente schema che ci permette di individuare gli eventi richiesti: 1°dado/ 2° dado 1 2 3 4 5 6 1 X=0;Y=0 X=1;Y=2 X=0;Y=0 X=1;Y=4 X=0;Y=0 X=1;Y=6 2 X=1;Y=2 X=2;Y=4 X=1;Y=2 X=2;Y=6 X=1;Y=2 X=2;Y=8 3 4 X=0;Y=0 X=1;Y=4 X=1;Y=2 X=2;Y=6 X=0;Y=0 X=1;Y=4 X=1;Y=4 X=2;Y=8 X=0;Y=0 X=1;Y=4 X=1;Y=6 X=2;Y=10 5 6 X=0;Y=0 X=1;Y=6 X=1;Y=2 X=2;Y=8 X=0;Y=0 X=1;Y=6 X=1;Y=4 X=2;Y=10 X=0;Y=0 X=1;Y=6 X=1;Y=6 X=2;Y=12 Dallo schema costruito notiamo che la variabile aleatoria X si presenta con modalità : 0, 1 ,2 e la variabile aleatoria Y con i valori: 0, 2, 4, 6,8,10,12. La tabella ottenuta è la seguente: X/ Y 0 2 4 6 8 10 12 totale 9/36 / / / / / / 9/36 / 6/36 6/36 6/36 / / / 18/36 / / 1/36 2/36 3/36 2/36 1/36 9/36 9/36 6/36 7/36 8/36 3/36 2/36 1/36 36/36=1 0 1 2 Totale Da questa è immediato notare che tra le variabili casuali messe a confronto esisterà sicuramente una relazione poichè al suo interno sono presenti diverse caselle vuote. Calcoliamo ora i valori richiesti per le due distribuzioni: Distribuzione della variabile aleatoria X Tabella per il calcolo della media e della varianza xi 0 1 2 totale p(xi) 9/36 18/36 9/36 1 xip(xi) xi2 xi2p(xi) / 0 / 18/36 1 18/36 18/36 4 36/36 36/36 54/36 x xi p xi i 36 1 36 26 x2 xi2 pxi x2 i 54 2 1 1.5 1 0.5 36 Distribuzione della variabile aleatoria o casuale Y Tabella per il calcolo della media e della varianza yj 0 2 4 6 8 10 12 totale p(yj) yjp(yj) yj2 yj2p(yj) 9/36 / 0 0 6/36 12/36 4 24/36 7/36 28/36 16 112/36 8/36 48/36 36 288/36 3/36 24/36 64 192/36 2/36 20/36 100 200/36 1/36 12/36 144 144/36 1 144/36 960/36 y y j p y j i 144 4 36 y2 y 2j p y j y2 j 960 4 2 26.67 16 10.67 36 Calcolo della covarianza Tabella dei prodotti: xiyjp(xy) X/ Y 0 1 2 Totale 0 2 4 6 8 10 12 totale / / / / / / / / / 12/36 24/36 36/36 / / / 72/36 / / 8/36 24/36 48/36 40/36 24/36 144/36 / 12/36 32/36 60/36 48/36 20/36 40/36 216/36 cov xy x i y y pxy x y i j 216 1 4 6 4 2 36 Le due variabili aleatorie tendono a variare nello stesso senso. Distribuzione somma Dalla tabella iniziale: xi /yj 0 1 2 Totale 0 2 4 6 8 10 12 totale 9/36 / / / / / / 9/36 / 6/36 6/36 6/36 / / / 18/36 / / 1/36 2/36 3/36 2/36 1/36 9/36 9/36 6/36 7/36 8/36 3/36 2/36 1/36 36/36=1 27 Sommando le due variabili e attribuendo alle somme stesse le corrispondenti probabilità si ottiene: si p(si) 0 9/36 3 6/36 5 6/36 7 6/36 6 1/36 8 2/36 10 3/36 12 2/36 14 1/36 totale 36/36=1 Dopo aver riordinato i dati, la tabella necessaria per il calcolo della media e della varianza è la seguente: p(si) sip(si) si2 si2p(si) 9/36 0 0 0 6/36 18/36 9 54/36 6/36 30/36 25 150/36 1/36 6/36 36 36/36 6/36 42/36 49 294/36 2/36 16/36 64 128/36 3/36 30/36 100 300/36 2/36 24/36 144 288/36 1/36 14/36 196 196/36 36/36=1 180/36 1446/36 si 0 3 5 6 7 8 10 12 14 totale s si psi i 180 5 36 s x y 1 4 5 c.v.d. s2 si2 psi s2 i 1446 2 5 40.17 25 15.17 36 28 Esercizio Sia data la seguente popolazione : xi ni 0-5 5-10 10-30 30-50 totale 30 40 20 10 100 Si chiede di calcolare la media e la varianza della distribuzione e dopo aver contrassegnato gli elementi che la compongono di estrarre, con l’ausilio della tavola dei numeri casuali due campioni di ampiezza n=12 , di calcolare le medie e le d.s. campionarie e di costruire gli intervalli di confidenza al 95% per la media della popolazione supponendo : a) la d.s. della popolazione è nota ; b) la d.s. della popolazione è ignota. Risoluzione Rispondiamo alla prima parte delle richieste calcolando la media aritmetica e la deviazione standard della popolazione . I calcoli compaiono nella tabella che segue : xi x i’ ni 0-5 5-10 10-30 30-50 totale 30 40 20 10 100 xi’ni 2.5 7.5 20 40 75 300 400 400 1175 xi’2 6.25 56.25 400 1600 x 1175 11.75 100 x2 26437.5 11.75 2 264.375 138.0625 126.31 100 xi’2ni 187.5 2250 8000 16000 26437.5 Ora numeriamo gli elementi della popolazione in modo da poter effettuare la corrispondenza tra elemento estratto e classe di appartenenza e poi estraiamo i due campioni di ampiezza 12 xi 0-5 5-10 10-30 30-50 totale ni Ni 30 40 20 10 100 30 70 90 100 Num. ele. 00-29 30-69 70-89 90-99 29 I 12 numeri casuali letti sulla tavola sono : 82 97 56 61 58 84 73 11 94 36 55 79 Effettuata la corrispondenza con le classi osservate nella popolazione , la tabella che si ottiene è la seguente: x i’ ni 2.5 7.5 20 40 1 5 4 2 12 Calcoliamo la media e la varianza ricordando che dal momento che il campione è piccolo la varianza deve essere corretta : x i’ ni 2.5 7.5 20 40 1 5 4 2 12 xi’ni 2.5 37.5 80 80 200 xi’2 6.25 56.25 400 1600 xi2ni 6.25 281.25 1600 3200 5087.5 x 200 16.67 12 s2 5087.5 12 16.67 2 5087 3334.67 1752.83 159.35 11 11 11 s 159.35 12.62 Per il secondo campione i 12 numeri casuali sono stati i seguenti:. 82 97 53 90 87 55 70 01 47 56 32 1 e la distribuzione campionaria ottenuta è indicata nella tabella che segue : x i’ ni 2.5 7.5 20 40 2 5 3 2 12 30 I calcoli per la media e la varianza compaiono nella tabella che segue : x i’ 2.5 7.5 20 40 x s2 xi’ni ni 1 5 4 2 12 5 37.5 60 80 xi’2 6.25 56.25 400 1600 xi2ni 12.5 281.25 1200 3200 4693.75 182.5 15.2 12 4693.75 12 15.2 2 4693.75 2772.48 1921.27 174.66 11 11 11 s 174.66 13.22 I due campioni estratti sono composti da elementi differenti e quindi le stime che essi forniscono non sono uguali. La dimensione campionaria è piccola e ora può essere interessante vedere se l’intervallo di fiducia al 95% comprende il vero valore della media della popolazione. Pertanto costruiamo i due intervalli di confidenza di cui al punto a) e b). a) 1° caso Nel primo caso si suppone di conoscere la deviazione standard della popolazione 11.24 e la variabile campionaria da usare è z . L’intervallo assumerà la forma : 2 1° campione 16.67 1.96 11.24 12 16.67 6.37 10.3 23.04 2° campione 15.2 1.96 11.24 12 15.2 6.37 8.83 21.57 tutti e due gli intervalli calcolati a un livello di fiducia 1- , anche se la dimensione campionaria è piccola, contengono la media calcolata precedentemente sull’intera popolazione pari a 11.75 . 31 b) 2° caso Se la deviazione standard della popolazione non è conosciuta dobbiamo far riferimento alla deviazione standard corretta e alla variabile campionaria t dove n-1 sono i gradi di libertà della 2 , n 1 distribuzione . I due intervalli di confidenza saranno : 1° campione x t 2 s , n 1 n 16.67 2.201 12.62 12 16.67 8.03 8.64 24.7 2° campione x t 2 s , n 1 n 15.2 2.201 13.22 12 15.2 8.41 6.79 23.61 Anche in questo caso i due intervalli di confidenza contengono il vero valore della media della popolazione ma il grado di precisione è passato da 6,37 a 8,03 e 8,41 perché la d. s. è stata stimata. 32 Prova delle ipotesi La prova delle ipotesi è un’assunzione che viene fatta in relazione al valore che può assumere un parametro della popolazione. L’ipotesi che viene sottoposta a test viene chiamata ipotesi nulla o della non differenza e la verifica di tale ipotesi richiede che siano stabilite:: 1) l’ipotesi nulla: 2) l’ipotesi alternativa; 3) il livello di significatività del test o errore di prima specie; 4) la dimensione campionaria; 5) la statistica test; 6) i valori critici che dividono le regioni di rifiuto e di accettazione. Sulla base dei dati a disposizione si calcolerà il valore campionario della statistica appropriata e si troverà se questa cade nella zona di rifiuto o di accettazione del test e infine si adotterà lam decisione statistica con riferimento al problema esaminato. Errori di prima e di seconda specie Il livello di significatività del test viene anche chiamato errore di prima specie ed è la probabilità di rifiutare l’ipotesi nulla quando questa è vera. L’errore di prima specie viene indicato con e individua nel grafico le zone di accettazione e di rifiuto dell’ipotesi. L’errore di seconda specie viene indicato con ed è la probabilità di accettare l’ipotesi nulla quando è falsa. Il suo complemento 1- è la potenza del test che viene definita come la probabilità di rifiutare correttamente l’ipotesi nulla quando è falsa. Questi due errori vengono calcolati con riferimento all’ipotesi alternativa una volta che si è determinato il punto critico in termini di media campionaria che delimita le zone di rifiuto o di accettazione del test. Le ipotesi nulle che ora prenderemo in esame vengono chiamate anche parametriche perché sono riferite ai parametri della popolazione media e varianza. Prova delle ipotesi per la media della popolazione L’ipotesi nulla da testare è la seguente: H 0 : 0 contro l’ipotesi alternativa che può essere : H1 : 0 H1 : 0 H1 : 0 con un livello di significatività o errore di prima specie che verrà di volta in volta indicato:Questo individuerà nel grafico due zone la zona di rifiuto e la zona di accettazione del test.Supponiamo 33 che il valore a prefissato sia pari al 5% .I casi che si potranno verificare a seconda che il test si unilaterale ( ipotesi alternativa del tipo maggi Test unilaterale del tipo maggiore , la zona di rifiuto si trova nella coda destra della curva: accettazione rifiuto 5% z Test unilaterale del tipo minore, la zona di rifiuto si trova nella coda sinistra della curva: rifiuto accettazione 5% z Test bilaterale – Le zone di rifiuto si trovano nelle due code: rifiuto rifiuto 5% zz 34 Per testare l’ipotesi concernente la media della popolazione dobbiamo distinguere due casi: - il sigma della popolazione è conosciuto; - il sigma della popolazione è ignoto e occorre stimarlo con s. Nel primo caso la variabile campionaria di riferimento è la variabile z che è la standardizzazione della media calcolata sul campione rispetto all’ipotesi nulla che si sta testando: z x 0 n il valore calcolato si confronterà con il valore di z corrispondente all’errore e Decisione per un test unilaterale di tipo maggiore se: z z si accetterà l’ipotesi ; z z l’ipotesi dovrà essere rifiutata. Se invece l’ipotesi alternativa è di tipo minore: se z z si rifiuterà l’ipotesi ; se z z l’ipotesi dovrà essere accettata Se il sigma della popolazione non è conosciuto la variabile che deve essere calcolata sui valori campionari osservati è: tx 0 s n con la deviazione standard stimata s che è data da: xi x s n 1 2 La variabile t calcolata sul campione andrà confrontata con il valore di t letto sulle tavole in corrispondenza del livello dell’errore e di n-1 gradi di libertà : t ,n 1 e la regola di decisione sarà: se t t ,n 1 rifiuterò l’ipotesi ; se t t ,n 1 l’ipotesi andrà accettata. se t t ,n 1 se t t ,n 1 accetterò l’ipotesi; l’ipotesi andrà rifiutata 35 A seconda che il test sia unilaterale o bilaterale usando la variabile t i grafici di riferimento saranno: unilaterale positivo accettazione rifiuto t,n-1 unilaterale negativo rifiuto accettazione tn Bilaterale accettazione rifiuto rifiuto tntn 36 Prova dell’ipotesi su una proporzione L’ipotesi nulla da testare è: H0 : 0 contro l’ipotesi alternativa che potrà essere del tipo: H1 : 0 H1 : 0 H1 : 0 Tale ipotesi viene testata con la variabile z: z P 0 0 1 0 n e la regola di decisione sarà (se l’ipotesi alternativa è di tipo maggiore): se z z si accetterà l’ipotesi ; se z z l’ipotesi dovrà essere rifiutata. Se invece l’ipotesi alternativa è di tipo minore: se z z si rifiuterà l’ipotesi ; se z z l’ipotesi dovrà essere accettata I grafici relativi alla verifica di questa ipotesi sono equivalenti a quelli relativi alla media della popolazione con il riferimento non a 0 ma a 0. L'ipotesi nulla rappresentata graficamente sarà, con un livello di errore del 5%,: accettazione rifiuto z La verifica delle ipotesi che è stata fin qui condotta prendendo come riferimento il valore di z che corrisponde a un certo livello di significatività può essere anche effettuata rispetto al punto critico 37 del test rappresentato dalla media campionaria o dalla proporzione calcolata rispetto al valore di z o t corrispondente all’errore di prima specie. Infatti considerando il nostro solito errore del 5% si avrà a seconda che il test si rivolto alla coda positiva o negativa della curva: x 1.645 0 dalla quale si ricaverà il valore incognito della media campionaria, punto critico n del test: x 1.645 n 0 1.645 x 0 n x 1.645 n 0 Se il test è bidirezionale il valore di z sarà letto in corrispondenza al valore di /2 e i punti critici saranno: 1.96 x 0 n x 1.96 n 0 1.96 x 0 n x 1.96 n 0 Se l’ipotesi nulla è riferita a una proporzione le formule che ci forniranno i punti critici a seconda che il test sia unilaterale o bilaterale saranno: 1.64 P 0 0 1 0 dalla quale si otterrà il punto critico espresso in termini di proporzione n campionaria: 38 P 1.64 1.64 0 1 0 n 0 P 0 0 1 0 n P 1.64 0 1 0 n 0 Se il test è bilaterale i due punti critici saranno: 1.96 P 0 0 1 0 n P 1.96 1.96 0 1 0 n 0 P 0 0 1 0 n P 1.96 0 1 0 n 0 Se si utilizza la variabile t il ragionamento che si fa per individuare il punto critico è lo stesso solo che ,oltre al livello di significatività del test ,occorre conoscere la dimensione campionaria per leggere sulle tavole il valore di t corrispondente a n-1 gradi di libertà. Se per esempio il livello di significatività è ancora 0.05 e la numerosità campionaria è pari a 10 unità, si avrà: 1.8331 x 0 s dalla quale si ottiene il punto critico per un test unilaterale rivolto alla coda n positiva della curva: s 0 n e se invece ci riferiamo alla coda negativa si avrà: x 1.8331 39 1.8331 x 0 s n e il punto critico espresso in media campionaria assumerà il valore: s x 1.8331 n 0 Per il test bidirezionale i due valori di media campionaria si otterranno risolvendo rispetto a uguaglianze che seguono: x le 2.2622 x 0 s n s x 2.2622 n 0 2.2622 x 0 s n x 2.2622 s n 0 Potenza del test La potenza del test , rappresentata da 1- è la probabilità di rifiutare correttamente l’ipotesi nulla quando è falsa e viene calcolata in corrispondenza di diversi valori di ipotesi alternativa e tenendo sempre fisso il punto critico espresso in media o proporzione campionaria. Tale punto delimita le zone di rifiuto o di accettazione del test calcolato in corrispondenza del livello di errore fissato. I diversi valori di media o proporzione campionaria che verranno via via testati sono riferiti all’ipotesi alternativa che può essere del tipo maggiore , minore o diverso dall’ipotesi nulla e pertanto ci riferiremo alla parte destra o alla parte sinistra della curva normale oppure a entrambe. Il test è più potente quando si riferisce a una sola coda quindi, quando è possibile, si sceglierà questa soluzione. Ora supponiamo che accanto all’ipotesi nulla si sia fissata un’ipotesi alternativa del tipo maggiore.Per calcolare la potenza del test si procede nel seguente modo : 1) si calcola il punto critico espresso in media o proporzione campionaria corrispondente al livello di significatività prescelto; 2) tale valore critico nel grafico corrispondente all’ipotesi nulla individuerà la zona di rifiuto e la zona di accettazione del test : 40 3) si prendono in esame i diversi valori di media alternativa e si costruiscono le relative curve tenendo sempre fisso il punto critico e quindi le zone di rifiuto e di accettazione. Si potranno presentare i seguenti casi: a) il valore di media alternativa è minore del valore critico I grafici di riferimento saranno Ipotesi nulla 1- x c Ipotesi alternativa con e potenza del test x c la potenza del test si otterrà sottraendo da 0.5 l’area letta sulle tavole in corrispondenza del valore standardizzato: z x c 1 che avrà segno positivo. n 41 2° caso La media alternativa risulta maggiore del valore critico I grafici di riferimento saranno: Ipotesi nulla 1- x c Ipotesi alternativa xc La potenza del test si otterrà sommando all’area della semicurva pari a 0.5 l’area corrispondente al valore standardizzato: z x c 1 che questa volta avrà segno negativo. n 42 Effetti sulla potenza del test 1) per un test unilaterale con valori conosciuti ,n e la potenza del test aumenta all’aumentare della distanza tra la media 1 e la media ipotizzata sotto Ho; 2) per ,n e e1 specificati un test unilaterale è più potente di un test bilaterale e perciò dovrebbe essere scelto tutte le volte che è possibile specificare la direzione dell’ipotesi alternativa; 3) per n, , tipo di test e media1 specificati la potenza del test aumenta all’aumentare del livello di significatività e quindi diminuisce l’errore di secondo tipo.; 4) per , ,tipo di test e media1 la potenza del test aumenta all’aumentare della dimensione campionaria. Prova delle ipotesi sulla varianza della popolazione L’ipotesi nulla da testare è: H 0 : 2 02 contro l’ipotesi alternativa che potrà essere del tipo: H 1 : 2 02 H 1 : 2 02 H 1 : 2 02 (solitamente l’ipotesi alternativa è del tipo maggiore). La variabile empirica da calcolare sulle risultanze campionarie è: 2 n 1s 2 02 che andrà confrontata con il valore letto sulle tavole a un dato livello di significatività e con n-1 gradi di libertà. 43 Decisione Se 2 2 ,n1 l’ipotesi nulla che la varianza della popolazione sia pari a un certo valore andrà accettata; se 2 2 ,n1 si rifiuterà l’ipotesi nulla. accettazione rifiuto n Prova delle ipotesi sulla uguaglianza tra varianze L’ipotesi da testare è: H 0 : 12 22 contro le ipotesi alternative : H 1 : 2 02 oppure H 1 : 2 02 oppure H 1 : 2 02 la variabile empirica usata per la verifica di questo test è: F s12 s 22 costruita mettendo al numeratore la varianza campionaria corretta più grande. Questa variabile verrà confrontata con la variabile F letta sulle tavole in corrispondenza del livello di significatività e di m-1 gradi di libertà al numeratore e di n-1 gradi di libertà al denominatore. 44 Decisione Se: F F ,m 1,n 1 si accetta l’ipotesi Se : F F ,m1,n 1 si rifiuta l’ipotesi accettazione rifiuto F,m-1,n-1 Ipotesi nulla sulla differenza tra le medie di due popolazioni L’ipotesi da testare è : H 0 : 1 2 oppure H 0 : 1 2 0 contro l’ipotesi alternativa : H 0 : 1 2 H 0 : 1 2 H 0 : 1 2 Si possono presentare diverse situazioni: 1°) i campioni provengono da due popolazioni indipendenti con varianze note La variabile sperimentale sarà data da: z x1 x 2 12 n1 22 n2 45 che verrà confrontato con il valore di z letto sulle tavole corrispondente al livello di significatività adottato e la regola di decisione sarà: se: z z si rifiuta l’ipotesi di uguaglianza tra medie ; se: z z si accetta l’ipotesi. Intervallo di confidenza per la differenza tra medie con conosciuto: 1 2 x1 x 2 z 2 12 n1 22 n2 2°) i due campioni provengono da popolazioni con varianze sconosciute L’ipotesi che si fa è che le due popolazioni siano distribuite normalmente e che ci sia omogeneità delle varianze testata con l’ipotesi nulla: H 0 : 12 22 se questa omogeneità viene accettata si calcolerà la variabile: x1 x 2 t sc 1 1 n1 n2 dove sc è la deviazione standard comune che sarà calcolata con la formula: sc n1 1s12 n2 1s 22 n1 n2 2 Il valore empirico sarà confrontato con il valore di t letto sulle tavole al livello e con n1+n2-2 gradi di libertà e poi si prenderà la decisione di accettare o rifiutare l’ipotesi . I grafici possono essere del tipo: Test unilaterale positivo accettazione rifiuto tnn 46 Test unilaterale negativo rifiuto accettazione tnn Test bilaterale accettazione rifiuto rifiuto tntn1+n2-2 Intervallo di confidenza per la differenza tra media con s stimato: 1 2 x1 x 2 t s ,n n 2 2 1 2 1 1 n1 n2 3° ) i due campioni provengono da popolazioni indipendenti con varianze diverse In questo caso la prova delle ipotesi relativa all’omogeneità delle varianze non è stata accettata e quindi per testare l’ipotesi nulla della differenza tra le due medie si ricorre al metodo di CochranCox con il calcolo della statistica test: t' x1 x 2 s12 s 22 n1 n2 47 che andrà confrontata con la statistica : t' ' t1 w1 t 2 w2 w1 w2 nella quale t1 è il valore di t letto in corrispondenza del livello a o con n1-1 gradi di libertà, t2 è il valore di t letto in corrispondenza del livello di a o con n2-1 gradi di libertà a seconda che l’ipotesi alternativa sia di tipo unilaterale o bilaterale. : w1 s12 n1 e w2 s 22 n2 decisione se t ' t '' si rifiuta l’ipotesi : se t ' t '' si accetta l’ipotesi Prova delle ipotesi per la differenza tra due proporzioni L’ipotesi nulla è: H 0 : 1 2 oppure H 0 : 1 2 0 contro una delle seguenti ipotesi alternative: H 0 : 1 2 H 0 : 1 2 H 0 : 1 2 La statistica test è data da: P1 P2 z P1 1 P1 P2 1 P2 n1 n2 che andrà confrontata con il valore di z letto sulle tavole in corrispondenza del valore di a fissato. La regola di decisione sarà: respingere H0 se e z z accettare H0 se z z Per testare questa ipotesi si può procedere anche nel modo che verrà di seguito illustrato. Si calcola la proporzione di successi comune ai due campioni con la formula: ^ x1 x2 per differenza si calcola la proporzione comune degli insuccessi: 1 P e si n1 n2 costruisce la statistica test: ^ P 48 z P1 P2 e poi si procede nel solito modo per accettare o rifiutare 1 1 P 1 P n1 n2 ^ ^ l’ipotesi nulla. Intervallo di confidenza per la differenza tra proporzioni: 1 2 P1 P2 z 2 P1 1 P1 P2 1 P2 n1 n2 oppure 1 1 n1 n2 1 2 P1 P2 z P1 P ^ 2 ^ Prova delle ipotesi per l’uguaglianza tra frequenze relative: il test del 2 L’ipotesi nulla che si vuole testare è relativa all’uguaglianza tra frequenze relative. Se in una tabella si verifica questa situazione si dice che tra i due caratteri messi a confronto esiste indipendenza. Questa ipotesi nulla: H 0 : f1 f 2 ..... f k ovvero: H 0 : nij nij' contro l’ipotesi alternativa che anche una sola delle frequenza sia differente. Viene testata con la statistica test: 2 c i j n ij nij' nij' 2 che andrà confrontata con il valore di chi quadro letto sulle tavole al livello di errore fissato e con gradi di libertà dati dal prodotto del numero delle righe meno 1 e dal numero delle colonne meno 1: a2,r 1c1 . Decisione: Ho viene rifiutata se : 2 a2,r 1c1 e si dirà allora che tra i due caratteri esiste dipendenza Ho viene accettata se: 2 a2,r 1c1 e i due caratteri sono tra loro indipendenti. Questa ipotesi viene anche definita non parametrica perché si basa sullo studio delle frequenze di associazione e non su parametri. 49 Analisi della varianza L’analisi della varianza è un metodo dovuto al Fisher ed è fondamentale per l’interpretazione statistica di molti dati. E’ un metodo utilizzato per testare l’ipotesi di uguaglianza tra più medie e si basa sulle differenze riscontrate tra medie campionarie prendendo in considerazione le rispettive varianze. Ecco perché il test di Fisher si chiama analisi della varianza indicata con il suo acronimo ANOVA ( analysis of variance). Il principio che sta alla base di questo test è quello di stabilire se due o più medie campionarie possono derivare da popolazioni che presentano lo stesso parametro . Le ipotesi che stanno alla base di questo test e che: 1) i valori osservati derivino da una distribuzione normale; 2)sia presente l’omogeneità delle varianze 3)esista indipendenza tra le osservazioni. L’ipotesi nulla da testare è: H 0 : 1 2 3 ........ k contro l’ipotesi alternativa che anche una sola media sia diversa H 0 : 1 2 3 ........ k Il test si basa sulla scomposizione della devianza campionaria in devianza tra i gruppi e devianza entro i gruppi, più precisamente si avrà:-c 2 2 devY y ij y i y i y ni i j i 2 y y i j ij i è la devianza dell’errore o non spiegata chiamata anche devianza within. Essa rappresenta la sommatoria delle differenze al quadrato tra i valori osservati in ciascun campione e la corrispondente media. Questa devianza, divisa per i suoi gradi di libertà, compare sempre al denominatore di Fc. 2 i y i y ni è la devianza spiegata o tra i gruppi chiamata anche devianza between e rappresenta la sommatoria delle differenze al quadrato tra ciascuna media campionaria e la media di tutte le osservazioni ponderate con la numerosità campionaria.. La statistica test sarà data dal rapporto tra le due devianze ciascuna divisa per i corrispondenti gradi di libertà , dando luogo alla variabile test F: 2 i y i y ni r 1oc 1 Fc i j yij y i 2 n r on c che andrà confrontato con il valore di F letto sulle tavole al livello di significatività scelto e con gradi di libertà r-1 o c-1 al numeratore e n-r o n-c al denominatore. Se F campionario risulterà maggiore di questo valore l’ipotesi andrà rifiutata se minore o uguale si accetterà l’ipotesi che i campioni provengono da popolazioni che presentano la stessa media. 50 I calcoli per arrivare al valore finale di F vengono esposti in una tabella che si chiama tabella ANOVA il cui schema è di seguito esposto: Tipi di devianza Spiegata( between) Non spiegata( within) Devianza totale devianze 2 i y i y ni Gradi di libertà r 1oc 1 y y ij i i j 2 n r on c j y j y 2 n 1 varianze F 2 i y i y ni r 1oc.1 2 y y ij i i j n r on c j y j y n 1 2 i y i y ni r 1oc 1 Fc y y i j ij i 2 n r on c 2 Se l’ipotesi viene accettata non ci darà una differenza significativa tra la varianza spiegata e quella non spiegata e ci si attenderà un valore di Fc vicino all’unità se invece è vera l’ipotesi alternativa la varianza tra gruppi sarà verosimilmente più grande di quella osservata tra elementi di uno stesso gruppo e quindi i campioni esaminati non sono rappresentativi di una stessa popolazione. Quando i gruppi da confrontare sono solo due ricordiamo che si può usare il test t precedentemente esaminato della differenza tra due medie in presenza di omogeneità tra le varianze. I due metodi sono equivalenti e vale la relazione: t c2 Fc Test di adattamento I test statistici che servono per testare l’ipotesi che i dati campionari osservati siano compatibili con una certa distribuzione sono detti test sulla bontà di adattamento. Per testare l’ipotesi si suppone di avere a disposizione un campione di n osservazioni suddivisi in k classi. Per ciascuna classe si suppone di conoscere la frequenza osservata Oi e la frequenza attesa Ai con la quale la si vuole confrontare. Le frequenze attese sono quelle frequenze che ci si aspetterebbe di trovare se la distribuzione dei dati osservati seguisse effettivamente la distribuzione ipotizzata. Per valutare la bontà dell’adattamento si utilizza la statistica test: O Ai 2 c2 i Ai i j Per n di una certa dimensione questa statistica si distribuisce secondo un 2 con gradi di libertà pari a: k-p-1 Dove: k = numero delle classi; p = numero dei parametri presenti nella distribuzione teorica; 1= vincolo sempre presente riferito al fatto che la somma delle frequenze osservate deve essere sempre uguale al totale delle frequenze attese. Ad esempio in una distribuzione normale i parametri che compaiono sono due, la media e la varianza, nella distribuzione di Poisson compare solo un parametro , e così via.--51 Se l’ipotesi viene accettata i dati osservati si adattano alla distribuzione ipotizzata, e la forma della distribuzione della popolazione viene completamente specificata e in presenza di n grande campione anche le stime dei parametri sarebbero da ritenersi molto vicine ai veri valori dei parametri. Il test di adattamento a una normale è di grande utilità quando si parla di normalità della distribuzione X o Y nella popolazione nel caso di analisi della varianza. Se l’ipotesi viene rifiutata i dati osservati non si adattano alla distribuzione teorica ipotizzata. Perché questa procedura sia valida è necessario che le frequenze assolute siano tutte maggiori o uguali a 5. Se qualcuna è minore di 5 occorre opportunamente accorpare due o più classi successive. Quando si effettua questa operazione il numero delle classi da considerare per testare l’ipotesi è quello ridotto ,non quello della distribuzione di partenza. Test chi quadro di indipendenza Il test del chi quadro può essere anche utilizzato per verificare l’indipendenza tra due distribuzioni. In questo caso l’ipotesi nulla prenderà in considerazione le frequenze relative della tabella per verificare se esse risultano o meno uguali per riga e per colonna . Nel primo caso l’ipotesi di indipendenza sarà accettata mentre non lo sarà nel secondo caso. L’ipotesi nulla sarà quindi: H 0 XeYsonoind ipendenti H1 XeYsonodipendenti Il test si effettua calcolando il chi quadro sulle osservazioni campionarie presenti nella tabella a doppia entrata osservata , con la formula: 2 c i j n ij nij* 2 nij* E confrontandolo con il valore letto sulle tavole al livello a scelto e con gradi di libertà pari a: ( r-1)*(c-1) ,r 1c1 Il confronto tra i due valori, come al solito, ci dirà se l’ipotesi si accetta o si rifiuta. Modello lineare Il modello lineare è rappresentato dalla seguente equazione : Yi xi i dove è la vera ordinata all’origine della popolazione, è il vero coefficiente angolare della popolazione e è l’errore casuale nella variabile Y per una certa osservazione e le sue proprietà si deriveranno da quelle più sotto specificate per Y. Nel modello lineare distinguiamo due componenti una sistematica data da: x e una aleatoria rappresentato da che è una v.c. normale con media pari a zero e varianza 2 .La variabile x è di tipo non stocastico e può essere sottoposta a controllo mentre la v.c. Y è il valore di risposta in corrispondenza di un valore fissato x. Le ipotesi alla base del modello lineare sono le seguenti: 1) per ogni xi nella popolazione c’è una distribuzione normale di Y dalla quale viene estratto il valore campionario ; 2)la media della distribuzione y è data da : E Yi xi ; 52 3) qualunque sia x, la varianza di Y intorno alla sua media è sempre uguale ( omoschedasticità della varianza ); 4) la componente deterministica è incorrelata con quella casuale e le componenti casuali delle varie unità sono incorrelate tra loro. Inferenza sui parametri della retta Stima puntuale Le dimostrazioni che seguono mostrano come il valore atteso dell’intercetta all’origine e del coefficiente angolare rispondano al requisito della correttezza. ^ Prendiamo in esame i l coefficiente angolare stimato calcolato sul campione che presenterà la seguente forma: ^ xi x Yi xi x ora ponendo : xi x ci 2 x i x 2 xi x Yi 2 xi x y l’espressione prece4dente può essere scritta sotto la forma : ^ c Y i i Il risultato ottenuto ci permette di dire che lo stimatore beta può essere espresso come combinazione lineare della v.c.Y con pesi pari a ci. Calcoliamo il valore atteso di questa espressione : x x i i ^ x x xi E ci E Yi 2 2 xi x xi x xi x xi 2 xi x La prima parte della sommatoria è uguale a zero per la prima proprietà della media aritmetica, l’espressione iniziale si riduce quindi a : 53 2 xi x xi 2 2 x x x n i x i i x E 2 2 2 2 2 x n x n xi x i i x x ^ Lo stimatore coefficiente angolare è uno stimatore corretto. La varianza dello stimatore sarà: 2 x i ^ x 2 2 2 var ci var Yi 4 2 xi x xi x Perché la varianza di Yi è rappresentata da 2 ? ricordando var Yi E xi i EYi E xi i xi E i2 e rappresenta la distanza tra il valore osservato e il valore teorico della Y si avrà; 2 yi yi' n2 che 2 s 2 2 res al denominatore compaiono due gradi di libertà che sono riferiti alle ^ stime effettuate rispetto ai valori e ^ della retta di regressione stimata. ^ Anche lo stimatore può essere espresso come combinazione lineare delle Y. Infatti: ^ Y x ^ ^ xi x Yi Yi x 2 n xi x x i x 1 Y a Y x i i i n 2 x i x ^ calcoliamo il valore atteso dello stimatore : ^ ^ E EY E x ^ x E x x x 54 ^ ^ var var Y 2 ^ _ ^ Y var var 2 cov x x Y x ma la covarianza è uguale a zero e quindi si avrà_ var x n 2 2 ^ 2 1 2 x dev x n dev x 2 _ Perché la covarianza tra ^ Ye e uguale a zero? ^ _ ^ ^ _ covY , EY EY E E ^ x x x 2 x 2 0 ^ In base ai valori trovati dal momento che sia lo stimatore ^ che lo stimatore si distribuiscono in modo normale siamo in grado di costruire le variabili campionarie che ci serviranno per costruire gli intervalli di confidenza e testare le diverse ipotesi nel modello lineare : Il coefficiente angolare e l’ordinata all’origine calcolati sul campione se standardizzati assumeranno la seguente forma ^ t^ s dev x ^ t^ 2 s 1 x n dev x dove : 55 y i y i' n2 s ^ 2 2 k devY n2 perché la devianza al numeratore deve essere corretta con n-2 gradi di libertà che ci sono serviti per il calcolo dei parametri della retta di regressione stimata Intervalli di confidenza Gli intervalli di confidenza per i parametri della retta di regressione verranno costruiti nel modo che segue : P t .n 2 2 t 1 ,n2 s 2 dev x ^ e isolando : ^ ^ s s P t t 1 ,n2 dev x de x 2 2 ^ t 2 , n 2 s dev x ^ P t t 1 isolando : .n 2 ,n2 _ 2 2 2 1 x s n dev x 2 2 ^ ^ 1 1 P t s x t s x 1 ,n 2 n dev x n dev x 2 2 56 2 ^ t 2 ,n 2 1 x n dev x s Prova delle ipotesi sul parametro Le ipotesi nulle sui parametri della vera retta di regressione sono: H0 : 0 H 0 : 0 contro l’ipotesi alternativa maggiore, minore o diversa dell’ipotesi nulla. La statistica test sarà: ^ t^ 0 se l’ipotesi nulla che si testa riguarda l’assenza di relazione; s dev x o invece: ^ t^ 0 s dev x se si testa l’ipotesi che il coefficiente angolare della vera retta di regressione sia pari a un certo valore. Il confronto avverrà con il valore di t letto sulle tavole al livello di significatività stabilito e con n-2 gradi di libertà. Se l’espressione: ^ t^ 0 s viene elevata al quadrato si otterrà: dev x ^ 2 s y2 ^ 2 ^ 2 devY dev devx x devY n 2 s x2 t 2^ 2 ^ 2 ^ 2 ^ 2 s 1 devY 1 devY 1 devY dev x n2 n2 devx ^ 2 ^ 2 n 2 ^ 2 1 57 ^ t^ n 2 ^ 2 1 e l’ipotesi che verrà testata sarà sempre legata all’assenza di una relazione di tipo lineare ma del tipo: H0 : 0 Il confronto nell’uno e nell’altro caso avverrà con il valore di t letto sulle tavole in corrispondenza di un certo livello di significatività e di n-2 gradi di libertà e se tale valore risulta maggiore del valore di t calcolato sul campione si accetterà l’ipotesi e nel caso contrario si rifiuterà. Regola di decisione: se: t c t ,n2 si rifiuta l’ipotesi di assenza di relazione lineare mentre se: t c t ,n2 l’ipotesi verrà accettata e tra i caratteri messi a confronto non esiste relazione di tipo lineare. L’ipotesi di assenza di relazione lineare può essere testata anche con la tabella Anova nella quale compariranno i seguenti valori: Tabella ANOVA Tipi di deviazione spiegata Non spiegata totale Devianze Yi ' Y Yi Yi ' 2 Yi Y g. libertà 1 2 n-2 2 n-1 Varianze Yi ' Y 1 2 Yi Yi ' n2 2 Il valore F campionario sarà dato dal rapporto tra le due varianze: 58 2 Yi ' Y 1 Fc 2 Yi Yi ' n2 e andrà confrontato con il valore di F letto sulle tavole a un certo livello di significatività e con 1 grado di libertà al numeratore e n-2 gradi di libertà al denominatore. Regola di decisione Se : Fc F ,1,n 2 si respingerà l’ipotesi , mentre se: Fc F ,1,n 2 l’ipotesi andrà accettata. Prova delle ipotesi sul valore H0 : 0 H0 : 0 La variabile t calcolata sulle risultanza campionarie sarà: ^ 0 t^ 2 s 1 x n dev x se l’assunzione è relativa al fatto che la retta passi per l’origine degli assi Regola di decisione Se: t c t ,n2 si rifiuterà l’ipotesi nulla che la retta di regressione passi per l’origine degli assi, mentre nel caso opposto : t c t ,n2 la si accetterà. se si vuole testare l’ipotesi che l’ordinata all’origine sia pari a un certo valore si calcolerà il t campionario: 59 ^ t^ 0 2 s 1 x n dev x da confrontarsi con il valore di t ,n-2 . Regola di decisione se: t c t ,n2 si rifiuterà l’ipotesi nulla che l’intercetta all’origine sia pari a un certo valore , mentre la si accertterà nel caso: t c t , n 2 . 60