COME CALCOLARE L’INTERVALLO DI CONFIDENZA QUANDO E’ NECESSARIO STIMARE LA DEVIAZIONE STANDARD? (è quasi sempre così!) Per fortuna le cose non cambiano poi di molto visto che la nuova variabile x −µ sx con sx = s NON segue una distribuzione normale standardizzata MA, se la variabile n analizzata ha una distribuzione normale, segue una nuova distribuzione teorica di probabilità chiamata distribuzione t di Student con n-1 gradi di libertà Quindi ( ) P x − tα / 2 ,n −1 ⋅ s / n ≤ µ ≤ x + tα / 2,n −1 ⋅ s / n = 1 − α e l’intervallo di confidenza della media diventa semplicemente da IC(1-α) => x ± tα / 2 ,n −1 ⋅ s / n tα/2, n-1 è quindi il valore critico della distribuzioni di t con n-1 gradi di libertà, che identifica, alla sua destra, un’ area pari a α/2. E se la variabile non ha una distribuzione gaussiana? La distribuzione t Caratteristiche principali Varia tra – infinito e +infinito Ha un parametro, i gradi di libertà (la normale standardizzata non ha parametri) o Per campioni di dimensioni diverse esistono quindi distribuzioni t diverse Media, moda, e mediana sono uguali Ha media pari a 0 e varianza maggiore di 1. o Se k è grande, la varianza tende a 1 Rispetto alla normale standardizzata, ha code più pesanti o Maggiore concentrazioni di valori agli estremi, a causa della maggiore varianza rispetto alla normale standardizzata, dovuta all’errore nella stima di σ Diventa una distribuzione normale standardizzata quando i gradi di libertà (e quindi la numerosità del campione) tendono a infinito. Distribuzione t ad una coda. df\p 0.40 0.25 0.10 0.05 0.025 0.01 0.005 0.0005 1 0.324920 1.000000 3.077684 6.313752 12.70620 31.82052 63.65674 636.6192 2 0.288675 0.816497 1.885618 2.919986 4.30265 6.96456 9.92484 31.5991 3 0.276671 0.764892 1.637744 2.353363 3.18245 4.54070 5.84091 12.9240 4 0.270722 0.740697 1.533206 2.131847 2.77645 3.74695 4.60409 8.6103 5 0.267181 0.726687 1.475884 2.015048 2.57058 3.36493 4.03214 6.8688 11 0.259556 0.697445 1.363430 1.795885 2.20099 2.71808 3.10581 4.4370 12 0.259033 0.695483 1.356217 1.782288 2.17881 2.68100 3.05454 4.3178 13 0.258591 0.693829 1.350171 1.770933 2.16037 2.65031 3.01228 4.2208 inf 0.253347 0.674490 1.281552 1.644854 1.95996 2.32635 2.57583 3.2905 Distribuzione t a due code. Degrees of Freedom- 2 tails 0.01 0.02 0.05 0.10 0.20 1 63.66 31.82 12.71 6.314 3.078 2 9.925 6.965 4.303 2.920 1.886 3 5.841 4.541 3.182 2.353 1.638 10 3.169 2.764 2.228 1.812 1.372 15 2.947 2.602 2.132 1.753 1.341 25 2.787 2.485 2.060 1.708 1.316 ∞ 2.575 2.326 1.960 1.645 1.282 I gradi di libertà (GDL o gdl o df) Hanno chiaramente a che fare con la numerosità dell’informazione che a partire dai dati viene utilizzata in una analisi statistica. o Maggiore è il numero delle osservazioni, maggiori saranno i gradi di libertà. Corrispondono al numero pezzettini di informazione indipendenti che vengono utilizzati per una stima o un test. I gdl sono anche pari al numero totale di osservazioni (o punteggi) utilizzati in un test o in una stima meno il numero di parametri che sono stati stimati Nel calcolo dell’intervallo di confidenza, se è necessario stimare la deviazione standard si usa una distribuzione t con n-1 gradi di libertà Due conclusioni importanti La statistica inferenziale implica la conoscenza della distribuzione di probabilità della statistica utilizzata (la media campionaria standardizzata, nel nostro caso). Tale conoscenza non ci può ovviamente venire dai dati ma deve essere derivata, teoricamente o in altri modi, utilizzando spesso alcune assunzioni. I ragionamenti generali visti per l’intervallo di confidenza di una media sono applicabili anche agli intervalli di confidenza per altri parametri. E’ però importante conoscere la distribuzione di frequenza della statistica che stiamo utilizzando per stimare il parametro. ESEMPIO APPLICATIVO ESERCIZIO La tabella riporta media e deviazione standard di 4 distribuzioni normali (prime 2 colonne). Calcolare la probabilità che campioni di 10 o 30 individui estratti da popolazioni con queste 4 distribuzioni abbiano una media campionaria maggiore del valore indicato nella terza colonna (X*). Media 14 15 -23 72 Deviazione st. 5 3 4 50 X* 15 15.5 -22 45 P ( x > X *) P ( x > X *) (n=10) (n=30) 0.2643 0.1379 Intervalli di confidenza di una proporzione Variabile di tipo qualitativo (fumatori/non fumatori; giovani/adulti; maschi/femmine; mutazioneA/mutazioneB/mutazioneC/assenza di mutazione) o Calcoliamo la frequenza di individui che possiedono una certa caratteristica Per esempio, su un campione di 45 individui affetti da una certa patologia, 10 sono fumatori. La proporzione dei fumatori in questo campione, p, è quindi 10/45 = 0.22. Come si calcola l’intervallo di confidenza di questa proporzione? o Intervallo che con una certa probabilità contiene il valore di questa proporzione, π, nella popolazione La distribuzione teorica di probabilità della statistica p, è la distribuzione binomiale o La vedremo presto Se però nπ e n(1-π) sono entrambi maggiori o uguali a 5, una buona approssimazione della distribuzione binomiale è la ben nota distribuzione normale. In questo caso, la gaussiana che approssima la funzione di probabilità di p che ci interessa avrà la media paria a π e la varianza pari a π(1-π)/n. L’errore standard di p, sarà quindi σp = π (1 − π ) n Quindi posso utilizzare lo stesso tipo di ragionamenti visti per l’intervallo di confidenza di una media quando la varianza era nota e arrivare a π (1 − π ) π (1 − π ) =1−α P p − zα / 2 ⋅ ≤ π ≤ p + zα / 2 ⋅ n n Da cui IC(1-α) => p ± zα / 2 ⋅ π (1 − π ) n Anche in questo caso, però, abbiamo un termine, che qui è π, che non è noto Una buona approssimazione si ottiene semplicemente rimpiazzando π con p IC(1-α) => p ± zα / 2 ⋅ p (1 − p ) n A parole: esiste una probabilità pari a 1-α che l’intervallo di confidenza così calcolato contenga la proporzione vera (cioè, la proporzione nella popolazione) Questo metodo è valido solo se n è grande e se π non è troppo vicino a 0 o a 1 Esercizio La frequenza dell’intolleranza al lattosio, in campione di 80 soggetti, è risultata pari al 35%. Calcolare l’intervallo di confidenza al 99% di questa proporzione. n = 80 p = 0.35 α = 0.01 α/2 = 0.005 zα/2 = 2.576 (da tabella) IC(1-α) => p ± zα / 2 ⋅ IC(99%) => 0.35 ± 2.576 ⋅ IC(99%) => 0.21 – 0.49 p (1 − p ) n 0.35(1 − 0.35) = 0.35 ± 0.14 80 Pianificare la precisione: qualche esempio semplice di disegno sperimentale L’intervallo di confidenza si riduce all’aumentare della dimensione del campione Per esempio, se posso applicare z IC(1-α) => x ± zα / 2 ⋅ σ / n Definiamo adesso con il termine generico di Errore: E = Errore = | x –µ | Linf x Lsup µ Se per esempio Linf e Lsup definiscono l’intervallo di confidenza al 95% o L’errore, con una confidenza del 95%, sarà sempre inferiore a 1.96 ⋅ σ / n La stessa cosa vale ovviamente con diversi valori di α e corrispondenti valori di z Quindi o Emax,(1-α) = zα / 2 ⋅ σ / n Che mi permette di calcolare zα / 2 ⋅ σ n= E max, (1−α ) 2 Questa è ovviamente una dimensione minima o Con valori di n maggiori saremo ancora più certi di non commettere un errore superiore al valore di Emax,(1-α) che ci è prefissati. E se invece siamo in un caso in cui è necessario utilizzare la distribuzione t? IC(1-α)=> x ± tα / 2,n −1 ⋅ s / n E quindi tα / 2 ,n −1 ⋅ s n= E max,(1−α ) 2 Qui però non conosciamo né la deviazione standard, e nemmeno il valore critico di t, prima di fare l’esperimento E’ necessaria una stima preventiva di s e trovare n per prova ed errore. Esempio s stimato in precedenti studi o analisi = 4. Quale sarà la dimensione del campione che garantisce un errore non superiore a 1 con una confidenza del 95%, Scegliamo un n iniziale pari a 10: Con n= 10 t0.025,9 = 2.262 e n ricalcolato = (2.262*4/1)2 = 82 (approssimato per eccesso) A questo punto utilizzo il valore di n ricalcolato per ripetere l’operazione t0.025,81 = 1.990 e n ricalcolato = (1.990*4/1)2 = 64 (approssimato per eccesso) t0.025,63 =1.998 e n ricalcolato = (1.998*4/1)2 = 64 (approssimato per eccesso) E nel caso di un IC di una proporzione? IC95% => p ± zα / 2 ⋅ π (1 − π ) n E quindi π (1 − π E max,(1−α ) = zα / 2 n ) ossia 2 z n = α / 2 π (1 − π ) E max,(1−α ) Ma π non è noto, e nemmeno una sua stima, prima di fare l’esperimento! Conviene impostare π = 0.5, ossia la valore di π che rende n massimo.