Inferenza statistica L’inferenza nella statistica Si tratta di un complesso di tecniche, basate sulla teoria della probabilità, che consentono di verificare se sia o no possibile trasferire i risultati ottenuti per un campione ad una popolazione più estesa. E’ un processo induttivo che, pur non potendo contare su tutti i dati necessari per descrivere un collettivo statistico, cerca di stimare con una certa probabilità di errore, se essi siano o meno attendibili. L’induzione, dunque, contrariamente alla deduzione, si fonda su basi incerte ma tenta di colmare le lacune di informazione che si hanno ogni qualvolta non si può osservare tutta la popolazione, ma solo una parte di essa. Distinguiamo il termine parametro dal termine statistica: il parametro è un valore caratteristico della popolazione, mentre la statistica è funzione delle osservazioni di un campione. Quindi la media può essere sia parametro che statistica. L’inferenza nella statistica Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità e dunque si possa considerare come una variabile aleatoria, si definisce funzione di ripartizione di X la relazione F(x)=Prob {X ≤ x} con x∈R Tale funzione è non decrescente, cioè per x<x1 , F(x)≤F(x1) è continua a destra, cioè F(x)=F(x1) se x e x1 sono infinitamente vicini è tale che lim πΉ(π₯) = 0 e lim πΉ(π₯) = 1 π₯→−∞ π₯→+∞ Consideriamo ora la media artimetica. Distinguiamo la media aritmetica della popolazione μ, che abbiamo detto possiamo chiamare parametro, da quella calcolata nel campione π₯ , che è la nostra statistica a cui è associata una distribuzione di probabilità. Questa statistica a sua volta ha una media ed una varianza Media: πΈ π₯ = π e varianza: πππ π₯ = π2 π oppure πππ π₯ = π 2 π−π π π−1 L’inferenza nella statistica Esempio: Torniamo all’esempio già visto per verificare che se potessimo calcolare la media di ogni possibile campione estraibile da un universo, otterremmo una serie di medie campionarie, che a loro volta hanno media pari al parametro della popolazione. Supponiamo di avere un universo di 4 unità su cui si è rilevata la seguente misura in cm: a=10, b=12, c=15, d=16. Avevamo calcolato che la media è pari a (10+12+15+16)/4=53/4=13,25. I campioni di una unità hanno medie pari a 10, 12, 15, 16 I campioni di due unità hanno medie pari a : 11, 12.5, 13, 13.5, 14, 15.5 I campioni di tre unità hanno medie pari a: 12.3, 12.7, 13.7, 14.3, E’ facile verificare che la media delle medie nei tre casi (campioni di 1 o 2 o 3 unità), è sempre pari a 13.25, che è la media dell’universo. Questo fatto ci dice anche che la media aritmetica è uno stimatore non distorto (vedremo meglio più avanti questo concetto) L’inferenza nella statistica Esempio: Per l’esempio della pagina precedente, calcoliamo la varianza della stima della media campionaria. Consideriamo tutte le medie calcolate ed effettuiamo il calcolo della varianza, cominciando per comodità dalla varianza della popolazione e poi calcolando quella per campioni di 2 e di 3 unità: σ2= [(10-13.25)2+(12-13.25)2+(15-13.25)2+(16-13.25)2]/4=5.7 Var2(π₯ ) = [(11-13.25)2+(12.5-13.25)2+(13-13.25)2+(13.5-13.25)2+(14-13.25)2+(15.5-13.25)2]/6=1.9 Var3(π₯ ) = [(12.3-13.25)2+(12.7-13.25)2+(13.7-13.25)2+(14.3-13.25)2]/4=0.6 π 2 π−π Un altro modo per calcolare questa varianza è la formula πππ π₯ = π π−1 Dal momento che σ2 è noto ed è pari a 5.7, la stessa varianza calcolata per i campioni di 1 unità, otteniamo: Var2(π₯ )= 5,7∗(4−2) 2∗(4−1) = 5,7 4 = 1,9 Var3(π₯ )= 5,7∗(4−3) 3∗(4−1) = 5,7 9 = 1,6 Si comprende che quando N è grande e n piccolo l’ultima parte nella formula può essere trascurata L’inferenza nella statistica Il teorema del limite centrale La variabile aleatoria della media campionaria può essere associata ad una distribuzione di probabilità nota, grazie ad un teorema molto importante, che però vale solo per n grande (si intende almeno pari a 30) e se i campioni sono indipendenti. Il teorema dice che: la media campionaria al crescere di n tende a distribuirsi come una normale di media μ e varianza σ2/n Ne deriva che, se passiamo alla variabile standardizzata della media campionaria essa π₯−π si distribuisce come una normale standardizzata z = π ~N(0,1) π Dunque la media è normale se il carattere su cui è calcolata è normale, e anche quando non lo è, per n sufficientemente grande. L’inferenza nella statistica Esempio: Facciamo ancora una volta riferimento agli alunni nel Lazio nel 1999 secondo i dati INRAN. Avevamo calcolato per il peso, sia la media che la varianza μ=33.1 kg e σ2=52.42, da cui σ=7.24 Supponiamo di estrarre dal collettivo dei 6080 ragazzi 100 campioni di 30 unità. Vogliamo calcolare quanti di questi campioni possiamo attenderci abbiano una media compresa nell’intervallo di peso 32|-|34 kg. Per prima cosa passiamo ai valori standardizzati, per cui calcoliamo lo scarto quadratico medio della media campionaria che è pari a ππ₯ = (32−33,1) Allora ho z1= 1,32 = −1,1 1,32 π 2 π−π π π−1 ≈ π2 = π π π (34−33,1) = −1,83 e z2= 1,32 Cioè ππ₯ =7.24/5.47=1.32 = 0,9 1,32 =0,68 Per il teorema del limite centrale p(32≤ π₯ ≤34)=p(z2)-p(z1)=p(0.68)-p(-0.83)=0.75-0.20=0.55 Per 100 campioni, ciascuno con probabilità 0.55 di centrare l’intervallo, mi aspetto 55 campioni la cui media sia interna all’intervallo scelto. NOTA: p(Z) è stato calcolato con il foglio di calcolo con la funzione DISTRIB.NORM.ST(Z) L’inferenza nella statistica I principali problemi dell’inferenza statistica consistono nella stima dei parametri di una popolazione e nella verifica delle ipotesi statistiche. Per stimare un parametro π della popolazione si deve trovare una funzione dei dati osservati il cui valore possa essere ritenuto una stima attendibile del parametro della popolazione π = t(x1, x2, …, xn) La funzione t si cerca per analogia con l’espressione matematica della forma caratteristica del parametro. Ad esempio la media, come abbiamo visto, può essere stimata con la media calcolata nel campione, la varianza, con la varianza calcolata nel campione (anche se bisogna dividerla per la radice di n) L’inferenza nella statistica Proprietà degli stimatori Gli stimatori possono avere delle proprietà molto importanti. CORRETTEZZA: Uno stimatore si dice corretto o non distorto, se il suo valore medio nello spazio campionario è uguale al valore del parametro nella popolazione EFFICIENZA: Uno stimatore si dice efficiente se la sua varianza, a parità di altre condizioni, è minore della varianza ottenibile con altri stimatori CONSISTENZA: Uno stimatore si dice consistente se al crescere di n i valori stimati tendono, con probabilità tendente ad 1, al valore del parametro della popolazione SUFFICIENZA: Uno stimatore si dice sufficiente se contiene tutte le informazioni sul parametro. L’inferenza nella statistica Proprietà degli stimatori Le altre due proprietà sono meno intuitive, anche se entrambe consentono di identificare gli stimatori migliori. Tuttavia possiamo affermare che se uno stimatore gode della proprietà della consistenza allora la sua varianza diminuirà fino ad annullarsi al crescere di n. Infine la proprietà di sufficienza di uno stimatore è molto importante perché da un lato si considerano stimatori che non trascurano nessuna informazione campionaria rilevante dall’altro non includono informazioni ridondanti per la stima del parametro. Per la media aritmetica, il miglior stimatore è proprio la media aritmetica delle osservazioni, perché è uno stimatore che gode delle proprietà suddette. L’inferenza nella statistica Proprietà degli stimatori Abbiamo già verificato la correttezza della media in quanto abbiamo visto che facendo la media delle medie campionarie, si ottiene proprio il valore del parametro media della popolazione. Se però usiamo un altro tipo di centro per stimare la media, ad esempio il valore centrale tra il minimo e il massimo, otteniamo uno stimatore peggiore. Esempio: riprendiamo un esempio precedente per verificare quest’ultima affermazione. Per le unità a=10, b=12, c=15, d=16, consideriamo i campioni di tre unità e stimiamo la media della popolazione, che era di 13.25, con la semisomma degli estremi nei campioni che indichiamo con s. a b c → s=12.5 a b d → s=13 a c d → s=13 b c d → s=14 La media di questi valori è (12.5+13+13+14)/4=13.125 leggermente inferiore alla media della popolazione quindi fornisce più di frequente una sottostima della media, anziché una stima esatta. L’inferenza nella statistica Proprietà degli stimatori Mentre la media artimetica è uno stimatore corretto, la varianza non lo è perché π−1 risulta πΈ π 2 = π2 π Cioè la media delle varianze campionarie, indicate con S2, è uguale alla varianza della popolazione a meno di un fattore di correzione che dipende dalla numerosità campionaria. Quindi la varianza campionaria è uno stimatore distorto della varianza della popolazione, a meno che non si parli di grandi campioni per cui il fattore di correzione diventa trascurabile. Pertanto, per stimare la varianza nella popolazione si usa uno stimatore corretto: 2 π = π 2 π=1(π₯π −π₯) π−1 dove πΈ π 2 = π 2 L’inferenza nella statistica Intervallo di confidenza Abbiamo già visto in un esempio che, conoscendo la distribuzione di probabilità di un parametro, possiamo calcolare la probabilità dei campioni che hanno una stima del parametro che cade in un certo intervallo. Questo fatto può essere enunciato in un modo inverso: possiamo trovare un intervallo intorno al vero valore del parametro tale che la sua ampiezza è in grado di contenere una gran parte delle stime campionarie con una certa probabilità P. In altri termini, accettando un certo rischio di errore, possiamo determinare un intervallo entro cui dovrebbe trovarsi il valore vero del parametro da stimare. La quantità α=1-P è questo rischio di errore. Il valore 1-α viene detto livello di confidenza: Pr{π - δ < π < π + δ } =1-α L’inferenza nella statistica Intervallo di confidenza Ciò vuol dire che 1-α è la probabilità che l’intervallo ({π - δ , π + δ) contenga il valore incognito π della popolazione e tale intervallo varia col variare del campione. Questo esprime la fiducia che possiamo avere nella stima di π Di conseguenza, possiamo dire che il valore π può essere, con una certa probabilità 1-α uno dei valori compresi nell’intervallo di confidenza. Al crescere di n e al diminuire della varianza del fenomeno oggetto dello studio, tale intervallo si riduce, aumentando la precisione delle stime ottenute, a parità del livello di fiducia. La probabilità dell’intervallo di confidenza può essere nota solo per parametri a cui è associabile una distribuzione di probabilità nota. Il teorema del limite centrale ci dice che per la media possiamo sempre usare la distribuzione normale. L’inferenza nella statistica Intervallo di confidenza per la media Per la media μ, dunque, potendo usare la normale come distribuzione di probabilità, π π l’intervallo di confidenza è: π₯ − π§πΌ π ≤ π ≤ π₯ + π§πΌ π oppure, standardizzando, −π§πΌ ≤ π₯−π π π ≤ π§πΌ dove π§πΌ è il valore della curva normale che racchiude a destra α/2 % dei casi, σ è lo scostamento quadratico medio della popolazione n è la numerosità campionaria. Esempio: determiniamo l’intervallo di confidenza per μ sapendo che lo scarto quadratico medio della popolazione è σ =6, che la numerosità campionaria è n=100 e che nel campione si è calcolata una media di π₯ =170 cm. Dalla formula, per un livello di fiducia del 95% (π§πΌ =1.96), otteniamo 0.95 =P{170-1,96*6/10 ≤ μ ≤ 170+1,96*6/10} = P{170-1,176 ≤ μ ≤ 170+1,176}=P{168,8 ≤ μ ≤ 171,2} L’inferenza nella statistica Intervallo di confidenza per la media Abbiamo però detto che spesso lo scarto quadratico medio della popolazione non è noto e allora si può utilizzare una stima di esso calcolata con i dati del campione. Si sceglie però lo stimatore corretto, in quanto, come abbiamo detto, lo scarto quadratico medio semplice non gode della proprietà della correttezza. In questo caso la distribuzione di probabilità che dobbiamo considerare non è più la normale, bensì la t di Student con n-1 gradi di libertà π₯−π π‘= ~π‘(π−1) π π Anche la t di Student è una distribuzione di probabilità continua e definita su tutto l’asse reale. La sua forma varia in base al parametro ‘gradi di libertà’, ma per n grande (circa > 100) può essere approssimata con la normale. L’inferenza nella statistica Intervallo di confidenza per la media L’intervallo di confidenza per la media quando la varianza non è nota diventa: π π π₯ − π‘ π−1,πΌ ≤ π ≤ π₯ + π‘(π−1,πΌ) π π 2 2 Anche per t esistono delle tavole di riferimento che aiutano ad effettuare i calcoli. Esempio: determiniamo lo stesso intervallo di confidenza precedente, sapendo però che π =6,9, la numerosità campionaria è sempre 100 e la media campionaria è 170 cm. Dalla formula, per un livello di fiducia del 95% (t99,0.05=1,98), otteniamo 0.95 =P{170-1.98*6,9/10 ≤ μ ≤ 170+1.98*6,9/10} =P{168,6 ≤ μ ≤ 171,4} Anche in questo caso esistono funzioni automatiche sui fogli di calcolo (INV.T) L’inferenza nella statistica Verifica delle ipotesi La teoria della verifica delle ipotesi consente di stabilire se una certa assunzione, basata su un risultato campionario, può essere accettata o no. E questo si fa attraverso l’uso di test che sono vere e proprie regole che consentono di accettare o rifiutare una certa ipotesi perché poco probabile. Esempio: supponiamo di aver acquistato delle pile che ci vengono garantite per durare più di 2000 ore ciascuna. Per decidere se ciò è vero, facciamo un campione di pile e le mettiamo in funzione per 2000 ore. Dai risultati che rileviamo su questo campione decidiamo se tutte le pile sono veramente durevoli quanto ci hanno garantito o no attraverso un test di ipotesi. L’ipotesi formulata e che si vuole sottoporre al test, si chiama ipotesi nulla e si indica con H0, l’ipotesi alternativa ad essa si indica con H1. Quindi, se si considera lo spazio dei parametri Ω e lo si divide in 2 sottoinsiemi disgiunti ω1 e ω2, si avrà che il parametro incognito θ può appartenere o a ω1 o a ω2 L’inferenza nella statistica Verifica delle ipotesi In termini simbolici, abbiamo due ipotesi H0: θ ∈ ω1 e H1: θ ∈ ω2 dove con il simbolo ∈ si intende l’appartenenza di θ ad uno dei due sottoinsiemi Occorre stabilire quale statistica si vuole prendere per stimare θ per poi decidere se è più probabile che valga l’ipotesi nulla o l’ipotesi alternativa. Nello spazio Ω in cui è definito θ individuiamo una regione R che chiamiamo regione di rifiuto e una regione A, di accettazione ad essa complementare. Se la statistica cadrà in essa rifiuteremo l’ipotesi nulla, se cadrà fuori, la accetteremo. Così si possono commettere due tipi di errore: a) errore di I tipo o di prima specie: rifiuto l’ipotesi nulla quando è vera b) errore di II tipo o di seconda specie: accetto l’ipotesi nulla quando è falsa L’inferenza nella statistica Verifica delle ipotesi A questi errori sono sempre associate delle probabilità a) Probabilità di commettere un errore di prima specie: α = P{s∈R|θ=θ0} cioè è la probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla è vera e quindi è l’errore di prima specie. b) Probabilità di commettere un errore di seconda specie: β = P{s∈A|θ=θ1} cioè è la probabilità che la statistica test cada nella regione di accettazione quando l’ipotesi nulla è falsa e quindi è l’errore di seconda specie α è detto livello di significatività e corrisponde alla dimensione della regione di rifiuto R. Il valore 1-β=P{s∈R|θ=θ1} è detto potenza del test e dobbiamo scegliere R in modo che sia massimo. L’inferenza nella statistica Verifica delle ipotesi La potenza del test indica la probabilità di rifiutare l’ipotesi nulla quando è vera l’ipotesi alternativa. Più è alta questa probabilità, più il test ha la capacità di farci fare la scelta giusta. Ho le seguenti possibilità Campione x ∈ regione di accettazione Accetto H0 x ∉ regione di accettazione Rifiuto H0 H0 è vera Decisione giusta P=1-α Errore di prima specie P=α H0 è falsa Errore di seconda specie P=β Decisione giusta P=1-β Realtà L’inferenza nella statistica Test normale Se ho un carattere normale o un campione sufficientemente grande su cui, ad esempio, stimo una media che per grandi campioni è normale, e se la varianza della popolazione π₯ −π è nota, posso usare la statistica test π§ = ππ 0 π che mi consente di dire che, la mia ipotesi sul valore della media della popolazione è validata o no dal campione. Ipotesi nulla Ipotesi alternativa H0: μ=μ0 H1: μ≠μ0 (ma si poteva scegliere μ≤μ0 o μ≥μ0) Si calcola z nel campione e si sceglie α. Per α=0.05 accetto H0 se z<1.64 L’inferenza nella statistica Test normale Esempio: Consideriamo una popolazione normale con σ=2 ed estraiamo un campione di ampiezza 10. Supponiamo di voler testare l’ipotesi che la media della popolazione sia μ=20. Dunque l’ipotesi nulla è H0: μ=20 l’ipotesi alternativa è H1: μ≠20 a) calcolare la regione di rifiuto all’1%, al 5%, al 10%; b) supponendo che la media campionaria sia x=18,58 prendere una decisione ai tre livelli di significatività di cui sopra Accetterò l’ipotesi nulla se P(z)<α e, come sappiamo, per α=0.01 z=2.58, α=0.05 z=1.96, α=0.1 z=1.64. Calcolo dunque z nel campione: z=|18.58-20|/(2/ 3.16)=1.42/0.63=2.25 Quindi, per una regione di rifiuto all’1% accetto l’ipotesi nulla, per ampiezze della regione di rifiuto maggiori la rifiuto. L’inferenza nella statistica Test t di student Se non conosco la varianza della popolazione posso fare ricorso alla sua stima corretta. In questo caso la statistica test si distribuisce come una t di Student. Per grandi campioni posso sempre fare ricorso alla normale. π₯ − π0 π‘= π π Ipotesi nulla Ipotesi alternativa H0: μ=μ0 H1: μ≠μ0 Si calcola t nel campione e si sceglie α. t dipende anche dai gradi di libertà (n-1) Nella tavola la riga con n= ∞ è proprio uguale al valore della normale L’inferenza nella statistica Test t di student Esempio: Il contenuto nominale delle lattine di bibite è 330ml. Scegliamo un campione di 20 lattine in cui riscontriamo un contenuto medio di 328ml con deviazione standard 3.2ml. Assumiamo che la distribuzione del contenuto sia normale. Stabilire al livello di significatività del 5% se si tratta di frode. Dunque l’ipotesi nulla è H0: μ=330 l’ipotesi alternativa è H1: μ≠330 Non conoscendo la varianza della popolazione, abbiamo una statistica test di tipo t di Student. t=|328-330|/(3.2 / 4.47)=2/0.72=2.8 tn-1,5%=t19,0.05=2.093 Quindi, poiché t>t19,0.05 in quanto 2.8>2.093 concludo che devo rifiutare l’ipotesi nulla e quindi si tratta di frode. L’inferenza nella statistica Test t di student per il confronto fra due medie Si può pensare anche di testare se due campioni indipendenti stimano la stessa media. In questo caso, se non conosco la varianza della popolazione, faccio ancora ricorso alla t di Student e stimo la varianza come s=(Dev(x1) + Dev(x2))/(n1+n1-2) ipotizzando che le due popolazioni abbiano la stessa varianza π₯ −π₯ In questo caso la statistica test è π‘ = 11 21 ~π‘π1+π2−2,πΌ con n1+n1-2 gdl π π +π 1 2 Ipotesi nulla H0: μ=0 Ipotesi alternativa H1: μ≠0 Cioè si testa se la differenza è nulla o no con una t con n1+n1-2 gradi di libertà ad un livello α di significatività. L’inferenza nella statistica Test t di student per il confronto fra due medie Esempio: In un esperimento, su due gruppi, ciascuno di 10 animali dello stesso tipo, è stato misurato il peso, ma ad un gruppo è stato somministrato un ormone per la crescita. Valutiamo al livello di significatività α pari al 5% se il trattamento determina un incremento di peso. La differenza tra i due pesi medi è risultata di X1-X2=0.54 kg. Lo scarto quadratico medio complessivo è stato calcolato ed è risultato pari a 0.48 Dunque l’ipotesi nulla è H0: D=0 Cioè la differenza dei pesi è nulla l’ipotesi alternativa è H1: D≠0 Calcolo la statistica test: t=0.54/(0.48*0.45)=0.54/0.216=2.5 t18,0.05=2.101 quindi rifiuto l’ipotesi nulla che la differenza di peso è nulla e che l’ormone della crescita somministrato non ha avuto effetto significativo. L’inferenza nella statistica Test ππ - test non parametrici Conosciamo già la forma di questo indice, perché lo abbiamo studiato come indice di connessione fra due caratteri in una distribuzione doppia. Ora vogliamo usarlo per verificare l’ipotesi di indipendenza tra due distribuzioni χ2 =π β π2 βπ ππ π β. .π − 1~ χ2 (β−1)(π−1) I gradi di libertà sono dunque (h-1)(i-1) Questo test può essere eseguito su qualunque distribuzione doppia, anche quando i caratteri non sono quantitativi (da qui la definizione di non parametrico). In questo caso l’ipotesi nulla rappresenta la dipendenza tra le distribuzioni. L’inferenza nella statistica Test ππ - test non parametrici Esempio: Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva. Calcoliamo la statistica test 72 92 142 62 χ =π + + + − 1 = 36 ∗ 0,15 + 0,34 + 0,47 + 0,12 − 1 = 2,88 21 ∗ 16 15 ∗ 16 21 ∗ 20 15 ∗ 20 2 Dalla tavola del χ2 per 1=(2-1)(2-1) gdl e un livello di significatività del 5% otteniamo il valore 3,84 Dunque accettiamo l’ipotesi nulla: nel campione considerato, tra ipertensione e pratica dello sport c’è dipendenza Ipertensione si Ipertensione no Totale Sport si 7 9 16 Sport no 14 6 20 Totale 21 15 36