Principi, finalità, e strumenti della Statistica Inferenziale: popolazione e campioni statistici, definizione ed applicazione di un test statistico 1 Indice Principi dell’inferenza ststistica Fasi per la costruzione e applicazione di un test statistico α, P-value, valore critico e valore del test Costruzione di H0 Rigetto e Accettazione di H0 Test parametrici e non Scelta dei campioni 2 Introduzione - Comprensione della metodologia - Trovare il denominatore comune tra gli argomenti - Statistica e software - Parti più discorsive e parti più formali (le ultime servono per capire come lavorare sui dati e interpretare i lavori presenti in letteratura) 3 Principi dell’inferenza Lo studio QUANTITATIVO dei fenomeni collettivi comporta la MISURA di una pluralità di osservazioni riguardanti uno o più caratteri rilevati sulle UNITA’ STATISTICHE (US). La RILEVAZIONE STATISTICA può riguardare: la POPOLAZIONE≡insieme di tutte le possibili osservazioni relative ad una certa caratteristica il CAMPIONE≡parte della popolazione la rilevazione è totale la rilevazione è parziale 4 La rilevazione parziale Popolazione infinita o inaccessibile ⇒ rilevazione parziale DEF: L’insieme delle tecniche che costituiscono il processo logico-operativo con cui è possibile estendere le conclusioni ricavate dalle unità osservate a tutto il collettivo è detta INFERENZA STATISTICA si sviluppa in stima dei parametri ignoti della popolazione verifica delle ipotesi 5 La verifica delle ipotesi OBIETTIVO: Verificare se una “proposizione” relativa ad uno o più parametri della popolazione è VERA o FALSA per la popolazione. “PROPOSIZIONI” NEI PROBLEMI DI INFERENZA: Le ipotesi che vengono sottoposte a verifica riguardano la generalizzabilità di un valore campionario, ovvero la probabilità di estendere i risultati del campione alla popolazione. 6 La verifica delle ipotesi STRUMENTO: Test di significatività che consentono di determinare, con una data probabilità, se le caratteristiche riscontrate nel campione rappresentano caratteristiche della popolazione o sono solo fluttuazioni casuali. 7 I test statistici: fase 1 1. FORMULAZIONE DELLE IPOTESI Enunciazione della ipotesi che si vuole verificare. Essa si definisce Ipotesi Nulla, H0, perché viene formulata allo scopo di rifiutarla. Come formulare H0? H0 pone l’assenza di relazioni significative tra le variabili. 8 I test statistici: fase 2 2. DISTRIBUZIONE CAMPIONARIA Individuazione della distribuzione teorica di probabilità che fornisce la probabilità associata a tutti i valori assumibili da una data statistica (≡caratteristica del campione) Dipende dal tipo di test 9 I test statistici: fase 3 3. LIVELLI DI SIGNIFICATIVITA’ α Divide il campo di esistenza della funzione test in sue aree: RIGETTO e ACCETTAZIONE. RIGETTO è costituita da tutti quei valori che hanno bassissima probabilità di verificarsi quando H0 è VERA ACCETTAZIONE è costituita da tutti quei valori che hanno bassissima probabilità di verificarsi quando H0 è FALSA Statistica RIGETTO: rifiuto H0 ACCETTAZIONE: accetto H100 Fase 3: osservazione OSSERVAZIONE α=0.01 indica che, la probabilità di rigettare l’ipotesi quando è statisticamente vera, è dell’1% ovvero ci sono 99 possibilità su 100 di respingere H0 quando è falsa. Scegliere α significa stabilire il rischio di commettere un errore, rifiutando una ipotesi statisticamente vera 11 I test statistici: fase 4 4. CALCOLO DEL TEST E VERIFICA DELLE IPOTESI Si procede al calcolo della statistica vera e propria secondo il test scelto e si decide se accettare o rigettare H0. Se il valore della statistica cade in area RIFIUTO allora concludiamo che H0 è falsa con probabilità α di commettere errore errore di due tipi 12 α, P-value, valore del test Normale Standard P-value α α P-value Valore Critico Valore del Test Valore Critico Valore del Test Valore del Test > Valore Critico P-value < α RIFIUTO H0 RIFIUTO H0 Valore del Test < Valore Critico P-value > α ACCETTO H0 ACCETTO H0 13 Esempio: lancio di una moneta Quando una moneta NON è truccata: P(T)=1/2 e P(C)=1/2 PROBLEMA: La moneta è truccata? SOLUZIONE intuitiva: Lancio la moneta 10 volte e conto il numero di “teste” e il numero di “croci”. Se ottengo 9 “teste” e 1 “croce”, concludo con ELEVATA ATTENDIBILITA’ che la moneta è truccata, ma NON CON ASSOLUTA CERTEZZA, in quanto l’evento in questione non è impossibile (p=0.000976). 14 Esempio: lancio di una moneta Test di significatività Fissiamo H0: “la “l moneta NON è truccata”. Fissiamo il livello di significatività α del test, che rappresenta la probabilità di dichiarare che “la moneta è truccata” quando invece “la moneta è equa”. Eseguiamo il test statistico, ovvero contiamo il numero T di “teste” in 100 lanci. Calcoliamo il P-value, ovvero la probabilità di ottenere un numero di teste maggiore o uguale di T. Se P-value < α, RIGETTIAMO H0 con livello di significatività α. 15 Esempio: lancio di una moneta TEST n.1: Lancio la moneta 100 volte ed il numero di volte in cui esce “testa” è T=73 (valore del test). La probabilità di ottenere un numero di teste maggiore o uguale a 73 è dato da: 100 1 P - value = ∑ 2 k = 73 k 100 k Distribuzione Binomiale la probabilità dell’evento k è: n k n−k p(k) = ⋅ p ⋅ q k 100 k 1 2 = 2.3 ⋅ 10 −6 Conclusione: Essendo P-value < 0.05 concludo che la moneta è truccata, ovvero RIFIUTO H0 16 Esempio: lancio di una moneta TEST n.2: Lancio la moneta 100 volte ed il numero di volte in cui esce “testa” è T=48 (valore del test). La probabilità di ottenere un numero di teste maggiore o uguale a 48 è dato da: 100 1 1 ⋅ ⋅ P - value = ∑ 2 48 k 2 100 k 100 −k = 0.6194 Conclusione: Essendo P-value > 0.05 concludo che la moneta NON è truccata, ovvero ACCETTO H0 17 Ipotesi H0: esempio PROBLEMA: Al momento del travaglio, il collo dell’utero può essere contratto e non dilatato con prolungamento del travaglio o necessità di taglio cesareo. Per studiare se il collo dell’utero poteva essere decontratto e dilatato da un gel due medici hanno applicato: 18 Ipotesi H0: esempio GEL di PROSTAGLANDINA a 21 donne Durata media travaglio: 8.5ore Deviazione standard: 4.7ore PLACEBO a 21 donne Durata media travaglio: 13.9ore Deviazione standard: 4.1ore N s= ∑ (xi − x ) i=1 N k 2 = 2 ( x x ) ni − ∑ i i=1 k ∑n i=1 i 19 Ipotesi H0: esempio TESI: E’ dimostrato che il GEL accorcia la durata del travaglio? H0: Il GEL NON accorcia la durata del travaglio 20 Ipotesi H0: esempio PROBLEMA: Studi su soggetti ipertesi si sono concentrati sull’effetto che una dieta iposodica può avere su tali soggetti. Pertanto si è misurata la diuresi media: 21 Ipotesi H0: esempio soggetti ipertesi (senza dieta) Diuresi media: 1300cc/die Scarto quadr.medio: 105(cc/die)2 soggetti con dieta iposodica Diuresi media: 1350cc/die Scarto quadr.medio: 105(cc/die)2 TESI: L’aumento è dovuto ad un effettivo beneficio del trattamento oppure è solo il risultato di fluttuazioni casuali? H0: La dieta NON influenza la diuresi, ovvero le fluttuazioni sono casuali 22 Ipotesi H0: esempio PROBLEMA: E’ opinione generale che raramente una breve ed occasionale esposizione agli inquinanti del tabacco alteri in modo permanente la funzionalità polmonare in adulti sani non fumatori. Alcuni ricercatori hanno misurato la funzionalità polmonare in fumatori e non, ovvero hanno misurato quanto rapidamente una persona potesse espellere aria dai polmoni (FLUSSO FORZATO MESOESPIRATORIO) 23 I test statistici: esempio CAMPIONI si n Xi Non fumatori che lavorano in ambiente salubre 200 3.17litri/s 0.74 litri/s Non fumatori che lavorano in ambiente inquinato 200 2.72 litri/s 0.71 litri/s Deboli fumatori 200 2.63 litri/s 0.73 litri/s Fumatori moderati 200 2.29 litri/s 0.70 litri/s Forti fumatori 200 2.12 litri/s 0.72 litri/s TESI: C’è evidenza che la presenza di un’alterazione delle vie respiratorie, misurata nei termini di flusso forzato, sia diversa nei 5 gruppi sperimentali? H0: NON c’è evidenza di alterazione, ovvero le differenze sono casuali 24 I test parametrici e non parametrici TEST PARAMETRICI Usano la curva normale, la binomiale, t-Student, FFischer e richiedono particolari assunzioni circa il tipo e le caratteristiche delle distribuzioni. TEST NON PARAMETRICI Non richiedono nessuna forma di distribuzione della popolazione (test distribution free) . Si usano quando si hanno campioni di “piccole” dimensioni e si è in dubbio sulla forma della popolazione. Sono meno “potenti” dei TEST PARAMETRICI, ma si possono applicare a variabili misurate su scale nominali o ordinali 25 Test parametrici e non parametrici QUALE SCEGLIERE? adottare il modello che meglio si approssima ai dati empirici caratteri CONTINUI e campioni di dimensioni elevate -> test PARAMETRICO caratteri DISCRETI o piccoli campioni estratti da una popolazione di cui si ignora la distribuzione -> test PARAMETRICO 26 Distribuzione campionaria OSSERVAZIONE: Alla base dei procedimenti per la soluzione dei problemi statistici c’ è il concetto di DISTRIBUZIONE CAMPIONARIA Popolazione PARAMETRI fissi e STATISTICHE variabili perché sono calcolate sui campioni (che variano) PROBLEMA: Stabilire con quale probabilità il campione utilizzato per analisi inferenziale deriva da una data popolazione. 27 Distribuzione campionaria Se da una popolazione si estraggono tutti i possibili campioni di dimensione n, si calcola per ciascuno una determinata statistica e si associa ad ogni valore ottenuto la frequenza con cui si presenta, si ottiene la DISTRIBUZIONE CAMPIONARIA Ogni distribuzione campionaria è una distribuzione teorica di probabilità e costituisce un modello a cui si fa riferimento nei problemi dell’inferenza (Gaussiana, tstudent, F-Fisher) 28 Scelta dei campioni SOGGETTIVO SCELTA RAGIONATA:Manca presupposto di casualità ⇒ difficile fare inferenza sulla popolazione possedendo informazioni sulla popolazione si sceglie il campione in modo da ricostruire al meglio la popolazione METEMATICA SCELTA CASUALE: si assegna una probabilità, fissa e conosciuta, ad ogni componente dell’universo che deve far parte del campione DEF: L’insieme dei possibili campioni che possono essere estratti da una popolazione viene detto UNIVERSO DEI CAMPIONI singolo campione con n us 29 è Scelta casuale ed estrazione campioni (caso di estrazione di palline da urna) Bernoulliana (o con ripetizione): consiste nell’estrarre una pallina, osservarne il numero e rimetterla nell’urna e procedere all’estrazione di un’altra pallina , reintrodurla e così via Esaustiva (o senza ripetizione): consiste nell’estrazione di una pallina che non viene più riposta nell’urna Da una popolazione finita, FISSATA LA DIMENSIONE DEL CAMPIONE, si possono estrarre k-campioni e su ciascuno calcolare i parametri: MEDIA e VARIANZA 30 Esempio: distribuzione dei ricoverati in 5 ospedali Problema: Popolazione di N=5 ospedali di cui è nota la media dei ricoverati relativamente ad una settimana. Dati: Ospedali O1 O2 O3 O4 O5 Calcolo la media (µ) e la varianza (σ2) della POPOLAZIONE Media ricoverati 15 20 25 30 35 N µ= i i=1 σ = di = N N 2 Estraggo campioni BEROULLIANO ∑x ‡”(x i=1 i 15 + 20 + 25 + 30 + 35 = 25 5 − µ) 2 N ampiezza 10 2 + 5 2 + 5 2 + 10 2 = = 50 5 k=2 in modo 31 Esempio: distribuzione dei ricoverati in 5 ospedali Distribuzione dei campioni con estrazione bernoulliana: Universo bernoulliano Valore di Oi Media Varianza s2 O1 O1 O1 O1 O1 O1 O2 O3 O4 O5 15 15 15 15 15 15 20 25 30 35 15 17.5 20 22.5 25 0 6.25 25 56.25 100 O2 O2 O2 O2 O2 O1 O2 O3 O4 O5 20 20 20 20 20 15 20 25 30 35 17.5 20 22.5 25 27.5 6.25 0 6.25 25 56.25 O3 O3 ……. O5 O5 O5 O5 O5 O1 O2 ……. O1 O2 O3 O4 O5 20 22.5 ……… 25 27.5 30 32.5 35 6.25 6.25 ……. 100 56.25 25 6.25 0 25 15 25 20 ……………….. 35 15 35 20 35 25 35 30 35 35 utilizzo le frequenze 32 Esempio: distribuzione dei ricoverati in 5 ospedali Distribuzione per frequenze: Media dei campioni 15 17.5 20 22.5 25 27.5 30 32.5 35 Frequenze assolute Frequenze relative 1 2 3 4 5 4 3 2 1 0.04 0.08 0.12 0.16 0.20 0.16 0.12 0.08 0.04 Calcolo la media µX e la varianza σ2X utilizzando i vari campioni n µX = ∑xn i i i=1 n ∑n i i=1 n σ X2 = µ = µX σ 2 = kσ X2 SEGUE ‡”(x i=1 = i 625 = 25 25 − µX ) 2 ni n ∑n i=1 i = 625 = 25 25 33 Esempio: distribuzione dei ricoverati in 5 ospedali Distribuzione dei campioni con estrazione esaustiva: Universo bernoulliano Valore di Oi Media Varianza s2 O1 O1 O1 O1 O2 O3 O4 O5 15 15 15 15 20 25 30 35 17.5 20 22.5 25 6.25 25 56.25 100 O2 O2 O2 O2 O1 O3 O4 O5 20 20 20 20 15 25 30 35 17.5 22.5 25 27.5 6.25 6.25 25 56.25 O3 O3 O3 O3 ……. O5 O5 O5 O5 O1 O2 O4 O5 ……. O1 O2 O3 O4 20 22.5 27.5 30 ……… 25 27.5 30 32.5 6.25 6.25 25 56.25 ……. 100 56.25 25 6.25 25 15 25 20 25 30 25 35 …………………. 35 10 35 20 35 25 35 30 utilizzo le frequenze 34 Esempio: distribuzione dei ricoverati in 5 ospedali Distribuzione per frequenze: Media dei campioni 17.5 20 22.5 25 27.5 30 32.5 Frequenze assolute Frequenze relative 2 2 4 4 4 2 2 0.1 0.1 0.2 0.2 0.2 0.1 0.1 Calcolo la media µX e la varianza σ2X utilizzando i vari campioni n µX = ∑xn i i i=1 n ∑n i=1 n σ X2 = µ = µX k(N − 1) 2 2 σ = σX N −k ‡”(x i=1 i i = 500 = 25 20 − µX ) 2 ni n ∑n i=1 i = 375 = 18.75 20 SEGUE 35 Esempio: distribuzione dei ricoverati in 5 ospedali Conclusioni: Nella estrazione bernoulliana i campioni estraibili sono 52=25 In quella esaustiva sono 5*4=20 GENERALIZZANDO per popolazione di numerosità N e campioni di ampiezza k: estrazione bernoulliana Nk campioni estrazione campioni esaustiva N*(N-1)*(N-2)*…..*(N-k-1) 36 Conclusioni La statistica inferenziale permette di affrontare PROBLEMI di decisione in condizioni di incertezza di previsione/conoscenza del mondo basandosi su dati sperimentali campionari reale Test statistico Scelta del campione 37