Principi, finalità, e strumenti della
Statistica Inferenziale:
popolazione e campioni statistici,
definizione ed applicazione di un
test statistico
1
Indice
Principi dell’inferenza ststistica
Fasi per la costruzione e applicazione di un test
statistico
α, P-value, valore critico e valore del test
Costruzione di H0
Rigetto e Accettazione di H0
Test parametrici e non
Scelta dei campioni
2
Introduzione
- Comprensione della metodologia
- Trovare il denominatore comune tra gli argomenti
- Statistica e software
- Parti più discorsive e parti più formali (le ultime
servono per capire come lavorare sui dati e interpretare
i lavori presenti in letteratura)
3
Principi dell’inferenza
Lo studio QUANTITATIVO dei fenomeni collettivi
comporta la MISURA di una pluralità di osservazioni
riguardanti uno o più caratteri rilevati sulle UNITA’
STATISTICHE (US).
La RILEVAZIONE STATISTICA può riguardare:
la POPOLAZIONE≡insieme di tutte le possibili
osservazioni relative ad una certa caratteristica
il CAMPIONE≡parte della popolazione
la rilevazione è totale
la rilevazione è parziale
4
La rilevazione parziale
Popolazione infinita o inaccessibile ⇒ rilevazione parziale
DEF:
L’insieme delle tecniche che costituiscono il
processo logico-operativo con cui è possibile
estendere le conclusioni ricavate dalle unità
osservate a tutto il collettivo è detta
INFERENZA STATISTICA
si sviluppa in
stima dei parametri
ignoti della popolazione
verifica delle ipotesi
5
La verifica delle ipotesi
OBIETTIVO:
Verificare se una “proposizione” relativa ad uno o più
parametri della popolazione è VERA o FALSA per la
popolazione.
“PROPOSIZIONI” NEI PROBLEMI DI INFERENZA:
Le ipotesi che vengono sottoposte a verifica riguardano
la generalizzabilità di un valore campionario, ovvero la
probabilità di estendere i risultati del campione alla
popolazione.
6
La verifica delle ipotesi
STRUMENTO:
Test di significatività che consentono di determinare,
con
una
data
probabilità,
se
le
caratteristiche
riscontrate nel campione rappresentano caratteristiche
della popolazione o sono solo fluttuazioni casuali.
7
I test statistici: fase 1
1. FORMULAZIONE DELLE IPOTESI
Enunciazione della ipotesi che si vuole verificare. Essa si
definisce Ipotesi Nulla, H0, perché viene formulata allo
scopo di rifiutarla.
Come formulare H0?
H0 pone l’assenza di relazioni significative tra le variabili.
8
I test statistici: fase 2
2. DISTRIBUZIONE CAMPIONARIA
Individuazione della distribuzione teorica di probabilità
che fornisce la probabilità associata a tutti i valori
assumibili da una data statistica (≡caratteristica del
campione)
Dipende dal tipo di test
9
I test statistici: fase 3
3. LIVELLI DI SIGNIFICATIVITA’ α
Divide il campo di esistenza della funzione test in sue
aree: RIGETTO e ACCETTAZIONE.
RIGETTO è costituita da tutti quei valori che
hanno bassissima probabilità di verificarsi quando H0
è VERA
ACCETTAZIONE è costituita da tutti quei valori
che hanno bassissima probabilità di verificarsi
quando H0 è FALSA
Statistica
RIGETTO: rifiuto H0
ACCETTAZIONE: accetto H100
Fase 3: osservazione
OSSERVAZIONE
α=0.01 indica che, la probabilità di rigettare
l’ipotesi quando è statisticamente vera, è dell’1%
ovvero
ci sono 99 possibilità su 100 di respingere H0
quando è falsa.
Scegliere α significa stabilire il rischio di
commettere un errore, rifiutando una ipotesi
statisticamente vera
11
I test statistici: fase 4
4. CALCOLO DEL TEST E VERIFICA DELLE
IPOTESI
Si procede al calcolo della statistica vera e propria
secondo il test scelto e si decide se accettare o
rigettare H0.
Se il valore della statistica cade in area RIFIUTO
allora
concludiamo che
H0 è falsa con probabilità α di commettere errore
errore di due tipi
12
α, P-value, valore del test
Normale Standard
P-value
α
α
P-value
Valore Critico
Valore del Test
Valore Critico
Valore del Test
Valore del Test > Valore Critico
P-value < α
RIFIUTO H0
RIFIUTO H0
Valore del Test < Valore Critico
P-value > α
ACCETTO H0
ACCETTO H0
13
Esempio: lancio di una moneta
Quando una moneta NON è truccata:
P(T)=1/2
e
P(C)=1/2
PROBLEMA:
La moneta è truccata?
SOLUZIONE intuitiva:
Lancio la moneta 10 volte e conto il numero di
“teste” e il numero di “croci”. Se ottengo 9 “teste” e
1 “croce”, concludo con ELEVATA ATTENDIBILITA’
che la moneta è truccata, ma NON CON
ASSOLUTA CERTEZZA, in quanto l’evento in
questione non è impossibile (p=0.000976).
14
Esempio: lancio di una moneta
Test di significatività
Fissiamo H0: “la
“l moneta NON è truccata”.
Fissiamo il livello di significatività α del test, che
rappresenta la probabilità di dichiarare che “la
moneta è truccata” quando invece “la moneta è equa”.
Eseguiamo il test statistico, ovvero contiamo il
numero T di “teste” in 100 lanci.
Calcoliamo il P-value, ovvero la probabilità di ottenere
un numero di teste maggiore o uguale di T.
Se P-value < α, RIGETTIAMO H0 con livello di
significatività α.
15
Esempio: lancio di una moneta
TEST n.1:
Lancio la moneta 100 volte ed il numero di volte in cui
esce “testa” è T=73 (valore del test).
La probabilità di ottenere un numero di teste
maggiore o uguale a 73 è dato da:
 100   1 
  
P - value = ∑ 
2
k = 73 k 
100
k
Distribuzione Binomiale la
probabilità dell’evento k è:
n k n−k
p(k) =   ⋅ p ⋅ q
k
100 k
1
 
2
= 2.3 ⋅ 10 −6
Conclusione:
Essendo P-value < 0.05 concludo che la moneta è
truccata, ovvero RIFIUTO H0
16
Esempio: lancio di una moneta
TEST n.2:
Lancio la moneta 100 volte ed il numero di volte in cui
esce “testa” è T=48 (valore del test).
La probabilità di ottenere un numero di teste
maggiore o uguale a 48 è dato da:
 100   1   1 
 ⋅   ⋅  
P - value = ∑ 
2
48  k   2 
100
k
100 −k
= 0.6194
Conclusione:
Essendo P-value > 0.05 concludo che la moneta
NON è truccata, ovvero ACCETTO H0
17
Ipotesi H0: esempio
PROBLEMA:
Al momento del travaglio, il collo dell’utero può
essere contratto e non dilatato con prolungamento
del travaglio o necessità di taglio cesareo. Per
studiare se il collo dell’utero poteva essere
decontratto e dilatato da un gel due medici hanno
applicato:
18
Ipotesi H0: esempio
GEL di PROSTAGLANDINA a 21 donne
Durata media travaglio: 8.5ore
Deviazione standard: 4.7ore
PLACEBO a 21 donne
Durata media travaglio: 13.9ore
Deviazione standard: 4.1ore
N
s=
∑ (xi − x )
i=1
N
k
2
=
2
(
x
x
)
ni
−
∑ i
i=1
k
∑n
i=1
i
19
Ipotesi H0: esempio
TESI:
E’ dimostrato che il GEL accorcia la durata del travaglio?
H0:
Il GEL NON accorcia la durata del travaglio
20
Ipotesi H0: esempio
PROBLEMA:
Studi su soggetti ipertesi si sono concentrati
sull’effetto che una dieta iposodica può avere su tali
soggetti. Pertanto si è misurata la diuresi media:
21
Ipotesi H0: esempio
soggetti ipertesi (senza dieta)
Diuresi media: 1300cc/die
Scarto quadr.medio: 105(cc/die)2
soggetti con dieta iposodica
Diuresi media: 1350cc/die
Scarto quadr.medio: 105(cc/die)2
TESI:
L’aumento è dovuto ad un effettivo beneficio del
trattamento oppure è solo il risultato di fluttuazioni
casuali?
H0:
La dieta NON influenza la diuresi, ovvero le fluttuazioni
sono casuali
22
Ipotesi H0: esempio
PROBLEMA:
E’ opinione generale che raramente una breve ed
occasionale esposizione agli inquinanti del tabacco
alteri in modo permanente la funzionalità polmonare
in adulti sani non fumatori. Alcuni ricercatori hanno
misurato la funzionalità polmonare in fumatori e non,
ovvero hanno misurato quanto rapidamente una
persona potesse espellere aria dai polmoni (FLUSSO
FORZATO MESOESPIRATORIO)
23
I test statistici: esempio
CAMPIONI
si
n
Xi
Non fumatori che lavorano
in ambiente salubre
200
3.17litri/s
0.74 litri/s
Non fumatori che lavorano
in ambiente inquinato
200
2.72 litri/s
0.71 litri/s
Deboli fumatori
200
2.63 litri/s
0.73 litri/s
Fumatori moderati
200
2.29 litri/s
0.70 litri/s
Forti fumatori
200
2.12 litri/s
0.72 litri/s
TESI:
C’è evidenza che la presenza di un’alterazione delle vie
respiratorie, misurata nei termini di flusso forzato, sia
diversa nei 5 gruppi sperimentali?
H0:
NON c’è evidenza di alterazione, ovvero le differenze sono
casuali
24
I test parametrici e non parametrici
TEST PARAMETRICI
Usano la curva normale, la binomiale, t-Student, FFischer e richiedono particolari assunzioni circa il
tipo e le caratteristiche delle distribuzioni.
TEST NON PARAMETRICI
Non richiedono nessuna forma di distribuzione della
popolazione (test distribution free) . Si usano
quando si hanno campioni di “piccole” dimensioni e si
è in dubbio sulla forma della popolazione.
Sono meno “potenti” dei TEST PARAMETRICI, ma si
possono applicare a variabili misurate su scale
nominali o ordinali
25
Test parametrici e non parametrici
QUALE SCEGLIERE?
adottare il modello che meglio si approssima ai dati
empirici
caratteri CONTINUI e campioni di dimensioni
elevate -> test PARAMETRICO
caratteri DISCRETI o piccoli campioni estratti da
una popolazione di cui si ignora la distribuzione ->
test PARAMETRICO
26
Distribuzione campionaria
OSSERVAZIONE:
Alla base dei procedimenti per la soluzione dei problemi
statistici c’ è il concetto di
DISTRIBUZIONE CAMPIONARIA
Popolazione
PARAMETRI
fissi
e
STATISTICHE variabili
perché sono calcolate sui
campioni (che variano)
PROBLEMA:
Stabilire con quale probabilità il campione utilizzato per
analisi inferenziale deriva da una data popolazione.
27
Distribuzione campionaria
Se da una popolazione si estraggono tutti i possibili
campioni di dimensione n, si calcola per ciascuno una
determinata statistica e si associa ad ogni valore
ottenuto la frequenza con cui si presenta, si ottiene la
DISTRIBUZIONE CAMPIONARIA
Ogni distribuzione campionaria è una distribuzione
teorica di probabilità e costituisce un modello a cui si fa
riferimento nei problemi dell’inferenza (Gaussiana, tstudent, F-Fisher)
28
Scelta dei campioni
SOGGETTIVO
SCELTA RAGIONATA:Manca presupposto
di casualità ⇒
difficile fare inferenza sulla popolazione
possedendo informazioni sulla popolazione si sceglie il
campione in modo da ricostruire al meglio la
popolazione
METEMATICA
SCELTA CASUALE:
si assegna una probabilità, fissa e conosciuta, ad ogni
componente dell’universo che deve far parte del
campione
DEF:
L’insieme dei possibili campioni che possono essere
estratti da una popolazione viene detto UNIVERSO
DEI CAMPIONI
singolo campione con n us
29
è
Scelta casuale ed estrazione campioni
(caso di estrazione di palline da urna)
Bernoulliana (o con ripetizione):
consiste nell’estrarre una pallina, osservarne il numero
e rimetterla nell’urna e procedere all’estrazione di
un’altra pallina , reintrodurla e così via
Esaustiva (o senza ripetizione):
consiste nell’estrazione di una pallina che non viene più
riposta nell’urna
Da
una
popolazione
finita,
FISSATA
LA
DIMENSIONE DEL CAMPIONE, si possono estrarre
k-campioni e su ciascuno calcolare i parametri:
MEDIA e VARIANZA
30
Esempio: distribuzione dei ricoverati in 5
ospedali
Problema:
Popolazione di N=5 ospedali di cui è nota la media dei
ricoverati relativamente ad una settimana.
Dati:
Ospedali
O1
O2
O3
O4
O5
Calcolo la media (µ) e la varianza
(σ2) della POPOLAZIONE
Media ricoverati
15
20
25
30
35
N
µ=
i
i=1
σ =
di
=
N
N
2
Estraggo campioni
BEROULLIANO
∑x
‡”(x
i=1
i
15 + 20 + 25 + 30 + 35
= 25
5
− µ) 2
N
ampiezza
10 2 + 5 2 + 5 2 + 10 2
=
= 50
5
k=2
in
modo
31
Esempio: distribuzione dei ricoverati in 5
ospedali
Distribuzione dei campioni con estrazione bernoulliana:
Universo bernoulliano
Valore di Oi
Media
Varianza s2
O1
O1
O1
O1
O1
O1
O2
O3
O4
O5
15
15
15
15
15
15
20
25
30
35
15
17.5
20
22.5
25
0
6.25
25
56.25
100
O2
O2
O2
O2
O2
O1
O2
O3
O4
O5
20
20
20
20
20
15
20
25
30
35
17.5
20
22.5
25
27.5
6.25
0
6.25
25
56.25
O3
O3
…….
O5
O5
O5
O5
O5
O1
O2
…….
O1
O2
O3
O4
O5
20
22.5
………
25
27.5
30
32.5
35
6.25
6.25
…….
100
56.25
25
6.25
0
25 15
25 20
………………..
35 15
35 20
35 25
35 30
35 35
utilizzo le
frequenze
32
Esempio: distribuzione dei ricoverati in 5
ospedali
Distribuzione per frequenze:
Media dei campioni
15
17.5
20
22.5
25
27.5
30
32.5
35
Frequenze
assolute
Frequenze
relative
1
2
3
4
5
4
3
2
1
0.04
0.08
0.12
0.16
0.20
0.16
0.12
0.08
0.04
Calcolo la media µX e la
varianza σ2X utilizzando
i vari campioni
n
µX =
∑xn
i i
i=1
n
∑n
i
i=1
n
σ X2 =
µ = µX
σ 2 = kσ X2
SEGUE
‡”(x
i=1
=
i
625
= 25
25
− µX ) 2 ni
n
∑n
i=1
i
=
625
= 25
25
33
Esempio: distribuzione dei ricoverati in 5
ospedali
Distribuzione dei campioni con estrazione esaustiva:
Universo bernoulliano
Valore di Oi
Media
Varianza s2
O1
O1
O1
O1
O2
O3
O4
O5
15
15
15
15
20
25
30
35
17.5
20
22.5
25
6.25
25
56.25
100
O2
O2
O2
O2
O1
O3
O4
O5
20
20
20
20
15
25
30
35
17.5
22.5
25
27.5
6.25
6.25
25
56.25
O3
O3
O3
O3
…….
O5
O5
O5
O5
O1
O2
O4
O5
…….
O1
O2
O3
O4
20
22.5
27.5
30
………
25
27.5
30
32.5
6.25
6.25
25
56.25
…….
100
56.25
25
6.25
25 15
25 20
25 30
25 35
………………….
35 10
35 20
35 25
35 30
utilizzo le
frequenze
34
Esempio: distribuzione dei ricoverati in 5
ospedali
Distribuzione per frequenze:
Media dei campioni
17.5
20
22.5
25
27.5
30
32.5
Frequenze
assolute
Frequenze
relative
2
2
4
4
4
2
2
0.1
0.1
0.2
0.2
0.2
0.1
0.1
Calcolo la media µX e la
varianza σ2X utilizzando
i vari campioni
n
µX =
∑xn
i i
i=1
n
∑n
i=1
n
σ X2 =
µ = µX
k(N − 1) 2
2
σ =
σX
N −k
‡”(x
i=1
i
i
=
500
= 25
20
− µX ) 2 ni
n
∑n
i=1
i
=
375
= 18.75
20
SEGUE
35
Esempio: distribuzione dei ricoverati in 5
ospedali
Conclusioni:
Nella estrazione bernoulliana i campioni estraibili sono
52=25
In quella esaustiva sono
5*4=20
GENERALIZZANDO per popolazione di numerosità N
e campioni di ampiezza k:
estrazione bernoulliana Nk campioni
estrazione
campioni
esaustiva
N*(N-1)*(N-2)*…..*(N-k-1)
36
Conclusioni
La statistica inferenziale permette di affrontare
PROBLEMI
di decisione in condizioni di incertezza
di previsione/conoscenza del mondo
basandosi su dati sperimentali campionari
reale
Test statistico
Scelta del campione
37