Statistica parametrica - Università degli Studi della Basilicata

28/05/2012
Statistica parametrica
e non parametrica
Per un campione univariato
Gli intervalli di confidenza
MEDIA VERA
MEDIA CAMPIONARIA
2
1
28/05/2012
Gli intervalli di confidenza
3
Gli intervalli di confidenza
4
Una introduzione alla
Biostatistica
2
28/05/2012
Gli intervalli di confidenza
Nel 95% dei casi, l’intervallo di confidenza conterrà la media della
popolazione.
Come si calcolano gli estremi?
Uno studio di avvocati
ha 5 associati.
All’incontro settimanale che svolgono,
ciascuno riporta il
numero di ore di lavoro
fatturato. Nell’ultima
settimana si è avuto:
ESEMPIO
Partner
Hours
Dunn
22
Hardy
26
Kiers
30
Malory
26
Tillman
22
Se 2 associati vengono
selezionati a caso, quanti
possibili campioni si
possono ottenere?
3
28/05/2012
10 differenti campioni
Partners
1,2
1,3
1,4
1,5
2,3
2,4
2,5
3,4
3,5
4,5
Totale
48
52
48
44
56
52
48
56
52
48
Media
24
26
24
22
28
26
24
28
26
24
E’ possibile definire una variabile aleatoria media campionaria, a
partire dal campione casuale.
La distribuzione di probabilità di questa variabile “media campionaria”
risulta essere:
Media
campionaria
Frequenza
Frequenza
relative = prob
22
1
1/10
24
4
4/10
26
3
3/10
28
2
2/10
Media delle medie campionarie
µX =
22(1) + 24(4) + 26(3) + 28(2)
= 25.2
10
4
28/05/2012
Partner
Hours
Dunn
22
Hardy
26
Kiers
30
Malory
26
Tillman
22
La media della popolazione
risulta essere:
Quindi la media
della media
campionaria è
proprio uguale alla
media della
popolazione.
Media della popolazione
µ=
22 + 26 + 30 + 26 + 22
= 25.2
5
Questo risultato
empirico può essere
mostrato per via
teorica
Effettuiamo il calcolo della varianza della media campionaria
s X2 =
Media
campionaria
Frequenza
Frequenza
relative = prob
22
1
1/10
24
4
4/10
26
3
3/10
28
2
2/10
1
1
1
1
2
2
2
2
( 22 − 25.2 ) + ( 24 − 25.2 ) × 4 + ( 26 − 25.2 ) × 3 + ( 28 − 25.2 ) × 2 = 3.36
10
10
10
10
5
28/05/2012
Mentre per la varianza della popolazione, si ha
Partner
Hours
Dunn
22
Hardy
26
Kiers
30
Malory
26
Tillman
22
s X2 =
Anche questo risultato si
può mostrare per via
teorica…
2
2
1
2
2
2
( 22 − 25.2 ) + ( 26 − 25.2 ) + ( 30 − 25.2 ) = 6.08
5
5
5
2
X
Osserviamo che risulta s =
σ2
n
, con n=2
La deviazione standard della media campionaria prende il nome di
errore standard o precisione
Abbiamo visto che E[ X ] = µ e Var[ X ] =
σ2
n
Se la popolazione da cui proviene il campione casuale ha legge
 σ2 
gaussiana ⇒ X ≈ N  µ , 
n 

Se la popolazione da cui proviene il campione casuale non ha legge
 σ2 
gaussiana ⇒ X ≈ N  µ ,  per n>30
n 

6
28/05/2012
GLI INTERVALLI DI CONFIDENZA
X⇒
X −µ
⇒ Z ≈ N ( 0,1) ⇒
σ/ n
P ( − zα / 2 ≤ Z ≤ zα /2 ) = 1 − α


X −µ
P  − zα /2 ≤
≤ zα /2  = 1 − α
σ/ n


σ
σ 

≤ µ ≤ X + zα /2
P  X − zα /2
 = 1−α
n
n


ESERCIZIO: I dati seguenti rappresentano le misure del
diametro di 40 specie di ammoniti (file esempio4.txt).
1) Generare un rapporto di statistica descrittiva e
commentarlo.
2) Formulare una ipotesi sulla distribuzione della
popolazione.
3) Costruire un intervallo di confidenza per la media
della popolazione.
7
28/05/2012
Per α = 0.05 ⇒ P(3.34 < µ < 3.53) = 0.95
media
3,44
media
3,44
st.dev.
0,308
st.dev.
0,308
quantile 1,959964
quantile
1,644854
inf
3,344552
inf
3,359897
sup
3,535448
sup
3,520197
taglia
40
taglia
40
Quali conclusioni si traggono?
Per α = 0.10 ⇒ P(3.35 < µ < 3.52) = 0.90
Nell’esempio precedente abbiamo usato la varianza
campionaria!! E’ legittimo?
NO
Per usare l’informazione che la media campionaria ha legge
gaussiana, c’è bisogno di conoscere la varianza della popolazione
Quando non si ha a disposizione questa informazione, e si
usa la varianza campionaria, la distribuzione di probabilità
della media campionaria non è più gaussiana.
VARIABILE ALEATORIA T-STUDENT
8
28/05/2012
X −µ
⇒ N (0,1)
σ/ n
X −µ
⇒ Tn −1
S/ n
E [ X ] = 0 se n>1, altrimenti è indefinita
NB: fondamentale è l’ipotesi che la popolazione sia gaussiana.
Al crescere di n converge
a una gaussiana standard.
E [ X ] = 0 se n>1, altrimenti è indefinita
Var[ X ] =
n
se n>2 (altrimenti indefinita)
n−2
9
28/05/2012
INTERVALLI DI CONFIDENZA
PER LA MEDIA,
VARIANZA INCOGNITA
−tα / 2, n −1 tα / 2, n −1
ESERCIZIO: Nell’esempio precedente calcolare l’intervallo
di confidenza per la media con
la varianza incognita.
S
S 

≤ µ ≤ X + tα / 2, n −1
P  X − tα / 2, n −1
 =1−α
n
n


In Statview c’è una procedura per il calcolo dell’IC
quando la varianza è incognita
10
28/05/2012
Un caso a parte…
Popolazione di Bernoulli X 1 , X 2 ,…, X n
X 1 , X 2 ,…, X n i.i.d. ⇒ X 1 + X 2 + ⋯ + X n ∼ N ( µ ,σ 2 )
σ
σ 

P  X − zα /2
≤ µ ≤ X + zα /2
 = 1−α
n
n

%successi
p(1 − p )
INTERPRETAZIONE
11
28/05/2012
ESEMPIO:
Su 1000 rocce esaminate, 480 hanno tracce di un certo materiale.
Determinare l’intervallo di confidenza per la percentuale di rocce
che contengono quel materiale.
p
0,48
quan.inf. 1,959964
quan.sup. -1,95996
semi
0,015799
(0.465,0.495)
50% non è incluso!
INTERVALLO DI CONFIDENZA PER LA VARIANZA
Serve per verificare se la varianza di una certa popolazione ha un
valore prestabilito.
PDF distribuzione chi-quadrato
0.5
df=2
df=4
df=8
df=16
0.45
0.4
PUNTO DI PARTENZA
0.35
0.3
(n − 1) S 2
0.25
0.2
σ
0.15
2
≈ χ n2−1
0.1
0.05
0
0
1
2
3
4
5
6
7
8
9
10
DISTRIBUZIONE CHI-QUADRATO
12
28/05/2012
E[ X ] = df , Var[ X ] = 2 × df
n
Teor : Se { X i }i =1 sono variabili aleatorie gaussiane i.i.d., allora
W=X 12 + X 22 + ⋯ + X n2 è una variabile aleatoria chi-quadrato con
n gradi di libertà
(n − 1) S
σ2
2
=
n
1
σ
2
n
X −X) ≈∑
2 ∑( i
i =1
(X
i =1
i
−X)
2
σ2
La definizione dei quantili è più articolata, essendo la distribuzione asimmetrica
2
1− α / 2
χ
χα2 / 2
P ( χ12−α / 2 < χ 2 < χα2 / 2 ) = 1 − α
13
28/05/2012
P ( χ12−α / 2 < χ 2 < χα2 / 2 ) = 1 − α
 2
S2
2 
P  χ1−α / 2 < (n − 1) 2 < χα / 2  = 1 − α
σ


 χ12−α / 2
1
χα2 / 2 
P
< 2<
=1−α
2
2 
σ
(n − 1) S 
 ( n − 1) S
 (n − 1) S 2
(n − 1) S 2 
2
P
<σ <
 =1−α
2
2
χ
χ
α /2
1−α / 2


ESERCIZIO: Nell’esempio precedente calcolare l’intervallo
di confidenza per la varianza.
14
28/05/2012
Proviamo ad usare Excel.
var
df
quantile
quantile
inf
sup
0,095
39
23,65432
58,12006
0,063747
0,156631
TEST DI IPOTESI
Supponiamo di voler verificare che un assegnato campione casuale
ha media 50.
Supponiamo che calcolata la media campionaria, questa risulti essere 50.7.
In base a questa affermazione possiamo affermare che “la media della
popolazione è 50”?
?
?
REGIONE
CRITICA
REGIONE DI
ACCETTAZIONE
REGIONE
CRITICA
15
28/05/2012
X
REGIONE
CRITICA
REGIONE DI
ACCETTAZIONE
Qual
è la
scelta
più
naturale
per gli
estremi
della
regione
di
accettazione?
REGIONE
CRITICA
Si rigetta l’ipotesi nulla se …
x
16
28/05/2012
Non si rigetta l’ipotesi nulla se …
x
µ0 = 50
σ
σ 

≤ X ≤ µ0 + zα / 2
P  µ0 − zα / 2
 =1−α
n
n


17
28/05/2012
Nel formulare un test di ipotesi
 H 0 : µ = µ0

 H1 : µ ≠ µ 0
IPOTESI NULLA
IPOTESI ALTERNATIVA
TAVOLA DEGLI ERRORI
H 0 vera
H 0 falsa
si rigetta H 0
errore I tipo
decisione corretta
non si rigetta H 0
decisione corretta
errore II tipo
Errore
di I tipo?
µ0
σ
σ 

P  µ0 − zα / 2
≤ X ≤ µ0 + zα / 2
 =1−α
n
n

18
28/05/2012
Errore
di II tipo?
Supponiamo che
l’ipotesi alternativa
sia che la media è
pari a 51.
Per calcolare la probabilità di commettere l’errore di II tipo,
c’è bisogno di conoscere l’ipotesi alternativa…
Si fissa allora la probabilità di commettere l’errore di I tipo e si
determina la regione di accettazione.
ESEMPIO: Dieci campioni di roccia sono stati analizzati per il contenuto
in materia organica.
(a) Determinare l’intervallo di confidenza al 95% .
(b) Effettuare un test per verificare se è ragionevole ipotizzare un contenuto medio della roccia pari al 18.0%.
19
28/05/2012
1) Effettuare un norm-plot per supporre che la popolazione sia ragionevolmente gaussiana.
dati
2
1,5
1
0,5
0
dati
0
5
10
15
20
25
30
35
-0,5
-1
-1,5
-2
2) Non essendo nota la varianza, l’intervallo di confidenza va calcolato
usando la variabile aleatoria T-student. Usiamo la function di Statview.
6.53
6.53 

P  20.5 − 2.2621 ×
≤ µ ≤ 20.5 + 2.2621 ×
 = 0.95
10
10


3) Per il test
6.53
6.53 

P  20.5 − 2.2621×
≤ µ ≤ 20.5 + 2.2621×
 = 0.95
10
10


18
X
18
20
28/05/2012
 H 0 : µ = 18

 H1 : µ ≠ 18
REGIONE DI ACCETTAZIONE
18 − tα / 2, n −1
H 0 non si rigetta
S
n
,18 + tα / 2, n −1
SI
S
n
x ∈?
H 0 si rigetta NO
LEGAME TRA INTERVALLO DI CONFIDENZA E REGIONE DI
ACCETTAZIONE
REGIONE DI ACCETTAZIONE
18 − tα / 2, n −1
S
S
,18 + tα / 2, n −1
n
n
x ∈?
INTERVALLO DI CONFIDENZA
µ ∈?
X − tα / 2, n −1
S
S
, X + tα / 2, n −1
n
n
21
28/05/2012
REGIONE DI ACCETTAZIONE=(13.32, 22.67)
H 0 non si rigetta
20.5 ∈
Per leggere l’esito del test con STATVIEW, è necessario introdurre il
concetto di p-value.
E ' l'area a destra
del valore della
statistica x
Se p > 0.025
⇒ H 0 non si rigetta
Se p < 0.025
⇒ H 0 si rigetta
Il p-value è l’area
a destra della statistica
test
x
22
28/05/2012
x − 18
S/ n
Essendo p > 0.025
⇒ H 0 non si rigetta
DECISIONE DEBOLE: non siamo in grado di valutare la probabilità di commettere l’errore di II tipo.
DECISIONE FORTE: quando si rigetta l’ipotesi nulla, sappiamo
di commettere un errore di I tipo con probabilità 5%.
Si può calcolare l’errore di II tipo, al variare dell’ipotesi alternativa.
P ( X ∈ Regione di accettazione )
23
28/05/2012
Si definisce CURVA POTENZA associata al test, il complementare ad
uno della probabilità di commettere un errore di II tipo = probabilità
di rigettare l’ipotesi nulla quando è falsa.
Power curve
1.005
1
0.995
0.99
0.985
0.98
0.975
0.97
14
15
16
17
18
19
20
21
22
TEST DI IPOTESI SULLA VARIANZA
Serve per verificare se la varianza di una certa popolazione ha un
valore prestabilito.
H0 : σ = σ 0

 H1 : σ ≠ σ 0
PDF distribuzione chi-quadrato
0.5
df=2
df=4
df=8
df=16
0.45
0.4
0.35
Statistica Test
0.3
0.25
(n − 1) S 2
0.2
0.15
σ
0.1
0.05
0
0
1
2
3
4
5
6
7
8
9
2
≈ χ n2−1
10
DISTRIBUZIONE CHI-QUADRATO
24
28/05/2012
Attenzione : il valore della statistica test è molto alto! Bisogna scegliere opportunamente
l’ipotesi alternativa
IPOTESI nulla
36
IPOTESI NULLA
40
IPOTESI nulla
46
TEST PER LA BONTA’ DI ADATTAMENTO
Empirical CDF
1
Il seguente grafico
riporta la funzione di
ripartizione empirica
del campione
AMMONITI
e la funzione di ripartizione
teorica di una popolazione
gaussiana con media, la
media campionaria e con
varianza, la varianza
campionaria.
0.9
0.8
0.7
F(x)
0.6
0.5
0.4
0.3
0.2
0.1
0
2.8
3
3.2
3.4
3.6
3.8
4
4.2
x
Possiamo ritenere le due curve sufficientemente “vicine”,
in modo da ritenere valido il modello stocastico gaussiano
per la popolazione da cui il campione casuale è estratto?
25
28/05/2012
TEST DI KOLMOGOROV-SMIRNOV
STATISTICA TEST ⇒ D = max F ( xi ) − Fˆ ( xi )
i
Per l’esecuzione del test in EXCEL è necessario effettuare i seguenti passi:
a) Ordinare i dati in ordine crescente
b) Costruire la funzione di ripartizione empirica
26
28/05/2012
c) Costruire la funzione di ripartizione teorica
d) Calcolare la differenza in valore assoluto tra le due funzioni:
e) Calcolare il massimo della differenza in valore assoluto tra le due funzioni:
27
28/05/2012
f) Confrontare il valore così ottenuto con il quantile
della variabile aleatoria D.
dα ,n
associato alla distribuzione
Le tavole dei quantili sono disponibili all’indirizzo
http://www.unibas.it/utenti/dinardo/tavola.html
f) Come si legge la tavola: sulla riga corrispondente alla taglia n=40, si sceglie il valore di
riferimento nella colonna relativa a 1 - α
….
Quindi possiamo
ritenere valido
il modello stocastico gaussiano
per la popolazione da cui il campione casuale è
estratto…
da confrontare 0,072005
28
28/05/2012
STATISTICA NON PARAMETRICA
IN STATVIEW
• Nel caso di campioni appartenenti a distribuzioni non normali è possibile applicare una serie di test equivalenti a quelli descritti nel capitolo precedente, detti test non parametrici.
• I test non parametrici non hanno la stessa efficacia dei test
parametrici.
• Quando applicati a campioni gaussiani, risultano più potenti.
• L’ampiezza del campione casuale può essere anche molto
piccola.
• Particolarmente utili nel caso i dati del campione siano sot-
to forma di ranghi (=posto che il dato occupa nel campione
casuale ordinato).
29
28/05/2012
TEST SUI SEGNI tra i tests non parametrici più diffusi
H 0 : M = M 0

 H1 : M ≠ M 0
E’ un test effettuato sulla mediana della popolazione anzicché sulla
media (che è un Indice di posizione meno robusto).
IDEA:
50%
50%
x(1) , x(2) ,…, x( M ) ,…, x( n )
Se indichiamo con
R = num. dati del campione casuale ≤ M 0
R ∼ B(n,0.5)
p=1/2
0.12
Num. di dati che cadono
a sinistra di M 0 deve essere all’incirca la metà
della taglia del campione.
0.1
0.08
0.06
0.04
Se il numero di dati che
cadono a sinistra di M 0 è
troppo elevato (o troppo
basso) , la pdf corrispondenSe questi valori sono troppo bassi…. te assumerà valori bassi.
0.02
0
0
5
10
15
20
25
30
35
40
45
50
si rigetta l’ipotesi nulla
30
28/05/2012
ESEMPIO:
IL PRIMO RISULTATO E’:
correzione
IL CAMPIONE CASUALE HA
MEDIANA PARI A 10.
31
28/05/2012
ESERCIZIO: I seguenti dati si riferiscono ad intensita’ di terremoti registrati in un dato sito.
Effettuare una anlisi dei dati completa (terremotI)
32