Statistica Descrittiva Indici di posizione, di asimmetria e di dispersione

COMPLEMENTI DI PROBABILITA’ E STATISTICA
3 Crediti
Docente : Elvira Di Nardo
([email protected], 0971-205890)
Modalità di esame:
1 Prova scritta alla fine del corso
+ 1 Tesina (facoltativa)
Testi consigliati: Manuale on-line di statistica
Informazioni: http://www.unibas.it/utenti/dinardo/didattica.html
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
1
Statistica
Descrittiva
Indici di posizione,
di asimmetria e di
dispersione
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
2
1
Costruzione di un istogramma
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
3
Costruzione di un Box-Plot
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
4
2
60
50
40
30
20
10
0
q1
min
mediana
max
q3
1
Cliccare sul singolo dato
due volte in modo da ottenere la
finestra Formato serie dati
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
5
http://cirdis.stat.unipg.it/files/Sperimentazione/Box-Plot-in-Excel.html
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
6
3
Costruzione di un Q-Q plot
Assegnato un campione casuale
ORDINATO è il grafico delle
coppie
(x( ) , z( ) ) dove P(Z < z( ) ) = i − 0,5
i
i
i
n
Viene anche usato per
verificare se due campioni casuali provengono
dalla stessa popolazione.
Compl. Prob & Stat. a.a. 04/05 7
Statistica non parametrica
Statistica Inferenziale per un campione
casuale
• test sulla media – popolazione normale con varianza nota
• test sulla media – popolazione normale con varianza incognita
• test sulla media – popolazione non normale, taglia maggiore di 30
• test sulla varianza – popolazione normale
Cosa accade per popolazioni non normali e/o taglie
inferiori a 30?
TEST NON PARAMETRICI (distribution free)
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
8
4
I test non parametrici sono meno potenti, per cui è più difficile
rifiutare l’ipotesi nulla, ma quando l’ipotesi nulla è rifiutata, generalmente le conclusioni non possono essere sospettate di invalidità
Test sulla mediana
(test dei segni)
Test sulla media
Test sulla varianza
Test di intervallo
interquartile
di Westenberg
In fase ancora sperimentale
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
9
Test dei segni (test mediana)
Scopo: verifica di ipotesi sulla tendenza centrale
H0 : M = M0
H1 : M ≠ M 0
Procedura
• Si confronta ogni elemento del campione con il valore di riferimento
trasformando il campione casuale in una sequenza di segni + e -.
NB: eventuali differenze nulle non vengono riportate
• Si contano il numero di segni positivi: r+
• Se fosse vera l’ipotesi nulla, la v.a. R+ che conta il numero di segni
positivi risulterebbe binomiale di parametri (taglia, 0.5).
• Vale che
P( R + ≥ r + ) = P( R + ≤ n − r + )
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
10
5
• Risultano sospetti sia valori troppo alti di r+ che valori troppo bassi
(indice di sbilanciamento nella distribuzione dei segni).
 p = 2 P (R + ≥ r + ) se r + ≥ n / 2

+
+
+
 p = 2 P (R ≤ r ) se r ≤ n / 2
• Se p<Hsi rifiuta l’ipotesi nulla, se p> Hnon si rifiuta l’ipotesi nulla
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
11
Esempio: Da una serie di rilevazioni sulla quantità di specie presenti in alcuni
ambienti, sono stati rilevati i seguenti 20 valori di biodiversità (vedi tabella).
Si valuti se la tendenza centrale di questa serie è significativamente differente
da 6.5, valore centrale dell’area in studi precedenti.
2,5 4,5
2,7 4,9
2,9 5,3
2,9 6,5
3,1 6,5
3,1 8,9
3,1 9,7
3,8 11,7
3,9 15,7
4,2 18,9
-
0
0
+
+
+
+
+
N=18, r+=5
0,096252
Si rigetta l’ipotesi nulla.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
12
6
Riconoscere la legge di distribuzione
di un campione casuale
TEST CHI-QUADRATO
Da Analisi Dati
-> Istogramma
Classe Frequenza
50
0
75
2
100
2
125
2
150
2
Altro
2
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
13
Costruzione delle frequenze attese
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
14
7
Classe Frequenza
50
0
75
2
100
2
125
2
150
2
Altro
2
10
Freq attese
3,9346934
1,3416411
1,0448711
0,8137464
0,6337464
2,2313016
10
Differenze
15,48181
0,433436
0,912271
1,407198
1,866649
0,0535
Diff.divise
3,934693
0,323064
0,873094
1,729283
2,94542
0,023977
9,829532
= INV.CHI(0,05;5)
= 11.07
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
15
Test di Kolmogorov-Smirnov
Scopo: verificare se esiste una differenza significativa tra la funzione
di ripartizione empirica costruita per il campione casuale e la funzione
di ripartizione di un modello teorico.
FX ( xi ) − Fˆ ( xi )
Statistica: D = i =max
1, 2 ,..., n
# di elementi del campione ≤ xi
Fˆ ( xi ) =
n
Per n ≤ 35 si usano le tavole, per n > 35 si usano i valori
D=
1.36
n
per α = 0.05 e
D=
1.63
n
per α = 0.01
NB: questo test è più potente del test chi-quadrato.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
16
8
Esercizio: Supponiamo di voler verificare l’ipotesi che una certa popolazione abbia distribuzione esponenziale con legge
 x 
F ( x) = 1 − exp −
, x > 0
 100 
Che conclusioni si possono trarre se un campione ordinato di numerosità 10
mostra i seguenti valori?
66 72 81 94 112 116 124 140 145 155
66
72
81
94
112
116
124
140
145
155
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,483149 -0,38315
0,513248 -0,31325
0,555142 -0,25514
0,609372 -0,20937
0,67372 -0,17372
0,686514 -0,08651
0,710616 -0,01062
0,753403 0,046597
0,76543 0,13457
0,787752 0,212248
Stat. test
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
17
Test Kolmogorov-Smirnov (in EXCEL)
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
18
9
Si sceglie la funzione
distribuzione teorica tra
le funzioni statistiche di
Excel
Si determina il
valore della
statistica
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
19
Statistica Inferenziale per due
campioni casuali
• test Z sulla differenza tra medie, varianze note, popolazioni normali
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
20
10
• test T sulla differenza tra medie per dati accoppiati
Questa forma del test t non presuppone che le varianze delle due
popolazioni siano uguali. È possibile utilizzare un test accoppiato
quando vi è un naturale appaiamento tra le osservazioni dei campioni,
come nel caso di una duplice verifica di un gruppo campione, prima e
dopo un esperimento.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
21
• test T sulla differenza tra medie, popolazioni normali, varianze
incognite ma uguali
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
22
11
• test T sulla differenza tra medie, popolazioni normali, varianze
incognite e diverse
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
23
• test F sul rapporto tra varianze, popolazioni normali
Ipotesi fondamentale: Indipendenza dei campioni
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
24
12
Test chichi-quadrato (2 classificazioni)
I classificazione
II
classificazione
R1
C1
O11
C2
O12
R2
O21
O22 K O2 m
M
M
Rs
Os1
L Cm
K O1m
M
O
Tavola di
contingenza
M
Os 2 K Osm
frequenza assoluta attesa relativa al livello j 

Eij = per la I classificazione e al livello i per la II  = n pij = n u i v j

classificazione

uˆ i =
1 m
∑ Oij
n j =1
1 s
vˆ j = ∑ Oij
n i =1
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
25
Test chichi-quadrato (2 classificazioni)
s
m
χ 2 = ∑∑
(O
i =1 j =1
ij
− Eij )
2
E ij
≥ χ α2 ,( s −1)( m −1)
Esempio: Una compagnia deve scegliere tra 3 diversi progetti di pensionamento.
I direttori vogliono sapere se la preferenza espressa per uno dei tre progetti è indipendente dalla categoria di lavoro. Effettuano una indagine tra 500 lavoratori e i risultati sono riportati in tabella:
Categoria
lavorativa
Lav. fissi
Lav. ad ore
Totale
340
Categoria
lavorativa
Lav. fissi
136 136
68
340
60
160
Lav. ad ore
64
32
160
200 200 100
500
Totale
200 200 100
500
1
2
160 140
40
60
3
Totale
40
Frequenze osservate
1
2
64
3
Totale
Frequenze attese
χ 2 = 49.63 > χ 02.05, 2 = 5.99
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
26
13
Test chi-quadrato per l’indipendenza
(in EXCEL)
160
40
140
60
136
64
40
60
136
64
68
32
1,66906E-11
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
27
Test di Fisher
Scopo: verificare se due fattori A e B hanno influito sulla presenza
Di un certo carattere.
+ indica la presenza del carattere
- indica l’assenza del carattere
A
B
+
a
b a+b
c
d c+d
a+c b+d n
La probabilità di osservare questo tipo di configurazione è data da
una v.a. ipergeometrica
 a + b  c + d 



a  c 

P( R + = a) =
a + b + c + d 


a+c


Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
28
14
Il metodo di Fisher si basa sul concetto che tenendo fissi i totali
i numeri a,b,c,d possono assumere a caso qualsiasi valore.
Procedura:
• si riduce di 1 il numero di osservazioni nella casella con il numero
minore modificando gli altri valori in modo da mantenere i marginali costanti (fino a 0);
• si calcolano le probabilità ipergeometriche associate alle tabelle
così costruite (e si sommano);
• se il valore ottenuto è piuttosto basso (inferiore a 0.10 o 0.05) si
rigetta l’ipotesi nulla di indipendenza (altrimenti si andrebbe contro
il principio zero della statistica)
Per campioni di taglia elevata si può usare il test chiquadrato per l’indipendenza.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
29
Esercizio: Vengono esaminati un lotto di 18 esemplari di uno stesso prodotto industriale, ottenuti in parte col processo di lavorazione A e in parte col processo di lavorazione B. I 18 esemplari vengono classificati in base al numero di difetti: C=“≤ 3” e
C
D
D=“>3”. Si determini se il processo di produzione ha
A 2
8 10
influito sulla presenza dei difetti
B
5
7
3
11
8
18
10  8 
  
2 5
P (2) =    = 0.079 P(0) =
18 
 7 
 
10  8 
  
 0  7  = 0.000251
18 
 7 
 
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
10  8 
  
1 6
P (1) =    = 0.0087
18 
 7 
 
30
15
Test di Mc Nemar
Scopo: verificare l’esistenza di differenze tra prima e dopo un certo
trattamento.
Necessari: dati appaiati, risposte nominali binarie
dopo
+
+
b
prima a
- c
d
b e c rappresentano gli elementi su cui c’è stata
una modifica del carattere;
Se fosse vera l’ipotesi nulla (il trattamento non determina un mutamento significativo), coloro che sono passati da + a – (e viceversa)
dovrebbero aver scelto a caso: il numero dei cambi da + a - = numero
dei cambi da – a +.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
31
se il trattamento fosse inefficace, il numero medio di cambiamenti:
(b+c)/2=E
Statistica: K =
(b − E )2 + (c − E )2
E
E
≈ χ 12
• Il test chi-quadrato (a due vie) si applica a campioni potenzialmente indipendenti
• Il test di McNemar si applica a campioni DIPENDENTI!
Esercizio: 25 soggetti di cui 18 fumatori e 7 non fumatori furono immessi in stesso
ambiente lavorativo in cui predominavano i fumatori incalliti. Dopo 3 mesi di attività
lavorativa dei 18 fumatori, 4 avevano smesso di fumare, e dei 7 non fumatori, 4 avevano
cominciato a fumare. Il “trattamento” era stato efficace?
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
32
16
Esercizi
1. Una compagnia effettua 3 turni su 4 macchine ogni giorno. Per ogni macchina sono stati registrati i
numeri di guasti per ogni turno (in tabella). Verificare l’ipotesi che i gustai sono indipendenti dai turni.
Turni
1
2
3
A
41
31
15
B
20
11
17
C
12
9
16
D
16
14
10
2. Verificare con un test di Kolmogorov e con un test chi-quadrato se il seguente campione casuale
può ritenersi distribuito secondo un modello binomiale.
5
9
6
4
8
5
3
4
4
3
6
5
2
4
4
4
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
33
Esercizi
1. Esaminando uno stesso campione prima e dopo un
certo trattamento, sono state riscontrate le frequenze di
cambiamenti (in entrambi i versi dal + al - o dal - al +)
e di assenza dei medesimi (dal - al - o dal + al +) riportate in tabella. Il trattamento ha influito nel determinare
un verso prevalente dei cambiamenti?
+
tot
2. Verificare se per il seguente campione si può assumere che
la mediana è 0.
+
22
15
37
-0,30
-1,28
0,24
1,28
1,20
2
2
4
tot
24
17
41
1,73
-2,18
-0,23
1,10
-1,09
3. Gli alberi da frutta sono spesso soggetti a malattie causate
Morti
Vivi
da batteri che prendono il nome di ruggine da fuoco, per il
Tratt. A
7
12
19
fatto che i rami degli alberi affetti da tale malattia appaiono
Tratt. B
0
5
5
bruciacchiati. 24 alberi con questa malattia sono stati sud7
17
24
divisi in due gruppi: a 19 alberi non è stata applicata alcuna
terapia (e di questi 7 sono morti entro l’anno e 12 sono sopravvissuti per altri 4 anni), mentre a 5
alberi sono stati tagliati i rami che sembravano affetti da batteri (e di questi tutti sono sopravvissuti per
altri 4 anni). Verificare se è utile intervenire sugli alberi ammalati.
Compl. Prob & Stat. a.a. 04/05 Statistica non parametrica
34
17