Parte I - Statistica descrittiva

CORSO DI LAUREA IN
OTTICA E OPTOMETRIA
CORSO DI INFORMATICA E STATISTICA
[email protected]
Parte I - Statistica descrittiva
1
CONVENZIONE SULLE CIFRE
SIGNIFICATIVE
• La convenzione usata sul troncamento delle cifre è
• troncare semplicemente le cifre non significative se la cifra
successiva è <5
• Aumentare di una unità l’ultima cifra significativa se la cifra
successiva è ≥5
esempio: troncare a 2 cifre significative i seguenti numeri
2,35471… = 2,35
3,45567… = 3,46
8,49735… = 8,50
1,99801… = 2,00
ricordare che bisogna sempre scrivere esplicitamente tutte le cifre
significative anche se queste sono zeri (come nell’ultimo caso).
Parte I - Statistica descrittiva
2
VARIABILI
• Variabili
• Qualitative (esempio “colore degli occhi”, “visione “chiara
o sfocata”)
• Quantitative o numeriche (esempio “diottrie”, “distanza
interpupillare”)
• Tipi di variabili quantitative
• Discrete (esempio “voto”, “età di un paziente in anni”)
• Continue (esempio “altezza di un soggetto”)
Parte I - Statistica descrittiva
3
INSIEME DI VARIABILI
• Insieme di variabili
{ x1, x2 ,…x N } ≡ { xk }k=1,N
k=indice (o pedice). N=numerosità del campione
esempio: i voti di 5 studenti all’esame di “Informatica e
Statistica”
{ x1, x2 , x3, x4, x5 } = {28, 22, 25, 21, 30}
Parte I - Statistica descrittiva
4
SOMMA
• Somma (o sommatoria) di N numeri
N
∑x
k
= x1 + x2 +... + x N
k=1
Nell’esempio precedente
5
∑x
k
= 28 + 22 + 25 + 21+ 30 = 126
k=1
Parte I - Statistica descrittiva
5
PROPRIETÀ DELLA SOMMA
• La somma è un’operazione lineare
N
∑(Ax
k=1
N
k
+ B) = A∑ xk + NB
con A e B costanti; infatti
k=1
N
∑(Ax
k=1
k
+ B) = (Ax1 + B)…+ (Ax N + B) = A(x1 +…+ x N ) + (B
+...
+
B)


N volte
Per esempio nel caso precedente se moltiplichiamo per 10 e
sommiamo 5 ad ogni numero abbiamo
{10x1 + 5,10x2 + 5,10x3 + 5,10x4 + 5,10x5 + 5} = {285, 225, 255, 215, 305}
che sommati danno 1285, cioè 10x126+5x5.
Parte I - Statistica descrittiva
6
SOMMA
• Esercizio: provare con qualche esempio che
N
N(N +1)
∑ k = 1+ 2 +... + N = 2
k=1
N
N(N +1)(2N +1)
∑ k = 1+ 4 +... + N =
6
k=1
2
2
Parte I - Statistica descrittiva
7
PRODOTTO
• Prodotto (o produttoria)di N numeri
N
∏x
k
= x1 ⋅ x2 ⋅…⋅ x N
k=1
• Fattoriale: è definito come
N
N! = ∏ k = 1⋅ 2 ⋅…⋅ N
k=1
Questa funzione tornerà utile in seguito. Il fattoriale è
un numero che cresce molto velocemente
0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120;
6!=720;… 20!=2432902008176640000;…
Parte I - Statistica descrittiva
8
MEDIA DI UN CAMPIONE
• La media di un campione di dati è definita da
N
1
X = ∑ xk
N k=1
Esempio: nel caso precedente la media dei voti del
campione dei cinque studenti sarà
1 5
28 + 22 + 25 + 21+ 30
X = ∑ xk =
= 25, 2
5 k=1
5
Parte I - Statistica descrittiva
9
PROPRIETÀ DELLA MEDIA
• Usando le proprietà di linearità della somma è
facile mostrare che la media è una operazione
lineare
AX + B = AX + B
con A e B costanti e
Ax + By + C = Ax + By + C
In particolare la media degli scarti è zero
X−X =X−X =0
Parte I - Statistica descrittiva
10
MEDIANA DI UN CAMPIONE
• La mediana di un campione è quel valore che divide il campione in
due sottoinsiemi, uno con valori tutti minori o uguali alla mediana, un
altro con valori tutti maggiori o uguali.
• Esempio: prendiamo i voti dell’esempio precedente e li mettiamo in
ordine crescente: 21 – 22 – 25 – 28 – 30. In questo caso il valore
mediano corrisponde a 25 poiché metà del campione ha valori
minori di 25 (21 e 22) e l’altra metà maggiori (28 e 30).
• Operativamente: si mettono i valori in ordine crescente e si trova il
valore corrispondente alla posizione (N+1)/2 (nel nostro caso
(5+1)/3=3). Nel caso in cui N+1 sia dispari si prende il valore medio tra
i valori con posizioni N/2 e N/2+1.
• Esempio: trovare la mediana tra 2 – 5 – 8 – 12 – 14 – 17. In questo
caso prendiamo la media tra i valori in 3° e 4° posizione, ovvero
(8+12)/2 =10.
• Notare che mediana e media generalmente con coincidono.
Parte I - Statistica descrittiva
11
QUARTILI E DECILI
• I quartili di un campione sono quei valori per cui il campione è diviso in
quattro sottoinsiemi di dimensione uguale.
• Esempio: si è misurata la miopia di dieci individui ottenendo il seguente
insieme (in diottrie):
{2,8 ÷ 7,2 ÷ 4,2 ÷ 4,2 ÷ 5,6 ÷ 3,9 ÷ 5,3 ÷ 6,7 ÷ 5,8 ÷ 7,1 ÷ 2,1 ÷ 3,3 ÷ 0,4 ÷ 0,6 ÷ 5,6 ÷ 3,8 ÷ 6,9 ÷ 5,2 ÷ 0,8 ÷ 5,7}
riscriviamo il campione in ordine crescente
{0,4 ÷ 0,6 ÷ 0,8 ÷ 2,1 ÷ 2,8 ÷ 3,3 ÷ 3,6 ÷ 3,9 ÷ 4,2 ÷ 4,2 ÷ 5,2 ÷ 5,3 ÷ 5,6 ÷ 5,6 ÷ 5,7 ÷ 5,8 ÷ 6,7 ÷ 6,9 ÷ 7,1 ÷ 7,2}
Il primo quartile corrisponde a (20+1)/4=5,25. Al 5° posto troviamo 2,8. Per essere
più precisi però dobbiamo aggiungere lo 0,25 della distanza tra 2,8 e 3,3 (ovvero il
valore al 6° posto) ovvero 2,8+0,25*(3,3-2,8)=2,925. Allo stesso modo il terzo quartile
corrisponde alla posizione 3*(20+1)/4=15,75, per cui avremo che il valore del terzo
quartile vale 5,7+0,75*(5,8-5,7)=5,775.
• Allo stesso modo è possibile definire i decili di un campione. Nell’esempio
precedente il terzo decile corrisponde alla posizione (20+1)*3/10=6,3 per cui il
valore cercato vale 3,3+0,3*(3,6-3,3)=3,39
Parte I - Statistica descrittiva
12
RANGO QUARTILE E DECILE
• Il rango quartile QX di un valore X è il numero (anche non intero) per
cui ci sono QX/4 valori dell’insieme di dati minori di X e (4-Qx)/4
maggiori.
• Se px è la posizione del valore basta calcolare QX=4pX/(N+1).
• Nell’esempio precedente vogliamo conoscere il rango quartile a cui
appartiene il valore 3,9. Vediamo che 3,9 corrisponde all’8° posizione
per ci calcoliamo Q3,9=8*4/(20+1)=1,52. Ciò vuol dire che 1,52/4 valori
sono minori di 3,9 e 2,48/4 valori maggiori di 3,9
• Allo stesso modo il rango decile è il numero per cui ci sono DX/10
valori minori di X e (10-DX)/10 valori maggiori di X. E’ possibile
calcolare il rango decile con la formula DX=10pX/(N+1).
• Per esempio il rango decile di 3,9 vale D3,9=10*8/(20+1)=3,8.
Parte I - Statistica descrittiva
13
MEDIA GEOMETRICA
• La media definita precedentemente è la
cosiddetta media lineare (o aritmetica). Esistono
altri tipi di media. Vale la pena menzionare la
media geometrica
N
M g = N ∏ xk
k=1
questa media è usata quando sia ha a che fare con
variabili moltiplicative (ad esempio tassi di crescita o
di interesse).
Parte I - Statistica descrittiva
14
MEDIA GEOMETRICA
• Esempio: il numero di batteri in una colonia cresce
del 120% nelle prima ora, del 140% nella seconda
del 130% nella terza e del 110% nella quarta ora.
Qual è il tasso di crescita medio nelle quattro ore?
La risposta è
R = 4 1, 2 ⋅1, 4 ⋅1.3⋅1,1 = 1, 2449 ≅ 124, 5%
Infatti se la colonia crescesse del 124,5% ogni ora
l’incremento totale finale sarebbe lo stesso.
Parte I - Statistica descrittiva
15
FREQUENZE
• Le frequenze rappresentano il numero di
occorrenze di una variabile sia qualitativa che
quantitativa
• Esempio di variabile qualitativa: In un campione di 128
persone si verifica il loro colore degli occhi
Colore degli occhi
Neri
Nocciola
Blu
Verdi
Totale
Frequenza Assoluta
25
32
40
31
128
Frequenza relativa
19,5%
25,0%
31,3%
24,2%
La frequenza relativa è la frazione del numero rispetto al totale
Parte I - Statistica descrittiva
16
FREQUENZA
• Vediamo il caso di una variabile quantitativa: voti di
un campione di 300 studenti in un determinato
esame
Voto in trentesimi
Studenti (frequenza)
18
2
19
6
20
11
21
24
22
35
23
38
24
49
25
35
26
33
27
31
28
19
29
12
30
5
Totale
300
Parte I - Statistica descrittiva
17
DISTRIBUZIONE DI FREQUENZA
• La precedente tabella può essere tradotta in
istogramma. Questa sarà la distribuzione dei dati
60
Numero di studenti
50
40
30
20
10
0
18
19
20
21
22
23
24
25
26
27
28
29
30
Voto
Parte I - Statistica descrittiva
18
CLASSI
• A volte è comodo o necessario “raggruppare” la
variabile in esame in classi. Per esempio potremmo
raggruppare la tabella dei voti precedenti in tre
“macroclassi”: da 18 a 22, da 23 a 27 e da 28 a 30
Voti
Numero di studenti
18-22
78
23-27
186
28-30
36
Questo raggruppamento diventa evidentemente
necessario quando si ha a che fare con variabili continue
(esempio: l’altezza di un campione di persone).
Parte I - Statistica descrittiva
19
CUMULATIVA
• Dalla tabella precedente è possibile anche
costruire la tabella delle “cumulative”
Voto
18
19
20
21
22
23
24
25
26
27
28
29
30
Totale
Studenti
2
6
11
24
35
38
49
35
33
31
19
12
5
300
Cumulativa
2
8
19
43
78
116
165
200
233
264
283
295
300
L’ultima colonna è costruita
sommando via via le frequenze
precedenti.
Per esempio nel caso
precedente il numero di
studenti che hanno preso un
voto ≤25 sarà 200
Ovviamente la distribuzione
cumulativa ha senso solo se la
variabile è di tipo numerico
Parte I - Statistica descrittiva
20
DISTRIBUZIONE CUMULATIVA
350
300
Numero di studenti
250
200
150
100
50
0
18
19
20
21
22
23
24
25
26
27
28
29
30
Voto
Parte I - Statistica descrittiva
21
CUMULATIVA RELATIVA
• Dividendo le cumulative per la numerosità totale del campione si ha
la cumulativa relativa. Nell’esempio precedente si ha che, ad
esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23.
Cum. relativa
18
0,7%
19
2,7%
20
6,3%
21
14,3%
22
26,0%
23
38,7%
24
55,0%
25
66,7%
26
77,7%
27
88,0%
28
94,3%
29
98,3%
30
100,0%
120,0%
100,0%
Numero di studenti
Voto
80,0%
60,0%
40,0%
20,0%
0,0%
18
19
20
21
22
23
24
25
26
27
28
29
30
Voto
Parte I - Statistica descrittiva
22
RIASSUMENDO…
Variabile
frequenza
assoluta
frequenza
relativa
cumulativa
assoluta
cumulativa
relativa
x1
n1
f1
s1
c1
x2
n2
f2
s2
c2
nn
fN
sN
cN
…
xN
N
n = ∑ nk
k=1
nk
fk =
n
k
sk = ∑ ni
Parte I - Statistica descrittiva
i=1
sk
ck =
n
23
MEDIA PESATA (O PONDERATA)
• Quando si ha a che fare con una tabella di
frequenze la media di una variabile deve essere
ovviamente “pesata” sulla frequenza della variabile
1 N
X = ∑ nk ⋅ xk
n k=1
N
o alternativamente
X = ∑ fk ⋅ x k
k=1
questo perché la variabile xk appare nk volte nella
tabella (nell’esempio dei voti è come se dovessimo
sommare 18 per 2 volte, 19 per 6 volte e così via e
dividere per tutti e 300 gli studenti)
Parte I - Statistica descrittiva
24
MEDIA PESATA
Voto xk
Studenti nk Frequenza relativa fk
18
2
0,7%
19
6
2,0%
20
11
3,7%
21
24
8,0%
22
35
11,7%
23
38
12,7%
24
49
16,3%
25
35
11,7%
26
33
11,0%
27
31
10,3%
28
19
6,3%
29
12
4,0%
30
5
1,7%
Totale studenti=
300
voto medio=
Parte I - Statistica descrittiva
fk*xk
0,12
0,38
0,73
1,68
2,57
2,91
3,92
2,92
2,86
2,79
1,77
1,16
0,50
24,31
25
MEDIANA
• La mediana è quel valore per cui metà della distribuzione è inferiore
e metà è superiore ad esso
• Esempio: si è misurata la miopia in un campione di studenti ottenendo la
seguente distribuzione
Diottrie
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
9,0
9,5
10,0
Persone
302
548
815
965
860
640
360
235
115
87
91
70
74
24
21
17
18
9
7
3
3
Cumulativa relativa
5,7%
16,1%
31,6%
50,0%
66,3%
78,5%
85,3%
89,8%
91,9%
93,6%
95,3%
96,7%
98,1%
98,5%
98,9%
99,2%
99,6%
99,8%
99,9%
99,9%
100,0%
Osserviamo come il valore della
cumulativa relativa assume il valore 50%
in corrispondenza di 1,5 diottrie. Questa
sarà il valore mediano poiché metà dei
soggetti avrà una miopia inferiore a 1.5
diottrie e un’altra metà superiore. La
classe corrispondente viene chiamata
classe mediana
Si noti come il valore della mediana non
necessariamente coincida con la
media (nel caso precedente vale 2
diottrie).
Parte I - Statistica descrittiva
26
MEDIANA
Voto
Studenti
Cumulativa
Cum. relativa
xi
ni
si
18
19
20
21
22
23
24
25
26
27
28
29
30
2
6
11
24
35
38
49
35
33
31
19
12
5
2
8
19
43
78
116
165
200
233
264
283
295
300
ci
1%
3%
6%
14%
26%
39%
55%
67%
78%
88%
94%
98%
100%
Totale
300
• A volte la mediana non è ben definita.
Riprendendo l’esempio dei voti la mediana cade
tra le classi 23 e 24. In tal caso per semplicità
potremmo prendere il valore intermedio tra le classi
a cavallo del 50%. Per esempio nel caso
precedente il voto mediano sarebbe 23,5.
• Tuttavia possiamo procedere ad un calcolo più
preciso tramite una interpolazione. Se la mediana è
compresa tra xi e xi+1la mediana si può calcolare
come
Mediana = 𝑥) +
+
-./
,
0/12
⋅ (𝑥)56 -𝑥) )
• Nel nostro caso:
Mediana = 23 +
9::
-66<
,
Parte I - Statistica descrittiva
=>
⋅ (24 − 23)=23.7
27
MEDIANA
Classi
3-7
8 - 12
13 - 17
18 - 22
23 - 27
Classi ”contigue"
3 - 7,5
7,5 - 12,5
12,5 - 17,5
17,5 - 22,5
22,5 - 27
Frequenza
1
4
2
6
4
Cumulativa
1
5
7
13
17
Facciamo un altro esempio. Consideriamo la tabella precedente. Per prima cosa
rendiamo le classi “contigue” (o a “limiti reali”) allargandole in modo che il valore
superiore di una classe corrisponda col valore inferiore della successiva. In questo
caso la mediana è quella la cui cumulativa corrisponde al valore 17/2 = 8,5. La
classe mediana è quindi la 18 – 22, poiché 8,5 è > di 7 e < 16. La mediana si trova
quindi tra 17,5 e 22,5. Possiamo supporre quindi che a 17,5 la cumulativa valga 7
e a 22,5 valga 13, per cui operando come prima avremo allora
Mediana=17,5+
E,F-G
<
H 22,5 − 17,5 =18,75
Parte I - Statistica descrittiva
28
QUARTILI
• Allo stesso modo della mediana è possibile definire i quartili rappresentano i
valori che dividono in quattro parti la distribuzione
Cumulativa
relativa
Diottrie
Persone
Cumulativa
0,0
302
302
5,7%
0,5
548
850
16,1%
1,0
815
1665
31,6%
1,5
965
2630
50,0%
2,0
860
3490
66,3%
2,5
640
4130
78,5%
3,0
360
4490
85,3%
3,5
235
4725
89,8%
4,0
115
4840
91,9%
4,5
87
4927
93,6%
5,0
91
5018
95,3%
5,5
70
5088
96,7%
6,0
74
5162
98,1%
6,5
24
5186
98,5%
7,0
21
5207
98,9%
7,5
17
5224
99,2%
8,0
18
5242
99,6%
8,5
9
5251
99,8%
9,0
7
5258
99,9%
9,5
3
5261
99,9%
10,0
3
5264
100,0%
Seguendo il criterio precedente potremmo grosso modo
identificare il quartile inferiore con il valore 0,75 e quello
superiore con 2,25. Tuttavia valori più precisi possono
essere trovati tramite una interpolazione alla stessa
maniera della mediana:
1
⋅ 5264 − 850
4
𝑄6 = 0, 5 +
⋅ (1,0 − 0,5) = 0,79
815
3
⋅ 5264 − 3490
4
𝑄O = 2, 0 +
⋅ (2,5 − 2,0) = 2,36
640
Il secondo quartile (Q2) equivale ovviamente alla
mediana che vale 1,5. I quartili sono quindi
1. 0,00 – 0,79
2. 0,79 – 1,50
3. 1,50 – 2,36
4. 2,36 – 10,00
Parte I - Statistica descrittiva
29
PERCENTILI
• Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per
esempio il 90% percentile inferiore e superiore sono quei valori per cui al di
sotto troviamo il 10% e il 90% della popolazione.
• nell’esempio della miopia all’incirca solo il 5% della popolazione ha meno di 0.25
diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore.
90%
75%
50%
21,0
20,0
19,0
18,0
17,0
16,0
15,0
14,0
13,0
12,0
11,0
10,0
9,0
8,0
7,0
6,0
5,0
4,0
3,0
2,0
20%
1,0
100,0%
90,0%
80,0%
70,0%
60,0%
50,0%
40,0%
30,0%
20,0%
10,0%
0,0%
10%
x
• Per il calcolo esatto dei decili si possono usare le stesse formule di interpolazione per
la media e i quartili
• I percentili corrispondenti al 10%, 20%.... 80%, 90% vengono anche chiamati decili
Parte I - Statistica descrittiva
30
PERCENTILI
• Esempio: calcolare il terzo decile della tabella
Classi
3-7
8 - 12
13 - 17
18 - 22
23 - 27
Classi ”contigue"
3 - 7,5
7,5 - 12,5
12,5 - 17,5
18,5 - 22,5
22,5 - 27
Frequenza
1
4
2
6
4
Cumulativa
1
5
7
13
17
Cum. Relativa
5,9%
29,4%
41,2%
76,5%
100,0%
il terzo decile evidentemente corrisponde ad una cumulativa del 30% e
quindi appartiene alla classe 13 – 17. Il calcolo può essere fatto come prima
3
⋅ 17 − 5
10
𝐷O = 12,5 +
⋅ (17,5 − 12,5) = 12,75
2
Parte I - Statistica descrittiva
31
RANGO PERCENTILE DI UN VALORE
• Data una tabella il rango percentile di un dato valore X è la
percentuale di valori più piccoli di X.
Diottrie
Persone
Cumulativa
Cumulativa
relativa
0,0
302
302
5,7%
0,5
548
850
1,0
815
1665
1,5
965
2630
2,0
860
3490
2,5
640
4130
3,0
360
4490
3,5
235
4725
4,0
115
4840
4,5
87
4927
5,0
91
5018
5,5
70
5088
6,0
74
5162
6,5
24
5186
7,0
21
5207
7,5
17
5224
8,0
18
5242
8,5
9
5251
9,0
7
5258
9,5
3
5261
10,0
3
5264
16,1%
31,6%
50,0%
66,3%
78,5%
85,3%
89,8%
91,9%
93,6%
95,3%
96,7%
Esempio: vogliamo stabilire a quale rango percentile
corrisponde una diottria di 2,8. Dobbiamo fare una
interpolazione tra i valori 2,5 e 3,0 per trovare il percentile
corrispondente (o rango percentile)
2,8 − 2,5
P%=78,5%+
H 85,3% − 78,5% = 82,6%
3,0 − 2,5
Questo significa che l’82,6% dei valori è minore di 2,8 e il
restante 17,4% è maggiore.
98,1%
98,5%
98,9%
99,2%
99,6%
99,8%
99,9%
99,9%
Il rango decile corrispondente si trova moltiplicando
0,826*10=8,26
Analogamente, per trovare il rango quartile invece basta
fare 0,826*4 = 3,304
100,0%
Parte I - Statistica descrittiva
32
RANGO DECILE DI UN VALORE
• Allo stesso modo data la tabella
Classi
3-7
8 - 12
13 - 17
18 - 22
23 - 27
Classi ”contigue"
3 - 7,5
7,5 - 12,5
12,5 - 17,5
18,5 - 22,5
22,5 - 27
Frequenza
1
4
2
6
4
Cumulativa
1
5
7
13
17
Cum. Relativa
5,9%
29,4%
41,2%
76,5%
100,0%
vogliamo calcolare il rango decile e quartile di 23,5. Poiché 23,5 appartiene
alla classe 22,5-27, operando come nel caso precedente abbiamo
23,5 − 22,5
P%=76,5%+
H 100% − 76,5% = 81,7%
27 − 22,5
Ne deriva che in questo caso il rango decile è 8,17 mentre in rango
quartile vale 3,27.
Parte I - Statistica descrittiva
33
MODA
• La moda è il valore più comune in una distribuzione. Per esempio
nell’esempio dei voti la moda è il 24 mentre nell’esempio della
miopia la moda è 1,5 diottrie.
• Talvolta una distribuzione può avere due picchi distinti ben localizzati.
In tal caso la distribuzione si dice “bimodale” (più in generale
possono esistere distribuzioni “multimodali”)
Una distribuzione del genere
può essere sintomo di due
popolazioni “distinte” (per
esempio se misurassimo la
miopia ad un campione di
persone in parte italiane e in
parte giapponesi, popolo
notoriamente più miope)
1200,0
1000,0
800,0
600,0
400,0
200,0
21,0
20,0
19,0
18,0
17,0
16,0
15,0
14,0
13,0
12,0
11,0
10,0
9,0
8,0
7,0
6,0
5,0
4,0
3,0
2,0
1,0
0,0
Parte I - Statistica descrittiva
34
ESEMPIO
• Una fabbrica produce viti per occhiali attraverso tre macchine di
lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa
un istogramma della loro lunghezza reale
Lunghezza
(mm)
0,85
0,90
0,95
1,00
1,05
1,10
1,15
1,20
1,25
1,30
1,35
1,40
1,45
1,50
1,55
1,60
1,65
1,70
1,75
1,80
Numero
0
2
8
25
40
136
90
31
7
1
2
4
22
40
18
2
1
1
0
0
160
140
120
100
80
60
40
20
0
0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80
Il fatto che vi è un secondo picco a 1.50 mm fa
pensare che una delle macchine stia lavorando
“male” ovvero sta producendo viti sistematicamente
più lunghe di quelle programmate.
Parte I - Statistica descrittiva
35
MEDIA PESATA SU CLASSI
• Talvolta occorre calcolare la media su di una tabella di
classi. Prendiamo ad esempio la tabella dei voti
suddivisa in classi
Voti
Numero di studenti
18-22
78
23-27
186
28-30
36
Poiché non conosciamo il numero relativo di studenti
relativo ad ogni voto, siamo costretti a scegliere un criterio
per assegnare un voto “medio” ad ogni classe. La scelta
più semplice è di considerare il valore centrale della
classe
Parte I - Statistica descrittiva
36
MEDIA PESATA SU CLASSI
Voti
Voto medio
Numero di
studenti
18-22
20
78
23-27
25
186
28-30
29
36
La media pesata su questa tabella vale 24,18 che è
solo leggermente diverso dal valore 24,31 calcolata
con la tabella non suddivisa in classi. In ogni caso la
suddivisione in classi provoca una “perdita di
informazioni” e quindi fornisce un valore meno
accurato per le variabili statistiche.
Parte I - Statistica descrittiva
37
TABELLE A DOPPIA ENTRATA
• Un caso più generale avviene quando una tabella incrocia due (o più)
variabili
y1
y2
…
yM
x1
n1,1
n2,1
…
n1,M
x2
n2,1
n2,2
…
n2,M
…
…
…
…
…
xN
nN,1
nN,2
nN,M
Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In
principio possono esistere anche tabelle che incrociano più di due variabili
(multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità
ci limiteremo a tabelle a doppia entrata.
Parte I - Statistica descrittiva
38
TABELLE A DOPPIA ENTRATA
• Esempio di tabella a doppia entrata. X=colore degli occhi,
Y=colore dei capelli
Rossi
Castani
Σ
Azzurri
5
3
1
9
Verdi
2
4
6
12
Σ
7
7
7
21
Marginali di colonna
Marginali di riga
Biondi
Totale generale
• Se X e Y qualitativi la tabella si dice di “contingenza”, se entrambi
quantitativi di “correlazione”, se uno qualitativo e uno
quantitativo si dice “tabella mista”.
Parte I - Statistica descrittiva
39
MARGINALI
M
• Marginali di riga
ni,• = ∑ ni, j
j=1
N
• Marginali di colonna
n•, j = ∑ ni, j
i=1
• Totale generale
N
M
N
M
n = ∑ ni,• =∑ n•, j =∑∑ ni, j
i=1
Parte I - Statistica descrittiva
j=1
i=1 j=1
40
ESEMPIO DI TABELLA A DOPPIA
ENTRATA
• Per esempio si supponga di avere la seguente tabella in cui si è misurato il
grado di astigmatismo residuo su due campioni di persone che hanno
eseguito due tecniche di chirurgia refrattiva (PRK o LASIK)
Asitig. (diottrie)
PRK
LASIK
ni*
0.0
2
1
3
0.1
5
2
7
0.2
7
5
12
0.3
11
4
15
0.4
9
7
16
0.5
4
8
12
0.6
2
6
8
0.7
1
4
5
0.8
0
1
1
0.9
1
1
2
1.0
0
1
1
n*j
42
40
82
L’ultima riga sono le persone che hanno effettuato un certo tipo di intervento,
l’ultima colonna sono le persone che hanno un certo grado di astigmatismo
residuo indipendentemente dal tipo di intervento.
Parte I - Statistica descrittiva
41
ISTOGRAMMA
• E’ possibile costruire un istogramma per entrambe
le entrate e il marginale di riga
16
14
12
PRK
10
8
LASIK
6
PRK+LASIK
4
2
0
0
0,1
0,2
0,3
PRK+LASIK
0,4
0,5
0,6
LASIK
0,7
0,8
PRK
0,9
1
Astig. (diottrie)
Parte I - Statistica descrittiva
42
MEDIE PARZIALI
• Le medie su di una riga o una colonna costituiscono le medie
parziali. Queste medie possono evidentemente essere effettuate se x
e/o y sono variabili quantitative
1 N
Xj =
ni, j xi
∑
n• j i=1
1 M
Yi = ∑ ni, j y j
ni• j=1
per esempio nel caso della tabella precedente possiamo calcolare
solo le medie di colonna poiché le variabili di riga sono qualitative.
Calcolando queste medie otteniamo separatamente l’astigmatismo
medio per chi ha eseguito l’intervento con la PRK e la LASIK ottenendo
(il calcolo è lasciato per esercizio):
• Media(PRK) = 0,32
• Media(LASIK) = 0,46
(attenzione: questo non induca alla facile conclusione che la LASIK è
peggiore della PRK!)
Parte I - Statistica descrittiva
43
MEDIE GENERALI
• Nelle tabelle a doppia entrata è anche possibile calcolare le
medie generali delle variabili quantitative. Queste sono
calcolate attraverso le formule
1 M
1 N
X = ∑ n•, j X j = ∑ ni,• xi
n j=1
n i=1
1 N
1 M
Y = ∑ ni,•Yi = ∑ n•, j y j
n i=1
n j=1
ovvero come “media pesata delle medie parziali“ oppure
come una media delle variabili stesse pesata con i marginali di
riga e di colonna (si può mostrare che si ha lo stesso risultato).
Parte I - Statistica descrittiva
44
ESEMPIO DI MEDIE GENERALI
• Riprendiamo l’esempio della tabella precedente: vogliamo
calcolare l’astigmatismo medio su tutto il campione
Asitig.
(diottrie)
PRK
LASIK
ni*
0.0
2
1
3
0.1
5
2
7
0.2
7
5
12
0.3
11
4
15
0.4
9
7
16
0.5
4
8
12
0.6
2
6
8
0.7
1
4
5
0.8
0
1
1
0.9
1
1
2
1.0
0
1
1
n*j
Media
42
0,32
40
0,46
82
Questo può essere effettuato in due modi
1) Calcoliamo la “medie delle medie”
pesando le medie sui marginali di
colonna
42 × 0, 32 + 40 × 0, 46
X=
= 0, 39
82
2) Mediamo direttamente la variabile x
usando come peso i marginali di riga
X=
0.0 × 3+ 0.1× 7 +... +1.0 ×1
= 0, 39
82
Il risultato è lo stesso ma avendo già le
medie parziali conviene il primo calcolo.
Parte I - Statistica descrittiva
45
ESERCIZIO
In questa tabella un certo numero di pazienti trattati con PRK vengono
classificati in base all alla correzione apportata e all’astigmatismo residuo dopo
l’operazione. Trovare le medie parziali di riga e di colonna e le medie generali.
Fare un istogramma delle medie parziali sia per le righe che per le colonne.
Cosa si potrebbe dedurne?
Astigmatismo residuo
Correzioneapportata
(diottrie)
•
0.0 ÷ 0.2
0.2 ÷ 0.4
0.4 ÷ 0.6
0.6 ÷ 0.8
0.8 ÷ 1.0
0÷2
7
4
2
1
0
2÷4
3
5
4
2
1
4÷6
2
8
4
3
2
6÷8
0
1
5
2
2
Parte I - Statistica descrittiva
46
MEDIA QUADRATICA
• Un tipo ulteriore di media è la media quadratica,
ovvero la radice quadrata della media dei
quadrati
N
∑x
Mq =
2
k
k=1
N
Tale media è utile quando i vari quando i vari xk sono
talvolta positivi e talvolta negativi mentre a noi
interessa una media che non dipenda dal segno
degli xk
Parte I - Statistica descrittiva
47
INDICE DI VARIABILITÀ
• A volte a noi non interessa solo la media ma di un
campione ma anche quanto questa si discosta
“mediamente” dalla media. Tuttavia, come detto in
precedenza, la media degli scarti è sempre zero
N
1
(xk − X) = 0
∑
N k=1
poiché alcuni scarti sono positivi e altri negativi. Questa
media non ci da quindi alcuna informazione sulla
variabilità. Una possibile soluzione sarebbe di prendere la
media dei valori assoluti degli scarti. Tuttavia, per diverse
ragioni, la scelta migliore è prendere la media quadratica
degli scarti
Parte I - Statistica descrittiva
48
SCARTO QUADRATICO MEDIO
• Si definisce scarto quadratico medio quindi la
media quadratica degli scarti
N
σ PX =
2
(x
−
X
)
∑ k
k=1
N
(la lettera s è il sigma greco minuscolo). Tuttavia
questa definizione ha il problema che per N=1 si ha
che lo scarto medio è zero mentre per un solo dato
noi vorremmo che lo scarto rimanga non definito.
Parte I - Statistica descrittiva
49
DEVIAZIONE STANDARD
• Per la ragione precedente si preferisce definire la “deviazione
standard” nella maniera seguente
N
2
(x
−
X
)
∑ k
σx =
k=1
N −1
un po’ più grande rispetto allo s.q.m.
• La deviazione standard è una misura della dispersione della
popolazione intorno alla media.
• Lo scarto quadratico medio (quello cioè con N al denominatore)
è talvolta definito come “deviazione standard di popolazione”.
Per N molto grande la differenza tra i due è minima.
• Il quadrato dello scarto quadratico medio è detto varianza
Parte I - Statistica descrittiva
50
DEVIAZIONE STANDARD
• Facciamo un esempio. Si supponga che Laura e Marco
abbiano preso abbia preso i seguenti voti in 10 esami
Laura={25,26,26,27,24,25,26,28,27,26}
Marco={30,22,24,28,27,30,18,24,30,27}
Come si vede entrambi hanno una media di 26. Però la
deviazione standard dei voti di Laura è di 1,15 mentre quella
di Marco è 3,97. Ciò indica che Laura è stata più costante
nello studio mentre Marco ha avuto periodi di alti e bassi…
• Notare che se avessimo usato lo scarto quadratico medio
avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei
precedenti.
Parte I - Statistica descrittiva
51
CALCOLO DELLA DEVIAZIONE
STANDARD
• Vediamo coma calcolare la deviazione standard (nel nostro
caso N=10)
Voto (x )
x -X
(x -X)2
k
k
k
25
-1
1
26
0
0
26
0
0
27
1
1
24
-2
4
25
-1
1
26
0
0
28
2
4
27
1
1
26
0
X=26
- 2=
∑(x -X)
-2 k
∑(xk-X) /(N-1)=
- 2/(N-1)=
√∑(x -X)
k
Parte I - Statistica descrittiva
0
12
12/9=1,33
√1,33=1,15
52
DEVIAZIONE STANDARD SU TABELLE
• Per calcolare la deviazione standard su una tabella
di frequenze occorre fare la media ponderata
N
σX =
1
2
nk (xk − x )
∑
N −1 k=1
con n al solito la numerosità del campione
N
N = ∑ nk
k=1
Parte I - Statistica descrittiva
53
CALCOLO DELLA DEVIAZIONE
STANDARD SU TABELLE
• Riprendiamo l’esempio della tabella dei voti
-
Voto (xk)
Studenti (nk)
nk(xk-X)2
18
2
79,72
19
6
169,39
20
11
204,65
21
24
263,48
22
35
187,30
23
38
65,54
24
49
4,81
25
35
16,50
26
33
93,88
27
31
223,76
28
19
258,24
29
12
263,58
30
5
161,69
X=24.31
- 2=
∑nk(xk-X)
∑nk(xk-X)2/(n-1) =
√∑nk(xk-X)2/(n-1) =
Parte I - Statistica descrittiva
1992,55
1992,55/299=6,66
√6,66=2,58
54
COEFFICIENTE DI VARIAZIONE
• E’ definito come il rapporto tra la deviazione standard è la media
CV (X) = σ X / X
Esempio: la media dei tempi di percorrenza dei treni sulla tratta MilanoRoma vale 350 minuti con una deviazione standard di 12 minuti,
mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione
standard di 8 minuti. Quale delle due tratte è più affidabile?
E’ evidente che non è possibile confrontare direttamente i due tempi
di percorrenza poiché si riferiscono a diverse tratte. Tramite l’indice di
variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo
caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili
poiché hanno una variabilità minore rispetto all’altra tratta.
Parte I - Statistica descrittiva
55
INTERDIPENDENZA TRA VARIABILI
DIVERSE
• A volte ci si chiede se ci può essere una qualche “relazione” tra due
variabili X e Y. Per esempio se esiste una relazione tra ore passate al
computer e problemi visivi (ad es. miopia). Si supponga per esempio
di avere questa tabella in cui la miopia media di un campione di
bambini viene messa in relazione alle ore giornaliere passate
mediamente a giocare con la playstation.
Ore passate a
giocare
0
1
2
3
4
5
Miopia media
0,8
1,3
1,2
2,4
2,7
3,2
Di questi dati è sempre buona norma fare un grafico!
Parte I - Statistica descrittiva
56
GRAFICO A DISPERSIONE
(SCATTER PLOT)
• Apparentemente c’è una qualche dipendenza della miopia
con il numero di ore passate a giocare ma come quantificare
questa dipendenza?
3,5
Miopia media
3,0
2,5
2,0
1,5
1,0
0,5
0,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
Numero di ore medie giornaliere passate a giocare
Un primo possibile indicatore è il coefficiente di correlazione
lineare
Parte I - Statistica descrittiva
57
COVARIANZA
• La covarianza tra due serie di dati è definita da
N
∑(x
COV (X,Y ) =
-
-
k
− X)(yk −Y )
k=1
N
con X e Y medie di xk e yk. Questo coefficiente è la media
del prodotto degli scarti. Questo coefficiente è positivo se
mediamente i segni degli scarti sono “concordi” (ovvero
se quando uno è positivo lo è anche l’altro) e negativo
quando sono discordi(cioè se uno è negativo, l’altro è
positivo e viceversa.
Se non c’è relazione tra i due segni la covarianza tende
ad annullarsi.
Parte I - Statistica descrittiva
58
COVARIANZA
• Nel caso precedente per esempio si vede che c’è
concordanza, in effetti la covarianza è positiva e vale +0,77
X=2,50
3,5
3,0
“+”
Miopia
2,5
“+”
Y=1,93
2,0
“-”
1,5
“-”
1,0
0,5
0,0
0,0
1,0
2,0
3,0
4,0
Parte
I -medie
Statistica
descrittiva
Numero
di ore
giornaliere
passate a giocare
5,0
6,0
59
CORRELAZIONE
-
-
• Detti xk e yk due serie di N dati con media X e Y si definisce coefficiente
di correlazione tra X e Y la quantità
N
COV (X,Y )
R(X,Y ) =
=
P P
σ Xσ Y
∑( x
k
)(
− X yk −Y
k=1
N
∑( x
k=1
k
−X
2
)
N
) ∑( y
k
k=1
−Y
)
2
Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha
questo significato.
• Più R è vicino a 1 più vi è una “concordanza” tra le due variabili (al
crescere di una cresce l’altra)
• Più R è vicino a -1 più vi è una “discordanza” tra le due variabili (al
crescere di una decresce l’altra)
• Se R è vicino a zero vi è “indipendenza” tra le variabili.
Parte I - Statistica descrittiva
60
CALCOLO DEL COEFFICIENTE DI
CORRELAZIONE
Ore passate
a giocare
0,0
1,0
2,0
3,0
4,0
5,0
(x-X)
-2,5
6,3
0,8
-1,1
1,3
2,8
-1,5
2,3
1,3
-0,6
0,4
0,9
-0,5
0,3
1,2
-0,7
0,5
0,4
0,5
0,3
2,4
0,5
0,2
0,2
1,5
2,3
2,7
0,8
0,6
1,2
2,5
6,3
3,2
1,3
1,6
3,2
-2
(x-X)
Miopia media
(y-Y)
-2
(y-Y)
- (x-X)(y-Y)
Media=2,50
∑=17,50
Media=1,93
∑=4,6
∑=8.7
Il coefficiente di correlazione vale quindi
8.7
R=
= 0.97
17.5 × 4.6
il che indica che vi è un forte grado di relazione tra le ore passate a
giocare e la miopia.
Parte I - Statistica descrittiva
61
CUM GRANO SALIS…
• Occorre sempre stare attenti però che non è detto che anche se c’è un
grado di relazione tra le due variabili vi è necessariamente una relazione
causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali
come per esempio che l’aumento temperatura globale sulla terra è causata
dalla diminuzione del numero di pirati…
R=-0,93
Parte I - Statistica descrittiva
62
REGRESSIONE
• Ci si chiede se tra le variabili X e Y esista una qualche
relazione funzionale, cioè se esista una espressione Y=f(X)
dove f è una qualche funzione che in qualche maniera
approssimi i dati. La ricerca di una tale funzione è detta
“regressione”
• Questa relazione funzionale può essere nota a priori (per
esempio è noto che tra il peso di un corpo e il suo volume
esiste una relazione lineare) oppure no. In questo secondo
evidentemente non esiste una scelta univoca caso dallo
studio del grafico a dispersione si potrebbe dedurre qual è il
tipo di grafico più opportuno che approssima i dati.
Parte I - Statistica descrittiva
63
REGRESSIONE
• In generale, quando si hanno a disposizione pochi punti è molto difficile
stabilire qual è la funzione più opportuna
4,0
esponenziale
3,5
Miopia media
3,0
2,5
polinomio
2,0
1,5
1,0
0,5
0,0
0,0
1,0
2,0
3,0
4,0
5,0
6,0
Numero di ore medie giornaliere passate a giocare
Nel caso del polinomio abbiamo una “interpolazione”, ovvero una curva che
passa per tutti i punti. In generale non ci interessa una tale relazione funzionale,
I - Statistica descrittiva
ma di una curva che si limiti adParte
“approssimare”
i dati.
64
REGRESSIONE
• Con un gran numero di dati è più facile inferire la forma
funzionale: Per esempio nel caso seguente è abbastanza
evidente che i dati sono ben interpolati da una retta.
35
30
25
20
15
10
5
0
0
2
4
6
Parte I - Statistica descrittiva
8
10
12
65
REGRESSIONE LINEARE
• Qui noi ci occuperemo per semplicità del modello
più semplice di regressione, ovvero quando i dati
possono essere approssimati da una retta, ovvero
da una relazione funzionale del tipo
Y = A⋅ X + B
con A e B variabili da determinare. Questo modello
è detto di regressione lineare.
Parte I - Statistica descrittiva
66
PRINCIPIO DEI MINIMI QUADRATI
• Per determinare i coefficienti A e B è possibile ricorrere al
principio dei minimi quadrati (valido anche nel caso di
regressioni non lineari).
• Siano xk e yk sono i nostri dati. Il valore teorico di y associato al
valore xk è dato da ŷk=Axk+B.
3,5
3,0
2,5
(xk, ŷk)
°
Y
2,0
1,5
(xk,yk)
1,0
0,5
0,0
0,0
1,0
2,0
3,0
X
4,0
5,0
Parte I - Statistica descrittiva
6,0
67
METODO DEI MINIMI QUADRATI
• Possiamo calcolare la somma dei quadrati degli scarti tra gli
yk e i valori teorici ŷk=Axk+B.
N
2
N
Q(A, B) = ∑ ( yk − ŷk ) = ∑ ( yk − Axk − B)
k=1
2
k=1
questa quantità ci da una misura delle differenze tra i valori reali
e quelli teorici delle y. Essa è una funzione delle variabili
incognite A e B. I valori di A e B cercati sono quelli che
minimizzano questa funzione, ovvero che rendono minima la
differenza del quadrato degli scarti della relazione teorica con i
dati reali.
Parte I - Statistica descrittiva
68
METODO DEI MINIMI QUADRATI
• La minimizzazione si effettua tramite le tecniche standard
dell’analisi, ovvero derivando la funzione Q(A,B) rispetto ad A
e a B e ponendo le derivate uguali a zero. Viene qui omessa
la dimostrazione e viene dato direttamente il risultato
σY
A=R
σX
B = Y − AX
dove R è il coefficiente di correlazione tra i dati. Come si vede il
coefficiente angolare della retta e il coefficiente di correlazione
sono legati tra di loro. In particolare se R>0 la retta è crescente,
se R<0 decrescente (come ragionevole sia!)
Parte I - Statistica descrittiva
69
ESEMPIO DI REGRESSIONE LINEARE
• Riprendiamo l’esempio della miopia in funzione delle ore
passate a giocare:
Ore
passate a
giocare
Miopia
media
Media
Dev. st.
0,0
1,0
2,0
3,0
4,0
5,0
2,50
2,5
1,71
0,8
1,3
1,2
2,4
2,7
3,2
1,93
1,9
0,88
Ricordiamo che R=0,97. Usando le formule precedenti si ha
0,88
= 0, 50
1, 71
B = 1, 9 − 0, 50 × 2, 5 = 0, 69
3,5
3,0
A = 0, 97
Miopia
2,5
2,0
y = 0,50x + 0,69
R² = 0,93
1,5
1,0
0,5
0,0
0,0
Parte I - Statistica descrittiva
2,0
4,0
Ore passate a giocare
6,0
70
COEFFICIENTE DI DETERMINAZIONE
•
Dalle relazioni precedenti abbiamo che per la retta di regressione la somma dei
quadrati degli scarti vale
2
"
%
σY
Q = ∑$ yk −Y − R
(xk − X)'
σX
&
k=1 #
N
dopo qualche calcolo, ricordando la definizione di R si ottiene la relazione
Q
= σ Y2 (1− R 2 )
N −1
In pratica:
1) se R2=1 si ha Q=0 e la retta passa esattamente per tutti i punti (determinazione
perfetta)
2) Se R2=0 si ha Q/(N-1)=sY2, l’errore quadratico medio non è migliore della varianza.
La regressione non porta a nessun miglioramento di informazione (indifferenza o
determinazione nulla)
R2 è detto “coefficiente di determinazione” e la regressione porta un risultato tanto
migliore quanto questo è più vicino a 1.
Parte I - Statistica descrittiva
71
PREVISIONE
• L’uso della regressione serve per fornire una
“previsione” (o estrapolazione) dei valori y per valori
x diversi da quelli dall’insieme xk.
• Per esempio, nel caso dell’esercizio precedente vogliamo
prevedere la miopia di un soggetto che passa 6 ore al
giorno davanti alla playstation. Usando l’equazione della
retta avremo
y = 0, 50 × 6, 0 + 0, 69 = 3, 7
si noti comunque che questa è solo una rozza estrapolazione.
Valori reali potrebbero essere diversi da questa previsione.
Parte I - Statistica descrittiva
72
MISURE DI CONNESSIONE
• Passiamo ad un altro esempio di verifica di relazioni. Si supponga
di voler verificare se l’uso di lenti bifocali può dar luogo a disturbi
di emicrania ad alcuni pazienti. Vengono intervistati 94 pazienti e
viene estratta la seguente tabella di contingenza
Ha frequenti
emicranie
Non frequentii
emicrania
Usa lenti bifocali
Non lenti bifocali
41
12
53
8
33
41
49
45
94
Ovviamente ci possono essere altre cause per l’emicrania però
apparentemente sembra esserci una prevalenza di persone che
usano lenti bifocali che ha problemi, cioè una connessione tra l’uso
di lenti ed emicranie. Vogliamo quantificare questa connessione.
Parte I - Statistica descrittiva
73
NUMERO TEORICO IN ASSENZA DI
CONNESSIONE
• Per capire se vi è una effettiva connessione dei due caratteri
o se il fatto che l’eccesso di persone che usa lenti bifocali con
emicrania sia solo un fatto casuale dobbiamo confrontare
questa tabella con quella teorica in cui i due caratteri sono
indipendenti.
• Per esempio: il numero atteso di persone sul campione di 94
persone che che usa lenti bifocali e ha problemi di emicrania
se non vi fosse nessuna connessione tra le due cose sarebbe
49
n =
⋅ 53 = 27, 6
94
*
1,1
Numero di persone con emicrania
Frazione di persone sul totale che usa lenti bifocali
Parte I - Statistica descrittiva
74
TABELLA TEORICA DI INDIPENDENZA
• In pratica per ogni elemento ij il numero teorico si calcola
come segue
i,•
•, j
*
i, j
n ⋅n
n =
n
ovvero moltiplicando i marginali di riga e colonna
corrispondenti e dividendo per il numero totale (non fa nulla se
non è un numero intero). Per esempio per la tabella precedente
la tabella teorica sarebbe.
Ha frequenti
emicranie
Non frequentii
emicrania
Usa lenti bifocali
Non lenti bifocali
27,6
25,4
53
21,4
19,6
41
49
45
94
Parte I - Statistica descrittiva
75
INDICE DI CONNESSIONE
(O CHI-QUADRO DI PEARSON)
• Per confrontare la tabella teorica con quella reale
è possibile utilizzare il c2 (leggesi chi-quadrato) di
Pearson definito come
* 2
2
N M
(n
−
n
)
n
χ 2 = ∑∑ i, j * i, j = ∑∑ *i, j − n
ni, j
i=1 j=1
i=1 j=1 ni, j
N
M
dove N e M sono il numero di righe e di colonne della
tabella (2 e 2 nel nostro esempio).
Parte I - Statistica descrittiva
76
CHI-QUADRATO DI PEARSON
• Nel nostro caso avremmo quindi
Tabella nij
Tabella n*ij
Usa lenti bifocali Non lenti bifocali
Ha frequenti
emicranie
Non frequentii
emicrania
41
12
8
33
Ha frequenti
emicranie
Non frequentii
emicrania
Usa lenti bifocali
Non lenti bifocali
27,6
21,4
25,4
19,6
(41− 27, 6)2 (12 − 25, 4)2 (8 − 21, 4)2 (33−19, 6)2
χ =
+
+
+
= 31
27, 6
25, 4
21, 4
19, 6
2
resta da capire come interpretare questo numero…
Parte I - Statistica descrittiva
77
CHI-QUADRATO DI PEARSON
• E’ possibile dimostrare che il c2 è un numero sempre
compreso tra 0 e il n moltiplicato per il valore minimo tra
il numero di righe meno 1 o il numero di colonne meno 1
0 ≤ χ 2 ≤ n ⋅ min(N −1, M −1)
• E’ evidente che il valore 0 si può ottenere solo quando
la tabella dei dati coincide esattamente con i valori
teorici, cioè non c’è una dipendenza tra i caratteri
• Di conseguenza: tanto più il valore di c2 si avvicina al
valore massimo teorico tanto più c’è dipendenza tra i
due caratteri.
Parte I - Statistica descrittiva
78
CHI-QUADRATO DI PEARSON
• Nel nostro caso abbiamo N=M=2 quindi il valore
massimo teorico è uguale a n=94.
• Il valore di c2=31indica che c’è un livello medio di
associazione, ovvero che c’è una certa
dipendenza tra il portare lenti bifocali e l’avere
spesso emicranie.
• Nello studio della statistica inferenziale si vedrà
come quantificare meglio questo grado di
associazione nel cosiddetto test del c2.
Parte I - Statistica descrittiva
79
CHI-QUADRATO DI PEARSON
• Facciamo un esempio più complesso. Supponiamo
di voler testare l’efficacia di un farmaco. A un
gruppo di 50 pazienti si somministra un farmaco
tradizionale e all’altro un nuovo principio attivo.
Farmaco
Convenzionale
Nuovo farmaco
Nessun miglioramento
15
2
17
Moderato
miglioramento
Consitente
miglioramento
15
17
32
20
31
51
50
50
100
Parte I - Statistica descrittiva
80
CHI-QUADRATO DI PEARSON
• In apparenza il secondo farmaco è più efficace. La tabella
dei valori teorici vale
Farmaco
Convenzionale
Nuovo farmaco
Nessun miglioramento
8,5
8,5
17
Moderato
miglioramento
Consitente
miglioramento
16
16
32
25,5
25,5
51
50
50
100
Se adesso calcoliamo il c2 otteniamo c2=12,4. Questo numero
deve essere confrontato con 100*min(N-1,M-1)=100*min(1,2)
=100. Come si vede, nonostante le apparenze il c2 è modesto.
Questo ci fa pensare che probabilmente il nuovo farmaco non
è molto più efficace del vecchio.
Parte I - Statistica descrittiva
81
FINE PARTE I
• Copia di questa presentazione in formato PDF può
essere trovato all’indirizzo
http://www.le.infn.it/~montanin/
Parte I - Statistica descrittiva
82