23/05/2014
Esercitazione 2
22.5.2014
(AVVISI)
RIEPILOGO STATISTICHE (NOTA)
TEST DEL CHI2
Accedere alle macchine con
LOGIN: esame
PASSWORD: didattica
AVVISO
Valutazione prova intercorso
Vincolo di accesso alla seconda prova
Oggi lavoriamo usando la procedura vista per la
prova intercorso: cliccate sull’icona Esame_P13
1
23/05/2014
Esercizio
La tabella nel file peso_tavolette.xlsx riporta il peso in grammi di un
campione di 100 tavolette di cioccolato.
a) Fornire una tabella delle statistiche studiate relative ai dati contenuti
nella tabella, che contenga, oltre alle statistiche standard (media,
mediana, …. Curtosi…) anche il Secondo più grande e il Terzo più
piccolo, utilizzando la funzione Riepilogo statistiche.
b) Ripetere l’esercizio (di cui al punto a)) senza far uso della funzione
Riepilogo statistiche, ma calcolando i valori necessari (media,
mediana, etc.) con le opportune funzioni di Excel, in modo che la
tabella risultante sia identica a quello fornita al punto a).
Mantenere il foglio Dati inalterato, e svolgere il punto a) in un foglio
nominato Svolgimento a), e il punto b) in un foglio nominato
Svolgimento b).
Esempio 6.1
PROVIAMO
La tabella peso_tavolette.xlsx riporta il peso in grammi
di un campione di 100 tavolette di cioccolato.
Proviamo a richiamare la funzione Riepilogo statistiche
2
23/05/2014
Esempio 6.1
Media
Errore standard
Mediana
Moda
99,79652336
0,010062453
99,79312502
#N/D
Deviazione standard
Varianza
campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(2)
Più piccolo(3)
0,100624532
Non
esistono
duplicati
0,010125296
0,083114239
0,069723767
0,484818884
99,55261744
100,0374363
9979,652336
100
100,0121
99,57665
Funzioni del Riepilogo statistiche
Manualmente:
Riepilogo statistiche
Media
Errore standard
Mediana
Moda
Deviazione standard
Varianza campionaria
Curtosi
Asimmetria
Intervallo
Minimo
Massimo
Somma
Conteggio
Più grande(2)
Più piccolo(3)
=MEDIA(A2:A101)
=G6/RADQ(G14)
=MEDIANA(A2:A101)
=MODA(A2:A101)
Non hanno
=DEV.ST(A2:A101)
funzione
=VAR(A2:A101)
esplicita
=CURTOSI(A2:A101)
=ASIMMETRIA(A2:A101)
=MAX(A2:A101)-MIN(A2:A101)
=MIN(A2:A101)
=MAX(A2:A101)
=SOMMA(A2:A101)
=CONTA.NUMERI(A2:A101)
=GRANDE(A2:A101;2)
=PICCOLO(A2:A101;3)
3
23/05/2014
Test chi2
Test di significatività non parametrico (non basata su
una distribuzione probabilistica) che viene usato per
valutare se i valori di frequenza ottenuti tramite una
rilevazione sono diverse in maniera significativa
dalle frequenze ottenute con la distribuzione teorica
Questo test ci permette di rifiutare o accettare
un’ipotesi data.
Passi per effettuare un test di significatività
Ipotesi H0:
Non esiste correlazione tra i dati
Test di significatività
no
Rifiuto H0
χ2 <χ2C
si
Accetto H0
4
23/05/2014
Calcolo di χ2 e χ2C
Per calcolare χ2 abbiamo due strategie:
usando la funzione TEST.CHI di excel,
a mano.
Per calcolare χ2C occorre conoscere il livello di
significatività α (prob. di accettare o rigettare l’ipotesi
nulla) e i gradi di libertà (quantità delle frequenze
sperimentali che devo conoscere direttamente). Si può
conosce in due modi:
consultando la tabella della distribuzione χ2
usando la funzione Excel INV.CHI
Quindi più velocemente:
ACCETTO se TEST.CHI(int_effettivo; int_previsto) > α
Confronto dato empirico e dato teorico
modalità
testa
croce
n=
frequenze
empiriche:
fe
499
501
1000
probabilità
teoriche: p
0,5
0,5
frequenze
teoriche:
ft=p*n
500
500
funzione test
χ2=
livello di
significativita'
α=
valore critico
χc2=
2
(fe - ft) / ft
0,002
0,002
0,004
0,05
Tratto dalle
slides delle
lezioni in aula
Confrontare χ2
col valore
teorico nel caso
di moneta non
truccata
3,841458821
Il valore critico lo posso ottenere dalla tabella dei valori della distribuzione χ2, in funzione di α
e dei gradi di libertà, o calcolarlo direttamente con INV.CHI(probabilità; gradi_libertà), dove
gradi di libertà = quantità delle frequenze sperimentali che devo conoscere direttamente.
Nel nostro esempio:
α = 0,05 e gradi di libertà = 1 (perché basta conoscere p per ottenere q=1-p)
χ2 c = INV.CHI(0,05;1) = 3,841458821
5
23/05/2014
Funzione TEST.CHI
TEST.CHI(B2:B3;D2:D3) = 0,950
Indica direttamente che il valore di χ2 (0,004) corrisponde a χ20,950
Dato che 0,950 > 0,05: ACCETTO l’ipotesi nulla!
Esempio dal libro di fisica
La tabella mostra 40 misurazioni di una variabile.
Vogliamo valutare col test di χ2 la concordanza con una distribuzione normale di Gauss.
731
772
771
681
722
688
653
757
733
742
739
780
709
676
760
748
672
687
766
645
678
748
689
810
805
778
764
753
709
675
698
770
754
830
725
710
738
638
787
712
Procediamo come segue. Calcoliamo la media X, la deviazione standard σ.
Stabiliamo di considerare i valori nei 4 intervalli individuati da X - σ, X, X + σ.
Per ogni intervallo calcoliamo le frequenze empiriche, date del numero di valori che
ricadono in quell’intervallo. Come si fa?
calcoliamo il numero di valori ≤ X - σ, X, X + σ, rispettivamente, con la funzione
CONTA.PIÙ.SE(A1:J4;"< X - σ"), eccetera. Otteniamo:
X ≤ 683,3
X ≤ 730,1
X ≤ 776,9
X>776,9
frequenze
ausiliare
8
18
34
6
6
23/05/2014
Calcolo probabilità intermedie
Calcoliamo ora le probabilità teoriche concordi ad una
distribuzione normale. Come passo intermedio calcoliamo:
P(X ≤ 683,3) = DISTRIB.NORM.N(683,3;$B$9;$B$10;VERO)
e similmente per le altre. Otteniamo:
frequenze
ausiliare
8
18
34
6
X ≤ 683,3
X ≤ 730,1
X ≤ 776,9
X>776,9
Rispettivamente
la media e la
deviazione
standard
probabilità
ausiliare
0,16
0,50
0,84
0,50
Calcolo probabilità teoriche
Con i valori calcolati nella slide precedente, possiamo ora calcolare:
k
Intervallo
frequenze probabilità
empiriche Ok teoriche pk
frequenza
teorica Ek
2
(fe-ft) /ft
1
0< X ≤ 683,3
8
0,16
6,3
0,4320
2
683,3< X ≤ 730,1
10
0,34
13,7
0,9825
3
730,1< X < 776,9
16
0,34
13,7
0,4018
4
X >776,9
6
0,16
6,3
0,0176
χ = 1,8340
2
Per esempio:
P(683,3< X ≤ 730,1) = P(X ≤ 730,1) - P(X ≤ 683,3).
Ek = pk * n, dove n=CONTA.VALORI(A1:J4)
Il valore χ2 è ottenuto come la somma dei valori soprastanti.
7
23/05/2014
Considerazioni finali
Infine calcolo il valore critico con cui confrontare con
INV.CHI(0,05;1) ed accetto se χ2 è minore di tale valore
χ = 1,8340
2
valore critico = 3,84
risultato: accetto H0
In questa cella scriverò la funzione
SE(F26<F28; "accetto H0";"rifiuto H0").
se χ2 < χ2c
731
739
678
698
772
780
748
770
n=
minimo=
40
638
massimo=
830
X media=
730,1
σ dev. standard=
46,8
X-σ=
683,3
X+σ=
776,8
771
709
689
754
681
676
810
830
frequenze probabilità
empiriche Ok teoriche pk
722
760
805
725
688
748
778
710
frequenza
teorica Ek
(fe-ft) /ft
0,16
6,3
0,4320
10
0,34
13,7
0,9825
16
0,34
13,7
0,4018
X >776,9
6
0,16
6,3
0,0176
X ≤ 683,3
X ≤ 730,1
X ≤ 776,9
X>776,9
frequenze
ausiliare
8
18
34
6
probabilità
ausiliare
0,16
0,50
0,84
0,16
k
Intervallo
1
0< X ≤ 683,3
8
2
683,3< X ≤ 730,1
3
730,1< X < 776,9
4
653
672
764
738
757
687
753
638
733
766
709
787
742
645
675
712
2
χ2 = 1,8340
valore critico = 3,84
risultato: accetto H0
8
23/05/2014
Esempio
Un’associazione ambientalista sostiene che
un’azienda X ha riversato in un fiume rifiuti tossici
che hanno provocato cambiamenti nella
distribuzione “maschi-femmine” nella categoria dei
pesci Fish. Vengono riportati i seguenti dati empirici,
per 4 rami del fiume
Freq.emp.
Maschi
Femmine
totale
Ramo A
53
43
96
Ramo B
35
22
57
Ramo C
48
39
87
Ramo D
18
12
30
Totale
154
116
270
Esempio
Il giudice, per condannare l’azienda, ha bisogno del
test di significatività del chi2, per capire se accettare
o rifiutare l’ipotesi (nulla): “Il rapporto maschifemmine è 1:1”.
Controllare cosa accade se il campione è unico (senza
suddividere sui rami)
Freq.emp.
Maschi
Femmine
totale
Ramo A
53
43
96
Ramo B
35
22
57
Ramo C
48
39
87
Ramo D
18
12
30
Totale
154
116
270
9
23/05/2014
Rivediamo un esempio
Effettuando 50 lanci di un dado si sono ottenuti:
9
11
5
8
10
7
uno
due
tre
quattro
cinque
sei.
Vogliamo valutare se il dado è equo.
Confrontiamo le frequenze ottenute con quelle teoriche
della distribuzione uniforme, corrispondente ai dadi equi.
Per valutarne la discordanza, calcoliamo il relativo χ2.
Con Excel (senza usare TEST.CHI)
modalità
1
2
3
4
5
6
frequenze
empiriche:
fe
9
11
5
8
10
7
n=
50
probabilità
teoriche: p
0,1667
0,1667
0,1667
0,1667
0,1667
0,1667
frequenze teoriche:
ft=p*n
8,333333333
8,333333333
8,333333333
8,333333333
8,333333333
8,333333333
(fe - ft) 2/ ft
0,053333333
0,853333333
1,333333333
0,013333333
0,333333333
0,213333333
funzione test χ 2=
2,8
livello di
significativita' α=
valore critico χc2=
0,05
11,07049769
risultato:
si accetta l'ipotesi
nulla
Confrontare
χ2 col valore
teorico nel
caso di dadi
equi
gradi di libertà = 5 (perché occorre conoscere 5 frequenze per ottenere anche la sesta)
INV.CHI(0,05;5) = 11,07049769
2,8 < 11,07049769 quindi ACCETTO
10
23/05/2014
Con la funzione TEST.CHI
TEST.CHI(B2:B7;D2:D7) = 0,731
Indica direttamente che il valore di χ2 corrisponde a χ20,731
Dato che 0,731 > 0,05: ACCETTO!
Uso la funzione: SE(D11>D10; "ACCETTO H0";"RIFIUTO H0")
Per casa
Rivedete tutta la lezione 6 e anche l’esempio alla fine
(relazione tra l’influenza e prendere o meno
l’autobus)
11