IL TEST DEL CHI QUADRATO

3/27/12
Il e
del chi
ad a o
MA TEMA TICA
E CRITTOLOGIA
IL TEST DEL CHI QUADRATO
C RITTA NA LISI DEL V IGENERE CON IL
TEST CHI QUA DRA TO
- FREQUEN
A DI UN TESTO
Il test del 2 permette di confrontare una serie di dati osservati sperimentalmente con la serie dei
dati attesi in base a un'ipotesi teorica e di stimare la bontà di questa ipotesi; rientra quindi nella famiglia
dei cosiddetti test delle ipotesi.
Il metodo consiste nel calcolare per tutti i dati, la differenza tra il dato atteso (ei) e quello osservato
(oi), elevarla al quadrato e dividere per il dato atteso, e quindi sommare tutti questi valori; in formula:
(ei - oi)2
2 = Σ ----------ei
Questo valore, che prende appunto il nome di 2, misura la differenza complessiva tra dati osservati
e dati attesi. È poi possibile calcolare la probabilità che si verifichi una differenza di tale valore e quindi di
farsi un'idea sulla verosimiglianza di una tale differenza.
Come
esempio
1
2
3
4
5
6
7
supponiamo di lanciare 120
A
1
2
3
4
5
6
volte un dado allo scopo di
B
OSSER ATI 17
23
21
25
15
19
controllare se il dado è buono o
truccato e di ottenere la
C
ATTESI 20
20
20
20
20
20
distribuzione
di
frequenze
riportata nella tabella stile Excel qui a destra:
I valori attesi sono dati dal calcolo delle probabilità: essendo la probabilità di ottenere un qualsiasi
numero 1/6, su 120 lanci il valore atteso sarà 120*1/6 = 20.
Il 2 si calcola allora così:
(20 - 17)2
(20 - 23)2
(20 - 21)2
(20 - 25)2
(20 - 15)2
(20 - 19)2
2 = ----------- + ----------- + ----------- + ----------- + ----------- + ----------- =
20
20
20
20
20
20
9 + 9 + 1 + 25 + 25 + 1
70
-------------------------- = ---- = 3,5
20
20
Il 2 vale dunque 3,5. Questo numero ci dà una misura della deviazione della distribuzione
dall'ipotesi teorica. Ma in questo caso 3,5 è tanto o poco?
Per rispondere a questa domanda è stata studiata la distribuzione del 2 che permette di calcolare
la probabilità che il 2 abbia un certo valore; la probabilità dipende anche da N numero dei gradi di
libertà che è il numero dei parametri che possiamo dare liberamente senza violare i vincoli del problema.
In questo caso ci sono sei frequenze attese, ma dovendo essere il totale pari a 120, solo 5 frequenze
sono libere e dunque N = 5.
I manuali di statistica riportano tabelle del 2 e oggi molti software hanno funzioni 2 già pronte, per
esempio Excel ed OO Calc hanno tre funzioni relative al test 2:
=DISTRIB.CHI(C; N): calcola la probabilità che per N gradi di libertà il 2 sia maggiore di C; nel
nostro esempio =DISTRIB.CHI(3.5; 5) = 0,6234 probabilità che 2 > 3.5.
=TEST.CHI(O; A): calcola la probabilità che dati i valori attesi A si osservino i valori O o valori ancor
più distanti da quelli attesi; nel nostro esempio si scriverà: =TEST.CHI(B2:B7; C2:C7) = 0,6234
(come sopra, ovviamente).
=IN .CHI(P; N): calcola per N gradi di libertà il valore di 2 tale che sia P la probabilità di avere un
2 maggiore o uguale a quello; nel nostro esempio =IN .CHI(0.6234; 5) dà ovviamente 3.5; in altre
c i o.liceofo ca ini.i /ma e/chi_
ad a o.h ml
1/2
3/27/12
Il e
del chi
ad a o
parole per 5 gradi di libertà e una probabilità del 62.34% il valore limite di 2 è 3,5.
Nel nostro esempio il valore di 2 pari a 3,5 ha una probabilità del 62,34%, nel senso che ci sono
62,34% probabilità che in 120 lanci di dadi si riscontrino deviazioni dalla media uguali o maggiori di
questa (con 2 > 3,5).
Dobbiamo quindi concludere che non c'è motivo di sospettare che il dado sia truccato.
Va detto che anche valori troppo piccoli del 2, troppo buoni insomma, possono dare adito a
sospetti!
In questi casi di solito si considerano critici valori di probabilità di 0.10, 0.05, 0.01 e si effettuano
test a questi livelli; se la probabilità risulta minore di questi vuol dire che si è verificato qualcosa di molto
improbabile e che quindi c'è da sospettare che l'ipotesi sia sbagliata (qui che il dado non sia buono nel
senso di avere probabilità uguali per tutte le facce).
Molti libri di statistica usano valori complementari a quelli usati da Excel e OO Calc; invece di una
probabilità di 0,6234 qui avremmo ottenuto 0,3766 che è la probabilità di avere un 2 minore di quello
ottenuto. In questi libri i test di cui sopra sono riportati come test allo 0.90, allo 0.95, allo 0.99.
Questo metodo può essere anche usato per confrontare diverse ipotesi con i dati sperimentali e
scegliere quella che meglio si accorda con questi: in crittanalisi può servire, dato un messaggio cifrato a
trovare il cifrario; come è ragionevole tra tutte le ipotesi possibili si sceglie quella con il 2 più piccolo.
Come esempi di uso del 2, riporto la crittanalisi statistica del Vigenere, e l'individuazione della lingua di un
testo.
Fon i bibliografiche e collegamen i
MURRAY R. SPIEGEL, Statistica, Etas-Libri (Schaum) Milano 1976
Microsoft Excel: funzioni statistiche
Open Office Calc
Testi e foto possono essere riprodotti liberamente a condi ione che venga citata esplicitamente
con un link la fonte e il nome dell'autore, e che la cosa sia fatta sen a fini di lucro.
Pagina a cura di Paolo Bona oglia (paolo.bona [email protected]) del
Liceo Classico M.Foscarini Vene ia
La Crittografia da Atbash a RSA
Scriveteci via E-Mail
Firmate il registro visitatori
Glossario
Bibliografia
c i o.liceofo ca ini.i /ma e/chi_
ad a o.h ml
2/2