3/27/12 Il e del chi ad a o MA TEMA TICA E CRITTOLOGIA IL TEST DEL CHI QUADRATO C RITTA NA LISI DEL V IGENERE CON IL TEST CHI QUA DRA TO - FREQUEN A DI UN TESTO Il test del 2 permette di confrontare una serie di dati osservati sperimentalmente con la serie dei dati attesi in base a un'ipotesi teorica e di stimare la bontà di questa ipotesi; rientra quindi nella famiglia dei cosiddetti test delle ipotesi. Il metodo consiste nel calcolare per tutti i dati, la differenza tra il dato atteso (ei) e quello osservato (oi), elevarla al quadrato e dividere per il dato atteso, e quindi sommare tutti questi valori; in formula: (ei - oi)2 2 = Σ ----------ei Questo valore, che prende appunto il nome di 2, misura la differenza complessiva tra dati osservati e dati attesi. È poi possibile calcolare la probabilità che si verifichi una differenza di tale valore e quindi di farsi un'idea sulla verosimiglianza di una tale differenza. Come esempio 1 2 3 4 5 6 7 supponiamo di lanciare 120 A 1 2 3 4 5 6 volte un dado allo scopo di B OSSER ATI 17 23 21 25 15 19 controllare se il dado è buono o truccato e di ottenere la C ATTESI 20 20 20 20 20 20 distribuzione di frequenze riportata nella tabella stile Excel qui a destra: I valori attesi sono dati dal calcolo delle probabilità: essendo la probabilità di ottenere un qualsiasi numero 1/6, su 120 lanci il valore atteso sarà 120*1/6 = 20. Il 2 si calcola allora così: (20 - 17)2 (20 - 23)2 (20 - 21)2 (20 - 25)2 (20 - 15)2 (20 - 19)2 2 = ----------- + ----------- + ----------- + ----------- + ----------- + ----------- = 20 20 20 20 20 20 9 + 9 + 1 + 25 + 25 + 1 70 -------------------------- = ---- = 3,5 20 20 Il 2 vale dunque 3,5. Questo numero ci dà una misura della deviazione della distribuzione dall'ipotesi teorica. Ma in questo caso 3,5 è tanto o poco? Per rispondere a questa domanda è stata studiata la distribuzione del 2 che permette di calcolare la probabilità che il 2 abbia un certo valore; la probabilità dipende anche da N numero dei gradi di libertà che è il numero dei parametri che possiamo dare liberamente senza violare i vincoli del problema. In questo caso ci sono sei frequenze attese, ma dovendo essere il totale pari a 120, solo 5 frequenze sono libere e dunque N = 5. I manuali di statistica riportano tabelle del 2 e oggi molti software hanno funzioni 2 già pronte, per esempio Excel ed OO Calc hanno tre funzioni relative al test 2: =DISTRIB.CHI(C; N): calcola la probabilità che per N gradi di libertà il 2 sia maggiore di C; nel nostro esempio =DISTRIB.CHI(3.5; 5) = 0,6234 probabilità che 2 > 3.5. =TEST.CHI(O; A): calcola la probabilità che dati i valori attesi A si osservino i valori O o valori ancor più distanti da quelli attesi; nel nostro esempio si scriverà: =TEST.CHI(B2:B7; C2:C7) = 0,6234 (come sopra, ovviamente). =IN .CHI(P; N): calcola per N gradi di libertà il valore di 2 tale che sia P la probabilità di avere un 2 maggiore o uguale a quello; nel nostro esempio =IN .CHI(0.6234; 5) dà ovviamente 3.5; in altre c i o.liceofo ca ini.i /ma e/chi_ ad a o.h ml 1/2 3/27/12 Il e del chi ad a o parole per 5 gradi di libertà e una probabilità del 62.34% il valore limite di 2 è 3,5. Nel nostro esempio il valore di 2 pari a 3,5 ha una probabilità del 62,34%, nel senso che ci sono 62,34% probabilità che in 120 lanci di dadi si riscontrino deviazioni dalla media uguali o maggiori di questa (con 2 > 3,5). Dobbiamo quindi concludere che non c'è motivo di sospettare che il dado sia truccato. Va detto che anche valori troppo piccoli del 2, troppo buoni insomma, possono dare adito a sospetti! In questi casi di solito si considerano critici valori di probabilità di 0.10, 0.05, 0.01 e si effettuano test a questi livelli; se la probabilità risulta minore di questi vuol dire che si è verificato qualcosa di molto improbabile e che quindi c'è da sospettare che l'ipotesi sia sbagliata (qui che il dado non sia buono nel senso di avere probabilità uguali per tutte le facce). Molti libri di statistica usano valori complementari a quelli usati da Excel e OO Calc; invece di una probabilità di 0,6234 qui avremmo ottenuto 0,3766 che è la probabilità di avere un 2 minore di quello ottenuto. In questi libri i test di cui sopra sono riportati come test allo 0.90, allo 0.95, allo 0.99. Questo metodo può essere anche usato per confrontare diverse ipotesi con i dati sperimentali e scegliere quella che meglio si accorda con questi: in crittanalisi può servire, dato un messaggio cifrato a trovare il cifrario; come è ragionevole tra tutte le ipotesi possibili si sceglie quella con il 2 più piccolo. Come esempi di uso del 2, riporto la crittanalisi statistica del Vigenere, e l'individuazione della lingua di un testo. Fon i bibliografiche e collegamen i MURRAY R. SPIEGEL, Statistica, Etas-Libri (Schaum) Milano 1976 Microsoft Excel: funzioni statistiche Open Office Calc Testi e foto possono essere riprodotti liberamente a condi ione che venga citata esplicitamente con un link la fonte e il nome dell'autore, e che la cosa sia fatta sen a fini di lucro. Pagina a cura di Paolo Bona oglia (paolo.bona [email protected]) del Liceo Classico M.Foscarini Vene ia La Crittografia da Atbash a RSA Scriveteci via E-Mail Firmate il registro visitatori Glossario Bibliografia c i o.liceofo ca ini.i /ma e/chi_ ad a o.h ml 2/2