CORSO DI LAUREA IN OTTICA E OPTOMETRIA CORSO DI INFORMATICA E STATISTICA [email protected] Parte I - Statistica descrittiva 1 CONVENZIONE SULLE CIFRE SIGNIFICATIVE • La convenzione usata sul troncamento delle cifre è • troncare semplicemente le cifre non significative se la cifra successiva è <5 • Aumentare di una unità l’ultima cifra significativa se la cifra successiva è ≥5 esempio: troncare a 2 cifre significative i seguenti numeri 2,35471… = 2,35 3,45567… = 3,46 8,49735… = 8,50 1,99801… = 2,00 ricordare che bisogna sempre scrivere esplicitamente tutte le cifre significative anche se queste sono zeri (come nell’ultimo caso). Parte I - Statistica descrittiva 2 VARIABILI • Variabili • Qualitative (esempio “colore degli occhi”, “visione “chiara o sfocata”) • Quantitative o numeriche (esempio “diottrie”, “distanza interpupillare”) • Tipi di variabili quantitative • Discrete (esempio “voto”, “età di un paziente in anni”) • Continue (esempio “altezza di un soggetto”) Parte I - Statistica descrittiva 3 INSIEME DI VARIABILI • Insieme di variabili { x1, x2 ,…x N } ≡ { xk }k=1,N k=indice (o pedice). N=numerosità del campione esempio: i voti di 5 studenti all’esame di “Informatica e Statistica” { x1, x2 , x3, x4, x5 } = {28, 22, 25, 21, 30} Parte I - Statistica descrittiva 4 SOMMA • Somma (o sommatoria) di N numeri N ∑x k = x1 + x2 +... + x N k=1 Nell’esempio precedente 5 ∑x k = 28 + 22 + 25 + 21+ 30 = 126 k=1 Parte I - Statistica descrittiva 5 PROPRIETÀ DELLA SOMMA • La somma è un’operazione lineare N ∑(Ax k=1 N k + B) = A∑ xk + NB con A e B costanti; infatti k=1 N ∑(Ax k=1 k + B) = (Ax1 + B)…+ (Ax N + B) = A(x1 +…+ x N ) + (B +... + B) N volte Per esempio nel caso precedente se moltiplichiamo per 10 e sommiamo 5 ad ogni numero abbiamo {10x1 + 5,10x2 + 5,10x3 + 5,10x4 + 5,10x5 + 5} = {285, 225, 255, 215, 305} che sommati danno 1285, cioè 10x126+5x5. Parte I - Statistica descrittiva 6 SOMMA • Esercizio: provare con qualche esempio che N N(N +1) ∑ k = 1+ 2 +... + N = 2 k=1 N N(N +1)(2N +1) ∑ k = 1+ 4 +... + N = 6 k=1 2 2 Parte I - Statistica descrittiva 7 PRODOTTO • Prodotto (o produttoria)di N numeri N ∏x k = x1 ⋅ x2 ⋅…⋅ x N k=1 • Fattoriale: è definito come N N! = ∏ k = 1⋅ 2 ⋅…⋅ N k=1 Questa funzione tornerà utile in seguito. Il fattoriale è un numero che cresce molto velocemente 0!=1 (per definizione); 1!=1; 2!=2; 3!=6; 4!=24; 5!=120; 6!=720;… 20!=2432902008176640000;… Parte I - Statistica descrittiva 8 MEDIA DI UN CAMPIONE • La media di un campione di dati è definita da N 1 X = ∑ xk N k=1 Esempio: nel caso precedente la media dei voti del campione dei cinque studenti sarà 1 5 28 + 22 + 25 + 21+ 30 X = ∑ xk = = 25, 2 5 k=1 5 Parte I - Statistica descrittiva 9 PROPRIETÀ DELLA MEDIA • Usando le proprietà di linearità della somma è facile mostrare che la media è una operazione lineare AX + B = AX + B con A e B costanti e Ax + By + C = Ax + By + C In particolare la media degli scarti è zero X−X =X−X =0 Parte I - Statistica descrittiva 10 MEDIANA DI UN CAMPIONE • La mediana di un campione è quel valore che divide il campione in due sottoinsiemi, uno con valori tutti minori o uguali alla mediana, un altro con valori tutti maggiori o uguali. • Esempio: prendiamo i voti dell’esempio precedente e li mettiamo in ordine crescente: 21 – 22 – 25 – 28 – 30. In questo caso il valore mediano corrisponde a 25 poiché metà del campione ha valori minori di 25 (21 e 22) e l’altra metà maggiori (28 e 30). • Operativamente: si mettono i valori in ordine crescente e si trova il valore corrispondente alla posizione (N+1)/2 (nel nostro caso (5+1)/3=3). Nel caso in cui N+1 sia dispari si prende il valore medio tra i valori con posizioni N/2 e N/2+1. • Esempio: trovare la mediana tra 2 – 5 – 8 – 12 – 14 – 17. In questo caso prendiamo la media tra i valori in 3° e 4° posizione, ovvero (8+12)/2 =10. • Notare che mediana e media generalmente con coincidono. Parte I - Statistica descrittiva 11 QUARTILI E DECILI • I quartili di un campione sono quei valori per cui il campione è diviso in quattro sottoinsiemi di dimensione uguale. • Esempio: si è misurata la miopia di dieci individui ottenendo il seguente insieme (in diottrie): {2,8 ÷ 7,2 ÷ 4,2 ÷ 4,2 ÷ 5,6 ÷ 3,9 ÷ 5,3 ÷ 6,7 ÷ 5,8 ÷ 7,1 ÷ 2,1 ÷ 3,3 ÷ 0,4 ÷ 0,6 ÷ 5,6 ÷ 3,8 ÷ 6,9 ÷ 5,2 ÷ 0,8 ÷ 5,7} riscriviamo il campione in ordine crescente {0,4 ÷ 0,6 ÷ 0,8 ÷ 2,1 ÷ 2,8 ÷ 3,3 ÷ 3,6 ÷ 3,9 ÷ 4,2 ÷ 4,2 ÷ 5,2 ÷ 5,3 ÷ 5,6 ÷ 5,6 ÷ 5,7 ÷ 5,8 ÷ 6,7 ÷ 6,9 ÷ 7,1 ÷ 7,2} Il primo quartile corrisponde a (20+1)/4=5,25. Al 5° posto troviamo 2,8. Per essere più precisi però dobbiamo aggiungere lo 0,25 della distanza tra 2,8 e 3,3 (ovvero il valore al 6° posto) ovvero 2,8+0,25*(3,3-2,8)=2,925. Allo stesso modo il terzo quartile corrisponde alla posizione 3*(20+1)/4=15,75, per cui avremo che il valore del terzo quartile vale 5,7+0,75*(5,8-5,7)=5,775. • Allo stesso modo è possibile definire i decili di un campione. Nell’esempio precedente il terzo decile corrisponde alla posizione (20+1)*3/10=6,3 per cui il valore cercato vale 3,3+0,3*(3,6-3,3)=3,39 Parte I - Statistica descrittiva 12 RANGO QUARTILE E DECILE • Il rango quartile QX di un valore X è il numero (anche non intero) per cui ci sono QX/4 valori dell’insieme di dati minori di X e (4-Qx)/4 maggiori. • Se px è la posizione del valore basta calcolare QX=4pX/(N+1). • Nell’esempio precedente vogliamo conoscere il rango quartile a cui appartiene il valore 3,9. Vediamo che 3,9 corrisponde all’8° posizione per ci calcoliamo Q3,9=8*4/(20+1)=1,52. Ciò vuol dire che 1,52/4 valori sono minori di 3,9 e 2,48/4 valori maggiori di 3,9 • Allo stesso modo il rango decile è il numero per cui ci sono DX/10 valori minori di X e (10-DX)/10 valori maggiori di X. E’ possibile calcolare il rango decile con la formula DX=10pX/(N+1). • Per esempio il rango decile di 3,9 vale D3,9=10*8/(20+1)=3,8. Parte I - Statistica descrittiva 13 MEDIA GEOMETRICA • La media definita precedentemente è la cosiddetta media lineare (o aritmetica). Esistono altri tipi di media. Vale la pena menzionare la media geometrica N M g = N ∏ xk k=1 questa media è usata quando sia ha a che fare con variabili moltiplicative (ad esempio tassi di crescita o di interesse). Parte I - Statistica descrittiva 14 MEDIA GEOMETRICA • Esempio: il numero di batteri in una colonia cresce del 120% nelle prima ora, del 140% nella seconda del 130% nella terza e del 110% nella quarta ora. Qual è il tasso di crescita medio nelle quattro ore? La risposta è R = 4 1, 2 ⋅1, 4 ⋅1.3⋅1,1 = 1, 2449 ≅ 124, 5% Infatti se la colonia crescesse del 124,5% ogni ora l’incremento totale finale sarebbe lo stesso. Parte I - Statistica descrittiva 15 FREQUENZE • Le frequenze rappresentano il numero di occorrenze di una variabile sia qualitativa che quantitativa • Esempio di variabile qualitativa: In un campione di 128 persone si verifica il loro colore degli occhi Colore degli occhi Neri Nocciola Blu Verdi Totale Frequenza Assoluta 25 32 40 31 128 Frequenza relativa 19,5% 25,0% 31,3% 24,2% La frequenza relativa è la frazione del numero rispetto al totale Parte I - Statistica descrittiva 16 FREQUENZA • Vediamo il caso di una variabile quantitativa: voti di un campione di 300 studenti in un determinato esame Voto in trentesimi Studenti (frequenza) 18 2 19 6 20 11 21 24 22 35 23 38 24 49 25 35 26 33 27 31 28 19 29 12 30 5 Totale 300 Parte I - Statistica descrittiva 17 DISTRIBUZIONE DI FREQUENZA • La precedente tabella può essere tradotta in istogramma. Questa sarà la distribuzione dei dati 60 Numero di studenti 50 40 30 20 10 0 18 19 20 21 22 23 24 25 26 27 28 29 30 Voto Parte I - Statistica descrittiva 18 CLASSI • A volte è comodo o necessario “raggruppare” la variabile in esame in classi. Per esempio potremmo raggruppare la tabella dei voti precedenti in tre “macroclassi”: da 18 a 22, da 23 a 27 e da 28 a 30 Voti Numero di studenti 18-22 78 23-27 186 28-30 36 Questo raggruppamento diventa evidentemente necessario quando si ha a che fare con variabili continue (esempio: l’altezza di un campione di persone). Parte I - Statistica descrittiva 19 CUMULATIVA • Dalla tabella precedente è possibile anche costruire la tabella delle “cumulative” Voto 18 19 20 21 22 23 24 25 26 27 28 29 30 Totale Studenti 2 6 11 24 35 38 49 35 33 31 19 12 5 300 Cumulativa 2 8 19 43 78 116 165 200 233 264 283 295 300 L’ultima colonna è costruita sommando via via le frequenze precedenti. Per esempio nel caso precedente il numero di studenti che hanno preso un voto ≤25 sarà 200 Ovviamente la distribuzione cumulativa ha senso solo se la variabile è di tipo numerico Parte I - Statistica descrittiva 20 DISTRIBUZIONE CUMULATIVA 350 300 Numero di studenti 250 200 150 100 50 0 18 19 20 21 22 23 24 25 26 27 28 29 30 Voto Parte I - Statistica descrittiva 21 CUMULATIVA RELATIVA • Dividendo le cumulative per la numerosità totale del campione si ha la cumulativa relativa. Nell’esempio precedente si ha che, ad esempio, il 38.7% degli studenti ha un voto inferiore o uguale al 23. Cum. relativa 18 0,7% 19 2,7% 20 6,3% 21 14,3% 22 26,0% 23 38,7% 24 55,0% 25 66,7% 26 77,7% 27 88,0% 28 94,3% 29 98,3% 30 100,0% 120,0% 100,0% Numero di studenti Voto 80,0% 60,0% 40,0% 20,0% 0,0% 18 19 20 21 22 23 24 25 26 27 28 29 30 Voto Parte I - Statistica descrittiva 22 RIASSUMENDO… Variabile frequenza assoluta frequenza relativa cumulativa assoluta cumulativa relativa x1 n1 f1 s1 c1 x2 n2 f2 s2 c2 nn fN sN cN … xN N n = ∑ nk k=1 nk fk = n k sk = ∑ ni Parte I - Statistica descrittiva i=1 sk ck = n 23 MEDIA PESATA (O PONDERATA) • Quando si ha a che fare con una tabella di frequenze la media di una variabile deve essere ovviamente “pesata” sulla frequenza della variabile 1 N X = ∑ nk ⋅ xk n k=1 N o alternativamente X = ∑ fk ⋅ x k k=1 questo perché la variabile xk appare nk volte nella tabella (nell’esempio dei voti è come se dovessimo sommare 18 per 2 volte, 19 per 6 volte e così via e dividere per tutti e 300 gli studenti) Parte I - Statistica descrittiva 24 MEDIA PESATA Voto xk Studenti nk Frequenza relativa fk 18 2 0,7% 19 6 2,0% 20 11 3,7% 21 24 8,0% 22 35 11,7% 23 38 12,7% 24 49 16,3% 25 35 11,7% 26 33 11,0% 27 31 10,3% 28 19 6,3% 29 12 4,0% 30 5 1,7% Totale studenti= 300 voto medio= Parte I - Statistica descrittiva fk*xk 0,12 0,38 0,73 1,68 2,57 2,91 3,92 2,92 2,86 2,79 1,77 1,16 0,50 24,31 25 MEDIANA • La mediana è quel valore per cui metà della distribuzione è inferiore e metà è superiore ad esso • Esempio: si è misurata la miopia in un campione di studenti ottenendo la seguente distribuzione Diottrie 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 Persone 302 548 815 965 860 640 360 235 115 87 91 70 74 24 21 17 18 9 7 3 3 Cumulativa relativa 5,7% 16,1% 31,6% 50,0% 66,3% 78,5% 85,3% 89,8% 91,9% 93,6% 95,3% 96,7% 98,1% 98,5% 98,9% 99,2% 99,6% 99,8% 99,9% 99,9% 100,0% Osserviamo come il valore della cumulativa relativa assume il valore 50% in corrispondenza di 1,5 diottrie. Questa sarà il valore mediano poiché metà dei soggetti avrà una miopia inferiore a 1.5 diottrie e un’altra metà superiore. La classe corrispondente viene chiamata classe mediana Si noti come il valore della mediana non necessariamente coincida con la media (nel caso precedente vale 2 diottrie). Parte I - Statistica descrittiva 26 MEDIANA Voto Studenti Cumulativa Cum. relativa xi ni si 18 19 20 21 22 23 24 25 26 27 28 29 30 2 6 11 24 35 38 49 35 33 31 19 12 5 2 8 19 43 78 116 165 200 233 264 283 295 300 ci 1% 3% 6% 14% 26% 39% 55% 67% 78% 88% 94% 98% 100% Totale 300 • A volte la mediana non è ben definita. Riprendendo l’esempio dei voti la mediana cade tra le classi 23 e 24. In tal caso per semplicità potremmo prendere il valore intermedio tra le classi a cavallo del 50%. Per esempio nel caso precedente il voto mediano sarebbe 23,5. • Tuttavia possiamo procedere ad un calcolo più preciso tramite una interpolazione. Se la mediana è compresa tra xi e xi+1la mediana si può calcolare come Mediana = 𝑥) + + -./ , 0/12 ⋅ (𝑥)56 -𝑥) ) • Nel nostro caso: Mediana = 23 + 9:: -66< , Parte I - Statistica descrittiva => ⋅ (24 − 23)=23.7 27 MEDIANA Classi 3-7 8 - 12 13 - 17 18 - 22 23 - 27 Classi ”contigue" 3 - 7,5 7,5 - 12,5 12,5 - 17,5 17,5 - 22,5 22,5 - 27 Frequenza 1 4 2 6 4 Cumulativa 1 5 7 13 17 Facciamo un altro esempio. Consideriamo la tabella precedente. Per prima cosa rendiamo le classi “contigue” (o a “limiti reali”) allargandole in modo che il valore superiore di una classe corrisponda col valore inferiore della successiva. In questo caso la mediana è quella la cui cumulativa corrisponde al valore 17/2 = 8,5. La classe mediana è quindi la 18 – 22, poiché 8,5 è > di 7 e < 16. La mediana si trova quindi tra 17,5 e 22,5. Possiamo supporre quindi che a 17,5 la cumulativa valga 7 e a 22,5 valga 13, per cui operando come prima avremo allora Mediana=17,5+ E,F-G < H 22,5 − 17,5 =18,75 Parte I - Statistica descrittiva 28 QUARTILI • Allo stesso modo della mediana è possibile definire i quartili rappresentano i valori che dividono in quattro parti la distribuzione Cumulativa relativa Diottrie Persone Cumulativa 0,0 302 302 5,7% 0,5 548 850 16,1% 1,0 815 1665 31,6% 1,5 965 2630 50,0% 2,0 860 3490 66,3% 2,5 640 4130 78,5% 3,0 360 4490 85,3% 3,5 235 4725 89,8% 4,0 115 4840 91,9% 4,5 87 4927 93,6% 5,0 91 5018 95,3% 5,5 70 5088 96,7% 6,0 74 5162 98,1% 6,5 24 5186 98,5% 7,0 21 5207 98,9% 7,5 17 5224 99,2% 8,0 18 5242 99,6% 8,5 9 5251 99,8% 9,0 7 5258 99,9% 9,5 3 5261 99,9% 10,0 3 5264 100,0% Seguendo il criterio precedente potremmo grosso modo identificare il quartile inferiore con il valore 0,75 e quello superiore con 2,25. Tuttavia valori più precisi possono essere trovati tramite una interpolazione alla stessa maniera della mediana: 1 ⋅ 5264 − 850 4 𝑄6 = 0, 5 + ⋅ (1,0 − 0,5) = 0,79 815 3 ⋅ 5264 − 3490 4 𝑄O = 2, 0 + ⋅ (2,5 − 2,0) = 2,36 640 Il secondo quartile (Q2) equivale ovviamente alla mediana che vale 1,5. I quartili sono quindi 1. 0,00 – 0,79 2. 0,79 – 1,50 3. 1,50 – 2,36 4. 2,36 – 10,00 Parte I - Statistica descrittiva 29 PERCENTILI • Un ulteriore raffinamento dei concetti precedenti sono i percentili. Per esempio il 90% percentile inferiore e superiore sono quei valori per cui al di sotto troviamo il 10% e il 90% della popolazione. • nell’esempio della miopia all’incirca solo il 5% della popolazione ha meno di 0.25 diottrie mentre chi ha più di 3,5 diottrie è nel 95% percentile superiore. 90% 75% 50% 21,0 20,0 19,0 18,0 17,0 16,0 15,0 14,0 13,0 12,0 11,0 10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 20% 1,0 100,0% 90,0% 80,0% 70,0% 60,0% 50,0% 40,0% 30,0% 20,0% 10,0% 0,0% 10% x • Per il calcolo esatto dei decili si possono usare le stesse formule di interpolazione per la media e i quartili • I percentili corrispondenti al 10%, 20%.... 80%, 90% vengono anche chiamati decili Parte I - Statistica descrittiva 30 PERCENTILI • Esempio: calcolare il terzo decile della tabella Classi 3-7 8 - 12 13 - 17 18 - 22 23 - 27 Classi ”contigue" 3 - 7,5 7,5 - 12,5 12,5 - 17,5 18,5 - 22,5 22,5 - 27 Frequenza 1 4 2 6 4 Cumulativa 1 5 7 13 17 Cum. Relativa 5,9% 29,4% 41,2% 76,5% 100,0% il terzo decile evidentemente corrisponde ad una cumulativa del 30% e quindi appartiene alla classe 13 – 17. Il calcolo può essere fatto come prima 3 ⋅ 17 − 5 10 𝐷O = 12,5 + ⋅ (17,5 − 12,5) = 12,75 2 Parte I - Statistica descrittiva 31 RANGO PERCENTILE DI UN VALORE • Data una tabella il rango percentile di un dato valore X è la percentuale di valori più piccoli di X. Diottrie Persone Cumulativa Cumulativa relativa 0,0 302 302 5,7% 0,5 548 850 1,0 815 1665 1,5 965 2630 2,0 860 3490 2,5 640 4130 3,0 360 4490 3,5 235 4725 4,0 115 4840 4,5 87 4927 5,0 91 5018 5,5 70 5088 6,0 74 5162 6,5 24 5186 7,0 21 5207 7,5 17 5224 8,0 18 5242 8,5 9 5251 9,0 7 5258 9,5 3 5261 10,0 3 5264 16,1% 31,6% 50,0% 66,3% 78,5% 85,3% 89,8% 91,9% 93,6% 95,3% 96,7% Esempio: vogliamo stabilire a quale rango percentile corrisponde una diottria di 2,8. Dobbiamo fare una interpolazione tra i valori 2,5 e 3,0 per trovare il percentile corrispondente (o rango percentile) 2,8 − 2,5 P%=78,5%+ H 85,3% − 78,5% = 82,6% 3,0 − 2,5 Questo significa che l’82,6% dei valori è minore di 2,8 e il restante 17,4% è maggiore. 98,1% 98,5% 98,9% 99,2% 99,6% 99,8% 99,9% 99,9% Il rango decile corrispondente si trova moltiplicando 0,826*10=8,26 Analogamente, per trovare il rango quartile invece basta fare 0,826*4 = 3,304 100,0% Parte I - Statistica descrittiva 32 RANGO DECILE DI UN VALORE • Allo stesso modo data la tabella Classi 3-7 8 - 12 13 - 17 18 - 22 23 - 27 Classi ”contigue" 3 - 7,5 7,5 - 12,5 12,5 - 17,5 18,5 - 22,5 22,5 - 27 Frequenza 1 4 2 6 4 Cumulativa 1 5 7 13 17 Cum. Relativa 5,9% 29,4% 41,2% 76,5% 100,0% vogliamo calcolare il rango decile e quartile di 23,5. Poiché 23,5 appartiene alla classe 22,5-27, operando come nel caso precedente abbiamo 23,5 − 22,5 P%=76,5%+ H 100% − 76,5% = 81,7% 27 − 22,5 Ne deriva che in questo caso il rango decile è 8,17 mentre in rango quartile vale 3,27. Parte I - Statistica descrittiva 33 MODA • La moda è il valore più comune in una distribuzione. Per esempio nell’esempio dei voti la moda è il 24 mentre nell’esempio della miopia la moda è 1,5 diottrie. • Talvolta una distribuzione può avere due picchi distinti ben localizzati. In tal caso la distribuzione si dice “bimodale” (più in generale possono esistere distribuzioni “multimodali”) Una distribuzione del genere può essere sintomo di due popolazioni “distinte” (per esempio se misurassimo la miopia ad un campione di persone in parte italiane e in parte giapponesi, popolo notoriamente più miope) 1200,0 1000,0 800,0 600,0 400,0 200,0 21,0 20,0 19,0 18,0 17,0 16,0 15,0 14,0 13,0 12,0 11,0 10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2,0 1,0 0,0 Parte I - Statistica descrittiva 34 ESEMPIO • Una fabbrica produce viti per occhiali attraverso tre macchine di lunghezza nominale 1,1mm. Si estrae un campione di 430 viti e si fa un istogramma della loro lunghezza reale Lunghezza (mm) 0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 Numero 0 2 8 25 40 136 90 31 7 1 2 4 22 40 18 2 1 1 0 0 160 140 120 100 80 60 40 20 0 0,85 0,90 0,95 1,00 1,05 1,10 1,15 1,20 1,25 1,30 1,35 1,40 1,45 1,50 1,55 1,60 1,65 1,70 1,75 1,80 Il fatto che vi è un secondo picco a 1.50 mm fa pensare che una delle macchine stia lavorando “male” ovvero sta producendo viti sistematicamente più lunghe di quelle programmate. Parte I - Statistica descrittiva 35 MEDIA PESATA SU CLASSI • Talvolta occorre calcolare la media su di una tabella di classi. Prendiamo ad esempio la tabella dei voti suddivisa in classi Voti Numero di studenti 18-22 78 23-27 186 28-30 36 Poiché non conosciamo il numero relativo di studenti relativo ad ogni voto, siamo costretti a scegliere un criterio per assegnare un voto “medio” ad ogni classe. La scelta più semplice è di considerare il valore centrale della classe Parte I - Statistica descrittiva 36 MEDIA PESATA SU CLASSI Voti Voto medio Numero di studenti 18-22 20 78 23-27 25 186 28-30 29 36 La media pesata su questa tabella vale 24,18 che è solo leggermente diverso dal valore 24,31 calcolata con la tabella non suddivisa in classi. In ogni caso la suddivisione in classi provoca una “perdita di informazioni” e quindi fornisce un valore meno accurato per le variabili statistiche. Parte I - Statistica descrittiva 37 TABELLE A DOPPIA ENTRATA • Un caso più generale avviene quando una tabella incrocia due (o più) variabili y1 y2 … yM x1 n1,1 n2,1 … n1,M x2 n2,1 n2,2 … n2,M … … … … … xN nN,1 nN,2 nN,M Una tabella di questo tipo viene detta a doppia entrata, o bivariata. In principio possono esistere anche tabelle che incrociano più di due variabili (multivariate) ma la loro rappresentazione è più difficoltosa. Per semplicità ci limiteremo a tabelle a doppia entrata. Parte I - Statistica descrittiva 38 TABELLE A DOPPIA ENTRATA • Esempio di tabella a doppia entrata. X=colore degli occhi, Y=colore dei capelli Rossi Castani Σ Azzurri 5 3 1 9 Verdi 2 4 6 12 Σ 7 7 7 21 Marginali di colonna Marginali di riga Biondi Totale generale • Se X e Y qualitativi la tabella si dice di “contingenza”, se entrambi quantitativi di “correlazione”, se uno qualitativo e uno quantitativo si dice “tabella mista”. Parte I - Statistica descrittiva 39 MARGINALI M • Marginali di riga ni,• = ∑ ni, j j=1 N • Marginali di colonna n•, j = ∑ ni, j i=1 • Totale generale N M N M n = ∑ ni,• =∑ n•, j =∑∑ ni, j i=1 Parte I - Statistica descrittiva j=1 i=1 j=1 40 ESEMPIO DI TABELLA A DOPPIA ENTRATA • Per esempio si supponga di avere la seguente tabella in cui si è misurato il grado di astigmatismo residuo su due campioni di persone che hanno eseguito due tecniche di chirurgia refrattiva (PRK o LASIK) Asitig. (diottrie) PRK LASIK ni* 0.0 2 1 3 0.1 5 2 7 0.2 7 5 12 0.3 11 4 15 0.4 9 7 16 0.5 4 8 12 0.6 2 6 8 0.7 1 4 5 0.8 0 1 1 0.9 1 1 2 1.0 0 1 1 n*j 42 40 82 L’ultima riga sono le persone che hanno effettuato un certo tipo di intervento, l’ultima colonna sono le persone che hanno un certo grado di astigmatismo residuo indipendentemente dal tipo di intervento. Parte I - Statistica descrittiva 41 ISTOGRAMMA • E’ possibile costruire un istogramma per entrambe le entrate e il marginale di riga 16 14 12 PRK 10 8 LASIK 6 PRK+LASIK 4 2 0 0 0,1 0,2 0,3 PRK+LASIK 0,4 0,5 0,6 LASIK 0,7 0,8 PRK 0,9 1 Astig. (diottrie) Parte I - Statistica descrittiva 42 MEDIE PARZIALI • Le medie su di una riga o una colonna costituiscono le medie parziali. Queste medie possono evidentemente essere effettuate se x e/o y sono variabili quantitative 1 N Xj = ni, j xi ∑ n• j i=1 1 M Yi = ∑ ni, j y j ni• j=1 per esempio nel caso della tabella precedente possiamo calcolare solo le medie di colonna poiché le variabili di riga sono qualitative. Calcolando queste medie otteniamo separatamente l’astigmatismo medio per chi ha eseguito l’intervento con la PRK e la LASIK ottenendo (il calcolo è lasciato per esercizio): • Media(PRK) = 0,32 • Media(LASIK) = 0,46 (attenzione: questo non induca alla facile conclusione che la LASIK è peggiore della PRK!) Parte I - Statistica descrittiva 43 MEDIE GENERALI • Nelle tabelle a doppia entrata è anche possibile calcolare le medie generali delle variabili quantitative. Queste sono calcolate attraverso le formule 1 M 1 N X = ∑ n•, j X j = ∑ ni,• xi n j=1 n i=1 1 N 1 M Y = ∑ ni,•Yi = ∑ n•, j y j n i=1 n j=1 ovvero come “media pesata delle medie parziali“ oppure come una media delle variabili stesse pesata con i marginali di riga e di colonna (si può mostrare che si ha lo stesso risultato). Parte I - Statistica descrittiva 44 ESEMPIO DI MEDIE GENERALI • Riprendiamo l’esempio della tabella precedente: vogliamo calcolare l’astigmatismo medio su tutto il campione Asitig. (diottrie) PRK LASIK ni* 0.0 2 1 3 0.1 5 2 7 0.2 7 5 12 0.3 11 4 15 0.4 9 7 16 0.5 4 8 12 0.6 2 6 8 0.7 1 4 5 0.8 0 1 1 0.9 1 1 2 1.0 0 1 1 n*j Media 42 0,32 40 0,46 82 Questo può essere effettuato in due modi 1) Calcoliamo la “medie delle medie” pesando le medie sui marginali di colonna 42 × 0, 32 + 40 × 0, 46 X= = 0, 39 82 2) Mediamo direttamente la variabile x usando come peso i marginali di riga X= 0.0 × 3+ 0.1× 7 +... +1.0 ×1 = 0, 39 82 Il risultato è lo stesso ma avendo già le medie parziali conviene il primo calcolo. Parte I - Statistica descrittiva 45 ESERCIZIO In questa tabella un certo numero di pazienti trattati con PRK vengono classificati in base all alla correzione apportata e all’astigmatismo residuo dopo l’operazione. Trovare le medie parziali di riga e di colonna e le medie generali. Fare un istogramma delle medie parziali sia per le righe che per le colonne. Cosa si potrebbe dedurne? Astigmatismo residuo Correzioneapportata (diottrie) • 0.0 ÷ 0.2 0.2 ÷ 0.4 0.4 ÷ 0.6 0.6 ÷ 0.8 0.8 ÷ 1.0 0÷2 7 4 2 1 0 2÷4 3 5 4 2 1 4÷6 2 8 4 3 2 6÷8 0 1 5 2 2 Parte I - Statistica descrittiva 46 MEDIA QUADRATICA • Un tipo ulteriore di media è la media quadratica, ovvero la radice quadrata della media dei quadrati N ∑x Mq = 2 k k=1 N Tale media è utile quando i vari quando i vari xk sono talvolta positivi e talvolta negativi mentre a noi interessa una media che non dipenda dal segno degli xk Parte I - Statistica descrittiva 47 INDICE DI VARIABILITÀ • A volte a noi non interessa solo la media ma di un campione ma anche quanto questa si discosta “mediamente” dalla media. Tuttavia, come detto in precedenza, la media degli scarti è sempre zero N 1 (xk − X) = 0 ∑ N k=1 poiché alcuni scarti sono positivi e altri negativi. Questa media non ci da quindi alcuna informazione sulla variabilità. Una possibile soluzione sarebbe di prendere la media dei valori assoluti degli scarti. Tuttavia, per diverse ragioni, la scelta migliore è prendere la media quadratica degli scarti Parte I - Statistica descrittiva 48 SCARTO QUADRATICO MEDIO • Si definisce scarto quadratico medio quindi la media quadratica degli scarti N σ PX = 2 (x − X ) ∑ k k=1 N (la lettera s è il sigma greco minuscolo). Tuttavia questa definizione ha il problema che per N=1 si ha che lo scarto medio è zero mentre per un solo dato noi vorremmo che lo scarto rimanga non definito. Parte I - Statistica descrittiva 49 DEVIAZIONE STANDARD • Per la ragione precedente si preferisce definire la “deviazione standard” nella maniera seguente N 2 (x − X ) ∑ k σx = k=1 N −1 un po’ più grande rispetto allo s.q.m. • La deviazione standard è una misura della dispersione della popolazione intorno alla media. • Lo scarto quadratico medio (quello cioè con N al denominatore) è talvolta definito come “deviazione standard di popolazione”. Per N molto grande la differenza tra i due è minima. • Il quadrato dello scarto quadratico medio è detto varianza Parte I - Statistica descrittiva 50 DEVIAZIONE STANDARD • Facciamo un esempio. Si supponga che Laura e Marco abbiano preso abbia preso i seguenti voti in 10 esami Laura={25,26,26,27,24,25,26,28,27,26} Marco={30,22,24,28,27,30,18,24,30,27} Come si vede entrambi hanno una media di 26. Però la deviazione standard dei voti di Laura è di 1,15 mentre quella di Marco è 3,97. Ciò indica che Laura è stata più costante nello studio mentre Marco ha avuto periodi di alti e bassi… • Notare che se avessimo usato lo scarto quadratico medio avremmo ottenuto 1,09 e 3,76, valori un poco più grandi dei precedenti. Parte I - Statistica descrittiva 51 CALCOLO DELLA DEVIAZIONE STANDARD • Vediamo coma calcolare la deviazione standard (nel nostro caso N=10) Voto (x ) x -X (x -X)2 k k k 25 -1 1 26 0 0 26 0 0 27 1 1 24 -2 4 25 -1 1 26 0 0 28 2 4 27 1 1 26 0 X=26 - 2= ∑(x -X) -2 k ∑(xk-X) /(N-1)= - 2/(N-1)= √∑(x -X) k Parte I - Statistica descrittiva 0 12 12/9=1,33 √1,33=1,15 52 DEVIAZIONE STANDARD SU TABELLE • Per calcolare la deviazione standard su una tabella di frequenze occorre fare la media ponderata N σX = 1 2 nk (xk − x ) ∑ N −1 k=1 con n al solito la numerosità del campione N N = ∑ nk k=1 Parte I - Statistica descrittiva 53 CALCOLO DELLA DEVIAZIONE STANDARD SU TABELLE • Riprendiamo l’esempio della tabella dei voti - Voto (xk) Studenti (nk) nk(xk-X)2 18 2 79,72 19 6 169,39 20 11 204,65 21 24 263,48 22 35 187,30 23 38 65,54 24 49 4,81 25 35 16,50 26 33 93,88 27 31 223,76 28 19 258,24 29 12 263,58 30 5 161,69 X=24.31 - 2= ∑nk(xk-X) ∑nk(xk-X)2/(n-1) = √∑nk(xk-X)2/(n-1) = Parte I - Statistica descrittiva 1992,55 1992,55/299=6,66 √6,66=2,58 54 COEFFICIENTE DI VARIAZIONE • E’ definito come il rapporto tra la deviazione standard è la media CV (X) = σ X / X Esempio: la media dei tempi di percorrenza dei treni sulla tratta MilanoRoma vale 350 minuti con una deviazione standard di 12 minuti, mentre sulla tratta Milano-Torino vale 280 minuti con una deviazione standard di 8 minuti. Quale delle due tratte è più affidabile? E’ evidente che non è possibile confrontare direttamente i due tempi di percorrenza poiché si riferiscono a diverse tratte. Tramite l’indice di variabilità si ha che nel primo caso si ha CV=3,4% mentre nel secondo caso si ha CV=2,9%. I treni sulla tratta Milano-Torino sono più affidabili poiché hanno una variabilità minore rispetto all’altra tratta. Parte I - Statistica descrittiva 55 INTERDIPENDENZA TRA VARIABILI DIVERSE • A volte ci si chiede se ci può essere una qualche “relazione” tra due variabili X e Y. Per esempio se esiste una relazione tra ore passate al computer e problemi visivi (ad es. miopia). Si supponga per esempio di avere questa tabella in cui la miopia media di un campione di bambini viene messa in relazione alle ore giornaliere passate mediamente a giocare con la playstation. Ore passate a giocare 0 1 2 3 4 5 Miopia media 0,8 1,3 1,2 2,4 2,7 3,2 Di questi dati è sempre buona norma fare un grafico! Parte I - Statistica descrittiva 56 GRAFICO A DISPERSIONE (SCATTER PLOT) • Apparentemente c’è una qualche dipendenza della miopia con il numero di ore passate a giocare ma come quantificare questa dipendenza? 3,5 Miopia media 3,0 2,5 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Un primo possibile indicatore è il coefficiente di correlazione lineare Parte I - Statistica descrittiva 57 COVARIANZA • La covarianza tra due serie di dati è definita da N ∑(x COV (X,Y ) = - - k − X)(yk −Y ) k=1 N con X e Y medie di xk e yk. Questo coefficiente è la media del prodotto degli scarti. Questo coefficiente è positivo se mediamente i segni degli scarti sono “concordi” (ovvero se quando uno è positivo lo è anche l’altro) e negativo quando sono discordi(cioè se uno è negativo, l’altro è positivo e viceversa. Se non c’è relazione tra i due segni la covarianza tende ad annullarsi. Parte I - Statistica descrittiva 58 COVARIANZA • Nel caso precedente per esempio si vede che c’è concordanza, in effetti la covarianza è positiva e vale +0,77 X=2,50 3,5 3,0 “+” Miopia 2,5 “+” Y=1,93 2,0 “-” 1,5 “-” 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 Parte I -medie Statistica descrittiva Numero di ore giornaliere passate a giocare 5,0 6,0 59 CORRELAZIONE - - • Detti xk e yk due serie di N dati con media X e Y si definisce coefficiente di correlazione tra X e Y la quantità N COV (X,Y ) R(X,Y ) = = P P σ Xσ Y ∑( x k )( − X yk −Y k=1 N ∑( x k=1 k −X 2 ) N ) ∑( y k k=1 −Y ) 2 Questo coefficiente è sempre un numero compreso tra -1 e 1 e ha questo significato. • Più R è vicino a 1 più vi è una “concordanza” tra le due variabili (al crescere di una cresce l’altra) • Più R è vicino a -1 più vi è una “discordanza” tra le due variabili (al crescere di una decresce l’altra) • Se R è vicino a zero vi è “indipendenza” tra le variabili. Parte I - Statistica descrittiva 60 CALCOLO DEL COEFFICIENTE DI CORRELAZIONE Ore passate a giocare 0,0 1,0 2,0 3,0 4,0 5,0 (x-X) -2,5 6,3 0,8 -1,1 1,3 2,8 -1,5 2,3 1,3 -0,6 0,4 0,9 -0,5 0,3 1,2 -0,7 0,5 0,4 0,5 0,3 2,4 0,5 0,2 0,2 1,5 2,3 2,7 0,8 0,6 1,2 2,5 6,3 3,2 1,3 1,6 3,2 -2 (x-X) Miopia media (y-Y) -2 (y-Y) - (x-X)(y-Y) Media=2,50 ∑=17,50 Media=1,93 ∑=4,6 ∑=8.7 Il coefficiente di correlazione vale quindi 8.7 R= = 0.97 17.5 × 4.6 il che indica che vi è un forte grado di relazione tra le ore passate a giocare e la miopia. Parte I - Statistica descrittiva 61 CUM GRANO SALIS… • Occorre sempre stare attenti però che non è detto che anche se c’è un grado di relazione tra le due variabili vi è necessariamente una relazione causa-effetto tra di esse! Si potrebbe giungere a conclusioni paradossali come per esempio che l’aumento temperatura globale sulla terra è causata dalla diminuzione del numero di pirati… R=-0,93 Parte I - Statistica descrittiva 62 REGRESSIONE • Ci si chiede se tra le variabili X e Y esista una qualche relazione funzionale, cioè se esista una espressione Y=f(X) dove f è una qualche funzione che in qualche maniera approssimi i dati. La ricerca di una tale funzione è detta “regressione” • Questa relazione funzionale può essere nota a priori (per esempio è noto che tra il peso di un corpo e il suo volume esiste una relazione lineare) oppure no. In questo secondo evidentemente non esiste una scelta univoca caso dallo studio del grafico a dispersione si potrebbe dedurre qual è il tipo di grafico più opportuno che approssima i dati. Parte I - Statistica descrittiva 63 REGRESSIONE • In generale, quando si hanno a disposizione pochi punti è molto difficile stabilire qual è la funzione più opportuna 4,0 esponenziale 3,5 Miopia media 3,0 2,5 polinomio 2,0 1,5 1,0 0,5 0,0 0,0 1,0 2,0 3,0 4,0 5,0 6,0 Numero di ore medie giornaliere passate a giocare Nel caso del polinomio abbiamo una “interpolazione”, ovvero una curva che passa per tutti i punti. In generale non ci interessa una tale relazione funzionale, I - Statistica descrittiva ma di una curva che si limiti adParte “approssimare” i dati. 64 REGRESSIONE • Con un gran numero di dati è più facile inferire la forma funzionale: Per esempio nel caso seguente è abbastanza evidente che i dati sono ben interpolati da una retta. 35 30 25 20 15 10 5 0 0 2 4 6 Parte I - Statistica descrittiva 8 10 12 65 REGRESSIONE LINEARE • Qui noi ci occuperemo per semplicità del modello più semplice di regressione, ovvero quando i dati possono essere approssimati da una retta, ovvero da una relazione funzionale del tipo Y = A⋅ X + B con A e B variabili da determinare. Questo modello è detto di regressione lineare. Parte I - Statistica descrittiva 66 PRINCIPIO DEI MINIMI QUADRATI • Per determinare i coefficienti A e B è possibile ricorrere al principio dei minimi quadrati (valido anche nel caso di regressioni non lineari). • Siano xk e yk sono i nostri dati. Il valore teorico di y associato al valore xk è dato da ŷk=Axk+B. 3,5 3,0 2,5 (xk, ŷk) ° Y 2,0 1,5 (xk,yk) 1,0 0,5 0,0 0,0 1,0 2,0 3,0 X 4,0 5,0 Parte I - Statistica descrittiva 6,0 67 METODO DEI MINIMI QUADRATI • Possiamo calcolare la somma dei quadrati degli scarti tra gli yk e i valori teorici ŷk=Axk+B. N 2 N Q(A, B) = ∑ ( yk − ŷk ) = ∑ ( yk − Axk − B) k=1 2 k=1 questa quantità ci da una misura delle differenze tra i valori reali e quelli teorici delle y. Essa è una funzione delle variabili incognite A e B. I valori di A e B cercati sono quelli che minimizzano questa funzione, ovvero che rendono minima la differenza del quadrato degli scarti della relazione teorica con i dati reali. Parte I - Statistica descrittiva 68 METODO DEI MINIMI QUADRATI • La minimizzazione si effettua tramite le tecniche standard dell’analisi, ovvero derivando la funzione Q(A,B) rispetto ad A e a B e ponendo le derivate uguali a zero. Viene qui omessa la dimostrazione e viene dato direttamente il risultato σY A=R σX B = Y − AX dove R è il coefficiente di correlazione tra i dati. Come si vede il coefficiente angolare della retta e il coefficiente di correlazione sono legati tra di loro. In particolare se R>0 la retta è crescente, se R<0 decrescente (come ragionevole sia!) Parte I - Statistica descrittiva 69 ESEMPIO DI REGRESSIONE LINEARE • Riprendiamo l’esempio della miopia in funzione delle ore passate a giocare: Ore passate a giocare Miopia media Media Dev. st. 0,0 1,0 2,0 3,0 4,0 5,0 2,50 2,5 1,71 0,8 1,3 1,2 2,4 2,7 3,2 1,93 1,9 0,88 Ricordiamo che R=0,97. Usando le formule precedenti si ha 0,88 = 0, 50 1, 71 B = 1, 9 − 0, 50 × 2, 5 = 0, 69 3,5 3,0 A = 0, 97 Miopia 2,5 2,0 y = 0,50x + 0,69 R² = 0,93 1,5 1,0 0,5 0,0 0,0 Parte I - Statistica descrittiva 2,0 4,0 Ore passate a giocare 6,0 70 COEFFICIENTE DI DETERMINAZIONE • Dalle relazioni precedenti abbiamo che per la retta di regressione la somma dei quadrati degli scarti vale 2 " % σY Q = ∑$ yk −Y − R (xk − X)' σX & k=1 # N dopo qualche calcolo, ricordando la definizione di R si ottiene la relazione Q = σ Y2 (1− R 2 ) N −1 In pratica: 1) se R2=1 si ha Q=0 e la retta passa esattamente per tutti i punti (determinazione perfetta) 2) Se R2=0 si ha Q/(N-1)=sY2, l’errore quadratico medio non è migliore della varianza. La regressione non porta a nessun miglioramento di informazione (indifferenza o determinazione nulla) R2 è detto “coefficiente di determinazione” e la regressione porta un risultato tanto migliore quanto questo è più vicino a 1. Parte I - Statistica descrittiva 71 PREVISIONE • L’uso della regressione serve per fornire una “previsione” (o estrapolazione) dei valori y per valori x diversi da quelli dall’insieme xk. • Per esempio, nel caso dell’esercizio precedente vogliamo prevedere la miopia di un soggetto che passa 6 ore al giorno davanti alla playstation. Usando l’equazione della retta avremo y = 0, 50 × 6, 0 + 0, 69 = 3, 7 si noti comunque che questa è solo una rozza estrapolazione. Valori reali potrebbero essere diversi da questa previsione. Parte I - Statistica descrittiva 72 MISURE DI CONNESSIONE • Passiamo ad un altro esempio di verifica di relazioni. Si supponga di voler verificare se l’uso di lenti bifocali può dar luogo a disturbi di emicrania ad alcuni pazienti. Vengono intervistati 94 pazienti e viene estratta la seguente tabella di contingenza Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali 41 12 53 8 33 41 49 45 94 Ovviamente ci possono essere altre cause per l’emicrania però apparentemente sembra esserci una prevalenza di persone che usano lenti bifocali che ha problemi, cioè una connessione tra l’uso di lenti ed emicranie. Vogliamo quantificare questa connessione. Parte I - Statistica descrittiva 73 NUMERO TEORICO IN ASSENZA DI CONNESSIONE • Per capire se vi è una effettiva connessione dei due caratteri o se il fatto che l’eccesso di persone che usa lenti bifocali con emicrania sia solo un fatto casuale dobbiamo confrontare questa tabella con quella teorica in cui i due caratteri sono indipendenti. • Per esempio: il numero atteso di persone sul campione di 94 persone che che usa lenti bifocali e ha problemi di emicrania se non vi fosse nessuna connessione tra le due cose sarebbe 49 n = ⋅ 53 = 27, 6 94 * 1,1 Numero di persone con emicrania Frazione di persone sul totale che usa lenti bifocali Parte I - Statistica descrittiva 74 TABELLA TEORICA DI INDIPENDENZA • In pratica per ogni elemento ij il numero teorico si calcola come segue i,• •, j * i, j n ⋅n n = n ovvero moltiplicando i marginali di riga e colonna corrispondenti e dividendo per il numero totale (non fa nulla se non è un numero intero). Per esempio per la tabella precedente la tabella teorica sarebbe. Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali 27,6 25,4 53 21,4 19,6 41 49 45 94 Parte I - Statistica descrittiva 75 INDICE DI CONNESSIONE (O CHI-QUADRO DI PEARSON) • Per confrontare la tabella teorica con quella reale è possibile utilizzare il c2 (leggesi chi-quadrato) di Pearson definito come * 2 2 N M (n − n ) n χ 2 = ∑∑ i, j * i, j = ∑∑ *i, j − n ni, j i=1 j=1 i=1 j=1 ni, j N M dove N e M sono il numero di righe e di colonne della tabella (2 e 2 nel nostro esempio). Parte I - Statistica descrittiva 76 CHI-QUADRATO DI PEARSON • Nel nostro caso avremmo quindi Tabella nij Tabella n*ij Usa lenti bifocali Non lenti bifocali Ha frequenti emicranie Non frequentii emicrania 41 12 8 33 Ha frequenti emicranie Non frequentii emicrania Usa lenti bifocali Non lenti bifocali 27,6 21,4 25,4 19,6 (41− 27, 6)2 (12 − 25, 4)2 (8 − 21, 4)2 (33−19, 6)2 χ = + + + = 31 27, 6 25, 4 21, 4 19, 6 2 resta da capire come interpretare questo numero… Parte I - Statistica descrittiva 77 CHI-QUADRATO DI PEARSON • E’ possibile dimostrare che il c2 è un numero sempre compreso tra 0 e il n moltiplicato per il valore minimo tra il numero di righe meno 1 o il numero di colonne meno 1 0 ≤ χ 2 ≤ n ⋅ min(N −1, M −1) • E’ evidente che il valore 0 si può ottenere solo quando la tabella dei dati coincide esattamente con i valori teorici, cioè non c’è una dipendenza tra i caratteri • Di conseguenza: tanto più il valore di c2 si avvicina al valore massimo teorico tanto più c’è dipendenza tra i due caratteri. Parte I - Statistica descrittiva 78 CHI-QUADRATO DI PEARSON • Nel nostro caso abbiamo N=M=2 quindi il valore massimo teorico è uguale a n=94. • Il valore di c2=31indica che c’è un livello medio di associazione, ovvero che c’è una certa dipendenza tra il portare lenti bifocali e l’avere spesso emicranie. • Nello studio della statistica inferenziale si vedrà come quantificare meglio questo grado di associazione nel cosiddetto test del c2. Parte I - Statistica descrittiva 79 CHI-QUADRATO DI PEARSON • Facciamo un esempio più complesso. Supponiamo di voler testare l’efficacia di un farmaco. A un gruppo di 50 pazienti si somministra un farmaco tradizionale e all’altro un nuovo principio attivo. Farmaco Convenzionale Nuovo farmaco Nessun miglioramento 15 2 17 Moderato miglioramento Consitente miglioramento 15 17 32 20 31 51 50 50 100 Parte I - Statistica descrittiva 80 CHI-QUADRATO DI PEARSON • In apparenza il secondo farmaco è più efficace. La tabella dei valori teorici vale Farmaco Convenzionale Nuovo farmaco Nessun miglioramento 8,5 8,5 17 Moderato miglioramento Consitente miglioramento 16 16 32 25,5 25,5 51 50 50 100 Se adesso calcoliamo il c2 otteniamo c2=12,4. Questo numero deve essere confrontato con 100*min(N-1,M-1)=100*min(1,2) =100. Come si vede, nonostante le apparenze il c2 è modesto. Questo ci fa pensare che probabilmente il nuovo farmaco non è molto più efficace del vecchio. Parte I - Statistica descrittiva 81 FINE PARTE I • Copia di questa presentazione in formato PDF può essere trovato all’indirizzo http://www.le.infn.it/~montanin/ Parte I - Statistica descrittiva 82