Quesito Statistica descrittiva Grafici e tabelle permettono di fare valutazioni qualitative, non quantitative. C’è la necessità di sintetizzare le caratteristiche salienti di una variabile: • indici di locazione o di posizione • indici di variabilità o dispersione E’ più efficace una dieta alimentare (A) o un trattamento farmacologico (B) per diminuire di peso? Per valutare l’entità della perdita di peso (kg) che si verifica dopo trattamento (A o B) sono stati considerati 14 soggetti confrontabili. Trattamento A B 3.8 3.3 2.9 4.3 13.8 5.4 4.9 10.5 9.8 8.6 6.5 11.1 9.2 12.6 Media Aritmetica Indici di posizione L’indice di locazione più utilizzato (anche quando non sarebbe appropriato farlo) è la media aritmetica. Numeri che sono rappresentativi dei dati e forniscono indicazioni sull’ordine di grandezza del fenomeno in studio Formalmente: dato un campione di n unità su cui è stata rilevata la variabile X: x1, x2, x3,......, xn la media aritmetica x è definita come: x x1 x2 .... xn n n x i i 1 n n x N.B. l’espressione i si legge “sommatoria di xi con i esteso da 1 a n” i 1 1 La media aritmetica rappresenta il baricentro della distribuzione. Parametro e stimatore Media del campione Si presta bene a sintetizzare distribuzioni simmetriche (stimatore) n x x i i 1 n E’ meno utile quando la distribuzione è asimmetrica. N Media della popolazione (parametro) Esempio (0): variabile qualitativa ordinale Titolo di studio f(x) Lic. Elementare 18 Lic. Media 12 Maturità Laurea 36 54 Totale 120 x i 1 i N Esempio (1): variabile continua (dati singoli) Peso perso (kg) dopo dieta (trattamento A): dieta ? 3.8, 3.3, 2.9, 4.3, 13.8, 5.4, 4.9 Qual è il titolo di studio medio? 2 Esempio (1): variabile continua (dati singoli) Peso perso (kg) dopo dieta (trattamento A): dieta ? Esempio (2): variabile discreta N° di automobili per famiglia: 3.8, 3.3, 2.9, 4.3, 13.8, 5.4, 4.9 x 3.8 3.3 2.9 4.3 13.8 5.4 4.9 38.4 5.49 kg 7 7 X f(x) 0 1 2 3 Tot. 2 20 25 3 50 n x x i 1 i n Esempio (2): variabile discreta N° di automobili per famiglia: Esempio (2): variabile discreta X f(x) 0 1 2 3 Tot. 2 20 25 3 50 Se k è il # di valori distinti assunti dalla variabile X, allora: f ( x1 ) f ( x2 ) f ( xk ) ( x1 x1 ... x1 ) ( x2 x2 ... x2 ) ... ( xk xk ... xk ) x n 0 2 1 20 2 25 3 3 79 1.58 50 50 k x xi p( xi ) dato che i 1 x i i i 1 k f (x ) i 1 Se si utilizzassero le frequenze relative: 20 25 0 0 1 1 .... 1 2 2 ... 2 3 3 3 x 50 k x f (x ) i k p( x ) 1 i 1 i 0 0.04 1 0.40 2 0.50 3 0.06 1.58 1 3 Esempio (3): variabile continua (dati aggregati in classi) Lunghezza supina (cm) di 51 neonati Lunghezza supina (cm) di 51 neonati Estremi di classe freq. ass. f(x) 45.75 - 47.25 5 Esempio (3): variabile continua (dati aggregati in classi) Estremi di classe 45.75 - 47.25 Val. centrale(cx) 46.5 freq. ass. f(x) 5 47.25 - 48.75 48.75 - 50.25 48.0 49.5 7 14 51.0 52.5 16 9 47.25 - 48.75 7 48.75 - 50.25 14 50.25 - 51.75 16 51.75 - 53.25 9 50.25 - 51.75 51.75 - 53.25 Totale 51 Totale Per il calcolo della media è necessario considerare come valore rappresentativo di ogni classe il suo valore centrale cxi. 51 Ciò equivale ad assumere che le unità siano equidistribuite all’interno della classe. Esempio (3):……. Estremi di classe 45.75 - 47.25 Val. centrale(cx) 46.5 freq. ass. f(x) 5 47.25 - 48.75 48.75 - 50.25 48.0 49.5 7 14 50.25 - 51.75 51.75 - 53.25 51.0 52.5 16 9 Totale x 51 Proprietà della media aritmetica (1) k x i 1 c xi f ( xi ) k f (x ) i La media aritmetica è sempre compresa tra il più piccolo ed il più grande dei valori osservati: i 1 k = # classi i = 1,…, k x(1)< x < x(n) dove: x(1)=minx1, x2,..., xn x(n)=maxx1, x2,..., xn 46.5 5 48 7 49.5 14 5116 52.5 9 2550 50 cm 51 51 La media calcolata sui dati (50 cm) raggruppati in classi rappresenta una approssimazione di quella determinata a partire dai singoli dati (50.02 cm) . min=2.9 max=13.8 4 Proprietà della media aritmetica (2) Altezza (m) relativa a 85 ragazzi che frequentano 3 classi diverse n1=20 n2=15 x1 1.68 x2 1.60 Proprietà della media aritmetica (2) La media di un insieme di osservazioni organizzate in k gruppi è pari alla media ponderata delle medie parziali ( x1 , x2 ,..., xk ) con pesi uguali alla numerosità dei sottogruppi (n1, n2,…,nk): k n3=50 xglobale x3 1.90 xglobale xn i n La somma degli scarti delle osservazioni dalla media è pari a ??? i i 1 1.68 20 1.60 15 1.90 50 152.6 1.80 m 85 85 Proprietà della media aritmetica (3) i i 1 k Proprietà della media aritmetica (3) Voti esami sostenuti: 23, 24, 27, 25, 27, 30 ( xi x ) x 26 ( xi x ) -3 -2 +1 ( x x ) ( x x ) -1 +1 i i +4 (x x) i 6 ( x x ) i 6 5 Proprietà della media aritmetica (3) La somma degli scarti delle osservazioni dalla media è pari a n (x x ) 0 i i 1 Si considerino i valori di peso (kg) persi dai 7 soggetti che sono stati sottoposti a dieta (trattamento A) : 3.8, 3.3, 2.9, 4.3, 13.8, 5.4, 4.9 la media di 5.49 kg non è un valore tipico dell’insieme di osservazioni, dato che un solo valore su sette risulta superiore alla media. la media di 5.49 kg non è un valore tipico dell’insieme di osservazioni, dato che un solo valore su sette risulta superiore alla media. Mediana La mediana è quella modalità tale per cui l’insieme delle osservazioni risulta essere per metà inferiore e per metà superiore ad essa. Per calcolare la mediana di una variabile quantitativa: Es: Peso perso (kg) dopo dieta 3.8, 3.3, 2.9, 4.3, 13.8, 5.4, 4.9 si ordinano le osservazioni: 2.9, 3.3, 3.8, 4.3, 4.9, 5.4, 13.8 6 Mediana La mediana è quella modalità tale per cui l’insieme delle osservazioni risulta essere per metà inferiore e per metà superiore ad essa. Per calcolare la mediana di una variabile quantitativa: Per n dispari, la mediana è quel valore che occupa la posizione n 1 nell’insieme ordinato: 2 Es: Peso perso (kg) dopo dieta: Es: Peso perso (kg) dopo dieta 3.8, 3.3, 2.9, 4.3, 13.8, 5.4, 4.9 si individua quella modalità che è più grande del 50% delle osservazioni e più piccola del restante 50%: 2.9, 3.3, 3.8, 4.3, 4.9, 5.4, 13.8 (7+1)/2=4 1 2 3 4 5 6 7 2.9, 3.3, 3.8, 4.3, 4.9, 5.4, 13.8 3 osservazioni 3 osservazioni Per n pari, la mediana è il valore centrale tra quello che n occupa la posizione e n 1 nell’insieme ordinato: 2 2 Lunghezza supina (cm) di 51 neonati Estremi di Es: Voto esami 23, 24, 25, 27, 27, 30 6/2=3 1 Quando i dati sono organizzati in seriazioni: 2 3 25 27 2 (6/2)+1=4 4 -5 6 classe 45.75 - 47.25 47.25 - 48.75 48.75 - 50.25 50.25 - 51.75 51.75 - 53.25 freq.ass. freq.rel. 5 7 14 16 9 % 9.8 13.7 27.5 31.4 17.6 F(x) F(x) rel 5 12 26 42 51 % 9.8 23.5 51.0 82.4 100.0 1) ci si può limitare alla classe mediana: (48.75-50.25) …..oppure…. 7 2) si può calcolare la mediana per mezzo di una interpolazione lineare (assumendo cioè che la distribuzione delle osservazioni sia uniforme entro la classe mediana). Med xi 1 ( xi xi 1 ) 0.5 F ( xi 1 ) F ( xi ) F ( xi1 ) F(x) Med xi 1 A:B C:D F(xi) 0.5 C D x Med xi 1 A AB B F(xi-1) xi-1 x A Med i 48.75 ( xi xi 1 ) 0.5 F ( xi 1 ) F ( xi ) F ( xi1 ) (50.25 48.75) 0.5 0.235 48.75 1.45 50.20 0.51 0.235 …..oppure…. C 3) si può approssimare la mediana utilizzando il grafico delle frequenze cumulate percentuali (ogiva di Galton) per mezzo di una interpolazione lineare. …continua La mediana di una variabile qualitativa ordinale è quella modalità xi tale per cui valgono le due seguenti condizioni: F(xi-1)< 0.5 Percentuali D 2) si può calcolare la mediana per mezzo di una interpolazione lineare (assumendo cioè che la distribuzione delle osservazioni sia uniforme entro la classe mediana). 100 90 80 70 60 50 40 30 20 10 0 45.75 47.25 48.75 50.25 51.75 Alte z z a (cm) mediana ~ 50 cm 53.25 e F(xi ) > 0.5 Titolo di studio f(x) f(x) rel F(x) rel % % Lic. Elementare Lic. Media 6 2 30 10 Maturità 6 30 70 Laurea 6 30 100 Totale 20 30 40 8 Moda La mediana risulta essere meno sensibile della media alla presenza di dati anomali. x Mediana 2.9, 3.3, 3.8, 4.3, 4.9, 5.4, 13.8 4.3 2.9, 3.3, 3.8, 4.3, 4.9, 5.4, 130.8 4.3 4.59 22.2 La moda è quella modalità/valore più frequente, il più rappresentato. Var. qualitativa moda = Lunga Tipi di gonna portate dalle donne italiane Mini Corta Midi Longuette 120 57 70 87 Lunga Tot. 230 564 moda = 27 Var. quantitativa (dati singoli) 23, 24, 25, 27, 27, 30 Voto esami: Var. quantitativa (dati organizzati in classi) Quando il fenomeno è quantitativo ed espresso in intervalli di uguale ampiezza si parla di classe modale come di quella classe che ha associata la frequenza più elevata. 0.3 Nella stessa distribuzione possono esservi più mode Distribuzione bimodale 14.0 0.3 ISTOGRAMMA POLIGONO DI FREQUENZA 12.0 0.2 0.2 centro della classe 0.1 0.1 Frequenze assolute frequenza relativa Moda 10.0 8.0 6.0 4.0 2.0 0 0 45 48 51 54 57 cm 0.0 Gennaio Febbraio Marzo Aprile Maggio Giugno Luglio Agos to Settembre Ottobre Novembre Dicembre Mesi dell'anno Distribuzione del numero di nascite per mese [48.75-50.25] 9 Posizione relativa di Moda, Mediana e Media Moda Nella stessa distribuzione possono esservi più mode Frequenze relative Distribuzione multimodale o senza moda? Distribuzione simmetrica moda = mediana = media 1 0.8 Distribuzione con asimmetria positiva 0.6 0.4 moda 0.2 < mediana < media 0 0-1 1-2 2-3 4-5 cm 3-4 Distribuzione con asimmetria negativa moda Distribuzione simmetrica > mediana > Distribuzione asimmetrica Età alla diagnosi di fibrosi cistica Concentrazione di cloro nel sudore 2500 900 media 800 moda 600 media = 98.8 mEq/l mediana = 100.0 mEq/l 700 media = 4.2 anni mediana = 9 mesi 2000 moda = 100.0 mEq/l = 3 mesi 1500 500 400 1000 300 500 200 100 0 < 30 60 100 150 mE/l 0 0 5 10 40 anni 10 Quantile (Percentile) ? Es: p=0.10 x0.10= 52.9 Il quantile rappresenta una estensione del concetto di mediana. 10% 90% Il quantile xp (0p1) è quel valore della variabile per cui valgano contemporaneamente: 1. il p% delle osservazioni assume valori minori ad esso, 2. l’(1-p)% delle osservazioni assume valori maggiori o uguali ad esso. Es. p=0.50 x0.50= 58 ? 50% 50% Esempi Quartili Quantili particolari: Quartili: suddividono i dati in quattro parti uguali (25%) Es. p=0.25 Q1=x0.25=55.29 p=0.50 Q2=x0.50=58.00 p=0.75 Q3=x0.75=60.68 Mediana: suddivide i dati in due parti uguali (50%) P ercentua li Es. Mediana: p=0.50 25% 100 90 80 70 60 50 40 30 20 10 0 45.75 47.25 48.75 50.25 51.75 53.25 Altez z a (cm) 50% 50% Q1 Q2 Q3 11 Quantili particolari: Tabella riassuntiva Quartili: suddividono i dati in quattro parti uguali (25%) Moda Mediana Media Aritmetica Var. quant. Continua/Discreta Var. qual. Ordinale Var. qual. Nominale P ercentua li Es. Quartili: p=0.25, p=0.50, p=0.75 100 90 80 70 60 50 40 30 20 10 0 45.75 47.25 48.75 50.25 51.75 53.25 Altez z a (cm) 25% 25% 25% 25% Quesito E’ più efficace una dieta alimentare (A) o un trattamento farmacologico (B) per diminuire di peso? Per valutare l’entità della perdita di peso (kg) che si verifica dopo trattamento (A o B) sono stati considerati 14 soggetti confrontabili. Trattamento A B 3.8 3.3 2.9 4.3 13.8 5.4 4.9 10.5 9.8 8.6 6.5 11.1 9.2 12.6 ...gli indici di locazione non dicono tutto ….se l’esperimento sulla perdita di peso avesse fornito i seguenti risultati: Trattamento A B 13.0 3.2 7.4 4.3 8.5 5.9 10.0 8.4 5.4 7.6 6.0 9.6 6.7 9.0 Cosa avremmo concluso? 12 1) I due trattamenti A e B forniscono risultati sovrapponibili in termini di media e mediana. Grafico “Box Plot” Max 3° quartile 2) I dati relativi al trattamento A sono più dispersi di quelli ottenuti con il trattamento B. Tratt. A B Tratt. A B Media Mediana 7.47 7.4 7.53 7.6 Min 3.2 5.4 Max 13.0 9.6 Media Mediana 1° quartile Min Indici di posizione Campo di variazione Numeri che sono rappresentativi dei dati e forniscono indicazioni sull’ordine di grandezza del fenomeno in studio. Il campo di variazione (range) è la differenza fra il massimo ed il minimo valore osservato. Indici di dispersione Numeri che forniscono informazioni sulla variabilità (eterogeneità) del fenomeno in studio. Range= maxx1, x2,..., xn - minx1, x2,..., xn= x(n)-x(1) Tratt. A Tratt. B RangeA=9.8 max=13.0 min=3.2 RangeB=4.2 min=5.4 max=9.6 Viene calcolato a partire dai due valori più estremi e non tiene conto di tutti gli altri dati. E’ influenzato dalla presenza di eventuali valori anomali. 13 Scarto interquartile Lo scarto interquartile (SIQ) è la differenza fra il terzo ed il primo quartile. SIQ = III quartile - I quartile Tratt. A Tratt. B Iq=5.1 SIQA=4.35 IIIq=9.45 max=13.0 min=3.2 …non siamo ancora soddisfatti Si potrebbe costruire un indicatore che: 2) misuri il grado di dispersione dei dati rispetto ad un “particolare” valore. 1) tenga conto di tutte le osservazioni del campione; Iq=6.35 SIQB=2.35IIIq=8.7 max=9.6 min=5.4 n (x x) i i 1 Nell’intervallo identificato dallo SIQ cade il 50% delle osservazioni posizionate nella zona centrale della distribuzione. Dipende da due quantità che non sono sensibili alla presenza di eventuali valori anomali. ….ma, poiché n ( x x ) 0 i possibili misure, come ad esempio … esempio Devianza La devianza è la somma dei quadrati degli scarti delle singole osservazioni (xi) rispetto alla media campionaria ( x ): n D ( xi x ) 2 è necessario valutare altre i 1 Trattamento A Axi ( A xi xA ) 2 Trattamento B Bxi 13.0 8.4 3.2 5.4 La devianza: 7.4 7.6 può assumere valori strettamente positivi; vale 0 in assenza di variabilità; (es. 3.5, 3.5, 3.5 3.5) 4.3 6.0 8.5 9.6 5.9 6.7 10.0 9.0 i 1 è tanto più elevata quanto più i dati sono dispersi in un intervallo ampio di valori; è fortemente influenzata dall’eventuale presenza di dati per il fatto che si utilizzano i quadrati delle distanze. ( B xi xB ) 2 14 … esempio Trattamento A ( A xi xA ) Axi 2 Devianza Trattamento B Bxi ( B xi xB ) 13.0 30.57 8.4 0.76 3.2 18.25 5.4 4.54 7.4 0.01 7.6 0.01 4.3 10.06 6.0 2.34 8.5 1.06 9.6 4.28 5.9 2.47 6.7 0.69 10.0 6.39 9.0 2.16 DA = 68.79 n xi 2 D xi i 1 n i 1 … esempio Trattamento A n D ( xi x ) Trattamento B 2 i 1 può essere riscritta come: n xi n 2 D xi i 1 n i 1 2 La devianza è l’ingrediente di base di altre misure di dispersione per variabili quantitative. DB = 14.78 2 n La formula della devianza 2 n xi 2 D xi i 1 n i 1 2 n … esempio Trattamento A Trattamento B Axi Bxi Axi 2 Axi 13.0 8.4 13.0 169.00 8.4 70.56 3.2 5.4 3.2 10.24 5.4 29.16 7.4 7.6 7.4 54.76 7.6 57.76 4.3 6.0 4.3 18.49 6.0 36.00 8.5 9.6 8.5 72.25 9.6 92.16 5.9 6.7 5.9 34.81 6.7 44.89 10.0 9.0 2 Axi 10.0 100.00 9.0 81.00 52.3 459.55 52.7 411.53 DA = 68.79 Calcolare D con la formula alternativa Bxi DB = 14.78 Calcolare D con la formula alternativa 15 Se i 7 soggetti trattati con B venissero clonati 4 volte ottenendo così 35 soggetti: Varianza La varianza è la media dei quadrati degli scarti: n=7 n=35 2 DB(n=7) = 14.78 s 2 D 1 n ( xi x ) n 1 n 1 i 1 Ha le medesime proprietà della devianza DA = 68.79 DB(n=35) = 14.78 x 5 = 73.9 E’ espressa in unità di misura al quadrato A parità di variabilità, la devianza aumenta solo perché è aumentato il numero di unità statistiche Il denominatore è (n-1) non n Parametro e stimatore Deviazione standard N Varianza della popolazione 2 x i 2 N n Varianza del campione s2 Per ovviare al problema dell’unità di misura al quadrato: i 1 2 s s x x i 1 2 i n 1 Stimatore con buone proprietà statistiche 2 1 n ( xi x ) n 1 i 1 Nell’esempio dei pazienti sottoposti a trattamenti per la perdita del peso: s A 11.47 3.39 s B 2.46 1.57 16 Quando i dati sono organizzati in seriazioni si adegua la formula per tenere conto delle classi: s k = # di classi i = 1,…, k 2 1 k ( c xi x ) f ( xi ) n 1 i 1 Lunghezza supina (cm) di 51 neonati Estremi di classe 45.75 - 47.25 47.25 - 48.75 48.75 - 50.25 50.25 - 51.75 51.75 - 53.25 Quando i dati sono organizzati in seriazioni si adegua la formula per tenere conto delle classi: s k = # di classi i = 1,…, k 2 1 k ( c xi x ) f ( xi ) n 1 i 1 Lunghezza supina (cm) di 51 neonati freq.ass. Val.cen. f(xi) (cxi) 5 46.5 7 48.0 14 49.5 16 51.0 9 52.5 Estremi di classe 45.75 - 47.25 47.25 - 48.75 48.75 - 50.25 50.25 - 51.75 51.75 - 53.25 freq.ass. Val.cen. f(xi) (cxi) 5 7 14 16 9 46.5 48.0 49.5 51.0 52.5 c x i x 2 f xi 61.25 28.00 3.50 16.00 56.25 s 165 3.3 1.82 cm 50 Fate attenzione al calcolo della varianza utilizzando le frequenze relative!!!! Distribuzione simmetrica Il coefficiente di variazione (CV) è il rapporto fra la deviazione standard e la media aritmetica: Concentrazione di cloro nel sudore 900 media 800 CV = 98.8 mEq/l mediana = 100.0 mEq/l 700 moda 600 = 100.0 mEq/l s x È un numero puro che può assumere valori positivi o negativi a seconda del segno della media. 500 400 300 Viene utilizzato per: 200 100 0 Coefficiente di variazione 1. tenere conto dell’ordine di grandezza del fenomeno, < 30 x-2s 60 x-s 100 x 150 x+s mE/l 2. confrontare la variabilità di fenomeni di natura diversa. x+2s 17 1) Medesimo fenomeno (reddito) in gruppi con ordine di grandezza differente (operai e miliardari) Reddito (migliaia di €) Operai xo 40000€ Miliardari 1 20 1 800020 2 60 2 800060 xM 800040000€ sO= sM= 28300 € x s Una differenza di 20000 € in +/- nel reddito annuo è rilevante per Orazio, ma non per Paperone!!! CVO 2) Fenomeni differenti (capre & cavoli) 28.3 0.71 40 CVM 28.3 0.00004 800040 La variabilità del reddito dei miliardari risulta trascurabile rispetto all’ordine di grandezza del fenomeno. PESO CAPRE (kg) LUNG. FOGLIE CAVOLI (cm) 65.7 7.8 24.7 6.3 E’ più variabile il peso delle capre o la lunghezza delle foglie dei cavoli? CVCAPRE 7.8 0.1187 65.7 CVCAVOLI 6.3 0.2551 24.7 La variabilità della lunghezza delle foglie di cavolo risulta più elevata rispetto a quella del peso delle capre. Cambiamento di origine Cambiamento di scala Si supponga di considerare la trasformazione: Si supponga di considerare la trasformazione: * * Xi Xi a la media di x* cambia: X i bX i * la media di x* cambia: x x a (il centro della distribuzione si sposta di una quantità pari ad a) la d.s. di x* non cambia: * (il centro della distribuzione si sposta proporzionalmente alla quantità b) la d.s. di x* cambia: s s (ogni valore conserva la medesima distanza dalla media) a = -2 * s bs (la distribuzione si allunga/restringe proporzionalmente alla quantità b) x * 24 s* = 2.53 x 26 * x bx s = 2.53 in decimi b in 30-esimi 10 30 x* 8.67 s* = 0.84 x 26 s = 2.53 a=-2 18