Università degli Studi di Cassino Facoltà di Scienze Motorie – Corso di Laurea in Scienze Motorie Anno accademico 2007/2008 Principi di Statistica Descrittiva (3) Bruno Federico [email protected] Indici di sintesi Indici (Statistiche) Gran parte della analisi statistica consiste nel condensare complessi pattern di osservazioni in un indicatore che sia capace di riassumere una specifica caratteristica di tutte le rilevazioni in un singolo numero In statistica descrittiva distinguiamo: Indici di tendenza centrale (o indici di posizione) Indici di dispersione (o indici di variabilità) che esprimono il valore “tipico” che esprimono quanto i dati si raggruppano strettamente intorno al valore ”tipico” Indici di forma che esprimono le caratteristiche di “simmetria” e “curvatura” della distribuzione dei dati Indici (Statistiche) Indici di tendenza centrale Moda Mediana Media Indici di dispersione Range Range interquartile Percentili Deviazione standard, varianza Football Un esempio di archivio di dati: Domande: Football 1. Quale dei due palloni va più lontano? 2. La variabilità nella distanza è simile tra i due palloni? Abbiamo bisogno di indici statistici. In questo caso, calcoleremo 1. la distanza media e mediana percorsa 2. la variabilità nella distanza percorsa (range, range interquartile, deviazione standard) Indici di tendenza centrale Moda, media e mediana Moda È il valore che frequentemente Per si verifica più quale tipologia di dati è calcolabile? dati categorici binomiali, nominali e ordinali Dati numerici discreti (quando le modalità osservate siano poche) dati numerici continui è la classe di valori osservata più frequentemente …..è quindi necessario prima raggruppare in classi le osservazioni Moda Si determina contando la frequenza delle modalità Non tiene conto di tutte le altre modalità, utilizza un solo elemento della distribuzione Ci può essere più di un valore modale in una distribuzione Due valori con la stessa frequenza Due valori con frequenze simili Moda Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Si costruisce una tabella di frequenza Il valore 2.8 si presenta tre volte, i valori 2.6 e 4.0 si presentano 2 volte ciascuno, tutti gli altri valori si presentano una volta sola 2.8 è la moda della distribuzione N.B. La moda si riferisce al valore più frequente (2.8), non alla frequenza di tale valore (3) Mediana Il valore, che, dopo aver posto le osservazioni in ordine crescente, divide il campione in due gruppi di eguale numerosità Per quale tipologia di dati è calcolabile? dati categorici ordinali dati numerici discreti dati numerici continui Mediana Si calcola individuando Nelle serie dispari il valore al centro della distribuzione ordinata (valore nella (n+1)/2 esima posizione) Nelle serie pari è la media dei due valori al centro della distribuzione ordinata (media tra il valore nella n/2 esima e il valore nella (n/2)+1 esima posizione) E’ detta anche 50° percentile Utilizza le relazioni di posizione dei dati (>,<) Non è sensibile ai valori estremi E’ il migliore indice di distribuzioni asimmetriche sintesi nelle Mediana Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Ordina i 13 valori xi 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 Calcolo: Nelle serie dispari (N=13 è dispari) è il valore al centro della distribuzione ordinata • valore nella (n+1)/2 esima posizione = 7a posizione 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 Media aritmetica La somma di tutti i valori rilevati in un campione divisa per la numerosità Utilizza le proprietà delle aritmetiche (quantità, operazioni) relazioni Esiste solo per i dati numerici continui e discreti Sintetizza tutti i dati: è il valore più vicino a tutte le singole osservazioni E’ invariante per trasformazioni affini +k, - k, *k, /k sui dati • spostano nello stesso senso la media E’ valida soprattutto per i dati che seguono una distribuzione di frequenza normale E’ sensibile ai valori estremi La Media aritmetica Significato: Quanto sarebbero alti i soggetti che abbiamo studiato, se fossero tutti uguali? n ∑x i x= xi i =1 n n ∑x i i =1 x1 x2 x3 x x x Media aritmetica Esempio: Il volume espiratorio forzato in 13 adolescenti asmatici (in litri) 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 Somma dei 13 valori xi 2.3+2.1+3.5+2.6+2.8+2.8+4.0+2.2+2.6+3.0+4.0+2.8+3.3= 38 Divisione per n=13 38 / 13 = 2.9 n ∑x i x= i =1 n Valutare una distribuzione di frequenza Simmetrica Unimodale Media Simmetrica Bimodale Moda1 < Media = Mediana < Moda2 Asimmetrica a destra Moda = Mediana = Moda < Mediana < Media Asimmetrica a sinistra Media < Mediana < Moda Esercitazione Di un gruppo di atleti raccogliamo delle informazioni relative al tipo di sport praticato, al peso, all'altezza ed al numero di infortuni subiti Calcolare: L'altezza Lo La media e mediana sport più praticato media, la mediana e la moda del numero di infortuni Il dataset Esercitazione Hai raccolto i valori del peso (espresso in libbre) dei canottieri di Oxford e Cambridge Esercitazione Di seguito sono riportati i valori medi e mediani (in libbre) per i due equipaggi Cambridge: Oxford: media=182, mediana=186 media=180, mediana=185 Ti aspetti che la distribuzione sia simmetrica? Esercitazione La distribuzione del peso dell’equipaggio di Cambridge (9 canottieri) 1** | 09 1** | 1** | 1** | 79 1** | 83, 85, 86, 89, 95 2** | 04, 14 Esercitazione 4 6 La distribuzione del peso dei due equipaggi (18 canottieri) 0 2 Frequency 100 150 weight 200 Media per dati raggruppati La media aritmetica si può calcolare anche senza avere i valori di ogni singola osservazione, basandosi su dati aggregati Es. consideriamo la seguente tabella, che riporta la distribuzione di frequenza del n° di sigarette fumate ogni giorno da un campione di 20 persone N° sig. Frequenza 0 6 5 8 10 5 20 1 Media per dati raggruppati La media aritmetica può essere calcolata come media “pesata” dei diversi valori I pesi sono rappresentati dalla frequenza di ciascun valore N° sig. medio=(0*6+5*8+10*5+20*1)/20=5.5 Media per dati raggruppati La media aritmetica può essere calcolata, con una certa approssimazione, anche quando, invece dei singoli valori, sono riportati degli intervalli di valori della variabile di interesse Es. consideriamo la seguente tabella, che riporta la distribuzione di frequenza dei valori di frequenza cardiaca a riposo in un campione di 20 persone Freq. Card. Frequenza 40-49 2 50-59 4 60-69 6 70-79 4 80-89 3 90-99 1 Media per dati raggruppati In questo caso, si prende il valore centrale di ogni intervallo e si usa la formula descritta in precedenza Freq. Card. media = (45*2+55*4+65*6+75*4+85*3+95*1)/20=67.5 Esercitazione Calcolare il valore medio del n° di sit-ups effettuati da un campione di 30 atleti in un giorno N° sit-ups Frequenza 5 6 10 8 15 6 20 2 30 5 50 3 Esercitazione Calcolare il valore medio della Pressione Arteriosa Sistolica negli stessi atleti N° sit-ups Frequenza <100 100-109 2 3 110-119 120-129 3 5 130-139 8 140-149 150-159 4 2 160-169 3 Un esempio di archivio di dati: Football trial 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 air 25 23 18 16 35 15 26 24 24 28 25 19 27 25 34 26 20 22 33 29 31 27 22 29 28 29 22 31 25 20 27 26 28 32 28 25 31 28 28 helium 25 16 25 14 23 29 25 26 22 26 12 28 28 31 22 29 23 26 35 24 31 34 39 32 14 28 30 27 33 11 26 32 30 29 30 29 29 30 26 football Quale dei due palloni va più lontano? Indici di variabilità La variabilità Misurare la variabilità di una distribuzione Distribuzione A Distribuzione B xi ni fi xi 10 20 30 40 50 tot 1 2 94 2 1 100 0.01 0.02 0.94 0.02 0.01 1.00 10 20 30 40 50 tot Moda(A)= 30 ni fi 10 20 40 20 10 100 Mediana(A)=30 Moda(B)= 30 Mediana(B)=30 Media (A) =30 Media (B) =30 Le due distribuzioni si possono dire uguali? 0.10 0.20 0.40 0.20 0.10 1.00 Misurare la variabilità di una distribuzione distribuzione frequenze A e B 100 80 60 distribuzione A 40 distribuzione B 20 0 10 20 30 40 50 Le osservazioni della distribuzione A sono per la maggior parte in corrispondenza del valore medio Le osservazioni della distribuzione B sono più disperse rispetto al valore medio Misurare la variabilità di una distribuzione I dati delle due distribuzioni hanno un diverso livello di dispersione I dati delle due distribuzioni sono differentemente distribuiti intorno al loro valore medio Le due distribuzioni hanno una diversa variabilità Indici di variabilità La variabilità o dispersione concetto chiave in statistica Molte le cause della variabilità fenomeno Indici di variabilità sono: Il un analisi vengono condotte allo scopo di studiare è range, o intervallo massimo-minimo Il range inter-quartile La varianza La deviazione standard di un Il range Il range, o intervallo massimo-minimo, individua le due osservazioni estreme di una distribuzione, ovvero la più grande e la più piccola È Il quindi molto facile calcolare il range limite di questa misura è che è facilmente influenzabile da osservazioni anomale, cioè molto più grandi o molto più piccole della maggior parte delle osservazioni Il Range Campo di variazione R = Max - Min Distribuzione A xi ni fi 10 20 30 40 50 tot 1 2 94 2 1 100 0.01 0.02 0.94 0.02 0.01 1.00 R = 50 - 10 Esercitazione Hai raccolto i valori del peso (espresso in libbre) dei canottieri di Oxford e Cambridge Calcola il range di valori, per i due team Quantili Per QUANTILI si intende la suddivisione di una distribuzione in gruppi ordinati e di eguale numerosità Decili: dieci gruppi Quintili: cinque gruppi Quartili: quattro gruppi Centili (o percentili): cento gruppi Per PERCENTILE si intende la suddivisione in 100 parti uguali di una serie di valori continui ad esempio pesi o altezze di bambini Un bambino che superi il 90% percentile avrà dunque un valore (es. di altezza) superiore al 90% di tutti i bambini considerati Percentili Consideriamo una variabile Y, ordinabile, con modalità: y1, y2 , y3 , …, yk 1° percentile= valore di y che separa il primo 1% delle osservazioni 2° percentile= valore di y che separa il primo 2% delle osservazioni n° percentile= valore di y che separa il primo n% delle osservazioni Percentili Calcolo del p-esimo Percentile Considerando n osservazioni ordinate ed intendendo calcolare il valore del pesimo percentile valutiamo l’ espressione (n*p)/100 se NON è un intero • il p-esimo percentile sarà l’ osservazione che si trova alla posizione data da np/100 approssimato per eccesso se è un intero • il p-esimo percentile sarà la media tra l’ osservazione che si trova nella posizione np/100 e l’ osservazione che si trova nella posizione successiva Percentili Calcolo del p-esimo Percentile 75° percentile nel nostro esempio di 13 osservazioni valutiamo l’ espressione (n*p)/100 75*13/100 = 9.75 NON è un intero • il p-esimo percentile sarà l’ osservazione che si trova alla posizione data da np/100 approssimato per eccesso • e cioè la 10a osservazione dopo aver ordinato i dati 2.1, 2.2, 2.3, 2.6, 2.6, 2.8, 2.8, 2.8, 3.0, 3.3, 3.5, 4.0, 4.0 Le curve di crescita Le curve riportate nel grafico rappresentano alcuni peso percentili in ragazze negli USA del bambine (10-20 e anni) Quartili di una distribuzione 1°° quartile = 25°° percentile Mediana 2°° quartile = 50°° percentile 3°° quartile = 75°° percentile Il range inter-quartile E’ la differenza tra il terzo quartile (75° percentile) e il primo quartile (25° percentile) E’ l’ampiezza dell’intervallo contiene il 50% centrale dei dati che Non è influenzato dai valori estremi N.B. sia il range che la differenza interquartile sono singoli numeri, non intervalli Esercitazione Hai raccolto i valori del peso (espresso in libbre) dei canottieri di Oxford e Cambridge Calcola i quartili della distribuzione Football trial 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 air 25 23 18 16 35 15 26 24 24 28 25 19 27 25 34 26 20 22 33 29 31 27 22 29 28 29 22 31 25 20 27 26 28 32 28 25 31 28 28 helium 25 16 25 14 23 29 25 26 22 26 12 28 28 31 22 29 23 26 35 24 31 34 39 32 14 28 30 27 33 11 26 32 30 29 30 29 29 30 26 football La variabilità nella distanza è simile tra i due palloni? Diagrammi a scatola Sono utili per verificare la asimmetria delle distribuzioni di frequenza La scatola centrale si estende dal 25° percentile al 75° percentile (i “quartili” dei dati) La linea dentro la scatola rappresenta la mediana Le linee al di fuori della scatola si estendono ai valori adiacenti, osservazioni più estreme che non superano più di 1,5 volte l’altezza della scatola esternamente ad ognuno dei quartili 100 150 weight 200 250 Diagrammi a scatola Diagrammi a scatola 100 150 weight 200 250 Cambridge Graphs by team Oxford 10 20 30 40 Diagrammi a scatola Air Helium Misurare la variabilità di una distribuzione Come migliorare ulteriormente misura della variabilità? le Utilizzare misure che tengano conto di tutti i termini della distribuzione in studio Calcolare lo scarto tra il valore di ciascuna osservazione ed il valore medio di tutte le osservazioni Calcolare la media di tutti gli scarti Distanza media dei punti della distribuzione dalla media della distribuzione stessa Varianza E’ un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione Idealmente, la distanza media delle osservazioni dalla media artimetica del campione si potrebbe studiare calcolando la media aritmetica dei semplici scarti. Tuttavia, per la stessa definizione della media aritmetica, la somma degli scarti è pari a zero Allora, per evitare l’ azzeramento della somma degli scarti, si calcola la media dei quadrati degli scarti per la varianza di una popolazione: n 2 ( x − µ ) ∑ i σ2 = per la varianza in un campione • si tende ad essere più conservativi: i =1 n n 2 ( x − x ) ∑ i s2 = i =1 n −1 Varianza Utilizza le proprietà delle relazioni aritmetiche (quantità, operazioni) Esiste solo per i dati numerici continui e discreti E’ valida soprattutto per i dati che seguono una distribuzione di frequenza normale E’ sensibile ai valori estremi La sua unità di misura non è quella della media è al quadrato! Varianza Esempio Si calcolano gli scarti 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 2.3-2.9, 2.1-2.9, 3.5-2.9, … -0.6, -0.8, +0.6, -0.3, -0.1, -0.1, +1.1, -0.7, -0.3, +0.1, +1.1, -0.1, +0.4 si calcolano i quadrati degli scarti 0.36, 0.64, 0.36, 0.09, 0.01, 0.01, 1.21, 0.49, 0.09, 0.01, 1.21, 0.01, 0.16 Si calcola la media dei quadrati degli scarti (con i gradi di libertà) 0.36+0.64+0.36+0.09+0.01+0.01+1.21+0.49+0.09+0.01+1.21+0.01+0.16 4.65/(13-1) = 0.3875 litri • n 2 attenzione: è in una scala al quadrato ! ∑ ( x − x) i s2 = i =1 n −1 2 Deviazione standard E’ un valore sintetico che vuole esprimere la distanza media di ogni singola osservazione dalla media aritmetica del campione E’ la radice quadrata della varianza, e ne ha le stesse proprietà Ha la stessa unità di misura della media aritmetica Deviazione standard Esempio Si calcolano gli scarti 2.3, 2.1, 3.5, 2.6, 2.8, 2.8, 4.0, 2.2, 2.6, 3.0, 4.0, 2.8, 3.3 2.3-2.9, 2.1-2.9, 3.5-2.9, … -0.6, -0.8, +0.6, -0.3, -0.1, -0.1, +1.1, -0.7, -0.3, +0.1, +1.1, -0.1, +0.4 si calcolano i quadrati degli scarti 0.36, 0.64, 0.36, 0.09, 0.01, 0.01, 1.21, 0.49, 0.09, 0.01, 1.21, 0.01, 0.16 Si calcola la media dei quadrati degli scarti (con i gradi di libertà) 0.36+0.64+0.36+0.09+0.01+0.01+1.21+0.49+0.09+0.01+1.21+0.01+0.16 4.65/(13-1) = 0.3875 litri Sqrt(0.3875)=0.622 litri 2 Esercitazione Hai raccolto i valori del peso (espresso in libbre) dei canottieri di Oxford e Cambridge Calcola varianza e deviazione standard per l’equipaggio di Cambridge Media=182 Un esempio Problema Valutare la concentrazione plasmatica di acido lattico in un campione di soggetti adulti, prima e dopo uno sforzo Ipotesi di ricerca La concentrazione di acido lattico aumenta dopo lo sforzo Nei soggetti allenati l’aumento di acido lattico dopo uno sforzo è inferiore rispetto ai soggetti non allenati Le condizioni del terreno di gioco possono avere un’influenza sulla concentrazione di acido lattico prodotta dopo uno sforzo Descrizione del campione Eta | Freq. Percent Cum. ------------+----------------------------------18 | 1 16.67 16.67 22 | 4 66.67 83.33 27 | 1 16.67 100.00 ------------+----------------------------------Total | 6 100.00 sesso | Freq. Percent Cum. ------------+----------------------------------M | 3 50.00 50.00 F | 3 50.00 100.00 ------------+----------------------------------Total | 6 100.00 allenato | Freq. Percent Cum. -------------+----------------------------------non allenato | 4 66.67 66.67 allenato | 2 33.33 100.00 -------------+----------------------------------Total | 6 100.00 Istogramma Diagrammi di dispersione a due dimensioni 2 acido lattico (mmol/l) 3 4 5 6 Nell’esempio, la concentrazione plasmatica di ac. lattico è misurata in 6 soggetti in 4 diverse condizioni 1 riposo- erba naturale riposo - erba sintetica sforzo - erba naturale misurazioni sforzo -erba sintetica Diagrammi lineari Il grafico mostra la variazione nel tempo, per ogni soggetto, dei livelli di ac. lattico 2 3 4 5 6 0 6 4 2 ac. lattico (mmol/l) 2 4 6 1 0 1 2 3 4 1 2 3 misurazioni Graphs by Id 4 1 2 3 4 Indici di tendenza centrale: acido lattico -> M, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.466667 .4802777 1 2.3 -> F, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.933333 .5785038 1.3 2.8 -> M, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 3.716667 1.558739 1.7 6.4 -> F, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 4.5 1.515256 2.7 6.4 Indici di variabilità : acido lattico -> M, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.466667 .4802777 1 2.3 -> F, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.933333 .5785038 1.3 2.8 -> M, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 3.716667 1.558739 1.7 6.4 -> F, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 4.5 1.515256 2.7 6.4 Indici di variabilità : acido lattico -> M, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.466667 .4802777 1 2.3 -> F, riposo Variable | Obs Mean Std. Dev. Min Max -------------+----------------------------------------------------aclattico | 6 1.933333 .5785038 1.3 2.8 -> M, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 3.716667 1.558739 1.7 6.4 -> F, sforzo Variable | Obs Mean Std. Dev. Min Max -------------+-----------------------------------------------------aclattico | 6 4.5 1.515256 2.7 6.4 0 1 2 acido lattico (mmol/l) 3 4 5 6 7 Diagrammi a scatola : acido lattico non allenato allenato 0 1 2 acido lattico (mmol/l) 3 4 5 6 7 Diagrammi a scatola : acido lattico ri po so- erba naturale riposo - erba sintetica sforzo - erba naturale sforzo -erba sintetica