UNIVERSITA’ DEGLI STUDI DI PERUGIA STATISTICA MEDICA Prof.ssa Donatella Siepi [email protected] tel: 075 5853525 05 dicembre 2014 6° LEZIONE Statistica descrittiva STATISTICA DESCRITTIVA Rilevazione dei dati piano Rappresentazione dei dati tabelle grafici A A B B C C D D E E Elaborazione dei dati Medie e indici di variabilità Indici Statistici Per sintetizzare i dati ed evidenziare una certa caratteristica: • Indici di tendenza centrale • Indici di dispersione • La forma In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici • • • • Campo di variazione (Range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione 5 Scarto medio dalla media aritmetica Un modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze Scarto medio S m x1 x x 2 x ..... x n x n Scarto medio = Distanza media dei dati dalla media 6 Esempio Consideriamo le valutazioni di una prova 1° studente 2° studente 3° studente 4° studente media 1a Prova 3 5 8 9 6,25 x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25; x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75; Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4 7 Calcoliamo lo Scarto medio per tutte le tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente media scarto medio 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 2,25 6,25 2,13 6,25 0,38 Scarto 1a prova = 2,25 dati più dispersi, risultati più eterogenei Scarto 3a prova = 0,38 dati più concentrati, risultati più omogenei Scarto 2a pr. Scarto 1a pr. “Le Distribuzioni Differiscono” 8 In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici • • • • Campo di variazione (Range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione 9 Varianza e Scarto quadratico medio Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati. Varianza Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M Varianza 2 x 1 2 2 x x2 x ..... xn x n 2 10 x n Varianza i x 1 n x n 2 2 i 1 n 11 Esempio - Varianza Consideriamo le valutazioni della prima prova 1° studente 2° studente 3° studente 4° studente 1a Prova 3 5 8 9 media 6,25 (x1)2 = (3 – 6,25 )2 = 10,5625; (x2)2 = (5 – 6,25 )2 = 1,5625; (x3)2 = (8 – 6,25 )2 = 3,0625; (x4)2 = (9 – 6,25 )2 = 7,5625; 2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4 12 Calcoliamo la Varianza per tutte le tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente media varianza Varianza 1aprova = 5,69 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 5,69 6,25 6,19 6,25 0,19 Varianza 3a prova = 0,19 dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei Varianza 2a pr. Varianza 1a pr “Le Distribuzioni Differiscono” 13 Varianza La varianza o Quadrato Medio è una devianza media o devianza rapportata al numero di osservazioni. La varianza di una popolazione (1), il cui simbolo è σ2 , è ottenuta dividendo la devianza per n, il numero di osservazioni. La varianza di un campione (2), il cui simbolo è s2 , è ottenuta dividendo la devianza per n-1, il numero di gradi di libertà. Scarto quadratico medio o Deviazione standard È uguale alla radice quadrata della varianza x x x 2 Scarto quadr. medio 1 2 x x n Scarto quadr medio x ..... xn x n 1 n 2 n 2 i 2 2 x i 1 n 15 Esempio - Scarto quadratico medio Riprendiamo le valutazioni della prima prova 1a Prova 1° studente 2° studente 3° studente 4° studente media n x 3 5 8 9 scarti da M -3,25 -1,25 1,75 2,75 6,25 0,00 scarti2 10,5625 1,5625 3,0625 7,5625 5,6875 2 i 1 n 2 5,6875 2,3848 16 Calcoliamo lo Scarto quadratico medio per tutte le prove a a a 1 Prova 1° studente 2° studente 3° studente 4° studente media scarto quadratico 2 Prova 3 Prova 3 5 8 9 2 7 8 8 6 7 6 6 6,25 2,38 6,25 2,49 6,25 0,43 Scarto q. 1aprova = 2,38 Scarto q. 3aprova = 0,43 dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono” 17 Osservazioni: 1. La varianza 2 e lo scarto quadratico medio danno informazioni sulla distribuzione dei dati: • più 2 e sono piccoli più i dati sono concentrati; • più 2 e sono grandi più i dati sono dispersi. 2. Entrambi gli indici tengono conto di tutti i dati della distribuzione 18 3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima 4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati 5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza 19 In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli indici di variabilità (o dispersione) Vedremo i seguenti indici • • • • Campo di variazione (Range) Scarto medio dalla media Varianza e scarto quadratico medio Coefficiente di variazione 20 La DS è la stima di variabilità di un campione (molto utile quando le medie dei due campioni sono simili) Non consente di confrontare la variabilità di campioni le cui medie sono sensibilmente differenti In questo caso si usa il COEFFICIENTE di VARIAZIONE Coefficiente di variazione Il coefficiente di variazione (coefficient of variation oppure coefficient of variability) è una misura relativa di dispersione, mentre le precedenti erano tutte misure assolute. Permette di valutare la dispersione dei valori attorno alla media indipendentemente dall'unità di misura. Ad esempio, la deviazione standard di un campione di redditi espressi in Lire è completamente diversa della deviazione standard degli stessi redditi espressi in Euro, mentre il coefficiente di dispersione è lo stesso in entrambi i casi. Il coefficiente di variazione CV Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale. E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza). CV 100% x 23 Coefficiente di variazione (CV) o deviazione standard relativa È rappresentato dalla DS/m * 100 Il valore che ne deriva è una quantità priva di Dimensione è un rapporto, mentre la DS è espressa nelle stesse Unità delle osservazioni originali. Il CV permette quindi il confronto di grandezze diverse. Il Coefficiente di Variazione (CV oppure semplicemente con V in molti testi recenti) misura la dispersione percentuale in rapporto alla media. Per una popolazione: dove − σ = deviazione standard della popolazione − μ = media della popolazione Per un campione dove - s = deviazione standard del campione - X = media del campione Calcoliamo il Coeff. di variazione tre prove 1a Prova 1° studente 2° studente 3° studente 4° studente 2a Prova 3a Prova 3 5 8 9 2 7 8 8 6 7 6 6 media 6,25 scarto quadratico 2,38 coeff. variazione 38,16% 6,25 2,49 39,80% 6,25 0,43 6,93% CV 1a prova = 38,16% CV 3a prova = 6,93% CV 2a pr. CV 1a pr dati più dispersi, risultati più eterogenei dati più concentrati, risultati più omogenei “Le Distribuzioni Differiscono” 26 In natura, il coefficiente di variazione tende ad essere costante per ogni fenomeno, con valori che abitualmente oscillano tra il 5% e il 15%. Valori esterni a questo intervallo possono fare sorgere il sospetto di essere in presenza di un errore di rilevazione o di calcolo; si tratta comunque di situazioni non usuali che occorrerebbe spiegare, individuandone la causa. •Se il materiale biologico in esame ha un CV troppo basso (2-3 %), si può sospettare l'esistenza di un fattore limitante che abbassa notevolmente od elimina la variabilità, come la presenza di omogeneità genetica congiunta ad una situazione ambientale uniforme. •Un CV molto alto (50%) è indice della presenza di condizioni anomale o molto differenti per più fattori. Per l'uomo, il coefficiente di variazione dell’altezza è stato calcolato tra il 40% e il 45%, testimoniando l'esistenza nella specie di grandi differenze, dovute sia a cause genetiche che ambientali (alimentazione, condizioni sanitarie, ecc.). ERRORE STANDARD DELLA MEDIA (SEM) La media e la DS calcolate da un campione sono stime della media e della DS dell'intera popolazione dalla quale il campione e' tratto. Per quantificare in termini probabilistici l'accuratezza di queste stime, possiamo calcolare i loro SE (sia della media che della DS). Il SEM (DS/√n) quantifica il grado di certezza col quale la media calcolata da un campione casuale stima la vera media della popolazione da cui il campione e' tratto. ERRORE STANDARD DELLA MEDIA (SEM) Pertanto la DS e il SEM misurano 2 aspetti decisamente diversi: • la DS descrive la variabilita' della popolazione, • il SEM descrive l'incertezza nella stima della media. La media vera della popolazione originale cade ad una distanza dalla media campionaria inferiore a 2 SEM in circa il 95% dei possibili campioni. E' bene sottolineare ancora come l'errore standard (e quindi la precisione della stima di ) dipende sia dalla variabilità della misura, sia dal numero di repliche che effettuiamo; più precisamente, l'errore standard aumenta all'aumentare della deviazione standard e diminuisce all'aumentare del numero delle ripetizioni, annullandosi quando questo tende ad infinito.