CORSO DI LAUREA IN INFERMIERISTICA LEZIONI DI STATISTICA Parte II Elaborazione dei dati Variabilità Lezioni di Statistica VARIABILITA’ Si definisce variabilità la proprietà di alcuni fenomeni di assumere valori o modalità diverse. I fenomeni che posseggono tale proprietà di definiscono variabili,quelli che non variano si definiscono costanti. Tutti i fenomeni biologici sono variabili. Lezioni di Statistica La variabilità può essere studiata a livello individuale (es.in una stessa persona) al variare di determinate condizioni o circostanze oppure nel collettivo (es.in una determinata popolazione)nelle medesime condizioni o circostanze. E’ possibile studiare la forma e la misura della variabilità. Per studiare la forma della variabilità si ricorre alla rappresentazione grafica dei dati mediante diagrammi cartesiani. Le caratteristiche delle linee (in genere curve) rappresentano la forma della variabilità. Lezioni di Statistica Forma della variabilità a livello individuale Si ricorre ad un diagramma cartesiano indicando sull’asse delle ascisse le condizioni o circostanze nelle quali si effettua la misurazione e nell’asse delle ordinate i diversi valori che la variabile assume Lezioni di Statistica Forma della variabilità nel collettivo Si ricorre ad un diagramma cartesiano indicando sull’asse delle ascisse i diversi valori che la variabile assume e sull’asse delle ordinate il numero di osservazioni (o la frequenza relativa)corrispondente ai singoli valori (in questo caso tutte le misure devono essere eseguite nelle stesse condizioni e circostanze). In alcuni casi, e sempre quando si tratta di fenomeni biologici, la forma della variabilità assume un aspetto caratteristico che si definisce curva normale (o gaussiana). Curva normale o gaussiana Così per esempio per studiare la distribuzione secondo la statura di un collettivo di giovani di 18 anni occorre riportare sull’asse delle ascisse i diversi valori che la variabile assume (statura m.1,50;1,60;1,70;ecc..) e sull’asse delle ordinate le frequenze assolute o percentuali corrispondenti ai singoli valori (es.numero o percentuale di giovani alti m.1,50; 1,60;1,70;ecc..) Principali caratteristiche della curva normale • La curva di Gauss è simmetrica • Se un fenomeno si distribuisce secondo una curva normale la media aritmetica,la moda e la mediana coincidono • La curva di Gauss tende all’infinito (da – infinito a + infinito) • Ai due lati della moda la curva decresce rapidamente fino ad un punto in cui la rapidità di diminuzione è molto minore (punti di flesso) segue Principali caratteristiche della curva normale • L’area compresa tra la curva di Gauss e l’asse delle ascisse (che si definisce area sottesa alla curva di Gauss) corrisponde al 100% delle osservazioni • La curva di Gauss è definita da una funzione matematica che consente di calcolare le frequenze(y) corrispondenti ai singoli valori che la variabile assume(x). Funzione della curva normale _ 1 1 y = -------- e σ 2π x i -x - -- --------2 σ 2 segue Funzione della curva normale dove e e π matematiche e = 2,71828 π = 3,14159... rappresentano due costanti Lezioni di Statistica Misure di variabilità _ 2 Devianza ∑ ( xi – x ) _ 2 2 ∑ ( xi – x ) Varianza σ = --------------- N Lezioni di Statistica segue Misure di variabilità _ 2 DEVIAZIONE ∑ (xi-x) STANDARD σ = --------------N (o scarto quadratico medio) La formula serve a calcolare la deviazione standard di una serie di valori e corrisponde alla radice quadrata della varianza . Lezioni di Statistica Deviazione standard Molto spesso, negli studi bio-medici, i dati vengono riassunti attraverso il più comune indice di tendenza centrale: la media. In questo caso, per descrivere compiutamente la popolazione, è sempre necessario dichiarare anche, come indice di variazione, il valore della deviazione standard. Lezioni di Statistica • La deviazione standard (o scarto quadratico medio) rappresenta la distanza media dei dati dalla loro media. • La deviazione standard è un ottimo indice di variazione dei dati quando essi sono distribuiti normalmente e rappresenta la misura di variabilità più usata nella ricerca scientifica e in campo clinico. CALCOLO DELLA DEVIAZIONE STANDARD QUANDO IL NUMERO DELLE OSSERVAZIONI E’ LIMITATO _ 2 DEVIAZIONE ∑ (xi-x) STANDARD σ = --------------N-1 (o scarto quadratico medio) La formula serve a calcolare la deviazione standard quando il numero di osservazioni è limitato(<30). In questi casi si divide la «devianza» per i «gradi di libertà» che sono ottenuti dal numero di osservazioni (N) di cui è composto il campione, meno 1 CALCOLO DELLA DEVIAZIONE STANDARD QUANDO IL NUMERO DELLE OSSERVAZIONI E’ LIMITATO Quando si studia la variabilità in un campione e si applica tale misura (variabilità osservata)all’intera popolazione dalla quale il campione è stato estratto(variabilità stimata)si commette un errore più o meno grande a seconda della numerosità del campione. Lo Student ha dimostrato che per ridurre la differenza tra variabilità stimata e variabilità reale occorre moltiplicare la varianza per un fattore di correzione _2 _ 2 2 ∑(xi – x) n _ 2 1 n ∑(xi – x) σ= ------------- . ----n = ∑ ( xi – x) . --- . ------ = -------------n-1 n n-1 n-1 Lezioni di Statistica Calcolo della deviazione standard Esempio Supponiamo di avere il seguente campione, di cui vogliamo calcolare l’età media e la deviazione standard: 19, 21, 24, 21, 17 somma dei valori della serie 19 + 21 + 24 + 21 + 17 = 102 media = 102:5 = 20,4 Lezioni di Statistica Ora calcoliamo la differenza di ogni valore dalla media, cioè il valore _ xi– x detto anche scarto o deviazione, e quindi eleviamo al quadrato gli scarti e sommiamo tali quadrati. Lezioni di Statistica Differenza tra i valori e la media 2 scarto 19-20,4 = - 1,4 21-20,4 = 0,6 24-20,4 = 3,6 21-20,4 = 0,6 17-20,4 = - 3,4 scarto 1,96 0,36 12,96 0,36 11,56 -------27,20 La devianza è 27,20;i gradi di libertà sono N-1 cioè 4. Lezioni di Statistica Dividiamo la devianza per i gradi di libertà 27,2 : 4 = 6,8 ed estraiamo la radice quadrata. Radice quadrata di 6,8 = 2,61 che è la deviazione standard della serie di valori considerata. _ Se si applica la formula x σ si ottiene l’intervallo entro il quale è compresa l’età della maggior parte del collettivo da cui proviene il campione esaminato. 20,4 2,61 = 17,79 - 23,01 Questa procedura consente di evitare l’inconveniente della media aritmetica che non tiene conto della distribuzione dei valori nella serie considerata. Lezioni di Statistica Nell’intervallo _ x σ è compreso il 68,3% delle osservazioni; nell’intervallo _ x 2σ è compreso il 95,5% delle osservazioni MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE (O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) Devianza _ 2 ∑ ( xi – x ) . n i 2 Varianza DEVIAZIONE STANDARD σ = _ 2 ∑ ( xi – x ) . n i ---------------------N σ = _ 2 ∑ (xi-x).ni --------------------N MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE (O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) Statura Valori centr. Numero di in cm. delle classi osservaz. xi Xi.ni n i____________ fino a 150 145 5 725 151 – 160 155 20 3.100 161 – 170 165 50 8.250 171 – 180 175 20 3.500 oltre 180 185 5 925 _______________________________________ Totale 100 16.500 MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE ( O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) Calcolo della media aritmetica ponderata _ x p = 16.500 : 100 = 165 segue MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE ( O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) _ _ 2 _ 2 ___Xi xi - x (xi – x) 145 - 20 - 10 400 400 . 5 = 2.000 100 100 . 20 = 2.000 155 (xi – x) . n i 165 ---175 10 100 100 . 20 = 2.000 185 20 400 400 . 5 = 2.000 __________________________________________ Totale -- -- 8.000 segue MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE ( O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) Devianza=8.000 Varianza=8.000:100=80 Deviazione standard = 80 = 8,94 _ x σ = 165 8,94 = 156 |--| 174 segue MISURE DI VARIABILITA’ QUANDO AI SINGOLI VALORI CORRISPONDE PIU’ DI UNA OSSERVAZIONE ( O QUANDO SI TRATTA DI VALORI RAGGRUPPATI IN CLASSI) _ x 2σ = 165 17,88 = 147 |--| 183(*) (*) cifre arrotondate STATURA DEGLI ISCRITTI DI LEVA NATI NEL 1963 (VISITA DI LEVA 1981) ni X i.ni 155 165 175 185 195 2,5 30,5 52,4 13,9 0,7 387,5 5.032,5 9.170,0 2.571,5 136,5 -- 100 17.298 Statura in cm. X fino a 159 160-169 170-179 180-189 190 e oltre Totale i Xi = Valori centrali delle classi n i = frequenza % delle osservazioni _ X p = 17.298 : 100 = 172,98 (media aritmetica ponderata) segue STATURA DEGLI ISCRITTI DI LEVA NATI NEL 1963 (VISITA DI LEVA 1981) _ X i- X - 17,98 - 7,98 + 2,02 +12,02 +22,02 _ ( X i- X ). n - 44,95 - 243,39 +105,848 +167,078 + 15,414 - 288,34 + 288,34 = 0 i segue STATURA DEGLI ISCRITTI DI LEVA NATI NEL 1963 (VISITA DI LEVA 1981) _ X i- X - 17,98 - 7,98 + 2,02 +12,02 +22,02 _ _ ( X i- X ) ( X i- X ) - 18 - 8 + 2 + 12 + 22 _ 2 ( X i- X ). n 324 64 4 144 484 2 i 810 1952 209,6 2001,6 338,8 5.312,0(devianza) N.B. – Nella seconda colonna sono riportati gli scarti arrotondati eliminando i decimali segue STATURA DEGLI ISCRITTI DI LEVA NATI NEL 1963 (VISITA DI LEVA 1981) 2 σ 5312 = ------ = 53,12 100 σ = 53,12 = 7,29 _ x σ = 173 7 = 166 |-| 180 _ x 2σ = 173 14 = 159 |-| 187 CBM-Indagine sulle condizioni di salute dei bambini di Torbellamonaca Malattie (1) No Sì Totale Tor Bellamonaca%(2) 26,4±4,9 73,6±4,9 100,0 Popolazione italiana(ISTAT)(3) 49,8 50,2 100,0 (1) sofferte negli ultimi tre mesi (2) Dati standardizzati secondo l’età per renderli confrontabili con la popolazione italiana (3) Stima su tre mesi del periodo di riferimento per renderlo confrontabile con l’indagine di Tor Bella Monaca segue CBM-Indagine sulle condizioni di salute dei bambini di Torbellamonaca Malattie TBM Italia no 26,4 2 . 4,9 = 16,6 |-| 36,2 = 49,8 Malattie si TBM 73,6 Italia = 50,2 2 . 4,9 = 63,8 |-| 83,4