Esercitazioni di Biostatistica In collaborazione con la Dott.ssa Antonella Zambon ESERCIZIO 1 Nome Genere Antonio Claudio Lucia Anna Marco Giuseppe Aldo Maria M M F F M M M F Età (anni compiuti) 28 23 24 26 22 22 24 23 Livello istruzione 4 4 4 4 4 4 4 4 1- Licenza elementare 2- Licenza media 3- Diploma scuola superiore 4- Laurea Distanza (km) 5.0 7.5 12.0 3.2 12.3 25.0 7.7 Variabile Unità statistica ESERCIZIO 1: frequenza Una prima sintesi può essere effettuata costruendo la lista delle modalità di una variabile accompagnate dalle rispettive frequenze assolute: distribuzione di frequenze assolute Modalità y1 … yj … yJ Frequenza n1 … nj … nJ totale J n = ∑nj j =1 …o relative: distribuzione di frequenze relative Modalità y1 … yj … yJ totale Frequenza p1 … pj … pJ 1 pj = fj n ESERCIZIO 1 Nome Genere Antonio Claudio Lucia Anna Marco Giuseppe Aldo Maria M M F F M M M F Età (anni compiuti) 28 23 24 26 22 22 24 23 Livello istruzione 4 4 4 4 4 4 4 4 1- Licenza elementare 2- Licenza media 3- Diploma scuola superiore 4- Laurea Distanza (km) 5.0 7.5 12.0 3.2 12.3 25.0 7.7 ESERCIZIO 1: distribuzione Genere M Frequenza Frequenza assoluta relativa 5 0.625 F 3 0.375 Totale 8 1 Livello istruzione 4 Totale Frequenza Frequenza assoluta relativa 8 1 8 1 Come riassumere la variabile distanza? Serie statistica Variabile statistica degenere ESERCIZIO 1 Distanza 0 5 5 15 15 25 Totale Frequenza Frequenza assoluta relativa 2 0.286 4 0.572 1 0.142 7 1 Seriazione statistica Classi di modalità Le classi vanno definite in modo che: •non siano troppe né troppo poche •siano disgiunte •comprendano tutte le modalità osservate Le classi devono avere la stessa ampiezza? ESERCIZIO 1: diagramma a barre Genere Frequenza Frequenza assoluta relativa M 5 0.625 F 3 0.375 Totale 8 1 L’altezza del rettangolo è proporzionale alla frequenza della modalità 5 Valido sia per variabili nominali o numeriche discrete 3 M F ESERCIZIO 1: istogramma Distanza Frequenza assoluta Frequenza relativa Punto centrale 0 5 2 0.286 2,5 (5+0)/2 5 15 4 0.572 10 (15+5)/2 1 0.142 20 (25+15)/2 7 1 15 25 Totale 5*0.4=2 Nell’istogramma sono le aree e non le altezze dei rettangoli ad essere proporzionali alle frequenze. 0.5 0.4 0.3 0.2 0.1 0 2,5 5,0 7,5 10,0 12,5 15,0 17,5 20,0 22,5 25,0 ESERCIZIO : in riferimento all’esercizio 1 • Indicare la tipologia di ogni variabile considerata. • Quali indici di posizione è possibile calcolare per le diverse variabili? • Calcolare tali indici per il genere, livello d’istruzione ed età. Confrontare. ESERCIZIO 2 La carica virale di HIV-1 è un noto fattore di rischio per la trasmissione eterosessuale dell’HIV; i soggetti con carica virale di HIV-1 più elevata hanno un rischio maggiore di trasmettere il virus al partner non infetto. Alcuni ricercatori hanno misurato la quantità di RNA di HIV-1 presente nel siero ematico di un gruppo di persone con partner sieroconvertiti (ovvero non infetti all’inizio ma divenuti positivi all’HIV durante lo studio): 79725 – 12862 – 18022 – 76712 - 256440 – 14013 – 46083 – 6808 – 85781 – 1251 – 6081 – 50397 – 11020 – 13633 – 1064 – 496433 – 25308 – 6616 – 11210 – 13900 (copie di RNA/ml). Rappresentare i dati e calcolare media, mediana e deviazione standard. ESERCIZIO 2 paziente Copie di RNA/ml 1 79725 2 12862 3 18022 4 76712 5 256440 6 14013 7 46083 8 6808 9 85781 10 1251 paziente Copie di RNA/ml 11 6081 12 50397 13 11020 14 13633 15 1064 16 496433 17 25308 18 6616 19 11210 20 13900 ESERCIZIO 2 paziente Copie di RNA/ml paziente Copie di RNA/ml paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 15 1064 6 14013 2 12862 12 50397 10 1251 3 18022 3 18022 13 11020 11 6081 17 25308 4 76712 14 13633 18 6616 7 46083 5 256440 15 1064 8 6808 12 50397 6 14013 16 496433 13 11020 4 76712 7 46083 17 25308 19 11210 1 79725 8 6808 18 6616 2 12862 9 85781 9 85781 19 11210 14 13633 5 256440 10 1251 20 13900 20 13900 16 496433 ESERCIZIO 2 paziente Copie di RNA/ml paziente 15 1064 6 14013 10 1251 3 18022 11 6081 17 25308 18 6616 7 46083 8 6808 12 50397 13 11020 4 76712 19 11210 1 79725 2 12862 9 85781 14 13633 5 256440 20 13900 16 496433 Copie di RNA/ml Frequenza Frequenza relativa 0 10000 5 0.25 10000 20000 7 0.35 20000 50000 2 0.1 50000 100000 4 0.2 100000 500000 2 0.1 20 1 Copie di RNA/ml Totale ESERCIZIO 2 Frequenza Frequenza relativa 0 10000 5 0.25 10000 20000 7 0.35 20000 50000 2 0.1 50000 100000 4 0.2 100000 500000 2 0.1 20 1 Copie di RNA/ml Totale Poligono di frequenza 0.5*10-3 0 10000 20000 30000 40000 50000 60000 70000 80000 90000 100000 110000 … 500000 ESERCIZIO 2 MEDIA paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 2 12862 12 50397 3 18022 13 11020 4 76712 14 13633 5 256440 15 1064 6 14013 16 496433 7 46083 17 25308 8 6808 18 6616 9 85781 19 11210 10 1251 20 13900 Valida solo per dati quantitativi Definizione? n y= ∑y i =1 n i 79725 + 12862 + ... + 11210 + 13900 = = 61667,95 20 ESERCIZIO 2 pazient e Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 2 12862 12 50397 3 18022 13 4 76712 5 paziente (xi − x ) 1 18057,05 2 11020 14 256440 6 paziente (xi − x ) 11 -55587 -48805,95 12 -11271 3 -43645,95 13 -50648 13633 4 15044,05 14 -48035 15 1064 5 194772,05 15 -60604 14013 16 496433 6 -47654,95 16 43765,1 7 46083 17 25308 7 -15584,95 17 -36360 8 6808 18 6616 8 -54859,95 18 -55052 9 85781 19 11210 9 24113,05 19 -50458 10 1251 20 13900 10 -60416,95 20 -47768 n Prima proprietà (del baricentro) ∑ (y i =1 i − y) ≈ 0 ESERCIZIO 2 n Seconda proprietà 2 ( ) y − A = min ⇔ A = y ∑ i i =1 paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 1 4725 2 72862 2 -2138 3 78022 3 3022 4 76712 4 1712 5 76440 5 1440 -75000 (scelto arbitrariamente) n y= ∑y i =1 n n i = 76752,2 d= ∑y i =1 i = 1752,2 n y = 75000 + d = 76752,2 ESERCIZIO 2 Terza proprietà (di Cauchy) Quarta proprietà La media è sempre compresa tra l’osservazione più piccola e la più grande y = ax + b (di linearità) y = ax + b a, b ∈ ℜ ESERCIZIO 2 Limitazioni: •dati non quantitativi •diversi ordini di grandezza (ad es. 0.8 – 7 – 58 – 124) •presenza di valori estremi (ad es. 28 – 34 – 22.5 – 299) •Sensibile a variazioni nei dati (non robusta) ESERCIZIO 2 MEDIANA Valida per dati qualitativi ordinali o quantitativi paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 2 12862 12 50397 3 18022 13 11020 4 76712 14 13633 5 256440 15 1064 6 14013 16 496433 7 46083 17 25308 8 6808 18 6616 9 85781 19 11210 10 1251 20 13900 E’ quel valore della variabile che, rispetto all’ordinamento non decrescente delle osservazioni, risulta preceduto e seguito dalla stessa porzione di osservazioni (50%) a meno di effetti di discretizzazione ESERCIZIO 2 MEDIANA paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 2 12862 12 50397 3 18022 13 11020 4 76712 14 13633 5 256440 15 1064 6 14013 16 496433 7 46083 17 25308 8 6808 18 6616 9 85781 19 11210 10 1251 20 13900 La mediana di una variabile è quel valore che soddisfa contemporaneamente alle due condizioni: •almeno il 50% delle unità statistiche presenta modalità inferiori o pari alla mediana •almeno il 50% delle unità statistiche presenta modalità superiori o pari alla mediana ESERCIZIO 2 paziente Copie di RNA/ml paziente Copie di RNA/ml paziente Copie di RNA/ml paziente Copie di RNA/ml 1 79725 11 6081 15 1064 6 14013 2 12862 12 50397 10 1251 3 18022 3 18022 13 11020 11 6081 17 25308 4 76712 14 13633 18 6616 7 46083 5 256440 15 1064 8 6808 12 50397 6 14013 16 496433 13 11020 4 76712 7 46083 17 25308 19 11210 1 79725 8 6808 18 6616 2 12862 9 85781 9 85781 19 11210 14 13633 5 256440 10 1251 20 13900 20 13900 16 496433 n n M= e + 1 se n è pari 2 2 n +1 M= se n è dispari 2 13900 + 14013 M = = 13956,5 2 ESERCIZIO 2 QUANTILI paziente Copie di RNA/ml paziente Copie di RNA/ml 15 1064 6 14013 10 1251 3 18022 11 6081 17 25308 18 6616 7 46083 8 6808 12 50397 13 11020 4 76712 19 11210 1 79725 2 12862 9 85781 14 13633 5 256440 20 13900 16 496433 Un quantile di livello α è quel valore di una variabile qualitativa ordinale o quantitativa che, rispetto all’ordinamento non decrescente delle osservazioni, risulta preceduto da α*100% osservazioni e seguito da (1-α)*100% osservazioni, a meno di effetti dovuti alla discretizzazione ESERCIZIO 2 QUANTILI paziente Copie di RNA/ml paziente Copie di RNA/ml 15 1064 6 14013 10 1251 3 18022 11 6081 17 25308 18 6616 7 46083 8 6808 12 50397 13 11020 4 76712 19 11210 1 79725 2 12862 9 85781 14 13633 5 256440 20 13900 16 496433 La mediana è un particolare quantile, quello di livello α=0.50 I quantili di livello α=0.25, 0,50 e 0,75 sono detti quartili I quantili di livello α=0.33 e 0,66 sono detti terzili QUANTILI paziente Copie di RNA/ml paziente Copie di RNA/ml 15 1064 6 14013 10 1251 3 18022 11 6081 17 25308 18 6616 7 46083 8 6808 12 50397 13 11020 4 76712 19 11210 1 79725 2 12862 9 85781 14 13633 5 256440 20 13900 16 496433 Dai dati ordinati della variabile Y il quantile di livello α è dato dalla: •modalità che si trova nell’intero successivo a (n*α) se n* α è un numero non intero •modalità che si trovano nelle posizioni (n*α) e (n*α)+1 se n* α è un numero intero Achtung!!! Ordinare i dati QUANTILI paziente Copie di RNA/ml paziente Copie di RNA/ml 15 1064 6 14013 10 1251 3 18022 11 6081 17 25308 18 6616 7 46083 8 6808 12 50397 13 11020 4 76712 19 11210 1 79725 2 12862 9 85781 14 13633 5 256440 20 13900 16 496433 Il range interquartile è dato dalla differenza tra il valore del quartile con livello α=0.75 e quello con livello α=0.25. Questo intervallo indica che il 25% delle osservazioni sono inferiori all’estremo inferiore del range e il 25% sono superiori all’estremo superiore. QUANTILI 13956 1064 Q1 496433 61668 8914 min 63554 Q2 Q3 max Diagramma box plot (detto a scatola a baffi oppure box and whiskers plot) Il range interquartile può essere un utile indice di dispersione quando si ritiene che la deviazione standard (e quindi la varianza) sia troppo influenzata dalle code della distribuzione CAMPO DI VARIAZIONE paziente Copie di RNA/ml 1 79725 2 12862 3 18022 4 76712 5 256440 6 14013 7 46083 8 6808 9 85781 10 1251 11 6081 12 50397 13 11020 14 13633 15 1064 16 496433 17 25308 18 6616 19 11210 20 13900 Misure della variabilità Min:1064 Max:496433 Campo di variazione:495369 -6 -4 -2 0 2 4 6 paziente Copie di RNA/ml 1 79725 2 12862 3 18022 4 76712 5 256440 6 14013 7 46083 8 6808 9 85781 10 1251 11 6081 12 50397 13 11020 14 13633 15 1064 16 496433 17 25308 18 6616 19 11210 20 13900 n VARIANZA E DEVIAZIONE STANDARD (campionaria) s2 = 2 ( ) y − y ∑ i i =1 n −1 s = s2 paziente Copie di RNA/ml (xi − x ) (xi − x )2 1 79725 18057,05 3,26*108 2 12862 -48806 23,8*108 3 18022 -43646 19,0*108 4 76712 15044,05 2,26*108 5 256440 194772,1 379*108 6 14013 -47655 22,7*108 7 46083 -15585 2,43*108 8 6808 -54860 30,1*108 9 85781 24113,05 5,81*108 10 1251 -60417 36,5*108 11 6081 -55587 30,9*108 12 50397 -11271 1,27*108 13 11020 -50648 25,7*108 14 13633 -48035 23,1*108 15 1064 -60604 36,7*108 16 496433 434765,1 1890*108 17 25308 -36360 13,2*108 18 6616 -55052 30,3*108 19 11210 -50458 25,5*108 -47768 22,8*108 20 13900 n s2 = ∑ (y i =1 − y) 2 i n −1 s = s2 11 2 , 62 * 10 s2 = = 1,38 * 1010 19 s = 1,38 * 1010 = 117539,29 2,62*1011 paziente Copie di RNA/ml 1 79725 2 12862 3 18022 4 76712 5 256440 6 14013 7 46083 8 6808 9 85781 10 1251 11 6081 12 50397 13 11020 14 13633 15 1064 16 496433 17 25308 18 6616 19 11210 20 13900 Varianza: formula ridotta n s2 = 2 ( ) y − y ∑ i i =1 n −1 ∑ yi n i =1 2 = ∑ yi − n i =1 n n ∑ (y i =1 − y) 2 i Σyi=1233359 2 (Σyi)2= 1,52117*1012 x i2 paziente Copie di RNA/ml 1 79725 6356075625 2 12862 165431044 3 18022 324792484 4 76712 5884730944 5 256440 6,5761*1010 6 14013 196364169 7 46083 2123642889 8 6808 46348864 9 85781 7358379961 10 1251 1565001 11 6081 36978561 12 50397 2539857609 13 11020 121440400 14 13633 185858689 15 1064 1132096 16 496433 2,46446*1011 17 25308 640494864 18 6616 43771456 19 11210 125664100 20 13900 193210000 ESERCIZIO 2 2 ∑ yi n i =1 = 2 − y ∑ i n i =1 n 1,5117 * 1012 = 3,38553 * 10 − = 20 11 = 2,62494 * 1011 11 2 , 62494 * 10 s2 = = 1,38 * 1010 19 (Σy2i)=3,38553*1011 Prima proprietà s2 ≥ 0 L’uguaglianza si ha solo se la variabile è degenere Seconda proprietà y = ax + b a, b ∈ ℜ (di linearità) s 2y = a 2 s x2 Esercizio: Analogie e differenze tra queste proprietà e quelle della media COEFFICIENTE DI VARIAZIONE paziente Copie di RNA/ml 1 79725 2 12862 3 18022 4 76712 5 256440 6 14013 7 46083 8 6808 9 85781 10 1251 11 6081 12 50397 13 11020 14 13633 15 1064 16 496433 17 25308 18 6616 19 11210 20 13900 Valido solo per variabili che assumono valori positivi sx CV = = 1.91 x E’ un indice adimensionale di variabilità relativa nel senso che misura la variabilità dei dati tenendo conto dell’ordine di grandezza del fenomeno. Essendo un numero puro permette di confrontare variabili diverse ESERCIZIO 3 Nella seguente tabella è riportata la distribuzione di frequenza del numero di colonie per piastra dopo inoculo con una sospensione batterica Nnumero di colonie 0 1 2 3 4 5 Frequenza 12 8 6 6 4 3 Numero di colonie 0 1 2 3 4 5 0 8 12 18 16 15 39 69 J ∑n y= j =1 fi*xi Frequenz a 12 8 6 6 4 3 Tale procedura equivale a fare la media con la formula precedente sommando 12 volte 0, 8 volte 1 etc e dividendo tale somma per il numero totale di piastre J j = J ∑n j =1 ∑n * yj j j =1 j n * yj 69 = = 1,77 39 Numero di colonie 0 1 2 3 4 5 Frequenza Frequenza cumulata 12 8 6 6 4 3 12 20 26 32 36 39 Qual è la mediana? N è dispari quindi occorre cercare la modalità della variabile a cui è associata la frequenza cumulata più piccola per la quale vale la relazione: n +1 cum Fj ≥ 2 Numero di colonie 0 1 2 3 4 5 Frequenza Frequenza cumulata 12 8 6 6 4 3 12 20 26 32 36 39 Qual è la mediana? Se N fosse pari occorre cercare le modalità della variabile a cui sono associate le frequenze cumulate più piccole per le quali valgono le relazioni: n n F jcum ≥ F jcum ≥ + 1 2 2 Numero di colonie 0 1 2 3 4 5 Frequenza (xi-x) 2 fi* (xi-x)2 12 8 6 6 4 3 3.130 0.592 0.053 1.515 4.976 10.438 37.562 4.734 0.320 9.089 19.905 31.314 Qual è la varianza? 102.923 ( ) J 2 1 2 s = n j * y j − y = 2.71 ∑ n − 1 j =1 ESERCIZIO 4 Nella seguente tabella è riportata la distribuzione di frequenza dell’età di insorgenza di patologie tiroidee in 321 maschi assistiti presso un centro endocrinologico. Determinare la media la mediana e la moda Età 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 Frequenza 15 16 32 53 61 94 44 6 Età Frequenza Valore centrale fi*xvci 10-20 15 15 225 20-30 16 25 400 30-40 32 35 1120 40-50 53 45 2385 50-60 61 55 3355 60-70 94 65 6110 70-80 44 75 3300 80-90 6 85 510 321 Le osservazioni che cadono in una classe coincidono con il punto centrale della classe Le osservazioni sono distribuite in modo uniforme nella classe di appartenenza 17405 k y= ∑n * y i i =1 k ∑n i =1 i vci 17405 = = 54.22 321 Con questa procedura non si ottiene il valore della media che si otterrebbe lavorando sui valori individuali. In questo caso si ottiene una approssimazione. Infatti a tutti i soggetti nella classe d’età 10-20 si attribuisce una età pari al valore centrale ovvero 15 il che non è detto che risponda al vero. Tale ragionamento si ripete anche per le altre classi. Se però n è abbastanza grande e la distribuzione è poco asimmetrica tale approssimazione risulta poco importante perché gli errori tendono a bilanciarsi. Lo stesso risultato si ottiene utilizzando classi meno ampie Età Frequenza Frequenza cumulata 10-20 15 15 20-30 16 31 30-40 32 63 40-50 53 116 50-60 61 177 60-70 94 271 70-80 44 315 80-90 6 321 Estremo inferiore della classe mediana n + 1 321 + 1 = = 161 2 2 La classe mediana è 50-60 Numerosità campionaria n − (∑ ni ) M = Linf + 2 *c nmediana Frequenza della classe mediana Somma delle frequenza delle classi prima della classe mediana Ampiezza delle classi Età Frequenza 10-20 15 20-30 16 30-40 32 40-50 53 50-60 61 60-70 94 70-80 44 80-90 6 Frequenza cumulata 15 n + 1 321 + 1 = = 161 2 2 31 63 116 177 La classe mediana è 50-60 271 315 321 n 321 − (∑ ni ) − (116) *10 = 57.30 M = Linf + 2 * c = 50 + 2 61 nmediana Età Frequenza 10-20 15 20-30 16 30-40 32 40-50 53 50-60 61 60-70 94 70-80 44 80-90 6 Estremo inferiore della classe modale Moda = Linf La classe modale è la 6070 Vale solo se le classi hanno la stessa ampiezza Eccesso della frequenza della classe modale rispetto alla frequenza della classe immediatamente precedente ∆1 + *c ∆1 + ∆ 2 Eccesso della frequenza della classe modale rispetto alla frequenza della classe immediatamente successiva Ampiezza delle classi Età Frequenza 10-20 15 20-30 16 30-40 32 40-50 53 50-60 61 60-70 94 70-80 44 80-90 6 Moda = Linf + La classe modale è 60-69 Vale solo se le classi hanno la stessa ampiezza ∆1 33 * 10 = 63,98 * c = 60 + 33 + 50 ∆1 + ∆ 2 y = 54.22 Q2 = 57.30 Moda = 63.98 Dati questi risultati possiamo affermare che i dati si distribuiscono come una Normale? ESERCIZIO 5 Come si calcola la moda se le classi non hanno la stessa ampiezza? N°posti letto Classe 26-50 modale? 51-100 101-150 151-200 201-300 301-500 501-800 Frequenza 251 368 288 159 304 173 99 Rapporto tra frequenza e ampiezza della classe N°posti letto 26-50 51-100 101-150 151-200 201-300 301-500 501-800 Frequenz Ampiezza a della classe 251 25 368 50 288 50 159 50 304 100 173 200 99 300 Densità di frequenza 10.04 7.36 5.76 3.18 3.04 0.87 0.33 Classe modale ESERCIZIO 6 Il numero di mosche presenti in una popolazione di laboratorio di Drosophila melanogaster costituita originariamente da 100 elementi, viene rilevato in tre periodi successivi. Al primo conteggio si rilevano 112 mosche, al secondo 196 e al terzo 369. Qual è il tasso di incremento medio della popolazione? 112 = 1,12 100 196 = 1,75 112 369 = 1,88 196 Incrementi osservati nei tre periodi ESERCIZIO 6 112 = 1,12 100 196 = 1,75 112 Incrementi osservati nei tre periodi 369 = 1,88 196 1.12 + 1.75 + 1.88 = 1.584 y= 3 Si deve mantenere inalterato il prodotto!!! 100 158 ×1.584 251 ×1.584 398 ×1.584 ESERCIZIO 6 112 = 1,12 100 196 = 1,75 112 369 = 1,88 196 Incrementi osservati nei tre periodi 112 = 1,12 * 100 196 = 1,75 * 1,12 * 100 369 = 1,88 *1,75 *1,12 * 100 Si deve mantenere inalterato questo prodotto!!! yg = n ∏ n i =1 yi 1 n log y g = ∑ log yi n i =1 ESERCIZIO 6 yg = n ∏ n i =1 yi 1 n log y g = ∑ log yi n i =1 Il logaritmo della media geometrica è la media aritmetica del logaritmo delle osservazioni 1 n log y g = ∑ log yi = 1 * (0.11333 + 0.55962 + 0.63268) = 0.43521 n i =1 3 y g = exp(0,4352) = 1,545 La popolazione ha subito un tasso di incremento medio del 54% ESERCIZIO 6 100 155 ×1.545 239 ×1.545 369 ×1.545 Adesso si mantiene inalterato il prodotto!!! Usata in microbiologia e sierologia quando le osservazioni sono espresse in titoli i cui valori sono multipli dello stesso fattore di diluizione ESERCIZIO 7 Una proteina viene studiata mediante l’elettroforesi per conoscerne la velocità di migrazione media. La proteina viene fatta correre su gel in campo elettrico per 20 mm e viene misurato il tempo di percorrenza in 5 prove diverse. Prova 1 2 3 4 5 Tempo (sec) 40 60 30 50 70 Prova Tempo (sec) Velocità 1 40 20/40=0,50 mm/sec 2 60 20/60=0,33 mm/sec 3 30 20/30=0,66 mm/sec 4 50 20/50=0,40 mm/sec 5 70 20/70=0,29 mm/sec n y= ∑y i =1 i n 0,50 + 0,33 + ... + 0,29 = 0,4372 = 5 Non è la velocità media perché: ya = 1 n ∑ i =1 n 1 yi = n n ∑ i =1 1 yi 0,4372 * 250 = 109,3 mm La media armonica è il reciproco della media aritmetica dei reciproci delle osservazioni. Adatta a valori espressi come rapporti. Prova Tempo (sec) Velocità 1/Velocità 1 40 20/40=0,50 mm/sec 1/0,50=2 2 60 20/60=0,33 mm/sec 1/0,33 =3 3 30 20/30=0,66 mm/sec 1/0,66=1,5 4 50 20/50=0,40 mm/sec 1/0,40 =2,5 5 70 20/70=0,29 mm/sec 1/0,29 =3,5 ya = 1 n ∑ i =1 1 yi = 1 = 0,4 2 + 3 + 1,5 + 2,5 + 3,5 5 n E’ la velocità media perché: 0,4 * 250 = 100 mm ESERCIZIO 8 Cinque dietologi rilevano la circonferenza addominale (indice di valutazione del grasso addominale) delle loro pazienti prima di un trattamento dimagrante. Noto il valore medio delle pazienti di ciascun dietologo è possibile determinare la circonferenza media generale di tute le pazienti? Dietologi A B C D E N°pazienti 15 10 25 13 12 Circonferenza media 88 85 92 90 93 Dietologi A B C D E N°pazienti 15 10 25 13 12 Circonferenza media 88 85 92 90 93 k ∑ n * y (88 *15) + (85 *10) + ... + (93 *12) 6756 = = 90.1 = y= 88 + 85 + ... + 93 75 ∑n i i =1 i k i =1 i ESERCIZIO 9 Nella seguente tabella sono riportati i carichi di rottura espressi in newton di alcuni cavi di acciaio. Determinare il campo di variazione. Carico di rottura 9,3-9,7 9,8-10,2 10,3-10,7 10,8-11,2 11,3-11,7 11,8-12,2 12,3-12,7 12,8-13,2 N°di cavi 2 5 12 17 14 6 3 1 Carico di rottura N°di cavi 9,3-9,7 2 9,8-10,2 5 10,3-10,7 12 10,8-11,2 17 11,3-11,7 14 11,8-12,2 6 12,3-12,7 3 12,8-13,2 1 Campo di variazione = estremo superiore della classe più resistente - estremo inferiore della classe meno resistente = 13,2 - 9,3 = 3,9 Newton ESERCIZIO 10 Data la seguente distribuzione di frequenza dei livelli di colesterolo sierico in 1067 maschi di età compresa tra i 25 e i 34 anni, determinare la varianza e la deviazione standard Livello di colesterolo sierico (mg/100 ml) 80-120 120-160 160-200 200-240 240-280 280-320 320-360 360-400 Frequenza 13 150 442 299 115 34 9 5 Livello di colesterolo sierico (mg/100 ml) Frequenza 80-120 13 120-160 150 160-200 442 200-240 299 240-280 115 280-320 34 320-360 9 360-400 5 k s2 = ∑ ni * ( yvci − y ) i =1 k 2 n −1 ≈ n →∞ ∑ ni * ( yvci − y ) 2 i =1 k ∑n i =1 i Livello di colesterolo sierico (mg/100 ml) Frequenza Valore centrale ni*xcvi 80-120 13 100 1300 120-160 150 140 21000 160-200 442 180 79339 200-240 299 220 65780 240-280 115 260 29900 280-320 34 300 10200 320-360 9 340 3060 360-400 5 380 1900 1067 k y= ∑n * y i i =1 k ∑n i =1 i 212479 vci 212479 = = 199.14 mg/100 ml 1067 Livello di colesterolo sierico (mg/100 ml) Frequenza 80-120 13 100 120-160 150 160-200 Valore centrale ( yvci − y ) ( yvci − y )2 ni * ( yvci − y ) -99,14 9828,74 127773,62 140 -59,14 3497,54 524631 442 180 -19,14 366,34 161922,28 200-240 299 220 20,86 435,14 139076,86 240-280 115 260 60,86 3703,94 425953,1 280-320 34 300 100,86 10172,74 345873,16 320-360 9 340 140,86 19841,54 178573,86 360-400 5 380 180,86 32710,34 163551,70 2 2067355,58 k s = 2 ∑ ni * ( yvci − y ) 2 i =1 k ∑n i =1 i 2067355,58 = = 1937,54(mg/100 ml)2 1067 Livello di colesterolo sierico (mg/100 ml) Frequenza Valore centrale 80-120 13 100 120-160 150 140 160-200 442 200-240 299 220 240-280 115 260 280-320 34 300 320-360 9 340 360-400 5 380 180 ( yvci − y ) ( yvci − y )2 2 nni i**((yyvcivci−−yy)) 2 -99,14 9828,74 127773,62 -59,14 3497,54 524631 -19,14 366,34 161922,28 20,86 435,14 139076,86 60,86 3703,94 425953,1 100,86 10172,74 345873,16 140,86 19841,54 178573,86 180,86 32710,34 163551,70 s = s 2 = 1937,54 = 44,02 mg/100 ml ESERCIZIO 11 Confrontare la variabilità dei due gruppi A e B nel caso di osservazioni espresse nella stessa scala (1°) o con diverse scale di misura (2°) 1° 2° A B A B 5 5 0,5 500 6 1 0,8 520 4 3 1,1 515 5 5 1,5 520 3 1 1,2 523 5 2 0,9 508 28 17 6 3086 y 4,67 2,83 1 514,33 s 0,94 1,67 0,32 8,01 CV 20,13 59,01 31,62 1,56 ∑y i s CV = *100 y ESERCIZIO 12 Sono stati raccolti i valori di glicemia in un campione di 10 soggetti sani, espressi in mg di glucosio per 100 ml di sangue. Si stimi il valore medio di glucosio nel sangue, si forniscano tre intervalli di confidenza per l’ignota media a livello di significatività α rispettivamente pari a 0.10, 0.05, 0.01 e si commentino i risultati ottenuti. 2 3 4 5 6 7 8 9 10 Soggetto 1 Mg/ml=Y 65.5 80.0 92.8 90.2 100.5 95.0 98.0 70.3 80.0 105.5 a) Stima puntuale di µ Utilizzo lo stimatore media campionaria n Y = ∑y i =1 i n Stima puntuale di µ 877.8mg/ml = = 87.78mg/ml 10 b) Stima intervallare di µ Utilizzo la formula: s s Pr y − t1 − α , g ≤ µ ≤ y + t1 − α , g = 1 − α n n Gli estremi dell’intervallo di confidenza sono dati da: y ± t1− α a) Y = ,g s n 87.78mg/ml ∑ (y 10 c) s=deviazione standard = i =1 i −y n −1 ) 2 = 13.28 d) Scegliamo un valore tabulare di t con 9 gradi di libertà (n-1) corrispondente ad una probabilità 1- α 1° caso: α = 0.10 t0.90;9=1.833 2° caso: α = 0.05 t0.95;9=2.262 3° caso: α = 0.01 t0.99;9=3.250 Achtung!!!! Y valori di t si riferiscono alla tabella della distribuzione a 2 code. Se si utilizza la tabella della ripartizione invece si deve dimezzare α. Estremi 1° intervallo: α = 0.10 87.78 ± 1.833(13.28 / 10 ) = 95.48 80.08 Estremi 2° intervallo: α = 0.05 87.78 ± 2.262(13.28 / 10 ) = 97.28 78.28 Estremi 3° intervallo: α = 0.01 87.78 ± 3.25(13.28 / 10 ) = 101.43 74.13 80.08 95.48 α = 0.10 mg/ml 78.28 97.28 α = 0.05 α = 0.01 mg/ml 74.13 101.43 mg/ml Y = 87.78 I tre intervalli sono centrati sulla stima fornita dalla media campionaria ma presentano ampiezze diverse. Diminuendo infatti il grado di incertezza (α ) ottengo intervalli via via meno precisi. Diminuendo il grado di incertezza siamo più sicuri ma meno precisi. ESERCIZIO 13 Stimare, con confidenza del 95%, l’intervallo di confidenza dell’altezza media di una varietà di pomodoro, attraverso 7 esemplari alti 22, 25, 21, 23, 24, 25, 21 pollici. 22 + 25 + 21 + 23 + 24 + 25 + 21 y= = 23 7 ∑ (y n s2 = i =1 i −y ) 2 n −1 ( 22− 23)2 + (25− 23)2 + (21− 23)2 + (24− 23)2 + (25− 23)2 + (21− 23)2 = =3 7 −1 s s Pr y − t1 − α , g ≤ µ ≤ y + t1 − α , g = 1 − α n n 1,732 µ i = 23 − 2,447 * = 21,398 7 1,732 µ s = 23 + 2,447 * = 24,602 7 ESERCIZIO 14 Da una popolazione con σ=3 è stato estratto un campione di 10 unità con y=25. Calcolare l’intervallo di confidenza per la vera media con un errore α pari all’1%. σ σ Pr y − z 1 − α ≤ µ ≤ y + z1−α = 1 − α n n z0.99=2.57 3 µ i = 25 − 2,57 * = 22,56 10 3 µ s = 25 + 2,57 * = 27,44 10 Anche in questo caso si considera la distribuzione a 2 code altrimenti si dimezza α ESERCIZIO 15 Altezza in centimetri di 5 piantine di mais: 24,26, 30, 28 e 22. Calcolare l’intervallo di confidenza per l’altezza media della popolazione. Si consideri un livello di confidenza del 95% 24 + 26 + 30 + 28 + 22 y= = 26 5 n s = 2 ∑ (y i =1 − y) 2 i n −1 ( 24 − 26) = 2 + ... + (22 − 26) = 10 4 2 t4;0,95=2.78 10 µ i = 26 − 2.78 * = 22.08 5 10 µ s = 26 + 2.78 * = 29.92 5 Si immagini ora di conoscere la varianza della popolazione e che questa sia pari a 10, come cambiano gli intervalli di confidenza? Z0,95=1.96 µ i = 26 − 1.96 * 10 = 23.23 5 µ s = 26 + 1.96 * 10 = 28.77 5 In questo caso l’ampiezza è minore il che è atteso in base al fatto che la stima intervallare dipende da una quantità stimata µ mentre nel caso precedente all’errore commesso nella stima di µ si deve aggiungere quello per la stima di σ2. ESERCIZIO 16 In un campione di 10 individui sani è stata misurata la glicemia. La media è risultata pari a 80 mg di glucosio/100 ml di sangue. E’ nota la deviazione standard della popolazione che z1- α è pari a 15. µ i = 80 − 1.96 * 15 10 = 70.70 15 µ s = 80 + 1.96 * = 89.29 10 Volendo ottenere un grado di precisione maggiore, ad esempio un intervallo pari alla metà di quello ottenuto quante osservazioni sono necessarie? ~4.6 ~4.6 70.70 89.29 x = 80 18.6 ~9,3 ~9,3 σ σ Pr y − z 1−α = 1 − α ≤ µ ≤ y + z1−α n n σ y ± z1− α n σ σ y + z1− α − y − z 1 − α = 9 . 3 n n σ σ y + z1− α − y + z1−α = 9 .3 n n 2 * z1−α σ = 9 .3 n σ z1−α = 4 . 65 n 15 1 . 96 * = 4 . 65 n 2 15 2 = 4 . 6 1 . 96 * n 225 3 . 84 * n n = 39 . 96 ≈ 2 = 21 . 6225 40 Si potrebbe anche risolvere così: Semiampiezza precedente = 15 1.96 * = 9.30 10 Semiampiezza attuale = ½ semiampiezza precedente 15 1 15 1 1 1 .96 * = 1 .96 * ⇒ = ⇒ n 2 10 n 2 10 ⇒ n = 2 10 ⇒ n = 40 Perché il risultato è diverso? Quale conviene scegliere? ESERCIZIO 17 Un campione di 100 osservazioni è estratto da una popolazione di media ignota e varianza pari a 25. La media campionaria è pari a 20. Calcolare gli intervalli di confidenza per la media della popolazione a livello del 95%. Quanto dovrebbe essere la numerosità campionaria per ottenere un intervallo di confidenza al 95% con ampiezza al più pari a 2.2? 5 µ i = 20 − 1.96 * = 19.02 10 5 µ s = 20 + 1.96 * = 20.98 10 µ s − µ i = 20 + 1.96 * 5 n − (20 − 1.96 * 5 n ) = 2 * 1.96 * µ s − µ i ≤ 2,2 5 5 2 *1,96 * ≤ 2.2 ⇒ 1,96 * ≤ 1.1 n n 1.96 * 5 ≤ n 1 .1 2 1.96 * 5 ≤n 1.1 ⇒ 80 ≤ n 5 n ESERCIZI Si vuole stimare il perimetro toracico medio di una certa popolazione. Di conseguenza si considera un campione di 50 soggetti con perimetro toracico medio pari a 90. Se la popolazione si considera distribuita in modo normale σ=10, determinare un intervallo di confidenza per µ al 90%. [Soluzione: 87.67-92.33] Il numero medio di battiti al minuto di un campione di 8 operai vale 71,5 con s=5.1. Si costruisca un intervallo di confidenza al 99% per la media della popolazione. [Soluzione: 65.2-77.8] ESERCIZI Si consideri la seguente tabella di frequenza che riporta le merci e i passeggeri sbarcati agli scali portuali di alcune regioni italiane nel 1988 Regione Merci (migliaia di tonnellate) Passeggeri (migliaia) Friuli V. G. 22806 42 Veneto 21849 248 Emilia – Romagna 12627 3 Marche 4937 266 Ci si chiede se è più variabile lo sbarco di merci o lo sbarco dei passeggeri. [Soluzione: CV 0.47 e 0.85] ESERCIZI Sia Y la variabile quantitativa discreta che descrive il numero di componenti delle famiglie residenti al censimento del 1981 in Liguria N°componenti Frequenza 1 197906 2 203709 3 168536 4 117509 5 29727 6 6577 7 1707 8 o più 906 Qual è la mediana? [Soluzione: 2] ESERCIZI Si considerino i dati di peso e l’altezza di 6672 statunitensi esaminati tra il 1960 e il 1962 dal Public Health Service. Questi dati sono stati raggruppati in 7 classi d’età e per genere dando origine a 14 gruppi. Quali informazioni si possono dedurre dal grafico? Invecchiando la gente non si accorcia!!! Il fatto è che si stanno confrontando in uno specifico istante temporale individui nati in epoche diverse (e quindi probabilmente alimentati in modo diversi durante le giovani età) http://www.science.unitn.it/~matsoc/stat/sezione2/node4.html ESERCIZI Si effettuano n=40 misurazioni di una variabile quantitativa (n° di fiori di una pianta) e si ottengono i seguenti risultati 0 2 1 4 3 1 2 3 8 2 5 2 1 3 3 1 3 2 2 5 4 4 4 2 3 5 5 1 1 2 2 4 4 2 3 3 3 3 3 2 Costruire una tabella della distribuzione di frequenza e rappresentarla graficamente. Calcolare media, moda, mediana e deviazione standard [Soluzione: 2.825, 2, 3, 1.517] ESERCIZI La seguente tabella si riferisce a n=20 individui. Le variabili sono: Puls1=pulsazioni cardiache rilevate a riposo Puls2=pulsazioni cardiache rilevate dopo 500 metri di passo veloce Fumo: 1 =fumatore 2= non fumatore Altezza in cm. Peso in kg. Attività sportiva: 1 =bassa, 2=media, 3=alta ESERCIZI •Classificare le variabili considerate •Calcolare media, varianza, Q1, Q2 e Q3 per le variabili quantitative. Quale variabile è la più dispersa? •Calcolare moda e mediana per le variabili fumo e attività sportiva •Calcolare un intervallo di confidenza per la media delle variabili quantitative. •Nei fumatori è più variabile Puls1 o Puls2? E nei non fumatori? ESERCIZI Puls1 Puls2 Fumo Altezza Peso Attività sportiva 64 88 2 170 64 2 58 70 2 183 66 2 62 76 1 187 73 3 66 78 1 185 86 1 64 80 2 175 70 2 74 84 2 185 75 1 84 84 2 183 68 3 68 72 2 188 86 2 62 75 2 183 89 2 76 118 2 180 63 2 90 94 1 188 73 1 80 96 2 183 70 2 92 84 1 178 69 3 68 76 2 170 66 2 60 76 2 180 77 3 62 58 2 183 79 3 66 82 1 175 79 2 70 72 1 185 77 3 68 76 1 188 82 2 72 80 2 170 61 3 ESERCIZI media moda mediana var cv Q1 Q3 min max range Ic inf Ic sup Puls1 70,3 Puls2 80,95 Fumo 68 79 94,01053 147,3132 0,137922 0,149935 63,5 75,75 74,5 84 58 58 92 118 34 60 Puls1 Puls2 65,76218 75,26958 74,83782 86,63042 fumo fumo no fumo no fumo fumo no fumo media varianza media varianza cv cv Altezza 180,95 2 2 1 2 1 2 183 36,68158 0,033471 177,25 185 170 188 18 Peso Attività sportiva 73,65 2 73 2 66,13421 0,110418 67,5 2 79 3 61 1 89 3 28 Altezza Peso 178,1155 69,84397 183,7845 77,45603 Puls1 73,42857 150,2857 68,61538 64,92308 0,166953 0,11743 Puls2 80,28571 52,57143 81,30769 206,5641 0,09031 0,176765 ESERCIZI La seguente tabella si riferisce al peso (kg) e all’altezza (cm) di n=30 bambini. Peso Altezza 27 18 125 108 20 21 131 118 21 20 108 114 14 32 102 116 28 14 116 108 18 21 118 123 18 16 108 111 15 19 104 117 15 15 106 106 19 18 108 116 20 18 114 105 19 20 111 114 23 19 125 111 19 23 118 110 25 17 118 103 ESERCIZI Suddividere le variabili in 4 classi di uguale ampiezza e costruire la tabella di frequenza. Calcolare media e varianza dai dati originali e da quelli categorizzati e confrontare i risultati. Frequenza Peso Altezza Totale Totale Dati originali Media Varianza Frequenza Dati divisi in classi ESERCIZI Suddividere le variabili in 4 classi di uguale ampiezza e costruire la tabella di frequenza. Calcolare media e varianza dai dati originali e da quelli categorizzati e confrontare i risultati. Peso Frequenza Altezza Frequenza 10-15 6 100-107 6 16-21 18 108-115 12 22-27 4 116-123 9 28-34 2 124-132 3 Totale 30 Totale 30 Dati originali Dati divisi in classi Media 19.73 18.93 Varianza 17.17 22.23 Dati originali Dati divisi in classi Media 113.07 113.95 Varianza 50.62 53.22 ESERCIZI Sono qui di seguito riportate le durate in anni degli studi compiuti da 20 persone 13-18-18-13-8-8-13-8-8-8-13-19-14-8-8-14-8-13-20-8 Rappresentare graficamente la distribuzione degli anni di studio Quante persone hanno studiato almeno 13 anni? Completare la tabella seguente e calcolare media e varianza Anni di studio (yi) 8 13 14 18 19 20 Totale ni yi ni y2i y2ini ESERCIZI Completare la tabella seguente e calcolare media e varianza [Soluzione: 12, 18] Anni di studio (yi) ni yi ni y2i y2ini 8 9 72 64 576 13 5 65 169 845 14 2 28 196 392 18 2 36 324 648 19 1 19 361 361 20 1 20 400 400 Totale 20 240 1514 3222 ESERCIZI Una popolazione è costituita da quattro appartamenti A, B, C e D. La caratteristica in studio è rappresentata dal n° di vani Appartamento N°vani A 2 B 3 C 4 D 4 Calcolare media e varianza della variabile nella popolazione P.S. La varianza nella popolazione è indicata come σ2 calcolata come: N σ2 = ∑ (y i =1 − y) 2 i N ed è ESERCIZI Estrarre tutti i 16 possibili campioni di due unità e calcolare la media campionaria Appartamenti Valori Media campionaria AA AB AC AD BA BB BC BD CA CB CC CD DA DB DC DD 2-2 2 ESERCIZI Tracciare il grafico della distribuzione della media campionaria Calcolare la media delle medie campionarie Calcolare la varianza e lo scarto quadratico medio delle medie campionarie Confrontare questi valori con quelli ottenuti considerando tutti i campioni ESERCIZI Un insieme di dati ha media y n e deviazione standard sn Agli n dati se ne aggiunge uno di valore uguale a yn Si ottiene così una nuova media y n +1 e una nuova deviazione standard sn +1 Si può dire quale delle tre relazioni sotto indicate è valida (se SI’ evidenziarla; se NO darne una breve giustificazione) y n +1 < y n y n +1 = y n y n +1 > y n Si può dire quale delle tre relazioni sotto indicate è valida (se SI’ evidenziarla; se NO darne una breve giustificazione s n +1 < s n s n +1 = s n s n +1 > s n ESERCIZI Le due figure rappresentano i diagrammi a barre di due insiemi di dati. Indichiamo con y1 e s1 la media e lo scarto della figura 1 e con y 2 e s2 la media e lo scarto della figura 2 Figura 1 Figura 2 Delle sei relazioni sotto indicate indicare le due corrette y1 < y 2 s1 < s2 y1 = y 2 s1 = s2 y1 > y 2 s1 > s2 ESERCIZI Si considerino due osservazioni con valore uguale e sconosciuto s tale che s<t. A questi dati se ne aggiungono 8 tutti con valore t. Il valore medio dei 10 dati complessivi rispetto a quello dei due iniziali: aumenta diminuisce rimane invariato Lo scarto dei 10 dati complessivi rispetto a quello dei due dati iniziali: aumenta diminuisce rimane invariato ESERCIZI Su uno stesso sistema di assi sono riportati i diagrammi a barre di due insiemi di dati: il gruppo A e il gruppo B. Dire quale dei due insiemi ha media maggiore e quale scarto maggiore. [Soluzione: media maggiore A, scarto maggiore B] ESERCIZI Date 101 osservazioni di cui è noto che: n ∑ yi = 51.6841 i =1 n 2 y ∑ i = 50.2367 i =1 •stimare media e varianza campionaria •fornire un intervallo di confidenza per la media a livello α=0.90 [Soluzione: 0.51, 0.24, 0.43-0.59] ESERCIZI Si hanno x1 ,..., xn osservazioni di una certa variabile e se ne conosce la media x . Si definisce yi = 3 xi + 5 .Allora la media delle osservazioni y1 ,..., y n è: x x+5 3x 3x + 5 ESERCIZI Quanto vale il primo quartile? Quanto il secondo? Quanto il terzo? 0.7 0.7 0.9 1.2 1.3 1.4 1.5 1.5 1.7 1.9 2.0 2.0 2.1 2.4 2.4 2.8 2.8 2.9 3.2 3.3 3.5 3.6 4.1 4.3 4.7 4.7 4.8 5.2 5.3 5.5 6.4 6.8 7.0 7.2 7.2 7.9 8.0 8.7 9.0 9.4 10.7 13.3 15.1 16.8 17.1 19.7 25.3 32.0 32.4 42.1 ESERCIZI I biologi che studiano la salute della pelle misurano la velocità con cui le nuove cellule tendono a chiudere un taglio fatto con un rasoio sulla pelle di una salamandra anestetizzata. Qui di seguito sono riportati i dati relativi a 18 salamandre misurati in micrometri (un milionesimo di metro) all’ora. 29 27 34 40 22 28 14 35 26 35 12 30 23 18 11 22 23 33 Assumendo che la deviazione standard dei tassi di rinnovo della pelle nella popolazione delle salamandre sia pari a 8 micrometri per ora calcolare un intervallo di confidenza per il tasso medio di rinnovo al 90% di confidenza. [Soluzione: 22,57-28,77] ESERCIZI Quanto dovrebbe essere la numerosità campionaria per poter stimare il tasso tasso medio di rinnovo con un errore di non più di 1 micrometro per ora? [Soluzione: 174]