Università del Piemonte Orientale Corsi di Laurea Triennale Corso di Statistica e Biometria Introduzione e Statistica descrittiva Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 1 Statistica Funzioni Descrittiva Induttiva (inferenziale) Statistica descrittiva : • sintesi delle informazioni in pochi valori sintetici • presentazione grafica (opzionale). • descrizione della variabilità dei dati Statistica induttiva: formulazione di previsioni (leggi generali) sulle caratteristiche della popolazione (universo dei dati) partendo da un campione. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 2 Popolazione: • ‘insieme di tutti i valori realizzati o possibili di una variabile’ • insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. • può essere finita (comunque molto grande) o infinita Attenzione i seguenti termini: individui, soggetti, unità statistiche sono sinonimi. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 3 Campione: • raccolta finita di elementi estratti da una popolazione • scopo dell’estrazione è quello di ottenere informazioni sulla popolazione • pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) • per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale (metodi descritti nelle lezioni successive). Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 4 La statistica opera su dati che definiamo ‘variabili’. I dati di interesse vengono raccolti (misurati) per tutti i soggetti inclusi nella popolazione o nel campione. Il termine ‘variabile’ sottolinea che il valore cambia da un soggetto all’altro. I dati che non cambiano di valore sono denominati ‘costanti’. Alcune definizioni di ‘variabile’: - ‘una caratteristica che varia da un’entità biologica ad un’altra’ (J.H.Zar) - ‘qualunque genere di misura di cui si eseguano rilievi individuali è detta variabile’ (P.Armitage) Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 5 Il valore delle variabili è conosciuto attraverso un processo di misurazione a livello di ciascun individuo (unità statistica). Livello di misurazione (categorie di variabili) Categoriche Nominale Solo classificazione, senza ordinamento Es sesso, specie, area geografica, scuola Ordinale Classificazione con ordinamento, ma con distanza tra i valori ignota Es. Punteggio scolastico, valutazioni cliniche Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 6 Numeriche Variabili numeriche continue: possono assumere tutti i valori in un intervallo, di regola sono prodotte da operazioni di misura (altezza, peso, valori di laboratorio. Variabili numeriche discrete (quando solo alcuni valori sono possibili, ad esempio i valori corrispondenti ai numeri reali interi come l’età in anni compiuti; di regola sono prodotte da operazioni di conteggio). 1 1 Inoltre possiamo suddividere le variabili numeriche secondo l’unità di misura. Intervallo Distanza tra i valori nota, valori espressi su una scala arbitraria. Es. temperatura in gradi centigradi. Rapporto Distanza tra i valori nota, su una scala naturale. Es. temperatura in gradi Kelvin, età, tempo Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 7 Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili? Tipo di variabile Categoriche Numeriche Nominale Ordinale Frequenza SI SI SI Frequenza cumulativa NO SI SI SI (no istogrammi SI SI 1 sola variabile Istogrammi cumulativi) Media NO NO SI Mediana NO NO SI Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 8 Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili? Tipo di variabile Categoriche Numeriche Nominale Ordinale Frequenza SI SI SI Frequenza cumulativa NO SI SI SI (no istogrammi SI SI 2 variabili insieme Istogrammi cumulativi) Correlazione NO NO SI Regressione NO NO SI Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 9 Distribuzione di frequenza Indichiamo come frequenza ( frequenza assoluta) il numero di osservazioni con la caratteristica in esame (ad es. con un dato valore della variabile in studio). Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 10 Distribuzione di frequenza: procedure Variabili categoriche: 1. definire i possibili valori della variabile 2. predisporre l’elenco dei possibili valori (se ordinali in ordine crescente) 3. contare quante osservazioni per ciascun valore 4. calcolare le corrispondenti proporzioni (eventualmente come percentuali) 5. calcolare le frequenze cumulative (somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato) e le relative percentuali Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 11 1. e 2. Risultato scolastico Insufficiente Sufficiente Buono Distinto Ottimo Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 12 3. Risultato frequenza scolastico Insufficiente 4 Sufficiente 8 Buono 7 Distinto 4 Ottimo 5 Totale 28 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 13 Prima di procedere, rivediamo le definizioni di - Proporzione o frequenza relativa - Percentuale o frequenza relativa percentuale. La proporzione si esprime la relazione quantitativa tra una parte ed il tutto (peso di una fetta rispetto al peso dell’intera torta). La si calcola con una frazione in cui il numeratore è compreso nel denominatore: p= parte / totale Es in un gruppo di studenti abbiamo 12 maschi e 24 femmine. Proporzione di maschi = 12 / 36 36 è il numero totale di studenti (12 + 24). I limiti di una proporzione sono 0 e 1 0 <= p <= 1 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 14 Percentuale: indica una proporzione od una variazione riferiti ad una base di 100. In questo corso la percentuale è sempre utilizzata solo come proporzione riferita ad una base di 100. Percentuale= % = Proporzione * 100. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 15 4. Risultato Frequenza Proporzione (frequenza scolastico relativa) Insufficiente 4 0.14 Sufficiente 8 0.28 Buono 7 0.25 Distinto 4 0.14 Ottimo 5 0.19 Totale 28 1.0 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 16 Riepilogo: Come si calcola una proporzione? P = x / totale Dove: P = proporzione x = frequenza assoluta nella classe o categoria Totale = numero totale di soggetti La proporzione ha valori possibili compresi tra 0 e 1 Percentuale = proporzione * 100 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 17 Nelle pagine seguenti sono presente alcune rappresentazioni grafiche (istogrammi e diagramma a torta) corrispondenti alle distribuzioni di frequenza considerate negli esempi precedenti. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 18 esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni) 9 8 7 6 5 numero di bambini (frequenza) 4 3 2 1 0 Insufficiente Sufficiente Buono Distinto Ottimo risultato scolastico Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 19 esempio di diagramma a barre con variabile ordinale e distribuzione di frequenza relativa (proporzione) 0.36 0.28 proporzione 0.21 0.14 0.07 0.00 Insufficiente Sufficiente Buono Distinto Ottimo risultato scolastico Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 20 diagramma a torta, variabile categorica ordinale. Viene indicata la percentuale corrispondente a ciascun valore Insufficiente 14% Ottimo 19% Distinto 14% Sufficiente 28% Buono 25% Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 21 Esempio con variabile numerica discreta non riunita in classi ETA in anni compiuti Elenco di tutti i valori possibili (intervallo definito arbitrariamente da 30 a 99) 30 50 70 90 31 51 71 91 32 52 72 92 33 53 73 93 34 54 74 94 35 55 75 95 36 56 76 96 37 57 77 97 38 58 78 98 39 59 79 99 40 60 80 41 61 81 42 62 82 43 63 83 44 64 84 45 65 85 46 66 86 47 67 87 48 68 88 49 69 89 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 22 Segue (sono conteggiati solo i valori con almeno una osservazione ETA 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 Frequenza 0 0 2 0 0 0 0 0 0 0 0 2 6 0 6 4 8 4 0 8 4 6 4 0 12 6 8 8 8 14 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 .90 .91 92 totale 12 20 20 22 38 20 32 18 8 22 22 8 18 24 14 4 6 4 0 4 0 0 0 2 0 0 0 0 0 0 0 0 2 430 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 23 Segue (sono conteggiati solo i valori con almeno una osservazione, per i restanti valori la frequenza ha valore 0) ETA 32 41 42 44 45 46 47 49 50 51 52 54 55 56 57 58 59 Frequenza 2 2 6 6 4 8 4 8 4 6 4 12 6 8 8 8 14 Percent 0.5 0.5 1.4 1.4 0.9 1.9 0.9 1.9 0.9 1.4 0.9 2.8 1.4 1.9 1.9 1.9 3.3 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 79 83 92 Totale 12 20 20 22 38 20 32 18 8 22 22 8 18 24 14 4 6 4 4 2 2 430 2.8 4.7 4.7 5.1 8.8 4.7 7.4 4.2 1.9 5.1 5.1 1.9 4.2 5.6 3.3 0.9 1.4 0.9 0.9 0.5 0.5 100.0 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 24 Distribuzione di frequenza: Variabili numeriche (sia discrete sia continue) occorre definire gli intervalli dei possibili valori (classi) 1. gli intervalli debbono essere definiti in modo che tutte le possibili osservazioni cadano in una ed una sola classe 2. gli intervalli siano di uguale ampiezza (se possibile, semplifica la preparazione di istogrammi) Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 25 Se le variabili sono numeriche occorre definire i intervalli dei valori della variabile (classi) 1. gli intervalli debbono essere definiti in modo che tutte le possibili osservazioni cadano in una ed una sola classe 2. è opportuno che gli intervalli siano di uguale ampiezza (se possibile) Esempio: ETA ƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 30<=x<40 40<=x<50 50<=x<60 60<=x<70 70<=x<80 80<=x<90 90<=x<100 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 26 I segni: ! include solo i soggetti con variabile X di valore 1 = es x=1 >= x>=1 ! include i soggetti con variabile X di valore 1 (incluso) o superiore ad 1 > x>1 ! include solo i soggetti con variabile X di valore superiore ad 1 < <= Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 27 3. calcolare le corrispondenti distribuzioni di frequenza e proporzioni semplici e cumulative Frequenza Cumulative ETA Frequenza Percent Cumulativa Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 30<=x<40 2 0.5 2 0.5 40<=x<50 38 8.8 40 9.3 50<=x<60 70 16.3 110 25.6 60<=x<70 212 49.3 322 74.9 70<=x<80 104 24.2 426 99.1 80<=x<90 2 0.5 428 99.5 90<=x<100 2 0.5 430 100.0 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 28 Distribuzione di frequenza cumulative La frequenza cumulativa è somma della frequenza delle osservazioni con valore della variabile inferiore od uguale al valore considerato. Calcolata la frequenza cumulativa si può calcolare la corrispondente percentuale. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 29 Esempio di calcolo di frequenza cumulativa ETA 32 41 42 44 45 46 47 49 50 51 52 54 55 56 57 58 59 Frequenza 2 2 6 6 4 8 4 8 4 6 4 12 6 8 8 8 14 Percent 0.5 0.5 1.4 1.4 0.9 1.9 0.9 1.9 0.9 1.4 0.9 2.8 1.4 1.9 1.9 1.9 3.3 Frequenza 0 + 2= 2 + 2 = 4 + 6 = 10 + 5 = 16 + 4 = Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva Cumulativa 2 4 10 16 20 28 32 40 44 50 54 66 72 80 88 96 110 30 Esempio ETA 32 41 42 44 45 46 47 49 50 51 52 54 55 56 57 58 59 Frequenza 2 2 6 6 4 8 4 8 4 6 4 12 6 8 8 8 14 Percent 0.5 0.5 1.4 1.4 0.9 1.9 0.9 1.9 0.9 1.4 0.9 2.8 1.4 1.9 1.9 1.9 3.3 .Frequenza Percentuale Cumulativa Cumulativa 2 0.5 4 0.9 10 2.3 16 3.7 20 4.7 28 6.5 32 7.4 40 9.3 44 10.2 50 11.6 54 12.6 66 15.3 72 16.7 80 18.6 88 20.5 96 22.3 110 25.6 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 79 83 92 totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 12 20 20 22 38 20 32 18 8 22 22 8 18 24 14 4 6 4 4 2 2 430 2.8 4.7 4.7 5.1 8.8 4.7 7.4 4.2 1.9 5.1 5.1 1.9 4.2 5.6 3.3 0.9 1.4 0.9 0.9 0.5 0.5 100.0 31 122 142 162 184 222 242 274 292 300 322 344 352 370 394 408 412 418 422 426 428 430 430 28.4 33.0 37.7 42.8 51.6 56.3 63.7 67.9 69.8 74.9 80.0 81.9 86.0 91.6 94.9 95.8 97.2 98.1 99.1 99.5 100.0 100.0 Istogrammi : rappresentazione grafica di distribuzioni di frequenza Vengono disegnati su un grafico dei rettangoli, uno per ciascun valore o intervallo di valori della variabile. L’area dei rettangoli è proporzionale alla frequenza di osservazioni, E’ opportuno quindi che i rettangoli abbiano tutti base uguale Variabili categoriche: i rettangoli possono essere distanziati. Variabili numeriche: i rettangoli non devono essere distanziati. Come disporre i valori Ascisse: valori della variabile Ordinate: Frequenza (assoluta o percentuale, semplice o cumulativa, a scelta) Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 32 Per disegnare correttamente un istogramma è necessario avere l’occorrente per tracciare rette parallele e perpendicolari: - 1 matita a punta fine - 2 squadre oppure 1 squadra ed 1 righello - gomma per cancellare Per i diagrammi a torta occorre un goniometro. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 33 Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come esercizio riportare gli intervalli come indicato a lezione Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 34 Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come esercizio riportare gli intervalli come indicato a lezione Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 35 Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come esercizio riportare gli intervalli come indicato a lezione Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 36 Esempio di istogramma che rappresenta la distribuzione di frequenza di una variabile numerica discreta. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 37 Esempio di istogramma che rappresenta la distribuzione di frequenza cumulativa di una variabile numerica discreta. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 38 Esempio di distribuzione di frequenza ed istogrammi con variabile numerica continua. La tabella presenta la concentrazione di emoglobina (espressa in g/l) misurata in 51 campioni. Voglio: 1. Suddividere le osservazioni per classi 1 grammo per / 100 ml, definendo in modo esplicito i limiti di ciascuna classe. 2. Calcolare la distribuzione di frequenza e disegnare il grafico corrispondente. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 39 128 133 134 136 136 137 138 138 139 139 140 141 141 141 142 142 142 143 143 143 144 144 144 145 145 145 146 146 146 146 147 147 147 148 148 149 149 150 150 151 151 151 152 152 153 154 154 156 157 159 160 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 40 Fase 1: definizione delle classi classi 12 <= x < 13 13 <= x < 14 14 <= x < 15 15 <= x < 16 16 <= x < 17 Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 41 Fase 2: frequenze assolute classi Frequenza 12<= x < 13 1 13 <= x < 14 9 14 <= x < 15 27 15<= x < 16 13 16<= x < 17 1 Totale 51 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 42 Fase 3 Percentuali classi Frequenza (numeri Percentuale sul totale assoluti 12<= x < 13 1 2,0% 13 <= x < 14 9 17,6% 14 <= x < 15 27 52,9% 15<= x < 16 13 25,5% 16<= x < 17 1 2,0% 51 100,0% Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 43 distribuzione di frequenza di una variabile numerica ti 30 Numero osservazioni. (Frequenza) 25 20 15 10 5 0 12<= x < 13 13 <= x < 14 14 <= x < 15 15<= x < 16 16<= x < 17 Concentrazione di emoglobina (g/100ml) Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 44 Distribuzione di frequenza di 2 variabili Il procedimento è analogo a quanto descritto per una sola variabile ma più complesso per la necessità di classificare ciascun soggetto per due variabili contemporaneamente. Il procedimento segue queste fasi: 1. definire i possibili valori di ciascuna delle due variabili 2. scrivere una tabella con le due variabili a definire le righe e le colonne 3. scrivere i valori delle variabili in ordine crescente 4. contare quante osservazioni per ciascuna combinazione di valori 5. calcolare i totali di riga, colonna e tabella 6. calcolare le corrispondenti proporzioni (eventualmente come percentuali) riferite a: totale generale, totale di riga, tot. di colonna Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 45 Problema: descrivere l’associazione tra arteriopatia ed abitudine al fumo (due variabili categoriche) in uno studio su 200 pazienti: 1. identifico le variabili ed i valori possibili Var. A (arteriopatia), nominale, valori possibili = 2 (es. malato, sano) Var B (fumo), nominale, valori possibili = 3 (es. non fumatore, ex fumatore, attuale fumatore) 2. preparo una tabella con le due variabili a definire le righe e le colonne Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 46 Arteriopatia Malato Totale Sano Mai Fumo Ex Attuale Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 47 Arteriopatia Malato Totale Sano Mai 8 43 51 Ex 26 45 71 Attuale 30 48 78 64 136 200 Fumo Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 48 Percentuali sul totale delle osservazioni Arteriopatia Malati Sani % totale Totale Malati Sani % % F Mai 8 43 4,0 21,5 U Ex 26 45 13,0 22,5 M attuale 30 48 15,0 24,0 O Totale 100,0 200 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 49 Istogrammi da tabella con 2 variabili Percentuali sul totale delle osservazioni 30,0 25,0 20,0 % Malati Sani 15,0 10,0 5,0 0,0 Mai Ex attuale Malati 4,0 13,0 15,0 Sani 21,5 22,5 24,0 Fumo Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 50 Istogrammi da tabella con 2 variabili Percentuali sul totale delle osservazioni 25,0 20,0 15,0 % 10,0 Malati Sani 5,0 Sani 0,0 Malati Mai Ex attuale Fumo Mai Ex attuale Malati 4,0 13,0 15,0 Sani 21,5 22,5 24,0 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 51 Percentuali sul totale di riga Arteriopatia Malati Sani %riga Totale Malati Sani % % % F Mai 8 43 51 15,7 84,3 100,0 U Ex 26 45 71 36,6 63,4 100,0 M attuale 30 48 78 38,5 61,5 100,0 O Totale Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 200 52 Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo 90,0 80,0 70,0 60,0 50,0 Malati % Sani 40,0 30,0 20,0 10,0 0,0 Mai Ex attuale Totale Malati 15,7 36,6 38,5 32,0 Sani 84,3 63,4 61,5 68,0 Fumo Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 53 Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo 90,0 80,0 70,0 60,0 50,0 % 40,0 30,0 Malati Sani 20,0 10,0 Sani 0,0 Mai Malati Ex attuale Fumo Totale Mai Ex attuale Totale Malati 15,7 36,6 38,5 32,0 Sani 84,3 63,4 61,5 68,0 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 54 Percentuali sul totale di colonna Arteriopatia Malati Sani %colonna Totale Malati Sani F Mai 8 43 12,5 31,6 U Ex 26 45 40,6 33,1 M Attuale 30 48 46,9 35,3 O Totale 64 136 100,0 100,0 200 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 55 Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani 50,0 45,0 40,0 35,0 30,0 % Malati 25,0 Sani 20,0 15,0 10,0 5,0 0,0 Mai Ex attuale Malati 12,5 40,6 46,9 Sani 31,6 33,1 35,3 Fumo Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 56 Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani 50,0 45,0 40,0 35,0 30,0 % 25,0 20,0 Malati 15,0 Sani 10,0 5,0 Sani 0,0 Malati Mai Ex attuale Fumo Mai Ex attuale Malati 12,5 40,6 46,9 Sani 31,6 33,1 35,3 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 57 Misure di tendenza centrale e di variabilità • Media • Deviazione Standard • Coefficiente di variazione • Mediana • Moda • Range • Media e deviazione standard geometriche (trasformazione logaritmica) Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 58 Media: è la più comune misura di tendenza centrale. Può essere calcolata per variabili numeriche. • Il valore medio di una variabile in un gruppo di osservazioni si calcola sommando il valore della variabile per ciascuna osservazione e dividendo il risultato per il numero di osservazioni. • Media = Σxi / n = (x1 + x2+ x3+ x4+ x5+ La media viene indicata con + xn-1 + xn) / n X Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 59 Deviazione Standard: misura la variabilità delle osservazioni intorno alla Media. Per spiegare la deviazione standard è utile esaminare prima le statistiche Devianza e Varianza. La Devianza è la somma dei quadrati delle differenze (scarti) tra il valore della variabile e la media. Dev = Σ[(xi – X )]2 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 60 La Varianza è la devianza divisa per il numero di osservazioni – 1 (si può definire anche come la media degli scarti quadratici). • Var = Dev / (n-1) = Σ(xi – X )2 / (n-1) La Deviazione Standard è la radice quadrata della varianza. • DS= [Var] 1/2 = [Dev / (n-1)] 1/2 = [Σ Σ(xi – X )2 / (n-1)] 1/2 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 61 Coefficiente di Variazione CV% = ( DS / X ) * 100 Dove: DS= deviazione standard X = media Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 62 Esempio = Calcolo di media e deviazione standard Variabile = altezza - Campione = 20 soggetti xi xi - x (xi – x)2 1,64 -0,05850 0,00342 1,74 0,04150 0,00172 1,65 -0,04850 0,00235 1,8 0,10150 0,01030 1,58 -0,11850 0,01404 1,76 0,06150 0,00378 1,55 -0,14850 0,02205 1,72 0,02150 0,00046 1,6 -0,09850 0,00970 1,69 -0,00850 0,00007 1,75 0,05150 0,00265 1,81 0,11150 0,01243 1,58 -0,11850 0,01404 1,76 0,06150 0,00378 1,57 -0,12850 0,01651 1,72 0,02150 0,00046 1,7 0,00150 0,00000 1,77 0,07150 0,00511 1,71 0,01150 0,00013 1,87 0,17150 0,02941 somme 0,0 0,15246 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 63 Media= 1,6985 Varianza= 0,008024 DS= 0,089576 CV%= 5,2739% Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 64 Mediana Dato un insieme di osservazioni ordinate per valori crescenti della variabile, la mediana corrisponde al valore dell’osservazione che occupa la posizione centrale della distribuzione. Se il numero di osservazioni è dispari la mediana corrisponde al valore dell’osservazione che occupa la posizione centrale della distribuzione. Se il numero di osservazioni è pari abbiamo due osservazioni centrali; la mediana sarà ottenuta calcolando la media del valore di tali (due) osservazioni centrali. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 65 Procedura per identificare l’osservazione o le osservazioni mediane: N=numero totale di osservazioni. Se N è pari: le due osservazioni che interessano sono quelle con posizione N/2 e (N/2)+1 Se N è dispari: l’osservazione che interessa è quella con posizione intero(N/2)+1 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 66 Mediana Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 67 Esempio = Calcolo di media e deviazione standard Variabile = altezza - Campione = 20 soggetti 1 1,55 2 1,57 3 1,58 4 1,58 5 1,60 6 1,64 7 1,65 8 1,69 9 1,70 10 1,71 11 1,72 12 1,72 13 1,74 14 1,75 15 1,76 16 1,76 17 1,77 18 1,80 19 1,81 20 1,87 Mediana= (1,71 + 1,72) /2 = 1,715 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 68 Moda: è il valore o la classe di valori che si osserva con maggior frequenza in una serie di osservazioni. Possiamo avere distribuzioni con più mode (2 mode = bimodale). Range o campo di variazione= differenza tra il valore minimo e quello massimo. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 69 Quanti decimali? Per i risultati usate un decimale in più di quanti ne sono stati usati per i dati corrispondenti. Per i calcoli usate due decimali in più Indicate le percentuali con un solo decimale Ricordate che i numeri debbono essere arrotondati, non troncati. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 70 Esercizio: Calcolate media, mediana e deviazione standard per le seguenti osservazioni (concentrazione di emoglobina in decigrammi per 100 ml). Estraete un campione di tre osservazioni utilizzando la tavola dei numeri casuali 142 143 142 143 144 135 144 144 146 147 124 144 145 146 145 146 150 156 146 132 134 136 141 141 141 151 159 151 152 153 154 155 142 142 147 148 148 137 137 138 139 147 152 153 139 140 149 149 149 150 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 71 Campione: • raccolta finita di elementi estratti da una popolazione • scopo dell’estrazione è quello di ottenere informazioni sulla popolazione • pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) • per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Metodo: tavola dei numeri casuali Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 72 Tavola dei numeri casuali (tavola esemplificativa) 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 02500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 73 Esempio: estrazione di un campione di 10 soggetti da una base di 100 soggetti (numerati da 1 a 100). La base è elencata nella tabella allegata Dovrò scegliere numeri di 3 cifre. Decido che procederò progressivamente per colonna, dall’alto in basso. In modo casuale individuo il punto sottolineato come punto di partenza. I successivi valori compresi tra 1 e 100 sono annotati in grassetto. I valori 040, 011, 026, 045, 088 corrispondono ai soggetti da campionare. Tali soggetti sono evidenziati nella tabella successiva con indicati i valori di emoglobina. Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 75 Tavola dei numeri casuali 33369 22784 33875 41853 96864 47971 95778 08005 13691 63400 27255 03112 68048 77412 56742 76219 31224 14474 75336 86303 06338 95707 49455 85540 13965 75668 33709 06295 33055 62019 78309 42155 90346 49145 20503 00241 29991 19345 61564 99081 99759 97934 03254 41554 21590 57210 07123 68756 63083 96235 67176 10433 87681 87210 64933 68347 92077 88792 91810 58573 65248 76928 89837 08846 56629 32437 67688 17835 91940 90593 49006 76166 12500 63782 59322 00390 98163 63614 78605 49403 68103 85644 25796 91448 30805 42664 51326 74436 62322 12241 63802 53305 04059 59764 90724 76359 55535 86055 29585 46302 79742 99960 26124 46870 20689 25098 06410 27973 46998 77311 57720 54907 74245 84488 04270 73048 99066 06519 48641 55943 79237 41051 12398 66696 85112 14981 17287 21146 62211 05821 24228 57850 98341 16681 37812 47509 18925 86597 18675 49091 55660 49424 43933 05963 20149 05200 50960 08358 67511 01933 19861 22439 01143 94432 63532 56945 58842 40528 92572 20741 94669 32527 87760 94104 25509 76415 05216 24500 17838 70817 89985 34649 53377 31730 94086 31638 35588 17093 36147 91279 48789 72702 67008 21668 82146 01413 79372 14942 68705 38683 49480 02888 22917 63258 11111 33411 13775 85533 80985 00143 24743 85641 42291 36778 10893 05437 19824 08378 42976 86795 64847 23589 33594 89748 10957 32718 51763 68813 10425 77035 03430 36514 70661 31756 05050 40475 71065 74305 77737 29833 75385 23135 69283 16727 65703 02780 23804 68981 11584 49648 64545 63962 51199 01283 97825 28393 66071 82123 57660 19916 98208 33362 69117 21161 23944 64238 94059 14970 05617 12805 32054 07203 26193 21394 84195 24214 84411 40803 98537 38507 17344 15148 48565 37822 58481 89051 82970 42120 31433 22193 50394 05450 64035 43057 40668 41553 60431 18390 64851 68625 78953 17763 97731 42023 83425 21144 61224 08446 59292 20144 00944 74988 12680 67331 38098 07617 07062 68488 10741 47585 09145 60399 34502 96525 01889 26599 00459 84522 16394 04293 95169 67557 02640 34346 11248 38069 92350 56729 39454 29692 70508 54005 04520 68481 49490 54518 61250 57413 21963 58693 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 76 Num. Prog. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Hb 129 133 133 134 136 136 136 136 137 137 137 137 138 138 138 138 139 139 139 139 139 140 140 141 141 141 141 141 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 141 141 141 141 141 142 142 142 142 142 142 142 142 142 142 142 142 142 143 143 143 143 143 143 143 143 143 143 144 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 144 144 144 144 144 144 144 145 145 145 145 145 145 145 145 146 146 146 146 147 147 147 147 147 147 147 148 148 148 77 87 88 89 90 91 92 93 94 95 96 97 98 99 100 148 148 149 149 149 149 149 149 149 149 149 149 149 150 Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva 78