Programma del corso: STATISTICA MEDICA Stefania Galimberti CENTRO DI RICERCA IN BIOSTATISTICA PER L’EPIDEMIOLOGIA CLINICA Scuola di Medicina e Chirurgia 1 1.1 1.2 1.3 1.4 1.5 1.6 Introduzione alla statistica Variabili quantitative-qualitative Serie e seriazioni statistiche Rappresentazione grafica di una distribuzione Indici di posizione e dispersione di una distribuzione Diagrammi di dispersione Indici di associazione tra due caratteri quantitativi 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 Introduzione alla probabilità Definizioni di probabilità Probabilità dell’unione e dell’intersezione di due eventi Concetto di indipendenza Probabilità condizionata Il test diagnostico Distribuzione binomiale Distribuzione Gaussiana Notizie generali: Programma del corso: 3 3.1 3.2 3.3 3.4 Introduzione all’inferenza Campione e popolazione Parametro e stima (errore standard della stima) Intervallo di confidenza La logica del test di ipotesi, livello di significatività e potenza 3.5 Inferenza con un singolo campione e fra più gruppi 3.6 Applicazioni Libri di testo consigliati: Bland M. Pagano M. & Gauvreau K. Statistica medica Biostatistica Apogeo Editore, 2009 Idelson-Gnocchi, 2003 Materiale delle lezioni scaricabile da: http://elearning.unimib.it/ Modalità d’esame: Scritta (esercizi e domande sulla parte teorica) 1 La Statistica Medica La Statistica Conoscere le nozioni fondamentali ed i principali metodi della statistica medica: • per comprendere ed interpretare i fenomeni biologici; • per valutare quantitativamente gli interventi assistenziali (anche farmacologici); • per supportare le decisioni (prese in condizioni di incertezza); • per fare previsioni. La statistica comprende un insieme di metodi per Se si rilevano, in un gruppo di individui la raccolta la descrizione la sintesi l’analisi di dati relativi a fenomeni che hanno attitudine a variare. Perché i valori cambiano da individuo a individuo? Tra le possibili fonti di variabilità, quelle più rilevanti sono la: i valori di altezza o il sesso, ad esempio, 1.67 F 1.78 M 1.74 F 1.94 M si può notare come: i valori misurati varino da individuo a individuo variabilità strumentale (legata alla procedura di misurazione, agli strumenti e a chi misura); (ad es. la procedura operativa o lo strumento non sono ancora a punto, colui che misura non è sufficientemente esperto) variabilità biologica (intrinseca). 2 Terminologia: universo La variabilità strumentale può essere completamente controllata, agendo sulle modalità di misurazione. L’universo (o popolazione) consiste della totalità degli elementi (unità statistiche) che hanno certe caratteristiche. La variabilità biologica può essere solo parzialmente limitata, rendendo più omogeneo l’insieme di soggetti analizzati. La popolazione di interesse deve essere definita in modo non equivoco (ad es. ottimizzando la procedura operativa, tarando lo strumento, facendo training al personale) 1.67 F 1.74 F 1.78 M 1.94 M Es.: Studenti che hanno seguito almeno una lezione di Statistica Medica Studenti di Monza che hanno seguito almeno una lezione di Statistica Medica nell’a.a. 2002-2003 Studenti che seguono questa lezione di Statistica Medica L’universo Terminologia: campione Universo reale (pop. finita): costituita da unità statistiche che è possibile identificare. Un campione è il sottoinsieme di elementi dell’ universo che viene effettivamente studiato, i cui risultati vengono utilizzati per trarre conclusioni sulle caratteristiche dell’universo. Es.: pazienti ricoverati per attacco di cuore nell’H di Monza tra il 2000 ed il 2005 Universo virtuale (pop. infinita): costituita da unità statistiche che hanno una esistenza concettuale come insieme di riferimento. Es.: pazienti ricoverati per attacco di cuore campione universo Perché si ricorre al campione? economicità tempestività natura distruttiva della misurazione eticità 3 Il campione Come deve essere il campione? Il campione non deve essere selezionato.. casinisti Il campione Come deve essere il campione? Il campione non deve essere selezionato, ma deve essere scelto in modo casuale per evitare distorsioni sistematiche. campione casuale semplice secchioni Esempio: Fenomeno in studio: Rendimento scolastico Universo: Studenti che seguono questa lezione di Statistica Medica Campione: 20 studenti che seguono questa lezione Esempio: Fenomeno in studio: Rendimento scolastico Universo: Studenti che seguono questa lezione di Statistica Medica Campione: 20 studenti che seguono questa lezione Il campione Il campione campione casuale (semplice o con reinserimento): ogni unità dell’universo ha uguale probabilità di entrare a far parte del campione Il campione casuale dovrebbe rappresentare una immagine in scala ridotta dell’universo. campionamento con reinserimento Esistono diverse strategie di campionamento e la scelta dipende dal contesto. Es. campione stratificato, campione sistematico.. campionamento stratificato maschi femmine campione come miniatura dell’universo … ovvero dovrebbe essere dell’universo. rappresentativo Questa è la condizione (non verificabile) di validità del processo di generalizzazione dei risultati. 4 Il campione N=100 1) n=5 2) n=25 3) n=75 Quale tra questi tre campioni contiene più informazioni sulla popolazione? Il campione Il grado di attendibilità dei risultati campionari dipende quindi dall’adeguatezza della: procedura casuale di campionamento, numerosità. E’ importante pianificare una ricerca perché solo in questa fase è possibile controllarne: - validità (errori sistematici) - precisione (errori casuali) Terminologia: variabili Si dice variabile una caratteristica delle unità statistiche che può assumere una pluralità di valori al variare dell’unità su cui è rilevata. Es: Altezza, Sesso, Titolo di Studio, Voto esame di maturità Le variabili possono essere: i) quantitative ii) qualitative e vengono indicate con lettere maiuscole scelte, in genere, tra le ultime lettere dell’alfabeto: Y, X, Z. Es: Y = Altezza X = Sesso Terminologia: dati I dati sono quei valori numerici o quelle modalità, assumibili da una variabile. I dati sono rappresentati da lettere minuscole (quella che indica la variabile) con un indice che distingue le diverse unità fra loro : Es: Y=Altezza X=Sesso y1= 1.67 y2= 1.74 y3= 1.94 y4= 1.78 x1= F x2= F x3=M x4=M Soggetto 1 5 …al paradiso dall’inferno… Unità sperimentale: ogni individuo osservato (linea nel data-set) Variabile: ogni caratteristica che è stata misurata sull’unità (colonna nel data-set) Osservazione (dato): ogni valore espresso dalla variabile sull’unità (cella nel data-set) Classificazione Variabili: Variabili qualitative nominali Una variabile qualitativa è nominale, quando ogni possibile ordinamento delle modalità è arbitrario. Es: Colore degli occhi, Marca auto, Etnia Variabili Qualitative Nominali Ordinali Sesso: maschio - femmina Quantitative Discrete Continue Variabile dicotomica o binaria = femmina - maschio Possibili relazioni tra misurazioni: - identità: x 1 = x2 oppure x 1 x2 6 Variabili qualitative ordinali Una variabile qualitativa è ordinale, quando è possibile individuare un ordinamento naturale delle modalità. Es.: Segno zodiacale, Titolo di studio Misurazione dell’intensità del dolore: nulla < lieve < moderata < forte forte > moderata > lieve > nulla Possibili relazioni tra misurazioni: - identità: - ordine: x 1 = x2 x 1 > x2 oppure oppure x 1 x2 x 1 < x2 Variabili quantitative discrete Una variabile quantitativa è discreta se può assumere come valore un qualsiasi numero naturale. Es.: - Numero automobili per famiglia - Voto esame di statistica - Numero di episodi di asma nei mesi primaverili Le variabili quantitative usualmente da conteggi. discrete derivano Variabili qualitative ordinali Es: Misurazione dell’intensità del dolore nulla < lieve < moderata < forte Alle modalità si può associare un codice numerico: (Es.: nulla=0, lieve=1, moderata=2, forte=3) che però non ha significato quantitativo: 2 (dolore moderato) non è il doppio di 1 (dolore lieve), 3 (dolore forte) non è il triplo di 1; la differenza tra 2 e 1 non è uguale a quella tra 3 e 2. Variabili quantitative continue Una variabile quantitativa è continua, se può assumere qualsiasi valore intermedio tra due unità consecutive (numero reale). Es.: Altezza, Peso, Concentrazione di glucosio nel sangue I valori assunti da una variabile continua dipendono dal potere di risoluzione dello strumento di misura. Es.: Una altezza di 1.78324321…. m, potrebbe essere riportata al cm (1.78) o al mm (1.783) a seconda dell’uso. Le variabili quantitative usualmente da misurazioni. continue derivano 7 Variabili quantitative discrete e continue Esercizio Possibili relazioni tra misurazioni: - identità: - ordine: - distanza: - rapporto: x 1 = x2 x 1 > x2 x 1 - x2 x1/x2 oppure oppure oppure oppure x 1 x2 x 1 < x2 x 2 – x1 x2/x1 Numero di carie presenti nell’arcata superiore Quantitativa Discreta Stato civile Qualitativa Nominale Consumo giornaliero di caffeina (mg) Quantitativa Continua Consumo giornaliero di caffè della macchinetta (bicchierini) Quantitativa Discreta Consumo di alcool ?????? Albumina sierica (g/l) Quantitativa Continua Esito PAP test Qualitativa Ordinale (citologia molto sospetta, citologia non regolare, assenza cell atipiche, citologia sospetta..) Numero di linfonodi metastatici riscontrati alla TAC Cosa possiamo concludere campione di 20 studenti? Soggetto Altezza Sesso 1 1.76 M 2 1.71 F 3 1.54 F 4 1.82 M 5 1.59 F 6 1.74 M 7 1.95 M 8 1.68 M 9 1.85 M 10 1.74 F dai dati relativi al Soggetto Altezza Sesso 11 1.77 F 12 1.69 F 13 1.93 M 14 1.67 F 15 1.72 M 16 1.59 F 17 1.60 F 18 1.81 F 19 1.73 F 20 1.78 M Quantitativa Discreta Distribuzioni di frequenza Per riassumere i dati si costruiscono distribuzioni di frequenza: possibili valori/modalità che una variabile può assumere a seconda della sua natura + le frequenze con cui questi valori si manifestano 8 Variabili qualitative Variabili qualitative Successione delle frequenze che corrispondono alle modalità di una variabile qualitativa. Titolo di studio di 120 Titolo di studio Lic. Elementare Lic. Media Maturità Laurea Totale tifosi dell’Inter f(x)=frequenza assoluta f(x) numero di volte in cui 18 una certa modalità si 12 manifesta nel campione 36 54 12 dei 120 intervistati 120 hanno la Licenza Media Frequenze assolute e relative - frequenze assolute f(x) f(x) p(x) Lic. Elementare 18 0.15 Lic. Media 12 0.10 Maturità 36 0.30 Laurea 54 0.45 Totale 120 1.00 possono assumere valori compresi tra 0 e n (dimensione del campione) la loro somma è pari a n la loro somma è pari a 1 Titolo di studio di 120 Titolo di studio Lic. Elementare Lic. Media Maturità Laurea Totale tifosi dell’Inter f(x)=frequenza assoluta p(x)=frequenza relativa f(x) p(x) 18 0.15 rapporto tra la frequenza assoluta con cui si 12 0.10 manifesta una modalità e la 36 0.30 numerosità totale del campione 54 0.45 120 1.00 Il 10% (12/120) degli intervistati ha la Licenza Media Frequenze assolute e relative Titolo di studio - frequenze relative p(x) possono assumere valori compresi tra 0 e 1 Successione delle frequenze che corrispondono alle modalità di una variabile qualitativa. Frequenze assolute e relative forniscono le stesse informazioni sulla distribuzione. Le frequenze relative: facilitano la percezione del peso delle modalità; consentono di confrontare la distribuzione di una variabile in campioni di diversa numerosità. Andrebbero sempre accompagnate dalla numerosità su cui sono state calcolate! 9 Esempio Esempio Si vuole valutare l’efficacia di un nuovo farmaco (A) sulla mortalità post-infarto (1 mese). Nello studio vengono coinvolti 150 pazienti: 100 sono randomizzati a ricevere il farmaco sperimentale, 50 il trattamento standard (B). Si vuole valutare l’efficacia di un nuovo farmaco (A) sulla mortalità post-infarto (1 mese). Nello studio vengono coinvolti 150 pazienti: 100 sono randomizzati a ricevere il farmaco sperimentale, 50 il trattamento standard (B). Morti Trattati con A B 6 3 Morti Vivi 94 47 Vivi Totale 100 50 Totale Grafici per var. qualitative Trattati con A B 6 (6%) 3 (6%) 94 (94%) 47 (94%) 100 50 Grafici per var. qualitative Licenza Elementare =360x0.3= =108° Maturità 30% Licenza Media Maturità Laurea Laurea 45% 10% a Licenza Media 15% 0 10 20 30 40 50 60 Licenza Elementare a frequenza assoluta Diagramma a barre orizzontali Diagramma areolare (o a torta) L’angolo al centro è proporzionale alla frequenza relativa: =360° xp(x) 10 Grafici per var. qualitative Licenz a Elementare Diagramma a barre Lice nza Media preferibili per sottolineare differenze nelle frequenze Maturità Laurea 0 10 20 30 40 50 60 frequenza assoluta Maturità Diagramma a torta 30% Laure a 45% 10% a Licenza Media 15% Licenza Ele mentare a preferibili per sottolineare differenze nella composizione Posso cambiare l’ordine delle modalità ma solo quando la variabile è nominale. Variabili quantitative discrete Si colgono meglio le differenze relative tra le barre Successione delle frequenze che corrispondono ai valori assunti da una variabile quantitativa discreta. N° di congiuntivi sbagliati in 200 interviste rilasciate da Trapattoni nel 2002 X Versione che si presta a rappresentare situazioni in cui vi sono molte modalità frequenze semplici frequenze cumulate assolute relative assolute relative 0 98 0.490 98 0.490 1 70 0.350 168 0.840 2 26 0.130 194 0.970 3 5 0.025 199 0.995 4 1 0.005 200 1.000 f(x) p(x) F(x) P(x) 11 Frequenze cumulate frequenze semplici X frequenze cumulate frequenze cumulate assolute relative 0 98 0.490 98 0.490 1 70 0.350 98+70=168 0.840 2 26 0.130 98+70+26=194 0.970 3 5 0.025 98+70+26+5=199 0.995 4 1 0.005 98+70+26+5+1=200 1.000 f(x) p(x) in 194 delle 200 interviste (pari al 97% del totale) il Trap ha sbagliato un numero di congiuntivi pari o inferiore a 2. assolute relative F(x) P(x) 0.970=0.49+0.35+0.13=194/200 frequenza semplice relativa numero di congiuntivi sbagliati 0,2 0,1 0 0 1 2 3 4 0 1 2 3 4 2.5% 0.5% 13% 35% 49% 1 168 0.840 P(x) 0.970 - frequenze cumulate assolute F(x) 2 194 199 0.995 3 200 1.000 4 La prima frequenza cumulata è pari alla prima frequenza assoluta. L’ultima frequenza cumulata è pari alla numerosità campionaria. - frequenze cumulate relative P(x) La prima frequenza cumulata relativa è pari alla prima frequenza relativa. 1 0,8 0,6 0,4 0,2 0 -1 n° di congiuntivi sbagliati Diagramma ad aghi 0.490 Grafici per var. discrete 0,5 0,3 relative 98 L’ultima frequenza cumulata relativa è pari ad uno. Grafici per var. discrete 0,4 assolute 0 F(x) frequenza cumulata relativa X Frequenze cumulate assolute e relative 0 1 2 3 4 n° di congiuntivi sbagliati Diagramma a torta Diagramma a gradini 12 Variabili quantitative continue Possiamo migliorare un po’ la situazione … In un'indagine condotta da un gruppo di neonatologi si sono rilevati i valori della lunghezza supina (cm) in un campione di 60 neonati. Le misurazioni, eseguite con l'infantometro Harpenden, sono riportate di seguito. 51.0 46.5 48.7 54.5 46.0 51.2 55.0 50.2 44.5 56.3 49.4 47.8 50.0 48.2 52.2 51.1 50.2 53.4 49.2 46.5 49.0 49.7 52.9 48.9 47.0 54.7 50.3 47.4 50.5 51.5 52.5 44.4 50.8 51.2 50.8 52.3 47.7 50.5 49.5 50.9 51.5 49.8 46.2 49.5 50.0 48.2 48.5 51.7 52.9 51.6 51.8 53.0 48.9 54.0 52.5 50.8 53.8 49.5 50.5 52.7 Variabili quantitative continue La distribuzione di frequenza di una variabile continua si rappresenta in modo analogo a quella degli altri tipi di variabili, ma…. in questo caso, la frequenza non è riferita ad un singolo valore, ma ad intervalli (o classi) di valori. Il prezzo che si paga per poter “organizzare” questo tipo di dati è quello di perdere le informazioni sui dati individuali. 44.4 48.2 49.5 50.5 51.5 52.9 44.5 48.2 49.5 50.5 51.5 52.9 46.0 48.5 49.7 50.8 51.6 53.0 46.2 48.7 49.8 50.8 51.7 53.4 46.5 48.9 50.0 50.8 51.8 53.8 46.5 48.9 50.0 50.9 52.2 54.0 47.0 49.0 50.2 51.0 52.3 54.5 47.4 49.2 50.2 51.1 52.5 54.7 47.7 49.4 50.3 51.2 52.5 55.0 47.8 49.5 50.5 51.2 52.7 56.3 Variabili quantitative continue Lunghezza supina (cm) in un campione di 60 neonati. Valori ottenuti con l'infantometro Harpenden. Estremi di classe 44.25 45.75 47.25 48.75 50.25 51.75 53.25 54.75 56.25 - 45.75 47.25 48.75 50.25 51.75 53.25 54.75 56.25 57.75 Valore centrale 45.0 46.5 48.0 49.5 51.0 52.5 54.0 55.5 57.0 Freq. semplici p(x)% % 2 3.3 5 8.3 7 11.7 14 23.3 16 26.7 9 15.0 5 8.3 1 1.7 1 1.7 f(x) n Freq.cumulate P(x)% % 2 3.3 7 11.7 14 23.3 28 46.7 44 73.3 53 88.3 58 96.7 59 98.3 60 100.0 F(x) n 5 dei 60 neonati hanno una lunghezza supina compresa fra 45.75 e 47.25 13 Le classi Gli estremi di classe [44.25-45.75) o 44.25 - 45.75 classe chiusa a sinistra e aperta a destra estremo sn incluso (44.25-45.75] o 44.25 - 45.75 classe chiusa a destra e aperto a sinistra estremo dx incluso [44.25-45.75] o 44.25 - 45.75 classe chiusa a sinistra e a destra estremo sn e dx inclusi (44.25-45.75) o 44.25 - 45.75 classe aperta a sinistra e a destra estremo sn e dx esclusi (ad es. età>60 anni) Le classi debbono essere mutuamente esclusive (fate attenzione agli estremi!!). Le classi debbono essere esaustive. Grafici per var. continue Frequenze relative (%) La scelta del numero di classi e degli estremi è arbitraria. Entrambi vengono determinati in base a criteri di convenienza. Il numero di classi può oscillare e dipende dalla numerosità dei dati. Scegliere estremi che siano clinicamente/biologicamente significativi o naturali e, preferibilmente, di uguale ampiezza. NO: 44.137 - 45.541 SI: 44.00 - 45.50 Evitare, se possibile, gli intervalli aperti Grafici per var. continue Modifica della forma dell’ampiezza delle classi. 30 25 p(x) 0,3 degli istogrammi in funzione p(x ) 0,3 3 classi 20 15 0,2 0,2 50 10 5 0,1 0,1 0 43.5 45 46.5 48 49.5 51 52.5 54 55.5 57 58.5 Lunghezza (cm) Istogramma 23 0 0 45 48 51 Ti t ol o a sse 54 57 cm 45 27 48 51 54 57 cm 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 Al diminuire del numero di classi si perdono i dettagli. All’aumentare del numero di classi si guadagna….ma sino ad un certo punto!! 14 30 25 Grafici per var. continue 100 Istogramma Poligono di frequenze 20 15 10 5 0 43.5 45 46.5 48 49.5 51 52.5 54 55.5 57 58.5 frequenza relativa cumulata (%) Frequenze relative (%) Grafici per var. continue Istogramma e Poligono di Frequenze Grafici per var. continue 96,7 90 98,3 50 46,7 40 30 23,3 20 11,7 10 3,3 45,75 47,25 48,75 50,25 51,75 53,25 100 46,7 40 30 23,3 11,7 10 3,3 45,75 47,25 48,75 50,25 51,75 53,25 54,75 Ti t ol o as se 56,25 57,75 cm La spezzata parte da 0 e termina a 1 o 100%. La spezzata si ottiene congiungendo con dei due punti che hanno per coordinate: [estr inf, freq cum prec] 57,75 cm 100 73,3 20 56,25 Ogiva di Galton per le frequenze cumulate 88,3 50 54,75 Grafici per var. continue 60 0 44,25 Si 60 96,7 80 70 100 73,3 70 T i t o l o a ss e segmenti i [estr sup, freq cum] assume che la distribuzione dei dati nelle classi sia uniforme (interpolazione lineare) frequenza relativa cumulata (%) frequenza relativa cumulata (%) 100 98,3 88,3 80 0 44,25 Lunghezza (cm) 96,7 90 90 98,3 100 88,3 80 73,3 70 60 50 46,7 40 30 23,3 20 11,7 10 0 44,25 3,3 45,75 47,25 48,75 50,25 51,75 53,25 54,75 56,25 57,75 Altezza (cm) Se si congiungessero i valori centrali si otterrebbe una rappresentazione scorretta. 15 Grafici per var. continue 96,7 90 98,3 100 100 frequenza relativa cumulata (%) frequenza relativa cumulata (%) 100 Grafici per var. continue 88,3 80 73,3 70 60 50 46,7 40 30 23,3 20 11,7 10 0 44,25 3,3 45,75 47,25 48,75 50,25 51,75 53,25 54,75 56,25 T i t o l o a ss e Qual è il valore di altezza sotto il quale trovo il 40% dei neonati? 88,3 80 73,3 70 60 50 46,7 40 30 23,3 20 11,7 10 3,3 0 44,25 57,75 cm 45,75 47,25 48,75 50,25 51,75 56,25 57,75 cm Qual è il valore di altezza oltre il quale trovo il 40% dei neonati? Grafici per var. continue 96,7 98,3 0,5 1 0,4 0,8 0,3 0,6 100 73,3 60 P(x) p(x) 88,3 80 0,2 0,4 0,1 0,2 0 0 0 1 2 3 0 4 1 2 3 4 cm5 Distribuzione Uniforme 46,7 40 30 23,3 11,7 10 0 44,25 3,3 45,75 47,25 48,75 50,25 51,75 T i t o l o a ss e 53,25 54,75 56,25 57,75 cm Qual è la percentuale di neonati che ha una altezza compresa tra 50.25 e 53.25? 88.3-46.7=41.6% 0,5 1 0,4 0,8 0,3 0,6 P(x) 20 p(x) frequenza relativa cumulata (%) 100 50 54,75 51 cm Grafici per var. continue 70 53,25 T i t o l o a ss e 49.75 cm 90 100 98,3 96,7 90 0,2 0,4 0,1 0,2 0 0 0 1 2 3 4 0 1 2 3 4 cm 5 Distribuzione Simmetrica 16 Grafici per var. continue 0,5 1 0,4 0,8 Grafici per var. continue 0,5 0,3 0,6 P(x ) p(x) 0,6 p(x) 0,8 0,2 0,4 0,1 0,2 0 0 P(x) 0,3 1 0,4 0,2 0,4 0,1 0,2 0 0 1 2 3 4 0 0 1 2 3 4 1 2 cm 5 0,2 0,3 0,6 0,2 2 3 4 cm 5 Lunghezza supina (cm) in un campione di 60 neonati. Valori ottenuti con l'infantometro Harpenden. Ampiezza freq. semplici freq. cumulate di classe n % n % 4.5 14 23.3 14 23.3 1.5 14 23.3 28 46.6 3 25 41.7 53 88.3 4.5 7 11.7 60 100.0 Qual è la classe più rappresentata? 3 4 5 6 7 8 9 cm10 0,2 0 1 2 0,4 0,1 0 1 P(x) p(x) 0,6 ..se le classi fossero di diversa ampiezza? Estremi di classe 44.25 - 48.75 48.75 - 50.25 50.25 - 53.25 53.25 - 57.75 0 1 0 4 10 0,8 0 3 9 0,4 0,2 2 8 0,5 0,1 1 7 1 0,4 0 6 0,8 P(x) p(x) 0,3 5 0 Distribuzioni Asimmetriche 0,4 4 Distribuzione Asimmetrica con discontinuità Titolo ass e 0,5 3 0 0 1 2 3 4 5 6 7 8 9 10 11 0 1 2 3 4 5 6 7 8 9 10 11 cm12 Tit olo asse Distribuzioni Simmetriche traslate ..se le classi fossero di diversa ampiezza? Estremi di Ampiezza freq. semplici classe di classe n % 44.25 - 48.75 4.5 14 23.3 48.75 - 50.25 1.5 14 23.3 50.25 - 53.25 3 25 41.7 53.25 - 57.75 4.5 7 11.7 Densità freq. % 3.1 5.2 9.3 15.5 8.3 13.9 1.6 2.6 Se le classi sono di diversa ampiezza non sono direttamente confrontabili. Ci sono 3.11 bambini per ogni h(x)=densità di frequenza cm della classe rapporto tra la frequenza assoluta (o relativa) e l’ampiezza della classe La percentuale di unità per ogni cm della classe è 5.2. La densità di frequenza è un indicatore del grado di addensamento nella classe ed è costruito nell’ipotesi che le unità si distribuiscano uniformemente. 17 Classi di diversa ampiezza Ampiezza di classe 4.5 1.5 3 4.5 freq. semplici n % 14 23.3 14 23.3 25 41.7 7 11.7 10 Densità freq. % 3.1 5.2 9.3 15.5 8.3 13.9 1.6 2.6 8 Densità di frequenza Estremi di classe (44.25 , 48.75] (48.75 , 50.25] (50.25 , 53.25] (53.25 , 57.75] Classi di diversa ampiezza densità 0 30 25 20 15 10 6 2 0 Altezza (cm) 44.25-48.75 48.75-50.25 50.25-53.25 53.25-57.75 ampiezza Ogni istogramma (rettangolo) rappresenta una classe: base = ampiezza della classe altezza = densità di frequenza L’area di ogni rettangolo è pari alla frequenza assoluta (o relativa) della classe su cui insiste. L’area totale deve essere pari a n o 1, a seconda del tipo di frequenze raffigurate 4 5 0 48.75-50.25 50.25-53.25 Altezza (cm) SI! 8 Densità di frequenza NO! 35 f(x)% 44.25-48.75 10 40 Area=frequenza 4 2 Qual è la rappresentazione grafica? 45 6 53.25-57.75 Altezza (cm) in effetti…. …anche nel caso di classi di uguale ampiezza avremmo dovuto usare le densità per rappresentare graficamente i dati, tuttavia dividendo per una quantità costante tutte le classi la forma della distribuzione non cambia. Analisi di due variabili Analisi univariata: variabile per volta Stato civile di 3888 donne italiane in gravidanza. STATUS Single Sposate Divorziate Totale f(x) 718 3029 141 3888 valutazione di una Consumo di caffeina (cl/die) in 3888 donne italiane in gravidanza. Caffeina 0 1-150 151-300 >300 Totale f(x) 906 1910 742 330 3888 Tabella ad una entrata (rappresentazione della distribuzione di frequenza di una variabile) 18 Analisi di due variabili Analisi di due variabili Distribuzione congiunta Analisi bivariata: esplora la relazione fra due variabili Consumo di caffeina (cl/die) e stato civile di 3888 donne in italiane in gravidanza. STATUS Single Sposate Divorziate Totale CONSUMO di CAFFEINA (cl/die) 0 1-150 151-300 >300 Totale 218 327 106 67 718 652 1537 598 242 3029 36 46 38 21 141 906 1910 742 330 3888 STATUS Single Sposate Divorziate Totale CONSUMO di CAFFEINA () 1-150 151-300 >300 Totale 327 106 67 718 1537 598 242 3029 46 38 21 141 1910 742 330 3888 0 218 652 36 906 Distribuzione marginale Tabella a doppia entrata (rappresentazione congiunta della distribuzione di frequenza di due variabili) Analisi di due variabili Altri tipi di grafici Istogramma con rapporti di composizione Diagramma a barre Grafico a mosaico 2500 Casi incidenti di neoplasie maligne di alcune sedi in tre Registri Tumori italiani, periodo 1988-’92 Sposate Divorziate Single Single Frequenza Assoluta Divorziate Sposate mammella colon 2000 corpo utero 1500 1000 500 0 PR MC RG 19 Altri tipi di grafici Altri tipi di grafici Diagramma ad aree Grafici a radar Casi incidenti di neoplasie maligne di alcune sedi, rilevate nel corso di 4 anni di registrazione in un Registro Tumori Morti per febbre tifoide e paratifi per mese Decessi distinti per ora 100 polmone prostata colon Frequenza % 80 60 40 20 0 1991 1992 1993 1994 Utile per rappresentare variabili ordinali cicliche 20