Principi di biostatistica e introduzione ai programmi statistici Giovanni Capelli, Bruno Federico Cattedra di Igiene Dipartimento di Scienze Motorie e della Salute Università di Cassino Statistica Descrittiva: Analisi esplorativa univariata 1 Tabelle e Grafici TABELLE Organizzazione spazio righe e colonne GRAFICI discreto Organizzazione spazio piano “cartesiano” (piani angolari) continui Elementi testo, numeri Elementi grafici 2 dimensioni punto, linea, area testo, numeri Quantità posizione area Vantaggi immediatezza Quantità numeri Vantaggi comparazioni simultanee Graphical excellence Una buona rappresentazione dei dati dovrà: mostrare i dati indurre chi guarda a riflettere sulla sostanza piuttosto che sui metodi, il disegno grafico, la tecnologia di produzione grafica evitare di distorcere ciò che i dati hanno da dire presentare molti numeri in poco spazio rendere coerenti grandi set di dati incoraggiare l’occhio a comparare diversi aspetti dei dati presentare i dati a diversi livelli di dettaglio da una visione d’insieme fino alla struttura fine servire un obiettivo ragionevole: descrivere, esplorare, tabulare, decorare essere fortemente integrata con le descrizioni verbali e statistiche dei dati Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983 2 Graphical elegance is often found in simplicity of design and complexity of data Rappresentazioni di dati statistici attraenti: sono realizzate con schema e formato appropriati utilizzano parole, numeri e disegni insieme sono il risultato di un bilanciamento, una valutazione delle proporzioni, una riflessione sulla scala dei fenomeni mostrano un dettaglio di complessità accessibile hanno spesso qualità narrativa hanno una storia da raccontare sui dati sono realizzati in maniera professionale con attenzione e cura ai dettagli tecnici evitano la decorazione fine a sè stessa inclusa la “spazzatura grafica” di retinati, colori sgargianti, ecc. Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983 Elting LS, Martin CG, Cantor SB, et al., Influence of data display formats on physician investigator’s decisions to stop clinical trials: prospective trial with repeated measures - BMJ 1999, 318:1527-1531 3 Le Tabelle di sintesi dei dati Tabelle a singola entrata Generalità presentano i dati in forma analitica o sintetica, organizzati secondo righe e colonne è presentata la distribuzione di frequenza di UN SOLO carattere statistico A seconda dei tipi di dati Dati nominali ed ordinali Rappresentazione possibili Dato numerici discreti e continui Dati di tutte le modalità aggregati per classi Frequenze Assolute Conte di soggetti classificati nella stessa categoria Numero di Clinical Seizures osservate Relative Proporzioni (Percentuali) Soggetti classificati in una categoria/Totale soggetti studiati conta Clinical Seizures / numero Soggetti in studio Tassi Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti studiati nel tempo t conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2) Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t conta EEG seizures / (48h*conta poligrafie) Rapporti Soggetti classificati in una categoria non binomiale/soggetti classificati in un altra categoria non binomiale conta PDI>116 / conta PDI<84 Odds Soggetti classificati in una categoria binomiale/soggetti classificati nell altra categoria conta Clinical Seizures SI / conta Clinical Seizures NO 4 Frequenze Assolute Conte di soggetti classificati nella stessa categoria Relative Numero di Clinical Seizures osservate = 11 Proporzioni (Percentuali) Soggetti classificati in una categoria/Totale soggetti studiati conta Clinical Seizures / numero Soggetti studiati = 11 / 170 = 0.0647 = 6.47% Tassi Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti studiati nel tempo t conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2) = 97/((171+142)/2) = 97/156.5 = 0.619 = 61.9% Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t conta EEG seizures / (48h*conta poligrafie) = 27/(48*136) = 27/6528 = 0.00413 eventi/ ora-persona Rapporti Soggetti classificati in una categoria non binomiale/soggetti classificati in un altra categoria non binomiale conta PDI>116 / conta PDI<84 = 13/30 = 0.433 Odds Soggetti classificati in una categoria binomiale/soggetti classificati nell altra categoria conta Clinical Seizures SI / conta Clinical Seizures NO = 11/(170-11) = 11/159 = 0.0692 Tabelle: Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana STATA: tabulate sesso Indice rappresentato Nazionalità Modalità Freq. assoluta Freq. relativa M 7 7/13 F 6 6/13 Carattere Sesso Singola entrata, Variabile Dicotomica Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità 5 Raggruppare in classi Come sono costituite le classi? Valori predefiniti (logica, letteratura) Liberi es. classi età (0-14, 15-30, 30-65, >65) classi tempo (<7gg, 7-14, 15-30, 30-60, >60) A larghezza costante es classi quinquennali di età Suddivisioni statistiche (quantili) quartili, quintili, decili (a numerosità costante) si usa quando non ci sono valori di cut-off noti aumenta la potenza statistica Classi dicotomiche o classi ordinali? Le classi dicotomiche (0-1) ottenute con 1 solo cut-off hanno alcune proprietà notevoli la media è la proporzione si possono utilizzare nei modelli statistici Tabelle: Partendo da questi dati grezzi: Id Sesso Età Classe di esposizione 0001 M 35 lieve fumatore italiana 0002 F 40 non fumatore francese 0003 M 60 forte fumatore italiana 0004 M 29 lieve fumatore italiana 0005 M 27 medio fumatore belga 0006 F 26 non fumatore francese 0007 F 35 non fumatore tedesca 0008 F 32 forte fumatore belga 0009 M 45 non fumatore tedesca 0010 M 19 lieve fumatore tedesca 0011 F 24 non fumatore francese 0012 F 28 forte fumatore italiana 0013 M 36 non fumatore italiana STATA: In questo caso, ha senso la frequenza cumulativa ! Indice rappresentato Nazionalità Classi di Modalità Carattere Età Singola entrata, Variabile Numerica Freq. assoluta Freq. Freq. relativa cumulativa 10-29 6 6/13 6/13 30-39 4 4/13 10/13 >39 3 3/13 13/13 generate eta2=eta recode eta2 10/29=1 30/39=2 40/max=3 tab eta2 Tot. 13 Conta dei soggetti che nel campione presentano quella specifica modalità 6 1 sola variabile, dato dicotomico . tabulate eegseiz graph pie, over(eegseiz) angle(90) pie( 1, color(ltblue))pie( 2, color(blue)) title(EEG seizure activity) subtitle(within 48 hours since surgery) legend(rows(2)) legend (position(3) region(lcolor(none))) graphregion(fcolor(white)) EEG seizure | activity | within 48 | postoperati | ve hours | Freq. Percent Cum. ------------+----------------------------------0 | 109 80.15 80.15 1 | 27 19.85 100.00 ------------+----------------------------------Total | 136 100.00 DIAGRAMMI A TORTA STATA 7: graph <5 5_17 18_64 >65, pie STATA 8: graph pie <5 5_17 18_64 >65 Può essere rappresentato un solo carattere Le modalità sono rappresentate da spicchi della torta L area della torta è proporzionale alla frequenza relativa della modalità 7 Torte 2D e torte 3D DIAGRAMMI A BARRE n Frequenza delle osservazioni Le modalità qualitative sono riportate in ascissa asse X qualitativo Per ogni gruppo si costruisce un rettangolo: il nome della modalità è centrato sulla base del rettangolo, di larghezza costante e arbitraria (0->∞) l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo 0 ma siccome le basi sono A B C D uguali per definizione, Modalità qualitatitive sarà l altezza a fare la STATA: graph bar (count) idvar, over(variable) differenza La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi STATA: graph hbar I rettangoli non devono essere (count) idvar, adiacenti (tranne nel caso di over(variable) variabili ordinali…) 8 ISTOGRAMMI 16 13 7 5.5 4 1 0 Modalità numeriche Frequenza delle osservazioni n 0 n Frequenza delle osservazioni 0 0 1 4 5.5 7 13 I dati vengono divisi in classi 16 Modalità numeriche in questo caso 6 classi con un intervallo non costante Per ogni gruppo si costruisce un rettangolo: la posizione della base del rettangolo corrisponde ai margini dell intervallo (è quantitativa) l area del rettangolo è proporzionale alla frequenza rilevata per il gruppo La scala utilizzata per gli assi deve consentire la visualizzazione dei rettangoli interi STATA:graph twoway (histogram eta) 1 variabile continua: istogramma .3 Fraction .2 .1 0 45 55 65 75 85 95 105 115 125 Psychomotor Development Index at 135 145 155 9 0 5 10 Percent 15 20 25 1 variabile continua: istogramma con Stata 8 0 10 20 30 40 50 60 70 80 Duration of circulatory arrest (minutes) 90 100 110 histogram minutes, width(10) start(0) percent bfcolor(yellow) blcolor(gold) normal normopts( clcolor(red) clpat(dot) ) kdensity kdenopts( clcolor(blue) ) xlabel( 0 (10) 110) plotregion(margin(zero)) Distribuzioni Asimmetrica a destra dhca==0 .6 Simmetrica dhca==1 .4 Fraction .2 0 0 20 40 60 80 100 120 0 20 40 60 80 100 120 Durata dell intervento chirurgico (minuti) Duration of circulatory arrest ( Histograms by Deep Hypothermic Circulatory Arrest (1=yes; 2=low- 10 Fare un istogramma in 6 passi 1) Ordinare i dati 2) Calcolare l ampiezza del l intervallo dei valori (minmax) 3) Scegliere un ampiezza di classi di valori tale da sintetizzare i dati in un numero di classi compreso tra 10 e 20 4) Realizzare una tabella di sintesi che presenti -> le classi, i valori al centro di ciascuna classe, la frequenza assoluta di osservazioni rilevate per classe e la frequenza cumulativa 5) Trasformare la tabella in un istogramma 6) Accettare la perdita di dettaglio informativo dovuta al raggruppamento Lo Stem & leaf plot Tukey (1977) ha proposto una tecnica che permette di saltare le fasi 1 e 6 e combinare le fasi 4 e 5 in una sola Il diagramma che ne deriva, chiamato Stem (ramo) & leaf (foglia) plot, si costruisce in soli 3 passi: 1) Calcola ampiezza intervallo valori (max-min) 2) Scegliere un ampiezza di classi di valori tale da sintetizzare i dati in un numero di classi compreso tra 10 e 20 3) Realizzare una tabella che ha l aspetto di un istogramma, e mantiene il dettaglio dei dati originali 11 Stem & leaf plot Impossibile visualizzare l'immagine. La memoria del computer potrebbe essere insufficiente per aprire l'immagine oppure l'immagine potrebbe essere danneggiata. Riavviare il computer e aprire di nuovo il file. Se viene visualizzata di nuovo la x rossa, potrebbe essere necessario eliminare l'immagine e inserirla di nuovo. Stem and leaf plot stem pdi Stem-and-leaf plot for pdi (Psychomotor Development Index at age 1) 5* 5. 6* 6. 7* 7. 8* 8. 9* 9. 10* 10. 11* 11. 12* 12. 13* | | | | | | | | | | | | | | | | | 2 00333 67 0001 55678 0000000000022 6666666666777777 02222222222222222223333 8888888888888888888888899999 4444 555555555559 000111111114 555577788 022224 04 12 Poligoni di frequenza Invece di una barra a coprire ogni intervallo mettiamo un punto in corrispondenza del centro di ogni classe e connettiamo i punti con linee rette ma attenzione: negli istogrammi si esprime una distribuzione uniforme all interno della classe definita nei poligoni di frequenza, invece, assumiamo e rappresentiamo tutte le osservazioni nel punto centrale della classe • tranne per i poligoni di frequenza cumulativa, che presentano la somma di tutte le osservazioni fino alla fine di ciascuna delle classi presentate Poligoni di Frequenza 50 (count) pdi 40 30 20 10 0 50 60 70 80 90 PDI a 1 anno 100 110 120 130 13 Poligoni di frequenza Deep Hypothermic Circulatory Ar Low Flow Bypass 30 20 10 0 50 60 70 80 90 PDI a 1 anno 100 110 120 130 Poligoni di frequenza cumulativa Deep Hypothermic Circulatory Ar Low Flow Bypass 70 60 50 40 30 20 10 0 50 60 70 80 90 100 PDI a 1 anno 110 120 130 140 14