INDICE Natura dei dati e della statistica SEZIONE PRIMA 1 Le basi Statistica: ma a che serve? Statistica descrittiva e statistica inferenziale Variabili Tipi di dati Dati discreti e dati continui Dati nominali, ordinali, di intervallo e di rapporto Proporzioni e tassi Esercizi 2 Esaminare i dati 2 2 2 3 3 3 4 5 6 7 Un’occhiata alla rappresentazione grafica dei dati Perché perdere tempo a esaminare i dati? 7 Istogrammi, diagrammi a barre e variazioni sul tema 7 Primo movimento e tema principale: grafici a barre 7 Prima variazione sul tema: il dot-plot 8 Rappresentare graficamente dati ordinali 8 Rappresentare graficamente dati di intervallo e dati di rapporto 9 Rami, foglie e altra vegetazione (gli stem-leaf plot) 10 Poligoni di frequenza 11 Poligoni di frequenza cumulativa 13 Come non fare un buon grafico 13 Abbiamo veramente bisogno di un grafico? 14 Il mistero dello zero scomparso 14 3-D o non 3-D, questo è il dilemma… 14 La torta in cielo, non nei grafici 15 Il peggio dei due mondi 15 Grafici sovrapposti (o “ammucchiati”…) 15 Conclusioni16 Come fare tabelle migliori 16 Esercizi 18 Come faccio a farlo fare al computer? 18 3 Descrivere i dati con i numeri 20 Indici di tendenza centrale e di dispersione Una piccola digressione in merito alle notazioni Indici di tendenza centrale Media Mediana Moda Indici di dispersione Indice di dispersione 000_XV-XX_Sommario.indd 15 20 21 21 21 22 22 23 Intervallo minimo-massimo (o “range”) Intervallo interquartile Intervalli alternativi Scarto medio Varianza e deviazione standard Coefficiente di variazione Asimmetria e curtosi E allora, chi è normale? Box plot Cosa dobbiamo usare e quando (e perché) Stimatori robusti Misure alternative per la media Media geometrica Media armonica Esercizi Come faccio a farlo fare al computer? 23 23 24 24 25 26 26 27 27 28 29 30 30 31 32 32 4 La distribuzione normale 34 34 Perché ci interessa la distribuzione normale Valori della distribuzione normale standard, detti anche z-score Curva normale Esercizi Come faccio a farlo fare al computer? 35 37 39 39 5 La probabilità Avvertenze per l’uso Cosa intendiamo per “probabilità”? Approccio empirico Approccio teorico Eventi mutuamente esclusivi ed eventi condizionati Eventi mutuamente esclusivi e proprietà additiva della probabilità Eventi condizionati e proprietà moltiplicativa della probabilità Eventi indipendenti Combinazioni e permutazioni La regola di “Almeno una volta” Distribuzione binomiale Che cos’è la distribuzione binomiale? Impariamo un po’ di più sulla distribuzione binomiale Distribuzione binomiale e distribuzione normale Riassunto Esercizi 40 40 40 40 41 41 41 42 43 43 44 44 45 46 46 47 48 24/08/15 17:31 xvi ISBN 978-88-08-18251-7 indice 6 Elementi di statistica inferenziale 49 Basi 49 Campioni e popolazione 50 Quali differenze? 50 Significato del magico valore di p50 Un altro po’ di nomenclatura 51 Elementi di statistica inferenziale 51 Errore standard e deviazione standard della media 52 Valore critico, zone di rifiuto, errore alfa e di Tipo I 53 Ipotesi alternativa ed errore beta 55 Divagazioni sul tema del “provare” l’ipotesi nulla 57 Da dove viene questo 5%? 58 Riti e leggende del p < 0.05 58 Probabilità esatta: l’approccio di Fisher 59 Un altro po’ di storia e di filosofia 60 Quando è il caso di dare un’occhiata ai dati? Analisi esplorativa, regole di arresto e galateo statistico 62 Test multipli ed errori di Tipo I Inferenza statistica e rapporto segnale-rumore Due code o una coda? Intervalli di confidenza Significatività statistica e significatività clinica Entità dell’effetto (“Effect Size”) Calcolo delle dimensioni del campione Come presentare i risultati Rappresentare graficamente intervalli di confidenza Forest plot Statistica bayesiana e statistica frequentista Una traccia storica Utilizzi attuali del teorema di Bayes Riassunto Esercizi ALLARMI C.R.A.P. 64 65 65 67 68 69 69 71 71 72 72 72 73 74 74 76 Analisi della varianza SEZIONE SECONDA 7 Confrontare due gruppi 80 Il t-test Una visione di insieme Se abbiamo campioni della stessa numerosità Gradi di libertà Formule per la deviazione standard Due gruppi di numerosità diversa: estensione del t-test Stima combinata e non combinata della varianza Occhiometria di precisione Effect Size (entità dell’effetto) Dimensioni del campione e potenza Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 8 Più di due gruppi 80 81 82 82 83 83 84 84 85 86 86 87 87 000_XV-XX_Sommario.indd 16 94 94 95 95 95 96 96 98 98 98 99 99 100 100 88 9 ANOVA fattoriale ANOVA a una dimensione L’analisi un passo per volta Somme dei Quadrati (Sum of Squares, SS) Gradi di libertà Medie dei Quadrati (Mean Squares, MS) Valori attesi delle medie dei quadrati e distribuzione f Assunzioni dell’anova Confronti multipli Tasso di errore legato all’esperimento e tasso di errore legato alla famiglia di ipotesi Confronti post-hoc Correzione di Bonferroni Modifiche della correzione di Bonferroni Intervallo studentizzato Minima differenza significativa (Least Significant Difference – LSD) di Fisher Differenza onestamente significativa (Honestly Significant Difference – HSD) di Tukey Test di Neuman-Keuls Differenza completamente significativa di Tukey t di Dunnett Metodo di Scheffé Confronti pianificati ortogonali Trend lineari e quadratici Forza della relazione Dimensioni del campione e potenza Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 89 89 90 90 90 91 91 92 92 92 93 93 Somma dei Quadrati e Media dei Quadrati negli studi fattoriali Rappresentare graficamente i dati (ciak 1) Rappresentare graficamente i dati (ciak 2) Fattori casuali e fattori fissi Disegno incrociato e annidato Disegni equilibrati e squilibrati Forza della relazione (versione riveduta e corretta) Calcolo delle dimensioni del campione per le anova fattoriali Come presentare i risultati Esercizi Come faccio a farlo fare al computer? 101 104 105 107 107 108 109 110 111 111 111 112 24/08/15 17:31 ISBN 978-88-08-18251-7 10 Due osservazioni ripetute 113 Il t-test per dati appaiati e le sue alternative Altri utilizzi del t-test per dati appaiati Effect Size Occhiometria di precisione Calcolo delle dimensioni del campione Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 11 ANOVA per misure ripetute Anova per misure ripetute (un solo fattore) Generalizzazione volta a includere altri fattori nello studio Fattori “tra-soggetti” (between) e “intra-soggetti” (within) Altri impieghi dell’ANOVA per misure ripetute Anova per misure ripetute e affidabilità delle misure Assunti di base e limitazioni delle strutture più complesse di anova Calcolo delle dimensioni del campione Come presentare i risultati Riassunto SEZIONE TERZA 116 117 118 118 118 118 119 119 120 121 122 124 126 126 127 127 128 128 Esercizi Come faccio a farlo fare al computer? 12 ANOVA multivariata (MANOVA) 128 129 Che cosa intendiamo per “multivariato” t per due (o più) 130 132 132 Studio della varianza 133 Dalla anova alla manova 133 E finalmente lo si fa 134 Più di due gruppi 135 Facciamolo ancora: manova per misure ripetute 136 Robustezza 138 Dimensioni del campione e potenza 138 Quando le cose vanno storte: gestire le osservazioni anomale 138 Effect Size (entità dell’effetto) 138 Procedere con cautela 139 Come presentare i risultati 139 Tiriamo le somme Esercizi Come faccio a farlo fare al computer? 139 139 140 ALLARMI C.R.A.P. 141 Regressione e correlazione 13 Regressione semplice e correlazione Basi dell’analisi di regressione B, beta e test di significatività Retta di regressione: errori e intervalli di confidenza Coefficiente di determinazione e coefficiente di correlazione Interpretazione del coefficiente di correlazione Intervalli di confidenza, test di significatività ed entità dell’effetto (Effect Size) Rendere r normale Intervalli di confidenza Entità dell’effetto (Effect Size) Calcolo delle dimensioni del campione Test di ipotesi Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 14 Regressione multipla Calcoli nella regressione multipla Tipi di variabili Relazioni tra le singole variabili F-test parziali e correlazioni 000_XV-XX_Sommario.indd 17 xvii indice 144 144 147 148 148 149 151 151 151 152 152 152 153 153 154 154 155 155 157 157 159 F-test parziali 159 Correlazioni parziali e semiparziali 159 b e b 160 Importanza relativa delle variabili 161 Cerchiamo un centro… 162 Regressione gerarchica e stepwise 163 Regressione stepwise gerarchica 163 Regressione stepwise ordinaria 164 Screening preliminare delle variabili 165 2 2 R , R corretto (“adjusted”) e “shrinkage” 165 Interazioni 166 Costruire variabili stupide (o “dummy coding”) 167 Quel che resta: esaminiamo i residui 168 Quando le cose vanno nel verso sbagliato 169 Discrepanza 169 Leverage (“effetto leva”) 169 Influenza169 Multicollinearità170 Regressione multipla in pratica 171 Calcolo delle dimensioni del campione 171 Come presentare i risultati 172 Riassunto 172 Esercizi 172 Come faccio a farlo fare al computer? 173 24/08/15 17:31 xviii ISBN 978-88-08-18251-7 indice 15 Regressione logistica e di Poisson Procedure di maximum likelihood estimation Maximum likelihood estimation non condizionata e condizionata Calcoli sul nostro campione Interpretare rischi relativi e odds ratio “Goodness of fit” e test complessivi di significatività Falsi R2 Regressione logistica stepwise e test parziali Situazioni più articolate Regressione di Poisson Un esempio per capire Statistiche “devianti” Se i dati sono strambi Calcolo delle dimensioni del campione Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 174 176 177 177 178 179 180 180 181 181 183 183 184 185 185 185 185 186 16 Problemi avanzati di regressione e Anova Analisi della covarianza Utilizzare ANCOVA per controllare le differenze al tempo 0 Come gestire disegni più complessi Regressione non lineare Modello generalizzato lineare Assunti di base dell’ANCOVA Calcolo delle dimensioni del campione Riassunto Esercizi Come faccio a farlo fare al computer? 17 Misurare i cambiamenti nel tempo Problemi nella misura del cambiamento Affidabilità delle differenze Regressione verso la media Regressione alla media e ANCOVA Quando abbiamo più di una osservazione di follow-up: ancova con contrasti Osservazioni multiple, tempo-dipendenti Tiriamo le somme Esercizi Come faccio a farlo fare al computer? 188 190 192 193 194 194 195 196 197 197 197 199 200 200 201 202 204 205 207 207 207 18 Analisi di dati longitudinali: modelli lineari gerarchici 208 209 209 209 210 210 Modelli lineari gerarchici Cosa vuol dire? Cosa ci serve? L’analisi passo dopo passo Primo passo: esaminiamo i dati Secondo passo: costruiamo rette di regressione individuali211 000_XV-XX_Sommario.indd 18 212 Terzo passo: costruiamo il modello a livello 1 212 Quarto passo: costruiamo il modello a livello 2 E infine, un passo di lato: mettiamo le equazioni insieme 213 Alcuni vantaggi di HLM 214 Come gestire soggetti “raggruppati” (“clusters”) 214 Calcolo delle dimensioni del campione 215 Come presentare i risultati 215 Riassunto 216 Come faccio a farlo fare al computer? 216 19 Componenti principali e analisi fattoriale 217 Giocherellando con i fattori Cosa sono i “fattori”? Come si fa Matrice di correlazione Estrazione dei fattori Analisi dei componenti principali e fattorializzazione dell’asse principale Mantenere o scartare i fattori Matrice dei pesi fattoriali Rotazione dei fattori – Ma perché poi ruotare? Interpretare i fattori Diamo nomi ai nomi Utilizzo dei fattori Tipi di dati da usare Analizzare le domande – Alcune altre precauzioni Calcolo delle dimensioni del campione Come presentare i risultati Esercizi Come faccio a farlo fare al computer? 217 219 219 220 221 223 225 225 229 230 230 231 232 232 233 233 234 20 Path analysis e modelli a equazioni 235 strutturali Path analysis (analisi dei “sentieri”) 235 Interpretare i numeri 236 Trovare la propria strada attraverso i sentieri 237 Path analysis e causalità 237 Variabili endogene ed esogene 238 Tipologie di modelli di path analysis 238 Scusate il disturbo 239 Modelli ricorsivi e non-ricorsivi 240 K.I.S.S. 240 Meglio di così non si può: indicatori della bontà dell’adattamento (goodness-of-fit) 241 Che cosa assumiamo 242 242 Qualche parola sulla dimensione del campione Modelli a equazioni strutturali (Sem) 243 SEM e analisi fattoriale 243 Specificazione del modello 245 Identificazione246 Stima247 Valutare l’adattamento del modello 247 Ri-specificazione249 31/08/15 17:41 ISBN 978-88-08-18251-7 Analisi fattoriale confermativa Confrontare due analisi fattoriali Un modello SEM completo Come presentare i risultati SEZIONE QUARTA 249 251 252 253 Riassunto Esercizi ALLARMI C.R.A.P. 254 254 255 Statistica non parametrica 21 Test di significatività per frequenze di dati categorici Test del chi-quadrato Scomponiamo il chi-quadrato Effect Size Numeri piccoli: correzione di Yates e test esatto di Fisher Correzione per la continuità di Yates Test esatto di Fisher Osservazioni appaiate e corrispondenti – Il chi-quadrato di McNemar Due fattori: il chi-quadrato di Mantel-Haenszel Molti fattori: analisi log-lineare Differenze tra proporzioni indipendenti Test del segno Calcolo delle dimensioni del campione Jackknife, bootstrapping e ricampionamento Come presentare i risultati Riassunto Esercizi Come faccio a farlo fare al computer? 260 261 263 264 264 264 264 267 268 270 272 273 274 275 276 276 276 277 22 Misure di associazione per dati categorici Misure di associazione per le tabelle 2 × 2 e altre di ordine superiore Coefficiente phi, coefficiente di contingenza, Q di Yule e V di Cramer Kappa di Cohen Concordanza parziale e kappa pesato Relazione tra kappa e correlazione intraclasse Calcolo delle dimensioni del campione Riassunto Esercizi Come faccio a farlo fare al computer? trasformati in ranghi Due gruppi indipendenti Più di due gruppi Confronti multipli Effect Size Mediane ordinate: il test di Jonckheere Due fattori di raggruppamento Misure ripetute: il test dei ranghi con segno di Wilcoxon e l’anova a due dimensioni di Friedman Calcolo delle dimensioni del campione Riassunto Esercizi Come faccio a farlo fare al computer? 24 Misure di associazione per i ranghi Rho di Spearman Significatività del rho di Spearman Correlazione punto-biseriale Tau di Kendall Calcolo di tau Test di significatività per tau Interpretare rho piuttosto che tau W di Kendall Calcolo di W Test di significatività per W Gamma Quello che non vi diremo Riassunto Esercizi Come faccio a farlo fare al computer? 290 291 292 292 293 294 294 295 295 296 296 297 297 297 297 298 298 299 300 300 300 279 279 280 280 282 284 284 285 285 285 23 Test di significatività per dati 000_XV-XX_Sommario.indd 19 xix indice 286 287 288 289 289 289 290 25 Analisi della sopravvivenza Quando utilizzare l’analisi della sopravvivenza Come sintetizzare i dati Sopravvivenza media Tasso di sopravvivenza (survival rate) Uso degli anni-persona Tecniche di analisi di sopravvivenza Approccio attuariale Metodo di Kaplan-Meier per l’analisi della sopravvivenza Funzione dell’hazard Misure di sintesi Errore Standard Assunti di base dell’analisi della sopravvivenza Confrontare due (o più) gruppi Test z Test di Mantel-Cox (log-rank test) e altri test Controllo per le covariate Verifichiamo l’assunzione di proporzionalità Intervalli di confidenza 302 302 303 303 304 304 304 305 307 308 308 309 309 310 311 311 313 315 316 24/08/15 17:31 xx ISBN 978-88-08-18251-7 indice Dimensioni del campione e potenza Come presentare i risultati Esercizi Come faccio a farlo fare al computer? 316 317 317 318 26 Misure di impatto 319 Contare i vivi: incidenza e prevalenza 319 Incidenza319 Prevalenza320 Quando usarle 320 Indici di rischio: rischio relativo, odds ratio e altri 320 Rischio relativo Riduzione assoluta e relativa del rischio Odds ratio OR versus RR Problemi con i rapporti Numero necessario da trattare (NNT) Intervalli di confidenza per RR, OR e NNT Contare i morti: indici di esiti negativi Letalità e tassi di mortalità Riassunto ALLARMI C.R.A.P. 321 321 322 323 323 323 324 325 325 326 327 Epilogo SEZIONE QUINTA 27 Studi di equivalenza e non inferiorità 332 Introduzione alla Filosofia I 332 Razionale statistico 333 Valutare l’assenza di differenza 333 Intervallo di equivalenza 333 Studi di equivalenza 334 Non-inferiorità335 Errori di Tipo I e di Tipo II 336 Dimensione campionaria ed effetti di I 336 Altre opportunità per i bricconi 336 28 Problemi, stranezze e altri capricci della scienza 338 Osservazioni anomale, dati mancanti e trasformazioni Scovare i dati anomali Tipi di dati mancanti (“missing data”) Riempiamo i vuoti Facciamo finta che non ci siano proprio Nel dubbio, tirate a indovinare Trasformazioni dei dati Trasformare o non trasformare Se avete proprio deciso di trasformare Dopo la trasformazione Come faccio a farlo fare al computer? 000_XV-XX_Sommario.indd 20 29 Mettiamo tutto insieme Statistica descrittiva Statistica univariata Statistica parametrica Statistica non parametrica Statistica multivariata Dimensioni campionarie su due piedi Differenze tra proporzioni Differenze tra molte medie Come scrivere i risultati di un’analisi statistica Nel frattempo, a casa 30 Primi passi con Spss Mettetevi alla prova 338 340 341 341 342 344 344 347 349 349 351 351 352 352 354 355 355 355 355 356 357 358 368 Una raccolta di domande e risposte Risposte agli esercizi dei Capitoli 373 Bibliografia e Letture consigliate 383 Un Dizionario senza Vergogna dei Termini Statistici 392 Appendice 395 Indice analitico 419 24/08/15 17:31