Natura dei dati e della statistica

annuncio pubblicitario
INDICE
Natura dei dati e della statistica
SEZIONE PRIMA 1 Le basi
Statistica: ma a che serve?
Statistica descrittiva e statistica inferenziale
Variabili
Tipi di dati
Dati discreti e dati continui
Dati nominali, ordinali, di intervallo e di rapporto
Proporzioni e tassi
Esercizi
2 Esaminare i dati
2
2
2
3
3
3
4
5
6
7
Un’occhiata alla rappresentazione grafica dei dati
Perché perdere tempo a esaminare i dati?
7
Istogrammi, diagrammi a barre e variazioni sul tema
7
Primo movimento e tema principale: grafici a barre
7
Prima variazione sul tema: il dot-plot
8
Rappresentare graficamente dati ordinali
8
Rappresentare graficamente dati di intervallo e dati
di rapporto
9
Rami, foglie e altra vegetazione (gli stem-leaf plot)
10
Poligoni di frequenza
11
Poligoni di frequenza cumulativa
13
Come non fare un buon grafico
13
Abbiamo veramente bisogno di un grafico?
14
Il mistero dello zero scomparso
14
3-D o non 3-D, questo è il dilemma…
14
La torta in cielo, non nei grafici
15
Il peggio dei due mondi
15
Grafici sovrapposti (o “ammucchiati”…)
15
Conclusioni16
Come fare tabelle migliori
16
Esercizi
18
Come faccio a farlo fare al computer?
18
3 Descrivere i dati con i numeri
20
Indici di tendenza centrale e di dispersione
Una piccola digressione in merito alle notazioni
Indici di tendenza centrale
Media
Mediana
Moda
Indici di dispersione
Indice di dispersione
000_XV-XX_Sommario.indd 15
20
21
21
21
22
22
23
Intervallo minimo-massimo (o “range”)
Intervallo interquartile Intervalli alternativi
Scarto medio
Varianza e deviazione standard Coefficiente di variazione
Asimmetria e curtosi
E allora, chi è normale?
Box plot
Cosa dobbiamo usare e quando (e perché)
Stimatori robusti
Misure alternative per la media
Media geometrica
Media armonica
Esercizi
Come faccio a farlo fare al computer?
23
23
24
24
25
26
26
27
27
28
29
30
30
31
32
32
4 La distribuzione normale
34
34
Perché ci interessa la distribuzione normale
Valori della distribuzione normale standard,
detti anche z-score
Curva normale Esercizi
Come faccio a farlo fare al computer?
35
37
39
39
5 La probabilità
Avvertenze per l’uso
Cosa intendiamo per “probabilità”?
Approccio empirico
Approccio teorico
Eventi mutuamente esclusivi ed eventi condizionati
Eventi mutuamente esclusivi e proprietà additiva
della probabilità
Eventi condizionati e proprietà moltiplicativa
della probabilità
Eventi indipendenti
Combinazioni e permutazioni
La regola di “Almeno una volta”
Distribuzione binomiale
Che cos’è la distribuzione binomiale?
Impariamo un po’ di più sulla distribuzione binomiale
Distribuzione binomiale e distribuzione normale
Riassunto
Esercizi
40
40
40
40
41
41
41
42
43
43
44
44
45
46
46
47
48
24/08/15 17:31
xvi
ISBN 978-88-08-18251-7
indice
6 Elementi di statistica inferenziale
49
Basi
49
Campioni e popolazione
50
Quali differenze?
50
Significato del magico valore di p50
Un altro po’ di nomenclatura
51
Elementi di statistica inferenziale
51
Errore standard e deviazione standard della media
52
Valore critico, zone di rifiuto, errore alfa e di Tipo I
53
Ipotesi alternativa ed errore beta
55
Divagazioni sul tema del “provare” l’ipotesi nulla
57
Da dove viene questo 5%?
58
Riti e leggende del p < 0.05
58
Probabilità esatta: l’approccio di Fisher
59
Un altro po’ di storia e di filosofia
60
Quando è il caso di dare un’occhiata ai dati? Analisi
esplorativa, regole di arresto e galateo statistico
62
Test multipli ed errori di Tipo I
Inferenza statistica e rapporto segnale-rumore
Due code o una coda?
Intervalli di confidenza
Significatività statistica e significatività clinica
Entità dell’effetto (“Effect Size”)
Calcolo delle dimensioni del campione Come presentare i risultati
Rappresentare graficamente intervalli di confidenza
Forest plot
Statistica bayesiana e statistica frequentista
Una traccia storica
Utilizzi attuali del teorema di Bayes
Riassunto
Esercizi
ALLARMI C.R.A.P.
64
65
65
67
68
69
69
71
71
72
72
72
73
74
74
76
Analisi della varianza
SEZIONE SECONDA 7 Confrontare due gruppi
80
Il t-test
Una visione di insieme
Se abbiamo campioni della stessa numerosità
Gradi di libertà
Formule per la deviazione standard
Due gruppi di numerosità diversa: estensione del t-test
Stima combinata e non combinata della varianza
Occhiometria di precisione
Effect Size (entità dell’effetto)
Dimensioni del campione e potenza
Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
8 Più di due gruppi
80
81
82
82
83
83
84
84
85
86
86
87
87
000_XV-XX_Sommario.indd 16
94
94
95
95
95
96
96
98
98
98
99
99
100
100
88
9 ANOVA fattoriale
ANOVA a una dimensione
L’analisi un passo per volta
Somme dei Quadrati (Sum of Squares, SS)
Gradi di libertà
Medie dei Quadrati (Mean Squares, MS)
Valori attesi delle medie dei quadrati e distribuzione f
Assunzioni dell’anova
Confronti multipli
Tasso di errore legato all’esperimento e tasso di errore
legato alla famiglia di ipotesi
Confronti post-hoc
Correzione di Bonferroni
Modifiche della correzione di Bonferroni
Intervallo studentizzato
Minima differenza significativa (Least Significant
Difference – LSD) di Fisher
Differenza onestamente significativa (Honestly
Significant Difference – HSD) di Tukey
Test di Neuman-Keuls
Differenza completamente significativa di Tukey
t di Dunnett
Metodo di Scheffé Confronti pianificati ortogonali
Trend lineari e quadratici
Forza della relazione
Dimensioni del campione e potenza
Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
89
89
90
90
90
91
91
92
92
92
93
93
Somma dei Quadrati e Media dei Quadrati negli
studi fattoriali
Rappresentare graficamente i dati (ciak 1)
Rappresentare graficamente i dati (ciak 2)
Fattori casuali e fattori fissi Disegno incrociato e annidato Disegni equilibrati e squilibrati Forza della relazione (versione riveduta e corretta) Calcolo delle dimensioni del campione per le
anova fattoriali
Come presentare i risultati
Esercizi
Come faccio a farlo fare al computer?
101
104
105
107
107
108
109
110
111
111
111
112
24/08/15 17:31
ISBN 978-88-08-18251-7
10 Due osservazioni ripetute
113
Il t-test per dati appaiati e le sue alternative
Altri utilizzi del t-test per dati appaiati
Effect Size
Occhiometria di precisione
Calcolo delle dimensioni del campione Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
11 ANOVA per misure ripetute
Anova per misure ripetute (un solo fattore)
Generalizzazione volta a includere altri fattori
nello studio
Fattori “tra-soggetti” (between) e
“intra-soggetti” (within)
Altri impieghi dell’ANOVA per misure ripetute
Anova per misure ripetute e affidabilità
delle misure
Assunti di base e limitazioni delle strutture
più complesse di anova
Calcolo delle dimensioni del campione Come presentare i risultati
Riassunto
SEZIONE TERZA 116
117
118
118
118
118
119
119
120
121
122
124
126
126
127
127
128
128
Esercizi
Come faccio a farlo fare al computer?
12 ANOVA multivariata (MANOVA)
128
129
Che cosa intendiamo per “multivariato”
t per due (o più)
130
132
132
Studio della varianza
133
Dalla anova alla manova
133
E finalmente lo si fa
134
Più di due gruppi
135
Facciamolo ancora: manova per misure ripetute
136
Robustezza
138
Dimensioni del campione e potenza
138
Quando le cose vanno storte: gestire le osservazioni
anomale
138
Effect Size (entità dell’effetto)
138
Procedere con cautela
139
Come presentare i risultati
139
Tiriamo le somme
Esercizi
Come faccio a farlo fare al computer?
139
139
140
ALLARMI C.R.A.P.
141
Regressione e correlazione
13 Regressione semplice e correlazione
Basi dell’analisi di regressione
B, beta e test di significatività
Retta di regressione: errori e intervalli di confidenza
Coefficiente di determinazione e coefficiente
di correlazione
Interpretazione del coefficiente di correlazione
Intervalli di confidenza, test di significatività
ed entità dell’effetto (Effect Size)
Rendere r normale
Intervalli di confidenza
Entità dell’effetto (Effect Size)
Calcolo delle dimensioni del campione
Test di ipotesi Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
14 Regressione multipla
Calcoli nella regressione multipla
Tipi di variabili
Relazioni tra le singole variabili
F-test parziali e correlazioni
000_XV-XX_Sommario.indd 17
xvii
indice
144
144
147
148
148
149
151
151
151
152
152
152
153
153
154
154
155
155
157
157
159
F-test parziali
159
Correlazioni parziali e semiparziali
159
b e b
160
Importanza relativa delle variabili
161
Cerchiamo un centro…
162
Regressione gerarchica e stepwise 163
Regressione stepwise gerarchica
163
Regressione stepwise ordinaria
164
Screening preliminare delle variabili
165
2
2
R , R corretto (“adjusted”) e “shrinkage”
165
Interazioni
166
Costruire variabili stupide (o “dummy coding”)
167
Quel che resta: esaminiamo i residui
168
Quando le cose vanno nel verso sbagliato
169
Discrepanza 169
Leverage (“effetto leva”)
169
Influenza169
Multicollinearità170
Regressione multipla in pratica
171
Calcolo delle dimensioni del campione
171
Come presentare i risultati
172
Riassunto
172
Esercizi
172
Come faccio a farlo fare al computer?
173
24/08/15 17:31
xviii
ISBN 978-88-08-18251-7
indice
15 Regressione logistica e di Poisson
Procedure di maximum likelihood estimation
Maximum likelihood estimation non condizionata
e condizionata
Calcoli sul nostro campione
Interpretare rischi relativi e odds ratio
“Goodness of fit” e test complessivi di significatività
Falsi R2
Regressione logistica stepwise e test parziali
Situazioni più articolate
Regressione di Poisson
Un esempio per capire
Statistiche “devianti”
Se i dati sono strambi
Calcolo delle dimensioni del campione
Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
174
176
177
177
178
179
180
180
181
181
183
183
184
185
185
185
185
186
16 Problemi avanzati di regressione
e Anova
Analisi della covarianza
Utilizzare ANCOVA per controllare le differenze
al tempo 0
Come gestire disegni più complessi
Regressione non lineare
Modello generalizzato lineare
Assunti di base dell’ANCOVA
Calcolo delle dimensioni del campione Riassunto
Esercizi
Come faccio a farlo fare al computer?
17 Misurare i cambiamenti nel tempo
Problemi nella misura del cambiamento
Affidabilità delle differenze
Regressione verso la media
Regressione alla media e ANCOVA
Quando abbiamo più di una osservazione
di follow-up: ancova con contrasti
Osservazioni multiple, tempo-dipendenti
Tiriamo le somme
Esercizi
Come faccio a farlo fare al computer?
188
190
192
193
194
194
195
196
197
197
197
199
200
200
201
202
204
205
207
207
207
18 Analisi di dati longitudinali:
modelli lineari gerarchici
208
209
209
209
210
210
Modelli lineari gerarchici
Cosa vuol dire?
Cosa ci serve?
L’analisi passo dopo passo
Primo passo: esaminiamo i dati
Secondo passo: costruiamo rette di regressione
individuali211
000_XV-XX_Sommario.indd 18
212
Terzo passo: costruiamo il modello a livello 1
212
Quarto passo: costruiamo il modello a livello 2
E infine, un passo di lato: mettiamo le equazioni insieme 213
Alcuni vantaggi di HLM
214
Come gestire soggetti “raggruppati” (“clusters”)
214
Calcolo delle dimensioni del campione
215
Come presentare i risultati
215
Riassunto
216
Come faccio a farlo fare al computer?
216
19 Componenti principali e analisi
fattoriale
217
Giocherellando con i fattori
Cosa sono i “fattori”?
Come si fa
Matrice di correlazione
Estrazione dei fattori
Analisi dei componenti principali e fattorializzazione
dell’asse principale Mantenere o scartare i fattori
Matrice dei pesi fattoriali
Rotazione dei fattori – Ma perché poi ruotare? Interpretare i fattori
Diamo nomi ai nomi
Utilizzo dei fattori
Tipi di dati da usare
Analizzare le domande – Alcune altre precauzioni
Calcolo delle dimensioni del campione Come presentare i risultati
Esercizi
Come faccio a farlo fare al computer?
217
219
219
220
221
223
225
225
229
230
230
231
232
232
233
233
234
20 Path analysis e modelli a equazioni
235
strutturali
Path analysis (analisi dei “sentieri”)
235
Interpretare i numeri
236
Trovare la propria strada attraverso i sentieri
237
Path analysis e causalità
237
Variabili endogene ed esogene
238
Tipologie di modelli di path analysis
238
Scusate il disturbo
239
Modelli ricorsivi e non-ricorsivi
240
K.I.S.S.
240
Meglio di così non si può: indicatori della bontà
dell’adattamento (goodness-of-fit)
241
Che cosa assumiamo
242
242
Qualche parola sulla dimensione del campione
Modelli a equazioni strutturali (Sem)
243
SEM e analisi fattoriale
243
Specificazione del modello
245
Identificazione246
Stima247
Valutare l’adattamento del modello
247
Ri-specificazione249
31/08/15 17:41
ISBN 978-88-08-18251-7
Analisi fattoriale confermativa
Confrontare due analisi fattoriali
Un modello SEM completo
Come presentare i risultati
SEZIONE QUARTA 249
251
252
253
Riassunto
Esercizi
ALLARMI C.R.A.P.
254
254
255
Statistica non parametrica
21 Test di significatività per frequenze
di dati categorici
Test del chi-quadrato
Scomponiamo il chi-quadrato
Effect Size
Numeri piccoli: correzione di Yates e test esatto
di Fisher
Correzione per la continuità di Yates
Test esatto di Fisher
Osservazioni appaiate e corrispondenti –
Il chi-quadrato di McNemar
Due fattori: il chi-quadrato di Mantel-Haenszel
Molti fattori: analisi log-lineare
Differenze tra proporzioni indipendenti
Test del segno
Calcolo delle dimensioni del campione Jackknife, bootstrapping e ricampionamento
Come presentare i risultati
Riassunto
Esercizi
Come faccio a farlo fare al computer?
260
261
263
264
264
264
264
267
268
270
272
273
274
275
276
276
276
277
22 Misure di associazione per dati
categorici
Misure di associazione per le tabelle 2 × 2 e altre
di ordine superiore
Coefficiente phi, coefficiente di contingenza,
Q di Yule e V di Cramer
Kappa di Cohen
Concordanza parziale e kappa pesato
Relazione tra kappa e correlazione intraclasse
Calcolo delle dimensioni del campione Riassunto
Esercizi
Come faccio a farlo fare al computer?
trasformati in ranghi
Due gruppi indipendenti
Più di due gruppi
Confronti multipli
Effect Size Mediane ordinate: il test di Jonckheere
Due fattori di raggruppamento
Misure ripetute: il test dei ranghi con segno di
Wilcoxon e l’anova a due dimensioni di Friedman
Calcolo delle dimensioni del campione Riassunto
Esercizi
Come faccio a farlo fare al computer?
24 Misure di associazione per i ranghi
Rho di Spearman
Significatività del rho di Spearman Correlazione punto-biseriale
Tau di Kendall
Calcolo di tau
Test di significatività per tau
Interpretare rho piuttosto che tau
W di Kendall
Calcolo di W
Test di significatività per W
Gamma
Quello che non vi diremo
Riassunto
Esercizi
Come faccio a farlo fare al computer?
290
291
292
292
293
294
294
295
295
296
296
297
297
297
297
298
298
299
300
300
300
279
279
280
280
282
284
284
285
285
285
23 Test di significatività per dati
000_XV-XX_Sommario.indd 19
xix
indice
286
287
288
289
289
289
290
25 Analisi della sopravvivenza
Quando utilizzare l’analisi della sopravvivenza
Come sintetizzare i dati
Sopravvivenza media
Tasso di sopravvivenza (survival rate)
Uso degli anni-persona
Tecniche di analisi di sopravvivenza
Approccio attuariale
Metodo di Kaplan-Meier per l’analisi
della sopravvivenza
Funzione dell’hazard
Misure di sintesi
Errore Standard
Assunti di base dell’analisi della sopravvivenza
Confrontare due (o più) gruppi
Test z
Test di Mantel-Cox (log-rank test) e altri test
Controllo per le covariate
Verifichiamo l’assunzione di proporzionalità
Intervalli di confidenza
302
302
303
303
304
304
304
305
307
308
308
309
309
310
311
311
313
315
316
24/08/15 17:31
xx
ISBN 978-88-08-18251-7
indice
Dimensioni del campione e potenza
Come presentare i risultati
Esercizi
Come faccio a farlo fare al computer?
316
317
317
318
26 Misure di impatto
319
Contare i vivi: incidenza e prevalenza
319
Incidenza319
Prevalenza320
Quando usarle
320
Indici di rischio: rischio relativo, odds ratio e altri
320
Rischio relativo
Riduzione assoluta e relativa del rischio
Odds ratio
OR versus RR
Problemi con i rapporti
Numero necessario da trattare (NNT)
Intervalli di confidenza per RR, OR e NNT
Contare i morti: indici di esiti negativi
Letalità e tassi di mortalità
Riassunto
ALLARMI C.R.A.P.
321
321
322
323
323
323
324
325
325
326
327
Epilogo
SEZIONE QUINTA 27 Studi di equivalenza e non inferiorità
332
Introduzione alla Filosofia I
332
Razionale statistico
333
Valutare l’assenza di differenza
333
Intervallo di equivalenza
333
Studi di equivalenza
334
Non-inferiorità335
Errori di Tipo I e di Tipo II
336
Dimensione campionaria ed effetti di I
336
Altre opportunità per i bricconi
336
28 Problemi, stranezze e altri capricci
della scienza
338
Osservazioni anomale, dati mancanti e trasformazioni
Scovare i dati anomali
Tipi di dati mancanti (“missing data”)
Riempiamo i vuoti
Facciamo finta che non ci siano proprio
Nel dubbio, tirate a indovinare
Trasformazioni dei dati
Trasformare o non trasformare
Se avete proprio deciso di trasformare
Dopo la trasformazione
Come faccio a farlo fare al computer?
000_XV-XX_Sommario.indd 20
29 Mettiamo tutto insieme
Statistica descrittiva
Statistica univariata
Statistica parametrica
Statistica non parametrica
Statistica multivariata
Dimensioni campionarie su due piedi
Differenze tra proporzioni
Differenze tra molte medie
Come scrivere i risultati di un’analisi statistica
Nel frattempo, a casa
30 Primi passi con Spss
Mettetevi alla prova
338
340
341
341
342
344
344
347
349
349
351
351
352
352
354
355
355
355
355
356
357
358
368
Una raccolta di domande e risposte
Risposte agli esercizi dei Capitoli
373
Bibliografia e Letture consigliate
383
Un Dizionario senza Vergogna dei Termini Statistici
392
Appendice
395
Indice analitico
419
24/08/15 17:31
Scarica