Statistica Descrittiva:

annuncio pubblicitario
Principi di biostatistica e
introduzione ai programmi statistici
Giovanni Capelli, Bruno Federico
Cattedra di Igiene
Dipartimento di Scienze Motorie e della Salute
Università di Cassino
Statistica Descrittiva:
Analisi esplorativa univariata
1
Tabelle e Grafici
 
TABELLE
 
 
Organizzazione spazio
  righe e colonne
GRAFICI
 
  discreto
Organizzazione spazio
  piano “cartesiano”
  (piani angolari)
  continui
 
Elementi
  testo, numeri
 
Elementi
  grafici 2 dimensioni
  punto, linea, area
testo, numeri
  Quantità
  posizione
  area
  Vantaggi
  immediatezza
 
 
 
Quantità
  numeri
Vantaggi
  comparazioni simultanee
Graphical excellence
 
Una buona rappresentazione dei dati dovrà:
mostrare i dati
  indurre chi guarda a riflettere sulla sostanza
  piuttosto che sui metodi, il disegno grafico, la tecnologia di
produzione grafica
  evitare di distorcere ciò che i dati hanno da dire
  presentare molti numeri in poco spazio
  rendere coerenti grandi set di dati
  incoraggiare l’occhio a comparare diversi aspetti dei dati
  presentare i dati a diversi livelli di dettaglio
  da una visione d’insieme fino alla struttura fine
  servire un obiettivo ragionevole:
  descrivere, esplorare, tabulare, decorare
  essere fortemente integrata con le descrizioni verbali e
statistiche dei dati
 
Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983
2
Graphical elegance is often found in
simplicity of design and complexity of data
 
Rappresentazioni di dati statistici attraenti:
sono realizzate con schema e formato appropriati
utilizzano parole, numeri e disegni insieme
  sono il risultato di un bilanciamento, una valutazione delle
proporzioni, una riflessione sulla scala dei fenomeni
  mostrano un dettaglio di complessità accessibile
  hanno spesso qualità narrativa
  hanno una storia da raccontare sui dati
  sono realizzati in maniera professionale
  con attenzione e cura ai dettagli tecnici
  evitano la decorazione fine a sè stessa
  inclusa la “spazzatura grafica” di retinati, colori
sgargianti, ecc.
 
 
Edward E. Tufte, The visual display of quantitative information, Graphics Press, 1983
Elting LS, Martin CG, Cantor SB, et al., Influence of data display
formats on physician investigator’s decisions to stop clinical trials:
prospective trial with repeated measures - BMJ 1999, 318:1527-1531
3
Le Tabelle di sintesi dei dati
Tabelle a singola entrata
Generalità
 
 
presentano i dati in forma analitica o sintetica,
organizzati secondo righe e colonne
  è
presentata la distribuzione di frequenza di
UN SOLO carattere statistico
A seconda dei tipi di dati
 
 
Dati nominali ed ordinali
  Rappresentazione
possibili
 
Dato numerici discreti e continui
  Dati
 
di tutte le modalità
aggregati per classi
Frequenze
Assolute
 
Conte
  di soggetti classificati nella stessa categoria
  Numero di Clinical Seizures osservate
 
Relative
 
Proporzioni (Percentuali)
  Soggetti classificati in una categoria/Totale soggetti studiati
  conta Clinical Seizures / numero Soggetti in studio
 
Tassi
  Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti
studiati nel tempo t
  conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2)
 
Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t
  conta EEG seizures / (48h*conta poligrafie)
 
Rapporti
  Soggetti classificati in una categoria non binomiale/soggetti classificati in
un altra categoria non binomiale
  conta PDI>116 / conta PDI<84
 
Odds
  Soggetti classificati in una categoria binomiale/soggetti classificati
nell altra categoria
  conta Clinical Seizures SI / conta Clinical Seizures NO
4
Frequenze
Assolute
 
 
Conte
  di soggetti classificati nella stessa categoria
Relative
 
 
  Numero di Clinical Seizures osservate = 11
Proporzioni (Percentuali)
  Soggetti classificati in una categoria/Totale soggetti studiati
  conta Clinical Seizures / numero Soggetti studiati = 11 / 170 = 0.0647 = 6.47%
 
Tassi
  Soggetti classificati in una categoria nel tempo t (eventi)/Media soggetti
studiati nel tempo t
  conta PDI<100 / ((conta Reclutati + conta PDI misurati a 1 anno)/2) = 97/((171+142)/2) =
97/156.5 = 0.619 = 61.9%
 
Soggetti classificati in una categoria nel tempo t (eventi)/Totale tempopersona osservato in periodo t
  conta EEG seizures / (48h*conta poligrafie) = 27/(48*136) = 27/6528 = 0.00413 eventi/
ora-persona
 
Rapporti
  Soggetti classificati in una categoria non binomiale/soggetti classificati in
un altra categoria non binomiale
  conta PDI>116 / conta PDI<84 = 13/30 = 0.433
 
Odds
  Soggetti classificati in una categoria binomiale/soggetti classificati
nell altra categoria
  conta Clinical Seizures SI / conta Clinical Seizures NO = 11/(170-11) = 11/159 = 0.0692
Tabelle:
Partendo da questi dati grezzi:
Id
Sesso Età
Classe di
esposizione
0001
M
35
lieve fumatore
italiana
0002
F
40
non fumatore
francese
0003
M
60
forte fumatore
italiana
0004
M
29
lieve fumatore
italiana
0005
M
27
medio fumatore
belga
0006
F
26
non fumatore
francese
0007
F
35
non fumatore
tedesca
0008
F
32
forte fumatore
belga
0009
M
45
non fumatore
tedesca
0010
M
19
lieve fumatore
tedesca
0011
F
24
non fumatore
francese
0012
F
28
forte fumatore
italiana
0013
M
36
non fumatore
italiana
STATA:
tabulate sesso
Indice rappresentato
Nazionalità
Modalità
Freq.
assoluta
Freq.
relativa
M
7
7/13
F
6
6/13
Carattere
Sesso
 
Singola entrata, Variabile Dicotomica
Tot.
13
Conta dei soggetti
che nel campione presentano
quella specifica modalità
5
Raggruppare in classi
 
Come sono costituite le classi?
  Valori
predefiniti (logica, letteratura)
  Liberi
  es. classi età (0-14, 15-30, 30-65, >65)
  classi tempo (<7gg, 7-14, 15-30, 30-60, >60)
 
A larghezza costante
  es classi quinquennali di età
  Suddivisioni
statistiche (quantili)
  quartili, quintili, decili (a numerosità costante)
  si usa quando non ci sono valori di cut-off noti
  aumenta la potenza statistica
  Classi
dicotomiche o classi ordinali?
  Le classi dicotomiche (0-1) ottenute con 1 solo
cut-off hanno alcune proprietà notevoli
  la media è la proporzione
  si possono utilizzare nei modelli statistici
Tabelle:
Partendo da questi dati grezzi:
Id
Sesso Età
Classe di
esposizione
0001
M
35
lieve fumatore
italiana
0002
F
40
non fumatore
francese
0003
M
60
forte fumatore
italiana
0004
M
29
lieve fumatore
italiana
0005
M
27
medio fumatore
belga
0006
F
26
non fumatore
francese
0007
F
35
non fumatore
tedesca
0008
F
32
forte fumatore
belga
0009
M
45
non fumatore
tedesca
0010
M
19
lieve fumatore
tedesca
0011
F
24
non fumatore
francese
0012
F
28
forte fumatore
italiana
0013
M
36
non fumatore
italiana
STATA:
In questo caso, ha senso
la frequenza cumulativa !
Indice rappresentato
Nazionalità
Classi di
Modalità
Carattere
Età
 
Singola entrata, Variabile Numerica
Freq.
assoluta
Freq.
Freq.
relativa cumulativa
10-29
6
6/13
6/13
30-39
4
4/13
10/13
>39
3
3/13
13/13
generate eta2=eta
recode eta2 10/29=1 30/39=2 40/max=3
tab eta2
Tot.
13
Conta dei soggetti
che nel campione presentano
quella specifica modalità
6
1 sola variabile, dato dicotomico
. tabulate eegseiz
graph pie, over(eegseiz) angle(90) pie( 1,
color(ltblue))pie( 2, color(blue)) title(EEG
seizure activity) subtitle(within 48 hours
since surgery) legend(rows(2)) legend
(position(3) region(lcolor(none)))
graphregion(fcolor(white))
EEG seizure |
activity |
within 48 |
postoperati |
ve hours |
Freq.
Percent
Cum.
------------+----------------------------------0 |
109
80.15
80.15
1 |
27
19.85
100.00
------------+----------------------------------Total |
136
100.00
DIAGRAMMI A TORTA
 
 
 
STATA 7:
graph <5 5_17 18_64 >65, pie
STATA 8: graph pie <5 5_17 18_64 >65
Può essere rappresentato
un solo carattere
Le modalità sono
rappresentate da spicchi
della torta
L area della torta è
proporzionale alla
frequenza relativa della
modalità
7
Torte 2D e torte 3D
DIAGRAMMI A BARRE
n
Frequenza delle osservazioni
Le modalità qualitative sono
riportate in ascissa
  asse X qualitativo
 
Per ogni gruppo si costruisce un
rettangolo:
  il nome della modalità è
centrato sulla base del
rettangolo, di larghezza
costante e arbitraria (0->∞)
  l area del rettangolo è
proporzionale alla frequenza
rilevata per il gruppo
0
  ma siccome le basi sono
A
B
C
D
uguali per definizione,
Modalità qualitatitive
sarà l altezza a fare la
STATA:
graph bar (count) idvar, over(variable)
differenza
 
La scala utilizzata per gli assi
deve consentire la visualizzazione
dei rettangoli interi
STATA:
graph hbar
 
I rettangoli non devono essere
(count) idvar,
adiacenti (tranne nel caso di
over(variable)
variabili ordinali…)
 
8
ISTOGRAMMI
16
13
7
5.5
4
1
0
Modalità numeriche
Frequenza delle osservazioni
n
 
 
 
0
n
Frequenza delle osservazioni
0
0 1
4 5.5
7
13
I dati vengono divisi in classi
16
Modalità numeriche
 
in questo caso 6 classi con un
intervallo non costante
Per ogni gruppo si costruisce
un rettangolo:
  la posizione della base
del rettangolo
corrisponde ai margini
dell intervallo (è
quantitativa)
  l area del rettangolo è
proporzionale alla
frequenza rilevata per il
gruppo
La scala utilizzata per gli
assi deve consentire la
visualizzazione dei rettangoli
interi
STATA:graph twoway (histogram eta)
1 variabile continua: istogramma
.3
Fraction
.2
.1
0
45
55
65
75
85
95
105
115
125
Psychomotor Development Index at
135
145
155
9
0
5
10
Percent
15
20
25
1 variabile continua: istogramma
con Stata 8
0
10
20
30
40
50
60
70
80
Duration of circulatory arrest (minutes)
90
100
110
histogram minutes, width(10) start(0) percent bfcolor(yellow) blcolor(gold) normal
normopts( clcolor(red) clpat(dot) ) kdensity kdenopts( clcolor(blue) ) xlabel( 0 (10)
110) plotregion(margin(zero))
Distribuzioni
Asimmetrica
a destra
dhca==0
.6
Simmetrica
dhca==1
.4
Fraction
.2
0
0
20
40
60
80
100
120
0
20
40
60
80
100
120
Durata dell intervento chirurgico (minuti)
Duration of circulatory arrest (
Histograms by Deep Hypothermic Circulatory Arrest (1=yes; 2=low-
10
Fare un istogramma in 6 passi
1) Ordinare i dati
2) Calcolare l ampiezza del l intervallo dei valori (minmax)
3) Scegliere un ampiezza di classi di valori tale da
sintetizzare i dati in un numero di classi compreso
tra 10 e 20
4) Realizzare una tabella di sintesi che presenti
-> le classi, i valori al centro di ciascuna classe, la
frequenza assoluta di osservazioni rilevate per classe e
la frequenza cumulativa
5) Trasformare la tabella in un istogramma
6) Accettare la perdita di dettaglio informativo dovuta
al raggruppamento
Lo Stem & leaf plot
 
Tukey (1977) ha proposto una tecnica
che permette di saltare le fasi 1 e 6 e
combinare le fasi 4 e 5 in una sola
  Il
diagramma che ne deriva, chiamato Stem
(ramo) & leaf (foglia) plot, si costruisce in soli 3
passi:
1) Calcola ampiezza intervallo valori (max-min)
2) Scegliere un ampiezza di classi di valori
tale da sintetizzare i dati in un numero di
classi compreso tra 10 e 20
3) Realizzare una tabella che ha l aspetto di
un istogramma, e mantiene il dettaglio dei
dati originali
11
Stem & leaf plot
Impossibile visualizzare l'immagine.
La memoria del computer potrebbe
essere insufficiente per aprire
l'immagine oppure l'immagine
potrebbe essere danneggiata.
Riavviare il computer e aprire di
nuovo il file. Se viene visualizzata di
nuovo la x rossa, potrebbe essere
necessario eliminare l'immagine e
inserirla di nuovo.
Stem and leaf plot
stem
pdi
Stem-and-leaf plot for pdi (Psychomotor Development Index at age 1)
5*
5.
6*
6.
7*
7.
8*
8.
9*
9.
10*
10.
11*
11.
12*
12.
13*
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
2
00333
67
0001
55678
0000000000022
6666666666777777
02222222222222222223333
8888888888888888888888899999
4444
555555555559
000111111114
555577788
022224
04
12
Poligoni di frequenza
 
Invece di una barra a coprire ogni
intervallo
  mettiamo
un punto in corrispondenza del centro
di ogni classe
  e connettiamo i punti con linee rette
  ma attenzione:
  negli istogrammi si esprime una distribuzione uniforme
all interno della classe definita
  nei poligoni di frequenza, invece, assumiamo e
rappresentiamo tutte le osservazioni nel punto centrale
della classe
•  tranne per i poligoni di frequenza cumulativa, che
presentano la somma di tutte le osservazioni fino
alla fine di ciascuna delle classi presentate
Poligoni di Frequenza
50
(count) pdi
40
30
20
10
0
50
60
70
80
90
PDI a 1 anno
100
110
120
130
13
Poligoni di frequenza
Deep Hypothermic Circulatory Ar
Low Flow Bypass
30
20
10
0
50
60
70
80
90
PDI a 1 anno
100
110
120
130
Poligoni di frequenza cumulativa
Deep Hypothermic Circulatory Ar
Low Flow Bypass
70
60
50
40
30
20
10
0
50
60
70
80
90
100
PDI a 1 anno
110
120
130
140
14
Scarica