Introduzione alla Statistica Medica File - e-Learning

annuncio pubblicitario
Programma del corso:
STATISTICA
MEDICA
Stefania Galimberti
CENTRO DI RICERCA IN BIOSTATISTICA PER
L’EPIDEMIOLOGIA CLINICA
Scuola di Medicina e Chirurgia
1
1.1
1.2
1.3
1.4
1.5
1.6
Introduzione alla statistica
Variabili quantitative-qualitative
Serie e seriazioni statistiche
Rappresentazione grafica di una distribuzione
Indici di posizione e dispersione di una distribuzione
Diagrammi di dispersione
Indici di associazione tra due caratteri quantitativi
2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
Introduzione alla probabilità
Definizioni di probabilità
Probabilità dell’unione e dell’intersezione di due eventi
Concetto di indipendenza
Probabilità condizionata
Il test diagnostico
Distribuzione binomiale
Distribuzione Gaussiana
Notizie generali:
Programma del corso:
3
3.1
3.2
3.3
3.4
Introduzione all’inferenza
Campione e popolazione
Parametro e stima (errore standard della stima)
Intervallo di confidenza
La logica del test di ipotesi, livello di significatività e
potenza
3.5 Inferenza con un singolo campione e fra più gruppi
3.6 Applicazioni
Libri di testo consigliati:
Bland M.
Pagano M. & Gauvreau K.
Statistica medica
Biostatistica
Apogeo Editore, 2009 Idelson-Gnocchi, 2003
Materiale delle lezioni scaricabile da:
http://elearning.unimib.it/

Modalità d’esame:
Scritta (esercizi e domande sulla parte teorica)
1
La Statistica Medica
La Statistica
Conoscere le nozioni fondamentali ed i principali
metodi della statistica medica:
• per comprendere ed interpretare i fenomeni
biologici;
• per valutare quantitativamente gli interventi
assistenziali (anche farmacologici);
• per supportare le decisioni (prese in condizioni
di incertezza);
• per fare previsioni.
La statistica comprende un insieme di metodi per
Se si rilevano, in un gruppo di individui
 la raccolta
 la descrizione
 la sintesi
 l’analisi
di dati relativi a fenomeni che hanno attitudine
a variare.
Perché i valori cambiano da individuo a individuo?
Tra le possibili fonti di variabilità, quelle più
rilevanti sono la:
i valori di altezza o il sesso, ad esempio,
1.67
F
1.78
M
1.74
F
1.94
M
si può notare come:
i valori misurati varino da
individuo a individuo
 variabilità
strumentale (legata alla
procedura di misurazione, agli strumenti
e a chi misura);
(ad es. la procedura operativa o lo strumento non sono
ancora
a punto, colui che misura non è
sufficientemente esperto)
 variabilità biologica
(intrinseca).
2
Terminologia: universo
La variabilità strumentale può essere
completamente controllata, agendo sulle
modalità di misurazione.
L’universo (o popolazione) consiste della totalità
degli elementi (unità statistiche) che hanno certe
caratteristiche.
La variabilità biologica può essere solo
parzialmente
limitata,
rendendo
più
omogeneo l’insieme di soggetti analizzati.
La popolazione di interesse deve essere definita
in modo non equivoco
(ad es. ottimizzando la procedura operativa,
tarando lo strumento, facendo training al
personale)
1.67
F
1.74
F
1.78
M
1.94
M
Es.:
 Studenti che hanno seguito almeno una lezione di Statistica Medica
 Studenti di Monza che hanno seguito almeno una lezione di
Statistica Medica nell’a.a. 2002-2003
 Studenti che seguono questa lezione di Statistica Medica
L’universo
Terminologia: campione
Universo reale (pop. finita):
costituita da unità statistiche che è possibile
identificare.
Un campione è il sottoinsieme di elementi dell’
universo che viene effettivamente studiato, i cui
risultati vengono utilizzati per trarre conclusioni
sulle caratteristiche dell’universo.
Es.: pazienti ricoverati per attacco di cuore nell’H di Monza tra
il 2000 ed il 2005
Universo virtuale (pop. infinita):
costituita da unità statistiche che hanno una
esistenza concettuale come insieme di
riferimento.
Es.: pazienti ricoverati per attacco di cuore
campione
universo
Perché si ricorre al campione?
 economicità
 tempestività
 natura distruttiva della misurazione
 eticità
3
Il campione
Come deve essere il campione?
Il campione non deve essere selezionato..
casinisti
Il campione
Come deve essere il campione?
Il campione non deve essere selezionato, ma
deve essere scelto in modo casuale per
evitare distorsioni sistematiche.
campione
casuale
semplice
secchioni
Esempio:
Fenomeno in studio: Rendimento scolastico
Universo: Studenti che seguono questa lezione di Statistica Medica
Campione: 20 studenti che seguono questa lezione
Esempio:
Fenomeno in studio: Rendimento scolastico
Universo: Studenti che seguono questa lezione di Statistica Medica
Campione: 20 studenti che seguono questa lezione
Il campione
Il campione
campione casuale (semplice o con reinserimento):
ogni unità dell’universo ha uguale probabilità di
entrare a far parte del campione
Il campione casuale dovrebbe rappresentare una
immagine in scala ridotta dell’universo.
campionamento
con reinserimento
Esistono diverse strategie di campionamento e
la scelta dipende dal contesto.
Es. campione stratificato, campione sistematico..
campionamento
stratificato
maschi
femmine
campione come
miniatura
dell’universo
… ovvero dovrebbe essere
dell’universo.
rappresentativo
Questa è la condizione (non verificabile) di
validità del processo di generalizzazione dei
risultati.
4
Il campione
N=100
1) n=5
2) n=25
3) n=75
Quale tra questi tre campioni contiene più
informazioni sulla popolazione?
Il campione
Il grado di attendibilità dei risultati campionari
dipende quindi dall’adeguatezza della:
 procedura casuale di campionamento,
 numerosità.
E’ importante pianificare una ricerca perché
solo in questa fase è possibile controllarne:
- validità (errori sistematici)
- precisione (errori casuali)
Terminologia: variabili
Si dice variabile una caratteristica delle unità
statistiche che può assumere una pluralità di valori
al variare dell’unità su cui è rilevata.
Es: Altezza, Sesso, Titolo di Studio, Voto esame di maturità
Le variabili possono essere:
i) quantitative
ii) qualitative
e vengono indicate con lettere maiuscole scelte, in
genere, tra le ultime lettere dell’alfabeto: Y, X, Z.
Es: Y = Altezza
X = Sesso
Terminologia: dati
I dati sono quei valori numerici o quelle
modalità, assumibili da una variabile.
I dati sono rappresentati da lettere minuscole
(quella che indica la variabile) con un indice che
distingue le diverse unità fra loro :
Es: Y=Altezza
X=Sesso
y1= 1.67
y2= 1.74
y3= 1.94
y4= 1.78
x1= F
x2= F
x3=M
x4=M
Soggetto 1
5
…al paradiso
dall’inferno…
Unità sperimentale: ogni individuo osservato (linea nel data-set)
Variabile: ogni caratteristica che è stata misurata sull’unità (colonna nel
data-set)
Osservazione (dato): ogni valore espresso dalla variabile sull’unità
(cella nel data-set)
Classificazione Variabili:
Variabili qualitative nominali
Una variabile qualitativa è nominale, quando ogni
possibile ordinamento delle modalità è arbitrario.
Es: Colore degli occhi, Marca auto, Etnia
Variabili
Qualitative
Nominali
Ordinali
Sesso: maschio - femmina
Quantitative
Discrete
Continue
Variabile
dicotomica o
binaria
=
femmina - maschio
Possibili relazioni tra misurazioni:
- identità:
x 1 = x2
oppure
x 1  x2
6
Variabili qualitative ordinali
Una variabile qualitativa è ordinale, quando è
possibile individuare un ordinamento naturale
delle modalità.
Es.: Segno zodiacale, Titolo di studio
Misurazione dell’intensità del dolore:
nulla < lieve < moderata < forte
forte > moderata > lieve > nulla
Possibili relazioni tra misurazioni:
- identità:
- ordine:
x 1 = x2
x 1 > x2
oppure
oppure
x 1  x2
x 1 < x2
Variabili quantitative discrete
Una variabile quantitativa è discreta se può
assumere come valore un qualsiasi numero
naturale.
Es.: - Numero automobili per famiglia
- Voto esame di statistica
- Numero di episodi di asma nei mesi primaverili
Le variabili quantitative
usualmente da conteggi.
discrete
derivano
Variabili qualitative ordinali
Es: Misurazione dell’intensità del dolore
nulla < lieve < moderata < forte
Alle modalità si può associare un codice numerico:
(Es.: nulla=0, lieve=1, moderata=2, forte=3)
che però non ha significato quantitativo:
 2 (dolore moderato) non è il doppio di 1 (dolore
lieve), 3 (dolore forte) non è il triplo di 1;
 la differenza tra 2 e 1 non è uguale a quella tra
3 e 2.
Variabili quantitative continue
Una variabile quantitativa è continua, se può
assumere qualsiasi valore intermedio tra due unità
consecutive (numero reale).
Es.: Altezza, Peso, Concentrazione di glucosio nel sangue
I valori assunti da una variabile continua
dipendono dal potere di risoluzione dello
strumento di misura.
Es.: Una altezza di 1.78324321…. m, potrebbe essere
riportata al cm (1.78) o al mm (1.783) a seconda dell’uso.
Le variabili quantitative
usualmente da misurazioni.
continue
derivano
7
Variabili quantitative
discrete e continue
Esercizio
Possibili relazioni tra misurazioni:
- identità:
- ordine:
- distanza:
- rapporto:
x 1 = x2
x 1 > x2
x 1 - x2
x1/x2
oppure
oppure
oppure
oppure
x 1  x2
x 1 < x2
x 2 – x1
x2/x1
Numero di carie presenti nell’arcata superiore
Quantitativa Discreta
Stato civile
Qualitativa Nominale
Consumo giornaliero di caffeina (mg)
Quantitativa Continua
Consumo giornaliero di caffè della macchinetta
(bicchierini)
Quantitativa Discreta
Consumo di alcool
??????
Albumina sierica (g/l)
Quantitativa Continua
Esito PAP test
Qualitativa Ordinale
(citologia molto sospetta, citologia non regolare, assenza cell atipiche, citologia sospetta..)
Numero di linfonodi metastatici riscontrati
alla TAC
Cosa possiamo concludere
campione di 20 studenti?
Soggetto Altezza Sesso
1
1.76
M
2
1.71
F
3
1.54
F
4
1.82
M
5
1.59
F
6
1.74
M
7
1.95
M
8
1.68
M
9
1.85
M
10
1.74
F
dai
dati
relativi
al
Soggetto Altezza Sesso
11
1.77
F
12
1.69
F
13
1.93
M
14
1.67
F
15
1.72
M
16
1.59
F
17
1.60
F
18
1.81
F
19
1.73
F
20
1.78
M
Quantitativa Discreta
Distribuzioni di frequenza
Per riassumere i dati si costruiscono
distribuzioni di frequenza:
possibili valori/modalità
che una variabile può
assumere a seconda
della sua natura
+
le
frequenze con cui
questi valori si
manifestano
8
Variabili qualitative
Variabili qualitative
Successione delle frequenze che corrispondono
alle modalità di una variabile qualitativa.
Titolo di studio di 120
Titolo di studio
Lic. Elementare
Lic. Media
Maturità
Laurea
Totale
tifosi dell’Inter f(x)=frequenza assoluta
f(x)
numero di volte in cui
18
una certa modalità si
12
manifesta nel campione
36
54
12 dei 120 intervistati
120
hanno la Licenza Media
Frequenze assolute e relative
- frequenze assolute f(x)
f(x)
p(x)
Lic. Elementare
18
0.15
Lic. Media
12
0.10
Maturità
36
0.30
Laurea
54
0.45
Totale
120
1.00
 possono assumere valori compresi tra 0 e n
(dimensione del campione)
la
loro somma è pari a n

 la loro somma è pari a 1
Titolo di studio di 120
Titolo di studio
Lic. Elementare
Lic. Media
Maturità
Laurea
Totale
tifosi dell’Inter f(x)=frequenza assoluta
p(x)=frequenza relativa
f(x)
p(x)
18
0.15
rapporto tra la frequenza
assoluta
con
cui
si
12
0.10
manifesta una modalità e la
36
0.30
numerosità
totale
del
campione
54
0.45
120
1.00
Il 10% (12/120) degli
intervistati ha la Licenza
Media
Frequenze assolute e relative
Titolo di studio
- frequenze relative p(x)
 possono assumere valori compresi tra 0 e 1
Successione delle frequenze che corrispondono
alle modalità di una variabile qualitativa.
Frequenze assolute e relative forniscono le
stesse informazioni sulla distribuzione.
Le frequenze relative:
 facilitano la percezione del peso delle
modalità;
 consentono
di
confrontare
la
distribuzione di una variabile in campioni
di diversa numerosità.
Andrebbero sempre accompagnate dalla numerosità su
cui sono state calcolate!
9
Esempio
Esempio
Si vuole valutare l’efficacia di un nuovo farmaco (A) sulla
mortalità post-infarto (1 mese). Nello studio vengono
coinvolti 150 pazienti: 100 sono randomizzati a ricevere
il farmaco sperimentale, 50 il trattamento standard (B).
Si vuole valutare l’efficacia di un nuovo farmaco (A) sulla
mortalità post-infarto (1 mese). Nello studio vengono
coinvolti 150 pazienti: 100 sono randomizzati a ricevere
il farmaco sperimentale, 50 il trattamento standard (B).
Morti
Trattati con
A
B
6
3
Morti
Vivi
94
47
Vivi
Totale
100
50
Totale
Grafici per var. qualitative
Trattati con
A
B
6 (6%)
3 (6%)
94 (94%) 47 (94%)
100
50
Grafici per var. qualitative
Licenza Elementare
=360x0.3=
=108°
Maturità
30%
Licenza Media
Maturità
Laurea
Laurea
45%
10%
a
Licenza Media
15%
0
10
20
30
40
50
60
Licenza Elementare
a
frequenza assoluta
Diagramma a barre orizzontali
Diagramma areolare (o a torta)
L’angolo al centro è proporzionale alla frequenza relativa:
=360° xp(x)
10
Grafici per var. qualitative
Licenz a Elementare
Diagramma a barre
Lice nza Media
preferibili per sottolineare
differenze nelle frequenze
Maturità
Laurea
0
10
20
30
40
50
60
frequenza assoluta
Maturità
Diagramma a torta
30%
Laure a
45%
10%
a
Licenza Media
15%
Licenza
Ele mentare
a
preferibili per sottolineare
differenze nella composizione
Posso cambiare l’ordine delle modalità
ma solo quando la variabile è nominale.
Variabili quantitative discrete
Si colgono meglio le differenze
relative tra le barre
Successione delle frequenze che corrispondono
ai valori assunti da una variabile quantitativa
discreta.
N° di congiuntivi sbagliati in 200 interviste rilasciate da
Trapattoni nel 2002
X
Versione che si presta a
rappresentare situazioni in
cui vi sono molte modalità
frequenze semplici
frequenze cumulate
assolute
relative
assolute
relative
0
98
0.490
98
0.490
1
70
0.350
168
0.840
2
26
0.130
194
0.970
3
5
0.025
199
0.995
4
1
0.005
200
1.000
f(x)
p(x)
F(x)
P(x)
11
Frequenze cumulate
frequenze semplici
X frequenze cumulate
frequenze cumulate
assolute
relative
0
98
0.490
98
0.490
1
70
0.350
98+70=168
0.840
2
26
0.130
98+70+26=194
0.970
3
5
0.025
98+70+26+5=199
0.995
4
1
0.005
98+70+26+5+1=200
1.000
f(x)
p(x)
in 194 delle 200 interviste (pari al
97% del totale) il Trap ha
sbagliato un numero di congiuntivi
pari o inferiore a 2.
assolute
relative
F(x)
P(x)
0.970=0.49+0.35+0.13=194/200
frequenza semplice relativa
numero di
congiuntivi sbagliati
0,2
0,1
0
0
1
2
3
4
0
1
2
3
4
2.5%
0.5%
13%
35%
49%
1
168
0.840
P(x)
0.970
- frequenze cumulate assolute F(x) 2 194
199
0.995
3
200
1.000
4
 La prima frequenza cumulata
è pari alla prima frequenza assoluta.
L’ultima
frequenza cumulata è pari alla

numerosità campionaria.
- frequenze cumulate relative P(x)
 La prima frequenza cumulata relativa è pari
alla prima frequenza relativa.
1
0,8
0,6
0,4
0,2
0
-1
n° di congiuntivi sbagliati
Diagramma
ad aghi
0.490
Grafici per var. discrete
0,5
0,3
relative
98
 L’ultima frequenza cumulata relativa è pari
ad uno.
Grafici per var. discrete
0,4
assolute
0
F(x)
frequenza cumulata relativa
X
Frequenze cumulate assolute e relative
0
1
2
3
4
n° di congiuntivi sbagliati
Diagramma a torta
Diagramma a gradini
12
Variabili quantitative continue
Possiamo migliorare un po’ la situazione …
In un'indagine condotta da un gruppo di neonatologi si
sono rilevati i valori della lunghezza supina (cm) in un
campione di 60 neonati. Le misurazioni, eseguite con
l'infantometro Harpenden, sono riportate di seguito.
51.0
46.5 48.7
54.5
46.0
51.2
55.0 50.2
44.5 56.3
49.4
47.8 50.0
48.2
52.2
51.1
50.2 53.4
49.2 46.5
49.0
49.7 52.9
48.9
47.0 54.7
50.3 47.4
50.5 51.5
52.5
44.4 50.8
51.2
50.8 52.3
47.7 50.5
49.5 50.9
51.5
49.8 46.2
49.5
50.0 48.2
48.5
51.7
52.9 51.6
51.8
53.0 48.9
54.0
52.5 50.8
53.8 49.5
50.5 52.7
Variabili quantitative continue
La distribuzione di frequenza di una variabile
continua si rappresenta in modo analogo a
quella degli altri tipi di variabili, ma….
in questo caso, la frequenza non è riferita ad
un singolo valore, ma ad intervalli (o classi) di
valori.
Il prezzo che si paga per poter “organizzare”
questo tipo di dati è quello di perdere le
informazioni sui dati individuali.
44.4
48.2
49.5
50.5
51.5
52.9
44.5
48.2
49.5
50.5
51.5
52.9
46.0
48.5
49.7
50.8
51.6
53.0
46.2
48.7
49.8
50.8
51.7
53.4
46.5
48.9
50.0
50.8
51.8
53.8
46.5
48.9
50.0
50.9
52.2
54.0
47.0
49.0
50.2
51.0
52.3
54.5
47.4
49.2
50.2
51.1
52.5
54.7
47.7
49.4
50.3
51.2
52.5
55.0
47.8
49.5
50.5
51.2
52.7
56.3
Variabili quantitative continue
Lunghezza supina (cm) in un campione di 60 neonati.
Valori ottenuti con l'infantometro Harpenden.
Estremi di
classe
44.25 45.75 47.25 48.75 50.25 51.75 53.25 54.75 56.25 -
45.75
47.25
48.75
50.25
51.75
53.25
54.75
56.25
57.75
Valore
centrale
45.0
46.5
48.0
49.5
51.0
52.5
54.0
55.5
57.0
Freq. semplici
p(x)%
%
2
3.3
5
8.3
7
11.7
14
23.3
16
26.7
9
15.0
5
8.3
1
1.7
1
1.7
f(x)
n
Freq.cumulate
P(x)%
%
2
3.3
7
11.7
14
23.3
28
46.7
44
73.3
53
88.3
58
96.7
59
98.3
60
100.0
F(x)
n
5 dei 60 neonati hanno una lunghezza supina compresa fra 45.75 e 47.25
13
Le classi
Gli estremi di classe
[44.25-45.75)
o
44.25 - 45.75
classe chiusa a sinistra e aperta a destra
estremo sn incluso
(44.25-45.75]
o
44.25 - 45.75
classe chiusa a destra e aperto a sinistra
estremo dx incluso
[44.25-45.75]
o
44.25 - 45.75
classe chiusa a sinistra e a destra
estremo sn e dx inclusi
(44.25-45.75)
o
44.25 - 45.75
classe aperta a sinistra e a destra
estremo sn e dx esclusi




(ad es. età>60 anni)

Le classi debbono essere mutuamente esclusive
(fate attenzione agli estremi!!).

Le classi debbono essere esaustive.
Grafici per var. continue
Frequenze relative (%)
La scelta del numero di classi e degli estremi è
arbitraria. Entrambi vengono determinati in base
a criteri di convenienza.
Il numero di classi può oscillare e dipende dalla
numerosità dei dati.
Scegliere
estremi
che
siano
clinicamente/biologicamente
significativi
o
naturali e, preferibilmente, di uguale ampiezza.
NO: 44.137 - 45.541
SI: 44.00 - 45.50
Evitare, se possibile, gli intervalli aperti
Grafici per var. continue
Modifica della forma
dell’ampiezza delle classi.
30
25
p(x)
0,3
degli
istogrammi
in
funzione
p(x )
0,3
3 classi
20
15
0,2
0,2
50
10
5
0,1
0,1
0
43.5 45 46.5 48 49.5 51 52.5 54 55.5 57 58.5
Lunghezza (cm)
Istogramma
23
0
0
45
48
51
Ti t ol o a sse
54
57
cm
45
27
48
51
54
57 cm
43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
Al diminuire del numero di classi si perdono i dettagli.
All’aumentare del numero di classi si guadagna….ma sino ad
un certo punto!!
14
30
25
Grafici per var. continue
100
Istogramma
Poligono di frequenze
20
15
10
5
0
43.5 45 46.5 48 49.5 51 52.5 54 55.5 57 58.5
frequenza relativa cumulata (%)
Frequenze relative (%)
Grafici per var. continue
Istogramma e Poligono di Frequenze
Grafici per var. continue
96,7
90
98,3
50
46,7
40
30
23,3
20
11,7
10
3,3
45,75
47,25
48,75
50,25
51,75
53,25
100
46,7
40
30
23,3
11,7
10
3,3
45,75
47,25
48,75
50,25
51,75
53,25
54,75
Ti t ol o as se
56,25
57,75
cm
 La spezzata parte da 0 e termina a 1 o 100%.
 La spezzata si ottiene congiungendo con dei
due punti che hanno per coordinate:
[estr inf, freq cum prec]
57,75
cm
100
73,3
20
56,25
Ogiva di Galton per le frequenze cumulate
88,3
50
54,75
Grafici per var. continue
60
0
44,25
 Si
60
96,7
80
70
100
73,3
70
T i t o l o a ss e
segmenti i
[estr sup, freq cum]
assume che la distribuzione dei dati nelle classi sia
uniforme (interpolazione lineare)
frequenza relativa cumulata (%)
frequenza relativa cumulata (%)
100
98,3
88,3
80
0
44,25
Lunghezza (cm)
96,7
90
90
98,3
100
88,3
80
73,3
70
60
50
46,7
40
30
23,3
20
11,7
10
0
44,25
3,3
45,75
47,25
48,75
50,25
51,75
53,25
54,75
56,25
57,75
Altezza (cm)
Se si congiungessero i valori centrali si
otterrebbe una rappresentazione scorretta.
15
Grafici per var. continue
96,7
90
98,3
100
100
frequenza relativa cumulata (%)
frequenza relativa cumulata (%)
100
Grafici per var. continue
88,3
80
73,3
70
60
50
46,7
40
30
23,3
20
11,7
10
0
44,25
3,3
45,75
47,25
48,75
50,25
51,75
53,25
54,75
56,25
T i t o l o a ss e
Qual è il valore di altezza sotto il quale trovo il 40% dei neonati?
88,3
80
73,3
70
60
50
46,7
40
30
23,3
20
11,7
10
3,3
0
44,25
57,75
cm
45,75
47,25
48,75
50,25
51,75
56,25
57,75
cm
Qual è il valore di altezza oltre il quale trovo il 40% dei neonati?
Grafici per var. continue
96,7
98,3
0,5
1
0,4
0,8
0,3
0,6
100
73,3
60
P(x)
p(x)
88,3
80
0,2
0,4
0,1
0,2
0
0
0
1
2
3
0
4
1
2
3
4
cm5
Distribuzione Uniforme
46,7
40
30
23,3
11,7
10
0
44,25
3,3
45,75
47,25
48,75
50,25
51,75
T i t o l o a ss e
53,25
54,75
56,25
57,75
cm
Qual è la percentuale di neonati che ha una altezza compresa tra
50.25 e 53.25?
88.3-46.7=41.6%
0,5
1
0,4
0,8
0,3
0,6
P(x)
20
p(x)
frequenza relativa cumulata (%)
100
50
54,75
 51 cm
Grafici per var. continue
70
53,25
T i t o l o a ss e
 49.75 cm
90
100
98,3
96,7
90
0,2
0,4
0,1
0,2
0
0
0
1
2
3
4
0
1
2
3
4
cm 5
Distribuzione Simmetrica
16
Grafici per var. continue
0,5
1
0,4
0,8
Grafici per var. continue
0,5
0,3
0,6
P(x )
p(x)
0,6
p(x)
0,8
0,2
0,4
0,1
0,2
0
0
P(x)
0,3
1
0,4
0,2
0,4
0,1
0,2
0
0
1
2
3
4
0
0
1
2
3
4
1
2
cm 5
0,2
0,3
0,6
0,2
2
3
4
cm 5
Lunghezza supina (cm) in un campione di 60 neonati.
Valori ottenuti con l'infantometro Harpenden.
Ampiezza freq. semplici freq. cumulate
di classe
n
%
n
%
4.5
14
23.3
14
23.3
1.5
14
23.3
28
46.6
3
25
41.7
53
88.3
4.5
7
11.7
60 100.0
Qual è la classe più rappresentata?
3
4
5
6
7
8
9
cm10
0,2
0
1
2
0,4
0,1
0
1
P(x)
p(x)
0,6
..se le classi fossero di diversa ampiezza?
Estremi di
classe
44.25 - 48.75
48.75 - 50.25
50.25 - 53.25
53.25 - 57.75
0
1
0
4
10
0,8
0
3
9
0,4
0,2
2
8
0,5
0,1
1
7
1
0,4
0
6
0,8
P(x)
p(x)
0,3
5
0
Distribuzioni Asimmetriche
0,4
4
Distribuzione Asimmetrica con discontinuità
Titolo ass e
0,5
3
0
0
1
2
3
4
5
6
7
8
9 10 11
0
1
2
3
4
5
6
7
8
9
10
11
cm12
Tit olo asse
Distribuzioni Simmetriche traslate
..se le classi fossero di diversa ampiezza?
Estremi di Ampiezza freq. semplici
classe
di classe n %
44.25 - 48.75
4.5
14 23.3
48.75 - 50.25
1.5
14 23.3
50.25 - 53.25
3
25 41.7
53.25 - 57.75
4.5
7 11.7
Densità freq.
%
3.1 5.2
9.3 15.5
8.3 13.9
1.6 2.6
Se le classi sono di diversa ampiezza non sono direttamente
confrontabili.
Ci sono 3.11 bambini per ogni
h(x)=densità di frequenza
cm della classe
rapporto tra la frequenza
assoluta (o relativa) e
l’ampiezza della classe
La percentuale di unità per
ogni cm della classe è 5.2.
La densità di frequenza è un indicatore del grado di
addensamento nella classe ed è costruito nell’ipotesi che le
unità si distribuiscano uniformemente.
17
Classi di diversa ampiezza
Ampiezza
di classe
4.5
1.5
3
4.5
freq. semplici
n
%
14
23.3
14
23.3
25
41.7
7
11.7
10
Densità freq.
%
3.1
5.2
9.3
15.5
8.3
13.9
1.6
2.6
8
Densità di frequenza
Estremi di
classe
(44.25 , 48.75]
(48.75 , 50.25]
(50.25 , 53.25]
(53.25 , 57.75]
Classi di diversa ampiezza
densità
0
30
25
20
15
10
6
2
0
Altezza (cm)
44.25-48.75
48.75-50.25 50.25-53.25
53.25-57.75
ampiezza

Ogni istogramma (rettangolo) rappresenta una classe:
base = ampiezza della classe
altezza = densità di frequenza

L’area di ogni rettangolo è pari alla frequenza assoluta
(o relativa) della classe su cui insiste.

L’area totale deve essere pari a n o 1, a seconda del tipo
di frequenze raffigurate
4
5
0
48.75-50.25 50.25-53.25
Altezza (cm)
SI!
8
Densità di frequenza
NO!
35
f(x)%
44.25-48.75
10
40
Area=frequenza
4
2
Qual è la rappresentazione grafica?
45
6
53.25-57.75
Altezza (cm)
in effetti….
…anche nel caso di classi di uguale ampiezza avremmo dovuto usare le
densità per rappresentare graficamente i dati, tuttavia dividendo per
una quantità costante tutte le classi la forma della distribuzione non
cambia.
Analisi di due variabili
Analisi univariata:
variabile per volta
Stato civile di 3888 donne
italiane in gravidanza.
STATUS
Single
Sposate
Divorziate
Totale
f(x)
718
3029
141
3888
valutazione
di
una
Consumo di caffeina (cl/die) in
3888 donne italiane in gravidanza.
Caffeina
0
1-150
151-300
>300
Totale
f(x)
906
1910
742
330
3888
Tabella ad una entrata (rappresentazione della
distribuzione di frequenza di una variabile)
18
Analisi di due variabili
Analisi di due variabili
Distribuzione
congiunta
Analisi bivariata: esplora la relazione fra due
variabili
Consumo di caffeina (cl/die) e stato civile di 3888 donne in italiane in
gravidanza.
STATUS
Single
Sposate
Divorziate
Totale
CONSUMO di CAFFEINA (cl/die)
0
1-150 151-300 >300
Totale
218
327
106
67
718
652
1537
598
242
3029
36
46
38
21
141
906
1910
742
330
3888
STATUS
Single
Sposate
Divorziate
Totale
CONSUMO di CAFFEINA ()
1-150 151-300 >300
Totale
327
106
67
718
1537
598
242
3029
46
38
21
141
1910
742
330
3888
0
218
652
36
906
Distribuzione
marginale
Tabella a doppia entrata (rappresentazione congiunta
della distribuzione di frequenza di due variabili)
Analisi di due variabili
Altri tipi di grafici
Istogramma con rapporti di composizione
Diagramma a barre
Grafico a mosaico
2500
Casi incidenti di neoplasie maligne di alcune sedi
in tre Registri Tumori italiani, periodo 1988-’92
Sposate
Divorziate
Single
Single
Frequenza Assoluta
Divorziate
Sposate
mammella
colon
2000
corpo utero
1500
1000
500
0
PR
MC
RG
19
Altri tipi di grafici
Altri tipi di grafici
Diagramma ad aree
Grafici a radar
Casi incidenti di neoplasie maligne di alcune sedi, rilevate nel
corso di 4 anni di registrazione in un Registro Tumori
Morti per febbre tifoide e paratifi per mese
Decessi distinti per ora
100
polmone
prostata
colon
Frequenza
%
80
60
40
20
0
1991
1992
1993
1994
Utile per rappresentare variabili ordinali cicliche
20
Scarica