Università del Piemonte Orientale
Corsi di Laurea Triennale
Corso di Statistica e Biometria
Introduzione e Statistica descrittiva
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
1
Statistica
Funzioni
Descrittiva
Induttiva (inferenziale)
Statistica descrittiva :
• sintesi delle informazioni in pochi valori sintetici
• presentazione grafica (opzionale).
• descrizione della variabilità dei dati
Statistica induttiva:
formulazione di previsioni (leggi generali) sulle caratteristiche della
popolazione (universo dei dati) partendo da un campione.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
2
Popolazione:
• ‘insieme di tutti i valori realizzati o possibili di una variabile’
• insieme che raccoglie tutte le osservazioni possibili, relativamente
ad una data variabile o ad un dato fenomeno.
• può essere finita (comunque molto grande) o infinita
Attenzione i seguenti termini: individui, soggetti, unità statistiche sono
sinonimi.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
3
Campione:
• raccolta finita di elementi estratti da una popolazione
• scopo dell’estrazione è quello di ottenere informazioni sulla
popolazione
• pertanto il campione deve essere rappresentativo della
popolazione da cui viene estratto (‘non viziato’)
• per corrispondere a queste esigenze il campione viene individuato
con un campionamento casuale (metodi descritti nelle lezioni
successive).
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
4
La statistica opera su dati che definiamo ‘variabili’.
I dati di interesse vengono raccolti (misurati) per tutti i soggetti inclusi
nella popolazione o nel campione. Il termine ‘variabile’ sottolinea che
il valore cambia da un soggetto all’altro. I dati che non cambiano di
valore sono denominati ‘costanti’.
Alcune definizioni di ‘variabile’:
- ‘una caratteristica che varia da un’entità biologica ad un’altra’
(J.H.Zar)
- ‘qualunque genere di misura di cui si eseguano rilievi individuali è
detta variabile’ (P.Armitage)
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
5
Il valore delle variabili è conosciuto attraverso un processo di
misurazione a livello di ciascun individuo (unità statistica).
Livello di misurazione (categorie di variabili)
Categoriche
Nominale
Solo classificazione, senza ordinamento
Es sesso, specie, area geografica, scuola
Ordinale
Classificazione con ordinamento, ma con distanza tra i
valori ignota
Es. Punteggio scolastico, valutazioni cliniche
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
6
Numeriche
Variabili numeriche continue: possono assumere tutti i valori in un
intervallo, di regola sono prodotte da operazioni di misura (altezza,
peso, valori di laboratorio.
Variabili numeriche discrete (quando solo alcuni valori sono possibili,
ad esempio i valori corrispondenti ai numeri reali interi come l’età in
anni compiuti; di regola sono prodotte da operazioni di conteggio).
1
1
Inoltre possiamo suddividere le variabili numeriche secondo l’unità di misura.
Intervallo
Distanza tra i valori nota, valori espressi su una scala arbitraria. Es. temperatura in gradi centigradi.
Rapporto
Distanza tra i valori nota, su una scala naturale. Es. temperatura in gradi Kelvin, età, tempo
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
7
Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili?
Tipo di variabile
Categoriche
Numeriche
Nominale
Ordinale
Frequenza
SI
SI
SI
Frequenza cumulativa
NO
SI
SI
SI (no istogrammi
SI
SI
1 sola variabile
Istogrammi
cumulativi)
Media
NO
NO
SI
Mediana
NO
NO
SI
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
8
Quali statistiche possiamo applicare in relazione a ciascun tipo di variabili?
Tipo di variabile
Categoriche
Numeriche
Nominale
Ordinale
Frequenza
SI
SI
SI
Frequenza cumulativa
NO
SI
SI
SI (no istogrammi
SI
SI
2 variabili insieme
Istogrammi
cumulativi)
Correlazione
NO
NO
SI
Regressione
NO
NO
SI
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
9
Distribuzione di frequenza
Indichiamo come frequenza ( frequenza assoluta) il numero di
osservazioni con la caratteristica in esame (ad es. con un dato valore
della variabile in studio).
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
10
Distribuzione di frequenza: procedure
Variabili categoriche:
1. definire i possibili valori della variabile
2. predisporre l’elenco dei possibili valori (se ordinali in ordine
crescente)
3. contare quante osservazioni per ciascun valore
4. calcolare le corrispondenti proporzioni (eventualmente come
percentuali)
5. calcolare le frequenze cumulative (somma della frequenza delle
osservazioni con valore della variabile inferiore od uguale al valore
considerato) e le relative percentuali
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
11
1. e 2.
Risultato
scolastico
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
12
3.
Risultato
frequenza
scolastico
Insufficiente
4
Sufficiente
8
Buono
7
Distinto
4
Ottimo
5
Totale
28
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
13
Prima di procedere, rivediamo le definizioni di
- Proporzione o frequenza relativa
- Percentuale o frequenza relativa percentuale.
La proporzione si esprime la relazione quantitativa tra una parte ed il
tutto (peso di una fetta rispetto al peso dell’intera torta).
La si calcola con una frazione in cui il numeratore è compreso nel
denominatore:
p= parte / totale
Es in un gruppo di studenti abbiamo 12 maschi e 24 femmine.
Proporzione di maschi = 12 / 36
36 è il numero totale di studenti (12 + 24).
I limiti di una proporzione sono 0 e 1
0 <= p <= 1
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
14
Percentuale: indica una proporzione od una variazione riferiti ad una
base di 100.
In questo corso la percentuale è sempre utilizzata solo come
proporzione riferita ad una base di 100.
Percentuale= % = Proporzione * 100.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
15
4.
Risultato
Frequenza Proporzione
(frequenza
scolastico
relativa)
Insufficiente
4
0.14
Sufficiente
8
0.28
Buono
7
0.25
Distinto
4
0.14
Ottimo
5
0.19
Totale
28
1.0
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
16
Riepilogo: Come si calcola una proporzione?
P = x / totale
Dove:
P = proporzione
x = frequenza assoluta nella classe o categoria
Totale = numero totale di soggetti
La proporzione ha valori possibili compresi tra 0 e 1
Percentuale = proporzione * 100
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
17
Nelle pagine seguenti sono presente alcune rappresentazioni
grafiche (istogrammi e diagramma a torta) corrispondenti alle
distribuzioni di frequenza considerate negli esempi precedenti.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
18
esempio di diagramma a barre con variabile ordinale (totale= 28 osservazioni)
9
8
7
6
5
numero di bambini (frequenza)
4
3
2
1
0
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
risultato scolastico
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
19
esempio di diagramma a barre con variabile ordinale e distribuzione di frequenza relativa (proporzione)
0.36
0.28
proporzione
0.21
0.14
0.07
0.00
Insufficiente
Sufficiente
Buono
Distinto
Ottimo
risultato scolastico
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
20
diagramma a torta, variabile categorica ordinale. Viene indicata la percentuale corrispondente a
ciascun valore
Insufficiente
14%
Ottimo
19%
Distinto
14%
Sufficiente
28%
Buono
25%
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
21
Esempio con variabile numerica discreta non riunita in classi
ETA in anni compiuti
Elenco di tutti i valori possibili (intervallo definito arbitrariamente da 30 a 99)
30
50
70
90
31
51
71
91
32
52
72
92
33
53
73
93
34
54
74
94
35
55
75
95
36
56
76
96
37
57
77
97
38
58
78
98
39
59
79
99
40
60
80
41
61
81
42
62
82
43
63
83
44
64
84
45
65
85
46
66
86
47
67
87
48
68
88
49
69
89
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
22
Segue (sono conteggiati solo i valori con almeno
una osservazione
ETA
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
Frequenza
0
0
2
0
0
0
0
0
0
0
0
2
6
0
6
4
8
4
0
8
4
6
4
0
12
6
8
8
8
14
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
.90
.91
92
totale
12
20
20
22
38
20
32
18
8
22
22
8
18
24
14
4
6
4
0
4
0
0
0
2
0
0
0
0
0
0
0
0
2
430
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
23
Segue (sono conteggiati solo i valori con almeno
una osservazione, per i restanti valori la frequenza ha valore 0)
ETA
32
41
42
44
45
46
47
49
50
51
52
54
55
56
57
58
59
Frequenza
2
2
6
6
4
8
4
8
4
6
4
12
6
8
8
8
14
Percent
0.5
0.5
1.4
1.4
0.9
1.9
0.9
1.9
0.9
1.4
0.9
2.8
1.4
1.9
1.9
1.9
3.3
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
79
83
92
Totale
12
20
20
22
38
20
32
18
8
22
22
8
18
24
14
4
6
4
4
2
2
430
2.8
4.7
4.7
5.1
8.8
4.7
7.4
4.2
1.9
5.1
5.1
1.9
4.2
5.6
3.3
0.9
1.4
0.9
0.9
0.5
0.5
100.0
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
24
Distribuzione di frequenza:
Variabili numeriche (sia discrete sia continue)
occorre definire gli intervalli dei possibili valori (classi)
1. gli intervalli debbono essere definiti in modo che tutte le possibili
osservazioni cadano in una ed una sola classe
2. gli intervalli siano di uguale ampiezza (se possibile, semplifica la
preparazione di istogrammi)
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
25
Se le variabili sono numeriche occorre definire i intervalli dei valori
della variabile (classi)
1. gli intervalli debbono essere definiti in modo che tutte le possibili
osservazioni cadano in una ed una sola classe
2. è opportuno che gli intervalli siano di uguale ampiezza (se
possibile)
Esempio:
ETA ƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
30<=x<40
40<=x<50
50<=x<60
60<=x<70
70<=x<80
80<=x<90
90<=x<100
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
26
I segni:
! include solo i soggetti con variabile X di valore 1
=
es x=1
>=
x>=1 ! include i soggetti con variabile X di valore 1 (incluso) o
superiore ad 1
>
x>1 ! include solo i soggetti con variabile X di valore superiore
ad 1
<
<=
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
27
3.
calcolare le corrispondenti distribuzioni di frequenza e proporzioni
semplici e cumulative
Frequenza
Cumulative
ETA
Frequenza
Percent
Cumulativa
Percent
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
30<=x<40
2
0.5
2
0.5
40<=x<50
38
8.8
40
9.3
50<=x<60
70
16.3
110
25.6
60<=x<70
212
49.3
322
74.9
70<=x<80
104
24.2
426
99.1
80<=x<90
2
0.5
428
99.5
90<=x<100
2
0.5
430
100.0
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
28
Distribuzione di frequenza cumulative
La frequenza cumulativa è somma della frequenza delle osservazioni
con valore della variabile inferiore od uguale al valore considerato.
Calcolata la frequenza cumulativa si può calcolare la corrispondente
percentuale.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
29
Esempio di calcolo di frequenza cumulativa
ETA
32
41
42
44
45
46
47
49
50
51
52
54
55
56
57
58
59
Frequenza
2
2
6
6
4
8
4
8
4
6
4
12
6
8
8
8
14
Percent
0.5
0.5
1.4
1.4
0.9
1.9
0.9
1.9
0.9
1.4
0.9
2.8
1.4
1.9
1.9
1.9
3.3
Frequenza
0 + 2=
2 + 2 =
4 + 6 =
10 + 5 =
16 + 4 =
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
Cumulativa
2
4
10
16
20
28
32
40
44
50
54
66
72
80
88
96
110
30
Esempio
ETA
32
41
42
44
45
46
47
49
50
51
52
54
55
56
57
58
59
Frequenza
2
2
6
6
4
8
4
8
4
6
4
12
6
8
8
8
14
Percent
0.5
0.5
1.4
1.4
0.9
1.9
0.9
1.9
0.9
1.4
0.9
2.8
1.4
1.9
1.9
1.9
3.3
.Frequenza Percentuale
Cumulativa Cumulativa
2
0.5
4
0.9
10
2.3
16
3.7
20
4.7
28
6.5
32
7.4
40
9.3
44
10.2
50
11.6
54
12.6
66
15.3
72
16.7
80
18.6
88
20.5
96
22.3
110
25.6
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
79
83
92
totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
12
20
20
22
38
20
32
18
8
22
22
8
18
24
14
4
6
4
4
2
2
430
2.8
4.7
4.7
5.1
8.8
4.7
7.4
4.2
1.9
5.1
5.1
1.9
4.2
5.6
3.3
0.9
1.4
0.9
0.9
0.5
0.5
100.0
31
122
142
162
184
222
242
274
292
300
322
344
352
370
394
408
412
418
422
426
428
430
430
28.4
33.0
37.7
42.8
51.6
56.3
63.7
67.9
69.8
74.9
80.0
81.9
86.0
91.6
94.9
95.8
97.2
98.1
99.1
99.5
100.0
100.0
Istogrammi : rappresentazione grafica di distribuzioni di frequenza
Vengono disegnati su un grafico dei rettangoli, uno per ciascun
valore o intervallo di valori della variabile.
L’area dei rettangoli è proporzionale alla frequenza di osservazioni,
E’ opportuno quindi che i rettangoli abbiano tutti base uguale
Variabili categoriche: i rettangoli possono essere distanziati.
Variabili numeriche: i rettangoli non devono essere distanziati.
Come disporre i valori
Ascisse: valori della variabile
Ordinate: Frequenza (assoluta o percentuale, semplice o cumulativa,
a scelta)
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
32
Per disegnare correttamente un istogramma è necessario avere
l’occorrente per tracciare rette parallele e perpendicolari:
- 1 matita a punta fine
- 2 squadre oppure 1 squadra ed 1 righello
- gomma per cancellare
Per i diagrammi a torta occorre un goniometro.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
33
Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come
esercizio riportare gli intervalli come indicato a lezione
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
34
Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come
esercizio riportare gli intervalli come indicato a lezione
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
35
Attenzione, il modo di indicare gli intervalli di questo grafico non è corretto. Come
esercizio riportare gli intervalli come indicato a lezione
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
36
Esempio di istogramma che rappresenta la distribuzione di frequenza di una variabile
numerica discreta.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
37
Esempio di istogramma che rappresenta la distribuzione di frequenza cumulativa di
una variabile numerica discreta.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
38
Esempio di distribuzione di frequenza ed istogrammi con variabile
numerica continua.
La tabella presenta la concentrazione di emoglobina (espressa in g/l)
misurata in 51 campioni.
Voglio:
1. Suddividere le osservazioni per classi 1 grammo per / 100 ml, definendo in
modo esplicito i limiti di ciascuna classe.
2. Calcolare la distribuzione di frequenza e disegnare il grafico
corrispondente.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
39
128
133
134
136
136
137
138
138
139
139
140
141
141
141
142
142
142
143
143
143
144
144
144
145
145
145
146
146
146
146
147
147
147
148
148
149
149
150
150
151
151
151
152
152
153
154
154
156
157
159
160
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
40
Fase 1: definizione delle classi
classi
12 <= x < 13
13 <= x < 14
14 <= x < 15
15 <= x < 16
16 <= x < 17
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
41
Fase 2: frequenze assolute
classi
Frequenza
12<= x < 13
1
13 <= x < 14
9
14 <= x < 15
27
15<= x < 16
13
16<= x < 17
1
Totale
51
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
42
Fase 3 Percentuali
classi
Frequenza (numeri
Percentuale sul totale
assoluti
12<= x < 13
1
2,0%
13 <= x < 14
9
17,6%
14 <= x < 15
27
52,9%
15<= x < 16
13
25,5%
16<= x < 17
1
2,0%
51
100,0%
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
43
distribuzione di frequenza di una variabile numerica
ti
30
Numero osservazioni. (Frequenza)
25
20
15
10
5
0
12<= x < 13
13 <= x < 14
14 <= x < 15
15<= x < 16
16<= x < 17
Concentrazione di emoglobina (g/100ml)
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
44
Distribuzione di frequenza di 2 variabili
Il procedimento è analogo a quanto descritto per una sola variabile
ma più complesso per la necessità di classificare ciascun soggetto
per due variabili contemporaneamente.
Il procedimento segue queste fasi:
1. definire i possibili valori di ciascuna delle due variabili
2. scrivere una tabella con le due variabili a definire le righe e le
colonne
3. scrivere i valori delle variabili in ordine crescente
4. contare quante osservazioni per ciascuna combinazione di valori
5. calcolare i totali di riga, colonna e tabella
6. calcolare le corrispondenti proporzioni (eventualmente come
percentuali) riferite a: totale generale, totale di riga, tot. di colonna
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
45
Problema: descrivere l’associazione tra arteriopatia ed abitudine al
fumo (due variabili categoriche) in uno studio su 200 pazienti:
1. identifico le variabili ed i valori possibili
Var. A (arteriopatia), nominale, valori possibili = 2 (es. malato, sano)
Var B (fumo), nominale, valori possibili = 3 (es. non fumatore, ex
fumatore, attuale fumatore)
2. preparo una tabella con le due variabili a definire le righe e le
colonne
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
46
Arteriopatia
Malato
Totale
Sano
Mai
Fumo
Ex
Attuale
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
47
Arteriopatia
Malato
Totale
Sano
Mai
8
43
51
Ex
26
45
71
Attuale
30
48
78
64
136
200
Fumo
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
48
Percentuali sul totale delle osservazioni
Arteriopatia
Malati
Sani
% totale
Totale
Malati
Sani
%
%
F Mai
8
43
4,0
21,5
U Ex
26
45
13,0
22,5
M attuale
30
48
15,0
24,0
O Totale
100,0
200
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
49
Istogrammi da tabella con 2 variabili
Percentuali sul totale delle osservazioni
30,0
25,0
20,0
%
Malati
Sani
15,0
10,0
5,0
0,0
Mai
Ex
attuale
Malati
4,0
13,0
15,0
Sani
21,5
22,5
24,0
Fumo
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
50
Istogrammi da tabella con 2 variabili
Percentuali sul totale delle osservazioni
25,0
20,0
15,0
%
10,0
Malati
Sani
5,0
Sani
0,0
Malati
Mai
Ex
attuale
Fumo
Mai
Ex
attuale
Malati
4,0
13,0
15,0
Sani
21,5
22,5
24,0
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
51
Percentuali sul totale di riga
Arteriopatia
Malati
Sani
%riga
Totale
Malati Sani
%
%
%
F
Mai
8
43
51
15,7
84,3 100,0
U
Ex
26
45
71
36,6
63,4 100,0
M
attuale
30
48
78
38,5
61,5 100,0
O
Totale
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
200
52
Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo
90,0
80,0
70,0
60,0
50,0
Malati
%
Sani
40,0
30,0
20,0
10,0
0,0
Mai
Ex
attuale
Totale
Malati
15,7
36,6
38,5
32,0
Sani
84,3
63,4
61,5
68,0
Fumo
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
53
Istogrammi da tabella con 2 variabili Percentuali di malati per ciascuna categoria di fumo
90,0
80,0
70,0
60,0
50,0
%
40,0
30,0
Malati
Sani
20,0
10,0
Sani
0,0
Mai
Malati
Ex
attuale
Fumo
Totale
Mai
Ex
attuale
Totale
Malati
15,7
36,6
38,5
32,0
Sani
84,3
63,4
61,5
68,0
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
54
Percentuali sul totale di colonna
Arteriopatia
Malati
Sani
%colonna
Totale
Malati
Sani
F Mai
8
43
12,5
31,6
U Ex
26
45
40,6
33,1
M Attuale
30
48
46,9
35,3
O Totale
64
136
100,0
100,0
200
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
55
Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani
50,0
45,0
40,0
35,0
30,0
%
Malati
25,0
Sani
20,0
15,0
10,0
5,0
0,0
Mai
Ex
attuale
Malati
12,5
40,6
46,9
Sani
31,6
33,1
35,3
Fumo
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
56
Istogrammi da tabella con 2 variabili Percentuali di fumatori tra malati e sani
50,0
45,0
40,0
35,0
30,0
% 25,0
20,0
Malati
15,0
Sani
10,0
5,0
Sani
0,0
Malati
Mai
Ex
attuale
Fumo
Mai
Ex
attuale
Malati
12,5
40,6
46,9
Sani
31,6
33,1
35,3
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
57
Misure di tendenza centrale e di variabilità
• Media
• Deviazione Standard
• Coefficiente di variazione
• Mediana
• Moda
• Range
• Media e deviazione standard geometriche (trasformazione
logaritmica)
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
58
Media: è la più comune misura di tendenza centrale. Può essere
calcolata per variabili numeriche.
• Il valore medio di una variabile in un gruppo di osservazioni si
calcola sommando il valore della variabile per ciascuna
osservazione e dividendo il risultato per il numero di osservazioni.
• Media
= Σxi / n
= (x1 + x2+ x3+ x4+ x5+
La media viene indicata con
+ xn-1 + xn) / n
X
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
59
Deviazione Standard: misura la variabilità delle osservazioni intorno
alla Media.
Per spiegare la deviazione standard è utile esaminare prima le
statistiche Devianza e Varianza.
La Devianza è la somma dei quadrati delle differenze (scarti) tra il
valore della variabile e la media.
Dev = Σ[(xi – X )]2
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
60
La Varianza è la devianza divisa per il numero di osservazioni – 1
(si può definire anche come la media degli scarti quadratici).
• Var = Dev / (n-1) = Σ(xi – X )2 / (n-1)
La Deviazione Standard è la radice quadrata della varianza.
• DS= [Var] 1/2 = [Dev / (n-1)] 1/2 = [Σ
Σ(xi – X )2 / (n-1)] 1/2
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
61
Coefficiente di Variazione
CV% = ( DS /
X ) * 100
Dove:
DS= deviazione standard
X = media
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
62
Esempio = Calcolo di media e deviazione standard
Variabile = altezza - Campione = 20 soggetti
xi
xi - x
(xi – x)2
1,64
-0,05850
0,00342
1,74
0,04150
0,00172
1,65
-0,04850
0,00235
1,8
0,10150
0,01030
1,58
-0,11850
0,01404
1,76
0,06150
0,00378
1,55
-0,14850
0,02205
1,72
0,02150
0,00046
1,6
-0,09850
0,00970
1,69
-0,00850
0,00007
1,75
0,05150
0,00265
1,81
0,11150
0,01243
1,58
-0,11850
0,01404
1,76
0,06150
0,00378
1,57
-0,12850
0,01651
1,72
0,02150
0,00046
1,7
0,00150
0,00000
1,77
0,07150
0,00511
1,71
0,01150
0,00013
1,87
0,17150
0,02941
somme
0,0
0,15246
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
63
Media=
1,6985
Varianza=
0,008024
DS=
0,089576
CV%=
5,2739%
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
64
Mediana
Dato un insieme di osservazioni ordinate per valori crescenti della
variabile, la mediana corrisponde al valore dell’osservazione che
occupa la posizione centrale della distribuzione.
Se il numero di osservazioni è dispari la mediana corrisponde al
valore dell’osservazione che occupa la posizione centrale della
distribuzione.
Se il numero di osservazioni è pari abbiamo due osservazioni
centrali;
la mediana sarà ottenuta calcolando la media del valore di tali (due)
osservazioni centrali.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
65
Procedura per identificare l’osservazione o le osservazioni mediane:
N=numero totale di osservazioni.
Se N è pari: le due osservazioni che interessano sono quelle con
posizione N/2 e (N/2)+1
Se N è dispari: l’osservazione che interessa è quella con posizione
intero(N/2)+1
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
66
Mediana
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
67
Esempio = Calcolo di media e deviazione standard
Variabile = altezza - Campione = 20 soggetti
1
1,55
2
1,57
3
1,58
4
1,58
5
1,60
6
1,64
7
1,65
8
1,69
9
1,70
10
1,71
11
1,72
12
1,72
13
1,74
14
1,75
15
1,76
16
1,76
17
1,77
18
1,80
19
1,81
20
1,87
Mediana= (1,71 + 1,72) /2 = 1,715
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
68
Moda: è il valore o la classe di valori che si osserva con
maggior frequenza in una serie di osservazioni.
Possiamo avere distribuzioni con più mode (2 mode =
bimodale).
Range o campo di variazione= differenza tra il valore minimo e
quello massimo.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
69
Quanti decimali?
Per i risultati usate un decimale in più di quanti ne sono stati
usati per i dati corrispondenti.
Per i calcoli usate due decimali in più
Indicate le percentuali con un solo decimale
Ricordate che i numeri debbono essere arrotondati, non
troncati.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
70
Esercizio: Calcolate media, mediana e deviazione standard per le seguenti osservazioni (concentrazione di
emoglobina in decigrammi per 100 ml). Estraete un campione di tre osservazioni utilizzando la tavola dei numeri
casuali
142
143
142
143
144
135
144
144
146
147
124
144
145
146
145
146
150
156
146
132
134
136
141
141
141
151
159
151
152
153
154
155
142
142
147
148
148
137
137
138
139
147
152
153
139
140
149
149
149
150
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
71
Campione:
• raccolta finita di elementi estratti da una popolazione
• scopo dell’estrazione è quello di ottenere informazioni sulla
popolazione
• pertanto il campione deve essere rappresentativo della
popolazione da cui viene estratto (‘non viziato’)
• per corrispondere a queste esigenze il campione viene individuato
con un campionamento casuale.
Metodo: tavola dei numeri casuali
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
72
Tavola dei numeri casuali (tavola esemplificativa)
33369 22784 33875 41853 96864 47971 95778 08005 13691 63400
27255 03112 68048 77412 56742 76219 31224 14474 75336 86303
06338 95707 49455 85540 13965 75668 33709 06295 33055 62019
78309 42155 90346 49145 20503 00241 29991 19345 61564 99081
99759 97934 03254 41554 21590 57210 07123 68756 63083 96235
67176 10433 87681 87210 64933 68347 92077 88792 91810 58573
65248 76928 89837 08846 56629 32437 67688 17835 91940 90593
49006 76166 02500 63782 59322 00390 98163 63614 78605 49403
68103 85644 25796 91448 30805 42664 51326 74436 62322 12241
63802 53305 04059 59764 90724 76359 55535 86055 29585 46302
79742 99960 26124 46870 20689 25098 06410 27973 46998 77311
57720 54907 74245 84488 04270 73048 99066 06519 48641 55943
79237 41051 12398 66696 85112 14981 17287 21146 62211 05821
24228 57850 98341 16681 37812 47509 18925 86597 18675 49091
55660 49424 43933 05963 20149 05200 50960 08358 67511 01933
19861 22439 01143 94432 63532 56945 58842 40528 92572 20741
94669 32527 87760 94104 25509 76415 05216 24500 17838 70817
89985 34649 53377 31730 94086 31638 35588 17093 36147 91279
48789 72702 67008 21668 82146 01413 79372 14942 68705 38683
49480 02888 22917 63258 11111 33411 13775 85533 80985 00143
24743 85641 42291 36778 10893 05437 19824 08378 42976 86795
64847 23589 33594 89748 10957 32718 51763 68813 10425 77035
03430 36514 70661 31756 05050 40475 71065 74305 77737 29833
75385 23135 69283 16727 65703 02780 23804 68981 11584 49648
64545 63962 51199 01283 97825 28393 66071 82123 57660 19916
98208 33362 69117 21161 23944 64238 94059 14970 05617 12805
32054 07203 26193 21394 84195 24214 84411 40803 98537 38507
17344 15148 48565 37822 58481 89051 82970 42120 31433 22193
50394 05450 64035 43057 40668 41553 60431 18390 64851 68625
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
73
Esempio:
estrazione di un campione di 10 soggetti da una base
di 100 soggetti (numerati da 1 a 100). La base è
elencata nella tabella allegata
Dovrò scegliere numeri di 3 cifre.
Decido che procederò progressivamente per colonna,
dall’alto in basso.
In modo casuale individuo il punto sottolineato come
punto di partenza.
I successivi valori compresi tra 1 e 100 sono annotati
in grassetto. I valori 040, 011, 026, 045, 088
corrispondono ai soggetti da campionare.
Tali soggetti sono evidenziati nella tabella successiva
con indicati i valori di emoglobina.
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
75
Tavola dei numeri casuali
33369 22784 33875 41853 96864 47971 95778 08005 13691 63400
27255 03112 68048 77412 56742 76219 31224 14474 75336 86303
06338 95707 49455 85540 13965 75668 33709 06295 33055 62019
78309 42155 90346 49145 20503 00241 29991 19345 61564 99081
99759 97934 03254 41554 21590 57210 07123 68756 63083 96235
67176 10433 87681 87210 64933 68347 92077 88792 91810 58573
65248 76928 89837 08846 56629 32437 67688 17835 91940 90593
49006 76166 12500 63782 59322 00390 98163 63614 78605 49403
68103 85644 25796 91448 30805 42664 51326 74436 62322 12241
63802 53305 04059 59764 90724 76359 55535 86055 29585 46302
79742 99960 26124 46870 20689 25098 06410 27973 46998 77311
57720 54907 74245 84488 04270 73048 99066 06519 48641 55943
79237 41051 12398 66696 85112 14981 17287 21146 62211 05821
24228 57850 98341 16681 37812 47509 18925 86597 18675 49091
55660 49424 43933 05963 20149 05200 50960 08358 67511 01933
19861 22439 01143 94432 63532 56945 58842 40528 92572 20741
94669 32527 87760 94104 25509 76415 05216 24500 17838 70817
89985 34649 53377 31730 94086 31638 35588 17093 36147 91279
48789 72702 67008 21668 82146 01413 79372 14942 68705 38683
49480 02888 22917 63258 11111 33411 13775 85533 80985 00143
24743 85641 42291 36778 10893 05437 19824 08378 42976 86795
64847 23589 33594 89748 10957 32718 51763 68813 10425 77035
03430 36514 70661 31756 05050 40475 71065 74305 77737 29833
75385 23135 69283 16727 65703 02780 23804 68981 11584 49648
64545 63962 51199 01283 97825 28393 66071 82123 57660 19916
98208 33362 69117 21161 23944 64238 94059 14970 05617 12805
32054 07203 26193 21394 84195 24214 84411 40803 98537 38507
17344 15148 48565 37822 58481 89051 82970 42120 31433 22193
50394 05450 64035 43057 40668 41553 60431 18390 64851 68625
78953 17763 97731 42023 83425 21144 61224 08446 59292 20144
00944 74988 12680 67331 38098 07617 07062 68488 10741 47585
09145 60399 34502 96525 01889 26599 00459 84522 16394 04293
95169 67557 02640 34346 11248 38069 92350 56729 39454 29692
70508 54005 04520 68481 49490 54518 61250 57413 21963 58693
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
76
Num. Prog.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Hb
129
133
133
134
136
136
136
136
137
137
137
137
138
138
138
138
139
139
139
139
139
140
140
141
141
141
141
141
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
141
141
141
141
141
142
142
142
142
142
142
142
142
142
142
142
142
142
143
143
143
143
143
143
143
143
143
143
144
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
144
144
144
144
144
144
144
145
145
145
145
145
145
145
145
146
146
146
146
147
147
147
147
147
147
147
148
148
148
77
87
88
89
90
91
92
93
94
95
96
97
98
99
100
148
148
149
149
149
149
149
149
149
149
149
149
149
150
Corsi di Laurea Triennale Corso di Statistica e Biometria: Introduzione e Statistica descrittiva
78