statistica - Maria Fabiani

annuncio pubblicitario
STATISTICA
DESCRITTIVA
INFERENZIALE
Ho un insieme di dati e li
voglio descrivere,
sintetizzare e commentare
Ho un insieme di dati
e li utilizzo per fare
induzione e previsione
LA TERMINOLOGIA
!   Statistica descrittiva e inferenziale
!   Campione e Universo
!   Parametri e Stime
!   Variabili e Dati
!   Scale di misura
!   Rappresentazione grafica
La Statistica ha una sua terminologia. Molti termini sono familiari: alcuni sono
usati nel linguaggio ordinario sia pure in accezioni leggermente diverse.
UNIVERSO e CAMPIONE
Un campione è un insieme di elementi tratti da un
universo (o popolazione). Un universo consiste della
totalità degli elementi che hanno certe caratteristiche.
Esempi:
!   Universo:
tutti i pazienti adulti con una certa malattia.
!   Campione:
120 pazienti con quella malattia, inclusi in una
sperimentazione clinica.
!   Universo:
un lotto di 5000 compresse.
!   Campione:
del
10 compresse di quel lotto sottoposte al controllo
peso. F Il campione è soltanto una parte del tutto.E
PARAMETRI DELL'UNIVERSO E STIME
• 
I parametri sono caratteristiche tipiche e costanti di un
dato universo e hanno, in genere, valore ignoto: sono
anche detti costanti o valori veri per distinguerli dai valori
campionari che sono invece variabili.
• 
I parametri sono indicati con lettere greche (es.: una
media si denota con µ - si legge mi- , una proporzione con
π - si legge pi).
Esempi:
• 
• 
La media dei pesi di tutte le compresse in un certo lotto di
produzione (µ).
La proporzione di β-talassemici tra tutti i nati nella provincia
di Roma tra il 1950 e il 1989 (π).
INFERENZA
Nelle situazioni sperimentali si eseguono osservazioni su di un campione per trarre conclusioni (o fare inferenza) sulle cara7eris8che della universo. !  
Tale procedura è necessaria poiché un universo infinito non è conoscibile in modo esaus6vo, neppure virtualmente. !  
(es: tu? i sogge? con tubercolosi polmonare nella storia, anche futura, dell'umanità; la totalità delle misure che si possono o7enere con un certo spe7rofotometro) !  
Anche un universo finito !  
(es: tu? i residen8 a Milano; tu7e le fiale di un lo7o) di rado può essere esplorato completamente, per problemi di tempo o costo. VARIABILI E DATI
!   Si dicono variabili le cara9eris6che rilevabili di un dato sistema ogge7o di studio !   I da6 sono i valori assun8 dalle variabili I dati sperimentali si presentano sotto differenti forme, essi possono
essere sia di tipo quantitativo sia di tipo qualitativo, ed essere
espressi o con scale continue o con scale discrete.
Le variabili
!   Le condizioni indispensabili per la riproduzione dei fenomeni osserva8 ( valore predi?vo
sono de7e variabili . ad esempio l altezza di una persona, il sesso, l’età, ecc. ) !   Una variabile è una condizione, un a7ributo o una cara7eris8ca di una persona (o di un evento), che può essere misurata. !   Tale condizione, a7ributo o !   Una variabile può essere cara7eris8ca varia a seconda delle situazioni o degli individui. !  
Le diverse proprietà di una variabile si definiscono valori o modalità. !   Per esempio, per la variabile sesso i valori sono 2: genere maschile e femminile. !   Se ad esempio la variabile è il colore dei capelli, avremo più valori. Esempi:
!  
sesso, età, peso (di pazien8 inclusi in uno studio), I valori numerici ( !  
!  
!
anni, per la variabile "età"; chili, per il "peso corporeo", mmHg, per la "pressione arteriosa" ) o le modalità ( maschio o femmina per la variabile "sesso"; A, AB, B, 0 per il "gruppo sanguigno", elementare, media inferiore, media superiore, università , per la variabile "8tolo di studio ), !  
!  
!  
assun6 dalle variabili, cos8tuiscono i da6, ricavabili da esperimen8 scien8fici, da indagini epidemiologiche o di mercato. Le variabili
Scala
• Quantitative
Discreta
Continua
Variabili
Nominale
• Qualitative
Ordinale
VARIABILI QUANTITATIVE IN SCALA DISCRETA
Si dicono discrete quelle variabili che possono assumere … !   un numero finito di valori (es.: il numero di na8 mal-­‐forma8 in un anno, il numero di cavie sopravvissute a una data dose di farmaco somministrata a 20 cavie), !   Oppure un'infinità numerabile di valori, almeno virtualmente (es.: il numero di a7acchi anginosi per se?mana in un sogge7o coronaropa8co). VARIABILI QUALITATIVE IN SCALA NOMINALE
Discrete sono inoltre le variabili che esprimono qualità o modalità che non si possono porre in ordine di grandezza, !   ad esempio il sesso (femmina, maschio) !   o il gruppo sanguigno (0, A, B, AB). La scala in cui sono espresse tali variabili è de7a scala nominale. SCALA NOMINALE (esempi)
Gruppo sanguigno di 100 sogge? residen8 nella provincia di Roma. Distribuzione di frequenza del gruppo
sanguigno di 100 soggetti residenti nella
provincia di Roma
Tipo
n° soggetti
0
47
A
41
B
9
AB
3
Totale
100
A
A
AB
A
A
0
A
A
0
0
A
0
A
A
A
0
0
0
A
A
0
0
A
0
B
0
0
B
0
A
0
A
0
0
0
A
A
0
0
A
A
0
A
A
0
A
0
A
0
A
0
A
A
0
B
A
A
A
0
0
B
0
A
A
0
0
0
0
B
0
0
0
A
B
0
AB
0
A
0
A
0
0
A
A
AB
A
0
B
0
0
0
A
0
B
A
0
A
0
A
SCALA NOMINALE (esempi)
SCALA DICOTOMICA: da8 più semplici consistono in osservazioni non ordinate dicotomiche o del 8po "tu7o o nulla"; cioè: il paziente vive o muore, ha o non ha un par8colare a7ributo. Stato a 28 giorni dal ricovero
Morti
Vivi
Totale
% sopravvivenza
Trattati con
propranololo
Non trattati
7
38
45
84%
17
29
46
63%
SCALA NOMINALE
(esempi)
SCALA
NOMINALE
Non necessariamente una scala nominale deve essere dicotomica;
spesso vi sono più di due alternative o criteri di classificazione.
Per esempio i gruppi sanguigni illustrano una scala policotomica non
ordinata.
Gruppo
Sanguigno
donne con
tromboembolia
n.
%
donne senza
tromboembolia
n
%
A
32
58
51
35
B
8
15
19
13
AB
6
11
5
3
0
9
16
70
49
Totale
55
100
145
100
L’osservazione delle percentuali in funzione del gruppo sanguigno suggerisce un
deficit del sangue tipo 0 nel gruppo affetto da tromboembolia (16%) in confronto ai
controlli (49%)
SCALA ORDINALE
!  
Non sempre le variabili con8nue sono misurabili in modo quan8ta8vo, anche se i loro valori possono esser dispos6 in ordine di grandezza. !   Un paziente arruolato in uno studio di efficacia di un analgesico, può pa8re una qualunque intensità di dolore senza potervi associare una quan6tà. Egli, però, può classificare l'intensità del dolore nella scala ordinale: !  
nulla < lieve < moderata< forte Alle modalità si associa un punteggio !   (es.: nulla=0, lieve=1, moderata=2, forte=3) !   che non ha significato quan6ta6vo: !   2 non è il doppio di 1, !   3 non è il triplo di 1, !   la differenza tra 2 e 1 non è uguale a quella tra 3 e 2. SCALA ORDINALE
!  
Una variabile quan6ta6va può anche essere misurata su scala ordinale. !  
Esempi: L'età dei pazien8 può essere espressa nella scala ordinale bambini < ragazzi < adul6 < anziani Il numero di episodi anginosi alla se?mana può essere espresso in scala ordinale assen6 < rari < frequen6 o, addiri7ura, in modo binario: NO < SI SCALA ORDINALE
!   Distribuzione di frequenza della variabile "Titolo di studio" (L'Italia in cifre, ISTAT 1996). Titolo di studio
nessuno
elementare
media inferiore
media superiore
laurea
Totale
n° soggetti
1.123
23.962
16.418
9.947
2.032
53.482
SCALA A RANGHI
La scala a ranghi è quella che ordina gli elemen8 di un gruppo dal maggiore al minore in accordo alla grandezza delle osservazioni, assegna i numeri d'ordine corrisponden8 alla posizione occupata (rango) e trascura le distanze tra gli elemen8 ordina8. Per esempio, si supponga che pazien8 con cefalea cronica partecipino ad una prova clinica in cui essi ricevono 4 differen8 prepara8 analgesici in 4 differen8 occasioni. !   Al paziente si chiede di classificare i prepara8 in funzione del livello di riduzione del dolore da un massimo ad un minimo. !   Se un paziente ri8ene che il farmaco A sia migliore e il farmaco B il secondo, egli dovrebbe assegnare ai due rispe?vamente il rango 1 e 2 indipendentemente dal fa7o che egli ritenga A molto superiore o appena meglio di B. SCALA A RANGHI
Punteggio a7ribuito a 5 cara7eris8che del neonato rilevate all'esame obie?vo necessarie per o7enere il punteggio Apgar. Caratteristica
Punteggio
0
1
2
Frequenza cardiaca
assente
< 100
> 100
Respirazione
assente
lenta e irregolare
normale, piange
Tono muscolare
flaccido
flessione estremità
buona motilità
Riflessi
nessuna risposta
Colorito
pallido
deboli movimenti reazione vigorosa
estremità cianotiche
Punteggio: DA ZERO A DIECI
rosato
SCALA NUMERICA DISCRETA
Distribuzione di frequenza del numero di componen8 per famiglia (L'Italia in cifre, ISTAT 1996). Componenti
modalità
1
2
3
4
5
6
7 o più
Totale
assolute
4.101
4.917
4.419
4.220
1.572
477
203
19.909
n° famiglie(Frequenze)
relative
cumulate
0.206
4 101
0.247
9 018
0.222
13 437
0.212
17 657
0.079
19 229
0.024
19 706
0.010
19 909
1.000
relative
0.206
0.453
0.675
0.887
0.966
0.990
1.000
VARIABILI QUANTITATIVE IN SCALA CONTINUA
Si dice continua una variabile che può virtualmente assumere un
qualsiasi valore reale, in un certo ambito.
• 
Ad esempio, Marco può essere alto esattamente …… metri¸
cioè 1.7724538509... m.
In pratica, tuttavia, le misure di una variabile quantitativa
possono assumere solo certi valori, in relazione al potere di
risoluzione dello strumento di misura.
• 
Ad esempio, l'altezza di Marco è 1.77 m, se misurata con un metro da
sarto; è invece 1.772 m se misurata con lo stadio-metro Harpenden.
SCALA NUMERICA
CONTINUA
51.0 49.4 49.0 52.5 51.5 51.8
46.5 47.8 49.7 44.5 49.8 53.0
48.7 50.0 52.9 50.8 46.2 48.9
54.5 48.2 48.9 51.2 49.5 56.3
Lunghezza supina (cm) in un campione di 60 neona8. Valori o7enu8 con l'infantometro Harpenden. 46.0 52.2 47.0 50.8 50.0 52.5
51.2 51.1 54.7 52.3 48.2 50.8
55.0 50.2 50.3 47.7 48.5 53.8
50.2 53.4 47.4 50.5 51.7 49.5
44.4 49.2 50.5 49.5 52.9 50.5
54.0 46.5 51.5 50.9 51.6 52.7
limiti di classe valore centrale
44.25 - 45.75
45.0
45.75 - 47.25
46.5
47.25 - 48.75
48.0
48.75 - 50.25
49.5
50.25 - 51.75
51.0
51.75 - 53.25
52.5
53.25 - 54.75
54.0
54.75 - 56.25
55.5
56.25 - 57.75
57.0
frequenza
Assoluta
Cumulata
2
2
5
7
7
14
14
28
16
44
9
53
5
58
1
59
1
60
Facciamo un passo indietro….
- Continuo: peso, statura, tempo,
colesterolo sierico
Caratteri
quantitativi
- Discreto: numero gravidanze
Per i caratteri quantitativi possono prendersi come
modalità delle classi
Classificazione dei caratteri: RISPETTO AL
LIVELLO DI MISURAZIONE
1) Nominale o classificatoria
2) ordinale o per ranghi
3) ad intervalli
4) di rapporti
4 tipi di scale
Aumentano
le
proprietà di
misura
sulla scala
Nominale o classificatoria
Esiste solo una sola relazione: l identità
I risultati possono essere classificati in
categorie qualitative dette anche nominali
I caratteri nominali sono detti anche
sconnessi perché non assumono alcun
ordine precostituito
Operazione ammessa il conteggio
SCALA NOMINALE
TIPO DI DIETA
Ipoproteica
Iposodica
Ipolipidica
Ipoglucidica
Ipocalorica
SCALA ORDINALE
PAP TEST
Classe I: Assenza di cellule atipiche
Classe II: Citologia non regolare, ma nessun segno di malignità
Classe III: Citologia sospetta ma non sicura
Classe IV: Citologia sospetta
Classe V: Citologia molto sospetta
Ordinale o per ranghi
Non solo uguaglianza o
diversità ma anche...
gradazione tra le classi o
tra individui di classi
differenti
Relazione d ordine è asimmetrica e transitiva
limite
In una scala ordinale, non è
possibile quantificare le
differenze di intensità tra le
osservazioni.
La scala ad intervalli
aggiunge la proprietà di misurare le
distanze o differenze tra tutte le
coppie di valori
9
F = C + 32
5
Esempio la scala Celsius o Fahrehneit o il tempo
L origine della scala ad intervalli (lo zero) è arbitraria
nel senso che non indica l assenza totale della
quantità che si sta misurando
limite
Non è possibile il rapporto tra coppie di valori
(Una temperatura di 80 gradi Celsius non è il doppio
di una di 40 gradi)
Scala a rapporti
ha il vantaggio di avere
un’origine naturale. Lo zero
indica l assenza della quantità
Altezza, distanza, velocità, l età, il
peso, il reddito, la temperatura
Kelvin
Gode di
tutte le
proprietà
delle scale
precedenti
Scalogramma di Guttmann
Nominale Ordinale Intervallo Rapporti
Identità
Ordinamento
Differenze
Rapporti
+
+
+
+
+
+
+
+
+
+
Rappresentare le variabili
ID studente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
nominale
dicotomi
ca
Sesso Anno di nascita
Anno di immatricolazione
Esami completati
Voto medio
quantitativa
discreta
ordinale
ordinale
quantitativa
continua
Sistemazione dei dati in
tabella
563472323264393
203346542367342
513437021315045
0
1
2
3
4
5
6
7
8
9
freq. Ass.
3
3
7
12
7
5
4
3
0
1
45
freq. Ass.
cumul.
freq. Rel.
3
6,7%
6
6,7%
13
15,6%
25
26,7%
32
15,6%
37
11,1%
41
8,9%
44
6,7%
44
0,0%
45
2,2%
100,0%
5
6
2
0
5
1
xi
!   Frequenza assoluta: è il numero di volte con cui si presenta
una data modalità
l  Frequenza
relativa: si ottiene rapportando la
frequenza assoluta al numero totale delle
osservazioni
l  Distribuzione
di frequenza: è la tabella che
associa ad ogni modalità la sua frequenza
l  Distribuzione
di quantità: è la tabella che
associa ad ogni modalità l ammontare del
carattere che è imputabile ad ogni data
modalità
Distribuzione statistica di frequenza
Età-xi
15-24
25-34
35-44
45-54
55-64
65-74
75-84
>=85
0 ≤ fi =
freq.
freq. Rel.
freq. Rel. Fi Cumulata Cumulata
0,00068
3
0,001
0,00317
17
0,004
0,01424
80
0,018
0,05426
320
0,072
0,16324
1.042
0,236
0,27267
2.248
0,508
0,32896
3.703
0,837
0,16279
4.423
1,000
1,00000
Decessi yi
3
14
63
240
722
1.206
1.455
720
4.423
4.423
4.420
4.406
4.343
4.103
3.381
2.175
720
yi
≤1
N
0 ≤ yi ≤ N
freq.
Retrocu
mulata
4.423
4.420
4.406
4.343
4.103
3.381
2.175
720
Distribuzione statistica di quantità
Redditi- xi
<= 10000
10000--|20000
20000--|40000
> 40000
N° redditieri- yi
7
20
20
3
50
Ammontare di reddito
35000
270000
600000
160000
1065000
Carattere quantitativo
SERIAZIONE
Carattere qualitativo
SERIE
Tempo t
Serie storica
2001
2002
2003
2004
N° pazienti
dimessi
Scarica