1 statistica nozioni di base - e-learning

annuncio pubblicitario
Nozioni di base
STATISTICA
NOZIONI DI BASE
Italo Nofroni
Statistica medica - Sapienza - Roma
Nozioni di base
Durante la raccolta dei dati, scelto il
metodo di rilevazione, vengono
individuate le unità statistiche che
saranno prese in considerazione per
portare a termine l’indagine
Nozioni di base
Si definisce statistica la scienza cha ha
per oggetto la raccolta, l’analisi e
l’interpretazione dei dati (intensità e/o
frequenze) riguardanti un determinato
fenomeno in un collettivo prefissato
Nozioni di base
Unità statistica: è l’unità elementare in
grado di fornire dati e informazioni
relativamente ai caratteri presi in esame
L’insieme delle unità statistiche
costituisce il collettivo (popolazione o
campione) oggetto di studio
Nozioni di base
Scelta del fenomeno oggetto di studio
Caratteri
aspetti del fenomeno oggetto di studio
Individuazione dei caratteri
Modalità (xi)
modo di manifestarsi del carattere
Definizione delle modalità
1
Nozioni di base
Nozioni di base
Classificazione dei caratteri qualitativi
Classificazione dei caratteri
Qualitativi (mutabili): con modalità individuate
tramite nomi o qualità
Ordinabili (o rettilinei): quando esiste un
ordine prestabilito di presentazione
Quantitativi (variabili): con modalità che
esprimono delle quantità e sono quindi
identificate da numeri
Sconnessi: quando non esiste un ordine
prestabilito di presentazione
Nozioni di base
Nozioni di base
Classificazione dei caratteri quantitativi
Continui: con modalità numeriche che
prevedono l’uso di decimali. Abitualmente tali
valori vengono arrotondati o raggruppati in
classi
Discreti: con modalità espresse
esclusivamente da numeri interi
Nozioni di base
Le scale di misura
Il tipo di scala di misura adottata dipende
strettamente dal tipo di carattere (variabile o
mutabile) preso in considerazione, ma anche
dalle finalità dell’indagine, nonché dalla
disponibilità di dati
Nozioni di base
Le scale di misura
Le scale di misura
Scala nominale
Scala categorica
Utilizzabile per mutabili sconnesse
Utilizzabile per mutabili ordinate
Operazioni consentite:
Operazioni consentite:
=
≠
=
>
<
≠
2
Nozioni di base
Nozioni di base
Le scale di misura
Le scale di misura
Scala quantitativa ordinale
Scala ad intervalli (rapporti o cardinale)
Utilizzabile per variabili discrete identificative
di una posizione (rango)
Per variabili per le quali esiste una unità di
misura comune, quindi una distanza oggettiva
tra le varie modalità
Operazioni consentite:
=
>
<
≠
Nozioni di base
Operazioni consentite:
tutte
Nozioni di base
Le scale di misura
Le scale di misura
Scala dicotomica
Altre scale
Variabili espresse come presenza (1) assenza
(0) del carattere (booleane, dummy, binarie…)
Adottate in genere nei questionari (Likert…)
Operazioni consentite:
=
≠
Nozioni di base
Le distribuzioni statistiche
Operazioni consentite: dipende…
Nozioni di base
Le distribuzioni statistiche
In ogni collettivo ogni modalità può
presentarsi più volte
L’insieme delle modalità e delle frequenze
costituisce la distribuzione statistica
Il numero delle volte che una modalità si
presenta prende il nome di frequenza
assoluta (ni) (o semplicemente frequenza)
Nel caso di un carattere qualitativo
(mutabile) la distribuzione si chiamerà serie
Nel caso di un carattere quantitativo
(variabile) la distribuzione viene detta
seriazione
3
Tabulazione dei dati
Nozioni di base
I dati raccolti abitualmente vengono riportati in
apposite tabelle
Le distribuzioni statistiche
Si distinguono
Le distribuzioni con frequenze unitarie
sono dette distribuzioni semplici
Tabelle semplici (singole): relative ad un unico
carattere
Le distribuzioni con frequenze non
unitarie sono dette distribuzioni di
frequenza
Tabelle doppie (a doppia entrata): relative a 2
caratteri “incrociati”
Tabelle multiple: relative a 3 o più caratteri
Tabulazione dei dati
Esempio 1:
tabella semplice,
serie
Tabulazione dei dati
ni
Stato civile
Celibe/nubile
34
Coniugato/a
51
Divorziato/a
12
Vedovo/a
18
Totale
115
Tabulazione dei dati
Esempio 3:
tabella semplice,
seriazione,
distribuzione di
frequenza
Esempio 2:
tabella semplice,
seriazione,
distribuzione
semplice (le
frequenze unitarie
non vengono
riportate)
Voti in latino in
un semestre
2
4
5
7
Tabulazione dei dati
Numero di
figli
0
1
2
3
4
5
Totale
ni
22
89
56
11
8
4
190
Esempio 4: tabella doppia, due serie
Tipo di farmaco
Esito
Totale
Aspirina
Placebo
Positivo
33
14
47
Negativo
17
41
58
Totale
50
55
105
4
Tabulazione dei dati
Tabulazione dei dati
Esempio 4: tabella doppia, due serie
Esempio 4: tabella doppia, due serie
Tipo di farmaco
Esito
Tipo di farmaco
Totale
Aspirina
Placebo
Positivo
33
14
47
Negativo
17
41
Totale
50
55
Esito
Totale
Aspirina
Placebo
Positivo
33
14
47
58
Negativo
17
41
58
105
Totale
50
55
105
Caratteri “incrociati”
Modalità
Tabulazione dei dati
Tabulazione dei dati
Esempio 4: tabella doppia, due serie
Esempio 4: tabella doppia, due serie
Tipo di farmaco
Esito
Tipo di farmaco
Totale
Aspirina
Placebo
Positivo
33
14
47
Negativo
17
41
Totale
50
55
Esito
Totale
Aspirina
Placebo
Positivo
33
14
47
58
Negativo
17
41
58
105
Totale
50
55
105
Celle contenenti le frequenze osservate
Totali marginali di riga e di colonna
Tabulazione dei dati
Tabulazione dei dati
Esempio 4: tabella doppia, due serie
Esempio 5:
Tipo di farmaco
Esito
Totale
tabella doppia,
serie (sesso) e
seriazione (età),
distribuzione di
frequenza
Sesso
Età (in
anni
compliuti)
Maschi
Femmine
18
22
26
48
19
45
48
93
Totale
Aspirina
Placebo
Positivo
33
14
47
Negativo
17
41
58
20
18
20
38
Totale
50
55
105
21
6
11
17
Totale
91
105
196
Totale generale
5
Tabulazione dei dati
Tabulazione dei dati
Esempio 6:
Carattere
Frequenza
ni
x1
n1
x2
n2
x3
n3
…
…
xi
ni
…
…
xK
nk
Totale
N
tabella doppia, due seriazioni, in classi
Numero
Tabulazione dei dati
Classi di età
di sigarette
fumate
12 - 13
14 - 15
16 - 17
nessuna
90.0
81.2
76.4
1 - 5
5.1
10.8
12.8
6 - 10
4.9
6.7
8.8
oltre 10
0
1.3
2.0
Totale
100
100
100
Distribuzione di
frequenza (carattere
quantitativo)
Valori percentuali
Tabulazione dei dati
Tabulazione dei dati
Carattere
Frequenza
ni
niR
Frequenze
relative
Tabulazione dei dati
Carattere
Frequenza
ni
niR
%i
x1
n1
n 1 /N
n 1 .100/N
x2
n2
n 2 /N
n 2 .100/N
x3
n3
n 3 /N
n 3 .100/N
…
…
…
…
x1
n1
n 1 /N
x2
n2
n 2 /N
x3
n3
n 3 /N
…
…
…
xi
ni
n i /N
xi
ni
n i /N
n i .100/N
…
…
…
…
…
…
…
xK
nk
n k /N
xK
nk
n k /N
n k .100/N
Totale
N
1
Totale
N
1
100
Frequenze cumulate
Carattere
Frequenza
ni
niR
%i
Ni
x1
n1
n 1 /N
n 1 .100/N
N1
x2
n2
n 2 /N
n 2 .100/N
N2
x3
n3
n 3 /N
n 3 .100/N
N3
…
…
…
…
…
xi
ni
n i /N
n i .100/N
Ni
…
…
…
…
…
xK
nk
n k /N
n k .100/N
N
Totale
N
1
100
Frequenze
percentuali
Sintesi statistica
Un insieme di dati numerici è compiutamente
descritto e sintetizzato da tre informazioni
principali
• La tendenza centrale o posizione centrale
• La variabilità o dispersione
• La forma della sua distribuzione
6
Sintesi statistica
La tendenza centrale
Sintesi statistica
Variabilità o dispersione
• Viene espressa tramite il calcolo delle
medie
Tramite opportuni indici viene espressa la
diversità che sussiste
• Le medie sono molteplici, ma ciascuna di
esse è adatta a particolari situazioni o
esprime un diverso modo di sintetizzare i
dati statistici
fra i singoli valori
Sintesi statistica
Sintesi statistica
fra i singoli valori ed il valore centrale di
riferimento (media)
Forma della distribuzione
Forma della distribuzione
Per descriverla vengono utilizzati due
indici che esprimono
In genere è fondamentale stabilire, sulla
base dei valori ottenuti dai suddetti indici,
se la distribuzione sia simile o meno alla
distribuzione normale
La simmetria
La curtosi
Sintesi statistica
Sintesi statistica
Forma della distribuzione
Forma della distribuzione
La maggior parte delle variabili biologiche
(peso, statura, glicemia, pressione sistolica…)
hanno una distribuzione normale, in cui media,
mediana e moda coincidono
Alcune variabili (tempi di reazione, durata di
sopravvivenza, numero di linfonodi metastatici,
reddito…) hanno una distribuzione asimmetrica,
quindi non normale, in cui media, mediana e
moda non coincidono
7
Sintesi statistica
Le misure descrittive sintetiche,
riassuntive dei dati tabellari, sono
chiamate
• statistiche, quando sono calcolate su un
campione di dati (si esprimono con lettere
dell’alfabeto latino)
• parametri, quando descrivono la
popolazione od universo dei dati (si
esprimono con lettere dell’alfabeto greco)
8
Scarica