Tipi di variabili. Indici di tendenza centrale e di dispersione

13/04/2010
Tipi di variabili.
Indici di tendenza centrale
e di dispersione
L. Boni
Variabile casuale
In teoria della probabilità, una variabile
casuale (o variabile aleatoria o variabile
stocastica o random variable) può essere
pensata come il risultato numerico di una
misurazione quando questo non è prevedibile
con certezza (ossia non è deterministico)
Tipi di variabili, indici di tendenza centrale e di dispersione
Variabile casuale
più semplicemente:
Tipi di variabili, indici di tendenza centrale e di dispersione
1
13/04/2010
Tipi di variabile
VARIABILE CASUALE CONTINUA
Può assumere un qualsiasi valore, in un qualsiasi intervallo
del campo dei numeri reali
[peso, Kg: 83.43256...]
[PAS, mmHg: 120.835901...]
Tipi di variabili, indici di tendenza centrale e di dispersione
Tipi di variabile
VARIABILE CASUALE DISCRETA
Può assumere solo un numero finito di valori, per lo più
enumerabili
[numero di figli: 0, 1, 2, 3, …]
[numero sigarette/die: 0, 1, …, 10, …, 20, …]
[numero globuli bianchi: …, 3.500, …, 5.200]
[classe NYHA: 1, 2, 3, 4]
[etnia: caucasica, cinese, afro-americana, …]
Tipi di variabili, indici di tendenza centrale e di dispersione
Tipi di variabile
VARIABILE BINARIA O BERNOULLIANA
[sesso: maschio, femmina]
[risposta: successo, fallimento]
[stato in vita: vivo, deceduto]
?? durata della sopravvivenza ??
Tipi di variabili, indici di tendenza centrale e di dispersione
2
13/04/2010
Trasformazioni
Tipi di variabili, indici di tendenza centrale e di dispersione
La variabilità
Tipi di variabili, indici di tendenza centrale e di dispersione
Tabella di frequenza
Tipi di variabili, indici di tendenza centrale e di dispersione
3
13/04/2010
Istogramma di frequenza
Tipi di variabili, indici di tendenza centrale e di dispersione
Istogramma di frequenza relativa
Tipi di variabili, indici di tendenza centrale e di dispersione
Frequenza relativa e probabilità
 In una lunga serie di ripetizioni dello stesso
esperimento, in condizioni appropriate, la
frequenza relativa con la quale si verificano i
diversi possibili eventi tende a stabilizzarsi
su valori fissi
 Nell’approccio frequentista, il termine
probabilità viene interpretato come il valore
limite della frequenza relativa al tendere di n
(=numero delle ripetizioni) all’infinito
Tipi di variabili, indici di tendenza centrale e di dispersione
4
13/04/2010
Frequenza relativa e probabilità
Tipi di variabili, indici di tendenza centrale e di dispersione
Tabella di frequenza
Tipi di variabili, indici di tendenza centrale e di dispersione
Istogramma di frequenza
Tipi di variabili, indici di tendenza centrale e di dispersione
5
13/04/2010
“smoothing”
Tipi di variabili, indici di tendenza centrale e di dispersione
Popolazione
 Si definisce popolazione, o universo, ogni
insieme finito o infinito di unità, le quali non
sono necessariamente organismi viventi
 Un universo statistico deve essere definito
nei contenuti, nello spazio e nel tempo
Tipi di variabili, indici di tendenza centrale e di dispersione
Come riassumere i dati
Tipi di variabili, indici di tendenza centrale e di dispersione
6
13/04/2010
Come riassumere i dati
Tipi di variabili, indici di tendenza centrale e di dispersione
Come riassumere i dati
PARAMETRO
Misura riassuntiva della distribuzione della
popolazione
INDICE DI TENDENZA CENTRALE
INDICE DI DISPERSIONE
Tipi di variabili, indici di tendenza centrale e di dispersione
Media
Per indicare il baricentro di una distribuzione
rispetto alla sua scala di misurazione,
utilizziamo la media
Tipi di variabili, indici di tendenza centrale e di dispersione
7
13/04/2010
Media
Tipi di variabili, indici di tendenza centrale e di dispersione
Varianza e deviazione standard
Valori equidistanti dalla media dovrebbero
contribuire in egual misura al nostro indice di
dispersione indipendentemente dal fatto di
essere superiori o inferiori alla media stessa,
anche se nel primo caso lo scostamento è
positivo e nel secondo caso è negativo
Tipi di variabili, indici di tendenza centrale e di dispersione
Varianza e deviazione standard
Tipi di variabili, indici di tendenza centrale e di dispersione
8
13/04/2010
Varianza e deviazione standard
Tipi di variabili, indici di tendenza centrale e di dispersione
1  = 68%
2  = 95%
Tipi di variabili, indici di tendenza centrale e di dispersione
Distribuzione normale
Tipi di variabili, indici di tendenza centrale e di dispersione
9
13/04/2010
Distribuzione normale
Esiste un numero infinito di distribuzioni
normali diverse fra loro
Tipi di variabili, indici di tendenza centrale e di dispersione
Distribuzione normale
E’ possibile ricondurre tutte queste diverse
distribuzioni ad un’unica distribuzione
standard ?
Sì, attraverso la trasformazione normale
Tipi di variabili, indici di tendenza centrale e di dispersione
Deviata normale standardizzata
Se la variabile x si distribuisce
normalmente, allora la nuova variabile z
Z = (x - ) / 
avrà una distribuzione normale con media
pari a 0 e deviazione standard uguale a 1
( = 0 e  = 1)
Z è detta deviata normale standardizzata
Tipi di variabili, indici di tendenza centrale e di dispersione
10
13/04/2010
Deviata normale standardizzata
Tipi di variabili, indici di tendenza centrale e di dispersione
Deviata normale standardizzata
Esistono delle tavole che indicano la probabilità
che z sia maggiore o uguale ad un valore qualsiasi
Tipi di variabili, indici di tendenza centrale e di dispersione
Esempio
Qual è la probabilità che il peso sia ≥82 kg ?
z = (82 – 75) / 5 = 1.4
P(z ≥1.4) = 0.808, ovvero 8.1%
Tipi di variabili, indici di tendenza centrale e di dispersione
11
13/04/2010
Esempio
Qual è la probabilità che il peso sia ≥75 kg ?
z = (75 – 75) / 5 = 0
P(z ≥0) = 0.50, ovvero 50%
Tipi di variabili, indici di tendenza centrale e di dispersione
Distribuzioni asimmetriche
Tipi di variabili, indici di tendenza centrale e di dispersione
Mediana
La mediana è quel valore rispetto al quale
metà dei valori della popolazione risultano
superiori e l’altra metà inferiori
Tipi di variabili, indici di tendenza centrale e di dispersione
12
13/04/2010
Mediana
Se il numero N di misurazioni è dispari, la
mediana corrisponde alla misurazione con
rango (N+1)/2
Se il numero N di misurazioni è pari, la
mediana corrisponde alla media delle due
misurazioni con rango N/2 e (N/2)+1,
rispettivamente
Tipi di variabili, indici di tendenza centrale e di dispersione
Percentili
Tipi di variabili, indici di tendenza centrale e di dispersione
Percentili della distribuzione normale
Tipi di variabili, indici di tendenza centrale e di dispersione
13
13/04/2010
Media e mediana
Tipi di variabili, indici di tendenza centrale e di dispersione
Media e mediana
Tipi di variabili, indici di tendenza centrale e di dispersione
Moda
La moda è il valore che ricorre con
maggiore frequenza nella popolazione
Tipi di variabili, indici di tendenza centrale e di dispersione
14
13/04/2010
Moda
Tipi di variabili, indici di tendenza centrale e di dispersione
Il campione
Data una popolazione composta da N unità
statistiche, un campione è rappresentato
dall’insieme delle n unità selezionate con
procedura casuale tra le N che
compongono la popolazione allo scopo di
rappresentarla quanto a caratteri, o
variabili, oggetto dello studio
Tipi di variabili, indici di tendenza centrale e di dispersione
Il campione
L’aggregato rappresentato dal campione è
la “popolazione in studio”
Le unità che appartengono al campione
sono dette “unità campionarie”
Tipi di variabili, indici di tendenza centrale e di dispersione
15
13/04/2010
Processo inferenziale
Statistica: misura riassuntiva della
distribuzione calcolata a partire dalle unità
campionarie mediante la quale viene
stimato il parametro corrispondente della
popolazione
?
STATISTICA ↔ PARAMETRO
Tipi di variabili, indici di tendenza centrale e di dispersione
Analisi statistica
Tipi di variabili, indici di tendenza centrale e di dispersione
Stime campionarie
Indici di tendenza centrale
Tipi di variabili, indici di tendenza centrale e di dispersione
16
13/04/2010
Stime campionarie
Indici di dispersione
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
Campioni casuali diversi, selezionati dalla
stessa popolazione, forniranno stime
differenti della vera media e della vera
deviazione standard
Per quantificare in termini probabilistici
l’accuratezza di queste stime, possiamo
calcolare i loro errori standard
E’ possibile calcolare un errore standard
per ogni parametro
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
 = 40 cm
 = 5 cm
x = 41.5 cm
s = 3.8 cm
x = 36 cm
s = 5 cm
x = 40 cm
s = 5 cm
Tipi di variabili, indici di tendenza centrale e di dispersione
17
13/04/2010
Quanto sono attendibili le stime ?
Estraendo sempre più campioni casuali, di
10 membri ciascuno, da un’unica
popolazione, si ottiene la popolazione di
tutte le possibili medie campionarie
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
L’insieme delle medie di 25 campioni
casuali, ognuno composto da 10 membri,
presenta una distribuzione
approssimativamente a campana, simile
alla distribuzione gaussiana
x = 40 cm
s = 1.6 cm
Tipi di variabili, indici di tendenza centrale e di dispersione
Teorema centrale del limite
 La distribuzione delle medie campionarie è
approssimativamente normale all’aumentare
di n, indipendentemente dalla distribuzione
dei valori nella popolazione di origine, dalla
quale i campioni sono stati tratti
 Il valore medio dell’insieme di tutte le
possibili medie campionarie è uguale alla
media della popolazione di origine
Tipi di variabili, indici di tendenza centrale e di dispersione
18
13/04/2010
Teorema centrale del limite
 La deviazione standard dell’insieme di tutte
le possibili medie campionarie di campioni di
una data numerosità, definita errore
standard della media, è funzione sia della
deviazione standard della popolazione, sia
della numerosità del campione
Tipi di variabili, indici di tendenza centrale e di dispersione
Teorema centrale del limite
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
L’errore standard della media diminuisce al
crescere delle dimensioni del campione
Il grado di certezza col quale possiamo
stimare la media cresce al crescere delle
dimensioni del campione
Tipi di variabili, indici di tendenza centrale e di dispersione
19
13/04/2010
Quanto sono attendibili le stime ?
L’errore standard della media cresce al
crescere della deviazione standard della
popolazione
Quanto maggiore sarà la variabilità nella
popolazione d’origine, tanto maggiore sarà
la variabilità che si manifesterà nei possibili
valori delle medie campionarie
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
La miglior stima di x che possiamo
ottenere da un singolo campione è
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
Poiché i possibili valori della media campionaria
tendono a seguire una distribuzione gaussiana,
nell’intervallo definito dalla media campionaria
più o meno due volte il suo errore standard
sarà contenuto con probabilità del 95% il valore
(sconosciuto) della media della popolazione
d’origine
Tipi di variabili, indici di tendenza centrale e di dispersione
20
13/04/2010
Intervallo di confidenza
Questa espressione ci permette di stimare
l’intervallo di confidenza del parametro della
popolazione
L’intervallo di confidenza è quell’intervallo che
con una definita probabilità (in questo caso 95%)
comprenderebbe il parametro della popolazione
se lo stimatore venisse utilizzato in maniera
ripetuta un gran numero di volte
Tipi di variabili, indici di tendenza centrale e di dispersione
Quanto sono attendibili le stime ?
Quando calcoliamo un intervallo di confidenza al 95%:
a) la lunghezza dell'intervallo copre il 95% dell'area di
distribuzione delle medie campionarie quando è centrato su
, e b) con una probabilità del 95% include la media della
popolazione
Tipi di variabili, indici di tendenza centrale e di dispersione
Intervallo di confidenza
Tipi di variabili, indici di tendenza centrale e di dispersione
21
13/04/2010
In sintesi…
 Abbiamo identificato i diversi tipi di variabili che possono
essere oggetto di analisi
 Abbiamo visto quali sono i parametri che ci permettono, da
un punto di vista quantitativo, di descrivere in maniera
riassuntiva il comportamento di una determinata
popolazione
 Abbiamo identificato nella distribuzione normale un modello
di riferimento molto utile quando vengono analizzati dati sul
continuo
 Abbiamo visto come, attraverso il processo inferenziale, sia
possibile ottenere informazioni circa una popolazione, a
partire da un insieme di osservazioni campionarie, e come
sia possibile quantificare l’attendibilità delle stime
Tipi di variabili, indici di tendenza centrale e di dispersione
22