Lezione 3 - distribuzione gaussiana

annuncio pubblicitario
Statistica Descrittiva
descrivere e riassumere un insieme di dati in
maniera ordinata
•
•
•
tabelle
grafici
misure di
posizione
dispersione
associazione
Statistica Descrittiva
Misure di posizione
Forniscono indicazioni sull’ordine
ordine di grandezza dei
dati:
• Moda
• Media
• Mediana
Indici di posizione: Moda
La moda di una distribuzione di frequenza è,
la modalità, il valore o la classe di modalità o di
valori, caratterizzata dalla massima frequenza.
Indici di posizione: Media
Media aritmetica dato un insieme di n unità su
cui è stata rilevata la variabile X:
{x1, x2, x3,......, xn}
la media aritmetica
X
è definita come:
n
x1 + x 2 + ...+ x n
X=
=
n
I
oppure:
X=
∑ x × f (x )
i
i =1
i
I
∑ f (x )
i =1
i
∑x
i=1
n
i
Indici di posizione: Mediana
La mediana è il valore centrale della serie ordinata di
dati:
• per n dispari, la mediana è quel valore che occupa la
posizione (n+1)/2 nell’insieme ordinato dei dati;
• per n pari, la mediana è il valore centrale (medio) tra
quello che occupa la posizione n/2 e
nell’insieme ordinato dei dati.
(n/2)+1
Distribuzione simmetrica
Moda = Mediana = Media
Distribuzione con asimmetria positiva
Moda < Mediana < Media
Distribuzione con asimmetria negativa
Moda > Mediana > Media
I quartili
… sono valori che ripartiscono una popolazione in 4 parti
ugualmente “popolate”.
In altri termini, la frequenza cumulata fino ai tre quartili
è circa 25%, 50% e 75% rispettivamente.
I centili
CENTILI
Il centile x° della distribuzione di una variabile
è quel valore che divide la distribuzione in due parti,
una contenente l’x% dei valori, l’altra il restante 100-x%.
Ovviamente:
l’x%
dei valori è ≤ x° centile
il 100-x%
dei valori è > x° centile
x%
x° centile
100-x%
e
Statistica Descrittiva
Misure di dispersione
Forniscono indicazioni sulla variabilità (eterogeneità)
dei dati:
• Intervallo di variazione: (min;max)
• Intervallo interquartile: Q3–Q1
n
• Devianza: D = ∑ ( x i − x )2
i =1
D
• Varianza campionaria: s =
n −1
2
2
s
=
s
• Deviazione standard campionaria:
• Coefficiente di variazione:
CV =
s
× 100
X
Indici e tipo di distribuzione
dati con distribuzione simmetrica .....
usare media e deviazione standard
dati con distribuzione non simmetrica .....
usare mediana e percentili
Statistica Inferenziale
• Generalizzare i risultati ottenuti da un
insieme campione alla popolazione dal
quale esso è stato estratto
Modello
Struttura idealizzata che si adatta alla
realtà e serve per descriverla, interpretarla,
comprenderla
Non è VERO o FALSO
ma può essere UTILE o INUTILE
È una semplificazione:
…il più semplice possibile, …ma non di più
Modello
Superficie reale della
Sardegna:
24089,4 km2
Superficie stimata
utilizzando come modello
l'area di un rettangolo:
24000 km2
Utilizzando un modello
semplice, basato solo su
semplice
2 parametri (base e
altezza del rettangolo)
abbiamo ottenuto una
buona approssimazione
della misura di interesse
Modello
Calcolare la superficie della Sicilia
Modello semplice
2 parametri: base e altezza
Modello
Modello più complesso
3 parametri: base e altezza del triangolo +
altezza del rettangolo
Un “modello” di grande successo
Distribuzione Gaussiana o Normale
Variabile continua con distribuzione simmetrica
Un “modello” di grande successo
Distribuzione Gaussiana o Normale
Variabile continua con distribuzione simmetrica
Un “modello” di grande successo
Distribuzione Gaussiana o Normale
Variabile continua con distribuzione simmetrica
Come è fatto il modello gaussiano?
 1  x − µ  2 
1
f(x) =
exp − 
 
σ 2π
 2  σ  
Sembra complicato, ma…
µ è la media
σ è Var, ovvero la deviazione standard
forma simmetrica a campana
area sotto la curva pari a 1
Conoscendo solo due parametri, media e varianza
varianza,
possiamo sapere come è fatta la variabile di interesse
Perché è importante la distribuzione gaussiana?
In natura molte variabili presentano una distribuzione a
forma di campana, bene caratterizzata da questo modello
matematico, chiamato distribuzione normale o
curva di Gauss o curva degli errori casuali
Storicamente la distribuzione normale è nata dalla
osservazione delle misurazioni ripetute
di un fenomeno fisico.
Perché è importante la distribuzione gaussiana?
La maggior parte dei fenomeni che si osservano nella realtà
assumono la forma di una distribuzione normale:
• fenomeni biomedici
(colesterolo, pressione arteriosa…);
• fenomeni antropometrici
(statura, peso, perimetro toracico …);
• fenomeni fisici (misure del periodo di un pendolo …).
Caratteristiche della distribuzione gaussiana
X~N(µ,σ)
µ determina la
posizione della
curva sull’asse
delle ascisse.
Tre distribuzioni normali con medie diverse ma con
la stessa deviazione standard
Caratteristiche della distribuzione gaussiana
X~N(µ,σ)
σ determina la
maggiore o minore
concentrazione della
curva attorno a µ
Tre distribuzioni normali con la stessa media ma con
deviazioni standard diverse
Caratteristiche della distribuzione gaussiana
Per qualsiasi distribuzione gaussiana lo scarto σ contrassegna
intervalli tipici:
• il
• il
• il
• il
68.27% delle oss. è compreso nell’intervallo [µ-σ; µ+σ]
95% nell’intervallo [µ-1.96σ; µ+1.96σ]
95.45% nell’intervallo [µ-2σ; µ+2σ]
99.73% nell’intervallo [µ-3σ; µ+3σ]
Caratteristiche della distribuzione gaussiana
I centili
centili, costituiscono un buon sistema per valutare se una
variabile di interesse è distribuita come una gaussiana.
In una distribuzione gaussiana, infatti, i valori associati
ad assegnati centili sono i seguenti:
0.5° centile
2.5° centile
16.0° centile
50.0° centile
84.0° centile
97.5° centile
99.5° centile
= µ - 3σ
= µ - 2σ
= µ -1σ
=µ
= µ + 1σ
= µ + 2σ
= µ + 3σ
Se i valori associati ai centili non sono troppo diversi da quelli attesi
sulla base di µ e σ, allora la distribuzione gaussiana è una buona
rappresentazione della distribuzione reale e, di conseguenza, media e
deviazione standard descrivono in modo adeguato tale distribuzione.
Problema
Voglio calcolare la probabilità che la variabile X ~N(µ,σ) assuma valori compresi
nell’intervallo [a,b]
a
b
Dovrei risolvere l’integrale:
b
P ( a < X < b) = ∫
a
 ( x − µ )2 
1
exp −
f ( x)dx = ∫
dx
2
2σ 
a σ 2π

b
Distribuzione Normale standard (µ
(µ=0,
=0,σ
σ=1)
I valori di probabilità della Normale con µ=0 e σ=1 sono già stati calcolati e
riportati in una tavola:
Z~N(0,1)
Distribuzione Normale standard (µ
(µ=0,
=0,σ
σ=1)
Come si usano le tavole?
0.8944
ad es. P(Z<1.25)=
0.8944
Come si usano le tavole?
f(z)
0.4
0.3
1-p
0.2
p
0.1
0
-3
-2
-1
0
1
z* 2
3
deviata gaussiana standard z
Detto p (0<p<1) il valore dell'area a destra di +z*, l'area a
sinistra di +z* vale (1-p).
Come si usano le tavole?
Dato che la distribuzione è simmetrica…
f(z)
0.4
0.3
1-2p
0.2
p
p
0.1
0
-3
-2 -z* -1
0
1 +z*2
3
deviata gaussiana standard z
L'area a sinistra di -z* è uguale all'area a destra di +z*.
Detto p (0<p<1) il valore di tale area, l'area esterna a z*
vale 2p, e l'area interna vale (1-2p).
Come si usano le tavole?
f(z)
0.4
0.3
1-p 1 -p 2
0.2
0.1
p1
0
-3
-2
p2
z-1
1
0
z21
2
3
deviata gaussiana standard z
L'area compresa tra due valori z1* < z2* si ricava per
differenza (1 - p1 - p2), dove p1 è il valore dell'area a sinistra
di z1*, e p2 quello dell'area a destra di z2*.
Distribuzione Normale (µ
(µ≠0,
≠0,σ
σ≠1)
E’ possibile trasformare una qualsiasi funzione gaussiana
f(x) con media µ e varianza σ2 in una funzione gaussiana
standard, f(z) con media 0 varianza 1, se si pone:
standard
Z=
X −µ
σ
Z è una trasformata di X, centrata rispetto a µ e scalata
rispetto a σ.
Il modello si semplifica…
 1  x − µ 2 
1
f(x) =
exp− 
 
2
σ
σ 2π
 
 
E diventa…
 (z) 2 
1
f(x) =
exp−

2
2π


Spostare il valore medio: xx-µ
0
µ
x
Spostare il valore medio: xx-µ
0
µ
x
Modificare la larghezza
−σ
0
+σ
x
Modificare la larghezza
−σ
0
+σ
x
Modificare la larghezza
−σ -1
0
+1 +σ
xz
Gaussiana (µ σ²)
Gaussiana standardizzata (0 1)
Prossima lezione
Merc 18 novembre
9:30-12:30
Scarica