Statistica descrittiva: scatter plot

.
Statistica descrittiva: scatter plot
Nel caso in cui si abbia a che fare con dati multivariati
è utile considerare uno scatter plot.
Ad esempio
pressione:
età:
X1 ,
Y1 ,
X2 ,
Y2 ,
...
...
Si rappresentano le osservazioni (X1 , Y1 ), (X2 , Y2 ), . . . come punti
nel piano cartesiano (x, y ), ottenendo cosı̀ una ”nube di punti”
come negli esempi successivi...
.
Scatter Plot
.
Correlazione
Con uno scatter plot si può riconoscere se i dati si concentrano
attorno a qualche curva (”legge”).
L’esempio più semplice è il caso in cui la legge è una legge lineare.
Quanto una distribuzione di probabilità di un vettore (X , Y ) si
concentra attorno ad una retta?
Y = aX + b + errore piccolo
.
Correlazione & Covarianza
Covarianza:
cov [X , Y ] = E[(X − mX )(Y − mY )]
dove mX e mY medie di X e Y .
Per variabili discrete
X
cov [X , Y ] =
(x − mX )(y − mY )P{X = x, Y = y }
x,y
Correlazione:
cov [X , Y ]
ρ(X , Y ) = p
Var (X )Var (Y )
Se X , Y sono indipendenti ρ(X , Y ) = 0 (non vale il viceversa!).
.
Esercizio.
Si supponga che la distribuzione del vettore aleatorio discreto
(X , Y ) sia data da
X /Y
0
1
2
Calcolare Cov (X , Y ).
2
0.3
0.2
0
0.5
5
0.1
0
0
0.1
6
0
0
0.4
0.4
0.4
0.2
0.4
.
Correlazione
Correlazione e Dipendenza lineare
−1 ≤ ρ ≤ 1
|ρ| vicino ad uno
Y = aX + b + con “piccolo”
|ρ| = 1 allora P{Y = aX + b} = 1
.
Statistica Matematica: dati e variabili aleatorie
Nella statistica matematica i dati sono pensati come realizzazioni
di variabili aleatorie.
Variabili aleatorie:
Osservazioni:
X1 , . . . , Xn
(Modello)
x1 , . . . , xn
(Dati)
.
Osservazioni indipendenti
Spesso (ma non sempre) si ipotizza che le osservazioni siano
indipendenti e con la stessa legge (IID).
.
Principio di sostituzione
Se le osservazioni sono indipendenti ed identicamente distribuite
allora l’istogramma delle osservazioni (per n grande) approssima la
distribuzione teorica (incognita!!).
[Ancora una volta legge dei grandi numeri...]
n=1500
Density
0.0
0.1
0.2
0.2
0.1
0.0
Density
0.3
0.3
0.4
n=200
-3
-2
-1
0
data
1
2
3
-4
-2
0
data
2
.
Cumulata e funzione di sopravvivenza
Cumulata (CDF)
F (x) = P{X ≤ x}
Nel caso continuo
Z
x
F (x) =
f (u)du
−∞
.
Cumulata e funzione di sopravvivenza
Funzione di ripartizione empirica
Fn (x) =
numero di Xi tali che Xi ≤ x
n
.
Cumulata e funzione di sopravvivenza
Funzione di sopravvivenza
S(x) = P{X > x}
Ovviamente S(x) = 1 − F (x).
Nel caso continuo
Z
S(x) =
x
+∞
f (u)du
.
Cumulata e funzione di sopravvivenza
Funzione di sopravvivenza empirica
Sn (t) =
numero di Xi tali che Xi > t
n
Tipicamente: Xi tempo di morte...
Sn (t) frazione di sopravvissuti almeno fino a t.
.
Cumulata e funzione di sopravvivenza
.
Statistica Matematica
Dati: si pensano i dati come realizzazioni di variabili aleatorie:
X1 , . . . , Xn .
Modello: si ipotizza che la legge di probabilità di X1 , . . . , Xn
dipenda da un parametro θ incognito, fθ . Il parametro θ
appartiene ad un insieme di parametri Θ.
Inferenza: si cerca di rispondere a domande su θ.
.
Statistica
Date le osservazioni
X1 (ω) = x1 , . . . , Xn (ω) = xn
Stima puntuale: stimare il vero valore di θ o una sua funzione
τ (θ).
Stima per intervalli di confidenza: Determinare un intervallo al
quale appartiene θ.
Test: θ appartiene a Θ0 oppure a Θ1 (con Θ = Θ0 ∪ Θ1 )?
.
Running example: campioni gaussiani.
Le osservazioni X1 , . . . , Xn sono IID Gaussiane di media m e di
varianza σ 2 .
In altre parole (proprietà delle v.a. gaussiane)
Xi = m + σ 2 i
con 1 , . . . , n IID Gaussiane di media nulla e varianza 1.
m quantità di interesse,
1/σ 2 parametro che determina la precisione della misurazione,
i errori che affliggono le misurazioni.
In questo caso
θ = (m, σ 2 ).