. Statistica descrittiva: scatter plot Nel caso in cui si abbia a che fare con dati multivariati è utile considerare uno scatter plot. Ad esempio pressione: età: X1 , Y1 , X2 , Y2 , ... ... Si rappresentano le osservazioni (X1 , Y1 ), (X2 , Y2 ), . . . come punti nel piano cartesiano (x, y ), ottenendo cosı̀ una ”nube di punti” come negli esempi successivi... . Scatter Plot . Correlazione Con uno scatter plot si può riconoscere se i dati si concentrano attorno a qualche curva (”legge”). L’esempio più semplice è il caso in cui la legge è una legge lineare. Quanto una distribuzione di probabilità di un vettore (X , Y ) si concentra attorno ad una retta? Y = aX + b + errore piccolo . Correlazione & Covarianza Covarianza: cov [X , Y ] = E[(X − mX )(Y − mY )] dove mX e mY medie di X e Y . Per variabili discrete X cov [X , Y ] = (x − mX )(y − mY )P{X = x, Y = y } x,y Correlazione: cov [X , Y ] ρ(X , Y ) = p Var (X )Var (Y ) Se X , Y sono indipendenti ρ(X , Y ) = 0 (non vale il viceversa!). . Esercizio. Si supponga che la distribuzione del vettore aleatorio discreto (X , Y ) sia data da X /Y 0 1 2 Calcolare Cov (X , Y ). 2 0.3 0.2 0 0.5 5 0.1 0 0 0.1 6 0 0 0.4 0.4 0.4 0.2 0.4 . Correlazione Correlazione e Dipendenza lineare −1 ≤ ρ ≤ 1 |ρ| vicino ad uno Y = aX + b + con “piccolo” |ρ| = 1 allora P{Y = aX + b} = 1 . Statistica Matematica: dati e variabili aleatorie Nella statistica matematica i dati sono pensati come realizzazioni di variabili aleatorie. Variabili aleatorie: Osservazioni: X1 , . . . , Xn (Modello) x1 , . . . , xn (Dati) . Osservazioni indipendenti Spesso (ma non sempre) si ipotizza che le osservazioni siano indipendenti e con la stessa legge (IID). . Principio di sostituzione Se le osservazioni sono indipendenti ed identicamente distribuite allora l’istogramma delle osservazioni (per n grande) approssima la distribuzione teorica (incognita!!). [Ancora una volta legge dei grandi numeri...] n=1500 Density 0.0 0.1 0.2 0.2 0.1 0.0 Density 0.3 0.3 0.4 n=200 -3 -2 -1 0 data 1 2 3 -4 -2 0 data 2 . Cumulata e funzione di sopravvivenza Cumulata (CDF) F (x) = P{X ≤ x} Nel caso continuo Z x F (x) = f (u)du −∞ . Cumulata e funzione di sopravvivenza Funzione di ripartizione empirica Fn (x) = numero di Xi tali che Xi ≤ x n . Cumulata e funzione di sopravvivenza Funzione di sopravvivenza S(x) = P{X > x} Ovviamente S(x) = 1 − F (x). Nel caso continuo Z S(x) = x +∞ f (u)du . Cumulata e funzione di sopravvivenza Funzione di sopravvivenza empirica Sn (t) = numero di Xi tali che Xi > t n Tipicamente: Xi tempo di morte... Sn (t) frazione di sopravvissuti almeno fino a t. . Cumulata e funzione di sopravvivenza . Statistica Matematica Dati: si pensano i dati come realizzazioni di variabili aleatorie: X1 , . . . , Xn . Modello: si ipotizza che la legge di probabilità di X1 , . . . , Xn dipenda da un parametro θ incognito, fθ . Il parametro θ appartiene ad un insieme di parametri Θ. Inferenza: si cerca di rispondere a domande su θ. . Statistica Date le osservazioni X1 (ω) = x1 , . . . , Xn (ω) = xn Stima puntuale: stimare il vero valore di θ o una sua funzione τ (θ). Stima per intervalli di confidenza: Determinare un intervallo al quale appartiene θ. Test: θ appartiene a Θ0 oppure a Θ1 (con Θ = Θ0 ∪ Θ1 )? . Running example: campioni gaussiani. Le osservazioni X1 , . . . , Xn sono IID Gaussiane di media m e di varianza σ 2 . In altre parole (proprietà delle v.a. gaussiane) Xi = m + σ 2 i con 1 , . . . , n IID Gaussiane di media nulla e varianza 1. m quantità di interesse, 1/σ 2 parametro che determina la precisione della misurazione, i errori che affliggono le misurazioni. In questo caso θ = (m, σ 2 ).