Tutorato di Probabilità e Statistica Samuel Rota Bulò Università Ca’ Foscari di Venezia Dipartimento di informatica 6 giugno 2006 Samuel Rota Bulò Tutorato di Probabilità e Statistica Statistica In un problema di statistica abbiamo delle quantità osservate x1 , . . . , xn . Le osservazioni sono modellate come valori assunti da una famiglia di v.a. X1 , . . . , Xn . La legge degli Xi dipende da un parametro θ ∈ Θ P θ rappresenta la funzione di probabilità associata al parametro θ. Indichiamo con E θ (X ) la speranza matematica di X rispetto alla probabilità P θ . Definition Definiamo modello statistico la tupla (Ω, A, (P θ )θ∈Θ ). OBIETTIVO: costruire un modello statistico che descriva ragionevolmente il problema che analizziamo. Stabilire i possibili valori di θ. Samuel Rota Bulò Tutorato di Probabilità e Statistica Problemi di stima . . . Definition Consideriamo un modello statistico ed un osservazione X = (X1 , . . . , Xn ). Si chiama statistica una v.a. della forma T = t(X1 , . . . , Xn ) dove t è una funzione nota. Definition Data una funzione ψ : Θ → Rm chiameremo stimatore del parametro ψ(θ) una statistica T a valori in R m . Samuel Rota Bulò Tutorato di Probabilità e Statistica . . . Problemi di stima . . . Example Consideriamo {Xn }n una famiglia di v.a. di una certa legge di parametro θ, L(θ). Due esempi di quantità da stimare e quindi valori ψ(θ) sono la media e la varianza. Se pensiamo ad esempio ad una legge di Bernoulli, il parametro θ è p, e sia la media che la varianza sono funzioni (ψ) di questo parametro. Lo stimatore invece è una funzione cha a partire dalle osservazioni di queste v.a., cerca di fornire un valore plausibile per la quantià ψ(θ) da stimare. Definition Uno stimatore T del parametro ψ(θ) è non distorto o (corretto) se per ogni θ ∈ Θ si ha E θ [T ] = ψ(θ) Samuel Rota Bulò Tutorato di Probabilità e Statistica Stimatori non distorti di media e varianza Stimatore non distorto della media n X = 1X Xi n i=1 Stimatore non distorto della varianza con media µ nota n σ2 = 1X (Xi − µ)2 n i=1 Stimatore non distorto della varianza n S2 = 2 1 X Xi − X n−1 i=1 Samuel Rota Bulò Tutorato di Probabilità e Statistica . . . Problemi di stima Definition Uno stimatore T del parametro ψ(θ) è consistente, se al crescere della dimensione del campione i suoi valori si avvicinano sempre più al parametro da stimare lim P θ {|T − ψ(θ)| < } = 1 n→+∞ o equivalentemente se lim Var [T ] = 0 n→+∞ Definition Uno stimatore T è detto efficiente, se la sua varianza è piccola. Samuel Rota Bulò Tutorato di Probabilità e Statistica Intervallo di confidenza Definition Date due statistiche T1 = t1 (X1 , . . . , Xn ) e T2 = (X1 , . . . , Xn ), si dice che IX = [T1 , T2 ] è un intervallo di confidenza (o di fiducia) per ψ(θ) di livello 1 − α, 0 < α < 1 se per ogni θ ∈ Θ si ha P θ {ψ(θ) ∈ IX } ≥ 1 − α IX è un intervallo aleatorio, mentre ψ(θ) non è una v.a. aleatoria ma semplicemente un parametro. gli intervalli di confidenza di un certo livello, non sono unici ! Samuel Rota Bulò Tutorato di Probabilità e Statistica Quantità pivotali Definition Si chiama quantità pivoltale una v.a. Q(X , θ) tale che la sua legge rispetto a P θ non dipende da θ; tale cioè che non dipenda da θ la quantità P θ {Q(X , θ) ∈ A} per ogni A ⊂ R. Se la legge di Q(X , θ) è nota si possono calcolare i quantili q1 , q2 tali che per un certo 0 < α < 1 P θ {q1 ≤ Q(X , θ) ≤ q2 } = 1 − α Se ora riusciamo ad isolare θ otteniamo {q1 ≤ Q(X , θ) ≤ q2 } = {t1 (X ) ≤ θ ≤ t2 (X )} con [t1 (X ), t2 (X )] un intervallo di confidenza di livello 1 − α Samuel Rota Bulò Tutorato di Probabilità e Statistica Legge t di Student Definition Si chiama legge t di Student con n gradi di libertà (e si scrive t(n)) la legge di una v.a. Z della forma X √ n Z=√ Y dove X ∼ N(0, 1) e Y ∼ X 2 (n) = Γ n 1 2, 2 Per la f.r. di una legge t di Student facciamo riferimento a delle tavole numeriche. I quantili di ordine α di una legge t di Student con n gradi di libertà li indichiamo con tα (n) Samuel Rota Bulò Tutorato di Probabilità e Statistica Intervallo di confidenza di campioni gaussiani Supponiamo di avere delle osservazioni X1 , . . . , Xn indip. di legge normale Per il teorema del limite centrale abbiamo che √ (X − µ) σn ∼ N(0, 1). Supponiamo la varianza nota, allora σ σ X − √ φ1−α/2 , X + √ φ1−α/2 n n è un intervallo di confidenza per la media di livello 1 − α. Se la varianza non è nota e la approssimiamo con S 2 allora S S X − √ t1−α/2 (n − 1), X + √ t1−α/2 (n − 1) n n è un intervallo di confidenza per la media di livello 1 − α. Samuel Rota Bulò Tutorato di Probabilità e Statistica Stima di una proporzione Determiniamo un intervallo di fiducia per una proporzione (o frequenza) Ci troviamo di fronte ad un campione di v.a. Bernoulliane, che indicano se un certo oggetto è di un certo tipo oppure no. Per il teorema del limite centrale per n → ∞, √ X −θ n√ ∼ N(0, 1) θ(1−θ) Un intervallo di fiducia per il parametro θ di livello α per n grande è s s X (1 − X ) X (1 − X ) X − φ1−α/2 , X + φ1−α/2 n n Samuel Rota Bulò Tutorato di Probabilità e Statistica Test . . . Definition Con un problema di test ci troviamo di fronte ad una partizione {ΘH , ΘA } di Θ e si vuole stabilire se θ ∈ ΘH oppure no. L’insieme ΘH è detto ipotesi, mentre ΘA è l’alternativa. L’insieme delle osservazioni D che conducono al rigetto dell’ipotesi è detto regione critica (o di rigetto). Errori L’errore di prima specie è la probabilità di respingere un’ipotesi che in realtà è vera. L’errore di seconda specie è invece la probabilità di non respingere un’ipotesi che in realtà è falsa. Samuel Rota Bulò Tutorato di Probabilità e Statistica . . . Test . . . Definition Si chiama potenza del test di regione critica D la funzione πD : Θ → [0, 1] definita da πD (θ) = P θ {X ∈ D} Se θ ∈ ΘH (ipotesi vera), πD (θ) è l’errore di prima specie. Se θ ∈ ΘA (ipotesi non vera), 1 − πD (θ) è l’errore di seconda specie. Definition Si chiama livello del test di regione critica D la quantità αD = sup P θ {X ∈ D} = sup πD (θ) θ∈ΘH θ∈ΘH Il livello αD è l’estremo superiore delle probabilità di errore di prima specie. Samuel Rota Bulò Tutorato di Probabilità e Statistica . . . Test Posto θ0 un parametro di riferimento, distinguiamo principalmente 3 tipi di test: 1 2 3 test bilaterale: H : θ = θ0 , A : θ 6= θ0 test unilaterale destro: H : θ ≤ θ0 , A : θ > θ0 test unilaterale sinistro: H : θ ≥ θ0 , A : θ < θ0 Il test bilaterale è anche detto a due code, mentre quelli unilaterali ad una coda. Samuel Rota Bulò Tutorato di Probabilità e Statistica Test su media di campioni gaussiani . . . Consideriamo un campione gaussiano X1 . . . Xn di varianza nota e fissiamo una media di riferimento µ0 . √ 0 Poniamo T = n X −µ σ . Test bilaterale della media H : µ = µ0 , A : µ 6= µ0 Regione critica di livello α: {|T | > φ1−α/2 } Test unilaterale destro della media H : µ ≤ µ0 , A : µ > µ0 Regione critica di livello α: {T > φ1−α } Test unilaterale sinistro della media H : µ ≥ µ0 , A : µ < µ0 Regione critica: {T < −φ1−α } Samuel Rota Bulò Tutorato di Probabilità e Statistica . . . Test su media di campioni gaussiani Consideriamo un campione gaussiano X1 . . . Xn di varianza non nota e fissiamo una media di riferimento µ0 . √ 0 Poniamo T = n X −µ S . Test bilaterale di Student della media H : µ = µ0 , A : µ 6= µ0 Regione critica di livello α: {|T | > t1−α/2 (n − 1)} Test unilaterale destro di Student della media H : µ ≤ µ0 , A : µ > µ0 Regione critica di livello α: {T > t1−α (n − 1)} Test unilaterale sinistro di Student della media H : µ ≥ µ0 , A : µ < µ0 Regione critica: {T < −t1−α (n − 1)} Samuel Rota Bulò Tutorato di Probabilità e Statistica