Stim e puntuali Probabilità e Statistica I - a.a. 04/05 - Stimatori 1 Vocabolario Popolazione: un insieme di oggetti sul quale si desidera avere Informazioni. Parametro: una caratteristica numerica della popolazione. E’ un Numero fissato, ma in genere incognito. Unità: ogni elemento della popolazione. Campione casuale: un sottoinsieme della popolazione utilizzato per ricavare informazioni sulla popolazione. Taglia del campione casuale: è la numerosità del campione. Variabile: una caratteristica di una unità valutabile dalle unità del campione. Statistica: funzione del campione casuale. Cambiando campione casuale, cambia l’istogramma e cambiano gli indici Probabilità e Statistica I - a.a. 04/05 - Stimatori 2 Esempio : Si assuma di avere a disposizione una scatola con un gran numero di palline, tutte uguali eccetto per il colore (l’insieme di queste palline costituisce una popolazione). Il 20% delle palline ha colore rosso p = 0.20 (il resto ha colore bianco, ad esempio). Questo numero è un parametro. Assumiamo di estrarre 25 palLine (ad esempio con ripetizione – l’insieme di queste 25 palline è un campione casuale). Possiamo rispondere ai seguenti quesiti: Quante palline rosse ci aspettiamo nel campione? - Se estraiamo diversi campioni casuali di taglia 25, potrebbe accadere che nessuna pallina sia rossa? O che siano tutte rosse? In genere ci aspettiamo che il 20% delle palline estratte sia rosso (5 su 25). Ma può accadere che ci siano 4 palline rosse su 25, oppure 15 su 25. In ogni caso la frequenza relativa è sempre una stima del parametro (buona nel caso 4/25 o 5/25, cattiva nel caso 15/25). Probabilità e Statistica I - a.a. 04/05 - Stimatori 3 num. palline rosse in un campione percentuale stimata num. campioni percentuale dei campioni 0 0 3 0,015 1 0,04 8 0,040 2 0,08 12 0,060 3 0,12 34 0,170 4 0,16 40 0,200 5 0,2 47 0,235 6 0,24 24 0,120 7 0,28 20 0,100 8 0,32 9 0,045 9 0,36 3 0,150 Palline rosse 50 45 Frequenza 40 35 30 25 20 15 10 5 0 0 0.04 0.08 0.12 0.16 0.2 0.24 0.28 Probabilità e Statistica I - a.a. 04/05 - Stimatori 0.32 0.36 Percentuale stimata 4 ST AT IST ICA ST AT IST ICA DESCRIT T IVA ST AT IST ICA INFERENZIALE Metodi per estrarre dai dati osservati informazioni sul modello aleatorio della popolazione. Metodi per sommarizzare e presentare dati osservati. La statistica inferenziale è l'altra faccia del calcolo delle probabilità. In quest'ultimo si cerca di prevedere il valore di X assumendo nota la sua distribuzione. In statistica, al contrario, si osserva il valore di X e si cerca di inferire informazioni sulla distribuzione sottostante. Probabilità e Statistica I - a.a. 04/05 - Stimatori 5 ( x1 , x 2 , Κ , x n ) ← Si estrae un campione casuale si calcolano la media e la varianza campionaria ... 40 30 20 10 0 3, 3 3, 33 8 3, 37 6 3, 41 4 3, 45 2 3, 49 3, 52 8 3, 56 6 3, 60 4 3, 64 2 3, 68 Al tro Popolazione Incognita X v.a. con funzione di ripartizione incognita dipendente da uno o più parametri incogniti A) si stimano i parametri incogniti B) si ipotizza la forma della funzione di ripartizione X v.a. con funzione di ripartizione nota dipendente da uno o più parametri noti TEST Probabilità e Statistica I - a.a. 04/05 - Stimatori 6 Popolazione Incognita Dati =X X ↓ viene oss er vata n volte ↓ ( x1 , x2 , Κ , xn ) osservazione ( X 1 , X 2 ,Κ , X n ) Definizion e Le variabili aleatorie (X 1 , X 2 , Κ , X n ) costituiscono un campione casuale di taglia n se : (a) le X i sono variabili aleatorie indipendenti; (b) tutte le variabili aleatorie X i hanno medesima distribuzione. Probabilità e Statistica I - a.a. 04/05 - Stimatori 7 X ≈ FX (x, ϑ ) Popolazione Incognita ˆ = h(X , X ,Κ , X ) ⇒ STIMATORE di ϑ n 1 2 dove X 1 , X 2 , Κ , X n rappresenta il campione casuale di taglia n estratto dalla popolazione descritta da X . Definizion e Una stima puntuale del parametro incognito ϑ è un singolo valore numerico ϑˆ della statistica ˆ. Θ − ϑ ⇒ v.a. detta errore E [Θ − ϑ ] ⇒ detto distorsione (bias) [ ] E (Θ − ϑ ) ⇒ detto errore quadratico medio 2 Probabilità e Statistica I - a.a. 04/05 - Stimatori 8 Esempi di stimator i La media campionaria La media campionari a rappresent a uno stimatore puntuale della media µ di una popolazion e 1 n Xi n i =1 dove X 1 , X 2 , Κ , X n è il campione casuale. X = ∑ Il valore numerico della media campionari a µˆ= 1 n n ∑ x rappresent a una i i =1 stima puntuale di µ . Perché la media campionaria è uno stimatore della media della popolazione? Metodo dei momenti Probabilità e Statistica I - a.a. 04/05 - Stimatori 9 La varianza campionaria La varianza campionari a rappresent a uno stimatore puntuale della varianza σ 2 di una popolazion e 1 n −1 dove X 1 , X 2 , Κ , X n è il campione casuale. S2 = n ∑(X i − X )2 i =1 Il valore numerico della varianza campionari a s 2 = 1 n n ∑ ( x − µˆ) i 2 rappresen - i =1 ta una stima puntuale di σ 2 . Definizione ˆè uno stimatore corretto Uno stimatore puntuale Θ Stimator i cor r etti (in inglese unbiased = distorsione nulla) per il pa rametro incognito ϑ se ˆ =ϑ EΘ () Probabilità e Statistica I - a.a. 04/05 - Stimatori 10 Esercizio: Mostrare che la media campionaria e la varianza campionaria sono stimatori corretti rispettivamente della media e della varianza della popolazione. Per uno stesso parametro incognito esistono più stimatori corretti: ad esempio per la media sono stimatori corretti la media campionaria, la mediana campionaria e la media tagliata al 10%. Quale tra questi è il migliore? La misura della precisione di una stima del parametro è usualmente rappresentata dall’errore standard dello stimatore impiegato. Definizion e ˆ è la sua deviazione standard, L' errore standard di uno stimatore Θ () ˆ. σ Θˆ = Var Θ Se nell' espression e dell' errore standard sono presenti dei parametri incogniti, allora la sostituzio ne delle stime di questi parametri nell' epressione dell' errore ˆ usualmente indicato con σˆˆ. standard produce un errore standard stimato di Θ Θ Probabilità e Statistica I - a.a. 04/05 - Stimatori 11 Definizion e Lo stimatore corretto che tra tutti gli stimatori corretti di ϑ ha varianza inferiore viene denominato stimatore corretto a varianza minima . Teorema Θ3 Θ2 Θ1 Se X 1 , X 2 ,Κ , X n è un campione casuale di taglia n estratto da una popolazione nor male di media µ e varianza σ 2 , allora la media campionaria X è lo stimatore corret to a varianza minina della media µ . ϑ In situazioniin cuinon sisa se esiste uno stim atore corretto a varianza m inina,è sem pre possibile utilizzare ilprincipio della varianza m inim a perscegliere tra più stim atoricorretti. Esercizio: Assegnato un campione casuale di taglia n stabilire quale tra la media campionaria e la i-esima osservazione è lo stimatore corretto a varianza minima per la media. Probabilità e Statistica I - a.a. 04/05 - Stimatori 12 Esercizio: Nel testare un nuovo metodo per misurare la conduttività termica di un ferro da stiro, usando una temperatura di 100° e una potenza di input pari a 550 W, sono stati ottenute le seguenti 10 misurazioni della conduttività termica (Trans. AMSE 1974): 41,60 - 41,48 - 42,34 - 41,95 - 41,86 - 42,18 - 41,72 - 42,26 - 41,81 - 42,04. Determinare una stima della media della conduttività termica. Valutarne la precisione e discutere il caso in cui si assuma che il campione proviene da una popolazione normale. Dati 41.6 41.48 42.34 41.95 41.86 42.18 41.72 42.26 41.81 42.04 Dati Ordinati 41.48 41.6 41.72 41.81 41.86 41.95 42.04 42.18 42.26 42.34 Analisi dei dati con Excel Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Probabilità e Statistica I - a.a. 04/05 - Stimatori 41.924 0.089842 41.905 #N/D 0.284105 0.080716 -1.02375 -0.02116 0.86 41.48 42.34 419.24 10 13 Distr ibuz ione campionar ia della media campionar ia Se la popolaz ione è gaussiana (var ianz a nota) Teorema Siano X 1 , X 2 , Κ , X n variabili aleatorie indipendenti con distribuzi one gaussiana, e E [X i ] = µ i e Var [X i ] = σ i2 . La variabile aleatoria Y = X 1 + X 2 + Κ + X n è gaussiana con E [Y ] = µ1 + µ 2 + Κ + µ n e Var [Y ] = σ 12 + σ 22 + Κ + σ n2 σ , dove µ = E [X i ] e σ = Var (X i ) X ≈ N µ , n Se la popolaz ione è gaussiana (var ianz a incognita) DISTRIBUZIONE T-STUDENT Probabilità e Statistica I - a.a. 04/05 - Stimatori 14 Definizion e Una variabile aleatoria T ha distribuzi one di T - Student con gradi di libertà k se la sua funzione densità ha la seguente forma : k + 1 Γ 1 2 f T (x ) = , x ∈ ℜ , dove ( k +1 ) / 2 k x2 πk Γ + 1 2 k k = 2,8,30,100 = ∫ ∞ 0 x r −1 e − x dx k ,k > 2 k −2 • La forma della funzione densità f T (x ) • E [T ] = 0, Var[T ] = è simile a quella della normale standard (unimodale, simmetrica rispetto all' asse delle y), tuttavia f T (x ) ha code più " pe santi" d • Per k → ∞, T → N (0,1) • Tabelle Probabilità e Statistica I - a.a. 04/05 - Stimatori 15 Se la popolaz ione non è gaussiana In molti casi il teorema centrale del limite si può applicare per n=4,5.. specie se la popolazione è continua, unimodale e simmetrica, ma nella maggioranza dei casi l’approssimazione si ritiene valida per valori della taglia del campione superiori a 30. Dal teorema centrale del limite, segue che per n grande: σ , dove µ = E [X i ] e σ = Var (X i ) X ≈ N µ , n Distr ibuz ione campionar ia della var ianz a campionar ia DISTRIBUZIONE CHI-QUADRATO Probabilità e Statistica I - a.a. 04/05 - Stimatori 16 Definizion e Una variabile aleatoria χ ha distribuzione di chi - quadro con gradi di libertà k se la sua funzione densità ha la seguente forma : 2 f χ (x ) = 1 x (k / 2 )−1e − x / 2 , x > 0 2 k / 2 Γ(k / 2) k = 2,4,8,16,32 [ ] Var [χ ] = 2k • E χ 2 = k, 2 • Per k → ∞, la forma limite di una distribu zione chi - quadro è quella di una normale. Probabilità e Statistica I - a.a. 04/05 - Stimatori 17 Teorema Assegnate Z1,Z 2 ,...,Z n v.a. gaussiane standard, risulta Z12 + Z 22 + Λ + Z n2 ≈ χ n ( n − 1) S ≈ σ2 2 ∑ (X n i =1 i −X 2 ) ≈χ 2 2 n −1 Distr ibuz ione campionar ia della per centuale campionar ia Popolazion e di Bernoulli ⇒ (X 1 , X 2 , Κ , X n ) di Bernoulli ⇒ 1 X = n n ∑X i =1 i = num. successi nel campione taglia del campione Probabilità e Statistica I - a.a. 04/05 - Stimatori 18