Statistica6 - 06/10/2015 È possibile trovare la popolazione di origine conoscendone un campione? o meglio …. È possibile conoscere σ e μ partendo dalla conoscenza di n, x e d.s.? 1 A partire da un campione estratto dalla popolazione è impossibile determinare esattamente la popolazione di origine, cioè conoscere μ e σ A partire da un campione estratto dalla popolazione è però possibile stimare i valori più probabili della popolazione di origine, cioè stimare μ e σ 2 Nella maggior parte dei casi noi non conosciamo in anticipo né la media né la deviazione standard della popolazione! È proprio per avere questa informazione che scegliamo un campione e lo “misuriamo”! Nella maggior parte dei casi il nostro non è un caso di probabilità ma è un caso di inferenza (si congetturano cioè le caratteristiche di una popolazione di origine sconosciuta a partire dalla descrizione* di un campione estratto casualmente dalla stessa). * ricorda: i parametri statistici che descrivono una popolazione di dati sono: n, x e d.s. 3 Il matematico inglese Student (pseudonimo di W.S. Gosset) ha determinato il valore delle seguente quantità: ( ̄x −μ) t= sm t di media campione - media popolazione Student = errore standard del campione ricorda sm = d.s./n x= Media del campione che oscilla intorno alla media vera secondo la distribuzione normale, quindi: ( ̄x −μ ) oscilla, secondo la distribuzione normale, intorno allo Zero; sm = Stima del vero errore standard della popolazione che, a sua volta oscillerà intorno al valore vero; t= Varia (oscilla) più della distribuzione normale perché 4 anche il denominatore varia (oscilla attorno a σ )! La distribuzione di t è più complessa della distribuzione normale in quanto si modifica anche in funzione della stima dell’errore standard (denominatore) che varia in funzione del numero dei g.l. utilizzati per il calcolo del sm (errore standard del campione)! Dipende cioè dalla dimensione del campione Non esiste pertanto una sola legge, rappresentata matematicamente, della distribuzione di t ma una famiglia di distribuzioni di t; esiste cioè una distribuzione di t per ogni grado di libertà! Student ha calcolato l’esatta distribuzione di t (risolvendo gli integrali definiti delle diverse equazioni) ed ha redatto una tabella riassuntiva 5 Ovviamente “aumentando i gradi di libertà” la distribuzione di t diviene “più stretta” (la stima di σ diviene più precisa). Abbiamo quindi una tabella simile a quella di Z per ogni grado di libertà. Ciò è improponibile, abbiamo bisogno di semplificare. Per ridurre il numero di tabelle ci si limita ad individuare per ciascuna distribuzione solo alcuni valori (generalmente 0,5 0,4 0,3 0,2 0,1 0,05 0,02 0,01 0,002 0,001) ma in pratica si esaminano solo due valori 6 corrispondenti alle aree del 0,05 = 95% e 0,01 = 99%. 0,5 0,25 1,000 0,816 0,765 0,741 0,727 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 0,692 0,691 0,690 0,689 0,688 0,688 0,687 0,686 0,686 0,685 0,685 0,684 0,684 0,684 0,683 0,683 0,683 0,681 0,679 0,678 0,677 0,675 0,674 probabilità % di un valore più elevato di t trascurando il segno. 0,4 0,3 0,2 0,1 0,05 0,02 0,2 0,15 0,1 0,05 0,025 0,01 1,376 1,061 0,978 0,941 0,920 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 0,868 0,866 0,865 0,863 0,862 0,861 0,860 0,859 0,858 0,858 0,857 0,856 0,856 0,855 0,855 0,854 0,854 0,851 0,848 0,846 0,845 0,842 0,842 1,963 1,386 1,250 1,190 1,156 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,076 1,074 1,071 1,069 1,067 1,066 1,064 1,063 1,061 1,060 1,059 1,058 1,058 1,057 1,056 1,055 1,055 1,050 1,045 1,043 1,042 1,037 1,036 3,078 1,886 1,638 1,533 1,476 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,345 1,341 1,337 1,333 1,330 1,328 1,325 1,323 1,321 1,319 1,318 1,316 1,315 1,314 1,313 1,311 1,310 1,303 1,296 1,292 1,290 1,282 1,282 6,314 2,920 2,353 2,132 2,015 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 1,761 1,753 1,746 1,740 1,734 1,729 1,725 1,721 1,717 1,714 1,711 1,708 1,706 1,703 1,701 1,699 1,697 1,684 1,671 1,664 1,660 1,646 1,645 12,710 4,303 3,182 2,776 2,571 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 2,145 2,131 2,120 2,110 2,101 2,093 2,086 2,080 2,074 2,069 2,064 2,060 2,056 2,052 2,048 2,045 2,042 2,021 2,000 1,990 1,984 1,962 1,960 31,820 6,965 4,541 3,747 3,365 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 2,624 2,602 2,583 2,567 2,552 2,539 2,528 2,518 2,508 2,500 2,492 2,485 2,479 2,473 2,467 2,462 2,457 2,423 2,390 2,374 2,364 2,330 2,326 0,01 0,005 0,002 0,001 0,001 0,0005 63,660 9,925 5,841 4,604 4,032 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 2,977 2,947 2,921 2,898 2,878 2,861 2,845 2,831 2,819 2,807 2,797 2,787 2,779 2,771 2,763 2,756 2,750 2,704 2,660 2,639 2,626 2,581 2,576 318,310 22,327 10,215 7,173 5,893 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 3,787 3,733 3,686 3,646 3,610 3,579 3,552 3,527 3,505 3,485 3,467 3,450 3,435 3,421 3,408 3,396 3,385 3,307 3,232 3,195 3,174 3,098 3,090 636,620 31,599 12,924 8,610 6,869 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 4,140 4,073 4,015 3,965 3,922 3,883 3,850 3,819 3,792 3,768 3,745 3,725 3,707 3,690 3,674 3,659 3,646 3,551 3,460 3,416 3,390 3,300 3,291 7 Tavola realizzata con la funzione invt del foglio di calcolo due code una coda g.l. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 80 100 1.000 infinito Il significato della tabella è che se facciamo una estrazione a caso di un campione di n individui e calcoliamo il valore di t, poi scegliamo una probabilità, nel punto di incrocio fra la colonna della probabilità scelta e la riga corrispondente ai gradi di libertà (g.l.= n-1) troviamo un valore di t che verrà superato dal valore che abbiamo calcolato solo un numero di volte inferiore a quello della probabilità scelta. due code una coda g.l. 1 2 3 4 5 0,5 0,25 1,000 0,816 0,765 0,741 0,727 probabilità % di un valore più elevato di t trascurando il segno. 0,4 0,3 0,2 0,1 0,05 0,02 0,2 0,15 0,1 0,05 0,025 0,01 1,376 1,061 0,978 0,941 0,920 1,963 1,386 1,250 1,190 1,156 3,078 1,886 1,638 1,533 1,476 6,314 2,920 2,353 2,132 2,015 12,710 4,303 3,182 2,776 2,571 31,820 6,965 4,541 3,747 3,365 0,01 0,005 0,002 0,001 0,001 0,0005 63,660 9,925 5,841 4,604 4,032 318,310 22,327 10,215 7,173 5,893 636,620 31,599 12,924 8,610 6,869 Es. se facciamo una estrazione a caso di un campione di 6 individui e calcoliamo il valore di t, c’è una probabilità di 0,05 cioè del 5% che il valore trovato superi il valore 2,571 (quinta colonna della tavola per g.l. = n-1 = 5). La tabella Z riportava solo una metà questa riporta anche la somma dei due valori (due code) 8 Prendendo quindi: ( ̄x −μ) t= sm ( ̄x −μ ) −t 0, 05< sm e E considerando t 0,05 ( ̄x −μ ) <+ t 0,05 sm La probabilità che il valore calcolato per la differenza fra la media del campione e la media vera (della popolazione) fratto l’errore standard del campione sia compreso fra +t e -t è pari al valore scelto nella tavola in funzione dei gradi di libertà del nostro campione. Cioè: ( ̄x −μ ) ( ̄x −μ ) =< t 0,05∗sm −t0, 05∗sm< o meglio.. e ̄x −t 0, 05∗sm<( μ ) ( μ)<t 0,05∗sm+ x̄ La media della popolazione è compresa fra la media del campione più o meno l’errore standard del campione. 9 Ovvero, se x e sm sono la media e l’errore standard di un campione estratto da una popolazione normale. Vi è una probabilità di 0,95 (o 95%) in favore dell’ipotesi che la vera media (quella della popolazione) sia compresa fra i valori: x̄ −t 0, 05∗sm e t 0,05∗sm+ x̄ Cioè abbiamo definito … … … … … … … .. ̄x −t 0, 05∗sm<( μ ) ( μ)<t 0,05∗sm+ x̄ 10 La vera media (della popolazione) è situata entro questi limiti con una probabilità di ….. C’è una probabilità di x% di sbagliare affermando che la media sia situata entro questi limiti Calcola i limiti fiduciali per p=0,05 PESO ALLA NASCITA DEI BOVINI matricola PESO SESSO 1 40 F 2 40 M 3 47 F 4 50 M 5 40 F 6 50 F 7 38 F 8 38 F 9 47 M 10 42 F 11 n media d.s. e.s.=sm. Calcolo i parametri del campione Vedi lezioni precedenti 10 43,2 4,80 1,5178933 Individuo il valore di t per 10-1=9 gl. due code g.l. 6 7 8 9 10 11 0,5 0,718 0,711 0,706 0,703 0,700 0,697 probabilità % di un valore più elevato di t trascurando il segno. 0,4 0,3 0,2 0,1 0,05 0,02 0,906 0,896 0,889 0,883 0,879 0,876 1,134 1,119 1,108 1,100 1,093 1,088 1,440 1,415 1,397 1,383 1,372 1,363 1,943 1,895 1,860 1,833 1,812 1,796 2,447 2,365 2,306 2,262 2,228 2,201 3,143 2,998 2,896 2,821 2,764 2,718 0,01 0,002 0,001 3,707 3,499 3,355 3,250 3,169 3,106 5,208 4,785 4,501 4,297 4,144 4,025 5,959 5,408 5,041 4,781 4,587 4,437 Calcolo t*sm: 2,262*1,5179 = 3,43 Sommo e sottraggo dalla media la quantità t*sm 43,2+3,43 e 43,2-3,43 46,6 - 39,8 12 Tabella riassuntiva completa serie PESO ALLA NASCITA DEI BOVINI 40 40 47 50 40 50 38 38 47 42 n 10 media 43,2 d.s. 4,80 e.s. 1,5178933 t= t*sm = limiti fiduciali 2,262 3,4334746 46,6 39,8 13 Una serie di misure deve essere sempre descritta da 3 parametri la -media la -deviazione standard e ed il -numero delle osservazioni: n, x e d.s. Una serie di misure deve essere considerata come un campione estratto da una popolazione infinita che può essere descritta da 2 parametri la -media e la -deviazione standard: μe σ Dai parametri della popolazione posso individuare le dimensioni di un campione (percentuale della popolazione o n se la popolazione di origine è finita) da estrarre dalla popolazione tramite l'impiego della distribuzione normale standardizzata: ( X− μ) z= σ 14 Dai parametri della popolazione posso individuare probabilisticamente quale sarà la media del campione perché la media del campione oscillerà intorno alla media della popolazione secondo una distribuzione normale la cui media è la media della popolazione e la cui deviazione standard è l’errore standard cioè: μ = x e d.s. = σ/√n Dai parametri di un campione posso individuare probabilisticamente la media della popolazione tramite la distribuzione di t perché: sm = d.s./n = e.s. d . s. d . s. <(( μμ)< ) ̄x +t 0,05∗ ̄x −t 0, 05∗ √n √n 15 Dato come test il 2013-DIC-16 Calcola i limiti fiduciali al 95% delle medie relative alle 3 misure riportate in tabella: Altezza camera d'aria uovo Peso uovo Haugh Units 16 uovo n =12 mm g media 2,4 67 89,8 dev.st. 0,45 1,4 3,4 Misure riportate in tabella 0 misure di qualità delle uova: • altezza camera d'aria uovo = dimensione della “bollicina d'aria” presente al polo ottuso delle uova = indice della freschezza; • Peso uovo= peso in grammi dell'uovo = categoria di peso S, M, L, XL; • Unità Haugh = misura della consistenza dell'albume = indice dell'altezza dell'albume diviso la supeficie che occupa l'albume dopo la rottura dell'uovo su una superficie piana = indice di freschezza e di carateristiche delle proteine dell'albume. camera d'aria uovo mm peso g Haugh units n =12 media dev.st. e.s. 2,4 0,45 0,130 67 1,4 0,404 89,8 3,4 0,981 d . s. d . s. <( μ ) ( μ)< ̄x +t 0,05∗ ̄x −t 0, 05∗ √n √n due code g.l. 6 7 8 9 10 11 12 13 0,5 0,718 0,711 0,706 0,703 0,700 0,697 0,695 0,694 probabilità % di un valore più elevato di t trascurando il segno. 0,4 0,3 0,2 0,1 0,05 0,02 0,906 0,896 0,889 0,883 0,879 0,876 0,873 0,870 1,134 1,119 1,108 1,100 1,093 1,088 1,083 1,079 1,440 1,415 1,397 1,383 1,372 1,363 1,356 1,350 1,943 1,895 1,860 1,833 1,812 1,796 1,782 1,771 2,447 2,365 2,306 2,262 2,228 2,201 2,179 2,160 3,143 2,998 2,896 2,821 2,764 2,718 2,681 2,650 0,01 0,002 0,001 3,707 3,499 3,355 3,250 3,169 3,106 3,055 3,012 5,208 4,785 4,501 4,297 4,144 4,025 3,930 3,852 5,959 5,408 5,041 4,781 4,587 4,437 4,318 4,221 17 Radq di 12 = 3,464 e.s. = 0,45 diviso 3,464 = 0,130 0,130*2,201 = 0,286 2,400 2,400 + 0,286 = 0,286 = 2,114 2,686 e.s. = 1,4 diviso 3,464 = 0,404 0,404*2,201 = 0,890 67,00 67,00 + 0,890 = 0,890 = 66,110 67,890 e.s. = 3,4 diviso 3,464 = 0,981 0,981*2,201 = 2,160 89,800 89,800 + 2,160 = 2,160 = 87,640 91,960 n media d.s. radq di 12 err.st. t0,05 = intervallo= min MAX 12 2,4 0,45 3,464 0,130 12 67 1,4 3,464 0,404 12 89,8 3,4 3,464 0,981 2,201 0,286 2,114 2,686 2,201 0,890 66,110 67,890 2,201 2,160 87,640 91,960 Risposta media limiti fiduciali a 0,05 Altezza camera d'aria, mm = 2,4 2,11 2,69 Unità Haugh = 89,8 87,64 91,96 67 66,11 67,89 peso medio, g =