L’aspetto inferenziale Dev’essere limitato a casi semplici, il più importante dei quali conduce alla stima per intervallo della media di una popolazione normalmente distribuita, di dimensione N, della quale si conoscono lo scarto tipo s e un suo campione di dimensione n (n≤N), avente x media . La maggiore difficoltà di apprendimento consiste nel riuscire a capire che se si prende un campione a caso, questo non è forzatamente attendibile; perciò la stima comporta sempre un rischio di essere errata. L’aspetto inferenziale Una utile esperienza in classe: partire da una popolazione di pochi elementi (6 o 7 o 8), interamente conosciuta, formare tutti i campioni possibili, calcolare media e scarto tipo di ogni campione e infine calcolare la media delle medie e lo scarto delle medie. Essa permette di dedurre sperimentalmente alcune tesi del teorema centrale del limite, che costituisce il fondamento teorico dell’analisi campionaria. L’aspetto inferenziale Il terreno è pronto per la costruzione dell’intervallo di confidenza per la media della popolazione: I x z a 2 s ; x za n 2 s n Cioè: esiste una probabilità 1-a che la media sconosciuta della popolazione sia compresa in I. a è il rischio assunto, cioè la probabilità che I non contenga questa media; è l'ascissa, letta sulle tavole della za 2 normale, corrispondente alla probabilità ; n è la a 1 dimensione del campione. 2 L’aspetto inferenziale Graficamente, la situazione si presenta così: Le due aree agli estremi rappresentano la probabilità a di avere un campione degenere. Se l’intervallo I è grande (stima grossa), il rischio è piccolo; se l’intervallo I è piccolo (stima fine), il rischio è grande. L’aspetto inferenziale L’intervallo di confidenza può essere usato anche per il test statistico. Una popolazione di N elementi dovrebbe avere una media m e di essa si conosce pure lo scarto s. Si vuole controllare per mezzo di un campione di n elementi (n≤N), casualmente estratto, se tale media è ancora credibile oppure no, con un rischio a. Ipotesi zero: la media è davvero m. L’aspetto inferenziale Si preleva un campione di dimensione n e si costruisce l’intervallo di confidenza: I m z a 2 s ; m za n 2 s n Si calcola infine la media del campione x . Si possono presentare due casi: 1) x I : lIipotesi zero è verificata 2) x I : lIipotesi zero è resp int a L’aspetto inferenziale Ovviamente il test non è sicuro, perché se si sceglie un campione degenere il risultato è falso. Si possono compiere due tipi di errore: Di tipo uno: respingere l’ipotesi quando in realtà doveva essere accettata. Di tipo due: accettare l’ipotesi quando in realtà doveva essere respinta. L’aspetto inferenziale Fin qui si può ragionevolmente arrivare in modo sperimentale, mettendo l’allievo in situazione, facendolo riflettere anche sugli aspetti qualitativi. L’obiettivo non è certo quello di formare degli specialisti in controllo della qualità, ma: creare una mentalità statistica che aiuti il futuro cittadino a interpretare correttamente tutto ciò che è previsione basata su rilevazioni statistiche. L’aspetto inferenziale Indagini demoscopiche… Previsioni del tempo… Stima di valori medi… Teorie economiche… Durata della vita… Controllo industriale della qualità… Verifica dell’effetto di nuovi medicinali… L’aspetto inferenziale: proposte didattiche Problema 1: campioni e popolazione Premessa: l’inferenza statistica consiste nel prevedere i risultati di una popolazione sconosciuta, sulla base di un suo campione estratto casualmente. Data una popolazione di 7 elementi, vogliamo costruire tutti i campioni possibili di 2, 3, 4, 5 elementi e trovare che relazioni esistono tra la media aritmetica e la varianza dei vari campioni e quelli dell'intera popolazione. La varianza è il quadrato dello scarto tipo: si usa invece dello scarto perché ha interessanti proprietà matematiche. L’aspetto inferenziale: proposte didattiche Popolazione di 7 elementi A B C D E F G 300 263 276 315 285 288 282 Gli elementi della popolazione sono A,B,C,D,E,F,G. I numeri sotto ciascuna lettera rappresentano la misura di una determinata caratteristica degli elementi della popolazione data. Di seguito, la composizione e i risultati relativi a tutti i campioni di grandezza 2,3,4,5. L’aspetto inferenziale: proposte didattiche L’aspetto inferenziale: proposte didattiche L’aspetto inferenziale: proposte didattiche Camp. k=4 media varianza 287.00 No. camp. = 35 AB C D AB C E AB C F AB C G A B DE AB D F AB DG AB E F AB E G . . . .. . . . . BD E G B D FG B E FG CD E F CDE G D EGG C E FG DE F G media pop. 288.50 281.00 281.75 280.25 290.75 291.50 290.00 284.00 282.50 É É É 286.25 287.00 279.50 291.00 289.50 290.25 282.75 292.50 410.25 181.50 189.19 177.19 369.19 362.25 379.50 178.50 173.25 É É É 346.69 346.50 95.25 211.50 227.25 222.19 19.69 163.25 varianza pop. 240.00 media medie 287.00 media var. 210.00 var. medie 30.00 L’aspetto inferenziale: proposte didattiche L’aspetto inferenziale: proposte didattiche Riassunto e osservazioni: Popolazione k=2 Campioni k=3 k=5 media medie 287.00 media medie 287.00 media medie 287.00 media var. media var. media var. 140.00 186.67 224.00 var. medie var. medie var. medie 100.00 53.33 16.00 L’aspetto inferenziale: proposte didattiche Riassunto e osservazioni: La media delle medie campionarie è uguale alla media della popolazione. La media delle varianze campionarie non è paragonabile alla varianza della popolazione, ma la varianza delle medie campionarie diminuisce sensibilmente al crescere di k (dimensione del campione). L’aspetto inferenziale: proposte didattiche Queste semplici osservazioni ci fanno dire che, potendo disporre di un certo numero di campioni (al limite di tutti i campioni) si può determinare una stima abbastanza attendibile della media della popolazione. Inoltre si deduce che, avendo a disposizione campioni più grandi, le medie campionarie si raccolgono maggiormente attorno alla loro media (quindi alla media della popolazione). Siamo ora pronti per capire il teorema più importante della statistica, il cosiddetto teorema centrale del limite. L’aspetto inferenziale: proposte didattiche Il teorema centrale del limite Siano: X1, X2, …, Xn n variabili aleatorie reciprocamente indipendenti e distribuite in modo qualunque; m1, m2, …, mn ordinatamente le loro medie s12, s22, …, sn2 ordinatamente le loro varianze. Allora, per n tendente all'infinito, la variabile aleatoria X = X1+X2+…+Xn è distribuita normalmente con media m = m1+m2+…+mn e varianza s2 = s12+s22+…+sn2 … il che può sembrare poco significativo. Ma … L’aspetto inferenziale: proposte didattiche Corollario 1 Se m1=m2=…=mn = m e s12=s22=…=sn2 = s2 Allora la variabile aleatoria X = X1+X2+…+Xn si distribuisce normalmente con media mX = n m e varianza sX2 = n s … il che può ancora sembrare poco significativo. Ma … L’aspetto inferenziale: proposte didattiche Corollario 2 Se m1=m2=…=mn = m e s12=s22=…=sn2 = s2 la variabile aleatoria X1 X 2 Xn X n si distribuisce normalmente con nm mX m n e sX 2 n2 s ns n … il che è finalmente interessante, perché … L’aspetto inferenziale: proposte didattiche … è il caso della variabile aleatoria media campionaria. Ecco perché lavorando su tutti i campioni esistenti, abbiamo ottenuto come media delle medie proprio la media m della popolazione! Ecco perché lavorando su tutti i campioni esistenti, abbiamo visto che la varianza delle medie s X 2 diminuisce al crescere del numero n di elementi del campione! … Che bello poter dire: “il teoremone è ovvio!” L’aspetto inferenziale: proposte didattiche Un’osservazione interessante: Se n e N sono “molto grandi”, per il teoremone si ha: s2 sX 2 n … e se n non è abbastanza grande? Vale la relazione: s2 sX 2 Nn n N 1 … sarà poi vero? L’aspetto inferenziale: proposte didattiche … sembra funzionare! L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri L'analisi fatta sui campioni della popolazione di 7 elementi ci permette di vedere quali possono essere considerati attendibili e quali invece degeneri. Occorre costruire un criterio di giudizio. Inoltre, nel caso in cui si dispone di un solo campione (è il caso della maggior parte delle indagini statistiche), si vorrebbe sapere la probabilità di avere un campione attendibile. L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri Nel caso di una distribuzione normale delle medie, queste si dispongono percentualmente così (valori approssimati): Nell'int ervallo x 2 s , x 2 s il Nell'int ervallo x 3 s , x 3 s il Nell'int ervallo x s , x s il 68%. 95,2%. 99,97%. Nasce quindi l’idea di prendere s come unità di misura per il raggio dell’intervallo centrato sulla media. L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri Vediamo la situazione dei campioni della popolazione di 7 elementi. Consideriamo attendibile un campione la cui media è compresa nell'intervallo x s , x s : DISTRIBUZIONE DELLE MEDIE CAMPIONARIE: N = 7 ; n = 2 310 305 300 x s 297 Campioni attendibili: 13 su 21, cioè circa il 62% 295 290 x 287 285 280 x s 277 275 270 265 0 5 10 15 20 21 L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri Campioni attendibili: 22 su 35, cioè circa il 63% L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri Campioni attendibili: 22 su 35, cioè circa il 63% L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri DISTRIBUZIONE DELLE MEDIE CAMPIONARIE: N = 7 ; n = 5 294 292 x s 291 Campioni attendibili: 13 su 21, cioè circa il 62% 290 288 x = 287 286 284 x s 283 282 280 278 0 5 10 15 20 21 L’aspetto inferenziale: proposte didattiche Campioni attendibili e campioni degeneri Abbiamo visto che per la popolazione di 7 elementi, la probabilità di scegliere un campione attendibile è circa 0,62. Se si scelg ono tre campioni, la probabilità che almeno due siano attendibili è : 3 0,622 0,38 0,623 0,68 Se si scelg ono cinque campioni, la probabilità che almeno tre siano attendibili è : 5 3 2 4 5 0,62 0,38 5 0,62 0,38 0,62 0,72 3 L’aspetto inferenziale: proposte didattiche Problema 1: attendibilità di un campione La ditta TRANSPORT SA vuole stimare il tonnellaggio medio mensile delle sue spedizioni. Per fare questo ha a disposizione i dati relativi a 50 mesi di attività (le misure sono da intendersi in tonnellate). 228 210 202 198 208 212 199 228 221 214 217 214 197 227 212 227 232 197 225 224 222 223 197 221 232 235 234 199 217 213 212 238 211 239 197 222 222 204 216 198 235 217 231 214 227 214 210 229 228 220 L’aspetto inferenziale: proposte didattiche Scegliamo un campione a caso e controlliamo se la sua media è nell’intervallo x s , x s … cioè se è un campione attendibile. Ci aiutiamo con una successione di numeri casuali (parte iniziale dei decimali del numero trascendente e). 27182 81828 45904 52353 60287 47135 26624 97757 24709 36999 59574 96696 76277 24076 63035 35475 94571 38217 85251 66427 42746 63919 32003 05992 18174 13596 62904 35729 00334 29526 05956 30738 13232 86279 43490 76323 38298 80753 19525 10190 11573 83418 79307 02154 08914 99348 84167 50924 47614 60668 08226 48001 68477 41185 37423 45442 43710 75390 77744 99206 95517 02761 83860 62613 31384 45830 00752 04493 38265 60297 60673 71132 00709 32870 91274 43747 04723 06969 77209 31014 L’aspetto inferenziale: proposte didattiche La successione la suddividiamo arbitrariamente in pacchetti di cinque cifre ciascuno. Poi, partendo da uno qualunque (per esempio da quello in grassetto), prendiamo il resto (≠0) di ciascun numero di 5 cifre diviso per 51, procedendo di seguito da sinistra a destra, dall'alto verso il basso. Ogni resto ottenuto, se diverso da tutti i precedenti, fissa il rango del valore osservato da prelevare dalla popolazione per costituire il campione. Formiamo così un campione di 16 elementi. L’aspetto inferenziale: proposte didattiche media popolazione: scarto popolazione intervallo m = 217,38 s =12,07 [205,31 ; 229,45] Nel campione scelto secondo quanto detto in precedenza entrano i valori che occupano i seguenti posti: 17 18 30 25 8 16 26 21 29 28 48 40 36 23 38 27 cioè: 238 222 229 197 222 234 199 202 231 204 198 228 217 197 216 211 L’aspetto inferenziale: proposte didattiche Media del campione: 215,3125 È compresa nell’intervallo [205,31 ; 229,45] , quindi il campione è attendibile! Un’altra estrazione casuale ha dato il seguente campione: 228 210 202 198 208 212 199 228 221 214 217 214 197 227 212 227 232 197 225 224 222 223 197 221 232 235 234 199 217 213 212 238 211 239 197 222 222 204 216 198 235 217 231 214 227 214 210 229 228 220 Media del campione: 204,0 Non è compresa nell’intervallo [205,31 ; 229,45] , quindi il campione non è attendibile! L’aspetto inferenziale: proposte didattiche Problema 3: Criterio di affidabilità per un campione Dati: - una popolazione di N elementi con media m e scarto tipo s - un suo campione di n elementi con media x Vogliamo costruire un intervallo che ci serva da criterio per stabilire se un campione è o no attendibile. L’aspetto inferenziale: proposte didattiche Dal teorema centrale del limite: E(x) = m s sx , per una popolazione e un campione "grandi" n s Nn sx , per un campione piccolo. n N1 Abbiamo già visto che l’intervallo x – 2 sx m x + 2 sx ha la probabilità (circa) dello 0,952 di contenere la media m. L’aspetto inferenziale: proposte didattiche L’idea consiste nel far variare il coefficiente 2: mettiamo al suo posto la lettera z e poi calcoliamo. x – z sx m x + z sx –z s x m x z s x z s x x – m –z s x –z s x x – m z s x m z s x x m z sx L’intervallo cercato è quindi: m z s x ; m z s x La sua ampiezza dipende da z, che a sua volta dipende dal rischio a (o dal grado di fiducia 1–a). L’aspetto inferenziale: proposte didattiche Per una popolazione “grande” (infinita) e un suo campione di dimensione n sufficientemente grande, l’intervallo si traduce in: s s ; x z x z n n che significa: zs z s P m x m 1 a n n Se la popolazione è distribuita normalmente, z si ricava dalle tavole della distribuzione normale. L’aspetto inferenziale: proposte didattiche Illustrazione grafica: Il rischio a va distribuito equamente tra le due aree estreme. Il valore z da leggere è l’ascissa corrispondente alla probabilità 1 a 2 L’aspetto inferenziale: proposte didattiche Esempio i) Vogliamo determinare l'intervallo, centrato sulla media della popolazione m0,90 con s=0,06, nel quale la media del campione ha la probabilità 68,3% di situarsi 1 0,683 0,683 0,8415 2 lettura z 1 Intervallo cercato (detto intervallo di confidenza): 0,06 0,06 ; 0,90 1 0,90 1 0,894 ; 0,906 100 100 L’aspetto inferenziale: proposte didattiche ii) Vogliamo determinare l'intervallo, centrato sulla media di una popolazione m=0,90 con s=0,06, nel quale la media del campione ha la probabilità 95,4% di situarsi. 1 0,954 0,954 0,977 2 lettura z 1,9954 Intervallo di confidenza: 0,06 0,06 ; 0,90 1,9954 0,90 1,9954 0,888 ; 0,912 100 100 L’aspetto inferenziale: proposte didattiche Problema 4: Stima della media Il proprietario di una panetteria desidera conoscere una stima del numero medio di panini bianchi venduti quotidianamente, con un grado di fiducia del 92%. Per poterlo aiutare ci siamo procurati i dati relativi agli ultimi 90 giorni che consideriamo come popolazione di valori osservati. Eccoli. L’aspetto inferenziale: proposte didattiche 881 1049 880 721 800 812 992 818 1013 992 967 832 971 946 842 672 648 903 888 959 751 973 753 1003 924 670 995 983 1009 606 688 854 806 927 841 1017 791 799 925 832 687 812 874 774 884 787 853 951 1034 540 926 982 919 781 788 951 769 650 832 690 772 844 865 910 992 648 884 990 1018 683 824 986 928 554 667 899 888 767 857 874 869 823 956 1050 977 1044 676 847 947 642 (Dato che siamo in situazione di apprendimento, possiamo calcolare la media m della popolazione: m=854, che teniamo in memoria.) L’aspetto inferenziale: proposte didattiche Vogliamo estrarre casualmente un campione di dimensione 35 e, supponendo di non conoscere la media della popolazione, costruire il relativo intervallo di confidenza che stimi la media con un grado di fiducia del 92%. Si potrà allora costatare se la media della popolazione (calcolata segretamente) starà o no nell’intervallo costruito. Dati a disposizione Dimensione della popolazione: Scarto della popolazione: N = 90 s = 122 (dato”storico”) Dimensione del campione estratto : Media del campione: n = 35 x 862 L’aspetto inferenziale: proposte didattiche Errore standard della stima: s N n 122 90 35 sx 16.21 90 1 n N1 35 Grado di fiducia: 0,92 1 0,92 0,92 0,96 2 lettura z a 2 1,75 Intervallo di confidenza (stima della media m): [834 ; 890] Ciò significa che, secondo i nostri calcoli, la media sconosciuta della popolazione è compresa tra 834 e 890. Segretamente avevamo calcolato m = 854, dunque il campione scelto ha dato una buona stima. L’aspetto inferenziale: proposte didattiche Vogliamo infine estrarre casualmente un campione di dimensione 15 e fare la stessa stima di prima. Il campione è piccolo, quindi occorre usare l’errore standard modificato e leggere il valore z sulle tavole di Student (indicato con t). Estremi dell’intervallo di confidenza: N n s x ta 2 sX x ta 2 N1 n Dimensione del campione estratto : Media del campione: n = 15 x 886 L’aspetto inferenziale: proposte didattiche Errore standard: s x s N n 122 90 15 28.92 90 1 n N1 15 per Student a 1 0,92 0,08 Grado di fiducia: 0,92 Gradi di libertà: 15 1 14 Student t a 1,8875 Intervallo di confidenza (stima della media m): [886 – 1,8875 · 28,92 ; 886 + 1,8875 · 28,92] = [831 ; 940] È ancora una buona stima (contiene m = 854), ma l’intervallo è più ampio del precedente, quindi la stima è più grossa). L’aspetto inferenziale: proposte didattiche Problema 5: Test delle ipotesi Si sa che il ritmo cardiaco medio a riposo di un atleta giovane è di 72 battiti al minuto. Si è misurato il ritmo cardiaco di 36 giovani atleti e si è ottenuto una media 69.4 con uno scarto di 9. Si sa che la variabile aleatoria che descrive il ritmo cardiaco si distribuisce normalmente. Si vuole testare l'ipotesi che il ritmo cardiaco medio dei giovani atleti sia ancora di 72 battiti al minuto, con un livello di significatività di 0.08. L’aspetto inferenziale: proposte didattiche Ipotesi del test H0: m = 72 (battiti al minuto) Rischio: 0,92 1 0,92 0,92 0,96 2 lettura z a 2 1,75 Popolazione “infinita”, normalmente distribuita. Dimensione del campione: Media del campione: Scarto del campione: n = 36 69.4 (battiti al minuto) 9 (battiti al minuto) L’aspetto inferenziale: proposte didattiche sn1 9 1,5 Errore standard della stima: s x n 36 Rischio: 0,92 1 0,92 0,92 0,96 2 lettura z a 2 1,75 Estremi dell'intervallo di confidenza: 69,4 ± 1,75 · 1,5 Intervallo di confidenza: [66,775 ; 72,025] 72 è incluso, quindi l’ipotesi è accettata. L’aspetto inferenziale: proposte didattiche Illustrazione grafica: Con un rischio dell’8%, possiamo accettare l’ipotesi che il battito cardiaco medio di un atleta sia di 72 battiti al minuto, anche se il campione ha dato il valore 69,4.