Appunti di Statistica Domenico Candeloro 1 Capitolo 1 Introduzione. In queste note tratteremo alcuni problemi di Statistica Matematica, in maniera molto elementare, e senza pretesa di esaustivita’ o di assoluto rigore matematico. Faremo naturalmente riferimento alle dispense di Calcolo delle Probabilita’ per tutti gli aspetti riguardanti quella Teoria, in particolare a) i tipi piu’ comuni di distribuzioni, sia nel discreto che nel continuo; b) la derivazione della distribuzione di una somma o di altre funzioni di variabili aleatorie note, sotto l’ipotesi di indipendenza; c) i principali modi di convergenza, e i teoremi ai limiti piu’ importanti. Cio’ che principalmente metteremo in evidenza saranno alcune tematiche di largo consumo: tratteremo dei metodi di rappresentazione dei dati (Statistica descrittiva), discuteremo il concetto di campione aleatorio, quello di statistica, e cercheremo, anche tramite esempi, la distribuzione di talune statistiche importanti; affronteremo poi alcuni problemi classici di inferenza: stima dei parametri, intervalli di confidenza, test di ipotesi. 2 Capitolo 2 Metodi descrittivi Uno degli scopi principali della Statistica Matematica é quello di elaborare i dati (spesso molto numerosi), al fine di dedurne informazioni circa alcuni aspetti caratteristici di uno o piu’ fenomeni. Di solito i dati di cui si dispone sono elenchi di numeri (o anche di vettori), ricavati da osservazioni relative a uno stesso fenomeno: ad esempio, si possono raccogliere 50 misurazioni riguardanti la distanza di una stella dalla Terra, effettuate tutte in condizioni analoghe; oppure un campione di 1500 dati relativi all’altezza di individui che abitano in una certa regione; o ancora si puo’ registrare il numero di chiamate telefoniche che ogni giorno pervengono a un centralino, per 365 giorni... Per semplificare, chiameremo campione aleatorio ogni n-upla di numeri, ottenuti valutando n volte una variabile aleatoria X, in condizioni di indipendenza. Tale denominazione é stata data anche a ogni vettore (X1 , ..., Xn ) costituito da n v.a. indipendenti e con la stessa distribuzione: infatti questo é il modello di cui un campione aleatorio é una realizzazione. Dato un campione aleatorio x1 , ..., xn , bisogna trovarne una rappresentazione che ne metta in luce gli aspetti statistici. Una possibilita’ é fornita dagli istogrammi: dopo aver individuato il massimo e il minimo valore delle xj , che denoteremo con m e M rispettivamente, si suddivide l’intervallo [m, M ] in un numero opportuno h (usualmente molto piu’ piccolo di n) di sottointervalli uguali, che denoteremo con I1 , I2 , ..., Ih . Per ogni i compreso fra 1 e h sia ni il numero degli elementi xj che risultano compresi in Ii . A questo punto, 3 tracciamo una curva a gradinata, che in corrispondenza ad ogni Ii assuma il valore costante ni (o una quantita’ ad esso proporzionale). Dall’esame di tale curva (detta istogramma), si puo’ dedurre quali sono tra gli xi i valori piu’ frequenti, e quanta dispersione sia presente nel campione: se i valori xi non si disperdono, essi risulteranno molto ravvicinati, e quindi l’istogramma apparira’ come una figura stretta e alta; viceversa, se l’istogramma risulta piuttosto appiattito e allargato, i valori xi sono molto diversi e distanti l’uno dall’altro, rendendo difficile individuare con sicurezza dei punti di riferimento. Un esempio di campione poco dispersivo viene dalla produzione in serie: supponiamo che una fabbrica produca tappi a corona per bottiglie da 1 litro, e si misuri accuratamente il diametro di 200 tappi prodotti da tale macchina; si avranno 200 valori xi tutti estremamente vicini tra loro, salvo guasti o imprevisti (eventi che qui trascuriamo). Tuttavia, anche minime variazioni di diametro possono rendere i tappi inservibili, quindi controlli di questo tipo non sono insensati. Campioni molto dispersivi si hanno invece (purtroppo) in meteorologia: la dispersione che i dati meteorologici presentano diminuisce l’affidabilita’ delle previsioni del tempo a distanza di 6 o piu’ giorni. Di seguito, si fornisce un elenco di 200 numeri scelti a caso nell’intervallo [0, 1]. Z := [.4274196691, .3211106933, .3436330737, .4742561436, .5584587190, .7467538305, .3206222209e-1, .7229741218, .6043056139, .7455800374, .2598119527, .3100754872, .7971794905, .3916959416e-1, .8843057167e-1, .9604988341, .8129204579, .4537470195, .6440313953, .9206249473, .9510535301, .1464863072, .1555907635, .4293926737, .5254285110, .2726006090, .2197600994, .6759829338, .8454735095, .6764707883, .2813387792, .7924959004, .7512095393, .6283634430, .3137460865, .5862664913e-2, .7481365622e-1, .6438424438, .1319057546, .6720753584, .1355371088, .9916381555, .4526108743, .7428672314, .5025423084, .1990536756, .8252407886, .9918985673, .1168817937, .3408077283, .7953943013, .6294798705, .7364509840, .4015947059, .1783149062, .9148251370, .2813148623, .4541007452, .7690344101, .8070311130e-1, .6051271146, .5529212099, .8915152425, .6203248281, .9128542275, .5257179814, .4474735703, .9814915278, .4134495688, .9929875004, .1576275111, .8824993768, .3390628902, .6591260313e-1, .1195215895, .5741575138, .1506509050, .5534087482, .8281598493e-1, .3596322699, .6815858095, .7097397385, .2311042480, .6938047101, .1883026555, .1081886648e-1, .5431078818e-1, .5421364074, .1062056055, .6872239468, 4 .2581224202e-1, .1210225739, .6652889683, .9739641495e-1, .7804227316, .9877856403, .6741982728, .1340503658, .7548695826, .1408108569, .3478777048, .4335992295, .8987248808, .4855318020, .2550506145, .9529224743, .6420653296, .1549126680, .8560694385, .6814076415, .9629177911, .8741669464, .9059502929, .5495528887, .8412584224e-1, .6706054127e-1, .6217577345, .2235759057, .2735740995, .4104243813, .6595012473, .8879748579, .2344502692, .6063862735, .7046024115e1, .3220572293, .6123201931, .6981468984, .7885538678, .5680466826, .9854799213, .8105571403, .6511981067, .2236093056, .5971227224e-1, .8858054838, .2087353384, .8634897942, .1349121969, .8972161318, .8253910356, .9081688982, .8524973108, .4252373834, .9476354357, .3512521904, .8716516347, .2519936189e-1, .1946404552, .5485271105, .5589958833, .3312914882, .2568350616, .6777903170, .3263527636, .7371619734, .5214101451, .8357984960, .3729093675, .3244371666, .5327170429, .3331280990, .7772214376, .2972255555, .3513506612e-1, .3238723014e-1, .4126163242e1, .4648379030, .6627421854, .5271886036e-1, .3642533782, .8268041852, .4781081141, .2221661095, .1687044139, .6207123021, .8528295062, .6311640406, .6027955658, .5642745237, .2491072884, .5475818658e-1, .3292874498, .7841174551, .4225672762, .7454273113, .6935178771, .6325516909, .8707675774e-1, .9962856220, .1872552414, .4689144526, .9329956241e-1, .8326442705, .8767291126, .2605821940, .6578963842e-1, .3169416632, .9401000606, .5838920174] Questa lunga fila di numeri é poco significativa, ma vediamone un istogramma. 5 Non sembra ci sia una zona dove i numeri precedenti si addensino di preferenza: si tratta evidentemente di un campione piuttosto dispersivo. Vediamo un altro esempio: stavolta i numeri che elencheremo sono ottenuti ciascuno come il quadrato di un numero preso a caso tra 0 e 1. dalZ2 := [.6505937997e-1, .1829385428, .9799204303, .2181378550, .3876919856e-1, .9234079209, .2586260058, .6976273230e-1, .1049077278, .2466552285, .5458037040, .7426537940, .2416699875, .3836694534, .1322651412, .8917126532, .1764263945, .1166360345e-1, .5152944950, .1907169736e1, .3437387340, .1100383027, .2269281501, .2339513263, .2330244946, .1622371883, .8584079235, .7281562826e-1, .5760145929, .2430187822, .2343199149, .8725947576e-1, .4274832001, .4234158670e1, .5040767942, .8336484986e-2, .1280372837, .1082416649, .9531520436e-1, .4218082972, .4415705074, .4874078464e-2, .2538113947, .8862175978, .1981851429, .5990207134, .5080719976, .9056862631e-1, .3370038914, .8717485705, .2267512116e-2, .8509383210, .2692229957e-2, .3198127755e-1, .2024721582, .8451112000, .5721338963, .5704913432, .7798437933, .6950984915, .6919302887e-1, .1613266117, .1895715135, .7083210431, .7430075118, .4586677585, .1129265202, .7199593940, .5591155618, .2725294874, .9302681238, .2576078666, .2777263223e-3, .6213454850, 6 .1205250687e-1, .3361581592, .7217657574, .3036002814, .4198165115, .8076535460, .3108621195, .8485131335, .2898291767, .6158061631e-1, .2816891249, .6820783871e-1, .9338868349, .9052508106, .4598544268, .2179642779, .8070639163e-1, .4255154199e-1, .2403512800, .5490716015, .3356154414e1, .1632605999, .4644061979e-2, .4992227268, .5922036606, .1820843688e-2, .2826938904, .1968767739, .9061143270, .2204788718, .6834874168e-1, .5495430606, .1380017921e-1, .7691883013, .4247319300e-1, .8051703678e-2, .4854179207, .7108420465, .7395961630, .2980478691, .5783919475, .4383176649e-1, .2862216718e-2, .6949341929e-1, .8677107497, .9136110285, .1944380156, .3199607666, .2315695212e-1, .3388251483, .8212674575e-1, .8417675101, .9718840368e-1, .4644829483, .2560142592, .6082692430, .3078648153e-1, .1364963591, .1232425611, .1451440244, .2778836428, .5059232152, .1638603432, .1001549229, .9977779751, .1268345020e-1, .1025221960, .1572731939e-2, .1075291493, .6407512070e-1, .3634144164e-1, .5916173219e-2, .1973987933, .1838158413, .5589094448, .3853128857, .3736153419e-1, .2638624569, .1822106586, .1191857719, .2522755802, .7890109571, .8692504531e-1, .3893721392, .6066443451, .6107124202e-2, .9384896738, .4404263599, .1621490228, .3449318826, .2103590376e-3, .9745927845, .9399090978, .3971348098, .8290044206e-4, .3620563320, .7472962082, .4815924662, .4343275678, .7678876056, .5861265229e5, .9010764812, .5369888962, .5503613336, .3351918416, .3623956497, .2494928379, .1948843848, .5157371180, .8994641029, .1908582313, .4650763367, .7747392755e-1, .2412828159, .6054752878, .6334434727, .8676078639e-2, .2285435530, .9524168639e-1, .3365470422, .6217328048, .3606874751e1, .1772251468, .2542888399, .4002946791e-1, .8456775689] 7 Il relativo istogramma é il seguente: Stavolta, decisamente la zona vicina a 0 é molto gettonata. Anche la dispersione sembra diminuita. A titolo di esempio conclusivo, facciamo una prova di questo tipo: supponiamo di voler esaminare la qualita’ dei prodotti di una certa ditta, che produce viti, e che mediamente ha una percentuale di un pezzo difettoso ogni 200. Consideriamo uno stock di 500 pezzi, e vediamo quanti di questi sono difettosi; poi, ripetiamo la prova con un altro stock altrettanto numeroso, e procediamo cosi’ per 20 volte. I risultati ottenuti sono i seguenti. Z =:= [6.0, 1.0, 1.0, 3.0, 3.0, 1.0, 1.0, 4.0, 5.0, 4.0, 1.0, 5.0, 5.0, 4.0, 2.0, 0, 0, 4.0, 0, 4.0] L’istogramma corrispondente é qui disegnato. 8 Tale grafico é abbastanza conforme alla media di 2.5 pezzi difettosi, e quindi si puo’ confermare la percentuale di difetti nei prodotti della ditta. 2.1 Statistiche e loro comportamento Solitamente, un campione aleatorio rappresenta una v.a. di cui non si conosce esattamente la distribuzione. In alcuni casi, si puo’ ritenere che la distribuzione sia di un certo tipo (ad es. normale, o chi quadro, etc.) ma non se ne conoscono i parametri caratteristici. Una statistica dovrebbe sintetizzare le informazioni contenute nel campione in un singolo valore numerico, che a sua volta permette di indovinare uno dei parametri incogniti. Si ha cosi’ la seguente definizione Definizione 2.1 Per ogni numero intero n, un campione aleatorio (x1 , ..., xn ) (pensato come n-upla di dati) é un vettore di IRn . Il concetto che stiamo per introdurre permette di associare un singolo numero ad ogni campione, di qualsiasi lunghezza. Si dice dunque che una statistica é un’applicazione s: +∞ [ IRn → IR n=1 9 nel senso che, per ogni intero positivo n, e per ogni campione (x1 , ..., xn ) é definito il valore sintetico s(x1 , ..., xn ). Ad esempio, la somma s(x1 , ..., xn ) = x1 + ... + xn é una statistica, e cosi’ la media campioP naria x = n1 ni=1 xi . Anche il massimo x1 ∨ x2 ∨ ... ∨ xn é una statistica, e analogamente il minimo. Un’altra statistica importante é la varianza campionaria, definita da n 1 X S (x1 , ..., xn ) = (xi − x)2 n − 1 i=1 2 (ovviamente, qui dobbiamo assumere n > 1, ma questo non é un grosso problema). Si lascia al lettore la verifica della seguente relazione: n 1 X 2 n−1 2 S (x1 , ..., xn ) = xi − x2 . n n i=1 (2.1) Vedremo tra poco il motivo per cui si preferisce usare la statistica S 2 anziché quella, apparentemente piu’ naturale, ottenuta a secondo membro della (2.1), che di solito viene denotata con s2 . Ora, quando si ha a disposizione una statistica s, per ogni campione aleatorio (X1 , ..., Xn ) (pensato dunque come n-upla di v.a. IID), si puo’ definire la variabile aleatoria s(X1 , ..., Xn ). Se la distribuzione della generica Xi é nota, si puo’ valutare (almeno, in linea teorica) anche la distribuzione della statistica s(X1 , ..., Xn ). Per esempio, se la distribuzione delle Xi é normale standard, la distribuzione della somma é N (0, n), e quella della loro media é di tipo N (0, n1 ). Vale la pena, a questo proposito, rilevare che per valori elevati di n, la media campionaria acquisisce una distribuzione molto concentrata, ossia assume varianza molto piccola. Si ha infatti, in generale: V( n n 1X 1 X V (X1 ) Xi ) = 2 V (Xi ) = n i=1 n i=1 n (nel caso di v.a. IID e dotate di momenti secondi, ovviamente). Questo aspetto, matematicamente molto semplice, ha importanza notevolissima nelle applicazioni, perché in pratica attribuisce alla media campionaria grande stabilita’: una variabile aleatoria Y con varianza molto bassa é quasi costante, per cui tutti o quasi i 10 valori osservati per tale v.a. sono tra loro molto vicini, e quindi molto vicini al valor medio di Y . Ora, supponiamo che X sia una generica v.a., e (x1 , ..., xn ) sia un campione di dati relativo a tale v.a.: allora, possiamo pensare a (x1 , ..., xn ) come a un valore osservato per il campione (X1 , ...Xn ), di tipo IID e con la stessa distribuzione di X. Se Y denota la v.a. X, la statistica x é un generico valore osservato per Y . Ma, per quanto visto prima, per n molto grande Y ha varianza molto bassa, e quindi quasi tutti i valori osservati per Y sono molto vicini a E(Y ) = E(X). In conclusione, possiamo dire che la statistica x ha un valore comunque molto simile a E(X), almeno per n sufficientemente grande. Dunque, la statistica media campionaria é un ottimo strumento per valutare (o indovinare, se si preferisce) la quantita’ E(X). Possiamo fare un esempio, fornendo alcuni campioni casuali (ottenuti tramite PC) di dati, relativo ad una distribuzione U (0, a) (distribuzione continua uniforme, con a numero positivo incognito). Vedremo come la media campionaria x permette di individuare con grande sicurezza il valore vero di a. Il primo campione é costituito di 150 dati. Z:= [1.5387, 1.156, 1.2371, 1.7073, 2.01045, 2.6883, .115424, 2.6027, 2.1755, 2.68409, .93532, 1.1162, 2.87, .14101, .31835, 3.4578, 2.9265, 1.6335, 2.3185, 3.3142, 3.4238, .52735, .56012, 1.5458, 1.8915, .98136, .7911, 2.4335, 3.0437, 2.4353, 1.01282, 2.853, 2.70435, 2.2621, 1.1295, .0211056, .26933, 2.3178, .47486, 2.4195, .488, 3.5699, 1.6294, 2.6743, 1.8091, .7166, 2.971, 3.5708, .42077, 1.227, 2.8634, 2.2661, 2.6512, 1.4457, .64193, 3.29337, 1.0127, 1.6348, 2.76852, .2905312, 2.178, 1.99052, 3.209, 2.23317, 3.2863, 1.892585, 1.6109, 3.533, 1.48842, 3.574755, .56746, 3.177, 1.22063, .237285, .430278, 2.067, .542343, 1.99227, .298137, 1.294676, 2.45371, 2.5551, .832, 2.4977, .67789, .038948, .19552, 1.952, .38234, 2.474, .092924, .43568, 2.39504, .3506, 2.809522, 3.55603, 2.42711, .48258, 2.71753, .50692, 1.25236, 1.56096, 3.2354, 1.7479, .9181822, 3.43052, 2.311, .55769, 3.08185, 2.4531, 3.4665, 3.147, 3.2614, 1.9784, .302853, .241418, 2.2383, .804873, .984867, 1.47753, 2.3742, 3.1967, .844021, 2.183, .253657, 1.159406, 2.20435, 2.5133, 2.8388, 2.045, 3.5477, 2.918, 2.34431, 11 .805, .2149641, 3.189, .751447, 3.1086, .485684, 3.23, 2.9714, 3.27, 3.069, 1.531, 3.4115, 1.2645, 3.138, .0907, .7007, 1.9747] . La media campionaria risulta uguale a 1.831520487. Poiché il valor medio della distribuzione U ([0, a]) é a2 , presumibilmente a é un numero molto vicino a 3.663. Vediamo un altro campione, piu’ numeroso: stavolta prendiamo n = 450. Z := [2.6852, .000898, .5768, .7553,1.55559, .488674, .96021, 2.89303, .808165, 2.01012, 2.53138, 3.14502,2.143, .94065, .599, 3.5993, .0688267, 1.6914, .44257, .857264,1.8185, .52818, .0705035, 2.73072, 3.1267, .245826, 3.00007, 2.22578,.539337, 2.5715, .9264, 2.0293105, .110463, 2.09811, 1.751586, 1.84075,2.19117, 3.5647, 1.272346, 1.064727, 2.29327, 3.15825, 2.314522, 2.08997,.902458, 1.03156, 1.8332, 2.364, 2.20775, 3.2987, 1.4803, 3.40422,.342748, .433991, .839318, 3.481, 3.04744, 2.3193, .64385, 3.19889,.025991, 3.25735, 1.84046, 1.529, .97203, 2.6665, 1.278544, 2.030848,3.1518, 1.3369, 2.793, 1.10386, 3.18257, .9374348, .29961, 1.079334,.873355, 2.349, 1.7435, 1.33373, 3.06919, .6062, 2.43935, .1229374,3.554267, 1.2925756, 1.12505, .042568, 3.49867, 1.24489, .64868, 1.12718,.0785756, .1472, .4538369, 1.399, 1.31655, 3.58892, 1.4984, .87108,2.6165, 2.616, 2.66124, 2.94063, 1.48382, 2.585813, 1.69011, .03624951,1.627, .64987, 1.9973, 1.09675, .371066, 3.353, .689585, 2.13343,2.6776, 3.383, .36472, .1297, 3.247664, 1.818, .680826, 2.84119,1.0312, .531348, 3.2138, 3.405, 3.510546, 1.438, 2.5858, 3.062551,1.96257, .791, 3.3536, 1.19788, 2.26967, 1.2057428, 2.30647, .8502088,.37764, 2.9721, 1.228, 3.36274, .2882, .074696069, 2.6118, .723335,1.7865, 2.501936, 1.117488, 2.2736, 3.54858, .42081, 1.5323, 3.201164,2.02551, .026296, 1.177255, 3.1795, 1.48015, 1.7192, .989615, 3.00623,3.37742, 2.41645, 3.54296, 1.8102, 2.7192, 1.43876, 1.750524, .64372,.980026, 1.9501, 3.0948, 1.0696, 2.4541, 2.1224, .64775, 3.225831,.178324, 1.4494, 1.00446, 1.4407, .425, .92712, .91426, 2.7073,1.8252, 1.911, 1.98525, 1.7537, 1.663, 1.13851, .36303, .9962456,2.837, .8743, 3.17245, 3.26665, 1.83427, 1.006055, .2897, 1.6126,.404448, 1.34456, 1.3681, .2283, 2.6664, .207203, 3.34462, 2.708,.1447585, 2.61794, 2.9972, 1.67622, .5029, 2.476457, 2.71342, 2.91033,3.4465, 2.33918, 2.32341, 1.7378, .40981, 3.3188, .832347, 3.02296,1.1854, 1.92318, 2.1087, .2709, 2.7747, .62894, 3.313167, 2.687517,.267382, 3.123, .21291, 1.336535, 1.080135, 2.84846, .401, 2.648016,3.38121, .3168, 3.421123, 3.388082, 2.612556, 2.37383, 1.18567, 1.97237,2.49218, 2.87685, .9355, 2.9424, 2.21977, 3.51402, 1.65436, 3.02703,3.5241, 2.6631656, 1.398, 2.606646, 12 2.5404, 2.85305, 1.74, 3.1385,2.49881, 1.697636, .217621, 2.5194, 2.1346, .27902, 1.60117, .5269707,2.119375, .96583, .352957, .0474, .833244, 1.8907, 3.288261, 2.0825,3.57112, 1.81346, 3.492, 3.09855, 1.15358, 1.3043, 2.62258, 2.849324,1.966168, 2.201812, 1.548, 1.666, 3.34946, 2.11585, 2.4792, 1.831,2.70616, 2.586715, 2.5032, 1.4289, 2.26162, .23177, 2.62617, .792369,.799754, 1.3219, 1.2952, .88279, 1.532813, 3.50051, 1.3882, 2.8798,.759144, 2.34365, 2.2238, 1.19418, 1.7218, 2.1191, 1.77639, .4250577,2.74233, .46345, 2.847, .475, 3.41237, 2.962, .60914, 1.253297,2.62418, .826047, 2.21684, .73651, 3.056646, 2.3992, 2.6406, 2.108085,2.911, .56938, 1.385, 1.199, 1.5507, .53397, .204, 2.65925,.131, .692912, .3863, .96267, 1.01836, 3.178787, .848, 3.44,3.3384, 1.92962, 2.368557, 1.9618, .51203, 1.571, 1.1749, 2.18322,.934285, 2.4749, 3.3333, .0492, 1.3744, 3.46421, 1.8667, 1.18366,.03776, 1.37174, 3.0178, 2.4819, .79870365, 1.964236, 2.693146, 2.413845,2.44731, 2.17711, 2.651219, .291369, .86947, .50621, .813085, 3.442532,2.859276, 2.5926451, 1.3882, 1.593268, .0486431, 1.32852, 1.8214, .702096,1.2048, 2.6678, 1.66957, 3.4243562, .9958, .4173, 3.5352468, 1.7475,3.04773, 3.4321, 2.17, 1.47039, .31426, 1.9348, 2.67015, 3.259287,2.75232, 1.83659, .562813, 2.1513, 3.175854, 1.64317, 2.988761, .582142,1.460645, 3.204958, .403666, 1.12456, 2.62867, .574738, 2.737788, 2.795547,.4638, 1.5883, .215883, 3.1375, 2.496388, 2.575622, 2.578026, 1.675455,1.524, 3.1016, 3.22055, 2.35528, 1.0238, .19900045, .73789, .981878,1.01775, 3.00661, 1.185178, 2.7358, .1311, 3.35829]. Ora la media campionaria é 1.803606490: forse il valore vero di a é piu’ vicino a 3.6. Un ultimo campione, stavolta di 900 elementi (che non riportiamo), fornisce una media di 1.798277303: sempre piu’ vicino alla conferma che a é proprio 3.6. Campioni di lunghezza 2000 e oltre forniscono ( a parte poche eccezioni) una media di 1.800, poco piu’ o poco meno. Dunque, la media campionaria x ha caratteristiche di correttezza, (in quanto E(X) = E(X)), e di stabilita’ asintotica in quanto il limite di tale statistica, quando n diverge, é proprio il parametro E(X) che essa rappresenta. Per quanto riguarda la varianza campionaria, vedremo ora che anch’essa é corretta, cioé E(S 2 ) = σ 2 , varianza della variabile X. Ricordando che S 2 = 13 n s2 n−1 (vedi (2.1), e denotando con µ e σ 2 rispettivamente valor medio e varianza di X, si ha infatti P 2 n n Xi 2 2 2 E(S ) = E(s ) = E −X = n−1 n−1 n P X E(Xi2 ) n 1 σ2 n 2 2 = E(Xi ) − V (X) − µ = − − µ2 = n−1 n n−1 n−1 n−1 = σ2 n n σ2 nσ 2 + nµ2 − − µ2 = σ2 − = σ2. n−1 n−1 n−1 n−1 n−1 Questo spiega anche perché si preferisce usare la statistica S 2 anziché s2 come rappresentativa della varianza. Non ne daremo la dimostrazione, ma anche S 2 é asintoticamente stabile: risulta infatti 1 n−3 4 2 V ar(S ) = d4 − σ , (2.2) n n−1 dove d4 é il momento centrato di ordine 4 della X, e σ 4 il quadrato della varianza di X. Chi volesse dimostrare la (2.2) per esercizio, puo’ dapprima ricavare la seguente relazione: S2 = X 1 (Xi − Xj )2 , 2n(n − 1) i,j (2.3) e poi procedere algebricamente, tenendo presente che cov (Xi − Xj )2 , (Xh − Xk )2 = 0 quando i = j o k = l o quando i, j, k, l sono tutti diversi. Dunque, abbiamo potuto constatare che, almeno per certi parametri incogniti, un’opportuna statistica puo’ essere adoperata per ottenere una valutazione approssimata (o stima) del parametro: quando una statistica viene usata a tale scopo, essa viene detta uno stimatore per quel parametro. Ad esempio, la statistica media campionaria X é uno stimatore per E(X), e la statistica S 2 , varianza campionaria, é uno stimatore per la varianza V ar(X). 14 Capitolo 3 Inferenza Il problema classico dell’inferenza statistica consiste nel determinare, in maniera il piu’ possibile precisa, la distribuzione di una variabile aleatoria X (o anche di un vettore aleatorio), di cui si conoscono alcuni elementi caratteristici. Di solito si suppone di poter disporre di numerosi dati estratti dalla distribuzione in esame, e, tramite quelli, si definiscono e si usano strumenti che, sotto certe condizioni, possono fornire indicazioni abbastanza precise sulle caratteristiche che dobbiamo determinare. Spesso, per motivi teorici, si presume che la distribuzione incognita sia di un certo tipo (per es. Normale, oppure Gamma, o Bernoulli, ecc.) e quindi l’indagine si concentra su quei parametri (media, varianza, ecc.) che consentono poi, una volta individuati, di riconoscere completamente la distribuzione misteriosa. In questo capitolo concentreremo l’attenzione proprio su alcuni metodi che, elaborando opportunamente i dati osservati (anche attraverso statistiche opportune), forniscono indicazioni sui parametri ancora incogniti, di solito medie o varianze, assumendo peraltro che il tipo di distribuzione sia gia’ noto in partenza. 3.1 Metodi di stime puntuali Tratteremo in questo paragrafo degli strumenti per stimare un parametro incognito di una certa distribuzione, adoperando dati provenienti da un campione aleatorio, ammettendo a volte anche che gli altri parametri siano invece conosciuti (benche’ questo caso sia poco 15 frequente, in pratica). Descriveremo due soli metodi: il metodo dei momenti e quello di massima verosimiglianza. Il metodo dei momenti puo’ essere descritto come segue. Supponiamo di voler conoscere alcuni parametri di una distribuzione, che per il resto é nota (ad esempio, i parametri α e β di una Γ), e di conoscere un campione aleatorio (x1 , ..., xn ) di quella distribuzione. Calcolando la media x del campione, avremo una stima per la media αβ della distribuzione; calcolando la varianza campionaria S 2 avremo una stima per la varianza della distribuzione, che, come sappiamo, é data da αβ 2 . Allora possiamo mettere a sistema le due relazioni: x = αβ . S 2 = αβ 2 (3.1) Risolvendo il sistema, si ottengono due valori per α e β, che potremo usare come stime per le incognite. Si ha una situazione piu’ semplice, naturalmente, se l’incognita é una sola. Ad esempio, se la distribuzione é di tipo uniforme continua U (0, T ), e l’incognita é T , sapendo che il valor medio di tale distribuzione é T , 2 bastera’ imporre la condizione T = x, 2 per ricavare subito una stima di T . Veniamo ora al metodo della massima verosimiglianza. Anche qui, supporremo di conoscere esattamente la distribuzione del campione, ad eccezione di alcuni parametri, che denoteremo con θ1 , θ2 , ...θk . Supponiamo anche che la distribuzione sia di tipo continuo, cosi’ che la densita’ f puo’ essere interpretata come una funzione del tipo f (x; θ1 , ..., θk ). Se disponiamo di un campione aleatorio (x1 , ..., xn ), evidentemente questo puo’ esser visto come una realizzazione della variabile n-dimensionale X = (X1 , ..., Xn ), la cui densita’ 16 é quindi fX (t1 , ..., tn ) = f (t1 ; θ1 , ..., θk )f (t2 ; θ1 , ..., θk )...f (tn ; θ1 , ..., θk ). Ebbene, dato il campione aleatorio (x1 , ..., xn ), la verosimiglianza é una funzione dei parametri (θ1 , .., θk ), denotata con L(θ1 , ..., θk ), definita come segue: L((θ1 , ..., θk ) = fX (x1 , ..., xn ) = f (x1 ; θ1 , ..., θk )f (x2 ; θ1 , ..., θk )...f (xn ; θ1 , ..., θk ). In questo modo, considerando noti i valori x1 , ..., xn , la funzione fX viene a dipendere solo dai parametri incogniti θ1 , ..., θk : questa é appunto la verosimiglianza. Per ottenere delle stime di tali parametri, il metodo consiste nel massimizzare la verosimiglianza, ossia nel determinare quei valori di θ1 , ..., θk che rendono piu’ probabile il campione osservato. Vediamo, come primo esempio, come si procede nel caso si voglia stimare la probabilita’ p di un determinato evento E (ad es., l’uscita di testa in un lancio di moneta), ripetendo n volte l’esperimento in condizioni di indipendenza, e registrando ogni volta se E si verifica o no. Naturalmente, il campione x1 , ..., xn sara’ una stringa di 0 e 1 (1 quando E si verifica, 0 altrimenti). La verosimiglianza di tale campione é data da L(p; x1 , ..., xn ) = ps (1 − p)n−s , dove s = P i xi denota il numero di 1 presenti nel campione. Calcolando la derivata rispetto all’incognita p, troveremo ∂L = sps−1 (1 − p)n−s − ps (n − s)(1 − p)n−s−1 = ps−1 (1 − p)n−s−1 (s − pn). ∂p E’ ora semplice controllare che il valore di p che massimizza L é esattamente s , n cioé la frequenza relativa con cui l’evento E si é verificato nelle n prove. Un altro esempio, impostato nel caso continuo, é il seguente: supponiamo che la distribuzione incognita sia di tipo normale, N (µ, σ 2 ), e il parametro incognito sia µ; dall’osservazione (x1 , ..., xn ) si ricava la verosimiglianza: L(µ) = 1 2 2 2 2 2 2 e−(x1 −µ) /2σ e−(x2 −µ) /2σ ...e−(xn −µ) /2σ = 2 n/2 (2πσ ) 17 1 = exp{− (2πσ 2 )n/2 P (xi − µ)2 }. 2σ 2 Evidentemente, massimizzare la verosimiglianza, in questo caso, equivale a massimizzare la quantita’ ad esponente, e quindi a minimizzare la funzione P (xi − µ)2 G(µ) = i . 2σ 2 Considerato di nuovo che σ 2 qui é una costante positiva, il minimo di G si ottiene quando la derivata del numeratore si annulla, ossia quando µ = P i xi n = x. Trattiamo ora il problema precedente, supponendo incognita anche σ. Il calcolo della derivata parziale rispetto a µ non presenta novita’ rispetto al caso precedente, e quindi la stima per µ rimane x. Se vogliamo stimare σ 2 , dobbiamo massimizzare la funzione P 1 (xi − µ)2 f (µ, σ) = n exp{− }, σ 2σ 2 avendo eliminato una costante positiva ininfluente. Osserviamo che f é positiva, e quindi possiamo equivalentemente massimizzare il suo logaritmo naturale: P − µ)2 : 2σ 2 i (xi g(µ, σ) = log(f (µ, σ)) = −n log σ − si vede facilmente che ∂g n =− + ∂σ σ P i (xi − µ)2 σ3 = −nσ 2 + P i (xi σ3 − µ)2 . A questo punto, si ottiene rapidamente che il valore di σ che rende massima la verosimiglianza é quello per cui σ 2 = P i (xi −µ) n 2 : considerato poi che µ va sostituito da x, vediamo che la stima ottimale per σ 2 non é altro che la quantita’ s2 = n−1 2 S , n introdotta nella (2.1). Solitamente, per uno stesso parametro si possono usare entrambi i metodi descritti, ma non é detto che la stima trovata sia la stessa. Ad esempio, se usiamo il metodo della massima verosimiglianza per stimare il valore incognito T di una distribuzione continua uniforme U (0, T ), la verosimiglianza sarebbe L(T, x1 , ..., xn ) = 1 1[0,T ] (x1 ), ...1[0,T ] (xn ) : Tn 18 1 ) Tn tale funzione é positiva (e uguale a solo se T é superiore al massimo degli xi , quindi ogni valore di T che risulti maggiore di x := x1 ∨ x2 ∨ ... ∨ xn massimizza la verosimiglianza. Il metodo dei momenti, invece, darebbe come stima T = 2x: in generale, questa quantita’ non é maggiore del massimo degli xi . Un altro esempio interessante si ha in questa situazione: supponiamo che X abbia distribuzione U ([0, 1]), e Y sia definita come Y = − loga X, con a incognita, a > 1. Supponendo di avere un campione {y1 , ..., yn }, cerchiamo a con il metodo della massima verosimiglianza. Occorre ovviamente conoscere la distribuzione di Y : dato che a > 1, certamente Y é a valori in ]0, +∞[, e P ([Y ≤ y]) = P ([loga X > −y]) = P ([X > a−y ]) = 1 − a−y : dunque, Y ha densita’ fY (y) = a−y ln a, ovviamente per y > 0. Pertanto, dato il campione {y1 , ..., yn },la verosimiglianza per a é L(a; y1 , ..., yn ) = a− Derivando in a, e ponendo S = − P i P i yi (ln a)n . yi , avremo: ∂L = SaS−1 (ln a)n + naS−1 (ln a)n−1 = aS−1 (ln a)n−1 (S ln a + n). ∂a Si vede facilmente ora che il massimo é ottenuto per ln a = − Sn , ossia per a = e1/y . In questo caso, si puo’ notare che, anche applicando il metodo dei momenti (e quindi imponendo y = E(Y ), si sarebbe ottenuta la stessa stima. 3.2 Intervalli di confidenza Le stime dedotte nel paragrafo precedente, pur permettendo in certi casi di orientare le ricerche successive, non sono certo risolutive, soprattutto perché non forniscono informazioni sulla loro attendibilita’. Conviene piuttosto individuare degli intervalli entro i 19 quali, con buona probabilita’, le stime stesse possono collocarsi: se si vuole un’alta precisione, l’intervallo dovra’ essere piu’ ampio, e viceversa. Dunque, se si vuole adoperare uno stimatore t per un parametro incognito θ, in maniera che la probabilita’ di errore non sia superiore ad un certo α > 0, si dovra’ trovare un intervallo [t − δ, t + δ], in modo tale che P ([t − δ < θ < t + δ]) > 1 − α. (3.2) Piu’ in generale, l’obiettivo puo’ essere raggiunto se si trovano due stimatori, t1 e t2 , che verificano le condizioni: t2 − t1 < 2δ, e P ([θ ∈ [t1 , t2 ]]) = 1 − α. (3.3) L’intervallo [t1 , t2 ], se esiste, viene detto intervallo di confidenza, mentre la probabilita’ α viene detta livello di confidenza, o significativita’. Per esempio, dire che l’intervallo [−0.2, 0.1] é un intervallo di confidenza al 5% per un certo parametro θ significa che la probabilita’ che θ non sia compreso fra −0.2 e 0.1 é 0.05. In altre parole, α esprime il rischio di errore che si puo’ commettere nel collocare θ nell’intervallo di confidenza. Chiaramente, un problema del genere puo’ essere affrontato se si conosce la distribuzione dello stimatore che si vuole usare per θ: ad esempio, se θ é la media (incognita) di una distribuzione N (µ, 1), e si usa come stimatore t la media campionaria, sappiamo che, per un campione di dimensione n, la distribuzione di t é N (µ, n1 ), e quindi, scelto un livello α, l’intervallo di confidenza per µ sara’ [t − δ, t + δ], dove l’ampiezza δ é ottenuta risolvendo l’equazione P ([|t − µ| < δ]) = 1 − α, ossia √ Z δ √ n −n(x−µ)2 /2 n 2 √ e √ e−nx /2 dx = 1−α= dx = 2π 2π µ−δ −δ √ Z δ Z δ √n 2 n 2 δ 2 2 =√ e−nx /2 dx = √ e−u /2 du = 2Φ( √ ) − 1, n 2π 0 2π 0 √ avendo operato la sostituzione u = x n, e indicando con Φ la funzione di ripartizione della Z µ+δ normale standard, ossia Z x Φ(x) = −∞ 1 2 √ e−t /2 dt. 2π 20 √ Quindi, δ n dev’essere quel numero per cui √ √ α 1 − α = 2Φ(δ n) − 1, ossia Φ(δ n) = 1 − . 2 Poiché la funzione Φ, cosi’ come la sua inversa, é tabulata, non é difficile, servendosi di √ tavole apposite, ricavare il valore di δ n e quindi quello di δ. Per esempio, se fosse α = 0.02, si avrebbe 1 − α 2 = 0.99: allora, le tavole forniscono Φ−1 (0.99) = 2.326. Quindi, a tale livello, con n = 100 si dovrebbe scegliere per θ l’intervallo [t − 0.2326, t + 0.2326]. Se si disponesse di un campione di dimensione 400, l’ampiezza dell’intervallo si dimezzerebbe; si potrebbe stringere l’intervallo anche richiedendo un livello di significativita’ minore (ossia un valore maggiore per α): per α = 0.05, e quindi 1−α/2 = √ 0.975, le tavole forniscono δ n = 1.96, per cui l’intervallo sarebbe [t − 0.196, t + 0.196] con un campione di dimensione 100, e [t − 0.098, t + 0.098] con un campione di dimensione 400. Il problema diventa piu’ complesso, quando la distribuzione incognita non sia di tipo normale. Infatti, in tali casi la distribuzione degli stimatori é difficile da calcolare, e ancor piu’ difficile é poi risolvere l’equazione (o disequazione) che serve per trovare l’ampiezza dell’intervallo di confidenza. In molti casi, tuttavia, ci si puo’ ricondurre al Teorema del Limite Centrale, per poter almeno approssimare le distribuzioni degli stimatori, e quindi ricorrere alle tavole della distribuzione normale per ricavare l’ampiezza degli intervalli. In qualche situazione, é anche possibile approssimare linearmente la densita’ dello stimatore, commettendo un errore non troppo grosso nella determinazione delle quantita’ cercate. La situazione piu’ facile si ha quando il parametro incognito é la media µ, mentre la varianza σ 2 é nota. In tal caso, lo stimatore adeguato per µ é la media campionaria, X, che ha media µ e varianza σ2 . n Avremo dunque X = ∗ √σ X + µ, n e, come gia’ osservato in un corollario al Teo∗ rema del Limite Centrale, per n abbastanza grande la distribuzione di X é approssimabile con N (0, 1). Si deve avere dunque, per qualunque δ > 0: √ ∗ P ([µ − δ < X < µ + δ]) = P ([|X | < 21 n δ]). σ Allora, denotando come prima con Φ la funzione di ripartizione della distribuzione normale standard, si ha √ √ √ 1 n n n P ([|X | < δ]) = 2 Φ( δ) − = 2Φ( δ) − 1. σ σ 2 σ ∗ Imponendo la condizione che tale probabilita’ sia uguale a 1 − α, si ottiene √ n α Φ( δ) = 1 − . σ 2 (3.4) Questa formula permette, grazie alle tavole che forniscono i valori sia di Φ che di Φ−1 , di ricavare δ, e quindi trovare l’intervallo di confidenza cercato. Cominciamo con un esempio di tipo discreto. Si vuole stimare, lanciando n = 100 volte una monetina, la probabilita’ incognita p di testa, con un intervallo di confidenza a livello di significativita’ α = 0.02. Sappiamo che lo stimatore adatto per p é la media Xn , considerando ciascuna Xi come Bernoulliana con parametro p. Poiché n é abbastanza grande, adoperiamo il Teo∗ rema del Limite Centrale, (o il suo corollario), per dedurre che Xn ha distribuzione (approssimativamente) normale standard. Allora, risulta σ ∗ P ([|Xn − p| ≤ δ]) = P ([−δ ≤ √ Xn ≤ δ]), n essendo Xn = ∗ √σ Xn n + p, e σ 2 = p(1 − p). Ora, poiché σ dipende da p, che é incognita, dall’ultima formula non si puo’ ricavare direttamente δ. Tuttavia, considerato che p(1−p) al massimo puo’ valere 14 , la disuguaglianza √ ∗ ∗ ∗ | √σn Xn | ≤ δ é senz’altro verificata non appena si abbia 2√1 n |Xn | ≤ δ, cioé |Xn | ≤ 2 nδ. √ La probabilita’ di tale evento é 2Φ(2 nδ) − 1, quindi basta trovare il valore di δ che verifica la relazione √ √ 2Φ(2 nδ) − 1 = 1 − α ossia Φ(2 nδ) = 1 − α/2. Essendo qui n = 100 e α = 0.02, l’equazione trovata diventa Φ(20δ) = 0.99. Dalle tavole, risulta che Φ−1 (0.99) ∼ 2.326, quindi dev’essere δ = 2.326 20 ∼ 0.116. Se il numero di lanci fosse 900 invece di 100, troveremmo δ ∼ 2.326 60 ∼ 0.0387 : infatti, se la taglia del campione (cioe’ n) si moltiplica per una costante positiva K, allora (fermi 22 restando la media e il livello di significativita’) l’ampiezza dell’intervallo di confidenza si √ divide per K. Affrontiamo ora un problema nel caso continuo. Vogliamo determinare il parametro a di una distribuzione Γ(a, 3), sulla base di n osservazioni x1 , ..., xn . Possiamo trovare uno stimatore con il metodo dei momenti: ricordando che il valor medio di una distribuzione Γ(a, b) é il prodotto ab, bastera’ imporre l’equazione 3a = x, e quindi s = 13 x é lo stimatore da usare in questo caso. Ora, fissato un livello di significativita’ α, vogliamo trovare δ > 0 tale che P ([|s − a| < δ]) = 1 − α, ossia 1 − α = P ([a − δ < s < a + δ]) = P ([3(a − δ) < X < 3(a + δ)]). La variabile aleatoria X ha media 3a e varianza 9a , n per cui si ha √ 3 a ∗ P ([3(a − δ) < X < 3(a + δ)]) = P ([−3δ ≤ √ X < 3δ]) = n r r n n ∗ = P ([−δ <X <δ ]). a a Ora, anche approssimando (grazie al Teorema del Limite Centrale), la distribuzione di X ∗ con una N (0, 1), avremo la condizione r 1 − α = 2Φ(δ n )−1 a che non permette, pur usando le tavole, di determinare δ, in quanto per fare cio’ occorrerebbe conoscere il valore di a, che invece non conosciamo. Per ovviare a questo problema, possiamo osservare che, nell’ultima formula, il parametro a compare in quanto esso ∗ compariva nell’espressione della varianza di X (un problema analogo si era incontrato in precedenza nel problema discreto, che risolvemmo individuando una stima per la varianza ∗ stessa). In questo caso (e in altri simili), nel valutare la varianza di X , possiamo sostituire 23 la varianza teorica della Γ con quella campionaria, S 2 : infatti, sappiamo che, per valori molto grandi di n, tale stima é molto vicina al valore della varianza teorica, 9a. Insomma, nell’ultima formula trovata, anziché inserire a, possiamo inserire √ 3δ n 1 − α = 2Φ( 2 ) − 1, S S2 , 9 e quindi richiedere da cui poi si ricava δ per mezzo delle tavole. Se ad esempio abbiamo n = 100, α = 0.02 e S 2 = 12, si ottiene 5 Φ( δ) = 0.99, 2 e quindi dalle tavole δ = 0.93. Possiamo quindi affermare, in tale situazione, che il valore di a si trova tra x/3 − 0.93 e x/3 + 0.93 con probabilita’ almeno pari a 0.98. 3.3 La distribuzione di Student In molti casi concreti, quando si vogliono determinare intervalli di confidenza per il valor medio, si incontra il problema di non conoscere la varianza del modello X. Abbiamo incontrato alcuni esempi in precedenza, e per risolvere il problema abbiamo semplicemente sostituito la varianza incognita σ 2 con la varianza campionaria S 2 . Un metodo piu’ preciso consiste nell’utilizzare la distribuzione t di Student: essa é definita come la distribuzione del rapporto √ T = νY , Z ove ν é un parametro positivo (di solito un numero intero), mentre Y e Z 2 sono due v.a. indipendenti, con Y ∼ N (0, 1) e Z 2 ∼ χ2ν = Γ( ν2 , 2). Il parametro ν é detto il numero dei gradi di liberta’ della T . Si dimostra che la densitá di T é la funzione (simmetrica) Γ( ν+1 ) t2 − ν+1 2 √ q(t) = (1 + ) 2 , ν πνΓ( ν2 ) e che, per ν > 2, si ha E(T ) = 0, V ar(T ) = ν . ν−2 L’utilita’ di questa distribuzione consiste nel seguente risultato. 24 Teorema 3.1 Supponiamo che X ∼ N (µ, σ 2 ), e sia (X1 , ..., Xn ) un campione aleatorio con la stessa distribuzione di X. Posto P 2 − X)2 , n i (Xi Y = X − µ, Z = la variabile aleatoria T = √ n−1 Y Z ha distribuzione t con n − 1 gradi di liberta’. Si osservi che la distribuzione di T non dipende dal valore σ 2 , e quindi, quando questo é incognito, puo’ essere conveniente trattare disequazioni del tipo |X − µ| < δ trasformandole in √ |X − µ| < n−1 Z √ n−1 δ, Z che (noto Z) possono essere risolte mediante le tavole della distribuzione t. Vediamo un esempio. Supponiamo di avere esaminato 17 campioni di una v.a. X di tipo normale, e di aver riscontrato x = 48 e Z 2 = 25. Qual e’ l’intervallo [48 − δ, 48 + δ] di confidenza per la media di X, al livello α = 0.1? √ Con i dati indicati, essendo T = n − 1 X−µ ∼ t(16), possiamo impostare la condizione Z 5 4 P ([|X − 48| < δ]) = P ([ |T | < δ]) = P ([T < δ]) = 0.9. 4 5 Dalla tabella della distribuzione t(16) si ha 45 δ ∼ 1.3367, e quindi δ ∼ 1.671. 3.4 Test di Ipotesi Supponiamo che una certa v.a. X abbia una distribuzione incognita: per esempio, la distribuzione potrebbe dipendere da uno o piu’ parametri (media, varianza, ecc.), ma si sa solo che i parametri appartengono a un certo insieme C. In un caso del genere e’ importante stabilire se il vero valore di un parametro appartiene a un fissato sottoinsieme C0 di C oppure al suo complementare: per esempio, se il parametro incognito fosse il valor medio, 25 potrebbe essere importante stabilire se esso e’ positivo o no. Oppure, se X e’ un vettore bidimensionale, X = (X1 , X2 ), la richiesta potrebbe riguardare una qualche relazione tra le medie (per es. E(X1 ) > E(X2 )?) o una condizione sulla covarianza (cov(X1 , X2 ) > .5?), ecc. In genere, fissato il sottoinsieme C0 , la condizione che il parametro sia in C0 e’ detta Ipotesi nulla, e viene denotata con H0 ; la condizione contraria viene detta Ipotesi alternativa, e denotata con H1 . Una procedura atta a scegliere una delle due ipotesi consiste nel programmare una sequenza x1 , x2 , ..., xn di dati, (con n variabile) indipendenti e aventi la stessa distribuzione di X, e stabilire una funzione T , che ad ogni sequenza del genere associa una delle due ipotesi, H0 o H1 . Per esempio, se il valore incognito fosse la media µ di X, e l’ipotesi H0 fosse µ > 0, si potrebbe definire T come segue: T (x1 , ..., xn ) = H0 se la quantita’ x := P i n xi risulta maggiore di 14 , altrimenti T (x1 , ..., xn ) = H1 . Chiaramente, se il valore della funzione T e’ H0 allora accettiamo come vera l’ipotesi nulla (cioe’ µ > 0), altrimenti la rifiutiamo. Una tale funzione T e’ detta Test non aleatorio, per l’ipotesi H0 contro l’ipotesi H1 . Fissato n, si dice regione di accettazione di H0 l’insieme A = T −1 (H0 ), cioe’ l’insieme di tutte le sequenze per le quali il test indica come vera l’ipotesi H0 . La regione complementare viene detta regione di rifiuto. Qualche volta, l’ipotesi nulla attribuisce un valore ben preciso al parametro incognito, (per es. µ = 0), e quindi stabilire se tale congettura va accettata oppure no significa attribuire al parametro esattamente quel valore oppure viceversa lasciare nel vago il valore vero del parametro. Se l’ipotesi H0 e’ di questo tipo, si dice che essa e’ semplice. Negli altri casi, essa e’ detta composta. Definizione 3.2 Se dobbiamo scegliere tra H0 e H1 , e definiamo un test T , potrebbe accadere che il test induca in errore: il dato (x1 , ..., xn ) potrebbe appartenere alla regione di rifiuto anche se l’ipotesi nulla e’ vera, o viceversa l’ipotesi potrebbe essere falsa anche se il dato appartiene alla regione di accettazione; nel primo caso si parla di errore di prima specie, nell’altro caso di errore di seconda specie. La probabilita’ dell’errore di prima specie 26 e’ denotata con α (o α(θ) se si vuole far riferimento al parametro, denotato qui con θ). La probabilita’ dell’errore di seconda specie e’ denotato con β, o β(θ). In formule α(θ) = P (Ac |[θ ∈ C0 ]), β(θ) = P (A|[θ ∈ / C0 ]). Si dice potenza del test la quantita’ 1 − β, cioe’ la probabilita’ di rifiutare l’ipotesi H0 quando questa e’ falsa. Naturalmente, se non e’ noto il valore vero del parametro θ, non si puo’ di solito calcolare esattamente la probabilita’ di un errore. Percio’, per confrontare la validita’ di due test si confronta a priori il loro comportamento su qualsiasi valore di θ. Definizione 3.3 Dati due test T 1 e T 2 (per la stessa ipotesi nulla), diciamo che il test T 1 e’ piu’ potente del test T 2 , e scriviamo T 1 ≥ T 2 , se si ha α1 (θ) ≤ α2 (θ) ∀θ ∈ C0 , β1 (θ) ≤ β2 (θ)∀θ ∈ / C0 dove α1 e’ la probabilita’ di errore di prima specie per T 1 , α2 quella relativa al test T 2 , e analogamente per β1 e β2 . Se, nelle relazioni precedenti, si ha la disuguaglianza stretta per qualche valore di θ almeno relativamente alla probabilita’ di errore di seconda specie, allora si dice che T 1 e’ strettamente piu’ potente di T 2 , e si scrive T 1 > T 2 . Assegnata una famiglia T di test possibili per un’ipotesi H0 , un test T di T viene detto ammissibile per H0 se non esiste alcun altro test T 1 ∈ T strettamente piu’ potente di T . Comunque, di solito si stabilisce una soglia α, compresa tra 0 e 1, che fornisca un limite superiore alle probabilita’ degli errori: abbiamo cosi’ la seguente definizione. Definizione 3.4 Un test T per l’ipotesi H0 si dice di livello α (con 0 < α < 1) se α(θ) ≤ α per ogni θ ∈ C0 . Un risultato importante, riguardante l’alternativa tra due ipotesi semplici, e’ il Lemma di Neymann-Pearson, che ora enunceremo. Ricordiamo che, data una v.a. X, un campione aleatorio parente a X e’ una successione (finita) (X1 , ..., Xn ) di v.a. globalmente indipendenti e aventi la stessa distribuzione di X. Inoltre, per un tale campione aleatorio 27 denotiamo con L(x1 , ..., xn ) la verosimiglianza della n-upla x1 , ..., xn (densita’ congiunta, se X ha distribuzione continua). Come dicevamo, il Lemma che segue descrive come si puo’ stabilire un test, nel caso (assai semplice, ma comunque utile) in cui le alternative possibili siano solo due: l’ipotesi nulla corrisponde ad un valore θ0 del parametro incognito, l’ipotesi alternativa corrisponde ad un valore θ1 , ovviamente diverso. L’idea di base di questo criterio e’ che, avendo a disposizione un campione (x1 , ..., xn ), l’ipotesi nulla sara’ preferibile se la funzione di verosimiglianza L(x1 , ..., xn ; θ1 ) e’ minore della verosimiglianza L(x1 , ..., xn ; θ0 ), ovvero se il rapporto tra la prima e la seconda verosimiglianza e’ minore di 1: ma questo di per se’ non ci da’ indicazioni circa la probabilita’ di errore; nel Lemma che segue si asserisce invece che, se si vuole ottenere un determinato livello α per l’errore di prima specie, si puo’ sempre individuare un corrispondente valore cα ∈ [0, 1] tale che, se il rapporto di verosimiglianza L(x1 ,...,xn ;θ1 ) L(x1 ,...,xn ;θ0 ) e’ minore di cα , allora l’errore di prima specie nell’accettazione di H0 e’ minore o uguale ad α. Lemma 3.5 Supponiamo che X abbia densita’ f (x, θ), con f sempre strettamente positiva, e supponiamo che l’incertezza circa θ riguardi l’alternativa tra due valori distinti: θ0 (ipotesi nulla) e θ1 (ipotesi alternativa). Supponiamo che, per ogni c > 0, sia nulla la probabilita’ (valutata assumendo θ = θ0 ) che risulti L(x1 , ..., xn ; θ1 ) = cL(x1 , ..., xn ; θ0 ), ove x1 , ..., xn rappresenta il risultato di qualsiasi campione aleatorio parente a X. Allora: 1) per ogni livello α esiste un valore cα tale che P ([L(X1 , ..., Xn ; θ1 ) ≤ cα L(X1 , ..., Xn ; θ0 )]) = 1 − α, ove la probabilita’ e’ calcolata supponendo vera l’ipotesi nulla. 2) Esiste un test ammissibile T di livello α, e tale test si puo’ definire come segue: T (X1 , ..., Xn ) = θ0 ⇐⇒ L(X1 , ..., Xn , θ1 ) ≤ cα L(X1 , ..., Xn ; θ0 ). 28 In altri termini, il Lemma di Neymann-Pearson ci dice che, comunque scegliamo un livello α, la maniera ottimale per decidere se accettare o no l’ipotesi H0 , e’ di controllare se, per il dato osservato (x1 , ..., xn ), risulti o no che L(x1 , ..., xn ); θ1 ) ≤ cα L(x1 , ..., xn ; θ0 ). Vediamo, attraverso un esempio, come si adopera questo criterio. Supponiamo che X ∼ N (θ, 1), e che le due ipotesi alternative siano: θ0 = 1, θ1 = 2. Scegliamo poi il livello α = 0.05, e stabiliamo che il campione abbia dimensione 100. Tutto cio’ che dobbiamo trovare e’ la quantita’ cα . Valutiamo allora il rapporto 1 P100 L(x1 , ..., x100 ; 2) 2 2 = e− 2 i=1 [(xi −2) −(xi −1) ] = eS−150 , L(x1 , ..., x100 ; 1) ove con S si denota la somma delle xi . Se dunque si vuole che il rapporto di verosimiglianza sia minore di c, bisogna imporre S − 150 < ln c, (3.5) ln c 1 . Ora, osservando che X ∼ N (θ, 10 ), la variabile aleatoria Y := 10(X −1) ossia X < 1.5+ 100 e’ la sua standardizzata, e quindi ha distribuzione normale standard, nell’ipotesi H0 . Il valore cα si determina allora andando a cercare nelle tabelle della gaussiana il valore di c per cui P ([Y ≤ 5 + ln c ]) = 1 − α = 0.95. 10 Dalle tabelle risulta che dev’essere 5+ ln c = 1.645, 10 e quindi ln c = −33.55. Sostituendo in (3.5), otteniamo infine S ≤ 116.45. In conclusione, l’ipotesi nulla si accettera’ al livello α, se S risulta minore o uguale a 116.45, altrimenti la si rifiutera’. Il Lemma di Neymann-Pearson puo’ essere adoperato anche se la distribuzione di X e’ discreta, pur di sostituire opportunamente le densita’ con i valori effettivi di probabilita’. Per esempio, supponiamo di voler determinare la probabilita’ di testa nel lancio di una moneta, e di avere due possibili alternative: H0 := [p = 21 ] e H1 := [p = 53 ]. Effettuando un 29 certo numero di lanci (per es. 400), la funzione di verosimiglianza di una n-upla di valori x := (x1 , ..., xn ) e’ data da L(x, θ) = θs (1 − θ)n−s , ove θ denota la probabilita’ di testa (incognita) e s il numero di teste uscite nelle n prove. Nel nostro caso, il rapporto di verosimiglianza sara’ dunque 8 3 L(x, θ1 ) = ( )400 ( )s , L(x, θ0 ) 5 2 fatte le debite semplificazioni. Imponendo ora che tale rapporto sia minore di c, troveremo (passando a logaritmo e dopo alcuni passaggi): − ln 45 x≤ , ln 3 − ln 2 ln c 400 dove x denota la media campionaria. Ora, dato che E(x) = 1 2 e V (x) = 1 1600 (nell’ipotesi H0 ), avremo x ∗ = 40x − 20, e quindi la condizione ln c 400 − ln 45 x≤ ln 3 − ln 2 equivale a 40 x ≤ ln 3 − ln 2 ∗ 4 ln c − ln 400 5 − 20. In base al Teorema del Limite Centrale, la distribuzione di x ∗ e’ approssimativamente normale standard: dunque, richiedendo per esempio il livello α = 0.05, la condizione suddetta ha probabilita’ 1 − α = 0.95 se e solo se 40 4 ln c − ln − 20 = 1.645, ln 3 − ln 2 400 5 in base alle tabelle della normale standard. Risolvendo l’ultima equazione, troveremo ln c 400 − ln 45 ∼ 0.5411. ln c ∼ −1.4945, e quindi x ≤ ln 3 − ln 2 In conclusione, se la media x risulta minore di 0.5411, potremo accettare l’ipotesi nulla θ= 1 2 con probabilita’ al piu’ 0.05 di commettere un errore di prima specie. 30 Osservazione 3.6 A proposito di questi primi esempi, notiamo che la regione di accettazione e’ tanto piu’ ampia quanto minore e’ il livello α. Questo comporta un inconveniente: benche’ la probabilita’ di errore di prima specie diminuisca, aumentando l’insieme Aα si corre il rischio di incappare in un errore di seconda specie, cioe’ di accettare l’ipotesi nulla anche quando questa sia falsa. Una maniera per evitare questo inconveniente e’ quella di scambiare tra loro le due ipotesi: in tal modo la nuova regione di accettazione corrispondera’ all’esigenza di controllare gli errori di seconda specie nel confronto H0 contro H1 . Se le due regioni hanno intersezione vuota, l’esito del test e’ sempre soddisfacente per entrambi i tipi di errori; se invece le due regioni hanno punti in comune, e il dato osservato ricade nell’intersezione, ambedue le ipotesi potrebbero essere accettate, cioe’ il test non riesce a distinguerle e forse e’ opportuno adoperare un campione di taglia maggiore. Esaminiamo ora lo stesso esempio precedente, scambiando di ruolo le due ipotesi: fermo restando il livello α = 0.05, quale sara’ la regione di accettazione di H1 contro H0 ? Si possono ripercorrere i passaggi precedenti, invertendo il rapporto di verosimiglianza, e, in seguito, attribuendo a x media 3 5 e varianza 6 25×400 = 3 . 5000 Si ha dunque: 5 2 L(x, θ0 ) = ( )400 ( )s , L(x, θ1 ) 4 3 da cui x ≥ (ln c/400 − ln 5 + ln 4) 1 : ln 2 − ln 3 bisogna cambiare il verso della disuguaglianza, avendo diviso per la quantita’ negativa ln 23 . Ora, assumendo l’ipotesi H1 , risulta E(x) = 35 , V (x) = 3 , 5000 e quindi l’ultima condizione diviene r x∗≥ 5000 1 (ln c/400 − ln 5 + ln 4) − 3 ln 2 − ln 3 r 5000 3 . 3 5 Fermo restando il livello, si deve dunque imporre r r 5000 5000 3 1 (ln c/400 − ln 5 + ln 4) − = ϕ−1 (0.05) ∼ −1.645, 3 ln 2 − ln 3 3 5 dove ϕ denota, come al solito, la funzione di ripartizione della normale standard. Risolvendo, si trova ln c ∼ −1.519, e x ≥ 0.5597. Quindi, se la media x supera 0.5597, accettando 31 l’ipotesi H1 l’errore di prima specie ha probabilita’ minore di 0.05. Confrontando questo test con quello precedente, vediamo che le due regioni di accettazione sono disgiunte, e quindi non c’e’ ambiguita’ in questo test, quale che sia il valore riscontrato per x, fermi restando la taglia n e il livello α. Passiamo ora ad esaminare un altro tipo di test, detto di ipotesi composte. L’alternativa riguarda le condizioni H0 := [θ ≤ θ0 ] e H1 := [θ > θ0 ]. Presenteremo qui un risultato che stabilisce l’esistenza di un test ottimale per ipotesi composte: tale teorema necessita di un’ipotesi sulla distribuzione della v.a. X. Definizione 3.7 Diremo che la distribuzione di X ha la proprieta’ G se esiste una statistica G tale che, per ogni coppia di valori (θ0 , θ1 ) con θ1 > θ0 , il rapporto di verosimiglianza L(x1 , ..., xn ; θ1 ) L(x1 , ..., xn ; θ0 ) sia funzione crescente di G(x1 , ..., xn ). (Solitamente, la funzione G e’ una statistica corretta per il parametro θ, o una sua variante lineare: se θ1 > θ0 , e’ da attendersi che, aumentando G(x1 , ..., xn ), i dati tendano a favorire θ1 e quindi anche il rapporto di verosimiglianza aumenti). Enunciamo ora il teorema, dovuto a Lehmann, per il test tra ipotesi composte. Teorema 3.8 Sia X una v.a. con densita’ f dipendente da un parametro θ, e supponiamo che la distribuzione di X abbia la proprieta’ G. Consideriamo le ipotesi composte H0 := [θ ≤ θ0 ] e H1 := [θ > θ0 ]. Allora, per ogni livello α esiste un test che sia il piu’ potente di livello α per H0 contro H1 , e questo test ha come regione di accettazione l’insieme Aα = {(x1 , ..., xn ) : G(x1 , ..., xn ) ≤ cα }, ove la quantita’ cα verifica la condizione P ([G(X1 , ..., Xn ) ≤ cα ]) = 1 − α, ove la probabilita’ a primo membro e’ calcolata assumendo θ = θ0 . 32 Per esempio, supponiamo che X ∼ N (θ, 41 ), e di voler testare, mediante un campione aleatorio di dimensione 100, l’ipotesi H0 := [θ ≤ 0] contro l’ipotesi H1 := [θ > 0], al livello α = 0.01. Calcoliamo il rapporto di verosimiglianza L(x1 ,...,xn ;θ1 ) L(x1 ,...,xn ;θ0 ) supponendo θ1 > θ0 : avremo P P L(x1 , ..., xn ; θ1 ) 2 2 = e−2 i (xi −θ1 ) +2 i (xi −θ0 ) = L(x1 , ..., xn ; θ0 ) 2 2 = e−2[nθ1 −nθ0 +2 P i xi (θ0 −θ1 )] 2 2 = e−2n(θ1 −θ0 ) e4nx(θ1 −θ0 )] . Dunque, si vede facilmente che la proprieta’ G sussiste con G(x1 , ..., xn ) = x. Ora, nel 1 nostro caso, assumendo θ = θ0 = 0, avremo che X ∼ N (0, 400 ) e quindi X ∗ = 20X. Allora, la condizione P ([G(X1 , ..., Xn ) ≤ cα ]) = 1 − α si traduce in P ([X poiche’ X ∗ ∗ ≤ 20cα ]) = 0.99 : e’ normale standard, dalle tabelle troviamo 20cα = 2.326, risulta cα = 2.326 20 ∼ 0.116. Anche in questo esempio possiamo notare che la regione di accettazione e’ alquanto vasta: data la numerosita’ del campione, la varianza di x e’ molto bassa, e quindi anche un dato per cui x = 0.1 appare poco verosimile, pur rientrando nella regione Aα . Insomma, potrebbe accadere che, osservando x = 0.1, accettiamo l’ipotesi H0 mentre questa e’ falsa: errore di seconda specie. Facciamo allora uno scambio tra le due ipotesi composte, e testiamo H1 := [θ ≥ 0] contro H0 := [θ < 0]. Questa volta, dato che i valori di θ in accordo con H0 sono maggiori degli altri, la regione di accettazione sara’ determinata imponendo P ([X ∗ ≥ 20cα ]) = 0.99 : ne segue 20cα = .2.326 e cα = − 2.326 ∼ −0.116. Dunque, la regione di accettazione di H1 20 contro H0 e’ x ≥ −0.116: le due regioni hanno come intersezione l’intervallo ]−0.116, 0.116[, il che non permette di decidere per una delle due ipotesi qualora il valore osservato x risultasse interno a tale intervallo. Aumentando il livello α a 0.1, si ottiene 20cα = ±1.28 e quindi cα = ±0.064 (i segni + e − si riferiscono alle due situazioni distinte: H0 contro H1 e viceversa): la regione comune di accettabilita’ e’ ora di minore ampiezza, e quindi il test ha maggiore applicabilita’. Inoltre, un valore osservato di x interno all’intervallo ] − 0.064, 0.064[ potrebbe orientarci a ritenere che il valore vero di θ sia esattamente 0. 33 Indice 1 Introduzione. 2 2 Metodi descrittivi 3 2.1 Statistiche e loro comportamento . . . . . . . . . . . . . . . . . . . . . . . 3 Inferenza 9 15 3.1 Metodi di stime puntuali . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.2 Intervalli di confidenza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 3.3 La distribuzione di Student . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.4 Test di Ipotesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 34