Statistica Raffaele D. Facendola Statistica – 2° parte ARGOMENTI Vettori gaussiani Matrice di covarianza e sua positività Marginali di un vettore normale Trasformazioni affini di vettori normali Indipendenza delle componenti scorrelate di un vettore normale La distribuzione delle statistiche campionarie Media campionaria e sua media, varianza e densità Varianza campionaria e sua media Distribuzione congiunta di meda e varianze campionarie nel caso normale Densità t, media, varianza e simmetria Stima parametrica Relazione tra MSE varianza e Bias di uno stimatore Consistenza in media quadratica implica consistenza per gli stimatori corretti MLE per una popolazione bernoulliana , poissoniana, normale, uniforme IC per la media campionaria normale o numerosa con varianza nota IC per la media campionaria normale o numerosa con varianza incognita IC per la varianza campionaria normale con media incognita IC per la differenza tra medie campionarie normali con varianze incognite ma uguali IC per la differenza tra medie campionarie normali o numerose con varianze note IC per la media campionaria di Bernoulli numeroso IC per la differenza tra medie campionarie per bernoulliane numerose o indipendenti Test di ipotesi Z-test e suo livello Curva OC per lo z-test Dimensionamento del campione per ottenere un errore del II tipo sotto una soglia prefissata nello Z-test bilatero Z-test con ipotesi nulla composta e suo livello t-test e suo livello Test sulla differenza di medie per campioni indipendenti normali o numerosi con varianze note Test sulla differenza di medie per campioni indipendenti numerosi con varianze incognite Test sulla differenza di medie per campioni normali indipendenti con varianze incognite ma uguali Test sulla varianza per campioni normali Test sul rapporto di varianze per campioni normali indipendenti Bontà di adattamento e analisi di dati categoriali 1 Statistica Raffaele D. Facendola Vettori gaussiani Si definisce vettore gaussiano standard n-dimensionale (o n-variato) un vettore costituito da n elementi in cui i singoli elementi sono variabili aleatorie gaussiane standard indipendenti: La densità di probabilità di tale vettore è definita come: ∑ Il vettore delle medie è pari al vettore nullo, mentre la matrice di covarianza (in virtù dell’indipendenza delle singole variabili aleatorie) è data dalla matrice identità di ordine n. Consideriamo un vettore aleatorio gaussiano X funzione lineare di Z: X è vettore gaussiano se la funzione lineare in Z è definita come: Con A matrice (n x m), e Z vettore gaussiano standard m-dimensionale. Il valore atteso di X è , questo perchè quello di Z è proprio 0, mentre la matrice di covarianza di X è . Matrice di covarianza e sua positività Un vettore gaussiano defito come sopra ha densità su non è singolare (ha determinante diverso da 0). se e solo se la matrice di covarianza In queso caso la densità di tale vettore è data da: √ Se, inoltre, C risulta simmetrica e definita positiva allora la densità di Z sarà pari a: √ Marginali di un vettore normale Se (cella di coordinate (i; i)) allora la componente i-esima , se , invece, La dimostrazione è ovvia in quanto ogni può essere espressa come combinazione lineare di variabili aleatorie gaussiane indipendenti più una certa costante. 2 Statistica Raffaele D. Facendola Trasformazioni affini di vettori normali Sia G una matrice (k x n) e , è possibile definire una nuovo vettore gaussiano vettore delle medie e matrice di covarianza pari a . La dimostrazione è immediata, basta considerare La media è il vettore con . , mentre sfruttando la definzione di covarianza otteniamo che la covarianza è . Indipendenza delle componenti scorrelate di un vettore normale Se scorrelate allora esse sono anche indipendenti. Se sono scorrelate allora la matrice di covarianza di X è matrice diagonale in cui l’elemento uguale alle varianze relative al vettore e pertanto la densità è: è √ ∑ ( ) √ ( ∏ ) √ ∏ E ciò dimostra, pertanto, che esse sono anche indipendenti. 3 Statistica Raffaele D. Facendola La distribuzione delle statistiche campionarie Dicesi campione o campione aleatorio un insieme di n variabili indipendenti tutte con la stessa distribuzione F. Media campionaria e sua media, varianza e densità Definiamo media campionaria: Con variabile aleatoria di media e varianza . Il suo valore atteso è pari a : [ ] La sua varianza sarà pari a ( ) [ ] [ ] [ ] : ( * Se n è un numero abbastanza grande vale la seguente approssimazione: √ Dove e è la funzione di ripartizione della normale standard. NB: Partendo dalla definizione di media campionaria e ponendo in evidenza otteniamo che: ∑ Consideriamo che il prodotto di una costante per una V.A. normale è ancora normale, pertanto si può concludere che è approssimativamente gaussiana da cui si ha che: √ 4 Statistica Raffaele D. Facendola Varianza campionaria e sua media Sia un campione aleatorio di una distibuzione di media campionaria: e varianza e sia la sua media Definiamo varianza campionaria la seguente statistica: ∑( ) La sua radice, ovvero S, prende il nome di deviazione standard campionaria. Il valore atteso della varianza campionaria è pari a: [ ] Dimostrazione: Consideriamo che per una n-upla di numeri ∑ (dove vale la seguente proprietà: ∑ è la media del campione) Applicando la proprietà alla varianza campionaria otteniamo che: ∑ [ [ ] ] [∑ [ ] (la media è uguale per ogni V.A) (applicando la definizione di varianza [ [ ] [ ] ] ( ) ] [ ] ) [ ] Da cui [ ] 5 Statistica Raffaele D. Facendola Distribuzione congiunta di meda e varianze campionarie nel caso normale Sia un campione di una distibuzione normale di media indipendenti. e varianza , allora e sonoV.A. Inoltre vale la seguente proprietà: Densità t, media, varianza e simmetria Si consideri il campione precedente in cui però la distribuzione risulta gaussiana. Per le condizioni di cui sopra vale: √ 6 Statistica Raffaele D. Facendola Stima parametrica Si dice stimatore di una qualsiasi statistica (variabile aleatoria) in grado di dire qualcosa (fare inferenza) circa un parametro incognito (la media, la varianza, ecc.). Il valore deterministico di uno stimatore indicato con ̂ si dice invece stima di . Stimatori di massima verosimiglianza Sia dato un campione di n variabili aleatorie e definiamo una funzione di massa o densità congiunta dipendente dal parametro incognito . La strategia in questo caso consiste nell’individuare quel valore di che rende massima la funzione sopra definita quando i dati osservati sono . La funzione è detta funzione di likelihood (verosomiglianza ndr). Spesso si ricorre alla funzione di log-likelihood definita come questo perchè, essendo il logaritmo naturale funzione strettamente crescente, la funzione di likelihood e quella di log-likelihood assumono il massimo per lo stesso valore di . Uno stimatore individuato con la strategia di cui sopra si chiama stimatore di massima verosimiglianza o MLE (maximum likelihood estimator). MLE per una popolazione bernoulliana , poissoniana, normale, uniforme -MLE della media di una bernoulliana Supponiamo di realizzare n prove indipendenti ciascuna delle queli ha una probabilità p di successo. Consideriamo che nel caso di popolazioni bernoulliane la funzione di massa è La likelihood del campione è data da: Sfruttando la funzione di log likelihood e alcune proprietà dei logaritmo otteniamo: ( ) ∑ ∑ Per massimizzare la suddetta funzione basta derivare rispetto a p: ( ) ∑ ∑ Poniamo il primo termine pari a zero e portiamo il termine negativo dall’altra parte; risolvendo rispetto a p otteniamo: ∑ ∑ ∑ Il che è lo stimatore di massima verosimiglianza di una distribuzione di Bernoulli in cui la media è incognita. 7 Statistica Raffaele D. Facendola -MLE del parametro di una poissoniana Siano variabili aleatorie di Poisson indipendenti, ciascuna della queli con valore atteso . La funzione di likelihood è data da: La funzione di log-likelihood è, invece, pari a : ( ∑ ) ⏟ Derivando rispetto a otteniamo: ( ∑ ) Massimizzando la funzione otteniamo pertanto la MLE del parametro : ∑ -MLE per una distribuzione normale Siano variabili aleatoria normali ed indipendenti, con media e varianza incognite. La funzione di likelihood è: ∏ ( √ * ( ∑ * La log-likelihood è: ( ) ( ) ∑ Per individuare contemporaneamente le stime della media e della varianza che massimizzano la loglikelihood occorre porre le due derivate parziali pari a zero e mettere il tutto a sistema: 8 Statistica Raffaele D. Facendola ( { ∑ ) ( ∑ ) ∑ ∑ ∑ { ∑ { -MLE per la media di una distribuzione uniforme Sia un campione proveniente da una distribuzione uniforme sull’intervallo incognito. con parametro La densità congiunta è data da: { La funzione di cui sopra viene massimizzata scegliendo un valore di quanto più piccolo è possibile, tuttavia siccome deve essere più grande di tutti i valori osservati ne segue che è . Il MLE della sua media è dato da . Relazione tra MSE varianza e Bias di uno stimatore Sia X un campione casuale estratto da una popolazione con parametri noti eccetto un parametro incognito e sia uno stimatore di . Definiamo errore quadratico medio o MSE (mean square error) il seguente: [ ] Definiamo distorsione di d o bias il seguente indicatore: [ ] Se il bias è nullo allora lo stimatore d è corretto o non distorto. Se il bias si annulla per n molto grande allora diremo che lo stimatore d è asintitocamente corretto. Se è uno stimatore corretto allora il suo MSE è: [ ] [ [ ] ] Da cui si ricava la seguente relazione tra MSE, varianza e Bias: [ ] [ [ [ [ ] [ ] [ ] ] [ [ ] [ ] [ ] ] ] [ ] [ [ ]] [ ] ] [ [ ] ] 9 Statistica Raffaele D. Facendola Consistenza in media quadratica implica consistenza per gli stimatori corretti Sia uno stimatore di parametro incognito. Diremo che è consistente in media quadratica se . è consistente se Se lo stimatore è corretto e consistente in media quadratica allora esso è anche consistente. Intervallo di confidenza (IC) Con riferimento agli stimatori puntuali trattati in precedenza bisogna precisare che il valore ottenuto con il metodo della massima verosimiglianza non indica il valore preciso assunto dal parametro, ma, bensì, un valore vicino a quello reale. Rispetto ad uno stimatore puntuale un intervallo di confidenza ci fornisce un intervallo di valori per il quale sappiamo che il parametro incognito vi appartiene con un certo grado di fiducia (o confidenza). IC per la media campionaria normale o numerosa con varianza nota Sia varianza un campione di una popolazione condistribuzione normale di cui la media sia nota. sia incognita e la Ricordiamo che: √ Da cui: ( ) √ ( ( √ √ √ √ L’intervallo che garantisce un livello di confidenza pari a [ √ ) ) su √ è pertanto: ] 10 Statistica Raffaele D. Facendola IC per la media campionaria normale o numerosa con varianza incognita Sia un campione di una popolazione i cui parametri sono entrambi ignoti. La richiesta è quella di costruire un intervallo di confidenza per ad un livello di (vogliamo cioè sapere qual’è l’intervallo di valori che garantisce con una confidenza che il valore cada vi appartenga). Prendendo in considerazione il paragrafo “Densità t, media, varianza e simmetria” del capitolo “La distribuzione delle statistiche campionarie” consideriamo che: √ Visto che la densità delle distribuzioni è simmetrica rispetto a 0 per ( sappiamo che: ) √ Da cui ( L’intervallo trovato [ √ √ √ √ * ] è l’intervallo che soddisfa con un livello di confidenza la richiesta di cui sopra. IC per la varianza campionaria normale con media incognita Sia un campione proveniente da una distribuzione normale con parametri e incogniti. Consideriamo che Da cui, per le considerazioni del paragrafo precedente, si ha che: ( ) ( L’intervallo appena trovato rappresenta l’intervallo di confidenza (bilaterale) per confidenza di . ) ad un livello di 11 Statistica Raffaele D. Facendola IC per la differenza tra medie campionarie normali con varianze incognite ma uguali Siano entrambe . e due campioni indipendenti in cui le varianze sono incognite ma uguali e valgono Sappiamo che: Inoltre sappiamo che visto che i due campioni sono indipendenti, anche le chi-quadro precedenti sono indipendenti, così come la loro somma: Ricordiamo che: √ e che il rapporto tra una normale standard e una √ è per definizione una distribuzione di tipo t con k gradi di libertà. Sia definita come: Dividiamo la (1) per la (2) sostituendo al posto di (√ al fine di ottenere una t di Student: ) √ √ Da ciò possiamo determinare gli intervalli di confidenza per , infatti: √ E quindi √ 12 Statistica Raffaele D. Facendola IC per la differenza tra medie campionarie normali o numerose con varianze note Siano e due campioni indipendenti in cui le varianze sono note ma la media no. Possiamo mutuare la tecnica illustrata nel paragrafo precedente considerando che non abbiamo bisogno, però, della varianza campionaria in quanto sappiamo già qual’è il suo valore reale (ovvero . L’intervallo che ci garantisce un livello di confidenza su di è pertanto: √ [ √ ] IC per la media campionaria di Bernoulli numeroso Consideriamo una popolazione in cui ogni elemento possiede certi requisiti indipendentemente dagli altri con una probabilità incognità p. Se X è una variabile aleatoria che descrive quanti oggetti sugli n testati soddisfano i requisiti di interesse e nel caso in cui n sia un numero elevato, potremo dire che X approssima una normale con media e varianza e pertanto: √ Perso un qualsiasi valore allora sappiamo che: ( ) √ Tuttavia l’approssimazione di cui sopra non è un vero intervallo di confidenza. Imponiamo che sia ̂ la frazione degli oggetti che soddisfano i requisiti (in questo caso si tratta proprio del MLE di p) e da ciò ricaviamo che √ ̂ ̂ è circa uguale a √ . Alla luce di queste considerazioni e dell’approssimazione poco sopra possiamo concludere che: ̂ √ ̂ ̂ ̂ √ ̂ ̂ IC per la differenza tra medie campionarie per bernoulliane numerose o indipendenti 13 Statistica Raffaele D. Facendola Test di ipotesi Supponiamo di disporre di un campione aleatorio proveniente da una distribuzione nota a meno di alcuni parametri incogniti. Il nuovo obiettivo non è quello di stimare i parametri incogniti ma, bensì, quello di verificare se la distribuzione soddisfa una certa ipotesi sulla base dei soli dati provenienti dal campione. Si parla di ipotesi in quanto non c’è modo di sapere se essa sia vera o falsa. Supponiamo di voler verificare qualche ipotesi (chiamata ipotesi nulla) su un certo campione circa un parametro incognito : se l’ipotesi caratterizza completamente la distribuzione (un’ipotesi potrebbe essere che valga esattamente 1) allora essa verrà chiamata ipotesi semplice, in caso contrario ( è compreso in un certo intervallo, è minore o maggiore di una soglia, e via dicendo) diremo che l’ipotesi è composta. Chiamiamo regione critica la regione di spazio n-dimensionale (con n numero degli elementi del campione) per il quale l’ipotesi nulla è falsa al verificarsi di certe condizioni per il campione. A prescindere dalla metodologia applicata va necessariamente ricordato che è possibile sbagliare il risultato del test secondo due diverse modalità: la prima ci porta a rifiutare l’ipotesi che in realtà è corretta (errore di I specie), mentre la seconda ci porta ad accettare l’ipotesi che in realtà è errata (errore di II specie). Definiamo livello di significatività il valore percentuale specie sia inferiore ad esso. tale che la probabilità di effettuare un errore di I 14 Statistica Raffaele D. Facendola Z-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con Vogliamo verificare l’ipotesi nulla: incognito e contro l’ipotesi alternativa noto. . La regione critica è: con media campionaria (lo stimatore naturale della | | media e c costante. In questo caso la strategia è quella di scartare l’ipotesi qualora la differenza tra la media campionaria ed il valore testato sia superiore ad una certa costante c. Utilizzando la definizione di livello di significatività sappiamo pertanto che | | Sappiamo che: √ Da cui: | | √ √ ( ) √ ( √ ) √ Si dedice pertanto che √ , ovvero √ . sarà accettata se | Alla luce di quanto detto sopra concluderemo dicendo che l’ipotesi | , √ mentre sarà rifiutata in caso contraio. Curva OC per lo z-test Definiamo curva operativa caratteristica (OC) per il test di una distribuzione di tipo Z la funzione definita come: (| | ) √ √ Ques’ultima rappresenta la probabilità di accettare l’ipotesi nulla quando la media reale vale . ( ) √ ( ) √ √ ( ) √ √ √ ( √ ) √ ( ) √ 15 Statistica Raffaele D. Facendola Dimensionamento del campione per ottenere un errore del II tipo sotto una soglia prefissata nello Z-test bilatero La funzione è chiamata funzione di potenza del test ed indica la probabilità di rifiutare (correttamente) l’ipotesi nulla quando è il valore reale. La curva di OC ci permette di determinare qual’è la dimensione ottimale del campione affinchè la probabilità di ottenere un errore del II tipo sia inferiore ad una certa soglia. Supponiamo di voler individuare qual’è il valore di n per il quale la probabilità di accettare quando in realtà il valore reale è sia circa uguale ad un valore prefissato, vogliamo cioè n tale che ( Usando la definizione di curva di OC otteniamo: ) √ ( ) . (1) √ La risoluzione rispetto a n è piuttosto complessa, tuttavia una buona approssimazione è data da: ( * [ ] NB: Tale approssimazione è valida in quanto o il primo termine o il secondo termine della sottrazione delle funzioni tendono a zero rispettivamente se o se . Z-test con ipotesi nulla composta e suo livello 16 Statistica Raffaele D. Facendola t-test e suo livello Sia un campione aleatorio proveniente da una distribuzione normale con Vogliamo verificare l’ipotesi nulla: contro l’ipotesi alternativa e incogniti. . Facendo riferimento allo z-test possiamo pensare di rifiutare ragionevolmente l’ipotesi qualora valga la seguente: | | . √ La disequazione di cui sopra non può aiutarci però in quanto non conosciamo il valore , tuttavia possiamo pensare di sostituirla con il suo stimatore, ovvero la deviazione standard campionaria S: √ ∑( Da cui deduciamo che l’ipotesi nulla va rifiutata per | ) | troppo grande. √ Sappiamo che √ A questo punto poniamo le condizioni di base del livello di significatività del test: Concludiamo perciò che l’ipotesi verrà accettata se | | e rifiutata in caso contrario. √ 17 Statistica Raffaele D. Facendola Test sulla differenza di medie per campioni indipendenti normali o numerosi con varianze note Supponiamo che e differenti di medie incognite e siano campioni indipendenti provenienti da due popolazioni e varianze note e . Vogliamo verificare l’ipotesi: contro . Giacchè le medie campionarie sono stimatori naturali per le rispettive medie delle distribuzioni, è naturale concludere che la differenza delle medie campionarie sia stimatore della differenza delle medie. Riscrivendo l’ipotesi opportuno di c. si accetta se e si rifiuta in caso contrario per un valore √ Se è vera la differenza delle medie è zero e pertanto si ha: ( Conveniamo alla conclusione che √ ) viene rifiutata se , accettata in caso contrario. √ Test sulla differenza di medie per campioni indipendenti numerosi con varianze incognite Le ipotesi di questo genere di test sono le stesse del paragrafo precedente, tuttavia questa volta le varianze non sono note. E’ possibile usare lo stesso modus operandi adottato in precedenza sostituendo al valore preciso delle varianze il valore del loro stimatore ottenendo che viene rifiutata se , accettata √ in caso contrario. 18 Statistica Raffaele D. Facendola Test sulla differenza di medie per campioni normali indipendenti con varianze incognite ma uguali Supponiamo che differenti normali varianze sono uguali. e siano campioni indipendenti provenienti da due popolazioni delle quali non si conoscono i parametri ma si sa che le due e Vogliamo verificare che contro Ricordiamo che √ Dove è lo stimatore pooled di : Quando l’ipotesi è vera allora la statistica allora √ e quindi possiamo concludere che se può essere rifiutato, altrimenti può essere accettato in caso contrario. Test sulla varianza per campioni normali Sia un campione proveniente da una distribuzione normale con media incognita e varianza incognita e supponiamo di voler verificare l’ipotesi nulla contro per un valore di fissato. Ricordiamo che: Da cui: ( Concludiamo accettando qualora ) e rifiutandola in tutti gli altri. Test sul rapporto di varianze per campioni normali indipendenti 19 Statistica Raffaele D. Facendola Bontà di adattamento e analisi di dati categoriali 20