DISTRIBUZIONE CAMPIONARIA Si definisce popolazione qualsiasi insieme di elementi simili tra loro per una o più caratteristiche che rappresentano l’oggetto dello studio. Può essere finita, ovvero costituita da un numero finito di unità (comunque molto grande) o infinita trattiamo come popolazioni anche insiemi che non sono enumerabili e che si realizzeranno anche nel futuro. Si definisce campione un sottoinsieme della popolazione, ovvero una raccolta finita di elementi estratti da una popolazione. Scopo dell’estrazione: ottenere informazioni sulla popolazione Pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’). Per corrispondere a queste esigenze il campione viene individuato con un campionamento casuale. Campionamento ed inferenza sono due processi simmetrici, l’inferenza permette di dire qualcosa sulla popolazione a partire dai dati ottenuti sul campione. o Definiamo statistica campionaria la statistica calcolata per le osservazioni che compongono il campione (T). In generale, le statistiche campionarie sono definite in modo tale da essere degli stimatori non distorti dell’omologo parametro della popolazione (θ*). *= teta, indica un qualsiasi parametro Con le lettere greche indichiamo i parametri della popolazione (che non conosciamo), con l’alfabeto latino indichiamo i parametri del campione (noti) Statistiche campionarie e parametri di popolazione CAMPIONE o Media o Varianza S2 o Dev. Standard S Statistiche= Lettere alfabeto latino POPOLAZIONE o Media o Varianza o Dev. Standard μ σ2 σ Parametri= Lettere alfabeto greco Cosa è una distribuzione campionaria-> Una distribuzione campionaria è la distribuzione relativa ad una specifica statistica calcolata su più campioni di dimensione n tutti estratti dalla stessa popolazione. La funzione campionaria è una funzione di probabilità il cui dominio è costituito dai valori di una statistica (es media) e il codominio è costituito dalle probabilità che i valori della statistica hanno di verificarsi. Per costruire una distribuzione campionaria occorre: 1. Estrarre dalla stessa popolazione dei campioni con lo stesso numero di casi (n) 2. Le estrazioni devono essere casuali e indipendenti. 3. In questo modo, le determinazioni (osservazioni) campionarie (x1, x2, ..xn) sono variabili indipendenti, ed hanno la stessa funzione di probabilità della popolazione di origine, ovvero sono identicamente distribuite (variabili IID: indipendenti, identicamente distribuite) 4. Sui campioni così estratti si procede a calcolare la statistica della quale si vuole definire la distribuzione campionaria Siano X1 ,X2 , …, Xn delle prove indipendenti di un processo aleatorio con valore atteso E(Xi)= e varianza V(Xi )= σ2. Si definisca la somma delle variabili aleatorie Xi come: Sn =X1 +X2 +…+Xi Dato che X1 ,X2 , …, Xn sono variabili aleatorie indipendenti, ciascuna delle quali definita con media μ e varianza σ2, il valore atteso e la varianza di Sn diventano: E(Sn )= E(X1 +X2 +…+Xi )=E(X1 )+E(X2 ) +…+E(Xi )= n μ V(Sn )=V(X1 +X2 +…+Xi )= V(X1 )+V(X2 ) +…+V(Xi )=n σ2 Teorema centrale del limite-> Se si estraggono ripetuti campioni casuali di dimensione n da un qualsiasi universo (qualunque sia la sua forma) con media μ e varianza σ2, all’aumentare della dimensione n del campione, la distribuzione della media campionaria sarà normale e avrà come media μ e come varianza σ2/n Quindi al crescere della grandezza del campione, la distribuzione campionaria della media tende ad una distribuzione nomale. La deviazione standard della media campionaria si definisce errore standard e rappresenta un indice di precisione della media stimata su un campione. La stima fornita dal singolo campione è affetta da incertezza, a causa dell'errore casuale del campionamento. L’errore standard è una misura dell’incertezza di una statistica misurata su un campione (ad esempio la media). L’errore standard rappresenta l’errore che noi commettiamo se consideriamo ad esempio la media calcolata su un campione come la media vera della popolazione. La variabilità delle medie campionarie (ES) è minore della variabilità della popolazione (σ), ed è tanto minore, tanto maggiore è la numerosità campionaria. NB: deviazione standard è diversa dall’errore standard La deviazione standard è una misura di variabilità fra individui L’errore standard è una misura di incertezza della stima. VARIANZA CAMPIONARIA Anche la statistica s (deviazione standard o scarto quadratico medio) ha una sua distribuzione campionaria, ovvero gli scarti quadratici medi dei campioni si distribuiscono attorno al vero scarto quadratico medio della popolazione, proprio come le medie dei campioni si distribuiscono attorno alla media della popolazione. NB: S2 è una stima sistematicamente errata di σ2. La media della distribuzione campionaria di S2 per campioni casuali, non è σ2 ma piuttosto [(n-1/n) σ2] Non si verifica l’eguaglianza perfetta tra valore atteso della varianza campionaria e il suo omologo nella popolazione: i due valori risultano connessi come segue: Pertanto se definiamo la varianza campionaria corretta come: Avremo come conseguenza che Il valore atteso della varianza campionaria (calcolata con n-1) è la varianza della popolazione, in altre parole la varianza campionaria (calcolata con n-1) è una stima non distorta della varianza della popolazione. In sintesi: La distribuzione campionaria delle medie permette di fare inferenza sulla media della popolazione quando si conosce 1 solo campione di dimensioni n. Ha le seguenti proprietà: 1. la media della distribuzione campionaria delle medie è uguale alla media μ della popolazione. 2. La deviazione standard della distribuzione campionaria delle medie è funzione della numerosità n del campione e della deviazione standard (σ) della popolazione. Tale quantità si chiama Errore standard (ES): σ /√N . Se non conosciamo σ della popolazione, può essere stimato a partire dai dati del campione, e l’ES diventa: s/√N-1 3. La distribuzione campionaria è approssimativamente normale, indipendentemente dalla distribuzione della popolazione, posto che n sia sufficientemente grande. Distribuzioni campionarie e distribuzioni di probabilità-> Per associare una probabilità ad una media campionaria (n≥30) se conosciamo δ della popolazione facciamo riferimento alle tavole della normale standardizzata. La standardizzazione sarà fatta usando i parametri di tale distribuzione campionaria: Quando il campione è piccolo e/o non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione, ma per associare un valore di probabilità al risultato ottenuto in un campione bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata. La distribuzione t di Student (William Gosset 1876-1937) Possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla media. La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva. Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1. I gradi di libertà esprimono i valori liberi di variare poste alcune restrizioni. Ad esempio: se sappiamo che la somma di una serie di 4 punteggi ottenuti da 4 soggetti è 60, possiamo stabilire i valori di tali punteggi in base al vincolo dato dalla somma: una volta scelti 3 valori automaticamente possiamo ottenere il quarto punteggio, infatti se poniamo i primi 3 valori pari a 15, anche il quarto sarà uguale a 15 se vogliamo rispettare il vincolo della somma uguale a 60. Se i gdl sono quei valori liberi di variare, poste certe restrizioni, allora se abbiamo un campione di numerosità n, i gdl saranno sempre un valore in meno rispetto ad n: Gdl=n-1 LA DISTRIBUZIONE CAMPIONARIA DELLE MEDIE La distribuzione campionaria delle medie permette di fare inferenza sulla media della popolazione a partire dai dati di 1 solo campione. Ha le seguenti proprietà: o La media della distribuzione campionaria delle medie è uguale alla media μ della popolazione. o La deviazione standard della distribuzione campionaria delle medie è funzione della numerosità n del campione e della deviazione standard (σ) della popolazione. Tale quantità si chiama Errore standard (ES): σ / √N o È approssimativamente normale, posto che n sia sufficientemente grande (n>=30). Il percorso dell’inferenza statistica si svolge seguendo le seguenti fasi: 1. estrazione di un campione della popolazione 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Distinguiamo tra θ = (teta) PARAMETRO -> valore reale, fisso riferito a una popolazione che però non possiamo conoscere, è ignoto; è uno dei valori che governa la variabile all’interno della popolazione T = STIMATORE del parametro θ; (T)-> funzione delle determinazioni campionarie T= f(Xi) è anche detto riassunto campionario t = uno dei valori possibili di T, estratto dal campione selezionato per indicare che il valore trovato (t) è una stima del parametro θ, si mette il simbolo ^ sopra il simbolo del parametro STIMA PUNTUALE Si definisce stimatore una funzione dei valori osservati sul campione impiegata per eseguire la stima di un parametro fisso ed ignoto. Si definisce stima, invece il valore restituito dalla funzione sulle determinazioni di un effettivo campione Con una stima puntuale si mira a calcolare sul nostro campione (uno degli infiniti campioni possibili) Proprietà degli estimatori Correttezza: uno stimatore si definisce corretto se il suo valore atteso corrisponde al valore del parametro nella popolazione E(T)= θ => E(T)- θ = 0 Ad esempio E( )= μ La distorsione di uno stimatore B (Bias) si definisce: E(T)- θ = Bias Stimatore assolutamente corretto = E(T)- θ = 0 Stimatore asintoticamente corretto se la distorsione tende a zero quando n tende a infinito = n-> ∞ Bias-> 0 Stimatore distorto = Bias ≠ 0 In termini di correttezza la mediana è uno stimatore corretto tanto quanto la media Efficienza: uno stimatore si definisce efficiente se, a parità di altre condizioni, la sua varianza risulta minore. => 1/ σT La stima dell’errore standard (per popolazioni finite) è: L’efficienza relativa di uno stimatore corretto T rispetto a un altro stimatore corretto T ’ è dato dal rapporto tra le loro precisioni: 1/ σT 1 σT1 σT1 ------- = ----- * ------ = ------ > 1 1/ σT1 σT 1 σT σT è più efficiente di σT1 se il loro rapporto è >1 La media è uno stimatore più efficiente della mediana Precisione: uno stimatore è tanto più preciso quanto minore è la dispersione della distribuzione campionaria. Questa caratteristica ci fornisce una stima dell’accuratezza dello stimatore, e è misurata attraverso l’errore standard (SE) Consistenza: uno stimatore viene definito consistente se all’aumentare della numerosità campionaria aumenta anche la probabilità che il valore della stima sia uguale al valore del parametro nella popolazione. Una misura della consistenza è l’errore quadratico medio (MSE): MSE=E(T-θ)2 dove T è un generico stimatore del parametro θ L’MSE risulta scomponibile in due parti: la varianza dello stimatore dovuta all’errore casuale (imprecisione) e il quadrato della distorsione: σ2(T)+B2(T). Si dice che T è consistente se l’MSE tende a 0 quando n tende a infinito L’individuazione della funzione dei dati campionari che permette di avere una stima dei parametri è detta naturale => vi è un reciproco tra T calcolato sul campione e θ della popolazione di riferimento Un esempio di un estimatore naturale è la media e la varianza μ= σ2 = S2 se non è possibile individuare un estimatore diretto si utilizzano degli algoritimi detti “metodi di stima” per calcolare la stima del parametro due di questi metodi sono: - il metodo dei minimi quadrati (MMQ) - il metodo della massima verosimiglianza (ML) Con il metodo dei minimi quadrati (MMQ) si stima il parametro mediante quel valore che rende minima la somma delle distanze al quadrato tra le osservazioni e il parametro stesso. Ad esempio: se vogliamo stimare la vera lunghezza di un oggetto, sulla base di n misurazioni (xi ) affette da errore casuale, la stima del parametro è quel valore che minimizza la seguente espressione: Massima verosimiglianza (ML) (Fisher) è legato all’idea che le reali caratteristiche della popolazione generano con diversi livelli di probabilità distribuzioni campionarie diverse. Il metodo di stima della massima verosimiglianza funziona al contrario: dato un certo campione si cerca di stimare quei parametri che con un grado di probabilità più elevato possono aver generato il campione osservato. Vado a considerare come stima di μ il valore che rende massima la probabilità di osservare quel valore => probabilità di un evento composto indipendente P(x1 x2 x3) = P(x1)*P(x2)*P(x3) Cerca quel valere che rende massima la probabilità di aver ottenuto il campione dato NB: Oltre alla stima puntuale deve essere sempre anche indicato l’errore standard della stima σT (indica quanto la stima si discosta dal parametro) Più l’essore standard è piccolo più la stima è buona STIMA INTERVALLARE Nella stima puntuale non possiamo aspettarci che la nostra stima T coincida con il parametro vero θ, ma è più lecito chiedersi qual è il grado di approssimazione che possiamo aspettarci. Negli anni 30 Neyman propose di fare una stima intervallare ovvero individuare un intervallo “I” entro il quale il parametro ignoto si trova con un certo grado di probabilità. Non stimiamo più il valore esatto del parametro, ma un intervallo di valori che, con un certo grado di probabilità o fiducia, conterrà il vero valore della popolazione. Di solito non conosciamo la media della popolazione e vogliamo stimarla a partire dai dati ottenuti su un campione. Possiamo ad esempio utilizzare la media nel campione (xmedio ) per stimare la media della popolazione (μ). Ma con questo metodo non sappiamo quanto xmedio sia vicina a μ. Pertanto spesso si preferisce stimare un intervallo di valori entro i quali si ritiene sia compreso il parametro in esame con un certo grado di “confidenza”. Questo range di valori si chiama intervallo di confidenza La procedura di stima intervallare richiede che sia verificato almeno uno dei seguenti prerequisiti: La variabile si distribuisca normalmente Il campione sia sufficientemente ampio (n>=30) per cui grazie al tlc, la forma della distribuzione della variabile nella popolazione è indifferente Si definisce intervallo di confidenza un range di valori costruito intorno alla stima campionaria, all’interno dei quale, con un certo grado di probabilità sarà contenuto il vero valore del parametro della popolazione Quindi la stima di θ (^) è dato da : t ± valc σT valc : valore critico, dipende dal livello di confidenza (1-α) dove α vale di solito 0,1 o 0,5 (1 o 5%); il valore critico dipende dal tipo di distribuzione della variabile. Se si tratta di una distribuzione normale utilizziamo lo z critico σT :errore standard del parametro. Se parliamo dell’errore standard della media (σx medio) è uguale a σ/√n più σ è piccolo più l’intervallo per zc è piccolo ad esempio il procedimento di stima di μ avviene mediante la media campionaria X medio ; poiché questa di distribuisce normalmente con media μ e errore standard σ/√n, la probabilità di ottenere un valore Xmedio che non si discosti da μ ±zc volte l’errore standard è data da: In una distribuzione normale standardizzata il 95% dei valori è compreso tra -1.96 e +1.96 -1.96 < Z < +1.96 Dunque un IC al 95% per la media (μ) è dato da: (Xmedio -1.96* σ/√n ; Xmedio +1.96* σ/√n) Un intervallo di confidenza al 95% è un intervallo in cui in 95 casi su 100 cadrà il vero valore della media della popolazione Quindi: Siamo confidenti al 95% che la media μ della popolazione è compresa nell’intervallo (Xmedio -1.96* σ/√n ; Xmedio +1.96* σ/√n) I limiti dell’ intervallo (L1 , L2 ) sono detti limiti di fiducia o di confidenza; più è ampio l’intervallo maggiore sarà la probabilità che contenga il vero valore della popolazione. L’ampiezza dell’intervallo di confidenza dipende dal livello di probabilità (o di confidenza) che è fissato a priori dal ricercatore. Il livello di probabilità è definito dall’espressione 1-α, dove α è detto livello di significatività. I valori più usati di α sono 0.05 e 0.01 cui corrispondono intervalli di confidenza o fiducia del 95 e 99% Trade-off tra sicurezza e precisione: + è ampio l’intervallo di confidenza maggiore è l’imprecisione della stima. A parità di livello si significatività la precisione della stima intervallare migliora al crescere della numerosità del campione. Fissando a priori il livello di accuratezza desiderato calcoliamo quanto deve essere grande il campione per ottenere una stima con quel livello di accuratezza. Poniamo di voler costruire un campione casuale semplice che ci fornisca una stima della media della popolazione con un errore e= ± 0.1, rispetto al parametro reale, con un livello di fiducia prescelto (ad es.) del 95%. Ovvero, se estraiamo infiniti campioni, 95 volte su 100 gli IC ottenuti sono compresi in un range non superiore a 0.2. In una distribuzione normale il 95% delle osservazioni ricade nell’intervallo ±1.96 σ/√n, perciò l’ES moltiplicato per 1.96 deve darci la precisione voluta (0.2 nel nostro caso). Distribuzioni campionarie e distribuzioni di probabilità -> Per associare una probabilità ad una media campionaria calcolata su un campione con n>30 facciamo riferimento alle tavole della normale standardizzata, poiché la distribuzione campionaria delle medie è normale per il tlc. La standardizzazione della media sarà fatta in riferimento ai parametri di tale distribuzione campionaria che possono essere calcolati conoscendo quelli della popolazione. Si ricava z attraverso la seguente formula: Se non si conosce la varianza della popolazione Θ2 ignoto È necessario fare una stima della varianza => Θ2= S2 S2 ∑(xi - )2 S2 = --- = -------------n n S2 è una variabile aleatoria, dobbiamo definire quali caratteristiche ha la varianza campionaria => distribuzione di probabilità Il valore atteso della varianza è : Non è uno stimatore assolutamente corretto { E(S2)≠ σ2} Se il campione è infinitamente grande il rapporto tra (n-1) e n è praticamente 1 E(S2)n -> ∞ = σ2 Si dice quindi che è uno stimatore asintoticamente corretto Per usare un estimatore assolutamente corretto usiamo la varianza corretta : E( ) = σ2 La varianza corretta è uno estimatore assoluto di σ2 Riassumendo possiamo di che n n 1 ∑ (xi - = ---- S2 = ---- * ---- ∑ (xi n-1 n-1 n ∑ (xi - )2 )2 )2 = ------------n-1 sommatoria degli xi - al quadrato fratto n-1 = -------------------n-1 La varianza di una varianza è funzione dl momento centrale di quart’ordine del fenomeno x, della varianza alla seconda e dell’ampiezza del campione VAR ( ) = funzione ( μ4, σ4, n) La distribuzione di probabilità di chi quadrato χ2 è una variabile continua, che però va da 0 a + ∞ χ2 = Σnz2 il chi quadrato corrisponde alla sommatoria di n variabili normali standardizzate prese al quadrato. χ2 = [(n-1)/ σ2] χ2 è una variabile aleatoria avente la distribuzione χ2(chi quadro)di parametro ν=n−1. Il valore ν (nu) prende il nome di grado di libertà. E(χ2)= ν Il valore atteso di χ2 è pari al valore di ν, ovvero dei gradi di libertà ν -> è il numero di variabili aleatorie indipendenti sommate tra loro. Se le variabili sono tutte indipendenti allora ν = n . in questo caso i gradi di libertà sono pari a n-1 ν= n-1 (vincolo dovuto al fatto che usiamo le variabili aleatorie ) χ2 = Σnz2 = Σ [(xi – μ)/ σ]2 [(n-1)/ σ2] = [(n-1)/ σ2] * [1/(n-1)* Σ(xi- )2] = (1/ σ2) * [Σ(xi- )2] = Σ [(xi – )/ σ]2 -> espressione che coincide con quella teorica del χ2 si distribuisce come una chi quadrato con gradi di libertà n-1 ˄ ˄ μ= Stima di μ è uguale alla media del campione σx = σ/ √n σ della media del campione di calcola facendo il rapporto tra σ e la radice della numerosità del campione σ= ˄ S / √n varianza corretta La stima di σ è uguale S / √n-1 varianza non corretta Standardizzazione: ˄ σ viene però sostituito con S ˄ il fatto che S sia una stima di σ fa sì che la sua distribuzione di probabilità non sia più normale, ma sia una t di student z t = --------√χ2/ ν Pur partendo da una distribuzione normale (z) la media standardizzata si distribuisce come un t di student. I suoi gradi di libertà sono n-1 Il valore critico va cercato nelle tavole della t di student => si usa il t critico (t c) ˄ μ= ˄ ± tc * σx La t ha code più ampie di una distribuzione normale, ma per ν>30 => t ≈ NOR (0,1) Per gradi di libertà superiori a 30 la t di student approssima una distribuzione normale standardizzata t è una distribuzione usata per campioni piccoli Bisogna distinguere due situazioni: 1. Campione piccolo e varianza della popolazione nota La procedura di stima è identica al caso in cui N>30: si usa comunque la distribuzione normale standardizzata. 2. Campione piccolo e varianza della popolazione ignota Quando il campione è piccolo e non conosciamo la varianza della popolazione possiamo stimarla attraverso quella del campione, ma per costruire gli IC bisogna utilizzare la distribuzione t di Student al posto della normale standardizzata La distribuzione t di student possiede le stesse caratteristiche della distribuzione normale, ma ha una forma più schiacciata che esprime una variabilità maggiore intorno alla media. La variabilità della media e lo schiacciamento della curva dipendono dall’ampiezza campionaria, ovvero tanto più i campioni sono piccoli, maggiore sarà la variabilità e tanto più schiacciata risulterà la curva. Il valore di t dipende dalla numerosità campionaria, quindi non esiste una sola distribuzione t, ma ne esistono tante in funzione dei gradi di libertà, dati dalla quantità n-1. I gradi di libertà esprimono i valori liberi di variare poste alcune restrizioni. Se i gdl sono quei valori liberi di variare, poste certe restrizioni, allora se abbiamo un campione di numerosità n, i gdl saranno sempre un valore in meno rispetto ad n: Gdl=n-1 La t di student è una famiglia di variabili aleatorie, cambiano in base ai gradi di libertà La dicitura “ipotesi mono o bidirezionale” presente sulle tavole ha a che fare col lavore delle code della distribuzione Bidirezionale = α va spaccato a metà, nelle due code (ogni coda vale α/2) Monodirezionale = α sta tutta su una coda NB: la media campionaria standardizzata con σ stimato, si distribuisce come una t di student solo se la popolazione si distribuisce normalmente ( non è un problema se la popolazione è grande, ma lo è se la popolazione è piccola) PROCEDURA DI VERIFICA DI IPOTESI (terza misura inferenziale, assieme alla stima puntuale e alla stima intervallare) ipotesi: affermazione relativa a un fenomeno che può essere controllata empiricamente verificare un’ipotesi significa controllare attraverso i dati di un campione la plausibilità dell’ipotesi stessa (è sinonimo di testare) le procedure di verifica prendono il nome di test di verifica di ipotesi l’ipotesi di verifica che interessa il ricercatore prende il nome di H1 (è detta ipotesi di ricerca o ipotesi alternativa); ma quella che verrà concretamente testata è l’ipotesi nulla, detta H0 (ipotesi contraria a H1) si va a valutare se H0 è compatibile o meno coi dati del campione; a tale fine viene calcolata la statistica test. Si mira a verificare se H0 è incompatibile coi dati al fine di rinforzare l’ipotesi del ricercatore - se H0 è compatibile coi dati => accettiamo H0 se H0 è incompatibile coi dati => rifiutiamo H0 si che H0 venga rifiutata o accettata non possiamo di re che la nostra ipotesi (H1) è vera, dopo Popper il metodo scientifico ha adottato una logica falsificazionista. Per falsificare un’affermazione è sufficiente un solo caso contrario. Dal momento che lavoriamo su un campione della popolazione otterremo delle affermazioni probabilistiche. Per effettuare un Test di verifica di ipotesi occorre: 1. creare un SISTEMA DI IPOTESI ovvero espletare H0 e H1 {H0 H1 2. associare al sistema di ipotesi una STATISTICA TEST che permette di decidere se accettare o meno H0 3. stabilisco il valore di α* 4. della statistica test dobbiamo conoscere la distribuzione campionaria => calcolo della DISTRIBUZIONE CAMPIONARIA STANDARDIZZATA 5. andiamo a calcolare il valore della statistica test e lo posizioniamo in base alla sua distribuzione campionaria => osservo se H0 è visino o meno al valore atteso se ad esempio la nostra statistica test si distribuisce normalmente avremo una distribuzione normale standardizzata => NOR (0,1) assumendo H0 vero, osservo dove si posiziona il suo valore (calcolato con la statistica test); se cade vicino al valore atteso della distribuzione (alla sua media quindi a 0), H0 è compatibile con i dati, se invece cade lontano dal valore atteso H0 sarà incompatibile *è necessario però decidere un valore di z soglia, che porta a decidere quando posso accettare o rifiutare H0; tale valore viene deciso dal ricercatore e prende il nome di valore soglia, o valore critico (se si tratta di una distribuzione normale avremo una z critico -> zc) il valore di zc è scelto in base a α (= livello di significatività) [1-α = livello di confidenza] α -> probabilità di errore, corrisponde alla probabilità di osservare un valore si z in modulo (senza segno ±) maggiore dello zc α P( z > │zc│) solitamente a α si associano valori pari a 0,05 o 0,01 per α= 0,05 => zc= ±1,96 (la probabilità di osservare una valore in modulo superiore a 1,96 è pari al 5%) per α= 0,01 => zc= ±2,58 (la probabilità di osservare una valore in modulo superiore a 2,58 è pari al 1%) dopo aver individuato la statistica test scelgo il valore di α per individuare il valore critico; calcolo il valore sul campione e confronto il valore del campione (z) con il valore critico (z c) se il valore del campione è superiore al valore critico => rifiuto H0 in base al valore di α individuiamo la regione della distribuzione campionaria che porta a accettare o rifiutare l’ipotesi nulla NB: se la statistica test si distribuisce come una normale => zc - una t di Student => tc - una chi quadrato => Χ2c i valori critici delle varie distribuzioni si ricavano dalle loro tavole 1° TEST DI VERIFICA DI IPOTESI ipotesi: { H0 : μ=μ0 H1 : μ≠μ0 Dove μ0 costituisce un certo valore di riferimento (un numero) Statistica test -> media campionaria ( ) standardizzata -> dove μ corrisponde alla media delle medie e σ/√n corrisponde all’errore standard della media NB: la media standardizzata si distribuisce come una normale standardizzata Vado poi a individuare i valori critici per α (calcolo lo zc) e poi calcolo il valore di calcolato) (-> z Prendendo per vera l’ipotesi H0 vado a sostituire alla formula μ con μ0 (si tratta di un numero reale) In base al risultato valuto se accettare o meno H0 Se σ è ignoto allora lo devo stimare con => la media campionaria si distribuisce come una t di Student (utilizziamo quindi anziché lo zc il tc -----------------------------------------------------------------------------------------------------------------------Esempio Per = 107,3 Sx = 14 n= 47 { H0 : μ=100 H1 : μ≠100 μ0= 100 si tratta di un’ipotesi bidirezionale -> i valori che possono portare a un rifiuto di H0 possono essere posizionati su entrambe le code della distribuzione (valori sia positivi che negativi) => il valore critico viene individuato in corrispondenza di α/2 se si fosse trattata invece di un’ipotesi monodirezionale (μ>100 oppu21 μ<100) i valori che possono portare a un rifiuto di H0 di trovano solo in una delle due code (in quella positiva o negativa) => il valore critico viene individuato in corrispondenza di α individuiamo la statistica test adatta => media standardizzata dato che σ è ignoto lo stimiamo con quando usiamo la distribuzione si distribuisce come una t di Student, ma quando la numerosità del campione è maggiore di 30 approssima una normale NB= H0 è sempre un’ipotesi semplice, che coinvolge un solo valore numerico, mentre spesso H1 è un’ipotesi composta, che prevede un intervallo di valori -μ -μ 107,3 – 100 7,3 7,3 Zx = -------- = ------------- = ---------------- = --------- = ------ = 3,54 / √n S /√n-1 14/ √47-1 14 √46 2,06 dal momento che tra i dati non abbiamo la varianza corretta ( della varianza non corretta ) utilizziamo la formula Assunto -> quello che testiamo (ad esempio l’intelligenza) si distribuisce normalmente=> vale la stessa distinzione che vale per la stima intervallare α = probabilità di errore, di rifiutare un’ipotesi vera ma si può commettere un altro tipo di errore, ovvero accettare un’ipotesi alternativa falsa. Questo tipo di errore è detto di secondo tipo (β) Vera H0 Falsa H0 Accettarla OK NO (errore β) Rifiutarla NO (errore α) OK α e β stanno in relazione inversa tra loro => α tra 0,5 e 0,1 permette di avere un β accettabile α viene scelto dal ricercatore β non viene scelto dal ricercatore 2° TEST DI VERIFICA DI IPOTESI (confronto tra due popolazioni) date due popolazioni andiamo a confrontare le loro medie NB: lavorando con campioni delle popolazioni le loro due medie ( ) posso avere valori diversi, anche se le medie delle due popolazioni (μ) sono uguali = si tratta di fluttuazioni del campione [differenza tra tre o più medie -> Analisi della varianza : ANOVA] TEST DELLA DIFFERENZA TRA DUE MEDIE PER CAMPIONI DIPENDENTI I due campioni sono tra loro dipendenti, ad esempio misuriamo una variabile in due tempio diversi (t0 e t1) Se le due medie sono uguali, allora la media delle differenze tra le sue risposte in ogni soggetto della popolazione sarà pari a 0. se indichiamo questo parametro con il simbolo μD, l’ipotesi nulla sarà μD=0. Per verificare che vi sia una differenze significativa tra le medie sarà quindi sufficiente confrontare D, la media delle differenze riscontrata nel campione con μD. si applica quindi lo stesso procedimento visto nel test della media per una popolazione TEST DELLA DIFFERENZA TRA DUE MEDIE PER CAMPIONI INDIPENDENTI I campioni sono selezionati come se si trattasse di estrarre delle palline da due urne => i campioni tra loro sono indipendenti (campionamento CSR) Diamo per assunto il fatto che il fenomeno si distribuisca normalmente in entrambe le popolazioni POP1 NOR (μ1 ,σ21) POP2 NOR (μ2 ,σ22) -> media e varianza delle due popolazioni normali standardizzate n1 n2 -> numerosità dei due campioni ( 1, S 21) ; ( 2, S22) -> media e varianza dei due campioni ipotesi di ricerca: { H1 : μ1 ≠ μ2 ->nelle due pop. le medie sono diverse; ipotesi composta da infiniti valori H0 : μ1 = μ2 -> è un’ipotesi semplice, un solo valore { H1 : μ1 ≠ μ2 μ1 - μ2 ≠ 0 H0 : μ1 = μ2 μ1 - μ2 = 0 Se i due valori devono solo essere diversi (μ1 - μ2 ≠ 0 ) allora parliamo di ipotesi bidirezionale; se invece l’ipotesi era formulata diversamente ( μ1 < μ2 o μ1 > μ2 ) si trattava di un’ipotesi monodirezinale All’ipotesi di ricerca è associata una statistica test => differenza tra le medie campionarie 1- 2 Differenza tra due medie in termini di variabile aleatoria E( ) = μ VAR ( ) = σ2x = σ2/n Se la POP1 è normale => (μ1 ,σ21) Se la POP2 è normale => (μ2 ,σ22) anche la v.a 1 NOR (μX1-X2 , σ2X1-X2) μX1-X2 = E ( 1- 2) 2 si distribuisce normalmente e i suoi parametri sono: = μ1 – μ2 σ2X1-X2 = σ21/n1 + σ22/n2 σX1-X2 = √(σ21/n1 + σ22/n2 ) il valore atteso della differenza tra due medie è uguale alla differenza tra le medie della popolazione la varianza della differenza tra medie è uguale alla somma delle varianze delle due medie anche la differenza tra medie può essere calcolata con una stima puntuale o una intervallare statistica test (con rispettiva distribuzione campionaria) => normale standardizzata 1- 2 ( 1- 2) – (μ1 - μ2) ------------------------√(σ21/n1 + σ22/n2 ) NB: se non si conosce μ difficilmente si conosce σ => è necessario stimare σ OMOSCEDASTICITA’ e ETEROSCHEDASTICITA’ Gli σ delle due popolazioni possono essere tra loro uguali (σ1 = σ2), in questi casi si parla di omoschedasticità se invece σ1 ≠ σ2 si parla di eteroschedasticità in base a questo cambia il modo di stimare σ se σ1 = σ2 = σ viene stimata un’unica quantità se σ1 ≠ σ2 i due omega vanno stimati separatamente ETEROSCHEDASTICITA’ Ciascun σ verrà stimato con la sua stima campionaria Se σ1 ≠ σ2 ˄ ˄ 2 σ 1 = S21 varianza corretta del primo campione ˄ ˄ σ22 = S22 varianza corretta del secondo campione si procede poi come in tutti i test di verifica di ipotesi => scegliamo il valore di α se α=0,01= valc si individua sulla distribuzione campionaria della statistica i valori critici della statistica che porta a accettare o rifiutare H0 calcolo il valore della statistica test sui dati campionari e lo confronto col valc se il modulo del valore calcolato (val) è minore del modulo del valc (più vicino al suo valore atteso) => accettiamo H0 │val │< │valc│ => accettiamo H0 │val │> │valc│=> rifiutiamo H0 NB: α costituisce la probabilità di commettere un errore del I tipo Test a 1 coda α -> ricavata dalla distribuzione di H0 β -> ricavata dalla distribuzione di uno dei tantissimi valori possibili di H1 Esempio: G1 attaccamento sicuro n1 = 72 G2 attaccamento non sicuro n2 = 83 1 = 5,55 2 = 3,80 1 = 2,23 2 = 2,47 N= 155 La differenza tra le due medie campionarie è dovuta al caso o è dovuta a una differenza sistematica tra le due popolazioni? {H0 μ1 = μ2 H1 μ1 > μ2 μ1 - μ2 = 0 μ1 - μ2 > 0 α = 0,01 utilizzando la tavola della distribuzione normale (campione >30) ricaviamo il valore dello Z c trattandosi di un’ipotesi monodirezionale α si distribuisce solo su una delle due code dal momento che le tavole riportano i valori per metà della distribuzione campionaria (0,5) sottraiamo a 0,5 il valore di α (0,01) e ricaviamo il valore di zc = 2,33 ( 1- 2) – (μ1 - μ2) Z = ------------------------√(σ21/n1 + σ22/n2 ) (5,55- 3,80) – 0* Z = ----------------------------√ (2,232/72 + 2,472/83) Z = 175/ 0,38 = 4,63 * se H0 è vera allora μ1 - μ2 = 0 dal momento che il valore di zc è 2,33 Z > Zc => rifiutiamo H0 valori inferiori allo zc avrebbero portato all’accettazione di H0 con un livello di significatività dell’1% la differenza tra le due medie è risultata statisticamente significativa OMOSCHEDASTICITA’ Vogliamo testare l’ipotesi nulla a proposito delle varianze incognite 12 e 22 di due popolazioni normali. Disponendo di due campioni indipendenti di dimensione n1 e n2 , con varianze stimate s12 e s22 , vogliamo verificare, al livello di significatività , l’ipotesi nulla H 0 : 12 22 omoschedasticità H1 : 12 22 H1 : 12 22 H1 : 12 22 . contro le ipotesi alternative Se l’ipotesi nulla è vera (le varianze delle due popolazioni sono uguali) il rapporto tra le due stime 2 e 22 (varianze corrette del campione) dovrebbe assumere un valore non eccessivamente distante da 1. 1 Se l’ipotesi nulla di uguaglianza fra varianze è vera, il rapporto tre le due stime ( F= 21 / 22 ) è distribuito secondo una funzione nota come v.a. F di Fisher-Snedecor con n1 1 e n2 1 gradi di libertà. La statistica da utilizzare per il test è F in cui supponiamo per convenzione S12 S 22 S12 S 22 (*) per comodità il rapporto viene sempre fatto ponendo al numeratore la varianza più grande Questo perché le due variabili 2 2 (n1 1) S1 ( n2 1) S 2 e si distribuiscono come due v.a. chi quadrato con n1 1 e n2 1 gradi di 12 22 libertà. Se quindi rapportiamo le variabili ai loro rispettivi gradi di libertà otteniamo F (n1 1) S12 /( n1 1) 12 S12 22 = (n2 1) S 22 /( n2 1) 22 S 22 12 che è la (*) se l’ipotesi nulla di omoschedasticità è vera. Si tratterà allora di individuare quei valori di F che lasciano alle code della distribuzione i valori che complessivamente hanno una probabilità α di verificarsi. A seconda che l’ipotesi alternativa sia uni o bidirezionale s farà riferimento a un livello di significatività pari a α o α/2