Test statistici Campione e popolazione La POPOLAZIONE è l’intero insieme di persone/oggetti/comportamenti che hanno quell’insieme di caratteristiche. Il CAMPIONE è un sottoinsieme della popolazione, tendenzialmente di dimensioni ridotte, ma avente le stesse caratteristiche e soprattutto bilanciato al suo interno allo stesso modo. In genere, non conosciamo direttamente le caratteristiche della popolazione, di solito dobbiamo stimarle in base alle caratteristiche dei campioni che sono stati estratti dalla popolazione. La parte di popolazione sulla quale viene svolta la rilevazione è definita campione. I risultati che si ottengono sul campione possono essere estesi, con limiti che la statistica è in grado di valutare probabilisticamente, all’intera popolazione, attraverso i metodi della statistica inferenziale. Inferenza statistica L'inferenza statistica (o statistica inferenziale) è il procedimento per cui si inducono le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta "campione"), selezionata solitamente mediante un esperimento casuale (aleatorio). Procedimento: 1. estrazione di un campione della popolazione 2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione 3. stima dei parametri nella popolazione in base ai risultati forniti dal campione. Statistica Campionaria Statistica calcolata per le osservazioni che compongono il campione. Le statistiche campionarie sono definite in modo tale da essere degli stimatori della statistica per la popolazione. Media campionaria: media calcolata sul campione Varianza campionaria: varianza calcolata sul campione Stima campionaria: stima fornita dal campione La precisione della stima fornita da un campione (stima campionaria) sarà maggiore con: - inferiore variabilità nella popolazione - maggiore dimensione del campione Test statistici Test statistici Test statistici Test statistici Test statistici La distribuzione della media campionaria - Ha minore ampiezza al crescere di n - È centrata sulla media della variabile nella popolazione - È normale anche se la variabile non è normale, ma n è grande Test statistici Osservazioni: • La media delle medie campionarie (mX) corrisponde alla media della popolazione (m) • La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi daranno una distribuzione con variabilità inferiore. • La forma della distribuzione di frequenza delle medie campionarie è gaussiana La deviazione standard della distribuzione delle medie campionarie è la Deviazione Standard della Media Riepilogo Il valore atteso della media campionaria è la media della popolazione. Il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la varianza della popolazione La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi avranno distribuzione con variabilità inferiore. La deviazione standard delle medie campionarie viene indicata anche come Errore Standard La forma della distribuzione di frequenza delle medie campionarie è normale. Questo accade anche se la distribuzione nella popolazione non è normale, purchè il campione sia abbastanza numeroso. Relazione tra media campionaria ed media della popolazione Siamo interessati al confronto tra la media campionaria e la media della popolazione. L’ipotesi di lavoro (quindi l’ipotesi alternativa): il campione non è parte dalla popolazione considerata ma di un’altra popolazione, con media differente. Cioè, il campione NON rappresenta la popolazione L’ipotesi nulla: il campione estratto ha media uguale a quella della popolazione (corrisponde cioè ad un campione tratto da tale popolazione) Vogliamo capire, con un livello di confidenza del 95%, se la media della popolazione è ben approssimata dalla media del campione Relazione tra media campionaria ed media della popolazione Il test statistico consiste nel calcolo della deviata normale standardizzata: Dove X : media campionaria μ: media della popolazione σX=(σ/√n): errore standard della media (cioè deviazione standard della media campionaria) σ: deviazione standard della popolazione n: numerosità del campione Relazione tra media campionaria ed media della popolazione Nella distribuzione normale standardizzata, s=1 e m=0, quindi gli intervalli mts diventano 0t Intervallo di confidenza Dalle tabelle, vediamo che la probabilità del 95% corrisponde a t=1.96 =0.05 Intervallo di confidenza Intervallo di confidenza dettaglio conti….aiuta a capire… Intervallo di confidenza dettaglio conti….aiuta a capire… Intervallo di confidenza Intervallo di confidenza L’intervallo di confidenza non è l’intervallo in cui cadono i valori della variabile o la media del campione, ma l’intervallo che con una certa probabilità conterrà la media della popolazione Ad ogni intervallo di confidenza viene associato un livello di confidenza (1 - ) che rappresenta il grado di attendibilità del nostro intervallo. Esiste sempre una probabilità pari ad che i dati campionari provengano da una popolazione con una media che si trova al di fuori dell’intervallo (1 - ) = grado di confidenza = probabilità di errore Confronto tra una media campionaria ed una popolazione i cui parametri sono noti Nell’esempio, abbiamo considerato vari campioni, la media campionaria si distribuisce secondo una distribuzione normale e, per un numero grande di campioni, assumiamo che - la media della popolazione coincida con la media della popolazione, cioè che il valore atteso della media campionaria è la media della popolazione. - il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la varianza della popolazione E’ quindi equivalente al confronto tra una media campionaria ed una popolazione i cui parametri sono noti Non sempre la media e la varianza della popolazione sono noti Confronto tra una media campionaria ed una popolazione quando solo la varianza della popolazione σ2 è nota La costruzione di un intervallo di confidenza per μ sotto l’assunzione di varianza nota, si basa sulla stima della media campionaria X Quindi, usiamo la media campionaria come stimatore della media della popolazione, il fatto che la sua distribuzione sia centrata sul valore vero del parametro μ indica che la media campionaria è uno stimatore non distorto. Inoltre, il rapporto σ2/n misura la precisione dello stimatore: come ci si potrebbe aspettare, tale precisione è tanto minore quanto più elevata è la varianza σ2 e tanto maggiore quanto più elevata è la dimensione campionaria n Non sempre la variabile x si distribuisce secondo una normale: stiamo utilizzando una approssimazione Il calcolo dell’intervallo di confidenza procede come nell’esempio precedente Intervalli di confidenza s della popolazione nota! Formalizzazione del test di ipotesi: Esempio Intervalli di confidenza Più spesso, ci troveremo a confrontare una media campionaria e la media della popolazione, senza dati sulla deviazione standard della popolazione Intervalli di confidenza La nuova variabile La distribuzione t-Student La distribuzione t-Student I gradi di libertà Intervalli diconfidenza Confronto tra la media di due campioni indipendenti Test t di Student Test di ipotesi Il test d'ipotesi verifica se il campione è compatibile con un’ipotesi relativa alle caratteristiche della popolazione. Il procedimento prevede dapprima la formulazione dell’ipotesi e quindi la valutazione della probabilità di ottenere il campione dato se l’ipotesi è vera. Se questa probabilità è bassa concluderemo che il campione verosimilmente proviene da una popolazione con diverse caratteristiche, ovvero che il campione non è rappresentativo della popolazione Si considera quale ipotesi nulla quella che è in disaccordo rispetto alle attese L’ipotesi di lavoro (quella cioè che vogliamo dimostrare essere vera) è l’ipotesi alternativa Test di ipotesi Intuitivamente si vorrebbe procedere cercando di confermare le ipotesi. 'Se la mia ipotesi è vera potrò ripetere molti esperimenti ed i loro risultati ripetuti la confermeranno'. In tal modo la funzione dell'esperimento sarebbe quella di confermare l'ipotesi. Sarebbe quindi utile condurre ripetuti esperimenti al solo scopo di confermare un'ipotesi che si ritiene valida. L’ipotesi, quindi, è costruita in modo da poter risultare non vera e pertanto respinta Test statistici L’approccio del p-value nella verifica dell’ipotesi Il test del c2 test di verifica d'ipotesi che utilizza la distribuzione della variabile casuale c2 per decidere se rifiutare o non rifiutare l'ipotesi nulla: Il test del c2 Il test del c2 La distribuzione del c2 Estratto tabella del c2