Test statistici
Campione e popolazione
La POPOLAZIONE è l’intero insieme di persone/oggetti/comportamenti che
hanno quell’insieme di caratteristiche.
Il CAMPIONE è un sottoinsieme della popolazione, tendenzialmente di
dimensioni ridotte, ma avente le stesse caratteristiche e soprattutto bilanciato al
suo interno allo stesso modo.
In genere, non conosciamo direttamente le caratteristiche della popolazione, di
solito dobbiamo stimarle in base alle caratteristiche dei campioni che sono stati
estratti dalla popolazione.
La parte di popolazione sulla quale viene svolta la rilevazione è definita campione. I
risultati che si ottengono sul campione possono essere estesi, con limiti che la
statistica è in grado di valutare probabilisticamente, all’intera popolazione,
attraverso i metodi della statistica inferenziale.
Inferenza statistica
L'inferenza statistica (o statistica inferenziale) è il procedimento per cui si inducono
le caratteristiche di una popolazione dall'osservazione di una parte di essa (detta
"campione"), selezionata solitamente mediante un esperimento casuale (aleatorio).
Procedimento:
1. estrazione di un campione della popolazione
2. calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati
contenuti nel campione
3. stima dei parametri nella popolazione in base ai risultati forniti dal campione.
Statistica Campionaria
Statistica calcolata per le osservazioni che compongono il campione.
Le statistiche campionarie sono definite in modo tale da essere degli stimatori della
statistica per la popolazione.
Media campionaria: media calcolata sul campione
Varianza campionaria: varianza calcolata sul campione
Stima campionaria: stima fornita dal campione
La precisione della stima fornita da un campione (stima campionaria) sarà maggiore
con:
- inferiore variabilità nella popolazione
- maggiore dimensione del campione
Test statistici
Test statistici
Test statistici
Test statistici
Test statistici
La distribuzione della media campionaria
- Ha minore ampiezza al crescere di n
- È centrata sulla media della variabile nella popolazione
- È normale anche se la variabile non è normale, ma n è grande
Test statistici
Osservazioni:
• La media delle medie campionarie (mX) corrisponde alla media della
popolazione (m)
• La variabilità della distribuzione delle medie campionarie è inferiore
alla variabilità nella popolazione. Campioni più grandi daranno una
distribuzione con variabilità inferiore.
• La forma della distribuzione di frequenza delle medie campionarie è
gaussiana
La deviazione standard della distribuzione delle medie campionarie è
la Deviazione Standard della Media
Riepilogo
 Il valore atteso della media campionaria è la media della popolazione.
 Il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è la
varianza della popolazione
 La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità
nella popolazione. Campioni più grandi avranno distribuzione con variabilità
inferiore. La deviazione standard delle medie campionarie viene indicata
 anche come Errore Standard
 La forma della distribuzione di frequenza delle medie campionarie è normale.
Questo accade anche se la distribuzione nella popolazione non è normale, purchè
il campione sia abbastanza numeroso.
Relazione tra media campionaria ed media
della popolazione
Siamo interessati al confronto tra la media campionaria e la media della popolazione.
L’ipotesi di lavoro (quindi l’ipotesi alternativa): il campione non è parte dalla
popolazione considerata ma di un’altra popolazione, con media differente. Cioè, il
campione NON rappresenta la popolazione
L’ipotesi nulla: il campione estratto ha media uguale a quella della popolazione
(corrisponde cioè ad un campione tratto da tale popolazione)
Vogliamo capire, con un livello di confidenza del 95%, se la media della popolazione
è ben approssimata dalla media del campione
Relazione tra media campionaria ed media della
popolazione
Il test statistico consiste nel calcolo della deviata normale standardizzata:
Dove
X : media campionaria
μ: media della popolazione
σX=(σ/√n): errore standard della media (cioè deviazione standard della media
campionaria)
σ: deviazione standard della popolazione
n: numerosità del campione
Relazione tra media campionaria ed media della
popolazione
Nella distribuzione normale standardizzata, s=1 e m=0, quindi gli intervalli mts
diventano 0t
Intervallo di confidenza
Dalle tabelle, vediamo che
la probabilità del 95%
corrisponde a t=1.96
=0.05
Intervallo di confidenza
Intervallo di confidenza
dettaglio conti….aiuta a capire…
Intervallo di confidenza
dettaglio conti….aiuta a capire…
Intervallo di confidenza
Intervallo di confidenza
L’intervallo di confidenza non è l’intervallo in cui cadono i valori della variabile o
la media del campione, ma l’intervallo che con una certa probabilità conterrà la
media della popolazione
Ad ogni intervallo di confidenza viene associato un livello di confidenza
(1 - ) che rappresenta il grado di attendibilità del nostro intervallo.
Esiste sempre una probabilità pari ad  che i dati campionari provengano da
una popolazione con una media che si trova al di fuori dell’intervallo
(1 - ) = grado di confidenza
 = probabilità di errore
Confronto tra una media campionaria ed una
popolazione i cui parametri sono noti
Nell’esempio, abbiamo considerato vari campioni, la media campionaria si
distribuisce secondo una distribuzione normale e, per un numero grande di
campioni, assumiamo che
- la media della popolazione coincida con la media della popolazione, cioè che il
valore atteso della media campionaria è la media della popolazione.
- il valore atteso della varianza campionaria calcolata con il denominatore (n-1) è
la varianza della popolazione
E’ quindi equivalente al confronto tra una media campionaria ed una popolazione i
cui parametri sono noti
Non sempre la media e la varianza della popolazione sono noti
Confronto tra una media campionaria ed
una popolazione quando solo la varianza
della popolazione σ2 è nota
La costruzione di un intervallo di confidenza per μ sotto l’assunzione di varianza
nota, si basa sulla stima della media campionaria
X
Quindi, usiamo la media campionaria come stimatore della media della popolazione, il
fatto che la sua distribuzione sia centrata sul valore vero del parametro μ indica che la
media campionaria è uno stimatore non distorto. Inoltre, il rapporto σ2/n misura la
precisione dello stimatore: come ci si potrebbe aspettare, tale precisione è tanto minore
quanto più elevata è la varianza σ2 e tanto maggiore quanto più elevata è la dimensione
campionaria n
Non sempre la variabile x si distribuisce secondo una normale: stiamo utilizzando una
approssimazione
Il calcolo dell’intervallo di confidenza procede come nell’esempio precedente
Intervalli di confidenza
s della popolazione nota!
Formalizzazione del test di ipotesi:
Esempio
Intervalli di confidenza
Più spesso, ci troveremo a confrontare una media
campionaria e la media della popolazione, senza dati sulla
deviazione standard della popolazione
Intervalli di confidenza
La nuova variabile
La distribuzione t-Student
La distribuzione t-Student
I gradi di libertà
Intervalli diconfidenza
Confronto tra la media di due campioni
indipendenti
Test t di Student
Test di ipotesi
Il test d'ipotesi verifica se il campione è compatibile con un’ipotesi relativa alle
caratteristiche della popolazione.
Il procedimento prevede dapprima la formulazione dell’ipotesi e quindi la
valutazione della probabilità di ottenere il campione dato se l’ipotesi è vera.
Se questa probabilità è bassa concluderemo che il campione verosimilmente
proviene da una popolazione con diverse caratteristiche, ovvero che il campione
non è rappresentativo della popolazione
Si considera quale ipotesi nulla quella che è in disaccordo rispetto alle attese
L’ipotesi di lavoro (quella cioè che vogliamo dimostrare essere vera) è l’ipotesi
alternativa
Test di ipotesi
Intuitivamente si vorrebbe procedere cercando di confermare le ipotesi.
'Se la mia ipotesi è vera potrò ripetere molti esperimenti ed i loro risultati ripetuti
la confermeranno'.
In tal modo la funzione dell'esperimento sarebbe quella di confermare l'ipotesi.
Sarebbe quindi utile condurre ripetuti esperimenti al solo scopo di confermare
un'ipotesi che si ritiene valida.
L’ipotesi, quindi, è costruita in modo da poter risultare non vera e pertanto
respinta
Test statistici
L’approccio del p-value nella verifica
dell’ipotesi
Il test del c2
test di verifica d'ipotesi che utilizza la distribuzione della variabile
casuale c2 per decidere se rifiutare o non rifiutare l'ipotesi nulla:
Il test del c2
Il test del c2
La distribuzione del c2
Estratto tabella del c2