Lezione 2

Inferenza statistica
Donata Rodi
23/03/2016
Inferenza statistica
Disciplina che utilizza l’informazione campionaria per fare delle
affermazioni sulla popolazione da cui il campione è stato tratto
• La popolazione non esiste ancora o, se esiste, non può essere studiata
tutta o è costoso farlo o richiede un tempo troppo lungo
• Studio del campione con la statistica descrittiva
• Estensione delle informazioni alla popolazione, che può comportarsi in
modo diverso dal campione
• Nel passaggio campione - popolazione si ricorre alla Probabilità per
accompagnare le conclusioni
Rodi, 2016
Campionamento
Popolazione
Parametri
µ, ϭ2
Campione
Inferenza
Stima
Statistiche
descrittive
X, s2
Rodi, 2016
Qualche definizione….
Popolazione
Campione
 Insieme delle unità statistiche sede del
fenomeno in studio
 Piccola parte rappresentativa di un
«tutto»
 Finita o infinita
 Dati indipendenti o dati correlati
Parametro
 Costante caratteristica della
popolazione
Spazio campionario Ω
 Insieme di tutti i possibili campioni
estraibili dalla popolazione
 Discreto o Continuo se X è discreta o
continua
Rodi, 2016
 Procedura in base alla quale dal campione
osservato si ottengono informazioni per
assegnare un valore al parametro incognito θ
(stima puntuale) o un insieme di valori (stima
intervallare).
 Si stima attraverso una statistica
 Occorre quantificare la precisione della stima
(ES e intervallo di confidenza)
1. Stima
Inferenza
Stimatore
 Formula usata per calcolare la stima del
parametro
 Possono esistere diversi stimatori per uno
stesso parametro
2. Test di
ipotesi
 Procedura che consiste nel fare un ipotesi
sul valore vero dei parametri ignoti θ e nel
decidere, sulla base dell’informazione
campionaria, se è accettabile
Rodi, 2016
Statistiche campionarie: media e varianza
Parametri di popolazione
N


i 1
N
Statistiche campionarie
N
x
 (x   )
n
2
i
 
2
i 1
N
̂  X n 

i 1
n
n
x
 (x
i
ˆ 2  s 2 
 X n )2
i 1
n 1
NB. Poiché il campione è casuale, la
statistica campionaria è una variabile
casuale….
(x1,…,xn) n-upla campionaria (cambia con il
campione)
(X1,…Xn) variabile casuale (modello probabilistico
idoneo a interpretare il carattere X)
Rodi, 2016
Stima puntuale
Valore assunto dalla statistica, in corrispondenza dei dati campionari, usata per stimare
il parametro di popolazione incognito. Sintetizza la n-upla campionaria
Proprietà
1.
2.
3.
4.
Correttezza
Precisione
Efficienza
Consistenza
Metodi di stima
1. Massima
verosimiglianza
2. Momenti
3. Dei minimi quadrati
La stima della media di popolazione µ è la media campionaria 𝑥
Rodi, 2016
Incertezza di una stima
Errore Standard
• Misura di dispersione della stima (media
campionaria 𝑥), calcolata su n osservazioni,
rispetto al valore vero di popolazione (media µ).
SE =
ϭ
𝑛
• Deviazione standard della distribuzione
campionaria della stima, rispetto al parametro
(Precisione)
Rodi, 2016
µ
Stima intervallare
Intervallo costruito attorno allo stima puntuale in
modo che venga fissata la probabilità che il valore
vero del parametro appartenga all’intervallo stesso
α = livello di
significatività
Solo un IC non contiene
la media vera
1-α = livello di
confidenza
 P che IC non includa θ
 Se ripetessimo il calcolo dell’IC su tutti i
 Minore è α, più grande è IC, quindi siamo
campioni possibili di dimensione n, l’IC
meno precisi nel collocare θ. Se fosse 0, l’IC
conterrebbe θ
comprenderebbe tutti i valori, quindi non
sarebbe utile
 0.001< α <0.1
Rodi, 2016
Distribuzione di probabilità
Rodi, 2016
Distribuzione normale
Rodi, 2016
Distribuzione z
La normale standardizzata è definita attraverso la trasformazione
Esempio bilaterale
Esempio unilaterale
Peso: µ=75 Kg, ϭ=10.0
Quale è il peso del 5% delle persone che hanno
peso > o <?
Peso: µ=66.12 Kg, ϭ=9.04
Quanti hanno peso < 55 Kg?
< 55 Kg = 10.9%
> 55Kg = 89.1%
55.40 Kg – 94.60 Kg
Rodi, 2016
Distribuzione campionaria delle medie
 Supponendo di estrarre tutti i possibili campioni di dimensione n e di calcolare
tutte le medie, la distribuzione delle medie ottenuta si dice «distribuzione della
media campionaria»
 La distribuzione delle medie campionarie ha come media µ e ha minore
variabilità rispetto ai dati originali
 Qual è la distribuzione della media campionaria? Spesso è una normale
Standardizzando:
Rodi, 2016
Intervallo di confidenza della media
Stima intervallare
 Intervallo costruito intorno alla stima del
parametro, che ha alta probabilità di contenere
il parametro (valore vero)
 Misura della precisione della media campionaria.
Più è ampio, meno precisa è la stima della
media parametrica ottenibile.
 Esempio: IC della media al 95%. Siamo fiduciosi
al 95% che l’intervallo calcolato conterrà la
media vera della popolazione.
 Limite: campioni piccoli, ES non noto
 NB. La P si applica all’intervallo ma non al
parametro che è fisso
 Si ricorre alla distribuzione t di Student, curva
simmetrica un po più bassa della normale con
freq maggiori agli estremi (DF = n-1). Per DF
all’infinito, la curva tende alla normale
Rodi, 2016
Esempio
Rodi, 2016
Distribuzione t
In genere, ϭ non è noto, quindi per costruire un IC intorno alla media, usiamo 𝑋 e S
La statistica campionaria t usata per
stimare il parametro ignoto è la STIMA
La variabile casuale T di cui t è la realizzazione sul campione, è lo
STIMATORE, una V.C. dotata di una sua distribuzione campionaria
• T: distribuzione t di Student, n-1 gradi di libertà (GDL o DF)
 Simile alla normale standardizzata: grafico più appiattito e maggiore area sottesa sulle code (s non noto,
stimato da S)
• Maggiore variabilità di t dovuta all’incertezza su s
• Se aumenta DF, la distribuzione tende alla normale
Rodi, 2016
Verifica di ipotesi
1. Ipotesi: ipotesi nulla (H0) e alternativa (H1)
2. Raccolta dati: tipo di variabile, caratteristiche della distribuzione
3. Scelta del test: in base a ipotesi, variabile e distribuzione
4. Risultato del test
5. Decisione: attraverso la Probabilità, si definisce quanto si può essere
confidenti riguardo a una conclusione basata sul campione ma estesa
alla popolazione
6. Analisi del test e dei dati per un nuovo esperimento: potenza a
posteriori e a priori, β
Rodi, 2016
Ipotesi nulla e alternativa
Ipotesi nulla: E’ l’ipotesi di NON differenza o di casualità.
Esempio: La pressione media dei pazienti che assumono il farmaco A antiipertensivo è la
stessa di quelli che assumono un placebo (Controllo). Si presume l’inefficacia del farmaco,
fino a prova contraria
H0: µA=µC
Verifica di un’ipotesi: stabilire se un campione casuale contiene abbastanza
«evidenza» per rifiutare H0
Si somministra il farmaco A a 20 soggetti e un placebo ad altri 20. Le Pressioni medie
nei due gruppi sono «molto» diverse?
No: non posso rifiutare H0
Si: rifiuto H0. Ipotesi Alternativa H1: le differenze riscontrate nelle statistiche
campionarie rispecchiano quelle dei parametri delle popolazioni
H1: µA≠µC
Rodi, 2016
Errore
I tipo
II tipo
• Si rifiuta H0 quando questa è vera
• Non si rifiuta H0 quando questa è falsa
• La probabilità di un errore di I tipo è α
• La probabilità di un errore di I tipo è β
• 1-α Coefficiente di Confidenza o Protezione
• 1-β Potenza del test
• (1- α) x 100 Livello di Confidenza
Rodi, 2016
Il test confronta la stima campionaria con le due ipotesi
Regione di rifiuto: campioni che hanno
sufficiente evidenza contro H0
P<0.05
Regione di accettazione: campioni che
non contengono sufficiente evidenza
contro H0
P>0.05
Bipartizione dello spazio campionario:
decisione
Per minimizzare sia α che β (test potente, senza perdita di protezione):
distanziare le due distribuzioni (H0 e H1) per ridurre la regione di
sovrapposizione. Ridurre le dispersioni:
aumento le dimensioni del campione
H0: l’imputato è innocente
P value
 Probabilità che, assumendo
vera l’ipotesi nulla, si
abbia un campione che si
allontani tanto o più dai
valori ideali di H0
Raccolgo indizi pro e contro
P=probabilità che, nell’ipotesi che l’imputato sia innocente, si
raccolgano indizi per la colpevolezza, almeno tanto gravi rispetto a
quelli da noi raccolti
P=0.4
La probabilità che per un innocente si raccolgano indizi cosi pesanti
o più pesanti, rispetto ai nostri, è del 40%. Non riusciamo pertanto
a convincere i giurati della sua colpevolezza.
P=0.02
Se è innocente, solo nel 2% dei casi riusciamo a raccogliere indizi
cosi a favore o più della sua colpevolezza. Quindi ce la sentiamo di
condannarlo
P NON è la probabilità che lui sia innocente
P NON è la P di condannare un innocente (errore I tipo): non
appartiene allo Spazio di P, la P non è definita
Rodi, 2016
P value
Esempio: studio su un antidepressivo
H0: il nuovo farmaco non ha effetto
 P molto piccolo: elevata significatività
 Significativa è solo la Probabilità che
rileviamo
 Il test non dice nulla sull’entità della
differenza che il test dimostra che esiste
 Non si riferisce mai all’effetto
Il test si basa sul senso di ilarità che produce
P=0.7 : il 70%degli antidepressivi inefficaci
fa ridere almeno quanto quello esaminato.
Non posso rifiutare H0
P=0.001 : solo 1 su 1000 degli antidepressivi
che non hanno effetto provoca lo stesso senso
di ilarità di questo farmaco. Possiamo credere
che abbia un effetto, quindi rifiuto H0
Puo essere che il nuovo farmaco (magari molto più costoso) faccia ridere di più,
ma in modo impercettibile….
Rodi, 2016
K.A. fisher: il p value
• Sistema informale in cui il P value doveva essere un valore guida della forza dell’evidenza
contro H0. Strumento flessibile da contestualizzare
• Significant: termine da usare per P piccoli…qualcosa degna di nota
1. Ripetere l’esperimento
2. Vedere se gli studi successivi confermano P
significativi
3. Conclusione: è improbabile che gli effetti
osservati siano solo effetto del caso
P value e Test di ipotesi (Neyman-Pearson):
un matrimonio difficile che genera molti concetti errati
Rodi, 2016
Intervallo di confidenza e verifica di ipotesi
• Gli IC sono usati per stimare i parametri di popolazione
• La verifica di ipotesi è usata per prendere decisioni che dipendono
dal valore dei parametri
• Anche gli IC consentono di valutare se un parametro è minore,
uguale o maggiore rispetto a un certo valore: costruisco un IC
attorno alla media µ e non rifiuto H0 se il valore ipotizzato è
compreso nell’intervallo costruito
Rodi, 2016