Inferenza statistica

Inferenza statistica
L’inferenza nella statistica
Si tratta di un complesso di tecniche, basate sulla teoria della probabilità, che
consentono di verificare se sia o no possibile trasferire i risultati ottenuti per un
campione ad una popolazione più estesa. E’ un processo induttivo che, pur non
potendo contare su tutti i dati necessari per descrivere un collettivo statistico, cerca di
stimare con una certa probabilità di errore, se essi siano o meno attendibili.
L’induzione, dunque, contrariamente alla deduzione, si fonda su basi incerte ma tenta
di colmare le lacune di informazione che si hanno ogni qualvolta non si può osservare
tutta la popolazione, ma solo una parte di essa.
Distinguiamo il termine parametro dal termine statistica: il parametro è un valore
caratteristico della popolazione, mentre la statistica è funzione delle osservazioni di un
campione. Quindi la media può essere sia parametro che statistica.
L’inferenza nella statistica
Se consideriamo un carattere X, a cui sia associata una distribuzione di probabilità e
dunque si possa considerare come una variabile aleatoria, si definisce funzione di
ripartizione di X la relazione F(x)=Prob {X ≤ x} con x∈R
Tale funzione è non decrescente, cioè per x<x1 , F(x)≤F(x1)
è continua a destra, cioè F(x)=F(x1) se x e x1 sono infinitamente vicini
è tale che
lim 𝐹(𝑥) = 0 e lim 𝐹(𝑥) = 1
𝑥→−∞
𝑥→+∞
Consideriamo ora la media artimetica. Distinguiamo la media aritmetica della
popolazione μ, che abbiamo detto possiamo chiamare parametro, da quella calcolata
nel campione 𝑥 , che è la nostra statistica a cui è associata una distribuzione di
probabilità. Questa statistica a sua volta ha una media ed una varianza
Media: 𝐸 𝑥 = 𝜇 e varianza: 𝑉𝑎𝑟 𝑥 =
𝜎2
𝑛
oppure 𝑉𝑎𝑟 𝑥 =
𝜎 2 𝑁−𝑛
𝑛 𝑁−1
L’inferenza nella statistica
Esempio: Torniamo all’esempio già visto per verificare che se potessimo calcolare la media di ogni possibile
campione estraibile da un universo, otterremmo una serie di medie campionarie, che a loro volta hanno media
pari al parametro della popolazione. Supponiamo di avere un universo di 4 unità su cui si è rilevata la seguente
misura in cm: a=10, b=12, c=15, d=16.
Avevamo calcolato che la media è pari a (10+12+15+16)/4=53/4=13,25.
I campioni di una unità hanno medie pari a 10, 12, 15, 16
I campioni di due unità hanno medie pari a : 11, 12.5, 13, 13.5, 14, 15.5
I campioni di tre unità hanno medie pari a: 12.3, 12.7, 13.7, 14.3,
E’ facile verificare che la media delle medie nei tre casi (campioni di 1 o 2 o 3 unità), è sempre pari a 13.25, che
è la media dell’universo.
Questo fatto ci dice anche che la media aritmetica è uno stimatore non distorto (vedremo meglio più avanti
questo concetto)
L’inferenza nella statistica
Esempio: Per l’esempio della pagina precedente, calcoliamo la varianza della stima della media campionaria.
Consideriamo tutte le medie calcolate ed effettuiamo il calcolo della varianza, cominciando per comodità dalla
varianza della popolazione e poi calcolando quella per campioni di 2 e di 3 unità:
σ2= [(10-13.25)2+(12-13.25)2+(15-13.25)2+(16-13.25)2]/4=5.7
Var2(𝑥 ) = [(11-13.25)2+(12.5-13.25)2+(13-13.25)2+(13.5-13.25)2+(14-13.25)2+(15.5-13.25)2]/6=1.9
Var3(𝑥 ) = [(12.3-13.25)2+(12.7-13.25)2+(13.7-13.25)2+(14.3-13.25)2]/4=0.6
𝜎 2 𝑁−𝑛
Un altro modo per calcolare questa varianza è la formula 𝑉𝑎𝑟 𝑥 =
𝑛 𝑁−1
Dal momento che σ2 è noto ed è pari a 5.7, la stessa varianza calcolata per i campioni di 1 unità, otteniamo:
Var2(𝑥 )=
5,7∗(4−2)
2∗(4−1)
=
5,7
4
= 1,9 Var3(𝑥 )=
5,7∗(4−3)
3∗(4−1)
=
5,7
9
= 1,6
Si comprende che quando N è grande e n piccolo l’ultima parte nella formula può essere trascurata
L’inferenza nella statistica
Il teorema del limite centrale
La variabile aleatoria della media campionaria può essere associata ad una
distribuzione di probabilità nota, grazie ad un teorema molto importante, che però
vale solo per n grande (si intende almeno pari a 30) e se i campioni sono indipendenti.
Il teorema dice che: la media campionaria al crescere di n tende a distribuirsi come
una normale di media μ e varianza σ2/n
Ne deriva che, se passiamo alla variabile standardizzata della media campionaria essa
𝑥−𝜇
si distribuisce come una normale standardizzata z = 𝜎 ~N(0,1)
𝑛
Dunque la media è normale se il carattere su cui è calcolata è normale, e anche
quando non lo è, per n sufficientemente grande.
L’inferenza nella statistica
Esempio: Facciamo ancora una volta riferimento agli alunni nel Lazio nel 1999 secondo i dati INRAN. Avevamo
calcolato per il peso, sia la media che la varianza μ=33.1 kg e σ2=52.42, da cui σ=7.24
Supponiamo di estrarre dal collettivo dei 6080 ragazzi 100 campioni di 30 unità. Vogliamo calcolare quanti di
questi campioni possiamo attenderci abbiano una media compresa nell’intervallo di peso 32|-|34 kg.
Per prima cosa passiamo ai valori standardizzati, per cui calcoliamo lo scarto quadratico medio della media
campionaria che è pari a 𝜎𝑥 =
(32−33,1)
Allora ho z1=
1,32
=
−1,1
1,32
𝜎 2 𝑁−𝑛
𝑛 𝑁−1
≈
𝜎2
=
𝜎
𝑛
𝑛
(34−33,1)
= −1,83 e z2=
1,32
Cioè 𝜎𝑥 =7.24/5.47=1.32
=
0,9
1,32
=0,68
Per il teorema del limite centrale p(32≤ 𝑥 ≤34)=p(z2)-p(z1)=p(0.68)-p(-0.83)=0.75-0.20=0.55
Per 100 campioni, ciascuno con probabilità 0.55 di centrare l’intervallo, mi aspetto 55 campioni la cui media sia
interna all’intervallo scelto.
NOTA: p(Z) è stato calcolato con il foglio di calcolo con la funzione DISTRIB.NORM.ST(Z)
L’inferenza nella statistica
I principali problemi dell’inferenza statistica consistono nella stima dei parametri di
una popolazione e nella verifica delle ipotesi statistiche.
Per stimare un parametro 𝜃 della popolazione si deve trovare una funzione dei dati
osservati il cui valore possa essere ritenuto una stima attendibile
del parametro della popolazione
𝜃 = t(x1, x2, …, xn)
La funzione t si cerca per analogia con l’espressione matematica della forma
caratteristica del parametro. Ad esempio la media, come abbiamo visto, può essere
stimata con la media calcolata nel campione, la varianza, con la varianza calcolata nel
campione (anche se bisogna dividerla per la radice di n)
L’inferenza nella statistica
Proprietà degli stimatori
Gli stimatori possono avere delle proprietà molto importanti.
CORRETTEZZA: Uno stimatore si dice corretto o non distorto, se il suo valore medio
nello spazio campionario è uguale al valore del parametro nella popolazione
EFFICIENZA: Uno stimatore si dice efficiente se la sua varianza, a parità di altre
condizioni, è minore della varianza ottenibile con altri stimatori
CONSISTENZA: Uno stimatore si dice consistente se al crescere di n i valori stimati
tendono, con probabilità tendente ad 1, al valore del parametro della popolazione
SUFFICIENZA: Uno stimatore si dice sufficiente se contiene tutte le informazioni sul
parametro.
L’inferenza nella statistica
Proprietà degli stimatori
Le prime due proprietà sono più intuitive, le altre due lo sono meno, anche se
entrambe consentono di identificare gli stimatori migliori. Tuttavia possiamo affermare
che se uno stimatore gode della proprietà della consistenza allora la sua varianza
diminuirà fino ad annullarsi al crescere di n.
Infine la proprietà di sufficienza di uno stimatore è molto importante perché da un
lato si considerano stimatori che non trascurano nessuna informazione campionaria
rilevante dall’altro non includono informazioni ridondanti per la stima del parametro.
Per la media aritmetica, il miglior stimatore è proprio la media aritmetica delle
osservazioni, perché è uno stimatore che gode delle proprietà suddette.
L’inferenza nella statistica
Proprietà degli stimatori
Abbiamo già verificato la correttezza della media in quanto abbiamo visto che facendo
la media delle medie campionarie, si ottiene proprio il valore del parametro media
della popolazione.
Se però usiamo un altro tipo di centro per stimare la media, ad esempio il valore
centrale tra il minimo e il massimo, otteniamo uno stimatore peggiore.
Esempio: riprendiamo un esempio precedente per verificare quest’ultima affermazione. Per le unità a=10,
b=12, c=15, d=16, consideriamo i campioni di tre unità e stimiamo la media della popolazione, che era di 13.25,
con la semisomma degli estremi nei campioni che indichiamo con s.
a b c → s=12.5
a b d → s=13
a c d → s=13
b c d → s=14
La media di questi valori è (12.5+13+13+14)/4=13.125 leggermente inferiore alla media della popolazione
quindi fornisce più di frequente una sottostima della media, anziché una stima esatta.
L’inferenza nella statistica
Proprietà degli stimatori
Mentre la media artimetica è uno stimatore corretto, la varianza non lo è perché
𝑛−1
risulta
𝐸 𝑠2 = 𝜎2 𝑛
Cioè la media delle varianze campionarie, indicate con S2, è uguale alla varianza della
popolazione a meno di un fattore di correzione che dipende dalla numerosità
campionaria. Quindi la varianza campionaria è uno stimatore distorto della varianza
della popolazione, a meno che non si parli di grandi campioni per cui il fattore di
correzione diventa trascurabile. Pertanto, per stimare la varianza nella popolazione si
usa uno stimatore corretto:
𝑠2
=
𝑛
2
𝑖=1(𝑥𝑖 −𝑥)
𝑛−1
dove 𝐸 𝑠 2 = 𝜎 2
L’inferenza nella statistica
Intervallo di confidenza
Abbiamo già visto in un esempio che, conoscendo la distribuzione di probabilità di un
parametro, possiamo calcolare la probabilità dei campioni che hanno una stima del
parametro che cade in un certo intervallo.
Questo fatto può essere enunciato in un modo inverso: possiamo trovare un intervallo
intorno al vero valore del parametro tale che la sua ampiezza è in grado di contenere
una gran parte delle stime campionarie con una certa probabilità P. In altri termini,
accettando un certo rischio di errore, possiamo determinare un intervallo entro cui
dovrebbe trovarsi il valore vero del parametro da stimare.
La quantità α=1-P è questo rischio di errore. Il valore 1-α viene detto livello di
confidenza:
Pr{𝜃 - δ < 𝜃 < 𝜃 + δ } =1-α
L’inferenza nella statistica
Intervallo di confidenza
Ciò vuol dire che 1-α è la probabilità che l’intervallo ({𝜃 - δ , 𝜃 + δ) contenga il valore
incognito 𝜃 della popolazione e tale intervallo varia col variare del campione. Questo
esprime la fiducia che possiamo avere nella stima di 𝜃
Di conseguenza, possiamo dire che il valore 𝜃 può essere, con una certa probabilità
1-α uno dei valori compresi nell’intervallo di confidenza.
Al crescere di n e al diminuire della varianza del fenomeno oggetto dello studio, tale
intervallo si riduce, aumentando la precisione delle stime ottenute, a parità del livello
di fiducia.
La probabilità dell’intervallo di confidenza può essere nota solo per parametri a cui è
associabile una distribuzione di probabilità nota. Il teorema del limite centrale ci dice
che per la media possiamo sempre usare la distribuzione normale.
L’inferenza nella statistica
Intervallo di confidenza per la media
Per la media μ, dunque, potendo usare la normale come distribuzione di probabilità,
𝜎
𝜎
l’intervallo di confidenza è: 𝑥 − 𝑧𝛼 𝑛 ≤ 𝜇 ≤ 𝑥 + 𝑧𝛼 𝑛
oppure, standardizzando, −𝑧𝛼 ≤
𝑥−𝜇
𝜎
𝑛
≤ 𝑧𝛼
dove 𝑧𝛼 è il valore della curva normale che racchiude a destra α/2 % dei casi, σ è lo
scostamento quadratico medio della popolazione n è la numerosità campionaria.
Esempio: determiniamo l’intervallo di confidenza per μ sapendo che lo scarto quadratico medio della
popolazione è σ =6, che la numerosità campionaria è n=100 e che nel campione si è calcolata una media di
𝑥 =170 cm.
Dalla formula, per un livello di fiducia del 95% (𝑧𝛼 =1.96), otteniamo
0.95 =P{170-1,96*6/10 ≤ μ ≤ 170+1,96*6/10} = P{170-1,176 ≤ μ ≤ 170+1,176}=P{168,8 ≤ μ ≤ 171,2}
L’inferenza nella statistica
Intervallo di confidenza per la media
Abbiamo però detto che spesso lo scarto quadratico medio della popolazione non è
noto e allora si può utilizzare una stima di esso calcolata con i dati del campione. Si
sceglie però lo stimatore corretto, in quanto, come abbiamo detto, lo scarto
quadratico medio semplice non gode della proprietà della correttezza. In questo caso
la distribuzione di probabilità che dobbiamo considerare non è più la normale, bensì la
t di Student con n-1 gradi di libertà
𝑥−𝜇
𝑡=
~𝑡(𝑛−1)
𝑠
𝑛
Anche la t di Student è una distribuzione di probabilità continua e definita su tutto
l’asse reale. La sua forma varia in base al parametro ‘gradi di libertà’, ma per n grande
(circa > 100) può essere approssimata con la normale.
L’inferenza nella statistica
Intervallo di confidenza per la media
L’intervallo di confidenza per la media quando la varianza non è nota diventa:
𝑠
𝑠
𝑥 − 𝑡 𝑛−1,𝛼
≤ 𝜇 ≤ 𝑥 + 𝑡(𝑛−1,𝛼)
𝑛
𝑛
2
2
Anche per t esistono delle tavole di riferimento che aiutano ad effettuare i calcoli.
Esempio: determiniamo lo stesso intervallo di confidenza precedente, sapendo però che 𝑠=6,9, la numerosità
campionaria è sempre 100 e la media campionaria è 170 cm.
Dalla formula, per un livello di fiducia del 95% (t99,0.05=1,98), otteniamo
0.95 =P{170-1.98*6,9/10 ≤ μ ≤ 170+1.98*6,9/10} =P{168,6 ≤ μ ≤ 171,4}
Anche in questo caso esistono funzioni automatiche sui fogli di calcolo (INV.T)
L’inferenza nella statistica
Verifica delle ipotesi
La teoria della verifica delle ipotesi consente di stabilire se una certa assunzione,
basata su un risultato campionario, può essere accettata o no. E questo si fa attraverso
l’uso di test che sono vere e proprie regole che consentono di accettare o rifiutare una
certa ipotesi perché poco probabile.
Esempio: supponiamo di aver acquistato delle pile che ci vengono garantite per durare più di 2000 ore
ciascuna. Per decidere se ciò è vero, facciamo un campione di pile e le mettiamo in funzione per 2000 ore. Dai
risultati che rileviamo su questo campione decidiamo se tutte le pile sono veramente durevoli quanto ci hanno
garantito o no attraverso un test di ipotesi.
L’ipotesi formulata e che si vuole sottoporre al test, si chiama ipotesi nulla e si indica
con H0, l’ipotesi alternativa ad essa si indica con H1. Quindi, se si considera lo spazio
dei parametri Ω e lo si divide in 2 sottoinsiemi disgiunti ω1 e ω2, si avrà che il
parametro incognito θ può appartenere o a ω1 o a ω2
L’inferenza nella statistica
Verifica delle ipotesi
In termini simbolici, abbiamo due ipotesi
H0: θ ∈ ω1 e H1: θ ∈ ω2
dove con il simbolo ∈ si intende l’appartenenza di θ ad uno dei due sottoinsiemi
Occorre stabilire quale statistica si vuole prendere per stimare θ per poi decidere se è
più probabile che valga l’ipotesi nulla o l’ipotesi alternativa. Nello spazio Ω in cui è
definito θ individuiamo una regione R che chiamiamo regione di rifiuto e una regione
A, di accettazione ad essa complementare. Se la statistica cadrà in essa rifiuteremo
l’ipotesi nulla, se cadrà fuori, la accetteremo. Così si possono commettere due tipi di
errore:
a) errore di I tipo o di prima specie: rifiuto l’ipotesi nulla quando è vera
b) errore di II tipo o di seconda specie: accetto l’ipotesi nulla quando è falsa
L’inferenza nella statistica
Verifica delle ipotesi
L’inferenza nella statistica
Verifica delle ipotesi
A questi errori sono sempre associate delle probabilità
a) Probabilità di commettere un errore di prima specie: α = P{s∈R|θ=θ0} cioè è la
probabilità che la statistica test cada nella regione di rifiuto quando l’ipotesi nulla è
vera e quindi è l’errore di prima specie.
b) Probabilità di commettere un errore di seconda specie: β = P{s∈A|θ=θ1} cioè è la
probabilità che la statistica test cada nella regione di accettazione quando l’ipotesi
nulla è falsa e quindi è l’errore di seconda specie
α è detto livello di significatività e corrisponde alla dimensione della regione di rifiuto
R.
Il valore 1-β=P{s∈R|θ=θ1} è detto potenza del test e dobbiamo scegliere R in modo che
sia massimo.
L’inferenza nella statistica
Verifica delle ipotesi
La potenza del test
indica la probabilità
di rifiutare l’ipotesi
nulla quando è vera
l’ipotesi alternativa.
Più è alta questa
probabilità, più il test
ha la capacità di farci
fare la scelta giusta.
Ho le seguenti
possibilità
Campione
x ∈ regione di
accettazione
Accetto H0
x ∉ regione di
accettazione
Rifiuto H0
H0 è vera
Decisione giusta
P=1-α
Errore di prima
specie
P=α
H0 è falsa
Errore di seconda
specie
P=β
Decisione giusta
P=1-β
Realtà
L’inferenza nella statistica
Test normale
Se ho un carattere normale o un campione sufficientemente grande su cui, ad esempio,
stimo una media che per grandi campioni è normale, e se la varianza della popolazione
𝑥 −𝜇
è nota, posso usare la statistica test
𝑧 = 𝑛𝜎 0
𝑛
che mi consente di dire che, la mia ipotesi sul valore della media della popolazione è
validata o no dal campione.
Ipotesi nulla
Ipotesi alternativa
H0: μ=μ0
H1: μ≠μ0 (ma si poteva scegliere μ≤μ0 o μ≥μ0)
Si calcola z nel campione e si sceglie α. Per α=0.05 accetto H0 se z<1.64
L’inferenza nella statistica
Test normale
Esempio: Consideriamo una popolazione normale con σ=2 ed estraiamo un campione di ampiezza
10. Supponiamo di voler testare l’ipotesi che la media della popolazione sia μ=20.
Dunque l’ipotesi nulla è
H0: μ=20
l’ipotesi alternativa è
H1: μ≠20
a) calcolare la regione di rifiuto all’1%, al 5%, al 10%;
b) supponendo che la media campionaria sia x=18,58 prendere una decisione ai tre livelli di significatività di cui
sopra
Accetterò l’ipotesi nulla se P(z)<α e, come sappiamo, per α=0.01 z=2.58, α=0.05 z=1.96, α=0.1 z=1.64. Calcolo
dunque z nel campione: z =
18,58−20
2/ 10
=
1,42
2/3,16
=
1,42
0,63
= 2,25
Quindi, per una regione di rifiuto all’1% (la prob. che H0 sia vera deve essere del 99%) accetto l’ipotesi nulla, per
ampiezze della regione di rifiuto maggiori la rifiuto (la prob. che H0 sia vera deve essere del 95% o del 90%).
L’inferenza nella statistica
Test t di student
Se non conosco la varianza della popolazione posso fare ricorso alla sua stima corretta.
In questo caso la statistica test si distribuisce come una t di Student. Per grandi
campioni posso sempre fare ricorso alla normale.
𝑥 − 𝜇0
𝑡=
𝑛
𝑠
Ipotesi nulla
Ipotesi alternativa
H0: μ=μ0
H1: μ≠μ0
Si calcola t nel campione e si sceglie α.
t dipende anche dai gradi di libertà (n-1)
Nella tavola la riga con n= ∞ è proprio uguale al valore della normale
L’inferenza nella statistica
Test t di student
Esempio: Il contenuto nominale delle lattine di bibite è 330ml. Scegliamo un campione di 20 lattine in
cui riscontriamo un contenuto medio di 328ml con deviazione standard 3.2ml. Assumiamo che la distribuzione
del contenuto sia normale. Stabilire al livello di significatività del 5% se si tratta di frode.
Dunque l’ipotesi nulla è
H0: μ=330
l’ipotesi alternativa è
H1: μ≠330
Non conoscendo la varianza della popolazione, abbiamo una statistica test di tipo t di Student.
𝑡=
328 − 330
2
=
= 2,8
3,2/4,47
0,72
tn-1,5%=t19,0.05=2.093
Quindi, poiché t>t19,0.05 in quanto 2.8>2.093 concludo che devo rifiutare l’ipotesi nulla e quindi si tratta di frode.
L’inferenza nella statistica
Test t di student per il confronto fra due medie
Si può pensare anche di testare se due campioni indipendenti stimano la stessa media.
In questo caso, se non conosco la varianza della popolazione, faccio ancora ricorso alla
t di Student e stimo la varianza come s=(Dev(x1) + Dev(x2))/(n1+n1-2) ipotizzando che le
due popolazioni abbiano la stessa varianza
𝑥 −𝑥
In questo caso la statistica test è
𝑡 = 11 21 ~𝑡𝑛1+𝑛2−2,𝛼
con n1+n1-2 gdl
𝑠 𝑛 +𝑛
1
2
H0: μ=0 Ipotesi Nulla
H1: μ≠0 Ipotesi alternativa
Cioè si testa se la differenza è nulla o no con una t con n1+n1-2 gradi di libertà ad un
livello α di significatività.
L’inferenza nella statistica
Test t di student per il confronto fra due medie
Esempio: In un esperimento, su due gruppi, ciascuno di 10 animali dello stesso tipo, è stato misurato il peso, ma
ad un gruppo è stato somministrato un ormone per la crescita. Valutiamo al livello di significatività α pari al 5%
se il trattamento determina un incremento di peso. La differenza tra i due pesi medi è risultata di X1-X2=0.54 kg.
Lo scarto quadratico medio complessivo è stato calcolato ed è risultato pari a 0.48
Dunque l’ipotesi nulla è
H0: D=0 Cioè la differenza dei pesi è nulla
l’ipotesi alternativa è
H1: D≠0
Calcolo la statistica test: 𝑡 =
0,54
0,48∗0,45
=
0,54
0,216
= 2,5
t18,0.05=2.101 quindi rifiuto l’ipotesi nulla che la differenza di peso è nulla e che l’ormone della crescita
somministrato non ha avuto effetto significativo.
L’inferenza nella statistica
Test t di student
In R abbiamo la funzione t.test effettua il test t di Student ad un campione, a due campioni e
per dati appaiati.
La sintassi completa di questa funzione è:
t.test(x, y = NULL, alternative = c("two.sided", "less", "greater"), mu = 0, paired = FALSE,
var.equal = FALSE, conf.level = 0.95, ...)
dove:
x e y sono vettori numerici di dati;
alternative specifica l’ipotesi alternativa, a seconda che si tratti di una verifica di ipotesi
bilaterale o unilaterale;
mu un numero che indica il valore reale della media (o la differenza tra le
medie se si sta effettuando un test a due campioni);
paired una variabile logica che indica se si vuole effettuare un test t per dati appaiati;
var.equal una variabile logica che indica se porre le varianze dei due
campioni uguali fra loro;
conf.level livello di confidenza.
L’inferenza nella statistica
Test t di student
Esempio. Un gruppo di 22 volontari presso un centro di ricerca medica viene esposto a vari tipi di virus
influenzali e tenuto sotto controllo medico. Ad un campione casuale di 10 volontari viene somministrato un
grammo di vitamina C quattro volte al giorno. Agli altri 12 volontari viene somministrato un placebo non
distinguibile dal farmaco. I volontari vengono poi visitati spesso da un medico che non conosce la
divisione in gruppi e non appena uno di essi viene trovato guarito si registra la durata della malattia. Alla fine
dell’esperimento si possiedono i seguenti dati:
Placebo: 6.5, 6.0, 8.5, 7.0, 6.5, 8.0, 7.5, 6.5, 7.5, 6.0, 8.5, 7.0
Vitamina C 5.5, 6.0, 7.0, 6.0, 7.5, 6.0, 7.5, 5.5, 7.0, 6.5
Si inseriscono i vettori in R:
vitamina_C <- c(5.5, 6.0, 7.0, 6.0, 7.5, 6.0, 7.5, 5.5,7.0, 6.5)
placebo <- c(6.5, 6.0, 8.5, 7.0, 6.5, 8.0, 7.5, 6.5, 7.5, 6.0, 8.5, 7.0)
Si può concludere che l’assunzione di 4 grammi di vitamina C al giorno abbia accorciato il decorso medio
della malattia? A che livello di significatività?
𝐻0 : 𝜇𝑣𝑖𝑡𝑎𝑚𝑖𝑛𝑎 𝐶 ≥ 𝜇𝑝𝑙𝑎𝑐𝑒𝑏𝑜
Eseguiamo il test:
supponendo che le varianze della durata della malattia nei due
𝐻1 : 𝜇𝑣𝑖𝑡𝑎𝑚𝑖𝑛𝑎 𝐶 < 𝜇𝑝𝑙𝑎𝑐𝑒𝑏𝑜
casi siano uguali.
L’inferenza nella statistica
Test t di student
L’ipotesi nulla viene accettata solo
per livelli di significatività
α< 0.036 = p-value;
l’ipotesi nulla viene dunque rifiutata
ad un livello di significatività del 5%
quindi, a questo livello di significatività,
i dati raccolti evidenziano un
accorciamento del decorso
dell’influenza somministrando
vitamina C.
L’inferenza nella statistica
Test 𝝌𝟐 - test non parametrici
Conosciamo già la forma di questo indice, perché lo abbiamo studiato come indice di
connessione fra due caratteri in una distribuzione doppia. Ora vogliamo usarlo per
verificare l’ipotesi di indipendenza tra due distribuzioni
χ2
=𝑛
ℎ
𝑛2 ℎ𝑖
𝑖𝑛 𝑛
ℎ. .𝑖
− 1~ χ2 (ℎ−1)(𝑖−1)
I gradi di libertà sono dunque (h-1)(i-1)
Questo test può essere eseguito su qualunque distribuzione doppia, anche quando i
caratteri non sono quantitativi (da qui la definizione di non parametrico). In questo
caso l’ipotesi nulla rappresenta la dipendenza tra le distribuzioni.
L’inferenza nella statistica
Test 𝝌𝟐 - test non parametrici
Esempio: Si supponga di aver rilevato, su un campione di 36 giovani, la pressione arteriosa e la pratica sportiva.
Calcoliamo la statistica test
72
92
142
62
χ =𝑛
+
+
+
− 1 = 36 ∗ 0,15 + 0,34 + 0,47 + 0,12 − 1 = 2,88
21 ∗ 16 15 ∗ 16 21 ∗ 20 15 ∗ 20
2
Dalla tavola del χ2 per 1=(2-1)(2-1) gdl e un livello
di significatività del 5% otteniamo il valore 3,84
Dunque accettiamo l’ipotesi nulla: nel campione
considerato, tra ipertensione e pratica dello sport
c’è dipendenza
Ipertensione
si
Ipertensione
no
Totale
Sport si
7
9
16
Sport no
14
6
20
Totale
21
15
36