OD
STATISTICA
INFERENZIALE
26
OD
INFERENZA STATISTICA
Insieme di metodi che cercano di raggiungere
conclusioni sulla popolazione, sulla base delle
informazioni contenute in un campione estratto
da quella popolazione.
INFERENZA STATISTICA
CAMPIONE
POPOLAZIONE
27
OD
LA STIMA
Processo che consiste nell’utilizzare i dati
campionari per calcolare una data statistica
(media, proporzione,…), che verrà considerata
un’approssimazione del corrispondente parametro
nella popolazione.
POPOLAZIONE
Parametri
µ; σ; ...
CAMPIONE
Statistiche (stime di parametri)
x ; s; ...
STIMA PUNTUALE
Il parametro di interesse è stimato attraverso un
unico valore (puntuale).
Esempio: la media campionaria è una stima
puntuale della media di popolazione.
STIMA INTERVALLARE
Viene calcolato un intervallo di valori entro cui è
probabile che rientri il vero valore del parametro.
28
OD
STIMA E STIMATORI
STIMA: valore calcolato dai dati campionari.
STIMATORE: regola, formula, che indica come
calcolare questo valore o stima.
Esempio: Si vuole stimare la media µ della
popolazione.
Stima puntuale: x
Stimatore:
xi
∑
x=
n
media campionaria
formula per il calcolo di x
STIMATORE NON DISTORTO
Uno stimatore è buono se è non distorto, cioè se
il valore atteso* dello stimatore è uguale al
valore del parametro.
*valore atteso: valore medio dello stimatore, calcolato su
tutti i possibili campioni da una data popolazione.
29
OD
POPOLAZIONE CAMPIONATA
E POPOLAZIONE DI RIFERIMENTO
(O TARGET)
POPOLAZIONE CAMPIONATA
È la popolazione campionata da cui si estrae
realmente il campione.
POPOLAZIONE DI RIFERIMENTO (o
TARGET)
È la popolazione a cui si vuole estendere
l’inferenza.
Le due popolazioni non sempre coincidono.
• Se coincidono si possono trarre conclusioni
sulla popolazione target, usando le tecniche di
inferenza statistica.
• Se non coincidono si possono trarre
conclusioni sulla popolazione target, solo sulla
base di considerazioni non statistiche.
30
OD
Esempio
Si vuole valutare l’efficacia di un certo metodo
per il trattamento dell’artrite reumatoide.
Popolazione target: tutti i pazienti affetti da
artrite reumatoide.
Popolazione campionata: i pazienti affetti da
artrite reumatoide visti in un certo ospedale.
Le due popolazioni non coincidono: si possono
trarre conclusioni sulla popolazione target, solo
sulla base di considerazioni non statistiche.
N.B.: quanto più le due popolazioni sono simili, tanto
più il ricercatore è portato ad estrapolare i risultati alla
popolazione target.
Attenzione a non fare considerazioni arbitrarie.
31
OD
INTERVALLI
DI CONFIDENZA
32
OD
INTERVALLO DI CONFIDENZA
PER UNA MEDIA
Scopo della ricerca
Stima dell’altezza media di tutti gli studenti
dell’Università di Pavia.
Attuazione della ricerca
• Estrazione di un campione casuale di 35
studenti;
• calcolo della media campionaria ( x = 168,9 cm ),
usata come stima puntuale della media µ della
popolazione.
x (168,9 cm) → STIMA PUNTUALE → µ (168,9 cm)
Domanda. L’altezza media calcolata sul campione è
esattamente uguale all’altezza media di tutti gli
studenti dell’Università?
Domanda. È possibile stabilire quanto è attendibile
questa stima puntuale?
33
OD
Considerazione
La procedura seguita è corretta:
• il campionamento è casuale;
• lo stimatore non è distorto.
Tuttavia, a causa delle fluttuazioni casuali, è
impossibile pretendere che la media campionaria sia
esattamente uguale al valore vero nella popolazione.
L’errore commesso, dovuto a fluttuazioni
casuali, non è eliminabile.
Come risolvere il problema?
È possibile stimare la media della popolazione
non in modo puntuale, ma con una stima
intervallare.
STIMA INTERVALLARE.
?
< µ < ?
Limite inferiore
Limite superiore
Si costruisce un intervallo entro cui si può supporre
sia contenuto il valore vero (fisso) della media della
popolazione.
34
OD
COSTRUZIONE DI UNA STIMA
INTERVALLARE
Obiettivo
Calcolare una stima per intervallo della media di
popolazione µ di una variabile X con distribuzione
normale.
Ricordiamo le caratteristiche
campionamento della media:
della
distribuzione
di
σ
• x~N
• µx=µ
• ES= n
La media della distribuzione di campionamento (e quindi la
media della popolazione) hanno un valore ignoto;
essendo ignota la media è impossibile posizionare la
distribuzione di campionamento sull’asse x;
si conosce, però, la media del campione (stima puntuale) e
pertanto è possibile posizionare arbitrariamente la
distribuzione sull’asse x sulla base di tale media;
attorno alla media campionaria costruiamo l’intervallo
compreso tra la media e ± 2 errori standard( si suppone nota
la varianza della popolazione).
L1
x
L2
35
OD
Estraiamo dalla popolazione d’interesse altri campioni di
ugual dimensione e costruiamo con il criterio precedente un
intervallo attorno alla media di ciascuno.
Avremo tanti intervalli dalla forma media ± 2 errori
standard, tutti di ugual ampiezza, e ciascuno centrato
attorno alla propria media.
Domanda
Dove si collocano questi intervalli rispetto alla
vera media della popolazione?
CAMPIONAMENTO RIPETUTO
µ
C1
C2
C3
C4
C5
C6
C7
C8
C9
C10
36
OD
Consideriamo l’intervallo µ ± 2 σx costruito attorno alla
vera media µ della popolazione: qualunque sia il valore di
µ, l’intervallo considerato conterrà il 95% dei possibili
valori di x
In altre parole, il 95% degli intervalli della stessa forma,
costruiti attorno ad ogni possibile valore di x , dovrebbe
avere il centro all’interno dell’intervallo µ ± 2 σx .
I concetti espressi sono illustrati nel grafico seguente:
0.95
2σx
2σx
x
µ
x1
x2
x3
x4
x5
Le medie dei campioni 1, 3, 4 cadono all’interno
dell’intervallo µ ± 2 σx e quindi gli intervalli intorno ad essi
contengono la media della popolazione.
Le medie dei campioni 2 e 5 cadono all’esterno
dell’intervallo µ ± 2 σx e quindi gli intervalli intorno ad essi
non contengono la media della popolazione.
37
OD
Esempio
(Daniel pag.142 6.2.1)
Supponiamo che un ricercatore, interessato a stimare
il livello medio di un dato enzima in una certa
popolazione umana, prenda un campione di 10
individui, determini il livello dell’enzima in ogni
individuo e calcoli il valore medio nel campione
x =22 mg/ml.
Supponiamo, inoltre, che la variabile di interesse sia
approssimativamente distribuita come una normale
con una varianza di 45. Vogliamo stimare µ.
Soluzione
Un intervallo di confidenza al 95% circa per µ è
dato da :
x ± 2σ x =
= 22 ±
45
10
=
= 22 ± 2(2.1213) = 17.76 ; 26.24
Estremo inferiore
L1 = 17.76
Estremo superiore
L2 = 26.24
38
OD
ELEMENTI DELLE STIME PER
INTERVALLI
Nella formula:
x ± 2σ x
compaiono i seguenti elementi:
• x è il centro dell’intervallo (è la stima puntuale di
µ);
• 2 è un valore ottenuto dalla distribuzione normale
standardizzata (valore di z) che indica entro quanti
errori standard si trova il 95% di tutti i possibili
valori della media campionaria.
In questo caso z = 2.
z è detto coefficiente di attendibilità.
•
σx è l’errore standard o deviazione standard della
distribuzione di campionamento della media.
39
OD
FORMULA GENERALE PER IL
CALCOLO DI UN INTERVALLO DI
CONFIDENZA
Un intervallo di confidenza, in generale, è
espresso da:
stimatore ± coeff. di attendibilità X errore standard
margine d’errore o precisione
Se il campionamento è fatto da una
distribuzione normale con varianza nota la
formula è la seguente:
x ± z1-α/2
L1= x - z1-α/2
σ
n
σ
n
L2= x + z1-α/2
σ
n
Ν.Β. → α rappresenta l’errore, equamente ripartito
nelle due code, che si è disposti ad accettare.
40
OD
INTERPRETAZIONE DEGLI INTERVALLI
DI CONFIDENZA
In generale è possibile dare le seguenti
interpretazioni di un intervallo di confidenza.
INTERPRETAZIONE PROBABILISTICA
Estraendo tutti i possibili campioni da una
popolazione distribuita normalmente con varianza
nota, il (1- α)100 per cento degli intervalli della forma
x ± z1-α/2 σx conterrà a lungo andare la media della
popolazione µ.
INTERPRETAZIONE PRATICA
Quando il campionamento è effettuato da una
popolazione distribuita normalmente con varianza
nota, abbiamo un grado di fiducia del (1- α)100 per
cento che il singolo intervallo x ± z1-α/2 σx contenga
la media della popolazione µ.
N.B.
1–α
α
area interna all’intervallo
area esterna all’intervallo
41
OD
IL LIVELLO DI CONFIDENZA 1- α
La quantità (1-α), che corrisponde alla frequenza
degli intervalli che contengono µ, è detta livello
di confidenza o grado di fiducia;
l’intervallo x ± z(1-α/2) σx è detto intervallo di
confidenza.
Se (1-α)=0.95, l’intervallo di confidenza è
chiamato intervallo di confidenza al 95%.
IL COEFFICIENTE DI ATTENDIBILITÀ z
Il coefficiente di attendibilità z varia in funzione
di α, cioè della frequenza degli intervalli che non
contengono µ.
In tabella sono riportati i livelli di confidenza più
usati e i corrispondenti valori di z1-α/2.
Livello di confidenza
(1-α)*100%
90%
95%
99%
1-α/2
z1-α/2
0.05
0.025
0.005
1.645
1.96
2.58
N.B.: si ricorda che i valori di z sono tabulati.
42
OD
CAMPIONAMENTO DA POPOLAZIONI
NON NORMALI
E DIMENSIONE CAMPIONARIA ≥ 30
• Quando la variabile non ha una distribuzione
normale, è possibile calcolare l’intervallo di
confidenza utilizzando la tecnica esaminata,
purché il campione sia sufficientemente grande
(Teorema del Limite Centrale).
Per campioni sufficientemente grandi (n≥30) la
distribuzione
delle
medie
campionarie
è
approssimativamente normale, indipendentemente dalla
forma della distribuzione della popolazione da cui il
campione è stato estratto.
• Se la varianza della popolazione non è nota e
n≥30, nella formula per il calcolo dell’intervallo
di confidenza è possibile usare la varianza
campionaria s al posto della varianza della
popolazione σ.
Essendo n grande, s può essere considerata una buona
approssimazione di σ
43
OD
Esercizio
(Daniel pag.144 6.2.3)
Un gruppo di ricerca è interessato a studiare la puntualità
dei pazienti nel mantenere gli appuntamenti. È stato
studiato un flusso di pazienti presso gli studi di medici
generici ed è stato trovato che un campione di 35 pazienti
era in ritardo agli appuntamenti di 17.2 minuti in media.
Una ricerca precedente aveva evidenziato che la deviazione
standard era di 8 minuti; inoltre era stato ipotizzato che la
distribuzione della popolazione non fosse normale. Qual è
l’intervallo di confidenza al 90% per µ, l’ammontare vero
di ritardo per gli appuntamenti?
Soluzione
n≥30
σ nota
T.L.C: → distribuzione di x è normale
α = 10% = 0.10
P(L1<µ<L2) = 90%
Z(1-α/2) = z0.95 = 1.645
L 1; L 2 = x ± z
L1;L2 = 17.2±1.645·
8
35
(1 −
α
2)
⋅
σ
n
= 17.2±2.2 = 15.0;19.4
44
OD
CAMPIONAMENTO DA POPOLAZIONE
CON VARIANZA σ2 INCOGNITA
Spesso nella realtà la varianza della popolazione è
incognita.
• 1° caso:
n≥30 campioni grandi
Si utilizza s, deviazione standard del campione, al
posto di σ e nel calcolo degli intervalli di
confidenza si può ricorrere alla distribuzione z
(come negli esempi precedenti).
Essendo n grande, s può essere considerata una buona
approssimazione di σ e si può utilizzare la teoria della
distribuzione normale per la costruzione degli intervalli di
confidenza.
È possibile utilizzare anche la distribuzione t.
• 2° caso:
n<30 campioni piccoli
Nel calcolo degli intervalli di confidenza si deve
ricorrere alla distribuzione di Student o
distribuzione t.
45
OD
DISTRIBUZIONE t di STUDENT
È necessario ricorrere alla distribuzione t se
σ è INCOGNITA e n<30
La relazione utilizzata per la costruzione di
intervalli di confidenza con l’uso della
distribuzione t non cambia:
stimatore ± coeff. di attendibilità X errore standard
margine d’errore o precisione
Cambia solo la tabella da cui si legge il
coefficiente di attendibilità, che si riferisce alla
distribuzione t e non più alla distribuzione
normale standardizzata.
L1 ; L2 = x ± t1-α/2;(n-1)gdl
s
n
46
OD
INTERVALLO DI CONFIDENZA
PER LA DIFFERENZA TRA DUE MEDIE
Si vuole stimare la differenza tra le medie di due
popolazioni µ1 – µ2.
a. LE VARIANZE DELLE POPOLAZIONI
SONO NOTE
L1 ; L2 = ( x 1 – x 2) ± z1-α/2·
σ1
2
n1
+
σ2
2
n2
47
OD
b. LE VARIANZE DELLE POPOLAZIONI
NON SONO NOTE
• Se le varianze delle popolazioni non sono note e le
dimensioni campionarie sono ≥ 30 si può ricorrere
alla distribuzione z (utilizzando s al posto di σ) o alla
distribuzione t;
• se le varianze delle popolazioni non sono note e le
dimensioni campionarie sono < 30 si deve ricorrere
alla distribuzione t.
2
2
sp sp
L1 ; L2 = ( x 1 – x 2)±t1-α/2 ; (n1+n2-2)gdl· n + n
1
2
Formula valida nel caso si possa assumere l’uguaglianza
delle varianze delle due popolazioni.
Le varianze campionarie sono impiegate per stimare la
varianza comune come media ponderata (rispetto ai
rispettivi gradi di libertà) delle due varianze campionarie.
s2
pond
=
(n
1
− 1) ⋅ s1 + (n 2 − 1) ⋅ s2
n1 + n 2 − 2
2
2
48
OD
INTERVALLO DI CONFIDENZA PER
UNA PROPORZIONE
Domanda
Qual è la proporzione di individui in una certa
popolazione che ha una data malattia?
Per stimare la proporzione in una popolazione (p)
si procede nel seguente modo:
L1; L 2 = pˆ ± z1−α / 2 ⋅
pˆ (1 − pˆ )
n
p̂ = proporzione campionaria
p = proporzione nella popolazione
INTERVALLO DI CONFIDENZA PER LA
DIFFERENZA TRA DUE PROPORZIONI
pˆ 1(1 − pˆ 1) pˆ 2(1 − pˆ 2)
L1; L2 = ( pˆ 1 − pˆ 2) ± z1−α / 2 ⋅
+
n1
n2
49