Università degli Studi del Piemonte Orientale
Corso di Laurea in Infermieristica
Corso integrato in Scienze della Prevenzione e dei Servizi sanitari
Statistica
Lezione 5
a.a 2011-2012
Dott.ssa Daniela Ferrante
[email protected]
Inferenza statistica
L’inferenza statistica è un insieme di metodi con cui si
cerca di trarre una conclusione sulla popolazione sulla
base di alcune informazioni ricavate da un campione
estratto da quella popolazione.
Il percorso dell’inferenza statistica si svolge secondo le
seguenti fasi:
1. estrazione di un campione della popolazione
2. calcolo delle statistiche campionarie, cioè dei valori
corrispondenti ai dati contenuti nel campione
3. stima dei parametri nella popolazione in base ai risultati
forniti dal campione
2
Popolazione
Insieme che raccoglie tutte le osservazioni possibili,
relativamente ad una data variabile o ad un dato fenomeno.
Può essere finita (comunque molto grande) o infinita
3
Campione
- Raccolta finita di elementi estratti da una popolazione
- Scopo dell’estrazione è quello di ottenere informazioni
sulla popolazione
- Il campione deve essere rappresentativo
popolazione da cui viene estratto (‘non viziato’)
della
- Per corrispondere a queste esigenze il campione viene
individuato con un campionamento casuale.
4
In un campionamento casuale semplice tutti gli individui
nella popolazione hanno uguale probabilità di essere
inclusi nel campione.
individui nella popolazione = "unità di campionamento"
popolazione oggetto dello studio = "popolazione bersaglio"
popolazione effettivamente campionabile (al netto
dell'effetto di fattori di selezione) = "popolazione studio" o
base di campionamento
5
Distribuzione della media campionaria
Consideriamo tutti i possibili campioni casuali di ampiezza
n che possono essere estratti da una popolazione.
Per ciascun campione si può calcolare una statistica (es.
la media) che varia da campione a campione.
Possiamo dunque considerare la statistica in questione
come una variabile casuale e studiarne la distribuzione.
Se ad esempio la statistica usata è la media, la
distribuzione è detta distribuzione della media
campionaria.
Campionamento da popolazione distribuita normalmente
Se campioniamo da un popolazione normale allora:
• La distribuzione di
x (media campionaria) è normale
• La media delle medie campionarie corrisponde alla
media della popolazione (µ)
• La varianza della distribuzione della media campionaria
è uguale alla varianza della popolazione diviso per la
dimensione del campione
7
Campionamento da popolazione distribuita non
normalmente
• In questo caso introduciamo il teorema centrale limite:
Data una popolazione distribuita non normalmente, la
distribuzione della media campionaria calcolata da campioni
di dimensione n, avrà media µ e varianza σ2/n e, se la
dimensione campionaria è grande (un campione di
dimensione 30 è considerato soddisfacente), avrà
distribuzione pressochè normale
8
Esempio
Quale sarà la probabilità di osservare un soggetto con una statura
inferiore a m 1,5928 data una popolazione con altezza media
1,730 e deviazione standard 0,07 (distribuzione di partenza
assunta come normale)?
Si estragga un campione di ampiezza 10, calcolare la probabilità
che la media campionaria dell’altezza sia superiore a 1,65.
N.B Nel caso della media campionaria la standardizzazione
avviene nel seguente modo:
z=
x−µ
σ
n
9
Esempio
z =
z =
x − µ
σ
1,5928−1,73
P( x < 1,5928) = P(z <
) = P(z < −1,96) = 0,025
0,07
x − µ
P ( x > 1, 65 ) = P ( z >
σ
n
1, 65 − 1, 73
) = P ( z > − 3,7 ) ~
=1
0 , 07
10
0,6
0,4
0,2
0,0
X
-4
-3,7
-3
-2
-1
0
1
2
3
4
5
6
10
Stima puntuale e stima intervallare
Una stima puntuale è un procedimento attraverso il
quale a partire dalle informazioni tratte da un campione
si ottiene come risultato un singolo valore numerico
usato come stima del parametro dell’intera popolazione
Es. stima della media
xi
∑
x =
n
Una stima intervallare è un procedimento attraverso il
quale a partire dalle informazioni tratte da un campione
si ha come risultato un insieme di valori che con un
certo grado di fiducia conterrà il parametro da stimare
11
– Campioni ripetuti dalla stessa popolazione forniscono
medie campionarie diverse
– Ciascuna di queste medie campionarie costituisce una
stima non distorta del parametro (media della popolazione)
ma non può essere usata come stima del parametro da
sola, senza tenere conto dell’incertezza causata dall’errore
campionario
12
Stima intervallare della media campionaria
( x − z1−α / 2 *
σ
n
z1−α / 2
; x + z1−α / 2 *
σ
n
)
Coefficiente di attendibilità
Se α=0,05
0,95
0,025
0,025
-1,96
+1,96
13
Interpretazione dell’intervallo di confidenza
Estraendo tutti i possibili campioni da una popolazione
distribuita normalmente, il 95% degli intervalli conterrà la
media della popolazione ossia abbiamo un grado di
fiducia del 95% che la media della popolazione si trovi tra
i due valori estremi dell’intervallo
14
Esempio
La media della distribuzione della pressione sistolica
delle donne diabetiche di età compresa tra 30 e 34 anni
non è nota, tuttavia la deviazione standard è σ=11,8
mmHg. Un campione casuale di 10 donne è selezionato
da questa popolazione: la pressione sistolica media del
campione è pari a 130 mmHg.
Calcolare un intervallo di confidenza al 95% per la media
della popolazione
15
Esempio
( x − z1−α
/ 2
*
(130 − 1 , 96 *
σ
n
; x + z1−α
/ 2
*
σ
n
)
11 , 8
11 , 8
;130 + 1 , 96 *
)
10
10
(122 ,7 ;137 ,3)
16
La distribuzione t
William Sealey Gosset
Nel caso in cui non conosciamo la deviazione
standard della popolazione, possiamo ricorrere alla
deviazione standard campionaria. In questo caso
facciamo riferimento alla distribuzione t di Student.
Il t di Student è un test di statistica parametrica. E’
fondato sulle caratteristiche della distribuzione
normale.
17
La distribuzione t
– Ha media 0
– E’ simmetrica intorno alla media
– Rispetto alla distribuzione normale è meno appuntita
al centro e ha code più alte
– Tende alla distribuzione normale quando n è
sufficientemente grande
– E’ caratterizzata dai gradi di libertà che misurano la
quantità di informazione disponibile nei dati per
stimare σ2. Per ogni valore dei gradi di libertà c’è una
diversa distribuzione di t. All’aumentare dei gradi di
libertà la distribuzione della t si avvicina alla
distribuzione normale
18
Distribuzione normale (curva blu) e t di student per 1, 2, 3, 5, 10, 30
gradi di libertà
Grafici tratti da: http://en.wikipedia.org/wiki/Student's_t-distribution
19
Il procedimento per il calcolo dell’intervallo di confidenza
della media nel caso in cui sia necessario ricorrere alla
distribuzione t di Student è analogo al caso precedente ma
si sostituisce il valore di σ con il valore s
( x − t1 − α
s=
/2
*
s
; x + t1 − α
n
∑ ( xi − x ) 2
n −1
/2
*
s
)
n
Gradi di libertà = n-1
I gradi di libertà sono (n-1) poiché abbiamo perso 1 grado di
libertà per stimare la media
20
Esempio
• Riprendiamo l’esempio precedente supponendo di non
conoscere σ.
La media e la deviazione standard della distribuzione della
pressione sistolica delle donne diabetiche di età compresa tra
30 e 34 anni non è nota. Un campione casuale di 10 donne è
selezionato da questa popolazione: la pressione sistolica
media del campione è pari a 130 mmHg e la deviazione
standard campionaria pari a 20.
Calcolare un intervallo di confidenza al 95% per la media
della popolazione.
21
Esempio
( x − t1 − α
/2
s
*
; x + t1 − α
n
( 130 − 2 , 26 *
/2
s
*
)
n
20
20
;130 + 2 , 26 *
)
10
10
(115,70;144 ,30 )
t1−α / 2 = 2,26
0,5
0,95
0,4
0,3
0,2
0,1
0,0
T
-5
-4
-3
-2
-1
0
1
2
3
4
5
g.d.l = n-1 = 9; α=0.05
22
Distribuzione T
2 code
1 coda
Probabilità
0,005 0,010 0,025 0,050
0,010 0,020 0,050 0,100
gradi libertà
1 63,66 31,82 12,71 6,31
63,66 31,82 12,71 6,31
2 9,22 6,96 4,30 2,92
9,22 6,96 4,30 2,92
3 5,84 4,54 3,18 2,35
5,84 4,54 3,18 2,35
4 4,60 3,75 2,78 2,13
4,60 3,75 2,78 2,13
5 4,03 3,37 2,57 2,02
4,03 3,37 2,57 2,02
6 3,71 3,14 2,45 1,94
3,71 3,14 2,45 1,94
7 3,50 3,00 2,37 1,90
3,50 3,00 2,37 1,90
8 3,36 2,90 2,31 1,86
3,36 2,90 2,31 1,86
9 3,25 2,82 2,26 1,83
3,25 2,82 2,26 1,83
10 3,17 2,76 2,23 1,81
3,17 2,76 2,23 1,81
11 3,11 2,72 2,20 1,80
3,11 2,72 2,20 1,80
12 3,06 2,68 2,18 1,78
3,06 2,68 2,18 1,78
13 3,02 2,65 2,16 1,77
3,02 2,65 2,16 1,77
14 2,98 2,63 2,15 1,76
2,98 2,63 2,15 1,76
15 2,95 2,60 2,13 1,75
2,95 2,60 2,13 1,75
16 2,92 2,58 2,12 1,74
2,92 2,58 2,12 1,74
17 2,90 2,57 2,11 1,73
2,90 2,57 2,11 1,73
18 2,88 2,55 2,10 1,73
2,88 2,55 2,10 1,73
19 2,86 2,54 2,09 1,73
2,86 2,54 2,09 1,73
20 2,85 2,53 2,09 1,73
2,85 2,53 2,09 1,73
per numeri di g.l. superiori a 20 usate la riga corrispondente a 20
23