0 - Torna all`Home Page Facoltà di Scienze MFN

Argomenti della lezione
13 dicembre 2012
AVVISO
GIOVEDI 10 GENNAIO II PROVA IN
ITINERE
POSSONO SOSTENERE LA II PROVA n
itinere COLORO CHE HANNO
SUPERATO LA I PROVA
I risultati verranno pubblicati sul
sito dell’insegnamento di
Statistica
Argomenti del giorno
- Riepilogo della lezione scorsa….
-Test di significatività:
Test z
Test t di Student
Riepilogo della lezione scorsa
Per verificare se, e quanto, una
determinata ipotesi (di carattere biologico,
medico, economico,...)
è supportata dall'evidenza empirica
costruiamo il test d’ipotesi
SCHEMA TEST DI IPOTESI
1. Si fissa l’ipotesi
alternativa (H1)
nulla
(H0)
e
l’ipotesi
2. Si fissa il livello di significatività a in cui si
vuole eseguire il test
3. In funzione di a si sceglie la regione di rifiuto
4. Dai dati del campione si calcola la statistica
studiata nel test (ossia il test statistico) e si
vede se appartiene o no alla regione di
rifiuto
5. Si prende la decisione: rifiutare o accettare
H0 al livello di significatività fissato a priori
RAPPRESENTAZIONE GRAFICA
DEL TEST DI IPOTESI
f (X )
H1
H0
1-b
b
a
m
m≠0
valore critico
Errore di seconda specie nella verifica di ipotesi
L’errore di seconda specie (indicato con β ) si verifica
se si accetta l’ipotesi nulla quando è falsa e quindi dovrebbe
essere rifiutata.
Errori nella verifica di ipotesi
LIVELLI DI SIGNIFICATIVITA’ DEL TEST
Nella pratica statistica i valori critici di p, detti livelli di
signficatività
del test sono fissati dalla seguente
convenzione.
CONVENZIONE
Se p ≥0.05, la discrepanza tra dato osservato e valore atteso
non è statisticamente significativa (cioè può trattarsi di un
effetto casuale del campionamento) e H0 viene accettata.
Se p < 0.05, H0 viene, in genere, rifiutata e la discrepanza
viene detta
- statisticamente significativa se 0.01≤ p ≤ 0.05;
- molto significativa se 0.001 ≤ p ≤ 0.01;
- estremamente significativa se p < 0.001.
Potenza del test
La potenza del test, indicata con (1–β), rappresenta la
probabilità di rifiutare l’ipotesi nulla quando è falsa (e
quindi dovrebbe essere rifiutata)
L’aumento della dimensione campionaria determina una
riduzione di β e quindi un aumento della potenza del test
per verificare se l’ipotesi nulla H0 è falsa
COME ACCETTARE O RIFIUTARE L’IPOTESI H0?
 Per prendere una decisione sull’ipotesi nulla, dobbiamo in primo luogo
definire le regioni di rifiuto e di accettazione e questo viene fatto determinando
il cosiddetto valore critico della statistica test
La determinazione del valore critico dipende dall’ampiezza della regione di
rifiuto, che è legata al rischio comportato dal prendere una decisione sul
parametro alla luce delle sole informazioni campionarie
Una volta specificato il valore di a, si ottiene anche la regione di rifiuto
perché è la probabilità che la statistica test cada nella regione di rifiuto quando
l’ipotesi nulla è vera.
Il valore critico che separa la regione di accettazione da quella di rifiuto viene
determinato considerando la statistica test
a
 A differenza dell’errore di prima specie, che controlliamo fissando a, la
probabilità di commettere un errore di seconda specie (b) dipende dalla
differenza tra il valore ipotizzato e il vero valore del parametro della
popolazione: se la differenza è grande, è probabile che β sia piccolo
Test statistici
Si definisce test statistico lo strumento che consente di
decidere circa o meno l’attendibilità dell’ ipotesi (rifiutare o non
rifiutare l’ipotesi).
In particolare il test è una procedura che, sulla base di dati
campionari e con un certo grado di probabilità, consente di
decidere se è ragionevole respingere l’ipotesi nulla H0 (ed
accettare implicitamente l’ipotesi alternativa H1) oppure se non
esistono elementi sufficienti per respingere tale ipotesi.
Test statistici
Sono molteplici i test a disposizione:
Il test appropriato si sceglie in relazione al tipo di campioni che si
intendono confrontare (indipendenti, per dati appaiati) e a seconda
della variabile su cui si intende svolgere il confronto.
• CAMPIONI INDIPENDENTI: i dati sono forniti da soggetti
diversi
•(ES. Due gruppi diversi, uno sottoposto a trattamento e l’altro no)
• CAMPIONI DIPENDENTI (DATI APPAIATI): i dati sono forniti
dagli stessi soggetti (ES. Uno stesso gruppo analizzato prima e dopo il
trattamento).
TEST PARAMETRICI per variabili quantitative a distribuzione nota
TEST NON PARAMETRICI per variabili qualitative o quantitative a
distribuzione ignota
Test Z
Test parametrico. Valido a condizione che la variabile sia distribuita
normalmente e che la varianza della popolazione sia conosciuta
TESTO L’IPOTESI PER UNA POPOLAZIONE CON MEDIA μ e σ2 CONOSCIUTA
Test Z:
Media campione – media popolazione
Z = ___________________________________
Errore standard
Utilizzo la varianza della popolazione per calcolare l’errore standard
Errore standard =
/ n
Esempio: Test Z per la media della popolazione
Si sa, da esperienze passate, che i pesi alla nascita di neonati sono distribuiti
in modo normale con deviazione standard pari a 12.
Esaminando un campione di 16 bambini si osserva un peso medio di 3550 g.
Considerando un a = 0,05 si può accettare l’ipotesi nulla che il peso medio
della popolazione sia pari a 3500 g ?
SOLUZIONE
H0: m=3500 g.
H1: m≠3500 g.
Calcoliamo il valore standard z per i 16
bambini del campione e guardare sulle
tavole la probabilità associata a questo
valore:
z
x - m0
/ n

3550 - 3500
Conclusioni:
12 / 16
 16,67
-1.96
1.96
Poiché il valore standard 16,67 è esterno all’intervallo -1,96÷1,9,6 rifiutiamo l’ipotesi nulla H0,
la probabilità è inferiore del 5%, p<0,05.
Esempio: Test Z per la media della popolazione
,X che rappresenta il numero di ore
Consideriamo la variabile casuale
consecutive che i dipendenti di una certa azienda trascorrono in media ogni
giorno davanti al computer.
Viene svolta un’indagine dal dipartimento di medicina del lavoro per verificare
se i dipendenti non trascorrano in media più di 3 ore consecutive davanti al
computer. Viene estratto casualmente un campione di 15 dipendenti le quali
dichiarano di trascorrere quotidianamente davanti al computer un numero di
ore pari a:
4, 5, 7, 3, 8, 2, 4, 1, 3, 0, 6, 2, 3, 0, 3.
Sotto l’ipotesi che ha distribuzione normale con varianza
2 5
• verificare il seguente schema di ipotesi per il parametro media m (livello di
significatività del test a  0,05 )
H 0 : m  m0  3
H1 : m  3
Test z per la differenza tra due medie (campioni indipendenti)
Viene applicato per verificare le ipotesi sulla differenza tra due
medie di popolazione, quando le varianze delle due popolazioni
sono note.
m x -x  m1 - m 2
1
2
 e
2
1
2
 sono note
2
Esempio: Test z per la differenza tra due medie
Due campioni di pazienti di ampiezza 70 e 110 sono sottoposti a due trattamenti diversi
che producono tempi medi di guarigione rispettivamente di 60 e 57 giorni con deviazioni
standard di 8 e 12 giorni. Verificare se i due trattamenti hanno pari efficacia (a=0,05).
SOLUZIONE
H0: “non c’è differenza fra le medie delle popolazioni”, cioè m1=m2.
H1: “non c’è differenza fra le medie delle popolazioni”, cioè m1≠m2.
Calcoliamo il valore standard z della differenza delle medie quando m1=m2 perché n1 e n2 sono
> 30:
z
x1 - x2 - 0
 12 / n1   22 / n2

60 - 57
64 / 70  144 / 110

3
0,91  1,31

3
 2,01
1,49
Il valore standardizzato z cade in una delle due regioni critiche della distribuzione normale
standardizzata (z>1,96) e quindi rifiutiamo H0.
Test t di Student
Supponendo di avere due campioni con medie diverse, ci si chiede
se la differenza tra le due medie sia significativa, ovvero se esiste
una differenza reale fra le medie delle popolazioni da cui sono
estratti i campioni.
Quando 1 ed 2 sono ignoti si possono utilizzare le deviazioni
standard campionari s1 ed s2 come stima delle vere varianze delle
due popolazioni e la differenza tra le medie campionarie è testata
calcolando l’indice t di Student, determinato dal rapporto:
t
t
differenza medie campionarie

errore s tan dard della differenza delle medie campionarie
x1 - x 2
dove:
s2 s2

n1 n2
x1 e x1 sono le due medie campionarie
se n1 ≠ n2:
s
2
p

n1 - 1s12  n2 - 1s22

n1  n2 - 2
è la stima combinata della varianza della popolazione
Test t di Student per dati appaiati
Il test t per dati appaiati può essere utilizzato per verificare l’ipotesi
che, mediamente, non ci sia alcuna variazione negli individui a cui è stato
somministrato il farmaco oggetto di studio.
H0 : mp  md Oppure H0 : md = 0
H1 : mp ≠ md Oppure H1 : md ≠ 0
L’indice t è, in questo caso, determinato dal rapporto:
d
t
esd
dove :
- d è la differenza media dovuta al trattamento
- e sd l' errorestandard della differenza media
• Il valore di t che ne risulta è confrontato col valore critico di t per
n-1 gradi di libertà.
• Le condizioni di applicabilità del test prevedono che le variazioni
associate al trattamento debbano essere distribuite in modo
approssimativamente normale.
Esempio Test t di Student per dati appaiati
La tabella mostra la pressione sistolica misurata ad 11 pazienti ipertesi dopo
la somministrazione di placebo e di idroclorotiazide.
In base ai risultati osservati, vi è una qualsiasi evidenza di una differenza
nella pressione media sistolica sanguigna a seguito di questi due trattamenti?
Paziente
Placebo
Idroclorot.
differenze
1
211
181
30
2
210
172
38
3
210
196
14
4
203
191
12
5
196
167
29
6
190
161
29
7
191
178
13
8
177
160
17
9
173
149
24
10
170
119
51
11
163
156
7
Esempio Test t di Student per dati appaiati
d

d
n
Sd 
i

264
 24,0
11
2


d
d
i
n -1

(30 - 24)2  38 - 24 2  ...  7 - 24 2
 13,09
10
d
d
24


 6,08
S
13
,
09
esd
d
n
11
  n - 1  10
t
In base al t-test di Student per dati appaiati possiamo notare un
abbassamento significativo della pressione sistolica in corrispondenza
della somministrazione di idroclorotiazide (p<0,001)
FINE DELLA LEZIONE