curva di gauss e verifica ipotesi

LA
LA DISTRIBUZIONE
DISTRIBUZIONE DEGLI
DEGLI
ERRORI
DI
MISURA
ERRORI DI MISURA
La distribuzione normale
DISTRIBUZIONE DEGLI
ERRORI DI MISURA
Si supponga di eseguire, in condizioni assai simili
e con lo stesso metodo analitico, un gran
numero di misurazioni della emoglobina glicata,
e di riportare in un grafico le frequenze
relative dei valori ottenuti (x) con le prime 20,
40, ... 5120 misure.
n=20
0,15
n=40
0,15
0,12
0,12
0,09
0,09
0,09
0,06
0,06
0,06
0,03
0,03
0
0
75
80
85
90
95 100 105
n=160
0,15
0,03
0
75
80
85
90
95
100
105
n=320
0,15
75
0,12
0.12
0,09
0,09
0.09
0,03
0
0,15
80
85
90
95
100 105
80
85
90
95
100
75
105
n=1280
0.15
0,12
0,12
0,09
0,09
0.09
0,06
0,06
0.06
0,03
0,03
0
0
75
80
85
90
95
100 105
95
100 105
85
90
95
100
105
85
90
95
100
105
0
75
0,15
n=2560
90
0.03
0
75
85
0.06
0,06
0,03
80
n=640
0.15
0,12
0,06
n=80
0,15
0,12
80
n=5120
0.12
0.03
0
75
80
85
90
95 100 105
75
80
1
LA FORMA DELLA DISTRIBUZIONE DEGLI
ERRORI DI MISURA
All'aumentare del numero di misure, i valori
tendono ad accentrarsi attorno alla loro media e
l'istogramma assume una forma a campana
sempre più regolare, che può essere
approssimata con una funzione reale nota come
funzione di Gauss o funzione normale.
La curva di Gauss
• La più importante distribuzione continua che
trova numerose applicazioni nello studio dei
fenomeni biologici.
• Proposta da Gauss (1809) nell’ambito della
teoria degli errori.
• Detta anche curva degli errori accidentali
La curva di Gauss
f(x)
0,09
µ
0,06
±1 deviazione
standard
0,03
± 2 deviazioni standard
0
75
80
85
90
95
100
105
x = concentrazione di glucosio (mg/dl)
2
La funzione di Gauss
massimo
f(x)
0.09
f (x ) =
flesso
flesso
1
2π σ
2
e
− 12 ( x σ− µ )
2
0.06
σ
0.03
µ
0
75
80
85
90
95
100
105
x = concentrazione di glucosio (mg/dl)
dove:
σ è la deviazione standard della totalità
totalità delle misure;
µ è la media della totalità
totalità delle misure;
e = base dei logaritmi naturali ( e = 2.71828...).
π è il rapporto tra circonferenza e diametro π = 3.14159...);
Le caratteristiche della distribuzione normale
1. è simmetrica rispetto al valore medio
2. il valore di x = µ oltre che alla media aritmetica coincide con la moda e la
mediana
3. è asintotica all'asse delle x da entrambi i lati
4. è crescente per x<µ e decrescente per x>µ
5. possiede due punti di flesso per x = µ±σ
6. ll’area
’area sotto la curva è = 1 (essendo la probabilità
probabilità che si verifichi un
qualsiasi valore di x)
σ = σ1 = σ2
Al variare della media
aritmetica (a parità di
dev.standard) la
curva trasla sull’asse
delle x
Al variare della
deviazione standard
la curva modifica la
sua forma
3
INTERVALLI NOTI DI PROBABILITÀ
PROBABILITÀ
Area sotto la curva negli intervalli µ = kσ per k = 1, 2, 3
68,26%
68,26%
95,44%
95,44%
99,74%
99,74%
VERIFICA DELLE IPOTESI
Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare
ad analizzare i dati.
a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi
alternativa (H1).
b) Si deve scegliere il test statistico (una scelta sbagliata può dar luogo a
conclusioni sbagliate).
c) Si calcola la distribuzione campionaria del test con la quale si può
conoscere la possibilità che si verifichi un certo risultato qualora si
verifichino tutti i requisiti del test. Generalmente i valori critici del test
sono tabulati (vedi Tavole della distribuzione normale e della
distribuzione t di Student).
d) Si fissa la zona di rifiuto dell'ipotesi H0 ed il livello di significatività (α).
Più è piccola tale zona minore è il rischio che si corre nel respingere
Ho. Alla zona di rifiuto è legato il valore di livello di significatività del test
Quindi il livello a determina un'area in cui cadono i risultati poco
probabili e difficilmente riscontrabili nelle realtà sempre che fosse vera
H0.
e) Fissato il livello di significatività ed il tipo di test k si calcola il punto
critico kα del test in relazione al livello prescelto. Si decide di respingere
Ho quando il valore del test empirico kα cade nella zona di rifiuto
dell'ipotesi Ho
4
VERIFICA DI IPOTESI SU DUE CAMPIONI
Le situazioni più ricorrenti non riguardano il confronto tra media
campionaria e media della popolazione, bensì il confronto tra due medie
campionarie.
L’ipotesi nulla è data da:
H0: µ1 = µ2
ovvero µ1 e µ2 sono:
. estratte dalla stessa popolazione;
. diverse, nelle medie campionarie, soltanto per differenze casuali;
. identiche.
Attraverso il test (z o t) si determina la probabilità P di ottenere differenze
maggiori di quelle sperimentalmente osservate sui due campioni:
. se P risulta grande, si “accetta” H0
. se P risulta piccola, si rifiuta H0, in quanto si ammette l’esistenza di una
ragionevole evidenza per dubitare che H0 sia vera, dunque si ammette
l’esistenza di una differenza reale tra le due medie µ1 e µ2.
Nel caso di due campioni indipendenti si consideri il seguente esempio.
ESEMPIO
Ad un esame di statistica medica un campione di 30 studenti, che hanno
frequentato le esercitazioni, riportano un voto medio di 27, un altro
campione di 20 studenti, che non hanno frequentato le esercitazioni,
riporta come voto medio 23; la varianze sono rispettivamente 9 e 8.5. Si
verifichi l’ipotesi che la partecipazione alle lezioni non influisce sul voto.
Indicando con µ1 e µ2 i valori medi incogniti di tutti gli studenti, l’ipotesi
nulla è:
H0: µ1 = µ2
cioe’ la frequenza non influisce sul voto.
L’ipotesi alternativa è che la frequenza influisca positivamente sul voto,
ossia
H1: µ > µ0
Si consideri che la distribuzione dei voti sia normale. Il test da utilizzare è
che ha distribuzione della t di Student con n1+n2 - 2 gradi di libertà.
Poiché l’ipotesi alternativa prevede che il voto dei frequentanti sia
maggiore di quello dei non frequentanti il test dovrà essere condotto sulla
coda di destra: la regione critica sarà quella in cui t assume valori
superiori a tα con α = 0.05. Cioè tα =1.684.
5
La stima della varianza sp (pooled) dei due campioni raggruppati è data
da:
Nel problema in esame si ottiene:
e, quindi, si ha:
valore superiore a 1.684 e che pertanto cade nella zona di rifiuto
dell'ipotesi nulla.
6