LA LA DISTRIBUZIONE DISTRIBUZIONE DEGLI DEGLI ERRORI DI MISURA ERRORI DI MISURA La distribuzione normale DISTRIBUZIONE DEGLI ERRORI DI MISURA Si supponga di eseguire, in condizioni assai simili e con lo stesso metodo analitico, un gran numero di misurazioni della emoglobina glicata, e di riportare in un grafico le frequenze relative dei valori ottenuti (x) con le prime 20, 40, ... 5120 misure. n=20 0,15 n=40 0,15 0,12 0,12 0,09 0,09 0,09 0,06 0,06 0,06 0,03 0,03 0 0 75 80 85 90 95 100 105 n=160 0,15 0,03 0 75 80 85 90 95 100 105 n=320 0,15 75 0,12 0.12 0,09 0,09 0.09 0,03 0 0,15 80 85 90 95 100 105 80 85 90 95 100 75 105 n=1280 0.15 0,12 0,12 0,09 0,09 0.09 0,06 0,06 0.06 0,03 0,03 0 0 75 80 85 90 95 100 105 95 100 105 85 90 95 100 105 85 90 95 100 105 0 75 0,15 n=2560 90 0.03 0 75 85 0.06 0,06 0,03 80 n=640 0.15 0,12 0,06 n=80 0,15 0,12 80 n=5120 0.12 0.03 0 75 80 85 90 95 100 105 75 80 1 LA FORMA DELLA DISTRIBUZIONE DEGLI ERRORI DI MISURA All'aumentare del numero di misure, i valori tendono ad accentrarsi attorno alla loro media e l'istogramma assume una forma a campana sempre più regolare, che può essere approssimata con una funzione reale nota come funzione di Gauss o funzione normale. La curva di Gauss • La più importante distribuzione continua che trova numerose applicazioni nello studio dei fenomeni biologici. • Proposta da Gauss (1809) nell’ambito della teoria degli errori. • Detta anche curva degli errori accidentali La curva di Gauss f(x) 0,09 µ 0,06 ±1 deviazione standard 0,03 ± 2 deviazioni standard 0 75 80 85 90 95 100 105 x = concentrazione di glucosio (mg/dl) 2 La funzione di Gauss massimo f(x) 0.09 f (x ) = flesso flesso 1 2π σ 2 e − 12 ( x σ− µ ) 2 0.06 σ 0.03 µ 0 75 80 85 90 95 100 105 x = concentrazione di glucosio (mg/dl) dove: σ è la deviazione standard della totalità totalità delle misure; µ è la media della totalità totalità delle misure; e = base dei logaritmi naturali ( e = 2.71828...). π è il rapporto tra circonferenza e diametro π = 3.14159...); Le caratteristiche della distribuzione normale 1. è simmetrica rispetto al valore medio 2. il valore di x = µ oltre che alla media aritmetica coincide con la moda e la mediana 3. è asintotica all'asse delle x da entrambi i lati 4. è crescente per x<µ e decrescente per x>µ 5. possiede due punti di flesso per x = µ±σ 6. ll’area ’area sotto la curva è = 1 (essendo la probabilità probabilità che si verifichi un qualsiasi valore di x) σ = σ1 = σ2 Al variare della media aritmetica (a parità di dev.standard) la curva trasla sull’asse delle x Al variare della deviazione standard la curva modifica la sua forma 3 INTERVALLI NOTI DI PROBABILITÀ PROBABILITÀ Area sotto la curva negli intervalli µ = kσ per k = 1, 2, 3 68,26% 68,26% 95,44% 95,44% 99,74% 99,74% VERIFICA DELLE IPOTESI Nella verifica delle ipotesi è necessario fissare alcune fasi prima di iniziare ad analizzare i dati. a) Si deve stabilire quale deve essere l'ipotesi nulla (H0) e quale l'ipotesi alternativa (H1). b) Si deve scegliere il test statistico (una scelta sbagliata può dar luogo a conclusioni sbagliate). c) Si calcola la distribuzione campionaria del test con la quale si può conoscere la possibilità che si verifichi un certo risultato qualora si verifichino tutti i requisiti del test. Generalmente i valori critici del test sono tabulati (vedi Tavole della distribuzione normale e della distribuzione t di Student). d) Si fissa la zona di rifiuto dell'ipotesi H0 ed il livello di significatività (α). Più è piccola tale zona minore è il rischio che si corre nel respingere Ho. Alla zona di rifiuto è legato il valore di livello di significatività del test Quindi il livello a determina un'area in cui cadono i risultati poco probabili e difficilmente riscontrabili nelle realtà sempre che fosse vera H0. e) Fissato il livello di significatività ed il tipo di test k si calcola il punto critico kα del test in relazione al livello prescelto. Si decide di respingere Ho quando il valore del test empirico kα cade nella zona di rifiuto dell'ipotesi Ho 4 VERIFICA DI IPOTESI SU DUE CAMPIONI Le situazioni più ricorrenti non riguardano il confronto tra media campionaria e media della popolazione, bensì il confronto tra due medie campionarie. L’ipotesi nulla è data da: H0: µ1 = µ2 ovvero µ1 e µ2 sono: . estratte dalla stessa popolazione; . diverse, nelle medie campionarie, soltanto per differenze casuali; . identiche. Attraverso il test (z o t) si determina la probabilità P di ottenere differenze maggiori di quelle sperimentalmente osservate sui due campioni: . se P risulta grande, si “accetta” H0 . se P risulta piccola, si rifiuta H0, in quanto si ammette l’esistenza di una ragionevole evidenza per dubitare che H0 sia vera, dunque si ammette l’esistenza di una differenza reale tra le due medie µ1 e µ2. Nel caso di due campioni indipendenti si consideri il seguente esempio. ESEMPIO Ad un esame di statistica medica un campione di 30 studenti, che hanno frequentato le esercitazioni, riportano un voto medio di 27, un altro campione di 20 studenti, che non hanno frequentato le esercitazioni, riporta come voto medio 23; la varianze sono rispettivamente 9 e 8.5. Si verifichi l’ipotesi che la partecipazione alle lezioni non influisce sul voto. Indicando con µ1 e µ2 i valori medi incogniti di tutti gli studenti, l’ipotesi nulla è: H0: µ1 = µ2 cioe’ la frequenza non influisce sul voto. L’ipotesi alternativa è che la frequenza influisca positivamente sul voto, ossia H1: µ > µ0 Si consideri che la distribuzione dei voti sia normale. Il test da utilizzare è che ha distribuzione della t di Student con n1+n2 - 2 gradi di libertà. Poiché l’ipotesi alternativa prevede che il voto dei frequentanti sia maggiore di quello dei non frequentanti il test dovrà essere condotto sulla coda di destra: la regione critica sarà quella in cui t assume valori superiori a tα con α = 0.05. Cioè tα =1.684. 5 La stima della varianza sp (pooled) dei due campioni raggruppati è data da: Nel problema in esame si ottiene: e, quindi, si ha: valore superiore a 1.684 e che pertanto cade nella zona di rifiuto dell'ipotesi nulla. 6