SMID a.a. 2004/2005 Corso di Metodi Statistici in Biomedicina Parametri statistici 24/1/2005 Deviazione standard della media La variabilità di una distribuzione può quindi essere espressa da un indice di tendenza centrale (valor medio delle medie mm) e da un indice di dispersione (deviazione standard di una media sm = s / √n) Questa affermazione è valida (non come errore sui singoli dati di misura ma sulla loro media) grazie al Teorema del Limite Centrale Il valor medio delle distribuzioni di più campioni di una popolazione comunque distribuita segue una distribuzione normale con media m = mm e dispersione più concentrata con andamento 1/√n Stima e inferenza I campioni statistici sono utilizzati per fare stime numeriche sui parametri della popolazione di cui il campione è considerato rappresentativo o per testare ipotesi sulla popolazione stessa Qual è l'età media di una certa popolazione? (stima) Un farmaco riduce la pressione arteriosa? (inferenza) La media (come la varianza e la deviazione standard) è una stima puntiforme della popolazione perché riassume in singolo punto o numero la stima del relativo parametro della popolazione Distribuzioni statistiche La probabilità di osservare un particolare valore o dato di una distribuzione continua è esattamente uguale a quella di osservare un qualsiasi altro valore della stessa distribuzione Poiché le popolazioni sono collezioni virtualmente infinite di valori, la probabilità di osservare un particolare valore tende a essere uguale allo zero e la probabilità che la media del nostro campione coincida con quella della popolazione è vicina a 0! il che sembra paradossale (e può incrinare la nostra fiducia nella statistica) Intervallo di confidenza Possiamo stimare la media della popolazione non con un singolo valore (la media del campione) ma con un ambito di valori se, ad esempio, la media del campione è 10, la media della popolazione da cui il campione è stato estratto si può collocare nell'intervallo tra 7 e 13 quest'intervallo è definito intervallo di confidenza (IC) Il più largamente usato è quello che ha il 95% di possibilità di includere la media della popolazione Ovviamente possono essere usati altri intervalli per esempio al 90% o al 99% Calcolo IC Per calcolare l'intervallo di confidenza dobbiamo creare una distribuzione normale standardizzata delle medie dei campioni della popolazione z = (m - µ) / σ z rappresenta la deviazione standardizzata di una particolare media m rispetto alla media delle medie µ (che coincide con la media della popolazione) e dove σ è l'errore standard Il calcolo della deviazione normale standardizzata trasforma i dati della popolazione L’impiego di z ci permette di calcolare l’IC della media Utilizzo tabelle µ ± 1.96 σ include il 95% dei dati della distribuzione σ=1 2.5% 2.5% α1/2 µ=0 (entro 2 σ stanno 95.6 % dei dati) α1/2 Al di fuori di quest'area rimane solo il 5% dei dati, il 2.5% nella coda di destra e il 2.5% a sinistra la probabilità di osservare valori al di fuori dell'intervallo al 95% (probabilità α = 2 α1/2) Test a una coda Nella stessa tabella di z possiamo trovare tutti i valori di che c'interessano se vogliamo trovare l'area al di fuori dell'intervallo al 90% dobbiamo cercare un valore di = 0.05 (5%) che corrisponde a una deviazione media standardizzata z = 1.645 Possibilità di calcolare l'intervallo di confidenza per una coda della distribuzione invece che per entrambe se una certa media si colloca nel versante sinistro (valori inferiori alla media della popolazione) o nel versante destro (per valori superiori) IC al 95% L'intervallo di confidenza per µ può essere calcolato ritrasformando i dati espressi tramite m ± (zα/2 ⋅ σ) Vogliamo trovare l'intervallo di confidenza al 95% (due code) di una media corrispondente al valore di 128 mg, con un errore standard della media di 7 mg Ricavare il valore di z che corrisponde a un valore di 0.025 (cioè 2.5%) ovvero z = 1.96 m + (zα/2 ⋅ σ) ≥ µ ≥ m – (zα/2 ⋅ σ) 128 + 1.96 ⋅ 7 ≥ µ ≥ 128 – 1.96 ⋅ 7 114.3 mg ≥ µ ≥ 141.7 mg Relazione tra dati Come esiste una connessione tra altezza e peso esistono connessioni che interessano campi differenti: tecnico, scientifico, economico, demografico….. Correlazione tra due variabili aleatorie x ed y interscambiabili tra loro (non esiste un problema di antecedenza e conseguenza) Regressione: ricerca della relazione funzionale tra una variabile dipendente y rispetto alla variabile indipendente x Regressione multipla: ricerca di una relazione funzionale tra y rispetto a più variabili x1, x2, …., xN Test d’ipotesi Nella ricerca scientifica si producono ipotesi che devono essere sottoposte alla verifica sperimentale Scopo della statistica inferenziale è quello di valutare le ipotesi Un ricercatore può essere interessato a stabilire se un certo farmaco riduce o no la pressione arteriosa Ipotesi: il farmaco ha un'azione ipotensiva Esperimento articolato su due periodi: somministrazione al paziente del farmaco somministrazione al paziente di un placebo (controllo) Risultato esperimento Ordine della somministrazione è casuale (random) ottenuti i risultati dell'esperimento (ossia i dati), il ricercatore deve stabilire se il farmaco è efficace o no confronto delle variazioni pressorie riscontrate col placebo rispetto alle variazioni indotte dal farmaco Per dimostrare che il farmaco è efficace si deve provare che la cosiddetta ipotesi nulla è falsa Ipotesi nulla (H0): la variazione pressoria è uguale a zero sia con il placebo sia con il farmaco ossia placebo e farmaco fanno parte di un'unica distribuzione di valori che ha media = 0 Ipotesi alternativa Ipotesi H1 alternativa all'ipotesi nulla è che il farmaco sia efficace e che pertanto esso abbassi la pressione la variazione pressoria quando si somministra il farmaco è diversa da zero e si colloca al di fuori dei limiti di confidenza della media delle variazioni pressorie riscontrate nella popolazione in assenza di terapia farmacologica Dobbiamo definire il grado di certezza? 95%! Prova della efficacia del farmaco se la media delle variazioni pressorie durante la terapia sottende il 2.5% sinistro della coda della distribuzione normale Una o due code? Possibilità che la media si collochi nel 2.5% dei valori estremi del versante destro non possiamo escludere pregiudizialmente che il farmaco possa anche far aumentare la pressione! nuovo composto testato solo in pochi esperimenti che può rivelarsi dannoso in esperimenti più approfonditi Accettiamo la probabilità a (= 0.05 o 5%) di rigettare l'ipotesi nulla (farmaco inefficace) quando essa è vera Questo tipo di errore si chiama errore di tipo I o errore α p(errore di tipo I) = α = p (rigettare H0 | H0 vera) Errore di tipo II L'errore opposto è l’errore di tipo II o errore β p(errore di tipo II) = β = p (accettare H0 | H0 falsa) errore che si commette affermando che il farmaco è inefficace (non abbassa pressione) quando invece lo è Se troviamo che la media delle differenze pressorie riscontrate durante l'uso del farmaco si colloca nei limiti di confidenza al 95% della popolazione corriamo il rischio del 5% di affermare che il farmaco non abbassa la pressione quando in realtà la abbassa Potere dello studio Si chiama potere dello studio il grado di certezza che si ha per affermare che un trattamento sia inefficace quando esso è realmente inefficace il potere dello studio dipende dalla numerosità delle osservazioni e anche dalla variabilità dei dati la precisione della stima della media della popolazione a partire da un campione aumenta con la numerosità del campione ed è tanto più precisa quanto più bassa è la variabilità dei dati del campione Dati dispersi e rari: stima incerta, dati numerosi e posti in un range stretto danno una stima affidabile Statistica inferenziale Esiste una connessione tra altezza e peso Esistono connessioni che interessano differenti campi tecnico, scientifico, economico, demografico….. Correlazione tra due variabili aleatorie x ed y interscambiabili tra loro (non esiste un problema di antecedenza e conseguenza) Regressione: ricerca della relazione funzionale tra una variabile dipendente y rispetto alla variabile indipendente x Regressione multipla: ricerca relazione funzionale tra variabile dipendente y e più variabili x1, x2, …, xN Correlazione Altezza (cm) Altezza verso peso (su un campione di 169 studenti) 195 185 175 165 155 145 35 45 55 65 75 85 95 Peso (kg) Non esiste una relazione funzionale univoca ….. ma ad un aumento del peso corrisponde un aumento dell’altezza! Correlazione positiva o diretta Correlazione negativa Tempo in minuti Voti di un test verso il tempo impiegato 80 70 60 50 40 30 18 19 20 21 22 23 24 25 26 27 28 29 30 Voto in trentesimi Non esiste una relazione funzionale univoca ….. ma si nota che vi è una tendenza a rispondere correttamente in meno tempo Correlazione negativa od indiretta Correlazione nulla Voti di ginnastica Voti fisica ve rso ginnastica 30 28 26 24 22 20 18 18 20 22 24 26 Voti di fisica 28 30 In questo caso, quando la variabile x aumenta, la variabile y può sia aumentare che diminuire Assenza di correlazione Relazione funzionale Peso (g) Filo di rame 2,00 1,50 1,00 0,50 0,00 0 5 10 15 20 Lunghezza (cm) Esiste una funzione lineare y = ax + b In questo caso le deviazioni dall’andamento lineare sono da imputare agli errori di misura Correlazione Limite centrale Il teorema del limite centrale afferma che la somma di un numero N di variabili casuali indipendenti, non importa come distribuite è sempre distribuita in modo normale con valore medio µ, varianza σ2 finita (N >>1) Convergenza alla distribuzione gaussiana è rapida! Come si può controllare mediante una generatore gaussiano di numeri a caso Lancio di un dado R1 distribuzione di un numero a caso tra 0 e 1 dado “onesto” (p = 1/6) R2 distribuzione triangolare somma delle facce di due dadi: 2 ≤ p ≤ 12, pmax = 7 Per N che aumenta … R3: due flessi in ±1 e ±2 forma a campana R12: buona approssimazione della gaussiana Gaussiana Per ottenere una gaussiana normalizzata con media µ = 0 e varianza σ2 = 1 occorre che proprio nel caso di N = 12 da varianza 1 t = RN - 6 Compito per venerdì 28 gennaio Fare un programma per realizzare una gaussiana normalizzata con media µ = 0 e varianza σ2 = 1 in modo da ottenere una tabella di valori di t come ricavabile da qualsiasi libro di statistica