Appunti di inferenza per farmacisti L’inferenza statistica • è un insieme di metodi con cui si cerca di trarre una conclusione sulla popolazione in base ad informazioni ricavate da un campione • indurre le proprietà di una popolazione sulla base dei dati conosciuti relativi ad un campione Verifica d’ipotesi e stima • Raramente conosciamo le caratteristiche della popolazione (media, dev.std.), di solito si rende necessario stimarle • L’inferenza statistica a partire dalle caratteristiche dei campioni [statistiche campionarie] che sono stati estratti dalla popolazione mira: – stimare le caratteristiche ignote della popolazione – verificare un’ipotesi relativa alle caratteristiche della popolazione ignote Procedimento • Estrazione di un campione • Calcolo delle statistiche campionarie, cioè dei valori corrispondenti ai dati contenuti nel campione (es. media del campione) • Stima dei parametri nella popolazione in base ai risultati forniti dal campione (inferire) Popolazione e campione Popolazione: insieme che raccoglie tutte le unità statistiche – può essere finita o infinita – a volte definito come universo Campione: raccolta finita di elementi di una popolazione „ per evitare di ottenere campioni non rappresentativi della popolazione si scelgono i campioni mediante un procedimento casuale (es.: vedi la tombola o il lotto) Metodi di campionamento Il Campionamento Casuale Semplice (CCS) è caratterizzato dal fatto che tutte le unità statistiche della popolazione hanno “uguale” probabilità di far parte del campione. „Se il campione non rispecchia le caratteristiche della popolazione allora si incorre in un errore sistematico (BIAS di selezione o campionamento). Nel campionamento non casuale non tutte le unità hanno pari probabilità di far parte del campione. Non è corretto inferire su campioni non casuali. Campione - Popolazione • Qual è il processo che porta dalla popolazione al campione ? • ... e quello inverso ? POPOLAZIONE inferenza campionamento CAMPIONE Cenni di probabilità Una variabile si dice casuale se può assumere diversi valori. L’attributo casuale rinvia al fatto che essa è generata da un esperimento (o meccanismo, di cui non siamo in grado di prevedere l’esito. Ognuno dei risultati di una variabile casuale è associato ad una determinata probabilità. La funzione che associa ad ogni valore della variabile una probabilità si chiama “distribuzione di probabilità”. L’area totale sottesa da una distribuzione di probabilità è uguale a 1 Si possono determinare le distribuzioni di probabilità di molte variabili su base teorica chiamate “distribuzioni teoriche di probabilità” Distribuzioni di probabilità Ogni caratteristica che può essere misurata o categorizzata rappresenta una variabile. Se ad ogni valore che la variabile può assumere viene associata una probabilità intesa come la frequenza relativa del verificarsi di ciascun risultato x il numero di esperimenti ripetuti, allora parliamo di distribuzione di probabilità La distribuzione normale • E’ la distribuzione di probabilità che meglio rappresenta molte variabili di fenomeni biologici. • „Ad esempio il peso, la pressione arteriosa, il livello di glucosio nel sangue sono alcune delle variabili che seguono una distribuzione normale. • „Si applica bene alle statistiche campionarie • „La formula della distribuzione normale è definita dai parametri media (µ) e deviazione standard (σ). • -dipende dai parametri µ (media) e σ (deviazione standard);se • La distribuzione normale con µ=0 e σ=1 è detta Normale Standard Utilizzo della distribuzione normale Può essere utilizzata per stimare le probabilità associate a variabili che si distribuiscono “normalmente”. Ad esempio in una popolazione di pazienti trattati con warfarin sodico dei valori di INR si distribuiscono normalmente con media 2,2 e deviazione standard di 0,8 Qual è la probabilità che un individuo scelto a caso da questa popolazione abbia un valore di INR < 1,5 o maggiore di 4 ? Per rispondere a questa domanda posso utilizzare delle tavole statistiche oppure R... pnorm(1.5, mean = 2.2, sd = 0.8,lower.tail=T) Statistiche, stimatori e stime • • • • Media campionaria: Stimatore della media della popolazione Utile per fornire stime puntuali e intervallari della media della popolazione Deviazione standard campionaria: Stimatore della deviazione standard della popolazione Utile per fornire una stima della dev.std.pop. Distribuzione campionaria delle medie La media della distribuzione di campionamento delle medie tende alla media della popolazione La variabilità della distribuzione delle medie campionarie è inferiore alla variabilità nella popolazione. Campioni più grandi daranno una distribuzione con variabilità inferiore La dev.std. della distribuzione delle medie campionarie è nota come Errore Standard Inferenza e parametro ignoto Considerazioni sul parametro ignoto della popolazione a partire dai dati campionari seguendo due percorsi: • calcolare l’intervallo di confidenza, ovvero stimare un intervallo di valori entro cui con un certo livello di probabilità prefissato (generalmente il 95%) che contiene il parametro µ • eseguire un test di ipotesi con cui a determinate affermazioni sui valori del parametro della popolazione possono essere accettate o rifiutate Test di verifica d’ipotesi • • • • Scenario: Media ignota, Dev.Std nota Ipotesi nulla: la media della pop. è Fisso la significatività del test (alfa) Calcolo della media campionaria (x) • Calcolo la statistica • La confronto con Zcritico (tavole e alfa) • Accetto o rifiuto l’ipotesi nulla Calcolo dell’intervallo di confidenza • Scenario: Media ignota, Dev.Std nota • Fisso la significatività del test (alfa) • Calcolo la stima intervallare della media con la seguente formula: • La prob. che la media della pop. sia all’interno dell’intervallo ha prob. 1 - alfa Scenario media e dev.std ignote • Calcolo della media campionaria • Calcoli della dev. Std. camp. Corretta • Calcolo la statistica • Confronto della statistica con il valore t critico delle tavole o calcolato in base al livello di significatività del test e dei gradi di libertà (numerosità del campione -1) • ... si continua come con lo z-test Indipendenza in distribuzione • Calcolo della tabella delle distribuzioni congiunte delle due variabili • Calcolo della tabella delle distribuzioni teoriche in ipotesi di indipendenza stocastica • Calcolo della statistica • Confronto della statistica test con un chi-quadro a (righe-1)X(colonne-1) gradi di liberta • ... si continua in modo analogo ai precedenti test. Tipi di errori Potenza del test t in R Formula: • power.t.test(n = NULL, delta = NULL, sd = 1, sig.level = 0.05, power = NULL, type = c("two.sample", "one.sample", "paired"), alternative = c("two.sided", "one.sided"), strict = FALSE) Argomenti: • n= numero di osservazioni (per gruppo) • delta= vera difference di media • sd= standard deviation • sig.level= prob. di errori di I tipo • power= potenza del test (1 – prob. errori di II tipo) • type= tipo di test • alternative= a una o due code • strict= VERA nell’ipotesi a due code altrimenti divide a metà la signif.