Appunti di inferenza per farmacisti
L’inferenza statistica
• è un insieme di metodi con cui si cerca di trarre
una conclusione sulla popolazione in base ad
informazioni ricavate da un campione
• indurre le proprietà di una popolazione sulla
base dei dati conosciuti relativi ad un campione
Verifica d’ipotesi e stima
• Raramente conosciamo le caratteristiche della
popolazione (media, dev.std.), di solito si rende
necessario stimarle
• L’inferenza statistica a partire dalle
caratteristiche dei campioni [statistiche
campionarie] che sono stati estratti dalla
popolazione mira:
– stimare le caratteristiche ignote della popolazione
– verificare un’ipotesi relativa alle caratteristiche della
popolazione ignote
Procedimento
• Estrazione di un campione
• Calcolo delle statistiche campionarie, cioè
dei valori corrispondenti ai dati contenuti
nel campione (es. media del campione)
• Stima dei parametri nella popolazione in
base ai risultati forniti dal campione
(inferire)
Popolazione e campione
Popolazione: insieme che raccoglie tutte le unità
statistiche
– può essere finita o infinita
– a volte definito come universo
Campione: raccolta finita di elementi di una
popolazione „
per evitare di ottenere campioni non
rappresentativi della popolazione si scelgono i
campioni mediante un procedimento casuale
(es.: vedi la tombola o il lotto)
Metodi di campionamento
Il Campionamento Casuale Semplice (CCS) è
caratterizzato dal fatto che tutte le unità statistiche della
popolazione hanno “uguale” probabilità di far parte del
campione.
„Se il campione non rispecchia le caratteristiche della
popolazione allora si incorre in un errore sistematico
(BIAS di selezione o campionamento).
Nel campionamento non casuale non tutte le unità hanno
pari probabilità di far parte del campione.
Non è corretto inferire su campioni non casuali.
Campione - Popolazione
• Qual è il processo che porta dalla
popolazione al campione ?
• ... e quello inverso ?
POPOLAZIONE
inferenza
campionamento
CAMPIONE
Cenni di probabilità
Una variabile si dice casuale se può assumere diversi valori. L’attributo
casuale rinvia al fatto che essa è generata da un esperimento (o
meccanismo, di cui non siamo in grado di prevedere l’esito.
Ognuno dei risultati di una variabile casuale è associato ad una
determinata probabilità.
La funzione che associa ad ogni valore della variabile una probabilità si
chiama “distribuzione di probabilità”.
L’area totale sottesa da una distribuzione di probabilità è uguale a 1
Si possono determinare le distribuzioni di probabilità di molte variabili
su base teorica chiamate “distribuzioni teoriche di probabilità”
Distribuzioni di probabilità
Ogni caratteristica che può essere misurata
o categorizzata rappresenta una variabile.
Se ad ogni valore che la variabile può
assumere viene associata una probabilità
intesa come la frequenza relativa del
verificarsi di ciascun risultato x il numero di
esperimenti ripetuti, allora parliamo di
distribuzione di probabilità
La distribuzione normale
• E’ la distribuzione di probabilità che meglio rappresenta
molte variabili di fenomeni biologici.
• „Ad esempio il peso, la pressione arteriosa, il livello di
glucosio nel sangue sono alcune delle variabili che
seguono una distribuzione normale.
• „Si applica bene alle statistiche campionarie
• „La formula della distribuzione normale è definita dai
parametri media (µ) e deviazione standard (σ).
• -dipende dai parametri µ (media) e σ (deviazione
standard);se
• La distribuzione normale con µ=0 e σ=1 è detta Normale
Standard
Utilizzo della distribuzione normale
Può essere utilizzata per stimare le probabilità associate a
variabili che si distribuiscono “normalmente”.
Ad esempio in una popolazione di pazienti trattati con
warfarin sodico dei valori di INR si distribuiscono
normalmente con media 2,2 e deviazione standard di
0,8
Qual è la probabilità che un individuo scelto a caso da
questa popolazione abbia un valore di INR < 1,5 o
maggiore di 4 ?
Per rispondere a questa domanda posso utilizzare delle
tavole statistiche oppure R...
pnorm(1.5, mean = 2.2, sd = 0.8,lower.tail=T)
Statistiche, stimatori e stime
•
•
•
•
Media campionaria:
Stimatore della media della popolazione
Utile per fornire stime puntuali e intervallari
della media della popolazione
Deviazione standard campionaria:
Stimatore della deviazione standard della
popolazione
Utile per fornire una stima della dev.std.pop.
Distribuzione campionaria delle
medie
La media della distribuzione di campionamento delle medie
tende alla media della popolazione
La variabilità della distribuzione delle medie campionarie è
inferiore alla variabilità nella popolazione.
Campioni più grandi daranno una distribuzione con
variabilità inferiore
La dev.std. della distribuzione delle medie campionarie è
nota come Errore Standard
Inferenza e parametro ignoto
Considerazioni sul parametro ignoto della popolazione a
partire dai dati campionari seguendo due percorsi:
• calcolare l’intervallo di confidenza, ovvero stimare un
intervallo di valori entro cui con un certo livello di
probabilità prefissato (generalmente il 95%) che contiene
il parametro µ
• eseguire un test di ipotesi con cui a determinate
affermazioni sui valori del parametro della
popolazione possono essere accettate o
rifiutate
Test di verifica d’ipotesi
•
•
•
•
Scenario: Media ignota, Dev.Std nota
Ipotesi nulla: la media della pop. è
Fisso la significatività del test (alfa)
Calcolo della media campionaria (x)
• Calcolo la statistica
• La confronto con Zcritico (tavole e alfa)
• Accetto o rifiuto l’ipotesi nulla
Calcolo dell’intervallo di confidenza
• Scenario: Media ignota, Dev.Std nota
• Fisso la significatività del test (alfa)
• Calcolo la stima intervallare della media con la
seguente formula:
• La prob. che la media della pop. sia all’interno
dell’intervallo ha prob. 1 - alfa
Scenario media e dev.std ignote
• Calcolo della media campionaria
• Calcoli della dev. Std. camp. Corretta
• Calcolo la statistica
• Confronto della statistica con il valore t
critico delle tavole o calcolato in base al
livello di significatività del test e dei gradi
di libertà (numerosità del campione -1)
• ... si continua come con lo z-test
Indipendenza in distribuzione
• Calcolo della tabella delle distribuzioni congiunte
delle due variabili
• Calcolo della tabella delle distribuzioni teoriche
in ipotesi di indipendenza stocastica
• Calcolo della statistica
• Confronto della statistica test con un chi-quadro
a (righe-1)X(colonne-1) gradi di liberta
• ... si continua in modo analogo ai precedenti
test.
Tipi di errori
Potenza del test t in R
Formula:
• power.t.test(n = NULL, delta = NULL, sd = 1,
sig.level = 0.05, power = NULL, type =
c("two.sample", "one.sample", "paired"),
alternative = c("two.sided", "one.sided"), strict =
FALSE)
Argomenti:
• n= numero di osservazioni (per gruppo)
• delta= vera difference di media
• sd= standard deviation
• sig.level= prob. di errori di I tipo
• power= potenza del test (1 – prob. errori di II tipo)
• type= tipo di test
• alternative= a una o due code
• strict= VERA nell’ipotesi a due code altrimenti divide a metà la signif.