SMID
a.a. 2004/2005
Corso di
Metodi Statistici in Biomedicina
Parametri statistici
24/1/2005
Deviazione standard della media
La variabilità di una distribuzione può quindi essere
espressa da un indice di tendenza centrale (valor
medio delle medie mm) e da un indice di dispersione
(deviazione standard di una media sm = s / √n)
Questa affermazione è valida (non come errore sui
singoli dati di misura ma sulla loro media) grazie al
Teorema del Limite Centrale
Il valor medio delle distribuzioni di più campioni di
una popolazione comunque distribuita
segue una distribuzione normale con media m = mm e
dispersione più concentrata con andamento 1/√n
Stima e inferenza
I campioni statistici sono utilizzati per fare stime
numeriche sui parametri della popolazione di cui il
campione è considerato rappresentativo
o per testare ipotesi sulla popolazione stessa
Qual è l'età media di una certa popolazione? (stima)
Un farmaco riduce la pressione arteriosa? (inferenza)
La media (come la varianza e la deviazione
standard) è una stima puntiforme della popolazione
perché riassume in singolo punto o numero la
stima del relativo parametro della popolazione
Distribuzioni statistiche
La probabilità di osservare un particolare valore o
dato di una distribuzione continua
è esattamente uguale a quella di osservare un
qualsiasi altro valore della stessa distribuzione
Poiché le popolazioni sono collezioni virtualmente
infinite di valori, la probabilità di osservare un
particolare valore tende a essere uguale allo zero
e la probabilità che la media del nostro campione
coincida con quella della popolazione è vicina a 0!
il che sembra paradossale
(e può incrinare la nostra fiducia nella statistica)
Intervallo di confidenza
Possiamo stimare la media della popolazione non
con un singolo valore (la media del campione) ma
con un ambito di valori
se, ad esempio, la media del campione è 10,
la media della popolazione da cui il campione è stato
estratto si può collocare nell'intervallo tra 7 e 13
quest'intervallo è definito intervallo di confidenza (IC)
Il più largamente usato è quello che ha il 95% di
possibilità di includere la media della popolazione
Ovviamente possono essere usati altri intervalli
per esempio al 90% o al 99%
Calcolo IC
Per calcolare l'intervallo di confidenza dobbiamo
creare una distribuzione normale standardizzata
delle medie dei campioni della popolazione
z = (m - µ) / σ
z rappresenta la deviazione standardizzata di una
particolare media m rispetto alla media delle medie µ
(che coincide con la media della popolazione) e dove
σ è l'errore standard
Il calcolo della deviazione normale standardizzata
trasforma i dati della popolazione
L’impiego di z ci permette di calcolare l’IC della media
Utilizzo tabelle
µ ± 1.96 σ include il
95% dei dati della
distribuzione
σ=1
2.5%
2.5%
α1/2
µ=0
(entro 2 σ
stanno 95.6
% dei dati)
α1/2
Al di fuori di quest'area rimane solo il 5% dei dati, il
2.5% nella coda di destra e il 2.5% a sinistra
la probabilità di osservare valori al di fuori
dell'intervallo al 95% (probabilità α = 2 α1/2)
Test a una coda
Nella stessa tabella di z possiamo trovare tutti i
valori di che c'interessano
se vogliamo trovare l'area al di fuori dell'intervallo al
90% dobbiamo cercare un valore di = 0.05 (5%)
che corrisponde a una deviazione
media standardizzata z = 1.645
Possibilità di calcolare l'intervallo di confidenza per
una coda della distribuzione invece che per entrambe
se una certa media si colloca nel versante sinistro
(valori inferiori alla media della popolazione)
o nel versante destro (per valori superiori)
IC al 95%
L'intervallo di confidenza per µ può essere calcolato
ritrasformando i dati espressi tramite
m ± (zα/2 ⋅ σ)
Vogliamo trovare l'intervallo di confidenza al 95%
(due code) di una media corrispondente al valore di
128 mg, con un errore standard della media di 7 mg
Ricavare il valore di z che corrisponde a un valore di
0.025 (cioè 2.5%)
ovvero z = 1.96
m + (zα/2 ⋅ σ) ≥ µ ≥ m – (zα/2 ⋅ σ)
128 + 1.96 ⋅ 7 ≥ µ ≥ 128 – 1.96 ⋅ 7
114.3 mg ≥ µ ≥ 141.7 mg
Relazione tra dati
Come esiste una connessione tra altezza e peso
esistono connessioni che interessano campi differenti:
tecnico, scientifico, economico, demografico…..
Correlazione tra due variabili aleatorie x ed y
interscambiabili tra loro (non esiste un problema di
antecedenza e conseguenza)
Regressione: ricerca della relazione funzionale tra
una variabile dipendente y rispetto alla variabile
indipendente x
Regressione multipla: ricerca di una relazione
funzionale tra y rispetto a più variabili x1, x2, …., xN
Test d’ipotesi
Nella ricerca scientifica si producono ipotesi che
devono essere sottoposte alla verifica sperimentale
Scopo della statistica inferenziale è quello di
valutare le ipotesi
Un ricercatore può essere interessato a stabilire se
un certo farmaco riduce o no la pressione arteriosa
Ipotesi: il farmaco ha un'azione ipotensiva
Esperimento articolato su due periodi:
somministrazione al paziente del farmaco
somministrazione al paziente di un placebo (controllo)
Risultato esperimento
Ordine della somministrazione è casuale (random)
ottenuti i risultati dell'esperimento (ossia i dati), il
ricercatore deve stabilire se il farmaco è efficace o no
confronto delle variazioni pressorie riscontrate col
placebo rispetto alle variazioni indotte dal farmaco
Per dimostrare che il farmaco è efficace
si deve provare che la cosiddetta ipotesi nulla è falsa
Ipotesi nulla (H0): la variazione pressoria è uguale a
zero sia con il placebo sia con il farmaco
ossia placebo e farmaco fanno parte di un'unica
distribuzione di valori che ha media = 0
Ipotesi alternativa
Ipotesi H1 alternativa all'ipotesi nulla è che il farmaco
sia efficace e che pertanto esso abbassi la pressione
la variazione pressoria quando si somministra il
farmaco è diversa da zero
e si colloca al di fuori dei limiti di confidenza della
media delle variazioni pressorie riscontrate nella
popolazione in assenza di terapia farmacologica
Dobbiamo definire il grado di certezza? 95%!
Prova della efficacia del farmaco se la media delle
variazioni pressorie durante la terapia sottende il
2.5% sinistro della coda della distribuzione normale
Una o due code?
Possibilità che la media si collochi nel 2.5% dei valori
estremi del versante destro
non possiamo escludere pregiudizialmente che il
farmaco possa anche far aumentare la pressione!
nuovo composto testato solo in pochi esperimenti che
può rivelarsi dannoso in esperimenti più approfonditi
Accettiamo la probabilità a (= 0.05 o 5%) di rigettare
l'ipotesi nulla (farmaco inefficace) quando essa è vera
Questo tipo di errore si chiama errore di tipo I o
errore α
p(errore di tipo I) = α = p (rigettare H0 | H0 vera)
Errore di tipo II
L'errore opposto è l’errore di tipo II o errore β
p(errore di tipo II) = β = p (accettare H0 | H0 falsa)
errore che si commette affermando che il farmaco è
inefficace (non abbassa pressione) quando invece lo è
Se troviamo che la media delle differenze pressorie
riscontrate durante l'uso del farmaco si colloca nei
limiti di confidenza al 95% della popolazione
corriamo il rischio del 5% di affermare che
il farmaco non abbassa la pressione quando
in realtà la abbassa
Potere dello studio
Si chiama potere dello studio il grado di certezza che
si ha per affermare che un trattamento sia inefficace
quando esso è realmente inefficace
il potere dello studio dipende dalla numerosità
delle osservazioni e anche dalla variabilità dei dati
la precisione della stima della media della popolazione
a partire da un campione aumenta con la numerosità
del campione ed è tanto più precisa quanto più bassa
è la variabilità dei dati del campione
Dati dispersi e rari: stima incerta, dati numerosi e
posti in un range stretto danno una stima affidabile
Statistica inferenziale
Esiste una connessione tra altezza e peso
Esistono connessioni che interessano differenti campi
tecnico, scientifico, economico, demografico…..
Correlazione tra due variabili aleatorie x ed y
interscambiabili tra loro (non esiste un problema di
antecedenza e conseguenza)
Regressione: ricerca della relazione funzionale tra
una variabile dipendente y rispetto alla variabile
indipendente x
Regressione multipla: ricerca relazione funzionale
tra variabile dipendente y e più variabili x1, x2, …, xN
Correlazione
Altezza (cm)
Altezza verso peso
(su un campione di 169 studenti)
195
185
175
165
155
145
35
45
55
65
75
85
95
Peso (kg)
Non esiste una relazione funzionale univoca ….. ma
ad un aumento del peso corrisponde un aumento
dell’altezza!
Correlazione positiva o diretta
Correlazione negativa
Tempo in minuti
Voti di un test verso il tempo impiegato
80
70
60
50
40
30
18 19 20 21 22 23 24 25 26 27 28 29 30
Voto in trentesimi
Non esiste una relazione funzionale univoca ….. ma si
nota che vi è una tendenza a rispondere correttamente
in meno tempo Correlazione negativa od indiretta
Correlazione nulla
Voti di ginnastica
Voti fisica ve rso ginnastica
30
28
26
24
22
20
18
18
20
22
24
26
Voti di fisica
28
30
In questo caso,
quando la
variabile x
aumenta, la
variabile y può
sia aumentare
che diminuire
Assenza di correlazione
Relazione funzionale
Peso (g)
Filo di rame
2,00
1,50
1,00
0,50
0,00
0
5
10
15
20
Lunghezza (cm)
Esiste una funzione lineare y = ax + b
In questo caso le deviazioni dall’andamento lineare
sono da imputare agli errori di misura Correlazione
Limite centrale
Il teorema del limite centrale afferma che
la somma di un numero N di variabili casuali
indipendenti, non importa come distribuite
è sempre distribuita in modo normale
con valore medio µ, varianza σ2 finita (N >>1)
Convergenza alla distribuzione gaussiana è rapida!
Come si può controllare mediante una
generatore gaussiano di numeri a caso
Lancio di un dado
R1 distribuzione di un
numero a caso tra 0 e 1
dado “onesto” (p = 1/6)
R2 distribuzione triangolare
somma delle facce di due dadi:
2 ≤ p ≤ 12, pmax = 7
Per N che aumenta …
R3: due flessi in ±1 e ±2
forma a campana
R12: buona approssimazione
della gaussiana
Gaussiana
Per ottenere una gaussiana normalizzata
con media µ = 0 e varianza σ2 = 1 occorre
che proprio nel caso di
N = 12 da varianza 1
t = RN - 6
Compito per venerdì 28 gennaio
Fare un programma
per realizzare una gaussiana normalizzata
con media µ = 0 e varianza σ2 = 1
in modo da ottenere una tabella di
valori di t come ricavabile da qualsiasi
libro di statistica