Vitale - IZSTo

Challenge test: metodologia e strumenti pratici per
una corretta valutazione
Principi statistici e disegno dell’esperimento
Vitale Nicoletta
[email protected]
S.C. Epidemiologia e Osservatorio Epidemiologico
Istituto Zooprofilattico Sperimentale del Piemonte, Liguria e Valle d’Aosta
Challenge test: metodologia e strumenti pratici per
una corretta valutazione
Principi statistici e disegno dell’esperimento
Di cosa parleremo:
•statistica:
– indici di tendenza centrale e dispersione,
– grafici, curve di crescita, trasformazioni logaritmiche
•Disegno dell’esperimento:
•variabilità sperimentale e fattori,
– Piano di campionamento e randomizzazione,
– Dimensione campionaria e replicazione
Indici di tendenza centrale
La tendenza centrale o posizione di un insieme di dati indica dove,
numericamente, i dati sono posizionati o concentrati
MEDIA : (aritmetica, geometrica, armonica, mobile, troncata)
valore ‘tipico’ della distribuzione; la media un indice rappresentativo
MEDIANA: modalità che divide in due parti uguali la
distribuzione delle frequenze. la mediana è un indice di
posizione
MODA: modalità associata alla frequenza più elevata
cioè la manifestazione più ricorrente del fenomeno.
Moda
E’ l’osservazione che si verifica con maggior frequenza
La moda è il valore con la frequenza più alta nei dati
Si può calcolare quasi per tutti i tipi di dati.
La moda acquista validità solo se vi è una netta prevalenza di una
modalità/intensità.
Esempio
2, 3, 4, 2, 2,1,5,6,2,3. Il valore più frequente in questa distribuzione rappresenta
la moda (2).
Media aritmetica
media =
1
N
Σ xi
La Media aritmetica sintetizza la
distribuzione di dati con un solo valore.
La Media aritmetica dipende da tutti i valori
osservati e quindi risente dei valori estremi.
La media aritmetica è il baricentro della
distribuzione
Proprietà:
ridividendo in parti uguali la somma delle osservazioni, tutte le unità ne
riceverebbero una parte uguale alla media
Σ (xi_- m)=0
gli scarti sono negativi e positivi e la loro somma è
uguale a 0
Σ (xi_- m)2 =min proprietà dei minimi quadrati
E’ influenzata dai valori estremi
Mediana
E’ l’osservazione tale per cui metà delle osservazioni
è minore di essa e metà è maggiore
Si calcola ordinando le osservazioni in ordine crescente
Se il numero delle osservazioni è dispari sarà l’osservazione
corrispondente a (N+1)/2
Se il numero delle osservazioni è pari sarà la media dei
valori corrispondenti alle osservazioni N/2 e (N/2)+1
La Mediana è il valore dell’osservazione centrale d’una distribuzione ordinata di dati
Il calcolo della mediana è possibile solo per caratteri quantitativi.
La mediana non è sensibile alla presenza di valori anomali.
Calcolo della Mediana
1) Ordinare i dati in senso crescente, attribuendo una posizione
2) Individuare il valore che occupa la posizione centrale in graduatoria
3) Esempio 20, 2, 8, 15,10.
Ordino: 2 8 10 15 20. Il valore che rappresenta la mediana è 10 perché ha
esattamente due numeri prima e due dopo. Così si calcola la mediana quando
c'è un numero dispari di valori nella serie.
se n è pari si hanno due unità centrali con posizione n/2 e n/2 +1. Se il carattere
è quantitativo, possiamo considerare come mediana la media aritmetica dei
valori delle due unità centrali.
Ad esempio, facciamo finta che la nostra serie sia 5, 8, 15 e 17. La mediana è
rappresentata dal valore che si trova tra 8 e 15. Calcoliamo la media tra 8 e 15 e
otteniamo 11,5. Questo valore rappresenta la mediana.
Percentili
• Definiamo percentili quei valori che dividono la distribuzione in cento
parti di uguale numerosità. Il p-esimo percentile di un insieme di dati
è il valore per cui una percentuale pari a p delle osservazioni è
inferiore o uguale a esso.
• I percentili di uso più frequente sono il 25-esimo e il 75-esimo
percentile, detti anche primo (Q1) e terzo quartile (Q3) che insieme
alla mediana dividono la distribuzione in quattro parti uguali (la
mediana corrisponde al secondo quartile, Q2).
Q1
M
Q3
1°
2°
3°
4°
5°
6°
7°
8°
9°
23
27
30
34
37
41
44
48
51
10°
11°
12°
13°
14°
15°
55
58
62
65
69
72
Indici di dispersione
Purtroppo i soli indici di posizione non sono sufficienti
per sintetizzare una distribuzione, poiché riassumono
solamente i dati in un unico valore puntuale, senza dire
quanto le osservazioni “si assomigliano”.
Pertanto si ricorre a degli indici di variabilità
Range (o intervallo minimo-massimo)
Intervallo interquartile
Scarto quadratico medio (sqm) o deviazione
standard (std)
Come misuro la variabilità in statistica?
• Le quattro misure di variabilità più comuni sono: il
range, la varianza, la deviazione standard e il
coefficiente di variazione ([s/m]*100).
• Quella più usata: deviazione standard che è la radice
quadrata della varianza.
• La deviazione standard misura quanta variabilità c’è
negli individui rispetto ad una variabile nella
popolazione
• Da non confondere con lo standar error
Devianza, varianza e deviazione standard
1) Poiché la somma delle distanza delle medie è 0, si elevano al
quadrato tutte le differenze (devianza).
Devianza=Σ ( xi – µ)2
2) La devianza cresce col numero delle osservazioni, quindi si divide
per N (varianza)
2
Varianza=Σ ( xi – µ)
N
3) Poiché a questo punto la varianza è espressa nel quandrato
delle unità di misura è necessario fare la radice (deviazione
standard o scarto quadratico medio)
______________
Deviazione standard= √ (Σ ( xi – µ)2 )/N
Range o intervallo min-max
Definisce in quale intervallo sono compresi i dati
Non è molto utilizzato perché è poco informativo
Considera solo i valori estremi e non tiene conto
delle altre osservazioni
ES. x1=4 x2=6 x3=20 x4=30 x5=40
range=40-4=36
ES. x1=4 x2=20 x3=30 x4=30 x5=40
range=40-4=36
Variazione interquartile
E’ l’intervallo compreso tra il primo quartile Q1 e il terzo quartile Q3
Q1 è il valore che suddivide la distribuzione dei valori lasciando alla
sua sinistra il 25% delle osservazioni
Q3 è il valore che suddivide la distribuzione dei valori lasciando alla
sua sinistra il 75% delle osservazioni
Notiamo che la mediana, secondo questo sistema, è il Q2.
Tra Q3 e Q1 sono comprese il 50% delle osservazioni.
E’ particolarmente utile nelle distribuzioni asimmetriche (come la
mediana rispetto alla media)
Q1= posizione (N+1)/4
Q3= posizione 3 (N+1)/4
Coefficiente di variazione
Se le misure di dispersione sono in unità di misura
diverse non si possono confrontare.
Il CV esprime la variabilità dei dati in relazione alla
media:
deviazione standard
CV= -------------------------- *100
|media|
Box plot
50
Outlayer (>3*diff int)
17
40
Outlayer (<3*diff int)
30
16
1,5 * diff. interquartile
20
3° quartile
mediana
10
1° quartile
0
-10
N=
17
VAR00001
La mediana e il box indicano asimmetria nella parte centrale della
distribuzione, i bracci presenza di “code”
grafico di dispersione
• è un tipo di grafico in cui due variabili sono riportate su
uno spazio cartesiano.
Relazione lineare
La relazione matematica
più
più semplice tra due
variabili è la regressione
lineare semplice,
semplice
rappresentata dalla retta
100
90
80
70
Yi=a bXi dove
p(CHD=1)
60
50
- Y i è il valore stimato
per il valore X
dell'osservazione i,
40
30
20
10
0
20
30
40
50
% Osservate
time
60
% Previste
70
80
- Xi è il valore empirico di
X per l'osservazione i,
- a è l'intercetta della retta
di regressione,
funzioni non lineari
• Alcune funzioni matematiche curvilinee possono
essere linearizzate con un semplice
trasformazione dei dati. Per esempio, Una
funzione esponenziale del tipo:
• Y = A e^x
• può essere linearizzata con una trasformazione
logaritmica, come segue:
•
log(Y) = log(A) + X
1
ex
f (x ) =
=
1+ e−x 1+ e x
Funzione logistica
con -∞ < x < +∞
f(x) 1
0.5
0
x
Grafici: curve di crescita
Grafici: curve di crescita
DISEGNO SPERIMENTALE
lo scopo fondamentale del disegno
sperimentale è ridurre quanto più possibile la
variabilità accidentale tramite una idonea
pianificazione sperimentale
La pianificazione sperimentale deve riuscire ad
individuare i fattori che influenzano il fenomeno
di studio, per depurare i risultati
dell’esperimento da aspetti di disturbo.
Un po’ di vocabolario
• Fattore: è la variabile che influenza la variabile
di risposta: es temperatura, tempo
• Variabile di risposta: fenomeno che stiamo
studiando es: concentrazione batterica
• Livelli i valori che possono assumere i fattori
• I fattori possono essere qualitativi:
ceppo – …
• I fattori possono essere quantitativi:
concentrazione– con livelli: 100, 500, 1000…
riassumendo
• fattore sperimentale o di interesse: è il
fattore che si suppone influenzi direttamente la
variabile di risposta quello che crea maggiore
variabilità tra i miei dati
• fattore sub-sperimentale o fattore blocco:
sono fattori che influenzano il fenomeno di
studio ma che si possono controllare con la
pianificazione
• Esempio lotti. La variabilità tra lotti
Variabilità tra lotti
Come valuto se la variabilità deve essere
controllata
• Se variabilità tra livelli del fattore >10% la
controllo
• Se variabilità <=10% la considero
fisiologica
Fonti di variabilità
Biologica, dovuta alla
natura dell’oggetto di
studio. Non è eliminabile.
Casuale, dovuta al caso
non si può manipolare.
Sistematica (esempio il
grado di precisione di
uno strumento,) su
questa variabilità si può
agire.
Cassetta degli attrezzi del
disegno dell’esperimento
RANDOMIZZAZIONE
BLOCKING
REPLICAZIONE
RANDOMIZZAZIONE
BLOCKING
Come possiamo ridurre la variabilità
casuale? Replicazione
• Replicazione = la ripetizione dell'esperimento
sotto le stesse condizioni, aumentiamo il numero
di misurazioni
• per ottenere un risultato più preciso (media
campionaria) e stimare l'errore sperimentale
(deviazione standard campionaria).
• perché? per migliorare la precisione della stima
dell’effetto dei fattori, riducendo nel contempo la
stima dell’errore e del rumore di fondo
Come vengono assegnale le u.s per ogni trattamento? In modo
random:
La randomizzazione è il processo di assegnazione
casuale delle unità sperimentali ai livelli del fattore
sperimentale
permette che i gruppi posti a confronto possano considerarsi
come campioni indipendenti ottenuti per estrazione casuale da
un’unica popolazione ipotetica e quindi sottoposti all’azione
dei fattori accidentali con la stessa intensità
Randomizzazione
• sia l’ordine di esecuzione delle prove sia
l’assegnazione del materiale sperimentale
ai trattamenti deve avvenire in modo
completamente casuale (randomizzato);
• questo consente di mediare gli effetti di
fattori non controllabili sempre presenti
(ma “nascosti”) che vanno così ad incidere
in modo uniforme sui vari trattamenti.
Randomizzazione
Le unita sperimentali debbono essere scelte a
caso e quindi debbono costituire un CAMPIONE
casuale e rappresentativo della POPOLAZIONE
di interesse
I trattamenti sperimentali debbono essere
assegnati alle unita sperimentali a caso.
• La RANDOMIZZAZIONE assicura
l'indipendenza tra unita sperimentali che è
basilare, per un esperimento scientificamente
valido!!!!
Piano di campionamento
• Come seleziono le unità statistiche
– Campionamento probabilistico
– Campionamento casuale
• Di quante unità statistiche ho bisogno?
–
–
–
–
–
Livello di confidenza, errore
Differenza minima rilevabile tra trattamenti
Numero di fattori, livelli/trattamenti
Potenza dello studio
variabilità
SCELTA CAMPIONE ADEGUATO
• Il Campione deve essere scelto a caso dalla
popolazione di riferimento, ovvero devono
avere tutti la stessa probabilità di essere
estratti.
• se utilizzo un campione di comodo devo
accertarmi che non abbia delle caratteristiche
per cui i risultati dell’esperimento possano
essere falsati.
Campionamento probabilistico
• campioni probabilistici: è nota la probabilità che
una certa unità della popolazione faccia parte del
campione.
– I risultati degli studi sono generalizzabili alla
popolazione di riferimento
– Tutti i campioni probabilistici vengono formati
ricorrendo ad un meccanismo di selezione
casuale.
– Consentono la stima dell’errore di campionamento
e la “bontà” dei risultati.
Dimensione campionaria
• Dipende da questi parametri:
– Livello di confidenza,(α: la probabilità di rifiutare H0
quando è vera)
– Potenza dello studio (1-β: la probabilità di accettare
H1 quando H1 è vera)
– Dimensione della differenza (δ), ~ differenza minima
rilevabile tra trattamenti
– Numero di fattori, livelli/trattamenti
– Variabilità (σ)
Disegno esperimento
• Pianificazione dell’esperimento
• Individuazione fattori di sperimentazione
(fattori sperimentali e subsperimentali)
• Misurazione dell’effetto
• Piano di campionamento (probabilistico
randomizzazione)
• Dimensione campionaria
Studi sperimentali