Challenge test: metodologia e strumenti pratici per una corretta valutazione Principi statistici e disegno dell’esperimento Vitale Nicoletta [email protected] S.C. Epidemiologia e Osservatorio Epidemiologico Istituto Zooprofilattico Sperimentale del Piemonte, Liguria e Valle d’Aosta Challenge test: metodologia e strumenti pratici per una corretta valutazione Principi statistici e disegno dell’esperimento Di cosa parleremo: •statistica: – indici di tendenza centrale e dispersione, – grafici, curve di crescita, trasformazioni logaritmiche •Disegno dell’esperimento: •variabilità sperimentale e fattori, – Piano di campionamento e randomizzazione, – Dimensione campionaria e replicazione Indici di tendenza centrale La tendenza centrale o posizione di un insieme di dati indica dove, numericamente, i dati sono posizionati o concentrati MEDIA : (aritmetica, geometrica, armonica, mobile, troncata) valore ‘tipico’ della distribuzione; la media un indice rappresentativo MEDIANA: modalità che divide in due parti uguali la distribuzione delle frequenze. la mediana è un indice di posizione MODA: modalità associata alla frequenza più elevata cioè la manifestazione più ricorrente del fenomeno. Moda E’ l’osservazione che si verifica con maggior frequenza La moda è il valore con la frequenza più alta nei dati Si può calcolare quasi per tutti i tipi di dati. La moda acquista validità solo se vi è una netta prevalenza di una modalità/intensità. Esempio 2, 3, 4, 2, 2,1,5,6,2,3. Il valore più frequente in questa distribuzione rappresenta la moda (2). Media aritmetica media = 1 N Σ xi La Media aritmetica sintetizza la distribuzione di dati con un solo valore. La Media aritmetica dipende da tutti i valori osservati e quindi risente dei valori estremi. La media aritmetica è il baricentro della distribuzione Proprietà: ridividendo in parti uguali la somma delle osservazioni, tutte le unità ne riceverebbero una parte uguale alla media Σ (xi_- m)=0 gli scarti sono negativi e positivi e la loro somma è uguale a 0 Σ (xi_- m)2 =min proprietà dei minimi quadrati E’ influenzata dai valori estremi Mediana E’ l’osservazione tale per cui metà delle osservazioni è minore di essa e metà è maggiore Si calcola ordinando le osservazioni in ordine crescente Se il numero delle osservazioni è dispari sarà l’osservazione corrispondente a (N+1)/2 Se il numero delle osservazioni è pari sarà la media dei valori corrispondenti alle osservazioni N/2 e (N/2)+1 La Mediana è il valore dell’osservazione centrale d’una distribuzione ordinata di dati Il calcolo della mediana è possibile solo per caratteri quantitativi. La mediana non è sensibile alla presenza di valori anomali. Calcolo della Mediana 1) Ordinare i dati in senso crescente, attribuendo una posizione 2) Individuare il valore che occupa la posizione centrale in graduatoria 3) Esempio 20, 2, 8, 15,10. Ordino: 2 8 10 15 20. Il valore che rappresenta la mediana è 10 perché ha esattamente due numeri prima e due dopo. Così si calcola la mediana quando c'è un numero dispari di valori nella serie. se n è pari si hanno due unità centrali con posizione n/2 e n/2 +1. Se il carattere è quantitativo, possiamo considerare come mediana la media aritmetica dei valori delle due unità centrali. Ad esempio, facciamo finta che la nostra serie sia 5, 8, 15 e 17. La mediana è rappresentata dal valore che si trova tra 8 e 15. Calcoliamo la media tra 8 e 15 e otteniamo 11,5. Questo valore rappresenta la mediana. Percentili • Definiamo percentili quei valori che dividono la distribuzione in cento parti di uguale numerosità. Il p-esimo percentile di un insieme di dati è il valore per cui una percentuale pari a p delle osservazioni è inferiore o uguale a esso. • I percentili di uso più frequente sono il 25-esimo e il 75-esimo percentile, detti anche primo (Q1) e terzo quartile (Q3) che insieme alla mediana dividono la distribuzione in quattro parti uguali (la mediana corrisponde al secondo quartile, Q2). Q1 M Q3 1° 2° 3° 4° 5° 6° 7° 8° 9° 23 27 30 34 37 41 44 48 51 10° 11° 12° 13° 14° 15° 55 58 62 65 69 72 Indici di dispersione Purtroppo i soli indici di posizione non sono sufficienti per sintetizzare una distribuzione, poiché riassumono solamente i dati in un unico valore puntuale, senza dire quanto le osservazioni “si assomigliano”. Pertanto si ricorre a degli indici di variabilità Range (o intervallo minimo-massimo) Intervallo interquartile Scarto quadratico medio (sqm) o deviazione standard (std) Come misuro la variabilità in statistica? • Le quattro misure di variabilità più comuni sono: il range, la varianza, la deviazione standard e il coefficiente di variazione ([s/m]*100). • Quella più usata: deviazione standard che è la radice quadrata della varianza. • La deviazione standard misura quanta variabilità c’è negli individui rispetto ad una variabile nella popolazione • Da non confondere con lo standar error Devianza, varianza e deviazione standard 1) Poiché la somma delle distanza delle medie è 0, si elevano al quadrato tutte le differenze (devianza). Devianza=Σ ( xi – µ)2 2) La devianza cresce col numero delle osservazioni, quindi si divide per N (varianza) 2 Varianza=Σ ( xi – µ) N 3) Poiché a questo punto la varianza è espressa nel quandrato delle unità di misura è necessario fare la radice (deviazione standard o scarto quadratico medio) ______________ Deviazione standard= √ (Σ ( xi – µ)2 )/N Range o intervallo min-max Definisce in quale intervallo sono compresi i dati Non è molto utilizzato perché è poco informativo Considera solo i valori estremi e non tiene conto delle altre osservazioni ES. x1=4 x2=6 x3=20 x4=30 x5=40 range=40-4=36 ES. x1=4 x2=20 x3=30 x4=30 x5=40 range=40-4=36 Variazione interquartile E’ l’intervallo compreso tra il primo quartile Q1 e il terzo quartile Q3 Q1 è il valore che suddivide la distribuzione dei valori lasciando alla sua sinistra il 25% delle osservazioni Q3 è il valore che suddivide la distribuzione dei valori lasciando alla sua sinistra il 75% delle osservazioni Notiamo che la mediana, secondo questo sistema, è il Q2. Tra Q3 e Q1 sono comprese il 50% delle osservazioni. E’ particolarmente utile nelle distribuzioni asimmetriche (come la mediana rispetto alla media) Q1= posizione (N+1)/4 Q3= posizione 3 (N+1)/4 Coefficiente di variazione Se le misure di dispersione sono in unità di misura diverse non si possono confrontare. Il CV esprime la variabilità dei dati in relazione alla media: deviazione standard CV= -------------------------- *100 |media| Box plot 50 Outlayer (>3*diff int) 17 40 Outlayer (<3*diff int) 30 16 1,5 * diff. interquartile 20 3° quartile mediana 10 1° quartile 0 -10 N= 17 VAR00001 La mediana e il box indicano asimmetria nella parte centrale della distribuzione, i bracci presenza di “code” grafico di dispersione • è un tipo di grafico in cui due variabili sono riportate su uno spazio cartesiano. Relazione lineare La relazione matematica più più semplice tra due variabili è la regressione lineare semplice, semplice rappresentata dalla retta 100 90 80 70 Yi=a bXi dove p(CHD=1) 60 50 - Y i è il valore stimato per il valore X dell'osservazione i, 40 30 20 10 0 20 30 40 50 % Osservate time 60 % Previste 70 80 - Xi è il valore empirico di X per l'osservazione i, - a è l'intercetta della retta di regressione, funzioni non lineari • Alcune funzioni matematiche curvilinee possono essere linearizzate con un semplice trasformazione dei dati. Per esempio, Una funzione esponenziale del tipo: • Y = A e^x • può essere linearizzata con una trasformazione logaritmica, come segue: • log(Y) = log(A) + X 1 ex f (x ) = = 1+ e−x 1+ e x Funzione logistica con -∞ < x < +∞ f(x) 1 0.5 0 x Grafici: curve di crescita Grafici: curve di crescita DISEGNO SPERIMENTALE lo scopo fondamentale del disegno sperimentale è ridurre quanto più possibile la variabilità accidentale tramite una idonea pianificazione sperimentale La pianificazione sperimentale deve riuscire ad individuare i fattori che influenzano il fenomeno di studio, per depurare i risultati dell’esperimento da aspetti di disturbo. Un po’ di vocabolario • Fattore: è la variabile che influenza la variabile di risposta: es temperatura, tempo • Variabile di risposta: fenomeno che stiamo studiando es: concentrazione batterica • Livelli i valori che possono assumere i fattori • I fattori possono essere qualitativi: ceppo – … • I fattori possono essere quantitativi: concentrazione– con livelli: 100, 500, 1000… riassumendo • fattore sperimentale o di interesse: è il fattore che si suppone influenzi direttamente la variabile di risposta quello che crea maggiore variabilità tra i miei dati • fattore sub-sperimentale o fattore blocco: sono fattori che influenzano il fenomeno di studio ma che si possono controllare con la pianificazione • Esempio lotti. La variabilità tra lotti Variabilità tra lotti Come valuto se la variabilità deve essere controllata • Se variabilità tra livelli del fattore >10% la controllo • Se variabilità <=10% la considero fisiologica Fonti di variabilità Biologica, dovuta alla natura dell’oggetto di studio. Non è eliminabile. Casuale, dovuta al caso non si può manipolare. Sistematica (esempio il grado di precisione di uno strumento,) su questa variabilità si può agire. Cassetta degli attrezzi del disegno dell’esperimento RANDOMIZZAZIONE BLOCKING REPLICAZIONE RANDOMIZZAZIONE BLOCKING Come possiamo ridurre la variabilità casuale? Replicazione • Replicazione = la ripetizione dell'esperimento sotto le stesse condizioni, aumentiamo il numero di misurazioni • per ottenere un risultato più preciso (media campionaria) e stimare l'errore sperimentale (deviazione standard campionaria). • perché? per migliorare la precisione della stima dell’effetto dei fattori, riducendo nel contempo la stima dell’errore e del rumore di fondo Come vengono assegnale le u.s per ogni trattamento? In modo random: La randomizzazione è il processo di assegnazione casuale delle unità sperimentali ai livelli del fattore sperimentale permette che i gruppi posti a confronto possano considerarsi come campioni indipendenti ottenuti per estrazione casuale da un’unica popolazione ipotetica e quindi sottoposti all’azione dei fattori accidentali con la stessa intensità Randomizzazione • sia l’ordine di esecuzione delle prove sia l’assegnazione del materiale sperimentale ai trattamenti deve avvenire in modo completamente casuale (randomizzato); • questo consente di mediare gli effetti di fattori non controllabili sempre presenti (ma “nascosti”) che vanno così ad incidere in modo uniforme sui vari trattamenti. Randomizzazione Le unita sperimentali debbono essere scelte a caso e quindi debbono costituire un CAMPIONE casuale e rappresentativo della POPOLAZIONE di interesse I trattamenti sperimentali debbono essere assegnati alle unita sperimentali a caso. • La RANDOMIZZAZIONE assicura l'indipendenza tra unita sperimentali che è basilare, per un esperimento scientificamente valido!!!! Piano di campionamento • Come seleziono le unità statistiche – Campionamento probabilistico – Campionamento casuale • Di quante unità statistiche ho bisogno? – – – – – Livello di confidenza, errore Differenza minima rilevabile tra trattamenti Numero di fattori, livelli/trattamenti Potenza dello studio variabilità SCELTA CAMPIONE ADEGUATO • Il Campione deve essere scelto a caso dalla popolazione di riferimento, ovvero devono avere tutti la stessa probabilità di essere estratti. • se utilizzo un campione di comodo devo accertarmi che non abbia delle caratteristiche per cui i risultati dell’esperimento possano essere falsati. Campionamento probabilistico • campioni probabilistici: è nota la probabilità che una certa unità della popolazione faccia parte del campione. – I risultati degli studi sono generalizzabili alla popolazione di riferimento – Tutti i campioni probabilistici vengono formati ricorrendo ad un meccanismo di selezione casuale. – Consentono la stima dell’errore di campionamento e la “bontà” dei risultati. Dimensione campionaria • Dipende da questi parametri: – Livello di confidenza,(α: la probabilità di rifiutare H0 quando è vera) – Potenza dello studio (1-β: la probabilità di accettare H1 quando H1 è vera) – Dimensione della differenza (δ), ~ differenza minima rilevabile tra trattamenti – Numero di fattori, livelli/trattamenti – Variabilità (σ) Disegno esperimento • Pianificazione dell’esperimento • Individuazione fattori di sperimentazione (fattori sperimentali e subsperimentali) • Misurazione dell’effetto • Piano di campionamento (probabilistico randomizzazione) • Dimensione campionaria Studi sperimentali