Sono molto grato a Xavier Tomàs Morer per la revisione e la correzione di numerosi errori 1 2 - LE BASI DELLA STATISTICA La prima opera con il trattamento sistematico della probabilità, base della statistica, il Liber de ludo aleae, fu scritta dal pavese Gerolamo Cardano nel 1526. 2.1 - ESPERIMENTI RANDOM, POPOLAZIONE, CAMPIONE Le discipline sperimentali, quale è la chimica, sono fondate su di esperimenti, il risultato dei quali è, a seconda dei casi: a) una (o più) grandezza fisica misurata b) una (o più) grandezza chimica calcolata da una (o più) grandezza fisica misurata c) un conteggio (quante volte si è osservato un fatto particolare) d) una figura. Generalmente il risultato dell'esperimento (misura, conteggio, figura) varia ripetendo l'esperimento, anche se lo sperimentatore ha posto la massima cura nelle ripetizioni, effettuandole in condizioni uniformi, vale a dire con accurato controllo di tutti i parametri che lo sperimentatore pensa possano influenzare il risultato. Il risultato è espresso da variabili, che possono essere qualitative, nominali (p.e. freddo/caldo, bianco/nero) o ordinali (p.e., gelido, freddo, tiepido, caldo, bollente, rovente) o quantitative (relative, p.e. 1.24 metri, espresse dal rapporto con una unità di misura, o assolute, p.e. 1240 volte). Gli esperimenti con queste caratteristiche di variabilità del risultato sono detti ESPERIMENTI 2 a CASO o esperimenti random. In essi, nonostante il controllo esercitato dall'operatore, permangono alcune fonti di variabilità che determinano la differenza del risultato da ripetizione a ripetizione. I fattori di variabilità possono essere: a) non noti, non controllabili b) noti, non controllabili c) noti, parzialmente controllabili d) noti, perfettamente controllabili e) noti, controllabili ma non controllati f) noti, controllati a valori (livelli) differenti. L'ultimo caso corrisponde ad esperimenti che vengono effettuati per studiare determinati fattori. Il caso precedente (e) a fattori che potrebbero essere controllati, ma il loro controllo si presenta difficoltoso o antieconomico e pertanto viene omesso. Un esperimento a caso deve essere descritto accuratamente, nelle sue operazioni, nella indicazione dei fattori che sono controllati, del livello e della incertezza con cui sono controllati, nel dettaglio del rilevamento del risultato. La descrizione dell’esperimento è annotata nel Quaderno di Laboratorio; alla data e alla descrizione delle operazioni e alle informazioni relative ai fattori controllati, è sempre bene aggiungere la indicazione di fattori ambientali (temperatura ambiente, umidità, luminosità, presenza di vibrazioni/rumori) anche se si ritiene che essi non abbiano effetto sull’esperimento. Un Quaderno di Laboratorio ben tenuto è uno strumento prezioso, perché permette di ricostruire l’esperimento anche dopo molto tempo. Se si omette il controllo di anche un solo parametro, o se si introduce il controllo di un parametro in precedenza non fissato, o se si altera il livello di controllo, o la accuratezza di controllo, la variabilità del risultato può aumentare o diminuire: è stato cambiato l'esperimento a caso. Un esperimento a caso può essere teoricamente ripetuto infinite volte: queste infinite ripetizioni costituiscono la famiglia, la popolazione infinita delle possibili ripetizioni. In realtà un esperimento viene ripetuto un numero limitato di volte; queste ripetizioni costituiscono un campione statistico o semplicemente campione (da non confondere con il campione in senso chimico) estratto dalla popolazione infinita. Si rammentino bene queste due definizioni: popolazione e campione. La popolazione corrisponde al livello teorico, il campione è reale; il campione rappresenta la popolazione. 3 Quali che siano gli esperimenti, lo sperimentatore deve conoscere molto bene quale è la popolazione che i suoi campioni rappresentano. Attribuire i risultati ad una popolazione diversa, in generale più ampia, di quella da cui sono estratti i campioni è un errore molto comune e molto grave. Per esempio, se si è ripetuta su di aliquote diverse di vino dalla stessa bottiglia di Verdicchio la determinazione del grado alcoolico, non si deve attribuire il risultato alla popolazione del vino Verdicchio, ma solo a quella costituita dalle aliquote della bottiglia. Se si sono analizzati per il grado alcoolico dieci campioni di Verdicchio, non si deve attribuire il risultato alla popolazione dei vini bianchi. Poiché il risultato (o EVENTO) di un esperimento a caso varia da ripetizione a ripetizione, il risultato è caratterizzato da una IRREGOLARITÀ, che impedisce di formulare ipotesi certe sul risultato di una singola ripetizione. Tuttavia, operando con un campione costituito da un numero relativamente grande di ripetizioni, si individuano aspetti che permettono di trarre conclusioni meno incerte di quanto appaia a prima vista. La valutazione della incertezza relativa al risultato di un esperimento a caso e la sua diminuzione sono tra i principali obiettivi della statistica. Non tutti gli esperimenti sono casuali. P.e. se noi contiamo più volte il numero di gambe dello stesso tavolo otteniamo sempre il valore 4. Il risultato del conteggio è determinato. Il risultato di molti esperimenti è costituito da una parte deterministica e da una casuale. P.e., se noi misuriamo il peso di un recipiente contenente acqua noteremo una graduale diminuzione dovuta all'evaporazione. Supponendo che l’evaporazione sia costante nel tempo si avrà: p(t) = p0 - k t + e - k t, effetto dell'evaporazione, è deterministico, mentre l’errore di misura, e, è totalmente casuale. Variabili quali p(t) sono studiate controllando l’effetto deterministico, come variabili condizionate. 2.2 - FREQUENZA ASSOLUTA E RELATIVA, VARIABILI CASUALI Si consideri l'esperimento a caso E descritto come segue: 1) lo sperimentatore lancia un DADO cubico, di materiale fisicamente omogeneo, avente sulle sei facce le figure A, B, C, D, E, F. 2) il lancio avviene da un'altezza di 1 metro (± 5 cm), lasciando cadere il dado dalla mano chiusa su di un tavolo di legno. 4 3) il risultato è rappresentato dalla figura che appare sulla faccia del dado rivolta verso l'alto, quando il movimento del dado si è arrestato. Questo esperimento è caratterizzato da un numero limitato, discreto, di possibili risultati, sei. Associamo un indice ad ogni possibile evento: Indice Risultato 1 A 2 B 3 C 4 D 5 E 6 F Introduciamo ora le prime definizioni di terminologia statistica: N indichi il numero delle ripetizioni, o numerosità del campione; ni indichi il numero delle volte, tra le N, in cui si è verificato l'evento con indice i ; ni è la FREQUENZA ASSOLUTA del risultato con indice i. fi = ni /N è la FREQUENZA RELATIVA o semplicemente FREQUENZA del risultato con indice i. La frequenza relativa può essere espressa in forma percentuale, come 100 f i %. Supponiamo di avere effettuato 20 ripetizioni dell'esperimento. La Tabella seguente raccoglie il risultato delle ripetizioni, il campione costituito dai 20 eventi osservati. Tabella 2-1- Risultati di 20 ripetizioni dell'esperimento "Lancio di un dado" Indice della ripetizione 1 2 3 4 5 6 7 8 9 10 Evento osservato A D F E E A C B A F Indice dell'evento 1 4 6 5 5 1 3 2 1 6 5 11 12 13 14 15 16 17 18 19 20 L'evento A è stato osservato 3 volte E 5 D 4 F 6 B 2 F 6 F 6 D 4 D 4 E 5 E 5 (frequenza assoluta); la frequenza relativa è 0.15 (= 3/20), la frequenza percentuale è del 15%. La Tabella totale delle frequenze è la seguente: Indice dell'evento 1 2 3 4 5 6 Frequenza assoluta 3 2 1 4 5 5 Frequenza 0.15 0.10 0.05 0.20 0.25 0.25 La somma delle frequenze assolute deve dare il numero N delle ripetizioni; la somma delle frequenze relative deve dare 1. Quando un esperimento ha come risultato un numero quel numero rappresenta uno dei possibili valori della variabile random che descrive quell'esperimento. Anche esperimenti non descritti da un numero possono essere ricondotti a esperimenti con risultati numerici, mediante una opportuna convenzione, quale quella utilizzata poco sopra associando ad ogni figura sul dado un indice dell'evento. Un esperimento può essere descritto da una variabile casuale (Esperimento univariato), da due variabili (Esperimento bivariato), o da più variabili (Esperimento multivariato). Per esempio, quando il risultato dell’esperimento è una figura, per esprimere il risultato in forma numerica, la figura viene decomposta in punti luminosi (PIXEL), e ogni punto ha un valore che indica il suo colore. I pixel su di un normale schermo di calcolatore sono almeno 300000. In un primo tempo ci limiteremo a trattare gli esperimenti univariati. Si noti come la definizione di esperimento in statistica sia differente da quella che siamo portati ad utilizzare nell'ambiente sperimentale. In laboratorio si pone l'accento sulla parte sperimentale dell'esperimento stesso. Nel caso 6 dell'esperimento "lancio di un dado" siamo abituati a considerare solo i punti: 1) lo sperimentatore lancia un DADO cubico, di materiale fisicamente omogeneo, avente sulle sei facce le figure A, B, C, D, E, F. 2) il lancio avviene da una altezza di 1 metro (±5 cm), lasciando cadere il dado dalla mano chiusa su di un tavolo di legno. Pertanto viene trascurata o considerata ovvia la parte concettuale. Ma alla stessa parte sperimentale possono corrispondere diversi esperimenti in senso statistico. Infatti io posso lanciare due volte un dado ed avere: a) due ripetizioni dell'esperimento "lancio di un dado", già descritto; b) una sola ripetizione dell'esperimento univariato: "lancio di due dadi con risultato espresso come somma dei due valori facciali"; c) una sola ripetizione dell'esperimento bivariato: "lancio di due dadi con risultato espresso da due variabili random, la prima fornita dal valore facciale del dado lanciato per primo, la seconda dal valore del dado lanciato per secondo". Ad una stessa operazione base (parte sperimentale) corrispondono più esperimenti e lo studio dei tre casi è sensibilmente differente. Pertanto la definizione di esperimento statistico deve essere completa, rigorosa. È importante notare come l'esempio precedente ci indichi che taluni esperimenti (esperimenti composti) possano essere considerati come la combinazione di altri esperimenti (esperimenti semplici o elementari). 7 2.3 - REGOLARITÀ STATISTICA Abbiamo evidenziato la irregolarità di un singolo risultato di un esperimento a caso. Effettuiamo ora una serie di ripetizioni dell'esperimento "lancio di una moneta" (di cui si risparmia la descrizione). Nella Figura 2-1 è mostrato l'andamento della frequenza relativa del risultato "TESTA" all'aumentare della numerosità del campione. La rappresentazione è condotta su scala logaritmica per N, numero delle ripetizioni. Dal grafico è evidente che la frequenza dell'evento considerato ha grandi fluttuazioni per valori piccoli di N, e che le fluttuazioni diminuiscono all'aumentare di N. Questo andamento è interpretato come dimostrazione di una TENDENZA alla REGOLARITÀ della frequenza di un risultato di un esperimento a caso, contrapposta alla irregolarità del singolo risultato. Se noi effettuiamo altre serie di ripetizioni, vediamo in Figura 2-2 che la tendenza alla regolarità non si ha solo all'interno di una serie, ma anche mettendo in relazione serie differenti. Infatti possiamo notare che la frequenza dell'evento considerato differisce notevolmente da serie a serie, quando le serie si confrontano a basso valore del numero delle ripetizioni, mentre per alti valori di N le frequenze delle differenti sequenze appaiono notevolmente vicine. Intuitivamente, possiamo fare delle predizioni: per una ulteriore serie possiamo pensare ragionevolmente che la frequenza dell'evento TESTA, con N=1000, sia molto prossima alla ristretta banda di valori individuata dal valore per N=1000 delle serie riportate nella Figura 2-2. La tendenza alla stabilità delle frequenze non è tipica di un evento particolare di un certo esperimento, o di certi esperimenti: essa è stata osservata sperimentalmente per tutti gli eventi di tutti gli esperimenti casuali: è una legge di valore universale. Sulla base di questa tendenza alla regolarità, osservata sempre con valori finiti ancorché grandi di N, possiamo formulare la ipotesi base della teoria della probabilità, che la frequenza si avvicinerebbe ad un valore ideale definito se la sequenza di ripetizioni potesse essere continuata all'infinito. Introduciamo pertanto un numero definito che verrà indicato con p (relativo all'evento iesimo considerato), e questo numero verrà chiamato PROBABILITÀ MATEMATICA, o semplicemente probabilità, dell'evento i-esimo dell'esperimento generico E. La probabilità di un risultato è pertanto una astrazione matematica, e matematicamente essa può essere definita mediante la: 8 p i lim f i [2-1] N La probabilità corrisponde alla popolazione infinita; la frequenza corrisponde al campione statistico. Si rammenti: Realtà Astrazione CAMPIONE POPOLAZIONE Frequenza Probabilità Possiamo anche affermare che la probabilità di un evento è un valore incognito che noi misuriamo sperimentalmente con la frequenza: la frequenza è la misura sperimentale della probabilità, ed è una misura affetta da un errore che diminuisce al crescere sufficientemente di N. Per i teoremi sui limiti sappiamo infatti che, fissato un errore positivo piccolo a piacere, è possibile trovare un valore di N tale che per valori maggiori sia sempre pi -fi < (si ricordi che la notazione pi -fi indica il valore assoluto). La probabilità è INCONOSCIBILE. Noi possiamo tuttavia sviluppare delle TEORIE per calcolare la probabilità degli eventi di un esperimento. La probabilità calcolata sulla base di un modello teorico non ha alcun valore se essa non viene confrontata con la sua misura sperimentale, la frequenza. Il confronto, effettuato con opportuni strumenti che la statistica stessa ci mette a disposizione, ci dirà se la teoria sviluppata è accettabile (con una qualche incertezza) o se deve essere respinta. P.e., nel caso dell'esperimento "lancio di un dado", una teoria basata sulla geometria del cubo e sulla omogeneità del materiale che lo costituisce ci permette di calcolare la probabilità, eguale ad 1/6, per ciascuno dei sei eventi possibili. Se infatti le sei facce del cubo sono perfettamente equivalenti non vi è nessuna ragione per cui una debba avere un esito superiore o inferiore alle altre. Se effettuo un esperimento con un dado e dopo 1000 lanci rilevo che la frequenza dell'evento 6 è 0.73, molto lontana dalla probabilità calcolata 0.16667, posso dedurre che la mia teoria è probabilmente sbagliata: il dado è truccato, il modello basato sulla omogeneità fisica del dado è un modello fallace. Il termine "probabilmente sbagliata" utilizzato nella frase precedente verrà meglio analizzato in seguito. 9 Figura 2-1 Frequenza relativa dell’evento TESTA dell’esperimento “LANCIO DI UNA MONETA” in funzione del numero delle ripetizioni N 10 Figura 2-2 Andamento della frequenza in dieci serie di 10000 ripetizioni 2.4 - DISTRIBUZIONE DELLE FREQUENZE - DISTRIBUZIONE DI PROBABILITÀ Abbiamo considerato, introducendo il concetto di regolarità statistica, un singolo evento di un esperimento a caso. Se consideriamo tutti i risultati del nostro esperimento, dopo un certo numero di ripetizioni N, avremo tanti valori della frequenza quanti sono i risultati. Per rappresentare questi valori si ricorre ad un grafico detto di Distribuzione delle frequenze, generalmente relative. Riferendoci al campione illustrato nella Tabella 2-1, il grafico relativo è mostrato in Figura 2-3. Nel grafico abbiamo introdotto, sulle ascisse, la variabile random X che misura (in modo convenzionale nel nostro caso) il risultato dell'esperimento. Ogni frequenza è indicata con un tratto, e la somma dei tratti è 1. La totalità dei risultati ottenuti è distribuita tra i vari risultati. Come la singola frequenza tende alla corrispondente probabilità per N che tende ad infinito, così l'insieme delle frequenze, la distribuzione di frequenza, tende alla corrispondente DISTRIBUZIONE di PROBABILITÀ, limite, per N che tende ad infinito, della distribuzione delle frequenze. La distribuzione 11 delle probabilità è la astrazione matematica della distribuzione delle frequenze. La distribuzione delle frequenze è la misura sperimentale della distribuzione di probabilità. Figura 2-3 - Distribuzione di frequenza ottenuta da 20 ripetizioni dell’esperimento «Lancio di un dado» Figura 2-4 Distribuzione di probabilità relativa all’ esperimento «Lancio di un dado» Si rammenti: Realtà Astrazione CAMPIONE POPOLAZIONE Frequenza Probabilità Distribuzione di frequenze Distribuzione di probabilità La teoria basata sulla geometria cubica e sulla uniformità fisica del dado, ci permette di 12 calcolare la distribuzione di probabilità corrispondente alla distribuzione di frequenza dell'esperimento "lancio di un dado". Essa è mostrata in Figura 2-4. La somma dei tratti, delle probabilità, è anche qui come con le frequenze, eguale ad 1: la unità esprime la certezza, la sicurezza di avere comunque un risultato tra quelli possibili. La forma di questa distribuzione è detta rettangolare, in quanto tutti gli eventi hanno la stessa probabilità. Vi sono moltissime forme possibili per una distribuzione di probabilità. Vediamone alcune relative alla serie di esperimenti: "Lancio di M dadi, variabile ottenuta dalla somma dei valori facciali degli M dadi" Al variare di M abbiamo una famiglia di esperimenti, tra cui il lancio di un singolo dado. La variabile X può assumere sempre un numero finito di valori, il più piccolo eguale a M, il più grande eguale a 6 M. Il numero di valori possibili è pertanto 5 M + 1: M 1 2 3 10 20 100 1000 minimo 1 2 3 10 20 100 1000 massimo 6 12 18 60 120 600 6000 numero di valori di X 6 11 16 51 101 501 5001 Per calcolare la probabilità di un certo risultato nell’esperimento E = «lancio di M dadi» utilizzeremo un esperimento elementare E1 (lancio di un dado, risultato R1 dato dal valore della faccia del dado, che può assumere i sei valori 1,2,3,4,5,6), un esperimento composto E2 (lancio di M dadi, risultato dato dalla SEQUENZA degli M valori). Si rammenti: Esperimento E1 Risultato R1 Lancio di 1 dado Esperimento E2 Risultato R2 Lancio di 2 dadi e risultato dato dalla (due esperimenti sequenza dei due risultati R1 elementari E1) Esperimento E (due esperimenti Risultato X Lancio di 2 dadi e risultato dato dalla somma dei due risultati R1 elementari E1) Con M = 2, R2, risultato di E2, può assumere i 36 valori: 13 1-1 2-1 3-1 4-1 5-1 6-1 1-2 2-2 3-2 4-2 5-2 6-2 1-3 2-3 3-3 4-3 5-3 6-3 1-4 2-4 3-4 4-4 5-4 6-4 1-5 2-5 3-5 4-5 5-5 6-5 1-6 2-6 3-6 4-6 5-6 6-6 Poiché ambedue i dadi sono eguali ed ideali, non vi è alcuna ragione per cui uno degli eventi possibili per E2 abbia una probabilità maggiore di un altro; pertanto la certezza deve essere distribuita egualmente su ogni risultato, ed ogni R2 ha conseguentemente probabilità 1/36. In altre parole la teoria ipotizza che ogni combinazione di valori facciali relativa al lancio dei due dadi abbia la stessa probabilità. Allo stesso valore della probabilità si arriva osservando che E2 è un esperimento composto prodotto di E1: un esperimento prodotto ha un risultato che risulta dal presentarsi INSIEME di due risultati R1: R2i P.e. l’evento R2 = 2 3 = R1j * R1k risulta dal risultato R1 = 2 per il primo esperimento E1 che costituisce E2 E ANCHE dal risultato R1 = 3 per il secondo esperimento E1 che costituisce E2. La probabilità di un evento prodotto è il prodotto delle probabilità degli eventi costituenti se questi sono indipendenti (vedi oltre). Il risultato del nostro esperimento E, la sua X, è la somma dei valori facciali, e la teoria ammette che X abbia una probabilità somma delle probabilità delle combinazioni di valori facciali che danno la stessa somma. E è un tipico esempio di esperimento somma di esperimenti elementari E2, a loro volta prodotto di esperimenti elementari E1. Per M=2 si ottiene: Risultato di E2 Somma Dado Dado 1 2 1 1 2 1 3 2 1 4 2 1 2 1 3 1 2 4 1 3 2 3 3 4 4 4 5 5 5 1 risultato R2 per X = 2 p(X=2) = 1/36 2 risultati R2 per X = 3 p(X=3) = 2/36 3 risultati R2 per X = 4 p(X=4) = 3/36 14 3 1 5 2 4 3 1 6 2 5 3 4 2 6 3 5 4 3 6 4 5 4 6 5 5 6 6 2 5 1 4 2 3 6 1 5 2 4 3 6 2 5 3 4 6 3 5 4 6 4 5 6 5 6 5 6 6 6 6 6 7 7 7 7 7 7 8 8 8 8 8 9 9 9 9 10 10 10 11 11 12 4 risultati R2 per X = 5 p(X=5) = 4/36 5 risultati R2 per X = 6 p(X=6) = 5/36 6 risultati R2 per X = 7 p(X=7) = 6/36 5 risultati R2 per X = 8 p(X=8) = 5/36 4 risultati R2 per X = 9 p(X=9) = 4/36 3 risultati R2 per X = 10 p(X=10) = 3/36 2 risultati R2 per X = 11 1 risultato R2 per X = 12 p(X=11) = 2/36 p(X=12) = 1/36 In tutto sono stati considerati i 36 risultati per l'esperimento elementare E2, perfettamente equivalenti e quindi con probabilità 1/36. Le probabilità per gli eventi dell'esperimento complesso sono mostrate nella Figura 2-5, che si confronta con la distribuzione dell’esperimento semplice mostrata in Figura 2-4. Nelle successive figure da 2-6 a 2-14 sono mostrate le distribuzioni di probabilità relative agli esperimenti con numero crescente di dadi. Prima di analizzare l'informazione raccolta nelle Figure da 2-5 a 2-14, illustriamo alcune regole base della probabilità matematica, estensioni della regola che abbiamo applicato nel caso dell'esperimento "lancio di due dadi". EVENTO SOMMA: è un evento composto che consiste nel presentarsi di ALMENO UNO di due eventi elementari. Esso è caratterizzato dall'operatore logico OR OPPURE (Nota 1) 15 Figura 2-5 - Distribuzione di probabilità per l’esperimento «Lancio di due dadi» Figura 2-6 - Distribuzione di probabilità per l'esperimento «Lancio di tre dadi» Figura 2-7 - Distribuzione di probabilità per l'esperimento «Lancio di quattro dadi» 16 Figura 2-8 - Distribuzione di probabilità per l'esperimento «Lancio di cinque dadi» Figura 2-9 - Distribuzione di probabilità per l'esperimento «Lancio di dieci dadi» Figura 2-10 - Distribuzione di probabilità per l'esperimento «Lancio di venti dadi» 17 Figura 2-11 - Distribuzione di probabilità per l'esperimento «Lancio di cinquanta dadi» Figura 2-12 - Distribuzione di probabilità per l'esperimento «Lancio di cento dadi» Figura 2-13 - Distribuzione di probabilità per l'esperimento «Lancio di duecento dadi» 18 Figura 2-14 - Distribuzione di probabilità per l'esperimento «Lancio di mille dadi» Siano A e B gli eventi elementari; l'evento somma si indica con A+B. Per la frequenza vale la relazione: f A B f A f B f AB [2-2] da cui al limite discende la relazione per le probabilità: p A B p A p B p AB dove fAB è la frequenza e pAB è la probabilità dello EVENTO PRODOTTO: è un evento composto che consiste nel presentarsi di AMBEDUE eventi elementari. Esso è caratterizzato dall'operatore logico AND E ANCHE. e viene indicato con AB. La regola elementare della probabilità di un evento prodotto di due eventi indipendenti è: p AB pA p B [2-3] essendo due eventi indipendenti quando la probabilità che uno avvenga non dipende dal fatto che l'altro si sia o no verificato. Possiamo tornare ora alla regola dell'addizione, illustrandola con l'esperimento «Lancio di due dadi, risultato 1 se almeno uno dei due dadi ha valore 1, risultato 0 se nessuno dei due dadi ha valore 1"; il risultato 1 è la somma dei due risultati elementari degli esperimenti che consistono nel lancio di un solo dado. 19 Effettuiamo una serie di 10 ripetizioni: Dado 1 Dado 2 3 4 1 1 2 3 4 6 4 1 5 2 2 4 1 4 3 5 5 6 fA = 0.2 fB =0.2 Risultato dell'evento composto 0 1 0 0 1 0 0 1 0 0 fA+B = 0.3 fAB = 0.1 La validità della [2-2] risulta dal fatto che quando (nella seconda ripetizione) si sono verificati contemporaneamente l'evento A e l'evento B essi hanno incrementato solo di uno la frequenza assoluta dell'evento somma. Il concetto di limite proprio della probabilità, applicato alla [2-2], porta alla regola della somma: p A B p A p B p AB [2-4] Vi sono casi in cui i due eventi A e B sono MUTUAMENTE ESCLUSIVI, nel senso che se se ne verifica uno non può verificarsi l'altro. In questo caso pAB è nulla e pertanto la [2-4] si riduce alla legge della somma di eventi mutuamente esclusivi p A B p A p B [2-5] Un esempio si ha con l'esperimento "Lancio di un dado, risultato 1 se appare il valore 6 o il valore 5, risultato 0 altrimenti". La probabilità del risultato composto 1 è semplicemente la somma delle probabilità dei risultati elementari 5 e 6 ( p = 2/6), in quanto gli eventi 5 e 6 sono mutuamente esclusivi. 20 Figura 2-15 - Rappresentazione di eventi composti mediante insiemi. Evento prodotto possibile. Figura 2-16 - Rappresentazione di eventi composti mediante insiemi. Caso di eventi mutuamente esclusivi. 21 2.5 - DISTRIBUZIONE NORMALE - TEOREMA DEL LIMITE CENTRALE Possiamo ora tornare all'esame delle figure da 2-5 a 2-14. Osserviamo che: a) Via via che il numero dei dadi aumenta, il numero degli eventi possibili diventa tale da rendere impratica la rappresentazione grafica della probabilità; sui grafici delle figure 2-13 e 2-14 non è possibile distinguere eventi diversi, tanto è fitto il tratteggio; b) Con l'aumentare del numero degli eventi possibili, la certezza risulta distribuita tra di loro in maniera tale che la probabilità di un singolo evento è in media molto piccola. Si noti la differenza tra la probabilità 1/6 per un evento dell'esperimento "lancio di un dado" e il valore massimo della probabilità per l'esperimento "lancio di 1000 dadi", circa 23 volte minore; c) La forma della distribuzione cambia con l'aumentare del numero dei dadi; da rettangolare diventa triangolare, e via via assume una forma sempre più simile a quella di una sezione di campana, forma caratteristica di un tipo di distribuzione detto DISTRIBUZIONE NORMALE. d) Quando il numero di eventi è elevato la probabilità di due eventi contigui è poco differente. P.e., con 1000 dadi la probabilità dell’evento 3500 è 0.00738693, quella dell’evento 3501 è 0.00738567 . La differenza è solo 0.000001266, lo 0.01714%. I punti a) e b) si collegano con il fatto che quando un esperimento ha un grande numero di risultati possibili la probabilità di un singolo risultato non ha molto interesse. P.e., il reddito individuale varia da 0 euro a 100000000000 (cento miliardi di euro): la probabilità di un reddito di 234565888 euro (ammesso che esista un modello matematico in grado di calcolarla) è estremamente poco interessante, mentre può essere rilevante avere la probabilità di certe fasce, di certi intervalli di reddito. Il punto c) può essere generalizzato, fornendo il Teorema del limite centrale: Quale che sia la distribuzione di probabilità relativa ad un certo esperimento elementare (nel nostro caso il lancio di un dado), quella di un esperimento somma di M esperimenti elementari (nel nostro caso il lancio di M dadi) tende a diventare una distribuzione normale all'aumentare del numero M. Il teorema del limite centrale spiega l'importanza della distribuzione normale o gaussiana (in realtà dovuta, almeno in embrione, al matematico francese Abraham de Moivre), in quanto moltissime variabili sperimentali sono eventi che risultano dalla somma di numerosissimi eventi elementari. 22 2.6 - VARIABILI CONTINUE - ISTOGRAMMA DELLE FREQUENZE In relazione alla verificata non praticità e non interesse della rappresentazione diretta delle probabilità (e anche delle frequenze) quando vi sono molti valori possibili per il risultato di un esperimento, vengono introdotti altri concetti relativi alle variabili continue. Una variabile è continua quando, dati due valori di essa comunque vicini, è sempre possibile trovarne un altro tra essi compreso. Nella pratica sperimentale non esistono variabili continue, nel senso che qualunque esperimento ha sempre un numero di risultati limitato, dovuto al fatto che ogni strumento ha un limite di leggibilità. La discontinuità della materia costituisce il limite ultimo. Tuttavia quando il numero dei risultati possibili è molto grande possiamo parlare di variabili praticamente continue, e studiarle come se fossero continue, caratterizzate da infiniti valori possibili. Nel caso di un campione statistico, alla già vista rappresentazione diretta della distribuzione delle frequenze si sostituisce una rappresentazione per intervalli, detta ISTOGRAMMA delle FREQUENZE. L'istogramma viene illustrato con il seguente esempio, relativo alla determinazione della densità di un liquido eseguita 200 volte, con uno strumento in grado di fornire la quinta cifra decimale. I risultati sono riportati nella Tabella 2-2, prima nell’ordine in cui sono stati ottenuti e quindi ordinati in ordine crescente. Tabella 2-2a- Risultato di duecento determinazioni della densità di un liquido 1.12202 1.12200 1.12203 1.12153 1.12212 1.12176 1.12157 1.12169 1.12176 1.12135 1.12159 1.12238 1.12191 1.12192 1.12213 1.12113 1.12172 1.12152 1.12127 1.12185 1.12206 1.12201 1.12218 1.12177 1.12129 1.12132 1.12232 1.12205 1.12206 1.12213 1.12236 1.12203 1.12128 1.12158 1.12229 1.12164 1.12199 1.12150 1.12206 1.12167 1.12200 1.12183 1.12174 1.12201 1.12246 1.12156 1.12187 1.12200 1.12218 1.12152 1.12221 1.12212 1.12224 1.12188 1.12177 1.12191 1.12167 1.12169 1.12186 1.12174 1.12176 1.12201 1.12180 1.12178 1.12181 1.12123 1.12182 1.12135 1.12210 1.12189 1.12223 1.12174 1.12150 1.12221 1.12191 1.12151 1.12186 1.12193 1.12181 1.12268 1.12155 1.12131 1.12196 1.12115 1.12155 1.12159 1.12165 1.12173 1.12203 1.12171 1.12185 1.12166 1.12204 1.12147 1.12156 1.12182 1.12159 1.12214 1.12174 1.12165 1.12185 1.12170 1.12198 1.12197 1.12153 1.12158 1.12188 1.12153 1.12199 1.12108 1.12191 1.12168 1.12192 1.12151 1.12166 1.12157 1.12215 1.12154 1.12156 1.12204 1.12131 1.12155 1.12204 1.12141 1.12125 1.12158 1.12207 1.12194 1.12155 1.12195 1.12199 1.12213 1.12256 1.12234 1.12231 1.12129 1.12203 1.12176 23 1.12244 1.12166 1.12127 1.12201 1.12173 1.12213 1.12151 1.12168 1.12195 1.12159 1.12182 1.12202 1.12184 1.12166 1.12215 1.12198 1.12208 1.12217 1.12250 1.12120 1.12157 1.12192 1.12193 1.12187 1.12162 1.12171 1.12179 1.12145 1.12175 1.12180 1.12240 1.12177 1.12148 1.12155 1.12167 1.12156 1.12140 1.12153 1.12161 1.12137 1.12228 1.12139 1.12173 1.12196 1.12163 1.12186 1.12190 1.12211 1.12202 1.12176 1.12181 1.12230 1.12277 1.12190 1.12195 1.12181 1.12217 1.12196 1.12177 1.12188 1.12173 1.12197 Tabella 2-2b- Risultato ordinato delle duecento determinazioni 1.12108 1.12128 1.12137 1.12150 1.12153 1.12156 1.12158 1.12163 1.12167 1.12171 1.12174 1.12176 1.12180 1.12183 1.12187 1.12191 1.12193 1.12197 1.12200 1.12202 1.12205 1.12212 1.12215 1.12224 1.12238 1.12113 1.12129 1.12139 1.12151 1.12153 1.12156 1.12158 1.12164 1.12167 1.12171 1.12174 1.12177 1.12181 1.12184 1.12187 1.12191 1.12194 1.12197 1.12200 1.12203 1.12206 1.12212 1.12217 1.12228 1.12240 1.12115 1.12129 1.12140 1.12151 1.12154 1.12156 1.12159 1.12165 1.12167 1.12172 1.12174 1.12177 1.12181 1.12185 1.12188 1.12191 1.12195 1.12198 1.12201 1.12203 1.12206 1.12213 1.12217 1.12229 1.12244 1.12120 1.12131 1.12141 1.12151 1.12155 1.12156 1.12159 1.12165 1.12168 1.12173 1.12175 1.12177 1.12181 1.12185 1.12188 1.12191 1.12195 1.12198 1.12201 1.12203 1.12206 1.12213 1.12218 1.12230 1.12246 1.12123 1.12131 1.12145 1.12152 1.12155 1.12157 1.12159 1.12166 1.12168 1.12173 1.12176 1.12177 1.12181 1.12185 1.12188 1.12192 1.12195 1.12199 1.12201 1.12203 1.12207 1.12213 1.12218 1.12231 1.12250 1.12125 1.12132 1.12147 1.12152 1.12155 1.12157 1.12159 1.12166 1.12169 1.12173 1.12176 1.12178 1.12182 1.12186 1.12189 1.12192 1.12196 1.12199 1.12201 1.12204 1.12208 1.12213 1.12221 1.12232 1.12256 1.12127 1.12135 1.12148 1.12153 1.12155 1.12157 1.12161 1.12166 1.12169 1.12173 1.12176 1.12179 1.12182 1.12186 1.12190 1.12192 1.12196 1.12199 1.12202 1.12204 1.12210 1.12214 1.12221 1.12234 1.12268 1.12127 1.12135 1.12150 1.12153 1.12155 1.12158 1.12162 1.12166 1.12170 1.12174 1.12176 1.12180 1.12182 1.12186 1.12190 1.12193 1.12196 1.12200 1.12202 1.12204 1.12211 1.12215 1.12223 1.12236 1.12277 Il valore minimo 1.12108 ed il valore massimo 1.12277 (indicativi di 170 valori possibili) definiscono gli estremi dell'intervallo del campione (RANGE), e vengono arrotondati, p.e. a 1.1210 e 1.1228 (allargando l'intervallo a destra e sinistra). L'intervallo risultante viene diviso in NI INTERVALLI DI CLASSE generalmente di ampiezza costante, h. In questo caso decidiamo, p.e., di dividere l'intervallo in 18 intervalli di classe, di ampiezza 0.0001. Si contano i risultati in ciascun intervallo, avendo deciso se attribuire all'intervallo inferiore o a quello superiore i valori eguali al valore di confine(Nota 2) : si ottiene dal conteggio una FREQUENZA ASSOLUTA di CLASSE, n, e la frequenza relativa f. I risultati risultano in questa maniera RAGGRUPPATI nei corrispondenti intervalli. Alcune tecniche raccolgono i dati già in forma raggruppata (basti pensare ai setacci per la determinazione delle granulometrie). Tabella 2-2c- Risultati in forma raggruppata 24 Indice intervallo 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 da 1.1210 1.1211 1.1212 1.1213 1.1214 1.1215 1.1216 1.1217 1.1218 1.1219 1.1220 1.1221 1.1222 1.1223 1.1224 1.1225 1.1226 1.1227 a (incluso) 1.1211 1.1212 1.1213 1.1214 1.1215 1.1216 1.1217 1.1218 1.1219 1.1220 1.1221 1.1222 1.1223 1.1224 1.1225 1.1226 1.1227 1.1228 n f 1 3 7 8 6 29 17 26 23 26 21 14 6 6 4 1 1 1 0.005 0.015 0.035 0.040 0.030 0.145 0.085 0.130 0.115 0.130 0.105 0.070 0.030 0.030 0.020 0.005 0.005 0.005 f/h 50 150 350 400 300 1450 850 1300 1150 1300 1050 700 300 300 200 50 50 50 Figura 2-17 - Istogramma delle frequenze Si riportano in grafico i valori di f/h (ovviamente, poiché questi valori sono proporzionali ad f, sul grafico potremo porre in realtà qualunque grandezza proporzionale alle frequenze di classe). Si ottiene il grafico di Figura 2-17. L'istogramma ha area totale 1 (corrispondente alla somma delle frequenze), in quanto ogni 25 rettangolo costruito sopra ogni intervallo di classe ha area: h f f h Di solito i quadratini non sono utilizzati , ma sono stati inseriti nella Figura 2-17 per evidenziare il contributo di ogni singolo risultato: si verifica facilmente che l'area di un singolo quadratino è eguale a 1/200. 2.7 - DISTRIBUZIONE DI PROBABILITÀ PER VARIABILI CONTINUE Per quanto alto sia il numero N delle ripetizioni in un campione, anche se proveniente da un esperimento descritto da una variabile continua (che ha infiniti valori), è sempre finito. Pertanto solo con intervalli di classe relativamente ampi potremo trovare in tutti, o quasi tutti, gli intervalli di classe alcuni risultati. Quando si passa dalla distribuzione delle frequenze a quella delle probabilità dobbiamo considerare un doppio limite, uno dovuto, come nel caso delle variabili discrete, ad N che tende ad infinito; l'altro dovuto al numero dei possibili valori che tende anche esso ad infinito. La distribuzione di probabilità per variabili continue può essere considerata pertanto come il doppio limite dell'istogramma, per N che tende ad infinito e per h che tende a zero. Figura 2-18 Il singolo elemento dell’istogramma delle frequenze, la cui area è la frequenza di classe, e il singolo elemento infinitesimo della distribuzione di probabilità, la cui area è la probabilità infinitesima Ad un intervallo infinitesimo dx della variabile X (infinitesimo analogo ad h, ampiezza dell'intervallo di classe) corrisponderà una probabilità infinitesima dp, analoga alla frequenza di classe, e un rapporto dp/dx analogo a f/h (Figura 2-18). La distribuzione di probabilità continua sarà pertanto costituita da infiniti rettangolini di altezza dp/dx e di base dx, pertanto di area totale dp. Anche se dp e dx sono infinitesimi, il loro rapporto dp/dx è finito: esso ha le dimensioni di una Densità di Probabilità ed è una funzione continua della variabile continua X. La funzione f(x) = dp / dx viene chiamata funzione di distribuzione di probabilità, o più semplicemente funzione di distribuzione o funzione di probabilità o Distribuzione di probabilità. 26 A causa anche del teorema del limite centrale, la più frequente (NON l'unica) distribuzione di probabilità è la DISTRIBUZIONE NORMALE, o gaussiana. La distribuzione normale ha la forma tipica di sezione di una campana ed è descritta da equazioni del tipo: f (x) ( x ) 2 1 exp 2 2 2 [2-6] dove e sono due parametri, variando i quali si hanno 2 funzioni, tutte caratterizzate dalla stessa forma a campana, più o meno slanciata, e dalla posizione del massimo (che si ha per x = ). Quale che sia la f(x), normale o non, il suo integrale tra due valori della X b a f ( x ) dx b a dP dx dx b a [2-7a] dp è la somma di infinite probabilità infinitesime; è quindi una probabilità e precisamente la probabilità che la variabile X risultato dell'esperimento abbia un valore compreso tra i due estremi a-b dell'intervallo di integrazione (Figura 2-19). Figura 2-19 - Densità di probabilità e suo integrale La certezza 1 è l'integrale: b a f ( x ) dx f ( x) dx 1 Ciò non esclude che la f(x), densità di probabilità, abbia valori diversi da zero solo in un certo intervallo c-d; in questo caso la certezza è data dall'integrale d c f ( x) dx 1 La distribuzione gaussiana ha valori diversi da zero, anche se piccolissimi, per qualunque 27 valore della X. Dobbiamo tenere presente, peraltro, che la distribuzione normale è una astrazione. Lo stesso teorema del limite centrale, se da un lato la indica come limite comune per esperimenti in cui il risultato è dovuto alla somma di molti fattori, sottolinea anche che si tratta di un limite, di una astrazione. Una distribuzione reale, per quanto vicina sia alla distribuzione normale, è necessariamente tronca. Figura 2-20 - Una distribuzione normale e la sua cumulata A ogni distribuzione di probabilità si associa una DISTRIBUZIONE CUMULATA di probabilità. Essa è semplicemente la probabilità che si ottenga dall'esperimento un valore della variabile X inferiore o eguale ad uno dato x: F( x) x [2-7b] f ( x) dx e riesce: b a f ( x) dx F( b) F( a) [2-7c] La distribuzione cumulata si indica usualmente con F(x). Aumentando x la F(x) va da 0 ad 1. La Figura 2-20 illustra una distribuzione normale e la corrispondente cumulata. Analogamente alla distribuzione cumulata di probabilità si possono costruire distribuzioni cumulate di frequenza, dette Poligoni somma. La Figura 2-21 mostra la distribuzione cumulata della frequenza per i dati della Tabella 2-2. Questa distribuzione può essere costruita in due modi, contando o meno il valore i-esimo nel calcolo della frequenza cumulata relativa al valore x . Nel primo caso risulta F(x) = i / N, nel secondo (che si usa nei test di normalità) F(x ) = (i-1) / N. 28 Per la frequenza cumulata si usa generalmente lo stesso simbolo F della distribuzione cumulata di probabilità. Ciò non porta ad ambiguità in quanto la distribuzione delle frequenze è discontinua, mentre la distribuzione di probabilità è generalmente continua. La Figura 2-22 mostra l'istogramma cumulato relativo sempre ai dati della Tabella 2-2. Figura 2-21 - Poligono somma 29 Figura 2-22 - Istogramma cumulato 30 2.8 - LOCAZIONE, DISPERSIONE, MOMENTI DI UNA DISTRIBUZIONE DI PROBABILITÀ Abbiamo notato che la [2-6]: f ( x) 1 2 (x ) 2 exp 2 2 descrive infinite (meglio 2 ) funzioni, al variare dei parametri e . La Figura 2-23 mostra alcune di queste funzioni, ottenute con diversi valori dei parametri. L'area totale sottesa dalle funzioni è sempre 1 (la certezza), ma possiamo agevolmente vedere come il grosso della probabilità sia diversamente posizionato a seconda del valore dei parametri. Per descrivere sinteticamente una distribuzione si usano parametri che descrivono la sua LOCAZIONE, vale a dire forniscono un valore della X che indica dove è centrato il grosso della probabilità, parametri che descrivono la sua DISPERSIONE, vale a dire forniscono una misura di quanto ampio sia l'intervallo in cui si hanno valori significativi della probabilità; frequentemente vengono forniti altri parametri, quali la ASIMMETRIA (che è una misura della mancanza di specularità tra le due parti della distribuzione a destra e a sinistra) e la CURTOSI (che misura quanto la distribuzione in esame si allontana dalla distribuzione normale). Figura 2-23 - Distribuzioni normali differenti per locazione e/o dispersione 31 Le misure usate per la locazione sono: a) la media b) la mediana c) la moda o le mode. La MEDIA è definita come MOMENTO del primo ordine della X. I momenti di una funzione continua sono forniti dalla equazione k x f ( x )dx k [2-8] k è l'ordine del momento. Il momento del primo ordine (Nota 3) è [2-9] x f ( x )dx La [2-9] pesa ogni valore della X per la corrispondente densità di probabilità. In molti casi la media viene indicata con E(X) e ciò quando siano in esame le medie di più variabili, il cui simbolo viene posto tra parentesi, come sopra è la variabile X. La media viene spesso chiamata SPERANZA MATEMATICA o semplicemente speranza (in inglese Expectation). Per una distribuzione discontinua la [2-8] si trasforma nella: NE k x ek p(e) [2-10] e 1 dove NE è il numero degli eventi possibili, «e» è l'indice di un evento, x il valore della variabile ad esso corrispondente, p(e) la sua probabilità. Per la distribuzione normale il momento che si ottiene integrando la [2-6] mediante la [2-9] risulta eguale al parametro della distribuzione stessa (ciò che spiega la coincidenza dei simboli). La MEDIANA è il valore della X per cui risulta F(x) = 0.5. La probabilità di ottenere dall'esperimento a caso un valore inferiore alla mediana è eguale alla probabilità di ottenere un valore superiore. Nel caso delle distribuzioni normali la media coincide con la mediana. La MODA è il valore della X per il quale si ha il massimo della distribuzione. Alcune distribuzioni 32 hanno più di un massimo e vengono dette MULTIMODALI. Anche la moda coincide nel caso delle gaussiane con la media. Le misure utilizzate per la DISPERSIONE sono: a) la varianza b) la deviazione standard c) l'intervallo d) l'intervallo interquartili. La VARIANZA è il MOMENTO CENTRALE del secondo ordine della X. I momenti centrali di una funzione continua sono forniti dalla equazione: k ( x ) k f ( x )dx [2-11] e il momento centrale del secondo ordine(Nota 4) è: 2 2 ( x )2 f ( x )dx [2-12] Esso è analogo al momento di inerzia in fisica, ma ogni punto è pesato per la sua densità di probabilità e non per la sua densità fisica: l'importanza di un punto di eguale densità aumenta con il quadrato della sua distanza dalla media , che ha significato analogo a quello del baricentro in fisica. La varianza è indicata generalmente con il simbolo 2. Ritroviamo questo simbolo nella equazione normale: in effetti calcolando l'integrale [2-12] della funzione di distribuzione normale si ottiene per esso il valore 2. La varianza viene indicata anche come E(X-E(X))2 o E(X-)2 , media della variabile a caso "quadrato dello scostamento dalla media della X". Pertanto possiamo affermare che nella equazione della funzione normale compaiono la sua media e la sua varianza. La DEVIAZIONE STANDARD è semplicemente la radice di 2, . L'INTERVALLO è utilizzato solamente per le distribuzioni discontinue o per quelle continue che hanno f(x) identicamente eguale a zero al di sotto di un certo valore della X e al di sopra di un altro valore della X, che sono appunto gli estremi dell'intervallo. L'INTERVALLO INTERQUARTILI è una misura di dispersione analoga alla mediana quale misura di locazione. Esso è ottenuto da: x3/4 - x1/4 essendo F(x1/4 ) = 0.25 e F(x3/4 )= 0.75. La distribuzione di probabilità viene divisa dai tre valori di X: x1/4 e x3/4 e mediana (= x2/4), in 4 33 parti, i QUARTILI, ciascuna con il 25% della probabilità (Figura 2-24). Analoghi sono i DECILI e i PERCENTILI. Nel caso di distribuzioni di probabilità discrete la varianza è calcolata mediante la NE ( x e ) 2 p (e) 2 [2-13] e 1 Figura 2-24 - Quartili La Tabella 2-3 seguente riporta i valori dei parametri , 2, e per le distribuzioni relative al lancio di N dadi. N 1 2 3 4 5 10 15 20 25 30 2 4 / 4 3 3.5 2.9167 1.7078 -1.269 7.0 5.8333 2.4152 -0.634 10.5 8.7500 2.9580 -0.423 14.0 11.6667 3.4157 -0.317 17.5 14.5833 3.8188 -0.254 35.0 29.1667 5.4006 -0.127 52.5 43.7500 6.6144 -0.085 70.0 58.3333 7.6376 -0.063 87.5 72.9167 8.5391 -0.051 105.0 87.5000 9.35414 -0.042 Si nota facilmente che la media è eguale a 3.5 N e che la varianza è eguale a 0.83333 = 2.9167 N. 34 I moderni calcolatori da tavolo hanno una istruzione, la istruzione RND, in grado di generare un numero casuale compreso tra 0 ed 1, con una distribuzione rettangolare. Qualcosa come un dado con cento milioni di facce numerate da 0.000000005 a 0.999999995. La media di questa distribuzione praticamente continua è eguale a 0.5 e la sua varianza è 0.083333. Facilmente si possono calcolare numeri somma di 2,3,4,... numeri a caso provenienti dalla distribuzione rettangolare fornita dal computer. Essi avranno media 0.5 N e varianza 0.083333 N. Con la somma di una diecina di numeri a caso si ottiene un campione estratto da una distribuzione gaussiana praticamente perfetta in modo estremamente facile, cosa che può essere d'aiuto per molte simulazioni. Per generare una distribuzione gaussiana con varianza unitaria basta moltiplicare il valore ottenuto sommando N (10) numeri a caso per (1/ 0.08333333 N)1/2. Per ottenere un campione da una distribuzione con media 0 e varianza 1 basta sottrarre alla somma degli N valori forniti dalla istruzione RND la media 0.5 N e quindi moltiplicare per (1/ 0.08333333 N)1/2. La generazione di valori con distribuzione gaussiana è molto importante per le simulazioni di esperimenti. Vi sono parecchi algoritmi che forniscono variabili con distribuzione normale. L’algoritmo di Box-Muller (G. E. P. Box, M. E. Müller. “A Note on the Generation of Random Normal Deviates”, The Annals of Mathematical Statistics. 29, 610-611 (1958)) genera coppie di numeri casuali indipendenti e distribuiti normalmente, con media nulla e varianza uno. L’algoritmo richiede due valori casuali con distribuzione uniforme U(0,1), generabili mediante la funzione RND. Siano a1 e a2. x1 = √− 2 ln a1 cos 2 π a2 x2 = √− 2 ln a1 sin 2 π a2 x1 e x2 sono “standard deviates”. Oltre ai parametri di locazione e dispersione si forniscono talora i parametri di asimmetria e curtosi. La ASIMMETRIA (Skewness) è il rapporto tra il momento centrale del 3 ordine e la terza potenza della deviazione standard: 3 / 3 Una asimmetria positiva indica che la funzione di distribuzione è allungata verso i valori positivi. La CURTOSI (Excess, Kurtosis) è collegata al momento centrale del quarto ordine: 4 / 4 3 Si sottrae il valore 3 in modo che risulti nulla per la distribuzione normale. 35 La curtosi è positiva quando la densità di probabilità è relativamente grande in un intervallo molto ristretto della X e bassa altrove. La curtosi è negativa quando la probabilità è relativamente piccola vicino alla media e relativamente grande lontano dalla media: è questo il caso di una distribuzione «a due punti» con eguale probabilità per i due unici eventi possibili. In questo caso la curtosi è -2. 36 2.9 - LOCAZIONE E DISPERSIONE DEL CAMPIONE Ogni elemento della statistica segue il parallelismo tra frequenza e probabilità, tra misura e astrazione, tra campione e popolazione. Così anche locazione e dispersione sono misurate sul campione, e le grandezze così misurate sono una STIMA dei valori della popolazione. Abbiamo visto, nel caso della popolazione (distribuzione di probabilità) che i parametri vengono indicati con lettere greche, , 2, e Nel caso del campione si utilizzano le lettere latine corrispondenti alle greche. La media viene peraltro frequentemente indicata con x , anziché con m. La deviazione standard viene indicata con s. Poiché il campione è discontinuo si applicano opportune varianti delle equazioni [2-10] e [2-13]. La media è fornita da: NR m x r f (r ) [2-14a] r 1 dove NR è il numero dei risultati ottenuti ed f(r) la frequenza (relativa) del risultato x r. Per esempio, se sono state effettuate 10 ripetizioni, ottenendo i risultati: 1.2, 1.3, 1.2, 1.3, 1.1, 1.0, 1.2, 1.3, 1.2, 1.1, il numero dei risultati ottenuti è NR = 4: Risultato x 1.0 1.1 1.2 1.3 Frequenza ass. 1 2 4 3 Frequenza f 0.1 0.2 0.4 0.3 Media Prodotto x f 0.10 0.22 0.48 0.39 1.19 Ordinariamente si preferisce fare riferimento alla numerosità I del campione (numero delle ripetizioni) e calcolare la media come [2-14b] La differenza consiste nel fatto che, se su di I risultati ve ne sono alcuni eguali, nel calcolo mediante la [2-14a] essi vengono considerati una sola volta (ma moltiplicati per la frequenza con cui il risultato 37 si è presentato). Nel calcolo mediante la [2-14b], del tutto equivalente, ogni risultato è "contato" una sola volta, come se non vi fossero risultati eguali, e quindi con frequenza 1/I. Analogamente alla [2-14a] si calcola la VARIANZA del CAMPIONE come: sc2 NR ( x r m) 2 f ( r ) [2-15a] r 1 dove NR è il numero dei risultati ottenuti, f(r) la frequenza del risultato x ed m è la media stim Anche per il calcolo della varianza ordinariamente si preferisce fare riferimento alla numerosità del campione e calcolarla come s c2 I ( x i m) 2 / I [2-15b] i 1 Le espressioni [2-15a] e [2-15b] sono del tutto equivalenti. Quando i dati sono raggruppati in intervalli di classe, come è stato visto a proposito della costruzione dell'istogramma delle frequenze, per il calcolo della media si utilizza la NI m raggruppati x ci f (ni) [2-16] ni1 dove NI è il numero degli intervalli di classe, xci il valore centrale dell'intervallo di classe e f(ni) la frequenza della classe ni-esima. Analogamente, per il calcolo della varianza si utilizza la: NI s c2,raggruppati ( x ci m) 2 f (ni) [2-17] ni1 Mentre la [2-16] è una espressione corretta (nel senso che E(m) = , cioè la stima non è affetta da errore sistematico (stima «unbiased»), la [2-17] ha un errore sistematico, notevole soprattutto per intervalli di classe relativamente ampi, e talora viene corretta mediante una espressione dovuta a Sheppard (Nota 5): s c2,corr s c2, raggruppati h 2 /12 [2-18] La media del campione m e la varianza s c2 sono misure sperimentali della media e della varianza 2 della popolazione. Tuttavia la prima è una stima unbiased, vale a dire senza errore sistematico (per diversi campioni essa oscilla intorno al valore della popolazione, senza preferenza per scarti positivi o negativi). La seconda è una stima biased (affetta da un errore sistematico, nel senso che per campioni differenti essa anche oscilla intorno al valore della popolazione, ma con una preferenza verso valori minori di quello della popolazione). Possiamo spiegarci questo bias della stima della varianza pensando che il campione sia costituito da 38 un solo risultato. In questo caso la varianza del campione è zero (infatti non vi è dispersione all'interno del campione), e zero è sicuramente una sottostima di 2. Si dimostra che la: [2-19] è una migliore stima, unbiased, della varianza della popolazione. Quando il campione è costituito da un solo risultato la [2-19] fornisce la forma indeterminata 0/0: questa indeterminatezza indica matematicamente che con un campione di numerosità 1 non si può avere una stima della varianza della popolazione che risulta pertanto non determinabile. Il denominatore della [2-19] prende il nome di Numero dei gradi di libertà: esso viene talora indicato con la lettera greca oppure con l'acronimo d.o.f. (degrees of freedom). Il numero dei gradi di libertà si ottiene in generale sottraendo alla numerosità del campione I il numero dei parametri (calcolati dal campione) che sono utilizzati nel calcolo della varianza: nel caso della [2-19] per calcolare la varianza si è calcolato dal campione solamente un parametro, la media, e pertanto = I - 1. Vedremo in seguito casi in cui più parametri vengono calcolati dal campione e utilizzati per il calcolo della varianza. Ha importanza la deviazione standard relativa s/m, il cui quadrato è la varianza relativa. La deviazione standard relativa viene talora indicata come coefficiente di variazione, C.V.. Usualmente si esprime la deviazione standard relativa come percentuale: 100 s/m. 39 2.10 - LA DISTRIBUZIONE NORMALE STANDARD La distribuzione normale è di grande importanza, sia per il suo carattere di limite di moltissime distribuzioni, sia soprattutto perché caratteristica di moltissimi esperimenti reali, almeno approssimativamente. Pertanto appare di grande importanza il suo studio dettagliato. Tuttavia il fatto che ci siano 2 distribuzioni normali rende piuttosto difficile uno studio numerico. Per questo motivo, dalle infinite distribuzioni normali si ricava un'unica distribuzione base attraverso una trasformazione della variabile a caso X. Questa trasformazione è detta STANDARDIZZAZIONE ed il suo risultato è una TRASFORMATA Z: z x [2-20] Per le note regole di differenziazione risulta: dz dx dx dz [2-21] Sostituendo le [2-20] e [2-21] nella [2-6], equazione della distribuzione normale, si ottiene: f (x ) dp dp dz 1 e dx dz dx 2 ( x ) 2 2 2 Pertanto: dp 1 1 e dz 2 z2 2 Infine, eliminando a destra e a sinistra si ottiene: f (z) dp 1 e dz 2 z2 2 [2-22] La [2-22] non contiene parametri variabili: la variabile standardizzata ha UNA SOLA FUNZIONE DI DISTRIBUZIONE, che prende il nome di DISTRIBUZIONE STANDARD NORMALE o semplicemente Distribuzione standard (Figura 2-25). Se si calcolano la media e la varianza della distribuzione standard si ottiene = 0 e 2 = 1. Sostituendo questi valori nella [2-6] si riottiene del resto la [2-22]. Avendo una sola distribuzione normale, la standard, possiamo ora calcolare qualche valore, quali quelli riportati nella Tabella 2-4. 40 Figura 2-25- La distribuzione normale standard (variabile Z) Tabella 2-4 - Valori di f(z) e F(z) per la distribuzione standard normale. z f(z) 100 F(z) -4.0 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 0.0001338 0.0001987 0.0002919 0.0004248 0.0006119 0.0008727 0.0012322 0.0017226 0.0023841 0.0032668 0.0044318 0.0059525 0.0079155 0.0104209 0.0135830 0.0175283 0.0223945 0.0283270 0.0354746 0.0439836 0.0539910 0.0656158 0.0789502 0.0940491 0.1109208 0.1295176 0.1497275 0.1713686 0.1941861 0.2178522 0.0031675 0.0048100 0.0072352 0.0107803 0.0159112 0.0232633 0.0336933 0.0483428 0.0687142 0.0967607 0.1349902 0.1865817 0.2555134 0.3466978 0.4661192 0.6209669 0.8197541 1.0724114 1.3903452 1.7864425 2.2750137 2.8716567 3.5930324 4.4565468 5.4799299 6.6807213 8.0756674 9.6800489 11.5069675 13.5666075 41 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 0.2419707 0.2660853 0.2896916 0.3122539 0.3332246 0.3520653 0.3682701 0.3813878 0.3910427 0.3969525 0.3989423 0.3969525 0.3910427 0.3813878 0.3682701 0.3520653 0.3332246 0.3122539 0.2896915 0.2660852 0.2419707 0.2178522 0.1941860 0.1713686 0.1497274 0.1295176 0.1109208 0.0940491 0.0789501 0.0656158 0.0539910 0.0439836 0.0354746 0.0283270 0.0223945 0.0175283 0.0135830 0.0104209 0.0079154 0.0059525 0.0044318 0.0032668 0.0023841 0.0017226 0.0012322 0.0008727 0.0006119 0.0004248 0.0002919 0.0001987 0.0001338 15.8655272 18.4060135 21.1855412 24.1963673 27.4253120 30.8537579 34.4578247 38.2088585 42.0740318 46.0172195 50.0000000 53.9827881 57.9259758 61.7911453 65.5421829 69.1462479 72.5746918 75.8036346 78.8144684 81.5939941 84.1344757 86.4333954 88.4930344 90.3199539 91.9243317 93.3192825 94.5200729 95.5434570 96.4069672 97.1283417 97.7249832 98.2135620 98.6096573 98.9275894 99.1802444 99.3790359 99.5338821 99.6533051 99.7444839 99.8134232 99.8650055 99.9032364 99.9312897 99.9516525 99.9663086 99.9767380 99.9840927 99.9892197 99.9927673 99.9951935 99.9968325 Primo quartile Mediana Terzo quartile Estremamente importanti sono altri valori, quelli dell'integrale della funzione di distribuzione SIMMETRICO rispetto alla mediana: p z z [2-23] f ( z) dz 42 Questa probabilità (usualmente espressa come p%) è detta probabilità di fiducia. Il suo valore è indicato anche come 1 - 2, essendo dato dalla: z [2-24] f ( z) dz ATTENZIONE: frequentemente in letteratura la grandezza qui riportata come è indicata da /2. I valori di p% sono riportati nella seguente Tabella 2-5. 43 Tabella 2-5 - Valori di 2 e p% per la distribuzione Z z 2 p% 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 4.0 100.0000000 92.0344391 84.1480637 76.4177170 68.9156494 61.7075043 54.8506317 48.3927307 42.3710785 36.8120117 31.7310486 27.1332092 23.0139313 19.3601074 16.1513367 13.3614349 10.9598694 8.9130859 7.1860657 5.7433167 4.5500336 3.5728760 2.7806854 2.1448212 1.6395111 1.2419281 0.9322357 0.6933899 0.5110321 0.3731537 0.2699890 0.1935272 0.1374207 0.0966949 0.0673828 0.0465240 0.0318146 0.0215607 0.0144653 0.0096130 0.0063324 0.0000000 7.9655609 15.8519363 23.5822830 31.0843506 38.2924957 45.1493683 51.6072693 57.6289215 63.1879883 68.2689514 72.8667908 76.9860687 80.6398926 83.8486633 86.6385651 89.0401306 91.0869141 92.8139343 94.2566833 95.4499664 96.4271240 97.2193146 97.8551788 98.3604889 98.7580719 99.0677643 99.3066101 99.4889679 99.6268463 99.7300110 99.8064728 99.8625793 99.9033051 99.9326172 99.9534760 99.9681854 99.9784393 99.9855347 99.9903870 99.9936676 0.6745 1.1503 1.6449 1.9600 2.3640 2.5758 2.8070 3.0903 3.2905 3.8905 50 25 10 5 2 1 0.5 0.2 0.1 0.01 50 75 90 95 98 99 99.5 99.8 99.9 99.99 44 La [2-23] ci dice che vi è la probabilità del p% che un risultato dell'esperimento a caso con distribuzione standard sia compreso nell'intervallo tra i valori -z e +z estremi dell'intervallo di integrazione. Il valore di z associato tramite la [2-23] ad un certo p% viene detto valore p% o valore critico della variabile Z e indicato frequentemente con zp L'intervallo tra - zp e zp è detto INTERVALLO di FIDUCIA al LIVELLO p%, o anche intervallo di confidenza al p% (confidenza traduce i termini inglese e francese confidence e confiance, in modo molto "letterale"). Data la sua posizione simmetrica rispetto alla mediana, l'intervallo di fiducia lascia fuori due EGUALI frazioni di probabilità, una verso destra ed una verso sinistra: a ciascuna delle due corrisponde una percentuale di probabilità %, probabilità di significato unilaterale destro di zp, probabilità di significato unilaterale sinistro di - zp. L'insieme delle due aree tratteggiate nella Figura 2-26 prende il nome di probabilità bilaterale di significato di zp , costituita da una probabilità di significato unilaterale destro e da una probabilità di significato unilaterale sinistro. Figura 2-26 - Intervallo di fiducia 95% e significati del valore p% di Z (o valore critico per p= 95%) Il valore 95% della Z è 1.96. Vi è il 95% di probabilità che il risultato di un esperimento descritto dalla variabile standard normale sia compreso in questo intervallo: -1.96 < z < 1.96 p% = 95% ed è, in generale 45 z p z z p p% 100 zp z p f (z) dz Ma OGNI distribuzione normale può essere ricondotta alla distribuzione standard mediante un'opportuna trasformazione, la [2-20], e pertanto: z p x z p p % 100 zp zp f (z)dz [2-25] (si intende con probabilità p%). Moltiplicando i tre termini della [2-25] per si ottiene: z p x z p [2-26] e addizionando ai tre termini , si arriva alla: z p x z p [2-27] che ci dice che vi è il p% di probabilità che il risultato di una singola ripetizione di un esperimento a caso sia compreso nell'intervallo simmetrico di ampiezza totale 2 zp intorno alla media . Questo è l’intervallo di fiducia del valore del risultato dell’esperimento intorno alla media della popolazione. Si noti che, se ai tre termini della [2-26] sottraiamo x e moltiplichiamo per -1, otteniamo prima: x z p x z p e poi x z p x z p [2-28] (moltiplicando per -1 i termini di una diseguaglianza i segni < e > si invertono in > e < rispettivamente). La [2-28] è molto importante: essa ci dice che, se otteniamo da una singola ripetizione di un esperimento a caso, il valore x, il valore del parametro della popolazione è compreso con una certa probabilità p% nell'intorno di x simmetrico e con ampiezza totale 2 z . Questo intorno è l’intervallo di fiducia della intorno al valore misurato. Ovviamente la popolazione da cui è stato estratto x deve avere una distribuzione normale. La [2-28] ci indica quindi che un generico risultato x è la STIMA, con bontà misurata dall'intervallo di fiducia, del valore medio della popolazione. Il nostro problema ora è che NON È NOTO, salvo nel caso infrequente che l'esperimento sia stato ripetuto tante migliaia di volte da poter considerare la varianza da esso ricavata come praticamente coincidente con quella della popolazione. Nel linguaggio chimico la viene spesso indicata come valore vero. Si intende che stiamo 46 misurando una grandezza con un errore dovuto a fattori casuali. Sia xv il valore vero di questa grandezza. A rigore dovremo dire che l'errore di misura è ritenuto normale (con distribuzione normale), media () zero [errore accidentale, non sistematico] e varianza 2 . In altre parole è l'errore la variabile random, mentre il valore vero della nostra grandezza è una costante. Il modello statistico di una misura sperimentale viene ampliato in: x = xv + b + dove b sta per bias (errore sistematico). In questo caso la media di è sempre zero, e la media della x NON è il valore vero ma lo stesso addizionato del bias. 47 2.11 - SIGNIFICATO Un valore di X esterno all'intervallo di fiducia ad un prescelto valore di p% (generalmente 95% o 98%) è un valore inusuale, tanto più quanto maggiore è il valore assoluto della variabile standardizzata corrispondente, z = (x-)/ Ad ogni valore estratto, tramite z = (x-)/, viene associato un livello di SIGNIFICATO: 2 2 a) Bilaterale z f (z) dz dove |z| indica il valore assoluto di z; b) Unilaterale destro c) Unilaterale sinistro z f (z)dz z f (z) dz Anche ai valori critici zp è possibile associare il significato bilaterale, unilaterale destro, unilaterale sinistro. P.e. il valore zp = 1.96, corrispondente al limite superiore dell’intervallo di fiducia al 95% di probabilità, ha significato bilaterale del 5%, significato unilaterale destro del 2.5%, significato unilaterale sinistro del 97.5%. Il suo simmetrico z = -1.96 ha significato bilaterale del 5%; unilaterale destro 97.5%, unilaterale sinistro 2.5%. I valori del significato possono essere ricavati agevolmente dalla Tabella 2-5. I valori di significato sono utilizzati nei test di significato, test che servono per valutare se un risultato proviene da una determinata popolazione o è anomalo, vale a dire proviene da altra non specificata popolazione. Ogni test è basato su di una IPOTESI NULLA, per esempio: H0 = il dato x proviene da una popolazione normale con media e deviazione standard La notazione usuale per l'ipotesi nulla riguarda il parametro che viene testato. H0 : x = sintetizza l'espressione precedente, sottintendendo che è nota anche la deviazione standard della popolazione. Supponiamo di aver ottenuto un certo valore di x e di aver calcolato, mediante i valori noti di e , il valore z = 2.8. Dalla Tabella 2-5 vediamo che il significato bilaterale di z è 0.5% circa. È poco 48 probabile che questo valore provenga dalla popolazione considerata, e pertanto possiamo concludere che il valore x determinato non soddisfa l'ipotesi nulla: se l'ipotesi nulla non è verificata, allora deve essere valida l'ipotesi alternativa, che il valore misurato provenga da altra popolazione. Normalmente i test di significato vengono condotti fissando un livello di significato: se il significato della determinazione è inferiore, allora il test non è passato (la ipotesi nulla non è verificata). Il significato bilaterale è scelto quando l'utente è interessato a sapere se il valore ottenuto dal suo esperimento è semplicemente incompatibile con la popolazione ipotizzata; i test unilaterali sono scelti quando l'utente desidera sapere se il suo risultato è significativamente maggiore o minore dei valori ottenibili dalla distribuzione ipotizzata. Per specificare se si tratta di test bilaterale o unilaterale, accanto all'ipotesi nulla scriveremo una IPOTESI ALTERNATIVA: H1 : x x è significativamente diverso da H1 : x < x è significativamente minore di H1 : x > x è significativamente maggiore di . Si rammenti: 1) Per quanto conosciamo sinora (distribuzione gaussiana) possiamo applicare i test di significato solo conoscendo (μ è fornito dalla ipotesi); 2) Il test presentato riguarda un singolo risultato. Se vi è una serie di risultati da esaminare il test è più complesso, anche se per ogni risultato può essere applicato il procedimento sopra esposto. Torneremo presto sugli intervalli di fiducia e sui test di significato. Nell'immediato sfrutteremo le nozioni sulla distribuzione normale e quelle sulle stime di media e varianza ottenute dal campione per introdurre una delle più diffuse utilizzazioni della distribuzione normale cumulata. 2.12 - PROBITS Molti fenomeni sperimentali hanno una Funzione Risposta simile alla curva di distribuzione normale cumulata, ciò che ci fa capire che questi fenomeni hanno alla base un fenomeno casuale con distribuzione gaussiana. Tra questi fenomeni è la relazione tra uno stimolo (p.e., quantità di farmaco somministrata) e percentuale degli individui che rispondono allo stimolo (funzione risposta). Gli individui che rispondono ad un certo livello dello stimolo sono tutti quelli che rispondono a livelli inferiori dello 49 stimolo più quelli che rispondono solo a quel livello dello stimolo, non avendo risposto a livelli inferiori. In altre parole, gli individui che iniziano la loro risposta ad un certo livello dello stimolo sono analoghi alla frequenza assoluta, la loro frazione è analoga alla FREQUENZA, mentre la frazione di quelli che rispondono a quel livello sono analoghi alla FREQUENZA CUMULATA. Si suppone che la distribuzione degli individui che iniziano a rispondere ad un certo livello dello stimolo sia una distribuzione normale. Dalla distribuzione di frequenza degli individui che rispondono allo stimolo, cioè dalla distribuzione cumulata, si può ottenere la distribuzione di frequenze, esattamente operando in modo inverso a quello con cui dall'istogramma di classe si ottiene l'istogramma cumulato. Vediamo un esempio artificiale: Stimolo 50 70 90 110 130 150 170 190 210 230 250 270 290 310 330 350 370 390 410 430 Risposta (%) 1 3 5 6 9 14 17 24 33 43 54 65 74 81 85 91 95 99 100 100 Frequenza di classe (%) 1 2 2 1 3 5 3 7 9 10 11 11 9 7 4 6 4 4 1 0 Stimolo (valore centrale) normalizzato -2.28 -2.03 -1.78 -1.52 -1.27 -1.02 -0.76 -0.51 -0.26 -0.003 0.25 0.50 0.76 1.01 1.26 1.52 1.77 2.02 2.28 2.53 Si deve notare che la risposta è misurata ad un dato valore dello stimolo (p.e. risposta 9 a stimolo 130), ma l’intervallo di classe corrispondente è l’intervallo 110-130. Gli individui corrispondenti alla frequenza di classe (3%) hanno risposto a stimoli tra 110 e 130, e quindi la frequenza di classe viene attribuita al centro dell’intervallo di classe, 120 per l’esempio. 50 Figura 2-27 - Risposta sperimentale normalizzata (quadrati) e funzione cumulata normale con la media e la deviazione standard calcolate dal campione. L’ingrandimento indica come si ottiene il valore dei probits Dalle frequenze di classe possiamo calcolare utilizzando la già vista m NI [2-16] x ci f ( ni) ni 1 e le analoghe, il valore medio del campione e la varianza: risulta m = 240.2, s2 = 6227.96, e s = 78.92. 51 Figura 2-28 - Grafico dei probits Possiamo riportare a fianco la funzione risposta e la funzione cumulata normale con la media e la deviazione standard STIMATE dal campione (Figura 2-27). Il «grafico dei probits», illustrato in Figura 2-28, si ottiene con il seguente procedimento (che l’ingrandimento in Figura 2-27 illustra graficamente). Per ogni valore della x (ascissa), si entra con il corrispondente valore della variabile risposta (sempre una percentuale) nella terza colonna della Tabella 2-4. Per il primo dato dell’esempio la risposta è l’1%. Si entra con questo valore nella terza colonna e nella prima si legge il valore di z corrispondente. z f(z) 100 F(z) .... ..... ..... -2.6 0.0135830 0.4661192 -2.5 0.0175283 0.6209669 -2.4 0.0223945 0.8197541 -2.3 0.0283270 1.0724114 -2.2 0.0354746 1.3903452 (ovviamente occorre interpolare o utilizzare una Tabella più fitta o un programma di calcolo). Il valore di z che compare sulla stessa linea, in prima colonna, è il valore della variabile 52 standardizzata a cui corrisponde una probabilità cumulata eguale alla frequenza cumulata osservata. Al valore di z viene aggiunto 5, per evitare di avere valori negativi. I numeri così ottenuti prendono il nome di PROBITS (PROBability unITS). Il valore della X che corrisponde al valore 5 dei probits è la risposta 50%, frequentemente usata nei saggi biologici come misura della attività. Ecco i risultati per tutti i valori di risposta dell’esempio: Indice Risposta 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 0.01 0.03 0.05 0.06 0.09 0.14 0.17 0.24 0.33 0.43 0.54 0.65 0.74 0.81 0.85 0.91 0.95 0.99 z= (x-m)/s -2.524 -2.272 -2.020 -1.768 -1.515 -1.263 -1.011 -.759 -.507 -.255 -.003 .250 .502 .754 1.006 1.258 1.510 1.763 Probits - 5 Probits -2.326 -1.880 -1.644 -1.554 -1.341 -1.080 -.954 -.706 -.440 -.176 .101 .386 .644 .878 1.037 1.341 1.646 2.327 2.674 3.120 3.356 3.446 3.659 3.920 4.046 4.294 4.560 4.824 5.100 5.385 5.643 5.878 6.036 6.341 6.646 7.327 Il grafico dei probits quale è stato illustrato non ha alcuna utilità pratica. I probits sono utili quando lo stimolo non può essere tanto forte da arrivare al 100% della risposta. In questo caso non è possibile calcolare dal campione statistico la media, che corrisponde alla attività 50%. Questa viene allora ottenuta per estrapolazione, come nell’esempio in Figura 2-29 in cui sono stati utilizzati le risposte ottenute con i primi otto valori dello stimolo. Attraverso i punti viene fatta passare una retta, e la intersezione della retta con l’ordinata 5 (corrispondente a z= 0) fornisce il valore 50% dello stimolo. Sfortunatamente in moltissimi casi la validità della ipotesi che la distribuzione sia normale non è verificata. I punti nel grafico dei probits non sono ben allineati, e si ha un elevatissimo errore nella estrapolazione. 53 Figura 2-29 - Estrapolazione con il metodo dei Probits per ottenere il valore 50% dello stimolo 54 2.13 - PROPAGAZIONE DELLE VARIANZE Una legge di grande importanza nel mondo sperimentale è la legge di propagazione delle varianze per variabili INDIPENDENTI. Questa legge non verrà dimostrata. Essa riguarda la varianza di una variabile , funzione g(x1 ,x2 ,x3 ... xM ) di una o più variabili Xi indipendenti. Risulta: 2 2 Y 2 g( x1 , x2 ,..) g( x1 , x2 ,..) 2 2 X1 X2 x1 x2 2 g( x1 , x 2 ,...) 2 X3 ..... x 3 [2-29] Il simbolo indica il differenziale parziale; g/xi indica la derivata parziale della funzione g rispetto alla variabile xi, derivata che si calcola come le derivate usuali fissando il valore delle altre variabili xj (ji). Il valore della derivata parziale g/xi dipende dal valore di xi e anche dal valore delle xj (ji). Nel capitolo 3 seguente sono riportati alcuni esempi di applicazione della propagazione delle varianze a casi di particolare interesse in chimica analitica. La legge di propagazione delle varianze può essere applicata anche a variabili non indipendenti, con l'aggiunta di altri termini, che tengono in considerazione la correlazione tra le variabili X (Nota 6). 2.14 - DISTRIBUZIONI DELLA MEDIA, CHI QUADRO, DI STUDENT, DI FISHER Sono, ad eccezione di quella della media, distribuzioni legate alla distribuzione normale. Per questa ragione considereremo anche per la distribuzione della media m il caso di una distribuzione normale. Le deduzioni ottenute saranno peraltro di validità generale. Si estraggano da una comune popolazione normale X, p.e. con media = 15 e varianza 2 = 2.25 ( = 1.5), campioni con numerosità 5, e per ciascuno di questi campioni si calcoli la media m e la varianza s2 . m ed s2 sono il risultato di due esperimenti a caso, estrazione della media calcolata su di 5 valori della variabile normale X, ed estrazione della varianza calcolata su di 5 valori della variabile normale X. 55 I risultati di alcune sequenze sono raccolti nella seguente Tabella 2-6, a cui corrisponde la Figura 2-30, per le prime 10 sequenze. Nella Figura 2-31 sono riportati gli istogrammi delle tre variabili a caso (x, m, s2 ) ottenuti con 1000 sequenze (5000 valori di x, 1000 di m e di s2 ). Nella figura le scale degli istogrammi della X sono contratte rispetto a quelle di media e varianza. Tabella 2-6 - Sequenze costituite ciascuna da 5 valori di una variabile normale, dai quali viene calcolata la media e la varianza. Il "range" è l'intervallo, differenza tra il valore massimo ed il valore minimo. L’ordine della varianza e del range è crescente: la prima ripetizione è quella che ha fornito il massimo valore (il decimo) sia della varianza sia del range. x m s2 Ordine di s2 Range Ordine di r 11.2389 13.7634 13.1224 14.5068 17.6285 14.0520 5.4648 10 6.3896 10 14.7584 2.6979 5 3.0157 3 16.1700 2.1894 3 2.9665 2 16.5385 2.4152 4 3.1920 4 15.5802 1.8610 1 2.8874 1 14.5768 2.0294 2 3.3680 5 13.3195 15.2024 14.9168 16.3352 14.0182 18.1160 15.3279 15.6190 16.6376 15.1495 15.2915 14.9363 18.1283 17.0483 17.2881 14.5677 15.4677 15.5171 17.4551 14.8934 14.7112 14.8369 13.0344 13.8991 16.4024 14.2955 13.8812 56 17.1697 16.7619 17.2786 15.8774 3.2331 8 3.3974 6 14.4935 5.0070 9 4.3743 9 15.1212 3.1359 7 3.5645 7 15.1299 3.0100 6 3.8816 8 12.3383 15.2271 15.9235 12.3022 16.6765 17.4559 14.7795 15.0268 14.4522 13.8914 14.9132 16.1592 14.6873 16.8857 13.0041 Valore minimo di x: 11.2389 Valore massimo di x: 18.1283 Range di x: 6.8894 Valore minimo di m: 14.0520 Valore massimo di m: 16.5385 Range di m: 2.4865 57 Figura 2-30 - Rappresentazione grafica delle 10 ripetizioni ed istogrammi Figura 2-31 - Istogrammi dopo 1000 ripetizioni Si noti: a) m e x sono ambedue stime di (come si può agevolmente dimostrare con l'integrale che calcola la media); b) la dispersione di m è nettamente inferiore a quella di x; in altre parole m è una STIMA di 58 MIGLIORE di x; possiamo valutare questa dispersione con l'intervallo dei valori di x ottenuti (circa 6.9) che è circa 2.8 volte superiore all'intervallo della m, pari a circa 2.5. c) la stima s2 della varianza è una variabile a caso molto dispersa, con valori in questo caso da 1.86 a 5.46 circa, stime del valore 2.25. d) poiché la stima della varianza è la somma di una serie di quadrati è ovvio che la sua distribuzione di probabilità non potrà essere gaussiana, in quanto la distribuzione normale prevede una (eventualmente piccolissima) probabilità anche per valori negativi; inoltre la distribuzione gaussiana è simmetrica. e) l'intervallo, che, come abbiamo visto, è una possibile misura di dispersione, ha una relazione con la varianza, come risulta dal quasi identico ordine dei valori. 2.14.1 Distribuzione della media Possiamo applicare alla variabile m (la media calcolata su di N ripetizioni) m x1 x 2 x 3 ... x N N la legge di propagazione delle varianze [2-29] (poiché tutte le variabili xi sono tra di loro indipendenti, in quanto il risultato di una ripetizione non può essere influenzato da quello delle altre ripetizioni (Nota 7): 2 2m 2 m m 2 2 x1 x 2 .... x1 x2 2 m 2x N xN Poiché tutte le variabili x1 , x2 , .... provengono in realtà dalla medesima popolazione, X (l'indice indica unicamente che sono il primo, il secondo, ecc. valore estratto nella sequenza), esse hanno la medesima varianza σ2. Eguali sono anche le derivate parziali, ciascuna pari a 1 / N. I loro quadrati hanno il valore comune 1 / N2 . Vi sono N termini eguali nella espressione di propagazione delle varianze e pertanto: 2m 2 m 2 x i i 1 x i N N 1 i 1 N2 2 2 N [2-30] Risulta pertanto che la varianza della media m è 1/N-esimo della varianza della popolazione della variabile X: 59 2x N 2 m Per quanto si è detto a proposito dell'intervallo di fiducia del singolo risultato x, in ogni sequenza di 5 ripetizioni, da ogni evento, otteniamo una stima di . Per una sequenza analoga a quelle della Tabella 2-6 [16.1111, 19.6850, 17.0935, 14.2314, 11.5793, m = 15.74], , con p% =95%, zp = 1.96, si ha, ricordando che σ2 = 4, e che quindi 1.96 σ = 3.92: 1) 16.1111 - 3.92 < < 16.1111 + 3.92 12.19 < < 20.03 2) 19.6850 - 3.92 < < 19.6850 + 3.92 15.77 < < 23.60 3) 17.0935 - 3.92 < < 17.0935 + 3.92 13.17 < < 21.01 4) 14.2314 - 3.92 < < 14.2314 + 3.92 10.31 < < 18.15 5) 11.5793 - 3.92 < < 11.5793 + 3.92 7.66 < < 15.50 A ciascuno di questi intervalli è assegnata una fiducia del 95%. Poiché in questo caso noi conosciamo il valore di (15), possiamo verificare che in un caso, quello della seconda ripetizione, si è verificato l'evento poco probabile, che sia al di fuori dell'intervallo. L'informazione portata dalle cinque diseguaglianze è difficile da sintetizzare, anche perché in questo caso vi è incompatibilità tra le diseguaglianze 2 e 5 . L'intervallo di fiducia della media ha appunto la capacità di effettuare questa SINTESI delle cinque informazioni portate dagli intervalli di fiducia della variabile. Poiché la media è una variabile random con varianza σ2 /N, se σ2è la varianza della X, in questo caso la variabile m ha la varianza 4/5, la deviazione standard è 0.9 circa, e zp σ / N risulta pari a 1.8. L'intervallo di fiducia della intorno al valore m, 15.74, risulta: 15.74 - 1.8 < < 15.74 + 1.8 13.9 < < 17.5, espressione che individua per un intervallo (con fiducia 95%) molto più ristretto di ciascuno dei cinque forniti dalle singole determinazioni di X. In generale l'intervallo di fiducia della media (o del valore medio intorno alla media misurata) è fornito dalla: m zp m zp N N ( p%) 60 [2-31] Questo intervallo ci permette di valutare con la relativa incertezza da m, sua misura sperimentale. Ricordiamoci tuttavia che generalmente non disponiamo di una determinazione di σ abbastanza accurata per applicare la equazione [2-31]. SI RAMMENTI la differenza tra intervallo di fiducia del singolo valore (o della intorno ad un singolo valore) ed intervallo di fiducia della media (o della intorno alla media m). 2.14.2 Distribuzione chi quadro La seconda variabile che abbiamo ricavato dai nostri esperimenti riportati nella Tabella 2-6 è s2 , misura sperimentale di σ2. Come dalle infinite distribuzioni normali si arriva per standardizzazione ad un'unica distribuzione, così dalle infinite distribuzioni di s2 si arriva ..... purtroppo ad infinite distribuzioni. Tuttavia il punto di arrivo è un infinito di primo ordine, mentre il punto di partenza è di secondo ordine. La stima s2 dipende infatti dal valore 2 , ma la sua distribuzione dipende anche, e fortemente, dal numero N di valori della X che è stato utilizzato per stimare la varianza. La variabile standardizzata corrispondente riesce ad eliminare la dipendenza da , ma non quella da N, anche se in essa compare il valore dei gradi di libertà, = N-1 (in questo caso). La variabile standardizzata prende il nome di variabile chi-quadro 2: s2 2 [2-32] 2 La [2-32] si riferisce ad una particolare espressione della variabile 2 quale si incontra nello studio della stima della varianza; in generale una variabile 2 è la somma di variabili Z2 indipendenti: (xi i )2 Z Z .... Z 2i i 1 2 2 1 2 2 2 Questa variabile è sempre POSITIVA, e fortemente asimmetrica. Un esempio è mostrato nella Figura 2-32. Con l'aumentare di , in base al teorema del limite centrale, la distribuzione 2 tende ad una distribuzione normale. Il massimo della distribuzione si ha per -2. 61 Figura 2-32 - Distribuzioni chiquadro per vari gradi di libertà. 62 La variabile X, la cui varianza è stimata dalla s2 , DEVE essere una variabile normale. La variabile chi quadro è in generale ottenuta quando si hanno somme di quadrati, generalmente quadrati di scarti (Nota 8), per variabili originali che hanno la distribuzione normale richiesta. La Tabella 2-7 riporta i valori critici (valori p%) corrispondenti a determinati valori della probabilità cumulata F di alcune funzioni 2 : F( 2 ) (%) 1 1 2.5 5 95 97.5 99 0.0002 0.0010 0.0039 3.8413 5.0234 6.6348 2 0.0201 0.0506 0.1026 5.9912 7.3779 9.2109 3 0.1149 0.2158 0.3518 7.8145 9.3477 11.3438 4 0.2971 0.4844 0.7107 9.4873 11.1426 13.2773 5 0.5542 0.8313 1.1455 11.0703 12.8320 15.0859 6 0.8721 1.2373 1.6353 12.5918 14.4492 16.8125 7 1.2393 1.6899 2.1675 14.0674 16.0117 18.4766 8 1.6465 2.1797 2.7327 15.5078 17.5352 20.0898 9 2.0879 2.7002 3.3252 16.9189 19.0234 21.6641 10 2.5586 3.2471 3.9404 18.3066 20.4844 23.2109 11 3.0537 3.8154 4.5747 19.6758 21.9199 24.7266 12 3.5703 4.4038 5.2261 21.0254 23.3359 26.2188 13 4.1074 5.0088 5.8916 22.3613 24.7344 27.6875 14 4.6602 5.6289 6.5708 23.6846 26.1191 29.1406 15 5.2285 6.2617 7.2607 24.9961 27.4883 30.5781 16 5.8125 6.9082 7.9619 26.2969 28.8457 32.0000 17 6.4082 7.5645 8.6719 27.5879 30.1914 33.4063 18 7.0156 8.2305 9.3906 28.8691 31.5273 34.8047 19 7.6328 8.9063 10.1172 30.1436 32.8516 36.1875 20 8.2598 9.5908 10.8506 31.4102 34.1699 37.5664 21 8.8984 10.2832 11.5913 32.6699 35.4785 38.9297 22 9.5430 10.9824 12.3379 33.9238 36.7813 40.2891 23 10.1953 11.6885 13.0908 35.1719 38.0742 41.6406 24 10.8555 12.4014 13.8486 36.4150 39.3633 42.9766 25 11.5234 13.1191 14.6113 37.6523 40.6465 44.3125 26 12.1992 13.8438 15.3789 38.8848 41.9219 45.6406 27 12.8789 14.5732 16.1514 40.1133 43.1953 46.9609 28 13.5664 15.3086 16.9277 41.3379 44.4609 48.2813 29 14.2578 16.0469 17.7080 42.5566 45.7227 49.5859 30 14.9531 16.7910 18.4922 43.7734 46.9805 50.8906 La Figura 2-33 mostra i valori critici della distribuzione 2 con 5 gradi di libertà. Come abbiamo detto a proposito della distribuzione gaussiana, gli intervalli di fiducia si calcolano in modo da escludere una eguale probabilità all'estremo destro ed all'estremo sinistro della distribuzione. Pertanto, nel caso della asimmetrica distribuzione chi quadro, i valori nella prima 63 [seconda se si conta la colonna con i gradi di libertà] e nella sesta colonna delimiteranno l'intervallo di fiducia al 98%, quelli nella seconda e nella quinta l'intervallo di fiducia al 95%, quelli nella terza e nella quarta l'intervallo di fiducia al 90%. Figura 2-33 Valori critici (α 2.5%) della distribuzione chi quadro con 5 gradi di libertà Per = 4 (caso della Tabella 2-6) avremo il 95% di probabilità che la funzione chi quadro sia compresa nell'intervallo: s2 0.4844 2 111426 . Si invertano i tre termini: 1 2 1 2 0.4844 s 111426 . Si moltiplichi ora per s2 , tenendo conto del fatto che = 4: s2 4 s2 4 2 0.4844 111426 . ovvero: 8.26 s2 2 0.359 s2 L'intervallo di fiducia della deviazione standard si ottiene semplicemente estraendo la radice e risulta: 0.60 s < < 2.87 s. (Nota 9) 64 Vi è anche una distribuzione 2 non centrale: 2noncentrale i 1 x i2 i2 Anche altre distribuzioni hanno una corrispondente distribuzione non centrale, ma tutte queste distribuzioni sono di utilizzo estremamente raro in chimica analitica. 2.14.3 Distribuzione di Student Abbiamo visto come, da ogni valore misurato di varianza, sia possibile ricavare l'intervallo di fiducia della varianza, vale a dire l'intervallo in cui con una certa prefissata probabilità è contenuto il valore vero della varianza. Si noti la grande ampiezza di questo intervallo, la grande incertezza con cui stimiamo dai nostri dati sperimentali la varianza quando il numero dei gradi di libertà è piccolo. Quando abbiamo trattato degli intervalli di fiducia della variabile standard ci siamo riferiti alla trasformata Z z x per ottenere l'intervallo in cui, con una prefissata probabilità è contenuta la intorno ad un valore misurato x ( o intorno al valore m della media). L'ampiezza di questo intervallo è dovuto alla incertezza sulla x. La era supposta nota, e pertanto non poteva dare un contributo alla incertezza. In generale, noi non conosciamo , ma la stimiamo misurando s su di una serie di N determinazioni. Abbiamo or ora visto che questa misura ha una incertezza elevata. Nel determinare un intervallo di fiducia di senza conoscere , ma stimandolo mediante s, dobbiamo aggiungere alla incertezza sulla x anche la incertezza dovuta a s. Useremo pertanto in sostituzione della Z, una nuova trasformata: t x s [2-33] La [2-33] descrive la trasformata t della variabile a caso x, con media di popolazione e con stima s della deviazione standard di popolazione . 65 Quando la applichiamo alla variabile m (altra variabile a caso, media su di N ripetizioni della X) caratterizzata dalla stessa media di popolazione ma dalla varianza 2 /N stimata da s2 /N, la [2-33] diventa: t m s N [2-33a] di più generale applicazione, in quanto se abbiamo stimato la deviazione standard dobbiamo disporre anche della stima m di (ed m è una stima più efficiente della media della popolazione di quanto non sia un generico valore x). Questa nuova variabile è detta t di Student. Il chimico analitico inglese William Gosset, che lavorava presso il birrificio Guinness, pubblicò nel 1908 (Student. “The Probable Error of a Mean“. Biometrika. 6, (1) 1-25 (1908)) un lavoro in cui introduceva questa variabile, lavoro prodotto dalla necessità che ha il chimico analitico di lavorare con campioni a bassa dimensionalità N, tali quindi da non poter ottenere una stima di affetta da piccoli errori. Il lavoro fu pubblicato sotto lo pseudonimo Student in quanto Gosset, non essendo uno statistico, riteneva di aver dato un contributo da studente più che da specialista. La distribuzione di Student ha però una tale importanza da fare di Gosset una delle più importanti figure della statistica. La trasformazione [2-33] porta dalla variabile originale x alla t mediante un processo detto studentizzazione o autoscaling, analogo alla standardizzazione con cui viene ottenuta la variabile Z. Le distribuzioni di Student dipendono dal numero dei gradi di libertà (ovviamente, avendo a denominatore una grandezza che è collegata con la radice di una variabile 2). All'aumentare del numero di gradi di libertà la distribuzione di Student tende, per il teorema del limite centrale, ad una gaussiana, e precisamente alla distribuzione standard. La Tabella 2-8 riporta i valori di tp(valori p%) per i gradi di libertà da 1 a 30. tp dp dt t p dt 2 % 100 p% p% Per la distribuzione di Student, simmetrica come la gaussiana, vale la: 66 t dp dt dt t dp 1 dt 1 dt 2 t t dp dt dt ovvero: il significato unilaterale sinistro di -t è eguale al significato unilaterale destro di t. 67 Tabella 2-8 - Valori critici della distribuzione di Student p% ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 90 95 98 99 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 31.819 6.964 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.625 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 63.656 9.925 5.841 4.604 4.032 3.707 3.500 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 La Figura 2-34 riporta alcune distribuzioni di Student. Si noti come a piccoli valori di ν la distribuzione sia molto bassa nella parte centrale, e molto alta a valori elevati di t : questo fatto si spiega appunto con l'incertezza dovuta alla stima della varianza che aumenta la probabilità di deviazioni elevate dalla media, a spese ovviamente di una diminuzione delle deviazioni di minore entità. In Figura 2-35 la distribuzione con un grado di libertà è confrontata con la distribuzione standard, ingrandendo la zona a valori molto negativi. Si nota che l’area ombreggiata per la Z (a sinistra) corrispondente al significato unilaterale sinistro del 2.5%, è molto più piccola di quella a destra (significato unilaterale sinistro del valore -1.96 della t di Student con un grado di libertà). Per quanto riguarda gli intervalli di fiducia essi vengono modificati, rispetto a quelli desunti per la distribuzione normale, in: 68 Intervallo di fiducia della media: m t p s N m t p s [2-34] N Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimato da esse la media m della variabile X e la sua deviazione standard s, la media della popolazione delle X, , detta talora valore vero, sia compresa nell’intervallo [2-34] intorno a m. Intervallo di fiducia della media intorno al valore singolo: x t p s x t p s [2-35] Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimate da esse la media m della variabile X e la sua deviazione standard s, la media della popolazione delle X, , sia compresa nell’intervallo [2-35] intorno ad un qualunque singolo valore determinato x. Figura 2-34a - Distribuzioni di Student 69 Figura 2-34b - Distribuzioni di Student Figura 2-35 Probabilità di significato unilaterale sinistro del valore 1.96, in rosso per la distribuzione standard (2.5%), in blu per la distribuzione di Student con 1 grado di libertà (15%) Intervallo di fiducia del valore singolo intorno alla media della popolazione: t p s x t p s [2-35a] Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimato da esse la deviazione standard della variabile X, s, il risultato di una singola determinazione x della X (non compresa tra quelle utilizzate per determinare m ed s) sia compreso nell’intervallo [2-35a] intorno a . 70 L’intervallo di tolleranza (Nota 10) della x è riferito alla probabilità che un singolo valore della X (non compreso tra quelli utilizzati per calcolare m ed s) cada in un determinato intervallo intorno ad m, media stimata. Esso si ottiene dallo studio della funzione Y = x - m, la cui varianza è pari a 2 (1 + 1/N), ed è stimata da s2(1 + 1/N), solo nel caso in cui la x non appartenga al campione utilizzato per calcolare m (in caso contrario m contiene la x, e pertanto non vi è la indipendenza necessaria per applicare la regola della propagazione delle varianze). Risulta per questo intervallo: 1 N 1 N m t p s x m t p s N N [2-35b] Tra tutti questi intervalli di fiducia, quello espresso dalla [2-34] è di particolare importanza: suo tramite si esprime il risultato di una serie di determinazioni. 71 2.14.4 Distribuzione d Fisher Snedecor Introduciamo ora un'altra importante distribuzione, quella di Fisher-Snedecor. Consideriamo una variabile X normale, ed effettuiamo due serie di determinazioni. Nella prima serie, da ogni campione di 4 determinazioni calcoliamo s 12 , con ν1 = 3 d.o.f.; nella seconda, da ogni campione di 6 determinazioni, calcoliamo s 22 , con ν2 = 5 d.o.f.. s12 e s 22 sono misure sperimentali, indipendenti perché ottenute con differenti ripetizioni della determinazione di X, della stessa varianza σ2 della variabile X. La Figura 2-36, mostra alcuni risultati in forma grafica. Alcuni risultati di un esperimento simile, con serie di tre e cinque determinazioni, sono riportati nella Tabella 2-9. 72 Figura 2-36 Rappresentazione grafica di dieci esperimenti che forniscono la variabile F, e distribuzione di frequenze della stessa ottenuta dopo 10000 ripetizioni. Tabella 2-9 - Risultati per la distribuzione di Fisher, ottenuti da una distribuzione normale con media 24 e varianza 9. Prima serie di 3 ripetizioni X m1 s12 11.2389 13.7634 13.1224 X m2 s 22 F s12 / s22 14.5068 17.6285 13.3195 15.2024 14.9168 12.7082 1.7220 16.3352 14.0182 18.1160 15.1148 2.9201 0.5897 15.6051 1.7828 3.1872 16.0591 2.4636 1.4318 14.3025 1.8996 .6530 15.3279 15.6190 16.6376 15.1495 15.2915 16.1565 5.6820 14.9363 18.1283 17.0483 17.2881 14.5677 15.4677 15.5171 17.4551 16.7043 3.5274 14.8934 14.7112 14.8369 13.0344 13.8991 16.4024 14.2955 13.8812 14.8138 17.1697 16.7619 Seconda serie di 5 ripetizioni 1.2405 12.3383 15.2271 73 17.2786 15.9235 12.3022 16.6765 17.0701 1.0240 17.4559 14.7795 15.0268 14.4935 4.4548 .2299 14.8207 1.8080 2.4418 14.6189 2.3622 1.9904 14.3514 6.9821 .5548 14.2674 1.9730 1.8912 15.5501 3.0979 1.1192 14.4522 13.8914 14.9132 16.1592 14.6873 15.7541 4.4149 16.8857 13.0041 15.2510 13.7246 16.0152 15.3902 13.4382 14.5264 15.0469 4.7019 12.0341 14.9208 14.8293 12.6485 17.0627 11.7161 13.5012 16.8286 13.9281 3.8734 15.4619 16.3724 16.2321 14.9980 14.6696 14.2264 12.5241 14.9189 16.0221 3.7314 14.1811 12.3042 15.4336 16.7212 13.3891 17.0608 15.7719 14.8075 13.9730 3.4672 Si noti la grande variabilità ed asimmetria del rapporto F, che proviene da due variabili (varianze) molto disperse e a loro volta asimmetriche. La funzione di distribuzione di Fisher dipende dal numero dei gradi di libertà del numeratore e del denominatore, e pertanto si indica come F(1,2). Essa è mostrata in Figura 2-37 per alcuni valori dei gradi di libertà. La Figura 2-37 permette anche il confronto tra la distribuzione di Fisher e la distribuzione chiquadro. Al tendere ad infinito del numero dei gradi di libertà a denominatore la F tende ad una distribuzione chiquadro con i gradi di libertà del numeratore divisa per il numero dei gradi di libertà: s 2 2 s2 s2 2 lim F 12 12 12 1 1 s 2 1 Analogamente al tendere ad infinito del numero dei gradi di libertà a numeratore la F(1,2) tende a 1/2(1). 74 Inoltre la distribuzione F(1, ), con un grado di libertà a numeratore, coincide con la distribuzione della variabile t2(), quadrato della variabile t di Student con il numero dei gradi di libertà del denominatore. 75 Figura 2-37- Distribuzioni di Fisher e confronto con distribuzioni chiquadro. Infatti 2 ( x ) 2 x t s s2 2 e il numeratore è una stima della varianza ottenuta con un solo grado di libertà, da un unico valore della X. Ovviamente si può anche affermare che la variabile t di Student è distribuita come F(1, ) . La Tabella dei valori p% della distribuzione di Fisher è una grande Tabella, per la doppia dipendenza dai gradi di libertà. Le Tabelle 2-10 e 2-11 riportano solamente i valori di F per cui F(F) (probabilità cumulata) è il 95% e il 99%, per alcuni valori dei gradi di libertà. La F viene utilizzata generalmente per test unilaterali destri. Se è necessario un test unilaterale sinistro è sufficiente invertire il rapporto delle varianze per trasformarlo in un test unilaterale destro. 76 Tabella 2-10 - Valori della F di Fisher-Snedecor per cui F(F)= 95% ν1 2 3 4 5 7 10 15 20 2 19.000 19.164 19.247 19.296 19.353 19.396 19.429 19.446 3 9.552 9.277 9.117 9.013 8.887 8.786 8.703 8.660 4 6.944 6.591 6.388 6.256 6.094 5.964 5.858 5.803 5 5.786 5.409 5.192 5.050 4.876 4.735 4.619 4.558 7 4.737 4.347 4.120 3.972 3.787 3.637 3.511 3.445 10 4.103 3.708 3.478 3.326 3.135 2.978 2.845 2.774 15 3.682 3.287 3.056 2.901 2.707 2.544 2.403 2.328 20 3.493 3.098 2.866 2.711 2.514 2.348 2.203 2.124 25 3.385 2.992 2.759 2.603 2.405 2.236 2.089 2.007 30 3.316 2.922 2.690 2.534 2.334 2.165 2.015 1.932 40 3.232 2.839 2.606 2.449 2.249 2.077 1.924 1.839 50 3.183 2.790 2.557 2.400 2.199 2.026 1.871 1.784 100 3.087 2.696 2.463 2.305 2.103 1.927 1.768 1.676 ν2 Tabella 2-11 - Valori della F di Fisher-Snedecor, per cui F(F) = 99% ν1 2 3 4 5 7 10 15 20 2 99.000 99.166 99.250 99.299 99.356 99.399 99.432 99.449 3 30.816 29.457 28.710 28.237 27.672 27.229 26.872 26.690 4 18.000 16.694 15.977 15.522 14.976 14.546 14.198 14.020 5 13.274 12.060 11.392 10.967 10.456 10.051 9.722 9.553 7 9.547 8.451 7.847 7.460 6.993 6.620 6.314 6.155 10 7.559 6.552 5.994 5.636 5.200 4.849 4.558 4.405 15 6.359 5.417 4.893 4.556 4.142 3.805 3.522 3.372 20 5.849 4.938 4.431 4.103 3.699 3.368 3.088 2.938 25 5.568 4.676 4.177 3.855 3.457 3.129 2.850 2.699 30 5.390 4.510 4.018 3.699 3.304 2.979 2.700 2.549 40 5.179 4.313 3.828 3.514 3.124 2.801 2.522 2.369 50 5.057 4.199 3.720 3.408 3.020 2.698 2.419 2.265 100 4.824 3.984 3.513 3.206 2.823 2.503 2.223 2.067 ν2 77 2.15 - ALCUNI TEST DI SIGNIFICATO I test di significato servono, come si è già detto, per valutare se un risultato proviene da una determinata popolazione o è anomalo, vale a dire proviene da altra non specificata popolazione. Ogni test è basato su di una IPOTESI NULLA, per esempio: H0 = il dato x proviene da una popolazione normale con media e deviazione standard stimata s La notazione usuale per l'ipotesi nulla riguarda il parametro che viene testato. H0 : x = sintetizza l'espressione precedente. X può essere una qualunque variabile, normale, t, chiquadro, Fisher, ecc. Normalmente i test di significato vengono condotti fissando un livello di significato critico: se il significato della determinazione è inferiore, allora il test non è passato (la ipotesi nulla non è verificata). Il significato bilaterale è scelto quando l'utente è interessato a sapere se il valore ottenuto dal suo esperimento è semplicemente incompatibile con la popolazione ipotizzata; i test unilaterali sono scelti quando l'utente desidera sapere se il suo risultato è significativamente maggiore o minore dei valori ottenibili dalla distribuzione ipotizzata. Per specificare se si tratta di test bilaterale o unilaterale, accanto all'ipotesi nulla scriveremo una IPOTESI ALTERNATIVA: H1 : x x è significativamente diverso da H1 : x < x è significativamente minore di H1 : x > x è significativamente maggiore di . Si rammenti: 1) Si utilizzano i test di significato solo quando si può formulare una ipotesi; 2) Il test presentato riguarda un singolo risultato. Se vi è una serie di risultati da esaminare il test è più complesso, anche se per ogni risultato può essere applicato il procedimento sopra esposto. I test di significato sono direttamente connessi con l'intervallo di fiducia, almeno nel caso di test bilaterali. Le distribuzioni di Student, chi quadro e Fisher ci permettono un uso esteso di questi test. I test di uso più generale riguardano: 78 A) TEST SULLA MEDIA DI UN SINGOLO CAMPIONE di N ripetizioni a1) Distribuzione normale con varianza della popolazione nota 2 a2) Distribuzione normale, N molto grande a3) Distribuzione normale, varianza della popolazione incognita B) TEST TRA MEDIE DA DUE CAMPIONI DIFFERENTI, N1 e N2 b1) Distribuzioni normali con varianza nota b2) Distribuzioni normali, con N1 e N2 grandi b3) Distribuzioni normali con eguale varianza, incognita b4) Distribuzioni normali con varianze diverse non note C) TEST PER DATI ACCOPPIATI da distribuzioni normali con varianze non note D) TEST SU DI UNA SINGOLA VARIANZA E) TEST SULLE VARIANZE DA DUE CAMPIONI F) TEST DI BONTÀ DI ADATTAMENTO (FIT) G) TEST DI CONTROLLO DELLA CASUALITÁ 2.15.1 – Test sulla media di un singolo campione a1) a2) Nei casi a1) e a2) ricorriamo alla distribuzione standard. Nel secondo caso commetteremo un errore, ma tanto più piccolo quanto più grande è la numerosità N del campione. Il test viene effettuato sulla media m, ed ha come ipotesi nulla: m= H0 : Supponiamo di aver misurato 49 volte il calore molare di reazione tra acido cloridrico ed idrossido di sodio, avendo ottenuto: m = -57.39 kJoules/mole s = 2.17 kJoules/mole Vogliamo confrontare il nostro risultato con quello riportato in letteratura, -56.40 kJoules/mole. Riteniamo che, dato il numero delle determinazioni, la nostra stima della varianza sia accettabilmente eguale alla varianza della popolazione di tutte le misure effettuabili nel nostro laboratorio. Il valore di letteratura rappresenta la nostra ipotesi, quello che dovrebbe essere il valore medio delle nostre determinazioni se N fosse infinito. Calcoliamo la variabile standard: z 57.39 (56.40) 0.99 3.2 2.17 2.17 7 49 79 Poiché il test è bilaterale (vogliamo sapere solo se il nostro risultato è significativamente diverso da quello in letteratura, poco importa se in eccesso o in difetto), il segno di z non ha importanza. Entriamo nelle tavole della variabile standard Z. Estratto dalla Tabella 2-5 - Valori di 2 e p% per la distribuzione Z 2 z p% 3.1 0.1935272 99.8064728 3.2 0.1374207 99.8625793 3.3 0.0966949 99.9033051 3.4 0.0673828 99.9326172 3.5 0.0465240 99.9534760 Il significato bilaterale di z = 3.2 è solamente lo 0.14%. Perciò, ammesso che si sia scelto di operare ad un livello critico di significato del 2%, il test non passa, nel senso che la ipotesi nulla non è accettata. Pertanto si accetta la ipotesi alternativa, cioè che il nostro valore è significativamente diverso da quello riportato in letteratura. a3) Nel caso a3), quando la numerosità del campione è relativamente bassa, dobbiamo ricorrere alla distribuzione di Student. Si ricordi che: Supponiamo di aver determinato il contenuto di un farmaco in una serie di 5 fiale, e di aver ottenuto i seguenti valori (già ordinati): 277 281 290 297 300 mg Dobbiamo decidere se il risultato della nostra analisi rende il contenuto delle fiale compatibile con il valore dichiarato, 300 mg. Questo è assunto, sotto l’ipotesi nulla, come media della popolazione. Infatti se il valore dichiarato è vero, la differenza tra esso ed i valori misurati sarà dovuta solo 80 all’errore di determinazione; se esso è falso la differenza con i valori determinati sarà dovuta in parte alla differenza tra contenuto vero e contenuto dichiarato. Il test avrà come ipotesi nulla: H0 : m = 300 e come ipotesi alternativa: m 300 H1 : La media m risulta 289 mg. La varianza risulta dalla sommatoria degli scarti al quadrato: 144 + 64 + 1 + 64 + 121 = 394 divisa per 4: s2 = 98.5. La deviazione standard è 9.925 mg. La deviazione standard della media è 4.44. La t di Student risulta: (289 - 300)/ 4.44 = -11 / 4.44 = -2.48 Poiché il test è bilaterale utilizziamo il valore assoluto. Si rammenti infatti che: tp dp dt t p dt 2 % 100 p% p% e che per la distribuzione di Student, simmetrica come la gaussiana, vale la: t dp dt dt t dp 1 dt 1 dt 2 t t dp dt dt ovvero: il significato unilaterale sinistro di -t è eguale al significato unilaterale destro di t. Sulle tavole della t di Student troviamo, sulla linea corrispondente a 4 gradi di libertà: 2.48 p% 90 95 98 99 2.132 2.776 3.747 4.604 ν 4 p% = 93.18% Interpolando (o meglio ancora tramite opportuni calcoli) possiamo trovare il valore di p% e quindi di 2 corrispondente a 2.48: p% = 93.18%, 2 = 6.82%. Il valore 95% della t di Student per 4 gradi di libertà è 2.776 (vedi Tabella 2-8). Pertanto il test passa (al livello di fiducia 95% corrispondente al livello di significato bilaterale del 5%), vale a dire il contenuto da noi misurato è compatibile con il valore dichiarato. Nel ragionamento sopra esposto abbiamo considerato il test come bilaterale (contenuto 81 diverso). Avremmo potuto considerare come ipotesi alternativa la "contenuto sensibilmente minore". In questo caso il livello di significato unilaterale sinistro è il 3.41%, e pertanto la ipotesi nulla passa a livello di fiducia 97.5% (livello di fiducia per test unilaterali corrispondente al 95% del test bilaterale). A maggior ragione passa l’ipotesi nulla quando la ipotesi alternativa è "contenuto sensibilmente maggiore", implicante un test unilaterale destro per il quale il livello di significato è del 96.59%. In effetti se il risultato sperimentale (289) è minore di quello dichiarato NON può essere accettata l’ipotesi che esso sia maggiore: in casi come questo non è necessario (anzi è stupido) ricorrere ai test statistici. Vediamo un altro esempio. Una industria riceve da un fornitore una partita di una soluzione in cui la concentrazione del reattivo è dichiarata dal fornitore pari al 36.7%. Il laboratorio di controllo dell'industria effettua una serie di 8 determinazioni della concentrazione del reattivo, ottenendo i valori (già ordinati): 36.3 36.4 36.4 36.5 36.5 36.5 36.7 36.7 Il test avrà come ipotesi nulla: H0 : m = 36.7 e come ipotesi alternativa: H1 : m < 36.7 La media delle 8 determinazioni (7 gradi di libertà) è 36.5, e la deviazione standard stimata è 0.141. La deviazione standard della media è 0.05. La t di Student risulta essere: t = (36.5-36.7) / 0.05 = -4 La ricerca sulle tabelle viene effettuata con il valore assoluto. A t=4 corrispondono p% = 99.5, = 0.5%. Nelle tabelle questo è il significato unilaterale destro, esattamente eguale al significato unilaterale sinistro di t = -4, che è quello ricercato. 82 p% 95 98 99 2.365 2.998 3.500 ν 7 90 Poiché il significato unilaterale sinistro di t = -4 è molto piccolo (inferiore ad un prescelto valore critico, generalmente pari al 5% o al 2%), la ipotesi nulla è respinta, e viene accettata l'ipotesi alternativa. La concentrazione della soluzione è significativamente inferiore a quanto dichiarato dal fornitore. 83 2.15.2 – Test tra medie da due campioni differenti Normalmente tale test ha come ipotesi nulla la: m1 - m2 = = 0 H0 : Si suppone che le medie stimate dai due campioni (di numerosità eventualmente differente) NON SIANO SIGNIFICATIVAMENTE DIFFERENTI. Il test può essere anche applicato con 0. In questo caso si suppone che la differenza tra le due medie abbia un determinato valore. Le ipotesi alternative possono essere: H1 : m1 - m2 0 H1 : m1 - m2 < 0 H1 : m1 - m2 > 0 specificando un test bilaterale, unilaterale destro o unilaterale sinistro. b1) b2 ) Nei casi b1) e b2) (distribuzioni normali con varianza nota o con campioni di numerosità talmente grande da poter ritenere nota la varianza delle popolazioni), si ricorre alla distribuzione normale standard, nella forma: m1 m 2 z [2-36] 12 2 2 N1 N 2 La [2-36] si riferisce alla funzione f = m1 - m2, di due variabili indipendenti, con media = 0, e con varianza calcolabile mediante la propagazione delle varianze: f2 2 2 f 2 f 2 m1 m 2 m1 m 2 2m1 2m 2 12 22 N1 N 2 b3) Nel caso b3), se un opportuno test sulla varianza (vedi oltre) ha dimostrato che le varianze stimate sui due campioni non sono significativamente differenti, ed hanno valore comune s 2 , si ricorre alla distribuzione di Student, nella forma: 84 t m1 m 2 1 1 s N1 N 2 [2-37] che può essere considerata derivante dalla [2-36] per il caso di due varianze eguali per le popolazioni dei due campioni, stimate dallo stesso valore s. Il valore della stima comune della varianza è detto varianza raggruppata (pooled variance): N1 s2 N2 (x1i m1 ) (x 2i m 2 ) 2 i 1 2 i 1 N1 N 2 2 ( N11)s12 ( N 2 1)s22 N1 N 2 2 [2-38] che è semplicemente la media delle stime delle varianze ottenute dai due campioni separati, pesando per i rispettivi gradi di libertà. La varianza raggruppata risulta ottenuta con N 1 + N2 -2 gradi di libertà. Si noti ancora, nella prima delle [2-38], come sia cambiata la formula per la varianza, che per i risultati nel primo campione vede lo scarto dalla media del primo campione, e per quelli del secondo lo scarto dalla media del secondo. La numerosità totale è N1 e N2; poiché dai dati sono stati calcolati due parametri, le due medie, il numero dei gradi di libertà risulta diminuito di 2. Nel caso in cui N2 sia 1, si ha il test che confronta un dato singolo x con una media campionata: t x m 1 s 1 N N x m N 1 s [2-39] La s, come si può osservare sostituendo nella [2-38] ad N2 il valore 1, risulta semplicemente la deviazione standard del gruppo N1 (la cui numerosità è indicata semplicemente con N nella [2-39]). b4) Più complesso è il caso b4), in cui le varianze dei due campioni sono significativamente diverse. In questo caso si applica sempre la statistica di Student, ma il numero dei gradi di libertà ν è ottenuto ponderando ν1 e ν2 mediante la: 85 s12 1 1 N1 1 s12 s 22 N N 2 1 2 1 2 s 22 N2 2 2 s1 s 2 N N 2 1 2 [2-40] Si tratta del problema detto di Fisher Behrens, di cui non si conosce una soluzione esatta. Quella della equazione [2-40] deve ritenersi più che soddisfacente per lo sperimentatore. Se una delle due varianze è particolarmente piccola ν si avvicina ai gradi di libertà dell'altro campione, quello con la maggiore varianza. In questo caso infatti ci si avvicina al caso in cui una media è senza errore (relativamente all'altra): ricadiamo nel test a3). Figura 2-38 I gradi di libertà calcolati dalla [2-40] in funzione delle varianze dei due campioni La t di Student per il test si calcola mediante la: t m1m 2 [2-40a] s12 s 22 N1 N 2 A causa dei pesi la [2-40] può fornire valori non interi dei gradi di libertà: in questo caso occorre interpolare dalle tavole. Consideriamo il caso in cui sia stata determinata la percentuale di Fe3+ in un sale ferrico idrato con due metodi, ottenendo i seguenti risultati: 86 Campione chimico Metodo 1 A 12.54 B 12.47 C 12.31 D 12.81 E 12.62 Metodo 2 F 12.73 G 12.82 H 12.77 I 12.90 L 12.83 M 12.81 Si noti che, in base alla ipotesi nulla, che non vi sia differenza tra i due metodi, tutti i valori sono stati estratti dalla stessa popolazione, quella del campione chimico (grosso campione) costituito dal sale ferrico, da ci sono stati estratti i campioni A,B,... per le analisi. Si calcola: m1 12.55 m 2 12.81 s12 0.03415 s 2 2 0.00332 s1 0.1848 s 2 0.0576 1 4 2 5 4.65 Si vuole decidere se le medie delle due serie sono significativamente differenti. Il valore di t, calcolato dalla [2-40a] è -3.03. Il valore 95% di t per 4.65 gradi di libertà è circa 2.65. L'ipotesi nulla non è accettata. I due metodi danno un risultato significativamente differente (il livello di significato è minore del 5%). 2.15.3 – Test su dati accoppiati Si presenta questo caso quando, nel confronto dei due campioni, si lavora in modo da eliminare una delle possibili fonti di variabilità. Nel caso del dosaggio del ferro, adottato precedentemente come esempio, le due metodiche sono state applicate su campioni chimici per l'analisi A....N differenti, 87 anche se provenienti dal grosso campione del sale idrato. La determinazione potrebbe essere stata effettuata su diversi grossi campioni di sale idrato, p.e. recipienti contenenti lo stesso sale ma che hanno una storia differente, per cui in alcuni il sale potrebbe essere sfiorito, in altri potrebbe avere un contenuto di umidità maggiore di quello previsto dalla formula stechiometrica. In questo caso il valore vero dei singoli grossi campioni è differente. Esso può rappresentare una fonte di variabilità maggiore di quella dovuta all'errore proprio dei metodi di determinazione. Noi potremmo dosare con ambedue i metodi il ferro nel recipiente A, quindi dosare con ambedue il ferro nel recipiente B, ecc.. I dati sono pertanto a coppie eguali (matching pairs). Si siano ottenuti i seguenti risultati: Recipiente Metodo A Metodo B A 12.55 12.58 B 13.41 13.47 C 11.78 11.81 D 12.43 12.55 E 13.66 13.73 Si può notare che per ogni recipiente i due metodi danno risultati molto vicini; se calcoliamo le medie di metodo e le relative deviazioni standard otteniamo: m1 12.77 m 2 12.83 s12 0.586 s 22 0.600 s1 0.766 s 2 0.775 Le deviazioni standard sono una misura della variabilità all'interno del metodo, ma tale variabilità non è dovuta tanto al metodo quanto alle differenze tra i recipienti. In altre parole ogni recipiente costituisce una popolazione con differente , media di popolazione differente ed è appunto questa differenza il fattore di variabilità che occorre eliminare. Un test usuale sulla differenza tra le medie concluderebbe che questa differenza è piccola rispetto alla dispersione, ciò che è appena ovvio in quanto la differenza tra le medie è dovuta ai metodi, mentre la dispersione è dovuta essenzialmente alla differenza tra il contenuto dei recipienti. Occorre pertanto eliminare la differenza di locazione tra le varie popolazioni, in modo da avere una unica popolazione, la cui variabilità sia dovuta solo a ciò che vogliamo individuare, la differenza eventuale tra i due metodi. 88 Per ottenere ciò introduciamo una nuova variabile, la variabile differenza: Recipiente Metodo A Metodo B d = Differenza B-A A 12.55 12.58 0.03 B 13.41 13.47 0.06 C 11.78 11.81 0.03 D 12.43 12.55 0.12 E 13.66 13.73 0.07 La differenza elimina la variabilità tra recipienti. La ipotesi nulla deve essere che la differenza tra i metodi è nulla, d = 0. Ricadiamo nel caso a3) applicato alla variabile d. La media md risulta pari a 0.062. La deviazione standard della d è eguale a 0.037. La deviazione standard della md è eguale a 0.015. La t di Student per il test è eguale a 4.1. Si verifica facilmente che il livello di significato bilaterale è molto piccolo, per cui occorre concludere che i due metodi danno un risultato significativamente diverso. Se avessimo erroneamente applicato un test usuale sulla differenza tra le medie avremmo ottenuto: m A 12.766 m B 12.828 s 2 0.5933 s 0.7703 s t 2 0.4872 5 m A m B 0.127 2 s 5 e avremmo erroneamente dedotto (il valore di t è molto piccolo, il significato molto elevato) che i due metodi danno praticamente lo stesso risultato, e ciò come conseguenza del fatto che abbiamo valutato insieme il fattore di variabilità «metodo» ed il fattore di variabilità «campione», e la grande variabilità di quest’ultimo impedisce di «vedere» la piccola (relativamente) variabilità del primo. Illustriamo ancora il test con un esempio di Green e Morgerison: si tratta di dati relativi all'effetto di una iniezione dello steroide betametasone sulla velocità di passaggio del glucosio nel sangue di pecore, espressa in mg /min (di carbonio). Le coppie si riferiscono alla stessa pecora: 89 Velocità(prima) Velocità(dopo) 23.0 40.0 30.0 34.5 16.0 20.1 17.0 20.0 36.0 56.0 29.0 38.0 E' evidente che la variabilità in una colonna dipende dalla differenza tra le pecore. La ipotesi nulla è: H0 : d = m2 - m1 = 0 La ipotesi alternativa è relativa all'attesa che la velocità subisca un aumento a causa del farmaco: H1 : d = m2 - m1 > 0 Viene calcolata la variabile differenza, che fornisce i valori: 17, 4.5, 4.1, 3, 20, 9 la media m = 9.6 e la sua deviazione standard stimata 7.3. Si applica il test di Student: t = 9.6 / (7.3 / 6 ) = 3.2 Il significato unilaterale sinistro critico del 5% corrisponde (Tabella 8) a un tp = 2.02, con p = 90% (10% di significato bilaterale). Il test non passa: l'ipotesi nulla è respinta e l'ipotesi alternativa è accettata. La media della variabile differenza rappresenta la stima dell'effetto del farmaco, e 7.3 la stima della deviazione standard. Si noti come con tale valore della deviazione standard non ci si dovrebbe meravigliare se per alcune pecore (circa 1/10) si riscontrasse un effetto di segno opposto. Attenzione: il test sui dati accoppiati richiede molta cura. La differenza deve essere una variabile casuale (senza rilevante componente deterministica). In molti casi di interesse per il chimico analitico (p.e. il confronto tra metodi) è necessario utilizzare invece di questo test i test associati alla regressione lineare, test che verranno studiati nel relativo capitolo. 90 2.15.4 – Test su di una singola varianza Sfrutta la statistica 2. È strettamente connesso, quando si tratta di un test bilaterale, con l'intervallo di fiducia della varianza, illustrato a suo tempo. Esso viene utilizzato quando occorre valutare ipotesi del tipo: H0: s2 = 2 facilmente estensibili a ipotesi coinvolgenti da un lato una somma sperimentale di quadrati, dall'altro il valore atteso. 2.15.5 – Test sulle varianze da due campioni Sfrutta la statistica F, confrontando il rapporto tra le due varianze. Nel caso dell'esempio del dosaggio del ferro con due metodi le due varianze erano: s12 0.03415 s 22 0.00332 e i rispettivi gradi di libertà: ν1 = 4 ν2 = 5 Il rapporto F tra le due varianze (la maggiore sempre al numeratore) risulta 10.29. Il test viene condotto come unilaterale destro, per valutare se la varianza a numeratore è significativamente maggiore di quella a denominatore. Dalle tabelle della funzione cumulata della F vediamo come il valore critico di significato laterale destro del 5% per 4 gradi di libertà al numeratore e cinque al denominatore è 5.79. Il test non passa. L'ipotesi alternativa (la prima varianza è maggiore della seconda) è accettata. Essa sarebbe accettata anche conducendo il test con un valore critico di significato dell'2.5% (F critico 7.39). 2.15.6 – Test di controllo della casualità Tutti i test statistici assumono che il campione statistico di N ripetizioni sia il risultato di un esperimento a caso. In altre parole, quando alcune ripetizioni di un esperimento vengono effettuate successivamente, si assume che il fattore «tempo» non abbia effetto sul risultato. Se il tempo ha effetto sul risultato non siamo in presenza di un esperimento a caso unico, ma di una serie di esperimenti, ciascuno descritto da una variabile condizionata X(t). In altri casi il risultato è funzione 91 X(f) di un altro fattore (concentrazione, temperatura, ..., che deve essere individuato). I test di controllo della casualità, o test di controllo del determinismo, vengono effettuati sui dati nella sequenza in cui sono stati ottenuti (nel caso di studio del fattore tempo): x1 x2 x3 x4 .... xN (o ordinati in accordo con il valore del fattore di cui si sospetta un effetto). Non è generalmente annoverato tra i test di controllo della casualità quello basato sulla regressione lineare (vedi 2.25) della X verso il fattore di cui si sospetta un effetto: se la pendenza della retta di regressione è significativamente diversa da 0 il fattore ha un effetto. Un test (che si applica a popolazioni normali) è quello delle differenze quadratiche medie successive (mean-square successive difference). La differenza quadratica media successiva è fornita dalla: N 1 2 x i1 x i 2 i 1 N 1 La variabile per il test è la variabile: N 1 2 s 2 x i1 x i 2 i 1 N x i x 2 i 1 i cui valori critici (con i significati unilaterali corrispondenti) sono riportati nella seguente Tabella. Tabella 2-12 – Valori critici di per il test delle differenze quadratiche medie successive N crit (0.05, sinistro) crit (0.05, destro) crit (0.01, sinistro) crit (0.01, destro) 4 0.780 3.220 0.626 3.374 5 0.820 3.180 0.538 3.462 6 0.890 3.110 0.561 3.439 7 0.936 3.064 0.614 3.386 8 0.982 3.018 0.663 3.337 9 1.024 2.976 0.709 3.291 10 1.062 2.938 0.752 3.248 11 1.096 2.904 0.791 3.209 12 1.128 2.872 0.828 3.172 13 1.156 2.844 0.862 3.138 14 1.182 2.818 0.893 3.107 15 1.205 2.795 0.922 3.078 16 1.227 2.773 0.949 3.051 92 17 1.247 2.753 0.974 3.026 18 1.266 2.734 0.998 3.002 19 1.283 2.717 1.020 2.980 20 1.300 2.700 1.041 2.959 Il test viene illustrato con alcuni esempi. Tutti gli esempi si riferiscono ad un campione statistico di numerosità 10. Esempio 1 Il primo esempio, i cui dati sono riportati nella Tabella seguente, si riferisce ad una situazione di vera casualità. i x(i) x(i+1)-x(i) [(x(i+1)-x(i)]2 1 10.0 1.8 3.24 2 11.8 1.2 1.44 3 13.0 -2.0 4.00 4 11.0 5.0 25.00 5 16.0 -1.9 3.61 6 14.1 1.6 2.56 7 15.7 -4.3 18.49 8 11.4 2.1 4.41 9 13.5 2.8 7.84 10 16.3 x = 13.28 2 = 7.843 s2 = 4.984 = 1.5737 Il valore di ottenuto viene confrontato con i valori critici: esso risulta compreso nell’intervallo di fiducia con probabilità 90%: il test passa, ed è accettata l’ipotesi nulla, che i risultati sia casuali. N crit (0.05, sinistro) 10 1.062 crit (0.05, destro) 2.938 Il grafico che riporta la successione dei valori ottenuti è noto anche come grafico dei residui, in quanto generalmente è riportata anche una linea al livello della media. L’analisi visuale dei residui è molto importante: in questo caso non sono evidenti anomalie, a 93 differenza di quanto accade nell’esempio seguente, in cui il grafico dei residui mostra una chiara tendenza del risultato ad aumentare con l’indice delle ripetizioni. 17 16 15 X 14 13 12 11 10 9 Determinazione Figura 2-39 – Esempio 1 per test di controllo della casualità Esempio 2: I valori numerici sono gli stessi dell’esempio 1, ma sono stati ottenuti in un ordine diverso. i x(i) x(i+1)-x(i) [(x(i+1)-x(i)]2 1 10.0 1.0 1.00 2 11.0 0.4 0.16 3 11.4 0.4 0.16 4 11.8 1.2 1.44 5 13.0 0.5 0.25 6 13.5 0.6 0.36 7 14.1 1.6 2.56 8 15.7 0.3 0.09 9 16.0 0.3 0.09 10 16.3 x = 13.28 2 = 0.679 s2 = 4.984 = 0.1362 Il valore di è minore del valore critico unilaterale sinistro; il test non passa. Vi è un elemento deterministico che provoca un aumento graduale del risultato nel tempo. 94 crit N crit (0.05, sinistro) 10 (0.05, destro) 1.062 2.938 X Il grafico dei valori mostra chiaramente la tendenza all’aumento. 17 16 15 14 13 12 11 10 9 Determinazione Figura 2-40 – Esempio 2 per test di controllo della casualità Esempio 3: Anche in questo caso i valori numerici sono gli stessi dell’esempio 1, ma sono stati ottenuti in un ordine diverso. i x(i) x(i+1)-x(i) [(x(i+1)-x(i)]2 1 10.0 6.3 39.69 2 16.3 -5.3 28.09 3 11.0 5.0 25.00 4 16.0 -4.6 21.16 5 11.4 4.3 18.49 6 15.7 -3.9 15.21 7 11.8 2.3 5.29 8 14.1 -1.1 1.21 9 13.0 0.5 0.25 10 13.5 x = 13.28 2 = 17.154 95 s2 = 4.984 = 3.442 In questo caso il valore di è maggiore del valore critico unilaterale sinistro; il test non passa. Vi è un elemento deterministico che provoca una diminuzione graduale dei residui nel tempo, come evidenziabile dal grafico della successione dei valori. N crit (0.05, sinistro) crit (0.05, destro) 10 1.062 2.938 Figura 2-41 – Esempio 3 per test di controllo della casualità Il test delle sequenze crescenti o decrescenti si applica a popolazioni continue (non necessariamente normali). Una sequenza crescente di lunghezza l si ha quando xi-1 xi < xi+1 < xi+2 < .. < .. < xi+l Per esempio nel campione: 6 4 5 6 5 7 7 i tre termini dal secondo al quarto costituiscono una sequenza crescente di lunghezza 2, i termini quarto e quinto una sequenza decrescente di lunghezza 1, i termini quinto e sesto una sequenza crescente di lunghezza 1. Sia L il valore massimo di l considerando sia le sequenze crescenti sia le decrescenti. Intuitivamente non possono aversi valori di L troppo grandi o troppo piccoli. Per esempio se N = 10, si ha: 96 L p(L)(%) (L) 1 2.76 100 2 54.38 97.24 3 34.30 42.86 4 7.31 8.55 5 1.09 1.24 6 0.134 0.15 7 0.013 0.015 8 0.0014 0.0014 9 0 0 Vi è la probabilità del 7.31% di avere una sequenza di lunghezza 4 (5 elementi). Il significato unilaterale destro corrispondente ad L = 4 è 8.55%. Una sequenza di lunghezza 5 (6 elementi) è da considerare poco probabile: il test non passa, e passa l’ipotesi alternativa che non vi sia casualità. Se N = 9, si ha: L p(L)(%) (L) 1 4.38 100 2 57.48 95.62 3 30.95 38.14 4 6.20 7.20 5 0.89 0.995 6 0.098 0.106 7 0.0076 0.0085 8 0.0009 0.0009 Vi è la probabilità del 6.20% di avere una sequenza di lunghezza 4. Il significato unilaterale destro corrispondente ad L = 4 è 7.20%. Vi è la probabilità del 0.89% di avere una sequenza di lunghezza 5. Il significato unilaterale destro corrispondente ad L = 5 è 0.995%. La Tabella 2-13 riporta i valori di (L) per N da 5 sino a 50. Tabella 2-13 - Valori di (L) per il test delle sequenze 97 N L 4 1.7 3.0 4.4 5.9 7.2 8.6 9.8 11.1 12.4 13.7 14.9 20.8 26.4 31.5 36.3 40.8 44.9 48.8 5 6 7 8 9 10 11 12 13 14 15 20 25 30 35 40 45 50 5 6 7 8 0.3 0.5 0.8 1.0 1.2 1.5 1.7 1.9 2.2 2.4 3.6 4.7 5.9 7.0 8.1 9.2 10.3 0.1 0.1 0.2 0.2 0.2 0.3 0.3 0.3 0.5 0.7 0.8 1.0 1.2 1.4 1.5 0.05 0.07 0.10 0.11 0.14 0.16 0.18 0.02 0.02 0.02 In pratica si fa uso della seguente Tabella 2-14: Tabella 2-14 – Valori di N per i quali una sequenza L ha probabilità L 4 5 6 7 8 9 10 1% 9 34 234 2034 20067 218833 5% 7 26 153 1170 10348 102382 1116808 I valori riportati nella Tabella sono valori di N, e il significato della Tabella è il seguente. Se N = 9 l’evento L = 5 ha un significato unilaterale destro minore o eguale all’1% (dalla Tabella dettagliata avevamo visto che era esattamente 0.995%). Pertanto a livello critico 1% (l’ipotesi nulla è accettata anche se l’evento non è molto probabile) il test non passa se abbiamo una sequenza di lunghezza 5 con N eguale o minore di 9. Una sequenza di lunghezza 6 è accettabile solo se N è superiore a 34. A livello critico del 5% (più «severo» nell’accettare l’ipotesi nulla) una sequenza 4 è accettabile solo con N maggiore di 7, una sequenza di lunghezza 5 è accettabile solo se N è maggiore di 26. Vediamo un ulteriore esempio di applicazione dei test di casualità. In questo esempio si suppone che una serie di 7 campioni contenti un analita a differente concentrazione siano stati analizzati con due metodi differenti. Sono stati ottenuti i risultati riportati 98 nella tabella seguente e illustrati nelle Figure 2-42 e 2-43. Campione 1 2 3 4 5 6 7 Metodo A 10.5 21.4 31.7 41.4 51.6 60.4 70.2 Metodo B 11.7 23.7 34.6 44.7 55.7 66.0 76.5 d = Differenza B-A 1.2 2.3 2.9 3.3 4.1 5.6 6.3 Sappiamo che in un caso come questo il confronto tra i due metodi deve essere effettuato mediante la variabile differenza, riportata nella quarta colonna, in quanto deve essere eliminata la differenza di locazione tra le sette popolazioni (dei valori misurati sui sette campioni). La variabile differenza è il risultato di un esperimento a caso, e deve risultare casuale. É evidente che con N = 7 si ha una sequenza crescente L = 6, e pertanto non vi è la necessaria casualità. In questo caso la variabile differenza è stata studiata, per la casualità, non nell’ordine sperimentale con cui i vari dati accoppiati sono stati ottenuti, ma nell’ordine della concentrazione dell’analita, in quanto in casi di questo tipo si ha il sospetto che la differenza tra i metodi possa dipendere (oltre che dall’errore casuale) da un errore sistematico dipendente dalla concentrazione dell’analita. Il grafico dei risultati dei due metodi è meno informativo del grafico della variabile differenza, che è quella che consideriamo per il test. Figura 2-42 – Risultato di due metodi a confronto 99 Figura 2-43 – Confronto tra due metodi mediante lo studio della differenza Torneremo a parlare di test relativamente ai test di adattamento (fit) e per l'analisi della varianza. Prima di passare a questi capitoli, introdurremo brevemente i test non parametrici, la statistica di intervallo e quindi un'ultima importante distribuzione univariata, la distribuzione binomiale. 100 2.15.7 – Test non parametrici Sono test per i quali non è necessario che sia verificata l’ipotesi di normalità. I test di Wilkinson per dati accoppiati ed il test di Mann-Whitney-Wilcoxon tra mediane da due campioni differenti (analogo al Test tra medie da due campioni differenti) sono i più noti. 2.15.7.1 – Test di Wilcoxon Si calcolano le differenze: Indice Serie A Serie B Differenza 1 51 50 1 2 46 46 0 3 45 43 2 4 46 44 2 5 42 39 3 6 49 48 1 7 39 41 -2 8 41 39 2 9 41 38 3 Vengono eliminati i dati per i quali la differenza é nulla, e i dati vengono ordinati secondo il valore assoluto delle differenze: Indice Differenza Punteggio assoluta Punteggio Segno medio Punteggi con segno 1 1 1 1.5 + 1.5 2 1 2 1.5 + 1.5 3 2 3 4.5 + 4.5 4 2 4 4.5 + 4.5 5 2 5 4.5 - -4.5 6 2 6 4.5 + 4.5 7 3 7 7.5 + 7.5 8 3 8 7.5 + 7.5 Il “punteggio” è eguale all’ordine delle differenze assolute, ma se vi sono punteggi eguali si calcola un punteggio medio. Si calcola le somme dei punteggi moltiplicati per il segno delle differenze, una dei valori positivi, una dei valori assoluti dei punteggi negativi. La minore delle somme è il valore 101 della statistica W. Somma punteggi positivi 31.5 Somma dei valori assoluti punteggi negativi 4.5 W = 4.5 Con il valore dells statistica W si entra nella tabella dei valori critici Tabella 2-15 – Valori critici della W di Wilcoxon (Significato bilaterale) N 0.01 0.02 0.05 0.10 5 0 0 0 1 6 0 0 1 3 7 0 1 3 4 8 1 2 4 6 9 2 4 6 9 10 4 6 9 11 11 6 8 11 14 12 8 10.5 14 18 13 10 13 18 22 14 13 16 21.5 26 15 16.5 20 26 31 16 20 24 30 36 17 24 29 35.5 42 18 28 33 40.5 48 19 33 38 47 54 20 38 44 53 61 2.15.7.2 – Test di Mann-Whitney-Wilcoxon Il test confronta le mediane di due serie di dati. La spiegazione del test utilizza i dati: 1 2 3 4 5 e 1 2 3 4 5 6 12.54 12.47 12.31 12.81 12.62 12.73 12.82 12.77 12.90 12.83 12.81 Si confronta ogni dato della seconda serie con ogni dato della prima. Se il dato della prima serie è maggiore di quello della seconda si incrementa di 1 la quantità U1. Se i dati sono eguali la quantità U1 è incrementata di 0.5 (vedi la tabellina seguente). 102 Si ripete invertendo il confronto, e si ottiene una quantità U2. La statistica U è data dal valore minore tra U1 e U2 (la cui somma è data dal prodotto del numero di dati nelle due serie). Ogni dato della prima serie viene confrontato con ogni dato della seconda serie. 12.54 12.47 12.31 12.81 12.73 0 12.73 0 12.73 0 12.73 1 12.62 12.73 0 12.82 0 12.82 0 12.82 0 12.82 0 12.77 0 12.77 0 12.77 0 12.77 12.82 0 12.77 0 1 12.90 0 12.90 0 12.90 0 12.90 0 12.83 0 12.83 0 12.83 0 12.83 0 12.81 0 12.81 0 12.81 0 12.81 12.90 0 12.83 0 12.81 0 0.5 In questo caso é U = 2.5 Con questo valore si entra nella tabella dei valori critici (vedi sotto) e l’ipotesi nulla é respinta: vi é una differenza significativa tra le due mediane. Tabella 2-16 – Valori critici della U di Mann Whitney Wilcoxon (Significato bilaterale, 5 %)) N1 N2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 3 4 5 6 7 8 9 10 12 14 16 18 20 22 24 26 28 30 0 0 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 0 1 2 3 4 5 6 6 7 8 9 10 11 12 12 13 14 15 16 17 17 18 1 2 3 4 6 7 8 9 10 12 13 14 15 16 18 19 20 22 22 24 25 26 2 3 4 6 7 9 11 12 14 15 17 18 20 22 23 25 26 28 30 32 33 34 2 4 6 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 3 5 7 9 11 14 16 18 21 23 25 28 30 32 35 37 39 42 44 46 49 51 3 6 8 11 13 16 19 21 24 26 29 32 35 38 40 43 46 49 51 54 57 59 4 6 9 12 15 18 21 24 27 30 34 37 40 43 46 49 53 56 59 62 65 68 5 8 12 15 19 23 26 30 34 38 42 46 50 54 58 62 66 70 74 78 82 86 6 10 14 18 23 28 32 37 42 46 51 56 60 65 70 74 80 84 89 94 98 103 7 12 16 22 27 32 38 43 48 54 59 65 71 76 81 87 93 98 105 110 116 122 8 13 19 25 31 37 43 49 55 62 68 74 81 87 94 100 106 113 120 126 133 139 9 15 22 28 35 42 49 56 63 70 77 84 91 98 106 113 120 127 135 142 150 157 10 17 24 32 39 46 54 62 70 78 86 94 101 110 118 126 134 142 151 159 167 175 11 18 26 34 43 51 59 68 77 86 94 103 112 122 130 139 147 157 166 175 185 193 12 20 29 38 47 56 65 75 84 94 104 113 123 133 141 153 162 172 182 192 202 211 13 22 31 41 50 61 71 81 92 102 112 122 133 144 155 165 176 187 197 208 219 229 14 24 34 44 55 66 77 87 98 110 121 132 144 155 166 178 189 201 213 225 236 248 103 25 26 27 28 29 30 11 12 12 13 14 14 19 20 21 22 23 24 27 29 30 31 33 34 36 38 39 41 42 44 45 47 49 50 53 55 54 56 58 61 63 66 63 65 68 71 73 77 72 75 78 81 85 87 90 94 98 102 106 110 108 113 118 122 128 132 127 133 138 144 150 155 104 146 153 159 165 172 178 165 172 179 187 194 201 183 192 200 208 216 225 202 211 221 229 239 248 221 231 242 251 260 271 240 251 262 273 284 294 259 271 283 294 305 317 2.16 - STATISTICHE DI INTERVALLO E DELLA MEDIANA Nella serie di esperimenti riportati nella Tabella 2-6, che ci sono serviti per introdurre la distribuzione della media e la distribuzione 2 , abbiamo mostrato la relazione tra l'intervallo (range) e la varianza. L'intervallo ha le dimensioni della X, mentre la varianza ha le dimensioni di X2: pertanto l'intervallo è confrontabile direttamente con la deviazione standard, più che con la varianza. Le statistiche di intervallo sono quelle che ricavano la dispersione e gli intervalli di fiducia dal range piuttosto che dalla deviazione standard: esse sono facili da usare quando la numerosità del campione è piccola (2-10). La valutazione di un parametro della popolazione, quale o , può essere effettuata con differenti estimatori, quali la media m o la mediana per , la deviazione standard, s, o l'intervallo per . La mediana è quel valore di X per cui la distribuzione cumulata (di probabilità o di frequenza) ha il valore 0.5. Nel caso di dati campionati, ordinati dal più piccolo al più grande, se N è dispari la mediana è fornita dal valore centrale, se N è pari la mediana è fornita dalla media dei due valori centrali. I diversi possibili estimatori sono caratterizzati da due proprietà, oltre alla esattezza (il fatto di essere "biased" o "unbiased"): - efficienza - robustezza. Media e mediana sono ambedue estimatori unbiased della media della popolazione, nel senso che la loro media tende a con l'aumentare del numero delle sequenze di ripetizioni. La media ha varianza 2 / N. La varianza della mediana, che si indica usualmente con ~ x, è generalmente (unica eccezione è il caso N=2, quando media e mediana coincidono) maggiore di quella della media, e pertanto la mediana è un estimatore meno efficiente. La efficienza relativa della mediana rispetto alla media si ricava dal rapporto della varianza della mediana rispetto alla varianza della media. La robustezza di un estimatore è collegata alla influenza che su di esso hanno risultati anomali 105 occasionali. Un risultato anomalo deve essere considerato come un risultato così poco probabile che deve essere ritenuto proveniente da una popolazione diversa da quella dell'esperimento in corso. La mediana è un estimatore molto robusto, e questa è la caratteristica che lo rende di uso frequente nonostante la relativa poca efficienza. Il range è meno efficiente e meno robusto della deviazione standard: la giustificazione del suo uso è dovuta alla facilità di calcolo. La Tabella 2-17 seguente riporta alcuni dati utili per l'utilizzo della mediana ~ x e dell'intervallo r. Le efficienze sono efficienze relative. Le ultime due colonne nella parte alta forniscono il fattore per ottenere dal range il valore di s e di s / N . Nella parte bassa vi sono i dati per il calcolo dell'intervallo di fiducia del range, espressi come valori p% divisi per il valore medio del range, valore che si può ricavare dalla colonna s/r, nota la stima della deviazione standard. Tabella 2-17 Efficienza di mediana e range N 2 3 4 5 6 7 8 9 10 Efficienza di ~ x Efficienza di r s/r 1.00 0.74 0.84 0.69 0.78 0.67 0.74 0.65 0.71 1.00 0.99 0.98 0.96 0.93 0.91 0.89 0.87 0.85 0.89 0.59 0.49 0.43 0.40 0.37 0.35 0.34 0.33 0.629 0.341 0.245 0.192 0.163 0.140 0.124 0.113 0.104 95% 2.4548 1.9555 1.7631 1.6594 1.5902 1.5421 1.5066 1.4781 1.4523 97.5% 2.8093 2.1741 1.9331 1.8056 1.7205 1.6604 1.6155 1.5825 1.5530 (s/N) / r Valori p% di r / r N 2 3 4 5 6 7 8 9 10 2.5% 0.0354 0.1772 0.2866 0.3654 0.4222 0.4622 0.4952 0.5219 0.5426 5% 0.0798 0.2540 0.3691 0.4428 0.4933 0.5325 0.5619 0.5859 0.6043 Una giustificazione dell'utilità della mediana in quanto estimatore robusto risulta dal seguente esempio: 106 Un campione estratto da una popolazione normale con =15 ha fornito i risultati seguenti: 15.970, 17.893, 12.209, 9.596, 12.554 Un secondo campione è risultato costituito da: 12.493, 12.502, 46.071, 18.055, 16.124 Le medie dei due campioni sono: 13.644 e 21.049 Le mediane sono: 12.554 e 16.124 Si noti come le mediane sono più prossime e vicine a . Levando il dato anomalo, chiaramente sbagliato (si può immaginare che fosse 16.071, modificato da un errore di scrittura) si ottiene come media (su 4 valori) 14.794, e come mediana (media dei due valori centrali) 14.313, valori molto vicini tra di loro e molto vicini a . 2.16.1 – Grafici Box and Whiskers Sono grafici basati sulla mediana e sui quartili. Si costruisce un box verticale o orizzontale (quello mostrato in Figura 2-44 è orizzontale) di altezza opportuna e la cui larghezza è proporzionale ai quartili. In posizione più o meno centrale è indicata la mediana, con la sua incertezza data dai notches (estremi di un incavo a V, notch). I baffi (whiskers) delimitano l’intervallo dei valori normali: i dati fuori dai baffi sono outliers (dati anomali). Siano ~ x, ~ x 0.25 , ~ x 0.75 la mediana e i quartili. La larghezza del box é BF ~ x 0.75 ~ x 0.25 I wiskers si estendono per 1.5 BF dagli estremi del box. I notches hanno dalla mediana una distanza D F 1.57 BF N (N è il numero dei valori). I grafici Box and Whiskers possono essere associati ai grafici dei quantili, che hanno in ascissa la cumulata gaussiana ricavata con la media e la deviazione standard del campione e in ordinata i valori sperimentali. Il grafico in Figura 2-45 riporta gli ottili. Ill rettangolo centrale è delimitato in ascisse dai valori 25% e 75% della cumulata e in ordinata dai due quartili. In Figura 2-45 è mostrato anche il “jittered plot” nel quale la ascissa è casuale (ha la tremarella) e serve solamente per evitare un eccessivo addensamento dei valori sperimentali. 107 Figura 2-44 –Grafico Box Whisker con notches Figura 2-45 –Grafico Box Whisker verticale con ottile box plot e jittered plot In Figura 2-46 i box sono applicati alla visualizzazione degli outliers e delle differenze dei valori di una variabile in tre categorie. 108 Figura 2-46 – Grafico Box Whisker con confronto di una variabile in tre categorie 109 2.17 - LA DISTRIBUZIONE BINOMIALE Questa distribuzione riguarda esperimenti costituiti da M ripetizioni di esperimenti elementari caratterizzati da 2 risultati, che sono mutuamente esclusivi (non possono essere ottenuti contemporaneamente) ed opposti (se il risultato non è il primo, è necessariamente il secondo e viceversa). Consideriamo come esperimento elementare il lancio di un dado, descritto con due risultati: a) Evento 6 probabilità p = 1/6 b) Evento 6 probabilità q = 5/6 = 1-p Consideriamo ora l'esperimento complesso con M=2 (numero degli esperimenti elementari): lancio di due dadi e 4 eventi elementari possibili. L'esperimento complesso è descritto dalla variabile W. w0) Evento 0 volte 6 W=0 w1) 1 volta 6 W=1 w2) 2 volte 6 W=2 Ci si domanda quale è la probabilità degli eventi W = 0, W = 1, W = 2. Spesso uno degli eventi elementari è indicato come successo (p.e., l'evento 6), conseguentemente l'altro viene indicato come insuccesso. L'esperimento complesso ha una serie di eventi possibili, descritti dalla variabile W che misura il numero di successi in M ripetizioni dell'evento elementare. Nel caso M = 2, possiamo notare che l'esperimento complesso è la somma di risultati che sono il prodotto di due esperimenti elementari (presentarsi contemporaneo di ambedue gli eventi, p.e. successo nel primo lancio, insuccesso nel secondo), e poiché gli eventi sono indipendenti, si può applicare la regola del prodotto p(AB) = p(A) p(B) [2-3] 110 Evento Numero di Eventi Probabilità Probabilità composto eventi semplici prodotto somma W prodotto 0 1 6 6 5/6 5/6 25/36 1 2 6 6 5/6 1/6 5/36+ 6 6 1/6 5/6 5/36= 10/36 2 1 6 6 1/6 1/6 1/36 Pertanto, in un esperimento con DISTRIBUZIONE BINOMIALE con M=2, le probabilità degli M+1 eventi possibili (W=0, W=1, W=2) sono rispettivamente q2, 2 q p, p2 (essendo q la probabilità di insuccesso e p la probabilità di successo), vale a dire risultano analoghe ai termini ottenuti con il quadrato del binomio (q+p): (q p) 2 q 2 2 pq p2 . Analogamente si calcolano le probabilità per M > 2, dai coefficienti del binomio innalzato alla M-esima potenza. Per M = 3 abbiamo: (q p) 3 q 3 3q 2 p 3q p2 p3 e conseguentemente: W=0 p(w) = q3 W=1 p(w) = 3 q2 p W=2 p(w) = 3 q p2 W=3 p(w) = p3 In generale, per l'evento w con l'esperimento costituito da M ripetizioni, sarà: p( w ) p w q ( M w ) M! w! ( M w )! dove il simbolo ! (fattoriale) indica l'operazione: M! = M (M-1) (M-2) (M-3) ...... 2 1 Il valore medio della distribuzione binomiale è: 111 [2-41] w M p [2-42] La deviazione standard è: w [2-43] Mpq Al tendere di M ad infinito, anche la distribuzione binomiale tende alla distribuzione gaussiana, come si vede nelle Figure da 2-47 a 2.-48. Anche la distribuzione binomiale ha i suoi intervalli di fiducia, e si ricavano, per M abbastanza grande, supponendo la distribuzione gaussiana ed utilizzando i valori della media e della deviazione standard sopra riportati. Nella Figura 2-49 è illustrata la probabilità di «fare 13» al Totocalcio (ogni riga della schedina corrisponde ad un esperimento; poiché sono possibili 3 indicazioni e una sola corrisponde a successo la probabilità p è 1/3). La seguente tabella riporta le stesse probabilità: la probabilità di 13 successi è di circa 6 decimilionesimi. W P(w) W p(w) W p(w) W p(w) 0 0.00513823 1 0.03339850 2 0.10019551 3 0.18369176 4 0.22961470 5 0.20665323 6 0.13776882 7 0.06888441 8 0.02583165 9 0.00717546 10 0.00143509 11 0.00019569 12 0.00001631 13 0.00000063 112 Figura 2-47 Distribuzioni binomiali con p =0.2 113 Figura 2-48 Distribuzioni binomiali con p =0.5 e 0.1667 (1/6) Figura 2-49 - Distribuzione binomiale per 13 ripetizioni di un esperimento con probabilità di successo 1/3 114 La binomiale è importante in tutti i test che riguardano conteggi. Vediamo due applicazioni, di cui la prima è relativamente banale. Si è lanciato un dado per 200 volte, e per 60 volte si è ottenuto il valore 6. Il dado è regolare? Applicando le [2-42] e [2-43] calcoliamo un valore medio 33.33 ed una deviazione standard 5.27. Applichiamo un test con la distribuzione standard (lo autorizza il fatto che M è grande): z 60 33.33 5 5.27 Non abbiamo bisogno delle tavole della statistica Z per affermare che il test non è passato, e che quindi il dado è truccato. 2.18 - OUTLIERS In un secondo esempio consideriamo di aver estratto un certo numero di valori M da una distribuzione normale. So che la probabilità che uno di questi valori sia al di fuori dell'intervallo - 1.96 + 1.96 è del 5%. Quale è la probabilità di non avere nessuno degli M valori al di fuori dell'intervallo? Essa è fornita dalla distribuzione binomiale, con p = 0.05 (probabilità di successo) e q = 0.95. p(0) p0 q ( M 0) M! qM 0! ( M 0)! Tabella 2-18 - Probabilità che estratti M risultati da una popolazione normale ve ne siano 0 (p(0)) o che ve ne siano alcuni (uno o più, p(>0)) al di fuori dell'intervallo di fiducia al 95% di probabilità. M 1 3 5 7 9 11 13 15 17 19 21 23 p(0) 0.95000000 0.85737497 0.77378088 0.69833726 0.63024932 0.56880003 0.51334202 0.46329114 0.41812024 0.37735352 0.34056154 0.30735677 p(>0) 0.0500000 0.1426250 0.2262191 0.3016627 0.3697507 0.4312000 0.4866580 0.5367089 0.5818798 0.6226465 0.6594385 0.6926432 M 2 4 6 8 10 12 14 16 18 20 22 24 115 p(0) 0.90249997 0.81450623 0.73509187 0.66342038 0.59873688 0.54036003 0.48767489 0.44012657 0.39721423 0.35848582 0.32353345 0.29198894 p(>0) 0.0975000 0.1854938 0.2649081 0.3365796 0.4012631 0.4596400 0.5123251 0.5598734 0.6027858 0.6415142 0.6764666 0.7080111 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83 85 87 89 91 93 95 97 99 0.27738950 0.25034401 0.22593546 0.20390674 0.18402584 0.16608331 0.14989018 0.13527589 0.12208649 0.11018305 0.09944020 0.08974478 0.08099466 0.07309768 0.06597065 0.05953851 0.05373351 0.04849449 0.04376628 0.03949906 0.03564790 0.03217223 0.02903544 0.02620448 0.02364955 0.02134371 0.01926270 0.01738459 0.01568959 0.01415985 0.01277927 0.01153329 0.01040879 0.00939394 0.00847803 0.00765142 0.00690541 0.00623213 0.7226105 0.7496560 0.7740645 0.7960933 0.8159742 0.8339167 0.8501098 0.8647241 0.8779135 0.8898169 0.9005598 0.9102552 0.9190053 0.9269023 0.9340293 0.9404615 0.9462665 0.9515055 0.9562337 0.9605009 0.9643521 0.9678278 0.9709646 0.9737955 0.9763505 0.9786563 0.9807373 0.9826154 0.9843104 0.9858401 0.9872207 0.9884667 0.9895912 0.9906061 0.9915220 0.9923486 0.9930946 0.9937679 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 98 100 0.26352000 0.23782679 0.21463868 0.19371140 0.17482454 0.15777914 0.14239568 0.12851210 0.11598216 0.10467390 0.09446819 0.08525754 0.07694492 0.06944279 0.06267212 0.05656159 0.05104683 0.04606976 0.04157796 0.03752411 0.03386551 0.03056362 0.02758367 0.02489426 0.02246707 0.02027653 0.01829957 0.01651536 0.01490511 0.01345186 0.01214030 0.01095662 0.00988835 0.00892424 0.00805413 0.00726885 0.00656014 0.00592052 0.7364800 0.7621732 0.7853613 0.8062886 0.8251755 0.8422209 0.8576043 0.8714879 0.8840178 0.8953261 0.9055318 0.9147425 0.9230551 0.9305572 0.9373279 0.9434384 0.9489532 0.9539302 0.9584220 0.9624759 0.9661345 0.9694364 0.9724163 0.9751057 0.9775329 0.9797235 0.9817004 0.9834846 0.9850949 0.9865481 0.9878597 0.9890434 0.9901116 0.9910758 0.9919459 0.9927312 0.9934399 0.9940795 Per valori bassi di M è molto probabile non avere valori fuori dall’intervallo di fiducia al 95% Ancora con M=13 è, seppur di poco, più probabile non avere che avere valori fuori dall'intervallo, ma per valori elevati di M la probabilità p(0) diventa sempre più piccola: per M = 100 la probabilità di non avere valori al di fuori dell'intervallo di fiducia è solamente 0.006, per M = 200 è 0.000035 e la corrispondente probabilità di avere più di un valore fuori dell'intervallo è molto elevata, p(>0) = 0.994 e 0.999965 rispettivamente. Per avere una probabilità p(0) del 5% che su 100 valori non ve ne sia nessuno fuori dell'intervallo di fiducia, occorre che il livello di questo sia del 97%. Per avere la probabilità p(0) del 95% che non vi siano, su 100 valori, valori fuori dell'intervallo di fiducia, occorre che questo intervallo sia a livello di probabilità del 99.95%. 116 In queste condizioni ad un valore fuori dell'intervallo è associato un significato minore del 5%: esso è un valore anomalo, un OUTLIER. Un dato di questo genere ha la probabilità del 95% di non provenire dalla distribuzione considerata, e pertanto può essere cancellato. L’esecuzione del procedimento sopra esposto implica una conoscenza accurata di : nel caso in cui vi siano outliers la deviazione standard stimata è pesantemente affetta dalla loro presenza; in questo caso occorre ricalcolare la deviazione standard eliminando il dato sospetto. Quando il numero dei dati è piccolo la deviazione standard ricalcolata rimane una stima poco attendibile di . Per questi motivi, nella pratica, soprattutto per bassi valori di M, si utilizzano criteri di più veloce applicazione per individuare gli outliers. Spesso un outlier è un oggetto che è fuori dall’intervallo di fiducia al 99%. Oggetti compresi tra l’intervallo di fiducia al 95% e quello al 99% sono detti “stragglers” (sbandati). 2.18.1 – Criterio T Si tratterà qui solamente di alcuni test per gli outlier, quelli che si applicano quando il numero delle ripetizioni è piccolo, come accade quando si ripete una determinazione sullo stesso campione. Uno di questi testi è detto criterio T. Questo criterio è perfettamente equivalente al test di Grubb (vedi 3.7.4.2) e si riporta qui unicamente perché è stato presentato in vari testi di elaborazioni statistiche per la chimica analitica. I dati vengono ordinati in ordine crescente. Viene calcolata la deviazione standard del campione: N sc (x i m) 2 i 1 N Vengono ora calcolati i due valori, ambedue POSITIVI: TN xN m sc e T1 m x1 sc Questi due valori vengono confrontati con i valori critici del test T e il valore estremo viene eliminato se supera il valore critico. I valori critici sono riportati nella Tabella 2-19. 117 Tabella 2-19: Valori critici per il test T per gli outliers p N 3 4 5 6 7 8 9 10 12 15 20 0.98 0.95 0.90 0.80 1.414 1.723 1.955 2.130 2.265 2.374 2.464 2.540 2.663 2.800 2.959 1.414 1.710 1.917 2.067 2.182 2.273 2.349 2.414 2.519 2.638 2.778 1.412 1.689 1.869 1.996 2.093 2.172 2.237 2.294 2.387 2.493 2.623 1.406 1.645 1.791 1.894 1.974 2.041 2.097 2.146 2.229 2.326 2.447 2.18.2 – Criterio Q Un altro criterio, criterio Q, (R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of Observations". Anal. Chem., 1951, 23, 636–638) di uso diffuso quando il numero dei dati è piccolo, è basato sull'intervallo o range r. I dati vengono posti in ordine crescente e vengono calcolati i valori Q: QN x N x N 1 r e Q1 x 2 x1 r I valori critici per l’eliminazione sono riportati nella seguente Tabella 2-20 (si veda anche il capitolo 3): Tabella 2-20: Valori critici per il test Q per gli outliers p N 3 4 5 6 7 0.99 0.98 0.95 0.90 0.80 0.994 0.919 0.825 0.742 0.684 0.988 0.889 0.780 0.698 0.637 0.972 0.827 0.709 0.627 0.569 0.941 0.765 0.642 0.560 0.507 0.886 0.679 0.557 0.482 0.434 Consideriamo un esempio di eliminazione di un outlier. Una serie di N = 6 determinazioni ha fornito il seguente risultato: 114.81 83.71 197.20 78.88 98.47 107.96 I dati vengono ordinati: 118 78.88 83.71 98.47 107.96 114.81 197.20 Si sospetta che il dato 197.20 sia anomalo. Si calcolano la media m = 113.51 la deviazione standard s = 43.24 la deviazione standard del campione sc = 39.48 T6 = 2.120 il range T1 = 0.877 r = 118.32 Q6 = 0.696 Q1 = 0.041 la media ricalcolata senza 197.20 mr = 96.766 la deviazione standard ricalcolata sr = 15.3636 il valore z di 197.20 con la media e la dev.st. ricalcolate il significato per zc zc = 6.54 2 = 0.0000006% p = 0.999999994 = 1 - 2 = 99.9999994% la probabilità p(0) corrispondente tramite la binomiale p = 0.99999997 il significato corrispondente 2 = 0.000003% Utilizzando il criterio T, vediamo che il dato sospetto è eliminabile con significato circa 1%. Utilizzando il criterio Q, il dato sospetto è eliminato con significato circa 1%. Il criterio basato sulla binomiale e sulla (assai opinabile quando la deviazione standard è calcolata con pochi dati) dà un significato quasi nullo. Data l’incertezza sulla deviazione standard, avremmo potuto considerare il 6.54 come variabile studentizzata con 4 gradi di libertà: il significato del dato sospetto sarebbe risultato di circa 0.1%. I criteri di identificazione degli outliers sono quindi abbastanza concordi, e l’eliminazione del dato anomalo può essere effettuata in tutta tranquillità. 2.19 - BONTÀ DI ADATTAMENTO (GOODNESS OF FIT) Consideriamo una variabile con distribuzione gaussiana, e, analogamente a quanto visto nel caso della distribuzione binomiale, consideriamo la probabilità che il valore della X sia superiore ad un certo valore xc . 119 Sia questa probabilità p. La probabilità che x sia minore o eguale a xc è ovviamente q = 1- p. Se consideriamo l'esperimento composto che consiste in M ripetizioni dell'esperimento semplice Estrazione dalla popolazione normale, la SPERANZA MATEMATICA (E(w>0)) di avere un valore superiore a xc è p M (la speranza matematica è la media di una popolazione: in questo caso il risultato di un esperimento è il conteggio w dei valori superiori a x su di M risultati elementari. Ripetendo l'esperimento un numero grande di volte il valore medio di w, m w, tende alla media della popolazione di W. Poiché in questo caso la variabile w è una frequenza, si parla anche di FREQUENZA ATTESA). La speranza matematica di avere un valore inferiore o eguale a xc è (1-p) M. In una ripetizione dello esperimento composto si ottiene il valore w, ed il valore M-w è il numero delle volte in cui si è avuto un risultato inferiore o eguale a x c . Si definisce DISCREPANZA la: D ( w pM)2 (Mw (1p)M)2 pM (1p) M [2-44] Come esempio, consideriamo una distribuzione standard e un xc = 0.67: la probabilità p che z sia maggiore di 0.67 è 0.25. Poniamo M = 100, e supponiamo che si sia ottenuto sperimentalmente per w il valore 32, 32 volte un risultato superiore a 0.67. La discrepanza risulta: (32 25) 2 (68 75) 2 D 2.61 25 75 Con una serie di passaggi, la [2-44] può essere modificata sino a ottenere la [2-45]: D (1p) M ( w pM ) 2 p M (Mw (1p)M ) 2 p M (1p) M (1p) ( w pM ) 2 p (Mw (1p)M ) 2 p M (1p) ( w p M ) 2 p ( w p M ) 2 p ( M w M p M ) 2 p M (1p) ( w p M ) 2 p ( w p M ) 2 p ( w p M ) 2 p M (1p) ( w pM) 2 p ( w pM) 2 p ( w pM) 2 p M (1p) 120 ( w pM) 2 p M (1p) [2-45] Si osservi ora come il denominatore sia la varianza della distribuzione binomiale, la distribuzione di w (vedi equazione [2-43]). Abbiamo quindi a numeratore la differenza tra una variabile e la sua media al quadrato, e a denominatore la varianza della stessa variabile. Inoltre sappiamo che per valori grandi di M la variabile w tende ad essere distribuita normalmente. Pertanto D è una distribuzione 2 con 1 grado di libertà. Questo unico grado di libertà risulta dalla somma di due termini quadratici (vedi [2-44]) che non sono indipendenti: determinato uno dei due termini della [2-44] risulta automaticamente determinato il secondo. Applichiamo ora il concetto di discrepanza alla valutazione della bontà di adattamento, e precisamente eseguiamo un test di normalità, che misura la bontà di adattamento di una distribuzione di frequenza ad una distribuzione di probabilità normale. Illustreremo il procedimento con un esempio numerico, relativo al caso in cui è stato raccolto un campione di numerosità N = 30, costituito dai seguenti dati ordinati: 107 142 158 161 168 170 175 178 187 194 194 194 195 203 203 204 204 206 213 213 214 215 215 218 219 228 230 234 234 263 Viene calcolata la media, 197.97, e la deviazione standard, 31.20. I dati vengono studentizzati, sottraendo la media e dividendo per la deviazione standard. Si ottiene: -2.916 -1.794 -1.282 -1.185 -0.960 -0.896 **** -0.736 -0.640 -0.352 -0.127 -0.127 -0.127 **** -0.095 0.161 0.161 0.193 0.193 0.257 **** 0.482 0.482 0.514 0.546 0.546 0.642 **** 0.674 0.963 1.027 1.155 1.155 2.084. Si noti come i dati normalizzati siano stati divisi in 5 gruppi [in generale si dividono i dati in un numero di intervalli tale che ogni intervallo comprenda almeno cinque dati: questo è il minimo per approssimare la distribuzione binomiale con la normale]. In questo esempio in ogni intervallo sono compresi sei dati. Si calcolano i separatori tra gli intervalli, a mezza strada tra il massimo valore in un intervallo 121 ed il minimo dell'intervallo successivo: (- 0.896 - 0.736)/2 = -0.816 separatore 1o /2o -0.111 2o /3o 0.370 3o /4o 0.658 4o /5o . Consideriamo ora la probabilità di avere un risultato, estratto da una popolazione normale, nei cinque intervalli delimitati dai 4 separatori. Otteniamo, dalla integrazione della funzione di distribuzione standard, tra - ed il primo separatore, tra il primo e il secondo separatore, ecc. [gli integrali possono essere ottenuti approssimativamente dalle differenze della funzione di distribuzione cumulata riportata in Tabella 2-5]: Intervallo Probabilità 1 2 3 4 5 20.72% 24.86% 18.84% 10.06% 25.52% Frequenza attesa 6.22 7.46 5.65 3.02 7.66 Frequenza 6 6 6 6 6 Il calcolo delle probabilità è illustrato nella Figura 2-50. Si rammenti che la frequenza attesa in ogni intervallo è eguale alla relativa probabilità per il numero delle ripetizioni, 30. La discrepanza in questo caso è la somma di cinque termini quadratici (6.22 6) 2 (7.46 6) 2 (5.65 6) 2 (3.02 6) 2 (7.66 6) 2 D 6.22 7.46 5.65 3.02 7.66 ma i gradi di libertà sono solamente 2, perché: a) la somma delle frequenze assolute in ogni intervallo deve essere eguale a 30, e pertanto, dati quattro termini, il quinto è da essi dipendente (è quanto abbiamo dimostrato nella [2-45] nel caso di discrepanza costituita da due termini); b) ci stiamo riferendo non ad una generica distribuzione normale, ma a quella con la media e la varianza ottenute dal nostro campione; questi due parametri calcolati dal campione risultano in una ulteriore perdita di due gradi di libertà. Il valore della discrepanza risulta 3.615, ed il livello di significato calcolato dalla distribuzione 2 con due gradi di libertà risulta del 18% circa. Il test è passato, nel senso che la distribuzione da cui sono stati estratti i 30 valori può essere una distribuzione normale con la media e la varianza calcolate dal campione. 122 Figura 2-50 - Probabilità corrispondenti ai 5 intervalli, dalle quali, moltiplicando per il numero M delle ripetizioni (30) si ottiene la speranza matematica pM 123 Se non avessimo calcolato dal campione una media ed una deviazione standard, ma avessimo imposto noi tali valori, avremmo effettuato un test di normalità con ipotesi nulla "il campione proviene da una distribuzione normale ben precisata", ed il numero di gradi di libertà sarebbe stato eguale al numero degli intervalli diminuito di uno, per il fatto che la somma delle frequenze assolute deve essere eguale al numero dei dati. Analogamente si opera quando si vuole confrontare un campione con le frequenze attese in base ad una qualunque teoria di distribuzione. Il test di normalità qui descritto non è molto efficiente. Altri test, basati non su intervalli come in questo caso, ma sul poligono somma, sono più efficienti. Essi peraltro non si prestano all'utilizzo di una delle distribuzioni classiche (Z, t, 2, F). Per ottenere i valori critici si deve ricorrere ad esperimenti tipo Montecarlo. Un esperimento Montecarlo è un esperimento simulato ripetuto moltissime volte, generando dati affetti da errori generalmente distribuiti normalmente, con varianza prefissata. Le distribuzioni dei risultati di questi esperimenti simulati, data la alta numerosità, possono essere considerate distribuzioni di probabilità, da cui ricavare intervalli di fiducia ai livelli di probabilità desiderati. Un esempio di test di questo tipo è il test di Lilliefors (H. W. Lilliefors. “On the Kolmogorov-Smirnov Test for Normality with Mean and Variance Unknown”. Journal of the American Statistical Association. 62 (318), 399-402 (1967)), uno della numerosa famiglia di test derivati dal test di Kolmogorov-Smirnov (A. N. Kolmogorov. “Sulla determinazione empirica di una legge di distribuzione”. Giornale dell’ Istituto Italiano degli Attuari. 4, 83–91 (1933), N. V. Smirnov. “Estimate of deviation between empirical distribution functions in two independent samples”. Bulletin Moscow University. 2, 3–16 (1933)), test che effettua il test di normalità per una popolazione specificata (media e varianze imposte e non ottenute dal campione). I dati vengono ordinati, e quindi trasformati, ottenendo una variabile Z con media e varianza di popolazione eguali a quelle stimate dal campione: zi xi m s Per ogni dato viene calcolata la probabilità cumulata F(zi) della distribuzione standard normale, e F(zi) viene confrontata con i valori di frequenza cumulata, i/N (frequenza utilizzata nella costruzione del poligono somma) e (i-1)/N. Si calcolano due parametri: D+ = maxi (abs(i/N - F(zi)) D- = maxi (abs(F(zi))- (i-1)/N) D = max (D+,D-), massimo tra i due parametri, è la variabile per il test di Lilliefors, ed i valori critici di 124 D sono riportati nella seguente Tabella 2-21. Tabella 2-21 - Valori critici di D per il test di Lilliefors N 4 5 6 7 8 9 10 11 12 13 14 15 16 17 17 18 19 19 20 22 24 26 28 30 35 40 45 50 60 70 80 90 100 20% 10% 5% 1% 0.3033 0.2910 0.2701 0.2536 0.2385 0.2281 0.2172 0.2084 0.2010 0.1936 0.1878 0.1813 0.1756 0.1713 0.1713 0.1665 0.1635 0.1635 0.1591 0.1519 0.1455 0.1401 0.1362 0.1311 0.1216 0.1141 0.1076 0.1023 0.0945 0.0877 0.0819 0.0777 0.0736 0.3454 0.3195 0.2994 0.2830 0.2651 0.2527 0.2424 0.2313 0.2241 0.2157 0.2074 0.2010 0.1951 0.1897 0.1897 0.1849 0.1823 0.1823 0.1768 0.1692 0.1620 0.1562 0.1513 0.1455 0.1347 0.1271 0.1198 0.1141 0.1054 0.0973 0.0911 0.0861 0.0815 0.3755 0.3445 0.3274 0.3083 0.2897 0.2747 0.2626 0.2518 0.2424 0.2331 0.2251 0.2191 0.2134 0.2065 0.2065 0.2015 0.1980 0.1980 0.1929 0.1842 0.1775 0.1722 0.1649 0.1583 0.1468 0.1385 0.1302 0.1241 0.1144 0.1059 0.0994 0.0933 0.0884 0.4141 0.3987 0.3760 0.3565 0.3329 0.3197 0.3040 0.2921 0.2832 0.2693 0.2604 0.2551 0.2515 0.2417 0.2417 0.2350 0.2279 0.2279 0.2237 0.2137 0.2081 0.2005 0.1904 0.1857 0.1710 0.1625 0.1520 0.1477 0.1340 0.1234 0.1135 0.1073 0.1037 Il seguente esempio numerico si riferisce ad un campione di 25 dati. D ha il valore 0.1379 che corrisponde ad un significato di circa il 28%.L’ipotesi di distribuzione normale passa. i 1 2 3 x 5.8 6.3 7.6 x (ordinato) 5.6 5.7 5.8 z -1.60322 -1.45366 -1.30411 i/N 0.04 0.08 0.12 125 (i-1)/N 0. 00 0.04 0.08 D+ 0.01444 -0.00698 -0.02390 D0.05444 0.03302 0.01610 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 7.3 7.2 6.4 5.7 6.4 7.7 6. 0 5.6 6.3 7.2 6.1 7.2 7.9 6.3 7.7 6.4 6.9 6.9 6.8 6.7 6.5 5.9 5.9 6. 0 6.1 6.3 6.3 6.3 6.4 6.4 6.4 6.5 6.7 6.8 6.9 6.9 7.2 7.2 7.2 7.3 7.6 7.7 7.7 7.9 -1.15456 -1.00500 -0.85545 -0.55634 -0.55634 -0.55634 -0.40679 -0.40679 -0.40679 -0.25723 0.04188 0.19143 0.34098 0.34098 0.78964 0.78964 0.78964 0.93920 1.38786 1.53741 1.53741 1.83652 0.16 0.20 0.24 0.28 0.32 0.36 0.4 0 0.44 0.48 0.52 0.56 0.6 0 0.64 0.68 0.72 0.76 0.8 0 0.84 0.88 0.92 0.96 1. 00 0.12 0.16 0.20 0.24 0.28 0.32 0.36 0.40 0.44 0.48 0.52 0.56 0.60 0.64 0.68 0.72 0.76 0.80 0.84 0.88 0.92 0.96 -0.03586 -0.04255 -0.04385 0.00899 -0.03101 -0.07101 -0.05792 -0.09792 -0.13792 -0.12150 -0.04330 -0.02409 -0.00656 -0.04656 0.06513 0.02513 -0.01487 -0.01381 0.03741 0.01790 -0.02210 -0.03314 0.00414 -0.00255 -0.00385 0.04899 0.00899 -0.03101 -0.01792 -0.05792 -0.09792 -0.08150 -0.00330 0.01591 0.03344 -0.00656 0.10513 0.06513 0.02513 0.02619 0.07741 0.05790 0.01790 0.00686 Figura 2-51 - Illustrazione grafica del test di Lilliefors 126 2.20 - ANALISI DELLA VARIANZA Una famiglia molto importante di test in cui si utilizza la variabile F di Fisher-Snedecor è nota con il nome generico di analisi della varianza. Ci limiteremo a descrivere la analisi della varianza a una via (one-way ANOVA, dove ANOVA è per ANalysis Of Variance) e quella a due vie, o a «due criteri di classificazione». 2.20.1 – Analisi della varianza ad una via La analisi della varianza a una via verrà illustrata con il seguente esempio numerico: è stata determinata 10 volte la massa di particolato raccolto nell'aria di una metropoli nel mese di agosto; usando la stessa quantità di aria, nelle stesse ore, sono state fatte altrettante determinazioni nel mese di gennaio. Vogliamo sapere se vi è una differenza significativa tra il contenuto in particolato atmosferico nel mese di agosto ed in quello di gennaio. Ecco i dati: media media generale minimo massimo Agosto Colonna 1 Gennaio Colonna 2 xi1 xi2 2711 3745 2492 3492 3346 3826 2621 3320 2068 4983 2328 4413 2289 4373 2988 4327 1946 2717 2104 4003 m1 = 2489 m2 = 3920 mGEN = 3204.5 1946 2717 3346 4983 Si noti come il minimo di gennaio sia nettamente inferiore al massimo di agosto: per questo motivo, nonostante la media di gennaio sia molto maggiore della media di agosto, rimane il dubbio se i valori di gennaio siano più alti casualmente o significativamente. L'ipotesi nulla è che NON vi sia effetto della colonna (cioè del mese). Viene calcolata la varianza pooled (esattamente come era stato fatto nel test di Student sulla differenza di due medie, provenienti da popolazioni con la stessa varianza, test che si può usare anche in questo caso, con risultato identico, come sotto dimostrato): 127 Nc C s 2p (x c 1 i 1 C ic mc )2 [2-46] Nc C c 1 dove C è il numero di colonna, Nc il numero di dati nella c-esima colonna, mc la media della c-esima colonna. Poiché sono state determinate C medie, i gradi di libertà sono calcolati dal numero C complessivo dei dati, N c 1 c , diminuito di C. Nel caso specifico sopra illustrato, le medie di colonna sono 2489 e 3920. La varianza raggruppata, detta generalmente VARIANZA INTRACOLONNE si calcola mediante la: 10 s 2p (x i 1 10 i1 2489) 2 ( x i 2 3920) 2 i 1 10 10 2 306575 dove le due sommatorie riguardano i dati della prima e della seconda colonna rispettivamente. La varianza così calcolata è la stima della varianza della popolazione dei dati, 2 . Successivamente si calcola la stima della varianza della media dei dati calcolata con 10 determinazioni. Questa stima si ottiene dalla dispersione delle medie rispetto alla media generalizzata: C (m s 2m c1 c m GEN ) 2 [2-47] C 1 che nel caso in esame è: s 2m (2489 3204.5) 2 (3920 3204.5) 2 1,023,880.5 2 1 Nel caso del nostro esempio questa varianza è una stima della varianza della media su N=10 determinazioni, cioè una stima di 2/ 10. Moltiplicando s 2m per il numero dei dati nelle colonne, 10 in questo caso, si ottiene una seconda stima di χ2, detta VARIANZA INTERCOLONNE: C 2 s int er N (m c 1 c m GEN ) 2 [2-47a] C 1 Se le due colonne non hanno lo stesso numero di dati (ma in ANOVA si procede quasi sempre in 128 modo da avere lo stesso numero di dati in ogni colonna) la varianza intercolonne si calcola ponderando ogni termine della sommatoria: C 2 s int er c 1 N c (m c m GEN ) 2 [2-47b] C 1 che, quando le colonne sono due e hanno lo stesso numero di dati N, diventa la [2-47a]. C N La prima stima (varianza intracolonne) ha c1 c C gradi di libertà, la seconda (varianza intercolonne) ne ha C-1. Il test viene effettuato con la distribuzione di Fisher, con la varianza intercolonne al numeratore e la varianza intracolonne al denominatore, con C-1 gradi di libertà per C N il numeratore e c1 c C gradi di libertà per il denominatore. Pertanto: C (m C c 1 F s s 1 1 N c C m GEN ) 2 C 1 C 2 int er 2 int ra c [2-47c] Nc (x c 1 i 1 C ic N c 1 c mc )2 C che quando le colonne sono due con eguale numero di dati N diventa: F 2 s inter s 2 intra m m2 2N 1 2 2 Nc (x c 1 i 1 ic 2 [2-47d] mc )2 2N 2 Nel caso in esame risulta: 2 10 s 2m s int er 10238805 2 s 2p s int ra 306575 numeratore 1 den om inatore 18 Il valore di F è pertanto 33.4. Il test fornisce un significato unilaterale destro (risposta alla domanda: la variabilità tra colonne è significativamente MAGGIORE della variabilità interna alle colonne?) dello 0.002% solamente. Normalmente questo test viene effettuato con un significato critico del 5%, per il quale la F (1 e 18 d.o.f.) è 4.41, o del 99%, per il quale la F è 8.29. La ipotesi nulla è in questo caso respinta, ed è accettata l'ipotesi alternativa, cioè che vi sia un significativo effetto della colonna, del mese, sulla quantità di particolato atmosferico. Quando le colonne sono due l’analisi della varianza equivale ad un test di Student sulle medie da due 129 campioni Dalla t m1 m 2 [2-37] 1 1 s N1 N 2 dove s è la deviazione standard raggruppata, si ottiene: t2 ( m 1 m 2 ) 2 1 1 s 2 N1 N 2 ( m 1 m 2 ) 2 1 1 N1 N 2 s2 il cui numeratore coincide con la varianza intercolonne come definita dalla [2-47b]. 2.20.2 – Analisi della varianza a due vie L'analisi della varianza ad una via viene generalmente applicata a più colonne (quali potrebbero essere i dati di particolato per tutti i mesi dell'anno). Nei casi in cui vi è una duplice supposta variabilità, di riga e di colonna si ha la analisi della varianza a due vie (two-ways ANOVA). Ogni colonna corrisponde ad un certo valore di un parametro (sopra era il mese); ogni riga corrisponde ad un livello di un altro parametro (nel caso del particolato potrebbe essere l'ora del prelievo). Se per ogni casella (identificata dalla colonna e dalla riga) abbiamo più di una ripetizione in identiche condizioni, si parla di analisi a due vie con ripetizioni (crossed two-ways ANOVA): i dati in questo caso permettono di dedurre la significatività dell'effetto di colonna, dell'effetto di riga, e della interazione, vale a dire della dipendenza dell'effetto di riga dalla colonna e viceversa (nel caso del particolato potrebbe essere la risposta alla domanda: “l'effetto dell'ora dipende solo dall'ora [nessuna interazione] o anche dal mese [interazione ora-mese]?”). Possiamo avere analisi della varianza anche a tre, quattro, ecc. vie. Ogni tipo di ANOVA presuppone un modello. Per l'analisi ad una via il modello è: xic = + (c) + i In parole, il dato i-esimo della colonna c è dato da un valore base, più una quantità (c) che dipende dalla colonna, più un errore distribuito normalmente. Il modello a due vie, senza repliche, è: 130 xirc = + (c) + (r) + i In parole, il dato nella riga r e nella colonna c risulta da un valore base, più un effetto (c) della colonna, più un effetto (r) della riga, più un errore i. Il modello con repliche a due vie è: xirc = +(c) + (r) +(r,c) + i dove (r,c) indica una funzione della riga e della colonna, la interazione. In ogni caso è stimata con la media generalizzata di tutti i dati. Il seguente è un esempio di ANOVA a due vie con repliche. I due fattori hanno solamente due livelli. Ogni casella corrisponde ad una combinazione unica dei livelli dei due fattori. Ogni casella contiene I dati (campioni uguali; quando il numero dei dati nelle caselle non è lo stesso si parla di campioni non uguali, "unequal samples"). Fattore colonna Livello -1 Livello +1 Fattore riga 15.8 25.0 Livello -1 16.2 24.5 media 20.63333 17.1 25.2 30.1 54.3 Livello +1 32.2 55.6 media 43.35000 33.0 54.9 media 24.06667 media 39.91667 Media generale 31.991667 Effetto del Fattore A (Riga): Livello -1 Media 20.63333 Effetto -11.35833 Livello +1 Media 43.35000 Effetto 11.35834 Effetto del Fattore B (Colonna): Livello -1 Media 24.06667 Effetto -7.92500 Livello +1 Media 39.91667 Effetto 7.92500 131 Effetti di Interazione: Fattore A -1 Fattore B -1 Interazione +1 Media 16.36667 Effetto 3.65833 Fattore A -1 Fattore B +1 Interazione -1 Media 24.90000 Effetto -3.65834 Fattore A +1 Fattore B -1 Interazione -1 Media 31.76667 Effetto -3.65833 Fattore A +1 Fattore B +1 Interazione +1 Media 54.93333 Effetto 3.65833 Calcolata la media generale (31.991667), si calcola la media dei (6) valori che corrispondono ai due livelli del fattore riga (20.63333 e 43.350000): l'effetto del livello -1 del fattore riga è dato dalla differenza tra la media di livello e la media generale, 20.63333 - 31.991667 = - 11.358334. Analogamente per il livello +1, 43.350000 - 31.991667 = + 11.358333. La somma degli effetti di riga risulta nulla: gli effetti di riga indipendenti sono R-1. Nello stesso modo, dalla media dei (6) valori che corrispondono al livello -1 e dei (6) valori che corrispondono al livello +1 del fattore colonna si calcolano le medie 24.06667 e 39.91667; la differenza tra queste medie e la media generalizzata permette di valutare l'effetto dei due livelli del fattore colonna. La somma degli effetti di colonna è nulla; il numero degli effetti di colonna indipendenti è C-1. A questo punto possiamo utilizzare una parte del modello + f(c) + g(r) per ottenere una stima dei valori per ogni combinazione di livelli: 31.991667 31.991667 -11.358334 -11.358334 - 7.92500 = + 7.92500 = 12.70833 28.558337 31.991667 31.991667 +11.358334 +11.358334 - 7.92500 = + 7.92500 = 35.424997 51.274997 Il confronto tra queste stime e le medie di "nido" 16.36667 24.90000 31.76667 54.93333 fornisce i valori della interazione. La somma dei valori di interazione risulta essere nulla in ogni riga 132 ed in ogni colonna: il numero di gradi di libertà associati alla interazione è pertanto (R-1)(C-1). Il modello stimato risulta essere: xirc = m + f(c) + g(r) + u(r,c) + ei Ponendo come valori di c e di r i livelli (-1,+1) si ottiene: xirc = 31.991667 + 7.925 c + 11.359334 r + 3.65833 r c + ei Nella ANOVA si calcolano: R C I 2 A) la somma dei quadrati totale: SST x irc r 1 c 1 i 1 R C I 2 2 m GEN B) il contributo della somma dei quadrati della media: SSM IRC m GEN r 1 c 1 i 1 R (mr mGEN )2 C) La varianza associata al fattore riga: s 2Riga I C r 1 R 1 La varianza della media di riga rispetto alla media generale, che è anche la media delle medie di riga, è ricavata su di una media calcolata con I C dati, e pertanto per riportarla alla varianza della popolazione X occorre moltiplicarla per I C. La sommatoria a numeratore è SSR. C D) Analogamente la varianza associata al fattore colonna è: 2 s Colonna IR (mc mGEN ) 2 c 1 C 1 La varianza della media di colonna rispetto alla media generale, che è anche la media delle medie di colonna, è ricavata su di una media calcolata con I R dati, e pertanto per riportarla alla varianza della popolazione X occorre moltiplicarla per I R. La sommatoria a numeratore è SSC. E) La varianza associata alla interazione è: C R s 2Interazion e I (m rc m GEN c 1 r 1 g(r ) f (c)) 2 (R 1)(C 1) Essa è calcolata come varianza delle medie di celle (ciascuna calcolata su di I dati) rispetto a m +f(c)+g(r). La somma dei quadrati a numeratore è SSI. 133 F) La varianza dell'errore si calcola come: R C I (x irc [31.991667 7.925c 11.359334r3.65833rc]) 2 s 2 r 1 c 1 i 1 IR C 1 (C 1) (R 1) (C 1)(R 1) La somma dei quadrati a numeratore SSE può anche essere ricavata come: SSE = SST - SSM - SSR - SSC - SSI Il numero dei gradi di libertà è eguale al numero totale dei dati (12) diminuito di 1 (per la media generale), e dei gradi di libertà relativi al calcolo dell'effetto di colonna, di riga e di interazione. Con le somme dei quadrati e le varianza corrispondenti si costruisce la tabella ANOVA: Sorgente di variazione d.o.f Somma dei Varianza F Quadrati Totale 12 14750.490 Media 1 12281.601 Fattore A (Riga) 1 1548.142 1548.142 1910.572 Fattore B (Colonna) 1 753.668 753.668 930.107 Interazione 1 160.598 160.598 198.195 Errore 8 6.482 0.810 Con i valori di F (rapporto tra la varianza dovuta a un fattore o all'interazione e la varianza dell'errore) si calcola il significato unilaterale destro, che in questo caso risulta sempre piccolissimo, indicando che sia il fattore riga, sia il fattore colonna, sia la interazione tra i due fattori hanno un effetto significativo sul risultato X. 2.21 - INTRODUZIONE ALL'ALGEBRA DELLE MATRICI I dati vengono predisposti in una MATRICE (arrangiamento bidimensionale) di dati X con I righe (I = numero di oggetti) e M colonne (M = numero delle variabili). Vi sono anche matrici a più di due dimensioni, spesso (in problemi chimici) a tre dimensioni. La terza dimensione è data dai “tubi”. La notazione matriciale e l'algebra delle matrici sono necessarie nell'analisi multivariata dei dati per evitare formule complicate. Per questo motivo vengono di seguito riportati i concetti base delle notazioni e delle operazioni matriciali. 134 Il simbolo per una matrice è una lettera latina maiuscola in grassetto, come X. Si può accettare anche una lettera maiuscola sottolineata come X. Solo una particolare matrice verrà in questo testo indicata con una lettera greca: Il simbolo di matrice può essere seguito dal numero di righe e di colonne, come X (IxM) o anche XIM. In questo testo verrà usata l'ultima notazione . Il primo indice si riferisce sempre al numero di righe, il secondo al numero delle colonne. Questi sono indicati con I e M in una matrice di dati originale, ma nella elaborazione possono cambiare, p.e. I può diventare da numero delle righe numero delle colonne. Se I e M sono sostituiti dai loro valori numerici si utilizzerà la notazione 12X32, oppure la X12,32 per indicare, p.e., una matrice di dodici righe e di trentadue colonne. Una matrice viene generalmente riportata tra due parentesi quadre di altezza tale da racchiuderla: X 3, 2 23 12 29 5 3 88 Un VETTORE (colonna) è una matrice con I righe ed 1 colonna. Il suo simbolo è una lettera minuscola in grassetto, come x (xI per indicare il numero di righe, oppure xI,1 per ricordare anche che vi è una sola colonna). Un vettore riga è una matrice di 1 riga e di M colonne. Il suo simbolo è x' (x'M oppure x'1,M per ricordare che vi è una sola riga), oppure, meglio, xT. Eccezionalmente, scriveremo vettori riga o colonna come matrici (simbolo maiuscolo in grassetto) evidenziando il numero 1 di linee o di colonne. Uno SCALARE è una matrice di una riga ed una colonna; viene indicato con una lettera minuscola, come x. Le lettere minuscole come i,m,l,k,... vengono usate come indici, con le lettere maiuscole I,M,L,K,... come limiti corrispondenti. Lo scalare con gli indici i ed m, xim , è il dato nella i-esima riga e nella m-esima colonna, relativo allo i-esimo degli oggetti totali e per esso alla m-esima delle variabili totali. La TRASPOSTA di una matrice X è una matrice Y per cui ymi = xim . La trasposta della matrice X viene indicata con XT o con X'. Il trasposto del vettore (colonna) x è il vettore riga x' (o xT). xT è il vettore riga (vettore dati, datavector) che rappresenta l'i-esimo oggetto nella matrice dei dati X. 135 Operazioni con le matrici La SOMMA di due matrici XIM e YIM (notare che le due matrici hanno le stesse dimensioni, sono congruenti per la somma) è una matrice ZIM , per cui zim = xim + yim . [2-48] Esempio: 23 12 11 2 29 5 2 9 3 88 0 22 34 10 31 14 3 110 Il prodotto di una matrice per uno scalare si ottiene moltiplicando tutti i termini della matrice per lo scalare. Il PRODOTTO interno, o semplicemente il prodotto, di due matrici X e Y è possibile solo quando il numero delle colonne nella prima matrice è lo stesso di quello delle righe nella seconda matrice (matrici congruenti per la moltiplicazione) e la matrice ZIJ = XIM . YMJ [2-49] è ottenuta con z ij M [2-50] x im y mj m 1 La matrice XIM è detta PREMOLTIPLICANTE, mentre la YMJ è la POSTMOLTIPLICANTE. Un esempio importante è il prodotto di un vettore riga per un vettore colonna, prodotto che è possibile, quando il vettore riga è il premoltiplicante, se le sue colonne sono in numero eguale alle righe del vettore colonna. Il prodotto dei due vettori è allora uno scalare: z = X1 M . YM 1 Esempio (l’asterisco indica, come in molti linguaggi di programmazione, la moltiplicazione):: 4 1 2 3 4 1*4 2*4 3*3 4 8 9 21 3 Ogni elemento zij della matrice prodotto Z può essere considerato come il prodotto di un vettore riga per un vettore colonna. Pertanto un modo comodo di rappresentare un prodotto interno, quale quello nell'esempio: 136 3 12 9 5 2 1 0 5 2 2 1 3 1 2 è quello nella forma (la cui funzione viene spiegata successivamente): 3 12 9 5 1 2 1 0 5 2 2 2 1 3 3 * 2 12 * 2 3 *1 12 * 2 3 * 0 12 *1 3 * 5 12 * 3 9 * 2 5 * 2 9 *1 5 * 2 9 * 0 5 *1 9 * 5 5 * 3 1* 2 2 * 2 1*1 2 * 2 1* 0 2 *1 1* 5 2 * 3 6 24 3 24 0 12 15 36 18 10 9 10 0 5 45 15 1 4 0 2 5 6 2 4 30 21 12 21 28 1 5 30 5 2 11 2 La forma di scrittura del prodotto di matrici come: evidenzia come ogni elemento della matrice prodotto sia il prodotto del vettore x' sulla stessa riga per il vettore colonna y sulla stessa colonna (i due vettori sono evidenziati sotto nel caso del calcolo dell'elemento della prima riga e seconda colonna). La prima riga della premoltiplicante postmoltiplicata per la seconda colonna della postmoltiplicante fornisce l’elemento in prima riga e seconda colonna della matrice risultato 137 138 Prodotti matriciali notevoli Si noti che per il prodotto X XT , la matrice X postmoltiplicata per la sua trasposta XT, è: Z I I X I M X TM I M [2-51] M z i j x im x x im x jm T mj m1 m1 e per il prodotto XT X , la matrice X premoltiplicata per la sua trasposta, è: Z M M X TM I X I M I [2-52] I z mn x x in x im x jn i 1 T mi i 1 Quando un vettore viene moltiplicato per il suo vettore riga trasposto si ottiene uno scalare che è la somma dei quadrati dei suoi elementi, il quadrato della norma euclidea: I x x I1 x i2 T 1I [2-53] i 1 La matrice che si ottiene premoltiplicando una matrice X per la sua trasposta X' è una matrice QUADRATA (stesso numero di righe e di colonne); essa contiene lungo la DIAGONALE PRINCIPALE (costituita dagli elementi con eguale indice di riga e di colonna) le somme dei quadrati delle variabili. La matrice è anche SIMMETRICA (la simmetria è rispetto alla diagonale principale) nel senso che: zmn = znm Infatti l'elemento zmn si ottiene come prodotto del vettore riga x'mI per il vettore colonna xIn , ed è evidentemente eguale all'elemento znm che si ottiene come prodotto del vettore riga x'nI per il vettore colonna xIm. Ecco alcuni esempi: 4 3 x x T 4 3 2 1 2 1 x T x 4 2 32 2 2 12 16 9 4 1 30 139 1 2 X IM 3 4 0 1 X IM X T MI 1 2 1 3 0 3 4 2 4 1 0 1 12 2 2 1 * 3 2 * 4 1 * 0 2 * 1 3 * 1 4 * 2 32 42 3 * 0 4 * 1 0 * 1 1 * 2 0 * 3 1 * 4 02 12 5 11 2 11 25 4 2 4 1 1 2 1 3 0 X X IM 3 4 2 4 1 0 1 T MI 12 32 0 2 1 * 2 3 * 4 0 * 1 2 2 2 2 * 1 4 * 3 1 * 0 2 4 1 10 14 14 21 Si noti come ambedue le matrici XXT e XTX siano quadrate e simmetriche. Si noti anche come il risultato della moltiplicazione sia in questo caso (ma lo è quasi sempre) diverso da quello della postmoltiplicazione. Nel caso della pre- o post-moltiplicazione di una matrice per la sua trasposta, ambedue le moltiplicazioni sono possibili, mentre nel caso di due matrici generiche possiamo avere molte possibilità: a) non è possibile né pre- né post- moltiplicare, b) è possibile solo la premoltiplicazione, c) è possibile solo la postmoltiplicazione, d) sono possibili ambedue le moltiplicazioni. La DIAGONALE principale o semplicemente diagonale di una matrice quadrata è costituita dagli elementi che vanno dal primo in alto a sinistra all'ultimo in basso a destra, cioè quelli per i quali l'indice di riga è eguale all'indice di colonna. La somma dei valori sulla diagonale principale prende il nome di TRACCIA, e viene indicata con tr(X). Una MATRICE DIAGONALE è una matrice quadrata che ha tutti zeri, tranne che sulla diagonale 140 principale. Una matrice TRIANGOLARE INFERIORE ha tutti zeri quando l'indice di colonna è superiore all'indice di riga. Una TRIANGOLARE SUPERIORE ha tutti zeri quando l'indice di riga è superiore all'indice di colonna. Anche le triangolari sono necessariamente quadrate. Una matrice IDENTITÀ è una matrice diagonale con tutti i valori sulla diagonale principale eguali ad 1: irr = 1. Essa viene indicata con il simbolo I (IRR ). La matrice identità è l'unità nel calcolo matriciale, per molti aspetti analoga all'1 utilizzato nei calcoli non matriciali. La matrice INVERSA di una matrice quadrata LRR è una matrice che viene indicata con L-1 (L-1RR ) tale che 1 1 L RR LRR LRR L RR I RR Si noti l'analogia con il calcolo usuale con gli scalari (il prodotto di uno scalare per il suo inverso è 1). La inversione di una matrice è un procedimento piuttosto difficile e molto lungo quando il numero delle righe (eguale a quello delle colonne) è elevato: oggi tuttavia tale operazione viene condotta in pochi secondi, anche per grandi matrici, p.e. con cento righe e colonne, con i moderni calcolatori da laboratorio. Il calcolo di una matrice inversa comporta anche il calcolo del DETERMINANTE della matrice originale, determinante che si indica con X . Per una matrice diagonale il determinante è eguale al prodotto dei valori sulla diagonale principale. Per una matrice di due righe, il determinante è fornito dal prodotto dei termini sulla diagonale principale diminuito di quello dei termini sull'altra diagonale. I metodi per il calcolo del determinante sono facilmente reperibili sui testi di analisi matematica; in chimica analitica il calcolo del determinante di una matrice è necessario nella elaborazione di esperimenti multivariati e in pochi altri casi, ed allora viene effettuato con i programmi di calcolo che effettuano la inversione. Una grandezza interessante associata ai vettori o alle matrici è la NORMA EUCLIDEA, indicata con . . Essa è la radice quadrata della somma dei quadrati di tutto ciò che è indicato al posto del punto. P.e., x indica la radice quadrata della somma dei quadrati di tutti i termini del vettore x. Dividendo un vettore per la sua norma si ottiene un nuovo vettore per il quale la somma dei quadrati è 1. Il vettore è stato normalizzato. Talune matrici quadrate non sono invertibili, come la seguente matrice: 141 3 6 6 12 il cui determinante (3 . 12 - 6 . 6) è nullo. In questi casi si può estrarre dalla matrice una matrice sempre quadrata cancellando una colonna m e una riga i. Possono essere ottenute molte (M) matrici ridotte. Se i determinanti delle matrici ridotte, detti MINORI, sono tutti nulli si procede ad una nuova cancellazione. Il numero di righe (o colonne) della matrice ridotta con determinante diverso da zero (e con il massimo numero di righe tra tutte le matrici ridotte) determina il RANGO della matrice originale. Il rango di una matrice quadrata può quindi essere al massimo eguale al suo numero di colonne (matrice invertibile) o essere inferiore, sino a diventare zero per una matrice costituita da tutti zeri. Infine definiremo le matrici ORTOGONALI: esse sono quelle matrici quadrate la cui inversa è eguale alla trasposta: 1 LTMM LMM [2-54] 2.22 - L'ESPERIMENTO BIVARIATO Un esperimento si dice bivariato quando è descritto da due variabili random. L’esperimento bivariato è l’esempio più semplice di esperimento multivariato, descritto da molte variabili affette da errore casuale, a ciascuna delle quali è associata una “distribuzione marginale”. L’esperimento chimico-analitico è oggi generalmente multivariato, in quanto su ogni campione vengono misurate molte quantità chimiche, spesso centinaia. Appare quindi chiara l’importanza dei fondamenti della elaborazione dei dati per gli esperimenti multivariati, fondamenti che appaiono quasi completamente delineati quando si studiano gli esperimenti bivariati. Le variabili random che descrivono l’esperimento possono essere discrete, continue, o una discreta e l'altra continua. In chimica analitica il maggiore interesse è per le distribuzioni continue. Tuttavia per introdurre alcuni elementi di particolare interesse utilizzeremo alcuni semplici esperimenti con variabili discrete. L'esperimento A consiste nel lancio di due dadi: la variabile X1 è il valore del primo dado, la variabile X2 il valore del secondo dado. La tabella seguente mostra la distribuzione delle frequenze dopo 200 lanci. 142 X1 X2 1 2 3 4 5 6 Totali X1 1 2 3 4 5 6 Totali X2 6 8 5 5 4 4 32 6 9 9 5 8 6 43 3 3 3 6 3 7 25 8 5 5 7 4 4 33 8 6 7 4 6 5 36 5 3 9 4 3 7 31 36 34 38 31 28 33 I totali danno le frequenze MARGINALI, riferite agli esperimenti univariati in cui viene determinata una sola delle variabili. Si rammenti che, dato lo stesso esperimento in senso chimico, ad esso possono essere associati diversi esperimenti concettuali. La Figura 2-52 riporta l'istogramma bidimensionale, le Figure 2-53 e 2-54 gli istogrammi delle singole variabili, detti ISTOGRAMMI MARGINALI. Non vi è alcuna ragione (in base alla teoria che considera i dadi cubi perfetti omogenei) per cui uno degli eventi x1 , x2 , (esperimenti marginali) x1,x2 (esperimento bivariato) abbia probabilità diversa dagli altri. Figura 2-52 - Istogramma bidimensionale per l'esperimento "Lancio di due dadi" 143 1 2 3 4 5 1 6 2 Figura 2-53 3 4 5 6 Figura 2-54 Istogramma della prima variabile Istogramma della seconda variabile Si noti come per gli istogrammi marginali la frequenza assoluta attesa per ogni evento è circa 33 (200/6), mentre per l'istogramma bidimensionale la frequenza assoluta attesa è 5.5 (200/36, probabilità 1/36 per ciascuno degli eventi). Lo scarto massimo della frequenza dalla frequenza attesa per gli istogrammi marginali si ha per X1 = 2 ed è circa il 30%; mentre lo scarto massimo per l'istogramma bidimensionale si ha con X1 = 2 e X2 =2, con X1 = 2 e X2 =3 e con X1 = 6 e X2 =3, ed è di circa il 62%. In generale vediamo che lo scarto dalla frequenza attesa è nettamente più alto per l'istogramma bidimensionale che per gli istogrammi marginali. Possiamo concludere con una affermazione di validità generale: la distribuzione bivariata delle frequenze è, a parità di numero di ripetizioni, una peggiore rappresentazione della distribuzione bivariata delle probabilità di quanto la distribuzione univariata delle frequenze lo sia della distribuzione univariata delle probabilità. Ciò è semplicemente dovuto al molto maggiore numero di eventi possibili. L'esempio precedente ci ha permesso di definire le variabili marginali e le loro distribuzioni marginali, di frequenza e di probabilità, ciascuna delle quali avrà le sue caratteristiche statistiche, media, deviazione standard, mediana, mode, ecc. Utilizziamo ora 200 ripetizioni dell'esperimento B, che consiste ancora nel lancio di due dadi. La prima variabile X1 è il valore del primo dado, la seconda X2 è la somma dei valori dei due dadi e pertanto può andare da 2 a 12. 144 La tabella seguente mostra la distribuzione delle frequenze dopo 200 lanci. X1 X2 2 3 4 5 6 7 8 9 10 11 12 Totali X1 1 2 3 4 5 6 Totali X2 6 8 5 5 4 4 0 0 0 0 0 32 0 6 9 9 5 8 6 0 0 0 0 43 0 0 3 3 3 6 3 7 0 0 0 25 0 0 0 8 5 5 7 4 4 0 0 33 0 0 0 0 8 6 7 4 6 5 0 36 0 0 0 0 0 5 3 9 4 3 7 31 6 14 17 25 25 34 26 24 14 8 7 La Figura 2-55 mostra l'istogramma bidimensionale. Dalla tabella sopra riportata e dalla figura risulta evidente che vi sono combinazioni non lecite di valori entrambi leciti di X 1 ed X2 , come la combinazione X1 =1 X2 =12. Appare anche chiaro che la frequenza dei valori elevati di X2 aumenta con la frequenza dei valori elevati di X1. Primo DADO Somma dei due DADI Figura 2-55 - Istogramma bidimensionale di due variabili correlate 2.22.1 – Covarianza e coefficiente di correlazione Le frequenze delle classi bidimensionali hanno sulla tabella e nel grafico un andamento nettamente diagonale. Ciò perché, a causa del modo in cui abbiamo costruito l'esperimento, vi è una 145 CORRELAZIONE tra le due variabili, essendo la seconda eguale alla prima più qualcosa (in questo caso il qualcosa in più è il valore del secondo dado). In altre parole la seconda variabile contiene in sé informazione già in parte portata dalla prima variabile: abbiamo un duplicato di informazione, duplicato che è ovviamente inutile. La correlazione è un elemento fondamentale degli esperimenti multivariati. Per misurare la correlazione tra due variabili si usano due parametri, la COVARIANZA e il COEFFICIENTE DI CORRELAZIONE. La covarianza della popolazione è il momento centrale del primo ordine per la prima e la seconda variabile: 11 ( x1 1 ) ( x 2 2 ) f ( x1 , x 2 ) dx1 dx 2 [2-55] nel caso di funzioni di densità di probabilità bivariate continue. La funzione f(x1, x2) è la distribuzione di densità di probabilità bivariata: d2p f ( x1 , x 2 ) dx1 dx 2 ed è il parallelepipedo infinitesimo di secondo ordine che ha come altezza la densità di probabilità d2p e come base l’elemento rettangolare infinitesimo di lati dx1 e dx2. Questo elemento può essere visto come il limite dell’istogramma bivariato quando ambedue gli intervalli di classe tendono ad ampiezza zero. γ11 (i pedici rappresentano l’ordine del momento rispetto alle due variabili) viene indicata usualmente con il simbolo x1,x2, essendo un momento centrale del secondo ordine complessivo, come la varianza di ciascuna variabile. La covarianza viene stimata dalla: I s x1x2 (x i 1 1i m1 )(x 2i m 2 ) [2-56] N 1 mentre il coefficiente di correlazione della popolazione viene stimato da: r s x1x 2 s x1 s x 2 [2-57] dove appaiono a denominatore le deviazioni standard delle distribuzioni marginali. Il coefficiente di correlazione è una covarianza normalizzata in modo da assumere solo valori 146 compresi tra -1 e +1. I valori estremi indicano una perfetta correlazione negativa (r = -1) o positiva (r =1), vale a dire che le due variabili sono legate da una relazione lineare. Il valore 0 indica mancanza di correlazione. Valori intermedi indicano correlazioni più o meno marcate, negative o positive. Anche per il coefficiente di correlazione sono possibili test di ipotesi, il principale dei quali consiste nell'ipotesi nulla "il coefficiente di correlazione è zero". Se il test non passa, allora vuol dire che la correlazione misurata da r è significativamente diversa da zero. Il test sul coefficiente di correlazione è basato sul fatto che la t r N2 1 r2 è una variabile distribuita come una variabile di Student con N-2 gradi di libertà. La tabella seguente fornisce i valori critici per il valore assoluto del coefficiente di correlazione. Il test è bilaterale, con ipotesi alternativa «r significativamente differente da zero». Per esempio con 5 oggetti un valore di r pari a 0.959 ha un significato dell’1%, e pertanto l’ipotesi che sia zero può essere scartata. Tabella 2-22 – Valori critici del coefficiente di correlazione Oggetti (N) 5 7 9 11 13 15 17 19 22 26 30 40 50 70 90 20% 10% 5% 1% 0.687 0.551 0.472 0.418 0.379 0.348 0.329 0.310 0.283 0.258 0.242 0.206 0.184 0.155 0.138 0.806 0.668 0.583 0.522 0.475 0.440 0.411 0.388 0.358 0.329 0.304 0.262 0.236 0.198 0.175 0.877 0.751 0.667 0.600 0.552 0.516 0.480 0.455 0.423 0.388 0.360 0.309 0.277 0.236 0.207 0.959 0.872 0.802 0.731 0.684 0.644 0.603 0.574 0.538 0.492 0.463 0.400 0.359 0.300 0.271 Oggetti (N) 6 8 10 12 14 16 18 20 24 28 35 45 60 80 100 20% 10% 5% 1% 0.610 0.508 0.443 0.400 0.362 0.341 0.318 0.298 0.270 0.249 0.223 0.194 0.169 0.145 0.130 0.728 0.621 0.548 0.500 0.457 0.427 0.401 0.377 0.343 0.316 0.282 0.249 0.215 0.186 0.165 0.810 0.706 0.632 0.576 0.532 0.500 0.471 0.441 0.405 0.373 0.333 0.294 0.255 0.221 0.196 0.915 0.834 0.768 0.710 0.655 0.624 0.592 0.555 0.518 0.478 0.431 0.383 0.332 0.287 0.252 Vedremo ora di illustrare meglio il significato della covarianza e del suo calcolo mediante la [2-56], utilizzando la seguente serie di 12 dati bidimensionali. i 1 2 3 x1 8.040 2.755 14.575 x2 59.769 55.319 69.168 x1-m1 0.582 -4.703 7.117 x2-m2 0.242 -4.208 9.641 (x1-m1)(x2-m2) Segni Segno 0.140 ++ + 19.794 -+ 68.608 ++ + 147 4 5 6 7 8 9 10 11 12 6.639 9.818 10.217 1.677 8.273 1.814 14.343 10.638 0.712 47.851 66.668 72.184 33.731 56.907 64.074 71.861 54.661 62.136 -0.819 2.360 2.759 -5.781 0.815 -5.644 6.885 3.180 -6.746 -11.676 7.141 12.657 -25.796 -2.620 4.547 12.334 -4.866 2.609 9.568 16.849 34.914 149.140 -2.135 -25.663 84.912 -15.473 -17.599 -++ ++ -+-+ ++ +-+ + + + + + - m1 = 7.458; m2 = 59.527; s21 = 23.266; s22 = 121.257; s1 = 4.823; s2 = 11.01166; sx1x2 = 29.369; r = 0.553. La Figura 2-56 riporta i dati e la posizione del CENTROIDE, vale a dire del punto di coordinate m 1,m2 , che è il baricentro dei dati bidimensionali. Lo scostamento dal centroide è lo scarto usato nel calcolo delle varianze e della covarianza. Nelle ultime colonne della tabella precedente sono riportati i segni dei due scarti ed il conseguente segno del contributo del punto alla covarianza: vediamo che la maggior parte degli scarti hanno lo stesso segno (8 contro 4 di segno opposto, corrispondenti ai dati 8, 9, 11 e 12). Notiamo anche che i contributi maggiori alla covarianza vengono tutti da dati con gli scarti aventi lo stesso segno. Figura 2-56 - Grafico variabile vs. variabile di due variabili correlate 148 Ciò significa che uno scostamento positivo della x1 dal valore medio è associato, generalmente, ad uno scostamento anch'esso positivo della x2 dal valore medio; lo stesso accade per gli scostamenti negativi. Le variabili covariano rispetto al valore centrale, e tale covarianza è positiva in quanto dello stesso segno per le due variabili. Il coefficiente di correlazione, abbastanza elevato nel senso che è significativamente diverso da zero, 0.553, misura appunto il grado di questo variare insieme delle due variabili. In analisi dei dati bivariata frequentemente (e sempre in analisi multivariata) si forniscono i dati di varianza e covarianza in forma matriciale: Per l'esempio della tabella si utilizza la matrice: s2x1 s x 1 x 2 s x1x 2 23.266 29.369 29.369 121257 . s2x 2 Questa matrice viene detta MATRICE delle VARIANZE-COVARIANZE o semplicemente matrice delle covarianze. Essa è particolarmente comoda quando il numero delle variabili è molto grande, sia per eseguire i calcoli in forma matriciale, sia come simbolo. Essa verrà in seguito indicata generalmente con VMM. Si noti come la covarianza tra x1 ed x2 sia eguale alla covarianza tra x2 ed x1 : la matrice delle covarianze è quadrata e simmetrica. Se indichiamo con D la matrice delle deviazioni, che si ottiene dalla matrice dei dati originali semplicemente sottraendo ad ogni variabile la media, la matrice delle covarianze si ottiene facilmente dalla seguente operazione matriciale: VMM D 'MI D IM [2-58] I 1 La matrice delle covarianze può essere espressa in funzione del coefficiente di correlazione, ricavando la covarianza dalla [2-57]: s 2x1 s x1x 2 s x1x 2 s 2x1 s 2x 2 r s x1 s x 2 r s x1 s x 2 s 2x 2 L'inversione della matrice delle covarianze bivariata fornisce la s x1x 2 s 2x1 s 2x 2 s x1x 2 s x1x 2 D D 2 2 s s x1 s x 2 x1x 2 D D 1 [2-59] 149 dove D è il determinante della matrice delle covarianze: D s2x1 s2x 2 sx1x 2 sx1x 2 [2-60] La [2-59] può essere modificata in modo da esprimere tutto in funzione delle varianze e del coefficiente di correlazione: s x1x 2 s 2x1 s x1x 2 s 2x 2 1 1 s 2 (1 r 2 ) x1 r s 2 s 2 (1 r 2 ) x1 x 2 r s 2x1s 2x 2 (1 r 2 ) 1 2 2 s x 2 (1 r ) [2-61] Il termine (1-r2) può essere portato fuori dalla matrice, essendo un divisore comune a tutti i termini della stessa. La traccia della matrice delle covarianze tr ( V ) s2x1 s2x 2 misura la dispersione complessiva delle due variabili (delle M variabili, in generale). Il determinante misura la dispersione nello spazio 2-dimensionale. Quando il coefficiente di correlazione ha valore assoluto 1, perfetta correlazione positiva o negativa, gli oggetti cadono su di una linea nello spazio delle due variabili; la linea ha una sola dimensione; non vi è dispersione su due dimensioni; il determinante nullo indica proprio che la dimensionalità reale è inferiore al numero M delle variabili. Le Figure da 2-57 a 2-59 illustrano la relazione tra correlazione e determinante. Figura 2-57 - Debole correlazione negativa; determinante elevato 150 Figura 2-58 - Grande correlazione positiva; determinante piccolo Figura 2-59 - Perfetta correlazione negativa; determinante nullo La matrice inversa delle covarianze ha un significato simile all'inverso della varianza. Prima di vederne la utilizzazione consideriamo una particolare distribuzione bivariata, la distribuzione bivariata normale con variabili indipendenti. Una distribuzione multivariata normale è caratterizzata dal fatto che tutte le distribuzioni marginali sono gaussiane. In questo caso possiamo applicare la regola del prodotto delle probabilità, trattandosi di eventi indipendenti: dalla forma p(AB) = p(A) p(B) possiamo passare alla forma con le densità di probabilità: f ( x1, x 2 ) d 2p dp dp dx1 dx 2 dx1 dx 2 Questa relazione, come la precedente, può sembrare incoerente dal punto di vista 151 dimensionale, ma la probabilità non ha dimensioni e il prodotto di due probabilità non è una probabilità al quadrato ma una probabilità. La densità bivariata di probabilità è un infinitesimo di secondo ordine, e può essere immaginata l’altezza del parallelepipedo infinitesimale di base dx1 .dx2 . La sua integrazione su tutto il piano x1-x2 fornisce la certezza 1, il volume: f (x1, x 2 )dx1dx 2 1 Esprimendo mediante la gaussiana le due distribuzioni marginali otteniamo: 1 e 2 1 f ( x1, x 2 ) ( x1 1 ) 2 2 12 1 e 2 2 ( x 2 2 ) 2 2 22 [2-62] che viene stimata utilizzando i valori stimati dei parametri m1 m2 s1 s2 . La [2-62] viene agevolmente modificata in: f ( x1, x 2 ) 1 21 2 1 ( x ) 2 ( x ) 2 1 1 2 2 2 12 22 e [2-63] ed è mostrata in Figura 2-60. Figura 2-60 Distribuzione normale bivariata di due variabili incorrelate. Elemento infinitesimo di volume. Il termine tra parentesi quadra, che moltiplicato per -0.5 è l'operatore dell'esponenziale, è detto DISTANZA (quadrata) di MAHALANOBIS: 152 ( x1 1 ) 2 ( x2 2 )2 mh 12 22 [2-64] 2 Essa ha un significato analogo al quadrato della variabile standardizzata Z in unidimensionale: si riconosce facilmente che la mh2 è una variabile χ2 con due gradi di libertà, in quanto somma di due variabili Z2 indipendenti. La distanza di Mahalanobis è una distanza che pesa le due variabili inversamente alla loro dispersione: essa dà maggiore importanza alla variabile con minore varianza: infatti per questa un relativamente piccolo valore dello scarto dalla media corrisponde a una Z relativamente alta, quindi ad un significato basso; il contrario avviene per una variabile con grande varianza. Nel caso in cui le due variabili x1 e x2 siano correlate (caso piuttosto frequente) la distanza di Mahalanobis assume una forma più complessa: 1 mh 1 2 2 ( x1 1 ) 2 2 ( x1 1 ) ( x 2 12 ) ( x 2 2 ) 2 2 22 1 1 2 [2-65] dove compare il coefficiente di correlazione. Anche il moltiplicatore dell'esponenziale nella funzione di distribuzione diventa più complesso: 1 2 1 2 1 2 Un modo molto più compatto di scrivere la funzione di distribuzione bivariata per variabili correlate e la relativa distanza di Mahalanobis è basato sull'uso della notazione matriciale: f ( x) 1 (2) M / 2 V e 1/ 2 1 1 d1TM VMM d M1 2 [2-66] dove x è il vettore (x1,x2 nel caso di due variabili) che descrive le coordinate, M è il numero delle variabili (2), V-1 è l'inversa della matrice delle covarianze, |V|1/2 è la radice quadrata del determinante della matrice delle covarianze, d è il vettore delle distanze dalle medie x1-1, x2-2 . La [2-66] è di validità generale, per qualunque valore di M, numero delle variabili, e per qualunque correlazione tra le variabili: è la funzione di distribuzione normale multivariata, nella quale è riconoscibile la espressione matriciale molto semplice della distanza di Mahalanobis, distanza che in generale segue una statistica χ2 con M gradi di libertà. 153 2.22.2 – Intervalli di fiducia bivariati Un intervallo di fiducia bivariato è dato da una superficie nello spazio delle due variabili X 1 2 che racchiude il p% della probabilità; in altri termini SUPERFICIE f ( x1 , x 2 ) dx1 dx 2 p% dove il simbolo di integrale intende che la integrazione è effettuata su tutta la superficie S. Vi sono infinite superfici che soddisfano tale condizione, a parità di p%. L'intervallo di fiducia risponde a precisi criteri di simmetria. Nel caso della distribuzione univariata il criterio di simmetria era rappresentato, per tutte le distribuzioni (simmetriche o asimmetriche), da S = D , dove S indica la probabilità di significato unilaterale sinistra e D la probabilità unilaterale di significato destra: la probabilità che rimane fuori dall'intervallo di fiducia è ripartita equamente tra valori grandi e valori piccoli della variabile. A questo criterio univariato corrisponde, ma solo per funzioni simmetriche, un EGUALE VALORE della f(x) ai limiti dell'intervallo. Questo criterio si applica anche alle funzioni di distribuzione di probabilità multivariate normali: un intervallo di fiducia è la superficie che contiene il p% della probabilità e che è delimitata da una LINEA ISOTETICA (linea che congiunge i punti con eguale valore della densità di probabilità, Figura 2-61). Questa linea è una linea chiusa nel piano delle due variabili. Dalla [2-63] si evince che per avere eguali valori della f(x1,x2) basta avere eguali valori della distanza di Mahalanobis. La probabilità di avere un certo valore della distanza di Mahalanobis si ricava facilmente dalla statistica χ2 con 2 (M in generale) gradi di libertà. L'intervallo di confidenza bivariato al p% di fiducia è connesso con il valore della distanza di Mahalanobis, ricavato quale valore di significato unilaterale destro della distribuzione χ2 . Fuori dall'intervallo di fiducia rimangono i valori (x1,x2) che hanno una distanza di Mahalanobis (dal centroide 1, 2 ) superiore a questo valore critico (e questo spiega perché nella statistica χ2 viene considerato il significato unilaterale destro). La [2-64], equazione della distanza di Mahalanobis, è la equazione di una ellisse con gli assi paralleli agli assi delle coordinate X1 ,X2 . È il caso di variabili incorrelate. Quando le variabili sono correlate, e si applica la [2-65], le ellissi isotetiche, confini dell'intervallo di fiducia bivariato, diventano oblique rispetto agli assi, e dirette da sinistra in basso a destra in alto se il coefficiente di correlazione è positivo. Se il coefficiente di correlazione è negativo le ellissi di isoprobabilità sono 154 dirette da sinistra in alto a destra in basso. Se il coefficiente di correlazione è +1 o -1 le ellissi degenerano in rette. Figura 2-61 – Distribuzione normale bivariata con le linee isotetiche, Intervalli di fiducia bivariati per variabili incorrelate, debolmente correlate positivamente, fortemente correlate negativamente. Occorre notare che la variabile 2 , somma di un certo numero di variabili Z2 indipendenti, è analoga alla Z nel senso che presuppone la conoscenza delle dispersioni, varianze e covarianze, della popolazione. Come in statistica univariata è necessario usare la t di Student con la stima delle deviazioni standard, così in analisi multivariata si usa la funzione T 2 che è la somma di variabili t2; la T2 è la variabile di Hotelling, e sta alla 2 come la t di Student sta alla Z di Gauss. 2.23 - LA REGRESSIONE UNIVARIATA Con regressione si intende l'insieme delle tecniche statistiche che modellano la relazione tra una o più variabili predittrici ed una o più variabili risposta. L'utilizzazione più diffusa in chimica analitica della regressione è quella che riguarda le rette di calibrazione che vengono utilizzate per ottenere da una variabile fisica misurata (Y) il valore incognito di una variabile chimica (X): in questo caso poiché vi è una sola variabile predittrice ed una sola variabile risposta si parla di regressione univariata. Il metodo statistico più diffuso per lo studio dei problemi di regressione univariata è quello dei minimi quadrati con retta generica e ipotesi di omoscedasticità. Retta generica significa che la 155 retta che deve spiegare la relazione tra la variabile predittrice e la variabile risposta non ha vincoli (un vincolo possibile è il passaggio per l'origine, altro vincolo possibile potrebbe essere pendenza unitaria). Omoscedastico è un termine che indica che la varianza è supposta indipendente dal valore della variabile misurata. Oltre al caso di retta generica omoscedastica possiamo quindi avere anche altre situazioni, le più importanti essendo la retta vincolata per l'origine, omoscedastica, la retta generica eteroscedastica, la retta per l'origine eteroscedastica. Considereremo inizialmente il caso della retta generica omoscedastica. Per quanto sia ben noto il procedimento matematico attraverso il quale vengono stimate intercetta e pendenza della retta (metodo dei minimi quadrati) vi sono ulteriori considerazioni statistiche molto importanti che sono poco conosciute. 2.23.1 – Retta generica – Omoscedastica 2.23.1.1 - Il modello Le variabili X (valore generico x) ed Y (valore generico y) sono rispettivamente la variabile risposta e la variabile misurata, la quale è una variabile random affetta da errore. Nella fase di calibrazione si ammette che la X, fattore fissato, sia esente da errore. Per questa ragione solo la Y è una variabile a caso, e perciò si parla spesso di regressione univariata. Il modello assume che le due variabili siano collegate dalla relazione: y=+x+ [2-67] dove e sono delle costanti ed è l’errore casuale con media = 0 [si usa anche il simbolo E( ) per definire l’operatore media della popolazione, soprattutto quando si ha a che fare con numerosi esperimenti a caso per cui non sarebbe opportuno usare per tutti lo stesso simbolo, mentre il contenuto della parentesi nell’operatore E( ) specifica l’esperimento] e con varianza INDIPENDENTE dal valore di x e quindi da quello di y. Questa è appunto la condizione di omoscedasticità, illustrata nelle Figure 2-62 e 2-63. La variabile Y è una variabile condizionale, la condizione essendo rappresentata dal valore della X. In realtà tutte le variabili a caso sono condizionali, nel senso che l’esperimento è condotto fissando un insieme di parametri. Quando parliamo comunemente di variabile condizionale intendiamo che fissiamo l’attenzione su di un particolare fattore, e che vogliamo studiare l’effetto di quel fattore, variandolo opportunamente, sui risultati dell’esperimento. Una variabile condizionale si indica 156 accompagnandola con una barra seguita dalla condizione: Y/X=x, o anche Y/x (intendendo che X è la variabile che misura il fattore in studio e che ha quel particolare valore x). Per qualunque valore della condizione X, la media della popolazione delle y (o valore vero, yvero) deve essere: E(Y/X=x) = = + x [2-68] e la varianza della y, sotto la ipotesi che la X sia esente da errore, deve essere eguale a quella dell’errore casuale, 2. Figura 2-62 - Frequenze di 6 variabili condizionali (Y/X=x), con eguale varianza, illustrate dai risultati ottenuti in 10 ripetizioni 157 Figura 2-63 - Distribuzioni di probabilità di 6 variabili condizionali (Y/X=x) con eguale varianza Gli obiettivi dello sperimentatore sono: Nella fase di costruzione della retta di calibrazione: 10) stimare i coefficienti e che compaiono nel modello; le stime vengono indicate con i simboli “a” e “b”; b) ottenere una stima di 2 e delle incertezze delle stime della pendenza e della intercetta; c) valutare la ipotesi che i coefficienti stimati siano misure di valori ipotetici. Le ipotesi più correnti sono: H0 a=0 H0 b=1 H0 a = 0; b = 1 Nella fase di utilizzo della retta di calibrazione: d) utilizzare le stime dei coefficienti per ottenere da un valore misurato della Y, y, la stima del valore della condizione o variabile risposta, x; e) stimare la incertezza sul valore di x (in questa fase la X non è fissata ad un valore scelto dall’operatore e privo di errore, ma è stimata ed è pertanto una variabile random). Illustreremo il procedimento seguendo lo stesso ordine visto per gli obiettivi dello sperimentatore, 158 facendo riferimento all’esempio numerico della Tabella 2-23. Ogni volta che dobbiamo valutare i parametri di un modello ci serve una raccolta di dati statistici, un campione. In questo caso occorre avere un insieme di I coppie xi yi estratte dalla popolazione infinita delle Y. Poiché il nostro modello riguarda lo studio della relazione tra le due variabili, occorre che i valori di Y provengano da valori differenti della condizione X. I valori di X dovrebbero essere scelti con considerazioni che derivano dalla teoria del disegno sperimentale, in modo da coprire l’intervallo di X che ci interessa. Per il momento ci limiteremo a supporre che gli I valori prefissati della X, da x1 a xI (valore generico indicato con xi), non siano coincidenti. I valori corrispondenti della Y sono valori delle funzioni condizionali Y/X=xi e ogni valore yi è affetto da un errore estratto dalla popolazione infinita delle Y. In pratica nella fase di calibrazione gli xi sono i valori di una quantità chimica (generalmente una concentrazione) di opportuni standards, sistemi chimici per i quali il valore della quantità chimica è noto con accuratezza tale da poter pensare verificata la ipotesi del metodo dei minimi quadrati che la X non sia affetta da errore. Tabella 2-23 Dati simulati per lo studio della regressione lineare ordinaria a) Dati per la calibrazione I = 10 Indice 1 2 3 4 5 6 7 8 9 10 X 1 2 3 4 5 6 7 8 9 10 Y 0.703 1.624 2.212 5.725 6.035 4.946 4.641 8.657 8.949 9.543 b) Dati per utilizzare la retta di calibrazione (estratti dalla popolazione Y/X=8) Indice 1 2 3 4 5 y 6.517 7.961 8.791 6.572 10.240 In questo caso la varianza è molto elevata [i dati sono stati estratti utilizzando la [2-67] ed un errore estratto a caso da una popolazione gaussiana standard (=0, =1) ], in modo da poter illustrare il procedimento statistico con figure in cui le ampiezze degli intervalli di fiducia non siano eccessivamente piccole in rapporto con i valori delle due variabili. 159 2.23.1.2 - La giustificazione del metodo dei minimi quadrati Il metodo detto dei minimi quadrati deriva il suo nome dal fatto che la retta stimata è quella per la quale è minima la somma dei quadrati dei residui, scostamenti tra i valori sperimentali e quelli forniti dalla retta (Figura 2-64). In effetti anche l’usuale stimatore m (media del campione) della media di una popolazione X è ottenuto con il metodo dei minimi quadrati. Infatti, se abbiamo campionato I valori della X, il metodo dei minimi quadrati ci dice che lo stimatore m deve essere quello per cui è minima la funzione S: S (x i m) 2 i Figura 2-64 – I residui Il minimo si ottiene annullando la derivata prima di S rispetto ad m: dS 2 ( x i m) 0 dm i da cui discende la: x m x i i i i Im0 i che fornisce per m, stimatore con i minimi quadrati di , appunto la media del campione. La base della giustificazione teorica del metodo dei minimi quadrati per la stima della 160 relazione tra E(y/X=x) ed X è che i valori determinati dallo sperimentatore non possono essere molto strani, cioè poco probabili. Se abbiamo determinato M valori di Y per M diversi valori di X, possiamo considerarli insieme come un risultato di un unico esperimento a caso, e questo ha la funzione di distribuzione della densità di probabilità della distribuzione normale M-variata: f(y/X=x1 , y/X=x2 ,..... y/X=xM-1 , y/X=xM ) che si ottiene semplicemente dal prodotto delle distribuzioni marginali, come abbiamo visto per la distribuzione bivariata normale con variabili indipendenti. E in effetti le I variabili condizionali DEVONO essere indipendenti. Se il risultato ottenuto per un certo valore di X dipende dai risultati ad altri valori di X sicuramente vi sono errori sperimentali grossolani, come l'omissione della pulizia della apparecchiatura tra l'analisi di un campione e quella del successivo. La massima VEROSIMIGLIANZA (likelihood) si ha quando l'evento ha una alta, la massima, probabilità. E la probabilità è massima quando la distanza di Mahalanobis è minima. Si ricordi la [266]: f ( x) 1 (2) M / 2 V 1/ 2 1 1 d1' M VMM d M1 2 e [2-66] che per le variabili indipendenti Y (X=x1), Y (X=x2),… diventa, tenendo conto che siamo in condizioni omoscedastiche e quindi tutte le Y hanno la medesima varianza f ( y / X x1 ,y / X x 2 ,.....,y / X x M 1 , y / X x M ) 1 2 M ( y M ) 2 1 ( y ) 2 ( y 2 ) 2 1 1 2 ..... M 2 2 2 2 e mh 2 con ( y1 1 ) 2 ( y 2 2 ) 2 (yM M )2 ...... 2 2 2 analoga alla [2-63] f ( x1 , x 2 ) 1 21 2 1 (x ) 2 (x 2 ) 2 1 1 2 2 12 22 e [2- 63] Pertanto la probabilità è massima se è minima la somma dei quadrati nella distanza di Mahalanobis. Questa è la base teorica del metodo dei minimi quadrati. 161 I calcoli Il metodo dei minimi quadrati stima i coefficienti e mediante le ben note: a b yi x i2 x i x i yi i i i i I x i2 x i i i [2-69] 2 I x i yi x i yi i i i I x i2 x i i i [2-70] 2 che possono essere espresse più convenientemente attraverso i momenti ed i momenti centrali del campione. Nel seguito indicheremo i momenti del campione con i simboli: mhk : momento di ordine h rispetto a X, di ordine k rispetto a Y; m10 = mx : momento del primo ordine rispetto a X = media delle x; m01 = my : momento del primo ordine rispetto a Y = media delle y. La stima della media di una variabile X viene frequentemente indicata con x . È largamente usato, nel caso in cui vi siano più indici (analisi multivariata), il simbolo x. , dove il punto indica l'indice sul quale è stata calcolata la media: p.e. x . j x ij I . i I momenti centrali del campione verranno indicati con il simbolo chk: momento centrale di ordine h rispetto a X, di ordine k rispetto a Y: c hk ( x i x ) h ( y i y) k i I I momenti mhk ed i momenti centrali chk di variabili campionate sono stime dei corrispondenti parametri della popolazione che verranno indicati con hk e con μ’hk rispettivamente. Come abbiamo visto per la varianza (momento centrale del secondo ordine), il momento centrale del campione è una stima biased di quello della popolazione. Analogamente a quanto effettuato per la varianza, stime migliori dei momenti centrali della popolazione si ottengono dividendo la sommatoria dei prodotti per I-1 anziché per I. I simboli per i momenti e per gli altri parametri non sono uniformi in letteratura. Una notevole 162 diffusione hanno avuto anche altri tipi di notazione, quale l'uso di una lettera latina per i parametri della popolazione, e della stessa lettera, sormontata dal simbolo ^ (hat=cappello) per le stime: es. a , a . La hat è praticamente obbligatoria quando la lettera è la y, eguale nei due alfabeti greco e latino. Si ricordi anche che il momento del primo ordine o media di una variabile è anche detto speranza (expectation) matematica ed indicato con E(X), dove X indica la variabile. E((X-E(X))2 ) è la media della popolazione del quadrato delle deviazioni, e pertanto coincide con 2. Con l'utilizzo dei momenti e dei momenti centrali le [2-70] e [2-69] assumono le forme rispettivamente: b c11 c20 [2-71] a m01 b m10 my b mx [2-72] Con una formula simile si può esprimere un'altra grandezza che spesso è di interesse, l'intercetta sull'asse X, che indicheremo semplicemente con c (che non può essere confuso con i momenti centrali in quanto privo di pedice): c mx my / b [2-73] Per l'esempio riportato nella Tabella 2-23 abbiamo: mx = 5.5 my = 5.3035 c20 = 8.25 c02 = 8.805 c11 = 7.936 a = 0.01287 b = 0.96193 La retta di regressione ci permette di stimare i valori di Y per un dato valore di X. Questa stima è fornita dalla: ŷa bx [2-74] 163 e per gli I valori campionati di x si ottiene: ŷi a bx i [2-75] Il valore della Y è calcolato dalla retta che passa in mezzo ai punti sperimentali, con esattamente lo stesso significato della stima x della media in un caso univariato. Analogamente al caso univariato, in cui gli scarti o residui sono misurati dalla differenza tra il valore sperimentale e la media, misuriamo gli scarti dalla retta di regressione (o residui) come ri y ŷ . Per i dati della Tabella 2-23 otteniamo: Indice yi y i ABS( y i y i ) 1 2 3 4 5 6 7 8 9 10 0.703 1.624 2.212 5.725 6.035 4.946 4.641 8.657 8.949 9.543 0.9748 1.9367 2.8987 3.8606 4.8225 5.7845 6.7464 7.7083 8.6703 9.6322 0.2718 0.3127 0.6867 1.8644 1.2125 0.8385 2.1054 0.9487 0.2787 0.0892 Questi risultati sono visualizzati nella Figura 2-65. Figura 2-65 – Punti sperimentali (Tabella 2-23) e retta di regressione Analogamente al caso univariato, in cui la varianza è stimata dalla sommatoria dei quadrati dei 164 residui, otteniamo la stima della varianza dell'errore (la più importante quantità statistica in regressione) dalla: I ( yi ŷi ) 2 s 2 i 1 [2-76] I2 dove il denominatore è il numero dei gradi di libertà che è stato ottenuto diminuendo I di 2, il numero dei parametri stimati (a,b). Si noti come il numeratore della [2-76] sia proprio la somma che viene minimizzata dal metodo dei minimi quadrati. I test su questa varianza vengono effettuati con una statistica 2 con I-2 gradi di libertà. La [2-76] può essere sostituita dalla [2-77] che calcola s2 direttamente dai momenti centrali: 2 s 2 (c02 c11 / c 20 ) I I2 [2-77] La varianza di my (media delle y) viene ottenuta da s2 in modo analogo a quello in cui nel caso univariato si ottiene la varianza della media: s 2m y s2 I [2-78] Indicheremo in seguito la deviazione standard della media my anche con il simbolo sm. Per i dati della Tabella 2-23 risulta rispettivamente: s 2 = 1.4638 s 2m y = s 2m = 0.14638 s = 1.2099 s m y = s m = 0.38260 Disponiamo pertanto di una stima di 2 . Ora occorre valutare la dispersione dei parametri intercetta e pendenza. Iniziamo con la stima di b , sb . Sappiamo che quando una variabile è una funzione di un certo numero di variabili INDIPENDENTI la sua varianza si calcola dalla varianza delle variabili indipendenti mediante la regola della propagazione delle varianze, che può essere applicata sia alle varianze della popolazione che alla loro stima. La equazione [2-71] b c11 c 20 ha come denominatore una grandezza senza errore. Pertanto se la svolgiamo in: 165 b (x i m x )( yi m y ) i [2-79] I c 20 vediamo che b è funzione delle I variabili indipendenti yi , (Y/X=xi ), con la stessa varianza 2 (nel caso di omoscedasticità), e della my. Tuttavia ogni y è contenuta anche nella media my che non risulta pertanto indipendente dalle yi . Pertanto la [2-79] deve essere modificata in modo da esplicitare le yi . Si ottiene facilmente la relazione poco nota: b (x i m x ) y i m y (x i m x ) i i I c 20 da cui, essendo nulla la somma (x i m x ) , si ricava la: i b (x i m x ) y i i [2-80] I c 20 Applicando alla [2-80] la legge di propagazione delle varianze, essendo: 2 b (x i m x ) 2 (Ic 20 ) 2 yi si ottiene: s 2b s 2 (x i m x )2 i (Ic 20 ) 2 Infine, essendo (x i m x )2 Ic20 per la definizione di momento secondo centrale , si ottiene: i s 2b s2 I c 20 [2-81] Avendo semplificato la espressione di b, dalla [2-79] alla [2-80], da quest'ultima possiamo notare che il valore di b non dipende dal valore di my . In altre parole le due variabili b e my sono variabili indipendenti. Per questo motivo dalla [2-72]: a m01 bm10 m y bm x [2-72] tenendo presenti la [2-78] e la [2-81], applicando la regola per la propagazione delle varianze, si ottiene: 166 1 m 2 s a2 s 2m y m 2x s 2b s 2 x I Ic 20 [2-82] che ci fornisce la varianza della intercetta sull'asse Y. Utilizzando le due variabili indipendenti b e my si ottengono in alternativa alle ŷa bx [2-74] ŷi a b x i [2-75] sostituendo ad a la espressione a m y bm x [2-72] le ŷm y b ( x m x ) [2-83] ŷi m y b ( x i m x ) [2-84] 2.23.1.3 - Il disegno Nella s 2b s2 Ic20 [2-81] prima varianza ottenuta dalla stima della varianza dell’errore, compare il termine (x i m x )2 Ic20 i che condiziona tutte le varianze, tutte le incertezze della regressione, come vedremo più avanti. 167 Questo termine ha un valore che dipende dal numero dei punti sperimentali, ma anche, e molto, dal DISEGNO, vale a dire dalla scelte dei punti sperimentali. Nella pratica il chimico deve scegliere gli standard in modo da coprire un determinato range, intervallo nel quale suppone che cadrà il valore delle quantità chimiche incognite da determinare. Ma all’interno del range dispone di una notevole libertà. Oltre vediamo come il termine I c20 varia con il variare dei punti sperimentali, sia in numero che in disposizione. Il disegno (0,10), due soli punti agli estremi dell’intervallo, è il MASSIMO ECONOMICO. Esso ha il vantaggio di un costo ridotto (solo due esperimenti), ma lo svantaggio di non fornire una misura della varianza dell’errore. Questa è fornita dal disegno (0,5,10), che, con lo stesso valore di I c 20 permette di avere una stima (cattiva) della varianza. Il disegno usuale adottato in laboratorio (0,1,2,3,4,5,6,7,8,9,10) che sceglie gli standard ad intervalli eguali ha un valore di I c20 110, poco più di 1/3 del disegno (0,0,0,0,0,10,10,10,10,10), con cinque punti a ciascun estremo dell’intervallo (ripetizione di determinazioni su soli due standards); il disegno (0,0,10,10) con solo quattro determinazioni e quindi un costo molto basso ha un valore di I c20 pari a 100, e risulta quindi molto più economico e con termine I c20 poco minore di quello del disegno equispaziato a 11 punti e praticamente eguale a quello di un disegno equispaziato con 10 punti (0, 1.11, 2.22,…) che ha valore di I c20 pari 101.85 In effetti altre considerazioni devono essere fatte oltre a quelle sul valore di I c20 , in primo luogo quella sulla incertezza sulla stima della varianza dell’errore, quindi quella che con un disegno equispaziato otteniamo anche informazioni sull’andamento dei residui, che ci permette di verificare la omoscedasticità e la linearità, ma quando la ECONOMIA è della massima importanza, occorre ricordare che una scelta oculata delle condizioni sperimentali, del DISEGNO SPERIMENTALE, può dare ottimi risultati ad un costo minimo. 2.23.1.4 - I polinomi ortogonali Confrontando la [2-75] e la [2-84] notiamo come la stessa grandezza è espressa in [2-75] come funzione, attraverso i coefficienti a e b, dei due polinomi P1 = 1 e P2 = xi , mentre in [2-84] è espressa come funzione, attraverso i coefficienti my e b, dei due polinomi O1 = 1 ed O2 = xi - mx . Mentre P1 e P2 non sono ortogonali sull'insieme dei punti sperimentali, lo sono O1 e O2 . La condizione di ortogonalità dei polinomi è infatti: 168 O1i O2i 0 [2-85] i che è verificata per i due polinomi O1 = 1 ed O2 = xi - mx in quanto O1i O2i 1(xi mx ) mx Imx 0 i i i È agevole ricavare che la stessa relazione non vale per i polinomi P1 e P2 . La [2-85] si estende moltiplicando i polinomi per qualunque coefficiente costante, ed in particolare m y O1i bO2i 0 i e ciò indica che le due parti che contribuiscono a y nella [2-83] sono ortogonali, incorrelate. Per quanto riguarda la correlazione tra i due parametri, intercetta a, misura di , e pendenza b, misura di , abitualmente utilizzati per descrivere la retta di regressione, la covarianza si ottiene (si ricordi che la X è esente da errore) da: ab E ((a )(b )) E((m y bm x y m x )(b )) E((m y y )(b )) E((bm x m x )(b )) E((m y y )(b )) m x E((b )(b )) 0 m x 2b m x 2b m x 2 I 20 in quanto il primo termine è la covarianza di due grandezze che abbiamo visto essere incorrelate, ed il secondo comprende la media del quadrato degli scarti di b dal valore vero , quindi la varianza di b, che può essere espressa dal limite della [2-81]) La covarianza sab viene stimata dalla: s ab s2 m x I c 20 Il coefficiente di correlazione tra i parametri "a" e "b" è stimato dalle stime della covarianza e da quelle (equazioni [2-81] e [2-82]) delle varianze: rab mx I c 20 1 m 2 x I I c 20 1 I c 20 1/ 2 mx I c 20 c 20 m 2x 2 (I c 20 ) 1/ 2 c m x 2 1/ 2 20 m x 169 tenendo anche conto del fatto che: c 20 (x i m x ) 2 x i2 2 x i m x m 2x i I i i i I x i2 2m x x i m 2x x i2 2m x I m x I m 2x i i i I i I m 20 m 2x si ottiene la rab m x 1/ 2 c 20 m 2x mx m 20 [2-86] Poiché i momenti della variabile X sono esenti da errore, anche il coefficiente di correlazione è esente da errore, e quindi non è una variabile casuale. Esso è determinato univocamente dalla scelta degli I valori di X. Si noti come per una serie di valori positivi di X il coefficiente di correlazione tra intercetta e pendenza è negativo. Esso è nullo qualora la X sia stata centrata (mx =0); in questo caso la intercetta coincide con my e la [2-84] coincide con la [2-75]. Generalmente, nei casi di interesse analitico, il coefficiente di correlazione è più negativo di -0.9, quindi la correlazione negativa è molto alta. Nel caso dei dati della Tabella 2-23 il coefficiente di correlazione è -0.886. 2.23.1.5 - I test su intercetta e pendenza Intervalli di fiducia marginali di intercetta e pendenza Per quanto riguarda i test delle ipotesi nulle: H01 a=0 H02 b=1 H03 a = 0; b = 1 (esempio frequente di test in cui si vuole appurare se intercetta e/o pendenza sperimentali possono essere compatibili con prefissati valori ipotesi di e di ). Per H01 e H02, usuali test univariati, si ricorre a test di Student con I-2 gradi di libertà: 170 H01 passa se il valore ipotizzato (=0) è compreso nell'intervallo di fiducia del valore vero intorno al valore determinato, cioè se: a - tp sa a + tp sa H02 passa se il valore testato (=1) è compreso nell'intervallo di fiducia di intorno al valore calcolato: b - tp sb b + tp sb Ovviamente le ipotesi alternative possono essere tali da richiedere test bilaterali o unilaterali. Analoga alle precedenti è la formulazione dell'intervallo di fiducia della media della Y stimata da my : my - tp sm y my + tp sm my - tp s /I y my + tp s /I Per il test della ipotesi nulla H03 che è costituito da due ipotesi contemporanee, occorre invece introdurre il concetto di intervalli di fiducia bivariati, o congiunti. Intervalli di fiducia congiunti La ipotesi H03 coincide con la H04 : my = mx , b = 1 dove compaiono due parametri, b e my , indipendenti. Inizialmente consideriamo, per la ipotesi H04 , la distribuzione congiunta delle due variabili indipendenti my e b. Le variabili (my - y )/ m e (b - ) / b sono variabili standard e pertanto la loro distribuzione congiunta di probabilità è data dalla distribuzione gaussiana standard bivariata per variabili indipendenti. Gli intervalli di fiducia sono una serie di cerchi (che corrispondono ad ellissi con gli assi paralleli agli assi delle coordinate nello spazio delle variabili non standardizzate my e b), ed il raggio delle circonferenze isotetiche (eguale valore della funzione di distribuzione di probabilità) che delimitano i cerchi si ottiene dalla equazione della distribuzione 2 con due gradi di libertà: 171 2 2 my y b 2 m b [2-87] selezionando un opportuno valore della probabilità di fiducia, il valore p% unilaterale destro della distribuzione . Per una probabilità di fiducia eguale al 95%, il valore 95% della distribuzione è 5.99. Poiché non disponiamo dei valori delle varianze ma delle loro stime, le sostituiamo nella [2-87] my y s m 2 2 b 2 s T b Otteniamo una variabile analoga alla variabile 2; ma mentre questa è la somma di un certo numero di variabili Z2 indipendenti, la nuova funzione è la somma di variabili t2; essa è la variabile di Hotelling, e sta alla 2 come la t di Student sta alla Z di Gauss. Modifichiamo la equazione risultante, tenendo conto della [2-78] s 2m s2 I e della [2-81] 2 s 2b s2 s2 m ; I c 20 c 20 otteniamo : 2 my y b T 2 s s m b (m y y ) 2 c 20 (b ) 2 s 2m (m y y ) 2 c 20 (b ) 2 2 s 2m 2 Si ricordi ora che la varianza di una variabile X è definita come E(X-)2 e pertanto un singolo valore, determinabile solo se è noto , (x-)2, è una stima della varianza con 1 grado di libertà ( non è calcolato dall’unico dato sperimentale e pertanto non diminuisce il numero di gradi di libertà). Pertanto ( m y y ) 2 è una stima di s 2m con 1 grado di libertà. A sua volta (b ) 2 è una stima di s 2b s 2m con 1 grado di libertà. c 20 Pertanto c 20 (b ) 2 è una seconda stima di s 2m con 1 grado di libertà. La media delle due stime (m y y ) 2 c 20 (b ) 2 2 è una stima con due gradi di libertà. Pertanto tornando alla 172 (m y y ) 2 c 20 (b ) 2 T 2 2 2 s 2m essa è eguale a 2 che moltiplica un rapporto tra una varianza stimata con due gradi di libertà e la stessa varianza stimata con I - 2 gradi di libertà. Figura 2-66 - Intervalli di fiducia di pendenza e della media delle y. Figura 2-67- Intervalli di fiducia di pendenza e intercetta Questo rapporto deve seguire una distribuzione di Fisher con 2 gradi di libertà al numeratore e I-2 gradi di libertà al denominatore, e pertanto: 173 2 2 my y b T 2 2F2, I 2 sm sb [2-88] In generale ogni variabile di Hotelling è riconducibile ad una opportuna variabile di Fisher. Il valore critico di F si ottiene dalle tavole della distribuzione di Fisher con 2 gradi di libertà al numeratore e I-2 al denominatore al livello di fiducia scelto. Nel caso dell'esempio in Tabella 2-23, per il livello di fiducia 95%, il valore p% della distribuzione di Fisher con 2 e 8 gradi di libertà è 4.46, sicché 2 F è 8.92, sensibilmente superiore a 5.99, valore 95% della distribuzione 2 con due gradi di libertà, valore che diventa accettabile solo quando il numero N è superiore a 100. Nella Figura 2-66 è mostrato per i dati della Tabella 2-23 l'intervallo di fiducia congiunto a livello 95% di my e di b, mentre nella Figura 2-67 è mostrato quello congiunto di intercetta e pendenza. Il test con ipotesi nulla H04 può essere effettuato graficamente, osservando se il valore ipotesi si trova all'interno della ellisse di fiducia. Se, come generalmente accade, non si vuole utilizzare il metodo grafico, si calcola dalla [2-88] il valore di 2 F, utilizzando i valori ipotesi: 2 my mx b 1 2F sm sb 2 e si ottiene la probabilità di significato (unilaterale destra) eventualmente senza l'uso delle Tavole della F (che forniscono solamente la F corrispondente a determinati valori di %), ma dalla % 100 2F /2 [2-89] espressione che vale unicamente quando la F ha due gradi di libertà al numeratore e qualunque al denominatore. Procediamo ora al test H03 . Le variabili a,b sono variabili correlate e pertanto la loro distribuzione congiunta di probabilità è data dalla distribuzione gaussiana bivariata per variabili correlate. Gli intervalli di fiducia sono una serie di ellissi generalmente con gli assi inclinati rispetto agli assi delle coordinate a,b. La equazione delle ellissi si ricava facilmente dalla formulazione della distanza di Mahalanobis della distribuzione normale bivariata. Risulta: (a ) 2 2(a )(b ) (b ) 2 2 a b 1 2 a2 2b 1 [2-90] analoga alla [2-87]. è il coefficiente di correlazione (senza errore) definito dalla [2-86]: rab Poiché (dalla [2-82]) 174 mx m 20 1 m 2 c m 2x 2 c 20 m 2x s a2 s 2 x s 2 20 s m Ic 20 c 20 I Ic 20 Facilmente si dimostra che 1 1 r 2 1 1 m 2x m 20 m 20 2 m 20 m 20 m x m 20 m 2x c 20 m 2x s a2 a2 2 2 c 20 sm m Poiché a - = my - y potremmo ottenere dalla [2-90] la [2-87] e quindi, passando alle stime, la [288]. Pertanto: 1 1 r 2 ab (a ) 2 2(a )(b ) (b ) 2 2F 2 sa sb s 2b s a [2-91] espressione che ci consente di testare la ipotesi. 175 2.23.1.6 - Intervallo di fiducia della giacitura della retta di regressione Ricordiamo la equazione della retta di regressione, nella forma ŷ m y b ( x m x ) [2-83] in cui y appare funzione di variabili indipendenti. Alla [2-83] possiamo applicare la regola di propagazione delle varianze ottenendo: 1 ( x m x ) s 2ŷ s 2 Ic 20 I 2 [2-92] Questa è la Varianza del valore di y stimato dalla retta di regressione, funzione di x. Essa si riduce alla varianza di my quando x = mx ed alla varianza della intercetta "a" quando x = 0. Dalla [2-92] otteniamo la espressione dell'intervallo di fiducia della y (o intervallo di fiducia di un valore generico calcolato con la retta di regressione) come: y vero x ŷ t p s ŷ 1/ 2 1 ( x m x ) 2 m y b( x m x ) t p s Ic 20 I [2-93] Il significato della [2-93] è il seguente: dato un valore x della X, il valore vero della y ( + x) è compreso con la probabilità p% entro l’intervallo fornito dalla [2-93]. 176 Figura 2-68 - Retta di regressione e intervalli di fiducia La [2-93] è la equazione di due rami di iperbole che nel piano delle variabili X,Y delimitano lo spazio in cui con probabilità p% giace un valore generico della retta + x . Tale iperbole è detta IPERBOLE INTERNA. Ciò non vuol dire che dati p.e. due valori della x il valore vero della y sia compreso per ambedue i valori con la stessa probabilità nell’intervallo [2-93]. Modificando la [2-93],sostituendo tp con 2F2, I-2, p si ottiene un intervallo di fiducia di validità congiunta: questo è il vero intervallo di fiducia della giacitura della retta di regressione (IPERBOLE INTERNA ALLARGATA). L'iperbole interna per i dati della Tabella 2-23 è mostrata nella Figura 2-68. Sostituendo ad x il valore 0 nella [2-93] si ottiene l'intervallo di fiducia della intercetta sull'asse Y, quale si poteva ricavare direttamente dalla varianza della intercetta, ma che, derivato dalla [2-93], si interpreta come definito dalle intersezioni della iperbole interna con l'asse Y: 177 1/ 2 1 m2x a tp s I I c20 1/ 2 Il termine 1 ( x m x ) che appare nella [2-93] condiziona l’incertezza sulla giacitura della retta I 2 I c 20 di regressione. Esso dipende ovviamente dal disegno sperimentale, in quanto contiene la somma dei quadrati (x i m x ) 2 Ic 20 . i 2 Vediamo quale è il valore massimo di 1 (x m x ) I c 20 I 1/ 2 per i disegni sperimentali esaminati precedentemente: L’effetto del disegno sperimentale è meno evidente (data la introduzione del termine 1/I e l’operazione di radice quadrata), ma appare chiaro che un disegno con 6 punti agli estremi è praticamente equivalente per quello che riguarda la incertezza sulla retta di regressione a quello di undici punti equidi stanziati. Ovviamente occorre ancora tenere conto della incertezza sulla stima della deviazione standard, espressa dalla t di Student. Tuttavia vi sono casi in cui la dell’errore è nota (stessa tecnica, stessa apparecchiatura, stesso operatore, calibrazione ripetuta a scopo di controllo) ed in questi casi il vantaggio di un disegno sperimentale economico diventa rilevante. 178 2.23.1.7 - Intervallo di fiducia della Y misurata Se riconsideriamo ora il modello y=+ x+ [2-67] possiamo rilevare che la [2-92] contiene solo le incertezze sulle stime di e di . La incertezza della funzione Y viene ottenuta considerando la y m y b ( x mx ) e dove compaiono le tre variabili indipendenti my, b, e. Risulta dalla [2-92] sommando la varianza dell'errore 1 ( x mx )2 s s 1 I I c20 2 y [2-94] 2 e anche, per il corrispondente intervallo di fiducia: y ( misurato ) x y t p sy [2-95] 2 1/ 2 1 ( x mx ) my b ( x mx ) t p s 1 I c20 I Il significato della [2-95] è il seguente: dato un valore x della X NON compreso tra quelli utilizzati per stimare i parametri del modello, il valore MISURATO della y ( + x + ) è compreso con la probabilità p% entro l’intervallo fornito dalla [2-95]. Anche questa è la equazione di due rami di iperbole, tra i quali con il p% di probabilità è compreso un generico valore di Y, DIVERSO da quelli utilizzati per il calcolo. Questi ultimi giacciono con probabilità p% all'interno di due curve (iperboli di fiducia delle y i ) di equazione: y i ( misurato ,utilizzato ) [2-96] 1 (xi mx ) 2 m y b( x i m x ) t p s 1 I c 20 I 1/ 2 Questa è una equazione approssimata dell’intervallo di fiducia delle yi misurate ed utilizzate per calcolare i parametri del modello; la statistica esatta si ottiene da una distribuzione Beta. La [2-96] indica che più xi è lontano dalla media mx, minore è la ampiezza dell’intervallo di fiducia. 179 Ciò appare in contrasto con la maggiore incertezza sulla retta di regressione (valore vero) con l’aumentare della distanza da mx. La diminuzione della incertezza di yi rispetto alla retta stimata è dovuta al fatto che i punti utilizzati per il calcolo attirano a sé la retta di regressione, e ciò tanto più quanto maggiore è il loro effetto leva (il “leverage”), misurato da 1 (x mx ) 2 lev( x) I I c 20 [2-97] che è costituito da un termine fisso (il minimo leverage) e da un termine che aumenta con il quadrato della distanza dalla media mx. Facilmente si dimostra che: lev( x ) i i I 1 ( x i m x ) 2 I I c 20 I 2 I [2-98] Un punto che ha un valore molto più elevato del leverage medio (più di 3 volte) è un "leverage point"; esso ha una grande influenza sui parametri calcolati, e generalmente indica che il disegna sperimentale (la scelta degli I valori della X) è cattivo. La [2-96] non ha valore predittivo, proprio della sola [2-95]. La iperbole [2-95] è più distante della [293] dalla retta di regressione e prende il nome di IPERBOLE ESTERNA della retta di regressione. Per i dati della Tabella 2-23 l'iperbole esterna è mostrata nella Figura 2-68. 2.23.1.8 - Intervallo di fiducia della intercetta sull'asse X Ha spesso interesse conoscere la incertezza sulla intercetta della retta di regressione con l'asse X: c = m x - my / b [2-73] "c" è la stima della intercetta vera: mx y La [2-73] può essere differenziata per ottenere la varianza della intercetta, ma questa varianza può essere utilizzata nel modo usuale solo se è molto piccola, a causa della presenza della pendenza a denominatore che rende la variabile a caso "c" non normale. Come l'intervallo di fiducia della intercetta sull'asse Y è dato dalla distanza tra i due rami della iperbole interna per x = 0, così per la intercetta sull'asse X l'intervallo di fiducia è dato dalla distanza 180 orizzontale tra i due rami dell'iperbole interna per y = 0. L'intervallo è asimmetrico intorno alla intercetta c, ed il valore centrale dipende dal livello di probabilità. Se indichiamo con cc il valore centrale dell'intervallo di fiducia, e con A un INDICE DI NON-CENTRALITÀ (Nota 11): A b 2 t 2p s2b [2-99] L'indice di non centralità tende a b2 quando la incertezza sulla pendenza è piccola. Generalmente nei casi di interesse analitico (rette di calibrazione, metodo delle aggiunte standard) l'incertezza su b non può essere grande, pena la non validità del metodo, e in questi casi A può tranquillamente essere assimilato a b2. Otteniamo c c mx b my [2-100] A coincidente con la [2-73] quando A può essere assimilato a b2. Per l'intervallo di fiducia si ottiene la espressione: t p s A m2y cc A I I c20 1/ 2 [2-101] che, quando A può essere assimilato a b2, diventa: 1/ 2 t p s 1 m2y c b I I c20 b2 La Figura 2-69 mostra l'intervallo di fiducia delle intercette per i dati della Tabella 2-23. Figura 2-69 - Intervallo di fiducia delle intercette 181 2.23.1.9 - Intervalli di fiducia per la X Abbiamo detto che l'utilizzo più frequente in chimica analitica della retta di regressione è come retta di calibrazione (Nota 12). Quando la retta è stata ottenuta nella fase di calibrazione, la si utilizza nella fase di predizione: si misurano un valore y0 o una serie di I0 valori y0i la cui media risulta essere y0 , si calcola il valore incognito mediante la x 0 m x y0 m y y0 a b b [2-102] oppure con la: x 0 m x y0 m y y0 a b b [2-103] Per i dati della Tabella 2-23 risulta y0 = 8.016 e x0 = 8.320. Per ottenere l'intervallo di fiducia dell'incognito si procede in modo analogo a quanto effettuato per l'intervallo di fiducia della intercetta sull'asse X. Se y non fosse affetto da errore (come accade nel caso della intercetta c) si ricaverebbe l'intervallo di fiducia di x semplicemente dalla intersezione con la iperbole interna della retta Y = y 0. Ma y0 ha varianza s2 (se abbiamo fatto una sola determinazione; y0 , ottenuta con I0 determinazioni ha la varianza s2/I0). In questo caso di I0 determinazioni si potrebbe inoltre ricavare una nuova stima di 2 dagli I valori, s20 . Questa viene ottenuta come media tra le due stime della varianza, pesandole per il rispettivo numero di gradi di libertà [ciò che deriva dalla proprietà additiva della funzione 2]. Può accadere peraltro che s2 e s20 non siano stime della stessa varianza: in questo caso esse devono differire significativamente, ciò che si può determinare con un test F. La valutazione dello intervallo di fiducia diventa alquanto più complessa e per essa si rimanda alla bibliografia. Questo caso non è molto raro: esso si presenta quando la retta di calibrazione è stata ottenuta da uno sperimentatore esperto, e viene poi utilizzata per la analisi da uno sperimentatore caratterizzato da una dispersione maggiore dei risultati. Nel caso di una sola determinazione l'intervallo di fiducia di x si ricava come intersezione della retta Y=y0 con la iperbole esterna o di tolleranza. L'intervallo risulta asimmetrico rispetto a x 0 , e viene pertanto espresso in funzione del valore centrale dell'intervallo x0c e dell'indice di non182 centralità: x 0c m x b y0 m y [2-104] A 2 tps A ( y 0 m y ) A x 0( vero) x 0c A I Ic 20 1/ 2 [2-105] che frequentemente (quando A può essere assimilato a b2) può essere sostituita dalla: t p s 1 ( y 0 m y ) 2 1 x 0( vero) x 0 2 b I I c b 20 1/ 2 [2-106] Nel caso in cui siano state effettuate I0 determinazioni e il valore di x0 sia stato stimato dalla [2-103], l'intervallo di fiducia si ottiene come intersezione con i rami di una iperbole intermedia tra la iperbole interna e la iperbole esterna di equazione 1/ 2 1 1 (x m x )2 y m y b( x m x ) t p s Ic 20 I0 I [2-107] e l'intervallo di fiducia è: x 0( vero) m x b y0 m y A t p s A A ( y 0 m y ) 2 A I0 I Ic 20 1/ 2 [2-108] essendo x 0c m x b y0 m y [2-109] A Quando A può essere assimilato a b2 la [2-108] diventa: t p s 1 1 ( y 0 m y ) 2 x 0( vero) x 0 2 b I0 I I c b 20 1/ 2 [2-110] La Figura 2-70 mostra l'intervallo di fiducia di x0 , con x0 ricavato dalla [2-102] considerando y0 eguale al valore di y 0 relativo ai dati della Tabella 2-23 ma ottenuto con UNA sola determinazione. La incertezza risulta dalla incertezza di y0, misurata da tp s e da quella della retta di regressione misurata dalla iperbole interna. L'intervallo di fiducia congiunto delle due incertezze ha una forma complessa, funzione quadratica di Y e di X. Esso, come è mostrato nella Figura, racchiude solo lo 87% della probabilità congiunta (questo valore dipende dai gradi di libertà), in modo che le probabilità marginali di x 0 e y0 , che si ricavano dalla proiezione dell'intervallo di fiducia congiunto sugli assi, siano eguali al 95%. Si noti che gli estremi dell'intervallo di fiducia della x coincidono con le intersezioni tra la retta Y = y0 e la iperbole 183 esterna. Si noti anche come l'intervallo di fiducia dell'incognito risulti asimmetrico. La Figura 2-71 mostra l'intervallo di fiducia di x0 , con x0 ricavato dalla [2-103] con y0 relativo ai dati della Tabella 2-23, ottenuto con 5 determinazioni. La incertezza risulta dalla incertezza di y 0 , misurata da tp s / 5 e da quella della retta di regressione. L'intervallo di fiducia della x0 non può più essere ricavato dalla intersezione della retta Y = y0 con la iperbole esterna, ma è fornito dalla intersezione con la appropriata (I = 5) iperbole intermedia [2-105]. Figura 2-70 - Intervallo di fiducia della x (una sola determinazione della y) Figura 2-71 - Intervallo di fiducia della x (y come media di 5 determinazioni) La Figura 2-72 permette di ottenere gli intervalli di fiducia dello stesso valore di x0 considerato in Figura 2-70, ma supponendo che esso sia stato ottenuto da 1, 2, 3, 4, 5 ed infinite determinazioni di y0 . Gli intervalli di fiducia sono forniti dalla intersezione con le opportune iperboli intermedie. Solo nel caso di infinite determinazioni di y0 occorre considerare la iperbole interna. 184 Figura 2-72 - Retta di regressione con iperboli intermedie, per una (iperbole esterna), 2,3,4,5 e infinite (iperbole interna) determinazioni 2.23.2 – Retta generica - Eteroscedastica 2.23.2.1 – Il modello Il modello assume che le due variabili siano collegate dalla relazione: y=+ x+ [2-67] dove e sono delle costanti ed è l'errore casuale con media E()= 0 e con varianza 2(x) DIPENDENTE dal valore di x e quindi da quello di y. Questa è appunto la condizione di eteroscedasticità, illustrata nelle Figure 2-73 e 2-74. Si possono ipotizzare molte leggi di dipendenza della varianza dell'errore dalle X e Y, ma sperimentalmente il caso più frequente è quello in cui la deviazione standard, l' "errore", è direttamente proporzionale alla grandezza misurata, la Y. Pertanto i valori piccoli della Y saranno relativamente più sicuri di quelli grandi: ciò si può interpretare nel senso che i valori della Y hanno un peso e che questo peso è inversamente proporzionale alla varianza e quindi al quadrato del valore misurato. Per questi motivi si parla talora di regressione pesata. Il peso associato ad un valore y è definito dalla: 185 pi 1 yi2 p 1 [2-111] y2 essendo i2 02 2 02 pi p [2-112] dove 20 è la varianza corrispondente al peso unitario. Se tutti i pesi fossero unitari 20 coinciderebbe con 2 della regressione non pesata. Figura 2-73 - Frequenze di 6 variabili condizionali (y/X=x), con varianza crescente con la X, illustrate dai risultati ottenuti in 10 ripetizioni 186 Figura 2-74 - - Distribuzioni di probabilità di 6 variabili condizionali (y/X=x) con varianza crescente con la X Le [2-111] sono usate generalmente, ma non correttamente: la varianza è una funzione della condizione X. Quando parliamo di varianza funzione della Y poiché il singolo valore è affetto da un errore è come dire che la variabilità dell’errore dipende dal suo valore in una determinazione. Questa usuale incorrettezza è irrilevante ai fini dei risultati pratici in quanto Y e X sono generalmente proporzionali. 2.23.2.2 – I calcoli Si indichi ora semplicemente con SP la sommatoria dei pesi: SP pi [2-113] i La definizione di momento per variabili pesate diventa la seguente: x ih yik pi m hk [2-114] SP I momenti centrali per variabili pesate sono definiti dalla: 187 ( x i m x ) h ( yi m y ) k pi c hk [2-115] SP Utilizzando le [2-109-110], le espressioni [2-71-73] che utilizzano i momenti per il calcolo della pendenza della retta di regressione e delle intercette sugli assi Y ed X non variano. Si noti che, poiché il peso è piccolo per le X più grandi, i momenti del primo ordine sono più piccoli. In altre parole il baricentro è spostato verso valori piccoli di X e Y, e i punti con grande valore di X hanno più grande distanza dal baricentro di quanto non accada per la regressione omoscedastica. In particolare per essi diventa molto più grande la quantità ( x m ) 2 che determina il leverage. i x La stima di 20 viene ottenuta da una espressione simile alla [2-77] con la sola sostituzione di SP a I (al numeratore): 2 s02 (c02 c11 / c 20 ) SP I2 [2-116] Le varianze dei singoli valori y vengono poi ottenute dalla [2-112]. Anche le espressioni di s 2m y s 02 SP [2-117] s 02 s SP c 20 [2-118] 1 m 2x s a2 s 02 SP SPc 20 [2-119] 2 b sono formalmente eguali a quelle del caso omoscedastico. Si noti che moltiplicando tutti i pesi per una costante varia s 02 , ma varia egualmente SP, e pertanto non si ha influenza sulle varianze fornite dalle [2-117]-[2-119]. In modo analogo si ottiene l'intervallo di fiducia della intercetta sull'asse X. Anche la equazione della iperbole interna s p p (x m x ) 2 y vero m y b( x m x ) t p 0 SP c 20 p SP 1 (x m x ) 2 y vero m y b( x m x ) t p s 0 SP c 20 SP 1/ 2 [2-120a] 1/ 2 [2-120b] differisce dalla [2-93] 188 1 ( x m x ) 2 y vero x ŷ t p s ŷ m y b( x m x ) t p s I c 20 I 1/ 2 solo per la sostituzione nella espressione del leverage di I con SP. In effetti la variazione da omoscedastica ad eteroscedastica è nella s s0 p e la [2-120a] illustra meglio come il leverage nella regressione eteroscedastica sia dato da: p (x m x ) 2 p SP SP c 20 lev( x ) La somma dei leverage è ancora eguale a 2/I: p i p i (x i m x ) 2 lev(x i ) SP SP c 20 2 i I I I in quanto: p i (x i m x ) 2 c 20 SP La equazione corrispondente alla equazione [2-95] della iperbole esterna diventa (con p peso generico corrispondente al valore generico x): 1/ 2 1 1 (x m x ) 2 y ( misurato ) m y b( x m x ) t p s 0 p SP SPc 20 [2-121] che NON è più la equazione di una iperbole in quanto nel termine sotto radice compare il peso che è una funzione di X. Analogamente varia l'intervallo di fiducia per i valori utilizzati nei calcoli. Ciò rende alquanto complessa la formula che fornisce gli intervalli di fiducia dell'incognito. Tuttavia nel caso di interesse in chimica analitica, in cui le varianze sono relativamente piccole e pertanto A può essere assimilato a b2, l'intervallo di fiducia della x0 può essere ottenuto dalla 2 t p s0 1 1 ( y 0 m y ) x 0( vero) x 0 b p I 0 SP SPc 20 b 2 1/ 2 [2-122] che è una espressione relativamente semplice. 189 2.23.3 – Retta per l'origine - Omoscedastica 2.23.3.1 – Il modello Il modello assume che le due variabili siano collegate dalla relazione: y= x+ [2-123] dove è una costante ed è l'errore casuale con media E()= 0 e con varianza 2(x) INDIPENDENTE dal valore di x e quindi da quello di y. Si utilizza generalmente la retta di regressione per l'origine quando il test della ipotesi H 01: a = 0 ha dato esito positivo. 2.23.3.2 – I calcoli Vi sono molte analogie con le formule della regressione con una retta generica non pesata, ma anche differenze dovute al fatto che ambedue le intercette sono vincolate ad essere nulle. In generale le formule della regressione con retta generica vengono modificate per la regressione vincolata all'origine con la sostituzione dei momenti ai momenti centrali. Importante è il fatto che essendo calcolato dai valori sperimentali solo un parametro, la pendenza, il numero dei gradi di libertà è I-1. Si riportano di seguito le formule di maggiore interesse. b m11 m 20 [2-124] I ( yi ŷi )2 s 2 i 1 I 1 m2 I m 02 11 m 20 I 1 [2-125] s 2m y s2 I [2-126] s 2b s2 I m 20 [2-127] La equazione della iperbole interna diventa: 1/ 2 x2 y vero x ŷt p s ŷ bx t p s Im 20 [2-128] con i due rami che si toccano nella origine. 190 La equazione della iperbole esterna diventa 1/ 2 x2 y misurato bx t p s 1 I m 20 [2-129] e l'intervallo di fiducia dell'incognito t p s A y02 y x 0( vero) b 0 A A I0 I m 20 1/ 2 [2-130] La Figura 2-75 illustra la regressione forzata per l'origine (retta di regressione, iperbole interna, iperbole esterna) nel caso dei dati nella Tabella 2-23. Figura 2-75 - Regressione forzata per l’origine 191 2.23.4 - L’analisi dei residui L’analisi dei residui permette: a) di verificare la casualità dei residui. b) di evidenziare oggetti anomali (outliers); c) di evidenziare eteroscedasticità; d) di rilevare non-linearità; La casualità dei residui può essere verificata con il test delle sequenze. Le due tabelle successive (per numerosità 9 e 10) confrontano le frequenze delle sequenze massime L per i residui di regressione e per dati non trattati. I=9 Residui Dati L p(L)(%) (L) p(L)(%) (L) 1 4.55 100 4.38 100 2 59.37 95.45 57.48 95.62 3 30.34 36.08 30.95 38.14 4 5.20 5.74 6.20 7.20 5 0.51 0.539 0.89 0.995 6 0.025 0.026 0.098 0.106 7 0.0010 0.0010 0.0076 0.0085 8 0 0 0.0009 0.0009 I = 10 Residui Dati L p(L)(%) (L) p(L)(%) (L) 1 2.92 100 2.76 100 2 55.84 97.08 54.38 97.24 3 33.89 41.24 34.30 42.86 4 6.54 7.35 7.31 8.55 5 0.76 0.81 1.09 1.24 6 0.050 0.050 0.134 0.15 7 0.0005 0.0005 0.013 0.015 8 0 0 0.0014 0.0014 0 0 9 Vi è una probabilità leggermente minore con i residui di avere sequenze lunghe. Tuttavia la differenza è così piccola che la tabella utilizzata per il test delle sequenze, ripetuta sotto, può ancora essere 192 utilizzata. L 1% 5% 4 - 7 5 9 26 6 34 153 7 234 1170 8 2034 10348 9 20067 102382 10 218833 1116808 Un andamento parabolico è facilmente identificabile mediante osservazione del grafico dei residui. Un grafico dei residui è riportato in Figura 2-76. Figura 2-76 – Grafico dei residui che illustra una situazione molto chiara di non linearità L’andamento parabolico dei residui causa due sequenze poco probabili. Andamenti non lineari più complessi richiedono, per essere identificati con sicurezza, un grande numero di punti sperimentali. 193 2.23.5 – Regressione quadratica Quando l’analisi dei residui rivela un andamento non lineare è possibile: a) effettuare la regressione lineare avendo trasformato opportunamente la X; b) effettuare una regressione polinomiale, in cui il modello è: y x x 2 x 3 ..... Ci limiteremo a citare la regressione quadratica, che calcola una parabola con i minimi quadrati attraverso i punti sperimentali, con lo stesso procedimento che si utilizza in regressione multipla (vedi Capitolo 4.3). L’esempio seguente si riferisce alla determinazione dell’acido lattico con due metodi, il primo dei quali è un metodo di riferimento. La regressione lineare (Figura 2-77) fornisce i seguenti risultati: Oggetto Metodo 1 Metodo 2 Metodo 2 (y stimata) Errore assoluto. Livello di fiducia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.895 2.265 4.640 6.435 0.625 2.625 5.435 7.130 0.580 2.345 4.990 6.385 0.545 2.450 4.990 6.325 0.680 3.220 6.180 6.975 0.29008 0.09901 0.61745 0.08048 0.07468 0.04348 0.01044 0.69290 0.17711 0.33166 0.62137 0.19181 0.27900 0.24902 0.45637 0.06357 0.03330 0.36566 0.60427 0.22128 59.001 21.681 89.899 18.118 17.091 9.581 2.321 94.426 39.077 63.760 90.206 41.309 57.736 50.753 78.390 14.320 7.658 67.950 89.996 47.587 0.645 2.330 5.095 6.095 0.605 2.615 5.240 6.140 0.460 1.975 5.430 6.320 0.325 2.655 5.265 6.135 0.765 3.500 5.330 6.465 0.93508 2.23099 4.47755 6.17548 0.67968 2.57152 5.22956 6.83290 0.63711 2.30666 4.80863 6.12819 0.60400 2.40598 4.80863 6.07143 0.73170 3.13434 5.93427 6.68628 194 Figura 2-77 Confronto tra due metodi per la determinazione dell’acido lattico. In rosso la linea di regressione, in blu la linea Y = X Figura 2-78 – Residui dalla retta di regressione per l’esempio dei due metodi per la determinazione dell’acido lattico L’analisi dei residui (Figura 2-78) fa sospettare un andamento quadratico. I risultati della regressione quadratica sono riportati nella Tabella seguente, ed illustrati dalla Figura 195 2-79. Oggetto Metodo 1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0.645 2.330 5.095 6.095 0.605 2.615 5.240 6.140 0.460 1.975 5.430 6.320 0.325 2.655 5.265 6.135 0.765 3.500 5.330 6.465 Metodo 2 (y stimata) 0.79228 2.44065 4.75890 6.05711 0.44056 2.83604 5.38208 6.45483 0.38109 2.52987 5.04270 6.02624 0.33466 2.64580 5.04270 5.98880 0.51293 3.45506 5.89650 6.37120 Errore -0.14728 -0.11065 0.33610 0.03789 0.16444 -0.22104 -0.14208 -0.31483 0.07891 -0.55487 0.38730 0.29376 -0.00966 0.00920 0.22230 0.14620 0.25207 0.04494 -0.56650 0.09380 Figura 2-79 – Regressione parabolica applicata all’esempio dei due metodi La varianza dell’errore per la regressione quadratica risulta 0.001629 (deviazione standard 0.0404), che si contrappone alla varianza calcolata con la regressione lineare, 0.135262. 196 Il rapporto F è 83.03, ed il significato statistico risulta praticamente nullo. Pertanto l’aggiunta del termine quadratico ha portato ad una significativa diminuzione della varianza. 197 2.24 - METODI ROBUSTI PER LA REGRESSIONE UNIVARIATA Il metodo dei minimi quadrati per il calcolo della retta di regressione ha il difetto di essere molto sensibile ad outliers, vale a dire a coppie xi yi che non provengono dalla stessa popolazione della maggioranza dei dati, popolazione che risponde al modello: y = + x + . Nella pratica corrente del laboratorio chimico gli outliers sono dati errati, o per un occasionale errore nella procedura analitica o per un banale errore di trascrizione. Raramente in un campione di I dati da cui deve essere ricavata una retta di calibrazione vi sono più di uno-due outliers. Gli outliers sono generalmente osservabili con facilità mediante un grafico delle due variabili. Tuttavia, quando in un laboratorio deve essere effettuato un grande numero di regressioni, questa buona pratica viene talora omessa, e nel caso siano presenti outliers i risultati possono risultare inaccettabilmente distorti. Le tecniche di regressione che riescono ad individuare gli outliers e a non tenerne conto (oppure a limitare il loro effetto) vengono dette tecniche robuste di regressione. Esse si dividono in due categorie: a) tecniche basate sulla mediana b) tecniche basate sulle funzioni d'influenza. Nel seguito verranno illustrate due tecniche robuste di regressione, una per ciascuna delle due categorie menzionate. Una tecnica robusta viene caratterizzata dalla percentuale di outliers che riesce ad ignorare (breakdown point) : alcune tecniche arrivano a tollerare una percentuale di outliers prossima al 50%. Non si ritiene che in chimica analitica casi di questo genere abbiano particolare importanza. Pertanto le tecniche illustrate sono tra le più semplici e possono essere impiegate con eccellenti risultati quando la percentuale di outliers è del 20-30%. La Tabella 2-24 riporta dati che verranno utilizzati per illustrare le tecniche robuste. Tabella 2-24 - Dati di Ezekiel-Fox riportati in F.R.HAMPEL, P.J.ROUSSEEUW, E.M.RONCHETTI e W.A.STAHEL, "Robust Statistics: the Approach based on the Influence Functions", Wiley, N.Y. 1986 Si tratta della portata di un fiume misurata in due paesi lungo il suo corso. Indice 1 2 3 4 5 6 7 8 9 10 11 12 13 Variabile 1 Libby 27.1 20.9 33.4 20.0 37.0 21.6 17.6 35.1 32.6 26.0 27.6 38.7 27.8 Variabile 2 Newgate 19.7 18.0 26.1 44.9 26.1 19.9 15.7 27.6 24.9 23.4 23.1 31.3 23.8 198 2.24.1 - Metodo della mediana singola Questo metodo, date I coppie xi yi , calcola I (I-1) /2 stime della pendenza utilizzando ogni volta solo due punti (Figura 2-80): b ij y j yi [2-131] x j xi Se 2 è la varianza dell'errore, possiamo ricavare la varianza delle b dalla regola di propagazione delle varianze: 2b ij 2 2 [2-132] (x j x i )2 Essa può pertanto assumere valori molto elevati quando xi e xj sono molto prossimi, ma è molto piccola quando xi e xj sono agli estremi opposti dell'intervallo della X. Nel caso dell'esempio nella Tabella 2-24, se la variabile X è quella indicata con nome Libby, la varianza (per esempio) della stima b ottenuta con il metodo dei minimi quadrati risulta: 2/(13 43.43) = 2/564.6 mentre la varianza della stima b7,12 è 2 / 222.6 e quindi non molto (2.5 volte) maggiore. Vi sono molte altre coppie xi xj per le quali la varianza della stima bij è bassa, e pertanto la famiglia delle bij comprende un numero piuttosto elevato di buoni estimatori insieme ad alcuni cattivi estimatori. Figura 2-80 – Le rette utilizzate per ricavare le pendenze bij nel metodo della mediana singola 199 Il procedimento della mediana singola determina la mediana delle bij . Nel caso dell'esempio la successione ordinata delle bij è la seguente: -29.8889 -1.4030 0.2222 0.3600 0.5173 0.6133 0.6800 0.7941 1.0000 2.7143 -15.6250 -1.1457 0.2273 0.3649 0.5205 0.6220 0.6881 0.7955 1.0159 3.0588 -3.5833 -1.1059 0.2292 0.4026 0.5254 0.6290 0.6970 0.8406 1.0278 3.5000 -3.5493 -0.7895 0.2455 0.4107 0.5333 0.6465 0.7387 0.8824 1.0492 5.8572 -3.3636 -0.7273 0.2500 0.4212 0.5361 0.6480 0.7393 0.9167 1.0500 6.8000 -2.8684 -0.1875 0.2727 0.4545 0.5704 0.6582 0.7400 0.9455 1.0588 12.1667 -2.7051 -0.0364 0.2742 0.4615 0.5897 0.6667 0.7472 0.9811 1.0800 -1.5873 0 0.3191 0.5036 0.6000 0.6761 0.7612 0.9875 1.5000 I bij sono 78 [ I (I-1)/2 = 13 6] e hanno come mediana la media dei valori 0.5897 e 0.6000, vale a dire 0.5949, valore che viene assunto come migliore stima della pendenza. Sia questa stima indicata con b*. Si ricavano ora I stime della intercetta (Figura 2-81): ai = yi - b* xi [2-133] e la mediana delle ai , a*, viene assunta come stima migliore di . Figura 2-81 – Le rette usate per ricavare le intercette ai nel metodo della mediana singola 200 Nel caso dell'esempio della Tabella 2-24 le ai , ordinate, sono: 0.6480 3.5790 4.0897 5.2303 5.5072 5.5672 6.6815 6.7200 7.0508 7.9333 8.2785 33.0026 6.2313 e pertanto a* = 6.2313. Figura 2-82 – Istogramma dei residui Lo studio dei residui dalla retta di regressione ri = yi - a* - b* xi [2-134] permette di individuare gli outliers. Nel caso dell'esempio si ha: Oggetto Residuo Oggetto Residuo 1 2.6523 2 0.6641 3 0 4 26.7713 5 2.1415 6 0.8195 7 1.0010 8 0.4887 9 0.7241 10 1.7021 11 0.4503 12 2.0472 13 1.0313 La Figura 2-82 mostra l'istogramma dei residui. Non vi è necessità di test per individuare nell'oggetto 4 un outlier. Esso può essere eliminato e sugli oggetti restanti si può procedere alla regressione ordinaria, che fornisce i valori: 201 a = 5.49201 b = 0.61869 e la seguente tabella per gli oggetti utilizzati per la regressione: Oggetto 1 2 3 5 6 7 8 9 10 11 12 13 per 4 Ascissa 27.1 20.9 33.4 37.0 21.6 17.6 35.1 32.6 26.0 27.6 38.7 27.8 l'oggetto 20.0 yi 19.7 18.0 26.1 26.1 19.9 15.7 27.6 24.9 23.4 23.1 31.3 23.8 eliminato: 44.9 a + b xi 22.259 18.423 26.156 28.384 18.856 16.381 27.208 25.661 21.578 22.568 29.435 22.692 Err Ass. 2.559 0.423 0.056 2.284 1.044 0.681 0.392 0.761 1.822 0.532 1.865 1.108 Livello % 89.6 22.6 3.1 85.8 51.8 35.6 21.0 39.4 76.8 28.2 77.8 54.3 17.866 27.034 100.0 Il livello di fiducia riportato nella tabella è il complemento a 100 del livello percentuale di significato bilaterale. L'oggetto 4 è così lontano dalla distribuzione degli altri oggetti che il suo significato è tanto piccolo da non essere determinabile. La Figura 2-83 mostra la retta di regressione ottenuta con il metodo dei minimi quadrati, con le iperboli interna ed esterna, ottenuta prima della eliminazione dell'outlier. La retta di regressione ottenuta dal metodo della mediana singola è identificabile da una serie di quadratini neri. La Figura 2-84 mostra la retta di regressione ottenuta con il metodo dei minimi quadrati dopo la eliminazione dell’outlier. 202 Figura 2-83 – Retta di regressione usuale e robusta Figura 2-84 – Retta di regressione dopo la eliminazione dell'outlier 203 2.24.2 - Metodi basati su funzioni di influenza Questi metodi sono stati sviluppati inizialmente da P.J. Huber e F.R. Hampel (P. J. Huber. “Robust Statistics”. Wiley. New York. (1981), F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw, W. A. Stahel. “Robust Statistics: The Approach based on Influence Functions”. Wiley. New York. (1986)). . Quello che viene descritto è una variante. Il procedimento è ciclico e nel primo ciclo vengono assegnati pesi unitari a tutti gli oggetti. Per ogni oggetto si calcola il leverage, misura della influenza dell'oggetto ai parametri della regressione, come: li ( x i m x )( y i m y ) [2-135] dove le barre verticali indicano che si assume il valore assoluto del prodotto. In questo caso l'uso del termine leverage non è rigoroso come era per il termine definito dalla 1 (x mx )2 lev( x ) I Ic20 [2-97] ma il significato è analogo, e tiene conto della distanza dal baricentro sia sull'asse X che sull'asse Y. Gli l vengono normalizzati, in modo che la loro somma sia eguale ad I e che nessun oggetto abbia valore del leverage normalizzato minore di 0.5. Si ottengono così gli ln (I normalizzati): ln i I ln i 0.5 [2-136] i Si calcola la varianza corrispondente al peso unitario, s20 (Equazione [2-116]) insieme ai parametri della retta di regressione pesata. Per ogni oggetto si calcola il valore assoluto dello scarto dalla retta di regressione e se tale valore risulta minore di s0 lo si eguaglia a s0 : d i yi a bx i d i s 0 [2-137] Si calcola il rapporto rai tra s0 e di : rai = s0 / di [2-138] che non può essere maggiore di 1. Un valore piccolo del rapporto rai indica che il punto è lontano dalla retta di regressione. I pesi per il ciclo successivo vengono calcolati dalla: 204 pi ra i ln i [2-139] che vengono normalizzati in modo che la loro somma sia eguale al numero dei punti I. I pesi normalizzati pni vengono trattenuti per il ciclo successivo. Essi sono tanto più piccoli quanto maggiore è il residuo e quanto maggiore è il leverage. La iterazione ritorna al calcolo del leverage e viene sospesa quando il valore dei pesi o quello della varianza s diventano stazionari. Il peso viene utilizzato come criterio per scartare gli outliers prima di effettuare una regressione con i minimi quadrati. Di seguito sono riportati i dati numerici relativi ai primi cicli e al ciclo finale, effettuati con il set nella Tabella 2-24. Ciclo 1 s0 = 7.459 a = 18.483 b = 0.23048 Oggetto p pn d l ln 1 2 3 4 5 6 7 8 9 10 11 12 13 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 5.029 5.300 0.081 21.807 0.911 3.562 6.840 1.027 1.097 1.076 1.745 3.897 1.091 5.302 50.177 6.025 161.655 10.124 32.939 97.317 18.449 0.276 3.291 0.945 67.139 0.357 0.500 1.437 0.500 4.629 0.500 0.943 2.787 0.528 0.500 0.500 0.500 1.922 0.500 Ciclo 2 s0 = 1.860 a = 9.266 b = 0.49791 Oggetto p pn d l ln 1 2 3 4 5 6 7 8 9 10 11 12 13 1.414 0.834 1.414 0.159 1.414 1.030 0.599 1.376 1.414 1.414 1.414 0.721 1.414 1.258 0.742 1.258 0.141 1.258 0.916 0.533 1.224 1.258 1.258 1.258 0.641 1.258 3.059 1.672 0.204 25.676 1.589 0.121 2.329 0.857 0.598 1.188 0.092 2.765 0.692 9.280 49.445 9.093 196.155 17.128 30.658 95.780 21.548 3.379 1.556 1.326 69.665 0.104 0.500 1.273 0.500 5.048 0.500 0.789 2.465 0.555 0.500 0.500 0.500 1.793 0.500 Ciclo 3 s0 = 1.298 a = 7.844 b = 0.54122 Oggetto p pn d l ln 1 2 0.860 0.886 0.813 0.839 2.811 1.156 8.962 48.208 0.500 1.239 205 3 4 5 6 7 8 9 10 11 12 13 1.414 0.032 1.414 1.126 0.509 1.343 1.414 1.414 1.414 0.502 1.414 Ciclo 4 1.338 0.030 1.338 1.065 0.481 1.270 1.338 1.338 1.338 0.475 1.338 s0 = 1.146 0.179 26.231 1.769 0.365 1.670 0.759 0.588 1.484 0.318 2.510 0.910 9.692 197.630 18.266 29.518 94.059 22.395 3.863 1.061 1.070 71.037 0.125 a = 7.569 0.500 5.079 0.500 0.759 2.417 0.576 0.500 0.500 0.500 1.825 0.500 b = 0.55178 Oggetto p pn d l ln 1 2 3 4 5 6 7 8 9 10 11 12 13 0.653 0.898 1.414 0.022 1.038 1.148 0.500 1.318 1.414 1.237 1.414 0.383 1.414 0.661 0.909 1.430 0.022 1.049 1.161 0.506 1.333 1.430 1.251 1.430 0.387 1.430 2.822 1.101 0.102 26.296 1.885 0.413 1.580 0.664 0.657 1.485 0.302 2.377 0.892 7.765 45.956 10.723 193.321 19.665 27.807 90.900 23.971 4.516 0.666 0.765 73.897 0.236 0.500 1.194 0.500 5.024 0.511 0.723 2.363 0.623 0.500 0.500 0.500 1.921 0.500 ............................... Ciclo 15 s0 = 0.980 a = 7.361 b = 0.56068 Oggetto p pn d l ln 1 2 3 4 5 6 7 8 9 10 11 12 13 0.486 0.839 1.414 0.017 0.671 1.189 0.420 1.243 1.414 0.948 1.414 0.312 1.414 0.536 0.926 1.561 0.018 0.740 1.312 0.463 1.372 1.561 1.046 1.561 0.344 1.561 2.855 1.079 0.012 26.326 2.006 0.428 1.529 0.559 0.739 1.461 0.264 2.241 0.852 7.162 44.940 11.198 190.571 20.241 27.078 89.467 24.705 4.799 0.553 0.655 75.253 0.242 0.500 1.176 0.500 4.986 0.530 0.708 2.341 0.646 0.500 0.500 0.500 1.969 0.500 Solo l'oggetto 4 ha un peso normalizzato molto piccolo nella iterazione finale, 0.018 che si contrappone a 0.344 dell'oggetto 12 (circa 20 volte maggiore del peso dell'oggetto 4) e a 1.561, il peso massimo, 87 volte maggiore di quello dell'oggetto 4 ma solo 4.5 volte maggiore di quello dell'oggetto 12. Rispetto alla retta di regressione calcolata con il metodo della mediana singola, quella calcolata con il metodo delle funzioni d’influenza è leggermente meno inclinata: ciò è dovuto al leggero effetto che, nonostante il peso molto basso, esercita ancora l'outlier nella regressione pesata. 206 2.25 – CARTE DI CONTROLLO 2.25.1 - Carte di Shewhart Il controllo di qualità riguarda non solo la qualità di un manufatto o di una materia prima, ma anche quella di un metodo analitico, metodo che potrà tra l'altro essere utilizzato per controllare la qualità di un particolare prodotto. Proprio per questa ragione il controllo di qualità di un metodo analitico è di fondamentale importanza. Una volta messo a punto un metodo, effettuando la sua convalida interna e mediante studi collaborativi, è necessario continuare periodicamente la convalida, mantenere elevata la qualità del metodo. La qualità dipende in modo essenziale dalle cure dell'analista, il quale può essere conscio di un deterioramento delle prestazioni del metodo, ma può anche essere ingannato dalla lenta variazione di parametri importanti per il controllo. L'unico modo per assicurare che questi parametri rilevanti siano mantenuti sotto controllo è quello di effettuare periodicamente analisi con materiali di riferimento. La differenza fondamentale tra il controllo di qualità di un metodo e quello di un manufatto è che nel primo il campione (o i campioni di riferimento) sono invarianti (e l'unica fonte di variabilità, o almeno la fonte di variabilità preponderante, è quindi il metodo), mentre nel secondo il metodo analitico è controllato, e la fonte di variabilità preponderante è quella del campione. Vi sono peraltro casi in cui si utilizzano standard «dubbi», ciò che è un controsenso. In analisi chimico-cliniche lo «standard» può essere così complesso che la sua ripetibilità non è assicurata. Esso peraltro è «quanto di meglio» si può avere. In questi casi quando la scorta di standard è prossima all’esaurimento, si ordina una nuova riserva dello standard, si effettua una serie di determinazioni con lo standard in esaurimento ed una con il nuovo standard (Figura 2-85). Figura 2-85 – Correzione per l’accordo tra standards La differenza tra i due standard è utilizzata per correggere: in altre parole al nuovo standard viene 207 attribuito un valore dell’analita che non è quello dichiarato, ma che è in accordo con il vecchio standard. In questi casi occorre essere sicurissimi che lo standard in esaurimento non ha subito nel corso del tempo una degenerazione. Antico è l'utilizzo delle carte di controllo per il controllo di qualità, che costituisce da solo un grande capitolo della chimica analitica industriale. Le prime carte di cui si parlerà in questa sede sono quelle della media, dell'intervallo (range) e della deviazione standard. L’idea delle carte di controllo più utilizzate, carte di Shewhart, è dovuta a Walter Andrew Shewhart, 1891- 1967 (W. A. Shewhart. “Economic Control of Quality of Manufactured Product”. Van Nostrand Company. New York. (1931)) Esse sono illustrate con l'esempio seguente, dove sono riportati i risultati di dieci gruppi di determinazioni. L’esempio è simulato, e la deviazione standard dell’errore normale è σ = 0.1. Gruppo 1 2 3 4 5 6 7 8 9 10 26.56 26.54 26.75 26.49 26.34 26.41 26.53 26.36 26.64 26.54 26.55 26.65 26.47 26.47 26.68 26.55 26.39 26.71 26.53 26.42 Determinazioni 26.36 26.65 26.63 26.47 26.31 26.61 26.38 26.60 26.53 26.51 26.47 26.64 26.59 26.39 26.55 26.54 26.41 26.47 26.51 26.40 26.55 26.55 26.54 26.63 26.50 26.31 26.64 26.47 26.47 26.45 Nel controllo di qualità di un metodo analitico periodicamente, p.e. ogni dieci giorni, si effettua un gruppo di determinazioni su di uno standard opportuno. Nel controllo di qualità di un prodotto le determinazioni vengono effettuate su campioni scelti casualmente con una certa frequenza media, o, quando il metodo analitico non è distruttivo, anche su tutti i campioni. Nell'esempio si hanno dieci gruppi di 5 determinazioni l'uno (la scelta del numero delle determinazioni per gruppo è arbitraria, ma ragionevole, in quanto un numero troppo basso è associato a incertezze elevate per i parametri statistici da utilizzare). Per ogni gruppo viene determinata la media x g , la stima della deviazione standard, s g , la stima della deviazione standard della media, s g / N , il range rg . Da questo si può ottenere egualmente la stima di s g / N , utilizzando la statistica di intervallo riportata in Tabella 2-17 in 2.16. Vengono in generale calcolate anche la media delle medie, x , la media degli intervalli, rg , e la media 208 delle stime della deviazione standard della media, sg / 5 nel caso dell’esempio. Nel controllo di qualità di un metodo analitico si dispone dello standard e quindi, per l’esempio, del valore = 26.5, e della imprecisione del metodo ottenuta dagli studi di convalida, in questo caso / 5 = 0.044721, che divisa per 0.192 (Tabella 2-17) fornisce come media della popolazione degli intervalli E(r) = 0.2329. Quando i parametri della popolazione non sono disponibili (come per il controllo di qualità di un prodotto) nelle carte di controllo si usano x e le altre stime mediate su di un certo numero di gruppi. Le statistiche relative all’esempio sono: Gruppo 1 2 3 4 5 6 7 8 9 10 26.498 26.606 26.596 26.490 26.476 26.484 26.470 26.522 26.536 26.464 sg / N rg 0.192 rg 0.0381 0.0250 0.0469 0.0390 0.0685 0.0544 0.0503 0.0604 0.0282 0.0266 0.20 0.11 0.28 0.24 0.37 0.30 0.26 0.35 0.17 0.14 0.0384 0.0211 0.0538 0.0461 0.0710 0.0576 0.0499 0.0672 0.0326 0.0269 x = 26.514 rg = 0.242 sg / 5 = 0.046464 = 26.5 E(r) = 0.2329 /5 = 0.044721 La carta di flusso viene costruita con una linea orizzontale che corrisponde al valore (o x ), a /N (o alla sua stima ottenuta come media generale dei gruppi), o alla media E(r) (o alla sua stima rg ), rispettivamente per le carte della media, della deviazione standard e per quelle dell'intervallo. Sulla carta di controllo sono disegnate altre due linee orizzontali, che corrispondono all'UCL (upper control limit) e al LCL (lower control limit), che sono i valori critici oltre i quali scatta la decisione di rivedere la convalida del metodo o di fermare la produzione per verificare i parametri che hanno importanza. In effetti LCL e UCL sono i limiti di un intervallo di fiducia (generalmente a livello 95% per il controllo di qualità di un metodo, al 99% per il controllo di qualità di un manufatto). Poiché rimane una piccola probabilità che anche al di fuori di questi limiti un evento risulti dalla popolazione (errore falso positivo), generalmente la decisione di revisione è preceduta da un gruppo di misure di conferma. Per tracciare le rette UCL e LCL si ricorre alla distribuzione normale standard per la carta della 209 media. Per le altre carte si possono ottenere i limiti da considerazioni rigorose, applicando la statistica 2 : 2 50 % p% / 2 s2 2 50 % p% / 2 2 da cui i limiti per la carta della deviazione standard risultano: LCL N 2 50 % p% / 2 2 50 % p% / 2 N s N UCL (per l'esempio, si ha LCL = 0.01557 e UCL = 0.07465 a livello di fiducia 95%). La linea centrale in questo N caso corrisponde a 2 50 % e non coincide con , a causa della asimmetria della distribuzione 2. Sono reperibili, per tutte le carte ed in particolare per quelle delle deviazioni standard, tabelle dei coefficienti che forniscono direttamente LCL e UCL senza ricorso alle tavole statistiche. Nel caso delle carte della deviazione standard si ammette peraltro in queste tabelle che non sia noto e che si disponga solo della stima sg / N . Frequentemente LCL e UCL sono posti a 3 σ / √N. Sono anche disponibili i coefficienti da utilizzare quando si calcola la varianza del campione sc invece della stima della varianza della popolazione. Per la carta del range può ricavare il UCL da quello della deviazione standard. Spesso si preferisce un procedimento meno rigoroso, che considera il range come distribuito normalmente, con deviazione standard sr. LCL e UCL sono dalle: LCL rg z p s r r rg z p s r UCL LCL rg z p d 3 r rg z p d 3 UCL LCL rg z p rg d2 r rg z p rg d2 UCL Le costanti che moltiplicano rg , 1 zp d2 e 1 zp d2 sono riportate come D3 e D4 nella tabella sottostante. Risulta: LCL D3 rg r D4 rg UCL Talora D3 risulterebbe minore di zero (non dimentichiamo che è stata trattata una distribuzione 2 come se fosse una gaussiana), ed in questo caso D3 viene posto eguale a zero. 210 Coefficienti per il calcolo di LCL e UCL per le carte di controllo del range (p%=99 per D3 e D4) N d 2 rg sr d3 s r / D3 D4 2 1.1308 0.85130 0.00000 3.25840 3 1.6948 0.88680 0.00000 2.56973 4 2.0577 0.88261 0.00000 2.28679 5 2.3261 0.85940 0.00000 2.10839 6 2.5370 0.84507 0.00070 1.99930 7 2.7078 0.83359 0.07645 1.92355 8 2.8464 0.81843 0.13740 1.86260 9 2.9643 0.80662 0.18367 1.81633 10 3.0785 0.79581 0.22449 1.77551 La Figura 2.86 mostra le tre carte di controllo per l’esempio. Figura 2-86 – Carte di controllo per l’esempio 211 2.25.2 – Carte CUSUM e EWMA Due procedure addizionali alle carte di controllo di Shewhart, procedure che evidenziano variazioni anche limitate della media , sono le carte CUSUM (Cumulative SUM, E. S. Page. "Continuous Inspection Scheme" Biometrika. 41, 100–115 (1954)) o “a somme cumulate” le carte EWMA (Exponentially Weighted Moving Average, D. Montgomery. “Introduction to Statistical Quality Control”. John Wiley & Sons. Inc. Hoboken. New Jersey. (2005)) o “a medie mobili pesate esponenzialmente” Nella carta CUSUM si riporta la somma cumulata fino all’i-esimo campione: i Si = ∑ x j j=1 La carta in Figura2-87 mostra una serie di medie sperimentali, tutte comprese entro i limiti di controllo. Figura 2-87– Risultati per la carta CUSUM La Figura 2-88 mostra la carta CUSUM corrispondente. Le linee orizzontali sono a ± 3 σ / √N. La carta rileva al ventiquattresimo esperimento una situazione anomala, che corrisponde ad una sequenza anomala di valori in eccesso sulla media (la parte a destra nella Figura 2-87). Ciò indica una variazione della media. Sulle carte CUSUM non vi sono limiti superiore o inferiore: l’osservazione si basa sul fatto che lunghe sequenze con somma superiore a 3 σ / √N o inferiore a -3 σ / √N sono altamente improbabili, come mostrato nella tabellina seguente, in cui è riportata la percentuale di significato di sequenze in cui la somma è superiore a 3 o a 2 σ: 212 Sequenze 2 3 4 5 6 7 8 9 3σ 3.93 0.67 0.15 0.09 0 0 0 0 2σ 10.35 2.78 0.8 0.35 0.03 0.01 0.04 0 Figura 2-88 – Carta CUSUM Un secondo tipo di carta CUSUM opera con due quantità: Ci+ = + xi − μ − K + Ci−1 − Ci− = μ − K − xi + Ci−1 Quando le C diventano negative, vengono azzerate per il calcolo della c successiva. μ è la media. K è un valore che determina la sensibilità della carta, generalmente eguale alla metà della differenza tra il valore obiettivo (la media) e un valore di controllo al quale si desidera che il procedimento sia sensibile. Le C non tengono conto di variazioni della media inferiori a K. L’applicazione agli stessi dati, con K = 0.5 e σ / √N = 1 è illustrata in Figura 2-89. I limiti superiore e inferiore sono posti a 5 σ, come usuale per queste carte. 213 Figura 2-89 – Carta CUSUM con limiti C Le carte EMWA sono basate sulla quantità: zi = λ xi + (1 − λ) zi−1 Il cui valore iniziale z0 è eguale alla media. I limiti variano con l’esperimento, secondo la: λ + UCL = μ L √2−λ (1 − (1 − 𝜆)2𝑖 ) − LCL Il fattore λ determina la rapidità con cui i limiti arrivano ad essere praticamente costanti e la velocità di variazione della variabile z di EMWA, e ha ovviamente effetto su z. Il fattore L determina essenzialmente l’ampiezza dell’intervallo tra UCL e LCL. La variabile di EWMA è una media ponderata, con pesi decrescenti, di tutte le osservazioni sino a quella attuale. Si può scrivere: i−1 zi = λ ∑(1 − λ)j xi−j + (1 − λ)i z0 j=0 Dato il valore di i, indice della osservazione attuale, l’equazione definisce i pesi per i quali sono moltiplicate tutte le osservazioni per ottenere zi. Pe k da 1 a i risulta: wk(i) = λ (1 − λ)i−k (1 − λ)i w0(i) = La Figura 2-90 illustra l’andamento dei pesi, che giustifica il nome “a medie mobili pesate esponenzialmente”. 214 Figura 2-90 – Pesi in EMWA. λ = 1: 0.5; 2: 0.4; 3: 0.3; 4: 0.2; 5: 0.1; 6: 0.05; 7: 0.025 I pesi sono valutati a i = 10 La Figura 2-91 mostra l’applicazione di EWMA ai dati utilizzati per CUSUM, con λ = 0.1 e L = 3, valori usuali per questo tipo di carte. Figura 2-91 – Carta EWMA La Figura 2-92 mostra l’effetto dei parametri L e λ Gli effetti dei parametri sono evidenti: λ cambia i valori di z e la forma degli intervalli, mentre L cambia solamente l’ampiezza degli intervalli. 215 Figura 2-92 – Carte EMWA λ = A: 0.025, B: 0.1, C: 0.4 L: a: 1, b: 2, c: 3, d: 4 2.25.3 – Carte di conformità Le carte di conformità o degli attributi, C-Charts, studiano il numero di difetti o non-conformità prodotte da un processo di fabbricazione LCL = media - 3 √m = 0 (quando < 0) UCL = media + 3 √m m è la media dei difetti, o un valore considerato accettabile. La Figura 2-93 mostra un esempio di carta di conformità, in cui LCL è nullo (è peraltro evidente che in questo tipo di carte LCL non ha importanza. Queste carte vengono addizionate da una statistica con la frequenza dei vari tipi di difetto, in modo da concentrare l’attenzione, ed eventualmente ridurre o eliminare, sui difetti più frequenti. 216 Figura 2-93 – Esempio di carta di conformità 2.25.4 – Controllo di qualità multivariato Frequentemente il controllo di qualità implica più parametri. L’utilizzo delle carte usuali risulta insoddisfacente quando questi parametri sono correlati (come accade frequentemente). Il controllo di qualità multivariato considera la correlazione tra le variabili sotto controllo (H. Hotelling. “Multivariate Quality Control” a C. Eisenhart, M. Hatsay, W. Wallins (Eds.) “Techniques of Statistical Analysis”. McGraw-Hill. New York. (1947)). La Figura 2-94 mostra accanto alle usuali carte per le singole variabili, l’intervallo di fiducia congiunto, caratterizzato da una media correlazione positiva. In particolare è indicato un risultato chiaramente fuori dalla ellisse di fiducia e pertanto non regolare. Figura 2-94 – Controllo di qualità bivariato 217 La Figura 2-95 mostra un diagramma a stella, che riporta le variabili (in questo esempio cinque) con la loro posizione in una carta di controllo usuale, normalizzata in modo che UCL e LCL siano eguali per tutte le variabili. La disposizione a cerchio ha come cerchio esterno UCL e come cerchio interno LCL. Figura 2-95– Diagramma a stella Nel controllo multivariato ogni campione (o media di un certo numero di campioni) è rappresentato da un diagramma a stella. La carta di controllo riporta la distanza di Mahalanobis dal centroide, o, come nell’esempio di Figura 2-96, il rapporto tra il valore della T di Hotelling e il suo valore critico. Il grafico a stella permette di individuare, per i campioni fuori controllo, con T maggiore del valore critico, le variabili responsabili della anomalia. Figura 2-96 – Carta di controllo multivariata. 218 219 Nota 1 Meno importante, nel contesto della teoria delle probabilità, è l’operatore logico XOR O esclusivo: l’evento somma esclusivo consiste nel verificarsi di uno ed uno solo degli eventi elementari; esso non si verifica quando sono verificati ambedue gli eventi elementari. Gli operatori logici sono eseguiti in ordine gerarchico, come gli operatori matematici ( ^, *, /, +, - : rispettivamente elevazione a potenza, moltiplicazione, divisione, somma, sottrazione, per i quali il livello gerarchico è rispettivamente, 1, 2, 2, 3, 3). Operatore Logico Livello gerarchico Significato NOT 1 Non AND 2 E anche OR 3 Oppure (O inclusivo) XOR o NEQV 4 O esclusivo EQV 4 Equivalente NEQV o XOR 4 Non equivalente Se si verifica l’evento A, NON si verifica l’evento NOT.A; i due eventi A e NOT.A sono mutuamente esclusivi; L’evento A.NOT.B consiste nel verificarsi di A e nel non verificarsi di B. Se si verificano ambedue gli eventi A e B, o se ambedue non si verificano, si verifica l’evento A.EQV.B; se uno dei due eventi elementari si verifica e l’altro non si verifica, l’evento A.EQV.B non si verifica; L’evento A.NEQV.B si verifica quando uno e solo uno dei due eventi A e B è verificato, esattamente come A.XOR.B. Nota 2 A seconda dei due casi il primo intervallo comprende anche il valore minimo o l’ultimo intervallo comprende anche il valore estremo massimo. Nota 3 La Figura 2-97 riporta l’andamento della funzione x f(x). Si noti come essa abbia un ramo negativo, che corrisponde a valori negativi di x. Nel caso di una funzione normale, l’integrale di x f(x) è nullo quando il ramo positivo e quello negativo sono simmetrici. Nota 4 La Figura 2-97 riporta anche la funzione (x-)2 f(x). Si noti che essa è sempre positiva, con due massimi. I valori di x vicini alla media, pur essendo molto probabili, hanno basso valore di (x-)2 f(x), perché è piccolo il primo termine, mentre valori lontani dalla media contribuiscono poco perché è bassa la densità di probabilità. 220 Figura 2-97 Distribuzioni gaussiane e loro funzioni 221 Nota 5 A volte i dati sono già in forma raggruppata. Quando sono disponibili sia i dati singoli che quelli in forma raggruppata, si possono confrontare le due stime della varianza del campione, come è stato fatto in una serie di esperimenti simulati con N = 100, h (ampiezza dell’intervallo di classe) 0.5. I risultati sono raccolti nella Figura 2-98. La correzione di Sheppard in questo caso è 0.0208. La media delle differenze tra i valori della varianza del campione ottenuti con i dati raggruppati e non è molto vicina a questo valore. È peraltro evidente che la entità della correzione è molto piccola rispetto alla dispersione, circa un ottavo, e ciò indica che la correzione di Sheppard è valida ma di scarsa utilità. Figura 2-98 – Verifica della correzione di Sheppard Nota 6 La [2-29] é suscettibile di rappresentazione geometrica, agevole almeno nel caso in cui la Y sia funzione di due sole variabili. Nel caso in cui sia semplicemente Y = X 1 + X2 si ha la rappresentazione di Figura 2-99-A, se le variabili X sono incorrelate. Se vi é correlazione tra le due variabili X, quando la correlazione é positiva si ha il caso illustrato in Figura 2-99 B, se negativa quello illustrato in Figura 2-99 C. La espressione generale per la varianza di una variabile somma di due variabili é: 2Y 12 2 1 2 22 222 dove é il coefficiente di correlazione tra le due variabili (vedi equazione [2-57]). Nella rappresentazione geometrica é il seno dell'angolo . Dalla applicazione del teorema di Pitagora si ottiene 2Y (1 2 ) 2 (12 )22 che sviluppata conduce alla equazione precedente. Figura 2-99 - Rappresentazione geometrica della correlazione tra due variabili e propagazione delle varianze Nota 7 Sperimentalmente talora il risultato di una ripetizione dipende da quello della ripetizione precedente, a causa di una cattiva procedura sperimentale; l’esperimento non è ben controllato. 223 Nota 8 La 2 s2 è la somma di ν variabili Z2. Si consideri il caso semplice in cui la varianza è stimata da 2 sole due ripetizioni. Si ha: ( x1 m) 2 ( x 2 m) 2 s 2 1 2 X x x2 x x2 x1 1 x2 1 2 2 2 2 x x2 x x1 1 2 2 2 2 2 x x2 2 1 2 2 Si consideri ora la funzione Y = X1 - X2 , che per la legge di propagazione delle varianze ha 2Y = 2 2X (s2X = s2Y / 2) ed ha anche media Y = 0. 2 s 2Y s 2Y 2Y x x2 2 4 1 x1 x 2 2 s 2X 2X La 2 s2 2 x1 x 2 2 2Y La media della Y è 0 (Y Y ) 2 2Y in questo caso in cui la varianza è stimata con la somma di 2 quadrati è eguale ad una sola funzione Z2 . Nota 9 I valori p% per l’intervallo di fiducia di intorno alla stima s sono forniti da: p s 2p I valori sono asimmetrici rispetto alla stima s; la Figura 2-100 riporta, per p%=95%, i valori della funzione: Fp p s 2p 224 Figura 2-100 - Intervalli di fiducia per la deviazione standard intorno alla sua stima 225 Nota 10 Un intervallo di fiducia è riferito ai parametri della popolazione (media, varianza) intorno ai valori stimati, o anche alla dispersione della popolazione intorno alla sua media (x intorno a ) mentre il termine intervallo di tolleranza è riservato alla dispersione della popolazione intorno alla media stimata (x intorno a m). Si hanno intervalli di tolleranza con o senza probabilità di tolleranza. L'intervallo di tolleranza senza probabilità di tolleranza è la ampiezza media dell'intervallo intorno alla media m che contiene il p% della popolazione. Esso si ottiene dallo studio della funzione (x-m), la cui varianza è stimata come s2 + s2 /N (il secondo termine è la varianza della media). Nel caso degli intervalli di tolleranza con probabilità di tolleranza si considera la popolazione costituita dall'intervallo in cui cade il p% dei valori di (x-m)/s (ci si riferisce a valori x che NON sono stati utilizzati per il calcolo dei valori di m e di s). In media, questo intervallo è eguale all'intervallo di tolleranza senza probabilità di tolleranza, ma esso varia da ripetizione a ripetizione. La Figura 2-101 mostra la distribuzione della popolazione, la media stimata da un campione di 3 determinazioni, l'intervallo simmetrico intorno a m di semiampiezza tp s = 4.303 s, e l'intervallo simmetrico intorno ad m di semiampiezza k s in cui è contenuto il 95% della popolazione. Il valore di k è una variabile a caso; la sua distribuzione di frequenza su di un campione di 100000 ripetizioni è riportata nella Figura 2-102. Figura 2-101 - Intervallo di tolleranza 226 Nel t% dei casi k è inferiore ad un certo valore K (fattore di tolleranza). L'intervallo di tolleranza con probabilità di tolleranza t% e probabilità di fiducia p% è pertanto l'intervallo in cui con una probabilità t% è compreso almeno il p% della popolazione. Figura 2-102 – Calcolo del fattore di tolleranza da 100000 esperimenti a caso e N=3 La tabella seguente mostra alcuni valori del fattore di tolleranza K, per t% = 90% e p = 95%. N K 2 18.800 3 6.919 4 4.943 5 4.152 6 3.723 8 3.264 10 3.018 15 2.713 20 2.564 25 2.464 227 Nota 11 La [2-95] esprime la iperbole esterna come y in funzione della X: 1/ 2 1 ( x mx ) 2 y my b( x mx ) t p s 1 I c20 I Per esprimere la iperbole in funzione della Y si procede come segue. Si isola il termine con la radice: 1 ( x mx ) 2 y my b( x mx ) t p s 1 I c20 I 1/ 2 Si innalza al quadrato: 1 (x mx ) 2 ( y m y ) 2 b( x m x )( y m y ) b ( x m x ) t s 1 I c 20 I 2 2 2 2 2 p Si riordinano i vari termini in modo da ottenere la forma consueta di una equazione di secondo grado, nella incognita x mx . 2 t 2p s 2 1 2 2 2 2 b ( x m x ) 2 b( y m y ) ( x m x ) ( y m y ) t p s 1 I c 20 I Si ottengono le due soluzioni: 2 t 2p s2 1 2 2 2 2 b ( y m y ) 4 b ( y m y ) 4 b ( y m y ) t p s 1 I c 20 I x mx t 2p s2 2 b 2 I c 20 2 2 Si semplifica il 2 (4 sotto radice), e si sostituisce il denominatore con la quantità: Ab 2 t 2p s2 I c20 b 2 t 2p s2b Questa quantità dipende dal livello di fiducia utilizzato; poiché essa divide il primo termine, determinando la media delle due soluzioni, centro dell'intervallo di fiducia, essa prende il nome di Indice di non-centralità. 2 t 2p s2 1 2 2 2 b ( y my ) b ( y my ) b ( y m y ) t p s 1 I c 20 I x mx A 2 2 Semplifichiamo ora il termine sotto radice: 228 ( y m y ) 2 2 t 2p s 2 b (y m y ) t p s b I c 20 I c 20 x mx A 1 1 I ovvero: ( y m y ) 2 b (y m y ) t p s A I c 20 x mx A 1 1 I che riscriviamo come: x mx b ( y my ) A 2 tp s A ( y my ) A A I I c20 1/ 2 Quando la precedente equazione viene applicata per trovare l'intervallo di fiducia della intercetta c sull'asse delle X, nella espressione precedente si pone y = 0; si ottiene la: x mx b my A tp s m 2y A A A I I c 20 1/ 2 Questa espressione peraltro sottintende che il valore 0 della Y sia stato ottenuto da una misura affetta da errore; la intercetta corrisponde ad un Y eguale a zero e senza errore, ciò che spiega la equazione [2-101]. Nota 12 Questo procedimento dovrebbe essere indicato con il nome di calibrazione inversa, in quanto la funzione che fornisce la quantità chimica incognita X è ottenuta invertendo la funzione i cui parametri sono calcolati: y a b x x y a b In quella che dovrebbe essere chiamata calibrazione diretta si utilizza il modello: x ' ' y e si effettua la regressione della X sulla Y, supponendo che la variabile condizionale X/Y=y sia distribuita normalmente con varianza eguale a quella dell'errore che si suppone dovuto alla sola X (Y è una condizione). Nella calibrazione multivariata, in cui una quantità chimica o risposta è predetta non da una ma da 229 molte quantità fisiche (predittori), si utilizza quella che abbiamo indicato come calibrazione diretta, ma con il nome di calibrazione inversa, in quanto è l’inverso di quanto si fa usualmente in regressione univariata. Nella calibrazione multivariata cambia anche la nomenclatura, e le quantità fisiche sono indicate con la lettera X, mentre la Y indica la quantità chimica. 230