scaricare

Sono molto grato a Xavier Tomàs Morer per la revisione e la correzione di numerosi errori
1
2 - LE BASI DELLA STATISTICA
La prima opera con il trattamento sistematico della probabilità, base della statistica, il Liber de
ludo aleae, fu scritta dal pavese Gerolamo Cardano nel 1526.
2.1 - ESPERIMENTI RANDOM, POPOLAZIONE, CAMPIONE
Le discipline sperimentali, quale è la chimica, sono fondate su di esperimenti, il risultato dei
quali è, a seconda dei casi:
a) una (o più) grandezza fisica misurata
b) una (o più) grandezza chimica calcolata da una (o più) grandezza fisica misurata
c) un conteggio (quante volte si è osservato un fatto particolare)
d) una figura.
Generalmente il risultato dell'esperimento (misura, conteggio, figura) varia ripetendo l'esperimento,
anche se lo sperimentatore ha posto la massima cura nelle ripetizioni, effettuandole in condizioni
uniformi, vale a dire con accurato controllo di tutti i parametri che lo sperimentatore pensa possano
influenzare il risultato.
Il risultato è espresso da variabili, che possono essere qualitative, nominali (p.e.
freddo/caldo, bianco/nero) o ordinali (p.e., gelido, freddo, tiepido, caldo, bollente, rovente) o
quantitative (relative, p.e. 1.24 metri, espresse dal rapporto con una unità di misura, o assolute, p.e.
1240 volte).
Gli esperimenti con queste caratteristiche di variabilità del risultato sono detti ESPERIMENTI
2
a CASO o esperimenti random. In essi, nonostante il controllo esercitato dall'operatore, permangono
alcune fonti di variabilità che determinano la differenza del risultato da ripetizione a ripetizione.
I fattori di variabilità possono essere:
a) non noti, non controllabili
b) noti, non controllabili
c) noti, parzialmente controllabili
d) noti, perfettamente controllabili
e) noti, controllabili ma non controllati
f) noti, controllati a valori (livelli) differenti.
L'ultimo caso corrisponde ad esperimenti che vengono effettuati per studiare determinati
fattori. Il caso precedente (e) a fattori che potrebbero essere controllati, ma il loro controllo si
presenta difficoltoso o antieconomico e pertanto viene omesso.
Un esperimento a caso deve essere descritto accuratamente, nelle sue
operazioni, nella indicazione dei fattori che sono controllati, del livello e della
incertezza con cui sono controllati, nel dettaglio del rilevamento del risultato.
La descrizione dell’esperimento è annotata nel Quaderno di Laboratorio; alla data e alla
descrizione delle operazioni e alle informazioni relative ai fattori controllati, è sempre bene
aggiungere la indicazione di fattori ambientali (temperatura ambiente, umidità, luminosità, presenza
di vibrazioni/rumori) anche se si ritiene che essi non abbiano effetto sull’esperimento. Un Quaderno
di Laboratorio ben tenuto è uno strumento prezioso, perché permette di ricostruire l’esperimento
anche dopo molto tempo.
Se si omette il controllo di anche un solo parametro, o se si introduce il controllo di un
parametro in precedenza non fissato, o se si altera il livello di controllo, o la accuratezza di controllo,
la variabilità del risultato può aumentare o diminuire: è stato cambiato l'esperimento a caso.
Un esperimento a caso può essere teoricamente ripetuto infinite volte: queste infinite
ripetizioni costituiscono la famiglia, la popolazione infinita delle possibili ripetizioni. In realtà un
esperimento viene ripetuto un numero limitato di volte; queste ripetizioni costituiscono un
campione statistico o semplicemente campione (da non confondere con il campione in senso
chimico) estratto dalla popolazione infinita.
Si rammentino bene queste due definizioni: popolazione e campione.
La popolazione corrisponde al livello teorico, il campione è reale; il campione rappresenta la
popolazione.
3
Quali che siano gli esperimenti, lo sperimentatore deve conoscere molto bene
quale è la popolazione che i suoi campioni rappresentano. Attribuire i risultati ad
una popolazione diversa, in generale più ampia, di quella da cui sono estratti i
campioni è un errore molto comune e molto grave.
Per esempio, se si è ripetuta su di aliquote diverse di vino dalla stessa bottiglia di Verdicchio
la determinazione del grado alcoolico, non si deve attribuire il risultato alla popolazione del vino
Verdicchio, ma solo a quella costituita dalle aliquote della bottiglia. Se si sono analizzati per il grado
alcoolico dieci campioni di Verdicchio, non si deve attribuire il risultato alla popolazione dei vini
bianchi.
Poiché il risultato (o EVENTO) di un esperimento a caso varia da ripetizione a ripetizione, il
risultato è caratterizzato da una IRREGOLARITÀ, che impedisce di formulare ipotesi certe sul risultato
di una singola ripetizione. Tuttavia, operando con un campione costituito da un numero
relativamente grande di ripetizioni, si individuano aspetti che permettono di trarre conclusioni meno
incerte di quanto appaia a prima vista. La valutazione della incertezza relativa al risultato di un
esperimento a caso e la sua diminuzione sono tra i principali obiettivi della statistica.
Non tutti gli esperimenti sono casuali. P.e. se noi contiamo più volte il numero di gambe dello
stesso tavolo otteniamo sempre il valore 4. Il risultato del conteggio è determinato. Il risultato di
molti esperimenti è costituito da una parte deterministica e da una casuale. P.e., se noi misuriamo
il peso di un recipiente contenente acqua noteremo una graduale diminuzione dovuta
all'evaporazione. Supponendo che l’evaporazione sia costante nel tempo si avrà:
p(t) = p0 - k t + e
- k t, effetto dell'evaporazione, è deterministico, mentre l’errore di misura, e, è totalmente casuale.
Variabili quali p(t) sono studiate controllando l’effetto deterministico, come variabili condizionate.
2.2 - FREQUENZA ASSOLUTA E RELATIVA, VARIABILI CASUALI
Si consideri l'esperimento a caso E descritto come segue:
1) lo sperimentatore lancia un DADO cubico, di materiale fisicamente omogeneo, avente sulle sei
facce le figure A, B, C, D, E, F.
2) il lancio avviene da un'altezza di 1 metro (± 5 cm), lasciando cadere il dado dalla mano chiusa su
di un tavolo di legno.
4
3) il risultato è rappresentato dalla figura che appare sulla faccia del dado rivolta verso l'alto, quando
il movimento del dado si è arrestato.
Questo esperimento è caratterizzato da un numero limitato, discreto, di possibili risultati, sei.
Associamo un indice ad ogni possibile evento:
Indice
Risultato
1
A
2
B
3
C
4
D
5
E
6
F
Introduciamo ora le prime definizioni di terminologia statistica:
N indichi il numero delle ripetizioni, o numerosità del campione;
ni indichi il numero delle volte, tra le N, in cui si è verificato l'evento con indice i ; ni è la FREQUENZA
ASSOLUTA del risultato con indice i.
fi = ni /N è la FREQUENZA RELATIVA o semplicemente FREQUENZA del risultato con indice i. La
frequenza relativa può essere espressa in forma percentuale, come 100 f i %.
Supponiamo di avere effettuato 20 ripetizioni dell'esperimento. La Tabella seguente raccoglie il
risultato delle ripetizioni, il campione costituito dai 20 eventi osservati.
Tabella 2-1- Risultati di 20 ripetizioni dell'esperimento "Lancio di un dado"
Indice della
ripetizione
1
2
3
4
5
6
7
8
9
10
Evento
osservato
A
D
F
E
E
A
C
B
A
F
Indice dell'evento
1
4
6
5
5
1
3
2
1
6
5
11
12
13
14
15
16
17
18
19
20
L'evento A è stato osservato 3 volte
E
5
D
4
F
6
B
2
F
6
F
6
D
4
D
4
E
5
E
5
(frequenza assoluta); la frequenza relativa è 0.15 (= 3/20), la
frequenza percentuale è del 15%.
La Tabella totale delle frequenze è la seguente:
Indice dell'evento
1
2
3
4
5
6
Frequenza assoluta
3
2
1
4
5
5
Frequenza
0.15
0.10
0.05
0.20
0.25
0.25
La somma delle frequenze assolute deve dare il numero N delle ripetizioni; la somma delle frequenze
relative deve dare 1.
Quando un esperimento ha come risultato un numero quel numero rappresenta uno dei possibili
valori della variabile random che descrive quell'esperimento. Anche esperimenti non descritti da un
numero possono essere ricondotti a esperimenti con risultati numerici, mediante una opportuna
convenzione, quale quella utilizzata poco sopra associando ad ogni figura sul dado un indice
dell'evento.
Un esperimento può essere descritto da una variabile casuale (Esperimento univariato), da due
variabili (Esperimento bivariato), o da più variabili (Esperimento multivariato). Per esempio, quando
il risultato dell’esperimento è una figura, per esprimere il risultato in forma numerica, la figura viene
decomposta in punti luminosi (PIXEL), e ogni punto ha un valore che indica il suo colore. I pixel su di
un normale schermo di calcolatore sono almeno 300000.
In un primo tempo ci limiteremo a trattare gli esperimenti univariati.
Si noti come la definizione di esperimento in statistica sia differente da quella che siamo portati ad
utilizzare nell'ambiente sperimentale.
In laboratorio si pone l'accento sulla parte sperimentale dell'esperimento stesso. Nel caso
6
dell'esperimento "lancio di un dado" siamo abituati a considerare solo i punti:
1) lo sperimentatore lancia un DADO cubico, di materiale fisicamente omogeneo, avente sulle sei
facce le figure A, B, C, D, E, F.
2) il lancio avviene da una altezza di 1 metro (±5 cm), lasciando cadere il dado dalla mano chiusa su
di un tavolo di legno.
Pertanto viene trascurata o considerata ovvia la parte concettuale.
Ma alla stessa parte sperimentale possono corrispondere diversi esperimenti in senso statistico.
Infatti io posso lanciare due volte un dado ed avere:
a) due ripetizioni dell'esperimento "lancio di un dado", già descritto;
b) una sola ripetizione dell'esperimento univariato: "lancio di due dadi con risultato espresso come
somma dei due valori facciali";
c) una sola ripetizione dell'esperimento bivariato: "lancio di due dadi con risultato espresso da due
variabili random, la prima fornita dal valore facciale del dado lanciato per primo, la seconda dal
valore del dado lanciato per secondo".
Ad una stessa operazione base (parte sperimentale) corrispondono più esperimenti e lo studio dei
tre casi è sensibilmente differente. Pertanto la definizione di esperimento statistico deve essere
completa, rigorosa. È importante notare come l'esempio precedente ci indichi che taluni esperimenti
(esperimenti composti) possano essere considerati come la combinazione di altri esperimenti
(esperimenti semplici o elementari).
7
2.3 - REGOLARITÀ STATISTICA
Abbiamo evidenziato la irregolarità di un singolo risultato di un esperimento a caso. Effettuiamo ora
una serie di ripetizioni dell'esperimento "lancio di una moneta" (di cui si risparmia la descrizione).
Nella Figura 2-1 è mostrato l'andamento della frequenza relativa del risultato "TESTA"
all'aumentare della numerosità del campione. La rappresentazione è condotta su scala logaritmica
per N, numero delle ripetizioni. Dal grafico è evidente che la frequenza dell'evento considerato ha
grandi fluttuazioni per valori piccoli di N, e che le fluttuazioni diminuiscono all'aumentare di N.
Questo andamento è interpretato come dimostrazione di una TENDENZA alla REGOLARITÀ
della frequenza di un risultato di un esperimento a caso, contrapposta alla irregolarità del singolo
risultato.
Se noi effettuiamo altre serie di ripetizioni, vediamo in Figura 2-2 che la tendenza alla
regolarità non si ha solo all'interno di una serie, ma anche mettendo in relazione serie differenti.
Infatti possiamo notare che la frequenza dell'evento considerato differisce notevolmente da serie a
serie, quando le serie si confrontano a basso valore del numero delle ripetizioni, mentre per alti
valori di N le frequenze delle differenti sequenze appaiono notevolmente vicine. Intuitivamente,
possiamo fare delle predizioni: per una ulteriore serie possiamo pensare ragionevolmente che la
frequenza dell'evento TESTA, con N=1000, sia molto prossima alla ristretta banda di valori
individuata dal valore per N=1000 delle serie riportate nella Figura 2-2.
La tendenza alla stabilità delle frequenze non è tipica di un evento particolare di un certo
esperimento, o di certi esperimenti: essa è stata osservata sperimentalmente per tutti gli eventi di
tutti gli esperimenti casuali: è una legge di valore universale.
Sulla base di questa tendenza alla regolarità, osservata sempre con valori finiti ancorché grandi di N,
possiamo formulare la ipotesi base della teoria della probabilità, che la frequenza si avvicinerebbe
ad un valore ideale definito se la sequenza di ripetizioni potesse essere continuata all'infinito.
Introduciamo pertanto un numero definito che verrà indicato con p (relativo all'evento iesimo considerato), e questo numero verrà chiamato PROBABILITÀ MATEMATICA, o semplicemente
probabilità, dell'evento i-esimo dell'esperimento generico E.
La probabilità di un risultato è pertanto una astrazione matematica, e matematicamente essa
può essere definita mediante la:
8
p i  lim f i
[2-1]
N 
La probabilità corrisponde alla popolazione infinita; la frequenza corrisponde al campione statistico.
Si rammenti:
Realtà
Astrazione
CAMPIONE
POPOLAZIONE
Frequenza
Probabilità
Possiamo anche affermare che la probabilità di un evento è un valore incognito che noi
misuriamo sperimentalmente con la frequenza: la frequenza è la misura sperimentale della
probabilità, ed è una misura affetta da un errore che diminuisce al crescere sufficientemente di N.
Per i teoremi sui limiti sappiamo infatti che, fissato un errore  positivo piccolo a piacere, è possibile
trovare un valore di N tale che per valori maggiori sia sempre pi -fi  <  (si ricordi che la notazione pi
-fi indica il valore assoluto).
La probabilità è INCONOSCIBILE.
Noi possiamo tuttavia sviluppare delle TEORIE per calcolare la probabilità degli eventi di un
esperimento.
La probabilità calcolata sulla base di un modello teorico non ha alcun valore se essa non viene
confrontata con la sua misura sperimentale, la frequenza. Il confronto, effettuato con opportuni
strumenti che la statistica stessa ci mette a disposizione, ci dirà se la teoria sviluppata è accettabile
(con una qualche incertezza) o se deve essere respinta. P.e., nel caso dell'esperimento "lancio di un
dado", una teoria basata sulla geometria del cubo e sulla omogeneità del materiale che lo costituisce
ci permette di calcolare la probabilità, eguale ad 1/6, per ciascuno dei sei eventi possibili. Se infatti
le sei facce del cubo sono perfettamente equivalenti non vi è nessuna ragione per cui una debba
avere un esito superiore o inferiore alle altre.
Se effettuo un esperimento con un dado e dopo 1000 lanci rilevo che la frequenza dell'evento
6 è 0.73, molto lontana dalla probabilità calcolata 0.16667, posso dedurre che la mia teoria è
probabilmente sbagliata: il dado è truccato, il modello basato sulla omogeneità fisica del dado è un
modello fallace. Il termine "probabilmente sbagliata" utilizzato nella frase precedente verrà meglio
analizzato in seguito.
9
Figura 2-1 Frequenza relativa dell’evento TESTA dell’esperimento “LANCIO DI UNA MONETA” in
funzione del numero delle ripetizioni N
10
Figura 2-2 Andamento della frequenza in dieci serie di 10000 ripetizioni
2.4 - DISTRIBUZIONE DELLE FREQUENZE - DISTRIBUZIONE DI PROBABILITÀ
Abbiamo considerato, introducendo il concetto di regolarità statistica, un singolo evento di
un esperimento a caso. Se consideriamo tutti i risultati del nostro esperimento, dopo un certo
numero di ripetizioni N, avremo tanti valori della frequenza quanti sono i risultati. Per rappresentare
questi valori si ricorre ad un grafico detto di Distribuzione delle frequenze, generalmente relative.
Riferendoci al campione illustrato nella Tabella 2-1, il grafico relativo è mostrato in Figura 2-3.
Nel grafico abbiamo introdotto, sulle ascisse, la variabile random X che misura (in modo
convenzionale nel nostro caso) il risultato dell'esperimento. Ogni frequenza è indicata con un tratto,
e la somma dei tratti è 1. La totalità dei risultati ottenuti è distribuita tra i vari risultati.
Come la singola frequenza tende alla corrispondente probabilità per N che tende ad infinito, così
l'insieme delle frequenze, la distribuzione di frequenza, tende alla corrispondente DISTRIBUZIONE di
PROBABILITÀ, limite, per N che tende ad infinito, della distribuzione delle frequenze. La distribuzione
11
delle probabilità è la astrazione matematica della distribuzione delle frequenze.
La distribuzione delle frequenze è la misura sperimentale della distribuzione di
probabilità.
Figura 2-3 - Distribuzione di frequenza ottenuta da 20 ripetizioni dell’esperimento «Lancio di un
dado»
Figura 2-4 Distribuzione di probabilità relativa all’ esperimento «Lancio di un dado»
Si rammenti:
Realtà
Astrazione
CAMPIONE
POPOLAZIONE
Frequenza
Probabilità
Distribuzione di frequenze
Distribuzione di probabilità
La teoria basata sulla geometria cubica e sulla uniformità fisica del dado, ci permette di
12
calcolare la distribuzione di probabilità corrispondente alla distribuzione di frequenza
dell'esperimento "lancio di un dado". Essa è mostrata in Figura 2-4.
La somma dei tratti, delle probabilità, è anche qui come con le frequenze, eguale ad 1: la unità
esprime la certezza, la sicurezza di avere comunque un risultato tra quelli possibili.
La forma di questa distribuzione è detta rettangolare, in quanto tutti gli eventi hanno la stessa
probabilità.
Vi sono moltissime forme possibili per una distribuzione di probabilità. Vediamone alcune relative
alla serie di esperimenti: "Lancio di M dadi, variabile ottenuta dalla somma dei valori facciali degli M
dadi"
Al variare di M abbiamo una famiglia di esperimenti, tra cui il lancio di un singolo dado. La
variabile X può assumere sempre un numero finito di valori, il più piccolo eguale a M, il più grande
eguale a 6 M.
Il numero di valori possibili è pertanto 5 M + 1:
M
1
2
3
10
20
100
1000
minimo
1
2
3
10
20
100
1000
massimo
6
12
18
60
120
600
6000
numero di valori di X
6
11
16
51
101
501
5001
Per calcolare la probabilità di un certo risultato nell’esperimento E = «lancio di M dadi» utilizzeremo
un esperimento elementare E1 (lancio di un dado, risultato R1 dato dal valore della faccia del dado,
che può assumere i sei valori 1,2,3,4,5,6), un esperimento composto E2 (lancio di M dadi, risultato
dato dalla SEQUENZA degli M valori).
Si rammenti:
Esperimento E1
Risultato R1
Lancio di 1 dado
Esperimento E2
Risultato R2
Lancio di 2 dadi e risultato dato dalla
(due esperimenti
sequenza dei due risultati R1
elementari E1)
Esperimento E
(due esperimenti
Risultato X
Lancio di 2 dadi e risultato dato dalla
somma dei due risultati R1
elementari E1)
Con M = 2, R2, risultato di E2, può assumere i 36 valori:
13
1-1
2-1
3-1
4-1
5-1
6-1
1-2
2-2
3-2
4-2
5-2
6-2
1-3
2-3
3-3
4-3
5-3
6-3
1-4
2-4
3-4
4-4
5-4
6-4
1-5
2-5
3-5
4-5
5-5
6-5
1-6
2-6
3-6
4-6
5-6
6-6
Poiché ambedue i dadi sono eguali ed ideali, non vi è alcuna ragione per cui uno degli eventi possibili
per E2 abbia una probabilità maggiore di un altro; pertanto la certezza deve essere distribuita
egualmente su ogni risultato, ed ogni R2 ha conseguentemente probabilità 1/36. In altre parole la
teoria ipotizza che ogni combinazione di valori facciali relativa al lancio dei due dadi abbia la stessa
probabilità.
Allo stesso valore della probabilità si arriva osservando che E2 è un esperimento composto prodotto
di E1: un esperimento prodotto ha un risultato che risulta dal presentarsi INSIEME di due risultati R1:
R2i
P.e. l’evento R2 = 2 3
=
R1j * R1k
risulta dal risultato R1 = 2 per il primo esperimento E1 che costituisce E2
E ANCHE dal risultato R1 = 3 per il secondo esperimento E1 che costituisce E2. La probabilità di un
evento prodotto è il prodotto delle probabilità degli eventi costituenti se questi sono indipendenti
(vedi oltre).
Il risultato del nostro esperimento E, la sua X, è la somma dei valori facciali, e la teoria ammette che
X abbia una probabilità somma delle probabilità delle combinazioni di valori facciali che danno la
stessa somma.
E è un tipico esempio di esperimento somma di esperimenti elementari E2, a loro volta prodotto di
esperimenti elementari E1.
Per M=2 si ottiene:
Risultato di E2
Somma
Dado Dado
1
2
1
1
2
1
3
2
1
4
2
1
2
1
3
1
2
4
1
3
2
3
3
4
4
4
5
5
5
1 risultato R2 per X = 2
p(X=2) = 1/36
2 risultati R2 per X = 3
p(X=3) = 2/36
3 risultati R2 per X = 4
p(X=4) = 3/36
14
3
1
5
2
4
3
1
6
2
5
3
4
2
6
3
5
4
3
6
4
5
4
6
5
5
6
6
2
5
1
4
2
3
6
1
5
2
4
3
6
2
5
3
4
6
3
5
4
6
4
5
6
5
6
5
6
6
6
6
6
7
7
7
7
7
7
8
8
8
8
8
9
9
9
9
10
10
10
11
11
12
4 risultati R2 per X = 5
p(X=5) = 4/36
5 risultati R2 per X = 6
p(X=6) = 5/36
6 risultati R2 per X = 7
p(X=7) = 6/36
5 risultati R2 per X = 8
p(X=8) = 5/36
4 risultati R2 per X = 9
p(X=9) = 4/36
3 risultati R2 per X = 10
p(X=10) = 3/36
2 risultati R2 per X = 11
1 risultato R2 per X = 12
p(X=11) = 2/36
p(X=12) = 1/36
In tutto sono stati considerati i 36 risultati per l'esperimento elementare E2, perfettamente
equivalenti e quindi con probabilità 1/36. Le probabilità per gli eventi dell'esperimento complesso
sono mostrate nella Figura 2-5, che si confronta con la distribuzione dell’esperimento semplice
mostrata in Figura 2-4. Nelle successive figure da 2-6 a 2-14 sono mostrate le distribuzioni di
probabilità relative agli esperimenti con numero crescente di dadi.
Prima di analizzare l'informazione raccolta nelle Figure da 2-5 a 2-14, illustriamo alcune regole base
della probabilità matematica, estensioni della regola che abbiamo applicato nel caso
dell'esperimento "lancio di due dadi".
EVENTO SOMMA: è un evento composto che consiste nel presentarsi di
ALMENO UNO di due eventi elementari. Esso è caratterizzato dall'operatore logico
OR
OPPURE (Nota 1)
15
Figura 2-5 - Distribuzione di
probabilità per l’esperimento
«Lancio di due dadi»
Figura 2-6 - Distribuzione di
probabilità per l'esperimento
«Lancio di tre dadi»
Figura 2-7 - Distribuzione di
probabilità per l'esperimento
«Lancio di quattro dadi»
16
Figura 2-8 - Distribuzione di
probabilità per l'esperimento
«Lancio di cinque dadi»
Figura 2-9 - Distribuzione
di probabilità per
l'esperimento «Lancio di
dieci dadi»
Figura 2-10 - Distribuzione di
probabilità per l'esperimento
«Lancio di venti dadi»
17
Figura 2-11 - Distribuzione di
probabilità per l'esperimento
«Lancio di cinquanta dadi»
Figura 2-12 - Distribuzione di
probabilità per l'esperimento
«Lancio di cento dadi»
Figura 2-13 - Distribuzione di
probabilità per l'esperimento
«Lancio di duecento dadi»
18
Figura 2-14 - Distribuzione di
probabilità per l'esperimento
«Lancio di mille dadi»
Siano A e B gli eventi elementari; l'evento somma si indica con
A+B.
Per la frequenza vale la relazione:
f A  B  f A  f B  f AB
[2-2]
da cui al limite discende la relazione per le probabilità:
p A  B  p A  p B  p AB
dove fAB è la frequenza e pAB è la probabilità dello EVENTO PRODOTTO: è un evento composto che
consiste nel presentarsi di AMBEDUE eventi elementari. Esso è caratterizzato dall'operatore logico
AND
E ANCHE.
e viene indicato con AB. La regola elementare della probabilità di un evento prodotto di due eventi
indipendenti è:
p AB 
pA p B
[2-3]
essendo due eventi indipendenti quando la probabilità che uno avvenga non dipende dal fatto
che l'altro si sia o no verificato.
Possiamo tornare ora alla regola dell'addizione, illustrandola con l'esperimento «Lancio di due dadi,
risultato 1 se almeno uno dei due dadi ha valore 1, risultato 0 se nessuno dei due dadi ha valore 1";
il risultato 1 è la somma dei due risultati elementari degli esperimenti che consistono nel lancio di
un solo dado.
19
Effettuiamo una serie di 10 ripetizioni:
Dado 1
Dado 2
3
4
1
1
2
3
4
6
4
1
5
2
2
4
1
4
3
5
5
6
fA = 0.2 fB =0.2
Risultato dell'evento composto
0
1
0
0
1
0
0
1
0
0
fA+B = 0.3
fAB = 0.1
La validità della [2-2] risulta dal fatto che quando (nella seconda ripetizione) si sono verificati
contemporaneamente l'evento A e l'evento B essi hanno incrementato solo di uno la frequenza
assoluta dell'evento somma.
Il concetto di limite proprio della probabilità, applicato alla [2-2], porta alla regola della somma:
p A  B  p A  p B  p AB
[2-4]
Vi sono casi in cui i due eventi A e B sono MUTUAMENTE ESCLUSIVI, nel senso che se se ne verifica
uno non può verificarsi l'altro. In questo caso pAB è nulla e pertanto la [2-4] si riduce alla legge della
somma di eventi mutuamente esclusivi
p A B  p A  p B
[2-5]
Un esempio si ha con l'esperimento "Lancio di un dado, risultato 1 se appare il valore 6 o il valore 5,
risultato 0 altrimenti". La probabilità del risultato composto 1 è semplicemente la somma delle
probabilità dei risultati elementari 5 e 6 ( p = 2/6), in quanto gli eventi 5 e 6 sono mutuamente
esclusivi.
20
Figura 2-15 - Rappresentazione di eventi composti mediante insiemi. Evento prodotto possibile.
Figura 2-16 - Rappresentazione di eventi composti mediante insiemi. Caso di eventi mutuamente
esclusivi.
21
2.5 - DISTRIBUZIONE NORMALE - TEOREMA DEL LIMITE CENTRALE
Possiamo ora tornare all'esame delle figure da 2-5 a 2-14.
Osserviamo che:
a) Via via che il numero dei dadi aumenta, il numero degli eventi possibili diventa tale da rendere
impratica la rappresentazione grafica della probabilità; sui grafici delle figure 2-13 e 2-14 non è
possibile distinguere eventi diversi, tanto è fitto il tratteggio;
b) Con l'aumentare del numero degli eventi possibili, la certezza risulta distribuita tra di loro in
maniera tale che la probabilità di un singolo evento è in media molto piccola. Si noti la differenza tra
la probabilità 1/6 per un evento dell'esperimento "lancio di un dado" e il valore massimo della
probabilità per l'esperimento "lancio di 1000 dadi", circa 23 volte minore;
c) La forma della distribuzione cambia con l'aumentare del numero dei dadi; da rettangolare diventa
triangolare, e via via assume una forma sempre più simile a quella di una sezione di campana, forma
caratteristica di un tipo di distribuzione detto DISTRIBUZIONE NORMALE.
d) Quando il numero di eventi è elevato la probabilità di due eventi contigui è poco differente. P.e.,
con 1000 dadi la probabilità dell’evento 3500 è 0.00738693, quella dell’evento 3501 è 0.00738567 .
La differenza è solo 0.000001266, lo 0.01714%.
I punti a) e b) si collegano con il fatto che quando un esperimento ha un grande numero di risultati
possibili la probabilità di un singolo risultato non ha molto interesse. P.e., il reddito individuale varia
da 0 euro a 100000000000 (cento miliardi di euro): la probabilità di un reddito di 234565888 euro
(ammesso che esista un modello matematico in grado di calcolarla) è estremamente poco
interessante, mentre può essere rilevante avere la probabilità di certe fasce, di certi intervalli di
reddito.
Il punto c) può essere generalizzato, fornendo il Teorema del limite centrale:
Quale che sia la distribuzione di probabilità relativa ad un certo esperimento elementare (nel
nostro caso il lancio di un dado), quella di un esperimento somma di M esperimenti elementari (nel
nostro caso il lancio di M dadi) tende a diventare una distribuzione normale all'aumentare del
numero M.
Il teorema del limite centrale spiega l'importanza della distribuzione normale o gaussiana (in realtà
dovuta, almeno in embrione, al matematico francese Abraham de Moivre), in quanto moltissime
variabili sperimentali sono eventi che risultano dalla somma di numerosissimi eventi elementari.
22
2.6 - VARIABILI CONTINUE - ISTOGRAMMA DELLE FREQUENZE
In relazione alla verificata non praticità e non interesse della rappresentazione diretta delle
probabilità (e anche delle frequenze) quando vi sono molti valori possibili per il risultato di un
esperimento, vengono introdotti altri concetti relativi alle variabili continue.
Una variabile è continua quando, dati due valori di essa comunque vicini, è sempre possibile trovarne
un altro tra essi compreso. Nella pratica sperimentale non esistono variabili continue, nel senso che
qualunque esperimento ha sempre un numero di risultati limitato, dovuto al fatto che ogni
strumento ha un limite di leggibilità. La discontinuità della materia costituisce il limite ultimo.
Tuttavia quando il numero dei risultati possibili è molto grande possiamo parlare di variabili
praticamente continue, e studiarle come se fossero continue, caratterizzate da infiniti valori possibili.
Nel caso di un campione statistico, alla già vista rappresentazione diretta della distribuzione delle
frequenze si sostituisce una rappresentazione per intervalli, detta ISTOGRAMMA delle FREQUENZE.
L'istogramma viene illustrato con il seguente esempio, relativo alla determinazione della densità di
un liquido eseguita 200 volte, con uno strumento in grado di fornire la quinta cifra decimale. I risultati
sono riportati nella Tabella 2-2, prima nell’ordine in cui sono stati ottenuti e quindi ordinati in ordine
crescente.
Tabella 2-2a- Risultato di duecento determinazioni della densità di un liquido
1.12202
1.12200
1.12203
1.12153
1.12212
1.12176
1.12157
1.12169
1.12176
1.12135
1.12159
1.12238
1.12191
1.12192
1.12213
1.12113
1.12172
1.12152
1.12127
1.12185
1.12206
1.12201
1.12218
1.12177
1.12129
1.12132
1.12232
1.12205
1.12206
1.12213
1.12236
1.12203
1.12128
1.12158
1.12229
1.12164
1.12199
1.12150
1.12206
1.12167
1.12200
1.12183
1.12174
1.12201
1.12246
1.12156
1.12187
1.12200
1.12218
1.12152
1.12221
1.12212
1.12224
1.12188
1.12177
1.12191
1.12167
1.12169
1.12186
1.12174
1.12176
1.12201
1.12180
1.12178
1.12181
1.12123
1.12182
1.12135
1.12210
1.12189
1.12223
1.12174
1.12150
1.12221
1.12191
1.12151
1.12186
1.12193
1.12181
1.12268
1.12155
1.12131
1.12196
1.12115
1.12155
1.12159
1.12165
1.12173
1.12203
1.12171
1.12185
1.12166
1.12204
1.12147
1.12156
1.12182
1.12159
1.12214
1.12174
1.12165
1.12185
1.12170
1.12198
1.12197
1.12153
1.12158
1.12188
1.12153
1.12199
1.12108
1.12191
1.12168
1.12192
1.12151
1.12166
1.12157
1.12215
1.12154
1.12156
1.12204
1.12131
1.12155
1.12204
1.12141
1.12125
1.12158
1.12207
1.12194
1.12155
1.12195
1.12199
1.12213
1.12256
1.12234
1.12231
1.12129
1.12203
1.12176
23
1.12244
1.12166
1.12127
1.12201
1.12173
1.12213
1.12151
1.12168
1.12195
1.12159
1.12182
1.12202
1.12184
1.12166
1.12215
1.12198
1.12208
1.12217
1.12250
1.12120
1.12157
1.12192
1.12193
1.12187
1.12162
1.12171
1.12179
1.12145
1.12175
1.12180
1.12240
1.12177
1.12148
1.12155
1.12167
1.12156
1.12140
1.12153
1.12161
1.12137
1.12228
1.12139
1.12173
1.12196
1.12163
1.12186
1.12190
1.12211
1.12202
1.12176
1.12181
1.12230
1.12277
1.12190
1.12195
1.12181
1.12217
1.12196
1.12177
1.12188
1.12173
1.12197
Tabella 2-2b- Risultato ordinato delle duecento determinazioni
1.12108
1.12128
1.12137
1.12150
1.12153
1.12156
1.12158
1.12163
1.12167
1.12171
1.12174
1.12176
1.12180
1.12183
1.12187
1.12191
1.12193
1.12197
1.12200
1.12202
1.12205
1.12212
1.12215
1.12224
1.12238
1.12113
1.12129
1.12139
1.12151
1.12153
1.12156
1.12158
1.12164
1.12167
1.12171
1.12174
1.12177
1.12181
1.12184
1.12187
1.12191
1.12194
1.12197
1.12200
1.12203
1.12206
1.12212
1.12217
1.12228
1.12240
1.12115
1.12129
1.12140
1.12151
1.12154
1.12156
1.12159
1.12165
1.12167
1.12172
1.12174
1.12177
1.12181
1.12185
1.12188
1.12191
1.12195
1.12198
1.12201
1.12203
1.12206
1.12213
1.12217
1.12229
1.12244
1.12120
1.12131
1.12141
1.12151
1.12155
1.12156
1.12159
1.12165
1.12168
1.12173
1.12175
1.12177
1.12181
1.12185
1.12188
1.12191
1.12195
1.12198
1.12201
1.12203
1.12206
1.12213
1.12218
1.12230
1.12246
1.12123
1.12131
1.12145
1.12152
1.12155
1.12157
1.12159
1.12166
1.12168
1.12173
1.12176
1.12177
1.12181
1.12185
1.12188
1.12192
1.12195
1.12199
1.12201
1.12203
1.12207
1.12213
1.12218
1.12231
1.12250
1.12125
1.12132
1.12147
1.12152
1.12155
1.12157
1.12159
1.12166
1.12169
1.12173
1.12176
1.12178
1.12182
1.12186
1.12189
1.12192
1.12196
1.12199
1.12201
1.12204
1.12208
1.12213
1.12221
1.12232
1.12256
1.12127
1.12135
1.12148
1.12153
1.12155
1.12157
1.12161
1.12166
1.12169
1.12173
1.12176
1.12179
1.12182
1.12186
1.12190
1.12192
1.12196
1.12199
1.12202
1.12204
1.12210
1.12214
1.12221
1.12234
1.12268
1.12127
1.12135
1.12150
1.12153
1.12155
1.12158
1.12162
1.12166
1.12170
1.12174
1.12176
1.12180
1.12182
1.12186
1.12190
1.12193
1.12196
1.12200
1.12202
1.12204
1.12211
1.12215
1.12223
1.12236
1.12277
Il valore minimo 1.12108 ed il valore massimo 1.12277 (indicativi di 170 valori possibili)
definiscono gli estremi dell'intervallo del campione (RANGE), e vengono arrotondati, p.e. a 1.1210 e
1.1228 (allargando l'intervallo a destra e sinistra). L'intervallo risultante viene diviso in NI
INTERVALLI DI CLASSE generalmente di ampiezza costante, h. In questo caso decidiamo, p.e., di
dividere l'intervallo in 18 intervalli di classe, di ampiezza 0.0001. Si contano i risultati in ciascun
intervallo, avendo deciso se attribuire all'intervallo inferiore o a quello superiore i valori eguali al
valore di confine(Nota 2) : si ottiene dal conteggio una FREQUENZA ASSOLUTA di CLASSE, n, e la
frequenza relativa f. I risultati risultano in questa maniera RAGGRUPPATI nei corrispondenti
intervalli.
Alcune tecniche raccolgono i dati già in forma raggruppata (basti pensare ai setacci per la
determinazione delle granulometrie).
Tabella 2-2c- Risultati in forma raggruppata
24
Indice
intervallo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
da
1.1210
1.1211
1.1212
1.1213
1.1214
1.1215
1.1216
1.1217
1.1218
1.1219
1.1220
1.1221
1.1222
1.1223
1.1224
1.1225
1.1226
1.1227
a
(incluso)
1.1211
1.1212
1.1213
1.1214
1.1215
1.1216
1.1217
1.1218
1.1219
1.1220
1.1221
1.1222
1.1223
1.1224
1.1225
1.1226
1.1227
1.1228
n
f
1
3
7
8
6
29
17
26
23
26
21
14
6
6
4
1
1
1
0.005
0.015
0.035
0.040
0.030
0.145
0.085
0.130
0.115
0.130
0.105
0.070
0.030
0.030
0.020
0.005
0.005
0.005
f/h
50
150
350
400
300
1450
850
1300
1150
1300
1050
700
300
300
200
50
50
50
Figura 2-17 - Istogramma delle frequenze
Si riportano in grafico i valori di f/h (ovviamente, poiché questi valori sono proporzionali ad f, sul
grafico potremo porre in realtà qualunque grandezza proporzionale alle frequenze di classe). Si
ottiene il grafico di Figura 2-17.
L'istogramma ha area totale 1 (corrispondente alla somma delle frequenze), in quanto ogni
25
rettangolo costruito sopra ogni intervallo di classe ha area:
h
f
 f
h
Di solito i quadratini non sono utilizzati , ma sono stati inseriti nella Figura 2-17 per evidenziare
il contributo di ogni singolo risultato: si verifica facilmente che l'area di un singolo quadratino è
eguale a 1/200.
2.7 - DISTRIBUZIONE DI PROBABILITÀ PER VARIABILI CONTINUE
Per quanto alto sia il numero N delle ripetizioni in un campione, anche se proveniente da un
esperimento descritto da una variabile continua (che ha infiniti valori), è sempre finito.
Pertanto solo con intervalli di classe relativamente ampi potremo trovare in tutti, o quasi tutti,
gli intervalli di classe alcuni risultati. Quando si passa dalla distribuzione delle frequenze a quella
delle probabilità dobbiamo considerare un doppio limite, uno dovuto, come nel caso delle variabili
discrete, ad N che tende ad infinito; l'altro dovuto al numero dei possibili valori che tende anche esso
ad infinito. La distribuzione di probabilità per variabili continue può essere considerata pertanto
come il doppio limite dell'istogramma, per N che tende ad infinito e per h che tende a zero.
Figura 2-18 Il singolo elemento dell’istogramma delle
frequenze, la cui area è la frequenza di classe, e il singolo
elemento infinitesimo della distribuzione di probabilità, la
cui area è la probabilità infinitesima
Ad un intervallo infinitesimo dx della variabile X (infinitesimo analogo ad h, ampiezza
dell'intervallo di classe) corrisponderà una probabilità infinitesima dp, analoga alla frequenza di
classe, e un rapporto dp/dx analogo a f/h (Figura 2-18). La distribuzione di probabilità continua sarà
pertanto costituita da infiniti rettangolini di altezza dp/dx e di base dx, pertanto di area totale dp.
Anche se dp e dx sono infinitesimi, il loro rapporto dp/dx è finito: esso ha le dimensioni di una
Densità di Probabilità ed è una funzione continua della variabile continua X. La funzione f(x) =
dp / dx viene chiamata funzione di distribuzione di probabilità, o più semplicemente funzione di
distribuzione o funzione di probabilità o Distribuzione di probabilità.
26
A causa anche del teorema del limite centrale, la più frequente (NON l'unica) distribuzione di
probabilità è la DISTRIBUZIONE NORMALE, o gaussiana. La distribuzione normale ha la forma tipica
di sezione di una campana ed è descritta da equazioni del tipo:
f (x) 
 ( x  ) 2 
1
exp  

2
2 
2 

[2-6]
dove  e  sono due parametri, variando i quali si hanno 2 funzioni, tutte caratterizzate dalla stessa
forma a campana, più o meno slanciata, e dalla posizione del massimo (che si ha per x = ).
Quale che sia la f(x), normale o non, il suo integrale tra due valori della X

b
a
f ( x ) dx 

b
a
dP
dx 
dx

b
a
[2-7a]
dp
è la somma di infinite probabilità infinitesime; è quindi una probabilità e precisamente la probabilità
che la variabile X risultato dell'esperimento abbia un valore compreso tra i due estremi a-b
dell'intervallo di integrazione (Figura 2-19).
Figura 2-19 - Densità di probabilità e suo integrale
La certezza 1 è l'integrale:




b
a
f ( x ) dx
f ( x) dx  1
Ciò non esclude che la f(x), densità di probabilità, abbia valori diversi da zero solo in un certo
intervallo c-d; in questo caso la certezza è data dall'integrale

d
c
f ( x) dx  1
La distribuzione gaussiana ha valori diversi da zero, anche se piccolissimi, per qualunque
27
valore della X. Dobbiamo tenere presente, peraltro, che la distribuzione normale è una astrazione.
Lo stesso teorema del limite centrale, se da un lato la indica come limite comune per esperimenti in
cui il risultato è dovuto alla somma di molti fattori, sottolinea anche che si tratta di un limite, di una
astrazione. Una distribuzione reale, per quanto vicina sia alla distribuzione normale, è
necessariamente tronca.
Figura 2-20 - Una distribuzione normale e la sua cumulata
A ogni distribuzione di probabilità si associa una DISTRIBUZIONE CUMULATA di probabilità.
Essa è semplicemente la probabilità che si ottenga dall'esperimento un valore della variabile X
inferiore o eguale ad uno dato x:
F( x) 

x

[2-7b]
f ( x) dx
e riesce:

b
a
f ( x) dx  F( b)  F( a)
[2-7c]
La distribuzione cumulata si indica usualmente con F(x). Aumentando x la F(x) va da 0 ad 1. La Figura
2-20 illustra una distribuzione normale e la corrispondente cumulata.
Analogamente alla distribuzione cumulata di probabilità si possono costruire distribuzioni cumulate
di frequenza, dette Poligoni somma. La Figura 2-21 mostra la distribuzione cumulata della frequenza
per i dati della Tabella 2-2. Questa distribuzione può essere costruita in due modi, contando o meno
il valore i-esimo nel calcolo della frequenza cumulata relativa al valore x . Nel primo caso risulta F(x)
= i / N, nel secondo (che si usa nei test di normalità) F(x ) = (i-1) / N.
28
Per la frequenza cumulata si usa generalmente lo stesso simbolo F della distribuzione cumulata di
probabilità. Ciò non porta ad ambiguità in quanto la distribuzione delle frequenze è discontinua,
mentre la distribuzione di probabilità è generalmente continua. La Figura 2-22 mostra l'istogramma
cumulato relativo sempre ai dati della Tabella 2-2.
Figura 2-21 - Poligono somma
29
Figura 2-22 - Istogramma cumulato
30
2.8 - LOCAZIONE, DISPERSIONE, MOMENTI DI UNA DISTRIBUZIONE DI PROBABILITÀ
Abbiamo notato che la [2-6]:
f ( x) 
1
2 
 (x   ) 2 
exp  


2 2 
descrive infinite (meglio 2 ) funzioni, al variare dei parametri  e .
La Figura 2-23 mostra alcune di queste funzioni, ottenute con diversi valori dei parametri. L'area
totale sottesa dalle funzioni è sempre 1 (la certezza), ma possiamo agevolmente vedere come il
grosso della probabilità sia diversamente posizionato a seconda del valore dei parametri.
Per descrivere sinteticamente una distribuzione si usano parametri che descrivono la sua
LOCAZIONE, vale a dire forniscono un valore della X che indica dove è centrato il grosso della
probabilità, parametri che descrivono la sua DISPERSIONE, vale a dire forniscono una misura di
quanto ampio sia l'intervallo in cui si hanno valori significativi della probabilità; frequentemente
vengono forniti altri parametri, quali la ASIMMETRIA (che è una misura della mancanza di specularità
tra le due parti della distribuzione a destra e a sinistra) e la CURTOSI (che misura quanto la
distribuzione in esame si allontana dalla distribuzione normale).
Figura 2-23 - Distribuzioni normali differenti per locazione e/o dispersione
31
Le misure usate per la locazione sono:
a) la media
b) la mediana
c) la moda o le mode.
La MEDIA è definita come MOMENTO del primo ordine della X.
I momenti di una funzione continua sono forniti dalla equazione
 k
x f ( x )dx

k 
[2-8]
k è l'ordine del momento. Il momento del primo ordine (Nota 3) è
 


[2-9]
x f ( x )dx
La [2-9] pesa ogni valore della X per la corrispondente densità di probabilità.
In molti casi la media  viene indicata con
E(X)
e ciò quando siano in esame le medie di più variabili, il cui simbolo viene posto tra parentesi, come
sopra è la variabile X. La media viene spesso chiamata SPERANZA MATEMATICA o semplicemente
speranza (in inglese Expectation).
Per una distribuzione discontinua la [2-8] si trasforma nella:
NE
 k   x ek p(e)
[2-10]
e 1
dove NE è il numero degli eventi possibili, «e» è l'indice di un evento, x il valore della variabile ad
esso corrispondente, p(e) la sua probabilità.
Per la distribuzione normale il momento che si ottiene integrando la [2-6] mediante la [2-9] risulta
eguale al parametro  della distribuzione stessa (ciò che spiega la coincidenza dei simboli).
La MEDIANA è il valore della X per cui risulta F(x) = 0.5. La probabilità di ottenere dall'esperimento
a caso un valore inferiore alla mediana è eguale alla probabilità di ottenere un valore superiore. Nel
caso delle distribuzioni normali la media coincide con la mediana.
La MODA è il valore della X per il quale si ha il massimo della distribuzione. Alcune distribuzioni
32
hanno più di un massimo e vengono dette MULTIMODALI. Anche la moda coincide nel caso delle
gaussiane con la media.
Le misure utilizzate per la DISPERSIONE sono:
a) la varianza
b) la deviazione standard
c) l'intervallo
d) l'intervallo interquartili.
La VARIANZA è il MOMENTO CENTRALE del secondo ordine della X.
I momenti centrali di una funzione continua sono forniti dalla equazione:
 k 


( x  ) k f ( x )dx
[2-11]
e il momento centrale del secondo ordine(Nota 4) è:
2   2  


( x  )2 f ( x )dx
[2-12]
Esso è analogo al momento di inerzia in fisica, ma ogni punto è pesato per la sua densità di probabilità
e non per la sua densità fisica: l'importanza di un punto di eguale densità aumenta con il quadrato
della sua distanza dalla media , che ha significato analogo a quello del baricentro in fisica.
La varianza è indicata generalmente con il simbolo 2. Ritroviamo questo simbolo nella equazione
normale: in effetti calcolando l'integrale [2-12] della funzione di distribuzione normale si ottiene per
esso il valore 2.
La varianza viene indicata anche come E(X-E(X))2 o E(X-)2 , media della variabile a caso "quadrato
dello scostamento dalla media della X".
Pertanto possiamo affermare che nella equazione della funzione normale compaiono la sua media e
la sua varianza.
La DEVIAZIONE STANDARD è semplicemente la radice di 2, .
L'INTERVALLO è utilizzato solamente per le distribuzioni discontinue o per quelle continue che hanno
f(x) identicamente eguale a zero al di sotto di un certo valore della X e al di sopra di un altro valore
della X, che sono appunto gli estremi dell'intervallo.
L'INTERVALLO INTERQUARTILI è una misura di dispersione analoga alla mediana quale misura di
locazione.
Esso è ottenuto da:
x3/4 - x1/4
essendo F(x1/4 ) = 0.25 e F(x3/4 )= 0.75.
La distribuzione di probabilità viene divisa dai tre valori di X: x1/4 e x3/4 e mediana (= x2/4), in 4
33
parti, i QUARTILI, ciascuna con il 25% della probabilità (Figura 2-24). Analoghi sono i DECILI e i
PERCENTILI.
Nel caso di distribuzioni di probabilità discrete la varianza è calcolata mediante la
NE
   ( x e   ) 2 p (e)
2
[2-13]
e 1
Figura 2-24 - Quartili
La Tabella 2-3 seguente riporta i valori dei parametri , 2, e  per le distribuzioni relative al lancio
di N dadi.
N
1
2
3
4
5
10
15
20
25
30

2

 4 / 4  3
3.5
2.9167
1.7078
-1.269
7.0
5.8333
2.4152
-0.634
10.5
8.7500
2.9580
-0.423
14.0
11.6667
3.4157
-0.317
17.5
14.5833
3.8188
-0.254
35.0
29.1667
5.4006
-0.127
52.5
43.7500
6.6144
-0.085
70.0
58.3333
7.6376
-0.063
87.5
72.9167
8.5391
-0.051
105.0
87.5000
9.35414
-0.042
Si nota facilmente che la media è eguale a 3.5 N e che la varianza è eguale a
0.83333  = 2.9167 N.
34
I moderni calcolatori da tavolo hanno una istruzione, la istruzione RND, in grado di generare un
numero casuale compreso tra 0 ed 1, con una distribuzione rettangolare. Qualcosa come un dado
con cento milioni di facce numerate da 0.000000005 a 0.999999995.
La media di questa distribuzione praticamente continua è eguale a 0.5 e la sua varianza è 0.083333.
Facilmente si possono calcolare numeri somma di 2,3,4,... numeri a caso provenienti dalla
distribuzione rettangolare fornita dal computer. Essi avranno media 0.5 N e varianza 0.083333 N.
Con la somma di una diecina di numeri a caso si ottiene un campione estratto da una distribuzione
gaussiana praticamente perfetta in modo estremamente facile, cosa che può essere d'aiuto per
molte simulazioni. Per generare una distribuzione gaussiana con varianza unitaria basta moltiplicare
il valore ottenuto sommando N (10) numeri a caso per (1/ 0.08333333 N)1/2. Per ottenere un
campione da una distribuzione con media 0 e varianza 1 basta sottrarre alla somma degli N valori
forniti dalla istruzione RND la media 0.5 N e quindi moltiplicare per (1/ 0.08333333 N)1/2.
La generazione di valori con distribuzione gaussiana è molto importante per le simulazioni di
esperimenti. Vi sono parecchi algoritmi che forniscono variabili con distribuzione normale.
L’algoritmo di Box-Muller (G. E. P. Box, M. E. Müller. “A Note on the Generation of Random Normal
Deviates”, The Annals of Mathematical Statistics. 29, 610-611 (1958)) genera coppie di numeri
casuali indipendenti e distribuiti normalmente, con media nulla e varianza uno.
L’algoritmo richiede due valori casuali con distribuzione uniforme U(0,1), generabili mediante la
funzione RND. Siano a1 e a2.
x1 =
√− 2 ln a1 cos 2 π a2
x2 =
√− 2 ln a1 sin 2 π a2
x1 e x2 sono “standard deviates”.
Oltre ai parametri di locazione e dispersione si forniscono talora i parametri di asimmetria e curtosi.
La ASIMMETRIA (Skewness) è il rapporto tra il momento centrale del 3 ordine e la terza potenza della
deviazione standard:
 3 / 3
Una asimmetria positiva indica che la funzione di distribuzione è allungata verso i valori positivi.
La CURTOSI (Excess, Kurtosis) è collegata al momento centrale del quarto ordine:
 4 / 4  3
Si sottrae il valore 3 in modo che risulti nulla per la distribuzione normale.
35
La curtosi è positiva quando la densità di probabilità è relativamente grande in un intervallo molto
ristretto della X e bassa altrove. La curtosi è negativa quando la probabilità è relativamente piccola
vicino alla media e relativamente grande lontano dalla media: è questo il caso di una distribuzione
«a due punti» con eguale probabilità per i due unici eventi possibili. In questo caso la curtosi è -2.
36
2.9 - LOCAZIONE E DISPERSIONE DEL CAMPIONE
Ogni elemento della statistica segue il parallelismo tra frequenza e probabilità, tra misura e
astrazione, tra campione e popolazione.
Così anche locazione e dispersione sono misurate sul campione, e le grandezze così misurate
sono una STIMA dei valori della popolazione.
Abbiamo visto, nel caso della popolazione (distribuzione di probabilità) che i parametri vengono
indicati con lettere greche, , 2, e 
Nel caso del campione si utilizzano le lettere latine corrispondenti alle greche. La media viene
peraltro frequentemente indicata con x , anziché con m. La deviazione standard viene indicata con
s.
Poiché il campione è discontinuo si applicano opportune varianti delle equazioni [2-10] e [2-13].
La media è fornita da:
NR
m   x r f (r )
[2-14a]
r 1
dove NR è il numero dei risultati ottenuti ed f(r) la frequenza (relativa) del risultato x r.
Per esempio, se sono state effettuate 10 ripetizioni, ottenendo i risultati: 1.2, 1.3, 1.2, 1.3, 1.1, 1.0,
1.2, 1.3, 1.2, 1.1, il numero dei risultati ottenuti è NR = 4:
Risultato x
1.0
1.1
1.2
1.3
Frequenza ass.
1
2
4
3
Frequenza f
0.1
0.2
0.4
0.3
Media
Prodotto x f
0.10
0.22
0.48
0.39
1.19
Ordinariamente si preferisce fare riferimento alla numerosità I del campione (numero delle
ripetizioni) e calcolare la media come
[2-14b]
La differenza consiste nel fatto che, se su di I risultati ve ne sono alcuni eguali, nel calcolo mediante
la [2-14a] essi vengono considerati una sola volta (ma moltiplicati per la frequenza con cui il risultato
37
si è presentato). Nel calcolo mediante la [2-14b], del tutto equivalente, ogni risultato è "contato"
una sola volta, come se non vi fossero risultati eguali, e quindi con frequenza 1/I.
Analogamente alla [2-14a] si calcola la VARIANZA del CAMPIONE come:
sc2 
NR
 ( x r  m) 2 f ( r )
[2-15a]
r 1
dove NR è il numero dei risultati ottenuti, f(r) la frequenza del risultato x ed m è la media stim
Anche per il calcolo della varianza ordinariamente si preferisce fare riferimento alla numerosità del
campione e calcolarla come
s c2 
I
 ( x i  m) 2 / I
[2-15b]
i 1
Le espressioni [2-15a] e [2-15b] sono del tutto equivalenti.
Quando i dati sono raggruppati in intervalli di classe, come è stato visto a proposito della costruzione
dell'istogramma delle frequenze, per il calcolo della media si utilizza la
NI
m raggruppati   x ci f (ni)
[2-16]
ni1
dove NI è il numero degli intervalli di classe, xci il valore centrale dell'intervallo di classe e f(ni) la
frequenza della classe ni-esima.
Analogamente, per il calcolo della varianza si utilizza la:
NI
s c2,raggruppati   ( x ci  m) 2 f (ni)
[2-17]
ni1
Mentre la [2-16] è una espressione corretta (nel senso che E(m) = , cioè la stima non è affetta da
errore sistematico (stima «unbiased»), la [2-17] ha un errore sistematico, notevole soprattutto per
intervalli di classe relativamente ampi, e talora viene corretta mediante una espressione dovuta a
Sheppard (Nota 5):
s c2,corr  s c2, raggruppati  h 2 /12
[2-18]
La media del campione m e la varianza s c2 sono misure sperimentali della media  e della
varianza 2 della popolazione. Tuttavia la prima è una stima unbiased, vale a dire senza errore
sistematico (per diversi campioni essa oscilla intorno al valore della popolazione, senza preferenza
per scarti positivi o negativi). La seconda è una stima biased (affetta da un errore sistematico, nel
senso che per campioni differenti essa anche oscilla intorno al valore della popolazione, ma con una
preferenza verso valori minori di quello della popolazione).
Possiamo spiegarci questo bias della stima della varianza pensando che il campione sia costituito da
38
un solo risultato. In questo caso la varianza del campione è zero (infatti non vi è dispersione
all'interno del campione), e zero è sicuramente una sottostima di 2.
Si dimostra che la:
[2-19]
è una migliore stima, unbiased, della varianza della popolazione.
Quando il campione è costituito da un solo risultato la [2-19] fornisce la forma indeterminata
0/0: questa indeterminatezza indica matematicamente che con un campione di numerosità 1 non si
può avere una stima della varianza della popolazione che risulta pertanto non determinabile.
Il denominatore della [2-19] prende il nome di Numero dei gradi di libertà: esso viene talora
indicato con la lettera greca  oppure con l'acronimo d.o.f. (degrees of freedom). Il numero dei gradi
di libertà si ottiene in generale sottraendo alla numerosità del campione I il numero dei parametri
(calcolati dal campione) che sono utilizzati nel calcolo della varianza: nel caso della [2-19] per
calcolare la varianza si è calcolato dal campione solamente un parametro, la media, e pertanto  = I
- 1.
Vedremo in seguito casi in cui più parametri vengono calcolati dal campione e utilizzati per il
calcolo della varianza.
Ha importanza la deviazione standard relativa s/m, il cui quadrato è la varianza relativa. La
deviazione standard relativa viene talora indicata come coefficiente di variazione, C.V.. Usualmente
si esprime la deviazione standard relativa come percentuale: 100 s/m.
39
2.10 - LA DISTRIBUZIONE NORMALE STANDARD
La distribuzione normale è di grande importanza, sia per il suo carattere di limite di moltissime
distribuzioni, sia soprattutto perché caratteristica di moltissimi esperimenti reali, almeno
approssimativamente. Pertanto appare di grande importanza il suo studio dettagliato. Tuttavia il
fatto che ci siano 2 distribuzioni normali rende piuttosto difficile uno studio numerico. Per questo
motivo, dalle infinite distribuzioni normali si ricava un'unica distribuzione base attraverso una
trasformazione della variabile a caso X.
Questa trasformazione è detta STANDARDIZZAZIONE ed il suo risultato è una TRASFORMATA
Z:
z
x 

[2-20]
Per le note regole di differenziazione risulta:
dz 
dx

dx   dz
[2-21]
Sostituendo le [2-20] e [2-21] nella [2-6], equazione della distribuzione normale, si ottiene:
f (x )
dp dp dz
1


e
dx dz dx 2 

( x ) 2
2 2
Pertanto:
dp 1
1

e
dz  2 

z2
2
Infine, eliminando  a destra e a sinistra si ottiene:
f (z) 
dp 1

e
dz
2

z2
2
[2-22]
La [2-22] non contiene parametri variabili: la variabile standardizzata ha UNA SOLA FUNZIONE DI
DISTRIBUZIONE, che prende il nome di DISTRIBUZIONE STANDARD NORMALE o semplicemente
Distribuzione standard (Figura 2-25). Se si calcolano la media e la varianza della distribuzione
standard si ottiene  = 0 e 2 = 1. Sostituendo questi valori nella [2-6] si riottiene del resto la [2-22].
Avendo una sola distribuzione normale, la standard, possiamo ora calcolare qualche valore,
quali quelli riportati nella Tabella 2-4.
40
Figura 2-25- La distribuzione normale standard (variabile Z)
Tabella 2-4 - Valori di f(z) e F(z) per la distribuzione standard normale.
z
f(z)
100 F(z)
-4.0
-3.9
-3.8
-3.7
-3.6
-3.5
-3.4
-3.3
-3.2
-3.1
-3.0
-2.9
-2.8
-2.7
-2.6
-2.5
-2.4
-2.3
-2.2
-2.1
-2.0
-1.9
-1.8
-1.7
-1.6
-1.5
-1.4
-1.3
-1.2
-1.1
0.0001338
0.0001987
0.0002919
0.0004248
0.0006119
0.0008727
0.0012322
0.0017226
0.0023841
0.0032668
0.0044318
0.0059525
0.0079155
0.0104209
0.0135830
0.0175283
0.0223945
0.0283270
0.0354746
0.0439836
0.0539910
0.0656158
0.0789502
0.0940491
0.1109208
0.1295176
0.1497275
0.1713686
0.1941861
0.2178522
0.0031675
0.0048100
0.0072352
0.0107803
0.0159112
0.0232633
0.0336933
0.0483428
0.0687142
0.0967607
0.1349902
0.1865817
0.2555134
0.3466978
0.4661192
0.6209669
0.8197541
1.0724114
1.3903452
1.7864425
2.2750137
2.8716567
3.5930324
4.4565468
5.4799299
6.6807213
8.0756674
9.6800489
11.5069675
13.5666075
41
-1.0
-0.9
-0.8
-0.7
-0.6
-0.5
-0.4
-0.3
-0.2
-0.1
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
0.2419707
0.2660853
0.2896916
0.3122539
0.3332246
0.3520653
0.3682701
0.3813878
0.3910427
0.3969525
0.3989423
0.3969525
0.3910427
0.3813878
0.3682701
0.3520653
0.3332246
0.3122539
0.2896915
0.2660852
0.2419707
0.2178522
0.1941860
0.1713686
0.1497274
0.1295176
0.1109208
0.0940491
0.0789501
0.0656158
0.0539910
0.0439836
0.0354746
0.0283270
0.0223945
0.0175283
0.0135830
0.0104209
0.0079154
0.0059525
0.0044318
0.0032668
0.0023841
0.0017226
0.0012322
0.0008727
0.0006119
0.0004248
0.0002919
0.0001987
0.0001338
15.8655272
18.4060135
21.1855412
24.1963673
27.4253120
30.8537579
34.4578247
38.2088585
42.0740318
46.0172195
50.0000000
53.9827881
57.9259758
61.7911453
65.5421829
69.1462479
72.5746918
75.8036346
78.8144684
81.5939941
84.1344757
86.4333954
88.4930344
90.3199539
91.9243317
93.3192825
94.5200729
95.5434570
96.4069672
97.1283417
97.7249832
98.2135620
98.6096573
98.9275894
99.1802444
99.3790359
99.5338821
99.6533051
99.7444839
99.8134232
99.8650055
99.9032364
99.9312897
99.9516525
99.9663086
99.9767380
99.9840927
99.9892197
99.9927673
99.9951935
99.9968325
Primo quartile
Mediana
Terzo quartile
Estremamente importanti sono altri valori, quelli dell'integrale della funzione di distribuzione
SIMMETRICO rispetto alla mediana:
p 

z
z
[2-23]
f ( z) dz
42
Questa probabilità (usualmente espressa come p%) è detta probabilità di fiducia.
Il suo valore è indicato anche come 1 - 2, essendo  dato dalla:
 


z
[2-24]
f ( z) dz
ATTENZIONE: frequentemente in letteratura la grandezza qui riportata come  è indicata da /2.
I valori di p% sono riportati nella seguente Tabella 2-5.
43
Tabella 2-5 - Valori di 2 e p% per la distribuzione Z
z
2
p%
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
4.0
100.0000000
92.0344391
84.1480637
76.4177170
68.9156494
61.7075043
54.8506317
48.3927307
42.3710785
36.8120117
31.7310486
27.1332092
23.0139313
19.3601074
16.1513367
13.3614349
10.9598694
8.9130859
7.1860657
5.7433167
4.5500336
3.5728760
2.7806854
2.1448212
1.6395111
1.2419281
0.9322357
0.6933899
0.5110321
0.3731537
0.2699890
0.1935272
0.1374207
0.0966949
0.0673828
0.0465240
0.0318146
0.0215607
0.0144653
0.0096130
0.0063324
0.0000000
7.9655609
15.8519363
23.5822830
31.0843506
38.2924957
45.1493683
51.6072693
57.6289215
63.1879883
68.2689514
72.8667908
76.9860687
80.6398926
83.8486633
86.6385651
89.0401306
91.0869141
92.8139343
94.2566833
95.4499664
96.4271240
97.2193146
97.8551788
98.3604889
98.7580719
99.0677643
99.3066101
99.4889679
99.6268463
99.7300110
99.8064728
99.8625793
99.9033051
99.9326172
99.9534760
99.9681854
99.9784393
99.9855347
99.9903870
99.9936676
0.6745
1.1503
1.6449
1.9600
2.3640
2.5758
2.8070
3.0903
3.2905
3.8905
50
25
10
5
2
1
0.5
0.2
0.1
0.01
50
75
90
95
98
99
99.5
99.8
99.9
99.99
44
La [2-23] ci dice che vi è la probabilità del p% che un risultato dell'esperimento a caso con
distribuzione standard sia compreso nell'intervallo tra i valori -z e +z estremi dell'intervallo di
integrazione.
Il valore di z associato tramite la [2-23] ad un certo p% viene detto valore p% o valore
critico della variabile Z e indicato frequentemente con zp
L'intervallo tra - zp e zp è detto INTERVALLO di FIDUCIA al LIVELLO p%, o anche intervallo di
confidenza al p% (confidenza traduce i termini inglese e francese confidence e confiance, in modo
molto "letterale").
Data la sua posizione simmetrica rispetto alla mediana, l'intervallo di fiducia lascia fuori due
EGUALI frazioni di probabilità, una verso destra ed una verso sinistra: a ciascuna delle due
corrisponde una percentuale di probabilità %, probabilità di significato unilaterale destro di zp,
probabilità di significato unilaterale sinistro di - zp. L'insieme delle due aree tratteggiate nella Figura
2-26 prende il nome di probabilità bilaterale di significato di zp , costituita da una probabilità di
significato unilaterale destro e da una probabilità di significato unilaterale sinistro.
Figura 2-26 - Intervallo di fiducia 95% e significati del valore p% di Z (o valore critico per p= 95%)
Il valore 95% della Z è 1.96. Vi è il 95% di probabilità che il risultato di un esperimento descritto dalla
variabile standard normale sia compreso in questo intervallo:
-1.96 < z < 1.96
p% = 95%
ed è, in generale
45
z p  z   z p
p% 100 
zp
z p
f (z) dz
Ma OGNI distribuzione normale può essere ricondotta alla distribuzione standard mediante
un'opportuna trasformazione, la [2-20], e pertanto:
z p 
x 
 z p

p %  100 
zp
zp
f (z)dz
[2-25]
(si intende con probabilità p%).
Moltiplicando i tre termini della [2-25] per  si ottiene:
 z p  x      z p
[2-26]
e addizionando ai tre termini , si arriva alla:
  z p  x     z p
[2-27]
che ci dice che vi è il p% di probabilità che il risultato di una singola ripetizione di un esperimento a
caso sia compreso nell'intervallo simmetrico di ampiezza totale 2  zp intorno alla media . Questo
è l’intervallo di fiducia del valore del risultato dell’esperimento intorno alla media della
popolazione.
Si noti che, se ai tre termini della [2-26] sottraiamo x e moltiplichiamo per -1, otteniamo
prima:
x z p  x z p
e poi
x   z p    x  z p
[2-28]
(moltiplicando per -1 i termini di una diseguaglianza i segni < e > si invertono in > e <
rispettivamente).
La [2-28] è molto importante: essa ci dice che, se otteniamo da una singola ripetizione di un
esperimento a caso, il valore x, il valore del parametro  della popolazione è compreso con una certa
probabilità p% nell'intorno di x simmetrico e con ampiezza totale 2  z . Questo intorno è l’intervallo
di fiducia della  intorno al valore misurato. Ovviamente la popolazione da cui è stato estratto x
deve avere una distribuzione normale.
La [2-28] ci indica quindi che un generico risultato x è la STIMA, con bontà misurata dall'intervallo di
fiducia, del valore medio della popolazione. Il nostro problema ora è che  NON È NOTO, salvo nel
caso infrequente che l'esperimento sia stato ripetuto tante migliaia di volte da poter considerare la
varianza da esso ricavata come praticamente coincidente con quella della popolazione.
Nel linguaggio chimico la  viene spesso indicata come valore vero. Si intende che stiamo
46
misurando una grandezza con un errore dovuto a fattori casuali. Sia xv il valore vero di questa
grandezza.
A rigore dovremo dire che l'errore di misura  è ritenuto normale (con distribuzione normale),
media () zero [errore accidentale, non sistematico] e varianza 2 . In altre parole è l'errore la
variabile random, mentre il valore vero della nostra grandezza è una costante.
Il modello statistico di una misura sperimentale viene ampliato in:
x = xv + b + 
dove b sta per bias (errore sistematico). In questo caso la media di  è sempre zero, e la media della
x NON è il valore vero ma lo stesso addizionato del bias.
47
2.11 - SIGNIFICATO
Un valore di X esterno all'intervallo di fiducia ad un prescelto valore di p% (generalmente 95%
o 98%) è un valore inusuale, tanto più quanto maggiore è il valore assoluto della variabile
standardizzata corrispondente, z = (x-)/
Ad ogni valore estratto, tramite z = (x-)/, viene associato un livello di SIGNIFICATO:
2  2
a) Bilaterale

z
f (z) dz
dove |z| indica il valore assoluto di z;
b) Unilaterale destro
 
c) Unilaterale sinistro


z
f (z)dz
z
 
f (z) dz
Anche ai valori critici zp è possibile associare il significato bilaterale, unilaterale destro, unilaterale
sinistro. P.e. il valore zp = 1.96, corrispondente al limite superiore dell’intervallo di fiducia al 95% di
probabilità, ha significato bilaterale del 5%, significato unilaterale destro del 2.5%, significato
unilaterale sinistro del 97.5%. Il suo simmetrico z = -1.96 ha significato bilaterale del 5%; unilaterale
destro 97.5%, unilaterale sinistro 2.5%.
I valori del significato possono essere ricavati agevolmente dalla Tabella 2-5.
I valori di significato sono utilizzati nei test di significato, test che servono per valutare se un
risultato proviene da una determinata popolazione o è anomalo, vale a dire proviene da altra non
specificata popolazione.
Ogni test è basato su di una IPOTESI NULLA, per esempio:
H0 = il dato x proviene da una popolazione normale con media  e
deviazione standard 
La notazione usuale per l'ipotesi nulla riguarda il parametro che viene testato.
H0 :
x = 
sintetizza l'espressione precedente, sottintendendo che è nota anche la deviazione standard della
popolazione.
Supponiamo di aver ottenuto un certo valore di x e di aver calcolato, mediante i valori noti di
 e , il valore z = 2.8. Dalla Tabella 2-5 vediamo che il significato bilaterale di z è 0.5% circa. È poco
48
probabile che questo valore provenga dalla popolazione considerata, e pertanto possiamo
concludere che il valore x determinato non soddisfa l'ipotesi nulla: se l'ipotesi nulla non è verificata,
allora deve essere valida l'ipotesi alternativa, che il valore misurato provenga da altra popolazione.
Normalmente i test di significato vengono condotti fissando un livello di significato: se il
significato della determinazione è inferiore, allora il test non è passato (la ipotesi nulla non è
verificata).
Il significato bilaterale è scelto quando l'utente è interessato a sapere se il valore ottenuto dal
suo esperimento è semplicemente incompatibile con la popolazione ipotizzata; i test unilaterali sono
scelti quando l'utente desidera sapere se il suo risultato è significativamente maggiore o minore dei
valori ottenibili dalla distribuzione ipotizzata.
Per specificare se si tratta di test bilaterale o unilaterale, accanto all'ipotesi nulla scriveremo una
IPOTESI ALTERNATIVA:
H1 : x  
x è significativamente diverso da 
H1 : x < 
x è significativamente minore di 
H1 : x > 
x è significativamente maggiore di .
Si rammenti:
1) Per quanto conosciamo sinora (distribuzione gaussiana) possiamo applicare i test di significato
solo conoscendo  (μ è fornito dalla ipotesi);
2) Il test presentato riguarda un singolo risultato. Se vi è una serie di risultati da esaminare il test è
più complesso, anche se per ogni risultato può essere applicato il procedimento sopra esposto.
Torneremo presto sugli intervalli di fiducia e sui test di significato. Nell'immediato
sfrutteremo le nozioni sulla distribuzione normale e quelle sulle stime di media e varianza ottenute
dal campione per introdurre una delle più diffuse utilizzazioni della distribuzione normale cumulata.
2.12 - PROBITS
Molti fenomeni sperimentali hanno una Funzione Risposta simile alla curva di distribuzione
normale cumulata, ciò che ci fa capire che questi fenomeni hanno alla base un fenomeno casuale
con distribuzione gaussiana.
Tra questi fenomeni è la relazione tra uno stimolo (p.e., quantità di farmaco somministrata)
e percentuale degli individui che rispondono allo stimolo (funzione risposta). Gli individui che
rispondono ad un certo livello dello stimolo sono tutti quelli che rispondono a livelli inferiori dello
49
stimolo più quelli che rispondono solo a quel livello dello stimolo, non avendo risposto a livelli
inferiori.
In altre parole, gli individui che iniziano la loro risposta ad un certo livello dello stimolo sono
analoghi alla frequenza assoluta, la loro frazione è analoga alla FREQUENZA, mentre la frazione di
quelli che rispondono a quel livello sono analoghi alla FREQUENZA CUMULATA. Si suppone che la
distribuzione degli individui che iniziano a rispondere ad un certo livello dello stimolo sia una
distribuzione normale.
Dalla distribuzione di frequenza degli individui che rispondono allo stimolo, cioè dalla
distribuzione cumulata, si può ottenere la distribuzione di frequenze, esattamente operando in
modo inverso a quello con cui dall'istogramma di classe si ottiene l'istogramma cumulato.
Vediamo un esempio artificiale:
Stimolo
50
70
90
110
130
150
170
190
210
230
250
270
290
310
330
350
370
390
410
430
Risposta
(%)
1
3
5
6
9
14
17
24
33
43
54
65
74
81
85
91
95
99
100
100
Frequenza di classe
(%)
1
2
2
1
3
5
3
7
9
10
11
11
9
7
4
6
4
4
1
0
Stimolo (valore centrale)
normalizzato
-2.28
-2.03
-1.78
-1.52
-1.27
-1.02
-0.76
-0.51
-0.26
-0.003
0.25
0.50
0.76
1.01
1.26
1.52
1.77
2.02
2.28
2.53
Si deve notare che la risposta è misurata ad un dato valore dello stimolo (p.e. risposta 9 a stimolo
130), ma l’intervallo di classe corrispondente è l’intervallo 110-130. Gli individui corrispondenti alla
frequenza di classe (3%) hanno risposto a stimoli tra 110 e 130, e quindi la frequenza di classe viene
attribuita al centro dell’intervallo di classe, 120 per l’esempio.
50
Figura 2-27 - Risposta sperimentale normalizzata (quadrati) e funzione cumulata normale con la
media e la deviazione standard calcolate dal campione. L’ingrandimento indica come si ottiene il
valore dei probits
Dalle frequenze di classe possiamo calcolare utilizzando la già vista
m 
NI

[2-16]
x ci f ( ni)
ni 1
e le analoghe, il valore medio del campione e la varianza: risulta m = 240.2, s2 = 6227.96, e s = 78.92.
51
Figura 2-28 - Grafico dei probits
Possiamo riportare a fianco la funzione risposta e la funzione cumulata normale con la media
e la deviazione standard STIMATE dal campione (Figura 2-27).
Il «grafico dei probits», illustrato in Figura 2-28, si ottiene con il seguente procedimento (che
l’ingrandimento in Figura 2-27 illustra graficamente).
Per ogni valore della x (ascissa), si entra con il corrispondente valore della variabile risposta
(sempre una percentuale) nella terza colonna della Tabella 2-4.
Per il primo dato dell’esempio la risposta è l’1%.
Si entra con questo valore nella terza colonna
e nella prima si legge il valore di z corrispondente.
z
f(z)
100 F(z)
....
.....
.....
-2.6
0.0135830
0.4661192
-2.5
0.0175283
0.6209669
-2.4
0.0223945
0.8197541
-2.3
0.0283270
1.0724114
-2.2
0.0354746
1.3903452
(ovviamente occorre interpolare o utilizzare una Tabella più fitta o un programma di calcolo).
Il valore di z che compare sulla stessa linea, in prima colonna, è il valore della variabile
52
standardizzata a cui corrisponde una probabilità cumulata eguale alla frequenza cumulata osservata.
Al valore di z viene aggiunto 5, per evitare di avere valori negativi. I numeri così ottenuti prendono il
nome di PROBITS (PROBability unITS). Il valore della X che corrisponde al valore 5 dei probits è la
risposta 50%, frequentemente usata nei saggi biologici come misura della attività.
Ecco i risultati per tutti i valori di risposta dell’esempio:
Indice
Risposta
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
0.01
0.03
0.05
0.06
0.09
0.14
0.17
0.24
0.33
0.43
0.54
0.65
0.74
0.81
0.85
0.91
0.95
0.99
z=
(x-m)/s
-2.524
-2.272
-2.020
-1.768
-1.515
-1.263
-1.011
-.759
-.507
-.255
-.003
.250
.502
.754
1.006
1.258
1.510
1.763
Probits - 5
Probits
-2.326
-1.880
-1.644
-1.554
-1.341
-1.080
-.954
-.706
-.440
-.176
.101
.386
.644
.878
1.037
1.341
1.646
2.327
2.674
3.120
3.356
3.446
3.659
3.920
4.046
4.294
4.560
4.824
5.100
5.385
5.643
5.878
6.036
6.341
6.646
7.327
Il grafico dei probits quale è stato illustrato non ha alcuna utilità pratica.
I probits sono utili quando lo stimolo non può essere tanto forte da arrivare al 100% della risposta.
In questo caso non è possibile calcolare dal campione statistico la media, che corrisponde alla attività
50%. Questa viene allora ottenuta per estrapolazione, come nell’esempio in Figura 2-29 in cui sono
stati utilizzati le risposte ottenute con i primi otto valori dello stimolo. Attraverso i punti viene fatta
passare una retta, e la intersezione della retta con l’ordinata 5 (corrispondente a z= 0) fornisce il
valore 50% dello stimolo.
Sfortunatamente in moltissimi casi la validità della ipotesi che la distribuzione sia normale non è
verificata. I punti nel grafico dei probits non sono ben allineati, e si ha un elevatissimo errore nella
estrapolazione.
53
Figura 2-29 - Estrapolazione con il metodo dei Probits per ottenere il valore 50% dello stimolo
54
2.13 - PROPAGAZIONE DELLE VARIANZE
Una legge di grande importanza nel mondo sperimentale è la legge di propagazione delle
varianze per variabili INDIPENDENTI. Questa legge non verrà dimostrata. Essa riguarda la varianza di
una variabile , funzione g(x1 ,x2 ,x3 ... xM ) di una o più variabili Xi indipendenti.
Risulta:
2

2
Y
2
  g( x1 , x2 ,..) 
  g( x1 , x2 ,..) 
2
2
 
  X1  
  X2 




 x1
 x2
2
 g( x1 , x 2 ,...)  2
  X3 .....
 

x


3
[2-29]
Il simbolo  indica il differenziale parziale; g/xi indica la derivata parziale della funzione g rispetto
alla variabile xi, derivata che si calcola come le derivate usuali fissando il valore delle altre variabili xj
(ji). Il valore della derivata parziale g/xi dipende dal valore di xi e anche dal valore delle xj (ji).
Nel capitolo 3 seguente sono riportati alcuni esempi di applicazione della propagazione delle
varianze a casi di particolare interesse in chimica analitica.
La legge di propagazione delle varianze può essere applicata anche a variabili non
indipendenti, con l'aggiunta di altri termini, che tengono in considerazione la correlazione tra le
variabili X (Nota 6).
2.14 - DISTRIBUZIONI DELLA MEDIA, CHI QUADRO, DI STUDENT, DI FISHER
Sono, ad eccezione di quella della media, distribuzioni legate alla distribuzione normale. Per
questa ragione considereremo anche per la distribuzione della media m il caso di una distribuzione
normale.
Le deduzioni ottenute saranno peraltro di validità generale.
Si estraggano da una comune popolazione normale X, p.e. con media  = 15 e varianza 2 = 2.25 (
= 1.5), campioni con numerosità 5, e per ciascuno di questi campioni si calcoli la media m e la varianza
s2 .
m ed s2 sono il risultato di due esperimenti a caso, estrazione della media calcolata su di 5
valori della variabile normale X, ed estrazione della varianza calcolata su di 5 valori della variabile
normale X.
55
I risultati di alcune sequenze sono raccolti nella seguente Tabella 2-6, a cui corrisponde la
Figura 2-30, per le prime 10 sequenze.
Nella Figura 2-31 sono riportati gli istogrammi delle tre variabili a caso (x, m, s2 ) ottenuti con 1000
sequenze (5000 valori di x, 1000 di m e di s2 ). Nella figura le scale degli istogrammi della X sono
contratte rispetto a quelle di media e varianza.
Tabella 2-6 - Sequenze costituite ciascuna da 5 valori di una variabile normale, dai quali viene
calcolata la media e la varianza. Il "range" è l'intervallo, differenza tra il valore massimo ed il valore
minimo. L’ordine della varianza e del range è crescente: la prima ripetizione è quella che ha fornito
il massimo valore (il decimo) sia della varianza sia del range.
x
m
s2
Ordine di
s2
Range
Ordine di
r
11.2389
13.7634
13.1224
14.5068
17.6285
14.0520
5.4648
10
6.3896
10
14.7584
2.6979
5
3.0157
3
16.1700
2.1894
3
2.9665
2
16.5385
2.4152
4
3.1920
4
15.5802
1.8610
1
2.8874
1
14.5768
2.0294
2
3.3680
5
13.3195
15.2024
14.9168
16.3352
14.0182
18.1160
15.3279
15.6190
16.6376
15.1495
15.2915
14.9363
18.1283
17.0483
17.2881
14.5677
15.4677
15.5171
17.4551
14.8934
14.7112
14.8369
13.0344
13.8991
16.4024
14.2955
13.8812
56
17.1697
16.7619
17.2786
15.8774
3.2331
8
3.3974
6
14.4935
5.0070
9
4.3743
9
15.1212
3.1359
7
3.5645
7
15.1299
3.0100
6
3.8816
8
12.3383
15.2271
15.9235
12.3022
16.6765
17.4559
14.7795
15.0268
14.4522
13.8914
14.9132
16.1592
14.6873
16.8857
13.0041
Valore minimo di x:
11.2389
Valore massimo di x:
18.1283
Range di x:
6.8894
Valore minimo di m:
14.0520
Valore massimo di m:
16.5385
Range di m:
2.4865
57
Figura 2-30 - Rappresentazione grafica delle 10 ripetizioni ed istogrammi
Figura 2-31 - Istogrammi dopo 1000 ripetizioni
Si noti:
a) m e x sono ambedue stime di  (come si può agevolmente dimostrare con l'integrale che calcola
la media);
b) la dispersione di m è nettamente inferiore a quella di x; in altre parole m è una STIMA di 
58
MIGLIORE di x; possiamo valutare questa dispersione con l'intervallo dei valori di x ottenuti (circa
6.9) che è circa 2.8 volte superiore all'intervallo della m, pari a circa 2.5.
c) la stima s2 della varianza è una variabile a caso molto dispersa, con valori in questo caso da 1.86 a
5.46 circa, stime del valore 2.25.
d) poiché la stima della varianza è la somma di una serie di quadrati è ovvio che la sua distribuzione
di probabilità non potrà essere gaussiana, in quanto la distribuzione normale prevede una
(eventualmente piccolissima) probabilità anche per valori negativi; inoltre la distribuzione gaussiana
è simmetrica.
e) l'intervallo, che, come abbiamo visto, è una possibile misura di dispersione, ha una relazione con
la varianza, come risulta dal quasi identico ordine dei valori.
2.14.1 Distribuzione della media
Possiamo applicare alla variabile m (la media calcolata su di N ripetizioni)
m 
x1  x 2  x 3 ... x N
N
la legge di propagazione delle varianze [2-29] (poiché tutte le variabili xi sono tra di loro indipendenti,
in quanto il risultato di una ripetizione non può essere influenzato da quello delle altre ripetizioni
(Nota 7):
2
 2m
2
  m
  m
2
2

  x1  
  x 2  .... 
  x1 
  x2 
2
  m

  2x N
  xN 
Poiché tutte le variabili x1 , x2 , .... provengono in realtà dalla medesima popolazione, X (l'indice indica
unicamente che sono il primo, il secondo, ecc. valore estratto nella sequenza), esse hanno la
medesima varianza σ2. Eguali sono anche le derivate parziali, ciascuna pari a 1 / N. I loro quadrati
hanno il valore comune 1 / N2 .
Vi sono N termini eguali nella espressione di propagazione delle varianze e pertanto:
 2m
2
 m  2
  x 
  
i
i 1   x i 
N
N
1
i 1
N2

2 
2
N
[2-30]
Risulta pertanto che la varianza della media m è 1/N-esimo della varianza della popolazione della
variabile X:
59
2x
 
N
2
m
Per quanto si è detto a proposito dell'intervallo di fiducia del singolo risultato x, in ogni sequenza di
5 ripetizioni, da ogni evento, otteniamo una stima di . Per una sequenza analoga a quelle della
Tabella 2-6 [16.1111, 19.6850, 17.0935, 14.2314, 11.5793, m = 15.74], , con p% =95%, zp = 1.96, si
ha, ricordando che σ2 = 4, e che quindi
1.96 σ = 3.92:
1)
16.1111 - 3.92 <  < 16.1111 + 3.92
12.19 <  < 20.03
2)
19.6850 - 3.92 <  < 19.6850 + 3.92
15.77 <  < 23.60
3)
17.0935 - 3.92 <  < 17.0935 + 3.92
13.17 <  < 21.01
4)
14.2314 - 3.92 <  < 14.2314 + 3.92
10.31 <  < 18.15
5)
11.5793 - 3.92 <  < 11.5793 + 3.92
7.66 <  < 15.50
A ciascuno di questi intervalli è assegnata una fiducia del 95%.
Poiché in questo caso noi conosciamo il valore di  (15), possiamo verificare che in un caso, quello
della seconda ripetizione, si è verificato l'evento poco probabile, che  sia al di fuori dell'intervallo.
L'informazione portata dalle cinque diseguaglianze è difficile da sintetizzare, anche perché in questo
caso vi è incompatibilità tra le diseguaglianze 2 e 5 .
L'intervallo di fiducia della media ha appunto la capacità di effettuare questa SINTESI delle
cinque informazioni portate dagli intervalli di fiducia della variabile.
Poiché la media è una variabile random con varianza σ2 /N, se σ2è la varianza della X, in questo
caso la variabile m ha la varianza 4/5, la deviazione standard è 0.9 circa, e zp σ /  N risulta pari a 1.8.
L'intervallo di fiducia della  intorno al valore m, 15.74, risulta:
15.74 - 1.8 <  < 15.74 + 1.8
13.9 <  < 17.5,
espressione che individua per  un intervallo (con fiducia 95%) molto più ristretto di ciascuno dei
cinque forniti dalle singole determinazioni di X.
In generale l'intervallo di fiducia della media (o del valore medio intorno alla media misurata) è
fornito dalla:
m  zp


   m  zp
N
N
( p%)
60
[2-31]
Questo intervallo ci permette di valutare  con la relativa incertezza
da m, sua misura
sperimentale.
Ricordiamoci tuttavia che generalmente non disponiamo di una determinazione di σ abbastanza
accurata per applicare la equazione [2-31].
SI RAMMENTI la differenza tra intervallo di fiducia del singolo valore (o della 
intorno ad un singolo valore) ed intervallo di fiducia della media (o della  intorno
alla media m).
2.14.2 Distribuzione chi quadro
La seconda variabile che abbiamo ricavato dai nostri esperimenti riportati nella Tabella 2-6 è
s2 , misura sperimentale di σ2.
Come dalle infinite distribuzioni normali si arriva per standardizzazione ad un'unica
distribuzione, così dalle infinite distribuzioni di s2 si arriva ..... purtroppo ad infinite distribuzioni.
Tuttavia il punto di arrivo è un infinito di primo ordine, mentre il punto di partenza è di secondo
ordine.
La stima s2 dipende infatti dal valore 2 , ma la sua distribuzione dipende anche, e fortemente, dal
numero N di valori della X che è stato utilizzato per stimare la varianza.
La variabile standardizzata corrispondente riesce ad eliminare la dipendenza da  , ma non
quella da N, anche se in essa compare il valore dei gradi di libertà,  = N-1 (in questo caso). La
variabile standardizzata prende il nome di variabile chi-quadro 2:
s2 
  2

[2-32]
2
La [2-32] si riferisce ad una particolare espressione della variabile 2 quale si incontra nello studio
della stima della varianza; in generale una variabile 2 è la somma di  variabili Z2 indipendenti:

(xi   i )2
  Z  Z  ....  Z  
 2i
i 1
2
2
1
2
2
2

Questa variabile è sempre POSITIVA, e fortemente asimmetrica. Un esempio è mostrato nella
Figura 2-32. Con l'aumentare di , in base al teorema del limite centrale, la distribuzione 2 tende ad
una distribuzione normale. Il massimo della distribuzione si ha per -2.
61
Figura 2-32 - Distribuzioni chiquadro per vari gradi di libertà.
62
La variabile X, la cui varianza è stimata dalla s2 , DEVE essere una variabile normale. La
variabile chi quadro è in generale ottenuta quando si hanno somme di quadrati, generalmente
quadrati di scarti (Nota 8), per variabili originali che hanno la distribuzione normale richiesta.
La Tabella 2-7 riporta i valori critici (valori p%) corrispondenti a determinati valori della
probabilità cumulata F di alcune funzioni 2 :
F( 2 ) (%)

1
1
2.5
5
95
97.5
99
0.0002
0.0010
0.0039
3.8413
5.0234
6.6348
2
0.0201
0.0506
0.1026
5.9912
7.3779
9.2109
3
0.1149
0.2158
0.3518
7.8145
9.3477
11.3438
4
0.2971
0.4844
0.7107
9.4873
11.1426
13.2773
5
0.5542
0.8313
1.1455
11.0703
12.8320
15.0859
6
0.8721
1.2373
1.6353
12.5918
14.4492
16.8125
7
1.2393
1.6899
2.1675
14.0674
16.0117
18.4766
8
1.6465
2.1797
2.7327
15.5078
17.5352
20.0898
9
2.0879
2.7002
3.3252
16.9189
19.0234
21.6641
10
2.5586
3.2471
3.9404
18.3066
20.4844
23.2109
11
3.0537
3.8154
4.5747
19.6758
21.9199
24.7266
12
3.5703
4.4038
5.2261
21.0254
23.3359
26.2188
13
4.1074
5.0088
5.8916
22.3613
24.7344
27.6875
14
4.6602
5.6289
6.5708
23.6846
26.1191
29.1406
15
5.2285
6.2617
7.2607
24.9961
27.4883
30.5781
16
5.8125
6.9082
7.9619
26.2969
28.8457
32.0000
17
6.4082
7.5645
8.6719
27.5879
30.1914
33.4063
18
7.0156
8.2305
9.3906
28.8691
31.5273
34.8047
19
7.6328
8.9063
10.1172
30.1436
32.8516
36.1875
20
8.2598
9.5908
10.8506
31.4102
34.1699
37.5664
21
8.8984
10.2832
11.5913
32.6699
35.4785
38.9297
22
9.5430
10.9824
12.3379
33.9238
36.7813
40.2891
23
10.1953
11.6885
13.0908
35.1719
38.0742
41.6406
24
10.8555
12.4014
13.8486
36.4150
39.3633
42.9766
25
11.5234
13.1191
14.6113
37.6523
40.6465
44.3125
26
12.1992
13.8438
15.3789
38.8848
41.9219
45.6406
27
12.8789
14.5732
16.1514
40.1133
43.1953
46.9609
28
13.5664
15.3086
16.9277
41.3379
44.4609
48.2813
29
14.2578
16.0469
17.7080
42.5566
45.7227
49.5859
30
14.9531
16.7910
18.4922
43.7734
46.9805
50.8906
La Figura 2-33 mostra i valori critici della distribuzione 2 con 5 gradi di libertà.
Come abbiamo detto a proposito della distribuzione gaussiana, gli intervalli di fiducia si calcolano in
modo da escludere una eguale probabilità  all'estremo destro ed all'estremo sinistro della
distribuzione. Pertanto, nel caso della asimmetrica distribuzione chi quadro, i valori nella prima
63
[seconda se si conta la colonna con i gradi di libertà] e nella sesta colonna delimiteranno l'intervallo
di fiducia al 98%, quelli nella seconda e nella quinta l'intervallo di fiducia al 95%, quelli nella terza e
nella quarta l'intervallo di fiducia al 90%.
Figura 2-33 Valori critici (α 2.5%) della distribuzione chi quadro con 5 gradi di libertà
Per  = 4 (caso della Tabella 2-6) avremo il 95% di probabilità che la funzione chi quadro sia compresa
nell'intervallo:
s2 
0.4844  2  111426
.

Si invertano i tre termini:
1
2
1
 2 
0.4844 s  111426
.
Si moltiplichi ora per s2 , tenendo conto del fatto che  = 4:
s2 4
s2 4
2
 
0.4844
111426
.
ovvero:
8.26 s2   2  0.359 s2
L'intervallo di fiducia della deviazione standard si ottiene semplicemente estraendo la radice e
risulta:
0.60 s <  < 2.87 s. (Nota 9)
64
Vi è anche una distribuzione 2 non centrale:

 2noncentrale  
i 1
x i2
 i2
Anche altre distribuzioni hanno una corrispondente distribuzione non centrale, ma tutte queste
distribuzioni sono di utilizzo estremamente raro in chimica analitica.
2.14.3 Distribuzione di Student
Abbiamo visto come, da ogni valore misurato di varianza, sia possibile ricavare l'intervallo di
fiducia della varianza, vale a dire l'intervallo in cui con una certa prefissata probabilità è contenuto il
valore vero della varianza.
Si noti la grande ampiezza di questo intervallo, la grande incertezza con cui stimiamo dai
nostri dati sperimentali la varianza quando il numero dei gradi di libertà è piccolo.
Quando abbiamo trattato degli intervalli di fiducia della variabile standard ci siamo riferiti alla
trasformata Z
z 
x

per ottenere l'intervallo in cui, con una prefissata probabilità è contenuta la  intorno ad un valore
misurato x ( o intorno al valore m della media).
L'ampiezza di questo intervallo è dovuto alla incertezza sulla x. La  era supposta nota, e pertanto
non poteva dare un contributo alla incertezza.
In generale, noi non conosciamo , ma la stimiamo misurando s su di una serie di N
determinazioni. Abbiamo or ora visto che questa misura ha una incertezza elevata.
Nel determinare un intervallo di fiducia di  senza conoscere , ma stimandolo mediante s,
dobbiamo aggiungere alla incertezza sulla x anche la incertezza dovuta a s.
Useremo pertanto in sostituzione della Z, una nuova trasformata:
t 
x
s
[2-33]
La [2-33] descrive la trasformata t della variabile a caso x, con media di popolazione  e con stima s
della deviazione standard di popolazione .
65
Quando la applichiamo alla variabile m (altra variabile a caso, media su di N ripetizioni della X)
caratterizzata dalla stessa media di popolazione  ma dalla varianza 2 /N stimata da s2 /N, la [2-33]
diventa:
t 
m
s N
[2-33a]
di più generale applicazione, in quanto se abbiamo stimato la deviazione standard dobbiamo
disporre anche della stima m di  (ed m è una stima più efficiente della media della popolazione di
quanto non sia un generico valore x).
Questa nuova variabile è detta t di Student. Il chimico analitico inglese William Gosset, che
lavorava presso il birrificio Guinness, pubblicò nel 1908 (Student. “The Probable Error of a Mean“.
Biometrika. 6, (1) 1-25 (1908)) un lavoro in cui introduceva questa variabile, lavoro prodotto dalla
necessità che ha il chimico analitico di lavorare con campioni a bassa dimensionalità N, tali quindi da
non poter ottenere una stima di  affetta da piccoli errori.
Il lavoro fu pubblicato sotto lo pseudonimo Student in quanto Gosset, non essendo uno statistico,
riteneva di aver dato un contributo da studente più che da specialista. La distribuzione di Student ha
però una tale importanza da fare di Gosset una delle più importanti figure della statistica.
La trasformazione [2-33] porta dalla variabile originale x alla t mediante un processo detto
studentizzazione o autoscaling, analogo alla standardizzazione con cui viene ottenuta la variabile Z.
Le distribuzioni di Student dipendono dal numero dei gradi di libertà (ovviamente, avendo a
denominatore una grandezza che è collegata con la radice di una variabile 2). All'aumentare del
numero di gradi di libertà la distribuzione di Student tende, per il teorema del limite centrale, ad una
gaussiana, e precisamente alla distribuzione standard.
La Tabella 2-8 riporta i valori di tp(valori p%) per i gradi di libertà da 1 a 30.
tp
dp
dt
 t p dt
2  %  100  p%
p% 

Per la distribuzione di Student, simmetrica come la gaussiana, vale la:
66

t

dp
dt 
dt


t
dp
1
dt   1 
dt
2

t
t
dp 
dt
dt 
ovvero: il significato unilaterale sinistro di -t è eguale al significato unilaterale destro di t.
67
Tabella 2-8 - Valori critici della distribuzione di Student
p%
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
90
95
98
99
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
12.706
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
31.819
6.964
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.625
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
63.656
9.925
5.841
4.604
4.032
3.707
3.500
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
La Figura 2-34 riporta alcune distribuzioni di Student.
Si noti come a piccoli valori di ν la distribuzione sia molto bassa nella parte centrale, e molto alta a
valori elevati di t : questo fatto si spiega appunto con l'incertezza dovuta alla stima della varianza che
aumenta la probabilità di deviazioni elevate dalla media, a spese ovviamente di una diminuzione
delle deviazioni di minore entità.
In Figura 2-35 la distribuzione con un grado di libertà è confrontata con la distribuzione standard,
ingrandendo la zona a valori molto negativi. Si nota che l’area ombreggiata per la Z (a sinistra)
corrispondente al significato unilaterale sinistro del 2.5%, è molto più piccola di quella a destra
(significato unilaterale sinistro del valore -1.96 della t di Student con un grado di libertà).
Per quanto riguarda gli intervalli di fiducia essi vengono modificati, rispetto a quelli desunti
per la distribuzione normale, in:
68
Intervallo di fiducia della media:
m t p
s
N
  m t p
s
[2-34]
N
Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimato da esse la media m della variabile
X e la sua deviazione standard s, la media della popolazione delle X, , detta talora valore vero, sia
compresa nell’intervallo [2-34] intorno a m.
Intervallo di fiducia della media intorno al valore singolo:
x  t p s   x  t p s
[2-35]
Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimate da esse la media m della variabile
X e la sua deviazione standard s, la media della popolazione delle X, , sia compresa nell’intervallo
[2-35] intorno ad un qualunque singolo valore determinato x.
Figura 2-34a - Distribuzioni di Student
69
Figura 2-34b - Distribuzioni di Student
Figura 2-35 Probabilità di significato unilaterale sinistro del valore 1.96, in rosso per la distribuzione
standard (2.5%), in blu per la distribuzione di Student con 1 grado di libertà (15%)
Intervallo di fiducia del valore singolo intorno alla media della popolazione:
t p s x t p s
[2-35a]
Vi è la probabilità p% che, avendo effettuato N ripetizioni e stimato da esse la deviazione
standard della variabile X, s, il risultato di una singola determinazione x della X (non compresa tra
quelle utilizzate per determinare m ed s) sia compreso nell’intervallo [2-35a] intorno a .
70
L’intervallo di tolleranza (Nota 10) della x è riferito alla probabilità che un singolo valore della X (non
compreso tra quelli utilizzati per calcolare m ed s) cada in un determinato intervallo intorno ad m,
media stimata. Esso si ottiene dallo studio della funzione Y = x - m, la cui varianza è pari a 2 (1 +
1/N), ed è stimata da s2(1 + 1/N), solo nel caso in cui la x non appartenga al campione utilizzato per
calcolare m (in caso contrario m contiene la x, e pertanto non vi è la indipendenza necessaria per
applicare la regola della propagazione delle varianze). Risulta per questo intervallo:
1 N 
1 N 
m t p s 
  x m t p s 

 N 
 N 
[2-35b]
Tra tutti questi intervalli di fiducia, quello espresso dalla [2-34] è di particolare
importanza: suo tramite si esprime il risultato di una serie di determinazioni.
71
2.14.4 Distribuzione d Fisher Snedecor
Introduciamo ora un'altra importante distribuzione, quella di Fisher-Snedecor.
Consideriamo una variabile X normale, ed effettuiamo due serie di determinazioni. Nella prima serie,
da ogni campione di 4 determinazioni calcoliamo s 12 , con ν1 = 3 d.o.f.; nella seconda, da ogni
campione di 6 determinazioni, calcoliamo s 22 , con ν2 = 5 d.o.f.. s12 e s 22 sono misure sperimentali,
indipendenti perché ottenute con differenti ripetizioni della determinazione di X, della stessa
varianza σ2 della variabile X.
La Figura 2-36, mostra alcuni risultati in forma grafica. Alcuni risultati di un esperimento simile, con
serie di tre e cinque determinazioni, sono riportati nella Tabella 2-9.
72
Figura 2-36 Rappresentazione grafica di dieci esperimenti che forniscono la variabile F, e
distribuzione di frequenze della stessa ottenuta dopo 10000 ripetizioni.
Tabella 2-9 - Risultati per la distribuzione di Fisher, ottenuti da una distribuzione normale con media
24 e varianza 9.
Prima serie di 3 ripetizioni
X
m1
s12
11.2389
13.7634
13.1224
X
m2
s 22
F s12 / s22
14.5068
17.6285
13.3195
15.2024
14.9168
12.7082
1.7220
16.3352
14.0182
18.1160
15.1148
2.9201
0.5897
15.6051
1.7828
3.1872
16.0591
2.4636
1.4318
14.3025
1.8996
.6530
15.3279
15.6190
16.6376
15.1495
15.2915
16.1565
5.6820
14.9363
18.1283
17.0483
17.2881
14.5677
15.4677
15.5171
17.4551
16.7043
3.5274
14.8934
14.7112
14.8369
13.0344
13.8991
16.4024
14.2955
13.8812
14.8138
17.1697
16.7619
Seconda serie di 5 ripetizioni
1.2405
12.3383
15.2271
73
17.2786
15.9235
12.3022
16.6765
17.0701
1.0240
17.4559
14.7795
15.0268
14.4935
4.4548
.2299
14.8207
1.8080
2.4418
14.6189
2.3622
1.9904
14.3514
6.9821
.5548
14.2674
1.9730
1.8912
15.5501
3.0979
1.1192
14.4522
13.8914
14.9132
16.1592
14.6873
15.7541
4.4149
16.8857
13.0041
15.2510
13.7246
16.0152
15.3902
13.4382
14.5264
15.0469
4.7019
12.0341
14.9208
14.8293
12.6485
17.0627
11.7161
13.5012
16.8286
13.9281
3.8734
15.4619
16.3724
16.2321
14.9980
14.6696
14.2264
12.5241
14.9189
16.0221
3.7314
14.1811
12.3042
15.4336
16.7212
13.3891
17.0608
15.7719
14.8075
13.9730
3.4672
Si noti la grande variabilità ed asimmetria del rapporto F, che proviene da due variabili (varianze)
molto disperse e a loro volta asimmetriche.
La funzione di distribuzione di Fisher dipende dal numero dei gradi di libertà del numeratore e del
denominatore, e pertanto si indica come F(1,2). Essa è mostrata in Figura 2-37 per alcuni valori dei
gradi di libertà.
La Figura 2-37 permette anche il confronto tra la distribuzione di Fisher e la distribuzione chiquadro.
Al tendere ad infinito del numero dei gradi di libertà a denominatore la F tende ad una distribuzione
chiquadro con i gradi di libertà del numeratore divisa per il numero dei gradi di libertà:

s 2   2 
s2
s2 
2
lim  F  12  

 12  12 1 

1
s 2 

 1

Analogamente al tendere ad infinito del numero dei gradi di libertà a numeratore la F(1,2) tende a
1/2(1).
74
Inoltre la distribuzione F(1, ), con un grado di libertà a numeratore, coincide con la distribuzione
della variabile t2(), quadrato della variabile t di Student con il numero dei gradi di libertà del
denominatore.
75
Figura 2-37- Distribuzioni di Fisher e confronto con distribuzioni chiquadro.
Infatti
2
( x  ) 2
x 
t 
 
 s 
s2
2
e il numeratore è una stima della varianza ottenuta con un solo grado di libertà, da un unico valore
della X.
Ovviamente si può anche affermare che la variabile t di Student è distribuita come
F(1, ) .
La Tabella dei valori p% della distribuzione di Fisher è una grande Tabella, per la doppia
dipendenza dai gradi di libertà. Le Tabelle 2-10 e 2-11 riportano solamente i valori di F per cui F(F)
(probabilità cumulata) è il 95% e il 99%, per alcuni valori dei gradi di libertà. La F viene utilizzata
generalmente per test unilaterali destri. Se è necessario un test unilaterale sinistro è sufficiente
invertire il rapporto delle varianze per trasformarlo in un test unilaterale destro.
76
Tabella 2-10 - Valori della F di Fisher-Snedecor per cui F(F)= 95%
ν1
2
3
4
5
7
10
15
20
2
19.000
19.164
19.247
19.296
19.353
19.396
19.429
19.446
3
9.552
9.277
9.117
9.013
8.887
8.786
8.703
8.660
4
6.944
6.591
6.388
6.256
6.094
5.964
5.858
5.803
5
5.786
5.409
5.192
5.050
4.876
4.735
4.619
4.558
7
4.737
4.347
4.120
3.972
3.787
3.637
3.511
3.445
10
4.103
3.708
3.478
3.326
3.135
2.978
2.845
2.774
15
3.682
3.287
3.056
2.901
2.707
2.544
2.403
2.328
20
3.493
3.098
2.866
2.711
2.514
2.348
2.203
2.124
25
3.385
2.992
2.759
2.603
2.405
2.236
2.089
2.007
30
3.316
2.922
2.690
2.534
2.334
2.165
2.015
1.932
40
3.232
2.839
2.606
2.449
2.249
2.077
1.924
1.839
50
3.183
2.790
2.557
2.400
2.199
2.026
1.871
1.784
100
3.087
2.696
2.463
2.305
2.103
1.927
1.768
1.676
ν2
Tabella 2-11 - Valori della F di Fisher-Snedecor, per cui F(F) = 99%
ν1
2
3
4
5
7
10
15
20
2
99.000
99.166
99.250
99.299
99.356
99.399
99.432
99.449
3
30.816
29.457
28.710
28.237
27.672
27.229
26.872
26.690
4
18.000
16.694
15.977
15.522
14.976
14.546
14.198
14.020
5
13.274
12.060
11.392
10.967
10.456
10.051
9.722
9.553
7
9.547
8.451
7.847
7.460
6.993
6.620
6.314
6.155
10
7.559
6.552
5.994
5.636
5.200
4.849
4.558
4.405
15
6.359
5.417
4.893
4.556
4.142
3.805
3.522
3.372
20
5.849
4.938
4.431
4.103
3.699
3.368
3.088
2.938
25
5.568
4.676
4.177
3.855
3.457
3.129
2.850
2.699
30
5.390
4.510
4.018
3.699
3.304
2.979
2.700
2.549
40
5.179
4.313
3.828
3.514
3.124
2.801
2.522
2.369
50
5.057
4.199
3.720
3.408
3.020
2.698
2.419
2.265
100
4.824
3.984
3.513
3.206
2.823
2.503
2.223
2.067
ν2
77
2.15 - ALCUNI TEST DI SIGNIFICATO
I test di significato servono, come si è già detto, per valutare se un risultato proviene da una
determinata popolazione o è anomalo, vale a dire proviene da altra non specificata popolazione.
Ogni test è basato su di una IPOTESI NULLA, per esempio:
H0 = il dato x proviene da una popolazione normale con media  e deviazione standard stimata s
La notazione usuale per l'ipotesi nulla riguarda il parametro che viene testato.
H0 :
x = 
sintetizza l'espressione precedente.
X può essere una qualunque variabile, normale, t, chiquadro, Fisher, ecc.
Normalmente i test di significato vengono condotti fissando un livello di significato critico:
se il significato della determinazione è inferiore, allora il test non è passato (la ipotesi nulla non è
verificata).
Il significato bilaterale è scelto quando l'utente è interessato a sapere se il valore ottenuto dal
suo esperimento è semplicemente incompatibile con la popolazione ipotizzata; i test unilaterali sono
scelti quando l'utente desidera sapere se il suo risultato è significativamente maggiore o minore dei
valori ottenibili dalla distribuzione ipotizzata.
Per specificare se si tratta di test bilaterale o unilaterale, accanto all'ipotesi nulla scriveremo una
IPOTESI ALTERNATIVA:
H1 : x  
x è significativamente diverso da 
H1 : x < 
x è significativamente minore di 
H1 : x > 
x è significativamente maggiore di .
Si rammenti:
1) Si utilizzano i test di significato solo quando si può formulare una ipotesi;
2) Il test presentato riguarda un singolo risultato. Se vi è una serie di risultati da esaminare il test è
più complesso, anche se per ogni risultato può essere applicato il procedimento sopra esposto.
I test di significato sono direttamente connessi con l'intervallo di fiducia, almeno nel caso di
test bilaterali. Le distribuzioni di Student, chi quadro e Fisher ci permettono un uso esteso di questi
test. I test di uso più generale riguardano:
78
A) TEST SULLA MEDIA DI UN SINGOLO CAMPIONE di N ripetizioni
a1) Distribuzione normale con varianza della popolazione nota 2
a2) Distribuzione normale, N molto grande
a3) Distribuzione normale, varianza della popolazione incognita
B) TEST TRA MEDIE DA DUE CAMPIONI DIFFERENTI, N1 e N2
b1) Distribuzioni normali con varianza nota
b2) Distribuzioni normali, con N1 e N2 grandi
b3) Distribuzioni normali con eguale varianza, incognita
b4) Distribuzioni normali con varianze diverse non note
C) TEST PER DATI ACCOPPIATI da distribuzioni normali con varianze non note
D) TEST SU DI UNA SINGOLA VARIANZA
E) TEST SULLE VARIANZE DA DUE CAMPIONI
F) TEST DI BONTÀ DI ADATTAMENTO (FIT)
G) TEST DI CONTROLLO DELLA CASUALITÁ
2.15.1 – Test sulla media di un singolo campione
a1) a2)
Nei casi a1) e a2) ricorriamo alla distribuzione standard. Nel secondo caso commetteremo un errore,
ma tanto più piccolo quanto più grande è la numerosità N del campione.
Il test viene effettuato sulla media m, ed ha come ipotesi nulla:
m=
H0 :
Supponiamo di aver misurato 49 volte il calore molare di reazione tra acido cloridrico ed idrossido di
sodio, avendo ottenuto:
m
=
-57.39 kJoules/mole
s
=
2.17 kJoules/mole
Vogliamo confrontare il nostro risultato con quello riportato in letteratura, -56.40 kJoules/mole.
Riteniamo che, dato il numero delle determinazioni, la nostra stima della varianza sia
accettabilmente eguale alla varianza della popolazione di tutte le misure effettuabili nel nostro
laboratorio. Il valore di letteratura rappresenta la nostra ipotesi, quello che dovrebbe essere il valore
medio  delle nostre determinazioni se N fosse infinito.
Calcoliamo la variabile standard:
z
 57.39 (56.40)  0.99

 3.2
2.17
2.17
7
49
79
Poiché il test è bilaterale (vogliamo sapere solo se il nostro risultato è significativamente diverso da
quello in letteratura, poco importa se in eccesso o in difetto), il segno di z non ha importanza.
Entriamo nelle tavole della variabile standard Z.
Estratto dalla Tabella 2-5 - Valori di 2 e p% per la distribuzione Z
2
z
p%
3.1
0.1935272
99.8064728
3.2
0.1374207
99.8625793
3.3
0.0966949
99.9033051
3.4
0.0673828
99.9326172
3.5
0.0465240
99.9534760
Il significato bilaterale di z = 3.2 è solamente lo 0.14%. Perciò, ammesso che si sia scelto di operare
ad un livello critico di significato del 2%, il test non passa, nel senso che la ipotesi nulla non è
accettata. Pertanto si accetta la ipotesi alternativa, cioè che il nostro valore è significativamente
diverso da quello riportato in letteratura.
a3)
Nel caso a3), quando la numerosità del campione è relativamente bassa, dobbiamo ricorrere
alla distribuzione di Student. Si ricordi che:
Supponiamo di aver determinato il contenuto di un farmaco in una serie di 5 fiale, e di aver ottenuto
i seguenti valori (già ordinati):
277
281
290
297
300 mg
Dobbiamo decidere se il risultato della nostra analisi rende il contenuto delle fiale compatibile con
il valore dichiarato, 300 mg. Questo è assunto, sotto l’ipotesi nulla, come media  della popolazione.
Infatti se il valore dichiarato è vero, la differenza tra esso ed i valori misurati sarà dovuta solo
80
all’errore di determinazione; se esso è falso la differenza con i valori determinati sarà dovuta in parte
alla differenza tra contenuto vero e contenuto dichiarato.
Il test avrà come ipotesi nulla:
H0 :
m = 300
e come ipotesi alternativa:
m  300
H1 :
La media m risulta 289 mg. La varianza risulta dalla sommatoria degli scarti al quadrato: 144 + 64 +
1 + 64 + 121 = 394 divisa per 4: s2 = 98.5. La deviazione standard è 9.925 mg. La deviazione standard
della media è 4.44.
La t di Student risulta:
(289 - 300)/ 4.44 = -11 / 4.44 = -2.48
Poiché il test è bilaterale utilizziamo il valore assoluto.
Si rammenti infatti che:
tp
dp
dt
 t p dt
2  %  100  p%
p% 

e che per la distribuzione di Student, simmetrica come la gaussiana, vale la:

t

dp
dt 
dt


t
dp
1
dt   1 
dt
2

t
t
dp 
dt
dt 
ovvero: il significato unilaterale sinistro di -t è eguale al significato unilaterale destro di t.
Sulle tavole della t di Student troviamo, sulla linea corrispondente a 4 gradi di libertà:
2.48
p%
90
95
98
99
2.132
2.776
3.747
4.604
ν
4
p% = 93.18%
Interpolando (o meglio ancora tramite opportuni calcoli) possiamo trovare il valore di p% e quindi di
2  corrispondente a 2.48: p% = 93.18%, 2  = 6.82%.
Il valore 95% della t di Student per 4 gradi di libertà è 2.776 (vedi Tabella 2-8). Pertanto il test passa
(al livello di fiducia 95% corrispondente al livello di significato bilaterale del 5%), vale a dire il
contenuto da noi misurato è compatibile con il valore dichiarato.
Nel ragionamento sopra esposto abbiamo considerato il test come bilaterale (contenuto
81
diverso). Avremmo potuto considerare come ipotesi alternativa la "contenuto sensibilmente
minore". In questo caso il livello di significato unilaterale sinistro è il 3.41%, e pertanto la ipotesi nulla
passa a livello di fiducia 97.5% (livello di fiducia per test unilaterali corrispondente al 95% del test
bilaterale). A maggior ragione passa l’ipotesi nulla quando la ipotesi alternativa è "contenuto
sensibilmente maggiore", implicante un test unilaterale destro per il quale il livello di significato è
del 96.59%. In effetti se il risultato sperimentale (289) è minore di quello dichiarato NON può essere
accettata l’ipotesi che esso sia maggiore: in casi come questo non è necessario (anzi è stupido)
ricorrere ai test statistici.
Vediamo un altro esempio. Una industria riceve da un fornitore una partita di una soluzione
in cui la concentrazione del reattivo è dichiarata dal fornitore pari al 36.7%. Il laboratorio di controllo
dell'industria effettua una serie di 8 determinazioni della concentrazione del reattivo, ottenendo i
valori (già ordinati):
36.3
36.4
36.4
36.5
36.5
36.5
36.7
36.7
Il test avrà come ipotesi nulla:
H0 :
m = 36.7
e come ipotesi alternativa:
H1 :
m < 36.7
La media delle 8 determinazioni (7 gradi di libertà) è 36.5, e la deviazione standard stimata è 0.141.
La deviazione standard della media è 0.05.
La t di Student risulta essere:
t = (36.5-36.7) / 0.05 = -4
La ricerca sulle tabelle viene effettuata con il valore assoluto.
A t=4 corrispondono p% = 99.5,  = 0.5%.
Nelle tabelle questo  è il significato unilaterale destro, esattamente eguale al significato unilaterale
sinistro di t = -4, che è quello ricercato.
82
p%
95
98
99
2.365
2.998
3.500
ν
7
90
Poiché il significato unilaterale sinistro di t = -4 è molto piccolo (inferiore ad un prescelto valore
critico, generalmente pari al 5% o al 2%), la ipotesi nulla è respinta, e viene accettata l'ipotesi
alternativa. La concentrazione della soluzione è significativamente inferiore a quanto dichiarato dal
fornitore.
83
2.15.2 – Test tra medie da due campioni differenti
Normalmente tale test ha come ipotesi nulla la:
m1 - m2 =  = 0
H0 :
Si suppone che le medie stimate dai due campioni (di numerosità eventualmente differente) NON
SIANO SIGNIFICATIVAMENTE DIFFERENTI.
Il test può essere anche applicato con   0. In questo caso si suppone che la differenza tra le due
medie abbia un determinato valore.
Le ipotesi alternative possono essere:
H1 : m1 - m2  0
H1 : m1 - m2 < 0
H1 : m1 - m2 > 0
specificando un test bilaterale, unilaterale destro o unilaterale sinistro.
b1) b2 )
Nei casi b1) e b2) (distribuzioni normali con varianza nota o con campioni di numerosità
talmente grande da poter ritenere nota la varianza delle popolazioni), si ricorre alla distribuzione
normale standard, nella forma:
m1  m 2
z
[2-36]
12
2
 2
N1 N 2
La [2-36] si riferisce alla funzione f = m1 - m2, di due variabili indipendenti, con media  = 0, e con
varianza calcolabile mediante la propagazione delle varianze:

f2 
2
2
f  2  f  2
  m1  
  m 2 
 m1 
 m 2 
2m1   2m 2 
12  22

N1 N 2
b3)
Nel caso b3), se un opportuno test sulla varianza (vedi oltre) ha dimostrato che le varianze stimate
sui due campioni non sono significativamente differenti, ed hanno valore comune s 2 , si ricorre alla
distribuzione di Student, nella forma:
84
t
m1 m 2
1
1
s

N1 N 2
[2-37]
che può essere considerata derivante dalla [2-36] per il caso di due varianze eguali per le popolazioni
dei due campioni, stimate dallo stesso valore s.
Il valore della stima comune della varianza è detto varianza raggruppata (pooled variance):
N1
s2 
N2
 (x1i  m1 )   (x 2i  m 2 ) 2
i 1
2
i 1
N1  N 2  2


( N11)s12 ( N 2 1)s22
N1  N 2 2
[2-38]
che è semplicemente la media delle stime delle varianze ottenute dai due campioni separati,
pesando per i rispettivi gradi di libertà. La varianza raggruppata risulta ottenuta con N 1 + N2 -2 gradi
di libertà.
Si noti ancora, nella prima delle [2-38], come sia cambiata la formula per la varianza, che per
i risultati nel primo campione vede lo scarto dalla media del primo campione, e per quelli del secondo
lo scarto dalla media del secondo. La numerosità totale è N1 e N2; poiché dai dati sono stati calcolati
due parametri, le due medie, il numero dei gradi di libertà risulta diminuito di 2.
Nel caso in cui N2 sia 1, si ha il test che confronta un dato singolo x con una media campionata:
t
x m

1
s
1
N
N x m
N 1 s
[2-39]
La s, come si può osservare sostituendo nella [2-38] ad N2 il valore 1, risulta semplicemente la
deviazione standard del gruppo N1 (la cui numerosità è indicata semplicemente con N nella [2-39]).
b4)
Più complesso è il caso b4), in cui le varianze dei due campioni sono significativamente
diverse. In questo caso si applica sempre la statistica di Student, ma il numero dei gradi di libertà ν è
ottenuto ponderando ν1 e ν2 mediante la:
85
 s12

1
1  N1


1  s12 s 22
 N N
2
 1
2



1
 
2



 s 22

 N2
 2
2
 s1  s 2
N N
2
 1







2
[2-40]
Si tratta del problema detto di Fisher Behrens, di cui non si conosce una soluzione esatta. Quella
della equazione [2-40] deve ritenersi più che soddisfacente per lo sperimentatore.
Se una delle due varianze è particolarmente piccola ν si avvicina ai gradi di libertà dell'altro
campione, quello con la maggiore varianza. In questo caso infatti ci si avvicina al caso in cui una
media è senza errore (relativamente all'altra): ricadiamo nel test a3).
Figura 2-38 I gradi di libertà calcolati dalla [2-40] in funzione delle varianze dei due campioni
La t di Student per il test si calcola mediante la:
t
m1m 2
[2-40a]
s12 s 22

N1 N 2
A causa dei pesi la [2-40] può fornire valori non interi dei gradi di libertà: in questo caso
occorre interpolare dalle tavole.
Consideriamo il caso in cui sia stata determinata la percentuale di Fe3+ in un sale ferrico idrato
con due metodi, ottenendo i seguenti risultati:
86
Campione chimico
Metodo 1
A
12.54
B
12.47
C
12.31
D
12.81
E
12.62
Metodo 2
F
12.73
G
12.82
H
12.77
I
12.90
L
12.83
M
12.81
Si noti che, in base alla ipotesi nulla, che non vi sia differenza tra i due metodi, tutti i valori sono stati
estratti dalla stessa popolazione, quella del campione chimico (grosso campione) costituito dal sale
ferrico, da ci sono stati estratti i campioni A,B,... per le analisi.
Si calcola:
m1 12.55 m 2 12.81
s12  0.03415 s 2
2  0.00332
s1  0.1848 s 2  0.0576
1  4
 2 5
  4.65
Si vuole decidere se le medie delle due serie sono significativamente differenti.
Il valore di t, calcolato dalla [2-40a] è -3.03.
Il valore 95% di t per 4.65 gradi di libertà è circa 2.65.
L'ipotesi nulla non è accettata. I due metodi danno un risultato significativamente differente (il livello
di significato è minore del 5%).
2.15.3 – Test su dati accoppiati
Si presenta questo caso quando, nel confronto dei due campioni, si lavora in modo da eliminare una
delle possibili fonti di variabilità. Nel caso del dosaggio del ferro, adottato precedentemente come
esempio, le due metodiche sono state applicate su campioni chimici per l'analisi A....N differenti,
87
anche se provenienti dal grosso campione del sale idrato.
La determinazione potrebbe essere stata effettuata su diversi grossi campioni di sale idrato,
p.e. recipienti contenenti lo stesso sale ma che hanno una storia differente, per cui in alcuni il sale
potrebbe essere sfiorito, in altri potrebbe avere un contenuto di umidità maggiore di quello previsto
dalla formula stechiometrica.
In questo caso il valore vero dei singoli grossi campioni è differente. Esso può rappresentare
una fonte di variabilità maggiore di quella dovuta all'errore proprio dei metodi di determinazione.
Noi potremmo dosare con ambedue i metodi il ferro nel recipiente A, quindi dosare con ambedue il
ferro nel recipiente B, ecc.. I dati sono pertanto a coppie eguali (matching pairs).
Si siano ottenuti i seguenti risultati:
Recipiente
Metodo A
Metodo B
A
12.55
12.58
B
13.41
13.47
C
11.78
11.81
D
12.43
12.55
E
13.66
13.73
Si può notare che per ogni recipiente i due metodi danno risultati molto vicini; se calcoliamo le medie
di metodo e le relative deviazioni standard otteniamo:
m1 12.77 m 2 12.83
s12  0.586 s 22  0.600
s1  0.766 s 2  0.775
Le deviazioni standard sono una misura della variabilità all'interno del metodo, ma tale variabilità
non è dovuta tanto al metodo quanto alle differenze tra i recipienti. In altre parole ogni recipiente
costituisce una popolazione con differente , media di popolazione differente ed è appunto questa
differenza il fattore di variabilità che occorre eliminare. Un test usuale sulla differenza tra le medie
concluderebbe che questa differenza è piccola rispetto alla dispersione, ciò che è appena ovvio in
quanto la differenza tra le medie è dovuta ai metodi, mentre la dispersione è dovuta essenzialmente
alla differenza tra il contenuto dei recipienti.
Occorre pertanto eliminare la differenza di locazione tra le varie popolazioni, in modo da avere una
unica popolazione, la cui variabilità sia dovuta solo a ciò che vogliamo individuare, la differenza
eventuale tra i due metodi.
88
Per ottenere ciò introduciamo una nuova variabile, la variabile differenza:
Recipiente
Metodo A
Metodo B
d = Differenza B-A
A
12.55
12.58
0.03
B
13.41
13.47
0.06
C
11.78
11.81
0.03
D
12.43
12.55
0.12
E
13.66
13.73
0.07
La differenza elimina la variabilità tra recipienti.
La ipotesi nulla deve essere che la differenza tra i metodi è nulla, d = 0.
Ricadiamo nel caso a3) applicato alla variabile d.
La media md risulta pari a 0.062.
La deviazione standard della d è eguale a 0.037.
La deviazione standard della md è eguale a 0.015.
La t di Student per il test è eguale a 4.1.
Si verifica facilmente che il livello di significato bilaterale è molto piccolo, per cui occorre concludere
che i due metodi danno un risultato significativamente diverso.
Se avessimo erroneamente applicato un test usuale sulla differenza tra le medie avremmo ottenuto:
m A 12.766 m B 12.828
s 2  0.5933 s  0.7703 s
t
2
 0.4872
5
m A m B
  0.127
2
s
5
e avremmo erroneamente dedotto (il valore di t è molto piccolo, il significato molto elevato) che i
due metodi danno praticamente lo stesso risultato, e ciò come conseguenza del fatto che abbiamo
valutato insieme il fattore di variabilità «metodo» ed il fattore di variabilità «campione», e la grande
variabilità di quest’ultimo impedisce di «vedere» la piccola (relativamente) variabilità del primo.
Illustriamo ancora il test con un esempio di Green e Morgerison: si tratta di dati relativi
all'effetto di una iniezione dello steroide betametasone sulla velocità di passaggio del glucosio nel
sangue di pecore, espressa in mg /min (di carbonio). Le coppie si riferiscono alla stessa pecora:
89
Velocità(prima)
Velocità(dopo)
23.0
40.0
30.0
34.5
16.0
20.1
17.0
20.0
36.0
56.0
29.0
38.0
E' evidente che la variabilità in una colonna dipende dalla differenza tra le pecore.
La ipotesi nulla è: H0 :
d = m2 - m1 = 0
La ipotesi alternativa è relativa all'attesa che la velocità subisca un aumento a causa del farmaco:
H1 :
d = m2 - m1 > 0
Viene calcolata la variabile differenza, che fornisce i valori:
17, 4.5, 4.1, 3, 20, 9
la media m = 9.6 e la sua deviazione standard stimata 7.3.
Si applica il test di Student:
t = 9.6 / (7.3 / 6 ) = 3.2
Il significato unilaterale sinistro critico del 5% corrisponde (Tabella 8) a un tp = 2.02, con p = 90% (10%
di significato bilaterale). Il test non passa: l'ipotesi nulla è respinta e l'ipotesi alternativa è accettata.
La media della variabile differenza rappresenta la stima dell'effetto del farmaco, e 7.3 la stima della
deviazione standard. Si noti come con tale valore della deviazione standard non ci si dovrebbe
meravigliare se per alcune pecore (circa 1/10) si riscontrasse un effetto di segno opposto.
Attenzione: il test sui dati accoppiati richiede molta cura. La differenza deve essere una variabile
casuale (senza rilevante componente deterministica). In molti casi di interesse per il chimico
analitico (p.e. il confronto tra metodi) è necessario utilizzare invece di questo test i test associati
alla regressione lineare, test che verranno studiati nel relativo capitolo.
90
2.15.4 – Test su di una singola varianza
Sfrutta la statistica 2. È strettamente connesso, quando si tratta di un test bilaterale, con l'intervallo
di fiducia della varianza, illustrato a suo tempo. Esso viene utilizzato quando occorre valutare ipotesi
del tipo:
H0:
s2 =
2
facilmente estensibili a ipotesi coinvolgenti da un lato una somma sperimentale di quadrati, dall'altro
il valore atteso.
2.15.5 – Test sulle varianze da due campioni
Sfrutta la statistica F, confrontando il rapporto tra le due varianze.
Nel caso dell'esempio del dosaggio del ferro con due metodi le due varianze erano:
s12  0.03415
s 22  0.00332
e i rispettivi gradi di libertà:
ν1 = 4
ν2 = 5
Il rapporto F tra le due varianze (la maggiore sempre al numeratore) risulta 10.29. Il test viene
condotto come unilaterale destro, per valutare se la varianza a numeratore è significativamente
maggiore di quella a denominatore.
Dalle tabelle della funzione cumulata della F vediamo come il valore critico di significato laterale
destro del 5% per 4 gradi di libertà al numeratore e cinque al denominatore è 5.79.
Il test non passa.
L'ipotesi alternativa (la prima varianza è maggiore della seconda) è accettata. Essa sarebbe accettata
anche conducendo il test con un valore critico di significato dell'2.5% (F critico 7.39).
2.15.6 – Test di controllo della casualità
Tutti i test statistici assumono che il campione statistico di N ripetizioni sia il risultato di un
esperimento a caso. In altre parole, quando alcune ripetizioni di un esperimento vengono effettuate
successivamente, si assume che il fattore «tempo» non abbia effetto sul risultato. Se il tempo ha
effetto sul risultato non siamo in presenza di un esperimento a caso unico, ma di una serie di
esperimenti, ciascuno descritto da una variabile condizionata X(t). In altri casi il risultato è funzione
91
X(f) di un altro fattore (concentrazione, temperatura, ..., che deve essere individuato).
I test di controllo della casualità, o test di controllo del determinismo, vengono effettuati sui dati
nella sequenza in cui sono stati ottenuti (nel caso di studio del fattore tempo):
x1 x2 x3 x4 .... xN
(o ordinati in accordo con il valore del fattore di cui si sospetta un effetto).
Non è generalmente annoverato tra i test di controllo della casualità quello basato sulla regressione
lineare (vedi 2.25) della X verso il fattore di cui si sospetta un effetto: se la pendenza della retta di
regressione è significativamente diversa da 0 il fattore ha un effetto.
Un test (che si applica a popolazioni normali) è quello delle differenze quadratiche medie successive
(mean-square successive difference). La differenza quadratica media successiva è fornita dalla:
N 1
2 
 x i1  x i 2
i 1
N 1
La variabile per il test è la variabile:
N 1
 

2
s
2

 x i1  x i 2
i 1
N
 x i
 x 2
i 1
i cui valori critici (con i significati unilaterali corrispondenti) sono riportati nella seguente Tabella.
Tabella 2-12 – Valori critici di  per il test delle differenze quadratiche medie successive
N
crit
(0.05, sinistro)
crit
(0.05, destro)
crit
(0.01, sinistro)
crit
(0.01, destro)
4
0.780
3.220
0.626
3.374
5
0.820
3.180
0.538
3.462
6
0.890
3.110
0.561
3.439
7
0.936
3.064
0.614
3.386
8
0.982
3.018
0.663
3.337
9
1.024
2.976
0.709
3.291
10
1.062
2.938
0.752
3.248
11
1.096
2.904
0.791
3.209
12
1.128
2.872
0.828
3.172
13
1.156
2.844
0.862
3.138
14
1.182
2.818
0.893
3.107
15
1.205
2.795
0.922
3.078
16
1.227
2.773
0.949
3.051
92
17
1.247
2.753
0.974
3.026
18
1.266
2.734
0.998
3.002
19
1.283
2.717
1.020
2.980
20
1.300
2.700
1.041
2.959
Il test viene illustrato con alcuni esempi.
Tutti gli esempi si riferiscono ad un campione statistico di numerosità 10.
Esempio 1
Il primo esempio, i cui dati sono riportati nella Tabella seguente, si riferisce ad una situazione di vera
casualità.
i
x(i)
x(i+1)-x(i)
[(x(i+1)-x(i)]2
1
10.0
1.8
3.24
2
11.8
1.2
1.44
3
13.0
-2.0
4.00
4
11.0
5.0
25.00
5
16.0
-1.9
3.61
6
14.1
1.6
2.56
7
15.7
-4.3
18.49
8
11.4
2.1
4.41
9
13.5
2.8
7.84
10
16.3
x = 13.28
 2 = 7.843
s2 = 4.984
 =
1.5737
Il valore di  ottenuto viene confrontato con i valori critici: esso risulta compreso nell’intervallo di
fiducia con probabilità 90%: il test passa, ed è accettata l’ipotesi nulla, che i risultati sia casuali.
N
crit
(0.05, sinistro)
10
1.062
crit
(0.05, destro)
2.938
Il grafico che riporta la successione dei valori ottenuti è noto anche come grafico dei residui, in
quanto generalmente è riportata anche una linea al livello della media.
L’analisi visuale dei residui è molto importante: in questo caso non sono evidenti anomalie, a
93
differenza di quanto accade nell’esempio seguente, in cui il grafico dei residui mostra una chiara
tendenza del risultato ad aumentare con l’indice delle ripetizioni.
17
16
15
X
14
13
12
11
10
9
Determinazione
Figura 2-39 – Esempio 1 per test di controllo della casualità
Esempio 2: I valori numerici sono gli stessi dell’esempio 1, ma sono stati ottenuti in un ordine diverso.
i
x(i)
x(i+1)-x(i)
[(x(i+1)-x(i)]2
1
10.0
1.0
1.00
2
11.0
0.4
0.16
3
11.4
0.4
0.16
4
11.8
1.2
1.44
5
13.0
0.5
0.25
6
13.5
0.6
0.36
7
14.1
1.6
2.56
8
15.7
0.3
0.09
9
16.0
0.3
0.09
10
16.3
x = 13.28
 2 = 0.679
s2 = 4.984
 =
0.1362
Il valore di  è minore del valore critico unilaterale sinistro; il test non passa. Vi è un elemento
deterministico che provoca un aumento graduale del risultato nel tempo.
94
crit
N
crit
(0.05, sinistro)
10
(0.05, destro)
1.062
2.938
X
Il grafico dei valori mostra chiaramente la tendenza all’aumento.
17
16
15
14
13
12
11
10
9
Determinazione
Figura 2-40 – Esempio 2 per test di controllo della casualità
Esempio 3: Anche in questo caso i valori numerici sono gli stessi dell’esempio 1, ma sono stati
ottenuti in un ordine diverso.
i
x(i)
x(i+1)-x(i)
[(x(i+1)-x(i)]2
1
10.0
6.3
39.69
2
16.3
-5.3
28.09
3
11.0
5.0
25.00
4
16.0
-4.6
21.16
5
11.4
4.3
18.49
6
15.7
-3.9
15.21
7
11.8
2.3
5.29
8
14.1
-1.1
1.21
9
13.0
0.5
0.25
10
13.5
x = 13.28
 2 = 17.154
95
s2 = 4.984
 =
3.442
In questo caso il valore di  è maggiore del valore critico unilaterale sinistro; il test non passa. Vi è
un elemento deterministico che provoca una diminuzione graduale dei residui nel tempo, come
evidenziabile dal grafico della successione dei valori.
N
crit (0.05, sinistro)
crit (0.05, destro)
10
1.062
2.938
Figura 2-41 – Esempio 3 per test di controllo della casualità
Il test delle sequenze crescenti o decrescenti si applica a popolazioni continue (non necessariamente
normali).
Una sequenza crescente di lunghezza l si ha quando
xi-1  xi < xi+1 < xi+2 < .. < .. < xi+l
Per esempio nel campione:
6 4 5 6 5 7 7
i tre termini dal secondo al quarto costituiscono una sequenza crescente di lunghezza 2, i termini
quarto e quinto una sequenza decrescente di lunghezza 1, i termini quinto e sesto una sequenza
crescente di lunghezza 1.
Sia L il valore massimo di l considerando sia le sequenze crescenti sia le decrescenti.
Intuitivamente non possono aversi valori di L troppo grandi o troppo piccoli.
Per esempio se N = 10, si ha:
96
L
p(L)(%)
(L)
1
2.76
100
2
54.38
97.24
3
34.30
42.86
4
7.31
8.55
5
1.09
1.24
6
0.134
0.15
7
0.013
0.015
8
0.0014
0.0014
9
0
0
Vi è la probabilità del 7.31% di avere una sequenza di lunghezza 4 (5 elementi). Il significato
unilaterale destro corrispondente ad L = 4 è 8.55%.
Una sequenza di lunghezza 5 (6 elementi) è da considerare poco probabile: il test non passa, e passa
l’ipotesi alternativa che non vi sia casualità.
Se N = 9, si ha:
L
p(L)(%)
(L)
1
4.38
100
2
57.48
95.62
3
30.95
38.14
4
6.20
7.20
5
0.89
0.995
6
0.098
0.106
7
0.0076
0.0085
8
0.0009
0.0009
Vi è la probabilità del 6.20% di avere una sequenza di lunghezza 4. Il significato unilaterale destro
corrispondente ad L = 4 è 7.20%.
Vi è la probabilità del 0.89% di avere una sequenza di lunghezza 5. Il significato unilaterale destro
corrispondente ad L = 5 è 0.995%.
La Tabella 2-13 riporta i valori di (L) per N da 5 sino a 50.
Tabella 2-13 - Valori di (L) per il test delle sequenze
97
N
L
4
1.7
3.0
4.4
5.9
7.2
8.6
9.8
11.1
12.4
13.7
14.9
20.8
26.4
31.5
36.3
40.8
44.9
48.8
5
6
7
8
9
10
11
12
13
14
15
20
25
30
35
40
45
50
5
6
7
8
0.3
0.5
0.8
1.0
1.2
1.5
1.7
1.9
2.2
2.4
3.6
4.7
5.9
7.0
8.1
9.2
10.3
0.1
0.1
0.2
0.2
0.2
0.3
0.3
0.3
0.5
0.7
0.8
1.0
1.2
1.4
1.5
0.05
0.07
0.10
0.11
0.14
0.16
0.18
0.02
0.02
0.02
In pratica si fa uso della seguente Tabella 2-14:
Tabella 2-14 – Valori di N per i quali una sequenza L ha probabilità  
L
4
5
6
7
8
9
10
  1%
9
34
234
2034
20067
218833
  5%
7
26
153
1170
10348
102382
1116808
I valori riportati nella Tabella sono valori di N, e il significato della Tabella è il seguente. Se N = 9
l’evento L = 5 ha un significato unilaterale destro minore o eguale all’1% (dalla Tabella dettagliata
avevamo visto che era esattamente 0.995%).
Pertanto a livello critico 1% (l’ipotesi nulla è accettata anche se l’evento non è molto probabile) il
test non passa se abbiamo una sequenza di lunghezza 5 con N eguale o minore di 9. Una sequenza
di lunghezza 6 è accettabile solo se N è superiore a 34.
A livello critico del 5% (più «severo» nell’accettare l’ipotesi nulla) una sequenza 4 è accettabile solo
con N maggiore di 7, una sequenza di lunghezza 5 è accettabile solo se N è maggiore di 26.
Vediamo un ulteriore esempio di applicazione dei test di casualità.
In questo esempio si suppone che una serie di 7 campioni contenti un analita a differente
concentrazione siano stati analizzati con due metodi differenti. Sono stati ottenuti i risultati riportati
98
nella tabella seguente e illustrati nelle Figure 2-42 e 2-43.
Campione
1
2
3
4
5
6
7
Metodo A
10.5
21.4
31.7
41.4
51.6
60.4
70.2
Metodo B
11.7
23.7
34.6
44.7
55.7
66.0
76.5
d = Differenza B-A
1.2
2.3
2.9
3.3
4.1
5.6
6.3
Sappiamo che in un caso come questo il confronto tra i due metodi deve essere effettuato mediante
la variabile differenza, riportata nella quarta colonna, in quanto deve essere eliminata la differenza
di locazione tra le sette popolazioni (dei valori misurati sui sette campioni).
La variabile differenza è il risultato di un esperimento a caso, e deve risultare casuale. É evidente che
con N = 7 si ha una sequenza crescente L = 6, e pertanto non vi è la necessaria casualità.
In questo caso la variabile differenza è stata studiata, per la casualità, non nell’ordine sperimentale
con cui i vari dati accoppiati sono stati ottenuti, ma nell’ordine della concentrazione dell’analita, in
quanto in casi di questo tipo si ha il sospetto che la differenza tra i metodi possa dipendere (oltre
che dall’errore casuale) da un errore sistematico dipendente dalla concentrazione dell’analita.
Il grafico dei risultati dei due metodi è meno informativo del grafico della variabile differenza, che è
quella che consideriamo per il test.
Figura 2-42 – Risultato di due metodi a confronto
99
Figura 2-43 – Confronto tra due metodi mediante lo studio della differenza
Torneremo a parlare di test relativamente ai test di adattamento (fit) e per l'analisi della varianza.
Prima di passare a questi capitoli, introdurremo brevemente i test non parametrici, la statistica di
intervallo e quindi un'ultima importante distribuzione univariata, la distribuzione binomiale.
100
2.15.7 – Test non parametrici
Sono test per i quali non è necessario che sia verificata l’ipotesi di normalità. I test di Wilkinson per
dati accoppiati ed il test di Mann-Whitney-Wilcoxon tra mediane da due campioni differenti (analogo
al Test tra medie da due campioni differenti) sono i più noti.
2.15.7.1 – Test di Wilcoxon
Si calcolano le differenze:
Indice Serie A
Serie B
Differenza
1
51
50
1
2
46
46
0
3
45
43
2
4
46
44
2
5
42
39
3
6
49
48
1
7
39
41
-2
8
41
39
2
9
41
38
3
Vengono eliminati i dati per i quali la differenza é nulla, e i dati vengono ordinati secondo il valore
assoluto delle differenze:
Indice Differenza Punteggio
assoluta
Punteggio
Segno
medio
Punteggi
con segno
1
1
1
1.5
+
1.5
2
1
2
1.5
+
1.5
3
2
3
4.5
+
4.5
4
2
4
4.5
+
4.5
5
2
5
4.5
-
-4.5
6
2
6
4.5
+
4.5
7
3
7
7.5
+
7.5
8
3
8
7.5
+
7.5
Il “punteggio” è eguale all’ordine delle differenze assolute, ma se vi sono punteggi eguali si calcola
un punteggio medio. Si calcola le somme dei punteggi moltiplicati per il segno delle differenze, una
dei valori positivi, una dei valori assoluti dei punteggi negativi. La minore delle somme è il valore
101
della statistica W.
Somma punteggi positivi 31.5
Somma dei valori assoluti punteggi negativi 4.5
W = 4.5
Con il valore dells statistica W si entra nella tabella dei valori critici
Tabella 2-15 – Valori critici della W di Wilcoxon (Significato bilaterale)
N
0.01
0.02
0.05
0.10
5
0
0
0
1
6
0
0
1
3
7
0
1
3
4
8
1
2
4
6
9
2
4
6
9
10
4
6
9
11
11
6
8
11
14
12
8
10.5
14
18
13
10
13
18
22
14
13
16
21.5
26
15
16.5
20
26
31
16
20
24
30
36
17
24
29
35.5
42
18
28
33
40.5
48
19
33
38
47
54
20
38
44
53
61
2.15.7.2 – Test di Mann-Whitney-Wilcoxon
Il test confronta le mediane di due serie di dati. La spiegazione del test utilizza i dati:
1
2
3
4
5
e
1
2
3
4
5
6
12.54
12.47
12.31
12.81
12.62
12.73
12.82
12.77
12.90
12.83
12.81
Si confronta ogni dato della seconda serie con ogni dato della prima.
Se il dato della prima serie è maggiore di quello della seconda si incrementa di 1 la quantità U1. Se i
dati sono eguali la quantità U1 è incrementata di 0.5 (vedi la tabellina seguente).
102
Si ripete invertendo il confronto, e si ottiene una quantità U2.
La statistica U è data dal valore minore tra U1 e U2 (la cui somma è data dal prodotto del numero di
dati nelle due serie).
Ogni dato della prima serie viene confrontato con ogni dato della seconda serie.
12.54
12.47
12.31
12.81
12.73
0
12.73
0
12.73
0
12.73
1
12.62
12.73
0
12.82
0
12.82
0
12.82
0
12.82
0
12.77
0
12.77
0
12.77
0
12.77
12.82
0
12.77
0
1
12.90
0
12.90
0
12.90
0
12.90
0
12.83
0
12.83
0
12.83
0
12.83
0
12.81
0
12.81
0
12.81
0
12.81
12.90
0
12.83
0
12.81
0
0.5
In questo caso é U = 2.5
Con questo valore si entra nella tabella dei valori critici (vedi sotto) e l’ipotesi nulla é respinta: vi é
una differenza significativa tra le due mediane.
Tabella 2-16 – Valori critici della U di Mann Whitney Wilcoxon (Significato bilaterale, 5 %))
N1
N2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
3
4
5
6
7
8
9
10
12
14
16
18
20
22
24
26
28
30
0
0
1
2
2
3
3
4
4
5
5
6
6
7
7
8
8
9
9
10
10
11
0
1
2
3
4
5
6
6
7
8
9
10
11
12
12
13
14
15
16
17
17
18
1
2
3
4
6
7
8
9
10
12
13
14
15
16
18
19
20
22
22
24
25
26
2
3
4
6
7
9
11
12
14
15
17
18
20
22
23
25
26
28
30
32
33
34
2
4
6
7
9
11
13
15
17
19
21
23
25
27
29
31
33
35
37
39
41
43
3
5
7
9
11
14
16
18
21
23
25
28
30
32
35
37
39
42
44
46
49
51
3
6
8
11
13
16
19
21
24
26
29
32
35
38
40
43
46
49
51
54
57
59
4
6
9
12
15
18
21
24
27
30
34
37
40
43
46
49
53
56
59
62
65
68
5
8
12
15
19
23
26
30
34
38
42
46
50
54
58
62
66
70
74
78
82
86
6
10
14
18
23
28
32
37
42
46
51
56
60
65
70
74
80
84
89
94
98
103
7
12
16
22
27
32
38
43
48
54
59
65
71
76
81
87
93
98
105
110
116
122
8
13
19
25
31
37
43
49
55
62
68
74
81
87
94
100
106
113
120
126
133
139
9
15
22
28
35
42
49
56
63
70
77
84
91
98
106
113
120
127
135
142
150
157
10
17
24
32
39
46
54
62
70
78
86
94
101
110
118
126
134
142
151
159
167
175
11
18
26
34
43
51
59
68
77
86
94
103
112
122
130
139
147
157
166
175
185
193
12
20
29
38
47
56
65
75
84
94
104
113
123
133
141
153
162
172
182
192
202
211
13
22
31
41
50
61
71
81
92
102
112
122
133
144
155
165
176
187
197
208
219
229
14
24
34
44
55
66
77
87
98
110
121
132
144
155
166
178
189
201
213
225
236
248
103
25
26
27
28
29
30
11
12
12
13
14
14
19
20
21
22
23
24
27
29
30
31
33
34
36
38
39
41
42
44
45
47
49
50
53
55
54
56
58
61
63
66
63
65
68
71
73
77
72
75
78
81
85
87
90
94
98
102
106
110
108
113
118
122
128
132
127
133
138
144
150
155
104
146
153
159
165
172
178
165
172
179
187
194
201
183
192
200
208
216
225
202
211
221
229
239
248
221
231
242
251
260
271
240
251
262
273
284
294
259
271
283
294
305
317
2.16 - STATISTICHE DI INTERVALLO E DELLA MEDIANA
Nella serie di esperimenti riportati nella Tabella 2-6, che ci sono serviti per introdurre la
distribuzione della media e la distribuzione 2 , abbiamo mostrato la relazione tra l'intervallo (range)
e la varianza.
L'intervallo ha le dimensioni della X, mentre la varianza ha le dimensioni di X2: pertanto l'intervallo è
confrontabile direttamente con la deviazione standard, più che con la varianza.
Le statistiche di intervallo sono quelle che ricavano la dispersione e gli intervalli di fiducia dal
range piuttosto che dalla deviazione standard: esse sono facili da usare quando la numerosità del
campione è piccola (2-10).
La valutazione di un parametro della popolazione, quale  o , può essere effettuata con differenti
estimatori, quali la media m o la mediana per , la deviazione standard, s, o l'intervallo per .
La mediana è quel valore di X per cui la distribuzione cumulata (di probabilità o di frequenza)
ha il valore 0.5. Nel caso di dati campionati, ordinati dal più piccolo al più grande, se N è dispari la
mediana è fornita dal valore centrale, se N è pari la mediana è fornita dalla media dei due valori
centrali.
I diversi possibili estimatori sono caratterizzati da due proprietà, oltre alla esattezza (il fatto
di essere "biased" o "unbiased"):
- efficienza
- robustezza.
Media e mediana sono ambedue estimatori unbiased della media della popolazione, nel
senso che la loro media tende a  con l'aumentare del numero delle sequenze di ripetizioni.
La media ha varianza 2 / N. La varianza della mediana, che si indica usualmente con
~
x, è
generalmente (unica eccezione è il caso N=2, quando media e mediana coincidono) maggiore di
quella della media, e pertanto la mediana è un estimatore meno efficiente.
La efficienza relativa della mediana rispetto alla media si ricava dal rapporto
della varianza della mediana rispetto alla varianza della media.
La robustezza di un estimatore è collegata alla influenza che su di esso hanno risultati anomali
105
occasionali. Un risultato anomalo deve essere considerato come un risultato così poco probabile che
deve essere ritenuto proveniente da una popolazione diversa da quella dell'esperimento in corso. La
mediana è un estimatore molto robusto, e questa è la caratteristica che lo rende di uso frequente
nonostante la relativa poca efficienza.
Il range è meno efficiente e meno robusto della deviazione standard: la giustificazione del suo
uso è dovuta alla facilità di calcolo.
La Tabella 2-17 seguente riporta alcuni dati utili per l'utilizzo della mediana
~
x e dell'intervallo
r. Le efficienze sono efficienze relative. Le ultime due colonne nella parte alta forniscono il fattore
per ottenere dal range il valore di s e di s / N . Nella parte bassa vi sono i dati per il calcolo
dell'intervallo di fiducia del range, espressi come valori p% divisi per il valore medio del range, valore
che si può ricavare dalla colonna s/r, nota la stima della deviazione standard.
Tabella 2-17
Efficienza di mediana e range
N
2
3
4
5
6
7
8
9
10
Efficienza
di ~
x
Efficienza
di r
s/r
1.00
0.74
0.84
0.69
0.78
0.67
0.74
0.65
0.71
1.00
0.99
0.98
0.96
0.93
0.91
0.89
0.87
0.85
0.89
0.59
0.49
0.43
0.40
0.37
0.35
0.34
0.33
0.629
0.341
0.245
0.192
0.163
0.140
0.124
0.113
0.104
95%
2.4548
1.9555
1.7631
1.6594
1.5902
1.5421
1.5066
1.4781
1.4523
97.5%
2.8093
2.1741
1.9331
1.8056
1.7205
1.6604
1.6155
1.5825
1.5530
(s/N) / r
Valori p% di r / r
N
2
3
4
5
6
7
8
9
10
2.5%
0.0354
0.1772
0.2866
0.3654
0.4222
0.4622
0.4952
0.5219
0.5426
5%
0.0798
0.2540
0.3691
0.4428
0.4933
0.5325
0.5619
0.5859
0.6043
Una giustificazione dell'utilità della mediana in quanto estimatore robusto risulta dal seguente
esempio:
106
Un campione estratto da una popolazione normale con  =15 ha fornito i risultati seguenti:
15.970, 17.893, 12.209, 9.596, 12.554
Un secondo campione è risultato costituito da:
12.493, 12.502, 46.071, 18.055, 16.124
Le medie dei due campioni sono: 13.644 e 21.049
Le mediane sono: 12.554 e 16.124
Si noti come le mediane sono più prossime e vicine a .
Levando il dato anomalo, chiaramente sbagliato (si può immaginare che fosse 16.071, modificato da
un errore di scrittura) si ottiene come media (su 4 valori) 14.794, e come mediana (media dei due
valori centrali) 14.313, valori molto vicini tra di loro e molto vicini a .
2.16.1 – Grafici Box and Whiskers
Sono grafici basati sulla mediana e sui quartili. Si costruisce un box verticale o orizzontale (quello
mostrato in Figura 2-44 è orizzontale) di altezza opportuna e la cui larghezza è proporzionale ai
quartili. In posizione più o meno centrale è indicata la mediana, con la sua incertezza data dai notches
(estremi di un incavo a V, notch). I baffi (whiskers) delimitano l’intervallo dei valori normali: i dati
fuori dai baffi sono outliers (dati anomali).
Siano
~
x, ~
x 0.25 , ~
x 0.75
la mediana e i quartili. La larghezza del box é
BF  ~
x 0.75  ~
x 0.25
I wiskers si estendono per 1.5 BF dagli estremi del box.
I notches hanno dalla mediana una distanza
D F  1.57
BF
N
(N è il numero dei valori).
I grafici Box and Whiskers possono essere associati ai grafici dei quantili, che hanno in ascissa la
cumulata gaussiana ricavata con la media e la deviazione standard del campione e in ordinata i valori
sperimentali. Il grafico in Figura 2-45 riporta gli ottili. Ill rettangolo centrale è delimitato in ascisse
dai valori 25% e 75% della cumulata e in ordinata dai due quartili. In Figura 2-45 è mostrato anche il
“jittered plot” nel quale la ascissa è casuale (ha la tremarella) e serve solamente per evitare un
eccessivo addensamento dei valori sperimentali.
107
Figura 2-44 –Grafico Box Whisker con notches
Figura 2-45 –Grafico Box Whisker verticale con ottile box plot e jittered plot
In Figura 2-46 i box sono applicati alla visualizzazione degli outliers e delle differenze dei valori di una
variabile in tre categorie.
108
Figura 2-46 – Grafico Box Whisker con confronto di una variabile in tre categorie
109
2.17 - LA DISTRIBUZIONE BINOMIALE
Questa distribuzione riguarda esperimenti costituiti da M ripetizioni di esperimenti
elementari caratterizzati da 2 risultati, che sono mutuamente esclusivi (non possono essere ottenuti
contemporaneamente) ed opposti (se il risultato non è il primo, è necessariamente il secondo e
viceversa).
Consideriamo come esperimento elementare il lancio di un dado, descritto con due risultati:
a) Evento 6
probabilità
p = 1/6
b) Evento 6
probabilità
q = 5/6 = 1-p
Consideriamo ora l'esperimento complesso con M=2 (numero degli esperimenti elementari):
lancio di due dadi e 4 eventi elementari possibili. L'esperimento complesso è descritto dalla variabile
W.
w0)
Evento
0 volte 6
W=0
w1)
1 volta 6
W=1
w2)
2 volte 6
W=2
Ci si domanda quale è la probabilità degli eventi W = 0, W = 1, W = 2.
Spesso uno degli eventi elementari è indicato come successo (p.e., l'evento 6), conseguentemente
l'altro viene indicato come insuccesso.
L'esperimento complesso ha una serie di eventi possibili, descritti dalla variabile W che misura il
numero di successi in M ripetizioni dell'evento elementare.
Nel caso M = 2, possiamo notare che l'esperimento complesso è la somma di risultati che sono il
prodotto di due esperimenti elementari (presentarsi contemporaneo di ambedue gli eventi, p.e.
successo nel primo lancio, insuccesso nel secondo), e poiché gli eventi sono indipendenti, si può
applicare la regola del prodotto
p(AB) = p(A) p(B)
[2-3]
110
Evento
Numero di
Eventi
Probabilità
Probabilità
composto
eventi
semplici
prodotto
somma
W
prodotto
0
1
6
6
5/6
5/6
25/36
1
2
6
6
5/6
1/6
5/36+
6
6
1/6
5/6
5/36=
10/36
2
1
6
6
1/6
1/6
1/36
Pertanto, in un esperimento con DISTRIBUZIONE BINOMIALE con M=2, le probabilità degli
M+1 eventi possibili (W=0, W=1, W=2) sono rispettivamente q2, 2 q p, p2 (essendo q la probabilità di
insuccesso e p la probabilità di successo), vale a dire risultano analoghe ai termini ottenuti con il
quadrato del binomio (q+p):
(q  p) 2  q 2  2 pq  p2 .
Analogamente si calcolano le probabilità per M > 2, dai coefficienti del binomio innalzato alla
M-esima potenza.
Per M = 3 abbiamo:
(q  p) 3  q 3  3q 2 p  3q p2  p3
e conseguentemente:
W=0
p(w) = q3
W=1
p(w) = 3 q2 p
W=2
p(w) = 3 q p2
W=3
p(w) = p3
In generale, per l'evento w con l'esperimento costituito da M ripetizioni, sarà:
p( w )  p w q ( M  w )
M!
w! ( M  w )!
dove il simbolo ! (fattoriale) indica l'operazione:
M! = M (M-1) (M-2) (M-3) ...... 2 1
Il valore medio della distribuzione binomiale è:
111
[2-41]
w  M p
[2-42]
La deviazione standard è:
w 
[2-43]
Mpq
Al tendere di M ad infinito, anche la distribuzione binomiale tende alla distribuzione gaussiana, come
si vede nelle Figure da 2-47 a 2.-48.
Anche la distribuzione binomiale ha i suoi intervalli di fiducia, e si ricavano, per M abbastanza
grande, supponendo la distribuzione gaussiana ed utilizzando i valori della media e della deviazione
standard sopra riportati.
Nella Figura 2-49 è illustrata la probabilità di «fare 13» al Totocalcio (ogni riga della schedina
corrisponde ad un esperimento; poiché sono possibili 3 indicazioni e una sola corrisponde a successo
la probabilità p è 1/3). La seguente tabella riporta le stesse probabilità: la probabilità di 13 successi
è di circa 6 decimilionesimi.
W
P(w)
W
p(w)
W
p(w)
W
p(w)
0
0.00513823
1
0.03339850
2
0.10019551
3
0.18369176
4
0.22961470
5
0.20665323
6
0.13776882
7
0.06888441
8
0.02583165
9
0.00717546
10
0.00143509
11
0.00019569
12
0.00001631
13
0.00000063
112
Figura 2-47 Distribuzioni binomiali con p =0.2
113
Figura 2-48 Distribuzioni binomiali con p =0.5 e 0.1667 (1/6)
Figura 2-49 - Distribuzione binomiale per 13 ripetizioni di un esperimento con probabilità di
successo 1/3
114
La binomiale è importante in tutti i test che riguardano conteggi. Vediamo due applicazioni,
di cui la prima è relativamente banale.
Si è lanciato un dado per 200 volte, e per 60 volte si è ottenuto il valore 6. Il dado è
regolare?
Applicando le [2-42] e [2-43] calcoliamo un valore medio 33.33 ed una deviazione standard
5.27. Applichiamo un test con la distribuzione standard (lo autorizza il fatto che M è grande):
z
60  33.33
 5
5.27
Non abbiamo bisogno delle tavole della statistica Z per affermare che il test non è passato, e che
quindi il dado è truccato.
2.18 - OUTLIERS
In un secondo esempio consideriamo di aver estratto un certo numero di valori M da una
distribuzione normale. So che la probabilità che uno di questi valori sia al di fuori dell'intervallo
 - 1.96 

 + 1.96 
è del 5%.
Quale è la probabilità di non avere nessuno degli M valori al di fuori dell'intervallo?
Essa è fornita dalla distribuzione binomiale, con p = 0.05 (probabilità di successo) e q = 0.95.
p(0)  p0 q ( M  0)
M!
 qM
0! ( M  0)!
Tabella 2-18 - Probabilità che estratti M risultati da una popolazione normale ve ne siano 0 (p(0)) o
che ve ne siano alcuni (uno o più, p(>0)) al di fuori dell'intervallo di fiducia al 95% di probabilità.
M
1
3
5
7
9
11
13
15
17
19
21
23
p(0)
0.95000000
0.85737497
0.77378088
0.69833726
0.63024932
0.56880003
0.51334202
0.46329114
0.41812024
0.37735352
0.34056154
0.30735677
p(>0)
0.0500000
0.1426250
0.2262191
0.3016627
0.3697507
0.4312000
0.4866580
0.5367089
0.5818798
0.6226465
0.6594385
0.6926432
M
2
4
6
8
10
12
14
16
18
20
22
24
115
p(0)
0.90249997
0.81450623
0.73509187
0.66342038
0.59873688
0.54036003
0.48767489
0.44012657
0.39721423
0.35848582
0.32353345
0.29198894
p(>0)
0.0975000
0.1854938
0.2649081
0.3365796
0.4012631
0.4596400
0.5123251
0.5598734
0.6027858
0.6415142
0.6764666
0.7080111
25
27
29
31
33
35
37
39
41
43
45
47
49
51
53
55
57
59
61
63
65
67
69
71
73
75
77
79
81
83
85
87
89
91
93
95
97
99
0.27738950
0.25034401
0.22593546
0.20390674
0.18402584
0.16608331
0.14989018
0.13527589
0.12208649
0.11018305
0.09944020
0.08974478
0.08099466
0.07309768
0.06597065
0.05953851
0.05373351
0.04849449
0.04376628
0.03949906
0.03564790
0.03217223
0.02903544
0.02620448
0.02364955
0.02134371
0.01926270
0.01738459
0.01568959
0.01415985
0.01277927
0.01153329
0.01040879
0.00939394
0.00847803
0.00765142
0.00690541
0.00623213
0.7226105
0.7496560
0.7740645
0.7960933
0.8159742
0.8339167
0.8501098
0.8647241
0.8779135
0.8898169
0.9005598
0.9102552
0.9190053
0.9269023
0.9340293
0.9404615
0.9462665
0.9515055
0.9562337
0.9605009
0.9643521
0.9678278
0.9709646
0.9737955
0.9763505
0.9786563
0.9807373
0.9826154
0.9843104
0.9858401
0.9872207
0.9884667
0.9895912
0.9906061
0.9915220
0.9923486
0.9930946
0.9937679
26
28
30
32
34
36
38
40
42
44
46
48
50
52
54
56
58
60
62
64
66
68
70
72
74
76
78
80
82
84
86
88
90
92
94
96
98
100
0.26352000
0.23782679
0.21463868
0.19371140
0.17482454
0.15777914
0.14239568
0.12851210
0.11598216
0.10467390
0.09446819
0.08525754
0.07694492
0.06944279
0.06267212
0.05656159
0.05104683
0.04606976
0.04157796
0.03752411
0.03386551
0.03056362
0.02758367
0.02489426
0.02246707
0.02027653
0.01829957
0.01651536
0.01490511
0.01345186
0.01214030
0.01095662
0.00988835
0.00892424
0.00805413
0.00726885
0.00656014
0.00592052
0.7364800
0.7621732
0.7853613
0.8062886
0.8251755
0.8422209
0.8576043
0.8714879
0.8840178
0.8953261
0.9055318
0.9147425
0.9230551
0.9305572
0.9373279
0.9434384
0.9489532
0.9539302
0.9584220
0.9624759
0.9661345
0.9694364
0.9724163
0.9751057
0.9775329
0.9797235
0.9817004
0.9834846
0.9850949
0.9865481
0.9878597
0.9890434
0.9901116
0.9910758
0.9919459
0.9927312
0.9934399
0.9940795
Per valori bassi di M è molto probabile non avere valori fuori dall’intervallo di fiducia al 95% Ancora
con M=13 è, seppur di poco, più probabile non avere che avere valori fuori dall'intervallo, ma per
valori elevati di M la probabilità p(0) diventa sempre più piccola: per M = 100 la probabilità di non
avere valori al di fuori dell'intervallo di fiducia è solamente 0.006, per M = 200 è 0.000035 e la
corrispondente probabilità di avere più di un valore fuori dell'intervallo è molto elevata, p(>0) = 0.994
e 0.999965 rispettivamente.
Per avere una probabilità p(0) del 5% che su 100 valori non ve ne sia nessuno fuori
dell'intervallo di fiducia, occorre che il livello di questo sia del 97%. Per avere la probabilità p(0) del
95% che non vi siano, su 100 valori, valori fuori dell'intervallo di fiducia, occorre che questo intervallo
sia a livello di probabilità del 99.95%.
116
In queste condizioni ad un valore fuori dell'intervallo è associato un significato minore del 5%:
esso è un valore anomalo, un OUTLIER.
Un dato di questo genere ha la probabilità del 95% di non provenire dalla distribuzione
considerata, e pertanto può essere cancellato.
L’esecuzione del procedimento sopra esposto implica una conoscenza accurata di : nel caso
in cui vi siano outliers la deviazione standard stimata è pesantemente affetta dalla loro presenza; in
questo caso occorre ricalcolare la deviazione standard eliminando il dato sospetto.
Quando il numero dei dati è piccolo la deviazione standard ricalcolata rimane una stima poco
attendibile di .
Per questi motivi, nella pratica, soprattutto per bassi valori di M, si utilizzano criteri di più
veloce applicazione per individuare gli outliers.
Spesso un outlier è un oggetto che è fuori dall’intervallo di fiducia al 99%. Oggetti compresi tra
l’intervallo di fiducia al 95% e quello al 99% sono detti “stragglers” (sbandati).
2.18.1 – Criterio T
Si tratterà qui solamente di alcuni test per gli outlier, quelli che si applicano quando il numero delle
ripetizioni è piccolo, come accade quando si ripete una determinazione sullo stesso campione.
Uno di questi testi è detto criterio T.
Questo criterio è perfettamente equivalente al test di Grubb (vedi 3.7.4.2) e si riporta qui
unicamente perché è stato presentato in vari testi di elaborazioni statistiche per la chimica analitica.
I dati vengono ordinati in ordine crescente.
Viene calcolata la deviazione standard del campione:
N
sc 
 (x
i
 m) 2
i 1
N
Vengono ora calcolati i due valori, ambedue POSITIVI:
TN 
xN  m
sc
e
T1 
m  x1
sc
Questi due valori vengono confrontati con i valori critici del test T e il valore estremo viene
eliminato se supera il valore critico. I valori critici sono riportati nella Tabella 2-19.
117
Tabella 2-19: Valori critici per il test T per gli outliers
p
N
3
4
5
6
7
8
9
10
12
15
20
0.98
0.95
0.90
0.80
1.414
1.723
1.955
2.130
2.265
2.374
2.464
2.540
2.663
2.800
2.959
1.414
1.710
1.917
2.067
2.182
2.273
2.349
2.414
2.519
2.638
2.778
1.412
1.689
1.869
1.996
2.093
2.172
2.237
2.294
2.387
2.493
2.623
1.406
1.645
1.791
1.894
1.974
2.041
2.097
2.146
2.229
2.326
2.447
2.18.2 – Criterio Q
Un altro criterio, criterio Q, (R. B. Dean and W. J. Dixon (1951) "Simplified Statistics for Small Numbers of
Observations". Anal. Chem., 1951, 23, 636–638) di uso diffuso quando il numero dei dati è piccolo, è basato
sull'intervallo o range r. I dati vengono posti in ordine crescente e vengono calcolati i valori Q:
QN 
x N  x N 1
r
e
Q1 
x 2  x1
r
I valori critici per l’eliminazione sono riportati nella seguente Tabella 2-20 (si veda anche il
capitolo 3):
Tabella 2-20: Valori critici per il test Q per gli outliers
p
N
3
4
5
6
7
0.99
0.98
0.95
0.90
0.80
0.994
0.919
0.825
0.742
0.684
0.988
0.889
0.780
0.698
0.637
0.972
0.827
0.709
0.627
0.569
0.941
0.765
0.642
0.560
0.507
0.886
0.679
0.557
0.482
0.434
Consideriamo un esempio di eliminazione di un outlier. Una serie di N = 6 determinazioni ha
fornito il seguente risultato:
114.81
83.71
197.20
78.88
98.47
107.96
I dati vengono ordinati:
118
78.88
83.71
98.47
107.96
114.81
197.20
Si sospetta che il dato 197.20 sia anomalo.
Si calcolano la media
m = 113.51
la deviazione standard
s = 43.24
la deviazione standard del campione
sc = 39.48
T6 = 2.120
il range
T1 = 0.877
r = 118.32
Q6 = 0.696
Q1 = 0.041
la media ricalcolata senza 197.20
mr = 96.766
la deviazione standard ricalcolata
sr = 15.3636
il valore z di 197.20 con la media e la dev.st. ricalcolate
il significato per zc
zc = 6.54
2  = 0.0000006%
p = 0.999999994 = 1 - 2  = 99.9999994%
la probabilità p(0) corrispondente tramite la binomiale p = 0.99999997
il significato corrispondente
2 = 0.000003%
Utilizzando il criterio T, vediamo che il dato sospetto è eliminabile con significato circa 1%.
Utilizzando il criterio Q, il dato sospetto è eliminato con significato circa 1%. Il criterio basato sulla
binomiale e sulla  (assai opinabile quando la deviazione standard è calcolata con pochi dati) dà un
significato quasi nullo. Data l’incertezza sulla deviazione standard, avremmo potuto considerare il
6.54 come variabile studentizzata con 4 gradi di libertà: il significato del dato sospetto sarebbe
risultato di circa 0.1%.
I criteri di identificazione degli outliers sono quindi abbastanza concordi, e l’eliminazione del
dato anomalo può essere effettuata in tutta tranquillità.
2.19 - BONTÀ DI ADATTAMENTO (GOODNESS OF FIT)
Consideriamo una variabile con distribuzione gaussiana, e, analogamente a quanto visto nel
caso della distribuzione binomiale, consideriamo la probabilità che il valore della X sia superiore ad
un certo valore xc .
119
Sia questa probabilità p. La probabilità che x sia minore o eguale a xc è ovviamente q = 1- p.
Se consideriamo l'esperimento composto che consiste in M ripetizioni dell'esperimento
semplice Estrazione dalla popolazione normale, la SPERANZA MATEMATICA (E(w>0)) di avere un
valore superiore a xc è p M (la speranza matematica è la media  di una popolazione: in questo caso
il risultato di un esperimento è il conteggio w dei valori superiori a x su di M risultati elementari.
Ripetendo l'esperimento un numero grande di volte il valore medio di w, m w, tende alla media della
popolazione di W. Poiché in questo caso la variabile w è una frequenza, si parla anche di FREQUENZA
ATTESA).
La speranza matematica di avere un valore inferiore o eguale a xc è (1-p) M.
In una ripetizione dello esperimento composto si ottiene il valore w, ed il valore M-w è il numero
delle volte in cui si è avuto un risultato inferiore o eguale a x c .
Si definisce DISCREPANZA la:
D
( w  pM)2 (Mw (1p)M)2

pM
(1p) M
[2-44]
Come esempio, consideriamo una distribuzione standard e un xc = 0.67: la probabilità p che z
sia maggiore di 0.67 è 0.25. Poniamo M = 100, e supponiamo che si sia ottenuto sperimentalmente
per w il valore 32, 32 volte un risultato superiore a 0.67.
La discrepanza risulta:
(32  25) 2
(68  75) 2
D

 2.61
25
75
Con una serie di passaggi, la [2-44] può essere modificata sino a ottenere la [2-45]:
D
(1p) M ( w  pM ) 2  p M (Mw  (1p)M ) 2

p M (1p) M
(1p) ( w  pM ) 2  p (Mw  (1p)M ) 2


p M (1p)

( w  p M ) 2 p ( w  p M ) 2  p ( M  w  M  p M ) 2

p M (1p)

( w  p M ) 2 p ( w  p M ) 2  p (  w  p M ) 2

p M (1p)

( w  pM) 2 p ( w  pM) 2  p ( w pM) 2

p M (1p)
120

( w  pM) 2
p M (1p)
[2-45]
Si osservi ora come il denominatore sia la varianza della distribuzione binomiale, la
distribuzione di w (vedi equazione [2-43]). Abbiamo quindi a numeratore la differenza tra una
variabile e la sua media al quadrato, e a denominatore la varianza della stessa variabile.
Inoltre sappiamo che per valori grandi di M la variabile w tende ad essere distribuita normalmente.
Pertanto D è una distribuzione 2 con 1 grado di libertà.
Questo unico grado di libertà risulta dalla somma di due termini quadratici (vedi [2-44]) che non sono
indipendenti: determinato uno dei due termini della [2-44] risulta automaticamente determinato il
secondo.
Applichiamo ora il concetto di discrepanza alla valutazione della bontà di adattamento, e
precisamente eseguiamo un test di normalità, che misura la bontà di adattamento di una
distribuzione di frequenza ad una distribuzione di probabilità normale.
Illustreremo il procedimento con un esempio numerico, relativo al caso in cui è stato raccolto
un campione di numerosità N = 30, costituito dai seguenti dati ordinati:
107 142 158 161 168 170 175 178 187 194 194 194 195 203 203
204 204 206 213 213 214 215 215 218 219 228 230 234 234 263
Viene calcolata la media, 197.97, e la deviazione standard, 31.20.
I dati vengono studentizzati, sottraendo la media e dividendo per la deviazione standard. Si
ottiene:
-2.916
-1.794
-1.282
-1.185
-0.960
-0.896
****
-0.736
-0.640
-0.352
-0.127
-0.127
-0.127
****
-0.095
0.161
0.161
0.193
0.193
0.257
****
0.482
0.482
0.514
0.546
0.546
0.642
****
0.674
0.963
1.027
1.155
1.155
2.084.
Si noti come i dati normalizzati siano stati divisi in 5 gruppi [in generale si dividono i dati in un
numero di intervalli tale che ogni intervallo comprenda almeno cinque dati: questo è il minimo per
approssimare la distribuzione binomiale con la normale]. In questo esempio in ogni intervallo sono
compresi sei dati.
Si calcolano i separatori tra gli intervalli, a mezza strada tra il massimo valore in un intervallo
121
ed il minimo dell'intervallo successivo:
(- 0.896 - 0.736)/2 =
-0.816
separatore
1o /2o
-0.111
2o /3o
0.370
3o /4o
0.658
4o /5o .
Consideriamo ora la probabilità di avere un risultato, estratto da una popolazione normale,
nei cinque intervalli delimitati dai 4 separatori. Otteniamo, dalla integrazione della funzione di
distribuzione standard, tra - ed il primo separatore, tra il primo e il secondo separatore, ecc. [gli
integrali possono essere ottenuti approssimativamente dalle differenze della funzione di
distribuzione cumulata riportata in Tabella 2-5]:
Intervallo
Probabilità
1
2
3
4
5
20.72%
24.86%
18.84%
10.06%
25.52%
Frequenza
attesa
6.22
7.46
5.65
3.02
7.66
Frequenza
6
6
6
6
6
Il calcolo delle probabilità è illustrato nella Figura 2-50.
Si rammenti che la frequenza attesa in ogni intervallo è eguale alla relativa probabilità per il
numero delle ripetizioni, 30.
La discrepanza in questo caso è la somma di cinque termini quadratici
(6.22  6) 2 (7.46  6) 2 (5.65  6) 2 (3.02  6) 2 (7.66  6) 2
D 




6.22
7.46
5.65
3.02
7.66
ma i gradi di libertà sono solamente 2, perché:
a) la somma delle frequenze assolute in ogni intervallo deve essere eguale a 30, e pertanto, dati
quattro termini, il quinto è da essi dipendente (è quanto abbiamo dimostrato nella [2-45] nel caso di
discrepanza costituita da due termini);
b) ci stiamo riferendo non ad una generica distribuzione normale, ma a quella con la media e la
varianza ottenute dal nostro campione; questi due parametri calcolati dal campione risultano in una
ulteriore perdita di due gradi di libertà.
Il valore della discrepanza risulta 3.615, ed il livello di significato calcolato dalla distribuzione
2 con due gradi di libertà risulta del 18% circa. Il test è passato, nel senso che la distribuzione da cui
sono stati estratti i 30 valori può essere una distribuzione normale con la media e la varianza
calcolate dal campione.
122
Figura 2-50 - Probabilità corrispondenti ai 5 intervalli, dalle quali, moltiplicando per il numero M
delle ripetizioni (30) si ottiene la speranza matematica pM
123
Se non avessimo calcolato dal campione una media ed una deviazione standard, ma avessimo
imposto noi tali valori, avremmo effettuato un test di normalità con ipotesi nulla "il campione
proviene da una distribuzione normale ben precisata", ed il numero di gradi di libertà sarebbe stato
eguale al numero degli intervalli diminuito di uno, per il fatto che la somma delle frequenze assolute
deve essere eguale al numero dei dati.
Analogamente si opera quando si vuole confrontare un campione con le frequenze attese in
base ad una qualunque teoria di distribuzione.
Il test di normalità qui descritto non è molto efficiente.
Altri test, basati non su intervalli come in questo caso, ma sul poligono somma, sono più efficienti.
Essi peraltro non si prestano all'utilizzo di una delle distribuzioni classiche (Z, t, 2, F). Per ottenere i
valori critici si deve ricorrere ad esperimenti tipo Montecarlo. Un esperimento Montecarlo è un
esperimento simulato ripetuto moltissime volte, generando dati affetti da errori generalmente
distribuiti normalmente, con varianza prefissata. Le distribuzioni dei risultati di questi esperimenti
simulati, data la alta numerosità, possono essere considerate distribuzioni di probabilità, da cui
ricavare intervalli di fiducia ai livelli di probabilità desiderati.
Un esempio di test di questo tipo è il test di Lilliefors (H. W. Lilliefors. “On the Kolmogorov-Smirnov Test for
Normality with Mean and Variance Unknown”. Journal of the American Statistical Association. 62 (318), 399-402 (1967)),
uno della numerosa famiglia di test derivati dal test di Kolmogorov-Smirnov (A. N. Kolmogorov. “Sulla
determinazione empirica di una legge di distribuzione”. Giornale dell’ Istituto Italiano degli Attuari. 4, 83–91 (1933), N.
V. Smirnov. “Estimate of deviation between empirical distribution functions in two independent samples”. Bulletin
Moscow University. 2, 3–16 (1933)),
test che effettua il test di normalità per una popolazione specificata
(media e varianze imposte e non ottenute dal campione).
I dati vengono ordinati, e quindi trasformati, ottenendo una variabile Z con media e varianza di
popolazione eguali a quelle stimate dal campione:
zi 
xi  m
s
Per ogni dato viene calcolata la probabilità cumulata F(zi) della distribuzione standard normale, e
F(zi) viene confrontata con i valori di frequenza cumulata, i/N (frequenza utilizzata nella costruzione
del poligono somma) e (i-1)/N. Si calcolano due parametri:
D+ = maxi (abs(i/N - F(zi))
D- = maxi (abs(F(zi))- (i-1)/N)
D = max (D+,D-), massimo tra i due parametri, è la variabile per il test di Lilliefors, ed i valori critici di
124
D sono riportati nella seguente Tabella 2-21.
Tabella 2-21 - Valori critici di D per il test di Lilliefors
N
4
5
6
7
8
9
10
11
12
13
14
15
16
17
17
18
19
19
20
22
24
26
28
30
35
40
45
50
60
70
80
90
100
20%
10%
5%
1%
0.3033
0.2910
0.2701
0.2536
0.2385
0.2281
0.2172
0.2084
0.2010
0.1936
0.1878
0.1813
0.1756
0.1713
0.1713
0.1665
0.1635
0.1635
0.1591
0.1519
0.1455
0.1401
0.1362
0.1311
0.1216
0.1141
0.1076
0.1023
0.0945
0.0877
0.0819
0.0777
0.0736
0.3454
0.3195
0.2994
0.2830
0.2651
0.2527
0.2424
0.2313
0.2241
0.2157
0.2074
0.2010
0.1951
0.1897
0.1897
0.1849
0.1823
0.1823
0.1768
0.1692
0.1620
0.1562
0.1513
0.1455
0.1347
0.1271
0.1198
0.1141
0.1054
0.0973
0.0911
0.0861
0.0815
0.3755
0.3445
0.3274
0.3083
0.2897
0.2747
0.2626
0.2518
0.2424
0.2331
0.2251
0.2191
0.2134
0.2065
0.2065
0.2015
0.1980
0.1980
0.1929
0.1842
0.1775
0.1722
0.1649
0.1583
0.1468
0.1385
0.1302
0.1241
0.1144
0.1059
0.0994
0.0933
0.0884
0.4141
0.3987
0.3760
0.3565
0.3329
0.3197
0.3040
0.2921
0.2832
0.2693
0.2604
0.2551
0.2515
0.2417
0.2417
0.2350
0.2279
0.2279
0.2237
0.2137
0.2081
0.2005
0.1904
0.1857
0.1710
0.1625
0.1520
0.1477
0.1340
0.1234
0.1135
0.1073
0.1037
Il seguente esempio numerico si riferisce ad un campione di 25 dati. D ha il valore 0.1379 che
corrisponde ad un significato di circa il 28%.L’ipotesi di distribuzione normale passa.
i
1
2
3
x
5.8
6.3
7.6
x (ordinato)
5.6
5.7
5.8
z
-1.60322
-1.45366
-1.30411
i/N
0.04
0.08
0.12
125
(i-1)/N
0. 00
0.04
0.08
D+
0.01444
-0.00698
-0.02390
D0.05444
0.03302
0.01610
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
7.3
7.2
6.4
5.7
6.4
7.7
6. 0
5.6
6.3
7.2
6.1
7.2
7.9
6.3
7.7
6.4
6.9
6.9
6.8
6.7
6.5
5.9
5.9
6. 0
6.1
6.3
6.3
6.3
6.4
6.4
6.4
6.5
6.7
6.8
6.9
6.9
7.2
7.2
7.2
7.3
7.6
7.7
7.7
7.9
-1.15456
-1.00500
-0.85545
-0.55634
-0.55634
-0.55634
-0.40679
-0.40679
-0.40679
-0.25723
0.04188
0.19143
0.34098
0.34098
0.78964
0.78964
0.78964
0.93920
1.38786
1.53741
1.53741
1.83652
0.16
0.20
0.24
0.28
0.32
0.36
0.4 0
0.44
0.48
0.52
0.56
0.6 0
0.64
0.68
0.72
0.76
0.8 0
0.84
0.88
0.92
0.96
1. 00
0.12
0.16
0.20
0.24
0.28
0.32
0.36
0.40
0.44
0.48
0.52
0.56
0.60
0.64
0.68
0.72
0.76
0.80
0.84
0.88
0.92
0.96
-0.03586
-0.04255
-0.04385
0.00899
-0.03101
-0.07101
-0.05792
-0.09792
-0.13792
-0.12150
-0.04330
-0.02409
-0.00656
-0.04656
0.06513
0.02513
-0.01487
-0.01381
0.03741
0.01790
-0.02210
-0.03314
0.00414
-0.00255
-0.00385
0.04899
0.00899
-0.03101
-0.01792
-0.05792
-0.09792
-0.08150
-0.00330
0.01591
0.03344
-0.00656
0.10513
0.06513
0.02513
0.02619
0.07741
0.05790
0.01790
0.00686
Figura 2-51 - Illustrazione grafica del test di Lilliefors
126
2.20 - ANALISI DELLA VARIANZA
Una famiglia molto importante di test in cui si utilizza la variabile F di Fisher-Snedecor è nota
con il nome generico di analisi della varianza. Ci limiteremo a descrivere la analisi della varianza a
una via (one-way ANOVA, dove ANOVA è per ANalysis Of Variance) e quella a due vie, o a «due criteri
di classificazione».
2.20.1 – Analisi della varianza ad una via
La analisi della varianza a una via verrà illustrata con il seguente esempio numerico: è stata
determinata 10 volte la massa di particolato raccolto nell'aria di una metropoli nel mese di agosto;
usando la stessa quantità di aria, nelle stesse ore, sono state fatte altrettante determinazioni nel
mese di gennaio. Vogliamo sapere se vi è una differenza significativa tra il contenuto in particolato
atmosferico nel mese di agosto ed in quello di gennaio.
Ecco i dati:
media
media generale
minimo
massimo
Agosto
Colonna 1
Gennaio
Colonna 2
xi1
xi2
2711
3745
2492
3492
3346
3826
2621
3320
2068
4983
2328
4413
2289
4373
2988
4327
1946
2717
2104
4003
m1 = 2489
m2 = 3920
mGEN = 3204.5
1946
2717
3346
4983
Si noti come il minimo di gennaio sia nettamente inferiore al massimo di agosto: per questo motivo,
nonostante la media di gennaio sia molto maggiore della media di agosto, rimane il dubbio se i valori
di gennaio siano più alti casualmente o significativamente.
L'ipotesi nulla è che NON vi sia effetto della colonna (cioè del mese).
Viene calcolata la varianza pooled (esattamente come era stato fatto nel test di Student sulla
differenza di due medie, provenienti da popolazioni con la stessa varianza, test che si può usare
anche in questo caso, con risultato identico, come sotto dimostrato):
127
Nc
C
s 2p 
 (x
c 1 i 1
C
ic
 mc )2
[2-46]
 Nc  C
c 1
dove C è il numero di colonna, Nc il numero di dati nella c-esima colonna, mc la media della c-esima
colonna. Poiché sono state determinate C medie, i gradi di libertà sono calcolati dal numero
C
complessivo dei dati,
N
c 1
c
, diminuito di C. Nel caso specifico sopra illustrato, le medie di colonna
sono 2489 e 3920. La varianza raggruppata, detta generalmente VARIANZA INTRACOLONNE si
calcola mediante la:
10
s 2p 
 (x
i 1
10
i1
 2489) 2   ( x i 2  3920) 2
i 1
10  10  2
 306575
dove le due sommatorie riguardano i dati della prima e della seconda colonna rispettivamente. La
varianza così calcolata è la stima della varianza della popolazione dei dati, 2 .
Successivamente si calcola la stima della varianza della media dei dati calcolata con 10
determinazioni. Questa stima si ottiene dalla dispersione delle medie rispetto alla media
generalizzata:
C
 (m
s 2m  c1
c
 m GEN ) 2
[2-47]
C 1
che nel caso in esame è:
s 2m 
(2489  3204.5) 2  (3920  3204.5) 2
 1,023,880.5
2 1
Nel caso del nostro esempio questa varianza è una stima della varianza della media su N=10
determinazioni, cioè una stima di 2/ 10. Moltiplicando s 2m per il numero dei dati nelle colonne, 10
in questo caso, si ottiene una seconda stima di χ2, detta VARIANZA INTERCOLONNE:
C
2
s int
er  N
 (m
c 1
c
 m GEN ) 2
[2-47a]
C 1
Se le due colonne non hanno lo stesso numero di dati (ma in ANOVA si procede quasi sempre in
128
modo da avere lo stesso numero di dati in ogni colonna) la varianza intercolonne si calcola
ponderando ogni termine della sommatoria:
C
2
s int
er 

c 1
N c (m c  m GEN ) 2
[2-47b]
C 1
che, quando le colonne sono due e hanno lo stesso numero di dati N, diventa la [2-47a].
C
N
La prima stima (varianza intracolonne) ha
c1
c
 C gradi di libertà, la seconda (varianza
intercolonne) ne ha C-1. Il test viene effettuato con la distribuzione di Fisher, con la varianza
intercolonne al numeratore e la varianza intracolonne al denominatore, con C-1 gradi di libertà per
C
N
il numeratore e
c1
c
 C gradi di libertà per il denominatore.
Pertanto:
C
 (m
C
c 1
F
s
s

1
1 N
c
C
 m GEN ) 2
C 1
C
2
int er
2
int ra
c
[2-47c]
Nc
 (x
c 1 i 1
C
ic
N
c 1
c
 mc )2
C
che quando le colonne sono due con eguale numero di dati N diventa:
F
2
s inter
s
2
intra

 m  m2 
2N  1

2


2
Nc
 (x
c 1 i 1
ic
2
[2-47d]
 mc )2
2N  2
Nel caso in esame risulta:
2
10 s 2m  s int
er  10238805
2
s 2p  s int
ra  306575
 numeratore  1
 den om inatore  18
Il valore di F è pertanto 33.4. Il test fornisce un significato unilaterale destro (risposta alla domanda:
la variabilità tra colonne è significativamente MAGGIORE della variabilità interna alle colonne?) dello
0.002% solamente. Normalmente questo test viene effettuato con un significato critico del 5%, per
il quale la F (1 e 18 d.o.f.) è 4.41, o del 99%, per il quale la F è 8.29. La ipotesi nulla è in questo caso
respinta, ed è accettata l'ipotesi alternativa, cioè che vi sia un significativo effetto della colonna, del
mese, sulla quantità di particolato atmosferico.
Quando le colonne sono due l’analisi della varianza equivale ad un test di Student sulle medie da due
129
campioni
Dalla
t
m1 m 2
[2-37]
1 1
s

N1 N 2
dove s è la deviazione standard raggruppata, si ottiene:
t2 
( m 1 m 2 ) 2
 1
1
s 2 

 N1 N 2




( m 1 m 2 ) 2
 1
1 



 N1 N 2 
s2
il cui numeratore coincide con la varianza intercolonne come definita dalla [2-47b].
2.20.2 – Analisi della varianza a due vie
L'analisi della varianza ad una via viene generalmente applicata a più colonne (quali potrebbero
essere i dati di particolato per tutti i mesi dell'anno). Nei casi in cui vi è una duplice supposta
variabilità, di riga e di colonna si ha la analisi della varianza a due vie (two-ways ANOVA). Ogni
colonna corrisponde ad un certo valore di un parametro (sopra era il mese); ogni riga corrisponde
ad un livello di un altro parametro (nel caso del particolato potrebbe essere l'ora del prelievo). Se
per ogni casella (identificata dalla colonna e dalla riga) abbiamo più di una ripetizione in identiche
condizioni, si parla di analisi a due vie con ripetizioni (crossed two-ways ANOVA): i dati in questo caso
permettono di dedurre la significatività dell'effetto di colonna, dell'effetto di riga, e della interazione,
vale a dire della dipendenza dell'effetto di riga dalla colonna e viceversa (nel caso del particolato
potrebbe essere la risposta alla domanda: “l'effetto dell'ora dipende solo dall'ora [nessuna
interazione] o anche dal mese [interazione ora-mese]?”).
Possiamo avere analisi della varianza anche a tre, quattro, ecc. vie.
Ogni tipo di ANOVA presuppone un modello.
Per l'analisi ad una via il modello è:
xic =  + (c) + i
In parole, il dato i-esimo della colonna c è dato da un valore base, più una quantità (c) che dipende
dalla colonna, più un errore distribuito normalmente.
Il modello a due vie, senza repliche, è:
130
xirc =  + (c) + (r) + i
In parole, il dato nella riga r e nella colonna c risulta da un valore base, più un effetto (c) della
colonna, più un effetto (r) della riga, più un errore i.
Il modello con repliche a due vie è:
xirc =  +(c) + (r) +(r,c) + i
dove (r,c) indica una funzione della riga e della colonna, la interazione.
In ogni caso  è stimata con la media generalizzata di tutti i dati.
Il seguente è un esempio di ANOVA a due vie con repliche. I due fattori hanno solamente due livelli.
Ogni casella corrisponde ad una combinazione unica dei livelli dei due fattori. Ogni casella contiene
I dati (campioni uguali; quando il numero dei dati nelle caselle non è lo stesso si parla di campioni
non uguali, "unequal samples").
Fattore colonna
Livello -1
Livello +1
Fattore riga
15.8
25.0
Livello -1
16.2
24.5
media 20.63333
17.1
25.2
30.1
54.3
Livello +1
32.2
55.6
media 43.35000
33.0
54.9
media 24.06667
media 39.91667
Media generale
31.991667
Effetto del Fattore A (Riga):
Livello
-1 Media
20.63333
Effetto -11.35833
Livello +1 Media
43.35000
Effetto
11.35834
Effetto del Fattore B (Colonna):
Livello -1 Media
24.06667
Effetto
-7.92500
Livello +1 Media
39.91667
Effetto
7.92500
131
Effetti di Interazione:
Fattore A -1 Fattore B -1 Interazione +1 Media 16.36667
Effetto 3.65833
Fattore A -1 Fattore B +1 Interazione -1 Media 24.90000
Effetto -3.65834
Fattore A +1 Fattore B -1 Interazione -1 Media 31.76667
Effetto -3.65833
Fattore A +1 Fattore B +1 Interazione +1 Media 54.93333
Effetto 3.65833
Calcolata la media generale (31.991667), si calcola la media dei (6) valori che corrispondono ai due
livelli del fattore riga (20.63333 e 43.350000): l'effetto del livello -1 del fattore riga è dato dalla
differenza tra la media di livello e la media generale, 20.63333 - 31.991667 = - 11.358334.
Analogamente per il livello +1, 43.350000 - 31.991667 = + 11.358333. La somma degli effetti di riga
risulta nulla: gli effetti di riga indipendenti sono R-1.
Nello stesso modo, dalla media dei (6) valori che corrispondono al livello -1 e dei (6) valori che
corrispondono al livello +1 del fattore colonna si calcolano le medie 24.06667 e 39.91667; la
differenza tra queste medie e la media generalizzata permette di valutare l'effetto dei due livelli del
fattore colonna. La somma degli effetti di colonna è nulla; il numero degli effetti di colonna
indipendenti è C-1.
A questo punto possiamo utilizzare una parte del modello  + f(c) + g(r) per ottenere una
stima dei valori per ogni combinazione di livelli:
31.991667
31.991667
-11.358334
-11.358334
- 7.92500 =
+ 7.92500 =
12.70833
28.558337
31.991667
31.991667
+11.358334
+11.358334
- 7.92500 =
+ 7.92500 =
35.424997
51.274997
Il confronto tra queste stime e le medie di "nido"
16.36667
24.90000
31.76667
54.93333
fornisce i valori della interazione. La somma dei valori di interazione risulta essere nulla in ogni riga
132
ed in ogni colonna: il numero di gradi di libertà associati alla interazione è pertanto (R-1)(C-1).
Il modello stimato risulta essere:
xirc = m + f(c) + g(r) + u(r,c) + ei
Ponendo come valori di c e di r i livelli (-1,+1) si ottiene:
xirc = 31.991667 + 7.925 c + 11.359334 r + 3.65833 r c + ei
Nella ANOVA si calcolano:
R C
I
2
A) la somma dei quadrati totale: SST   x irc
r 1 c 1 i 1
R C
I
2
2
  m GEN
B) il contributo della somma dei quadrati della media: SSM IRC m GEN
r 1 c 1 i 1
R
 (mr  mGEN )2
C) La varianza associata al fattore riga:
s 2Riga  I C r 1
R 1
La varianza della media di riga rispetto alla media generale, che è anche la media delle medie di riga,
è ricavata su di una media calcolata con I C dati, e pertanto per riportarla alla varianza della
popolazione X occorre moltiplicarla per I C.
La sommatoria a numeratore è SSR.
C
D) Analogamente la varianza associata al fattore colonna è:
2
s Colonna
 IR
 (mc  mGEN ) 2
c 1
C 1
La varianza della media di colonna rispetto alla media generale, che è anche la media delle medie di
colonna, è ricavata su di una media calcolata con I R dati, e pertanto per riportarla alla varianza della
popolazione X occorre moltiplicarla per I R.
La sommatoria a numeratore è SSC.
E) La varianza associata alla interazione è:
C R
s 2Interazion e  I
 (m rc  m GEN
c 1 r 1
g(r )  f (c)) 2
(R  1)(C  1)
Essa è calcolata come varianza delle medie di celle (ciascuna calcolata su di I dati) rispetto a m
+f(c)+g(r).
La somma dei quadrati a numeratore è SSI.
133
F) La varianza dell'errore si calcola come:
R C
I
 (x irc [31.991667  7.925c 11.359334r3.65833rc]) 2
s 2  r 1 c 1 i 1
IR C  1  (C  1)  (R  1)  (C  1)(R  1)
La somma dei quadrati a numeratore SSE può anche essere ricavata come:
SSE = SST - SSM - SSR - SSC - SSI
Il numero dei gradi di libertà è eguale al numero totale dei dati (12) diminuito di 1 (per la media
generale), e dei gradi di libertà relativi al calcolo dell'effetto di colonna, di riga e di interazione.
Con le somme dei quadrati e le varianza corrispondenti si costruisce la tabella ANOVA:
Sorgente di variazione
d.o.f
Somma dei
Varianza
F
Quadrati
Totale
12
14750.490
Media
1
12281.601
Fattore A (Riga)
1
1548.142
1548.142
1910.572
Fattore B (Colonna)
1
753.668
753.668
930.107
Interazione
1
160.598
160.598
198.195
Errore
8
6.482
0.810
Con i valori di F (rapporto tra la varianza dovuta a un fattore o all'interazione e la varianza dell'errore)
si calcola il significato unilaterale destro, che in questo caso risulta sempre piccolissimo, indicando
che sia il fattore riga, sia il fattore colonna, sia la interazione tra i due fattori hanno un effetto
significativo sul risultato X.
2.21 - INTRODUZIONE ALL'ALGEBRA DELLE MATRICI
I dati vengono predisposti in una MATRICE (arrangiamento bidimensionale) di dati X con I righe (I =
numero di oggetti) e M colonne (M = numero delle variabili). Vi sono anche matrici a più di due
dimensioni, spesso (in problemi chimici) a tre dimensioni. La terza dimensione è data dai “tubi”.
La notazione matriciale e l'algebra delle matrici sono necessarie nell'analisi multivariata dei dati per
evitare formule complicate. Per questo motivo vengono di seguito riportati i concetti base delle
notazioni e delle operazioni matriciali.
134
Il simbolo per una matrice è una lettera latina maiuscola in grassetto, come X. Si può accettare anche
una lettera maiuscola sottolineata come X.
Solo una particolare matrice verrà in questo testo indicata con una lettera greca: 
Il simbolo di matrice può essere seguito dal numero di righe e di colonne, come X (IxM) o anche XIM.
In questo testo verrà usata l'ultima notazione . Il primo indice si riferisce sempre al numero di righe,
il secondo al numero delle colonne. Questi sono indicati con I e M in una matrice di dati originale,
ma nella elaborazione possono cambiare, p.e. I può diventare da numero delle righe numero delle
colonne. Se I e M sono sostituiti dai loro valori numerici si utilizzerà la notazione
12X32,
oppure la
X12,32 per indicare, p.e., una matrice di dodici righe e di trentadue colonne.
Una matrice viene generalmente riportata tra due parentesi quadre di altezza tale da racchiuderla:
X 3, 2
 23 12
 29 5 


 3 88
Un VETTORE (colonna) è una matrice con I righe ed 1 colonna. Il suo simbolo è una lettera minuscola
in grassetto, come x (xI per indicare il numero di righe, oppure xI,1 per ricordare anche che vi è una
sola colonna).
Un vettore riga è una matrice di 1 riga e di M colonne. Il suo simbolo è x' (x'M oppure x'1,M per
ricordare che vi è una sola riga), oppure, meglio, xT.
Eccezionalmente, scriveremo vettori riga o colonna come matrici (simbolo maiuscolo in grassetto)
evidenziando il numero 1 di linee o di colonne.
Uno SCALARE è una matrice di una riga ed una colonna; viene indicato con una lettera minuscola,
come x.
Le lettere minuscole come i,m,l,k,... vengono usate come indici, con le lettere maiuscole I,M,L,K,...
come limiti corrispondenti.
Lo scalare con gli indici i ed m, xim , è il dato nella i-esima riga e nella m-esima colonna, relativo allo
i-esimo degli oggetti totali e per esso alla m-esima delle variabili totali.
La TRASPOSTA di una matrice X è una matrice Y per cui ymi = xim . La trasposta della matrice X viene
indicata con XT o con X'. Il trasposto del vettore (colonna) x è il vettore riga x' (o xT).
xT è il vettore riga (vettore dati, datavector) che rappresenta l'i-esimo oggetto nella matrice dei dati
X.
135
Operazioni con le matrici
La SOMMA di due matrici XIM e YIM (notare che le due matrici hanno le stesse dimensioni, sono
congruenti per la somma) è una matrice ZIM , per cui
zim = xim + yim .
[2-48]
Esempio:
 23 12
11 2
29 5    2 9 




 3 88
 0 22 
34 10 
  31 14 


 3 110
Il prodotto di una matrice per uno scalare si ottiene moltiplicando tutti i termini della matrice per
lo scalare.
Il PRODOTTO interno, o semplicemente il prodotto, di due matrici X e Y è possibile solo quando il
numero delle colonne nella prima matrice è lo stesso di quello delle righe nella seconda matrice
(matrici congruenti per la moltiplicazione) e la matrice
ZIJ = XIM . YMJ
[2-49]
è ottenuta con
z ij 
M

[2-50]
x im y mj
m 1
La matrice XIM è detta PREMOLTIPLICANTE, mentre la YMJ è la POSTMOLTIPLICANTE.
Un esempio importante è il prodotto di un vettore riga per un vettore colonna, prodotto che è
possibile, quando il vettore riga è il premoltiplicante, se le sue colonne sono in numero eguale alle
righe del vettore colonna. Il prodotto dei due vettori è allora uno scalare:
z = X1 M . YM 1
Esempio (l’asterisco indica, come in molti linguaggi di programmazione, la moltiplicazione)::
 4
1 2 3 4  1*4  2*4  3*3  4 8 9  21
3
Ogni elemento zij della matrice prodotto Z può essere considerato come il prodotto di un vettore
riga per un vettore colonna.
Pertanto un modo comodo di rappresentare un prodotto interno, quale quello nell'esempio:
136
3 12 
9 5  2 1 0 5  

 2  2 1  3
1  2
è quello nella forma (la cui funzione viene spiegata successivamente):
3 12 
9 5 


1  2
1
0
5
 2
 2
2
1
 3

3 * 2  12 * 2 3 *1  12 * 2 3 * 0  12 *1 3 * 5  12 * 3
 9 * 2  5 * 2 9 *1  5 * 2 9 * 0  5 *1 9 * 5  5 * 3 


 1* 2  2 * 2 1*1  2 * 2 1* 0  2 *1 1* 5  2 * 3 

 6  24 3  24 0  12 15  36
18  10 9  10 0  5 45  15 


1 4 0  2
5  6 
 2  4
 30  21 12  21
  28  1
5
30 


5
 2 11 
 2
La forma di scrittura del prodotto di matrici come:
evidenzia come ogni elemento della matrice prodotto sia il prodotto del vettore x' sulla stessa riga
per il vettore colonna y sulla stessa colonna (i due vettori sono evidenziati sotto nel caso del calcolo
dell'elemento della prima riga e seconda colonna).
La prima riga della premoltiplicante
postmoltiplicata per la seconda colonna
della
postmoltiplicante
fornisce
l’elemento in prima riga e seconda
colonna della matrice risultato
137
138
Prodotti matriciali notevoli
Si noti che per il prodotto X XT , la matrice X postmoltiplicata per la sua trasposta XT, è:
Z I I  X I M X TM I
M
[2-51]
M
z i j   x im x   x im x jm
T
mj
m1
m1
e per il prodotto XT X , la matrice X premoltiplicata per la sua trasposta, è:
Z M M  X TM I X I M
I
[2-52]
I
z mn   x x in   x im x jn
i 1
T
mi
i 1
Quando un vettore viene moltiplicato per il suo vettore riga trasposto si ottiene uno scalare che è la
somma dei quadrati dei suoi elementi, il quadrato della norma euclidea:
I
x x I1   x i2
T
1I
[2-53]
i 1
La matrice che si ottiene premoltiplicando una matrice X per la sua trasposta X' è una matrice
QUADRATA (stesso numero di righe e di colonne); essa contiene lungo la DIAGONALE PRINCIPALE
(costituita dagli elementi con eguale indice di riga e di colonna) le somme dei quadrati delle variabili.
La matrice è anche SIMMETRICA (la simmetria è rispetto alla diagonale principale) nel senso che:
zmn = znm
Infatti l'elemento zmn si ottiene come prodotto del vettore riga x'mI per il vettore colonna xIn , ed è
evidentemente eguale all'elemento znm che si ottiene come prodotto del vettore riga x'nI per il
vettore colonna xIm.
Ecco alcuni esempi:
 4
 3
x    x T 4 3 2 1
 2
1 
 
x T x  4 2  32  2 2  12  16  9  4  1  30
139
1 2 
X IM  3 4


0
1


X IM X
T
MI
1 2 
1 3 0 
 3 4 


 2 4 1
0 1 
 12  2 2
1 * 3  2 * 4 1 * 0  2 * 1


 3 * 1  4 * 2
32  42
3 * 0  4 * 1 
 0 * 1  1 * 2 0 * 3  1 * 4
02  12 
 5 11 2
 11 25 4


 2 4 1
1 2
1 3 0  
X X IM  
3 4 



2 4 1
0
1


T
MI
 12  32  0 2
1 * 2  3 * 4  0 * 1


2
2
2
2
*
1

4
*
3

1
*
0
2

4

1


10 14


14 21
Si noti come ambedue le matrici XXT e XTX siano quadrate e simmetriche. Si noti anche come il
risultato della moltiplicazione sia in questo caso (ma lo è quasi sempre) diverso da quello della
postmoltiplicazione.
Nel caso della pre- o post-moltiplicazione di una matrice per la sua trasposta, ambedue le
moltiplicazioni sono possibili, mentre nel caso di due matrici generiche possiamo avere molte
possibilità: a) non è possibile né pre- né post- moltiplicare, b) è possibile solo la premoltiplicazione,
c) è possibile solo la postmoltiplicazione, d) sono possibili ambedue le moltiplicazioni.
La DIAGONALE principale o semplicemente diagonale di una matrice quadrata è costituita
dagli elementi che vanno dal primo in alto a sinistra all'ultimo in basso a destra, cioè quelli per i quali
l'indice di riga è eguale all'indice di colonna. La somma dei valori sulla diagonale principale prende il
nome di TRACCIA, e viene indicata con tr(X).
Una MATRICE DIAGONALE è una matrice quadrata che ha tutti zeri, tranne che sulla diagonale
140
principale. Una matrice TRIANGOLARE INFERIORE ha tutti zeri quando l'indice di colonna è superiore
all'indice di riga. Una TRIANGOLARE SUPERIORE ha tutti zeri quando l'indice di riga è superiore
all'indice di colonna. Anche le triangolari sono necessariamente quadrate.
Una matrice IDENTITÀ è una matrice diagonale con tutti i valori sulla diagonale principale eguali ad
1: irr = 1. Essa viene indicata con il simbolo I (IRR ). La matrice identità è l'unità nel calcolo matriciale,
per molti aspetti analoga all'1 utilizzato nei calcoli non matriciali.
La matrice INVERSA di una matrice quadrata LRR è una matrice che viene indicata con L-1 (L-1RR ) tale
che
1
1
L RR LRR
 LRR
L RR I RR
Si noti l'analogia con il calcolo usuale con gli scalari (il prodotto di uno scalare per il suo inverso è 1).
La inversione di una matrice è un procedimento piuttosto difficile e molto lungo quando il numero
delle righe (eguale a quello delle colonne) è elevato: oggi tuttavia tale operazione viene condotta in
pochi secondi, anche per grandi matrici, p.e. con cento righe e colonne, con i moderni calcolatori da
laboratorio. Il calcolo di una matrice inversa comporta anche il calcolo del DETERMINANTE della
matrice originale, determinante che si indica con X . Per una matrice diagonale il determinante è
eguale al prodotto dei valori sulla diagonale principale. Per una matrice di due righe, il determinante
è fornito dal prodotto dei termini sulla diagonale principale diminuito di quello dei termini sull'altra
diagonale.
I metodi per il calcolo del determinante sono facilmente reperibili sui testi di analisi matematica; in
chimica analitica il calcolo del determinante di una matrice è necessario nella elaborazione di
esperimenti multivariati e in pochi altri casi, ed allora viene effettuato con i programmi di calcolo che
effettuano la inversione.
Una grandezza interessante associata ai vettori o alle matrici è la NORMA EUCLIDEA, indicata con
.
. Essa è la radice quadrata della somma dei quadrati di tutto ciò che è indicato al posto del punto.
P.e.,
x
indica la radice quadrata della somma dei quadrati di tutti i termini del vettore x. Dividendo
un vettore per la sua norma si ottiene un nuovo vettore per il quale la somma dei quadrati è 1. Il
vettore è stato normalizzato.
Talune matrici quadrate non sono invertibili, come la seguente matrice:
141
3 6 
 6 12


il cui determinante (3 . 12 - 6 . 6) è nullo. In questi casi si può estrarre dalla matrice una matrice
sempre quadrata cancellando una colonna m e una riga i. Possono essere ottenute molte (M) matrici
ridotte. Se i determinanti delle matrici ridotte, detti MINORI, sono tutti nulli si procede ad una nuova
cancellazione. Il numero di righe (o colonne) della matrice ridotta con determinante diverso da zero
(e con il massimo numero di righe tra tutte le matrici ridotte) determina il RANGO della matrice
originale. Il rango di una matrice quadrata può quindi essere al massimo eguale al suo numero di
colonne (matrice invertibile) o essere inferiore, sino a diventare zero per una matrice costituita da
tutti zeri.
Infine definiremo le matrici ORTOGONALI: esse sono quelle matrici quadrate la cui inversa è eguale
alla trasposta:
1
LTMM  LMM
[2-54]
2.22 - L'ESPERIMENTO BIVARIATO
Un esperimento si dice bivariato quando è descritto da due variabili random. L’esperimento bivariato
è l’esempio più semplice di esperimento multivariato, descritto da molte variabili affette da errore
casuale, a ciascuna delle quali è associata una “distribuzione marginale”.
L’esperimento chimico-analitico è oggi generalmente multivariato, in quanto su ogni campione
vengono misurate molte quantità chimiche, spesso centinaia. Appare quindi chiara l’importanza dei
fondamenti della elaborazione dei dati per gli esperimenti multivariati, fondamenti che appaiono
quasi completamente delineati quando si studiano gli esperimenti bivariati.
Le variabili random che descrivono l’esperimento possono essere discrete, continue, o una discreta
e l'altra continua. In chimica analitica il maggiore interesse è per le distribuzioni continue. Tuttavia
per introdurre alcuni elementi di particolare interesse utilizzeremo alcuni semplici esperimenti con
variabili discrete.
L'esperimento A consiste nel lancio di due dadi: la variabile X1 è il valore del primo dado, la variabile
X2 il valore del secondo dado.
La tabella seguente mostra la distribuzione delle frequenze dopo 200 lanci.
142
X1
X2
1
2
3
4
5
6
Totali X1
1
2
3
4
5
6
Totali X2
6
8
5
5
4
4
32
6
9
9
5
8
6
43
3
3
3
6
3
7
25
8
5
5
7
4
4
33
8
6
7
4
6
5
36
5
3
9
4
3
7
31
36
34
38
31
28
33
I totali danno le frequenze MARGINALI, riferite agli esperimenti univariati in cui viene determinata
una sola delle variabili. Si rammenti che, dato lo stesso esperimento in senso chimico, ad esso
possono essere associati diversi esperimenti concettuali.
La Figura 2-52 riporta l'istogramma bidimensionale, le Figure 2-53 e 2-54 gli istogrammi delle singole
variabili, detti ISTOGRAMMI MARGINALI.
Non vi è alcuna ragione (in base alla teoria che considera i dadi cubi perfetti omogenei) per cui uno
degli eventi x1 , x2 , (esperimenti marginali) x1,x2 (esperimento bivariato) abbia probabilità diversa
dagli altri.
Figura 2-52 - Istogramma bidimensionale per l'esperimento "Lancio di due dadi"
143
1
2
3
4
5
1
6
2
Figura 2-53
3
4
5
6
Figura 2-54
Istogramma della prima variabile
Istogramma della seconda variabile
Si noti come per gli istogrammi marginali la frequenza assoluta attesa per ogni evento è circa 33
(200/6), mentre per l'istogramma bidimensionale la frequenza assoluta attesa è 5.5 (200/36,
probabilità 1/36 per ciascuno degli eventi). Lo scarto massimo della frequenza dalla frequenza attesa
per gli istogrammi marginali si ha per X1 = 2 ed è circa il 30%; mentre lo scarto massimo per
l'istogramma bidimensionale si ha con X1 = 2 e X2 =2, con X1 = 2 e X2 =3 e con X1 = 6 e X2 =3, ed è di
circa il 62%. In generale vediamo che lo scarto dalla frequenza attesa è nettamente più alto per
l'istogramma bidimensionale che per gli istogrammi marginali.
Possiamo concludere con una affermazione di validità generale:
la distribuzione bivariata delle frequenze è, a parità di numero di ripetizioni, una peggiore
rappresentazione della distribuzione bivariata delle probabilità di quanto la distribuzione univariata
delle frequenze lo sia della distribuzione univariata delle probabilità. Ciò è semplicemente dovuto al
molto maggiore numero di eventi possibili.
L'esempio precedente ci ha permesso di definire le variabili marginali e le loro distribuzioni
marginali, di frequenza e di probabilità, ciascuna delle quali avrà le sue caratteristiche statistiche,
media, deviazione standard, mediana, mode, ecc.
Utilizziamo ora 200 ripetizioni dell'esperimento B, che consiste ancora nel lancio di due dadi.
La prima variabile X1 è il valore del primo dado, la seconda X2 è la somma dei valori dei due dadi e
pertanto può andare da 2 a 12.
144
La tabella seguente mostra la distribuzione delle frequenze dopo 200 lanci.
X1
X2
2
3
4
5
6
7
8
9
10
11
12
Totali X1
1
2
3
4
5
6
Totali X2
6
8
5
5
4
4
0
0
0
0
0
32
0
6
9
9
5
8
6
0
0
0
0
43
0
0
3
3
3
6
3
7
0
0
0
25
0
0
0
8
5
5
7
4
4
0
0
33
0
0
0
0
8
6
7
4
6
5
0
36
0
0
0
0
0
5
3
9
4
3
7
31
6
14
17
25
25
34
26
24
14
8
7
La Figura 2-55 mostra l'istogramma bidimensionale. Dalla tabella sopra riportata e dalla figura risulta
evidente che vi sono combinazioni non lecite di valori entrambi leciti di X 1 ed X2 , come la
combinazione X1 =1 X2 =12. Appare anche chiaro che la frequenza dei valori elevati di X2 aumenta
con la frequenza dei valori elevati di X1.
Primo
DADO
Somma dei due
DADI
Figura 2-55 - Istogramma bidimensionale di due variabili correlate
2.22.1 – Covarianza e coefficiente di correlazione
Le frequenze delle classi bidimensionali hanno sulla tabella e nel grafico un andamento nettamente
diagonale. Ciò perché, a causa del modo in cui abbiamo costruito l'esperimento, vi è una
145
CORRELAZIONE tra le due variabili, essendo la seconda eguale alla prima più qualcosa (in questo
caso il qualcosa in più è il valore del secondo dado). In altre parole la seconda variabile contiene in
sé informazione già in parte portata dalla prima variabile: abbiamo un duplicato di informazione,
duplicato che è ovviamente inutile.
La correlazione è un elemento fondamentale degli esperimenti multivariati.
Per misurare la correlazione tra due variabili si usano due parametri, la COVARIANZA e il
COEFFICIENTE DI CORRELAZIONE.
La covarianza della popolazione è il momento centrale del primo ordine per la prima e la seconda
variabile:
 11 




 
( x1   1 ) ( x 2   2 ) f ( x1 , x 2 ) dx1 dx 2
[2-55]
nel caso di funzioni di densità di probabilità bivariate continue.
La funzione f(x1, x2) è la distribuzione di densità di probabilità bivariata:
d2p
f ( x1 , x 2 ) 
dx1 dx 2
ed è il parallelepipedo infinitesimo di secondo ordine che ha come altezza la densità di probabilità
d2p e come base l’elemento rettangolare infinitesimo di lati dx1 e dx2. Questo elemento può essere
visto come il limite dell’istogramma bivariato quando ambedue gli intervalli di classe tendono ad
ampiezza zero.
γ11 (i pedici rappresentano l’ordine del momento rispetto alle due variabili) viene indicata
usualmente con il simbolo x1,x2, essendo un momento centrale del secondo ordine complessivo,
come la varianza di ciascuna variabile.
La covarianza viene stimata dalla:
I
s x1x2 
 (x
i 1
1i
 m1 )(x 2i  m 2 )
[2-56]
N 1
mentre il coefficiente di correlazione della popolazione  viene stimato da:
r
s x1x 2
s x1 s x 2
[2-57]
dove appaiono a denominatore le deviazioni standard delle distribuzioni marginali.
Il coefficiente di correlazione è una covarianza normalizzata in modo da assumere solo valori
146
compresi tra -1 e +1. I valori estremi indicano una perfetta correlazione negativa (r = -1) o positiva (r
=1), vale a dire che le due variabili sono legate da una relazione lineare. Il valore 0 indica mancanza
di correlazione. Valori intermedi indicano correlazioni più o meno marcate, negative o positive.
Anche per il coefficiente di correlazione sono possibili test di ipotesi, il principale dei quali consiste
nell'ipotesi nulla "il coefficiente di correlazione è zero". Se il test non passa, allora vuol dire che la
correlazione misurata da r è significativamente diversa da zero.
Il test sul coefficiente di correlazione è basato sul fatto che la
t r
N2
1 r2
è una variabile distribuita come una variabile di Student con N-2 gradi di libertà.
La tabella seguente fornisce i valori critici per il valore assoluto del coefficiente di correlazione. Il test
è bilaterale, con ipotesi alternativa «r significativamente differente da zero».
Per esempio con 5 oggetti un valore di r pari a 0.959 ha un significato dell’1%, e pertanto l’ipotesi
che  sia zero può essere scartata.
Tabella 2-22 – Valori critici del coefficiente di correlazione
Oggetti
(N)
5
7
9
11
13
15
17
19
22
26
30
40
50
70
90
20%
10%
5%
1%
0.687
0.551
0.472
0.418
0.379
0.348
0.329
0.310
0.283
0.258
0.242
0.206
0.184
0.155
0.138
0.806
0.668
0.583
0.522
0.475
0.440
0.411
0.388
0.358
0.329
0.304
0.262
0.236
0.198
0.175
0.877
0.751
0.667
0.600
0.552
0.516
0.480
0.455
0.423
0.388
0.360
0.309
0.277
0.236
0.207
0.959
0.872
0.802
0.731
0.684
0.644
0.603
0.574
0.538
0.492
0.463
0.400
0.359
0.300
0.271
Oggetti
(N)
6
8
10
12
14
16
18
20
24
28
35
45
60
80
100
20%
10%
5%
1%
0.610
0.508
0.443
0.400
0.362
0.341
0.318
0.298
0.270
0.249
0.223
0.194
0.169
0.145
0.130
0.728
0.621
0.548
0.500
0.457
0.427
0.401
0.377
0.343
0.316
0.282
0.249
0.215
0.186
0.165
0.810
0.706
0.632
0.576
0.532
0.500
0.471
0.441
0.405
0.373
0.333
0.294
0.255
0.221
0.196
0.915
0.834
0.768
0.710
0.655
0.624
0.592
0.555
0.518
0.478
0.431
0.383
0.332
0.287
0.252
Vedremo ora di illustrare meglio il significato della covarianza e del suo calcolo mediante la [2-56],
utilizzando la seguente serie di 12 dati bidimensionali.
i
1
2
3
x1
8.040
2.755
14.575
x2
59.769
55.319
69.168
x1-m1
0.582
-4.703
7.117
x2-m2
0.242
-4.208
9.641
(x1-m1)(x2-m2) Segni Segno
0.140 ++
+
19.794
-+
68.608 ++
+
147
4
5
6
7
8
9
10
11
12
6.639
9.818
10.217
1.677
8.273
1.814
14.343
10.638
0.712
47.851
66.668
72.184
33.731
56.907
64.074
71.861
54.661
62.136
-0.819
2.360
2.759
-5.781
0.815
-5.644
6.885
3.180
-6.746
-11.676
7.141
12.657
-25.796
-2.620
4.547
12.334
-4.866
2.609
9.568
16.849
34.914
149.140
-2.135
-25.663
84.912
-15.473
-17.599
-++
++
-+-+
++
+-+
+
+
+
+
+
-
m1 = 7.458; m2 = 59.527;
s21 = 23.266; s22 = 121.257;
s1 = 4.823; s2 = 11.01166;
sx1x2 = 29.369; r = 0.553.
La Figura 2-56 riporta i dati e la posizione del CENTROIDE, vale a dire del punto di coordinate m 1,m2
, che è il baricentro dei dati bidimensionali. Lo scostamento dal centroide è lo scarto usato nel calcolo
delle varianze e della covarianza.
Nelle ultime colonne della tabella precedente sono riportati i segni dei due scarti ed il conseguente
segno del contributo del punto alla covarianza: vediamo che la maggior parte degli scarti hanno lo
stesso segno (8 contro 4 di segno opposto, corrispondenti ai dati 8, 9, 11 e 12). Notiamo anche che i
contributi maggiori alla covarianza vengono tutti da dati con gli scarti aventi lo stesso segno.
Figura 2-56 - Grafico variabile vs. variabile di due variabili correlate
148
Ciò significa che uno scostamento positivo della x1 dal valore medio è associato, generalmente, ad
uno scostamento anch'esso positivo della x2 dal valore medio; lo stesso accade per gli scostamenti
negativi. Le variabili covariano rispetto al valore centrale, e tale covarianza è positiva in quanto dello
stesso segno per le due variabili. Il coefficiente di correlazione, abbastanza elevato nel senso che è
significativamente diverso da zero, 0.553, misura appunto il grado di questo variare insieme delle
due variabili.
In analisi dei dati bivariata frequentemente (e sempre in analisi multivariata) si forniscono i dati di
varianza e covarianza in forma matriciale:
Per l'esempio della tabella si utilizza la matrice:
 s2x1

s x 1 x 2
s x1x 2 
 23.266 29.369 


29.369 121257
. 
s2x 2 

Questa matrice viene detta MATRICE delle VARIANZE-COVARIANZE o semplicemente matrice delle
covarianze. Essa è particolarmente comoda quando il numero delle variabili è molto grande, sia per
eseguire i calcoli in forma matriciale, sia come simbolo. Essa verrà in seguito indicata generalmente
con VMM.
Si noti come la covarianza tra x1 ed x2 sia eguale alla covarianza tra x2 ed x1 : la matrice delle
covarianze è quadrata e simmetrica.
Se indichiamo con D la matrice delle deviazioni, che si ottiene dalla matrice dei dati originali
semplicemente sottraendo ad ogni variabile la media, la matrice delle covarianze si ottiene
facilmente dalla seguente operazione matriciale:
VMM 
D 'MI D IM
[2-58]
I 1
La matrice delle covarianze può essere espressa in funzione del coefficiente di correlazione,
ricavando la covarianza dalla [2-57]:
 s 2x1

s x1x 2
s x1x 2   s 2x1

s 2x 2  r s x1 s x 2
r s x1 s x 2 

s 2x 2 
L'inversione della matrice delle covarianze bivariata fornisce la


s x1x 2
s 2x1
 s 2x 2
s x1x 2 
s x1x 2 

D
D


2
2 
s
s x1
s x 2 
 x1x 2

D
D 

1
[2-59]
149
dove D è il determinante della matrice delle covarianze:
D  s2x1 s2x 2  sx1x 2 sx1x 2
[2-60]
La [2-59] può essere modificata in modo da esprimere tutto in funzione delle varianze e del
coefficiente di correlazione:


s x1x 2
s 2x1
s x1x 2 

s 2x 2 
1
1

 s 2 (1  r 2 )
  x1
r

 s 2 s 2 (1  r 2 )
 x1 x 2
r

s 2x1s 2x 2 (1  r 2 ) 
1

2
2
s x 2 (1  r ) 
[2-61]
Il termine (1-r2) può essere portato fuori dalla matrice, essendo un divisore comune a tutti i termini
della stessa.
La traccia della matrice delle covarianze
tr ( V )  s2x1  s2x 2
misura la dispersione complessiva delle due variabili (delle M variabili, in generale). Il determinante
misura la dispersione nello spazio 2-dimensionale. Quando il coefficiente di correlazione ha valore
assoluto 1, perfetta correlazione positiva o negativa, gli oggetti cadono su di una linea nello spazio
delle due variabili; la linea ha una sola dimensione; non vi è dispersione su due dimensioni; il
determinante nullo indica proprio che la dimensionalità reale è inferiore al numero M delle variabili.
Le Figure da 2-57 a 2-59 illustrano la relazione tra correlazione e determinante.
Figura 2-57 - Debole correlazione negativa; determinante elevato
150
Figura 2-58 - Grande correlazione positiva; determinante piccolo
Figura 2-59 - Perfetta correlazione negativa; determinante nullo
La matrice inversa delle covarianze ha un significato simile all'inverso della varianza. Prima di
vederne la utilizzazione consideriamo una particolare distribuzione bivariata, la distribuzione
bivariata normale con variabili indipendenti. Una distribuzione multivariata normale è caratterizzata
dal fatto che tutte le distribuzioni marginali sono gaussiane.
In questo caso possiamo applicare la regola del prodotto delle probabilità, trattandosi di eventi
indipendenti: dalla forma
p(AB) = p(A) p(B)
possiamo passare alla forma con le densità di probabilità:
f ( x1, x 2 )
d 2p
dp dp

dx1 dx 2 dx1 dx 2
Questa relazione, come la precedente, può sembrare incoerente dal punto di vista
151
dimensionale, ma la probabilità non ha dimensioni e il prodotto di due probabilità non è una
probabilità al quadrato ma una probabilità.
La densità bivariata di probabilità è un infinitesimo di secondo ordine, e può essere
immaginata l’altezza del parallelepipedo infinitesimale di base dx1 .dx2 . La sua integrazione su tutto
il piano x1-x2 fornisce la certezza 1, il volume:
 
  f (x1, x 2 )dx1dx 2 1
Esprimendo mediante la gaussiana le due distribuzioni marginali otteniamo:
1
e
2 1
f ( x1, x 2 ) 

( x1  1 ) 2
2 12
1
e
2  2

( x 2  2 ) 2
2  22
[2-62]
che viene stimata utilizzando i valori stimati dei parametri m1 m2 s1 s2 .
La [2-62] viene agevolmente modificata in:
f ( x1, x 2 ) 
1
21 2
1  ( x  ) 2 ( x  ) 2 
  1 1  2 2 
2
12
 22

e 
[2-63]
ed è mostrata in Figura 2-60.
Figura 2-60
Distribuzione normale bivariata di due variabili incorrelate. Elemento infinitesimo
di volume.
Il termine tra parentesi quadra, che moltiplicato per -0.5 è l'operatore dell'esponenziale, è detto
DISTANZA (quadrata) di MAHALANOBIS:
152
( x1   1 ) 2
( x2   2 )2
mh 

12
 22
[2-64]
2
Essa ha un significato analogo al quadrato della variabile standardizzata Z in unidimensionale: si
riconosce facilmente che la mh2 è una variabile χ2 con due gradi di libertà, in quanto somma di due
variabili Z2 indipendenti. La distanza di Mahalanobis è una distanza che pesa le due variabili
inversamente alla loro dispersione: essa dà maggiore importanza alla variabile con minore varianza:
infatti per questa un relativamente piccolo valore dello scarto dalla media corrisponde a una Z
relativamente alta, quindi ad un significato basso; il contrario avviene per una variabile con grande
varianza.
Nel caso in cui le due variabili x1 e x2 siano correlate (caso piuttosto frequente) la distanza di
Mahalanobis assume una forma più complessa:
1
mh 
1  2 
2
 ( x1  1 ) 2 2  ( x1  1 ) ( x 2  12 ) ( x 2   2 ) 2 




2



 22 
1
1
2

[2-65]
dove compare il coefficiente di correlazione. Anche il moltiplicatore dell'esponenziale nella funzione
di distribuzione diventa più complesso:
1
2  1  2
1  2
Un modo molto più compatto di scrivere la funzione di distribuzione bivariata per variabili
correlate e la relativa distanza di Mahalanobis è basato sull'uso della notazione matriciale:
f ( x) 
1
(2) M / 2 V
e
1/ 2
1
1
 d1TM VMM
d M1
2
[2-66]
dove x è il vettore (x1,x2 nel caso di due variabili) che descrive le coordinate, M è il numero delle
variabili (2), V-1 è l'inversa della matrice delle covarianze, |V|1/2 è la radice quadrata del
determinante della matrice delle covarianze, d è il vettore delle distanze dalle medie x1-1, x2-2 .
La [2-66] è di validità generale, per qualunque valore di M, numero delle variabili, e per qualunque
correlazione tra le variabili: è la funzione di distribuzione normale multivariata, nella quale è
riconoscibile la espressione matriciale molto semplice della distanza di Mahalanobis, distanza che in
generale segue una statistica χ2 con M gradi di libertà.
153
2.22.2 – Intervalli di fiducia bivariati
Un intervallo di fiducia bivariato è dato da una superficie nello spazio delle due variabili X 1
2
che
racchiude il p% della probabilità; in altri termini

SUPERFICIE
f ( x1 , x 2 ) dx1 dx 2  p%
dove il simbolo di integrale intende che la integrazione è effettuata su tutta la superficie S. Vi sono
infinite superfici che soddisfano tale condizione, a parità di p%. L'intervallo di fiducia risponde a
precisi criteri di simmetria. Nel caso della distribuzione univariata il criterio di simmetria era
rappresentato, per tutte le distribuzioni (simmetriche o asimmetriche), da S = D , dove S indica la
probabilità di significato unilaterale sinistra e D la probabilità unilaterale di significato destra: la
probabilità che rimane fuori dall'intervallo di fiducia è ripartita equamente tra valori grandi e valori
piccoli della variabile.
A questo criterio univariato corrisponde, ma solo per funzioni simmetriche, un EGUALE VALORE della
f(x) ai limiti dell'intervallo.
Questo criterio si applica anche alle funzioni di distribuzione di probabilità multivariate normali: un
intervallo di fiducia è la superficie che contiene il p% della probabilità e che è delimitata da una LINEA
ISOTETICA (linea che congiunge i punti con eguale valore della densità di probabilità, Figura 2-61).
Questa linea è una linea chiusa nel piano delle due variabili.
Dalla [2-63] si evince che per avere eguali valori della f(x1,x2) basta avere eguali valori della
distanza di Mahalanobis. La probabilità di avere un certo valore della distanza di Mahalanobis si
ricava facilmente dalla statistica χ2 con 2 (M in generale) gradi di libertà. L'intervallo di confidenza
bivariato al p% di fiducia è connesso con il valore della distanza di Mahalanobis, ricavato quale valore
di significato unilaterale destro della distribuzione χ2 . Fuori dall'intervallo di fiducia rimangono i
valori (x1,x2) che hanno una distanza di Mahalanobis (dal centroide 1, 2 ) superiore a questo valore
critico (e questo spiega perché nella statistica χ2 viene considerato il significato unilaterale destro).
La [2-64], equazione della distanza di Mahalanobis, è la equazione di una ellisse con gli assi
paralleli agli assi delle coordinate X1 ,X2 . È il caso di variabili incorrelate. Quando le variabili sono
correlate, e si applica la [2-65], le ellissi isotetiche, confini dell'intervallo di fiducia bivariato,
diventano oblique rispetto agli assi, e dirette da sinistra in basso a destra in alto se il coefficiente di
correlazione è positivo. Se il coefficiente di correlazione è negativo le ellissi di isoprobabilità sono
154
dirette da sinistra in alto a destra in basso. Se il coefficiente di correlazione è +1 o -1 le ellissi
degenerano in rette.
Figura 2-61 – Distribuzione normale bivariata con le linee isotetiche, Intervalli di fiducia bivariati
per variabili incorrelate, debolmente correlate positivamente, fortemente correlate negativamente.
Occorre notare che la variabile 2 , somma di un certo numero di variabili Z2 indipendenti, è
analoga alla Z nel senso che presuppone la conoscenza delle dispersioni, varianze e covarianze, della
popolazione. Come in statistica univariata è necessario usare la t di Student con la stima delle
deviazioni standard, così in analisi multivariata si usa la funzione T 2 che è la somma di variabili t2; la
T2 è la variabile di Hotelling, e sta alla 2 come la t di Student sta alla Z di Gauss.
2.23 - LA REGRESSIONE UNIVARIATA
Con regressione si intende l'insieme delle tecniche statistiche che modellano la relazione tra
una o più variabili predittrici ed una o più variabili risposta. L'utilizzazione più diffusa in chimica
analitica della regressione è quella che riguarda le rette di calibrazione che vengono utilizzate per
ottenere da una variabile fisica misurata (Y) il valore incognito di una variabile chimica (X): in questo
caso poiché vi è una sola variabile predittrice ed una sola variabile risposta si parla di regressione
univariata.
Il metodo statistico più diffuso per lo studio dei problemi di regressione univariata è quello
dei minimi quadrati con retta generica e ipotesi di omoscedasticità. Retta generica significa che la
155
retta che deve spiegare la relazione tra la variabile predittrice e la variabile risposta non ha vincoli
(un vincolo possibile è il passaggio per l'origine, altro vincolo possibile potrebbe essere pendenza
unitaria). Omoscedastico è un termine che indica che la varianza è supposta indipendente dal valore
della variabile misurata.
Oltre al caso di retta generica omoscedastica possiamo quindi avere anche altre situazioni, le più
importanti essendo la retta vincolata per l'origine, omoscedastica, la retta generica eteroscedastica,
la retta per l'origine eteroscedastica.
Considereremo inizialmente il caso della retta generica omoscedastica. Per quanto sia ben noto il
procedimento matematico attraverso il quale vengono stimate intercetta e pendenza della retta
(metodo dei minimi quadrati) vi sono ulteriori considerazioni statistiche molto importanti che sono
poco conosciute.
2.23.1 – Retta generica – Omoscedastica
2.23.1.1 - Il modello
Le variabili X (valore generico x) ed Y (valore generico y) sono rispettivamente la variabile
risposta e la variabile misurata, la quale è una variabile random affetta da errore.
Nella fase di calibrazione si ammette che la X, fattore fissato, sia esente da errore. Per questa
ragione solo la Y è una variabile a caso, e perciò si parla spesso di regressione univariata.
Il modello assume che le due variabili siano collegate dalla relazione:
y=+x+
[2-67]
dove  e  sono delle costanti ed  è l’errore casuale con media = 0 [si usa anche il simbolo E( ) per
definire l’operatore media della popolazione, soprattutto quando si ha a che fare con numerosi
esperimenti a caso per cui non sarebbe opportuno usare per tutti lo stesso simbolo, mentre il
contenuto della parentesi nell’operatore E( ) specifica l’esperimento] e con varianza INDIPENDENTE
dal valore di x e quindi da quello di y. Questa è appunto la condizione di omoscedasticità, illustrata
nelle Figure 2-62 e 2-63.
La variabile Y è una variabile condizionale, la condizione essendo rappresentata dal valore
della X.
In realtà tutte le variabili a caso sono condizionali, nel senso che l’esperimento è condotto fissando
un insieme di parametri. Quando parliamo comunemente di variabile condizionale intendiamo che
fissiamo l’attenzione su di un particolare fattore, e che vogliamo studiare l’effetto di quel fattore,
variandolo opportunamente, sui risultati dell’esperimento. Una variabile condizionale si indica
156
accompagnandola con una barra seguita dalla condizione: Y/X=x, o anche Y/x (intendendo che X è la
variabile che misura il fattore in studio e che ha quel particolare valore x).
Per qualunque valore della condizione X, la media della popolazione delle y (o valore vero, yvero) deve
essere:
E(Y/X=x) = =  +  x
[2-68]
e la varianza della y, sotto la ipotesi che la X sia esente da errore, deve essere eguale a quella
dell’errore casuale, 2.
Figura 2-62 - Frequenze di 6 variabili condizionali (Y/X=x), con eguale varianza, illustrate dai risultati
ottenuti in 10 ripetizioni
157
Figura 2-63 - Distribuzioni di probabilità di 6 variabili condizionali (Y/X=x) con eguale varianza
Gli obiettivi dello sperimentatore sono:
Nella fase di costruzione della retta di calibrazione:
10) stimare i coefficienti  e  che compaiono nel modello; le stime vengono indicate con i simboli
“a” e “b”;
b) ottenere una stima di 2 e delle incertezze delle stime della pendenza e della intercetta;
c) valutare la ipotesi che i coefficienti stimati siano misure di valori ipotetici. Le ipotesi più correnti
sono:
H0
a=0
H0
b=1
H0
a = 0; b = 1
Nella fase di utilizzo della retta di calibrazione:
d) utilizzare le stime dei coefficienti per ottenere da un valore misurato della Y, y, la stima del valore
della condizione o variabile risposta, x;
e) stimare la incertezza sul valore di x (in questa fase la X non è fissata ad un valore scelto
dall’operatore e privo di errore, ma è stimata ed è pertanto una variabile random).
Illustreremo il procedimento seguendo lo stesso ordine visto per gli obiettivi dello sperimentatore,
158
facendo riferimento all’esempio numerico della Tabella 2-23.
Ogni volta che dobbiamo valutare i parametri di un modello ci serve una raccolta di
dati statistici, un campione.
In questo caso occorre avere un insieme di I coppie xi yi estratte dalla popolazione infinita delle Y.
Poiché il nostro modello riguarda lo studio della relazione tra le due variabili, occorre che i valori di
Y provengano da valori differenti della condizione X. I valori di X dovrebbero essere scelti con
considerazioni che derivano dalla teoria del disegno sperimentale, in modo da coprire l’intervallo di
X che ci interessa. Per il momento ci limiteremo a supporre che gli I valori prefissati della X, da x1 a xI
(valore generico indicato con xi), non siano coincidenti. I valori corrispondenti della Y sono valori
delle funzioni condizionali Y/X=xi e ogni valore yi è affetto da un errore estratto dalla popolazione
infinita delle Y.
In pratica nella fase di calibrazione gli xi sono i valori di una quantità chimica (generalmente una
concentrazione) di opportuni standards, sistemi chimici per i quali il valore della quantità chimica è
noto con accuratezza tale da poter pensare verificata la ipotesi del metodo dei minimi quadrati che
la X non sia affetta da errore.
Tabella 2-23
Dati simulati per lo studio della regressione lineare ordinaria
a) Dati per la calibrazione I = 10
Indice
1
2
3
4
5
6
7
8
9
10
X
1
2
3
4
5
6
7
8
9
10
Y
0.703
1.624
2.212
5.725
6.035
4.946
4.641
8.657
8.949
9.543
b) Dati per utilizzare la retta di calibrazione (estratti dalla popolazione Y/X=8)
Indice
1
2
3
4
5
y
6.517
7.961
8.791
6.572
10.240
In questo caso la varianza è molto elevata [i dati sono stati estratti utilizzando la [2-67] ed un errore
estratto a caso da una popolazione gaussiana standard (=0, =1) ], in modo da poter illustrare il
procedimento statistico con figure in cui le ampiezze degli intervalli di fiducia non siano
eccessivamente piccole in rapporto con i valori delle due variabili.
159
2.23.1.2 - La giustificazione del metodo dei minimi quadrati
Il metodo detto dei minimi quadrati deriva il suo nome dal fatto che la retta stimata è quella
per la quale è minima la somma dei quadrati dei residui, scostamenti tra i valori sperimentali e quelli
forniti dalla retta (Figura 2-64).
In effetti anche l’usuale stimatore m (media del campione) della media  di una popolazione
X è ottenuto con il metodo dei minimi quadrati. Infatti, se abbiamo campionato I valori della X, il
metodo dei minimi quadrati ci dice che lo stimatore m deve essere quello per cui è minima la
funzione S:
S
 (x
i
 m) 2
i
Figura 2-64 – I residui
Il minimo si ottiene annullando la derivata prima di S rispetto ad m:
dS
  2 ( x i  m)  0
dm
i
da cui discende la:
x   m  x
i
i
i
i
Im0
i
che fornisce per m, stimatore con i minimi quadrati di , appunto la media del campione.
La base della giustificazione teorica del metodo dei minimi quadrati per la stima della
160
relazione tra E(y/X=x) ed X è che i valori determinati dallo sperimentatore non possono essere molto
strani, cioè poco probabili.
Se abbiamo determinato M valori di Y per M diversi valori di X, possiamo considerarli insieme come
un risultato di un unico esperimento a caso, e questo ha la funzione di distribuzione della densità di
probabilità della distribuzione normale M-variata:
f(y/X=x1 , y/X=x2 ,..... y/X=xM-1 , y/X=xM )
che si ottiene semplicemente dal prodotto delle distribuzioni marginali, come abbiamo visto per la
distribuzione bivariata normale con variabili indipendenti. E in effetti le I variabili condizionali
DEVONO essere indipendenti. Se il risultato ottenuto per un certo valore di X dipende dai risultati ad
altri valori di X sicuramente vi sono errori sperimentali grossolani, come l'omissione della pulizia della
apparecchiatura tra l'analisi di un campione e quella del successivo.
La massima VEROSIMIGLIANZA (likelihood) si ha quando l'evento ha una alta, la massima,
probabilità. E la probabilità è massima quando la distanza di Mahalanobis è minima. Si ricordi la [266]:
f ( x) 
1
(2) M / 2 V
1/ 2
1
1
 d1' M VMM
d M1
2
e
[2-66]
che per le variabili indipendenti Y (X=x1), Y (X=x2),… diventa, tenendo conto che siamo in condizioni
omoscedastiche e quindi tutte le Y hanno la medesima varianza
f ( y / X  x1 ,y / X  x 2 ,.....,y / X  x M 1 , y / X  x M ) 

1
2 M
( y  M ) 2 
1  ( y  ) 2 ( y  2 ) 2
  1 1  2
 .....  M

2 
2
2
2

e
mh 2 
con
( y1  1 ) 2 ( y 2   2 ) 2
(yM  M )2


......

2
2
2
analoga alla [2-63]
f ( x1 , x 2 ) 
1
21  2
1  (x  ) 2 (x  2 ) 2 
  1 1  2

2
12
 22

e 
[2- 63]
Pertanto la probabilità è massima se è minima la somma dei quadrati nella distanza di Mahalanobis.
Questa è la base teorica del metodo dei minimi quadrati.
161
I calcoli
Il metodo dei minimi quadrati stima i coefficienti  e  mediante le ben note:
a
b
 yi  x i2  x i  x i yi
i
i
i
i


I  x i2    x i 
i
 i

[2-69]
2
I  x i yi   x i  yi
i
i
i


I  x i2    x i 
i
 i

[2-70]
2
che possono essere espresse più convenientemente attraverso i momenti ed i momenti centrali del
campione.
Nel seguito indicheremo i momenti del campione con i simboli:
mhk : momento di ordine h rispetto a X, di ordine k rispetto a Y;
m10 = mx : momento del primo ordine rispetto a X = media delle x;
m01 = my : momento del primo ordine rispetto a Y = media delle y.
La stima della media di una variabile X viene frequentemente indicata con x .
È largamente usato, nel caso in cui vi siano più indici (analisi multivariata), il simbolo x. , dove il punto
indica l'indice sul quale è stata calcolata la media: p.e.
x . j   x ij I .
i
I momenti centrali del campione verranno indicati con il simbolo chk: momento centrale di ordine h
rispetto a X, di ordine k rispetto a Y:
c hk 
 ( x i  x ) h ( y i  y) k
i
I
I momenti mhk ed i momenti centrali chk di variabili campionate sono stime dei corrispondenti
parametri della popolazione che verranno indicati con hk e con μ’hk rispettivamente.
Come abbiamo visto per la varianza (momento centrale del secondo ordine), il momento centrale
del campione è una stima biased di quello della popolazione. Analogamente a quanto effettuato per
la varianza, stime migliori dei momenti centrali della popolazione si ottengono dividendo la
sommatoria dei prodotti per I-1 anziché per I.
I simboli per i momenti e per gli altri parametri non sono uniformi in letteratura. Una notevole
162
diffusione hanno avuto anche altri tipi di notazione, quale l'uso di una lettera latina per i parametri
della popolazione, e della stessa lettera, sormontata dal simbolo ^ (hat=cappello) per le stime: es.
a , a . La hat è praticamente obbligatoria quando la lettera è la y, eguale nei due alfabeti greco e
latino.
Si ricordi anche che il momento del primo ordine o media di una variabile è anche detto speranza
(expectation) matematica ed indicato con E(X), dove X indica la variabile. E((X-E(X))2 ) è la media della
popolazione del quadrato delle deviazioni, e pertanto coincide con 2.
Con l'utilizzo dei momenti e dei momenti centrali le [2-70] e [2-69] assumono le forme
rispettivamente:
b
c11
c20
[2-71]
a  m01  b m10  my  b mx
[2-72]
Con una formula simile si può esprimere un'altra grandezza che spesso è di interesse, l'intercetta
sull'asse X, che indicheremo semplicemente con c (che non può essere confuso con i momenti
centrali in quanto privo di pedice):
c  mx  my / b
[2-73]
Per l'esempio riportato nella Tabella 2-23 abbiamo:
mx = 5.5
my = 5.3035
c20 = 8.25
c02 = 8.805
c11 = 7.936
a = 0.01287
b = 0.96193
La retta di regressione ci permette di stimare i valori di Y per un dato valore di X.
Questa stima è fornita dalla:
ŷa bx
[2-74]
163
e per gli I valori campionati di x si ottiene:
ŷi a bx i
[2-75]
Il valore della Y è calcolato dalla retta che passa in mezzo ai punti sperimentali, con esattamente lo
stesso significato della stima
x della media in un caso univariato.
Analogamente al caso univariato, in cui gli scarti o residui sono misurati dalla differenza tra il valore
sperimentale e la media, misuriamo gli scarti dalla retta di regressione (o residui) come
ri  y ŷ .
Per i dati della Tabella 2-23 otteniamo:
Indice
yi
y i
ABS( y i  y i )
1
2
3
4
5
6
7
8
9
10
0.703
1.624
2.212
5.725
6.035
4.946
4.641
8.657
8.949
9.543
0.9748
1.9367
2.8987
3.8606
4.8225
5.7845
6.7464
7.7083
8.6703
9.6322
0.2718
0.3127
0.6867
1.8644
1.2125
0.8385
2.1054
0.9487
0.2787
0.0892
Questi risultati sono visualizzati nella Figura 2-65.
Figura 2-65 – Punti sperimentali (Tabella 2-23) e retta di regressione
Analogamente al caso univariato, in cui la varianza è stimata dalla sommatoria dei quadrati dei
164
residui, otteniamo la stima della varianza dell'errore (la più importante quantità statistica in
regressione) dalla:
I
 ( yi ŷi ) 2
s 2  i 1
[2-76]
I2
dove il denominatore è il numero dei gradi di libertà che è stato ottenuto diminuendo I di 2, il numero
dei parametri stimati (a,b). Si noti come il numeratore della [2-76] sia proprio la somma che viene
minimizzata dal metodo dei minimi quadrati.
I test su questa varianza vengono effettuati con una statistica 2 con I-2 gradi di libertà.
La [2-76] può essere sostituita dalla [2-77] che calcola s2 direttamente dai momenti centrali:
2
s 2  (c02 c11
/ c 20 )
I
I2
[2-77]
La varianza di my (media delle y) viene ottenuta da s2 in modo analogo a quello in cui nel caso
univariato si ottiene la varianza della media:
s 2m y 
s2
I
[2-78]
Indicheremo in seguito la deviazione standard della media my anche con il simbolo sm.
Per i dati della Tabella 2-23 risulta rispettivamente:
s 2 = 1.4638 s 2m y = s 2m = 0.14638
s = 1.2099 s m y = s m = 0.38260
Disponiamo pertanto di una stima di 2 . Ora occorre valutare la dispersione dei parametri intercetta
e pendenza.
Iniziamo con la stima di b , sb .
Sappiamo che quando una variabile è una funzione di un certo numero di variabili INDIPENDENTI la
sua varianza si calcola dalla varianza delle variabili indipendenti mediante la regola della
propagazione delle varianze, che può essere applicata sia alle varianze della popolazione che alla
loro stima.
La equazione [2-71] b  c11 c 20 ha come denominatore una grandezza senza errore. Pertanto se
la svolgiamo in:
165
b
 (x i  m x )( yi  m y )
i
[2-79]
I c 20
vediamo che b è funzione delle I variabili indipendenti yi , (Y/X=xi ), con la stessa varianza 2 (nel caso
di omoscedasticità), e della my.
Tuttavia ogni y è contenuta anche nella media my che non risulta pertanto indipendente dalle yi .
Pertanto la [2-79] deve essere modificata in modo da esplicitare le yi .
Si ottiene facilmente la relazione poco nota:
b 
 (x i  m x ) y i  m y  (x i  m x )
i
i
I c 20
da cui, essendo nulla la somma
 (x i  m x )
, si ricava la:
i
b 
 (x i  m x ) y i
i
[2-80]
I c 20
Applicando alla [2-80] la legge di propagazione delle varianze, essendo:
2
  b  (x i  m x ) 2

 
(Ic 20 ) 2
  yi 
si ottiene:
s 2b  s 2
 (x i  m x )2
i
(Ic 20 ) 2
Infine, essendo
 (x i  m x )2 Ic20 per la definizione di momento secondo centrale , si ottiene:
i
s 2b 
s2
I c 20
[2-81]
Avendo semplificato la espressione di b, dalla [2-79] alla [2-80], da quest'ultima possiamo notare che
il valore di b non dipende dal valore di my . In altre parole le due variabili b e my sono variabili
indipendenti.
Per questo motivo dalla [2-72]:
a m01 bm10  m y bm x
[2-72]
tenendo presenti la [2-78] e la [2-81], applicando la regola per la propagazione delle varianze, si
ottiene:
166
1 m 2 
s a2  s 2m y  m 2x s 2b  s 2   x 
 I Ic 20 
[2-82]
che ci fornisce la varianza della intercetta sull'asse Y.
Utilizzando le due variabili indipendenti b e my si ottengono in alternativa alle
ŷa bx
[2-74]
ŷi a  b x i
[2-75]
sostituendo ad a la espressione
a  m y bm x
[2-72]
le
ŷm y  b ( x m x )
[2-83]
ŷi m y  b ( x i  m x )
[2-84]
2.23.1.3 - Il disegno
Nella
s 2b 
s2
Ic20
[2-81]
prima varianza ottenuta dalla stima della varianza dell’errore, compare il termine
 (x i  m x )2 Ic20
i
che condiziona tutte le varianze, tutte le incertezze della regressione, come vedremo più avanti.
167
Questo termine ha un valore che dipende dal numero dei punti sperimentali, ma anche, e molto, dal
DISEGNO, vale a dire dalla scelte dei punti sperimentali.
Nella pratica il chimico deve scegliere gli standard in modo da coprire un determinato range,
intervallo nel quale suppone che cadrà il valore delle quantità chimiche incognite da determinare.
Ma all’interno del range dispone di una notevole libertà.
Oltre vediamo come il termine I c20 varia con il variare dei punti sperimentali, sia in numero che in
disposizione.
Il disegno (0,10), due soli punti agli estremi dell’intervallo, è il MASSIMO ECONOMICO. Esso ha il
vantaggio di un costo ridotto (solo due esperimenti), ma lo svantaggio di non fornire una misura della
varianza dell’errore. Questa è fornita dal disegno (0,5,10), che, con lo stesso valore di I c 20 permette
di avere una stima (cattiva) della varianza.
Il disegno usuale adottato in laboratorio (0,1,2,3,4,5,6,7,8,9,10) che sceglie gli standard ad intervalli
eguali ha un valore di I c20 110, poco più di 1/3 del disegno (0,0,0,0,0,10,10,10,10,10), con cinque
punti a ciascun estremo dell’intervallo (ripetizione di determinazioni su soli due standards); il disegno
(0,0,10,10) con solo quattro determinazioni e quindi un costo molto basso ha un valore di I c20 pari a
100, e risulta quindi molto più economico e con termine I c20 poco minore di quello del disegno
equispaziato a 11 punti e praticamente eguale a quello di un disegno equispaziato con 10 punti (0,
1.11, 2.22,…) che ha valore di I c20 pari 101.85
In effetti altre considerazioni devono essere fatte oltre a quelle sul valore di I c20 , in primo
luogo quella sulla incertezza sulla stima della varianza dell’errore, quindi quella che con un disegno
equispaziato otteniamo anche informazioni sull’andamento dei residui, che ci permette di verificare
la omoscedasticità e la linearità, ma quando la ECONOMIA è della massima importanza, occorre
ricordare che una scelta oculata delle condizioni sperimentali, del DISEGNO SPERIMENTALE, può
dare ottimi risultati ad un costo minimo.
2.23.1.4 - I polinomi ortogonali
Confrontando la [2-75] e la [2-84] notiamo come la stessa grandezza è espressa in [2-75] come
funzione, attraverso i coefficienti a e b, dei due polinomi P1 = 1 e P2 = xi , mentre in [2-84] è espressa
come funzione, attraverso i coefficienti my e b, dei due polinomi O1 = 1 ed O2 = xi - mx . Mentre P1 e
P2 non sono ortogonali sull'insieme dei punti sperimentali, lo sono O1 e O2 . La condizione di
ortogonalità dei polinomi è infatti:
168
 O1i O2i  0
[2-85]
i
che è verificata per i due polinomi O1 = 1 ed O2 = xi - mx in quanto
 O1i O2i   1(xi mx )  mx Imx  0
i
i
i
È agevole ricavare che la stessa relazione non vale per i polinomi P1 e P2 .
La [2-85] si estende moltiplicando i polinomi per qualunque coefficiente costante, ed in particolare
 m y O1i bO2i  0
i
e ciò indica che le due parti che contribuiscono a y nella [2-83] sono ortogonali, incorrelate.
Per quanto riguarda la correlazione tra i due parametri, intercetta a, misura di , e pendenza b,
misura di , abitualmente utilizzati per descrivere la retta di regressione, la covarianza si ottiene (si
ricordi che la X è esente da errore) da:
 ab  E ((a  )(b  )) 
 E((m y  bm x  y m x )(b  )) 
 E((m y  y )(b  ))  E((bm x  m x )(b  )) 
 E((m y  y )(b  ))  m x E((b  )(b  )) 
 0 m x 2b  m x 2b 
 m x
2
I  20
in quanto il primo termine è la covarianza di due grandezze che abbiamo visto essere incorrelate, ed
il secondo comprende la media del quadrato degli scarti di b dal valore vero , quindi la varianza di
b, che può essere espressa dal limite della [2-81])
La covarianza sab viene stimata dalla:
s ab
s2
 m x
I c 20
Il coefficiente di correlazione tra i parametri "a" e "b" è stimato dalle stime della covarianza e da
quelle (equazioni [2-81] e [2-82]) delle varianze:

rab 
mx
I c 20
 1 m 2
  x
 I I c 20
 1 


 I c 20 




1/ 2
mx
I c 20
 c 20  m 2x 

2 
 (I c 20 ) 
1/ 2

c
m x

2 1/ 2
20  m x
169
tenendo anche conto del fatto che:
c 20 

 (x i m x ) 2  x i2 2 x i m x  m 2x

i
I
i
i
i
I

 x i2 2m x  x i  m 2x  x i2 2m x I m x  I m 2x
i
i
i
I

i
I
  m 20 m 2x
si ottiene la
rab 

m x

1/ 2
c 20  m 2x

 mx
m 20
[2-86]
Poiché i momenti della variabile X sono esenti da errore, anche il coefficiente di correlazione è esente
da errore, e quindi non è una variabile casuale. Esso è determinato univocamente dalla scelta degli I
valori di X.
Si noti come per una serie di valori positivi di X il coefficiente di correlazione tra intercetta e pendenza
è negativo.
Esso è nullo qualora la X sia stata centrata (mx =0); in questo caso la intercetta coincide con my e la
[2-84] coincide con la [2-75].
Generalmente, nei casi di interesse analitico, il coefficiente di correlazione è più negativo di -0.9,
quindi la correlazione negativa è molto alta.
Nel caso dei dati della Tabella 2-23 il coefficiente di correlazione è -0.886.
2.23.1.5 - I test su intercetta e pendenza
Intervalli di fiducia marginali di intercetta e pendenza
Per quanto riguarda i test delle ipotesi nulle:
H01
a=0
H02
b=1
H03
a = 0; b = 1
(esempio frequente di test in cui si vuole appurare se intercetta e/o pendenza sperimentali possono
essere compatibili con prefissati valori ipotesi di  e di  ).
Per H01 e H02, usuali test univariati, si ricorre a test di Student con I-2 gradi di libertà:
170
H01 passa se il valore ipotizzato (=0) è compreso nell'intervallo di fiducia del valore vero intorno al
valore determinato, cioè se:
a - tp sa    a + tp sa
H02 passa se il valore testato (=1) è compreso nell'intervallo di fiducia di  intorno al valore
calcolato:
b - tp sb    b + tp sb
Ovviamente le ipotesi alternative possono essere tali da richiedere test bilaterali o unilaterali.
Analoga alle precedenti è la formulazione dell'intervallo di fiducia della media della Y stimata da my
:
my - tp sm  y  my + tp sm
my - tp s /I  y  my + tp s /I
Per il test della ipotesi nulla H03 che è costituito da due ipotesi contemporanee, occorre invece
introdurre il concetto di intervalli di fiducia bivariati, o congiunti.
Intervalli di fiducia congiunti
La ipotesi H03 coincide con la
H04 : my = mx , b = 1
dove compaiono due parametri, b e my , indipendenti.
Inizialmente consideriamo, per la ipotesi H04 , la distribuzione congiunta delle due variabili
indipendenti my e b.
Le variabili
(my - y )/ m e
(b - ) / b
sono variabili standard e pertanto la loro distribuzione congiunta di probabilità è data dalla
distribuzione gaussiana standard bivariata per variabili indipendenti.
Gli intervalli di fiducia sono una serie di cerchi (che corrispondono ad ellissi con gli assi paralleli agli
assi delle coordinate nello spazio delle variabili non standardizzate my e b), ed il raggio delle
circonferenze isotetiche (eguale valore della funzione di distribuzione di probabilità) che delimitano
i cerchi si ottiene dalla equazione della distribuzione 2 con due gradi di libertà:
171
2
2
 my  y   b   

 
   2


m

  b 
[2-87]
selezionando un opportuno valore della probabilità di fiducia, il valore p% unilaterale destro della
distribuzione . Per una probabilità di fiducia eguale al 95%, il valore 95% della distribuzione è 5.99.
Poiché non disponiamo dei valori delle varianze ma delle loro stime, le sostituiamo nella [2-87]
 my  y

 s
m

2
2
  b 
2
 

  s  T
  b 
Otteniamo una variabile analoga alla variabile 2; ma mentre questa è la somma di un certo numero
di variabili Z2 indipendenti, la nuova funzione è la somma di variabili t2; essa è la variabile di Hotelling,
e sta alla 2 come la t di Student sta alla Z di Gauss.
Modifichiamo la equazione risultante, tenendo conto della
[2-78]
s 2m 
s2
I
e della [2-81]
2
s 2b 
s2
s2
 m ;
I c 20 c 20
otteniamo :
2
 my  y   b   

 
  T 2 
s
s
m

  b 

(m y   y ) 2  c 20 (b  ) 2
s 2m

(m y   y ) 2  c 20 (b  ) 2
2
s 2m
2
Si ricordi ora che la varianza di una variabile X è definita come E(X-)2 e pertanto un singolo valore,
determinabile solo se è noto , (x-)2, è una stima della varianza con 1 grado di libertà ( non è
calcolato dall’unico dato sperimentale e pertanto non diminuisce il numero di gradi di libertà).
Pertanto ( m y   y ) 2
è una stima di s 2m con 1 grado di libertà.
A sua volta (b  ) 2 è una stima di s 2b 
s 2m
con 1 grado di libertà.
c 20
Pertanto c 20 (b  ) 2 è una seconda stima di s 2m con 1 grado di libertà.
La media delle due stime
(m y   y ) 2  c 20 (b  ) 2
2
è una stima con due gradi di libertà.
Pertanto tornando alla
172
(m y   y ) 2  c 20 (b  ) 2
T 2 2
2
s 2m
essa è eguale a 2 che moltiplica un rapporto tra una varianza stimata con due gradi di libertà e la
stessa varianza stimata con I - 2 gradi di libertà.
Figura 2-66 - Intervalli di fiducia di pendenza e della media delle y.
Figura 2-67- Intervalli di fiducia di pendenza e intercetta
Questo rapporto deve seguire una distribuzione di Fisher con 2 gradi di libertà al numeratore e I-2
gradi di libertà al denominatore, e pertanto:
173
2
2
 my  y   b   

 
  T 2  2F2, I  2
 sm   sb 
[2-88]
In generale ogni variabile di Hotelling è riconducibile ad una opportuna variabile di Fisher.
Il valore critico di F si ottiene dalle tavole della distribuzione di Fisher con 2 gradi di libertà al
numeratore e I-2 al denominatore al livello di fiducia scelto. Nel caso dell'esempio in Tabella 2-23,
per il livello di fiducia 95%, il valore p% della distribuzione di Fisher con 2 e 8 gradi di libertà è 4.46,
sicché 2 F è 8.92, sensibilmente superiore a 5.99, valore 95% della distribuzione 2 con due gradi di
libertà, valore che diventa accettabile solo quando il numero N è superiore a 100.
Nella Figura 2-66 è mostrato per i dati della Tabella 2-23 l'intervallo di fiducia congiunto a livello 95%
di my e di b, mentre nella Figura 2-67 è mostrato quello congiunto di intercetta e pendenza.
Il test con ipotesi nulla H04 può essere effettuato graficamente, osservando se il valore ipotesi si trova
all'interno della ellisse di fiducia. Se, come generalmente accade, non si vuole utilizzare il metodo
grafico, si calcola dalla [2-88] il valore di 2 F, utilizzando i valori ipotesi:
2
 my  mx   b 1 
 

2F 
 sm   sb 
2
e si ottiene la probabilità di significato (unilaterale destra) eventualmente senza l'uso delle Tavole
della F (che forniscono solamente la F corrispondente a determinati valori di %), ma dalla
  

% 100
  2F 
/2
[2-89]
espressione che vale unicamente quando la F ha due gradi di libertà al numeratore e  qualunque
al denominatore.
Procediamo ora al test H03 .
Le variabili a,b sono variabili correlate e pertanto la loro distribuzione congiunta di probabilità
è data dalla distribuzione gaussiana bivariata per variabili correlate. Gli intervalli di fiducia sono una
serie di ellissi generalmente con gli assi inclinati rispetto agli assi delle coordinate a,b. La equazione
delle ellissi si ricava facilmente dalla formulazione della distanza di Mahalanobis della distribuzione
normale bivariata. Risulta:
 (a  ) 2 2(a  )(b  ) (b  ) 2  2



 
a  b
1   2   a2
 2b 

1

[2-90]
analoga alla [2-87].  è il coefficiente di correlazione (senza errore) definito dalla [2-86]: rab 
Poiché (dalla [2-82])
174
 mx
m 20
1 m 2 
c  m 2x 2 c 20  m 2x
s a2  s 2   x   s 2 20
s m
Ic 20
c 20
 I Ic 20 
Facilmente si dimostra che
1
1 r

2
1
1
m 2x
m 20

m 20

2
m 20
m 20  m x m 20  m 2x

c 20 m 2x s a2  a2
 2  2
c 20
sm m
Poiché a -  = my - y potremmo ottenere dalla [2-90] la [2-87] e quindi, passando alle stime, la [288]. Pertanto:
1
1  r 
2
ab
 (a  ) 2 2(a  )(b  ) (b  ) 2 



  2F
2
sa sb
s 2b 
 s a
[2-91]
espressione che ci consente di testare la ipotesi.
175
2.23.1.6 - Intervallo di fiducia della giacitura della retta di regressione
Ricordiamo la equazione della retta di regressione, nella forma
ŷ  m y  b ( x m x )
[2-83]
in cui y appare funzione di variabili indipendenti. Alla [2-83] possiamo applicare la regola di
propagazione delle varianze ottenendo:
1 ( x  m x )
s 2ŷ s 2  
Ic 20
 I
2


[2-92]
Questa è la Varianza del valore di y stimato dalla retta di regressione, funzione di x. Essa si riduce
alla varianza di my quando x = mx ed alla varianza della intercetta "a" quando x = 0.
Dalla [2-92] otteniamo la espressione dell'intervallo di fiducia della y (o intervallo di fiducia di un
valore generico calcolato con la retta di regressione) come:
y vero x  ŷ t p s ŷ 
1/ 2
1 ( x  m x ) 2 
 m y  b( x  m x ) t p s  

Ic 20 
 I
[2-93]
Il significato della [2-93] è il seguente: dato un valore x della X, il valore vero della y ( +  x) è
compreso con la probabilità p% entro l’intervallo fornito dalla [2-93].
176
Figura 2-68 - Retta di regressione e intervalli di fiducia
La [2-93] è la equazione di due rami di iperbole che nel piano delle variabili X,Y delimitano lo spazio
in cui con probabilità p% giace un valore generico della retta  +  x . Tale iperbole è detta IPERBOLE
INTERNA.
Ciò non vuol dire che dati p.e. due valori della x il valore vero della y sia compreso per ambedue i
valori con la stessa probabilità nell’intervallo [2-93].
Modificando la [2-93],sostituendo tp con
2F2, I-2, p si ottiene un intervallo di fiducia di validità
congiunta: questo è il vero intervallo di fiducia della giacitura della retta di regressione (IPERBOLE
INTERNA ALLARGATA).
L'iperbole interna per i dati della Tabella 2-23 è mostrata nella Figura 2-68.
Sostituendo ad x il valore 0 nella [2-93] si ottiene l'intervallo di fiducia della intercetta sull'asse Y,
quale si poteva ricavare direttamente dalla varianza della intercetta, ma che, derivato dalla [2-93], si
interpreta come definito dalle intersezioni della iperbole interna con l'asse Y:
177
1/ 2
 


1 m2x 
a  tp s  

 I I c20 
1/ 2
Il termine 1  ( x  m x )  che appare nella [2-93] condiziona l’incertezza sulla giacitura della retta
I
2
I c 20

di regressione. Esso dipende ovviamente dal disegno sperimentale, in quanto contiene la somma dei
quadrati  (x i  m x ) 2  Ic 20 .
i
2


Vediamo quale è il valore massimo di 1  (x  m x ) 
I c 20 
I
1/ 2
per i disegni sperimentali esaminati
precedentemente:
L’effetto del disegno sperimentale è meno evidente (data la introduzione del termine 1/I e
l’operazione di radice quadrata), ma appare chiaro che un disegno con 6 punti agli estremi è
praticamente equivalente per quello che riguarda la incertezza sulla retta di regressione a quello di
undici punti equidi stanziati. Ovviamente occorre ancora tenere conto della incertezza sulla stima
della deviazione standard, espressa dalla t di Student. Tuttavia vi sono casi in cui la  dell’errore è
nota (stessa tecnica, stessa apparecchiatura, stesso operatore, calibrazione ripetuta a scopo di
controllo) ed in questi casi il vantaggio di un disegno sperimentale economico diventa rilevante.
178
2.23.1.7 - Intervallo di fiducia della Y misurata
Se riconsideriamo ora il modello
y=+ x+
[2-67]
possiamo rilevare che la [2-92] contiene solo le incertezze sulle stime di  e di . La incertezza della
funzione Y viene ottenuta considerando la
y  m y  b ( x  mx )  e
dove compaiono le tre variabili indipendenti my, b, e.
Risulta dalla [2-92] sommando la varianza dell'errore

1 ( x  mx )2 
s  s 1  
I
I c20 

2
y
[2-94]
2
e anche, per il corrispondente intervallo di fiducia:
y ( misurato )     x    y  t p sy 
[2-95]
2 1/ 2
 1 ( x  mx ) 
 my  b ( x  mx )  t p s 1  
I c20 
 I
Il significato della [2-95] è il seguente: dato un valore x della X NON compreso tra quelli utilizzati
per stimare i parametri del modello, il valore MISURATO della y ( +  x + ) è compreso con la
probabilità p% entro l’intervallo fornito dalla [2-95].
Anche questa è la equazione di due rami di iperbole, tra i quali con il p% di probabilità è compreso
un generico valore di Y, DIVERSO da quelli utilizzati per il calcolo.
Questi ultimi giacciono con probabilità p% all'interno di due curve (iperboli di fiducia delle y i ) di
equazione:
y i ( misurato ,utilizzato ) 
[2-96]
 1 (xi  mx ) 2 
 m y  b( x i  m x )  t p s 1  
I c 20 
 I
1/ 2
Questa è una equazione approssimata dell’intervallo di fiducia delle yi misurate ed utilizzate per
calcolare i parametri del modello; la statistica esatta si ottiene da una distribuzione Beta.
La [2-96] indica che più xi è lontano dalla media mx, minore è la ampiezza dell’intervallo di fiducia.
179
Ciò appare in contrasto con la maggiore incertezza sulla retta di regressione (valore vero) con
l’aumentare della distanza da mx. La diminuzione della incertezza di yi rispetto alla retta stimata è
dovuta al fatto che i punti utilizzati per il calcolo attirano a sé la retta di regressione, e ciò tanto più
quanto maggiore è il loro effetto leva (il “leverage”), misurato da
1 (x  mx ) 2
lev( x) 

I
I c 20
[2-97]
che è costituito da un termine fisso (il minimo leverage) e da un termine che aumenta con il quadrato
della distanza dalla media mx. Facilmente si dimostra che:
 lev( x )
i
i
I

1 ( x i  m x ) 2 
 I  I c 


20
I

2
I
[2-98]
Un punto che ha un valore molto più elevato del leverage medio (più di 3 volte) è un "leverage
point"; esso ha una grande influenza sui parametri calcolati, e generalmente indica che il disegna
sperimentale (la scelta degli I valori della X) è cattivo.
La [2-96] non ha valore predittivo, proprio della sola [2-95]. La iperbole [2-95] è più distante della [293] dalla retta di regressione e prende il nome di IPERBOLE ESTERNA della retta di regressione.
Per i dati della Tabella 2-23 l'iperbole esterna è mostrata nella Figura 2-68.
2.23.1.8 - Intervallo di fiducia della intercetta sull'asse X
Ha spesso interesse conoscere la incertezza sulla intercetta della retta di regressione con
l'asse X:
c = m x - my / b
[2-73]
"c" è la stima della intercetta vera:
  mx 
y

La [2-73] può essere differenziata per ottenere la varianza della intercetta, ma questa varianza può
essere utilizzata nel modo usuale solo se è molto piccola, a causa della presenza della pendenza a
denominatore che rende la variabile a caso "c" non normale.
Come l'intervallo di fiducia della intercetta sull'asse Y è dato dalla distanza tra i due rami della
iperbole interna per x = 0, così per la intercetta sull'asse X l'intervallo di fiducia è dato dalla distanza
180
orizzontale tra i due rami dell'iperbole interna per y = 0.
L'intervallo è asimmetrico intorno alla intercetta c, ed il valore centrale dipende dal livello di
probabilità. Se indichiamo con cc il valore centrale dell'intervallo di fiducia, e con A un INDICE DI
NON-CENTRALITÀ (Nota 11):
A  b 2  t 2p s2b
[2-99]
L'indice di non centralità tende a b2 quando la incertezza sulla pendenza è piccola. Generalmente nei
casi di interesse analitico (rette di calibrazione, metodo delle aggiunte standard) l'incertezza su b
non può essere grande, pena la non validità del metodo, e in questi casi A può tranquillamente
essere assimilato a b2.
Otteniamo
c c  mx  b
my
[2-100]
A
coincidente con la [2-73] quando A può essere assimilato a b2.
Per l'intervallo di fiducia si ottiene la espressione:
t p s A
m2y 
  cc 
 

A  I I c20 
1/ 2
[2-101]
che, quando A può essere assimilato a b2, diventa:
1/ 2
t p s 1
m2y 
  c 
 

b  I I c20 b2 
La Figura 2-69 mostra l'intervallo di fiducia delle intercette per i dati della Tabella 2-23.
Figura 2-69 - Intervallo di fiducia delle intercette
181
2.23.1.9 - Intervalli di fiducia per la X
Abbiamo detto che l'utilizzo più frequente in chimica analitica della retta di regressione è come retta
di calibrazione (Nota 12). Quando la retta è stata ottenuta nella fase di calibrazione, la si utilizza nella
fase di predizione: si misurano un valore y0 o una serie di I0 valori y0i la cui media risulta essere
y0 ,
si calcola il valore incognito mediante la
x 0 m x 
y0 m y y0 a

b
b
[2-102]
oppure con la:
x 0 m x 
y0 m y y0 a

b
b
[2-103]
Per i dati della Tabella 2-23 risulta y0 = 8.016 e x0 = 8.320.
Per ottenere l'intervallo di fiducia dell'incognito si procede in modo analogo a quanto
effettuato per l'intervallo di fiducia della intercetta sull'asse X.
Se y non fosse affetto da errore (come accade nel caso della intercetta c) si ricaverebbe
l'intervallo di fiducia di x semplicemente dalla intersezione con la iperbole interna della retta Y = y 0.
Ma y0 ha varianza s2 (se abbiamo fatto una sola determinazione;
y0 ,
ottenuta con I0
determinazioni ha la varianza s2/I0). In questo caso di I0 determinazioni si potrebbe inoltre ricavare
una nuova stima di 2 dagli I valori, s20 .
Questa viene ottenuta come media tra le due stime della varianza, pesandole per il rispettivo numero
di gradi di libertà [ciò che deriva dalla proprietà additiva della funzione 2]. Può accadere peraltro
che s2 e s20 non siano stime della stessa varianza: in questo caso esse devono differire
significativamente, ciò che si può determinare con un test F. La valutazione dello intervallo di fiducia
diventa alquanto più complessa e per essa si rimanda alla bibliografia. Questo caso non è molto raro:
esso si presenta quando la retta di calibrazione è stata ottenuta da uno sperimentatore esperto, e
viene poi utilizzata per la analisi da uno sperimentatore caratterizzato da una dispersione maggiore
dei risultati.
Nel caso di una sola determinazione l'intervallo di fiducia di x si ricava come intersezione della
retta Y=y0 con la iperbole esterna o di tolleranza. L'intervallo risulta asimmetrico rispetto a x 0 , e
viene pertanto espresso in funzione del valore centrale dell'intervallo x0c e dell'indice di non182
centralità:
x 0c  m x  b
y0  m y
[2-104]
A
2
tps 
A ( y 0 m y ) 
A  

x 0( vero)  x 0c 
A
I
Ic 20


1/ 2
[2-105]
che frequentemente (quando A può essere assimilato a b2) può essere sostituita dalla:
t p s  1 ( y 0 m y ) 2 
1 

x 0( vero)  x 0 
2
b  I
I
c
b

20

1/ 2
[2-106]
Nel caso in cui siano state effettuate I0 determinazioni e il valore di x0 sia stato stimato dalla [2-103],
l'intervallo di fiducia si ottiene come intersezione con i rami di una iperbole intermedia tra la
iperbole interna e la iperbole esterna di equazione
1/ 2
 1 1 (x  m x )2 
y  m y  b( x  m x ) t p s   

Ic 20 
 I0 I
[2-107]
e l'intervallo di fiducia è:
x 0( vero)  m x  b
y0  m y
A
t p s  A A ( y 0 m y ) 2 
  


A  I0 I
Ic 20 


1/ 2
[2-108]
essendo
x 0c  m x  b
y0  m y
[2-109]
A
Quando A può essere assimilato a b2 la [2-108] diventa:
t p s  1 1 ( y 0 m y ) 2 
  

x 0( vero)  x 0 
2
b  I0 I
I
c
b

20

1/ 2
[2-110]
La Figura 2-70 mostra l'intervallo di fiducia di x0 , con x0 ricavato dalla [2-102] considerando
y0 eguale al valore di y 0 relativo ai dati della Tabella 2-23 ma ottenuto con UNA sola determinazione.
La incertezza risulta dalla incertezza di y0, misurata da tp s e da quella della retta di regressione
misurata dalla iperbole interna.
L'intervallo di fiducia congiunto delle due incertezze ha una forma complessa, funzione quadratica
di Y e di X. Esso, come è mostrato nella Figura, racchiude solo lo 87% della probabilità congiunta
(questo valore dipende dai gradi di libertà), in modo che le probabilità marginali di x 0 e y0 , che si
ricavano dalla proiezione dell'intervallo di fiducia congiunto sugli assi, siano eguali al 95%. Si noti che
gli estremi dell'intervallo di fiducia della x coincidono con le intersezioni tra la retta Y = y0 e la iperbole
183
esterna. Si noti anche come l'intervallo di fiducia dell'incognito risulti asimmetrico.
La Figura 2-71 mostra l'intervallo di fiducia di x0 , con x0 ricavato dalla [2-103] con y0 relativo
ai dati della Tabella 2-23, ottenuto con 5 determinazioni. La incertezza risulta dalla incertezza di y 0 ,
misurata da tp s / 5 e da quella della retta di regressione. L'intervallo di fiducia della x0 non può più
essere ricavato dalla intersezione della retta Y = y0 con la iperbole esterna, ma è fornito dalla
intersezione con la appropriata (I = 5) iperbole intermedia [2-105].
Figura 2-70 - Intervallo di fiducia della x (una sola determinazione della y)
Figura 2-71 - Intervallo di fiducia della x (y come media di 5 determinazioni)
La Figura 2-72 permette di ottenere gli intervalli di fiducia dello stesso valore di x0 considerato
in Figura 2-70, ma supponendo che esso sia stato ottenuto da 1, 2, 3, 4, 5 ed infinite determinazioni
di y0 . Gli intervalli di fiducia sono forniti dalla intersezione con le opportune iperboli intermedie. Solo
nel caso di infinite determinazioni di y0 occorre considerare la iperbole interna.
184
Figura 2-72 - Retta di regressione con iperboli intermedie, per una (iperbole esterna), 2,3,4,5 e
infinite (iperbole interna) determinazioni
2.23.2 – Retta generica - Eteroscedastica
2.23.2.1 – Il modello
Il modello assume che le due variabili siano collegate dalla relazione:
y=+ x+
[2-67]
dove  e  sono delle costanti ed  è l'errore casuale con media E()= 0 e con varianza 2(x)
DIPENDENTE dal valore di x e quindi da quello di y. Questa è appunto la condizione di
eteroscedasticità, illustrata nelle Figure 2-73 e 2-74. Si possono ipotizzare molte leggi di dipendenza
della varianza dell'errore dalle X e Y, ma sperimentalmente il caso più frequente è quello in cui la
deviazione standard, l' "errore", è direttamente proporzionale alla grandezza misurata, la Y.
Pertanto i valori piccoli della Y saranno relativamente più sicuri di quelli grandi: ciò si può
interpretare nel senso che i valori della Y hanno un peso e che questo peso è inversamente
proporzionale alla varianza e quindi al quadrato del valore misurato.
Per questi motivi si parla talora di regressione pesata. Il peso associato ad un valore y è
definito dalla:
185
pi 
1
yi2
p
1
[2-111]
y2
essendo
i2 
02 2 02
 
pi
p
[2-112]
dove  20 è la varianza corrispondente al peso unitario. Se tutti i pesi fossero unitari  20 coinciderebbe
con  2 della regressione non pesata.
Figura 2-73 - Frequenze di 6 variabili condizionali (y/X=x), con varianza crescente con la X, illustrate
dai risultati ottenuti in 10 ripetizioni
186
Figura 2-74 - - Distribuzioni di probabilità di 6 variabili condizionali (y/X=x) con varianza crescente
con la X
Le [2-111] sono usate generalmente, ma non correttamente: la varianza è una funzione della
condizione X. Quando parliamo di varianza funzione della Y poiché il singolo valore è affetto da un
errore è come dire che la variabilità dell’errore dipende dal suo valore in una determinazione. Questa
usuale incorrettezza è irrilevante ai fini dei risultati pratici in quanto Y e X sono generalmente
proporzionali.
2.23.2.2 – I calcoli
Si indichi ora semplicemente con SP la sommatoria dei pesi:
SP   pi
[2-113]
i
La definizione di momento per variabili pesate diventa la seguente:
 x ih yik pi
m hk 
[2-114]
SP
I momenti centrali per variabili pesate sono definiti dalla:
187
 ( x i  m x ) h ( yi  m y ) k pi
c hk 
[2-115]
SP
Utilizzando le [2-109-110], le espressioni [2-71-73] che utilizzano i momenti per il calcolo della
pendenza della retta di regressione e delle intercette sugli assi Y ed X non variano.
Si noti che, poiché il peso è piccolo per le X più grandi, i momenti del primo ordine sono più piccoli.
In altre parole il baricentro è spostato verso valori piccoli di X e Y, e i punti con grande valore di X
hanno più grande distanza dal baricentro di quanto non accada per la regressione omoscedastica. In
particolare per essi diventa molto più grande la quantità ( x  m ) 2 che determina il leverage.
i
x
La stima di  20 viene ottenuta da una espressione simile alla [2-77] con la sola sostituzione di SP a I
(al numeratore):
2
s02  (c02 c11
/ c 20 )
SP
I2
[2-116]
Le varianze dei singoli valori y vengono poi ottenute dalla [2-112].
Anche le espressioni di
s 2m y 
s 02
SP
[2-117]
s 02
s 
SP c 20
[2-118]
1
m 2x 
s a2  s 02  

 SP SPc 20 
[2-119]
2
b
sono formalmente eguali a quelle del caso omoscedastico.
Si noti che moltiplicando tutti i pesi per una costante varia s 02 , ma varia egualmente SP, e pertanto
non si ha influenza sulle varianze fornite dalle [2-117]-[2-119].
In modo analogo si ottiene l'intervallo di fiducia della intercetta sull'asse X.
Anche la equazione della iperbole interna
s p
p (x m x ) 2 
y vero  m y  b( x  m x ) t p 0  

SP c 20
p  SP

 1 (x m x ) 2 
y vero  m y  b( x  m x ) t p s 0  

SP c 20 
 SP
1/ 2
[2-120a]
1/ 2
[2-120b]
differisce dalla [2-93]
188
1 ( x  m x ) 2 
y vero  x  ŷ t p s ŷ  m y  b( x  m x ) t p s  

I c 20 
 I
1/ 2
solo per la sostituzione nella espressione del leverage di I con SP. In effetti la variazione da
omoscedastica ad eteroscedastica è nella
s
s0
p
e la [2-120a] illustra meglio come il leverage nella regressione eteroscedastica sia dato da:
p (x m x ) 2
p

SP
SP c 20
lev( x ) 
La somma dei leverage è ancora eguale a 2/I:
 p i p i (x i  m x ) 2 
 lev(x i )   SP  SP c 20  2


i


I
I
I
in quanto:

p i (x i  m x ) 2
c 20 
SP
La equazione corrispondente alla equazione [2-95] della iperbole esterna diventa (con p peso
generico corrispondente al valore generico x):
1/ 2
 1 1 (x m x ) 2 
y ( misurato )  m y  b( x  m x ) t p s 0   

 p SP SPc 20 
[2-121]
che NON è più la equazione di una iperbole in quanto nel termine sotto radice compare il peso che
è una funzione di X. Analogamente varia l'intervallo di fiducia per i valori utilizzati nei calcoli.
Ciò rende alquanto complessa la formula che fornisce gli intervalli di fiducia dell'incognito. Tuttavia
nel caso di interesse in chimica analitica, in cui le varianze sono relativamente piccole e pertanto A
può essere assimilato a b2, l'intervallo di fiducia della x0 può essere ottenuto dalla
2
t p s0  1
1 ( y 0 m y ) 


x 0( vero)  x 0 
 
b  p I 0 SP SPc 20 b 2 


1/ 2
[2-122]
che è una espressione relativamente semplice.
189
2.23.3 – Retta per l'origine - Omoscedastica
2.23.3.1 – Il modello
Il modello assume che le due variabili siano collegate dalla relazione:
y= x+
[2-123]
dove  è una costante ed  è l'errore casuale con media E()= 0 e con varianza 2(x) INDIPENDENTE
dal valore di x e quindi da quello di y.
Si utilizza generalmente la retta di regressione per l'origine quando il test della ipotesi H 01: a
= 0 ha dato esito positivo.
2.23.3.2 – I calcoli
Vi sono molte analogie con le formule della regressione con una retta generica non pesata,
ma anche differenze dovute al fatto che ambedue le intercette sono vincolate ad essere nulle.
In generale le formule della regressione con retta generica vengono modificate per la
regressione vincolata all'origine con la sostituzione dei momenti ai momenti centrali. Importante è
il fatto che essendo calcolato dai valori sperimentali solo un parametro, la pendenza, il numero dei
gradi di libertà è I-1.
Si riportano di seguito le formule di maggiore interesse.
b
m11
m 20
[2-124]
I
 ( yi ŷi )2
s 2  i 1
I 1

m2  I
  m 02  11 

m 20  I  1

[2-125]
s 2m y
s2

I
[2-126]
s 2b 
s2
I m 20
[2-127]
La equazione della iperbole interna diventa:
1/ 2
 x2 
y vero x  ŷt p s ŷ bx t p s 

 Im 20 
[2-128]
con i due rami che si toccano nella origine.
190
La equazione della iperbole esterna diventa
1/ 2

x2 
y misurato  bx t p s 1

 I m 20 
[2-129]
e l'intervallo di fiducia dell'incognito
t p s  A y02 
y
x 0( vero)  b 0 
 

A A  I0 I m 20 
1/ 2
[2-130]
La Figura 2-75 illustra la regressione forzata per l'origine (retta di regressione, iperbole interna,
iperbole esterna) nel caso dei dati nella Tabella 2-23.
Figura 2-75 - Regressione forzata per l’origine
191
2.23.4 - L’analisi dei residui
L’analisi dei residui permette:
a) di verificare la casualità dei residui.
b) di evidenziare oggetti anomali (outliers);
c) di evidenziare eteroscedasticità;
d) di rilevare non-linearità;
La casualità dei residui può essere verificata con il test delle sequenze.
Le due tabelle successive (per numerosità 9 e 10) confrontano le frequenze delle sequenze massime
L per i residui di regressione e per dati non trattati.
I=9
Residui
Dati
L
p(L)(%)
(L)
p(L)(%)
(L)
1
4.55
100
4.38
100
2
59.37
95.45
57.48
95.62
3
30.34
36.08
30.95
38.14
4
5.20
5.74
6.20
7.20
5
0.51
0.539
0.89
0.995
6
0.025
0.026
0.098
0.106
7
0.0010
0.0010
0.0076
0.0085
8
0
0
0.0009
0.0009
I = 10
Residui
Dati
L
p(L)(%)
(L)
p(L)(%)
(L)
1
2.92
100
2.76
100
2
55.84
97.08
54.38
97.24
3
33.89
41.24
34.30
42.86
4
6.54
7.35
7.31
8.55
5
0.76
0.81
1.09
1.24
6
0.050
0.050
0.134
0.15
7
0.0005
0.0005
0.013
0.015
8
0
0
0.0014
0.0014
0
0
9
Vi è una probabilità leggermente minore con i residui di avere sequenze lunghe. Tuttavia la differenza
è così piccola che la tabella utilizzata per il test delle sequenze, ripetuta sotto, può ancora essere
192
utilizzata.
L
  1%
  5%
4
-
7
5
9
26
6
34
153
7
234
1170
8
2034
10348
9
20067
102382
10
218833
1116808
Un andamento parabolico è facilmente identificabile mediante osservazione del grafico dei residui.
Un grafico dei residui è riportato in Figura 2-76.
Figura 2-76 – Grafico dei residui che illustra una situazione molto chiara di non linearità
L’andamento parabolico dei residui causa due sequenze poco probabili. Andamenti non lineari più
complessi richiedono, per essere identificati con sicurezza, un grande numero di punti sperimentali.
193
2.23.5 – Regressione quadratica
Quando l’analisi dei residui rivela un andamento non lineare è possibile:
a) effettuare la regressione lineare avendo trasformato opportunamente la X;
b) effettuare una regressione polinomiale, in cui il modello è:
y     x   x 2   x 3  .....  
Ci limiteremo a citare la regressione quadratica, che calcola una parabola con i minimi quadrati
attraverso i punti sperimentali, con lo stesso procedimento che si utilizza in regressione multipla
(vedi Capitolo 4.3).
L’esempio seguente si riferisce alla determinazione dell’acido lattico con due metodi, il primo dei
quali è un metodo di riferimento.
La regressione lineare (Figura 2-77) fornisce i seguenti risultati:
Oggetto
Metodo 1 Metodo 2 Metodo 2
(y stimata)
Errore
assoluto.
Livello
di fiducia
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0.895
2.265
4.640
6.435
0.625
2.625
5.435
7.130
0.580
2.345
4.990
6.385
0.545
2.450
4.990
6.325
0.680
3.220
6.180
6.975
0.29008
0.09901
0.61745
0.08048
0.07468
0.04348
0.01044
0.69290
0.17711
0.33166
0.62137
0.19181
0.27900
0.24902
0.45637
0.06357
0.03330
0.36566
0.60427
0.22128
59.001
21.681
89.899
18.118
17.091
9.581
2.321
94.426
39.077
63.760
90.206
41.309
57.736
50.753
78.390
14.320
7.658
67.950
89.996
47.587
0.645
2.330
5.095
6.095
0.605
2.615
5.240
6.140
0.460
1.975
5.430
6.320
0.325
2.655
5.265
6.135
0.765
3.500
5.330
6.465
0.93508
2.23099
4.47755
6.17548
0.67968
2.57152
5.22956
6.83290
0.63711
2.30666
4.80863
6.12819
0.60400
2.40598
4.80863
6.07143
0.73170
3.13434
5.93427
6.68628
194
Figura 2-77 Confronto tra due metodi per la determinazione dell’acido lattico. In rosso la linea di
regressione, in blu la linea Y = X
Figura 2-78 – Residui dalla retta di regressione per l’esempio dei due metodi per la determinazione
dell’acido lattico
L’analisi dei residui (Figura 2-78) fa sospettare un andamento quadratico.
I risultati della regressione quadratica sono riportati nella Tabella seguente, ed illustrati dalla Figura
195
2-79.
Oggetto
Metodo 1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
0.645
2.330
5.095
6.095
0.605
2.615
5.240
6.140
0.460
1.975
5.430
6.320
0.325
2.655
5.265
6.135
0.765
3.500
5.330
6.465
Metodo 2
(y stimata)
0.79228
2.44065
4.75890
6.05711
0.44056
2.83604
5.38208
6.45483
0.38109
2.52987
5.04270
6.02624
0.33466
2.64580
5.04270
5.98880
0.51293
3.45506
5.89650
6.37120
Errore
-0.14728
-0.11065
0.33610
0.03789
0.16444
-0.22104
-0.14208
-0.31483
0.07891
-0.55487
0.38730
0.29376
-0.00966
0.00920
0.22230
0.14620
0.25207
0.04494
-0.56650
0.09380
Figura 2-79 – Regressione parabolica applicata all’esempio dei due metodi
La varianza dell’errore per la regressione quadratica risulta 0.001629 (deviazione standard 0.0404),
che si contrappone alla varianza calcolata con la regressione lineare, 0.135262.
196
Il rapporto F è 83.03, ed il significato statistico risulta praticamente nullo. Pertanto l’aggiunta del
termine quadratico ha portato ad una significativa diminuzione della varianza.
197
2.24 - METODI ROBUSTI PER LA REGRESSIONE UNIVARIATA
Il metodo dei minimi quadrati per il calcolo della retta di regressione ha il difetto di essere molto
sensibile ad outliers, vale a dire a coppie xi yi che non provengono dalla stessa popolazione della
maggioranza dei dati, popolazione che risponde al modello: y =  +  x + . Nella pratica corrente
del laboratorio chimico gli outliers sono dati errati, o per un occasionale errore nella procedura
analitica o per un banale errore di trascrizione. Raramente in un campione di I dati da cui deve essere
ricavata una retta di calibrazione vi sono più di uno-due outliers. Gli outliers sono generalmente
osservabili con facilità mediante un grafico delle due variabili. Tuttavia, quando in un laboratorio
deve essere effettuato un grande numero di regressioni, questa buona pratica viene talora omessa,
e nel caso siano presenti outliers i risultati possono risultare inaccettabilmente distorti. Le tecniche
di regressione che riescono ad individuare gli outliers e a non tenerne conto (oppure a limitare il loro
effetto) vengono dette tecniche robuste di regressione. Esse si dividono in due categorie: a)
tecniche basate sulla mediana b) tecniche basate sulle funzioni d'influenza. Nel seguito verranno
illustrate due tecniche robuste di regressione, una per ciascuna delle due categorie menzionate. Una
tecnica robusta viene caratterizzata dalla percentuale di outliers che riesce ad ignorare (breakdown
point) : alcune tecniche arrivano a tollerare una percentuale di outliers prossima al 50%. Non si
ritiene che in chimica analitica casi di questo genere abbiano particolare importanza. Pertanto le
tecniche illustrate sono tra le più semplici e possono essere impiegate con eccellenti risultati quando
la percentuale di outliers è del 20-30%.
La Tabella 2-24 riporta dati che verranno utilizzati per
illustrare le tecniche robuste.
Tabella 2-24 - Dati di Ezekiel-Fox riportati in F.R.HAMPEL, P.J.ROUSSEEUW, E.M.RONCHETTI e
W.A.STAHEL, "Robust Statistics: the Approach based on the Influence Functions", Wiley, N.Y. 1986
Si tratta della portata di un fiume misurata in due paesi lungo il suo corso.
Indice
1
2
3
4
5
6
7
8
9
10
11
12
13
Variabile 1
Libby
27.1
20.9
33.4
20.0
37.0
21.6
17.6
35.1
32.6
26.0
27.6
38.7
27.8
Variabile 2
Newgate
19.7
18.0
26.1
44.9
26.1
19.9
15.7
27.6
24.9
23.4
23.1
31.3
23.8
198
2.24.1 - Metodo della mediana singola
Questo metodo, date I coppie xi yi , calcola I (I-1) /2 stime della pendenza  utilizzando ogni volta
solo due punti (Figura 2-80):
b ij 
y j yi
[2-131]
x j xi
Se 2 è la varianza dell'errore, possiamo ricavare la varianza delle b dalla regola di propagazione
delle varianze:
 2b ij 
2 2
[2-132]
(x j  x i )2
Essa può pertanto assumere valori molto elevati quando xi e xj sono molto prossimi, ma è molto
piccola quando xi e xj sono agli estremi opposti dell'intervallo della X.
Nel caso dell'esempio nella Tabella 2-24, se la variabile X è quella indicata con nome Libby, la
varianza (per esempio) della stima b ottenuta con il metodo dei minimi quadrati risulta:
2/(13 43.43) = 2/564.6
mentre la varianza della stima b7,12 è 2 / 222.6 e quindi non molto (2.5 volte) maggiore.
Vi sono molte altre coppie xi xj per le quali la varianza della stima bij è bassa, e pertanto la
famiglia delle bij comprende un numero piuttosto elevato di buoni estimatori insieme ad alcuni
cattivi estimatori.
Figura 2-80 – Le rette utilizzate per ricavare le pendenze bij nel metodo della mediana singola
199
Il procedimento della mediana singola determina la mediana delle bij .
Nel caso dell'esempio la successione ordinata delle bij è la seguente:
-29.8889
-1.4030
0.2222
0.3600
0.5173
0.6133
0.6800
0.7941
1.0000
2.7143
-15.6250
-1.1457
0.2273
0.3649
0.5205
0.6220
0.6881
0.7955
1.0159
3.0588
-3.5833
-1.1059
0.2292
0.4026
0.5254
0.6290
0.6970
0.8406
1.0278
3.5000
-3.5493
-0.7895
0.2455
0.4107
0.5333
0.6465
0.7387
0.8824
1.0492
5.8572
-3.3636
-0.7273
0.2500
0.4212
0.5361
0.6480
0.7393
0.9167
1.0500
6.8000
-2.8684
-0.1875
0.2727
0.4545
0.5704
0.6582
0.7400
0.9455
1.0588
12.1667
-2.7051
-0.0364
0.2742
0.4615
0.5897
0.6667
0.7472
0.9811
1.0800
-1.5873
0
0.3191
0.5036
0.6000
0.6761
0.7612
0.9875
1.5000
I bij sono 78 [ I (I-1)/2 = 13 6] e hanno come mediana la media dei valori 0.5897 e 0.6000, vale a
dire 0.5949, valore che viene assunto come migliore stima della pendenza.
Sia questa stima indicata con b*.
Si ricavano ora I stime della intercetta (Figura 2-81):
ai = yi - b* xi
[2-133]
e la mediana delle ai , a*, viene assunta come stima migliore di .
Figura 2-81 – Le rette usate per ricavare le intercette ai nel metodo della mediana singola
200
Nel caso dell'esempio della Tabella 2-24 le ai , ordinate, sono:
0.6480
3.5790
4.0897
5.2303
5.5072
5.5672
6.6815
6.7200
7.0508
7.9333
8.2785
33.0026
6.2313
e pertanto a* = 6.2313.
Figura 2-82 – Istogramma dei residui
Lo studio dei residui dalla retta di regressione
ri = yi - a* - b* xi
[2-134]
permette di individuare gli outliers. Nel caso dell'esempio si ha:
Oggetto
Residuo
Oggetto
Residuo
1
2.6523
2
0.6641
3
0
4
26.7713
5
2.1415
6
0.8195
7
1.0010
8
0.4887
9
0.7241
10
1.7021
11
0.4503
12
2.0472
13
1.0313
La Figura 2-82 mostra l'istogramma dei residui.
Non vi è necessità di test per individuare nell'oggetto 4 un outlier. Esso può essere eliminato e sugli
oggetti restanti si può procedere alla regressione ordinaria, che fornisce i valori:
201
a = 5.49201
b = 0.61869
e la seguente tabella per gli oggetti utilizzati per la regressione:
Oggetto
1
2
3
5
6
7
8
9
10
11
12
13
per
4
Ascissa
27.1
20.9
33.4
37.0
21.6
17.6
35.1
32.6
26.0
27.6
38.7
27.8
l'oggetto
20.0
yi
19.7
18.0
26.1
26.1
19.9
15.7
27.6
24.9
23.4
23.1
31.3
23.8
eliminato:
44.9
a + b xi
22.259
18.423
26.156
28.384
18.856
16.381
27.208
25.661
21.578
22.568
29.435
22.692
Err Ass.
2.559
0.423
0.056
2.284
1.044
0.681
0.392
0.761
1.822
0.532
1.865
1.108
Livello %
89.6
22.6
3.1
85.8
51.8
35.6
21.0
39.4
76.8
28.2
77.8
54.3
17.866
27.034
100.0
Il livello di fiducia riportato nella tabella è il complemento a 100 del livello percentuale di
significato bilaterale. L'oggetto 4 è così lontano dalla distribuzione degli altri oggetti che il suo
significato è tanto piccolo da non essere determinabile.
La Figura 2-83 mostra la retta di regressione ottenuta con il metodo dei minimi quadrati, con
le iperboli interna ed esterna, ottenuta prima della eliminazione dell'outlier. La retta di regressione
ottenuta dal metodo della mediana singola è identificabile da una serie di quadratini neri.
La Figura 2-84 mostra la retta di regressione ottenuta con il metodo dei minimi quadrati dopo la
eliminazione dell’outlier.
202
Figura 2-83 – Retta di regressione usuale e robusta
Figura 2-84 – Retta di regressione dopo la eliminazione dell'outlier
203
2.24.2 - Metodi basati su funzioni di influenza
Questi metodi sono stati sviluppati inizialmente da P.J. Huber e F.R. Hampel (P. J. Huber. “Robust
Statistics”. Wiley. New York. (1981), F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw, W. A. Stahel. “Robust Statistics: The
Approach based on Influence Functions”. Wiley. New York. (1986)).
. Quello che viene descritto è una variante.
Il procedimento è ciclico e nel primo ciclo vengono assegnati pesi unitari a tutti gli oggetti. Per ogni
oggetto si calcola il leverage, misura della influenza dell'oggetto ai parametri della regressione,
come:
li  ( x i  m x )( y i  m y )
[2-135]
dove le barre verticali indicano che si assume il valore assoluto del prodotto.
In questo caso l'uso del termine leverage non è rigoroso come era per il termine definito dalla
1 (x  mx )2
lev( x )  
I
Ic20
[2-97]
ma il significato è analogo, e tiene conto della distanza dal baricentro sia sull'asse X che sull'asse Y.
Gli l vengono normalizzati, in modo che la loro somma sia eguale ad I e che nessun oggetto abbia
valore del leverage normalizzato minore di 0.5. Si ottengono così gli ln (I normalizzati):
 ln i  I
ln i  0.5
[2-136]
i
Si calcola la varianza corrispondente al peso unitario,
s20
(Equazione [2-116]) insieme ai parametri
della retta di regressione pesata.
Per ogni oggetto si calcola il valore assoluto dello scarto dalla retta di regressione e se tale
valore risulta minore di s0 lo si eguaglia a s0 :
d i  yi  a  bx i d i s 0
[2-137]
Si calcola il rapporto rai tra s0 e di :
rai = s0 / di
[2-138]
che non può essere maggiore di 1.
Un valore piccolo del rapporto rai indica che il punto è lontano dalla retta di regressione.
I pesi per il ciclo successivo vengono calcolati dalla:
204
pi 
ra i
ln i
[2-139]
che vengono normalizzati in modo che la loro somma sia eguale al numero dei punti I. I pesi
normalizzati pni vengono trattenuti per il ciclo successivo.
Essi sono tanto più piccoli quanto maggiore è il residuo e quanto maggiore è il leverage.
La iterazione ritorna al calcolo del leverage e viene sospesa quando il valore dei pesi o quello
della varianza s diventano stazionari.
Il peso viene utilizzato come criterio per scartare gli outliers prima di effettuare una regressione con
i minimi quadrati. Di seguito sono riportati i dati numerici relativi ai primi cicli e al ciclo finale,
effettuati con il set nella Tabella 2-24.
Ciclo 1 s0 = 7.459
a = 18.483
b = 0.23048
Oggetto
p
pn
d
l
ln
1
2
3
4
5
6
7
8
9
10
11
12
13
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
1.000
5.029
5.300
0.081
21.807
0.911
3.562
6.840
1.027
1.097
1.076
1.745
3.897
1.091
5.302
50.177
6.025
161.655
10.124
32.939
97.317
18.449
0.276
3.291
0.945
67.139
0.357
0.500
1.437
0.500
4.629
0.500
0.943
2.787
0.528
0.500
0.500
0.500
1.922
0.500
Ciclo 2 s0 = 1.860
a = 9.266
b = 0.49791
Oggetto
p
pn
d
l
ln
1
2
3
4
5
6
7
8
9
10
11
12
13
1.414
0.834
1.414
0.159
1.414
1.030
0.599
1.376
1.414
1.414
1.414
0.721
1.414
1.258
0.742
1.258
0.141
1.258
0.916
0.533
1.224
1.258
1.258
1.258
0.641
1.258
3.059
1.672
0.204
25.676
1.589
0.121
2.329
0.857
0.598
1.188
0.092
2.765
0.692
9.280
49.445
9.093
196.155
17.128
30.658
95.780
21.548
3.379
1.556
1.326
69.665
0.104
0.500
1.273
0.500
5.048
0.500
0.789
2.465
0.555
0.500
0.500
0.500
1.793
0.500
Ciclo 3
s0 = 1.298
a = 7.844
b = 0.54122
Oggetto
p
pn
d
l
ln
1
2
0.860
0.886
0.813
0.839
2.811
1.156
8.962
48.208
0.500
1.239
205
3
4
5
6
7
8
9
10
11
12
13
1.414
0.032
1.414
1.126
0.509
1.343
1.414
1.414
1.414
0.502
1.414
Ciclo 4
1.338
0.030
1.338
1.065
0.481
1.270
1.338
1.338
1.338
0.475
1.338
s0 = 1.146
0.179
26.231
1.769
0.365
1.670
0.759
0.588
1.484
0.318
2.510
0.910
9.692
197.630
18.266
29.518
94.059
22.395
3.863
1.061
1.070
71.037
0.125
a = 7.569
0.500
5.079
0.500
0.759
2.417
0.576
0.500
0.500
0.500
1.825
0.500
b = 0.55178
Oggetto
p
pn
d
l
ln
1
2
3
4
5
6
7
8
9
10
11
12
13
0.653
0.898
1.414
0.022
1.038
1.148
0.500
1.318
1.414
1.237
1.414
0.383
1.414
0.661
0.909
1.430
0.022
1.049
1.161
0.506
1.333
1.430
1.251
1.430
0.387
1.430
2.822
1.101
0.102
26.296
1.885
0.413
1.580
0.664
0.657
1.485
0.302
2.377
0.892
7.765
45.956
10.723
193.321
19.665
27.807
90.900
23.971
4.516
0.666
0.765
73.897
0.236
0.500
1.194
0.500
5.024
0.511
0.723
2.363
0.623
0.500
0.500
0.500
1.921
0.500
...............................
Ciclo 15
s0 = 0.980
a = 7.361
b = 0.56068
Oggetto
p
pn
d
l
ln
1
2
3
4
5
6
7
8
9
10
11
12
13
0.486
0.839
1.414
0.017
0.671
1.189
0.420
1.243
1.414
0.948
1.414
0.312
1.414
0.536
0.926
1.561
0.018
0.740
1.312
0.463
1.372
1.561
1.046
1.561
0.344
1.561
2.855
1.079
0.012
26.326
2.006
0.428
1.529
0.559
0.739
1.461
0.264
2.241
0.852
7.162
44.940
11.198
190.571
20.241
27.078
89.467
24.705
4.799
0.553
0.655
75.253
0.242
0.500
1.176
0.500
4.986
0.530
0.708
2.341
0.646
0.500
0.500
0.500
1.969
0.500
Solo l'oggetto 4 ha un peso normalizzato molto piccolo nella iterazione finale, 0.018 che si
contrappone a 0.344 dell'oggetto 12 (circa 20 volte maggiore del peso dell'oggetto 4) e a 1.561, il
peso massimo, 87 volte maggiore di quello dell'oggetto 4 ma solo 4.5 volte maggiore di quello
dell'oggetto 12.
Rispetto alla retta di regressione calcolata con il metodo della mediana singola, quella calcolata con
il metodo delle funzioni d’influenza è leggermente meno inclinata: ciò è dovuto al leggero effetto
che, nonostante il peso molto basso, esercita ancora l'outlier nella regressione pesata.
206
2.25 – CARTE DI CONTROLLO
2.25.1 - Carte di Shewhart
Il controllo di qualità riguarda non solo la qualità di un manufatto o di una materia prima, ma
anche quella di un metodo analitico, metodo che potrà tra l'altro essere utilizzato per controllare la
qualità di un particolare prodotto. Proprio per questa ragione il controllo di qualità di un metodo
analitico è di fondamentale importanza. Una volta messo a punto un metodo, effettuando la sua
convalida interna e mediante studi collaborativi, è necessario continuare periodicamente la
convalida, mantenere elevata la qualità del metodo. La qualità dipende in modo essenziale dalle cure
dell'analista, il quale può essere conscio di un deterioramento delle prestazioni del metodo, ma può
anche essere ingannato dalla lenta variazione di parametri importanti per il controllo.
L'unico modo per assicurare che questi parametri rilevanti siano mantenuti sotto controllo è
quello di effettuare periodicamente analisi con materiali di riferimento. La differenza fondamentale
tra il controllo di qualità di un metodo e quello di un manufatto è che nel primo il campione (o i
campioni di riferimento) sono invarianti (e l'unica fonte di variabilità, o almeno la fonte di variabilità
preponderante, è quindi il metodo), mentre nel secondo il metodo analitico è controllato, e la fonte
di variabilità preponderante è quella del campione.
Vi sono peraltro casi in cui si utilizzano standard «dubbi», ciò che è un controsenso. In analisi
chimico-cliniche lo «standard» può essere così complesso che la sua ripetibilità non è assicurata.
Esso peraltro è «quanto di meglio» si può avere. In questi casi quando la scorta di standard è
prossima all’esaurimento, si ordina una nuova riserva dello standard, si effettua una serie di
determinazioni con lo standard in esaurimento ed una con il nuovo standard (Figura 2-85).
Figura 2-85 – Correzione per l’accordo tra standards
La differenza tra i due standard è utilizzata per correggere: in altre parole al nuovo standard viene
207
attribuito un valore dell’analita che non è quello dichiarato, ma che è in accordo con il vecchio
standard. In questi casi occorre essere sicurissimi che lo standard in esaurimento non ha subito nel
corso del tempo una degenerazione.
Antico è l'utilizzo delle carte di controllo per il controllo di qualità, che costituisce da solo un
grande capitolo della chimica analitica industriale. Le prime carte di cui si parlerà in questa sede sono
quelle della media, dell'intervallo (range) e della deviazione standard.
L’idea delle carte di controllo più utilizzate, carte di Shewhart, è dovuta a Walter Andrew Shewhart,
1891- 1967 (W. A. Shewhart. “Economic Control of Quality of Manufactured Product”. Van Nostrand Company. New
York. (1931))
Esse sono illustrate con l'esempio seguente, dove sono riportati i risultati di dieci gruppi di
determinazioni. L’esempio è simulato, e la deviazione standard dell’errore normale è σ = 0.1.
Gruppo
1
2
3
4
5
6
7
8
9
10
26.56
26.54
26.75
26.49
26.34
26.41
26.53
26.36
26.64
26.54
26.55
26.65
26.47
26.47
26.68
26.55
26.39
26.71
26.53
26.42
Determinazioni
26.36
26.65
26.63
26.47
26.31
26.61
26.38
26.60
26.53
26.51
26.47
26.64
26.59
26.39
26.55
26.54
26.41
26.47
26.51
26.40
26.55
26.55
26.54
26.63
26.50
26.31
26.64
26.47
26.47
26.45
Nel controllo di qualità di un metodo analitico periodicamente, p.e. ogni dieci giorni, si effettua un
gruppo di determinazioni su di uno standard opportuno. Nel controllo di qualità di un prodotto le
determinazioni vengono effettuate su campioni scelti casualmente con una certa frequenza media,
o, quando il metodo analitico non è distruttivo, anche su tutti i campioni.
Nell'esempio si hanno dieci gruppi di 5 determinazioni l'uno (la scelta del numero delle
determinazioni per gruppo è arbitraria, ma ragionevole, in quanto un numero troppo basso è
associato a incertezze elevate per i parametri statistici da utilizzare).
Per ogni gruppo viene determinata la media x g , la stima della deviazione standard, s g , la
stima della deviazione standard della media, s g / N , il range rg . Da questo si può ottenere
egualmente la stima di s g / N , utilizzando la statistica di intervallo riportata in Tabella 2-17 in 2.16.
Vengono in generale calcolate anche la media delle medie, x , la media degli intervalli, rg , e la media
208
delle stime della deviazione standard della media, sg / 5 nel caso dell’esempio.
Nel controllo di qualità di un metodo analitico si dispone dello standard e quindi, per
l’esempio, del valore  = 26.5, e della imprecisione del metodo ottenuta dagli studi di convalida, in
questo caso  / 5 = 0.044721, che divisa per 0.192 (Tabella 2-17) fornisce come media della
popolazione degli intervalli E(r) = 0.2329. Quando i parametri della popolazione non sono disponibili
(come per il controllo di qualità di un prodotto) nelle carte di controllo si usano x e le altre stime
mediate su di un certo numero di gruppi.
Le statistiche relative all’esempio sono:
Gruppo
1
2
3
4
5
6
7
8
9
10
26.498
26.606
26.596
26.490
26.476
26.484
26.470
26.522
26.536
26.464
sg / N
rg
0.192 rg
0.0381
0.0250
0.0469
0.0390
0.0685
0.0544
0.0503
0.0604
0.0282
0.0266
0.20
0.11
0.28
0.24
0.37
0.30
0.26
0.35
0.17
0.14
0.0384
0.0211
0.0538
0.0461
0.0710
0.0576
0.0499
0.0672
0.0326
0.0269
x = 26.514
rg = 0.242
sg / 5 = 0.046464
 = 26.5
E(r) = 0.2329
/5 = 0.044721
La carta di flusso viene costruita con una linea orizzontale che corrisponde al valore  (o x ), a /N
(o alla sua stima ottenuta come media generale dei gruppi), o alla media E(r) (o alla sua stima rg ),
rispettivamente per le carte della media, della deviazione standard e per quelle dell'intervallo.
Sulla carta di controllo sono disegnate altre due linee orizzontali, che corrispondono all'UCL
(upper control limit) e al LCL (lower control limit), che sono i valori critici oltre i quali scatta la
decisione di rivedere la convalida del metodo o di fermare la produzione per verificare i parametri
che hanno importanza.
In effetti LCL e UCL sono i limiti di un intervallo di fiducia (generalmente a livello 95% per il
controllo di qualità di un metodo, al 99% per il controllo di qualità di un manufatto). Poiché rimane
una piccola probabilità che anche al di fuori di questi limiti un evento risulti dalla popolazione (errore
falso positivo), generalmente la decisione di revisione è preceduta da un gruppo di misure di
conferma.
Per tracciare le rette UCL e LCL si ricorre alla distribuzione normale standard per la carta della
209
media. Per le altre carte si possono ottenere i limiti da considerazioni rigorose, applicando la
statistica 2 :
2
50
%  p% / 2 
s2 

2
 50
%  p% / 2
2
da cui i limiti per la carta della deviazione standard risultano:
LCL 

N
2
 50
%  p% / 2

2
 50
%  p% / 2

N
s


N

 UCL
(per l'esempio, si ha LCL = 0.01557 e UCL = 0.07465 a livello di fiducia 95%). La linea centrale in questo

N
caso corrisponde a
2
50
% e non coincide con , a causa della asimmetria della distribuzione

 2.
Sono reperibili, per tutte le carte ed in particolare per quelle delle deviazioni standard, tabelle
dei coefficienti che forniscono direttamente LCL e UCL senza ricorso alle tavole statistiche. Nel caso
delle carte della deviazione standard si ammette peraltro in queste tabelle che  non sia noto e che
si disponga solo della stima sg / N .
Frequentemente LCL e UCL sono posti a 3 σ / √N.
Sono anche disponibili i coefficienti da utilizzare quando si calcola la varianza del campione sc invece
della stima della varianza della popolazione.
Per la carta del range può ricavare il UCL da quello della deviazione standard. Spesso si
preferisce un procedimento meno rigoroso, che considera il range come distribuito normalmente,
con deviazione standard sr. LCL e UCL sono dalle:
LCL  rg  z p s r  r  rg  z p s r  UCL
LCL  rg  z p d 3   r  rg  z p d 3   UCL
LCL  rg  z p
rg
d2
 r  rg  z p
rg
d2
 UCL
Le costanti che moltiplicano rg , 1 
zp
d2
e 1
zp
d2
sono riportate come D3 e D4 nella tabella
sottostante. Risulta:
LCL  D3 rg  r  D4 rg  UCL
Talora D3 risulterebbe minore di zero (non dimentichiamo che è stata trattata una distribuzione 2
come se fosse una gaussiana), ed in questo caso D3 viene posto eguale a zero.
210
Coefficienti per il calcolo di LCL e UCL per le carte di controllo del range (p%=99 per D3 e D4)
N
d 2  rg sr
d3  s r / 
D3
D4
2
1.1308
0.85130
0.00000
3.25840
3
1.6948
0.88680
0.00000
2.56973
4
2.0577
0.88261
0.00000
2.28679
5
2.3261
0.85940
0.00000
2.10839
6
2.5370
0.84507
0.00070
1.99930
7
2.7078
0.83359
0.07645
1.92355
8
2.8464
0.81843
0.13740
1.86260
9
2.9643
0.80662
0.18367
1.81633
10
3.0785
0.79581
0.22449
1.77551
La Figura 2.86 mostra le tre carte di controllo per l’esempio.
Figura 2-86 – Carte di controllo per l’esempio
211
2.25.2 – Carte CUSUM e EWMA
Due procedure addizionali alle carte di controllo di Shewhart, procedure che evidenziano variazioni
anche limitate della media , sono

le carte CUSUM (Cumulative SUM, E. S. Page. "Continuous Inspection Scheme" Biometrika. 41, 100–115
(1954)) o “a somme cumulate”

le carte EWMA (Exponentially Weighted Moving Average, D. Montgomery. “Introduction to
Statistical Quality Control”. John Wiley & Sons. Inc. Hoboken. New Jersey. (2005)) o “a medie mobili pesate
esponenzialmente”
Nella carta CUSUM si riporta la somma cumulata fino all’i-esimo campione:
i
Si = ∑ x j
j=1
La carta in Figura2-87 mostra una serie di medie sperimentali, tutte comprese entro i limiti di
controllo.
Figura 2-87– Risultati per la carta CUSUM
La Figura 2-88 mostra la carta CUSUM corrispondente. Le linee orizzontali sono a ± 3 σ / √N.
La carta rileva al ventiquattresimo esperimento una situazione anomala, che corrisponde ad una
sequenza anomala di valori in eccesso sulla media (la parte a destra nella Figura 2-87). Ciò indica una
variazione della media.
Sulle carte CUSUM non vi sono limiti superiore o inferiore: l’osservazione si basa sul fatto che lunghe
sequenze con somma superiore a 3 σ / √N o inferiore a -3 σ / √N sono altamente improbabili, come
mostrato nella tabellina seguente, in cui è riportata la percentuale di significato di sequenze in cui la
somma è superiore a 3 o a 2 σ:
212
Sequenze
2
3
4
5
6
7
8
9
3σ
3.93
0.67
0.15
0.09
0
0
0
0
2σ
10.35
2.78
0.8
0.35
0.03
0.01
0.04
0
Figura 2-88 – Carta CUSUM
Un secondo tipo di carta CUSUM opera con due quantità:
Ci+ =
+
xi − μ − K + Ci−1
−
Ci− = μ − K − xi + Ci−1
Quando le C diventano negative, vengono azzerate per il calcolo della c successiva.
μ è la media. K è un valore che determina la sensibilità della carta, generalmente eguale alla metà
della differenza tra il valore obiettivo (la media) e un valore di controllo al quale si desidera che il
procedimento sia sensibile. Le C non tengono conto di variazioni della media inferiori a K.
L’applicazione agli stessi dati, con K = 0.5 e σ / √N = 1 è illustrata in Figura 2-89.
I limiti superiore e inferiore sono posti a 5 σ, come usuale per queste carte.
213
Figura 2-89 – Carta CUSUM con limiti C
Le carte EMWA sono basate sulla quantità:
zi = λ xi + (1 − λ) zi−1
Il cui valore iniziale z0 è eguale alla media.
I limiti variano con l’esperimento, secondo la:
λ
+
UCL
= μ
L √2−λ (1 − (1 − 𝜆)2𝑖 )
−
LCL
Il fattore λ determina la rapidità con cui i limiti arrivano ad essere praticamente costanti e la velocità
di variazione della variabile z di EMWA, e ha ovviamente effetto su z.
Il fattore L determina essenzialmente l’ampiezza dell’intervallo tra UCL e LCL.
La variabile di EWMA è una media ponderata, con pesi decrescenti, di tutte le osservazioni sino a
quella attuale.
Si può scrivere:
i−1
zi = λ ∑(1 − λ)j xi−j + (1 − λ)i z0
j=0
Dato il valore di i, indice della osservazione attuale, l’equazione definisce i pesi per i quali sono
moltiplicate tutte le osservazioni per ottenere zi. Pe k da 1 a i risulta:
wk(i) = λ (1 − λ)i−k
(1 − λ)i
w0(i) =
La Figura 2-90 illustra l’andamento dei pesi, che giustifica il nome “a medie mobili pesate
esponenzialmente”.
214
Figura 2-90 – Pesi in EMWA. λ = 1: 0.5; 2: 0.4; 3: 0.3; 4: 0.2; 5: 0.1; 6: 0.05; 7: 0.025
I pesi sono valutati a i = 10
La Figura 2-91 mostra l’applicazione di EWMA ai dati utilizzati per CUSUM, con λ = 0.1 e L = 3, valori
usuali per questo tipo di carte.
Figura 2-91 – Carta EWMA
La Figura 2-92 mostra l’effetto dei parametri L e λ Gli effetti dei parametri sono evidenti: λ cambia i
valori di z e la forma degli intervalli, mentre L cambia solamente l’ampiezza degli intervalli.
215
Figura 2-92 – Carte EMWA
λ = A: 0.025, B: 0.1, C: 0.4
L: a: 1, b: 2, c: 3, d: 4
2.25.3 – Carte di conformità
Le carte di conformità o degli attributi, C-Charts, studiano il numero di difetti o non-conformità
prodotte da un processo di fabbricazione
LCL = media - 3 √m
= 0 (quando < 0)
UCL = media + 3 √m
m è la media dei difetti, o un valore considerato accettabile.
La Figura 2-93 mostra un esempio di carta di conformità, in cui LCL è nullo (è peraltro evidente che
in questo tipo di carte LCL non ha importanza.
Queste carte vengono addizionate da una statistica con la frequenza dei vari tipi di difetto, in modo
da concentrare l’attenzione, ed eventualmente ridurre o eliminare, sui difetti più frequenti.
216
Figura 2-93 – Esempio di carta di conformità
2.25.4 – Controllo di qualità multivariato
Frequentemente il controllo di qualità implica più parametri. L’utilizzo delle carte usuali risulta
insoddisfacente quando questi parametri sono correlati (come accade frequentemente). Il controllo
di qualità multivariato considera la correlazione tra le variabili sotto controllo (H. Hotelling. “Multivariate
Quality Control” a C. Eisenhart, M. Hatsay, W. Wallins (Eds.) “Techniques of Statistical Analysis”. McGraw-Hill. New York.
(1947)).
La Figura 2-94 mostra accanto alle usuali carte per le singole variabili, l’intervallo di fiducia congiunto,
caratterizzato da una media correlazione positiva. In particolare è indicato un risultato chiaramente
fuori dalla ellisse di fiducia e pertanto non regolare.
Figura 2-94 – Controllo di qualità bivariato
217
La Figura 2-95 mostra un diagramma a stella, che riporta le variabili (in questo esempio cinque) con
la loro posizione in una carta di controllo usuale, normalizzata in modo che UCL e LCL siano eguali
per tutte le variabili. La disposizione a cerchio ha come cerchio esterno UCL e come cerchio interno
LCL.
Figura 2-95– Diagramma a stella
Nel controllo multivariato ogni campione (o media di un certo numero di campioni) è rappresentato
da un diagramma a stella. La carta di controllo riporta la distanza di Mahalanobis dal centroide, o,
come nell’esempio di Figura 2-96, il rapporto tra il valore della T di Hotelling e il suo valore critico. Il
grafico a stella permette di individuare, per i campioni fuori controllo, con T maggiore del valore
critico, le variabili responsabili della anomalia.
Figura 2-96 – Carta di controllo multivariata.
218
219
Nota 1
Meno importante, nel contesto della teoria delle probabilità, è l’operatore logico XOR O
esclusivo: l’evento somma esclusivo consiste nel verificarsi di uno ed uno solo degli eventi
elementari; esso non si verifica quando sono verificati ambedue gli eventi elementari.
Gli operatori logici sono eseguiti in ordine gerarchico, come gli operatori matematici ( ^, *, /, +, - :
rispettivamente elevazione a potenza, moltiplicazione, divisione, somma, sottrazione, per i quali il
livello gerarchico è rispettivamente, 1, 2, 2, 3, 3).
Operatore Logico
Livello gerarchico
Significato
NOT
1
Non
AND
2
E anche
OR
3
Oppure (O inclusivo)
XOR o NEQV
4
O esclusivo
EQV
4
Equivalente
NEQV o XOR
4
Non equivalente
Se si verifica l’evento A, NON si verifica l’evento NOT.A; i due eventi A e NOT.A sono mutuamente
esclusivi;
L’evento A.NOT.B consiste nel verificarsi di A e nel non verificarsi di B.
Se si verificano ambedue gli eventi A e B, o se ambedue non si verificano, si verifica l’evento A.EQV.B;
se uno dei due eventi elementari si verifica e l’altro non si verifica, l’evento A.EQV.B non si verifica;
L’evento A.NEQV.B si verifica quando uno e solo uno dei due eventi A e B è verificato, esattamente
come A.XOR.B.
Nota 2
A seconda dei due casi il primo intervallo comprende anche il valore minimo o l’ultimo
intervallo comprende anche il valore estremo massimo.
Nota 3
La Figura 2-97 riporta l’andamento della funzione x f(x). Si noti come essa abbia un ramo
negativo, che corrisponde a valori negativi di x. Nel caso di una funzione normale, l’integrale di x f(x)
è nullo quando il ramo positivo e quello negativo sono simmetrici.
Nota 4
La Figura 2-97 riporta anche la funzione (x-)2 f(x). Si noti che essa è sempre positiva, con due
massimi. I valori di x vicini alla media, pur essendo molto probabili, hanno basso valore di (x-)2 f(x),
perché è piccolo il primo termine, mentre valori lontani dalla media contribuiscono poco perché è
bassa la densità di probabilità.
220
Figura 2-97 Distribuzioni gaussiane e loro funzioni
221
Nota 5
A volte i dati sono già in forma raggruppata. Quando sono disponibili sia i dati singoli che quelli in
forma raggruppata, si possono confrontare le due stime della varianza del campione, come è stato
fatto in una serie di esperimenti simulati con N = 100, h (ampiezza dell’intervallo di classe) 0.5. I
risultati sono raccolti nella Figura 2-98. La correzione di Sheppard in questo caso è 0.0208. La media
delle differenze tra i valori della varianza del campione ottenuti con i dati raggruppati e non è molto
vicina a questo valore. È peraltro evidente che la entità della correzione è molto piccola rispetto alla
dispersione, circa un ottavo, e ciò indica che la correzione di Sheppard è valida ma di scarsa utilità.
Figura 2-98 – Verifica della correzione di Sheppard
Nota 6
La [2-29] é suscettibile di rappresentazione geometrica, agevole almeno nel caso in cui la Y
sia funzione di due sole variabili. Nel caso in cui sia semplicemente Y = X 1 + X2 si ha la
rappresentazione di Figura 2-99-A, se le variabili X sono incorrelate.
Se vi é correlazione tra le due variabili X, quando la correlazione é positiva si ha il caso
illustrato in Figura 2-99 B, se negativa quello illustrato in Figura 2-99 C.
La espressione generale per la varianza di una variabile somma di due variabili é:
2Y 12 2 1 2 22
222
dove  é il coefficiente di correlazione tra le due variabili (vedi equazione [2-57]).
Nella rappresentazione geometrica  é il seno dell'angolo . Dalla applicazione del teorema di
Pitagora si ottiene
2Y (1  2 ) 2 (12 )22
che sviluppata conduce alla equazione precedente.
Figura 2-99 - Rappresentazione geometrica della correlazione tra due variabili e propagazione delle
varianze
Nota 7
Sperimentalmente talora il risultato di una ripetizione dipende da quello della ripetizione
precedente, a causa di una cattiva procedura sperimentale; l’esperimento non è ben controllato.
223
Nota 8
La  
2
s2 
è la somma di ν variabili Z2. Si consideri il caso semplice in cui la varianza è stimata da
2
sole due ripetizioni. Si ha:
( x1  m) 2  ( x 2  m) 2
s 

2 1
2
X
x  x2  
x  x2 

  x1  1
   x2  1
 

2  
2 
2
2
 x  x2 
 x  x1 
 1
   2
 
 2 
 2 
2
2
 x  x2 
2  1

 2 
2
Si consideri ora la funzione Y = X1 - X2 , che per la legge di propagazione delle varianze ha 2Y = 2 2X
(s2X = s2Y / 2) ed ha anche media Y = 0.
2
s 2Y
s 2Y
 2Y
 x  x2 
2
4  1
  x1  x 2 
 2 

s 2X
 2X
La 2 
s2 
2

x1  x 2 2
 2Y

La media della Y è
0
(Y   Y ) 2
 2Y
in questo caso in cui la varianza è stimata con la somma di 2 quadrati è eguale ad una
sola funzione Z2 .
Nota 9
I valori p% per l’intervallo di fiducia di  intorno alla stima s sono forniti da:
p  s

 2p
I valori sono asimmetrici rispetto alla stima s; la Figura 2-100 riporta, per p%=95%, i valori della
funzione:
Fp 
p
s


 2p
224
Figura 2-100 - Intervalli di fiducia per la deviazione standard intorno alla sua stima
225
Nota 10
Un intervallo di fiducia è riferito ai parametri della popolazione (media, varianza) intorno ai
valori stimati, o anche alla dispersione della popolazione intorno alla sua media (x intorno a )
mentre il termine intervallo di tolleranza è riservato alla dispersione della popolazione intorno alla
media stimata (x intorno a m).
Si hanno intervalli di tolleranza con o senza probabilità di tolleranza. L'intervallo di tolleranza
senza probabilità di tolleranza è la ampiezza media dell'intervallo intorno alla media m che contiene
il p% della popolazione.
Esso si ottiene dallo studio della funzione (x-m), la cui varianza è stimata come s2 + s2 /N (il
secondo termine è la varianza della media).
Nel caso degli intervalli di tolleranza con probabilità di tolleranza si considera la popolazione
costituita dall'intervallo in cui cade il p% dei valori di (x-m)/s (ci si riferisce a valori x che NON sono
stati utilizzati per il calcolo dei valori di m e di s).
In media, questo intervallo è eguale all'intervallo di tolleranza senza probabilità di tolleranza,
ma esso varia da ripetizione a ripetizione. La Figura 2-101 mostra la distribuzione della popolazione,
la media stimata da un campione di 3 determinazioni, l'intervallo simmetrico intorno a m di
semiampiezza tp s = 4.303 s, e l'intervallo simmetrico intorno ad m di semiampiezza k s in cui è
contenuto il 95% della popolazione. Il valore di k è una variabile a caso; la sua distribuzione di
frequenza su di un campione di 100000 ripetizioni è riportata nella Figura 2-102.
Figura 2-101 - Intervallo di tolleranza
226
Nel t% dei casi k è inferiore ad un certo valore K (fattore di tolleranza). L'intervallo di tolleranza
con probabilità di tolleranza t% e probabilità di fiducia p% è pertanto l'intervallo in cui con una
probabilità t% è compreso almeno il p% della popolazione.
Figura 2-102 – Calcolo del fattore di tolleranza da 100000 esperimenti a caso e N=3
La tabella seguente mostra alcuni valori del fattore di tolleranza K, per t% = 90% e p = 95%.
N
K
2
18.800
3
6.919
4
4.943
5
4.152
6
3.723
8
3.264
10
3.018
15
2.713
20
2.564
25
2.464
227
Nota 11
La [2-95] esprime la iperbole esterna come y in funzione della X:
1/ 2
 1 ( x  mx ) 2 
y  my  b( x  mx )  t p s 1 
I c20 
 I
Per esprimere la iperbole in funzione della Y si procede come segue. Si isola il termine con la radice:
 1 ( x  mx ) 2 
y  my  b( x  mx )   t p s 1 
I c20 
 I
1/ 2
Si innalza al quadrato:
 1 (x  mx ) 2 
( y  m y )  2 b( x  m x )( y  m y )  b ( x  m x )  t s 1 
I c 20 
 I
2
2
2
2 2
p
Si riordinano i vari termini in modo da ottenere la forma consueta di una equazione di secondo grado,
nella incognita x  mx .
 2 t 2p s 2 
1
2
2
2 2 
b 
 ( x  m x )  2 b( y  m y ) ( x  m x )  ( y  m y )  t p s 1  
I c 20 
 I 

Si ottengono le due soluzioni:
 2 t 2p s2  
1
2
2 2 
2 b ( y  m y )  4 b ( y  m y )  4 b 
 ( y  m y )  t p s 1 
I c 20  
 I

x  mx 

t 2p s2 
2 b 2 

I c 20 

2
2

 
Si semplifica il 2 (4 sotto radice), e si sostituisce il denominatore con la quantità:
Ab 
2
t 2p s2
I c20
 b 2  t 2p s2b
Questa quantità dipende dal livello di fiducia utilizzato; poiché essa divide il primo termine,
determinando la media delle due soluzioni, centro dell'intervallo di fiducia, essa prende il nome di
Indice di non-centralità.
 2 t 2p s2  
1
2
2 2 
b ( y  my )  b ( y  my )  b 
 ( y  m y )  t p s 1 
I c 20  
 I

x  mx 
A
2
2
Semplifichiamo ora il termine sotto radice:
228

 
 ( y  m y ) 2   2 t 2p s 2 
b (y  m y )  t p s 
  b 

I c 20 
 I c 20  
x  mx 
A
 1 
1  I 
ovvero:
( y  m y ) 2 
b (y  m y )  t p s 
A
 I c 20 
x  mx 
A
 1
1  I 
che riscriviamo come:
x  mx 
b ( y  my )
A
2
tp s 
A ( y  my ) 

A




A 
I
I c20 
1/ 2
Quando la precedente equazione viene applicata per trovare l'intervallo di fiducia della intercetta c
sull'asse delle X, nella espressione precedente si pone y = 0; si ottiene la:
x  mx 
b my
A
tp s 
m 2y 
A

A  

A 
I I c 20 
1/ 2
Questa espressione peraltro sottintende che il valore 0 della Y sia stato ottenuto da una misura
affetta da errore; la intercetta corrisponde ad un Y eguale a zero e senza errore, ciò che spiega la
equazione [2-101].
Nota 12
Questo procedimento dovrebbe essere indicato con il nome di calibrazione inversa, in quanto la
funzione che fornisce la quantità chimica incognita X è ottenuta invertendo la funzione i cui
parametri sono calcolati:
y  a  b x
x 
y  a
b
In quella che dovrebbe essere chiamata calibrazione diretta si utilizza il modello:
x   '  ' y  
e si effettua la regressione della X sulla Y, supponendo che la variabile condizionale X/Y=y sia
distribuita normalmente con varianza eguale a quella dell'errore che si suppone dovuto alla sola X (Y
è una condizione).
Nella calibrazione multivariata, in cui una quantità chimica o risposta è predetta non da una ma da
229
molte quantità fisiche (predittori), si utilizza quella che abbiamo indicato come calibrazione diretta,
ma con il nome di calibrazione inversa, in quanto è l’inverso di quanto si fa usualmente in regressione
univariata. Nella calibrazione multivariata cambia anche la nomenclatura, e le quantità fisiche sono
indicate con la lettera X, mentre la Y indica la quantità chimica.
230