Variabili categoriali

annuncio pubblicitario
LEZIONI DI STATISTCA APPLICATA
Parte 3
Statistica inferenziale
Variabili categoriali per categoriali
____________________________________
Alessandro Valbonesi
SARRF di Scienze ambientali
Anno accademico 2010-11
CAPITOLO - RELAZIONI TRA VARIABILI CATEGORIALI
Questa tipologia di analisi prevede che ci siano una o più variabili di raggruppamento dette fattori.
Il caso più semplice è quello che prevede un unico fattore con due classi di raggruppamento, dove
è possibile associare ad ogni osservazione una probabilità che corrisponde alla probabilità della
corrispondente distribuzione binomiale
.1. La distribuzione binomiale
La probabilità associata ad ogni possibile combinazione si calcola con la formula:
K
  pYqk-Y
Y 
Y k-Y
oppure C (k,Y) p q
dove C (k,Y) ,ovvero il coefficiente binomiale, è uguale a k !/[Y! (k-Y)!] che sarebbero
le combinazioni di k elementi presi Y alla volta (ovvero il numero di volte che si ottiene una
particolare combinazione) e pY e qk-Y , rispettivamente il “potere” di p e di q.
Es.: la probabilità che, data una certa frequenza di malati in una popolazione (p=0,4),
un campione di k (5) persone contenga Y (2) individui malati è:
C = 5! /2!*(5-2)! = 5*4/2=10 da cui 10*(0,4)2*(0,6)3 = 10*0,16*0,216 = 0,3456 ovvero 34,5%
.2. Rapporto di Verosimiglianza e G-Test
Il rapporto di verosomiglianza (likelihood ratio), indicato con L, è il rapporto tra la
probabilità, stimata con la distribuzione binomiale, di ottenere una certa osservazione in base
alle frequenze osservate e quelle attese secondo una determinata ipotesi.
Esempio.Se ipotizziamo che il colore nero del vello delle pecore sia dominate rispetto a quello
Marrone e se dall’incrocio di animali neri nascono anche animali marroni, dobbiamo assumere che
Entrambi i genitori neri abbiano un genotipo eterozigote, per cui dal loro accoppiamento
dovrebbero nascere figli neri e marroni nel rapporto mendeliano di 3:1 (ipotesi da testare:
segregazione 3 a 1). La frequenza attesa in base alla nostra ipotesi è quindi:
p = 0,75 (neri) e q = 0,25 (marroni). Se i dati relativi a questo tipo di incrocio sono quelli riportati
in tabella, ci si pone il problema di verificare se la differenza tra la frequenza attesa e
quella osservata sia compatibile con la nostra ipotesi di segregazione.
Distribuzione binomiale
Segregazione osservata
Neri Marroni Totale
9
6
15
Frequenza
osservata
p
q
0,60
0,40
probabilità
freq oss
0,21
probabilità
ipotesi
0,09
L
2,25
Dato che il rapporto di verosomiglianza, L, è ≠ 1 (1 = perfetta concordanza tra le frequenze ipotizzate
e quelle attese) dobbiamo appurare se il valore di L ottenuto è ancora compatibile
con la nostra ipotesi di partenza. Non abbiamo nessun riferimento statistico per testare questo
rapporto ma se utilizziamo il suo valore logaritmico moltiplicato per 2 è possibile
confrontare questo nuovo valore con quelli riportati per la distribuzione del Chi quadro1.
1
La distribuzione dei valori di G segue quella del chi quadro se nelle classi la frequenza attesa è >5.
Il test basato sul logaritmo del rapporto delle verosomiglianze è detto Test G2. Nel nostro esempio:
G = 2Ln(L) = 2*0,81 = 1,62 e la relativa distribuzione del chi quadro, con a-1 ( a = numero di classi)
gradi di libertà3, darebbe una probabilità di P = 0,20.
In questo caso si può concludere, vista la probabilità del 9% (in base alla distribuzione binomiale)
di ottenere questa segregazione ed il valore di G (con P di chi quadro > 0,05), che la segregazione
osservata è in accordo con l'ipotesi. Attenzione, questo non vuol dire che la nostra ipotesi è vera, ma
che i dati osservati sono compatibili con l’ipotesi fatta.
Un sistema più veloce per calcolare ln(L) (e quindi anche L) e fare il G-test è il seguente
Neri
Seg. Attesa*
oss/att
11,25
0,8
Marroni
Seg. Attesa* oss/att
3,75
1,6
Neri
Marroni
Oss*ln(oss/att)
-2,008
2,820
Somma
ln(L)
G=2*ln(L)
0,812
1,623
= 2.25
L=e0,812
e=2,71282818
* La segregazione attesa in base all’ipotesi, ovvero Neri = 15*0,75; Marroni 15*0,25
Questa formula ci svincola dal calcolo della probabilità binomiale e quindi ci permette di applicare
il G-test anche a segregazioni con più di due classi.
Una formula equivalente per calcolare G, che si basa sulle proprietà dei logaritmi, è: G =-2*[Ln(pa)-Ln(po)], ovvero
fare prima il logaritmo delle due verosomiglianze, farne le sottrazione e moltiplicare per -2.
3 Distribuzione del chi quadro
2
3
The chi- square distribution is a probability density function whose values range from zero to positive infinity. Thus,
unlike the normal distribution or “t”, the function approaches the χ2-axis asymptotically only at the right –hand tail of
the curve, not at both tails. As in the case of other distributions, there is not merely one χ2 distribution, but one
distribution for each number of degrees of freedom; therefore χ2 is a function of v, the number of the degrees of
freedom. The figure shows probability density functions for the χ2 distributions foe 1, 2, 3, and 6 degrees of freedom.
Notice that the curves are strongly skewed to the right, -shaped at first, but more or less approaching symmetry for
higher degrees of freedom
Poiché nel G-test la probabilità di compiere un errore di tipo I (rigettare un ipotesi vera) tende
ad essere più elevata del desiderato, per ottenere una maggiore approssimazione ad una distribuzione
di chi2, Williams ha suggerito di correggere il valore di G (G adj) con la seguente formula:
dividere G per q* = 1+ [(a2 -1) / (6nv)], dove a è il numero di classi, n è il totale dei segreganti
e v i gradi di libertà . Il valore così ottenuto è più conservativo.
Nel nostro caso, dove a =2, n=15 e v=1, abbiamo:
q* = 1,0333 da cui: Gadj = 1,571 che avrebbe una probabilità di P = 0,21.
In genere il G-test viene preferito ad altri test perché i suoi valori si approssimano maggiormente
ad una distribuzione di chi2 .
.3. Il test del chi2
Un altro test usato per valutare questo tipo di dati è quello del chi2, o statistica di Pearson
(da non confondersi con la distribuzione del chi2 che è una distribuzione continua).
la formula
è:
(fi oss - fi att.)2 / fi att
(Essendo le deviazioni calcolate elevando a quadrato i valori sono sempre positivi, e quindi è un test
sempre ad una coda) .
Vediamo ora un esempio basato sui dati di segregazione precedentemente illustrati.
Frequenza di
Neri
Frequenza
(ipotizzata),
di marroni
p=
0,75 (ipot.), q =
Segregazione
Segregazione
osservata
attesa
Total
Neri marroni offspring
Neri marroni
15
9
6
11,25 3,75
0,25
Chi2 = (9-11,25)2/11,25 + (6-3,75)2/3,75 = 1,80
P= 0,180
Anche in questo caso, dato che la distribuzione di chi quadro è una distribuzione continua
mentre i dati osservati sono dati discreti, occorre inserire una correzione detta di Yates, che
si ottiene aggiungendo e togliendo 0,5 ai dati osservati in modo da avvicinarli a quelli
previsti (Neri 9,5; marroni 5,5), quando le classi di frequenza sono due e la numerosità totale
è compresa tra 200>n>254.
La correzione di Yates può essere inserita direttamente nella formula senza dover cambiare i dati osservati:
 (Ass[fi oss - fi att.] - 0,5)2 / fi att.
Occorre comunque notare che i test sulle segregazioni non affermano nulla sulla veridicità della ipotesi
ma solo che i dati osservati sono in accordo o in disaccordo con la nostra ipotesi. In questo esempio i
nostri dati potrebbero concordare con ipotesi alternativa, 1 : 1, ovvero con :
Frequenza di N (ipotizzata), p =
0,5
Chi^2
0,6000
0,5
Segr.
Attesa
Segregazione osservata
Fenotipo N
9
Frequenza di m (ipot.),
q=
Total
offspring
Fenotipo m
15
6
correzione di Yates
P
0,43857803
Chi(adj)2
0,2667
Fenotipo N
7,500
Fenotipo
m
7,500
P
0,605576617
Il punto cruciale è che spesso le osservazioni sono poche, (n = 15, mentre dovrebbe essere almeno
33 per poter distinguere tra queste due ipotesi alternative).
E' quindi importante che le frequenze siano stabilite in base ad un numero significativo di osservazioni
che può essere così calcolato.
Se vogliamo essere sicuri all'80% di distinguere una segregazione,p1=0,75 e q1=0,25, con un livello
di significatività =0,05, da un'altra segregazione, p2=0,5 e q2= 0,5, allora:
n= A[1+radq(1+4*(p1-p2)/A)]2 / [4(p1 -p2)2]
essendo A=[t(0,05)* radq(p1*(1 - p1) + t(0.40)*radq(p2*(1-p2)]2
dove
t [0,05] inf= 1,96
2 = 2(1-0,80) = 0,40 da cui t[0,40]inf = 0,842
In questo caso A = 1,612150522 da cui n = 33,31413169
Se avessimo eseguito il nostro test su 33 osservazioni avremmo avuto che la prima ipotesi 1:3
Non sarebbe stata compatibile con i dati osservati, mentre lo sarebbe stata la seconda ipotesi 1:1
.4. Tabelle di contingenza e test di indipendenza
Le variabili categoriali vengono spesso analizzate per stabilire se esiste una particolare influenza delle
classi di una variabile sulla classi dell’altra, ovvero se le variabili sono indipendenti oppure no.
In questo caso i dati vengono organizzati in particolari tabelle dette di contingenza (cross table).
Il caso più semplice è quello rappresentato da tabelle 2 x 2.
Osservate
a
b
c
d
tot col
(tc)
a+c
b+d
tot righe
(tr)
a+b
c+d
grantot
(n)
(a+b+c+d)
Attese
tr*tc/n
Vediamo un esempio relativo a due tipi di vello (uniform e spotted) in alpaca maschi e femmine.
MASCHI
UNIFORM
13
SPOTTED
25
38
FEMMINE
44
29
73
tot
57
54
111
MASCHI FEMMINE
19,51351 37,4864865
18,48649 35,5135135
Attese; è una semplice proporzione, in quanto se gli Uniform sono 57/111, uniform sono 57/111, ovvero 0,513,
questo rapporto si deve ritrovare anche tra i due sessi, per cui 38*0,513 = 19,513 è il valore atteso per i maschi
Uniformi, se il carattere “tipo di vello” è indipendente dal sesso.
E’ quindi possibile eseguire un test del chi quadro per valutare se le due variabili sino indipendenti
tra loro.
CHI2 test of independency
CHI2
6,79555
P
0,00914
Con la correzione di Yates
CHI2
P
5,792 0,161
(ad -bc)2n /
(a+b)(c+d)(a+c)(b+d)
C'è una formula diretta:
Yates's correction:
(ASS(ad -bc) -n/2)2n / (a+b)(c+d)(a+c)(b+d)
Un’altro test e quello conosciuto come G-test per l’indipendenza, che altro non sarebbe
che il logaritmo del rapporto delle verosomiglianze. Questo test si basa sulla
distribuzione multinomiale, che è una distribuzione discreta di probabilità, ed è una generalizzazione della
distribuzione binomiale che contempla la possibilità che una variabile sia distribuita in più di due classi.
La possibilità di osservare le frequenze di a, b, c e d, assumendo una distribuzione multinomiale, si
calcola come segue:
Analogamente si calcola la probabilità di osservare le frequenze attese, le quali si ottengono come illustrato
precedentemente. Per esempio, la frequenza di a attesa sarebbe, (a+b)*(a+c)/n.
Il G test si esegue pertanto facendo il logaritmo rapporto tra queste due probabilità (verosomiglianze).5
In altri termini il G test si esegue facendo:
1) la sommatoria del prodotti della frequenza di ciascuna cella per il relativo logaritmo;
2) aggiungendo il prodotto tra numero totale di tutte le osservazioni ed il relativo logaritmo;
3) sottraendo il prodotto del totale di ciascuna riga e di ciascuna colonna per i rispettivi logaritmi;
4) moltiplicando il valore ottenuto per 2 ed andando confrontare il risultato con la distribuzione del
chi quadro per (nr- 1)*(nc-1) gradi di libertà, che in una tabella 2x2 sono uguali ad 1.
Considerando il nostri esempio otteniamo:
G-test of independency
MASCHI FEMMINE
tot
57
13
44
54
25
29
38
73
111
step a) for the cell frequencies
step b) for the row and column totals
step c) for the grand total
UNIFORM
SPOTTED
 f ln(f)
 f ln(f)
n ln(n)
2(step a step b +
stepc)
df= 1
G=
William's correction, q
=
1,015518 G adj =G/q
377,9722
897,2909
522,7579
P
6,87828
0,00872
6,77317
0,00925
In entrambi i test è necessario che le frequenze di ogni classe non siano inferiori a 5.
Se questa condizione non è soddisfatta bisogna ricorre ad un altro test: il test esatto di Fisher
Il test esatto di Fisher è un test per la verifica d'ipotesi utilizzato nell'ambito della statistica non parametrica
in situazioni con due variabili nominali e campioni piccoli. Porta il nome del suo ideatore Ronald Fisher.
Questo test non parametrico è usato per verificare se i dati dicotomici di due campioni riassunti in una
tabella di contingenza 2x2 siano compatibili con l’ ipotesi nulla (H0) che le popolazioni di origine dei due
campioni abbiano la stessa suddivisione dicotomica e che le differenze osservate con i dati campionari siano
dovute semplicemente al caso.
Se i campioni sono sufficientemente grandi (e nessuna cella ha un valore inferiore a 5) allora si può usare
il test del chi quadrato con 1 grado di libertà. Mentre quest'ultimo test è esatto solo asintoticamente per
dimensioni molto grandi dei campioni, il presente test proposto da Fisher è, come dice il nome, sempre esatto.
Il test esatto di Fisher richiede di avere due variabili nominali divise ciascuna in due sole categorie.
P.es. la prima variabile potrebbe essere il "sesso" con le due categorie "donna" e "uomo" e la seconda
variabile potrebbe essere "segue un dieta" con le due categorie "si" e "no". Si ipotizza in questo caso che
la percentuale di uomini che segue una dieta sia uguale alla percentuale tra le donne. I dati potrebbero essere
i seguenti:
uomini donne totale
in dieta
1
9
10
non in dieta 11
3
14
totale
12
12
24
Questi dati non sono idonei ad essere analizzati con il test del chi quadrato in quanto il valore atteso è in
alcune celle al limite (5 secondo gli uni, 10 secondo altri).
Per descrivere il test di Fisher è utile introdurre la seguente notazione, nella quale le lettere a, b, c e d
indicano i valori nelle celle e n è la somma totale. La tabella di contingenza verrebbe descritta così:
uomini donne totale
in dieta
a+b
a
b
non in dieta c
c+d
d
totale
a+c
b+d n
Ronald Fisher dimostrò che la probabilità di ottenere tali valori (vincolati alle somme di riga e colonna
realmente osservati) segue la variabile casuale ipergeometrica6 ed è pari a:
Questa formula dà le probabilità esatte di osservare i valori a, b, c, d (dati a+b, a+c, c+d, b+d)
qualora fosse vera l'ipotesi nulla sopra enunciata.
Per verificare se i valori osservati sono eccessivamente diversi da quanto previsto dall'ipotesi nulla,
si sommano le probabilità di quanto osservato e di tutti i casi ancora più estremi. Nel nostro esempio
l'unico caso ancora più estremo è dato da:
uomini donne totale
in dieta
0
10
10
non in dieta 12
2
14
totale
12
12
24
Per la prima tabella la probabilità è
mentre per la seconda
sommando si ottiene:
p = p0 + p1 = 0,00138 = 0,14%
il chè vuol dire che se l'ipotesi nulla è vera , allora solo in 14 esperimenti su 10.000 si otterrebbero valori
così discordanti tra uomini e donne. Essendo il calcolo spesso molto laborioso, si ricorre solitamente a tavole
con i valori già precalcolati oppure al calcolatore, per esempio usando software applicativi per la statistica.
Un software utile è
Calcolatore Test Esatto di Fisher.htm
6 La variabile casuale ipergeometrica è una variabile casuale discreta* che viene usata in particolar modo
nell'ambito delle estrazioni in blocco (senza riposizione). Rappresenta la probabilità che, data un'urna con N oggetti di
cui r di un certo tipo, estraendone n senza rimpiazzo esattamente k siano di quel tipo. In teoria delle probabilità una
variabile casuale (o variabile aleatoria o variabile stocastica o random variable) può essere pensata come il risultato
numerico di un esperimento quando questo non è prevedibile con certezza (ossia non è deterministico). Ad esempio, il
risultato del lancio di un dado a sei facce può essere matematicamente modellato come una variabile casuale che può
assumere uno dei sei possibili valori 1,2,3,4,5,6.
.5. Analisi delle proporzioni
E’ un metodo alternativo alle tabelle di contingenza dove invece che i valori osservati si
considerano le frequenze delle varie classi. Questo approccio è utilizzabile solo nel caso ci siano
due variabili categoriali, ciascuna con due sole classi di frequenza, e consente di valutare qual’ è la
relazione esistente tra le due variabili.
Vediamo subito un esempio concreto, utilizzando per aver un raffronto con i test precedenti, gli
stessi dati
Bact+antis
Bact
Dead
p1
p2
Alive
q1
q2
tot
1
1
q1/p1 sul totale (1) è la probabilità di sopravvivere con Bact + antis
q2/p2 sul totale (1) è la probabilità di sopravvivere con Bact
Il rapporto fra queste due probabilità  è detto Odd
ratios
Dead
Alive
13
44
25
29
38
73
Dead
Alive
Bact+antis 0,22807 0,7719298
Bact
0,462963 0,537037
0,691033 1,3089669
Bact+antis
Bact
tot
57
54
111
tot
1
1
2
3,384615 q1/p1 è la probabilità di sopravvivere con Bact + antis
1,16 q2/p2 è la probabilità di sopravvivere con Bact
2,91777 ; la probabilità di sopravvivere è circa tre volte maggiore 
con il trattamento Bact + antis
per vedere se questa probabilità è significamente >1 (ipotesi nulla: nessuna differenza tra i due
trattamenti) si può fare il G-test sui dati originali.
Il logaritmo di questa probabilità log-odds ratio, Ln(2,9177) = 1,071 è spesso usato per esprimere la differenza
tra i due rapporti (ln q1/p1 -ln q2/p2 = 1,0708203). Il suo errore standard è (1/a +1/b +1/c +1/d)0,5 = 0,417
Il suo intervallo di confidenza al 95% è: 1,0708 ± 1,96*es, da cui il limite inferiore è 0,253 e quello superiore
1,889. Riportato in valori di odd ratios , ovvero elimiti confidenza 7, abbiamo che la vera probabilità di sopravvivere è;
1,288 ≤ 2,918 ≤ 6,619. Il secondo trattamento potrebbe avere pertanto una efficacia maggiore di 6 volte
quella del primo in termini di sopravvivenza degli animali trattati.
Possiamo anche utilizzare questo valore per decidere se somministrare un trattamento se la sopravvivenza
è maggiore di tot volte, es. 8: (LnLn 8)2 / se2 = 5,842; questo valore si distribuisce come il chi quadro per 1
grado di libertà ed essendo quindi la sua probabilità a 0,0156 possiamo dire che in questo caso la sopravvivenza
osservata è significativamente inferiore a quella desiderata (8 volte).
Anche in questo tipo di analisi è importante che le frequenze siano stabilite su un numero congruo di
osservazioni, che può essere così calcolato.
Se vogliamo essere sicuri all'80% di determinare la reale differenza tra q1 e q2 (con q1>q2) o p1 e p2,
con un livello di significatività =0,05
t [0,05] inf= 1,960
2 = 2(1-0,80) = 0,40 da cui
t[0,40]inf =
0,842
n = [A(1+radq(1+4*(q1-q2)/A^2] / 4(q1 -q2)^2 A=[t(0,05)* radq(2*qm(1 -qm) + t(0.40)*radq(q1*(1-q1) + q2*(1-q2)]^2
A=
3,485059
Con: q1 = 0,7719; q2 =0,537; q medio (qm) = 0,654
n= 71,42494
.6. Tabelle di contingenza m x n
Tabelle più complesse sono quelle che prevedono due o più variabili categoriali ciascuna con due o
più classi, tabelle m x n. Qui ci limiteremo ad caso abbastanza semplice, ovvero ad una tabella
dove ci siano ancora due sole variabili la prima però con 4 classi, tabella 4 x 2. Passiamo subito
ad un esempio pratico in cui si voglia vedere se il colore degli occhi di un certo coleottero
(Cicindela fulgida) sia influenzato dalla stagione.
Season = 4
eyes color = 2
bright red
no bright red
total
Early
spring A
29
11
40
Late
spring B
273
191
464
Early
summer C
8
31
39
Late
summer D
64
64
128
total
374
297
671
L’eventuale influenza della stagione sul colore degli occhi viene testata utilizzando il G-test:
step a)
step b)
step c)
df=
G=
 f ln(f) = 3314,024622
 f ln(f) = 7667,110502
n ln(n) = 4367,384091
for the cell frequencies
for the row and column totals
for the grand total
(righe-1)*(colonne-1) = 3
2(a-b+c)
28,59642
P= 2,72221E-06
Dal risultato del test si evince che il colore degli occhi è influenzato dalla stagionalità. Passiamo
Ora a scomporre la tabella per meglio individuare quali periodi esercitino un influenza sul colore degli
Occhi. Nel fare questo occorre tenere presente che:
1) le possibili scomposizione devono essere uguali ai gradi di libertà, nel nostro caso 3.
2) il procedimento di ripartizione dovrà essere conseguito in modo gerarchico, ovvero, stabilita una
determinata dicotomia, le ripartizioni successive dovranno essere eseguite all'interno delle precedenti
Nel nostro caso potremmo inizialmente fare A+B (primavera) versus C+D (estate)
successivamente
A versus B
C versus D
In questo caso abbiamo fatto le tre scomposizioni consentite e la somma dei tre valori di G ottenuti
deve essere uguale al G della tabella iniziale
Season
eyes color
bright red
no bright red
total
spring
A+B
302
202
504
summer
C+D
72
95
167
total
374
297
671
3537,357299
7897,593519
4367,384091
G = 14,29574212
P= 0,000156218
In primavera si osserva un numero di individui con occhi rossi brillanti che è significativamente maggiore di
quello atteso (circa 281) se non ci fosse stata nessuna influenza stagionale, mentre in estate c’è un
numero maggiore di individui con occhi dell’altro tipo, rispetto a quello atteso.
Le ulteriori scomposizioni gerarchiche ci dicono che:
Season
E. spring L. spring
eyes color
A
B
bright red
29
273
no bright
red
11
191
total
40
464
total
302
2658,598
202
5793,281
504
3136,178
G = 2,992493
P= 0,083651
Non c’è un influenza significativa tra il colore degli occhi all’interno dei due periodi (inizio – fine) primaverili.
Season
E. summer
eyes color
C
bright red
8
no bright red
31
total
39
L.summer
D
64
64
128
total
72
95
167
655,4261703
1504,477043
854,7049667
G = 11,30818753
P= 0,000771661
Diversamente, l’eccesso di individui con occhi rossi non brillanti osservato in estate è riscontrabile osservabile
solo nel periodo iniziale.
Abbiamo optato per il G-test perché i valori sono addittivi,: 14,296 +2,99 + 11,308 = 28,596
ovvero, avendo fatto tutte le scomposizioni possibili, la somma dei vari G è uguale al G ottenuto
dalla tabella iniziale. Se avessimo usato il chi quadro la somma dei chi parziali non sarebbe stata uguale
ah chi quadro della tabella iniziale.
Scarica