Confronto fra due o più distribuzioni di frequenza

Nota sull’Analisi .....(2a ed.)
2
Confronto fra due o
distribuzioni di frequenza
più
I problemi statistici considerati in questo capitolo possono riguardare l'analisi di variabili di
risposta sia qualitative, sia quantitative discrete oppure continue ma con dati riuniti in classi di
frequenza. Essi possono essere elencati nel modo seguente in funzione della loro ipotesi nulla
da verificare:
1) omogeneità di due o più distribuzioni di frequenza
2) uguaglianza di due o più proporzioni
3) indipendenza stocastica di due criteri di classificazione
4) bontà dell'adattamento di una distribuzione di frequenza osservata ad una determinata
distribuzione teorica.
In questa Nota, il termine "distribuzione di frequenza" si riferisce in particolare al caso in cui la
variabile di risposta abbia un numero di varianti o livelli almeno pari a 3, mentre il termine
"proporzione" è utilizzato nel caso che tali varianti siano solo 2 (il che equivale ad una
distribuzione di frequenza per ciascun campione composta da 2 sole classi). Perciò, il secondo
problema statistico costituisce in effetti un importante caso particolare del primo problema. In
entrambi i problemi, si mettono a confronto per un determinato carattere due o più campioni
rappresentativi di altrettante popolazioni; nel terzo e nel quarto problema le osservazioni sono
invece relative ad un campione estratto da una sola popolazione.
In ogni caso, i test statistici considerati richiedono come condizione di applicazione che i
campioni considerati siano casuali e indipendenti (cioè non dipendenti dal/dai campioni
precedenti).
Il χ2 di Pearson è il test statistico di validità generale per questi problemi. Attraverso di esso si
confronta la osservata distribuzione di frequenze a due dimensioni (nei primi tre dei problemi
anzidetti) o ad una dimensione (nel quarto problema) con una distribuzione teorica od attesa in
base all'ipotesi nulla considerata. Tale test, approssimato, è affidabile a condizione che nessuna
frequenza attesa per ciascuna classe sia inferiore al valore 5; si può ammettere però una
frequenza attesa compresa tra 1 e 5 se le classi della distribuzione sono almeno 6, e 2 di tali
frequenze se le classi sono almeno 11. Il SAS comunica come avviso nel file .LST la presenza
e la percentuale sul totale delle frequenze attese con valore inferiore a 5.
Limitatamente alla risoluzione dei primi tre problemi statistici sopra elencati, l'esecuzione di
questo test viene richiesta nell'ambito della procedura FREQ attraverso l'opzione CHISQ come
esemplificato nei paragrafi 2.1 e 2.3. Le modalità di esecuzione del test nella risoluzione del
quarto problema sono invece illustrate in 2.5.
Confronto fra due distribuzioni di frequenza
7
Nota sull’Analisi .....(2a ed.)
Il test "esatto" di Fisher calcola invece esattamente la distribuzione definita dall'ipotesi nulla
entro la quale vengono distinte le regioni di accettazione e di rifiuto, consentendo così una
soluzione non approssimata dei primi tre problemi su elencati. Essendo però dispendioso per il
Sistema dato l'elevato numero di calcoli richiesto, se ne consiglia l'adozione solo nei casi in cui
il test χ2 fosse inaffidabile per quanto detto e nei problemi implicanti tavole di frequenza a
doppia entrata con un numero limitato di classi. Il test di Fisher si richiede, sempre nell'ambito
della PROC FREQ, con l'opzione EXACT. Nel solo caso di tavole di frequenza 2 x 2 il SAS
esegue d'ufficio il test di Fisher anche nell'ambito dell'opzione CHISQ. L'adozione del test di
Fisher è esemplificata in 2.2 e 2.4.
Considerando i primi due problemi statistici sopra elencati, può succedere che più campioni
vengano prelevati per ciascuna popolazione statistica (o trattamento). Se la variabile di risposta
è di tipo binario, il dato per campione può essere espresso sotto forma di percentuale ed i
trattamenti essere messi a confronto tramite analisi della varianza, nella quale i diversi campioni
per trattamento rappresentano altrettante unità sperimentali (o repliche) completamente
randomizzate od eventualmente organizzate in blocchi a seconda delle modalità del
campionamento stesso. Un esempio di tale caso è considerato in 5.1. Se invece la variabile di
risposta ha più di due varianti, si confrontano le distribuzioni di frequenza dei trattamenti che si
ottengono cumulando i dati dei campioni a disposizione per trattamento; tuttavia, è buona
regola far precedere tale operazione da un controllo dell'errore sperimentale verificando
l'omogeneità delle distribuzioni di frequenza dei campioni relativi ad uno stesso trattamento.
Può anche succedere che il campionamento (ovvero l'esperimento) venga ripetuto nel tempo o
nello spazio e ci si chieda se i campioni disponibili per ciascun trattamento siano omogenei,
ovvero se non si verifichi interazione fra trattamento ed ambiente, e le risposte dei trattamenti
siano quindi confrontabili attraverso un solo test eseguito sull'insieme dei dati disponibili. Ciò è
ammissibile se non può essere respinta l'ipotesi nulla di omogeneità delle distribuzioni di
frequenza o di uguaglianza delle proporzioni dei diversi campioni appartenenti ad uno stesso
trattamento. L'esempio in 2.3 si riferisce a tale problematica.
Il quarto problema statistico, che comprende in effetti anche il caso del test di conformità di
una proporzione osservata ad una teorica, non è purtroppo risolvibile attraverso alcuna
specifica procedura dei moduli del SAS qui considerati. E' necessaria la redazione di un
programma le cui istruzioni sono illustrate nell' esempio in 2.5; le frequenze assolute attese per
la distribuzione teorica considerata dovranno essere state calcolate dall'utente a priori, dopo
avere stimato i parametri di tale distribuzione se essa non è completamente definita.
Nel solo caso della distribuzione normale il SAS consente però di eseguire, nell'ambito della
procedura UNIVARIATE, il test di Shapiro-Wilks per i campioni non superiori ai 2000
individui, ed il test di Kolmogorov per i campioni di effettivi superiori. Un esempio del primo
test sarà dato in 3.1 .
L’applicazione di modelli lineari a dati categorici di tipo numerico, eseguibile con la PROC
CATMOD, non viene esemplificato nella Nota.
Confronto fra due distribuzioni di frequenza
8
Nota sull’Analisi .....(2a ed.)
2.1 Omogeneità di due o più distribuzioni di frequenza
I dati si riferiscono ad un esperimento su erba medica. Nell'ambito della varietà Lodi sono stati
selezionati due gruppi di individui presentanti rispettivamente in misura positiva (gruppo
"plus") e negativa (gruppo "minus") le desiderate caratteristiche di elevato sviluppo radicale,
elevato numero di tubercoli ed elevato vigore. Tali due gruppi sono stati poi messi a confronto
per evidenziare eventuali differenze nella forma dei tubercoli radicali, carattere considerato
nelle sue tre varianti di tonda, cilindrica e ramificata. La distribuzione di frequenza per questo
carattere è legata alla complessità dell'organizzazione dei tubercoli, che è minima nel caso della
forma tonda e massima nella forma ramificata.
PROGRAMMA SAS
I dati sono inseriti direttamente nello step di DATA del programma, preceduti dall'istruzione
CARDS. L'istruzione INPUT presenta le successive variabili in un ordine scelto a piacere, che
nel nostro caso è: gruppo di appartenenza, forma dei tubercoli ed infine la variabile "nindiv"
indicante il numero di individui appartenenti al gruppo e presentanti la forma dei tubercoli
indicati dalle variabili precedenti. Il segno di dollaro che segue le prime due variabili indica la
loro natura alphanumerica.
L'analisi viene eseguita nell'ambito della procedura FREQ. Nell'istruzione TABLES si
riportano insieme la variabile categorica "gruppo" e la variabile "forma" che è oggetto di
analisi. Nell'ambito di questa istruzione, l'opzione CHISQ richiede l'esecuzione del test χ2 di
Pearson. L'opzione EXPECTED richiede invece la stampa delle frequenze attese per classe,
mentre l'opzione NOCOL elimina dalla tabella di output i valori delle percentuali degli individui
compresi in ciascuna classe rispetto al totale per colonna, di scarsa importanza in casi del
genere.
La variabile indicata nell'istruzione WEIGHT, "nindiv", indica poi il peso da assegnare a
ciascuna osservazione appartenente ad un certo gruppo ed alla variante del carattere la cui
analisi è richiesta in TABLES. Tale istruzione e la relativa variabile sarebbero assenti nel caso
che ciascuna riga di dati si riferisse ad un solo individuo.
Infine, l'istruzione facoltativa TITLE richiede che la stringa di caratteri racchiusa tra gli apici
compaia come titolo in ciascuna pagina dell'output. Con TITLE2, un'altra stringa si estende
sulla seconda riga.
L'ordine delle istruzioni nelle procedure di analisi è facoltativo. L'istruzione RUN chiude il
programma SAS.
*
* 2.1 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA
*
C. SCOTTI e M. MOLINARI (NON PUBBL.)
*;
DATA esempio;
INPUT gruppo $ forma $ nindiv;
CARDS;
minus tonda 6
minus cilind 74
minus ramif 22
plus tonda 16
plus cilind 245
plus ramif 226
;
PROC FREQ;
Confronto fra due distribuzioni di frequenza
9
Nota sull’Analisi .....(2a ed.)
TITLE '2.1 omogeneità di due o più distribuzioni';
TITLE2 'di frequenza';
TABLES gruppo*forma / CHISQ EXPECTED NOCOL;
WEIGHT nindiv;
RUN;
OUTPUT SAS
L'output riporta nella tabella a doppia entrata per ciascuna classe le frequenze assolute
osservate (Frequency) ed attese (Expected), le frequenze relative (Percent) ed i valori espressi
in percento delle due distribuzioni di frequenza messe a confronto (Row Pct), insieme ai totali
marginali espressi anch'essi sia in valori assoluti che relativi. I valori delle frequenze attese ci
permettono di verificare che sotto questo aspetto le condizioni per l'analisi richiesta risultano
soddisfatte.
Il valore del χ2 Ê è talmente elevato da poter respingere l'ipotesi nulla di omogeneità delle due
distribuzioni osservate con un livello di probabilità di commettere un errore P ≤ 0.001 ·
La tendenza che si osserva per i tubercoli radicali del gruppo "plus" ad avere una forma, quella
ramificata, indice di una organizzazione più complessa, risulta quindi altamente significativa.
2.1 omogeneità di due o più distribuzioni
di frequenza
TABLE OF GRUPPO BY FORMA
GRUPPO
FORMA
Frequency|
Expected |
Percent |
Row Pct |cilind |ramif
|tonda
| Total
---------+--------+--------+--------+
minus
|
74 |
22 |
6 |
102
| 55.243 | 42.947 | 3.8098 |
| 12.56 |
3.74 |
1.02 | 17.32
| 72.55 | 21.57 |
5.88 |
---------+--------+--------+--------+
plus
|
245 |
226 |
16 |
487
| 263.76 | 205.05 | 18.19 |
| 41.60 | 38.37 |
2.72 | 82.68
| 50.31 | 46.41 |
3.29 |
---------+--------+--------+--------+
Total
319
248
22
589
54.16
42.11
3.74
100.00
STATISTICS FOR TABLE OF GRUPPO BY FORMA
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
2
21.582 Ê
0.000 Ë
Likelihood Ratio Chi-Square
2
22.994
0.000
Mantel-Haenszel Chi-Square
1
10.006
0.002
Phi Coefficient
0.191
Contingency Coefficient
0.188
Cramer's V
0.191
Sample Size = 589
Confronto fra due distribuzioni di frequenza
10
Nota sull’Analisi .....(2a ed.)
2.2 Uguaglianza di due o più proporzioni
Sei popolazioni di trifoglio violetto appartenenti tutte all'ecotipo "Bolognino" sono state
confrontate per evidenziare, fra i vari caratteri morfologici distintivi, eventuali differenze nella
percentuale di piante presentanti marche fogliari. Tale carattere è stato rilevato su un campione
di piante per popolazione compreso fra i dieci e i dodici individui completamente randomizzati.
PROGRAMMA SAS
Dopo l'istruzione INPUT, quella facoltativa LABEL associa la stringa di caratteri racchiusa tra
gli apici al nome della variabile alla quale si riferisce; la stampa di tale stringa nell'output,
richiesta come opzione, ha lo scopo di rendere più comprensibile la variabile stessa.
Nell'ambito della PROC FREQ, l'opzione EXACT richiede l'esecuzione del test esatto di
Fisher, poichè il numero di frequenze attese per classe con un valore inferiore a 5 è troppo
elevato per permettere l'applicazione del test di Pearson.
Le istruzioni TABLES e WEIGHT sono utilizzate secondo modalità analoghe a quelle
dell'esempio precedente; l'istruzione LABEL richiede la stampa delle stringhe di caratteri
anzidette.
*
* 2.2 UGUAGLIANZA DI DUE O PIU' PROPORZIONI
*
P. ANNICCHIARICO (NON PUBBL.)
*;
DATA esempio;
INPUT popol marche $ nindiv;
LABEL popol='popolazioni' marche='marche fogliari';
CARDS;
1 no 10
1 si 1
2 no 7
2 si 5
3 no 8
3 si 3
4 no 10
4 si 1
5 no 9
5 si 2
6 no 5
6 si 5
;
PROC FREQ;
TITLE '2.2 uguaglianza di due o più proporzioni';
TABLES popol*marche / EXACT NOCOL;
WEIGHT nindiv;
LABEL;
RUN;
OUTPUT SAS
Il test di Fisher Ê indica l'assenza di differenze significative tra le popolazioni per il carattere
considerato.
Confronto fra due distribuzioni di frequenza
11
Nota sull’Analisi .....(2a ed.)
L'avviso in fondo all'output ci conferma che ci troviamo al di fuori delle condizioni di
applicazione per il test di Pearson.
2.2 Uguaglianza di due o più proporzioni
TABLE OF POPOL BY MARCHE
POPOL(popolazioni)
MARCHE(marche fogliari)
Frequency|
Percent |
Row Pct |no
|si
| Total
---------+--------+--------+
1 |
10 |
1 |
11
| 15.15 |
1.52 | 16.67
| 90.91 |
9.09 |
---------+--------+--------+
2 |
7 |
5 |
12
| 10.61 |
7.58 | 18.18
| 58.33 | 41.67 |
---------+--------+--------+
3 |
8 |
3 |
11
| 12.12 |
4.55 | 16.67
| 72.73 | 27.27 |
---------+--------+--------+
4 |
10 |
1 |
11
| 15.15 |
1.52 | 16.67
| 90.91 |
9.09 |
---------+--------+--------+
5 |
9 |
2 |
11
| 13.64 |
3.03 | 16.67
| 81.82 | 18.18 |
---------+--------+--------+
6 |
5 |
5 |
10
|
7.58 |
7.58 | 15.15
| 50.00 | 50.00 |
---------+--------+--------+
Total
49
17
66
74.24
25.76
100.00
STATISTICS FOR TABLE OF POPOL BY MARCHE
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
5
8.200
0.146
Likelihood Ratio Chi-Square
5
8.417
0.135
Mantel-Haenszel Chi-Square
1
0.837
0.360
Fisher's Exact Test (2-Tail)
0.166 Ê
Phi Coefficient
0.352
Contingency Coefficient
0.332
Cramer's V
0.352
Sample Size = 66
WARNING: 50% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
Confronto fra due distribuzioni di frequenza
12
Nota sull’Analisi .....(2a ed.)
2.3 Omogeneità di due o più distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio
I dati si ispirano ad un riferimento bibliografico (Dagnelie, 1973, pag. 84). Dei rametti fruttiferi
di una cultivar di melo sono stati sottoposti a 4 diversi trattamenti applicati a caso sui rametti
stessi. La variabile di risposta, data dal numero di frutti per rametto, è continua ma discreta
essendo caratterizzata da tre livelli (0, 1, più di 1 frutto per rametto). Ci si chiede se i
trattamenti determinano quote di allegagione diverse.
Rispetto all'esempio bibliografico, si immagina che i dati a disposizione per trattamento non
derivino da un unico campione bensì da due, relativi ad altrettante località nelle quali è stato
ripetuto l'esperimento. E' necessario quindi verificare l'omogeneità della distribuzione di
frequenza dei due campioni a disposizione nell'ambito di ciascun trattamento. Se i dati dei due
campioni risultano omogenei, cioè risultano appartenere alla stessa popolazione statistica, essi
possono essere cumulati per l'esecuzione di un unico test; se non lo risultano, il confronto fra i
trattamenti va limitato alle singole località.
PROGRAMMA SAS
Rispetto all'esempio precedente è qui presente e considerata nell'istruzione INPUT una
variabile categorica indicativa della località (1 o 2) di provenienza dei campioni. L'uso di un
particolare segno di codice nell'ambito della stessa istruzione, la doppia "chiocciola", consente
di riportare i valori relativi a più di un'osservazione su ciascuna riga di programma riservata ai
dati. Come si vede, nell'input dei dati il numero di spazi bianchi che dividono due osservazioni
sulla stessa riga non è rilevante.
La verifica dell'omogeneità dei dati dei due campioni viene eseguita attraverso il test di Fisher
richiedendo quattro separate PROC FREQ, ciascuna relativa ad una variante della variabile
"tratt". Questo si ottiene attraverso l'uso dell'istruzione BY, secondo una modalità che in SAS
ha la funzione di restringere l'esecuzione della procedura richiesta ai sottogruppi identificati
dalla variabile categorica indicata da tale istruzione. L'istruzione stessa è però eseguibile solo
se le osservazioni sono state preordinate, numericamente e/o alfabeticamente, secondo la
variabile categorica indicata; ciò è ottenuto tramite la procedura SORT che precede.
L'istruzione NOPRINT sopprime la stampa della tabella a doppia entrata in ciascuna di queste
procedure.
Verificata l'omogeneità dei dati dei campioni, i dati stessi vengono cumulati attraverso la
PROC MEANS che segue. Si indica con l'opzione SUM la richiesta dell'esecuzione della
somma dei valori contenuti nella variabile "nindiv", indicata dall'istruzione VAR, separatamente
per ciascuno dei sottogruppi identificati dalla combinazione delle varianti delle variabili
categoriche indicate in BY (l'uso di quest'ultima istruzione va ancora fatto precedere dalla
PROC SORT). Attraverso l'istruzione OUTPUT si richiede la creazione di un nuovo file di dati
contenente le somme dei valori nella variabile il cui nome è specificato in SUM= ; tale file, il
cui nome è indicato in OUT= , conterrà anche le due variabili che identificano i sedici
sottogruppi. L'opzione NOPRINT richiede che i risultati della PROC MEANS non siano
riportati nell'output.
La successiva PROC FREQ viene eseguita sul nuovo file di dati grazie all'opzione DATA= ,
che ne specifica il nome. Ogni volta che tale opzione non viene utilizzata, la procedura richiesta
viene eseguita sul file di dati impiegato nello STEP precedente, che viene detto perciò "file
attivo".
Confronto fra due distribuzioni di frequenza
13
Nota sull’Analisi .....(2a ed.)
*
* 2.3 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA *
ESPERIMENTO RIPETUTO NEL TEMPO O NELLO SPAZIO
*
*;
DATA file1;
INPUT tratt $ luogo nfrutti $ nindiv @@;
LABEL tratt='trattamento' luogo='località'
nfrutti='numero di frutti';
CARDS;
A 1 0 110
A 1 1 86
A 1 >1 3
A 2 0 93
A 2 1 64
A 2 >1 3
B 1 0 141
B 1 1 56
B 1 >1 1
B 2 0 125
B 2 1 56
B 2 >1 0
C 1 0 135
C 1 1 70
C 1 >1 2
C 2 0 123
C 2 1 56
C 2 >1 0
D 1 0 102
D 1 1 83
D 1 >1 9
D 2 0 94
D 2 1 85
D 2 >1 8
;
*
* verifica della omogeneità delle distribuzioni di frequenza
* dei campioni di ciascun trattamento
*;
PROC SORT;
BY tratt;
PROC FREQ;
TITLE '2.3 omogeneità di due o più distribuzioni di frequenza -';
TITLE2 'esperimento ripetuto nel tempo o nello spazio';
TITLE4 'test di omogeneità delle distribuzioni di frequenza';
TITLE5 'dei campioni di ciascun trattamento';
BY tratt;
TABLES luogo*nfrutti / EXACT NOPRINT;
WEIGHT nindiv;
LABEL;
*
* esecuzione del test di omogeneità delle distribuzioni di frequenza
* dei trattamenti sui dati cumulati dei campioni
*;
PROC SORT;
BY tratt nfrutti;
PROC MEANS SUM NOPRINT;
BY tratt nfrutti;
VAR nindiv;
OUTPUT OUT=file2 SUM=nindtot;
PROC FREQ DATA=file2;
TITLE4 'test di omogeneità delle distribuzioni di frequenza';
TITLE5 'dei trattamenti';
TABLES tratt*nfrutti / CHISQ EXPECTED NOCOL;
WEIGHT nindtot;
LABEL;
RUN;
Confronto fra due distribuzioni di frequenza
14
Nota sull’Analisi .....(2a ed.)
OUTPUT SAS
I valori del test di Fisher, l'unico affidabile in ognuno dei casi in esame, non consentono di
respingere l'ipotesi di omogeneità dei dati dei due campioni Ê. Il test di Pearson indica, con
una probabilità di errore molto esigua Ë, che i trattamenti determinano quote di allegagione
diverse nella cultivar e nelle località considerate.
2.3 omogeneità di due o più distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio
test di omogeneità delle distribuzioni di frequenza
dei campioni di ciascun trattamento
------------------------------ trattamento=A -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
2
0.418
0.811
Likelihood Ratio Chi-Square
2
0.419
0.811
Mantel-Haenszel Chi-Square
1
0.194
0.660
Fisher's Exact Test (2-Tail)
0.781 Ê
Phi Coefficient
0.034
Contingency Coefficient
0.034
Cramer's V
0.034
Sample Size = 359
WARNING: 33% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
------------------------------ trattamento=B -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
2
1.202
0.548
Likelihood Ratio Chi-Square
2
1.586
0.452
Mantel-Haenszel Chi-Square
1
0.119
0.731
Fisher's Exact Test (2-Tail)
0.692 Ê
Phi Coefficient
0.056
Contingency Coefficient
0.056
Cramer's V
0.056
Sample Size = 379
WARNING: 33% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
------------------------------ trattamento=C -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
2
2.094
0.351
Likelihood Ratio Chi-Square
2
2.857
0.240
Mantel-Haenszel Chi-Square
1
0.816
0.366
Fisher's Exact Test (2-Tail)
0.499 Ê
Confronto fra due distribuzioni di frequenza
15
Nota sull’Analisi .....(2a ed.)
Phi Coefficient
Contingency Coefficient
Cramer's V
0.074
0.073
0.074
Sample Size = 386
WARNING: 33% of the cells have expected counts less
than 5. Chi-Square may not be a valid test.
------------------------------ trattamento=D -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
2
0.281
0.869
Likelihood Ratio Chi-Square
2
0.281
0.869
Mantel-Haenszel Chi-Square
1
0.107
0.744
Fisher's Exact Test (2-Tail)
0.877 Ê
Phi Coefficient
0.027
Contingency Coefficient
0.027
Cramer's V
0.027
Sample Size = 381
test di omogeneità delle distribuzioni di frequenza
dei trattamenti
TABLE OF TRATT BY NFRUTTI
TRATT(trattamento)
NFRUTTI(numero di frutti)
Frequency|
Expected |
Percent |
Row Pct |0
|1
|>1
| Total
---------+--------+--------+--------+
A
|
203 |
150 |
6 |
359
| 220.17 | 132.63 | 6.202 |
| 13.49 |
9.97 |
0.40 | 23.85
| 56.55 | 41.78 |
1.67 |
---------+--------+--------+--------+
B
|
266 |
112 |
1 |
379
| 232.44 | 140.02 | 6.5475 |
| 17.67 |
7.44 |
0.07 | 25.18
| 70.18 | 29.55 |
0.26 |
---------+--------+--------+--------+
C
|
258 |
126 |
2 |
386
| 236.73 | 142.6 | 6.6684 |
| 17.14 |
8.37 |
0.13 | 25.65
| 66.84 | 32.64 |
0.52 |
---------+--------+--------+--------+
D
|
196 |
168 |
17 |
381
| 233.66 | 140.75 | 6.5821 |
| 13.02 | 11.16 |
1.13 | 25.32
| 51.44 | 44.09 |
4.46 |
---------+--------+--------+--------+
Total
923
556
26
1505
61.33
36.94
1.73
100.00
Confronto fra due distribuzioni di frequenza
16
Nota sull’Analisi .....(2a ed.)
STATISTICS FOR TABLE OF TRATT BY NFRUTTI
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
6
53.720
0.000 Ë
Likelihood Ratio Chi-Square
6
52.756
0.000
Mantel-Haenszel Chi-Square
1
5.548
0.019
Phi Coefficient
0.189
Contingency Coefficient
0.186
Cramer's V
0.134
Sample Size = 1505
Confronto fra due distribuzioni di frequenza
17
Nota sull’Analisi .....(2a ed.)
2.4 Indipendenza stocastica di due criteri di classificazione
I dati si riferiscono alla caratterizzazione di 1000 genotipi di Cichorium intybus. Si vuole
verificare l'indipendenza dei due criteri di classificazione "pubescenza fogliare" e "crespatura
fogliare", essendo ciascun criterio costituito semplicemente dalle due varianti presenza assenza del carattere considerato. Si vuole anche fornire una rappresentazione grafica della
distribuzione di frequenze a due dimensioni osservata.
PROGRAMMA SAS
La struttura del programma è analoga a quella degli esempi precedenti. L'istruzione TABLES
indica stavolta le variabili che costituiscono i due criteri di classificazione. L'opzione EXACT
richiede l'esecuzione del test esatto di Fisher; come detto, in un caso del genere (tavola di
contingenza 2 x 2) anche l'opzione CHISQ avrebbe permesso l'esecuzione di questo test.
Attraverso la PROC CHART vengono eseguiti istogrammi di vario tipo ed altre
rappresentazioni grafiche del genere. L'istruzione BLOCK specifica la rappresentazione
desiderata, l'istogramma a colonne, mentre la variabile che la segue indica il primo criterio di
classificazione. L'opzione GROUP e la variabile associata indicano la presenza ed il nome della
seconda variabile categorica; l'opzione SUMVAR riporta la variabile indicante il numero di
individui appartenenti a ciascuna classe identificata dai criteri di classificazione; infine
DISCRETE informa che nessuna delle variabili categoriche è del tipo continuo con dati da
riunire in classi di frequenza.
*
* 2.4 INDIPENDENZA STOCASTICA DI 2 O PIU' CRITERI DI CLASSIFICAZIONE
*
DAGNELIE (1973) - PAG. 91 , DAGNELIE (1975) - PAG. 89
*;
DATA esempio;
INPUT pubesc $ crespat $ nindiv;
LABEL pubesc='pubescenza fogliare' crespat='crespatura fogliare';
CARDS;
no no 506
no si 326
si no 83
si si 85
;
PROC FREQ;
TITLE '2.4 indipendenza stocastica di due o più criteri';
TITLE2 'di classificazione';
WEIGHT nindiv;
TABLES pubesc*crespat / EXACT;
PROC CHART;
TITLE3 'distribuzione di frequenze a due dimensioni osservata';
BLOCK pubesc / SUMVAR=nindiv GROUP=crespat DISCRETE;
LABEL;
RUN;
OUTPUT SAS
L'ipotesi nulla di indipendenza dei due criteri di classificazione può essere respinta con un
livello di P ≤ 0.01 in funzione tanto del test di Pearson Ê che del test di Fisher (2-Tail) Ë,
Confronto fra due distribuzioni di frequenza
18
Nota sull’Analisi .....(2a ed.)
indicando quest'ultimo una probabilità di errore nel respingere tale ipotesi pari a 7.58 x (10)-3 =
0.00758.
Deduciamo però dai coefficienti di correlazione non parametrica riportati Ì che l'associazione
fra i due caratteri, sebbene significativa, è piuttosto debole.
2.4 Indipendenza stocastica di due o più criteri
di classificazione
TABLE OF PUBESC BY CRESPAT
PUBESC(pubescenza fogliare)
CRESPAT(crespatura fogliare)
Frequency|
Percent |
Row Pct |
Col Pct |no
|si
| Total
---------+--------+--------+
no
|
506 |
326 |
832
| 50.60 | 32.60 | 83.20
| 60.82 | 39.18 |
| 85.91 | 79.32 |
---------+--------+--------+
si
|
83 |
85 |
168
|
8.30 |
8.50 | 16.80
| 49.40 | 50.60 |
| 14.09 | 20.68 |
---------+--------+--------+
Total
589
411
1000
58.90
41.10
100.00
STATISTICS FOR TABLE OF PUBESC BY CRESPAT
Statistic
DF
Value
Prob
-----------------------------------------------------Chi-Square
1
7.520
0.006 Ê
Likelihood Ratio Chi-Square
1
7.422
0.006
Continuity Adj. Chi-Square
1
7.056
0.008
Mantel-Haenszel Chi-Square
1
7.513
0.006
Fisher's Exact Test (Left)
0.998
(Right)
4.12E-03
(2-Tail)
7.58E-03 Ë
Phi Coefficient
0.087 Ì
Contingency Coefficient
0.086
Cramer's V
0.087
Sample Size = 1000
Confronto fra due distribuzioni di frequenza
19
Nota sull’Analisi .....(2a ed.)
distibuzione di frequenze a due dimensioni osservata
SUM OF NINDIV BY PUBESC GROUPED BY CRESPAT
___
/_ /|
|**| |
crespatura fogliare
___ -|**| |--------------------/_ /| |**| |
/
___
/
|**| | |**| |
/
/_ /|
/
si |**| | |**| |
/
|**| |
/
|**| | |**|/
/
|**|/
/
|**| |
/
/
|**| | 326
/
85
/
/|**| |-------/-------------/
/ |**| |
/
___
/
/ |**| |
/
/_ /|
/
no
/
|**| |
/
|**| |
/
/
|**|/
/
|**|/
/
/
/
/
/
506
/
83
/
/-------------/-------------/
no
si
pubescenza fogliare
Confronto fra due distribuzioni di frequenza
20
Nota sull’Analisi .....(2a ed.)
2.5 Bontà dell'adattamento di una distribuzione di
frequenze osservata ad una determinata distribuzione
teorica
Si vuole determinare se la distribuzione spaziale di piante di asfodelo sia in accordo con la
distribuzione teorica di Poisson (indice di una distribuzione del tutto casuale degli individui). A
questo scopo si è determinato il numero di piante presenti in ciascuna di 512 parcelle quadrate
di un metro di lato ciascuna scelte a caso nella località di rilevamento. Tali parcelle sono state
poi riunite in classi di frequenza in funzione del numero di piante contenute.
Le frequenze assolute della distribuzione teorica sono state previamente calcolate attraverso la
relativa formula di ricorrenza della distribuzione, dopo aver utilizzato il valore della media
osservato come stima del parametro non conosciuto di questa distribuzione teorica non
completamente definita. Le classi con un numero di individui superiore ad 8 sono state poi
riunite in un'unica classe, per rientrare nelle condizioni di applicazione del test di Pearson che
prevedono per il numero di classi indicato non più di una delle frequenze teoriche inferiore a 5.
PROGRAMMA SAS
Il test richiesto è eseguibile solo attraverso una serie di istruzioni che prevedono il calcolo del
χ2 osservato e la successiva verifica del suo livello di significatività tramite la funzione
PROBCHI del SAS.
Il programma non viene commentato in dettaglio, ma ci si sofferma solo sui punti di esso che
possono variare in coincidenza con dati, numero di classi e distribuzioni teoriche differenti.
Nell'istruzione INPUT le variabili classe, nosserv e nteoric si riferiscono rispettivamente alle
classi di frequenza ed al numero di individui contenuti in esse secondo la distribuzione
osservata e secondo quella teorica. Mantenendo inalterati tali nomi, la sola parte del
programma da variare nella risoluzione di un problema analogo è, a parte la porzione riservata
all'input dei dati, il numero indicato tra parentesi nella funzione PROBCHI verso la fine del
programma. Tale numero indica i gradi di libertà da considerare nell'esecuzione del test di
Pearson. Esso è pari al numero di classi di frequenza meno uno nel caso di distribuzioni
completamente definite. Se, come in questo e nella gran parte dei casi, la distribuzione non è
completamente definita occorrerà sottrarre un grado di libertà aggiuntivo per ogni parametro
della distribuzione che si è dovuto stimare (in questo caso è uno).
*
* 2.5 BONTA' DELL'ADATTAMENTO DI UNA DISTRIBUZIONE DI FREQUENZE
*
OSSERVATA AD UNA DETERMINATA DISTRIBUZIONE TEORICA
*
DAGNELIE (1975) - PAG. 67
*;
DATA file1;
INPUT CLASSE $ NOSSERV NTEORIC;
SCARTO = (NOSSERV - NTEORIC) ** 2 / NTEORIC;
CARDS;
0 119 18.9
1 88 62.5
2 59 103.0
3 69 113.2
4 27 93.2
5 36 61.5
6 25 33.8
Confronto fra due distribuzioni di frequenza
21
Nota sull’Analisi .....(2a ed.)
7 22 15.9
8 18 6.6
>8 49 3.5
;
*
* calcolo del valore del X2
*;
PROC MEANS SUM NOPRINT;
VAR SCARTO;
OUTPUT OUT=file2 SUM=CHIQU;
*
2
* determinazione della significatività del X tramite
* la funzione PROBCHI
*;
DATA file3;
SET file2;
PROBCHI = PROBCHI (CHIQU,8);
ALPHA = 1 - PROBCHI;
FILE PRINT;
TITLE '2.5 bontà dell'adattamento di una distribuzione di frequenze';
TITLE2 'osservata ad una determinata distribuzione teorica';
PUT ' ';
PUT ' chi quadrato = ' CHIQU ' alpha = ' ALPHA;
RUN;
OUTPUT SAS
L'ipotesi di distribuzione casuale delle piante di asfodelo può essere respinta con una
probabilità di errore talmente ridotta da essere riportata come 0 in alpha. In effetti, la
distribuzione di tali piante è di tipo aggregativo.
2.5 Bontà dell'adattamento di una distribuzione di frequenze
osservata ad una determinata distribuzione teorica
chi quadrato = 1250.0350237
alpha = 0
Confronto fra due distribuzioni di frequenza
22