Nota sull’Analisi .....(2a ed.) 2 Confronto fra due o distribuzioni di frequenza più I problemi statistici considerati in questo capitolo possono riguardare l'analisi di variabili di risposta sia qualitative, sia quantitative discrete oppure continue ma con dati riuniti in classi di frequenza. Essi possono essere elencati nel modo seguente in funzione della loro ipotesi nulla da verificare: 1) omogeneità di due o più distribuzioni di frequenza 2) uguaglianza di due o più proporzioni 3) indipendenza stocastica di due criteri di classificazione 4) bontà dell'adattamento di una distribuzione di frequenza osservata ad una determinata distribuzione teorica. In questa Nota, il termine "distribuzione di frequenza" si riferisce in particolare al caso in cui la variabile di risposta abbia un numero di varianti o livelli almeno pari a 3, mentre il termine "proporzione" è utilizzato nel caso che tali varianti siano solo 2 (il che equivale ad una distribuzione di frequenza per ciascun campione composta da 2 sole classi). Perciò, il secondo problema statistico costituisce in effetti un importante caso particolare del primo problema. In entrambi i problemi, si mettono a confronto per un determinato carattere due o più campioni rappresentativi di altrettante popolazioni; nel terzo e nel quarto problema le osservazioni sono invece relative ad un campione estratto da una sola popolazione. In ogni caso, i test statistici considerati richiedono come condizione di applicazione che i campioni considerati siano casuali e indipendenti (cioè non dipendenti dal/dai campioni precedenti). Il χ2 di Pearson è il test statistico di validità generale per questi problemi. Attraverso di esso si confronta la osservata distribuzione di frequenze a due dimensioni (nei primi tre dei problemi anzidetti) o ad una dimensione (nel quarto problema) con una distribuzione teorica od attesa in base all'ipotesi nulla considerata. Tale test, approssimato, è affidabile a condizione che nessuna frequenza attesa per ciascuna classe sia inferiore al valore 5; si può ammettere però una frequenza attesa compresa tra 1 e 5 se le classi della distribuzione sono almeno 6, e 2 di tali frequenze se le classi sono almeno 11. Il SAS comunica come avviso nel file .LST la presenza e la percentuale sul totale delle frequenze attese con valore inferiore a 5. Limitatamente alla risoluzione dei primi tre problemi statistici sopra elencati, l'esecuzione di questo test viene richiesta nell'ambito della procedura FREQ attraverso l'opzione CHISQ come esemplificato nei paragrafi 2.1 e 2.3. Le modalità di esecuzione del test nella risoluzione del quarto problema sono invece illustrate in 2.5. Confronto fra due distribuzioni di frequenza 7 Nota sull’Analisi .....(2a ed.) Il test "esatto" di Fisher calcola invece esattamente la distribuzione definita dall'ipotesi nulla entro la quale vengono distinte le regioni di accettazione e di rifiuto, consentendo così una soluzione non approssimata dei primi tre problemi su elencati. Essendo però dispendioso per il Sistema dato l'elevato numero di calcoli richiesto, se ne consiglia l'adozione solo nei casi in cui il test χ2 fosse inaffidabile per quanto detto e nei problemi implicanti tavole di frequenza a doppia entrata con un numero limitato di classi. Il test di Fisher si richiede, sempre nell'ambito della PROC FREQ, con l'opzione EXACT. Nel solo caso di tavole di frequenza 2 x 2 il SAS esegue d'ufficio il test di Fisher anche nell'ambito dell'opzione CHISQ. L'adozione del test di Fisher è esemplificata in 2.2 e 2.4. Considerando i primi due problemi statistici sopra elencati, può succedere che più campioni vengano prelevati per ciascuna popolazione statistica (o trattamento). Se la variabile di risposta è di tipo binario, il dato per campione può essere espresso sotto forma di percentuale ed i trattamenti essere messi a confronto tramite analisi della varianza, nella quale i diversi campioni per trattamento rappresentano altrettante unità sperimentali (o repliche) completamente randomizzate od eventualmente organizzate in blocchi a seconda delle modalità del campionamento stesso. Un esempio di tale caso è considerato in 5.1. Se invece la variabile di risposta ha più di due varianti, si confrontano le distribuzioni di frequenza dei trattamenti che si ottengono cumulando i dati dei campioni a disposizione per trattamento; tuttavia, è buona regola far precedere tale operazione da un controllo dell'errore sperimentale verificando l'omogeneità delle distribuzioni di frequenza dei campioni relativi ad uno stesso trattamento. Può anche succedere che il campionamento (ovvero l'esperimento) venga ripetuto nel tempo o nello spazio e ci si chieda se i campioni disponibili per ciascun trattamento siano omogenei, ovvero se non si verifichi interazione fra trattamento ed ambiente, e le risposte dei trattamenti siano quindi confrontabili attraverso un solo test eseguito sull'insieme dei dati disponibili. Ciò è ammissibile se non può essere respinta l'ipotesi nulla di omogeneità delle distribuzioni di frequenza o di uguaglianza delle proporzioni dei diversi campioni appartenenti ad uno stesso trattamento. L'esempio in 2.3 si riferisce a tale problematica. Il quarto problema statistico, che comprende in effetti anche il caso del test di conformità di una proporzione osservata ad una teorica, non è purtroppo risolvibile attraverso alcuna specifica procedura dei moduli del SAS qui considerati. E' necessaria la redazione di un programma le cui istruzioni sono illustrate nell' esempio in 2.5; le frequenze assolute attese per la distribuzione teorica considerata dovranno essere state calcolate dall'utente a priori, dopo avere stimato i parametri di tale distribuzione se essa non è completamente definita. Nel solo caso della distribuzione normale il SAS consente però di eseguire, nell'ambito della procedura UNIVARIATE, il test di Shapiro-Wilks per i campioni non superiori ai 2000 individui, ed il test di Kolmogorov per i campioni di effettivi superiori. Un esempio del primo test sarà dato in 3.1 . L’applicazione di modelli lineari a dati categorici di tipo numerico, eseguibile con la PROC CATMOD, non viene esemplificato nella Nota. Confronto fra due distribuzioni di frequenza 8 Nota sull’Analisi .....(2a ed.) 2.1 Omogeneità di due o più distribuzioni di frequenza I dati si riferiscono ad un esperimento su erba medica. Nell'ambito della varietà Lodi sono stati selezionati due gruppi di individui presentanti rispettivamente in misura positiva (gruppo "plus") e negativa (gruppo "minus") le desiderate caratteristiche di elevato sviluppo radicale, elevato numero di tubercoli ed elevato vigore. Tali due gruppi sono stati poi messi a confronto per evidenziare eventuali differenze nella forma dei tubercoli radicali, carattere considerato nelle sue tre varianti di tonda, cilindrica e ramificata. La distribuzione di frequenza per questo carattere è legata alla complessità dell'organizzazione dei tubercoli, che è minima nel caso della forma tonda e massima nella forma ramificata. PROGRAMMA SAS I dati sono inseriti direttamente nello step di DATA del programma, preceduti dall'istruzione CARDS. L'istruzione INPUT presenta le successive variabili in un ordine scelto a piacere, che nel nostro caso è: gruppo di appartenenza, forma dei tubercoli ed infine la variabile "nindiv" indicante il numero di individui appartenenti al gruppo e presentanti la forma dei tubercoli indicati dalle variabili precedenti. Il segno di dollaro che segue le prime due variabili indica la loro natura alphanumerica. L'analisi viene eseguita nell'ambito della procedura FREQ. Nell'istruzione TABLES si riportano insieme la variabile categorica "gruppo" e la variabile "forma" che è oggetto di analisi. Nell'ambito di questa istruzione, l'opzione CHISQ richiede l'esecuzione del test χ2 di Pearson. L'opzione EXPECTED richiede invece la stampa delle frequenze attese per classe, mentre l'opzione NOCOL elimina dalla tabella di output i valori delle percentuali degli individui compresi in ciascuna classe rispetto al totale per colonna, di scarsa importanza in casi del genere. La variabile indicata nell'istruzione WEIGHT, "nindiv", indica poi il peso da assegnare a ciascuna osservazione appartenente ad un certo gruppo ed alla variante del carattere la cui analisi è richiesta in TABLES. Tale istruzione e la relativa variabile sarebbero assenti nel caso che ciascuna riga di dati si riferisse ad un solo individuo. Infine, l'istruzione facoltativa TITLE richiede che la stringa di caratteri racchiusa tra gli apici compaia come titolo in ciascuna pagina dell'output. Con TITLE2, un'altra stringa si estende sulla seconda riga. L'ordine delle istruzioni nelle procedure di analisi è facoltativo. L'istruzione RUN chiude il programma SAS. * * 2.1 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA * C. SCOTTI e M. MOLINARI (NON PUBBL.) *; DATA esempio; INPUT gruppo $ forma $ nindiv; CARDS; minus tonda 6 minus cilind 74 minus ramif 22 plus tonda 16 plus cilind 245 plus ramif 226 ; PROC FREQ; Confronto fra due distribuzioni di frequenza 9 Nota sull’Analisi .....(2a ed.) TITLE '2.1 omogeneità di due o più distribuzioni'; TITLE2 'di frequenza'; TABLES gruppo*forma / CHISQ EXPECTED NOCOL; WEIGHT nindiv; RUN; OUTPUT SAS L'output riporta nella tabella a doppia entrata per ciascuna classe le frequenze assolute osservate (Frequency) ed attese (Expected), le frequenze relative (Percent) ed i valori espressi in percento delle due distribuzioni di frequenza messe a confronto (Row Pct), insieme ai totali marginali espressi anch'essi sia in valori assoluti che relativi. I valori delle frequenze attese ci permettono di verificare che sotto questo aspetto le condizioni per l'analisi richiesta risultano soddisfatte. Il valore del χ2 Ê è talmente elevato da poter respingere l'ipotesi nulla di omogeneità delle due distribuzioni osservate con un livello di probabilità di commettere un errore P ≤ 0.001 · La tendenza che si osserva per i tubercoli radicali del gruppo "plus" ad avere una forma, quella ramificata, indice di una organizzazione più complessa, risulta quindi altamente significativa. 2.1 omogeneità di due o più distribuzioni di frequenza TABLE OF GRUPPO BY FORMA GRUPPO FORMA Frequency| Expected | Percent | Row Pct |cilind |ramif |tonda | Total ---------+--------+--------+--------+ minus | 74 | 22 | 6 | 102 | 55.243 | 42.947 | 3.8098 | | 12.56 | 3.74 | 1.02 | 17.32 | 72.55 | 21.57 | 5.88 | ---------+--------+--------+--------+ plus | 245 | 226 | 16 | 487 | 263.76 | 205.05 | 18.19 | | 41.60 | 38.37 | 2.72 | 82.68 | 50.31 | 46.41 | 3.29 | ---------+--------+--------+--------+ Total 319 248 22 589 54.16 42.11 3.74 100.00 STATISTICS FOR TABLE OF GRUPPO BY FORMA Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 21.582 Ê 0.000 Ë Likelihood Ratio Chi-Square 2 22.994 0.000 Mantel-Haenszel Chi-Square 1 10.006 0.002 Phi Coefficient 0.191 Contingency Coefficient 0.188 Cramer's V 0.191 Sample Size = 589 Confronto fra due distribuzioni di frequenza 10 Nota sull’Analisi .....(2a ed.) 2.2 Uguaglianza di due o più proporzioni Sei popolazioni di trifoglio violetto appartenenti tutte all'ecotipo "Bolognino" sono state confrontate per evidenziare, fra i vari caratteri morfologici distintivi, eventuali differenze nella percentuale di piante presentanti marche fogliari. Tale carattere è stato rilevato su un campione di piante per popolazione compreso fra i dieci e i dodici individui completamente randomizzati. PROGRAMMA SAS Dopo l'istruzione INPUT, quella facoltativa LABEL associa la stringa di caratteri racchiusa tra gli apici al nome della variabile alla quale si riferisce; la stampa di tale stringa nell'output, richiesta come opzione, ha lo scopo di rendere più comprensibile la variabile stessa. Nell'ambito della PROC FREQ, l'opzione EXACT richiede l'esecuzione del test esatto di Fisher, poichè il numero di frequenze attese per classe con un valore inferiore a 5 è troppo elevato per permettere l'applicazione del test di Pearson. Le istruzioni TABLES e WEIGHT sono utilizzate secondo modalità analoghe a quelle dell'esempio precedente; l'istruzione LABEL richiede la stampa delle stringhe di caratteri anzidette. * * 2.2 UGUAGLIANZA DI DUE O PIU' PROPORZIONI * P. ANNICCHIARICO (NON PUBBL.) *; DATA esempio; INPUT popol marche $ nindiv; LABEL popol='popolazioni' marche='marche fogliari'; CARDS; 1 no 10 1 si 1 2 no 7 2 si 5 3 no 8 3 si 3 4 no 10 4 si 1 5 no 9 5 si 2 6 no 5 6 si 5 ; PROC FREQ; TITLE '2.2 uguaglianza di due o più proporzioni'; TABLES popol*marche / EXACT NOCOL; WEIGHT nindiv; LABEL; RUN; OUTPUT SAS Il test di Fisher Ê indica l'assenza di differenze significative tra le popolazioni per il carattere considerato. Confronto fra due distribuzioni di frequenza 11 Nota sull’Analisi .....(2a ed.) L'avviso in fondo all'output ci conferma che ci troviamo al di fuori delle condizioni di applicazione per il test di Pearson. 2.2 Uguaglianza di due o più proporzioni TABLE OF POPOL BY MARCHE POPOL(popolazioni) MARCHE(marche fogliari) Frequency| Percent | Row Pct |no |si | Total ---------+--------+--------+ 1 | 10 | 1 | 11 | 15.15 | 1.52 | 16.67 | 90.91 | 9.09 | ---------+--------+--------+ 2 | 7 | 5 | 12 | 10.61 | 7.58 | 18.18 | 58.33 | 41.67 | ---------+--------+--------+ 3 | 8 | 3 | 11 | 12.12 | 4.55 | 16.67 | 72.73 | 27.27 | ---------+--------+--------+ 4 | 10 | 1 | 11 | 15.15 | 1.52 | 16.67 | 90.91 | 9.09 | ---------+--------+--------+ 5 | 9 | 2 | 11 | 13.64 | 3.03 | 16.67 | 81.82 | 18.18 | ---------+--------+--------+ 6 | 5 | 5 | 10 | 7.58 | 7.58 | 15.15 | 50.00 | 50.00 | ---------+--------+--------+ Total 49 17 66 74.24 25.76 100.00 STATISTICS FOR TABLE OF POPOL BY MARCHE Statistic DF Value Prob -----------------------------------------------------Chi-Square 5 8.200 0.146 Likelihood Ratio Chi-Square 5 8.417 0.135 Mantel-Haenszel Chi-Square 1 0.837 0.360 Fisher's Exact Test (2-Tail) 0.166 Ê Phi Coefficient 0.352 Contingency Coefficient 0.332 Cramer's V 0.352 Sample Size = 66 WARNING: 50% of the cells have expected counts less than 5. Chi-Square may not be a valid test. Confronto fra due distribuzioni di frequenza 12 Nota sull’Analisi .....(2a ed.) 2.3 Omogeneità di due o più distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio I dati si ispirano ad un riferimento bibliografico (Dagnelie, 1973, pag. 84). Dei rametti fruttiferi di una cultivar di melo sono stati sottoposti a 4 diversi trattamenti applicati a caso sui rametti stessi. La variabile di risposta, data dal numero di frutti per rametto, è continua ma discreta essendo caratterizzata da tre livelli (0, 1, più di 1 frutto per rametto). Ci si chiede se i trattamenti determinano quote di allegagione diverse. Rispetto all'esempio bibliografico, si immagina che i dati a disposizione per trattamento non derivino da un unico campione bensì da due, relativi ad altrettante località nelle quali è stato ripetuto l'esperimento. E' necessario quindi verificare l'omogeneità della distribuzione di frequenza dei due campioni a disposizione nell'ambito di ciascun trattamento. Se i dati dei due campioni risultano omogenei, cioè risultano appartenere alla stessa popolazione statistica, essi possono essere cumulati per l'esecuzione di un unico test; se non lo risultano, il confronto fra i trattamenti va limitato alle singole località. PROGRAMMA SAS Rispetto all'esempio precedente è qui presente e considerata nell'istruzione INPUT una variabile categorica indicativa della località (1 o 2) di provenienza dei campioni. L'uso di un particolare segno di codice nell'ambito della stessa istruzione, la doppia "chiocciola", consente di riportare i valori relativi a più di un'osservazione su ciascuna riga di programma riservata ai dati. Come si vede, nell'input dei dati il numero di spazi bianchi che dividono due osservazioni sulla stessa riga non è rilevante. La verifica dell'omogeneità dei dati dei due campioni viene eseguita attraverso il test di Fisher richiedendo quattro separate PROC FREQ, ciascuna relativa ad una variante della variabile "tratt". Questo si ottiene attraverso l'uso dell'istruzione BY, secondo una modalità che in SAS ha la funzione di restringere l'esecuzione della procedura richiesta ai sottogruppi identificati dalla variabile categorica indicata da tale istruzione. L'istruzione stessa è però eseguibile solo se le osservazioni sono state preordinate, numericamente e/o alfabeticamente, secondo la variabile categorica indicata; ciò è ottenuto tramite la procedura SORT che precede. L'istruzione NOPRINT sopprime la stampa della tabella a doppia entrata in ciascuna di queste procedure. Verificata l'omogeneità dei dati dei campioni, i dati stessi vengono cumulati attraverso la PROC MEANS che segue. Si indica con l'opzione SUM la richiesta dell'esecuzione della somma dei valori contenuti nella variabile "nindiv", indicata dall'istruzione VAR, separatamente per ciascuno dei sottogruppi identificati dalla combinazione delle varianti delle variabili categoriche indicate in BY (l'uso di quest'ultima istruzione va ancora fatto precedere dalla PROC SORT). Attraverso l'istruzione OUTPUT si richiede la creazione di un nuovo file di dati contenente le somme dei valori nella variabile il cui nome è specificato in SUM= ; tale file, il cui nome è indicato in OUT= , conterrà anche le due variabili che identificano i sedici sottogruppi. L'opzione NOPRINT richiede che i risultati della PROC MEANS non siano riportati nell'output. La successiva PROC FREQ viene eseguita sul nuovo file di dati grazie all'opzione DATA= , che ne specifica il nome. Ogni volta che tale opzione non viene utilizzata, la procedura richiesta viene eseguita sul file di dati impiegato nello STEP precedente, che viene detto perciò "file attivo". Confronto fra due distribuzioni di frequenza 13 Nota sull’Analisi .....(2a ed.) * * 2.3 OMOGENEITA' DI DUE O PIU' DISTRIBUZIONI DI FREQUENZA * ESPERIMENTO RIPETUTO NEL TEMPO O NELLO SPAZIO * *; DATA file1; INPUT tratt $ luogo nfrutti $ nindiv @@; LABEL tratt='trattamento' luogo='località' nfrutti='numero di frutti'; CARDS; A 1 0 110 A 1 1 86 A 1 >1 3 A 2 0 93 A 2 1 64 A 2 >1 3 B 1 0 141 B 1 1 56 B 1 >1 1 B 2 0 125 B 2 1 56 B 2 >1 0 C 1 0 135 C 1 1 70 C 1 >1 2 C 2 0 123 C 2 1 56 C 2 >1 0 D 1 0 102 D 1 1 83 D 1 >1 9 D 2 0 94 D 2 1 85 D 2 >1 8 ; * * verifica della omogeneità delle distribuzioni di frequenza * dei campioni di ciascun trattamento *; PROC SORT; BY tratt; PROC FREQ; TITLE '2.3 omogeneità di due o più distribuzioni di frequenza -'; TITLE2 'esperimento ripetuto nel tempo o nello spazio'; TITLE4 'test di omogeneità delle distribuzioni di frequenza'; TITLE5 'dei campioni di ciascun trattamento'; BY tratt; TABLES luogo*nfrutti / EXACT NOPRINT; WEIGHT nindiv; LABEL; * * esecuzione del test di omogeneità delle distribuzioni di frequenza * dei trattamenti sui dati cumulati dei campioni *; PROC SORT; BY tratt nfrutti; PROC MEANS SUM NOPRINT; BY tratt nfrutti; VAR nindiv; OUTPUT OUT=file2 SUM=nindtot; PROC FREQ DATA=file2; TITLE4 'test di omogeneità delle distribuzioni di frequenza'; TITLE5 'dei trattamenti'; TABLES tratt*nfrutti / CHISQ EXPECTED NOCOL; WEIGHT nindtot; LABEL; RUN; Confronto fra due distribuzioni di frequenza 14 Nota sull’Analisi .....(2a ed.) OUTPUT SAS I valori del test di Fisher, l'unico affidabile in ognuno dei casi in esame, non consentono di respingere l'ipotesi di omogeneità dei dati dei due campioni Ê. Il test di Pearson indica, con una probabilità di errore molto esigua Ë, che i trattamenti determinano quote di allegagione diverse nella cultivar e nelle località considerate. 2.3 omogeneità di due o più distribuzioni di frequenza esperimento ripetuto nel tempo o nello spazio test di omogeneità delle distribuzioni di frequenza dei campioni di ciascun trattamento ------------------------------ trattamento=A -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 0.418 0.811 Likelihood Ratio Chi-Square 2 0.419 0.811 Mantel-Haenszel Chi-Square 1 0.194 0.660 Fisher's Exact Test (2-Tail) 0.781 Ê Phi Coefficient 0.034 Contingency Coefficient 0.034 Cramer's V 0.034 Sample Size = 359 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=B -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 1.202 0.548 Likelihood Ratio Chi-Square 2 1.586 0.452 Mantel-Haenszel Chi-Square 1 0.119 0.731 Fisher's Exact Test (2-Tail) 0.692 Ê Phi Coefficient 0.056 Contingency Coefficient 0.056 Cramer's V 0.056 Sample Size = 379 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=C -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 2.094 0.351 Likelihood Ratio Chi-Square 2 2.857 0.240 Mantel-Haenszel Chi-Square 1 0.816 0.366 Fisher's Exact Test (2-Tail) 0.499 Ê Confronto fra due distribuzioni di frequenza 15 Nota sull’Analisi .....(2a ed.) Phi Coefficient Contingency Coefficient Cramer's V 0.074 0.073 0.074 Sample Size = 386 WARNING: 33% of the cells have expected counts less than 5. Chi-Square may not be a valid test. ------------------------------ trattamento=D -----------------------------STATISTICS FOR TABLE OF LUOGO BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 2 0.281 0.869 Likelihood Ratio Chi-Square 2 0.281 0.869 Mantel-Haenszel Chi-Square 1 0.107 0.744 Fisher's Exact Test (2-Tail) 0.877 Ê Phi Coefficient 0.027 Contingency Coefficient 0.027 Cramer's V 0.027 Sample Size = 381 test di omogeneità delle distribuzioni di frequenza dei trattamenti TABLE OF TRATT BY NFRUTTI TRATT(trattamento) NFRUTTI(numero di frutti) Frequency| Expected | Percent | Row Pct |0 |1 |>1 | Total ---------+--------+--------+--------+ A | 203 | 150 | 6 | 359 | 220.17 | 132.63 | 6.202 | | 13.49 | 9.97 | 0.40 | 23.85 | 56.55 | 41.78 | 1.67 | ---------+--------+--------+--------+ B | 266 | 112 | 1 | 379 | 232.44 | 140.02 | 6.5475 | | 17.67 | 7.44 | 0.07 | 25.18 | 70.18 | 29.55 | 0.26 | ---------+--------+--------+--------+ C | 258 | 126 | 2 | 386 | 236.73 | 142.6 | 6.6684 | | 17.14 | 8.37 | 0.13 | 25.65 | 66.84 | 32.64 | 0.52 | ---------+--------+--------+--------+ D | 196 | 168 | 17 | 381 | 233.66 | 140.75 | 6.5821 | | 13.02 | 11.16 | 1.13 | 25.32 | 51.44 | 44.09 | 4.46 | ---------+--------+--------+--------+ Total 923 556 26 1505 61.33 36.94 1.73 100.00 Confronto fra due distribuzioni di frequenza 16 Nota sull’Analisi .....(2a ed.) STATISTICS FOR TABLE OF TRATT BY NFRUTTI Statistic DF Value Prob -----------------------------------------------------Chi-Square 6 53.720 0.000 Ë Likelihood Ratio Chi-Square 6 52.756 0.000 Mantel-Haenszel Chi-Square 1 5.548 0.019 Phi Coefficient 0.189 Contingency Coefficient 0.186 Cramer's V 0.134 Sample Size = 1505 Confronto fra due distribuzioni di frequenza 17 Nota sull’Analisi .....(2a ed.) 2.4 Indipendenza stocastica di due criteri di classificazione I dati si riferiscono alla caratterizzazione di 1000 genotipi di Cichorium intybus. Si vuole verificare l'indipendenza dei due criteri di classificazione "pubescenza fogliare" e "crespatura fogliare", essendo ciascun criterio costituito semplicemente dalle due varianti presenza assenza del carattere considerato. Si vuole anche fornire una rappresentazione grafica della distribuzione di frequenze a due dimensioni osservata. PROGRAMMA SAS La struttura del programma è analoga a quella degli esempi precedenti. L'istruzione TABLES indica stavolta le variabili che costituiscono i due criteri di classificazione. L'opzione EXACT richiede l'esecuzione del test esatto di Fisher; come detto, in un caso del genere (tavola di contingenza 2 x 2) anche l'opzione CHISQ avrebbe permesso l'esecuzione di questo test. Attraverso la PROC CHART vengono eseguiti istogrammi di vario tipo ed altre rappresentazioni grafiche del genere. L'istruzione BLOCK specifica la rappresentazione desiderata, l'istogramma a colonne, mentre la variabile che la segue indica il primo criterio di classificazione. L'opzione GROUP e la variabile associata indicano la presenza ed il nome della seconda variabile categorica; l'opzione SUMVAR riporta la variabile indicante il numero di individui appartenenti a ciascuna classe identificata dai criteri di classificazione; infine DISCRETE informa che nessuna delle variabili categoriche è del tipo continuo con dati da riunire in classi di frequenza. * * 2.4 INDIPENDENZA STOCASTICA DI 2 O PIU' CRITERI DI CLASSIFICAZIONE * DAGNELIE (1973) - PAG. 91 , DAGNELIE (1975) - PAG. 89 *; DATA esempio; INPUT pubesc $ crespat $ nindiv; LABEL pubesc='pubescenza fogliare' crespat='crespatura fogliare'; CARDS; no no 506 no si 326 si no 83 si si 85 ; PROC FREQ; TITLE '2.4 indipendenza stocastica di due o più criteri'; TITLE2 'di classificazione'; WEIGHT nindiv; TABLES pubesc*crespat / EXACT; PROC CHART; TITLE3 'distribuzione di frequenze a due dimensioni osservata'; BLOCK pubesc / SUMVAR=nindiv GROUP=crespat DISCRETE; LABEL; RUN; OUTPUT SAS L'ipotesi nulla di indipendenza dei due criteri di classificazione può essere respinta con un livello di P ≤ 0.01 in funzione tanto del test di Pearson Ê che del test di Fisher (2-Tail) Ë, Confronto fra due distribuzioni di frequenza 18 Nota sull’Analisi .....(2a ed.) indicando quest'ultimo una probabilità di errore nel respingere tale ipotesi pari a 7.58 x (10)-3 = 0.00758. Deduciamo però dai coefficienti di correlazione non parametrica riportati Ì che l'associazione fra i due caratteri, sebbene significativa, è piuttosto debole. 2.4 Indipendenza stocastica di due o più criteri di classificazione TABLE OF PUBESC BY CRESPAT PUBESC(pubescenza fogliare) CRESPAT(crespatura fogliare) Frequency| Percent | Row Pct | Col Pct |no |si | Total ---------+--------+--------+ no | 506 | 326 | 832 | 50.60 | 32.60 | 83.20 | 60.82 | 39.18 | | 85.91 | 79.32 | ---------+--------+--------+ si | 83 | 85 | 168 | 8.30 | 8.50 | 16.80 | 49.40 | 50.60 | | 14.09 | 20.68 | ---------+--------+--------+ Total 589 411 1000 58.90 41.10 100.00 STATISTICS FOR TABLE OF PUBESC BY CRESPAT Statistic DF Value Prob -----------------------------------------------------Chi-Square 1 7.520 0.006 Ê Likelihood Ratio Chi-Square 1 7.422 0.006 Continuity Adj. Chi-Square 1 7.056 0.008 Mantel-Haenszel Chi-Square 1 7.513 0.006 Fisher's Exact Test (Left) 0.998 (Right) 4.12E-03 (2-Tail) 7.58E-03 Ë Phi Coefficient 0.087 Ì Contingency Coefficient 0.086 Cramer's V 0.087 Sample Size = 1000 Confronto fra due distribuzioni di frequenza 19 Nota sull’Analisi .....(2a ed.) distibuzione di frequenze a due dimensioni osservata SUM OF NINDIV BY PUBESC GROUPED BY CRESPAT ___ /_ /| |**| | crespatura fogliare ___ -|**| |--------------------/_ /| |**| | / ___ / |**| | |**| | / /_ /| / si |**| | |**| | / |**| | / |**| | |**|/ / |**|/ / |**| | / / |**| | 326 / 85 / /|**| |-------/-------------/ / |**| | / ___ / / |**| | / /_ /| / no / |**| | / |**| | / / |**|/ / |**|/ / / / / / 506 / 83 / /-------------/-------------/ no si pubescenza fogliare Confronto fra due distribuzioni di frequenza 20 Nota sull’Analisi .....(2a ed.) 2.5 Bontà dell'adattamento di una distribuzione di frequenze osservata ad una determinata distribuzione teorica Si vuole determinare se la distribuzione spaziale di piante di asfodelo sia in accordo con la distribuzione teorica di Poisson (indice di una distribuzione del tutto casuale degli individui). A questo scopo si è determinato il numero di piante presenti in ciascuna di 512 parcelle quadrate di un metro di lato ciascuna scelte a caso nella località di rilevamento. Tali parcelle sono state poi riunite in classi di frequenza in funzione del numero di piante contenute. Le frequenze assolute della distribuzione teorica sono state previamente calcolate attraverso la relativa formula di ricorrenza della distribuzione, dopo aver utilizzato il valore della media osservato come stima del parametro non conosciuto di questa distribuzione teorica non completamente definita. Le classi con un numero di individui superiore ad 8 sono state poi riunite in un'unica classe, per rientrare nelle condizioni di applicazione del test di Pearson che prevedono per il numero di classi indicato non più di una delle frequenze teoriche inferiore a 5. PROGRAMMA SAS Il test richiesto è eseguibile solo attraverso una serie di istruzioni che prevedono il calcolo del χ2 osservato e la successiva verifica del suo livello di significatività tramite la funzione PROBCHI del SAS. Il programma non viene commentato in dettaglio, ma ci si sofferma solo sui punti di esso che possono variare in coincidenza con dati, numero di classi e distribuzioni teoriche differenti. Nell'istruzione INPUT le variabili classe, nosserv e nteoric si riferiscono rispettivamente alle classi di frequenza ed al numero di individui contenuti in esse secondo la distribuzione osservata e secondo quella teorica. Mantenendo inalterati tali nomi, la sola parte del programma da variare nella risoluzione di un problema analogo è, a parte la porzione riservata all'input dei dati, il numero indicato tra parentesi nella funzione PROBCHI verso la fine del programma. Tale numero indica i gradi di libertà da considerare nell'esecuzione del test di Pearson. Esso è pari al numero di classi di frequenza meno uno nel caso di distribuzioni completamente definite. Se, come in questo e nella gran parte dei casi, la distribuzione non è completamente definita occorrerà sottrarre un grado di libertà aggiuntivo per ogni parametro della distribuzione che si è dovuto stimare (in questo caso è uno). * * 2.5 BONTA' DELL'ADATTAMENTO DI UNA DISTRIBUZIONE DI FREQUENZE * OSSERVATA AD UNA DETERMINATA DISTRIBUZIONE TEORICA * DAGNELIE (1975) - PAG. 67 *; DATA file1; INPUT CLASSE $ NOSSERV NTEORIC; SCARTO = (NOSSERV - NTEORIC) ** 2 / NTEORIC; CARDS; 0 119 18.9 1 88 62.5 2 59 103.0 3 69 113.2 4 27 93.2 5 36 61.5 6 25 33.8 Confronto fra due distribuzioni di frequenza 21 Nota sull’Analisi .....(2a ed.) 7 22 15.9 8 18 6.6 >8 49 3.5 ; * * calcolo del valore del X2 *; PROC MEANS SUM NOPRINT; VAR SCARTO; OUTPUT OUT=file2 SUM=CHIQU; * 2 * determinazione della significatività del X tramite * la funzione PROBCHI *; DATA file3; SET file2; PROBCHI = PROBCHI (CHIQU,8); ALPHA = 1 - PROBCHI; FILE PRINT; TITLE '2.5 bontà dell'adattamento di una distribuzione di frequenze'; TITLE2 'osservata ad una determinata distribuzione teorica'; PUT ' '; PUT ' chi quadrato = ' CHIQU ' alpha = ' ALPHA; RUN; OUTPUT SAS L'ipotesi di distribuzione casuale delle piante di asfodelo può essere respinta con una probabilità di errore talmente ridotta da essere riportata come 0 in alpha. In effetti, la distribuzione di tali piante è di tipo aggregativo. 2.5 Bontà dell'adattamento di una distribuzione di frequenze osservata ad una determinata distribuzione teorica chi quadrato = 1250.0350237 alpha = 0 Confronto fra due distribuzioni di frequenza 22