STAT

UNIVERSITA’ DEGLI STUDI DI PERUGIA
Dipartimento di Chimica, Biologia e Biotecnologie
Via Elce di Sotto, 06123 –Perugia
Corso di Laurea di Scienze biomolecolari e ambientali
Laurea magistrale
Corso di ANALISI DEI SISTEMI ECOLOGICI
Sito del corso: www.dcbb.unipg.it/cdlscienzebiomol
Alessandro Ludovisi
Sito docente: www.dcbb.unipg.it/alessandro.ludovisi
Tel. 075 585 5712
e-mail address: [email protected]
METODI STATISTICI
1
DISTRIBUZIONI E TEST ASSOCIATI
• DISTRIBUZIONE c2 (CHI-QUADRO)
• DISTRIBUZIONE t DI STUDENT
• DISTRIBUZIONE DI POISSON
LA DISTRIBUZIONE c2 (CHI-QUADRO)
La distribuzione chi-quadro è la distribuzione di probabilità di una variabile aleatoria definita come:
k
c ( k )   xi 2  x12  x2 2  ...xk 2
2
i 1
dove x1,…, xk sono variabili aleatorie indipendenti con distribuzione normale standard N(0,1). k è quindi il
numero dei termini della sommatoria, detto anche gradi di libertà.
Per il teorema del limite centrale, la distribuzione c2(k) converge ad una distribuzione normale per k che tende
a infinito. Più precisamente, se c2(k) segue la distribuzione c2, allora la distribuzione di c 2 ( k )  k
tende ad una distribuzione normale standard N(0,1)
2k
k=1
Probabilità
k=2
k=3
k=4
k=5
k=6
k=7
Nelle applicazioni pratiche (test chi-quadro), la
variabile aleatoria su cui si effettua il test è lo
scarto tra valori osservati e attesi (come
frazione rispetto al valore atteso), che è attesa
distriburisi secondo c2 , ammesso che si
comporti appunto come aleatoria.
Si testa infatti che lo scarto sia il semplice frutto
di variazioni casuali
IL TEST c2 (CHI-QUADRO)
La variabile test chi-quadro si ottiene sommando, per ogni evento Ei il quadrato degli scarti tra le
frequenze teoriche e quelle osservate pesato sulle frequenze teoriche:
k
c 2( k )  
i 1
oi  ei 2
ei
Evento
E1
E2
...
Ek
Frequenze osservate
o1
o2
...
ok
Frequenze attese
e1
e2
...
ek
N.B.: le frequenze sono sempre frequenze assolute. Frequenze percentuali o relative vanno sempre ritrasformate
in frequenze assolute moltiplicandole per il numero di osservazioni, perché il test è sensibile alla dimensione del
campione.
Se c² (k)= 0, le frequenze osservate coincidono esattamente con quelle teoriche. Se invece c²(k) > 0,
esse differiscono. Più grande è il valore di c²(k) , più grande è la discrepanza tra le frequenze osservate e
quelle teoriche.
Il test del chi-quadro serve a saggiare l'ipotesi che la discrepanza tra frequenze attese e frequenze
osservate sia dovuta:
Ipotesi H0: al caso (campione limitato, imprecisione, errore distribuito, ecc.);
Ipotesi H1: al fatto che il campione provenga da una popolazione diversa da quella da cui deriva la frequenza
attesa.
IL TEST c2 (CHI-QUADRO)
La significatività della discrepanza tra frequenze osservate e attese, ovvero la certezza con la quale si può
rigettare l’ipotesi Ho, si può valutare dalla tavola di distribuzione teorica del chi-quadro, che è funzione dei gradi
di libertà (g.d.l.) legati al campione:
g.d.l. = (n. di righe-1) x (n. di colonne -1)
IL TEST c2 (CHI-QUADRO)
Supponiamo che in un campione si osservi che determinati eventi E1, E2, …, Ek si realizzino con frequenze
o1, o2, …, ok dette frequenze osservate. Supponiamo d’altra parte che vi siano motivi per attendersi una
distribuzione di frequenze e1, e2, …, ek dette frequenze teoriche o attese:
Evento
E1
E2
...
Ek
Frequenze osservate
o1
o2
...
ok
Frequenze attese
e1
e2
...
ek
Le frequenze attese possono essere stabilite:
• a priori, ovvero costruendo una distribuzione rispetto alla quale si vuole
valutare l’aderenza del campione
• in base alla conoscenza della popolazione statistica o del fenomeno in
esame
TEST CHI-QUADRO DELLA BONTA’ DELL’ADATTAMENTO (o CHI-QUADRO di
PEARSON)
• costruendo una distribuzione attesa cumulata in base alle frequenze
osservate su n campioni
 TEST CHI-QUADRO PER CAMPIONI INDIPENDENTI
IL TEST c2 (CHI-QUADRO) - BONTÀ DI ADATTAMENTO (O CHI-QUADRO DI PEARSON)
Le frequenze attese sono stimate in base alla legge nota o ipotizzata, ripartendo il numero totale di osservazioni
nelle k categorie
Categoria
1
2
…
k
Frequenze
osservate
f1
f2
…
fk
ftot
Frequenze
attese
= p1·ftot
= p2·ftot
…
= pk·ftot
ftot
NB: Il test si considera
affidabile se tutte le
frequenze attese
raggiungano un valore
minimo (a seconda
delle esigenze), in
genere almeno pari a
5.
Probabilità
teorica
p1
p2
…
pk
1
Lanci di moneta
Categoria (esito del lancio)
Osservato Atteso
TESTA
CROCE
Gradi di libertà
Chi quadro - livello di confidenza per Ho
Chi quadro - probabilità sinistra
Chi quadro - probabilità destra
pi
(%) (%) Chi-quadro valori
20
22.5
0.5 44.4 50.0
0.28
25
45
22.5
45
0.5 55.6 50.0
1 100 100
0.28
0.56
1
0.4561
0.5439
0.4561
1.0000
IL TEST c2 (CHI-QUADRO) - BONTÀ DI ADATTAMENTO (O CHI-QUADRO DI PEARSON)
Le frequenze attese sono stimate in base alla legge nota o ipotizzata, ripartendo il numero totale di osservazioni
nelle k categorie
Lanci di dado
Categoria (esito del lancio)
1
2
3
4
5
6
Gradi di libertà
Chi quadro - livello di confidenza per Ho
Chi quadro - probabilità sinistra
Chi quadro - probabilità destra
Osservato Atteso
28
35
35
35
42
35
35
35
28
35
42
35
210
210
5
0.347105
0.6529
0.3471
pi
0.17
0.17
0.17
0.17
0.17
0.17
1
(%)
13.3
16.7
20.0
16.7
13.3
20.0
100
(%) Chi-quadro valori
16.7
1.40
16.7
0.00
16.7
1.40
16.7
0.00
16.7
1.40
16.7
1.40
100
5.60
IL TEST c2 (CHI-QUADRO) - TEST PER CAMPIONI INDIPENDENTI
Il test verifica l'ipotesi nulla che due campioni derivino dalla stessa popolazione (di cui non è richiesto conoscere
la distribuzione). Le frequenze attese sono stimate in base alla distribuzione cumulata dei campioni esaminati
TABELLA DI CONTINGENZA
Categoria F. Osservate F. Osservate
campione 1 campione 2
1
f1
f’1
2
f2
f’2
…
…
…
k
fk
f’k
ftot
f’tot
F. Cumulate
(marginali)
F1 = f1 + f’1
F2 = f2 + f’2
…
Fk = fk + f’k
F = ftot + f’tot
F. Attese
F. Attese
campione 1 campione 2
= F1/F ·ftot
= F1/F ·f’tot
= F2/F ·ftot
= F2/F ·f’tot
…
…
= F2/F ·ftot
= F2/F ·f’tot
ftot
F’tot
In pratica, si assume che se i due campioni provengono dalla stessa popolazione, la loro distribuzione
deve essere statisticamente uguale a quella cumulata, a parità di dimensione del campione (ftot).
Di fatto, il rapporto tra i marginali (F1) e il totale degli eventi (F) rappresenta uno stimatore delle
probabilità per le varie categorie
NB: Il test si considera affidabile se tutte le frequenze attese raggiungano un valore minimo (a seconda delle
esigenze), in genere almeno pari a 5.
IL TEST c2 (CHI-QUADRO) - TEST PER CAMPIONI INDIPENDENTI
Conteggi fitoplancton
Valori osservati
Categorie (specie)
Ankistrodesmus falcatus
Chlamidomonas sp
Cocconeis placentula
Cryptomonas erosa
Lingbja limnetica
Peridinium sp
Rhodomonas minuta
Scenedesmus biyuga
Tetraedron minimum
Gradi di libertà
Chi quadro - livello di confidenza per Ho
Staz.1A
Staz.1B
Staz.1C
13
58
27
24
11
26
52
14
24
2
50
3
6
2
8
55
22
4
7
80
7
13
0
7
99
13
7
22
130
10
19
2
15
154
35
11
13.8
81.3
6.3
11.9
1.3
9.4
96.3
21.9
6.9
8.4
49.6
3.8
7.3
0.8
5.7
58.8
13.4
4.2
12.9
76.1
5.9
11.1
1.2
8.8
90.2
20.5
6.4
249
152
233
398
249
152
233
16
0.00000
Conteggi fitoplancton
Categorie (specie)
Ankistrodesmus falcatus
Chlamidomonas sp
Cocconeis placentula
Cryptomonas erosa
Lingbja limnetica
Peridinium sp
Rhodomonas minuta
Scenedesmus biyuga
Tetraedron minimum
Gradi di libertà
Chi quadro - livello di confidenza per Ho
Valori attesi
Totali
marginali
Valori osservati
Totali
Staz.1B Staz.1C marginal
2
7
9
50
80
130
3
7
10
6
13
19
2
0
2
8
7
15
55
99
154
22
13
35
4
7
11
152
233
385
8
0.05383
Valori osservati
Staz.1B Staz.1C
3.6
5.4
51.3
78.7
3.9
6.1
7.5
11.5
0.8
1.2
5.9
9.1
60.8
93.2
13.8
21.2
4.3
6.7
152
233
Staz.1A
Staz.1B
Staz.1C
IL TEST c2 IN PAST
> PAST
N.B.: I DATI DEVONO ESSERE ORGANIZZATI IN TABELLE
DI CONTINGENZA
Pubblicò la sua distribuzione William Sealy Gosset
sotto lo pseudonimo "Student" (Mr Student)
La distribuzione di Student governa variabili aleatorie campionarie, ovvero perché la fabbrica di birra 1876-1937
Guinness presso la quale era
variabili per le quali i parametri di popolazione (media, varianza, etc.) non impiegato vietava ai propri
dipendenti di pubblicare
siano noti, ma stimati in base ad un campione (cioè quasi sempre!!)
articoli affinché questi non
divulgassero segreti di
Si può dimostrare che, data una popolazione normalmente
produzione.
LA DISTRIBUZIONE t DI STUDENT
distribuita con media μ e deviazione standard σ, le medie
campionarie ( X i ) sono anch'esse normalmente distribuite
con media μ e deviazione standard pari alla deviazione
standard della popolazione divisa per la radice del numero di
elementi del campione σ/√n (che corrisponde all’errore
standard
La distribuzione di Student governa la distribuzione delle
medie campionarie standardizzate:
tn 
X 
s/ n
in cui s è la deviazione standard campionaria e s/√n
l’errore standard campionario
La distribuzione di Student tende ad una distribuzione normale al crescere di n
LA DISTRIBUZIONE t DI STUDENT
La distribuzione di Student è utilizzata per verificare:
- se una media campionaria si discosta significativamente dalla media di un a popolazione (ove nota)
- se una media campionaria si discosta significativamente da un valore di riferimento (X R)
In questi casi è sufficiente calcolare t, come:
t n 1
X 

s/ n
t n 1
X  XR

s/ n
e confrontarlo con i valori tabulati per dati gradi di libertà
(=n -1) e livello di confidenza () 
- se una singola osservazione X appartiene ad una data
popolazione campionaria di media ( X ) e numerosità n
In questi casi è sufficiente calcolare t, come:
t n 1
X X

s n n1
e confrontarlo con i valori tabulati per dati gradi di libertà
(=n -1) e livello di confidenza () 
LA DISTRIBUZIONE t DI STUDENT
La distribuzione di Student è anche usata per verificare:
- se due campioni appaiati (dipendenti) appartengono alla stessa popolazione. In questo caso il test si focalizza
sulle differenze (di) tra le n coppie di osservazione testate
t n 1
d d

sd / n
dove d è la media delle differenze tra singole osservazioni
appaiate, d è la differenza media attesa (=0 usualmente)
e sd è la deviazione standard campionaria delle differenze.
- se due campioni non appaiati (indipendenti), anche di numerosità
diversa (nA e nB), appartengono alla stessa popolazione:
t n A  n B 2 
X A  XB
sp
1
nA
 n1B
Dove X A , X B sono le medie campionarie di due campioni A e B
e sp è la deviazione campionaria calcolata accorpando le
osservazioni dei due campioni.
Si assumono media e varianza comune (ipotesi nulla).
CAMPIONI APPAIATI E NON APPAIATI
Caratteristica distintiva di 2 campioni dipendenti o appaiati è poter
accoppiare ogni osservazione di un campione con una e una sola
osservazione dell'altro campione. Di conseguenza, i due gruppi hanno
necessariamente lo stesso numero di dati.
Si possono configurare tre tipi di appaiamento:
1- dati auto-appaiati: confronto tra osservazioni fatte sui medesimi
elementi, ma in momenti o condizioni diverse (e.g. una variabile
ambientale osservata su ambienti diversi in due campionamenti)
2 - dati naturalmente appaiati, confronto tra osservazioni fatte su
elementi omogenei a coppie, in condizioni diverse (e.g. una variabile
misurata su soggetti di età diversa sottoposti a trattamenti diversi,
eventualmente non reversibili)
3 - dati artificialmente appaiati: confronto tra osservazioni fatte su
elementi assunti omogenei a coppie in condizioni diverse
(e.g. una variabile ambientale osservata su coppie di ambienti simili,
per le quali uno dei due campioni funge da controllo e l’altro è
sottoposto ad impatti o trattamenti.
Campioni indipendenti sono da
considerare osservazioni fatte su
elementi omogenei e non, con
numerosità anche diverse e
distribuzioni eventualmente diverse
(da verificare tramite il test)
LA DISTRIBUZIONE t DI STUDENT
La distribuzione di Student è anche usata per verificare:
- se un coefficiente di correlazione si discosta significativamente dal valore nullo (assenza di correlazione)
In questo caso, l’errore standard di r è dato da
1 r 2
er 
n 2
t n 2
r ( 0 )

er
Il numero di gradi di libertà in questo caso è n-2. 
Per questo test, sono disponibili tabelle in cui sono tabulati
direttamente i valori di correlazione 
STAT 1
LA DISTRIBUZIONE t DI STUDENT
La distribuzione di Student è anche usata per verificare se i coefficienti di regressione lineare si discostano
significativamente da valori attesi.
Per il coefficiente angolare b, l’errore standard è dato da:
eb 
s e2
2
 X i  X 
t n 2
b  b 

eb
i ,n
dove se è la deviazione standard dell’errore associato alla
regressione, e b il valore atteso di b, che assume valore nullo
o valore arbitrario da testare.
Per l’intercetta della retta a, l’errore standard è dato da:

2
1
X
e a  s e2  
 n  X i  X
i ,n


2





t n 2
a   

ea
dove  è il valore atteso di a, che assume valore nullo
o valore arbitrario da testare
TEST t DI STUDENT IN PAST
> PAST
N.B.: I DATI DEVONO
ESSERE ORGANIZZATI IN
MODO CHE I CAMPIONI SIANO
INCOLONNATI
LA DISTRIBUZIONE DI POISSON
E' un modello probabilistico discreto adoperato per rappresentare la distribuzione dei
conteggi di eventi indipendenti che si realizzano in sequenza (temporale o spaziale).
Rappresentando dei conteggi, una variabile poissoniana è una variabile casuale
discreta ( Xi ) che può assumere qualsiasi valore intero non-negativo.
La distribuzione di Poisson può essere ottenuta come limite delle distribuzioni
binomiali per n∞ e pi0 ed è perciò anche nota come legge di probabilità degli
eventi rari.
Siméon-Denis Poisson
(1781-1840)
Secondo la Poisson, la probabilità associata a ciascun valore di conteggio Xi è data da:
X i 
p X i  
e
Xi !
dove Xi è il conteggio i-esimo ( 0, 1, 2, 3, etc.) e  è la media attesa per la distribuzione degli Xi , che
può evidentemente assumere valori non interi.
Come si vede, la distribuzione dipende da un singolo parametro (), il quale peraltro si dimostra
essere pari alla varianza attesa per la distribuzione degli Xi
 2
LA DISTRIBUZIONE DI POISSON
Per  molto elevati (>1000) una
variabile aleatoria con distribuzione
Poisson viene solitamente approssimata
con la distribuzione normale.
Per 10< <1000 sono invece
necessarie delle correzioni di continuità,
legate ai diversi domini delle due
distribuzioni (una discreta, una continua).
La radice quadrata di una variabile
aleatoria con distribuzione di Poisson è
approssimata da una distribuzione
normale meglio di quanto lo sia la
variabile stessa.
La distribuzione di Poisson trova la sua applicazione più ampia per bassi valori di  <50, ove la
statistica gaussiana è inapplicabile. I paramentri di distribuzione poissoniani (media e varianza)
campionari, rappresentano stimatori non distorti dei valori attesi, anche per bassi valori di conteggio.
Inoltre, l’attesa coincidenza dei valori di media e varianza è particolarmente utile per valutare
statisticamente la modalità di distribuzione spaziale di una popolazione
LA DISTRIBUZIONE DI POISSON
Il comportamento (e la ratio)della distribuzione Poisson si può evidenziare tramite applicazione a casi
concreti di conteggio entro un’area suddivisa in settori reticolati
3
4
2
0
2
2
2
1
2
media
varianza
1 campione
campionario
Poisson
2.00
1.25
La distribuzione campionaria dell’esempio (nel grafico
le frequenze osservate per ogni valore di conteggio 0,
1, 2, 3, 4 sono divise per 9), mostra andamento
compatibile con l’atteso Poisson, ma piuttosto diverso,
così come media e varianza campionaria sono tra loro
dissimili.
Una corrispondenza migliore si ottiene se si mediano i
risultati di 100 campioni generati casualmente e aventi
media 2. La varianza si approssima a 2.
100 campioni
campionario
Poisson
INDICI DI FORMA DI UNA DISTRIBUZIONE –SIMMETRIA E CURTOSI
Si tratta di indici che forniscono una mera descrizione della distribuzione dei dati
La SIMMETRIA indica la corrispondenza dei valori di frequenza a una data distanza da un valore centrale assunto
dalla variabile (tipicamente la mediana, per massima generalità).
Asimmetria a destra
Asimmetria a sinistra
Valutare la simmetria tramite la visualizzazione dei dati può essere critico, sia per l’eventuale ridotta dimensione
del campione, sia per la scelta arbitraria delle classi di frequenza. Il grado di asimmetria può essere misurato
tramite vari indici, che sono nulli per distribuzione simmetrica, positivi per asimmetria a sinistra e negativi per
asimmetria a destra:
 skewness di Pearson;
N.B.: La perfetta
coincidenza moda,
 g1 o G1 di Fisher;
median e media è
 b1 di Pearson.
Per l’indice G1 di Fisher si assume che |G1|<0.5 si ha simmetria, 0.5<|G1|<1
si ha moderata asimmetria e |G1|>1 si ha forte asimmetria
condizione necessaria,
ma non sufficiente per la
simmetria
INDICI DI FORMA DI UNA DISTRIBUZIONE –SIMMETRIA E CURTOSI
Quando si descrive la forma delle curve unimodali simmetriche, con il termine CURTOSI (dal greco kurtos, che
significa curvo o convesso) si intende il grado di appiattimento, rispetto alla curva normale o gaussiana, che è
detta mesocurtica
Leptocurtica
o ipernormale
Platicurtica
o iponormale
Il grado di curtosi può essere misurato tramite vari indici che, essendo il risultato di un confronto, sono rapporti,
e quindi misure adimensionali:
- g2 o G2 di Fisher;
b2 di Pearson
Gli indici assumono valore nullo, se la distribuzione è normale o mesocurtica, positivo, se la distribuzione è
leptocurtica o ipernormale e negativo, se la distribuzione è platicurtica o iponormale.
NORMAL PROBABILITY PLOT
L’aderenza di una distribuzione rispetto alla normale
può essere anche visualizzata attraverso i «normal
probability plots», che riportano i quantili attesi per i
valori osservati lungo una retta, a confronto con i
quantili osservati
L’aderenza può essere quantificata tramite correlazione.
Fornisce indicazioni analoghe a quelle dell’istogramma
con normale sovrapposta, ma maggiore dettaglio, perché
ogni singolo punto è riportato (evidenzia gli outliers)
 Quantili osservati
— Quantili attesi