ELABORAZIONE ED ANALISI STATISTICA DEI DATI

Università degli studi di Padova
Dipartimento Territorio e Sistemi Agro-Forestali
Corso di laurea in Tecnologie Forestali ed Ambientali
ELABORAZIONE
ED ANALISI STATISTICA
DEI DATI
Sergio Rossi
Esercitazioni di Ecologia Forestale
Anno Accademico 2005-2006
Elaborazione dei dati
Perché?
9 Per organizzare i dati raccolti
9 Per rappresentare i dati raccolti
9 Per capire il mondo che ci circonda
Come?
9
9
9
9
A mano
Con la calcolatrice
Mediante foglio elettronico EXCEL
Mediante programmi specifici
La statistica
La statistica si occupa di
raccogliere, classificare,
sintetizzare ed analizzare
dati di tipo quantitativo per
poi trarre delle conclusioni
e/o generalizzazioni
Plurisettorialità della statistica
Economia
aziendale
Ecologia
forestale
ANALISI STATISTICA
Anatomia
umana
Psicologia
criminale
Perché usare la statistica?
9Descrivere un fenomeno nella sua interezza
9Organizzare e pianificare gli esperimenti
9Verificare delle ipotesi
I limiti della statistica
L’ipotesi oggetto di studio viene accettata o
rifiutata entro gradi di affidabilità noti cioè
valutando quali sono le probabilità che i
risultati dello studio siano oggetto del caso
I due aspetti della statistica
STATISTICA DESCRITTIVA (analisi
esplorativa dei dati) di tipo statico, basato
sull'osservazione di dati osservati
STATISTICA INFERENZIALE, di tipo dinamico,
consistente nell'operare stime statistiche
collegate al concetto di rischio assunto (o, se si
preferisce, a quello di grado di affidabilità
scelto).
Le principali fasi di lavoro
Fase di preparazione e di raccolta dati
Fase di catalogazione e di analisi
Fase di concettualizzazione
Come si procede?
Formulazione di un’ipotesi
Programmazione dell’esperimento
Predisposizione dell’esperimento
Raccolta dei dati
Catalogazione dei dati
Elaborazione dei dati
Comprensione ed interpretazione dei risultati
Accettazione o rifiuto dell’ipotesi
Un esempio pratico
Formulazione di un’ipotesi Le foglie nei rami di sole hanno dimensioni maggiori
di quelle dei rami di ombra
Programmazione dell’esperimento Misurare la lunghezza degli aghi su rami
esposti al sole e su rami in ombra
Predisposizione dell’esperimento Individuare una o più piante e raccogliere i
rami
Raccolta dei dati Misurare con un calibro la lunghezza di tutti gli aghi
Catalogazione dei dati Trascrivere ed organizzare i dati raccolti su un foglio
di calcolo
Elaborazione dei dati Calcolare gli indici statistici ed eseguire i test
Comprensione ed interpretazione dei risultati Interpretare i risultati dei test
statistici e verificare le significatività ottenute (cioè il grado di affidabilità
dei risultati)
Accettazione o rifiuto dell’ipotesi di partenza
Dati
Natura: qualitativa, quantitativa
Quantificazione: enumerazione, misura
Metodo di raccolta: censimento, campionamento
Popolazione
= insieme di elementi che condividono una o più
caratteristiche comuni
Es:
¾insieme dei diametri delle piante di abete rosso di 15
anni della stazione di San Vito
¾insieme delle lunghezze degli aghi delle piante di pino
silvestre della stazione di Col de la Roa
Lo scopo della statistica è descrivere nel modo
più appropriato la popolazione mediante
l’osservazione o la misura di una parte della
popolazione.
Campione
= una piccola frazione di una popolazione le cui
caratteristiche si avvicinano a quelle della
popolazione
9Il massimo avvicinamento si ha quando il campione è
casuale, cioè quando la probabilità che un elemento venga
scelto per far parte del campione è uguale per tutti gli
elementi della popolazione
9L’avvicinamento è tanto maggiore quanto maggiore è la
dimensione del campione
Variabili ed osservazioni
VARIABILI = tutte quelle
caratteristiche che mostrano una
variabilità all’interno di una popolazione
OSSERVAZIONI = ciascuna delle
misurazioni o conteggi di una variabile
Tipi di variabili
CATEGORICHE (afferiscono a categorie, es: specie, sito)
DISCRETE possono assumere solo
determinati valori (numero di aghi lungo un
internodo)
NUMERICHE
CONTINUE possono assumere tutti i valori
compresi all’interno di un determinato
intervallo (lunghezza degli aghi)
Matrici
variabile 1 variabile 2
osservazione 1
osservazione 2
osservazione 3
larice pino silvestre
32
18
35
16
29
12
32
15
Catalogazione dei dati
Classificazione dei dati grezzi in gruppi omogenei
2 SPECIE (pino silvestre, abete rosso)
2 VARIABILI (aghi, getti)
4 fogli EXCEL
1) Pino aghi
2) Pino getti
3) Abete aghi
4) Abete getti
Trascrizione dei dati per gruppi
Col de la Roa (R1)
A
B
C
D
San Vito (R2)
E
Col de la Roa
A
B
C
San Vito
A B C D E A B C D
E
D
E
Getti principali e secondari
2005 2004 2003
Principale
Secondario 2005
Secondario 2004
Secondario 2003
Tabelle di frequenza
Lancio un dado 15 volte ed ottengo i seguenti risultati
(variabile discreta):
6, 2, 2, 3, 5, 1, 2, 6, 3, 3, 4, 2, 5, 1, 5
risultato
frequenza
1
2
2
4
3
3
4
1
5
3
6
2
La frequenza è il
numero di volte con
cui si presenta un
certo risultato
Istogrammi
1
2
2
3
3
7
4
8
5
13
6
15
7
11
8
7
9
6
10
2
11
1
frequenza
Altezza frequenza
(m)
16
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
variabile misurata
Classe di altezza!
9
10 11
Numero di classi
Il numero delle classi va scelto con molta attenzione !
Regola pratica: se ho n misure, il numero delle classi sarà:
n
I principali indici statistici
Per sintetizzare i dati rilevati o le misure effettuate
Media
Indici di posizione
Mediana
Moda
Scarto quadratico medio
Indici di dispersione
Indici di forma
Varianza
Intervallo di variazione (range)
Coefficiente di asimmetria
(Skewness)
Coefficiente di curtosi
Indici di posizione
Media = descrive la tendenza centrale di una distribuzione di valori e
corrisponde alla somma di tutti i valori diviso il numero dei valori stessi
Moda = il valore con la frequenza più alta cioè quello in cui cadono la
maggior parte delle osservazioni
MODA
frequenza
MEDIA
16
14
12
10
8
6
4
2
0
1
2
3
4
5
6
7
8
variabile misurata
9
10
11
La media
Gli obiettivi che ci si prefigge nel calcolo di
una media sono sostanzialmente due:
1) sostituire a più dati rilevati un solo numero
che dia una efficace rappresentazione del
fenomeno dato;
2) esprimere l’ordine di grandezza o tendenza
centrale dell’insieme dei dati relativi a un
fenomeno. Tale ordine di grandezza può a
volte sfuggire perché i dati sono spesso
molto differenti fra loro.
Intervallo di variazione (range)
Indica quanto ampia è la distribuzione entro la quale sono
comprese le misurazioni fatte
range = X max − X
min
Range
minore
16
16
14
12
14
12
frequenza
frequenza
Range
maggiore
10
8
6
10
8
6
4
2
4
2
0
0
1
2
3
4
5
6
7
8
variabile misurata
9
10
11
1
2
3
4
5
6
7
8
variabile misurata
9
10
11
Deviazione standard (STD)
È la misura della variazione attorno ad un valore centrale di
un campione (la media) ed indica l’entità della dispersione
dei dati o la disuguaglianza fra i dati
STD minore
16
16
14
12
14
12
frequenza
frequenza
STD
maggiore
10
8
6
10
8
6
4
2
4
2
0
0
1
2
3
4
5
6
7
8
variabile misurata
9
10
11
1
2
3
4
5
6
7
8
variabile misurata
9
10
11
Varianza
È il quadrato della deviazione standard
var ianza = STD
2
Rappresentazione grafica
Peso dei giocatori (Kg)
120
100
80
60
40
20
0
calcio
football americano
Indice di asimmetria
Indica il grado di asimmetria della distribuzione
Distribuzione
simmetrica
Skewness=0
Coda
verso sinistra
Skewness<0
16
16
14
14
14
12
12
12
10
10
10
8
frequenza
16
frequenza
frequenza
Coda
verso destra
Skewness>0
8
8
6
6
6
4
4
4
2
2
2
0
0
0
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
Curtosi
Indica il grado di appiattimento della distribuzione ed è una misura del
peso relativo delle code della distribuzione rispetto alla parte centrale
Curva
Gaussiana
curtosi=0
Leptocurtosi
Curva filata
Curtosi>0
16
16
14
14
14
12
12
12
10
10
10
8
frequenza
16
frequenza
frequenza
Platicurtosi
Curva appiattita
curtosi<0
8
8
6
6
6
4
4
4
2
2
2
0
0
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
0
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
1
2
3
4
5
6
7
8
variabile misurata
9
10 11
Bibliografia
Fowler J, Cohen L (1993)
Statistica per ornitologi e naturalisti
Muzzio Editore, 240 pp
Fowler J, Cohen L, Jarvis P (1998)
Practical statistics for field biology
John Wiley & Sons, 255 pp
L’inferenza statistica
Analizzare e capire i fenomeni biologici attraverso la
formulazione di ipotesi SEMPLCI e CHIARE
Più le ipotesi sono semplici e più è facile capire
ed interpretare i risultati ottenuti
LE DIFFERENZE OSSERVATE FRA I
CAMPIONI RACCOLTI NELLE DIVERSE
POPOLAZIONI SONO FRUTTO DEL
CASO O SONO STATISTICAMENTE
SIGNIFICATIVE?
In pratica
I due campioni sono statisticamente
differenti?
La media delle lunghezze degli aghi
raccolti sui rami esposti a nord è
statisticamente differente da quella
degli aghi raccolti sui rami esposti a sud?
Il confronto statistico: test t
Devo confrontare due campioni presi da due
diverse popolazioni
PRESUPPOSTI
Normalità dei dati
OPZIONI
Verifica della uguaglianza delle varianze
Tipo di test
Code
L’ipotesi nulla in statistica
FREQUENZA
Ipotesi nulla (H0) = non esiste alcuna differenza fra i
campioni
VARIABILE
Confermare o rifiutare l’ipotesi nulla?
Probabilità
Per un certo evento, la probabilità che esso si
verifichi è il rapporto fra il numero dei casi
favorevoli ed il numero dei casi possibili
Espressa come percentuale
Espressa come frazione di 1
0-100%
0-1
es: 30% 5%
es: 0.3 0.05
Significatività statistica
Il risultato di un test statistico (STATISTICA DI UN
TEST) deve venire confrontato con dei valori di probabilità
già calcolati e tabulati per verificare la significatività
statistica del test (p)
p è compreso fra 0 e 1
per p > 0.05 risultato non significativo (viene
CONFERMATA l’ipotesi nulla; i due campioni
NON SONO differenti)
per p < 0.05 risultato significativo (viene RIFIUTATA
l’ipotesi nulla; i due campioni SONO
statisticamente differenti)
In pratica …
FREQUENZA
⇒ p>0.05, confermo l’ipotesi nulla
VARIABILE
FREQUENZA
⇒ p<0.05, rifiuto l’ipotesi nulla
VARIABILE
Livello di significatività
Livello di significatività pari a 0.05?
95 volte su 100 la mia decisione sarà corretta
5 volte su 100 rifiuto l’ipotesi nulla anche se
questa è vera
Normalità dei dati
test t
?
di tipo parametrico
Distribuzione
normale dei dati
I metodi
non parametrici
prevedono piccoli
campioni!
Test ad una o due code
Test a due code
Test a una coda
Ipotesi: i
campioni non
sono uguali
Ipotizza una precisa
“direzionalità” verso la quale
verificare l’ipotesi H0. Test
meno rigoroso; è più facile
incappare in errori
Tipo di test
Test t per campioni
indipendenti
Non esiste alcuna
relazione fra i due
campioni raccolti; le
serie in esame sono
indipendenti
Test t per dati appaiati
o accoppiati
I dati nei due campioni
sono strettamente
collegati; le serie di dati
non sono indipendenti
FREQUENZA
FREQUENZA
Omogeneità delle varianze
VARIABILE
VARIABILE
Test F
Varianza1
F=
Varianza2
Se le varianze sono identiche F=1
Più le varianze sono diverse e più il valore di F si
allontana da 1
La distribuzione di F è stata tabulata: è una
famiglia di distribuzioni, a seconda del numero di
gradi di libertà a numeratore e denominatore
Come procedere
Verificare la normalità
delle due distribuzioni
Distribuzione normale
Test per dati appaiati
Distribuzione
non normale
Test non
parametrico
Verificare la omogeneità
delle varianze
Varianze
omogenee
Varianze non
omogenee
Test a 1 coda
Test a 1 coda
Test a 2 code
Test a 2 code
Bibliografia
Fowler J, Cohen L (1993)
Statistica per ornitologi e naturalisti
Muzzio Editore, 240 pp