STATISTICA DESCRITTIVA - Sito dei docenti di Unife

STATISTICA DESCRITTIVA
Riassume e visualizza i risultati ottenuti in un esperimento o raccolti sul campo, con lo scopo
di
acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali
evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste
inizialmente o anche nuovi esperimenti o campionamenti
identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al
calcolatore
identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo
utilizzo di alcune tecniche statistiche
comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati
raccolti
Attenzione: riassumere vuol quasi sempre dire perdere parte dell’informazione
Cos’è una variabile?
o una qualsiasi caratteristica misurata o registrata in un’unità campionaria. Generalmente le
variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere
minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica
osservazioni
I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa
categoria
o Variabili quantitative continue
Peso, altezza, concentrazione, …
o Variabili quantitative discrete
Numero uova, numero parassiti, numero piastre batteriche,…
o Variabili qualitative con valori ordinabili (scala ordinale)
“Abbondanza”, stato di salute, aggressività, …
o Variabili qualitative con valori non ordinabili (scala nominale) = variabili
categoriche
Gruppo sanguigno, tipo di malattia, tipo mutazione, specie…
Variabili risposta e variabili esplicative (dipendenti e indipendenti)
Ipertensione arteriosa e rischio di ictus
Piani edificio e lesione gatti
Intensità di caccia e livelli di variabilità genetica
2
Nucleotide diversity (%)
1.5
1
0.5
0
12
14
16
18
20
Level of hunting
22
24
Dati, frequenze e distribuzioni
22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli
sopravvissuti
o unità campionaria = nido o la femmina
o variabile è quantitativa discreta.
x1 = 0; x2 = 2; x3 = 2; x4 = 0; x5 = 1; x6 = 3; x7 = 3; x8 = 2; x9 = 2; x10 = 4; x11 = 1; x12 = 4; x13 = 2;
x14 = 1; x15 = 2; x16 = 3; x17 = 3; x18 = 6; x19 = 4; x20 = 2; x21 = 3; x22 = 3,
dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che
varia da 1 a n (n = 22 = dimensione del campione).
classe di frequenza e tabella di frequenza:
xi
0
1
2
3
4
6
ni
2
3
7
6
3
1
In questo caso xi indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che
varia da 1 a c, ni è il numero di volte che nel campione ricorre l'osservazione xi e c è il numero
di classi (5 nel nostro caso)
Chiaramente la somma di tutti gli ni deve dare n, ovvero
i=c
c
∑ n = ∑n = ∑n = ∑n
i
i =1
i
i=1
i
i
=n
i
distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi
o distribuzione di probabilità
o distribuzione di probabilità teorica
diagramma a segmenti (o a barre)
o
o
o
o
capisco quali sono i valori che ricorrono più frequentemente
distribuzione unimodale, bimodale, multimodale?
Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra?
capisco e l'intervallo di variazione della variabile analizzata
Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si
rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti
correttamente la distribuzione di frequenza dei dati.
Esempio di una distribuzione bimodale.
Distribuzioni contagiose
o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa
o numero di piante in 100 quadrati di 1 metro x 1 metro
frequenze assolute (ni, dette anche numerosità)
frequenze relative (fi, o, a volte, pi,), ovviamente varia tra 0 e 1
frequenza percentuale
ni
n
fi (%) = fi × 100
fi = pi =
Il termine generico frequenza è spesso utilizzato per indicare cose diverse
Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una
migliore rappresentazione della distribuzione di frequenza. Nell’istogramma i dati vengono
raggruppati in classi che includono tutti i valori in certo intervallo.
Definizione classi
o Regolette: radice di n; (1 + ln(n)/ln(2))
o Evitare la presenza di molte classi circa vuote
o Limiti di classe (>= e <)
o Buon senso
Distribuzioni di frequenza per le variabili di tipo qualitativo?
Diagramma a segmenti (o a barre)
Diagramma a torta
Rappresentazione grafica della relazione tra due variabili numeriche
Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo
ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani
diventa molto importante per evidenziare eventuali tendenze o associazioni.
Scatterplot, o nube di punti (due esempi)
E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni
maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano
figli più attraenti per le femmine.
Associazione positiva, negativa e nulla
Inserisco una terza variabile
In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio
delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa,
asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili
(precipitazioni, ph e posizione geografica).
Diagramma a linee
.
Tre esempi sulla differenza tra associazione e causazione
Le variabili di confondimento creano problemi
Gli studi sperimentali possono risolvere il problema
Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13
stazioni di campionamento.
Analisi di due (o più) variabili categoriche
Tabella di contingenza (in questo caso, per 2 variabili categoriche)
Diagramma a barre raggruppate
Considerazioni generali sulla visualizzazione grafica
- Chiarezza
- Completezza
- Onestà
Indici sintetici di una distribuzione
Sintesi attraverso le distribuzioni di frequenza
Ulteriori sintesi attraverso le
o misure di tendenza centrale (o di posizione)
cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella
scala della variabile analizzata, intorno alla quale si concentrano le osservazioni
o misure di dispersione
sintetizzano il grado di variabilità dei dati
Le misure di tendenza centrale e di dispersione dovrebbero quindi
rispettivamente, la posizione e l’ampiezza di una distribuzione di frequenza.
rispecchiare,
Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo
valore per la comprensione di un fenomeno.
Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse,
e quindi singolarmente di scarso valore.
Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per
trarre delle conclusioni generali a partire da un campione deve aumentare.
Quando la variabilità è molto bassa può anche non essere necessario effettuare molte
osservazioni, e forse nemmeno ricorrere alla statistica inferenziale.
Misure di tendenza centrale
La media
Media aritmetica. In genere quando si parla di media si intende la media aritmetica
Media campionaria, della variabile X, la media campionaria viene indicata con x .
n
∑x
i
1
x=
n
Media della popolazione
µ=
∑x
i
N
La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e
quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti.
∑ (x
i
− x ) = ∑ xi − ∑ x = nx − nx = 0
Media a partire da una tabella di frequenza :
c
∑xn
i i
x=
oppure
1
n
c
x = ∑ xi fi
1
Esempio
Aplotipo
xi
ni
A
B
C
D
E
F
51
54
55
57
62
63
5
11
15
29
22
4
c
∑xn
i i
x=
1
n
=
51 × 5 + 54 × 11 + 55 × 15 + 57 × 29 + 62 × 22 + 63 × 4 5738
=
= 57,44
86
86
E se la variabile continua?
Proprietà della media
• la media implica la somma di valori numerici e quindi
⇒ ha un significato solo per le variabili quantitative;
⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più
grande di tutti gli altri, la media non identifica un valore tipico del campione
⇒ non è calcolabile se alcune osservazioni sono “fuori scala”
• nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico
Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il
numero di parassiti intestinali di una certa specie.
Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2.
La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore
non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo,
detto outlier.
Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni
animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti,
sono i seguenti:
Dati: 23 ,25, 29, 22, 15, >120, 32, 20,>120
In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori
mancanti non rappresenterebbe correttamente l’esperimento.
La mediana
La mediana è il valore centrale in una serie di dati ordinati. Per esempio
Dati: 30, 49, 74, 40, 63, 295, 60
Dati ordinati: 30, 40, 49, 60, 63, 74, 295
La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente
numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà
sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale.
Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2
nella serie ordinata dei dati (il quarto valore nell’esempio appena visto). Se n è pari, la mediana
è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso
di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che
contiene la mediana (la classe mediana).
Proprietà della mediana
Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati
o L’informazione sul peso relativo dei singoli valori viene perduta.
E’ spesso un buon indicatore della tendenza centrale di un set di dati
è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!)
non risente dei valori estremi
è calcolabile anche se alcune osservazioni sono “fuori scala”
Esempi precedenti
- la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti
- la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti
In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si
concentrano le osservazioni.
La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un
valore assolutamente non rappresentativo quando la distribuzione non è unimodale.
La moda
La moda è semplicemente il valore osservato più spesso nel campione.
Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2
vengono riassunti nella tabella di frequenza
xi
ni
0
1
2
3
4
5
1
2
5
3
2
1
La moda è quindi pari a 2.
Classe modale è quella che contiene il maggior numero di osservazioni.
La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che
praticamente tutte le distribuzioni osservate sono unimodali
Proprietà della moda
La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di
frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il
peso delle singole osservazioni, ha alcune proprietà importanti:
• è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative
non ordinabili
• indica sempre un valore realmente osservato nel campione
• non è influenzata dai valori estremi
• nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per
descrivere la tendenza centrale di un campione
• è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la
moda di una popolazione è il valore della variabile con la la maggior probabilità di essere
osservata
Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media
5.24, mentre la moda è uguale a 2.
Misure di dispersione
Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media)
o Varianza
o Deviazione standard
o Coefficiente di variazione
o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers)
o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative,
Non basate sull’elaborazione numerica dei dati
o Range
o Distanza interquartile.
La varianza
La somma degli scarti della media è uguale a 0
o media degli scarti = 0
Se però ogni singolo scarto dalla media viene elevato al quadrato…
o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza.
Varianza campionaria:
s
2
(x
∑
=
2
− x)
n −1
i
,
La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata
anche con le formule semplificate:
x)
(
∑
−
2
Dev(X ) = ∑ x
2
i
i
n
Infatti:
2
(
x
−
x
)
= ∑ (xi2 + x 2 − 2xx i ) = ∑ x i2 + n
∑ i
(
∑ xi
n2
2
) −2 ∑x
Così il calcolo (manuale) è più preciso. Perché?
Attenzione però che concettualmente…
i
n
∑ x i = ∑ xi2 −
(
∑ xi
n
2
)
Cosa c’è di strano nel calcolo di s2 ?
o Dal punto di vista della statistica descrittiva potrei usare n al denominatore
o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione,
allora
σ2 =
∑ (x
2
− µ)
N
i
Ma:
o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta
(una sottostima in questo caso) della varianza della popolazione σ2
La media di un campione è imprecisa (non è uguale a µ)
I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ
Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella
popolazione
Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore.
Nel caso di dati raggruppati in c classi di frequenza
c
s2 =
2
∑ ni (xi − x )
1
n −1
,
Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2
si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli
intervalli.
La deviazione standard
L'unita di misura della varianza e l'unita di misura della deviazione standard
La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da:
s = DS = s
2
Coefficiente di variazione
E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”.
Esempio:
Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo
pesce d’acqua dolce) é uguale a 3.2 mm
Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il
gò, un ghiozzo di laguna) sia pari 10.6 mm.
I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si
assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò?
Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa
dimensione media di queste due specie
o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di
molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini.
Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre
al CV
s
CV = × 100
x
Il coefficiente di variazione è dimensionale
o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda
oppure la durata del letargo (variabili con unità di misura diverse)
Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e
di 181 mm per i maschi di gò:
CV(Gambusia) = 11%
CV(gò) = 6 %,
Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla
deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia
rispetto a quelli di gò.
Il range
Range = valore massimo – valore minimo
Descrizione molto rozza della dispersione dei dati
o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e
non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi.
La distanza interquartile
Cosa sono i quartili?
o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due
gruppi lo separano il quattro
o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che
separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana,
e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante
25%.
La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale
della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni.
E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi
dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori
scala”.
L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato
o Cerco la mediana delle due metà dei dati
Risultati per dati prima autoamputazione: Mediana: 2.90; primo quartile: 2.34; terzo
quartile: 3.045; distanza interquartile: 0.705
Diagramma Box-and-Whiskers (scatola e baffi)
o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una
distanza dalla scatola superiore a 1.5 volte la distanza interquartile)
ESEMPI
Fare la tabella di frequenza, l’istogramma, e discutere la forma dell’istogramma
Classi con ampiezze diverse. E’ corretto?
Distribuzione di frequenza e distribuzione di densità
o Classi di ampiezza diversa
La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di
ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della
classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla
frequenza.
Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di
vista pratico.
Qual’è la tabella più appropriata per rappresentare i dati?
Che varaibile è rappresentata nei due istogrammi? Che variabile distingue i due istogrammi?
Che grafico è rappresentato? Cosa suggeriscono i grafici?
Che tipo di grafico? Che tipo di associazione?
Numero di ondulazioni per secondo in serpenti che planano
Calcolare media, varianza, deviazione standard, CV, mediana, distanza
interquartile
Relazione con distribuzione di frequenza se la distribuzione è normale
Che tipo di diagrammi? Che tipo di variabile nei due istogrammi? C’e’ una variabile
esplicativa e una risposta? Quali sono? In cosa differeriscono i due diagrammi? Conclusioni
Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione
standard. Calcolare la mediana. Perché minore della media?