Introduzione alla Statistica con R Lezione 3

annuncio pubblicitario
Statistica con R
Lezione 3
Statistica con R
Lezione 3
Statistiche descrittive univariate
In seguito, fissata una tavola di dati X, per indicar ogni carattere
come l’insieme di n osservazioni, si indicherà come vettore colonna
Xj
Xj� = (x1j , x2j , . . . , xnj )
Introduzione alla
Statistica con R
Lezione 3
Trattandosi di vettore colonna, se è scritto come vettore riga lo si
indica come trasposto XJ� di Xj .
In seguito, n sarà il numero di osservazioni.
Sergio Camiz
20/01/2015
"Lezione 3".tex
Statistica con R
I-1
Lezione 3
20/01/2015
"Lezione 3".tex
Statistica con R
I-2
Lezione 3
Caratteri dicotomici
Caratteri qualitativi
Sono i caratteri di cui si osserva solo la presenza o l’assenza. Per
questi, le sole statistiche sintetiche che si possono ottenere sono:
Son i caratteri v le cui modalità non hanno alcuna relazione fra
loro. A volte s’indicano con un numero, che non ne rappresenta
l’ordine: v1, v2, . . . , vs se s è il numero di modalità distinte.
la frequenza n1, numero d’osservazioni dove il carattere è
presente.
la frequenza n0 = n − n1, numero d’osservazioni dove il
carattere è assente.
i valori pi = ni/n, i = 1, 2 si chiamano frequenze relative.
i valori fi = pi ∗ 100, i = 1, 2 si chiamano percentuali.
20/01/2015
"Lezione 3".tex
I-3
le freqenze ni, i = 1, . . . , s, sono il numero d’osservazioni
dove s’incontra la modalità i;
i valori pi = ni/n, i = 1, . . . , s, si chiamano frequenze
relative.
i valori fi = pi ∗ 100, i = 1, . . . , s, si chiamano percentuali.
la distribuzione di v è l’insieme di coppie (vi, ni), i ∈ [1, s].
È la sintesi più completa del carattere v.
20/01/2015
"Lezione 3".tex
I-4
Statistica con R
Lezione 3
come statistica di tendenza centrale si usa la moda, cioè la
modalità con la frequenza massima.
come statistica di distribuzione si usa l’entropia, misura del disordine della distribuzione, che deriva dalla teoria
dell’informazione. Essa indica il numero di bit necessari per
descrivere la distribuzione del carattere:
H = −
�
Statistica con R
Lezione 3
Come rappresentazione grafica si possono usare
un grafico circolare (pie chart) con settori proporzionali
alle frequenze relative delle modalità.
un grafico a barre (bar chart) di altezza proporzionale alle
frequenze relative delle modalità.
s
i = 1 pi log2 pi
H è minima, H = 0, se una sola modalità è non vuota; è
massima quando tutte le modalità hanno la stessa frequenza
H = max(H) = log2s.
l’ entropia relativa HR = H/max(H) varia solo fra [0, 1] e
si può usare come confronto fra caratteri diversi.
20/01/2015
"Lezione 3".tex
Statistica con R
I-5
Lezione 3
R
Per il carattere 5, Attività, si può procedere così:
t5 = table(m[,5])
# frequenze
f5 = t5/sum(t5)
# frequenze relative
m5 = c(which(f5==max(f5)), max(f5)) # moda
h5 = -sum(f5*log(f5)) # entropia
hm5 = log(dim(f5),2)
# entropia massima
hr5 = h[5]/hm5
# entropia relativa
cbind(t5,f5)
# stampa delle frequenze
m5
# stampa della moda
cbind(h5,hm5,hr5)
# stampa dell’entropia
pie(f5)
# grafico circolare
barchart(f5)
# grafico a barre
20/01/2015
"Lezione 3".tex
20/01/2015
"Lezione 3".tex
Statistica con R
I-6
Lezione 3
ottenendo i risultati seguenti:
t5
f5
PeCu 46 0.26589595
Scar 62 0.35838150
Vest 54 0.31213873
MisAl 11 0.06358382
Scar
2.0000000 0.3583815
h5 hm5
hr5
1.258599
2 0.9078873
Esercizio: studiare analogamente i caratteri 1, 2, 3 e 4.
I-7
20/01/2015
"Lezione 3".tex
I-8
Statistica con R
Lezione 3
Caratteri ordinali
Son caratteri le cui modalità si possono ordinare in una sequenza. Per questi si possono usare le stesse statistiche dei caratteri
qualitativi, ma anche altre.
la ripartizione del carattere, o distribuzione cumulata, cioè
i valori ci = pi−1 + pi, i = 1, . . . , s.
il minimo ed il massimo, le due modalità estreme.
la mediana come statistica di tendenza centrale. Se
s’ordinano le unità secondo l’ordine delle modalità, la mediana è quella in cui cade l’unità che si trova al centro della
distribuzione.
20/01/2015
"Lezione 3".tex
Statistica con R
I-9
Lezione 3
R
Per studiare il carattere 2, Dimensione, oltre alle statistiche già
dette, si possono utilizzare:
t2 = table(Pelle[,2]); f2 = t2/sum(t2) # frequenze
fc2 = cumsum(f2)
# frequenze cumulate
barplot(f2)
# grafico a barre delle frequenze
barplot(fc2)
# grafico a barre cumulato
20/01/2015
"Lezione 3".tex
I-11
Statistica con R
Lezione 3
i quantili sono statistiche di dispersione. Le unità ordinate
si ripartiscono in m gruppi di n/m unità e si considerano le
m modalità in cui cade l’ultima unità di ogni gruppo.
i quartili sono i quantili quando m = 4, corrispondenti quindi a 25 % (primo quartile, Q1), 50 % (mediana), 75 % (terzo,
Q3) delle osservazioni.
i percentili sono i quantili della ripartizione in 100 parti.
Per una buona conoscenza della distribuzione si usano normalmente la moda, il minimo, i percentili 1, 5, 25 (Q1), 50
(mediana), 75 (Q3), 95, 99 ed il massimo.
Si noti che riveste un certo interesse la posizione reciproca
di moda e mediana.
20/01/2015
"Lezione 3".tex
Statistica con R
I-10
Lezione 3
ed i percentili 1 %, 5 %, Q1, mediana, Q3, 95 %, 99 %:
n
= length(Pelle$Dimensione) # numero d’unita’
tm = sort(Pelle$Dimensione)
# unita’ ordinate
ni = n/100
# "passo" dei percentili
pc = c(1,5,25,50,75,95,99) # vettore percentili
pcm = round(pc*ni)
# posizione nell’insieme
pct = tm[pcm]
# quantili di Dimensione
pc;pct
# stampa
risultando
[1]
1
5
25
50
75
95
99
[1] 11-20 11-20 11-20 21-50 21-50 > 50 > 50
Levels: 11-20 < 21-50 < > 50
20/01/2015
"Lezione 3".tex
I-12
Scarica