Statistica con R Lezione 3 Statistica con R Lezione 3 Statistiche descrittive univariate In seguito, fissata una tavola di dati X, per indicar ogni carattere come l’insieme di n osservazioni, si indicherà come vettore colonna Xj Xj� = (x1j , x2j , . . . , xnj ) Introduzione alla Statistica con R Lezione 3 Trattandosi di vettore colonna, se è scritto come vettore riga lo si indica come trasposto XJ� di Xj . In seguito, n sarà il numero di osservazioni. Sergio Camiz 20/01/2015 "Lezione 3".tex Statistica con R I-1 Lezione 3 20/01/2015 "Lezione 3".tex Statistica con R I-2 Lezione 3 Caratteri dicotomici Caratteri qualitativi Sono i caratteri di cui si osserva solo la presenza o l’assenza. Per questi, le sole statistiche sintetiche che si possono ottenere sono: Son i caratteri v le cui modalità non hanno alcuna relazione fra loro. A volte s’indicano con un numero, che non ne rappresenta l’ordine: v1, v2, . . . , vs se s è il numero di modalità distinte. la frequenza n1, numero d’osservazioni dove il carattere è presente. la frequenza n0 = n − n1, numero d’osservazioni dove il carattere è assente. i valori pi = ni/n, i = 1, 2 si chiamano frequenze relative. i valori fi = pi ∗ 100, i = 1, 2 si chiamano percentuali. 20/01/2015 "Lezione 3".tex I-3 le freqenze ni, i = 1, . . . , s, sono il numero d’osservazioni dove s’incontra la modalità i; i valori pi = ni/n, i = 1, . . . , s, si chiamano frequenze relative. i valori fi = pi ∗ 100, i = 1, . . . , s, si chiamano percentuali. la distribuzione di v è l’insieme di coppie (vi, ni), i ∈ [1, s]. È la sintesi più completa del carattere v. 20/01/2015 "Lezione 3".tex I-4 Statistica con R Lezione 3 come statistica di tendenza centrale si usa la moda, cioè la modalità con la frequenza massima. come statistica di distribuzione si usa l’entropia, misura del disordine della distribuzione, che deriva dalla teoria dell’informazione. Essa indica il numero di bit necessari per descrivere la distribuzione del carattere: H = − � Statistica con R Lezione 3 Come rappresentazione grafica si possono usare un grafico circolare (pie chart) con settori proporzionali alle frequenze relative delle modalità. un grafico a barre (bar chart) di altezza proporzionale alle frequenze relative delle modalità. s i = 1 pi log2 pi H è minima, H = 0, se una sola modalità è non vuota; è massima quando tutte le modalità hanno la stessa frequenza H = max(H) = log2s. l’ entropia relativa HR = H/max(H) varia solo fra [0, 1] e si può usare come confronto fra caratteri diversi. 20/01/2015 "Lezione 3".tex Statistica con R I-5 Lezione 3 R Per il carattere 5, Attività, si può procedere così: t5 = table(m[,5]) # frequenze f5 = t5/sum(t5) # frequenze relative m5 = c(which(f5==max(f5)), max(f5)) # moda h5 = -sum(f5*log(f5)) # entropia hm5 = log(dim(f5),2) # entropia massima hr5 = h[5]/hm5 # entropia relativa cbind(t5,f5) # stampa delle frequenze m5 # stampa della moda cbind(h5,hm5,hr5) # stampa dell’entropia pie(f5) # grafico circolare barchart(f5) # grafico a barre 20/01/2015 "Lezione 3".tex 20/01/2015 "Lezione 3".tex Statistica con R I-6 Lezione 3 ottenendo i risultati seguenti: t5 f5 PeCu 46 0.26589595 Scar 62 0.35838150 Vest 54 0.31213873 MisAl 11 0.06358382 Scar 2.0000000 0.3583815 h5 hm5 hr5 1.258599 2 0.9078873 Esercizio: studiare analogamente i caratteri 1, 2, 3 e 4. I-7 20/01/2015 "Lezione 3".tex I-8 Statistica con R Lezione 3 Caratteri ordinali Son caratteri le cui modalità si possono ordinare in una sequenza. Per questi si possono usare le stesse statistiche dei caratteri qualitativi, ma anche altre. la ripartizione del carattere, o distribuzione cumulata, cioè i valori ci = pi−1 + pi, i = 1, . . . , s. il minimo ed il massimo, le due modalità estreme. la mediana come statistica di tendenza centrale. Se s’ordinano le unità secondo l’ordine delle modalità, la mediana è quella in cui cade l’unità che si trova al centro della distribuzione. 20/01/2015 "Lezione 3".tex Statistica con R I-9 Lezione 3 R Per studiare il carattere 2, Dimensione, oltre alle statistiche già dette, si possono utilizzare: t2 = table(Pelle[,2]); f2 = t2/sum(t2) # frequenze fc2 = cumsum(f2) # frequenze cumulate barplot(f2) # grafico a barre delle frequenze barplot(fc2) # grafico a barre cumulato 20/01/2015 "Lezione 3".tex I-11 Statistica con R Lezione 3 i quantili sono statistiche di dispersione. Le unità ordinate si ripartiscono in m gruppi di n/m unità e si considerano le m modalità in cui cade l’ultima unità di ogni gruppo. i quartili sono i quantili quando m = 4, corrispondenti quindi a 25 % (primo quartile, Q1), 50 % (mediana), 75 % (terzo, Q3) delle osservazioni. i percentili sono i quantili della ripartizione in 100 parti. Per una buona conoscenza della distribuzione si usano normalmente la moda, il minimo, i percentili 1, 5, 25 (Q1), 50 (mediana), 75 (Q3), 95, 99 ed il massimo. Si noti che riveste un certo interesse la posizione reciproca di moda e mediana. 20/01/2015 "Lezione 3".tex Statistica con R I-10 Lezione 3 ed i percentili 1 %, 5 %, Q1, mediana, Q3, 95 %, 99 %: n = length(Pelle$Dimensione) # numero d’unita’ tm = sort(Pelle$Dimensione) # unita’ ordinate ni = n/100 # "passo" dei percentili pc = c(1,5,25,50,75,95,99) # vettore percentili pcm = round(pc*ni) # posizione nell’insieme pct = tm[pcm] # quantili di Dimensione pc;pct # stampa risultando [1] 1 5 25 50 75 95 99 [1] 11-20 11-20 11-20 21-50 21-50 > 50 > 50 Levels: 11-20 < 21-50 < > 50 20/01/2015 "Lezione 3".tex I-12