Statistiche descrittive
Introduzione
Introduzione
Caratteri dicotomici
Caratteri qualitativi
Caratteri in scala
Caratteri quantitativi discreti
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
Per questo s’usano delle statistiche descrittive.
Una statistica è un valore che s’usa al posto d’una serie di altri valori per
darne una informazione sintetica.
Le statistiche descrittive sono valori che servono a descrivere in maniera
sufficiente il modo in cui si manifesta un carattere osservato.
III - 1
Introduzione
Si chiama distribuzione d’un carattere l’insieme delle modalità che esso
assume, unitamente con la numerosità delle osservazioni che assumono
ciascuna modalità.
Ci sono due tipi di statistiche:
- di tendenza centrale della distribuzione, una modalità attorno alla quale
s’addensano le altre;
- di distribuzione o dispersione che indicano come le altre modalità si
dispongono rispetto alla statistica di tendenza centrale, cioè informano
sulla loro dispersione rispetto ad essa.
Analisidati 3.wpd
17/11/2006
Introduzione
L’osservazione della tavola di dati è molto difficoltosa e raramente porta
a delle conclusioni. Anche considerando un carattere alla volta, è difficile
farsi un’idea sintetica ed efficace del carattere osservato.
Statistiche descrittive
S
S
S
S
S
Statistiche descrittive
III - 3
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
III - 2
Introduzione
Ciascuna statistica dovrebbe informare in maniera utile sulla
distribuzione d’un carattere. Dunque essa dipende dal tipo di carattere.
Strumenti grafici. Non sono statistiche, ma sono molto utili per
rappresentare la distribuzione delle modalità. Anch’essi dipendono dal
tipo di caratteri che si studiano.
Per studiare un carattere come insieme di n osservazioni, lo si indicherà
come
Xj' = (x1 j , x2 j ,..., xn j )
Analisidati 3.wpd
17/11/2006
III - 4
Statistiche descrittive
Caratteri dicotomici
Statistiche descrittive
Caratteri qualitativi
Caratteri dicotomici
Sono disponibili due informazioni sintetiche:
S Il numero n1 d’osservazioni dove il carattere è presente (frequenza);
S Il numero n0 d’osservazioni dove il carattere è assente;
Si chiama frequenza relativa il valore p1 = n1 / n, indipendente da n.
Lo si esprime anche come percentuale f1 = p1 × 100.
Il valore p0 = n0 / n = 1 - (n1 / n) = (n - n1 ) / n è la frequenza relativa
delle assenze, che in percentuale vale f0 = p0 × 100.
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
Caratteri qualitativi
III - 5
Caratteri qualitativi
Il carattere presenti s modalità differenti, v1 , v2 ,..., vs.
S le s frequenze assolute n1, n2,..., ns, ciascuna rappresentante il numero
di osservazioni in cui compare una delle modalità;
S l’insieme delle s frequenze rappresenta la distribuzione delle modalità
del carattere;
S les frequenze relative p1 = n1 / n , p2 = n2 / n ,..., ps = ns / n danno il
profilo del carattere
S i valori f1 = n1 / n × 100, f2 = n2 / n × 100 ,..., fs = ns / n × 100 ne
danno le percentuali.
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
III - 6
Caratteri qualitativi
come statistica di tendenza centrale s’usa la moda, la modalità con la
frequenza relativa massima;
S come statistica di distribuzione s’usa l’entropia, misura del disordine
della distribuzione, derivante dalla teoria dell’informazione
S
S
che rappresenta il numero di bit necessari a descrivere la
distribuzione. Quando tutte le osservazioni presentano la stessa
modalità, H = 0, minima. È massima HMAX = log2 s , quando ogni
modalità ha la stessa frequenza relativa.
l’entropia relativa h = H / HMAX, che vale fra 0 ed 1, serve a
confrontare le distribuzioni di due caratteri.
Analisidati 3.wpd
17/11/2006
III - 7
Come rappresentazione grafica, si possono utilizzare:
S i diagrammi a settori od a pizza, ciascun settore proporzionale alla
frequenza della modalità;
S i diagrammi a barre, ciascuna d’altezza proporzionale alla frequenza
relativa: la disposizione delle barre è indifferente.
Analisidati 3.wpd
17/11/2006
III - 8
Statistiche descrittive
Caratteri in scala
Statistiche descrittive
Caratteri in scala
Caratteri in scala
Si possono usare frequenze, moda ed entropia, nonché diagrammi a pizza.
Tuttavia esistono statistiche più adatte: infatti, le osservazioni possono
esser ordinate in scala crescente e la distribuzione può esser vista di
conseguenza.
S
la mediana è la statistica di tendenza centrale: la modalità che divide
le osservazioni ordinate in due parti di uguale numerosità. Se le
osservazioni sono n, dispari, allora è la modalità assunta
dall’osservazione che si trova al posto (n-1) / 2 + 1; altrimenti, si
prendono le due osservazioni di posto n/2 e n/2 + 1 e si fa la metà della
somma delle rispettive modalità.
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
III - 9
Caratteri in scala
S i quantili sono statistiche di dispersione. Si suddividono le
osservazioni ordinate in m gruppi di n/ m unità e si considera la
modalità che separa gruppi contigui.
S i quartili sono i valori che corrispondono a 25% (primo, Q1), 50%
(mediana), 75% (terzo, Q3 ) delle osservazione.
S i percentili sono ottenuti dividendo in 100 parti la distribuzione.
S il minimo ed il massimo sono i valori estremi della distribuzione.
Analisidati 3.wpd
17/11/2006
Statistiche descrittive
III - 10
Caratteri quantitativi discreti
Caratteri quantitativi discreti
i diagrammi a barre ora possono esser ordinati opportunamente, in
modo da vedere le modalità nel loro ordine.
S si possono anche cumulare le frequenze progressivamente, ottenendo
una sequenza di valori
F1 = p1 , F2 = F1 + p2 , ...., Fs - 1 = Fs - 2 + ps - 1 , Fs = F s - 1 + ps = 1
che rappresentano la ripartizione della distribuzione.
I caratteri quantitativi discreti possono esser trattati come caratteri in
scala. Si possono però aggiungere:
S l’estensione della distribuzione, differenza fra massimo e minimo;
S la distanza interquartile è la differenza fra il terzo ed il primo quartile
(Q3 - Q1);
che rappresentano statistiche di dispersione. Inoltre
S l'indice di concentrazione di Lorenz; indica come è distribuito un
carattere cumulabile vi nelle osservazioni.
Analisidati 3.wpd
Analisidati 3.wpd
S
17/11/2006
III - 11
17/11/2006
III - 12
Statistiche descrittive
Caratteri quantitativi discreti
Se T è il totale di vi in tutte le osservazioni, per i = 1,...,s modalità
e si pone
ogni qi è la quota del carattere attribuibile alle osservazioni con modalità
non superiore a vi (e si pone q0 = 0). L'indice di Lorenz è allora
che è compreso fra 0 e 1.
Analisidati 3.wpd
17/11/2006
III - 13