Statistiche descrittive Introduzione Introduzione Caratteri dicotomici Caratteri qualitativi Caratteri in scala Caratteri quantitativi discreti Analisidati 3.wpd 17/11/2006 Statistiche descrittive Per questo s’usano delle statistiche descrittive. Una statistica è un valore che s’usa al posto d’una serie di altri valori per darne una informazione sintetica. Le statistiche descrittive sono valori che servono a descrivere in maniera sufficiente il modo in cui si manifesta un carattere osservato. III - 1 Introduzione Si chiama distribuzione d’un carattere l’insieme delle modalità che esso assume, unitamente con la numerosità delle osservazioni che assumono ciascuna modalità. Ci sono due tipi di statistiche: - di tendenza centrale della distribuzione, una modalità attorno alla quale s’addensano le altre; - di distribuzione o dispersione che indicano come le altre modalità si dispongono rispetto alla statistica di tendenza centrale, cioè informano sulla loro dispersione rispetto ad essa. Analisidati 3.wpd 17/11/2006 Introduzione L’osservazione della tavola di dati è molto difficoltosa e raramente porta a delle conclusioni. Anche considerando un carattere alla volta, è difficile farsi un’idea sintetica ed efficace del carattere osservato. Statistiche descrittive S S S S S Statistiche descrittive III - 3 Analisidati 3.wpd 17/11/2006 Statistiche descrittive III - 2 Introduzione Ciascuna statistica dovrebbe informare in maniera utile sulla distribuzione d’un carattere. Dunque essa dipende dal tipo di carattere. Strumenti grafici. Non sono statistiche, ma sono molto utili per rappresentare la distribuzione delle modalità. Anch’essi dipendono dal tipo di caratteri che si studiano. Per studiare un carattere come insieme di n osservazioni, lo si indicherà come Xj' = (x1 j , x2 j ,..., xn j ) Analisidati 3.wpd 17/11/2006 III - 4 Statistiche descrittive Caratteri dicotomici Statistiche descrittive Caratteri qualitativi Caratteri dicotomici Sono disponibili due informazioni sintetiche: S Il numero n1 d’osservazioni dove il carattere è presente (frequenza); S Il numero n0 d’osservazioni dove il carattere è assente; Si chiama frequenza relativa il valore p1 = n1 / n, indipendente da n. Lo si esprime anche come percentuale f1 = p1 × 100. Il valore p0 = n0 / n = 1 - (n1 / n) = (n - n1 ) / n è la frequenza relativa delle assenze, che in percentuale vale f0 = p0 × 100. Analisidati 3.wpd 17/11/2006 Statistiche descrittive Caratteri qualitativi III - 5 Caratteri qualitativi Il carattere presenti s modalità differenti, v1 , v2 ,..., vs. S le s frequenze assolute n1, n2,..., ns, ciascuna rappresentante il numero di osservazioni in cui compare una delle modalità; S l’insieme delle s frequenze rappresenta la distribuzione delle modalità del carattere; S les frequenze relative p1 = n1 / n , p2 = n2 / n ,..., ps = ns / n danno il profilo del carattere S i valori f1 = n1 / n × 100, f2 = n2 / n × 100 ,..., fs = ns / n × 100 ne danno le percentuali. Analisidati 3.wpd 17/11/2006 Statistiche descrittive III - 6 Caratteri qualitativi come statistica di tendenza centrale s’usa la moda, la modalità con la frequenza relativa massima; S come statistica di distribuzione s’usa l’entropia, misura del disordine della distribuzione, derivante dalla teoria dell’informazione S S che rappresenta il numero di bit necessari a descrivere la distribuzione. Quando tutte le osservazioni presentano la stessa modalità, H = 0, minima. È massima HMAX = log2 s , quando ogni modalità ha la stessa frequenza relativa. l’entropia relativa h = H / HMAX, che vale fra 0 ed 1, serve a confrontare le distribuzioni di due caratteri. Analisidati 3.wpd 17/11/2006 III - 7 Come rappresentazione grafica, si possono utilizzare: S i diagrammi a settori od a pizza, ciascun settore proporzionale alla frequenza della modalità; S i diagrammi a barre, ciascuna d’altezza proporzionale alla frequenza relativa: la disposizione delle barre è indifferente. Analisidati 3.wpd 17/11/2006 III - 8 Statistiche descrittive Caratteri in scala Statistiche descrittive Caratteri in scala Caratteri in scala Si possono usare frequenze, moda ed entropia, nonché diagrammi a pizza. Tuttavia esistono statistiche più adatte: infatti, le osservazioni possono esser ordinate in scala crescente e la distribuzione può esser vista di conseguenza. S la mediana è la statistica di tendenza centrale: la modalità che divide le osservazioni ordinate in due parti di uguale numerosità. Se le osservazioni sono n, dispari, allora è la modalità assunta dall’osservazione che si trova al posto (n-1) / 2 + 1; altrimenti, si prendono le due osservazioni di posto n/2 e n/2 + 1 e si fa la metà della somma delle rispettive modalità. Analisidati 3.wpd 17/11/2006 Statistiche descrittive III - 9 Caratteri in scala S i quantili sono statistiche di dispersione. Si suddividono le osservazioni ordinate in m gruppi di n/ m unità e si considera la modalità che separa gruppi contigui. S i quartili sono i valori che corrispondono a 25% (primo, Q1), 50% (mediana), 75% (terzo, Q3 ) delle osservazione. S i percentili sono ottenuti dividendo in 100 parti la distribuzione. S il minimo ed il massimo sono i valori estremi della distribuzione. Analisidati 3.wpd 17/11/2006 Statistiche descrittive III - 10 Caratteri quantitativi discreti Caratteri quantitativi discreti i diagrammi a barre ora possono esser ordinati opportunamente, in modo da vedere le modalità nel loro ordine. S si possono anche cumulare le frequenze progressivamente, ottenendo una sequenza di valori F1 = p1 , F2 = F1 + p2 , ...., Fs - 1 = Fs - 2 + ps - 1 , Fs = F s - 1 + ps = 1 che rappresentano la ripartizione della distribuzione. I caratteri quantitativi discreti possono esser trattati come caratteri in scala. Si possono però aggiungere: S l’estensione della distribuzione, differenza fra massimo e minimo; S la distanza interquartile è la differenza fra il terzo ed il primo quartile (Q3 - Q1); che rappresentano statistiche di dispersione. Inoltre S l'indice di concentrazione di Lorenz; indica come è distribuito un carattere cumulabile vi nelle osservazioni. Analisidati 3.wpd Analisidati 3.wpd S 17/11/2006 III - 11 17/11/2006 III - 12 Statistiche descrittive Caratteri quantitativi discreti Se T è il totale di vi in tutte le osservazioni, per i = 1,...,s modalità e si pone ogni qi è la quota del carattere attribuibile alle osservazioni con modalità non superiore a vi (e si pone q0 = 0). L'indice di Lorenz è allora che è compreso fra 0 e 1. Analisidati 3.wpd 17/11/2006 III - 13