CAPITOLO I STATISTICA DESCRITTIVA 1.1 _ Concetti introduttivi La statistica, in termine originale Staatsmerkwudigkeiten, è sorta come scienza descrittiva degli Stati, come pura e semplice descrizione di cose. Come insegnamento (Staatkunde) fu introdotta nell'Università di Helmstadt da Herman Conring (1606-1681), mentre in Italia il termine per la prima volta figura nel ristretto di scienza civile, politica e militare "Teatro d'homini letterati" (1647) del Gerolamo Ghislini. Grande merito nel 1800 ebbero Melchiorre Gioia e Giandomenico Romagnosi che intuirono la sua trasformazione da disciplina descrittiva a disciplina investigativa. Oggetto della statistica sono i fenomeni collettivi o di massa, lo studio dei quali comporta l'acquisizione di un complesso di osservazioni sulle singole unità di un determinato insieme detto collettivo statistico. Il Giardina (Manuale di statistica, 1962) la definisce come l'applicazione dei metodi scientifici alla programmazione della raccolta dei dati, loro classificazione, elaborazione, analisi, presentazione ed alla inferenza su conclusioni attendibili da essi. Al contrario delle scienze fisiche che si riassumono in un metodo di osservazione della realtà ed analisi dei dati da cui elaborare leggi che possono essere facilmente riprodotte e verificate in laboratorio, le scienze statistiche sono solo un metodo di osservazione di fenomeni comunque non riproducibili in laboratorio. La statistica può anche essere definita come metodo di osservazione di fatti individualmente atipici, ma collettivamente tipici. Un fenomeno è tipico se, in circostanze analoghe, si manifesta con le stesse caratteristiche. Molti dei fenomeni fisici possono essere considerati tipici quando avvengono in condizioni ideali: la caduta dei gravi nel vuoto è tipico, mentre nell'aria non può considerarsi tale, dato che due oggetti piuma e sasso, pur soggiacendo alla stessa legge di gravità, si comportano diversamente. Altro fenomeno atipico della fisica è il comportamento del gas rispetto al calore: il movimento di ogni particella avviene in modo casuale, perché imprevedibile e quindi non determinabile 2 attraverso le leggi della meccanica classica. Nella misura di una grandezza la atipicità a volte è però imputabile alla imperfezione dei nostri sensi e dei nostri strumenti di misura. Nella realtà vi sono moltissimi fenomeni dello stesso tipo che, confrontati l'uno con l'altro, si manifestano così dissimili, da sembrare dovuti alle bizzarrie del caso. Possono essere essi fenomeni biologici, economici, sociali, metereologici, biometrici, sanitari, giudiziari, antropometrici, demografici, aziendali. Tali fenomeni osservati non singolarmente, ma nel loro insieme collettivo, presentano delle regolarità; ad esempio il rapporto costante nel tempo delle nascite maschi/femmine, il rapporto tra aumento del benessere ed aumento dei consumi, o diminuzione della natalità, oppure aumento dell'altezza degli individui. Possiamo dire che se osservati uno alla volta, gli elementi di un collettivo presentano grande variabilità, mentre nel loro insieme rivelano presenza di regolarità ed uniformità di comportamento. Lo scopo della indagine statistica consiste nel ricercare tali regolarità o uniformità nella variabilità di situazioni, cioè ricercare il quanto più probabile nella apparente casualità. Il fine è quello di scoprire le leggi alla base dei fenomeni per risalire alle cause di cui sono il risultato, oppure per trarne previsioni relative al comportamento futuro.. Per analizzare alcuni problemi statistici, oltre ai vari strumenti matematici, spesso si ricorre sistematicamente alla comparazione fra dati. Un dato di per se stesso è poco significativo se non confrontato con un altro, rilevato in altro luogo o tempo diverso. La statistica si può dividere in tre parti: La statistica descrittiva o deduttiva, che ha come obiettivo la descrizione ed interpretazione dei dati; essa riguarda sia la produzione dei dati statistici, cioè della documentazione quantitativa relativa a fenomeni di massa, che l'elaborazione dei metodi statistici per l'analisi quantitativa dei fenomeni collettivi, onde desumere dalla massa di informazioni i tratti essenziali del fenomeno studiato. La statistica induttiva o inferente: da una popolazione di caratteri ignoti si estrae un campione di dati e su di esso si prova (accetta o respinge) una certa ipotesi, ad esempio la percentuale dei pezzi difettosi. La teoria delle decisioni statistiche che, tra diverse alternative in condizioni di incertezza tenta di decidere l'alternativa per raggiungere il risultato ottimo desiderato. 3 Definiamo universo o popolazione statistica o collettivo statistico, di dimensione N, l'insieme omogeneo definito rispetto al fenomeno in osservazione, cioè la totalità degli elementi che sono oggetto di studio e riguardo ai quali si desidera la conoscenza di una o più caratteristiche. Se per ogni elemento si determinano una o più caratteristiche, si parla rispettivamente di popolazione uni-variata o pluri-variata. Per unità statistica intendiamo il più piccolo elemento osservato. Può essere semplice, se consiste in una singola persona od oggetto, oppure composta, come ad esempio un nucleo familiare. Per dato statistico intendiamo il risultato di un rilevamento su una unità statistica. Un insieme di dati può avere il significato di una frequenza, come numero delle volte per cui si è manifestata una modalità di un carattere, oppure di una intensità, quando si parla di misura della modalità. Per campione1 intendiamo una porzione di una popolazione, quindi la scelta di n (<N) unità statistiche allo scopo di avere indicazioni sull'intera popolazione (non solo in numerosità, ma anche in grandezza, ad esempio un pezzo di stoffa). Un campione è rappresentativo quando la distribuzione statistica dei dati rilevati sulle sue unità, riproduce in scala ridotta, ma non deformata, la distribuzione statistica relativa alla popolazione intera. Esso può essere: sistematico, se estratto con una determinata legge, stratificato, quando ad esempio da ognuna fra più urne si estrae un certo numero di palline, a due stadi o cluster, quando si estraggono prima alcune fra più urne e poi da queste alcune palline ed infine casuale, quando la scelta è affidata al caso, alla sorte e quindi non determinata da leggi fisiche o matematiche, né da influenze oggettive. Un parametro che descrive il carattere della popolazione è spesso sconosciuto, quindi viene utilizzata una statistica, cioè un numero che descrive quel carattere nel campione; diciamo allora che la statistica sta al campione come il parametro alla popolazione. Per rilevazione statistica si intende la raccolta sistematica dei dati statistici informativi del fenomeno in oggetto. Una rilevazione può essere totale o parziale, a seconda se fatta su tutto l'universo statistico, oppure su un campione. La rilevazione, in generale, è sempre incompleta, in quanto quello completa, a meno del censimento, è 4 praticante impossibile (pesci del lago, fiale, durata delle pile, lavatrici dopo dieci anni già invecchiate). La rilevazione può essere classificata rispetto alle caratteristiche qualitative o quantitative da associare al fenomeno; avremo a) mutabile statistica, insieme delle modalità osservate di un carattere qualitativo e delle frequenze ad esso associate; riguarda rilevazioni di fenomeni non ordinabili, es. colori, professioni. Il dato statistico è espresso in forma verbale spesso con attributi, aggettivi, caratteri che possono differire per diverse manifestazioni dette modalità del carattere: occhi, stato civile, titolo di studio. Esse sono sempre discrete e sono semplici se si rivela un solo attributo, multiple se più attributi. Una successione di dati di tal tipo è detta anche serie statistica b) variabile statistica, insieme dei valori osservati su un carattere quantitativo e delle frequenze ad esso associate; riguarda rilevazioni espresse da numeri associati a fenomeni ordinabili e misurabili. Le modalità del carattere quantitativo sono i "valori" del carattere. Le successioni dei dati di tal tipo sono dette anche seriazioni statistiche. Possono essere sia discrete, se dedotte da caratteri ordinabili in senso discreto, finito o numerabile, oppure continue, se dedotte da caratteri ordinabili e continui, cioè valori reali compresi in intervalli (pesi, misure, costi). 1.2 _ Caratteristiche di una distribuzione L’insieme di determinazioni (x1, x2,…xn) della variabile statistica, raggruppati o meno in k classi, formano i dati grezzi, i quali possono essere subito ordinati in un array (tabella ordinata) in senso crescente o decrescente, in modo da rendere evidente il range o campo di variazione. Per riassumere le caratteristiche di una rilevazione statistica si ricorre a tabelle che riportano le unità o intensità corrispondenti ai diversi caratteri o modalità considerate. Si ricavano poi le distribuzioni di frequenze associando ad ogni carattere xi, ad esempio età, la distribuzione delle frequenze assolute hi, cioè il numero delle volte che quel carattere figura. Suddividendo i dati in k classi e registrando il numero di osservazioni che ricadono in ciascuna classe; si può costruire un grafico che rappresenta la distribuzione di frequenza. Le frequenze assolute di due distribuzioni, anche se della stessa specie, non sono in genere 5 confrontabili in quanto si riferiscono ad un diverso numero di osservazioni. Piuttosto che il numero, è più utile a volte conoscere la proporzione (intesa come quota parte), delle osservazioni che appartengono ad una determinata classe. Abbiamo allora la frequenza relativa fi = hi , (0fi1), N ottenuta come rapporto delle frequenze assolute sul numero totale dei dati statistici rilevati. Vale la relazione i fi =1. Le frequenze relative, essendo percentuali, sono numeri puri di facile interpretazione ed utili per confronti. La distribuzione di frequenze può rappresentarsi con diagrammi a segmenti o di frequenza, cioè grafici cartesiani del tipo (xi, fi), o con istogrammi (istos= trama) o bar charts: insieme di rettangoli accostati con basi di uguale larghezza (xi=xi-xi-1) e altezze proporzionali alla frequenze assolute (o relative), la differenza sta solo nella diversa scala sull’asse Y. Se negli istogrammi le classi vengono continuamente ridotte in ampiezza e se il numero delle osservazioni viene aumentato, il poligono si approssimerà sempre più ad una curva di frequenza f(x). Una curva di frequenza continua che in varie scienze descrive le distribuzioni di molte variabili statistiche è la cosiddetta normale o gaussiana. Per caratterizzare una variabile statistica, sia continua che discreta, si definisce allora in maniera assiomatica la funzione cumulativa di frequenza F(x)1. Essa riassume le frequenze cumulate, assolute o relative, cioè la somma delle frequenze corrispondenti alle determinazioni della variabile statistica X che sono inferiori od uguali ad un prefissato valore x: F(x) = f (X x ) xi x i i In corrispondenza di ogni valore discreto xi si ha un salto, pari alla frequenza che il nuovo valore aggiunge. Chiaramente più i valori sono vicini fra loro, più i salti saranno piccoli fino al punto di essere così infinitamente prossimi da identificarsi in una funzione continua (fig. 1.1b), il cui grafico è comunque un diagramma di frequenza. Curve molto regolari si hanno con variabili statistiche con alto numero di determinazioni e frequenze costanti per ciascuna di esse. Quindi, nel continuo si ha: 6 F(x) = fr(X<x) = fr(-<X<x) 1.3 _ Indici di posizione Per sintetizzare, condensare e confrontare distribuzioni statistiche occorre individuare indici descrittivi che ne riassumono alcune caratteristiche quantitative. Tra questi abbiamo in primis gli indici di posizione, che tendono a localizzare la distribuzione, individuandone la "tendenza centrale del fenomeno che essa descrive"; è in realtà quel valore Cr, detto anche centro di ordine r, che è rappresentativo dell'intera distribuzione stessa. Va rilevato che la sintesi spesso porta erroneamente ad assumere identiche due distribuzioni completamente diverse. Gli indici di posizione si dividono in medie analitiche e medie lasche a seconda che siano o meno esprimibili mediante formule che coinvolgano tutti i valori statistici. Tra le medie analitiche abbiamo: a) Media aritmetica (1.1) M(X) = i xi hi N = i xi f i in cui le frequenze hi rappresentano in realtà dei pesi; infatti spesso si parla di media semplice ponderata. Nel caso di dati raggruppati in classi, xi è il valore centrale della classe, preso come rappresentante di tutti i dati in essa inclusi. Per hi=1, fi=1/N, risulta M(X) = x i i /N Per una variabile statistica discreta e finita, il valor medio esiste sicuramente; ma se è discreta infinita, oppure continua finita o infinita, non è detto che esista; infatti per variabile discrete infinite la somma si traduce in una serie e questa potrebbe non convergere. Per variabili statistiche continue, poi, l'integrale potrebbe non esistere o divergere. Dato che coinvolge tutti i valori, può essere distorta da valori molto estremi o anomali e non può essere calcolata per distribuzioni open-ended; è comunque un indice molto affidabile per fare inferenze sulla popolazione. b) Media geometrica Usata principalmente per calcolare i tassi medi di variazione, è data da: 1 Od anche c.d.f (cumulative distribution function) 7 (1.2) 0 = n ik1 xi hi d) Media quadratica (2) = i xi2 hi N = i xi2 f i è la media aritmetica dei quadrati delle modalità ed è applicabile a variabili statistiche con valori negativi Si ha la sequenza di medie: x1 (-1) 0 1 (2) xn. Tra le medie lasche, che corrispondono ad un concetto non prettamente matematico, ma di rappresentazione statistica, abbiamo le seguenti. La moda o norma Mo, o valore prevalente, è il punteggio che avviene più spesso, e quindi a cui corrisponde la massima frequenza (non estremo, perché si possono avere frequenze sempre crescenti o decrescenti). Può non esistere o essercene più di una. Se nessun dato risulta più di una volta, non c'è moda; se ci sono due valori l'insieme dei dati è detto bimodale; comunque coincide sempre con uno dei dati. La mediana Me è il termine centrale della successione dei dati disposti in ordine crescente o decrescente; cioè il termine equidistante dagli estremi, se il numero n dei valori è dispari, o qualunque valore compreso fra i due centrali se n è pari, quindi, può o non appartenere ai dati. Come M0 non dipende dalle osservazioni della distribuzione, ma dal numero di esse. Indicata con C1, è chiamata anche centro di ordine 1. Viene molto usata per osservazioni non simmetriche (skewed) e può anche essere calcolata per distribuzioni open-ended. La Me è quel valore che divide una distribuzione in due gruppi di uguali frequenze cumulate e quindi la cui frequenza cumulata è 0.5 Me : x / F(x) = 0.5; xi Me fi = xi Me f i = 0.5; Considerati i dati disposti in ordine crescente, per quantili, si intendono quei valori che dividono la frequenza totale in n parti uguali; abbiamo quartili, decili, ...; ad esempio il 2° quartile, x0,5, corrisponde alla mediana. Per i quartili abbiamo q1/4 = x(n+1)/4; q1/2= x(n+1)/2; q3/4= x3(n+1)/4; 8 cioè sono quei valori xi della distribuzione che raccolgono frequenza relativa cumulata pari ad 1/4, ½ e ¾. I quantili sono molto utili per esplicitare la distribuzione dei redditi in un collettivo. Ad esempio nel 1960 il quintile più ricco rispetto al quintile più povero della popolazione mondiale era di 30:1, mentre nel 2002 è diventato di 90:1. Nei grafici scatola e baffi, riportati su un asse orizzontale, l'estremo sinistro (destro) della scatola coincide il primo (terzo) quartile, mentre la divisione interna della scatola coincide con la mediana. Lateralmente due linee orizzontali (baffi) vanno a raggiungere il valore più piccolo e più grande dell'insieme di dati. Fig. 1.3 x 1 q 1 q 2 q 3 x n 1.4 _ Momenti semplici e momenti centrali Essi possono essere semplici cioè rispetto all'origine, oppure rispetto ad un centro (media o qualsiasi altro valore caratteristico). I momenti di ordine r rispetto all'origine sono i valor medi di funzioni potenza r-ma g(X)=Xr della variabile statistica X: m( r ) M ( X r ) i xir f i dove gli xi sono i singoli valori o i valori centrali delle classi, a seconda di variabile discreta o divisa per intervalli. Portando l'origine nel punto , ovvero traslando tutti i dati di , si ottiene la variabile statistica centralizzata Y=g(X) = (X-) chiamata scarto della distribuzione dalla propria media. Però, invece del semplice scarto consideriamo una sua trasformata tramite una potenza r-ma qualsiasi, Yr=(X-µ)r; la generica determinazione risulta in tal modo yri=(xiµ)r; il valor medio di tale nuova variabile statistica è chiamato momento centrale r-mo: m ( r ) M (Y r ) i ( xi ) r f i formula che per µ=0 si riduce ai momenti r-mi rispetto all'origine. Per r = 0 abbiamo m(0)=1; per r = 1 si ha m(1)=M(Y)=0; per r = 2 abbiamo m(2)= ² cioè la varianza, per il cui calcolo si ha anche: 9 m(2)= ² = M ( Y 2 ) =i (xi-µ)² fi = m(2)-µ². Cioè il momento secondo centrale è uguale al momento secondo rispetto all'origine meno il quadrato del valor medio. La varianza in termini fisici rappresenta il momento d'inerzia della distribuzione rispetto al baricentro della stessa rappresentato dalla media aritmetica. 1.5 _ Indici di variabilità La variabilità è un concetto primitivo intrinseco di una variabile statistica; chiamata anche mutabilità, si può definire anche l'attitudine della variabile ad assumere diverse modalità. Gli indici di variabilità misurano l'ammontare della diffusione o dispersione dei dati e permettono di comprendere meglio il riassunto statistico trilussiano secondo cui, date due persone della quali una prima ha mangiato due polli ed una seconda nessuno, risulta che ciascuna ha mangiato un pollo a testa. Tali indici possono essere assoluti o relativi a seconda se dipendenti o meno dall'unità di misura del fenomeno osservato. Tra gli assoluti abbiamo: i) campo di variazione, è la differenza fra il valore massimo ed il minimo delle modalità =max(xi)-min(xi) Facile da calcolare, enfatizza le modalità estreme e non le diversità interne; è insensibile alle variazioni dei valori interni v) scarto quadratico medio o standard deviation (sqm) = σ 2 e varianza, media quadratica degli scarti, già introdotta tra i momenti. Mentre l'unità di misura della varianza è il quadrato di quella del fenomeno e in particolare della media, il calcolo dello sqm risolve questo inconveniente avendo la stessa unità di misura della media e quindi più idoneo per la misura della variabilità. È la più usata misura di dispersione; affetto da tutte le osservazioni, può essere distorto molto da osservazioni relativamente estreme e non può essere calcolato per distribuzioni aperte a meno di informazioni addizionali. 1 I parametri della popolazione vengono denotati con lettere greche, mentre quelli dei campioni con i caratteri italici