Variabili statistiche - Sommario • Definizioni preliminari • Statistica descrittiva • Misure della tendenza centrale e della dispersione di un campione 1 Introduzione • La variabile statistica rappresenta i risultati di un’analisi un analisi effettuata su un campione estratto da una popolazione statistica. • Il settore della statistica che si preoccupa dello studio di queste variabili prende il nome di statistica descrittiva. 2 Statistica - M.Grosso Variabili Statistiche 1 Definizioni preliminari • Interpretazione grafica Popolazione Statistica Campione Campagna sperimentale 3 Statistica descrittiva Introduzione • La variabile statistica rappresenta i risultati di un’analisi un analisi effettuata su un campione estratto da una popolazione statistica. • Il settore della statistica che si preoccupa dello studio di queste variabili prende il nome di statistica descrittiva. Campione Scopo: Caratterizzazione del campione 4 Statistica - M.Grosso Variabili Statistiche 2 Statistica descrittiva Introduzione • La Statistica Descrittiva è la branca della Statistica che studia i criteri di rilevazione, di classificazione e di sintesi delle informazioni relative a una popolazione oggetto di studio. • Ha come obiettivo il sintetizzare i dati di un campione in una scrittura di facile lettura. • Definizione • Dimensione N del campione: numero di osservazioni di cui è costituito il campione 5 Statistica descrittiva – Esempio discreto • Una azienda intende monitorare i giorni di assenza dal lavoro dei p propri p impiegati. p g • X : numero di giorni di assenza per ogni impiegato • L’indagine viene eseguita su 20 dipendenti scelti a caso, osservando i seguenti risultati • X : {5, 6, 4, 4, 10, 4, 8, 7, 5, 7, 3, 2, 1, 6, 6, 5, 6, 6, 8, 3} • O Ognii dipendente di d t preso in i considerazione id i è un evento t ovvero un esito dell’esperienza che non è noto a priori • La dimensione del campione a disposizione e’ N = 20. 6 Statistica - M.Grosso Variabili Statistiche 3 Statistica descrittiva – Esempio discreto • I dati sono riportati nella seguente tabella riassuntiva Numero di giorni d' d'assenza Ri Ripartizione ti i dei d i 20 X impiegati 1 2 3 4 5 6 7 8 Definizioni Frequenza F f Frequenza relativa F l ti f/n 1 0.05 1 0.05 2 0.10 3 0.15 3 0.15 4 0.25 2 0.10 2 0.10 0 0.00 1 0.05 n = 20 1.00 ∏ ∏ ∏∏ ∏∏∏ ∏∏∏ ∏∏∏∏∏ ∏∏ ∏∏ 9 10 ∏ La frequenza assoluta rappresenta il numero di volte che un dato risultato si osserva nel campione considerato La frequenza relativa si ottiene dividendo la frequenza per il numero totale di prove 7 Statistica descrittiva – Esempio discreto 4 0.2 2 0.1 1 2 3 4 5 6 7 8 9 Frequenza relativa frequenza • Rappresentando i risultati in un grafico (ISTOGRAMMA) è possibile ottenere informazioni qualitative sul qu u comportamento mp m dei dipendenti p 10 • Per esempio, esistono dei risultati più ricorrenti? 8 Statistica - M.Grosso Variabili Statistiche 4 Statistica descrittiva – Frequenza relativa 1. La frequenza relativa può assumere valori almeno uguali a zero e al più uguali a 1 2. La somma delle frequenze relative è sempre pari a 1 • I valori che possono assumere i risultati del campione vanno da 1 a 10. È possibile osservare m = 10 distinti valori interi. Per definizione: fi = • Ni N ∀i ∈ m Essendo Ni il numero di volte che sii è osservato t il valore l ii-esimo i Da notare che m ∑f i =1 i = 1.0 Statistica descrittiva – Frequenza relativa e cumulativa • Da notare che la frequenza relativa, dal punto di vista matematico, può essere vista come una funzione funzione: ⎧f f ( y) = ⎨ j ⎩0 Statistica - M.Grosso Variabili Statistiche se y = yj altrove 5 Statistica descrittiva – Frequenza cumulativa • Ci si può porre il problema di determinare quale è la frazione delle osservazioni che assume valori inferiori ad un certo valore • Ad ogni y si associa la somma di tutte le frequenze relative corrispondenti ai valori del campione più piccoli o uguali ad y. F ( y ) = ∑ f (t ) t≤ y 0.30 1.2 0 25 0.25 1 0 1.0 frequenza cumulativa frequenza relativa Statistica descrittiva – Frequenza cumulativa 0.20 0.15 0.10 0.6 0.4 0.2 0.05 0.00 0.8 0.0 0 2 4 6 8 10 numero di g giorni di assenza Frequenza relativa 12 0 2 4 6 8 10 numero g giorni di assenza Frequenza cumulativa La frequenza cumulativa è una funzione a gradini, crescente, che parte da 0 e arriva a 1 Statistica - M.Grosso Variabili Statistiche 6 Statistica descrittiva – Frequenza cumulativa • La distribuzione cumulativa è molto importante: • Si consideri per esempio di voler sapere la frazione del campione di dipendenti che ha maturato tra le 5 e le 8 giornate di malattia • % impiegati con X ≤ 8 = 0.95 • % impiegati con X < 5 = % impiegati con X ≤ 5 = 0.35 • La percentuale di impiegati con 5 ≤X ≤8 = 0.95-0.35 = 0.60 Statistica descrittiva – Esempio continuo • Si consideri una serie di 50 misure di concentrazione di composti azotati su un’acqua di scarico di un impianto industriale. • Le misure sono state effettuate sempre nelle stesse condizioni (esercizio dell’impianto costante etc.) • Le fluttuazioni presenti nella misura possono essere dovute a: – Errori di misura – Fluttuaz Fluttuazioni on nella corrente d di scar scarico co do dovute ute a variazioni delle condizioni esterne (meteo, temperatura, etc.) – altro 14 Statistica - M.Grosso Variabili Statistiche 7 Statistica descrittiva – Esempio continuo • Esempio di misure: • X = {1.434, 1.401, 1.464, …, 1.478, 1.490, 1.405, 1.394} • In questo caso non abbiamo più un numero finito (o numerabile) di possibili risultati ma ciascun elemento del campione può assumere un qualunque numero reale • N.B. N B nonostante la concentrazione sia stata riportata con una precisione alla terza cifra decimale, il numero di cifre significative può essere infinito 15 Statistica descrittiva – Esempio continuo • Non si può parlare di frequenza di un valore specifico di X ((non si avrà mai lo stesso valore p per due differenti misure). • Su un istogramma costruito con la filosofia del caso discreto avremmo tanti picchi di altezza unitaria in corrispondenza di ciascuna misura sperimentale, il che non avrebbe senso dal punto di vista applicativo. • Al contrario si può determinare il numero di volte che si osserva un valore in un certo intervallo finito (classe) Δx • Tale numero prende il nome di frequenza assoluta corrispondente alla classe 16 Statistica - M.Grosso Variabili Statistiche 8 Statistica descrittiva – Esempio continuo • Considero, per esempio, 9 distinte classi che partono da 1.15 sino a 1.60 ciascuna delle quali è costituita da un intervallo pari a 0.05: 0 05: 1 1.15 3 1.20 6 7 4 1.25 1.30 1.35 7 1.40 15 1.45 5 1.50 2 1.55 n = 50 0 1.60 1.65 Misura della concentrazione 17 Statistica descrittiva – Esempio continuo • I risultati possono ancora essere rappresentati in un istogramma 0.30 frrequenza 30% 10 14% 14% 12% 5 2% 1.15 8% 6% 1.20 1.25 1.30 1.35 0.20 10% 0 10 0.10 4% 1.40 1.45 1.50 1.55 1.60 frequenza rellativa 15 1.65 Misura della concentrazione 18 Statistica - M.Grosso Variabili Statistiche 9 Statistica descrittiva – Percentili • Gli istogrammi delle frequenze (sia assolute che relative) sono molto utili e permettono con una semplice p ispezione p grafica g f di trarre conclusioni • Per esempio si consideri una misura di concentrazione pari a 1.24. Tale misura si trova nell’estremità superiore della seconda classe e si possono per esempio valutare quante sono le osservazioni sperimentali con valore inferiore. In questo caso: % prima i cllasse (1.15 15 ÷ 1.20 1 20 ) + % seconda d classe l 1 20 ÷ 1.25 1 25 ) = (1.20 2% + 6% = 8% • Il valore di concentrazione 1.24 cade nell’8mo percentile 19 Statistica descrittiva – Percentili • Percentili importanti: – Primo quartile: è il percentile 25 25°, ovvero il 25% del campione assume valore inferiore – Mediana: è il percentile 50°, corrisponde al valore centrale che divide in dati in due parti uguali – Terzo quartile: è il percentile 75°, solo il 25% delle osservazioni assume un valore superiore 20 Statistica - M.Grosso Variabili Statistiche 10 Statistica descrittiva – Percentili • Per l’esempio corrente: x=1.33 Primo quartile 1.15 1.20 1.25 1.30 1.35 Minimo valore del campione x=1.47 Terzo quartile 1.40 1.45 1.50 1.55 1.60 1.65 Massimo valore del campione x=1.43 Mediana 21 Statistica descrittiva – Percentili • Rappresentazione del campione tramite “diagrammi a scatola” (in inglese: “box-plots”) 1.15 1.20 1.25 1.30 1.35 1.40 1.45 1.50 1.55 1.65 Valore massimo Valore minimo 1° quartile Statistica - M.Grosso Variabili Statistiche 1.60 mediana 3° quartile 22 11 Statistica descrittiva Esercizio riepilogativo • In un’università americana un campione scelto a caso di 5 professori di sesso femminile ha fornito la seguente distribuzione dei salari annuali (Katz, 1973) • Y = {9, 12, 8, 10, 16} • I dati sono forniti in Kdollari • Tracciare i diagrammi a scatola del campione in esame • Suggerimento S i : ordinare di i dati d i iin senso crescente ed d individuare l’osservazione “centrale” per la mediana. Per i percentili si ha che il 25% di 5 è circa 1 e quindi sono le osservazioni alle estremità 23 Statistica descrittiva Esercizio riepilogativo • Nella stessa università, un campione di 25 professori maschi ha fornito la seguente distribuzione di salari annuali (stessa fonte. unità di misura sempre in Kdollari) • X = {13, 11, 19, 11, 22, 27, 14, 16, 13, 24, 21, 18, 11, 9, 13, 22, 13, 11, 17, 13, 31, 9, 12, 15, 15} • Tracciare i diagrammi a scatola del campione in esame • Suggerimento : ordinare i dati in senso crescente la mediana sarà il valore per cui 12 punti siano inferiori e 12 superiori. Per i quartili si ha che il 25% di 25 è circa 6 e dobbiamo q q quindi prendere il 6° e il 19° punto della successione. • Da una analisi qualitativa, è possibile concludere se ci sono differenze tra i due campioni? • Classificare inoltre i dati in classi di centro 10, 15,20,25,30 24 Statistica - M.Grosso Variabili Statistiche 12 Misure centro di una distribuzione di dati • Con la rappresentazione grafica delle frequenze è possibile ottenere delle informazioni qualitative sul nostro campione • Ci sono differenti modi per rappresentare il centro di una distribuzione di dati 25 Misure centro di una distribuzione di dati • Moda il valore più frequente nel campione di dati – ovvero quello cui corrisponde il maggior numero di osservazioni – Esempi: • Esempio discreto col numero dei giorni di malattia: moda = 6 giorni • Esempio continuo con le misure di concentrazione: moda corrisponde alla classe [1.45 - 1.50] ~ 1.475 26 Statistica - M.Grosso Variabili Statistiche 13 Misure centro di una distribuzione di dati • Mediana il 50° percentile – Esempi: • Esempio discreto col numero dei giorni di malattia: mediana = 5.5 giorni p continuo con le misure di • Esempio concentrazione: mediana = 1.4276 27 Misure centro di una distribuzione di dati • Media aritmetica • Corrisponde alla somma di tutte le osservazioni diviso per il numero N di osservazioni N x w ∑ i x + x + ... + xN x = i =1 = 1 2 N N • Esempio p discreto numero giorni g di malattia x= 5+6+4+6+1+10+...+0+3+3+13+8 = 4.9375 50 • Esempio continuo con le misure di concentrazione x= Statistica - M.Grosso Variabili Statistiche 1.43+1.27+1.47...+1.40+1.46 = 1.4059 50 28 14 Misure centro di una distribuzione di dati • Nel caso di campioni di grandi dimensioni l’applicazione della formula per la media può risultare oneroso, se eseguito manualmente senza l’ausilio di strumenti di calcolo. • Ma i calcoli possono essere significativamente ridotti ricorrendo ai dati raggruppati in classe • Consideriamo una generica collezione di dati da sommare e ordiniamoli in ordine crescente • All’interno di ciascun insieme di dati appartenenti alla stessa classe approssimiamo ogni osservazione con il centro della rispettiva classe 29 Misure centro di una distribuzione di dati • Si può scrivere x≅ Statistica - M.Grosso Variabili Statistiche x cade nella p prima classe Ø x1 x cade nella seconda classe Ø x2 1 (( x1 + x1 + K) + (x2 + x2 + K) + K) = 1 [x1 f1 + x2 f 2 + K] N N La x cade f1 volte nella classe rappresentata da x1 La x cade f2 volte nella classe rappresentata da x2 x ~ x1 x ~ x2 f1 , f2 , … frequenze assolute relative alle classi x 1, x 2 , … 30 15 Misure centro di una distribuzione di dati • In conclusione per una serie di dati raggruppati possiamo scrivere 1 x = ∑ x fA fA: frequenza assoluta N • Essendo f la frequenza assoluta delle osservazioni nelle classi • Nel caso si usi la frequenza relativa f: p x = ∑ xj f j j =1 Essendo p il numero di classi in cui è stato suddiviso il campione xj è il valore associato ad ogni classe, fj è la frequenza relativa osservata per la classe j-esima 31 Misure centro di una distribuzione di dati • Esercizio 1: • Si stimi la media degli stipendi universitari sia per la distribuzione maschile che per quella femminile • Nel caso del campione maschile si sfrutti l’approssimazione per i dati raggruppati • Nota: la media del campione maschile è pari a 16.00 se non sii ricorresse i alle ll approssimazioni i i i 32 Statistica - M.Grosso Variabili Statistiche 16 Misure centro di una distribuzione di dati • Esercizio 2: • Si considerino i due campioni di dati A e B di seguito riportati e si valutino per essi media e mediana • A = {1.01, 1.49, 0.99, 2.01, 2.50} • B = {1.594, 1.604, 1.589, 1.604, 1609} 33 Statistica descrittiva Osservazioni sull’esercizio • La valutazione del centro della distribuzione dei dati è un’informazione un informazione utile ma non esaustiva. • Nel secondo esercizio si era visto come due campioni che presentano lo stesso valore di media, sono comunque ben differenti (perché?) • Il secondo campione di dati registra infatti delle fluttuazioni intorno al valore medio che sono molto più piccole piccole. • Potrebbe per esempio essere associato ad una misura più precisa 34 Statistica - M.Grosso Variabili Statistiche 17 Statistica descrittiva Misure dispersione di una distribuzione • È quindi interessante anche misurare quanto le misure siano disperse intorno al valore medio. • Vi sono diverse misure della dispersione dei dati: • Intervallo (in inglese; range) valore massimo – valore minimo • È una misura un po po’ “sensibile” sensibile dato che dipende completamente da due sole osservazioni • Esempio: calcolare l’intervallo per i due campioni A e B introdotti precedentemente 35 Statistica descrittiva Misure dispersione di una distribuzione • Intervallo (o Estensione) Interquartile EIQ EIQ = (t (terzo quartile) til ) – (primo ( i quartile) til ) • È più “stabile” del semplice intervallo (perché?) • Esistono altre misure della dispersione che sono usate. • Per la loro implementazione è necessario prima definire la seguente grandezza: d i = xi − x • che rappresenta la distanza della singola prova rispetto al trend centrale. 36 Statistica - M.Grosso Variabili Statistiche 18 Statistica descrittiva Misure dispersione di una distribuzione • È facile dimostrare che: N N i =1 i =1 ∑ d i = ∑ (xi − x ) = 0 • Infatti: N N N N i =1 i =1 ∑( x − x ) = ∑ x − ∑ x = ∑ x − N x = N x − N x = 0 i =1 i i =1 i i • Deviazioni positive e negative dal valore centrale si annullano. È quindi necessario prendere tale deviazione in valore assoluto 37 Statistica descrittiva Misure dispersione di una distribuzione • Scarto assoluto medio SAM = Statistica - M.Grosso Variabili Statistiche 1 N N ∑d i =1 i = 1 N N ∑ x −x i =1 i 19 Statistica descrittiva Dispersione di una distribuzione di dati • Scarto quadratico medio: SQM = 1 N N ∑(x − x ) i =1 2 i • In genere la formula utilizzata è una piccola modifica dello scarto quadratico medio: • Varianza s2 = 1 N 2 ( xi − x ) ∑ N − 1 i =1 La somma dei quadrati è divisa per (N-1) anziché N 39 Statistica descrittiva Dispersione di una distribuzione di dati • Varianza: perché dividere per (n-1)? • La dimostrazione matematica rigorosa è molto articolata e complessa. l • È possibile dare comunque un’interpretazione intuitiva di tale necessità, ricorrendo a dei casi estremamente semplici. • Si consideri, per esempio, un campione di dati costituito da N = 1 osservazione.La media fornisce un’idea di quale sia il trend centrale della popolazione da cui proviene. • Ma in tale campione, la dispersione è nulla e non si può concludere n niente ente sulla d dispersione spers one della popolaz popolazione. one. • In maniera empirica, si può affermare che, per un generico campione di dimensione N, si hanno (N-1) elementi di informazione che possono essere sfruttati per la varianza (detti anche gradi di libertà): Un grado di libertà è stato già sfruttato per il calcolo della media 40 Statistica - M.Grosso Variabili Statistiche 20 Statistica descrittiva Misure dispersione di una distribuzione • Deviazione standard • È la radice quadrata della varianza s= 1 N 2 ( xi − x ) ∑ N − 1 i =1 • Utile perché ha le stesse dimensioni della variabile x presa in considerazione p • È compresa tra il minimo ed il massimo dei valori assoluti degli scarti di = xi − x 41 Statistica descrittiva Misure dispersione di una distribuzione • Da notare che: 1 N 1 ⎛ N 2 ⎞ 2 s2 = xi − N x 2 ⎟ ( xi − x ) = ∑ ∑ ⎜ N − 1 i =1 N − 1 ⎝ i =1 ⎠ • Dimostrazione: 1 N 1 N 2 2 s2 = x − x = ( ) ∑ i ∑ ( xi − 2 xi x + x 2 ) = N − 1 i =1 N − 1 i =1 N N N 1 ⎛ N 2 1 ⎛ N 2 ⎞ 2⎞ x − 2 x x + x = x − 2 x xi + Nx 2 ⎟ = ∑ ∑ ∑ ∑ ∑ i i i ⎜ ⎟ ⎜ N − 1 ⎝ i =1 i =1 i =1 i =1 ⎠ N − 1 ⎝ i =1 ⎠ 1 ⎛ N 2 1 ⎛ N 2 ⎞ 2 2⎞ x − 2 Nx + Nx = xi − Nx 2 ⎟ ∑ ∑ i ⎜ ⎟ ⎜ N − 1 ⎝ i =1 ⎠ N − 1 ⎝ i =1 ⎠ Statistica - M.Grosso Variabili Statistiche CVD 21 Statistica descrittiva Misure dispersione di una distribuzione • Per una distribuzione classificata, si può stimare la varianza varianza: 2 2 1 p N p s2 = x x N f xj − x ) f j − = ( ) ( ∑ ∑ j j N − 1 j =1 N − 1 j =1 • Per grandi dimensioni del campione (N » 1) s = ∑( xj − x ) f j p 2 2 j =1 • Analogamente la deviazione standard s= 2 N p xj − x ) f j ( ∑ N − 1 j =1 43 Statistica descrittiva Misure dispersione di una distribuzione • Esercizio: • Si calcoli la varianza per i dati degli stipendi universitari sia per il campione femminile sia per il campione maschile • Nel secondo caso, ricorrere ai dati raggruppati per classi 44 Statistica - M.Grosso Variabili Statistiche 22 Altri indici di posizione e dispersione campionari • Il momento campionario di ordine k è definito come: n ~ = 1∑ m xik k N i =1 • Il momento centrale campionario di ordine k è definito come: 1 n ~ k M k = ∑ ( xi − x ) N i =1 45 Altri indici di posizione e dispersione campionari • Indice campionario di asimmetria ~ M3 β= 3 s • Indice campionario di curtosi ~ M4 γ= 22 (s ) 46 Statistica - M.Grosso Variabili Statistiche 23 Statistica descrittiva Sommario • • • • Statistica - M.Grosso Variabili Statistiche Con la statistica descrittiva è possibile ricavare informazioni sulla popolazione da un campione finito di dati: Distribuzioni frequenze del campione Sono stati introdotti gli scalari fondamentali per una caratterizzazione preliminare di un campione Media, varianza per una variabile di un campione 24