Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Statistica descrittiva Impianti industriali Elementi di statistica 3 1 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Generalità • Un indice sintetico (o misura statistica) è un valore, ottenuto attraverso una procedura esplicita, che si usa in luogo di una serie di altri valori per darne un’informazione sintetica. • Un indice statistico descrittivo è un valore che serve a descrivere in modo sufficiente (utile) come si manifesta un carattere osservato in un campione. Elementi di statistica 3 2 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Si impiegano due tipi di indici: – indici di tendenza centrale (o posizione) della distribuzione. Essi indicano una modalità attorno a cui si “addensano” le altre; – indici di distribuzione o dispersione. Essi indicano come le modalità, nel campione, si dispongano tra loro e rispetto all’indice di tendenza centrale, ossia informano sulla dispersione dei dati rispetto ad esso. Elementi di statistica 3 3 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Moda • Il valore (o i valori) di un carattere che si verifica più spesso in un insieme di osservazioni è definito valore modale o moda. • Nelle distribuzioni sperimentali discrete la moda è il valore xi a cui corrisponde il valore di frequenza massimo. Non necessariamente è unica. • Nel caso di distribuzioni continue, se si dispone del grafico della distribuzione, la moda può essere identificata visivamente. Elementi di statistica 3 4 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Nelle distribuzioni sperimentali discrete la moda è il valore xi a cui corrisponde il valore di frequenza massimo. • Se invece si dispone dell’equazione descrittiva f(x), la moda si determina con df ( x ) =0 dx • La moda è l’unica misura statistica di tendenza centrale impiegabile nel caso di caratteri qualitativi. • La presenza di più di una moda è spesso indice del fatto che il campione comprende individui di più popolazioni. Elementi di statistica 3 5 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Mediana • Se gli n valori di un carattere quantitativo di un campione sono posti in ordine crescente, si definisce mediana xme quel valore che è preceduto e seguito dallo stesso numero di dati. • Valori discreti in numero dispari Si possono dividere gli n dati in (n = n’ + 1 + n’) e quindi la mediana è il dato (n’+1). • Valori discreti in numero pari Sono presenti due valori centrali (xi e xi+1), per convenzione: xi + xi +1 xme = 2 Elementi di statistica 3 6 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Quindi: – se n è dispari, la mediana è il valore presente alla posizione (n+1)/2; – se n è pari, la mediana è data dalla media del valore n/2 e n/2+1. • Nel caso di valori continui si ricorre alla curva cumulata. • Se si hanno n casi con n grande a piacere si traccia la curva cumulata. Si rileva il valore delle frequenze cumulate pari a n/2 in corrispondenza del quale si trova la mediana. Elementi di statistica 3 7 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Dividendo per n si rileva il valore di P(x)=0,5. Ciò consente di estendere la definizione di mediana anche nel caso di n→∞. • Se si hanno classi di valori la mediana corrisponde al valore dell’intervallo (valore centrale) per il quale la distribuzione cumulata delle frequenze relative raggiunge il 50% del valore. • Esempio Alla fine di un lancio di produzione una macchina ha prodotto dei pezzi di cui si conta il numero di difetti: il 10% ha 4 difetti, il 20% ha 3 difetti, il 25% ha 2 difetti, il 20% ha 1 difetto e il 25% non ha difetti; si può determinare la mediana senza conoscere n? Elementi di statistica 3 8 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Proprietà della mediana • Si consideri la somma dei valori assoluti delle differenze tra i valori della variabile e uno di essi. Tale somma è minima quando il valore fissato è la mediana: n ∑ xi − xme = min i =1 • In una serie di dati ogni valore estratto in modo casuale ha la stessa probabilità di essere inferiore o superiore alla mediana. Elementi di statistica 3 9 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • La mediana è insensibile ai valori estremi di una distribuzione essa non è infatti calcolata tenendo conto dei valori della variabile. • La mediana è la misura di tendenza centrale utilizzata nella quasi totalità dei test non parametrici (ad es., per variabili ordinali). Elementi di statistica 3 10 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Esempio: 9 valori di altezza (cm) 162 172 178 181 168 172 179 184 177 165 170 175 180 altezza Elementi di statistica 3 11 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali 162 168 172 172 177 178 179 181 184 Consuntivi descrittivi: Min. 162.0 Mediana 177.0 Max. 184.0 • Se si fossero campionati altri due valori: 164 201 cosa si sarebbe ottenuto? Elementi di statistica 3 12 Università degli Studi di Trieste – a.a. 2009-2010 170 Impianti industriali 180 190 200 altezza Elementi di statistica 3 13 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali 162 164 168 172 172 177 178 179 181 184 201 Min. 162.0 Mediana 177.0 Max. 201.0 • Se si fosse campionato solo il valore 201: Min. 162.0 Mediana 177.5 Max. 201.0 • La mediana non è molto sensibile ai valori estremi. Elementi di statistica 3 14 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Quantili o frattili • L’idea di ripartire l’intervallo di variabilità delle x in parti ordinate, nato dalla definizione di mediana, si può sviluppare introducendo il concetto di quantile o frattile. • Suddividendo l’insieme di variazione di x in k parti, in modo che ciascuna contenga 1/k del totale dei dati, si raggiunge lo scopo. • Si costruisce la funzione cumulata in modo che al frattile h corrisponda una frequenza cumulata uguale ad h% della popolazione totale. Elementi di statistica 3 15 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Molto usati sono i percentili. Si suddivide l’intervallo delle probabilità cumulate in 100 parti e in corrispondenza dell’i-esimo valore percentuale (ad es. 10%) si individua il valore della variabile (il decimo percentile). 100% 50% 10% Elementi di statistica 3 x 16 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Allo stesso modo sono definiti i quartili, decili ecc. Esempio La mediana è il 50°percentile, il 5°decile, il 2°quar tile. • Se si opera nel caso discreto il calcolo dei quantili si può fare solo se il numero dei dati soddisfa a certe condizioni (cfr. la mediana). • Negli altri casi si fa l’ipotesi di uniforme ripartizione che consente di ottenere un valore calcolato ma non effettivamente presente tra i dati. • Nel caso della ripartizione in classi, si assume per convenzione come frattile il valore della classe più vicino al valore calcolato. Elementi di statistica 3 17 Università degli Studi di Trieste – a.a. 2009-2010 • Impianti industriali Regola di calcolo (valori discreti) 1. si ordinano gli n valori in ordine crescente; 2. si calcola il prodotto k = (n+1)·p, dove p = 0,25 per il primo quartile ecc. 3. se k è intero, il quartile è pari al valore che nel campione ordinato occupa la k-esima posizione; 4. se k non è intero, il quartile si trova calcolando la media del valore k-esimo e (k+1)-esimo. Elementi di statistica 3 18 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Media Definizione generale • Un qualunque valore compreso tra il minimo e massimo di un insieme di dati è detto valore medio. • Sono possibili diversi valori medi: la scelta di uno specifico dipende dalle sue proprietà e dagli obiettivi dell’analisi. • Gli indici di posizione sono valori medi. Elementi di statistica 3 19 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Media aritmetica Valori discreti • Sia data una successione di numeri x1, x2, …, xn che rappresenti i valori di un certo carattere X in n osservazioni. • Se X ha carattere additivo, si ha Xtot = x1 + x2 + … + xn Xtot è il “carattere totale”, somma dei “caratteri parziali”. Elementi di statistica 3 20 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Nell’ipotesi vista si possono sostituire gli n valori variabili con n valori costanti in modo che la somma sia pari a n Xtot: M +4 M2 +4 ... 4 +3 M = X tot = ∑ xi 14 n _ volte i= =1 1 n (1) xi M =∑ =x i =1 n (arithmetic mean) Esempio • Si svolge un’indagine sui difetti riscontrati in una linea prelevando 30 campioni di 100 unità di prodotto. • I risultati sono riportati sulla tabella seguente: Elementi di statistica 3 21 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali n°difetti n°di campioni 0 5 1 6 2 7 3 4 4 0 5 5 6 3 • Indicato con N il numero di campioni e con Nv il numero di classi di valori, la media può essere ricavata come: Nv 1 Nv fi x = ∑ xi ⋅ f i = ∑ xi ⋅ N i =1 N i =1 Elementi di statistica 3 22 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Quindi: 5 6 7 4 0 5 3 x = 0 × + 1× + 2 × + 3 × + 4 × + 5 × + 6 × = 2,5 30 30 30 30 30 30 30 Media aritmetica e mediana • La mediana è un indice di posizione più adeguato della media aritmetica per dati con asimmetrie rilevanti. Elementi di statistica 3 23 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Esempio delle altezze 162 168 172 172 177 178 179 181 184 Consuntivi descrittivi: Min. 162.0 Mediana 177.0 Media 174.8 Max. 184.0 • Nel caso del campionamento degli altri due valori (164 201) o del solo valore estremo (201) si otterranno i risultati seguenti. Elementi di statistica 3 24 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali 162 164 168 172 172 177 178 179 181 184 201 Min. 162.0 Mediana 177.0 Media 176.2 Max. 201.0 • Se si fosse campionato solo il valore 201: Min. 162.0 Mediana 177.5 Media 177.4 Max. 201.0 • La media è sensibile ai valori estremi. Elementi di statistica 3 25 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • A differenza di moda e mediana, la media prende in considerazione le informazioni contenute in ogni dato; prelevando campioni della stessa dimensione da una popolazione, la media subisce oscillazioni di valore più contenute. • La mediana non è sensibile ai valori delle variabili purché non muti l’ordinamento dei valori delle stesse. Dunque nel caso di variabili di tipo ordinale si può utilizzare solo la mediana. Elementi di statistica 3 26 Università degli Studi di Trieste – a.a. 2009-2010 Esempio Elementi di statistica 3 Impianti industriali (Studio di Pedersen et al., 2002) 0 5 1 49 2 4 3 5 4 9 media = 5 4 mediana = 6 4 7 1 8 1 9 2 10 3 11 2 12 3 13 1 15 2 18 1 19 2 30 2 40 1 45 1 150 2 6000 1 64,9 1 27 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Valori in classi • Nel caso di valori nel continuo si considera il valore centrale della classe come riferimento. • Si ipotizzi che i valori all’interno di ciascuna classe si distribuiscano uniformemente. • In tal caso il valore centrale di ognuna delle Nc classi, xi, rappresenta la media degli ni valori dell’intervallo. Elementi di statistica 3 28 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Si può quindi scrivere: n xi x=∑ i =1 n ni ⋅ xi N c x=∑ = ∑ν i ⋅ xi n i =1 i =1 Nc (2) media aritmetica ponderata con le probabilità νi. • Si noti che in generale, in assenza dell’ipotesi vista, il valore ottenuto con le relazioni precedenti costituisce una stima della media dei valori. Elementi di statistica 3 29 Università degli Studi di Trieste – a.a. 2009-2010 Si ottiene ~ x = 6,730 Elementi di statistica 3 Impianti industriali invece di x = 6,596 30 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Media ponderata • Si associno dei pesi wi ai valori xi secondo l’importanza dei valori stessi. • In questo caso si deve compensare il diverso “peso” dei valori; la media ponderata sarà n (3) x=∑ i =1 wi ⋅ xi n ∑w i =1 Elementi di statistica 3 i 31 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Valori continui • Nel caso si abbia la f(x) su x continua tra due valori xmin e xmax, la media si ricava intuitivamente dalla definizione utilizzata per le classi; per Nc → ∞ si sostituisce a ∑ xmax ∫ xmin alla probabilità ν i si sostituisce f(x)dx quindi : (4) x = E{x} = xmax ∫ x ⋅ f ( x)dx xmin Elementi di statistica 3 32 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Proprietà della media aritmetica 1. La somma algebrica delle differenze tra ogni termine e la media è nulla. 2. Data una successione di dati, la somma dei quadrati delle differenze tra ogni termine ed un numero M è minima quando M = x 3. Gode della proprietà associativa Se una variabile statistica è divisa in k gruppi di cui si conoscono le relative medie x1 , x2 ,..., xk e frequenze p1 , p2 ,..., pk Elementi di statistica 3 33 Università degli Studi di Trieste – a.a. 2009-2010 Si ottiene: Impianti industriali k x=∑ i =1 pi ⋅ xi k ∑p i =1 i 4. Proprietà aritmetiche • Sommando una costante c a ogni valore xi di un insieme di valori si ottiene: M ( xi + c) = M ( xi ) + c • Sottraendo una costante c a ogni valore xi di un insieme di valori si ottiene: M ( xi − c) = M ( xi ) − c Elementi di statistica 3 34 Università degli Studi di Trieste – a.a. 2009-2010 • Impianti industriali Moltiplicando ogni valore xi di un insieme di valori per una costante c ottiene: M (c ⋅ xi ) = c ⋅ M ( xi ) • Dividendo ogni valore xi di un insieme per una costante c ottiene: xi M ( xi ) M = c c • In generale: M (c ⋅ xi + b) = c ⋅ M ( xi ) + b Elementi di statistica 3 35 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Misure di dispersione • Si possono presentare campioni che hanno lo stesso valore di tendenza centrale, ma la cui distribuzione è nettamente diversa. • La misura di tendenza centrale non è quindi sufficiente per descrivere le caratteristiche di un campione. • Si dovranno introdurre degli indici che tengano conto di quanto i valori delle osservazioni differiscano tra loro. Elementi di statistica 3 36 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Definizioni Scarto Dato un insieme di valori x1, x2, …, xn, si definiscono scarti semplici (deviazioni) da un valore qualunque a, le quantità: Li = xi − a Devianza Dato un insieme di valori x1, x2, …, xn, si definisce devianza D la somma dei quadrati degli scarti fra i valori e la loro media aritmetica: n D = ∑ ( xi − x ) 2 i =1 Elementi di statistica 3 37 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Campo di variazione • Si abbia un insieme di dati x1, x2, …, xn. La misura di dispersione più semplice è il campo o intervallo di variazione (range) dei valori: R = xmax − xmin • Questa misura è insensibile alla distribuzione “interna” dei dati in un insieme: tiene infatti conto solo dei valori estremi. • Si identificano, però, immediatamente i valori oltre i quali non sono presenti osservazioni. Elementi di statistica 3 38 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Sintesi di una distribuzione • Si può pensare di dividere la distribuzione campionaria in quattro parti uguali delimitate da primo quartile, mediana e terzo quartile. • Una sintesi è quella a 5 punti: – – – – – Q0 = minimo Q1 = primo quartile Q2 = mediana Q3 = terzo quartile Q4 = massimo Elementi di statistica 3 39 Università degli Studi di Trieste – a.a. 2009-2010 • Impianti industriali Seguendo questa logica si costruisce il diagramma a scatola (box-and-whiskers plot o boxplot): 1. si determinano i cinque punti; 2. si disegna una scatola estesa da Q1 (primo quartile) a Q3 (terzo quartile); 3. nella scatola si disegna una linea che indica la mediana; 4. si calcola il campo di variazione (o differenza) interquartile (interquartile range – IQR = Q3 – Q1); Elementi di statistica 3 40 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali 5. si calcolano i limiti (fences) inferiore e superiore FL = Q1 – (1,5 · IQR) FU = Q3 + (1,5 · IQR) 6. i valori inferiori a FL o superiori a FU sono disegnati come punti singoli sul grafico; 7. il valore più alto ma inferiore a FU è detto valore superiore interno, quello più piccolo e superiore a FL è detto valore inferiore interno: si traccia un segmento da Q3 al valore superiore interno e uno da Q1 al valore inferiore interno. Elementi di statistica 3 41 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • I diagrammi a scatola forniscono informazioni visive sulla tendenza centrale, la dispersione e la forma della distribuzione dei dati. 6.5 valore estremo 6 5.5 Values 5 4.5 4 terzo quartile Qui è contenuto il 50% dei valori. mediana 3.5 primo quartile 3 2.5 2 1 Column Number Elementi di statistica 3 42 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali freq. rel. 0,194 0,177 0,290 0,145 0,081 0,016 0,032 0,000 0,032 0,016 0,000 0,016 densità 0,0968 0,0887 0,1452 0,0726 0,0403 0,0081 0,0161 0,0000 0,0161 0,0081 0,0000 0,0081 15 12 10 0 2 5 4 6 10 8 Frequency 14 16 20 18 20 interv. classe freq. assol. 1-<2 12 3-<5 11 5-<7 18 7-<9 9 9-<11 5 11-<13 1 13-<15 2 15-<17 0 17-<19 2 19-<21 1 21-<23 0 23-<25 1 1 3 5 7 9 11 13 15 17 19 21 23 25 PM (g gallone) Elementi di statistica 3 43 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Scarto medio assoluto • Maggiore la dispersione dei dati di un campione, maggiori saranno gli scarti rispetto alla media. • Una misura della dispersione potrebbe essere quindi la somma di tutti questi scarti. • Problema: la somma degli scarti rispetto alla media di un campione di dati è nulla. • Si potrebbe ricorrere agli scarti rispetto ad un’altra misura di posizione. • Considerando la mediana si può sfruttare la proprietà che la somma dei valori assoluti degli scarti sarà minima. Elementi di statistica 3 44 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Più spesso si ricorre ai valori assoluti degli scarti rispetto alla media: in tal modo si supera il problema. • Si abbia un insieme di dati x1, x2, …, xn. Lo scarto medio assoluto (mean absolute deviation) è | xi − x | SM = ∑ n i =1 n (5) • Questo indice è comunque poco usato poiché i valori assoluti sono difficili da trattare algebricamente. • Inoltre questa misura non è facilmente “apprezzabile” intuitivamente. Elementi di statistica 3 45 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Nella statistica non parametrica si utilizza come misura di dispersione lo scarto medio assoluto dalla mediana: | xi − xme | =∑ n i =1 n S me • In base alle proprietà della mediana, Sme è il minimo tra tutti gli scarti medi assoluti. • Solo per distribuzioni di dati simmetriche si ha che SM=Sme Elementi di statistica 3 46 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Varianza • Anziché impiegare i valori assoluti, un modo per rendere positivi i valori degli scarti è quello di elevarli al quadrato. • La media aritmetica dei valori così ricavati può quindi essere determinata. • Nel caso dei dati di una popolazione di N osservazioni con media µ la varianza è: N (6) Elementi di statistica 3 σ2 = 2 ( x − µ ) ∑ i i =1 N 47 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Nel caso si abbia un campione di n casi, la n (6’) s2 = 2 ( x − x ) ∑ i i =1 i= n consente di calcolare la varianza del campione come fosse la popolazione di interesse. • Se però si intende stimare la varianza della popolazione da cui il campione deriva, è necessario utilizzare la seguente relazione: n 2 ( x − x ) ∑ i (7) s 2 = i =1 n −1 Elementi di statistica 3 48 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Si dimostra infatti che la stima della varianza della popolazione fatta con la (6’) è una stima distorta. • Prelevati diversi campioni dalla popolazione e calcolata la varianza per ciascuno, si verifica che i valori ottenuti sistematicamente sottostimano il valore della varianza della popolazione. • La stima attraverso la (7) non è distorta, purché la numerosità della popolazione sia almeno 50 volte superiore alla numerosità dei campioni estratti. Osservazione La media di un campione calcolata con la (1) è una stima non distorta della media della popolazione (µ). Elementi di statistica 3 49 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Deviazione standard • La varianza è espressa nell’unità di misura di x al quadrato. • Per ricavare una misura espressa nelle stesse unità si impiega la deviazione standard o scarto quadratico medio. • Nel caso dei dati di una popolazione di N osservazioni con media µ la dev. std. è: N (8) Elementi di statistica 3 σ= 2 ( x − µ ) ∑ i i =1 N 50 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Per le stesse ragioni esposte precedentemente, la stima non distorta della dev. std. di una popolazione attraverso un campione di numerosità n è n s= (9) 2 ( x − x ) ∑ i i =1 n −1 • Nel caso i dati di una popolazione o di un campione siano raggruppati in classi, la dev. std. è approssimabile dalle (cfr. (2)): Nc (10) σ= Elementi di statistica 3 2 p ( x − µ ) ∑ i i i =1 N Nc (10’) s = 2 p ( x − x ) ∑ i i i =1 n −1 51 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Distribuzione normale • Tra le distribuzioni di frequenze, la distribuzione normale riveste un’importanza centrale. • Essa ha una forma “a campana” ed è simmetrica rispetto all’asse verticale che passa per il vertice (moda). Elementi di statistica 3 f(x) x µ 52 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • La distribuzione normale è una distribuzione teorica che può assumere infiniti valori x (per un infinito numero di osservazioni). • Come avviene per tutte le curve di densità di distribuzione delle frequenze: – l’area compresa tra la curva e l’asse delle ascisse racchiude il 100% delle osservazioni; – la frequenza dei valori compresi tra due valori di ascissa x1 e x2 è pari all’area racchiusa dalla curva e dall’intervallo (x2-x1). • Dalla simmetria della distribuzione deriva che: la media e la mediana coincidono con la moda. Elementi di statistica 3 53 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Proprietà notevole si può determinare la percentuale di valori che cadono tra la media e un valore x generico quando tale distanza è misurata in deviazioni standard. • In particolare, tra la media e 1 deviazione standard sono compresi il 34% circa dei valori della distribuzione. Esempio Una distribuzione normale con media 25 e σ = 3, presenterà il 68% circa delle osservazioni tra i valori 22 e 28. • Anche se i valori x sono infiniti, solo lo 0,27% delle osservazioni assume valori maggiori alla media più 3σ e valori inferiori alla media meno 3σ. Elementi di statistica 3 54 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Variabili standardizzate • Quando si debbano confrontare indici, distribuzioni di eventi, campioni e popolazioni che hanno caratteri diversi o differenti unità di misura, è opportuno utilizzare grandezze omogenee o adimensionali. Coefficiente di variazione • Nel caso di dati disomogenei può risultare utile confrontare i valori di indici che relativizzino la dispersione dei dati rispetto al valore più rappresentativo dell’insieme di dati. Elementi di statistica 3 55 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Poiché lo s.q.m. ha le stesse dimensioni della media, si può introdurre il coefficiente di variazione (adimensionale): s CV (%) = × 100 (11) x • Esso è una misura della variabilità relativa: a parità di s un insieme di dati che presenta una media più bassa avrà un CV maggiore. Elementi di statistica 3 56 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Variabile standardizzata • Nelle analisi di dati, è importante valutare come il valore che un carattere assume in un’osservazione si posiziona rispetto ai valori nelle altre osservazioni. Esempio Sapere che un individuo oi è alto 185 cm non ha un grande significato in termini assoluti. Anche conoscendo la media delle altezze (ad es. 175 cm) l’informazione non migliora di molto. Per valutare di quanto l’altezza di oi è superiore alla media, rispetto agli altri individui, è necessario conoscere la deviazione standard. Elementi di statistica 3 57 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali La “posizione” di oi nel campione è ben diversa se nel campione stesso s = 5 cm o se s = 10 cm. Nel primo caso l’altezza di oi è di 2 dev. std. superiore alla media, nel secondo è superiore solo di 1 dev. std. • Se la distribuzione delle frequenze che descrive la popolazione è normale, è possibile esprimere tali “distanze” in termini di quale percentuale delle osservazioni cade al di sotto o al di sopra di un certo valore. Esempio Nel caso visto se σ = 5cm, l’altezza di oi si pone nel 2,3% circa della popolazione. Elementi di statistica 3 58 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Si rende opportuno sintetizzare in un unico dato sia la deviazione di un valore dalla media dei valori, sia la misura di tale deviazione in deviazioni standard. • Per ottenere questo si impiega la seguente espressione che dà luogo alla variabile standard z: (12) z= xi − µ σ • Si noti che, indipendentemente dal valore della media e della dev. std. della variabile di origine: – la media di z è 0; – la deviazione standard di z è 1. Elementi di statistica 3 59 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali 15,87% -3 Elementi di statistica 3 -2 -1 0 1 2 3 60 Università degli Studi di Trieste – a.a. 2009-2010 Esempio Nel caso precedente: Impianti industriali 185 − 175 =2 z= 5 • Si noti come il dato z=2 contenga più informazioni del dato di origine x=185: il primo riassume sia la media che la dev. std della distribuzione. • La trasformazione nella variabile std. rende possibile valutare la posizione dell’osservazione nel campione. • Quando la distribuzione di origine è normale si ha una informazione più “ricca”: la posizione dell’osservazione nei confronti degli individui della popolazione. • Spesso le popolazioni reali sono con buona approssimazione normali. Elementi di statistica 3 61 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Momenti • Dato un insieme di valori x1, x2, …, xn e un’origine qualsiasi A, il momento di ordine R è definito come: ( xi − A) R mR = ∑ n i =1 n (13) • Si tratta quindi di calcolare la media delle R-esime potenze degli scarti rispetto ad A. • L’origine può essere arbitraria, ma di particolare interesse sono lo 0 e la media. Elementi di statistica 3 62 Università degli Studi di Trieste – a.a. 2009-2010 n • origine 0 mR 0 Impianti industriali R xi =∑ i =1 n • origine x n n • se R=0 1 m00 = ∑ = 1 i =1 n • se R=0 1 m0 x = ∑ = 1 i =1 n • se R=1 xi − x m1 x = ∑ =0 n i =1 n n • se R=1 xi m10 = ∑ = x i =1 n n • se R=2 Elementi di statistica 3 2 xi m20 = ∑ = x2 i =1 n ( xi − x ) R mRx = ∑ n i =1 n ( xi − x ) 2 2 m = = σ • se R=2 2 x ∑ n i =1 n 63 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Si nota che il momento di ordine 0 è sempre 1, qualunque sia l’origine. • Il riferimento è scelto sulla base degli obiettivi dell’analisi. Caso continuo • Se la funzione di densità di probabilità è continua, il momento di ordine R calcolato rispetto ad un’origine arbitraria A è: +∞ (14) Elementi di statistica 3 mR = ∫ ( x − A) f ( x )dx R −∞ 64 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Indici di forma • Le funzioni di distribuzione presentano caratteristiche di forma che le differenziano in misura minore o maggiore dalla normale. • Si possono ricavare degli indici di forma a partire dai momenti precedentemente descritti. • Gli indici più usati sono: – indici di asimmetria; – indici di appiattimento. Elementi di statistica 3 65 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Indici di asimmetria • Una distribuzione si dice simmetrica rispetto ad un asse verticale di ascissa x = x0 se ∀α si ottiene f(x0 + α ) = f ( x0 − α ) • In una distribuzione simmetrica: x0 = moda = mediana = media aritmetica • In una distribuzione simmetrica tutti i momenti di ordine dispari, calcolati rispetto alla media, sono nulli. Elementi di statistica 3 66 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Indice di Pearson (skewness) • Nelle distribuzioni asimmetriche la media aritmetica si sposta, rispetto alla mediana, verso la “coda” più lunga. Mo x Md Elementi di statistica 3 x Md Mo 67 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Si può quindi ricavare un primo indicatore di asimmetria considerando: A = x − xme se A=0 simmetrica, A>0 asimm. a dx, A<0 asimm. a sin. o meglio Sk ' = x − xme σ • Una misura più sensibile è però ottenibile attraverso i momenti del 3°ordine calcolati rispetto alla media. • L’indice, adimensionale, è denominato indice di skewness: Sk = Elementi di statistica 3 m3 x σ 3 68 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali Indice di appiattimento (curtosi) • Le distribuzioni possono essere più o meno appiattite. • Il coefficiente di curtosi (kurtosis) è espresso attraverso i momenti del 4°ordine rispetto alla media: k= m4 x σ4 • La distribuzione normale ha k=3. • Curtosi maggiori di 3 indicano distribuzioni più “appuntite”. • Curtosi minori di 3 indicano distribuzioni più appiattite. Elementi di statistica 3 69 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Esempio Si sono campionati 62 valori di emissione di particolato; utilizzando la funzione “Analisi dati” di Excel, si ottiene: PM Media Errore standard Mediana Moda Deviazione standard Varianza campionaria Curtosi Asimmetria Intervallo Minimo Massimo Somma Conteggio Elementi di statistica 3 6,596 0,574 5,750 6,320 4,519 20,421 3,604 1,748 22,270 1,110 23,380 408,980 62 70 Università degli Studi di Trieste – a.a. 2009-2010 Impianti industriali • Nel caso di R(*), con il comando > summary(nomevariabile) si ottiene: (*) Min. 1st Qu. Median Mean 3rd Qu. Max. 1.110 3.487 5.750 6.596 7.755 23.380 Gli interessati possono fare riferimento a diversi documenti introduttivi, disponibili on-line; si consulti la pagina: http://cran.r-project.org/other-docs.html Elementi di statistica 3 71 Università degli Studi di Trieste – a.a. 2009-2010 Elementi di statistica 3 Impianti industriali 72 Impianti industriali 60 40 20 20 18 0 16 civ. amb. informazione ind. TS ind. PN navale frequenza assoluta studenti 80 100 120 Università degli Studi di Trieste – a.a. 2009-2010 14 12 10 8 6 4 2 0 0 1 2 3 4 5 6 7 8 9 giorni Elementi di statistica 3 73 Università degli Studi di Trieste – a.a. 2009-2010 classi val cent freq freq cum 2,1-2,5 2,3 5 5 2,6-3,0 2,8 6 11 3,1-3,5 3,3 7 18 3,6-4,0 3,8 8 26 4,1-4,5 4,3 10 36 4,6-5,0 4,8 5 41 5,1-5,5 5,3 5 46 5,6-6,0 5,8 4 50 Impianti industriali 12 10 8 6 50 4 2 0 2,3 Elementi di statistica 3 2,8 3,3 3,8 4,3 4,8 5,3 5,8 74