Statistica descrittiva Indici di posizione, variabilità, ecc. Francesco Pauli a.a. 2016/2017 Francesco Pauli Descrittiva a.a. 2016/2017 1 / 70 Misure di posizione Indice 1 Misure di posizione Calcolo delle misure di posizione 2 Variabilità 3 Forma di una distribuzione Francesco Pauli Descrittiva a.a. 2016/2017 2 / 70 Misure di posizione Diagramma a punti (dot plot) Esempio:Ore di studio per settimana. 1 20 40 60 70 Ore di studio settimanali Come descrivereste questa distribuzione? In particolare, intorno a quale valore possiamo dire che è posizionata la distribuzione? In altre parole, dove è il centro della distribuzione? Francesco Pauli Descrittiva a.a. 2016/2017 3 / 70 Misure di posizione “Posizione” della distribuzione La domanda precedente ci chiede di sintetizzare la distribuzione in un unico numero che, in qualche modo, indichi dove la distribuzione stessa è “posizionata”. Si potrebbe dire che la distribuzione è posizionata sul valore che compare più frequentemente. 1 20 40 60 70 Ore di studio settimanali Questo valore è chiamato moda della distribuzione. Francesco Pauli Descrittiva a.a. 2016/2017 4 / 70 Misure di posizione Misure di posizione: la moda La moda di una distribuzione è il valore del supporto cui è associata la più grande frequenza relativa. La moda esprime la modalità più comune. È definita anche per variabili qualitative (lo ricorderemo a tempo debito). Francesco Pauli Descrittiva a.a. 2016/2017 5 / 70 Misure di posizione Misure di posizione (cont) Ma il centro di una distribuzione potrebbe anche essere pensato come quel valore che lascia alla sua destra ed alla sua sinistra esattamente il 50% delle osservazioni. 1 7 12 20 28 70 Francesco Pauli 2 7 13 20 30 2 7 14 20 30 3 8 14 20 30 4 10 15 21 35 5 10 15 24 35 Descrittiva 5 11 18 25 35 5 12 18 25 40 6 12 20 25 42 7 12 20 28 50 a.a. 2016/2017 6 / 70 Misure di posizione Misure di posizione (cont) Ma il centro di una distribuzione potrebbe anche essere pensato come quel valore che lascia alla sua destra ed alla sua sinistra esattamente il 50% delle osservazioni. 1 20 40 60 70 Ore di studio settimanali Francesco Pauli Descrittiva a.a. 2016/2017 6 / 70 Misure di posizione Misure di posizione: la mediana Sia y1 , y2 , · · · , yN una distribuzione statistica disaggregata. Sia y(1) , y(2) , · · · , y(N) la corrispondente distribuzione dei valori ordinati: y(1) = min(y1 , . . . , yN ), y(N) = max(y1 , . . . , yN ); y(1) ≤ y(2) ≤ . . . ≤ y(N) . La mediana, indicata con m, è calcolata come: m= y N+1 ( 2 ) se N dispari y( N2 ) +y( N2 +1) 2 se N pari La mediana è un particolare quantile. Francesco Pauli Descrittiva a.a. 2016/2017 7 / 70 Misure di posizione Quantili Il quantile di livello α, indicato con qα , definito per 0 ≤ α ≤ 1, è quel valore che lascia alla sua sinistra una frazione α% dei dati qα e una frazione (1 − α)% alla sua destra. La mediana, quindi, è il quantile di livello 0.5, cioè m = q0.5 . Tra i quantili diversi dalla mediana, q0.25 e q0.75 sono i più usati, perché basati su una divisione in quarti del campione. Sono chiamati primo quartile e terzo quartile, rispettivamente (la mediana è, di fatto, il secondo quartile). Francesco Pauli Descrittiva a.a. 2016/2017 8 / 70 Misure di posizione Esempio: altezza Si calcolino q0.25 , m e q0.75 per la variabile altezza. • Partiamo dai dati grezzi. 180 176 187 178 175 173 173 181 182 180 160 164 170 168 185 188 175 183 160 174 180 176 NA 176 Francesco Pauli 172 180 166 180 178 185 173 186 184 164 175 170 190 183 177 170 187 181 180 170 176 165 185 175 184 Descrittiva 183 190 170 182 173 a.a. 2016/2017 9 / 70 Misure di posizione Esempio: altezza Ordinando i valori in senso crescente, abbiamo 160 170 175 180 183 188 160 170 175 180 183 190 164 172 176 180 184 190 164 173 176 180 184 165 173 176 180 185 166 173 176 181 185 168 173 177 181 185 170 174 178 182 186 170 175 178 182 187 170 175 180 183 187 • Francesco Pauli Descrittiva a.a. 2016/2017 10 / 70 Misure di posizione Esempio: altezza Ordinando i valori in senso crescente, abbiamo 160 170 175 180 183 188 160 170 175 180 183 190 164 172 176 180 184 190 164 173 176 180 184 165 173 176 180 185 166 173 176 181 185 168 173 177 181 185 170 174 178 182 186 170 175 178 182 187 170 175 180 183 187 Abbiamo N = 53. Quindi m = y(27) = 177. • Francesco Pauli Descrittiva a.a. 2016/2017 10 / 70 Misure di posizione Esempio: altezza Ordinando i valori in senso crescente, abbiamo 160 170 175 180 183 188 160 170 175 180 183 190 164 172 176 180 184 190 164 173 176 180 184 165 173 176 180 185 166 173 176 181 185 168 173 177 181 185 170 174 178 182 186 170 175 178 182 187 170 175 180 183 187 Abbiamo N = 53. Quindi m = y(27) = 177. • q0.25 è di fatto la mediana di y(1) , y(2) , · · · , y(27) cioè è y(14) = 173. Francesco Pauli Descrittiva a.a. 2016/2017 10 / 70 Misure di posizione Ancora sui diagrammi a punti A volte, invece che mettere i punti uno sopra l’altro (Stacked dot plot), si usano i colori per evidenziare le zone dove si concentrano più osservazioni, stabilendo ovviamente una legenda per l’interpretazione del colore. Per esempio, decidendo che colori via via più scuri rappresentano frequenze via via più elevate di osservazioni, otteniamo la seguente rappresentazione degli stessi dati. 0 10 20 30 40 50 60 70 Ore di studio settimanali Convinciamoci che la lettura del grafico non cambia. Francesco Pauli Descrittiva a.a. 2016/2017 11 / 70 Misure di posizione Misure di posizione (cont) Ad occhio, su questo grafico, verrebbe da dire che il centro è: 0 10 20 30 40 50 60 70 Ore di studio settimanali Francesco Pauli Descrittiva a.a. 2016/2017 12 / 70 Misure di posizione Misure di posizione (cont) Ad occhio, su questo grafico, verrebbe da dire che il centro è: 0 10 20 30 40 50 60 70 Ore di studio settimanali Il valore evidenziato è il valore 18.58. Non è un valore tanto ad occhio... in realtà, è la media aritmetica dei nostri dati. Francesco Pauli Descrittiva a.a. 2016/2017 12 / 70 Misure di posizione Misure di posizione: la media aritmetica La media aritmetica, indicata con ȳ , è calcolata come: N y1 + y2 + · · · + yN 1 X ȳ = = yi , N N i=1 dove (y1 , y2 , · · · , yN ) rappresenta il campione di N valori osservati per Y. Esistono altri tipi di “medie”. Quella aritmetica è senza dubbio quella di utilizzo più comune. Per questo motivo, viene comunemente indicata come “la media” senza nessuna ulteriore aggettivazione. Francesco Pauli Descrittiva a.a. 2016/2017 13 / 70 Misure di posizione Esempio: altezze Si calcoli la media delle altezze. Partiamo dai dati grezzi. 180 176 187 178 175 173 173 181 182 180 160 164 170 168 185 188 175 183 160 174 180 176 NA 176 Francesco Pauli 172 180 166 180 178 185 173 186 184 164 175 170 190 183 177 170 187 181 180 170 176 165 185 175 184 Descrittiva 183 190 170 182 173 a.a. 2016/2017 14 / 70 Misure di posizione Esempio: altezze Si calcoli la media delle altezze. Partiamo dai dati grezzi. 180 176 187 178 175 173 173 181 182 180 160 164 170 168 185 188 175 183 160 174 180 176 NA 176 172 180 166 180 178 185 173 186 184 164 175 170 190 183 177 170 187 181 180 170 176 165 185 175 184 183 190 170 182 173 Abbiamo N = 53 (escludiamo il valore mancante). Quindi: N N 1 X 1 X 9378 yi = y(i) = = 177. N N 53 i=1 Francesco Pauli i=1 Descrittiva a.a. 2016/2017 14 / 70 Misure di posizione Riassumendo La moda, mediana e la media aritmetica sono tutte misure di posizione. Se lavoriamo sull’intera popolazione (abbiamo cioè un censimento), le misure vengono chiamate di popolazione (è tradizione indicarle con simboli diversi, spesso lettere greche). Come abbiamo detto, è raro lavorare con l’intera popolazione. Se lavoriamo con un campione, come è quasi sempre il caso, le misure vengono dette campionarie. Se il campione è rappresentativo, in generale le misure campionarie sono buone “indicazioni” delle misure calcolate sulla intera popolazione. Francesco Pauli Descrittiva a.a. 2016/2017 15 / 70 Misure di posizione NB: misure marginali e condizionate Le misure di posizione per variabili condizionate vengono, per semplicità, etichettate come misure di posizione condizionate, per distinguerle dalle misure di posizione calcolate sulla variabile non condizionata, ovvero marginale. Esempio: altezze Sia Y l’altezza e X il genere (con valori M e F ). Possiamo calcolare misure di posizione dell’altezza condizionata al genere e misure marginali Mediana di Y |X = M −→ Media di Y |X = M −→ Mediana di Y |X = F −→ Media di Y |X = F −→ Mediana di Y −→ Media di Y −→ Francesco Pauli 180.5 (mediana condizionata) 180.1 (media condizionata) 172 (mediana condizionata) 171.2 (media condizionata) 177 (mediana marginale) 176.9 (media marginale) Descrittiva a.a. 2016/2017 16 / 70 Misure di posizione Calcolo delle misure di posizione Indice 1 Misure di posizione Calcolo delle misure di posizione 2 Variabilità 3 Forma di una distribuzione Francesco Pauli Descrittiva a.a. 2016/2017 17 / 70 Misure di posizione Calcolo delle misure di posizione Qualche formula Fino ad ora, abbiamo introdotto alcune formule per il calcolo delle misure di posizione, immaginando di avere a disposizione i dati grezzi (ovvero la distribuzione statistica disaggregata). • A volte, anche partendo dai dati grezzi, possono esserci delle ambiguità nel calcolo delle misure (o indicatori). Più in generale, i dati possono essere forniti in forma aggregata. • Ora vedremo cosa fare in questi casi. Francesco Pauli Descrittiva a.a. 2016/2017 18 / 70 Misure di posizione Calcolo delle misure di posizione Mediana: distribuzione di frequenza per classi Supponiamo di avere la seguente distribuzione di frequenza: frequenze assolute (0, 1] 1 (1, 2] 4 (2, 3] 4 (3, 4] 2 (4, 5] 1 I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a osservazione dal basso. Risposte possibili. Francesco Pauli Descrittiva a.a. 2016/2017 19 / 70 Misure di posizione Calcolo delle misure di posizione Mediana: distribuzione di frequenza per classi Supponiamo di avere la seguente distribuzione di frequenza: frequenze assolute (0, 1] 1 (1, 2] 4 (2, 3] 4 (3, 4] 2 (4, 5] 1 I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a osservazione dal basso. Risposte possibili. m ∈ (2, 3]. Francesco Pauli Descrittiva a.a. 2016/2017 19 / 70 Misure di posizione Calcolo delle misure di posizione Mediana: distribuzione di frequenza per classi Supponiamo di avere la seguente distribuzione di frequenza: frequenze assolute (0, 1] 1 (1, 2] 4 (2, 3] 4 (3, 4] 2 (4, 5] 1 I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a osservazione dal basso. Risposte possibili. m ∈ (2, 3]. Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso. Francesco Pauli Descrittiva a.a. 2016/2017 19 / 70 Misure di posizione Calcolo delle misure di posizione Mediana: distribuzione di frequenza per classi Supponiamo di avere la seguente distribuzione di frequenza: frequenze assolute (0, 1] 1 (1, 2] 4 (2, 3] 4 (3, 4] 2 (4, 5] 1 I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a osservazione dal basso. Risposte possibili. m ∈ (2, 3]. Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso. Sia alora y(6) = 2.25, y(7) = 2.50, y(8) = 2.75, y(9) = 3.00 −→ m = 2,25+2,50 = 2.375 2 Francesco Pauli Descrittiva a.a. 2016/2017 19 / 70 Misure di posizione Calcolo delle misure di posizione Mediana: distribuzione di frequenza per classi Supponiamo di avere la seguente distribuzione di frequenza: frequenze assolute (0, 1] 1 (1, 2] 4 (2, 3] 4 (3, 4] 2 (4, 5] 1 I dati sono 12. La mediana dovrebbe essere scelta tra la 6a e la 7a osservazione dal basso. Risposte possibili. m ∈ (2, 3]. Supponiamo (arbitrariamente) che i quattro dati appartenenti al terzo intervallo siano equidistribuiti. Sotto questa assunzione, la mediana è la media dei valori attribuiti alla 6◦ e alla 7◦ osservazione dal basso. Sia alora y(6) = 2.25, y(7) = 2.50, y(8) = 2.75, y(9) = 3.00 −→ m = 2,25+2,50 = 2.375 2 y(6) = 2.20, y(7) = 2.40, y(8) = 2.60, y(9) = 2.80 −→ m = 2,20+2,40 = 2.30 2 Francesco Pauli Descrittiva a.a. 2016/2017 19 / 70 Misure di posizione Calcolo delle misure di posizione Media: distribuzione di frequenza per classi Supponiamo di avere a disposizione una distribuzione di frequenza per classi del tipo intervalli frequenze assolute (c0 , c1 ] n1 (c1 , c2 ] n2 ··· ··· (ck−1 , ck ] nk dove k indica il numero delle classi. La media non può essere calcolata esattamente. Francesco Pauli Descrittiva a.a. 2016/2017 20 / 70 Misure di posizione Calcolo delle misure di posizione Media: distribuzione di frequenza per classi Supponiamo di avere a disposizione una distribuzione di frequenza per classi del tipo intervalli frequenze assolute (c0 , c1 ] n1 (c1 , c2 ] n2 ··· ··· (ck−1 , ck ] nk dove k indica il numero delle classi. La media non può essere calcolata esattamente. Un’approssimazione spesso usata in questi casi è Pk k 1 X i=1 yi ni = yi ni k N X i=1 ni i=1 dove yi è il punto centrale della classe i-sima, ovvero ci−1 + ci yi = 2 Francesco Pauli Descrittiva a.a. 2016/2017 20 / 70 Misure di posizione Calcolo delle misure di posizione Esempio: dataset babies peso (2400, 2600] (2600, 2800] (2800, 3000] (3000, 3200] (3200, 3400] (3400, 3600] ȳ = frequenza assoluta 5 5 5 6 5 6 2500 × 5 + 2700 × 5 + 2900 × 5 + 3100 × 6 + 3300 × 5 + 3500 × 6 = 3018.75. 32 La media calcolata a partire dai dati grezzi è ȳ = 3019.875. Francesco Pauli Descrittiva a.a. 2016/2017 21 / 70 Misure di posizione Calcolo delle misure di posizione Importante: media aritmetica ponderata La media aritmetica calcolata per dati raggruppati è un esempio di media aritmetica ponderata k X yi wi ȳw = i=1 k X wi i=1 dove ad ogni modalità yi è assegnato un peso non negativo wi . Francesco Pauli Descrittiva a.a. 2016/2017 22 / 70 Misure di posizione Calcolo delle misure di posizione Media marginale e medie condizionate Possiamo calcolare una media marginale a partire dalle medie condizionate. Francesco Pauli Descrittiva a.a. 2016/2017 23 / 70 Misure di posizione Calcolo delle misure di posizione Media marginale e medie condizionate Possiamo calcolare una media marginale a partire dalle medie condizionate. Supponiamo di avere N unità statistiche suddivise in L gruppi, secondo le modalità x1 , . . . xL di una variabile X . Siano Nj , j = 1, . . . , L, il numero di osservazioni per ogni gruppo. Ovviamente, N= L X Nj . j=1 Francesco Pauli Descrittiva a.a. 2016/2017 23 / 70 Misure di posizione Calcolo delle misure di posizione Media marginale e medie condizionate Possiamo calcolare una media marginale a partire dalle medie condizionate. Supponiamo di avere N unità statistiche suddivise in L gruppi, secondo le modalità x1 , . . . xL di una variabile X . Siano Nj , j = 1, . . . , L, il numero di osservazioni per ogni gruppo. Ovviamente, N= L X Nj . j=1 Indichiamo poi con yi,j l’osservazione i-sima appartenente al gruppo j, i = 1, . . . , Nj , j = 1, . . . , L. Francesco Pauli Descrittiva a.a. 2016/2017 23 / 70 Misure di posizione Calcolo delle misure di posizione Esempio: dataset cholesterol Y −→ livello di fosfato inorganico (mg/dl) nel plasma X −→ tipo di paziente, con modalità x1 =OI, x3 =ON, x3 =C Francesco Pauli Y |X = x1 2.3 4.1 4.2 4.0 4.6 4.6 3.8 5.2 3.1 3.7 3.8 Y |X = x2 3.0 4.1 3.9 3.1 3.3 2.9 3.3 3.9 N1 = 11 N2 = 8 Descrittiva Y |X = x3 3.0 2.6 3.1 2.2 2.1 2.4 2.8 3.4 2.9 2.6 3.1 3.2 N3 = 12 a.a. 2016/2017 24 / 70 Misure di posizione Calcolo delle misure di posizione Esempio: dataset cholesterol Y −→ livello di fosfato inorganico (mg/dl) nel plasma X −→ tipo di paziente, con modalità x1 =OI, x3 =ON, x3 =C Y |X = x1 2.3 4.1 4.2 4.0 4.6 4.6 3.8 5.2 3.1 3.7 3.8 Y |X = x2 3.0 4.1 3.9 3.1 3.3 2.9 3.3 3.9 N1 = 11 N2 = 8 Y |X = x3 3.0 2.6 3.1 2.2 2.1 2.4 2.8 3.4 2.9 2.6 3.1 3.2 N3 = 12 Abbiamo L = 3 e N = 31. Francesco Pauli Descrittiva a.a. 2016/2017 24 / 70 Misure di posizione Calcolo delle misure di posizione Esempio: dataset cholesterol (cont) Y |X = x1 2.3 4.1 4.2 4.0 4.6 4.6 3.8 5.2 3.1 3.7 3.8 Y |X = x2 3.0 4.1 3.9 3.1 3.3 2.9 3.3 3.9 Francesco Pauli Y |X = x3 3.0 2.6 3.1 2.2 2.1 2.4 2.8 3.4 2.9 2.6 3.1 3.2 Descrittiva Y |X = x1 y1,1 y2,1 y3,1 y4,1 y5,1 y6,1 y7,1 y8,1 y9,1 y10,1 y11,1 Y |X = x2 y1,2 y2,2 y3,2 y4,2 y5,2 y6,2 y7,2 y8,2 Y |X = x3 y1,3 y2,3 y3,3 y4,3 y5,3 y6,3 y7,3 y8,3 y9,3 y10,3 y11,3 y12,3 a.a. 2016/2017 25 / 70 Misure di posizione Calcolo delle misure di posizione Media marginale e medie condizionate (cont) Per ogni gruppo j possiamo calcolare la media condizionata yj = Nj 1 X yi,j . Nj i=1 Esempio: dataset cholesterol Y |X = x1 3,945455 Y |X = x2 3,4375 Y |X = x1 y1 Y |X = x3 2,808333 NB. Si noti che Nj y j = Nj X Y |X = x2 y2 Y |X = x3 y3 yi,j . i=1 Francesco Pauli Descrittiva a.a. 2016/2017 26 / 70 Misure di posizione Calcolo delle misure di posizione Media marginale e medie condizionate (cont) La media marginale, ossia la media di tutte le osservazioni (senza riferimento al gruppo di appartenenza) è L Nj 1 XX yi,j . y= N j=1 i=1 È immediato dimostrare che la media marginale è la media delle medie condizionate, pesata con la numerosità dei gruppi. Infatti: Ni L Nj L 1 XX 1 X X y= yi,j yi,j = N N j=1 i=1 Francesco Pauli j=1 Descrittiva i=1 ! = L 1 X Nj y j N j=1 a.a. 2016/2017 27 / 70 Variabilità Indice 1 Misure di posizione 2 Variabilità Calcolo delle misure di variabilità 3 Forma di una distribuzione Francesco Pauli Descrittiva a.a. 2016/2017 28 / 70 Variabilità Guardando oltre al centro della distribuzione Ci interessa avere anche un’idea di quanto diversi siano i valori assunti dalla variabile, ossia ci interessa avere una idea della variabilità del carattere. Francesco Pauli Descrittiva a.a. 2016/2017 29 / 70 Variabilità Guardando oltre al centro della distribuzione Ci interessa avere anche un’idea di quanto diversi siano i valori assunti dalla variabile, ossia ci interessa avere una idea della variabilità del carattere. Per farlo, possiamo vedere come si muovono le osservazioni intorno al centro della distribuzione. Francesco Pauli Descrittiva a.a. 2016/2017 29 / 70 Variabilità Guardando oltre al centro della distribuzione Ci interessa avere anche un’idea di quanto diversi siano i valori assunti dalla variabile, ossia ci interessa avere una idea della variabilità del carattere. Per farlo, possiamo vedere come si muovono le osservazioni intorno al centro della distribuzione. E per fare ciò, possiamo usare l’idea di “distanza”. Francesco Pauli Descrittiva a.a. 2016/2017 29 / 70 Variabilità Esempio: assenza di variabilità Se non c’è variabilità, tutte le unità statistiche mostrano la stessa modalità del carattere. 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 1.1 Abbiamo y(1) = 1.1 y(N) = 1.1 q0.25 = 1.1 m = 1.1 q0.75 = 1.1 Misurando distanze dal centro della distribuzione, possiamo costruire indicatori che valgono 0 in assenza di variabilità. |yi − m| = |yi − yj | = 0, i, j = 1, . . . , N, y(N) − m = m − y(1) = 0, q0.75 − m = m − q0.25 = 0. Francesco Pauli Descrittiva a.a. 2016/2017 30 / 70 Variabilità Indici elementari di variabilità y(N) − y(1) è il campo di variazione (range). q0.75 − q0.25 è la distanza interquartilica (IQR). Francesco Pauli Descrittiva a.a. 2016/2017 31 / 70 Variabilità Indici elementari di variabilità y(N) − y(1) è il campo di variazione (range). q0.75 − q0.25 è la distanza interquartilica (IQR). Ovviamente, in presenza di variabilità, sia il campo di variazione che la distanza interquartilica assumono un valore maggiore di zero. E, in presenza di variabilità, possiamo cercare di rappresentare come variano le modalità. Francesco Pauli Descrittiva a.a. 2016/2017 31 / 70 Variabilità Diagramma a scatola con baffi (box and whiskers plot) Fornisce una idea schematica di un insieme di dati (di una distribuzione) basata sui quartili. Francesco Pauli Descrittiva a.a. 2016/2017 32 / 70 Variabilità Diagramma a scatola con baffi (box and whiskers plot) Fornisce una idea schematica di un insieme di dati (di una distribuzione) basata sui quartili. Sono costituiti, come dice il nome, da una scatola e da due baffi costruiti in accordo al disegno sottostante. max (y1, …, yn) 3° quartile mediana 1° quartile min (y1, …, yn) Francesco Pauli Descrittiva a.a. 2016/2017 32 / 70 Variabilità Boxplot (cont) Una variante del diagramma usata frequentemente può essere costruita come segue: 1 la scatola è costruita come descritto precedentemente a partire dai tre quartili. 2 i baffi si estendono fino ai dati più lontani che siano però non più distanti di cost × (scarto interquartile) dalla scatola (non accettiamo baffi esageratamente lunghi). 3 cost è una costante arbitraria, tipicamente scelta uguale a 1.5. 4 Le osservazioni che sono oltre i baffi sono disegnate opportunamente sul grafico (ad. esempio utilizzando un pallino). Francesco Pauli Descrittiva a.a. 2016/2017 33 / 70 Variabilità Esercizio: costruzione di un boxplot Dati (già ordinati): 1.1 1.3 1.4 1.6 1.8 1.9 2.0 2.5 2.9 3.2 4.1 5.6 Perciò q0.25 = 1.5, m = 1.95, q0.75 = 3.05, 1, 5 × (q0.75 − q0.25 ) = 1.5 × 1.55 = 2.325. 1 scatola: da 1.5 a 3.05 con la mediana indicata da una linea a 1.95; 2 baffo inferiore: fino all’osservazione più bassa tra quelle maggiori di q0.25 − 2.325 = −0.825, ovvero fino a 1.1; 3 baffo superiore: fino all’osservazione più alta tra quelle minori di q0.75 + 2.325 = 5.375, ovvero fino a 4.1; 4 sono da disegnare esplicitamente nel diagramma le osservazioni più piccole di 1.1 o più grandi di 4.375; in questo caso solamente l’osservazione risultata uguale a 5.6. Francesco Pauli Descrittiva a.a. 2016/2017 34 / 70 Variabilità 1 2 3 4 5 Diagramma a scatola con baffi (esempio precedente) Francesco Pauli Descrittiva a.a. 2016/2017 35 / 70 Variabilità Diagrammi a scatola con baffi: ore di studio settimanali 1 7 12 20 28 70 Francesco Pauli 2 7 13 20 30 2 7 14 20 30 3 8 14 20 30 4 10 15 21 35 5 10 15 24 35 Descrittiva 5 11 18 25 35 5 12 18 25 40 6 12 20 25 42 7 12 20 28 50 a.a. 2016/2017 36 / 70 Variabilità Diagrammi a scatola con baffi: ore di studio settimanali 1 7 12 20 28 70 2 7 13 20 30 0 2 7 14 20 30 10 3 8 14 20 30 20 4 10 15 21 35 5 10 15 24 35 30 5 11 18 25 35 40 5 12 18 25 40 50 6 12 20 25 42 60 7 12 20 28 50 70 Ore di studio settimanali Francesco Pauli Descrittiva a.a. 2016/2017 36 / 70 Variabilità Box plot: anche per variabili condizionate Esempio: altezze. Altezze di maschi e femmine Maschio Femmina 160 165 170 175 180 185 190 Come descrivereste queste distribuzioni condizionate? Francesco Pauli Descrittiva a.a. 2016/2017 37 / 70 Variabilità Ancora sulla variabilità Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Francesco Pauli Descrittiva a.a. 2016/2017 38 / 70 Variabilità Ancora sulla variabilità Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Proviamo a utilizzare la media per caratterizzare il centro della distribuzione. Francesco Pauli Descrittiva a.a. 2016/2017 38 / 70 Variabilità Ancora sulla variabilità Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Proviamo a utilizzare la media per caratterizzare il centro della distribuzione. Siano y = (y1 , . . . , yN ) i dati P osservati, N il loro numero e y la loro media aritmetica, ovvero y = N1 N i=1 yi . • La distanza di ogni osservazione yi dalla media y , il cosidetto scarto dalla media, può essere misurata cosı̀: |yi − y |. Francesco Pauli Descrittiva a.a. 2016/2017 38 / 70 Variabilità Ancora sulla variabilità Abbiamo detto che per misurare la variabilità, possiamo utilizzare la “distanza” delle osservazioni dal centro della distribuzione. Proviamo a utilizzare la media per caratterizzare il centro della distribuzione. Siano y = (y1 , . . . , yN ) i dati P osservati, N il loro numero e y la loro media aritmetica, ovvero y = N1 N i=1 yi . • La distanza di ogni osservazione yi dalla media y , il cosidetto scarto dalla media, può essere misurata cosı̀: |yi − y |. Perché abbiamo bisogno del valore assoluto? Francesco Pauli Descrittiva a.a. 2016/2017 38 / 70 Variabilità Ancora sulla variabilità (cont) È ancora meglio se consideriamo lo scarto al quadrato: (yi − y )2 . Perché il quadrato? Francesco Pauli Descrittiva a.a. 2016/2017 39 / 70 Variabilità Ancora sulla variabilità (cont) È ancora meglio se consideriamo lo scarto al quadrato: (yi − y )2 . Perché il quadrato? Perché il quadrato “amplifica” le distanze grandi e “attenua” quelle piccole. Esempio: 102 = 100, 0.12 = 0.01. Francesco Pauli Descrittiva a.a. 2016/2017 39 / 70 Variabilità Ancora sulla variabilità (cont) È ancora meglio se consideriamo lo scarto al quadrato: (yi − y )2 . Perché il quadrato? Perché il quadrato “amplifica” le distanze grandi e “attenua” quelle piccole. Esempio: 102 = 100, 0.12 = 0.01. • Quindi, per costruire un indice di variabilità, possiamo costruire queste N quantità (per i = 1, . . . , N) e farne una media. Francesco Pauli Descrittiva a.a. 2016/2017 39 / 70 Variabilità Varianza La varianza è la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica. PN (yi − ȳ )2 2 σ = i=1 N Francesco Pauli Descrittiva a.a. 2016/2017 40 / 70 Variabilità Varianza La varianza è la media dei quadrati degli scarti di ogni osservazione dalla media aritmetica. PN (yi − ȳ )2 2 σ = i=1 N Esempio: ore di studio per settimana La media è ȳ = 18.58 . La varianza è calcolata come: σ2 = (2 − 18.58)2 + (30 − 18.58)2 + · · · + (42 − 18.58)2 = 183.12 51 Francesco Pauli Descrittiva a.a. 2016/2017 40 / 70 Variabilità Deviazione standard La deviazione standard è la radice quadrata della varianza ed è espressa nella stessa unità di misura del carattere. √ σ = σ2 • La deviazione standard per le ore di studio/settimana degli studenti si calcola come: √ σ = 183.12 = 13.53 Francesco Pauli Descrittiva a.a. 2016/2017 41 / 70 Variabilità Devianza La deviazione standard non deve essere confusa con la devianza, che è la quantità al numeratore della varianza. N X (yi − ȳ )2 i=1 La devianza rappresenta quindi la somma dei quadrati degli scarti delle osservazioni dalla propria media. Francesco Pauli Descrittiva a.a. 2016/2017 42 / 70 Variabilità Varianza campionaria corretta Quando si lavora con un campione, si utilizza spesso la varianza campionaria corretta, che differisce dalla varianza campionaria solo per il denominatore. PN (yi − ȳ )2 2 s = i=1 N −1 La ragione della modifica del denominatore è legata a proprietà teoriche di s 2 che la rendono una misura di variabilità più comoda quando farete inferenza. Francesco Pauli Descrittiva a.a. 2016/2017 43 / 70 Variabilità Calcolo delle misure di variabilità Indice 1 Misure di posizione 2 Variabilità Calcolo delle misure di variabilità 3 Forma di una distribuzione Francesco Pauli Descrittiva a.a. 2016/2017 44 / 70 Variabilità Calcolo delle misure di variabilità Qualche formula Fino ad ora, abbiamo introdotto alcune formule per il calcolo delle misure di scala, immaginando di avere a disposizione i dati grezzi (ovvero riferiti alle singole unità statistiche). • A volte, anche partendo dai dati grezzi, possono esserci delle ambiguità nel calcolo degli indicatori. Più in generale, i dati possono essere forniti in forma aggregata. • Ora vedremo cosa fare in questi casi. Francesco Pauli Descrittiva a.a. 2016/2017 45 / 70 Variabilità Calcolo delle misure di variabilità Varianza: una formula operativa Si osservi che σ2 = N 1 X (yi − y )2 = N i=1 = = = Francesco Pauli N 1X N 1 N 1 N i=1 N X i=1 N X N yi2 + i=1 yi2 + N 1X 2 1X y − 2y yi = N N Ny 2 2y − N N i=1 N X yi = i=1 yi2 + y 2 − 2y 2 i=1 Descrittiva a.a. 2016/2017 46 / 70 Variabilità Calcolo delle misure di variabilità Varianza: una formula operativa (cont) Quindi, possiamo scrivere σ2 = N 1 X 2 yi N ! − y2 i=1 ovvero (varianza) = Francesco Pauli media dei quadrati Descrittiva − quadrato della media . a.a. 2016/2017 47 / 70 Variabilità Calcolo delle misure di variabilità Formula operativa: esempio di utilizzo dati: 1, 3, 2, 5. 2 + 5 = 2.75. media: 1 + 3 + 4 2 2 22 + 52 = 9.75. media dei quadrati: 1 + 3 + 4 varianza: 9.75 − 2.752 = 2.19. Francesco Pauli Descrittiva a.a. 2016/2017 48 / 70 Variabilità Calcolo delle misure di variabilità Varianza: distribuzione di frequenza per classi Supponiamo di avere a disposizione una distribuzione di frequenza per classi del tipo intervalli frequenze assolute [c0 , c1 ) n1 [c1 , c2 ) n2 ··· ··· [ck−1 , ck ) nk dove k indica il numero degli intervalli. Francesco Pauli Descrittiva a.a. 2016/2017 49 / 70 Variabilità Calcolo delle misure di variabilità Varianza: distribuzione di frequenza per classi Supponiamo di avere a disposizione una distribuzione di frequenza per classi del tipo intervalli frequenze assolute [c0 , c1 ) n1 [c1 , c2 ) n2 ··· ··· [ck−1 , ck ) nk dove k indica il numero degli intervalli. • Per il calcolo della varianza, possiamo fare ricorso alla formula operativa utilizzando la stessa strategia adottata per il calcolo della media da distribuzioni di frequenza, ovvero utilizzando il punto centrale di ogni classe per rappresentare i valori della classe stessa. Francesco Pauli Descrittiva a.a. 2016/2017 49 / 70 Variabilità Calcolo delle misure di variabilità Esempio: altezze altezza (160,170] (170,175] (175,180] (180,190] frequenza assoluta 10 10 13 18 ȳ = (10 × 165 + 10 × 172.5 + 13 × 177.5 + 18 × 185)/51 = 176.72 N 1 X 2 yi = (10 × 1652 + 10 × 172.52 + 13 × 177.52 + 18 × 1852 )/51 = 31283.21 N i=1 σ 2 = 31283.21 − 176.722 = 53.25 σ = 7.30 Francesco Pauli Descrittiva a.a. 2016/2017 50 / 70 Variabilità Calcolo delle misure di variabilità Varianza marginale e varianze condizionate Riprendiamo le nostre N unità statistiche suddivise in L gruppi, secondo le L modalità di una variabile X (v. dataset cholesterol). La varianza marginale, ossia la varianza di tutte le osservazioni (senza riferimento al gruppo di appartenenza) è L Nj 1 XX σ = (yi,j − y )2 N 2 j=1 i=1 Per ogni gruppo definito dalle L modalità di X , possiamo calcolare la varianza condizionata σj2 Nj 1 X = (yi,j − y j )2 . Nj i=1 Francesco Pauli Descrittiva a.a. 2016/2017 51 / 70 Variabilità Calcolo delle misure di variabilità Varianza marginale e varianze condizionate (cont) Si dimostra che L L 1 X 1 X 2 Nj σ j + Nj (y j − y )2 σ = N N 2 j=1 j=1 Il primo addendo sul lato destro della formula è la media delle varianze condizionate σj2 pesate con Nj , detta varianza entro i gruppi. Il secondo addendo è la varianza delle medie condizionate, anche queste pesate con Nj , detta varianza tra i gruppi. Francesco Pauli Descrittiva a.a. 2016/2017 52 / 70 Variabilità Calcolo delle misure di variabilità Varianza marginale e varianze condizionate (cont) Si dimostra che L L 1 X 1 X 2 Nj σ j + Nj (y j − y )2 σ = N N 2 j=1 j=1 Il primo addendo sul lato destro della formula è la media delle varianze condizionate σj2 pesate con Nj , detta varianza entro i gruppi. Il secondo addendo è la varianza delle medie condizionate, anche queste pesate con Nj , detta varianza tra i gruppi. Questa è chiamata scomposizione della varianza. Francesco Pauli Descrittiva a.a. 2016/2017 52 / 70 Variabilità Calcolo delle misure di variabilità Scomposizione della varianza: dimostrazione σ2 = Nj L 1 XX (yi,j − y )2 = N j=1 i=1 = Nj L 1 XX [(yi,j − y j ) + (y j − y )]2 = N j=1 i=1 = Nj L 1 XX [(yi,j − y j )2 + (y j − y )2 + 2(yi,j − y j )(y j − y )] = N j=1 i=1 = Nj L L 1 X 1 XX (yi,j − y j )2 + Nj (y j − y )2 + N j=1 i=1 N j=1 + = Francesco Pauli Nj L X 2 X (yi,j − y j ) = (y j − y ) N j=1 i=1 L L 1 X 1 X Nj σj2 + Nj (y j − y )2 . N j=1 N j=1 Descrittiva a.a. 2016/2017 53 / 70 Forma di una distribuzione Indice 1 Misure di posizione 2 Variabilità 3 Forma di una distribuzione Francesco Pauli Descrittiva a.a. 2016/2017 54 / 70 Forma di una distribuzione Forma di una distribuzione: numero di mode Francesco Pauli Descrittiva Frequency Frequency Frequency Quanti picchi mostra l’istogramma: uno (distribuzione unimodale), molti (distribuzione bimodale/multimodale), o nessuno (distribuzione uniforme)? a.a. 2016/2017 55 / 70 Forma di una distribuzione Forma di una distribuzione: numero di mode Quanti picchi mostra l’istogramma: uno (distribuzione unimodale), molti (distribuzione bimodale/multimodale), o nessuno (distribuzione uniforme)? unimodale Francesco Pauli uniforme bimodale multimodale Descrittiva a.a. 2016/2017 55 / 70 Forma di una distribuzione Forma della distribuzione: simmetria Frequency Frequency L’istogramma è asimmetrico a destra, asimmetrico a sinistra, o simmetrico? La direzione (destra/sinistra) della asimmetria è data dalla posizione della coda più lunga. Francesco Pauli Descrittiva a.a. 2016/2017 56 / 70 Forma di una distribuzione Forma della distribuzione: simmetria L’istogramma è asimmetrico a destra, asimmetrico a sinistra, o simmetrico? asimmetria a destra asimmetria a sinistra simmetria La direzione (destra/sinistra) della asimmetria è data dalla posizione della coda più lunga. Francesco Pauli Descrittiva a.a. 2016/2017 56 / 70 Forma di una distribuzione Simmetria: media vs. mediana Se la distribuzione è simmetrica Se la distribuzione è asimmetrica a destra (positiva): Se la distribuzione è asimmetrica a sinistra (negativa): media ≈ mediana media > mediana media < mediana Francesco Pauli Descrittiva a.a. 2016/2017 57 / 70 Forma di una distribuzione Indice di asimmetria di K. Pearson La misura di asimmetria di uso più comune è il cosidetto indice di asimmetria standardizzato, introdotto da K. Pearson e definito come N 1 X P= (yi − y )3 = Nσ 3 i=1 PN 3 i=1 (yi −y ) N σ3 . Interpretazione. esatta simmetria intorno alla media: i termini positivi e negativi nella sommatoria si compenseranno tra di loro e quindi l’indice sarà nullo; asimmetria positiva: i termini positivi predomineranno e quindi l’indice assumerà valori positivi; asimmetria negativa: i termini negativi predomineranno e quindi l’indice assumerà valori negativi. Francesco Pauli Descrittiva a.a. 2016/2017 58 / 70 Forma di una distribuzione Curtosi −4 −2 0 2 4 6 Possiamo infine dare una misura del “peso” delle code e dell’“appuntimento” di una distribuzione, caratteristiche descritte con il termine curtosi. Può essere infatti che distribuzioni simmetriche abbiamo comportamenti differenti sulle code. 1 Francesco Pauli 2 Descrittiva 3 a.a. 2016/2017 59 / 70 Forma di una distribuzione Curtosi (cont) Il principale indice usato è l’indice di curtosi standardizzato, introdotto da K. Pearson nel 1894 e definito come N 1 PN 4 1 X i=1 (yi − y ) 4 N (y − y ) = . i Nσ 4 σ4 i=1 Francesco Pauli Descrittiva a.a. 2016/2017 60 / 70 Forma di una distribuzione Curtosi (cont) Il principale indice usato è l’indice di curtosi standardizzato, introdotto da K. Pearson nel 1894 e definito come N 1 PN 4 1 X i=1 (yi − y ) 4 N (y − y ) = . i Nσ 4 σ4 i=1 Questo indice può essere visto come un rapporto tra due indici di variabilità. L’indice a numeratore (la media delle potenze quarte degli scarti dalla media aritmetica) è scelto in maniera tale da essere più sensibile alla presenza di code pesanti dell’indice a denominatore (la potenza quarta dello scarto quadratico medio). Francesco Pauli Descrittiva a.a. 2016/2017 60 / 70 Forma di una distribuzione Forma della distribuzione: osservazioni anomale (estreme) 20 15 0 5 10 Frequency 25 30 35 Una osservazione potenzialmente anomala (outlier) è definita come una osservazione che appare “estrema” rispetto al resto dei dati. In un boxplot, va oltre i baffi. Ci sono osservazioni anomale, potenziali outliers? 0 500 1000 1500 2000 2500 3000 3500 ques$AmiciFacebook Francesco Pauli Descrittiva a.a. 2016/2017 61 / 70 Forma di una distribuzione Osservazioni estreme: esempio Esempio: reddito annuale di un campione di famiglie. ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●● ● ●● ● ● ● ● ● ● ●●● ●● ● ● ● 0e+00 2e+05 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4e+05 ● ● ● ● ● ● ● ● ● ● ● 8e+05 1e+06 ● ● ● 6e+05 Annual Household Income Come cambierebbero la mediana, la media, la distanza interquartilica e la deviazione standard se l’osservazione più elevata fosse $10 milioni? E come cambierebbe se l’osservazione più piccola fosse spostata a $10 milioni? Francesco Pauli Descrittiva a.a. 2016/2017 62 / 70 Forma di una distribuzione Osservazioni estreme: esempio (cont) ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ●●●● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ●●●●● ● ●● ● ● ● ● ● ● ●●● ●● ● ● ● 0e+00 2e+05 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 4e+05 ● ● ● ● ● ● ● ● ● ● ● 8e+05 1e+06 ● ● ● 6e+05 Annual Household Income scenario dati originali sposta max a $10 milioni sposta min a $10 milioni robusto m IQR 190K 200K 190K 200K 200K 200K non robusto ȳ σ 245K 226K 309K 853K 316K 854K Mediana e IQR sono più “stabili” della media e della deviazione standard. Si dice che sono più “robuste”. Francesco Pauli Descrittiva a.a. 2016/2017 63 / 70 Forma di una distribuzione Outliers (cont.) Perché è importante cercare gli outliers? Francesco Pauli Descrittiva a.a. 2016/2017 64 / 70 Forma di una distribuzione Outliers (cont.) Perché è importante cercare gli outliers? Dare una spiegazione a marcate asimmetrie. Identificare errori nell’imputazione dei dati. Scoprire cose nuove. Francesco Pauli Descrittiva a.a. 2016/2017 64 / 70 Forma di una distribuzione Trasformazione logaritmica: esempio degli Amici di Facebook 0 0 4 10 8 20 Quando i dati sono distribuiti in modo fortemente asimmetrico, una trasformazione potrebbe consentire di capirne meglio la distribuzione. Una trasformazione comune è il logaritmo. 0 500 1000 1500 2000 2500 3000 0 2 4 6 8 6 8 4 2 0 0 2 4 6 Maschi 6 Maschi 0 500 1000 1500 2000 2500 3000 0 Femmine Francesco Pauli 2 4 Femmine Descrittiva a.a. 2016/2017 65 / 70 Forma di una distribuzione Pro e contro Outliers tendono ad avvicinarsi: # amici di Facebook 11 589 3025 · · · log(# Amici di Facebook) 2.40 6.38 8.01 · · · ma i risultati potrebbero essere difficili da interpretare, perché lavoriamo su una scala (quella logaritmica, nello specifico), che non è quella naturale; e, in generale, non è facile ricondurre i risultati di sintesi alla scala naturale. Francesco Pauli Descrittiva a.a. 2016/2017 66 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 t̄ = 5.82 Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 t̄ = 5.82 NB: ȳ 6= exp(t̄) Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 t̄ = 5.82 NB: ȳ 6= exp(t̄) t̄ 6= log(ȳ ) Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 t̄ = 5.82 NB: ȳ 6= exp(t̄) t̄ 6= log(ȳ ) Infatti exp(t̄) = 337 Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Pro e contro (cont) Esempio: Amici di Facebook (y1 , . . . , yN ) Amici di Facebook (t1 , . . . , tN ) Logaritmi del numero di amici di Facebook, cioè ti = log(yi ), i = 1, . . . , N. Si ha ȳ = 572.63 t̄ = 5.82 NB: ȳ 6= exp(t̄) t̄ 6= log(ȳ ) Infatti exp(t̄) = 337 log(ȳ ) = 6.35 Francesco Pauli Descrittiva a.a. 2016/2017 67 / 70 Forma di una distribuzione Trasformazioni monotone La trasformazione logaritmica è una trasformazione strettamente monotona. • Richiamo: una funzione g (x) si dice strettamente monotona in un intervallo aperto A, se, comunque si scelgano x1 e x2 in A si ha se x1 < x2 allora g (x1 ) < g (x2 ) (strettamente crescente) se x1 < x2 allora g (x1 ) > g (x2 ) (strettamente decrescente) Francesco Pauli Descrittiva a.a. 2016/2017 68 / 70 Forma di una distribuzione Trasformazioni monotone: la trasformazione lineare Una trasformazione monotona particolarmente importante è la trasformazione lineare, ovvero la trasformazione del tipo: g (x) = a + bx. • Esempio: Temperatura in gradi Farenheit e Celsius. F = C 1, 8 + 32 Francesco Pauli Descrittiva a.a. 2016/2017 69 / 70 Forma di una distribuzione Trasformazioni lineari: esempio notevole Standardizzazione (y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY Francesco Pauli Descrittiva a.a. 2016/2017 70 / 70 Forma di una distribuzione Trasformazioni lineari: esempio notevole Standardizzazione (y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY (z1 , . . . , zN ) dati standardizzati, ottenuti come zi = a + byi = − Francesco Pauli ȳ 1 + yi . σY σY Descrittiva a.a. 2016/2017 70 / 70 Forma di una distribuzione Trasformazioni lineari: esempio notevole Standardizzazione (y1 , . . . , yN ) dati grezzi, con media ȳ e deviazione standard σY (z1 , . . . , zN ) dati standardizzati, ottenuti come zi = a + byi = − ȳ 1 + yi . σY σY • È facile verificare che la trasformazione può essere scritta anche cosı̀: zi = Francesco Pauli yi − ȳ . σY Descrittiva a.a. 2016/2017 70 / 70