Dipartimento di Matematica, Informatica ed Economia (DiMIE) Statistica Antonio Azzollini [email protected] Anno accademico 2016/2017 Le medie Le medie si applicano ai caratteri quantitativi, sia intervallari che razionali. Esse sono misure sintetiche che consentono il passaggio da una pluralità di informazioni ad una sola modalità. Fra tutti i tipi di medie si distinguono: • • medie lasche o di posizione determinate in base alla frequenza o alla posizione occupata nella graduatoria delle osservazioni individuali. (Esempi: Mediana, Quartili, Moda) medie analitiche calcolate con operazioni algebriche sui valori del carattere (Esempi: Media aritmetica, media geometrica, media armonica). Le medie La media aritmetica Essa si applica solo ai caratteri quantitativi. Stabilisce l’indice centrale dei dati: si calcola dalla somma di valori numerici presi in considerazione diviso la loro numerosità. X = { x1 , x2 ,…, xNn } La media aritmetica insieme di una distribuzione statistica di un carattere quantitativo considerato su una popolazione è data dalla seguente formula Nn 1 1 µ = ( x1 + x2 +!+ xn ) = ∑ xi Nn i=1 Nn N Per la media aritmetica si usa la notazione X quando è riferita ad un campione della popolazione. Le medie La media aritmetica Osserviamo che: • Per il suo calcolo vengono utilizzati tutti i valori. • Un insieme di dati possiede una sola media aritmetica. • La media aritmetica risente di eventuali valori anomali. • Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. Le medie La media aritmetica Osserviamo che: • Per il suo calcolo vengono utilizzati tutti i valori. • Un insieme di dati possiede una sola media aritmetica. • La media aritmetica risente di eventuali valori anomali. • Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. Le medie La media aritmetica Osserviamo che: • Per il suo calcolo vengono utilizzati tutti i valori. • Un insieme di dati possiede una sola media aritmetica. • La media aritmetica risente di eventuali valori anomali. • Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. Le medie La media aritmetica 👉 X = {1,2, 3, 4,100} 👉 X = {1,2, 3, 4,5} µ=3 µ = 22 👉 X = {1,2, 3, 4,1000} 👉 X = {1,2, 3, 4,15} 15 µµ==15 µ = 202 La media aritmetica non è una statistica robusta! Le medie La media aritmetica Osserviamo che: • Per il suo calcolo vengono utilizzati tutti i valori. • Un insieme di dati possiede una sola media aritmetica. • La media aritmetica risente di eventuali valori anomali. • Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. Le medie La media aritmetica Esempio: per i dati (3,4,8) la media è 5 Esempio: aggiungendo il valore 2, i dati diventano (5,6,10) e la media è 5+2=7 Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha (3-5)+(4-5)+(8-5)=0 Le medie La media aritmetica Osserviamo che: • Per il suo calcolo vengono utilizzati tutti i valori. • Un insieme di dati possiede una sola media aritmetica. • La media aritmetica risente di eventuali valori anomali. • Se ai dati viene aggiunta una costante, la media risulta traslata di quella costante. • La somma delle differenze fra ciascun valore osservato e la media è nulla (ossia la somma degli scarti è nulla) 1 Nn 1 1 n x2 +!+ xn ) = ∑(xi - µ )=0 = ( x1 + x2 +!+ xn ) = ∑ xi n i=1 n n i=1 Le medie La media aritmetica Esempio: per i dati (3,4,8) la media è 5 Esempio: calcolando la somma delle differenze fra ciascun valore e la media si ha (3-5)+(4-5)+(8-5)=0 Le medie La media aritmetica In riferimento ad un carattere trasferibile, si dice ammontare del carattere la somma dei valori individuali (che quindi non varia al trasferirsi di una modalità da una unità individuale all'altra). La media aritmetica è quella costante che, sostituita a ciascun valore X = { x1 , x2 ,…, xn ,}, lascia invariato l’ammontare individuale della distribuzione N del carattere. Infatti Nn 1 µ = ∑ xi N n i=1 👉 N n ∑x i = Nnµ 1=1 Ammontare della distribuzione originale Ammontare della distribuzione di sole µ = 1 n Le medie La media aritmetica Supponendo che un dato xi si ripeta con frequenza Nni k Nn j = N x,…, x , 1 ≤ k ≤ n, n } ∑ 1, x 2x,…, k N XX=={{xX1x,1=x, x2{,…, x , , 1 1 ≤ ≤ k k ≤ ≤ n, n, n n = = n n } } ,∑ ∑jj 2 kk , kk j=1 j=1 j=1 La media aritmetica si ottiene attraverso la formula 1 k µ = ∑Nni xi Nn i=1 Le medie La media aritmetica Popolazione in esame: 88 studenti iscritti al corso di Economia Carattere osservato: voto conseguito all’esame di statistica ⎧29,29,24,20,22,28,19,19,21,26,20,24,21,19,25, ⎫ ⎪25,23,28,22,29,26,23,28,30,20,27,22,27,20,24, ⎪ ⎪ ⎪ ⎪25,18,26,29,29,23,23,24,22,25,27,26,23,18,19, ⎪ X=⎨ ⎬ ⎪26,22,25,20,26,22,24,20,22,21,29,30,19,24,24, ⎪ ⎪26,26,29,30,29,25,28,26,22,27,27,29,26,26,22, ⎪ ⎪ ⎪ ⎩27,24,29,30,20,24,24,21,18,22,28,23,21 ⎭ 29 + 29 + 24 +!+ 28 + 23 + 21 µ= = 24, 32 88 Le medie La media aritmetica Media aritmetica per una distribuzione di frequenze xi ni ni xi X = { xi 1 ≤ i ≤ Nn} con nN=88 = 88 1 18 3 54 (con gli elementi ripetuti) 2 19 5 95 3 20 7 140 4 21 5 105 5 22 10 220 6 23 6 138 7 24 10 240 8 25 6 150 9 26 11 286 10 27 6 162 11 28 5 140 12 29 10 290 13 30 Totale k ⎧ ⎫ X = ⎨ x j Nn j ≤ Nn volte, ∑ n j =Nn ⎬ ⎪⎩ ⎪⎭ j=i (con k elementi distinti) Nn T = ∑ xi i=1 k88 88 ⎧ ⎫2.140 4 120 T 11 T 2.140 = ⎨ x j n j µ≤µ=n=volte, nnj xjj xj=j== n⎬ 24,32 32 88 X 2,140 == ∑ nN ==24, ∑ ∑ nn Nnnj=1j=i ⎪⎩ ⎪⎭8888 j=1 N Le medie La media aritmetica per classi di modalità Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare? 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6. Le medie La media aritmetica per classi di modalità Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare? 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6. La media è 88 T 1 2.140 µ = (15,0+23,7+19,7+...+27,1+16,6)/30=19 = ∑ nj xj = = 24, 32 n n j=1 88 Le medie La media aritmetica per classi di modalità Ricordate la distribuzione statistica relativa al numero di ore settimanali trascorse a studiare? 15,0; 23,7; 19,7; 15,4; 18,3; 23,0; 14,2; 20,8; 13,5; 20,7; 17,4; 18,6; 12,9; 20,3; 13,7; 21,4; 18,3; 29,8; 17,1; 18,9; 10,3; 26,1; 15,7; 14,0; 17,8; 33,8; 23,2; 12,9; 27,1; 16,6. La media è 88 T 1 2.140 µ = (15,0+23,7+19,7+...+27,1+16,6)/30=19 = ∑ nj xj = = 24, 32 n n j=1 88 Come calcoleremmo la media se i dati ci fossero forniti attraverso una distribuzione per classi di frequenza? Le medie La media aritmetica per classi di modalità centri delle classi × frequenze assolute ∑ µ= taglia Prima scuola Classi [10;14) Centri Classi Frequ enze [14;18) [18;22) [22;26) [26;30) [30;34] 12 16 20 24 28 32 5 9 9 3 3 1 (12x5)+(16x9)+(20x9)+...+(32x1) 12,5 × 5 ) + (16,5 × 9 ) +!+ 32,5 ( µ= = 19,6 30 19,1 Le medie La media aritmetica per classi di modalità centri delle classi × frequenze assolute ∑ µ= taglia Prima scuola Classi [10;14) Centri Classi Frequ enze [14;18) [18;22) [22;26) [26;30) [30;34] 12 16 20 24 28 32 5 9 9 3 3 1 (12x5)+(16x9)+(20x9)+...+(32x1) 12,5 × 5 ) + (16,5 × 9 ) +!+ 32,5 ( µ= = 19,6 30 19,1 Osserviamo che la media è pressappoco la stessa: è un caso? Le medie La media pesata La media pesata (o ponderata) di un insieme di numeri a ciascuno dei quali sia assegnato un coefficiente (peso) è data dalla seguente formula: numeri × pesi ∑ π= ∑ pesi Voto medio di uno studente alla fine del primo anno del corso di economia Materia CFU Voto Materia CFU Voto Materia CFU voto Matematica generale 6 21 Diritto privato 10 26 Economia aziendale 10 27 Economia politica 10 25 10 23 Geografia economica 6 27 Economia e Gestione delle imprese 1 π = ( 6 × 21+ 10 × 25 + 10 × 26 + 10 × 23 + 10 × 27 + 6 × 27 ) = 24,96 52 1 µ = ( 21+ 25 + 26 + 23 + 27 + 27 ) = 24,83 6 Le medie La media pesata Rientra nel caso della media pesata la media di una distribuzione di frequenze del tipo: #Stanze 1 2 3 4 5 6 7 #Appartamenti 300 500 2,000 3,000 150 100 300 La frequenza assoluta con la quale si presenta ciascuna modalità può essere interpretata come peso. 1 π= (1× 300 + 2 × 500 +!+ 7 × 300 ) = 3,58 6350 1 µ = (1+ 2 + 3 + 4 + 5 + 6 + 7 ) = 4 7 Le medie La media geometrica La media geometrica di un insieme di numeri è la radice prodotto: n -esima del loro σ = n x1 x2 !xn Viene utilizzata quando si vuole analizzare il variare di un fenomeno nel tempo, come ad esempio il tasso di variazione dei prezzi o i tassi di rendimento di capitali. La media geometrica è tale che σ × σ ×!× σ = x1 × x2 ×!× xn n volte Le medie La media geometrica Esempio. Un impiegato ha ricevuto un 5% di aumento di stipendio nel 2014 e un 15% di aumento nell’anno successivo. Quant’è la percentuale di crescita media? 5% di aumento ⇒ da 100 a 105 15% di aumento ⇒ da 100 a 115 👉 σ = 2 1,15 × 1,05 = 1,09886 👉 parametri: 1,05 e 1,15 L’aumento medio è del 9,89% L’impiegato che all’inizio del 2014 aveva 1€, alla fine del 2014 ha 1,05€ ed alla fine del 2015 ha 1,05 × 1,15 = 1,21€ σ × σ = 1,05 × 1,15 Le medie La media armonica La media armonica di un insieme di numeri è l’inverso della media aritmetica degli inversi. Serve per esempio a ricavare un valore centrale sulla velocità per dati che si riferiscono ad intervalli temporali diversi. δ= n n 1 ∑x i=1 i . La media armonica è tale che 1 1 1 1 1 1 + +!+ = + +!+ δ δ δ x1 x2 xn Le medie La media armonica Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s V1=9,60, V2=10,05, V3=10,00, V4=10,10. Le medie La media armonica Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s V1=9,60, V2=10,05, V3=10,00, V4=10,10. Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che VM = spazio totale/tempo totale. Le medie La media armonica Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s V1=9,60, V2=10,05, V3=10,00, V4=10,10. Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che VM = spazio totale/tempo totale. Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4 Le medie La media armonica Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s V1=9,60, V2=10,05, V3=10,00, V4=10,10. Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che VM = spazio totale/tempo totale. Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4 Dunque numeri × pesi 4x100 ∑ πV= = T∑ +Tpesi +T +T M 1 2 3 4 Le medie La media armonica Esempio. Si determini la velocità media di un quartetto di staffetta 4X100 sapendo che le veloctà medie individuali osservate sono, in m/s V1=9,60, V2=10,05, V3=10,00, V4=10,10. Per mostrare che la velocità media si calcola attraverso la media armonica, si osservi che VM = spazio totale/tempo totale. Lo spazio totale è 4x100=400, mentre i tempi sono T1=100/V1, T2=100/V2, T3=100/V3, T4=100/V4 Dunque 4 × pesi numeri × pesi ∑ numeri numeri × pesi× pesi numeri 4x100 4x100 ∑ ∑ ∑ πV= = π = =π = π== T +T1pesi +T 1+T1 1 T +Tpesi +T 100 100 100 1∑ 1∑ 1+T 1 pesi 11 1 1 1 1 ∑11pesi1 11 1r∑ 11 100 M 1 + +!+ + =+!+ + +!+ + =+!+ + +!+ = + +!+ =+ ++!+ +!+ δ δ x11 V xδ22δ V xn11 V xδ22 V x13 xV xn24 xn δ δδ V xδ13 xV xn24δ δ δ V 1 2 3 4 1 2 3 4 Le medie La mediana La mediana M di un insieme di dati (ordinato) è il suo valore centrale È una statistica robusta perché non risente di eventuali valori anomali. Esempio. L’età di un campione di 5 studenti è: 21,25 19, 20, 22. 👇 Campione ordinato: 19, 20, 21, 22, 25. 👇 La mediana è M = 21 Le medie La mediana Esempio. L’altezza in centimetri di 4 giocatori di basket è: 186, 189, 190, 185. 👇 La mediana è… 185, 186, ?, 189, 190. Una possibile scelta è porre 186 + 189 M= = 187,5 2 Più in generale… Le medie La mediana x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve essere ordinato: x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) . Il rango ( j ) di un elemento xi appartenente ad un campione indica che questo occupa la j -esima posizione quando il campione è ordinato. Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5 . . . Le medie La mediana x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve essere ordinato: x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) . Il rango ( j ) di un elemento xi appartenente ad un campione indica che questo occupa la j -esima posizione quando il campione è ordinato. Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5 Se n è dispari il rango sarà un numero intero e si pone M = x(r ) . . . Le medie La mediana x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve essere ordinato: x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) . Il rango ( j ) di un elemento xi appartenente ad un campione indica che questo occupa la j -esima posizione quando il campione è ordinato. Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5 n è dispari il rango sarà un numero intero e si pone M = x(r ) n Se n è pari il rango è + 0,5 e si pone Se 2 . Le medie La mediana x1 , x2 ,…, xn rappresenta l’insieme di dati, il campione casuale deve essere ordinato: x(1) ≤ x( 2 ) ≤ ! ≤ x( n ) . Il rango ( j ) di un elemento xi appartenente ad un campione indica che questo occupa la j -esima posizione quando il campione è ordinato. Poi si determina il rango per la mediana: .r = ( n + 1) × 0,5 n è dispari il rango sarà un numero intero e si pone M = x(r ) n Se n è pari il rango è + 0,5 e si pone Se . 2 ⎛ ⎛ ⎛ ⎞ ⎞ ⎞ . M = xM⎛ n ⎞=M +x⎜⎛ =nx⎞⎛x+ −⎛ nx⎜ ⎛x⎞n⎛⎞−n⎟ x×⎞⎛ − 0,5 x × 0,5 × 0,5 n⎛ n⎜⎞⎞ x+ n⎞ ⎟⎛ n⎞ ⎟ ⎜⎝ ⎟⎠ ⎝⎜⎝ 2 ⎟⎠⎜⎝ 2⎜⎝+12⎝⎟⎠⎟⎠ ⎜⎝ 2⎝+1⎜⎝ ⎟⎠2⎜⎝⎟⎠2⎠+1⎟⎠⎜⎝ 2 ⎟⎠ ⎠ ⎜⎝ 2 ⎟⎠ ⎠ 2 Così facendo ritroviamo il secondo esempio: 185;186;187,5;189;190 . Le medie La mediana per distribuzioni di frequenze #Stanze #Appartamenti Frequenze cumulate 1 300 300 2 500 800 3 2,000 2,800 4 3,000 5,800 5 150 5,950 6 100 6,050 7 300 6,350 6.351 = 3.175,5 Il rango è r = ( n + 1) × 0,5 = 2 Le medie La mediana per distribuzioni di frequenze #Stanze #Appartamenti Frequenze cumulate 1 300 300 2 500 800 3 2,000 2,800 4 3,000 5,800 5 150 5,950 6 100 6,050 7 300 6,350 6.351 = 3.175,5 . Il rango è r = ( n + 1) × 0,5 = 2 300 800 2800 5800 1,1,...,1 2,2,...,2 3,3,...,3 4,4,...,4 300 volte 500 volte 2000 volte 3000 volte L’elemento di posizione 3.175 è 4, come pure l’elemento di posizione 3.176. Pertanto possiamo porre M = 4 . Le medie La moda È l’elemento che compare più spesso nel campione. Colore dei N° di persone capelli Neri 10 Castani 6 Rossi 1 👈 Moda Moda Biondi 5 Totale 22 👉 #Stanze #Appartamenti 1 300 2 500 3 2,000 4 3,000 5 150 6 100 7 300 Le medie La moda Una distribuzione si dice unimodale se ammette un solo valore modale, bimodale se ne ammette due (ossia se esistono due valori che compaiono entrambi con la frequenza massima), trimodale se ne ammette tre e multimodale se ne ammette più di tre. 12 10 9 7.5 6 5 3 2.5 0 0 A B C Unimodale D E A B C Bimodale D E Le medie La moda Quando si ha a che fare con classi di modalità, la moda è il punto medio della classe con frequenza più elevata. Peso in grammi Neonati 1.800-2.200 10 2.200-2.600 32 2.600-3.000 120 3.000-3.400 254 3.400-3.800 134 3.800-4.200 40 4.200-4.600 10 👈 In questo caso il valore della moda è 3.200. Poligono di frequenza L’area sottesa dall’istogramma delle frequenze relative (e dal poligono delle frequenze) è uguale a 1. 0.35 0.263 0.175 0.088 0 A B C D E F Simmetria Un poligono di frequenza simmetrico ha questa forma: moda = media = mediana coda sinistra coda destra Simmetria Un poligono di frequenza simmetrico ha questa forma: moda = media = mediana coda sinistra coda destra Un poligono di frequenza è asimmetrico quando ha una di queste forme: moda mediana media coda destra coda sinistra Simmetria Possibile indice: media − mediana ? Modalità Frequenza 1 1 7 2 2 3 3 Moda = 7 5 4 4 Media = 5 5 5 6 6 7 7 4 2 0 1 2 3 4 5 6 7 Modalità Frequenza 7 1 7 5 2 6 3 5 4 4 5 3 6 2 7 1 Moda = 1 4 Media = 3 2 0 1 2 3 4 5 6 7 Simmetria 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 Simmetria 1 1 1 2 2 3 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 3 3 6 x14 = x15 = 5 ⇒ M = 5 4 4 10 5 5 15 6 6 21 7 7 28 Frequenza Modalità Frequenza cumulata 👈 mediana Simmetria 1 1 1 2 2 3 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 3 3 6 x14 = x15 = 5 ⇒ M = 5 4 4 10 5 5 15 6 6 21 7 7 28 Frequenza Modalità Frequenza cumulata 👈 mediana 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 Simmetria 1 1 1 2 2 3 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 3 3 6 x14 = x15 = 5 ⇒ M = 5 4 4 10 5 5 15 6 6 21 7 7 28 Frequenza Modalità Frequenza cumulata 29 r = ( n + 1) × 0,5 = = 14,5 2 👈 mediana mediana La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 x14 = x15 = 3 ⇒ M =3 👉 Modalità Frequenza Frequenza cumulata 1 7 7 2 6 13 3 5 18 4 4 22 5 3 25 6 2 27 7 1 28 Simmetria 1 1 1 2 2 3 29 r = ( n + 1) × 0,5 = = 14,5 2 La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 3 3 6 x14 = x15 = 5 ⇒ M = 5 4 4 10 5 5 15 6 6 21 7 7 28 Frequenza Modalità Frequenza cumulata 29 r = ( n + 1) × 0,5 = = 14,5 2 👈 mediana mediana La mediana si trova fra l’elemento di posizione 14 e quello di posizione 15 x14 = x15 = 3 ⇒ M =3 👉 Modalità Frequenza Frequenza cumulata 1 7 7 2 6 13 3 5 18 4 4 22 5 3 25 6 2 27 7 1 28 In entrambi i casi: media - mediana =0! Simmetria Introduciamo come indice di asimmetria la quantità A così definita Asimmetria: A = ( max− M ) − ( M − min ) Dove max individua il valore massimo della modalità e min quello minimo Simmetria Introduciamo come indice di asimmetria la quantità A così definita Asimmetria: A = ( max− M ) − ( M − min ) Dove max individua il valore massimo della modalità e min quello minimo Modalità Frequenza Frequenza cumulata 1 1 1 2 2 3 3 3 6 4 4 10 5 5 15 6 6 21 7 7 28 A = ( 7 − 5 ) − ( 5 − 1) = −2 asimmetria negativa Simmetria Introduciamo come indice di asimmetria la quantità A così definita Asimmetria: A = ( max− M ) − ( M − min ) Dove max individua il valore massimo della modalità e min quello minimo Modalità Frequenza Frequenza cumulata 1 1 1 2 2 3 3 3 6 4 4 10 5 5 15 6 6 21 7 7 28 A = ( 7 − 5 ) − ( 5 − 1) = −2 asimmetria negativa A = ( 7 − 3) − ( 3 − 1) = 2 asimmetria positiva Frequenza Modalità Frequenza cumulata 1 7 7 2 6 13 3 5 18 4 4 22 5 3 25 6 2 27 7 1 28 Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 1° passo: Il campione va ordinato: 19,20,21,22,25 Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 1° passo: Il campione va ordinato: 19,20,21,22,25 2° passo: Determinare il rango (la posizione) per il primo quartile: (n + 1) × 0,25 = 1,5. Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello posizione 2. Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 1° passo: Il campione va ordinato: 19,20,21,22,25 2° passo: Determinare il rango (la posizione) per il primo quartile: (n + 1) × 0,25 = 1,5. Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello posizione 2. I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo quartile come stabilito nel... Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Mostriamo con un esempio come si determina Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 1° passo: Il campione va ordinato: 19,20,21,22,25 2° passo: Determinare il rango (la posizione) per il primo quartile: (n + 1) × 0,25 = 1,5. Dunque il primo quartile Q1 si colloca fra l’elemento di posizione 1 e quello posizione 2. I decimali nel numero trovato mi servono per stabilire l'esatto valore del primo quartile come stabilito nel... 1,5 - 1 3° passo: 19,Q1,20,21,22,25 👉 . − 19 ) × 0,5 = 19,5 Q1 = 19 + ( 20 Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Vediamo un altro esempio. . . . Quartili Il primo quartile è quel valore che lascia a sinistra il 25% dei dati. Il primo quartile può appartenere al campione casuale oppure no. Vediamo un altro esempio. . Esempio. L’altezza di 4 giocatori di basket è 186,189,190,185 Determinare il rango per il primo quartile: ( n + 1) × 0,25 = 1,25 In questo caso il primo quartile è 185,Q1,186,189,190 ( . ) Q1 Q1==185,Q1,186,189,190 185 185 186 −185 185))×= ×0,25 0,25 185,25 n +××(1(186 × −0,25 1,25==185,25 . . Quartili Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati. Il terzo quartile può appartenere al campione casuale oppure no. . Quartili Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati. Il terzo quartile può appartenere al campione casuale oppure no. Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 . Il campione va ordinato: 19,20,21,22,25 Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 4,5 Il terzo quartile Q3 si colloca fra l’elemento di posizione 4 e quello di . − 22 ) × 0,5 = 23,5. Q3 = 22 + ( 25 19,20,21,22,Q3,25 posizione 5 👉 👉 Quartili Il terzo quartile è quel valore che lascia a sinistra il 75% dei dati. Il terzo quartile può appartenere al campione casuale oppure no. Esempio. L’età per un campione di 5 studenti è 21,25,19,20,22 . Il campione va ordinato: 19,20,21,22,25 Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 4,5 Il terzo quartile Q3 si colloca fra l’elemento di posizione 4 e quello di . − 22 ) × 0,5 = 23,5. Q3 = 22 + ( 25 19,20,21,22,Q3,25 posizione 5 👉 👉 Esempio. L’altezza di 4 giocatori di basket è 186,189,190,185. Determinare il rango per il terzo quartile: ( n + 1) × 0, 75 = 3, 75 In questo caso il terzo quartile è 185,186,189,Q3,190 Q3 = 189 + (190 − 189 ) × 0, 75 = 189, 75. Box-plot Box-plot Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali. Box-plot Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali. I capisaldi nella rappresentazione di un box-plot sono Box-plot Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali. I capisaldi nella rappresentazione di un box-plot sono Q0 = min( x1 , x2 ,…, xn) • Q1 = 1° quartile • Q2 = mediana o 2° quartile • Q3 = 3° quartile; • Q4 = max( x1 , x2 ,…, xn) IQR = Q3 - Q1 = campo di variazione interquartile • Box-plot Il Box-plot (o diagramma a scatola e baffi) è un diagramma che fornisce una rappresentazione grafica della distribuzione dei dati, evidenziando dove cade la maggioranza dei valori, e di quei valori che differiscono di parecchio dalla norma, cosiddetti dati anomali. I capisaldi nella rappresentazione di un box-plot sono Q0 = min( x1 , x2 ,…, xn) • Q1 = 1° quartile • Q2 = mediana o 2° quartile • Q3 = 3° quartile; • Q4 = max( x1 , x2 ,…, xn) IQR = Q3 - Q1 = campo di variazione interquartile • Introduciamo infine il numero IQR = Q3 - Q1 = campo di variazione interquartile Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Terzo quartile: ( 30 + 1) × 0, 75 = 23,25 Si colloca fra le posizioni 23 e 24 Il suo valore è fra 21, 4 e 23 ed è pari a 21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8. Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Terzo quartile: ( 30 + 1) × 0, 75 = 23,25 Si colloca fra le posizioni 23 e 24 Il suo valore è fra 21, 4 e 23 ed è pari a 21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8. Box plot ore di studio 30 25 20 15 10 Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Terzo quartile: ( 30 + 1) × 0, 75 = 23,25 Si colloca fra le posizioni 23 e 24 Il suo valore è fra 21, 4 e 23 ed è pari a 21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8. Box plot ore di studio 30 25 20 15 10 • Q1 Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Terzo quartile: ( 30 + 1) × 0, 75 = 23,25 Si colloca fra le posizioni 23 e 24 Il suo valore è fra 21, 4 e 23 ed è pari a 21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8. Box plot ore di studio 30 25 20 15 10 • Q2 Box-plot 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Primo quartile: ( 30 + 1) × 0,25 = 7, 75 Si colloca fra le posizioni 7 e 8 Il suo valore è fra14,2e 15 ed è pari a 14,2 + (15 − 14,2 ) × 0, 75 = 14,8. Mediana: ( 30 + 1) × 0,5 = 15,5 Si colloca fra le posizioni 15 e 16 Punto medio fra 18, 3 e 18, 3 ossia 18, 3. Terzo quartile: ( 30 + 1) × 0, 75 = 23,25 Si colloca fra le posizioni 23 e 24 Il suo valore è fra 21, 4 e 23 ed è pari a 21, 4 + ( 23 − 21, 4 ) × 0,25 = 21,8. Box plot ore di studio 30 25 • 20 15 10 Q3 Box-plot Dopo aver disegnato la "scatola" ora disegnamo i "baffi" La lunghezza di ciascun baffo "non supera" il valore convenzionale 1,5 × (Q3 − Q1) Q3 − Q1 = 7 quindi 1,5 × 7 = 10,5 Si confronta il valore del minimo con il valore Q1− 10,5 = 14,6 − 10,5 = 4,1 e se ne prende il più grande. Poiché min = 10, 3 > 4,1 allora il baffo inferiore è collocato in corrispondenza del minimo. 30 25 20 15 10 Box plot ore di studio Box-plot Dopo aver disegnato la "scatola" ora disegnamo i "baffi" La lunghezza di ciascun baffo "non supera" il valore convenzionale 1,5 × (Q3 − Q1) Q3 − Q1 = 7 quindi 1,5 × 7 = 10,5 Box plot ore di studio 30 25 20 Si confronta il valore del massimo con il valore 15 Q3 + 10,5 = 22,6 + 10,5 = 33,1 e se ne prende il più piccolo. 10 Poiché max = 33,8 > 33,1 allora il baffo superiore è collocato in corrispondenza di 33,1 . Box-plot Un valore del campione casuale “troppo distante” dal resto del campione casuale si dice outlier o valore anomalo. Più precisamente un outlier è un dato che si trova al di sopra del baffo superiore o al di sotto del baffo inferiore del box-plot Box plot ore di studio 30 Poiché max = 33,8 > 33,1 allora 33,8 è un outlier. Esso si disegna con un punto. 25 20 15 10 Box-plot Dataset ore di studio 10,3; 12,9; 12,9; 13,5; 13,7; 14,0; 14,2; 15,0; 15,4; 15,7; 16,6; 17,1; 17,4; 17,8; 18,3; 18,3; 18,6; 18,9; 19,7; 20,3; 20,7; 20,8; 21,4; 23,0; 23,2; 23,7; 26,1; 27,1; 29,8; 33,8. Box plot ore di studio 30 25 20 15 10