Statistica economica a.a. 2013/14 Dr. L.Secondi 00A. Richiami di statistica descrittiva Indicatori sintetici Gli aspetti più importanti di una distribuzione di frequenza riguardano: 1. La posizione INDICI STATISTICI DI POSIZIONE (MODA, MEDIANA,MEDIE) SCOPO: SINTETIZZARE in un singolo valore numerico l’intera distribuzione di frequenza per effettuare confronti nel tempo, nello spazio o tra circostanze differenti. 2. La variabilità INDICI STATISTICI DI VARIABILITA’ SCOPO: misurare L’ATTITUDINE di un fenomeno ad assumere differenti modalità 3. La forma INDICI DI ASIMMETRIA SCOPO: misurare la SIMMETRIA di una distribuzione rispetto ad un punto notevole (es.: rispetto ad una misura di posizione) 2 Il caso di studio Un’azienda internazionale che produce e vende abbigliamento tendenza giovane (donna, uomo, bambino, accessori) è presente già nel Lazio e decide di espandere la propria attività aprendo nuovi punti vendita in altre città italiane Per tale espansione l’azienda ha bisogno del finanziamento da parte di una banca per acquisti di immobili (nuove sedi) e di attrezzature I manager dell’azienda devono predisporre dei documenti da fornire alla banca Servono quindi dei DATI che assicurino la banca sullo stato di salute dell’azienda Si hanno a disposizione i dati di bilancio (più altre specifiche informazioni) dei punti vendita già operativi nel Lazio. Queste informazioni comprendono: ricavi e costi, numero di addetti, ubicazione del punto vendita, informazioni sul responsabile del punto vendita, se il punto vendita effettua vendite on-line 3 Matrice dei dati Punti vendita Ricavi Costi addetti ubicazione Genere respons. Vendita R.O On-line 1 350 205 5 centro maschio si 145 2 200 100 3 periferia maschio si 100 3 600 350 10 semicentro femmina no 250 4 500 270 10 periferia femmina no 230 5 270 200 6 centro maschio no 70 6 180 120 3 centro maschio no 60 7 205 105 3 periferia maschio no 100 8 340 210 5 semicentro femmina no 120 9 280 140 4 centro femmina si 140 4 Tendenza centrale: la media • Il modo più intuitivo per sintetizzare un insieme di valori passa attraverso il calcolo della media • Media (aritmetica) = punto di equilibrio o baricentro dell’insieme di valori • È una media analitica, funzione di tutti i valori • La media aritmetica risente fortemente dei valori estremi Dati n valori osservati x1, x2,…, xn di un carattere quantitativo X 1 1 n x a = (x 1 + x 2 + ... + x n ) = ∑ x i n n i =1 Media di una distribuzione di frequenza Impossibile v isualizzare l'immagine. Addetti (valori xj) Numero punti vendita (frequenze nj) xj*nj 3 2 3*2=6 4 1 4*1=4 6 3 6*3=18 7 1 7*1=7 10 2 10*2=20 Impossibile v isualizzare l'immagine. K K nj ∑ j=1 K ∑x Media xa = x j ⋅ nj = 55 ∑ j=1 =n=9 K j j=1 K ∑x ⋅ nj ∑ nj = j j=1 n ⋅ nj 55 = = 6,11 9 6 è il numero complessivo di addetti nei primi 3 punti vendita 18 è il numero complessivo di addetti nei 2 punti vendita in ciascuno dei quali lavorano 6 addetti 55 è il numero complessivo di addetti (l’intensità totale del carattere) j=1 6 Media di una distribuzione di frequenza con classi di valori Classi di superficie (in ettari) Numero aziende cj*nj (nj) Valore centrale classi (cj) 0-1 120 0,5 60 1-2 160 1,5 240 2-3 220 2,5 550 3-5 212 4 848 5-10 205 7,5 1537,5 10-20 110 15 1650 20-40 65 30 1950 40-80 21 60 1260 Impossibile v isualizzare l'immagine. K n= nj ∑ j=1 K xa ≈ c jn j ∑ j=1 = n 8095,5 = = 7,27 1113 La superficie media di una azienda agricola è di 7,27 ettari K = 1113 c jn j ∑ j=1 = 8095,5 Fonte: Borra-Di Ciaccio, pag. 71 7 Mediana • È il valore che occupa la posizione centrale nell’insieme ordinato di tutti i valori x = x( ) ≤ x( ) ≤ ... ≤ x( ) = x min 1 Tra x(1) e Me è contenuto il 50% dei valori X(1) 2 n max Tra Me e x(n) è contenuto il restante 50% dei valori Me X(n) • È una media di posizione 8 Come individuare la posizione centrale o rango della mediana • Insieme di n valori la posizione centrale è data da (n + 1) • n dispari 2 Me = x n+1 2 • n pari le posizioni centrali sono due, n e n + 1 2 2 x n ≤ Me ≤ x n +1 2 2 Di solito x n + x n Me = +1 2 2 2 9 Calcolo della mediana • In un insieme di 9 valori, la posizione centrale è la quinta. Il termine che occupa la quinta posizione è la mediana 100 200 XXX 300 X XX 400 500 600 X X 700 Elimino ogni volta l’osservazione più piccola e quella più grande Mediana = 280, cioè il valore che occupa la quinta posizione 10 Calcolo della mediana Se il valore estremo fosse 800 invece di 600 la mediana resterebbe invariata 100 200 XXX 300 X XX 400 500 600 700 X 800 X Mediana = 280 La mediana non è influenzata dalla presenza di valori estremi Fornisce una misura della tendenza centrale migliore rispetto alla media quando ci sono alcune osservazioni molto grandi o molto piccole 11 Mediana da una distribuzione di frequenza (con le freq. rel. cum.) Addetti (xj) Numero punti vendita (nj) Frequenze cumulate Nj Frequenze rel cum. Fj 3 2 2 0,22 4 1 3 0,33 6 3 6 0,67 7 1 7 0,78 10 2 9 1,00 Sulla colonna delle frequenze relative cumulate si individua la prima Fj che è uguale o maggiore di 0,5 Il corrispondente valore xj è la mediana della distribuzione Me=6 12 Mediana di una distribuzione di frequenza con classi di valori Classi di superficie (in ettari) Numero Freq. aziende cumulate (Nj) (nj) 0-1 120 120 1-2 160 280 2-3 220 500 3-5 212 712 5-10 205 917 10-20 110 1027 20-40 65 1092 Oltre 40 21 1113 rango mediana = n+1 = 2 1113 + 1 = = 557 2 L’elemento che occupa la posizione 557 è uno dei 212 valori della classe 3-5 La mediana è contenuta nella classe 3-5 13 Mediana di una distribuzione di frequenza con classi di valori Classi di superficie (in ettari) Numero aziende Freq. cum. Freq. rel. cum. (nj) (Nj) (Fj) 0-1 120 120 0,108 1-2 160 280 0,252 2-3 220 500 0,449 3-5 212 712 0,640 5-10 205 917 0,824 10-20 110 1027 0,923 20-40 65 1092 0,981 Oltre 40 21 1113 1,000 Im=estr inf della classe mediana=3 Fm-1=freq rel cum fino alla classe precedente a quella mediana =0,449 Fm=freq rel cum fino alla classe mediana=0,640 ∆m=ampiezza della classe mediana= =5-3=2 0,5 − Fm−1 0,5 − 0,449 Me ≈ Im + ∆ m = 3 + 2 = 3,53 0,640 − 0,449 Fm − Fm−1 14 Quartili • Sono 3 indici di posizione, Q1 Q2 e Q3 xmin = x (1) ≤ x (2 ) ≤ ... ≤ x (n ) = xmax Tra x(1) e Q1 è contenuto il 25% dei valori (più bassi) X(1) Tra Q1 e Q2 è contenuto il 25% dei valori Q1 Tra Q3 e x(n) è contenuto il 25% dei valori (i più alti) Q2=Me Q3 X(n) Tra Q2 e Q3 è contenuto il 25% dei valori 15 Percentili Sono quei valori che dividono la distribuzione in cento parti di uguale numerosità Mediana=50-esimo percentile Q3= 75-esimo percentile P10 = decimo percentile: lascia alla sua sinistra il 10% dei valori P90 = novantesimo percentile: lascia alla sua destra il 10% dei valori 16 Moda • È la modalità più frequente • In un insieme di valori: quel termine che si ripete più volte • In una distribuzione di frequenza: quella modalità che ha la frequenza più alta • In una distribuzione di frequenza con classi di valori: ogni valore della classe con la più alta densità di frequenza • Può non esistere • Può non essere unica • Può essere una modalità “poco rappresentativa” del fenomeno • Per chi vende abbigliamento, la moda rappresenta un parametro utile per decidere in merito a come rifornire il negozio: saranno ordinati più capi delle taglie più diffuse 17 Variabilità • Il calcolo di una media non esaurisce la descrizione sintetica di un fenomeno osservato in un collettivo • Due insiemi di valori o due distribuzioni di frequenza, pur avendo lo stesso valore medio, possono essere molto differenti tra di loro • Gli indici di variabilità forniscono informazioni complementari a quelle degli indici medi 18 • VARIABILITA’: attitudine di un carattere ad assumere diverse modalità Varianza (σ2); Indici di variabilità Deviazione standard (σ); Coefficiente di variazione (CV); - Un indice di variabilità deve assumere il valore minimo se e solo se tutte le unità della distribuzione presentano uguale modalità del carattere; - Un indice di variabilità deve aumentare all’aumentare della diversità tra le modalità assunte dalle varie unità; 19 La variabilità (distribuzioni teoriche) unità 1 2 3 4 5 Reddito Reddito Reddito A (000) B (000) C (000) 40 20 100 15 20 0 10 20 0 30 20 0 5 20 0 100 100 100 X A = X B = X C = 20 20 Esempio – Si considerino la due seguenti distribuzioni relative a due collettivi di individui, rispettivamente residenti nella città X e Y, classificati in base alla loro misura di scarpa. Determinare i valori medi delle due distribuzioni. Individui residenti nella città X Individui residenti nella città Y Misura di scarpa ni Misura di scarpa ni 38 0 38 20 39 50 39 10 40 0 40 20 Tot. 50 Tot. 50 39 ⋅ 50 µX = = 39 50 (38 ⋅ 20) + (39 ⋅10) + (40 ⋅ 20) µy = = 39 20 + 10 + 20 21 Misure di variabilità come ampiezza di un intervallo Il range (o campo di variazione) range = x − x è l’ampiezza dell’intervallo che contiene tutti i valori max min La differenza interquartile dQ = Q3 − Q1 è l’ampiezza dell’intervallo che contiene il 50% dei valori (quelli centrali) La variabilità aumenta al crescere di questi indici 22 Misure di variabilità come dispersione dalla media La varianza σ2 è funzione delle differenze (scarti) tra ogni valore xi e la media x 1 n 2 σ = ∑ (xi − x ) n 1=1 2 σ2 ≥ 0 n La devianza è il numeratore della varianza Dev(X) = 2 ( x − x ) ∑ i i=1 La deviazione standard (o scarto quadratico medio) è la radice quadrata della varianza 1 n 2 σ = ( x − x ) ∑ i n i=1 Il coefficiente di variazione CV è il rapporto tra la dev. standard e la media moltiplicato per 100 CV = σ x 100 x>0 23 Variabilità Ricavi xj 350 Scarti dalla media (xj-µ) 25 Quadrato degli scarti (xj-µ)2 625 200 -125 15.625 600 275 75.625 500 175 30.625 270 -55 3.025 180 -145 21.025 205 -120 14.400 340 15 225 280 -45 2.025 0 163.200 media µ = x = 325 n ∑ (xi − x ) = 0 i=1 Per la proprietà della media n 2 ( x − x ) ∑ i = Dev(X) = 163200 i=1 Devianza=163200 1 n Dev(X) 2 2 ( ) x − x = = σ = ∑ i n n i=1 163200 = = 18133,3 9 Varianza=18133,3 1 n 2 ( ) x − x = σ = ∑ i n i=1 Dev.std.=134,7 24 = 18133,3 = 134,7 24 Varianza di una distribuzione di frequenza Addetti (xj) Numero punti vendita 3 2 19,34 4 1 4,45 6 3 0,04 7 1 0,79 10 2 30,26 totale 9 (nj) (xj-µ)2*nj µ = x = 6,11 1 K 54,88 2 σ = ∑ (x j − x ) n j = = 6,10 n j=1 9 2,47 CV = 100 = 40,43% σ = 6,10 = 2,47 6,11 2 25 Forma di una distribuzione Asimmetria: studiare l’asimmetria di una distribuzione significa studiarne un particolare aspetto della forma. Una distribuzione si dice asimmetrica se non è possibile individuare un asse verticale che tagli la distribuzione in due parti specularmente uguali. Il concetto di simmetria è applicabile solo a caratteri ordinabili Un modo intuitivo per studiare l’asimmetria di una distribuzione è quello che si basa sulle relazioni esistenti tra media aritmetica, mediana e moda in distribuzioni unimodali 26 Simmetria 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 10 11 12 13 media = mediana = moda Asimmetria negativa Asimmetria positiva 60 60 50 50 40 40 30 30 20 20 10 10 0 0 1 1 2 3 4 5 6 7 8 9 10 11 media > mediana ≥ mod a 12 2 3 4 5 6 7 8 9 10 11 12 13 13 media < mediana ≤ mod a 27 Indice di asimmetria Indice di Fisher: È funzione aritmetica elevati al cubo 1 β= nσ3 n ∑ (x i i =1 3 − x) Attenzione: la nullità degli indici di asimmetria è condizione necessaria ma non sufficiente per poter affermare che la distribuzione è simmetrica. degli 1 β= nσ 3 scostamenti K ∑ (x − x ) nj 3 j j=1 dalla media per una distrib. di freq. Se la distribuzione è simmetrica β=0 (non vale il contrario) β >0 asimmetria positiva β <0 asimmetria negativa Un secondo indice è espresso da: ed è l’indice di “Skewness” (asimmetria) di Pearson. Un altro indice di asimmetria molto diffuso è dato da: sk = s1 = m − Mo σ m − Me σ 28 Qual è la forma della distribuzione dei Ricavi nei 9 punti vendita considerati? Punti vendita Ricavi Scarti Scarti al cubo 3 ( xi − x ) 1 350 25 15,625 2 200 -125 -1,953,125 3 600 275 20,796,875 x = 325 1 M3 = n = 4 500 175 5,359,375 5 270 -55 -166,375 6 180 -145 -3,048,625 7 205 -120 -1,728,000 8 340 15 3,375 9 280 -45 -91,125 Me = 280 n ∑ (x i σ = 134, 6 3 − x) i =1 19,188, 000 = 2.132.000 9 2.132.000 β = = 0, 87 2.441.836 29 Calcolo dell’indice di asimmetria Indice asimm. β s1 Ricavi 0,87 0,33 Utilizzando i due indici si conclude che la distribuzione presenta una asimmetria positiva 30