Corso di Statistica Computazionale Prof.ssa Paola Vicard Excel non ha una funzione per calcolare automaticamente gli indici di concentrazione e per costruire la curva di Lorenz. Tuttavia è possibile calcolare tali indici e costruire tale grafico con alcune procedure. La concentrazione può essere misurata per caratteri quantitativi trasferibili. Consideriamo una distribuzione per unità e poniamo in ordine non decrescente le sue osservazioni a1, a2, ..., an in modo tale che a1 ≤ a2 ≤ ... ≤ an-1 ≤ an Indichiamo con Ai = a1 + a 2 + + ai = i j =1 aj l’ammontare di carattere posseduto dalle i unità più povere, ovvero dalle prime i unità statistiche della serie ordinata. Indichiamo con A = a1 + a 2 + + an = n j =1 aj l’ammontare complessivo di carattere nel collettivo. Ai che è la frazione di ammontare del carattere, sull’ammontare A complessivo, posseduto dalle i unità più povere. Calcoliamo Qi = Calcoliamo Pi = i che è la frazione, sul totale delle unità, delle i unità più povere. n Il rapporto di concentrazione si calcola come segue (le tre formule sono equivalenti) n −1 g= i =1 ( Pi − Qi ) n −1 i =1 Pi (1) n −1 =1− Qi i =1 n −1 i =1 (2) = 1− Pi 2 n −1 Q n − 1 i =1 i (3) Le tre espressioni sono del tutto equivalenti; la scelta di una tre queste è legata alla semplicità della rispettiva procedura di calcolo. Vediamo come calcolare il rapporto di concentrazione con Excel. Nell’illustrazione della procedura useremo il foglio di lavoro “Distr. unitaria” del file “esercizio7_dati.xls” in cui è riportato il fatturato di una società di computer ripartito in base ai clienti. I passi da compiere sono i seguenti: 1) ordinare i dati 2) calcolare i Pi – questo passo consiste nella costruzione di una colonna di calcolo (chiamata i) che conta le i unità più povere (ossia, nel nostro esempio, con il minor fatturato associato) e nella costruzione della colonna dei Pi (chiamata P[i]) 3) calcolare i Qi – questo passo consiste nella costruzione di una colonna di calcolo (chiamata A[i]) che cumula il fatturato associato alle i unità più povere (ossia con 1 Corso di Statistica Computazionale Prof.ssa Paola Vicard fatturato associato più basso) e nella costruzione della colonna dei Qi (chiamata Q[i]) 4) applicare una delle 3 formule1 Osservazione: Innanzitutto notiamo che c’è una riga vuota tra le riga dei titoli e le righe dei dati. La presenza di questa riga vuota è necessaria quando, oltre al calcolo di g, si vuole disegnare la curva di Lorenz e calcolare R. Infatti per tali scopi è necessario inserire P0=0 e Q0=0 (e quindi occorre avere una riga libera). Iniziamo con l’ordinamento dei dati: - Cliccare su una cella della lista da ordinare - nella barra dei comandi cliccare su dati - quindi, nel menu che si apre, cliccare su ordina. - Si apre una finestra di dialogo. Con riferimento a ordina per, selezionare la variabile rispetto a cui si vuole ordinare (ossia nel nostro esempio Fatturato) - Cliccare su ordinamento crescente - Controllare che sia selezionato intervallo dati con riga di intestazione. - Cliccare su OK. Passiamo al calcolo dei Pi: - nella cella C2 scrivere il titolo i - nella cella C4 scrivere 1 - nella cella C5 scrivere 2 - selezionare le celle C4:C5, posizionarsi nell’angolo in basso a destra finché il cursore appare come una crocetta. Cliccare e trascinare fino a coprire la cella C22 - nella cella D2 scrivere il titolo P[i] - nella cella D4 scrivere la formula =C4/C$22 e trascinare la formula fino a coprire la cella D22 Se il calcolo è stato effettuato correttamente allora il valore della cella D22 deve risultare pari a 1. Passiamo al calcolo dei Qi: - nella cella E2 scrivere il titolo A[i] - nella cella E4 scrivere la formula =somma(B$4:B4) e trascinare la formula fino a coprire la cella E22. Si noti che gli A[i] vengono calcolati nello stesso modo delle frequenze relative cumulate (che abbiamo visto nella nota4 sugli indici di posizione). L’uguaglianza della procedura di calcolo sta nel fatto che in entrambi i casi si tratta di valori cumulati (in particolare ammontare cumulati nel caso degli A[i] e frequenze cumulate nel caso delle F[i]) - nella cella B24 calcolare l’ammontare totale di fatturato. Per fare questo nella cella B24 scrivere =SOMMA(B4:B22) oppure usare il tasto Σ di somma automatica. Si noti che se gli ammontari cumulati (nelle celle E4:E22) sono stati calcolati bene allora l’ammontare totale di fatturato deve essere uguale all’ammontare 1 Osserviamo che se applichiamo la formula (3) allora è possibile saltare il passo 2) ossia non è necessario calcolare i Pi. 2 Corso di Statistica Computazionale Prof.ssa Paola Vicard cumulato associato all’unità con maggiore fatturato (ossia deve essere uguale al contenuto della cella E22) - nella cella F2 scrivere il titolo Q[i] nella cella F4 scrivere la formula =E4/B$24 e trascinare la formula fino a coprire la cella F22. Se il calcolo è stato effettuato correttamente allora il valore della cella F22 deve risultare pari a 1. Passiamo al calcolo del rapporto di concentrazione. Decidiamo di usare la formula (2) allora: - nella cella A28 scrivere g= - nella cella B28 scrivere formula =1-SOMMA(F4:F21)/SOMMA(D4:D21) Se avessimo usato la formula (3) avremmo dovuto scrivere la formula =1-2/(C22-1)*SOMMA(F4:F21) Se avessimo deciso di usare la formula (1) allora avremmo dovuto innanzitutto costruire la colonna delle differenze P[i]-Q[i]. Pertanto la formula (1) è quella più onerosa dal punto di vista dei calcoli richiesti. Come costruire la curva di Lorenz (o spezzata di concentrazione). Questa costituisce la rappresentazione grafica delle coppie di punti (Pi, Qi). Viene rappresentata sul piano cartesiano ponendo Pi sull’asse delle ascisse e Qi sull’asse delle ordinate. Per convenzione si pone P0 = Q0 = 0. La curva di Lorenz è interamente contenuta nel triangolo di estremi (0,0), (1,0) e (1,1). Pertanto per disegnare tale curva occorre: 1) rappresentare il segmento di equidistribuzione (ossia la bisettrice del primo quadrante) 2) rappresentare la curva di Lorenz. Vediamo come fare: - Nella cella D3 scrivere 0 - Nella cella F3 scrivere 0 - Selezionare le celle D3:D22 (ossia selezionare la colonna dei P[i] titolo escluso) - cliccare sull’icona della creazione guidata del grafico Passo 1 - Controllare che la pagina attiva sia Tipi standard - Tra le opzioni in Tipo di grafico selezionare Dispers.(XY) - Selezionare tra le Scelte disponibili nella parte destra della finestra di dialogo la prima della terza fila (ossia “Dispersione con coordinate unite da linee”) - Cliccare su Avanti Passo 2 - Controllare che la pagina attiva sia Intervallo dati - Confermare nello spazio sotto il grafico che Intervallo dati e Serie siano in Colonne - Sempre all’interno della stessa finestra di dialogo passare alla pagina Serie Dobbiamo in questo caso inserire due serie: quella per il segmento di distribuzione e quella della spezzata di concentrazione. 3 Corso di Statistica Computazionale Prof.ssa Paola Vicard Inseriamo per prima la serie del segmento di equidistribuzione: - Nello spazio bianco accanto a Nome scrivere Segmento di equidistribuzione (in questo modo date un nome alla serie che rappresentate) - Cliccare nello spazio bianco accanto a Valori X. Per inserire i valori X, cliccare sulla freccetta rossa alla destra dello spazio bianco accanto alla dicitura Valori X - Selezionare le celle D3:D22 e premere Invio Notate che i valori X selezionati sono i P[i] e quindi sono uguali ai valori Y che già appaiono selezionati. Questo perché stiamo disegnando la bisettrice del primo quadrante ossia il segmento di equidistribuzione che rappresenta la situazione (teorica) in cui le Q[i] sono uguali alle P[i]. Non cliccare su Avanti perché dobbiamo inserire la serie per la spezzata di concentrazione. Cliccare su Aggiungi Nello spazio bianco accanto a Nome scrivere Spezzata di concentrazione - Cliccare nello spazio bianco accanto a Valori X. Per inserire i valori X, cliccare sulla freccetta rossa alla destra dello spazio bianco accanto alla dicitura Valori X - Selezionare le celle D3:D22 e premere Invio Quindi i valori X sono i P[i] - Cliccare nello spazio bianco accanto a Valori Y. Per inserire i valori Y, cliccare sulla freccetta rossa alla destra dello spazio bianco accanto alla dicitura Valori Y Quindi i valori Y sono i Q[i] - Selezionare le celle F3:F22 e premere Invio - Cliccare su Avanti Passo 3 - Sulla pagina Titoli, scrivere il Titolo del grafico (nel nostro esempio Curva di Lorenz); come Asse dei valori (X) scrivere P[i]; come Asse dei valori (Y) scrivere Q[i] - Sulla pagina Assi, confermare che per Asse principale è selezionato Asse dei valori (X) e che per Asse secondario è selezionato Asse dei valori (Y) - Sulla pagina Griglia, deselezionare tutte i tipi di griglie - Sulla pagina Legenda, deselezionare l’opzione Mostra legenda - Sulla pagina Etichette dati, assicurarsi che sia selezionato Assente - Cliccare su Avanti Passo 4 - Posiziona il grafico Come oggetto in, ossia nel foglio di lavoro corrente - Cliccare su Fine - Terminata questa fase, è ancora necessario apportare delle modifiche al grafico. Dal momento che la curva di Lorenz è interamente contenuta nel triangolo di estremi (0,0), (1,0) e (1,1), dobbiamo far sì che la scale dei due assi abbiano valore massimo pari a 1. Per fa ciò - posizionare il cursore sull’asse orizzontale e cliccare 4 Corso di Statistica Computazionale - Prof.ssa Paola Vicard Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Asse selezionato. Si apre una finestra di dialogo. Andare alla pagina Scala in corrispondenza di Massimo modificare il valore che si trova scritto inserendo 1 Cliccare su OK Ora nello stesso modo lavoriamo sull’asse Y - posizionare il cursore sull’asse verticale e cliccare - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Asse selezionato. Si apre una finestra di dialogo. - Andare alla pagina Scala - in corrispondenza di Massimo modificare il valore che si trova scritto inserendo 1 - in corrispondenza di Unità Principale modificare il valore che si trova scritto inserendo 0,1 - Cliccare su OK Possiamo aggiustare il segmento di equidistribuzione (ossia la bisettrice) in modo che si veda solo la linea e non gli indicatori dei punti. - Cliccare su uno dei punti del segmento di equidistribuzione - Nella barra dei comandi cliccare su Formato. Nel menu che si apre cliccare su Serie dei dati selezionati. Si apre una finestra di dialogo composta da varie pagine. - Andare alla pagina Motivo. - Nell’area Indicatore (pannello di destra) selezionare Assente. - Cliccare su OK A questo punto, se lo si ritiene opportuno, si possono fare ritocchi di tipo estetico (cambiare il colore dell’area del grafico, cambiare il colore di una o di entrambe le curve,...). I metodi sono gli stessi visti in precedenza per gli altri tipi di grafici. Come calcolare l’indice di concentrazione R. L’indice2 di concentrazione R è definito come segue R= n n 1 − ( Qi + Qi −1 )( Pi − Pi −1 ) n −1 i =1 Si ricordi che R, al contrario di g, può essere calcolato sia per distribuzioni unitarie che di frequenze. Finora abbiamo già calcolato i Pi ed in Qi; non resta che 1) calcolare le differenze Pi – Pi-1 (questo significa costruire un colonna di calcolo chiamata P[i]-P[i-1]) 2) calcolare le differenze Qi + Qi-1 (questo significa costruire un colonna di calcolo chiamata Q[i]+Q[i-1]) 3) applicare la formula di R. Vediamo passo passo come fare 2 che sappiamo coincidere con il rapporto di concentrazione g. 5 Corso di Statistica Computazionale Prof.ssa Paola Vicard Calcolo dei Pi – Pi-1: - nella cella G2 scrivere il titolo P[i]-P[i-1] - nella cella G4 scrivere la formula =D4-D3 e trascinare la formula fino a coprire la cella G22. Calcolo dei Qi + Qi-1: - nella cella H2 scrivere il titolo Q[i]+Q[i-1] - nella cella H4 scrivere la formula =F4+F3 e trascinare la formula fino a coprire la cella H22. Calcolo di R - nella cella I2 scrivere il titolo (P[i]-P[i-1])(Q[i]+Q[i-1]) - nella cella I4 scrivere la formula =G4*H4 e trascinare la formula fino a coprire la cella I22. - Nella cella I24 usare il tasto di somma automatica oppure scrivere la formula =somma(I4:I22) in questo modo si calcola la sommatoria presente nella formula di R - nella cella A35 scrivere il titolo R= - nella cella B35 scrivere la formula =C22/(C22-1)*(1-I24) Anche in questo caso troviamo R = 0,33 Distribuzioni di frequenze Nel caso i dati vengano forniti sotto forma di distribuzione di frequenza è possibile costruire la curva di Lorenz e calcolare l’indice R che in questo caso assume la seguente espressione R= k n 1 − ( Qi + Qi −1 )( Pi − Pi −1 ) n −1 i =1 Le procedure di calcolo di R e di costruzione del grafico sono del tutto analoghe a quelle viste sopra nel caso della distribuzione unitario. Le uniche differenze si hanno nel calcolo dei Pi e dei Qi. Nell’illustrazione useremo il foglio di lavoro “Distr. frequenze” del file “esercizio7_dati.xls” in cui si riporta la distribuzione per reddito di 200 persone. Qui di seguito limitiamo l’illustrazione al calcolo dei Pi e dei Qi essendo le procedure per il calcolo di R e per la costruzione del grafico identiche a quelle viste per la distribuzione di frequenze. Il foglio di lavoro “Distr. frequenze” del file “esercizio7_svolto.xls” contiene il calcolo completo di R e la costruzione della curva di Lorenz. Osservazione: anche in questa analisi, così come in quella svolta per le distribuzioni unitarie, c’è una riga vuota tra le riga dei titoli e le righe dei dati. La presenza di questa riga vuota in questo caso è sempre necessaria visto che per le distribuzioni di frequenze la concentrazione deve essere misurata con R (e non con g). Come prima cosa è bene verificare che le modalità siano ordinate in modo crescente. Se queste non sono ordinate allora ordinare la distribuzione nel modo spiegato a pag.2 della presente nota. 6 Corso di Statistica Computazionale Prof.ssa Paola Vicard 1) calcolare i Pi – questo passo equivale al calcolo delle frequenze relative cumulate. Consiste nella costruzione di una colonna di calcolo delle frequenze relative (chiamate f[i]) e nella costruzione della colonna dei Pi (chiamata P[i])3. 2) calcolare i Qi – questo passo consiste nella costruzione di una colonna che contenga, per ogni livello di reddito, l’ammontare di reddito posseduto dalle unità che percepiscono quel reddito (colonna chiamata Reddito*n[i]). Quindi si costruisce un’altra colonna di calcolo (chiamata A[i]) che cumula gli ammontari di reddito calcolati nella colonna precedente. Infine si costruisce la colonna dei Qi (chiamata Q[i]) Calcolo dei Pi: - nella cella C2 scrivere il titolo f[i] - nella cella C4 scrivere =B4/B$12 e trascinare fino a coprire la cella C10 - nella cella D2 scrivere il titolo P[i] - nella cella D4 scrivere la formula =somma(C$4:C4) e trascinare la formula fino a coprire la cella D10 Se il calcolo è stato effettuato correttamente allora il valore della cella D10 deve risultare pari a 1. Calcolo dei Qi: - nella cella E2 scrivere il titolo Reddito*n[i] - nella cella E4 scrivere la formula =A4*B4 e trascinare la formula fino a coprire la cella E10. - nella cella F2 scrivere il titolo A[i] - nella cella F4 scrivere la formula =SUM(E$4:E4) e trascinare la formula fino a coprire la cella F10. - nella cella E12 calcolare l’ammontare totale di fatturato. Per fare questo nella cella E12 scrivere =SOMMA(E4:E10) oppure usare il tasto Σ di somma automatica. Si noti che se gli ammontari cumulati (nelle celle F4:F10) sono stati calcolati bene allora l’ammontare totale di reddito (contenuto in E12) deve essere uguale all’ammontare cumulato associato all’ultima modalità (ossia deve essere uguale al contenuto della cella F10) - nella cella G2 scrivere il titolo Q[i] nella cella G4 scrivere la formula =F4/E$12 e trascinare la formula fino a coprire la cella G10. Se il calcolo è stato effettuato correttamente allora il valore della cella G10 deve risultare pari a 1. Terminata questa fase si può passare a costruire la curva di Lorenz. Nella costruzione del grafico si ricordi che: a) per la spezzata di concentrazione i valori X sono dati dai P[i] e i valori Y sono dati dai Q[i] b) per il segmento di equidistribuzione sia i valori X sia i valori Y sono dati dai P[i]. 3 che concettualmente sono le frequenze relative cumulate. 7