distribuzioni doppie - Servizio di Hosting di Roma Tre

Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Questa nota consiste per la maggior parte nella traduzione (con alcune integrazioni)
da “Descriptive statistics” di J. Shalliker e C. Ricketts, 2000, University of Plymouth
Consideriamo come esempio il data set contenuto nel foglio excel
“esercizio8_dati.xls”. Il data set1, riportato nel foglio di lavoro “dati esercizio”, si
riferisce a 121 fondi di investimento su cui sono state rilevate una serie di
caratteristiche tra cui: la categoria (ossia la dimensione delle aziende in cui investono
i fondi, dove la dimensione è intesa come valore dell’azienda sul mercato azionario),
l’orientamento, il rischio e i rendimenti a 5 anni. Nel foglio di lavoro “dati esercizio”
sono riportate le informazioni relative a queste quattro variabili.
Diminuisci
decimali
Creazione
guidata del
grafico
Barra dei
comandi
Somma
automatica
Tasto di incolla
funzione
Figura 1.
Gli obiettivi di questa nota sono: la costruzione di distribuzioni di frequenze (tabelle)
relative a due o tre variabili; il trattamento di dati quantitativi quando si vuole
costruire una distribuzione di frequenza doppia; il calcolo di statistiche (come media,
e varianza). Per tutte queste analisi lo strumento fondamentale è costituito dalla
tabella pivot.
Costruzione di tabelle per due variabili (tabelle a due vie)
Consideriamo il dataset e in particolare le variabili “categoria” e “rischio”. Può essere
interessante costruire una tabella congiunta per queste due variabili per studiare se
esse sono associate (ossia la categoria delle aziende in cui investono i fondi è in
qualche modo legata con il livello di rischio dei fondi).
1
Questo data set è stato preso dal sito web del libro “Statistica” 2a edizione, di Levine, Krehbiel e
Berenson, APOGEO Editore (http://www.apogeonline.com/libri/88-503-2357-3/allegato/dataset). Nel
suddetto libro il dataset ha la denominazione MUTUALFUNDS2004.xls
1
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Lo strumento da utilizzare è la tabella pivot. Vediamo come fare:
-
cliccare su una cella qualunque del dataset
nella barra dei comandi cliccare su Dati e nel menu che si apre scegliere
Rapporto tabella pivot e grafico pivot... Si apre la finestra di dialogo
della Creazione guidata tabella pivot grafico pivot. Questa finestra
contiene il primo di quattro passi.
Passo 1
- confermare che i dati sono in un Elenco o database Microsoft Excel.
Indicare (selezionando) che il tipo di rapporto da creare è una Tabella
pivot. Cliccare su Avanti.
Passo 2
- confermare che i dati si trovano nell'
intervallo $A$1:$F$122 (nella
finestra l’intervallo selezionato all’inizio della procedura viene scritto con
i dollari). Cliccare su Avanti.
Passo 3
- Cliccare su Layout.
Ora dobbiamo dare il formato desiderato alla tabella. Intendiamo
rappresentare le variabili “categoria” e “rischio”; dobbiamo stabilire quale
delle due va nelle righe e quale delle due nelle colonne della tabella.
Decidiamo che “categoria” è nelle righe e “rischio” è nelle colonne.
- Trascinare il riquadro Categoria (che appare nella parte destra della
finestra) dentro l’area RIGA della tabella
- Trascinare il riquadro Rischio (che appare nella parte destra della
finestra) dentro l’area COLONNA della tabella
- Inoltre trascinare il riquadro Categoria (sempre quello che appare nella
parte destra della finestra) dentro l’area DATI della tabella.
In questo modo Excel produce, all’interno dell’area DATI, un riquadro
conteggio di Categoria. Questo riquadro mostra ciò che apparirà nella
tabella pivot, ossia il conteggio di quante volte le varie coppie di modalità
si presentano nella popolazione di 121 fondi.
Se, invece, di “categoria” avessimo trascinato Rischio dentro l’area
DATI, avremmo ottenuto lo stesso identico risultato2.
Cliccare su OK.
Passo 4
- indicare che si desidera collocare la tabella pivot nel foglio di lavoro
esistente a partire dalla cella H8. Cliccare su Fine.
La tabella pivot apparirà come in Figura 23.
Nella tabella pivot riportata nella Figura 2 le modalità dei due caratteri non sono
ordinate in modo crescente. Se lo si desidera è possibile ordinare le modalità
spostandole con il cursore.
2
In sostanza nell’area DATI può essere inclusa una qualunque delle due variabili nel caso in cui siano
entrambe qualitative (vedremo più avanti che l’inserimento nell’area DATI di una variabile
quantitativa produce risultati ben diversi).
3
Nella tabella: l’ultima riga costituisce la distribuzione marginale del carattere “rischio”; l’ultima
colonna (quella più a destra) è la distribuzione marginale del carattere “categoria”; le righe interne alla
tabella (tra la riga di titoli e la riga di totali) rappresentano le distribuzioni condizionate del carattere
“rischio” date, separatamente, le modalità di “categoria”; le colonne interne alla tabella (tra la colonna
di titoli e la colonna di totali) rappresentano le distribuzioni condizionate del carattere “categoria” date,
separatamente, le modalità di “rischio”.
2
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Figura 2
Se, ad esempio, si vogliono ordinare le modalità della variabile “categoria” basta
cliccare su “grandi” e poi muovere il cursore finché (in corrispondenza del bordo
della cella contenente “grandi”) assume la forma di una freccia. A questo punto
cliccare e tenere premuto il tasto sinistro del mouse fino portare la freccia sotto al
bordo inferiore della cella in cui “grandi” deve essere collocato. Eseguire la stessa
procedura per spostare “medie”. Cliccare sulla cella contenente “medie” e quando il
cursore diventa una freccia, cliccare il tasto destro del mouse e tenere premuto
trascinando la cella “medie” fino a che la freccia arriva al bordo inferiore della cella
di destinazione.
Notate che ogni volta che si trascina una modalità, con essa viene spostata l’intera
riga a cui questa modalità appartiene.
Se si vogliono ordinare anche le modalità di “rischio” eseguire la stessa procedura.
Modificare la tabella ottenuta.
•
È possibile scrivere la distribuzione doppia come due distribuzioni univariate
collegate fra loro. Vediamo come fare:
cliccare sulla cella a sfondo grigio con scritto Rischio e trascinare fino al bordo
sinistro della cella a sfondo grigio con scritto Categoria.
In questo modo si rappresenta la distribuzione per categoria separatamente per
ogni livello di rischio.
In altre parole si rappresentano una sotto l’altra le tre distribuzioni condizionate
della variabile “categoria” dati: “rischio”= alto, “rischio”= basso e “rischio”=
medio.
Ecco come appare la nuova tabella:
3
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Conteggio of Categoria
Rischio
Categoria
alto
grandi
medie
piccole
alto Totale
basso
grandi
medie
piccole
basso Totale
medio
grandi
medie
piccole
medio Totale
Grand Totale
Tabella 1
Totale
6
2
9
17
19
7
32
58
17
10
19
46
121
A partire dalla tabella nella Figura 2 è possibile, in modo analogo a quanto visto
sopra, costruire la tabella che mostra separatamente per ogni tipo di categoria la
distribuzione dei fondi per livello di rischio.
•
Quando, come nella tabella sopra, le righe sono date dalla combinazione di due
variabili (per ogni modalità di “rischio” sono elencate le tre modalità di
“categoria”), è possibile nascondere i dettagli relativi alla variabile più a destra
della due (in questo caso “categoria”)4.
Per fare ciò si possono utilizzare le icone nella barra degli strumenti della tabella
pivot.
(Se la barra degli strumenti della tabella pivot non è sullo schermo allora: cliccare
nella barra dei comandi su Visualizza, nel menu che si apre scegliere Barre
degli strumenti e poi Tabella Pivot.)
- Cliccare sulla cella a sfondo grigio Rischio
- Nella barra della Tabella pivot cliccare sull’icona Nascondi dettagli (la
quinta icona da destra al cui interno è raffigurato un segno meno).
Si ottiene la seguente tabella seguente:
Conteggio di Categoria
Rischio
alto
basso
medio
Grand Total
Categoria
Tabella 2
Total
17
58
46
121
Si noti che questa tabella altro non è che la distribuzione marginale del carattere
“Rischio”.
Se si desidera tornare alla tabella 1 basta cliccare nella barra Tabella pivot
sull’icona Mostra dettagli (la quarta icona da destra al cui interno è raffigurato un
segno +).
•
Torniamo a considerare la tabella in Figura 2. Possiamo invertire le righe e le
colonne. Vediamo come fare:
4
Le descrizioni delle icone nella barra degli strumenti Tabella Pivot sono relative alla versione di
Excel di Office2000 e precedenti.
4
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
trascinare la cella a sfondo grigio Categorie sulla cella Totale
complessivo (cella L9)
trascinare la cella a sfondo grigio Rischio nello cella Totale
Costruzione di tabelle per tre variabili (tabelle a tre vie)
Dal momento che il dataset contiene più di due variabili possiamo costruire anche
tabelle per tre variabili. Queste tabelle riportano al loro interno le frequenze con le
quali si osservano nel nostro data set le diverse terne di modalità delle tre variabili
considerate.
Si potrebbe ricominciare daccapo la costruzione della tabella pivotale ma, avendone
già costruita una per due variabili, è più immediato incorporare la terza variabile nella
tabella esistente.
- cliccare su una qualunque cella della tabella pivotale
- nella barra dei strumenti Tabella pivot cliccare sull’icona Creazione
guidata Tabella pivot (la sesta icona da destra).
In questo modo ci si trova al passo 3 della costruzione della tabella pivotale.
- cliccare su Layout
- trascinare il riquadro Orientamento (che appare nella parte destra della
finestra di dialogo) dentro l’area PAGINA della tabella
Cliccare su OK.
- indicare che si desidera collocare la tabella pivot nel foglio di lavoro
esistente a partire dalla cella H18. Cliccare su Fine.
Si ottiene la tabella (nel cerchio rosso) mostrata nella Figura 3
Figura 3
Vediamo che sopra la cella a sfondo grigio H18 (Conteggio di categoria) appare la
cella a sfondo grigio H16 (Orientamento). Accanto ad essa (ossia nella cella I16)
5
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
abbiamo la cella che consente di controllare la modalità del carattere Orientamento
condizionatamente alla quale osserviamo la distribuzione doppia (ovverosia la tabella
doppia nelle celle H18:L23). Vediamo che nella cella I16 c’è “tutto”; questo vuol dire
che la tabella doppia è la distribuzione doppia di “Categoria” e “Rischio” (notate che
infatti è uguale alla tabella doppia nelle celle H8:L13. Usando la freccetta nella cella
I16 possiamo scegliere condizionatamente a quale modalità di “Orientamento”
desideriamo vedere la distribuzione doppia di “Categoria” e “Rischio”.
Supponiamo di essere interessati a rappresentare la distribuzione di “Categoria” e
“Rischio” condizionatamente alla modalità crescita di “Orientamento”. Basta cliccare
sulla freccetta che vedete nella cella I16: Si apre un menu (dove sono elencate le
modalità di “Orientamento” inclusa la possibilità “tutto” che significa che non si è
interessati ad una distribuzione condizionata). Si clicca sulla modalità rispetto alla
quale si vuole la tabella di “Categoria” e “Rischio” e poi si clicca OK. Si ottiene la
tabella che si vede cerchiata in rosso nella Figura 4. In questa tabella vediamo che i
fondi orientati alla crescita sono 49 (cella L23). Inoltre possiamo vedere come questi
49 fondi:
si distribuiscono per tipo di categoria (ultima colonna della tabella, L20:L23)
si distribuiscono per livello di rischio (ultima riga della tabella, I23:L23)
si distribuiscono per tipo di categoria e livello di rischio (I20:L22)
si distribuiscono per tipo di categoria condizionatamente a uno specifico livello di
rischio (colonne interne alla tabella)
si distribuiscono per livello di rischio condizionatamente a una specifica categoria
(righe interne alla tabella)
Figura 4
6
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Modificare una tabella a tre vie.
•
La variabile nell’area pagina (nel nostro esempio “Orientamento”) può essere
scambiata con una delle altre due variabili. Vediamo come fare per scambiare di
posto “Orientamento” con “Rischio”.
-
trascinare la cella a sfondo grigio Rischio I18 sotto la cella a sfondo grigio
Orientamento (ossia trascinare nella cella H17 il nome della variabile che si
vuole mettere nell’area pagina)
-
Cliccare sulla cella a sfondo grigio “Orientamento” e trascinarla nella cella
(I19) dove è scritto Totale (ossia trascinare dentro la cella dove è scritto Totale
il nome della variabile che si vuole mettere nell’area colonna).
Si ottiene la seguente tabella:
Rischio
(All)
Count of Categoria
Categoria
grandi
medie
piccole
Grand Total
Orientamento
crescita
valore
23
9
17
49
19
10
43
72
Grand Total
42
19
60
121
Tabella 3
•
Una variabile può essere eliminata dalla tabella pivotale (senza dover ripetere i
passi della costruzione della tabella). Per fare questo basta cliccare sul nome della
variabile che si vuole togliere (ossia nella cella a sfondo grigio in cui è scritto tale
nome) e trascinare la cella fuori dell’area della tabella pivotale. In questo modo
rimane una tabella a due variabili.
Se si vuole ripristinare la tabella a tre variabili basta cliccare nella barra dei
comandi su Edit e nel menu che si apre scegliere Annulla.
Costruzione di tabelle a due variabili quando uno dei caratteri è
quantitativo.
Per il momento abbiamo visto la costruzione di tabelle (a due e a tre vie) nel caso in
cui i caratteri considerati siano qualitativi. Tale metodo vale anche nel caso in cui uno
o più caratteri che si intendono rappresentare nella tabella siano quantitativi discreti
con un numero ridotto di modalità.
Consideriamo il nostro dataset e vediamo che tra i caratteri c’è “Rendimento a 5 anni”
(d’ora innanzi indichiamo questa variabile con “Rendimento”). Questo è quantitativo
continuo e, come si può vedere osservando i dati nella colonna F, assume un numero
estremamente elevato di modalità (al limite potrebbe succedere che i 121 fondi hanno
tutti rendimenti diversi).
Se noi usassimo direttamente il metodo della tabella pivotale mettendo, per esempio,
“Rendimento” nell’area RIGA, otterremmo in output una tabella con un elevatissimo
numero di righe. Questa tabella non costituirebbe una sintesi e sarebbe poco leggibile.
Pertanto prima di passare all’uso della tabella pivot, è necessario: dividere il carattere
in classi e assegnare ciascuna unità statistica alla sua classe di appartenenza.
L’operazione da eseguire è una ricodifica dei dati.
7
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Consideriamo il carattere “Rendimento” e costruiamo quattro classi i cui estremi
superiori sono nelle celle H2:H5 e i cui valori centrali sono nelle celle I2:I5. Ciascuna
classe viene rappresentata con il suo valore centrale. La procedura di ricodifica si basa
sull’uso di funzioni logiche del tipo SE.
Vediamo come fare:
- inserire quattro colonne prima della colonna G. Per fare questo cliccare su
G. Nella barra dei comandi cliccare su Inserisci e nel menu che si apre
scegliere Colonne. Ripetere questa operazione altre tre volte.
- Nella cella G1 scrivere I classe
- Nella cella H1 scrivere II classe
- Nella cella I1 scrivere III classe
- Nella cella J1 scrivere IV classe
- Nella cella G2 scrivere la formula =SE(F2<=6;3;0)
Alternativamente questa formula può essere scritta usando Inserisci/Funzione.
Cliccare nella barra dei comandi su Inserisci e poi scegliere Funzione. Nella
finestra di dialogo che si apre scegliere Logiche tra le categorie di funzioni. Il
nume della funzione è SE. Cliccare OK. Si apre una finestra di dialogo.
Nello spazio bianco accanto a Test va inserita la regola da verificare (ossia
l’appartenenza alla prima classe). Questa regola è F2<=6
Nello spazio bianco accanto a Se_vero va inserito il valore che la funzione
assume se la regola sopra è verificata. Nel nostro caso, quindi va inserito il
valore centrale della prima classe (ossia 3) visto che ci stiamo occupando, per
il momento, della codifica della prima classe.
Nello spazio bianco accanto a Se_falso va inserito il valore che la funzione
assume se la regola sopra non è verificata. Nel nostro caso, inseriamo 0
Cliccare OK.
- Trascinare la formula fino a coprire la cella G122
- Nella cella H2 scrivere la formula =SE(E(F2>6;F2<=13);9,5;0)
La colonna H è dedicata alla II classe e quindi si verifica che i rendimenti
siano maggiori di 6 e minori o uguali a 13; questo si scrive con la funzione E
in cui le due condizioni, F2>6 e F2<=13, che devono essere verificate
congiuntamente, sono separate dal punto e virgola.
Come per la colonna G, questa formula può essere inserita anche usando
Inserisci/Funzione/Logiche e poi scegliendo la funzione SE. In questo caso
nello spazio bianco accanto a Test va scritta la regola che è E(F2>6;F2<=13).
Nel Se_vero va scritto 9,5; nel Se_falso va scritto 0. Infine cliccare su OK.
- Trascinare la formula fino a coprire la cella H122
- Nella cella I2 scrivere la formula =SE(E(F2>13;F2<=20);16,5;0)
La colonna I è dedicata alla III classe e quindi si verifica che i rendimenti
siano maggiori di 13 e minori o uguali a 20; questo si scrive con la funzione E
in cui le due condizioni, F2>13 e F2<=20, che devono essere verificate
congiuntamente, sono separate dal punto e virgola.
Come per la colonna H, questa formula può essere inserita anche usando
Inserisci/Funzione/Logiche e poi scegliendo la funzione SE. In questo caso
nello spazio bianco accanto a Test va scritta la regola che è E(F2>13;F2<=20).
Nel Se_vero va scritto 16,5; nel Se_falso va scritto 0. Infine cliccare su OK.
- Trascinare la formula fino a coprire la cella I122
- Nella cella J2 scrivere la formula =SE(F2>20;25;0)
Come per la colonna G, questa formula può essere inserita anche usando
Inserisci/Funzione/Logiche e poi scegliendo la funzione SE. In questo caso
8
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
nello spazio bianco accanto a Test va scritta la regola che è F2>20. Nel
Se_vero va scritto 25; nel Se_falso va scritto 0. Infine cliccare su OK.
Trascinare la formula fino a coprire la cella J122
Ora abbiamo una colonna per ciascuna classe. Nelle diverse colonne abbiamo gli zeri
in corrispondenza di rendimenti che non appartengono alla classe a cui si riferisce la
colonna. Non resta quindi che costruire una ultima colonna che metta insieme le
quattro precedentemente calcolate. Questo si fa sommando per riga i risultati delle
colonne appena costruite.
- inserire una colonna prima della colonna K. Per fare questo cliccare su K.
Nella barra dei comandi cliccare su Inserisci e nel menu che si apre scegliere
Colonne.
- Nella cella K1 scrivere Classe di rendimento
- Nella cella K2 scrivere la formula =SOMMA(G2:J2)
- Trascinare la formula fino a coprire la cella K122
La variabile “classe di rendimento” si sarebbe potuta costruire anche con un unico
passaggio. Finora si è voluto spiegare il meccanismo logico che conduce al calcolo di
tale variabile. Se avessimo voluto calcolare la variabile “classe di rendimento” con
un solo passaggio, avremmo dovuto usare la seguente espressione logica
=SE(F2<=6;3;SE(F2<=13;9,5;SE(F2<=20;16,5;25)))
Il risultato dell’uso di questa funzione è mostrato nella colonna L del file
“esercizio8_svolto.xls”.
Questa funzione può essere anche scritta usando Inserisci/Funzione/Logiche e poi
scegliendo la funzione SE. Nello spazio bianco accanto a Test va scritta la regola
F2<=6. Nel Se_vero va scritto 3; nel Se_falso va scritto
SE(F2<=13;9,5;SE(F2<=20;16,5;25)). Infine cliccare su OK.
Una volta effettuata la ricodifica, possiamo passare a costruire una tabella a doppia
entrata usando il metodo della tabella pivotale.
Costruiamo la tabella per “classe di rendimento” e “Rischio”.
- cliccare su una cella qualunque del dataset
- nella barra dei comandi cliccare su Dati e nel menu che si apre scegliere
Rapporto tabella pivot e grafico pivot...
Passo 1
- confermare che i dati sono in un Elenco o database Microsoft Excel.
Indicare (selezionando) che il tipo di rapporto da creare è una Tabella
pivot. Cliccare su Avanti.
Passo 2
- confermare che i dati si trovano nell'
intervallo $A$1:$L$122. Cliccare su
Avanti.
Passo 3
- Cliccare su Layout.
Decidiamo che “Classe di rendimento” è nelle righe e “rischio” è nelle
colonne.
- Trascinare il riquadro Classe di rendimento (che appare nella parte
destra della finestra) dentro l’area RIGA della tabella
- Trascinare il riquadro Rischio (che appare nella parte destra della
finestra) dentro l’area COLONNA della tabella
- Inoltre trascinare il riquadro Rischio (sempre quello che appare nella
parte destra della finestra) dentro l’area DATI della tabella.
9
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
In questo modo Excel produce, all’interno dell’area DATI, un riquadro
conteggio di Rischio.
In questo caso se ci interessa costruire una tabella di frequenze assolute,
dobbiamo inserire nell’area DATI la variabile “Rischio”. 5
Cliccare su OK.
Passo 4
indicare che si desidera collocare la tabella pivot nel foglio di lavoro
esistente a partire dalla cella N27. Cliccare su Fine.
La tabella pivot apparirà come in Figura 5
Figura 5
Notate che la cella che si riferisce alla modalità 9,5 di “Classe di rendimento” e alla
modalità alto di “Rischio” è vuota. Questo sta a significare che nessuno dei 121 fondi
esaminati è ad alto rischio e appartiene alla classe di rendimento con centro 9,5. Per
una migliore leggibilità della tabella può essere utile che se ci sono celle vuote allora
nella tabella appaia lo zero. Per fare questo basta cliccare su una cella qualunque della
tabella pivotale. Quindi nella barra dei strumenti Tabella pivot cliccare sull’icona
Creazione guidata Tabella pivot (la sesta da destra). Cliccare su Opzioni. Si
apre una nuova finestra. Dove è scritto Per le celle vuote mostra scrivere 0.
Cliccare su OK. Cliccare su Fine.
Prime elaborazioni su una distribuzione doppia.
Una volta che abbiamo una tabella a doppia entrata possiamo eseguire alcune
operazioni.
•
Calcolo delle frequenze relative della distribuzione doppia
•
Calcolo delle frequenze relative delle distribuzioni condizionate
5
Se inserissimo la variabile quantitativa “Classi di rendimento” (che, si ricordi, ha come modalità i
valori centrali delle classi) si otterrebbe in automatico una distribuzione di quantità e non una
distribuzione di frequenze. Per ottenere la distribuzione di frequenze occorrerebbe un passaggio
aggiuntivo.
10
Corso di
Statistica Computazionale
•
Prof.ssa Paola Vicard
Calcolo di indici (di posizione e di variabilità) con riferimento alla distribuzione
(marginale o condizionata) di una delle due variabili.
Calcolo delle frequenze relative della distribuzione doppia
- Copiare le modalità di “classe di rendimento”. Selezionare N29:N33.
Premere contemporaneamente i tasti ctrl c
- Incollare le modalità di “classe di rendimento”. Cliccare su N36. Premere
contemporaneamente i tasti ctrl v
- Copiare le modalità di “rischio”. Selezionare O28:R28. Premere
contemporaneamente i tasti ctrl c
- Incollare le modalità di “rischio”. Cliccare su O35. Premere
contemporaneamente i tasti ctrl v
- nella cella O36 scrivere la formula =O29/$R$33
notare che in questo caso occorre bloccare a denominatore lo scorrimento sia
per colonne che per righe in quanto la formula va copiata in tutte le celle della
tabella (riga e colonna dei totali incluse).
- Trascinare la formula per riga e per colonna in modo da coprire tutte le
celle incluse nel rettangolo O36:R40.
- Si può modificare il numero di decimali usando l’icona (presente nella barra
degli strumenti di Excel, si veda Figura 1 di questa nota) diminuisci decimali
oppure cliccando nella barra dei comandi su Formato/celle e scegliendo
“numero” tra le categorie possibili e fissando le “posizioni decimali”.
Calcolo delle frequenze relative delle distribuzioni condizionate
Si ricordi che le distribuzioni condizionate sono date dalle colonne interne alla tabella
(distribuzioni di “classi di rendimento” condizionate a una modalità di “rischio”) e
dalla righe interne alla tabella (distribuzioni di “rischio” condizionate a una modalità
di “classi di rendimento”).
Calcoliamo le frequenze relative delle distribuzioni di “classe di rendimento”
condizionate alle modalità di “rischio”.
- Copiare le modalità di “classe di rendimento”. Selezionare N29:N33.
Premere contemporaneamente i tasti ctrl c
- Incollare le modalità di “classe di rendimento”. Cliccare su N44. Premere
contemporaneamente i tasti ctrl v
- Copiare le modalità di “rischio”. Selezionare O28:R28. Premere
contemporaneamente i tasti ctrl c
- Incollare le modalità di “rischio”. Cliccare su O43. Premere
contemporaneamente i tasti ctrl v
- nella cella O44 scrivere la formula =O29/O$33
in questo caso si deve bloccare a denominatore lo scorrimento solo sulle righe.
- Trascinare la formula fino a coprire O48.
- Selezionare O44:O48 e trascinare fino a coprire le celle R44:R48.
Se il calcolo è eseguito in modo corretto, nell’ultima riga ci devono essere tutti 1.
Calcoliamo le frequenze relative delle distribuzioni di “rischio” condizionate alle
modalità di “classe di rendimento”.
- Copiare le modalità di “classe di rendimento”. Selezionare N29:N33.
Premere contemporaneamente i tasti ctrl c
- Incollare le modalità di “classe di rendimento”. Cliccare su N52. Premere
contemporaneamente i tasti ctrl v
11
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Copiare le modalità di “rischio”. Selezionare O28:R28. Premere
contemporaneamente i tasti ctrl c
- Incollare le modalità di “rischio”. Cliccare su O51. Premere
contemporaneamente i tasti ctrl v
- nella cella O52 scrivere la formula =O29/$R29
in questo caso si deve bloccare a denominatore lo scorrimento solo sulle
colonne.
- Trascinare la formula fino a coprire R52.
- Selezionare O52:R52 e trascinare fino a coprire le celle O56:R56.
Se il calcolo è eseguito in modo corretto, nell’ultima colonna ci devono essere tutti 1.
-
Calcolo di indici (di posizione e di variabilità)
→ A partire da una tabella a doppia entrata.
Data una tabella a doppia entrata, il calcolo di indici di posizione e/o di variabilità con
riferimento alla distribuzione (marginale o condizionata) di una delle due variabili
viene eseguito seguendo le procedure viste nelle note precedenti. Infatti per effettuare
il calcolo è sufficiente estrarre dalla tabella la distribuzione univariata di interesse.
Se, ad esempio, si vuole calcolare la media condizionata del rendimento
condizionatamente a “rischio”=medio allora basta estrarre i dati dalla tabella
copiandone la prima colonna (quella delle modalità di “Classe di rendimento”) e la
quarta colonna (quella contenente le frequenze assolute che si riferiscono ai fondi a
medio rischio).
- nella cella T28 scrivere classe di rendimento
- nella cella U27 scrivere Rischio=medio
- nella cella U28 scrivere n[i]
- Selezionare N29:N33. Premere contemporaneamente i tasti ctrl c
- Cliccare su T29. Premere contemporaneamente i tasti ctrl v
- Selezionare Q29:Q33. Premere contemporaneamente i tasti ctrl c
- Incollare le modalità di “rischio”. Cliccare su U29. Premere
contemporaneamente i tasti ctrl v
- A questo punto si ha una distribuzione di frequenze per un carattere e
possiamo applicare: (a) quanto visto nella nota 4 per il calcolo di moda, media
e mediana (per questa occorre anche l’informazione sull’estremo superiore
delle classi che, si ricorda, è data ed è ora in N2:N5); (b) quanto visto nella
nota 5 per il calcolo della varianza e della deviazione standard.
Per calcolare la media condizionata si può usare direttamente la tabella pivot.
Si ricordi che nella tabella pivot che abbiamo costruito per “classe rendimento” e
“rischio”, nell’area DATI abbiamo inserito “Rischio” perché ci interessava avere
come output immediato le frequenze assolute.
Per usare la tabella pivot per il calcolo dei rendimenti medi dobbiamo inserire
nell’area DATI la variabile “Classe di rendimento”.
Questo si può fare o costruendo ex novo la tabella pivot o modificando la tabella pivot
già disponibile. Nel primo caso
- cliccare su una cella qualunque del dataset
- nella barra dei comandi cliccare su Dati e nel menu che si apre scegliere
Rapporto tabella pivot e grafico pivot...
Passo 1
12
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
confermare che i dati sono in un Elenco o database Microsoft Excel.
Indicare (selezionando) che il tipo di rapporto da creare è una Tabella
pivot. Cliccare su Avanti.
Passo 2
- confermare che i dati si trovano nell'
intervallo $A$1:$L$122. Cliccare su
Avanti. Se chiesto se si vuole basare la tabella pivot sugli stessi dati di
quella esistente rispondere SI.
Passo 3
- Cliccare su Layout.
“Classe di rendimento” è nelle righe e “rischio” è nelle colonne.
- Trascinare il riquadro Classe di rendimento (che appare nella parte
destra della finestra) dentro l’area RIGA della tabella
- Trascinare il riquadro Rischio (che appare nella parte destra della
finestra) dentro l’area COLONNA della tabella
- Inoltre trascinare il riquadro Classe di rendimento (sempre quello che
appare nella parte destra della finestra) dentro l’area DATI della tabella.
In questo modo Excel produce, all’interno dell’area DATI, un riquadro
Somma di Classe di rendimento.
Infatti Excel in automatico fornisce: (a) la somma di una variabile
numerica (come classe di rendimento le cui modalità sono i valori centrali
delle classi); (b) il conteggio (le frequenze) di una variabile qualitativa
Cliccare su OK.
Passo 4
indicare che si desidera collocare la tabella pivot nel foglio di lavoro esistente a
partire dalla cella N62. Cliccare su Fine.
-
Ottengo la medesima tabella se modifico quella già disponibile (nelle celle N27:R33).
Cliccare su una cella della tabella da modificare. Nella barra dei strumenti Tabella
pivot cliccare sull’icona Creazione guidata Tabella pivot (la sesta da destra).
Cliccare su Layout. Portare fuori dell’area DATI “conteggio di rischio”. Inserire
nell’area DATI “Classe di rendimento”. Cliccare OK. Cliccare Fine.
La tabella pivot andrà a sostituire quella esistente.
Data la tabella pivot ottenuta in uno qualunque dei due modi precedenti. Calcolare le
medie di Rendimento marginale oppure condizionate ai livelli di rischio è molto
semplice. Lavoriamo sulla tabella nelle celle N62:R68.
- fare doppio click su N62 (ossia Somma di classe di rendimento).
- Si apre la finestra Campo Pivot Table. Nello spazio destinato a Riepiloga per
scegliere Media
Osservate che il menu di riepiloga per è piuttosto ricco e contiene al suo
interno misure di nostro interesse: 1) Conta, con cui si ottiene la distribuzione
di frequenze; 2) Media con cui si calcolano le medie (marginale e
condizionate); 3) varianza pop con cui si calcolano le varianze (marginale e
condizionate); 4) Dev.standard pop con cui si calcolano le deviazioni
standard (marginale e condizionate)
- Cliccare OK.
Nelle celle O68:Q68 ci sono le medie del rendimento condizionate ai diversi
livelli di rischio nella cella R68 c’è la media (marginale) dei rendimenti.
→ A partire dalla distribuzione doppia per unità.
13
Corso di
Statistica Computazionale
Prof.ssa Paola Vicard
Se abbiamo a disposizione l’intera distribuzione per unità possiamo procedere al
calcolo della media dei rendimenti direttamente dalla lista dei dati (F2:F122)
ottenendo così dei valori esatti (e non approssimati come finora fatto dal momento
che ciascuna classe è stata rappresentata dal suo valore centrale).
Il calcolo della media, della varianza e della deviazione standard è molto semplice
perché si tratta di una distribuzione univariata e quindi usano direttamente le funzioni
=media(F2:F122) per la media, =VAR.POP(F2:F122) per la varianza,
=DEV.ST.POP(F2:F122) per la deviazione standard.
Il discorso è diverso se si vogliono calcolare, ad esempio, le medie condizionate.
Vediamo come fare.
Dobbiamo calcolare le medie di “rendimento” condizionatamente a “rischio”=basso,
“rischio”=medio, “rischio”=alto.
Iniziamo dalla media condizionata di rendimento dato “rischio”=basso. Questa è data
da
somma dei rendimenti dei fondi a basso rischio
.
numero di fondi a basso rischio
Vediamo che né il numeratore né il denominatore sono direttamente disponibili. Essi
sono facilmente calcolabili mediante le funzioni SOMMA.SE (per il numeratore) e
CONTA.SE (per il denominatore).
- nella cella N71 scrivere Totale rendimenti fondi basso rischio
- nella cella O71 scrivere la formula
=SOMMA.SE(D2:D122;"basso";F2:F122)
Se non vi ricordate la formula potete usare Inserisci/Funzione/matematiche e
poi scegliere SOMMA.SE. Si apre una finestra di dialogo in cui: nello spazio
bianco accanto a Intervallo dovete scrivere dove si trovano le celle su cui va
verificata la condizione del SE (ossia i dati sul rischio, D2:D122); nello
spazio bianco accanto a Criterio va scritto “basso” perchè vogliamo
selezionare solo i fondi a basso rischio (basso è scritto tra virgolette perchè
non è un numero); nello spazio bianco accanto a Int_somma dobbiamo
scrivere dove si trovano i dati da sommare (ossia i nostri rendimenti,
F2:F122).
- nella cella N72 scrivere N° fondi a basso rischio
- nella cella O72 scrivere la formula =CONTA.SE(D2:D122;"basso")
- nella cella N69 scrivere Media esatta
- nella cella P69 (ossia sotto la media condizionata a “rischio”=basso già
calcolata dalla tabella doppia) scrivere la formula =O71/O72
Nello stesso modo possiamo calcolare la media di “rendimento”
condizionatamente a “rischio”=medio.
- nella cella N73 scrivere Totale rendimenti fondi medio rischio
- nella cella O73 scrivere la formula
=SOMMA.SE(D2:D122;"medio";F2:F122)
Se non vi ricordate la formula e usate Inserisci/Funzione/matematiche e poi
SOMMA.SE i dati di input sono quelli visti nel somma.se vincolata a
“rischio”=basso con la sola differenza che nello spazio bianco accanto a
Criterio va scritto “medio” perché vogliamo selezionare solo i fondi a medio
rischio.
- nella cella N74 scrivere N° fondi a medio rischio
- nella cella O74 scrivere la formula =CONTA.SE(D2:D122;"medio")
14
Corso di
Statistica Computazionale
-
Prof.ssa Paola Vicard
nella cella Q69 (ossia sotto la media condizionata a “rischio”=medio già
calcolata dalla tabella doppia) scrivere la formula =O73/O74
Nello stesso modo possiamo calcolare la media di “rendimento”
condizionatamente a “rischio”=alto.
- nella cella N75 scrivere Totale rendimenti fondi alto rischio
- nella cella O75 scrivere la formula
=SOMMA.SE(D2:D122;"alto";F2:F122)
Se non vi ricordate la formula e usate Inserisci/Funzione/matematiche e poi
SOMMA.SE i dati di input sono quelli visti nel somma.se vincolata a
“rischio”=alto con la sola differenza che nello spazio bianco accanto a
Criterio va scritto “medio” perché vogliamo selezionare solo i fondi a medio
rischio.
- nella cella N76 scrivere N° fondi a alto rischio
- nella cella O76 scrivere la formula =CONTA.SE(D2:D122;"alto")
- nella cella O69 (ossia sotto la media condizionata a “rischio”=alto già
calcolata dalla tabella doppia) scrivere la formula =O75/O76
Infine, possiamo calcolare la media generale usando la funzione MEDIA.
Nella cella R69 scrivere la formula =MEDIA(F2:F122)
Se si vogliono calcolare le varianze condizionate allora la procedura è un pochino più
complessa. La formula della varianza più comoda da usare in questa contesto è
1
2
2
σ Rendimento|Rischio=basso
=
x 2 − µ Rendimento|Rischio=basso
n° fondi basso rischio i:rischio=basso i
Dal momento che non esiste una funzione in Excel che somma i quadrati
condizionatamente al verificarsi di una condizione, è necessario innanzitutto costruire
una colonna con i quadrati dei rendimenti per poi usare SOMMA.SE.
Passiamo al calcolo della varianza dei rendimenti condizionata a “rischio”=basso.
- Nella cella W1 scrivere Rend.^2
- nella cella W2 scrivere la formula =F2^2
- trascinare la formula fino a coprire la cella W122.
- nella cella N77 scrivere Rendimenti^2 fondi a basso rischio
- nella cella O77 scrivere la formula
=SOMMA.SE(D2:D122;"basso";W2:W122)
Adesso abbiamo tutti gli elemtni per il calcolo della varianza
- nella cella N70 scrivere Varianza esatta
- nella cella P70 scrivere la formula =O77/O72-P69^2
In modo del tutto analogo possiamo calcolare le altre varianze condizionate. Trovate i
risultati nel file “esercizio8_svolto.xls”
Per calcolare la varianza generale scrivere nella cella R70 la formula
=VAR.POP(F2:F122).
Se volete confrontare la varianze esatte calcolate ora con le varianze approssimate
calcolabili dalla tabella pivotale, basta fare doppio click sulla cella N62 (Media di
classe di rendimento) e nel menu di riepiloga per scegliere Varianza pop.
15