xyxyxy - Unibas

Università degli Studi di Basilicata – Facoltà di Economia
Corso di Laurea in Economia Aziendale - a.a. 2012/2013
lezioni di statistica del 15 e 18 aprile 2013
- di Massimo Cristallo -
A1. Le relazioni tra i fenomeni
In molte applicazioni pratiche si è interessati a stabilire se determinate circostanze
influenzano un certo carattere statistico e, nel caso in cui l’influenza esiste, a indagare
i modi e l’intensità con cui essa si manifesta.
Se vi è assenza di qualsiasi legame tra due caratteri X e Y, cioè X è indipendente
da Y, allora qualunque valore assunto dal carattere X non modifica la distribuzione del
carattere Y.
Se i caratteri quantitativi X e Y si influenzano reciprocamente, cioè tra gli stessi
caratteri esiste un certo grado di associazione ma non è possibile stabilire quale dei
due influenza l’altro, si parla di analisi dell’interdipendenza.
Aspetti legati all’interdipendenza sono la concordanza e la discordanza.
Si ha concordanza tra due caratteri quantitativi se ai valori più piccoli di un
carattere corrispondono generalmente valori più piccoli dell’altro, e se a quelli più
grandi corrispondono in genere i valori più grandi. In caso contrario, cioè se ai valori
più piccoli di un carattere corrispondono generalmente valori più grandi dell’altro, e
se a quelli più grandi corrispondono in genere i valori più piccoli, si parla di
discordanza.
Per poter stabilire il tipo di relazione tra i due caratteri, può risultare utile
rappresentare i dati osservati, cioè gli N punti di coordinate ( x i , yi ) , in un sistema di
assi cartesiani ortogonali. Ogni punto ( x i , yi ) rappresenta la coppia di valori relativa
ad un singolo caso osservato.
La rappresentazione nel piano cartesiano dei punti ( x1 , y1 ) , ( x 2 , y2 ) ,..., ( x N , y N )
determina una nuvola intorno ad una retta crescente o decrescente a seconda che vi
sia, rispettivamente, concordanza o discordanza tra i caratteri osservati.
E’ evidente che nel caso di concordanza, gli scarti delle diverse modalità dei
caratteri X e Y rispetto alle rispettive medie saranno, per la maggior parte, entrambi
positivi o entrambi negativi, quindi il loro prodotto sarà senz’altro positivo. Viceversa,
nel caso di discordanza, gli scarti delle diverse modalità dei caratteri X e Y rispetto alle
rispettive medie saranno, per la maggior parte, di segno contrario, quindi il loro
prodotto sarà senz’altro negativo.
Una misura dell’interdipendenza è fornita dalla codevianza, così definita:
Codev (X, Y) = ∑ ( x i − µ x ) ( yi − µ y )
N
(1)
i =1
ove µ x e µ y denotano, rispettivamente, la media aritmetica dei caratteri X e Y. Per le
cose dette, la codevianza assume valore positivo o negativo a seconda che vi sia
concordanza o discordanza.
Un indicatore più utile del precedente è la covarianza, ottenuta rapportando la
codevianza al numero delle unità rilevate, in modo da eliminare l’influenza della
numerosità delle osservazioni:
∑ ( x i − µ x ) ( yi − µ y )
N
σ xy =
i =1
(2)
N
e che assume valore positivo o negativo a seconda che vi sia concordanza o
discordanza tra i caratteri in esame.
E’ immediato notare la similitudine della formula della covarianza con quella
della varianza. Infatti, se i caratteri X e Y fossero coincidenti si otterrebbe esattamente
la formula della varianza.
La covarianza misura l’associazione lineare tra due caratteri quantitativi. Tale
misura, però, ha il difetto di essere influenzata dal grado di variabilità dei caratteri
esaminati. Per gli stessi motivi già evidenziati per gli indici di variabilità assoluta,
anche in questo caso è possibile costruire un indice “relativo”, cioè privo di unità di
misura, per misurare la concordanza o discordanza.
Poiché si dimostra che il massimo valore che la covarianza tra due caratteri X e
Y può assumere è pari al prodotto delle deviazioni standard dei medesimi caratteri,
cioè:
Max σ xy = σ x ⋅ σ y
(3)
rapportando la (2) alla (3) si ottiene un indice relativo di concordanza o discordanza.
Tale indice, noto come coefficiente di correlazione di Bravais-Pearson, è dato dal
rapporto:
∑( x
N
σ
ρ xy = xy =
σ x ⋅σ y
i =1
∑( x
N
i =1
i
i
− µx
− µx
)(y
i
− µy
) ∑( y
2
N
i =1
i
)
− µy
)
.
(4)
2
E’ immediato dedurre che −1 ≤ ρ xy ≤ + 1 , ove in particolare risulta ρ xy = − 1 in
caso di perfetta relazione lineare decrescente tra i due caratteri, mentre ρ xy = + 1 in
caso di perfetta relazione lineare crescente tra i due caratteri.
2
Difficilmente ρ xy assume i valori estremi sopra indicati. Tuttavia, si può
affermare che valori di ρ xy vicini a − 1 denotano una elevata discordanza tra i due
caratteri in esame, al contrario valori di ρ xy vicini a + 1 rilevano una elevata
concordanza.
L’interpretazione del coefficiente di correlazione ρ xy è in alcuni casi complicata
dalla circostanza che altri fattori variabili influiscono più o meno fortemente quelli
presi in considerazione. In questi casi la correlazione tra X e Y è per la maggior parte
dovuta a quella esistente tra ciascuna variabile e una o più altre variabili.
Ad esempio, la correlazione positiva tra la produzione nel tempo di alcune
“coppie” di prodotti agricoli, come ad esempio il grano e il vino, potrebbe essere
dovuta all’influenza esercitata dalle condizioni meterologiche su entrambi i prodotti
considerati.
Se i caratteri quantitativi X e Y non si influenzano reciprocamente, ma sul piano
logico è ipotizzabile, invece, una dipendenza del carattere Y dal carattere X secondo
una struttura funzionale lineare (retta) ŷ = α + β x ove le quantità α e β sono ignote,
si pone allora il problema di stabilire quali siano i valori dei parametri α e β che
possono meglio descrivere la relazione (di dipendenza) tra i caratteri in esame.
I suddetti parametri vengono generalmente determinati, a partire dai dati
osservati, imponendo la condizione che:
∑ (α + β x
N
i
i =1
− yi
)
2
= minimo
(5)
cioè che la funzione da scegliere si avvicini quanto più possibile alle osservazioni yi .
Si dimostra che i valori dei parametri β e α che soddisfano la (5) sono dati dalle
espressioni seguenti:
β=
σ xy
σ x2
α = µy − β ⋅ µx
(6)
(7)
La (6) e la (7) rappresentano, rispettivamente, il coefficiente di regressione e
l’intercetta di quella retta che fra le infinite rette del piano (che si ottengono
modificando i valori di α e β ) più si adatta alla relazione esistente tra i caratteri in
esame.
Un indice che permette di stabilire se il modello stimato presenta, o meno, un
buon adattamento ai dati osservati, è il coefficiente di determinazione:
3
∑ ( ŷi − µ y )
N
R2 =
i =1
N
∑ ( yi − µ y
i =1
2
)
(8)
2
che varia tra 0 (caso di indipendenza) e 1 (caso di perfetto legame funzionale tra i due
caratteri).
Se il modello è buono, allora può essere utilizzato per fare previsioni sul
fenomeno oggetto di indagine.
Si osservi che la rappresentazione grafica dei dati osservati potrà orientarci sulla
scelta del tipo di funzione da utilizzare nei casi concreti, salvo che si dispone di una
conoscenza specifica riguardo alla relazione che lega i due caratteri quantitativi in
esame. Per questioni di semplicità, la nostra analisi è stata limitata al caso di una
funzione lineare.
___________________________________________________________
B1. Nella tabella che segue sono riportate le serie storiche del tasso di indebitamento delle
famiglie, in percentuale, (X) e del fabbisogno di energia elettrica, in migliaia di megawatt,
(Y) in un dato Paese nel periodo 2008-2012:
Anni
2008
2009
2010
2011
2012
X
27,8
31,1
32,6
32,6
35,1
Y
279
286
299
305
311
i. si calcoli il coefficiente di correlazione lineare tra le due serie storiche,
illustrandone il significato;
ii. si dica, motivando la risposta, quali trasformazioni di ciascuna serie storica
sarebbe opportuno introdurre;
iii. si calcoli il coefficiente di correlazione sui dati trasformati, illustrandone il
significato;
iv. si confrontino i risultati ottenuti ai punti i) e iii).
Soluzione
Per il punto i. si proceda utilizzando la formula (4), mentre al punto ii. si determinino i
numeri indici a base mobile rispetto all’anno precedente. Al punto iii. si proceda quindi al
ri-calcolo del coefficiente di correlazione ed infine, al punto iv., si commentino i risultati
ottenuti.
Per il calcolo del coefficiente di correlazione è possibile procedere direttamente con la
formula (4), o in alternativa servendosi delle formule abbreviate di calcolo della varianza e
della covarianza (riportate nelle relative slide).
4
B2. Il reddito mensile e la spesa mensile per generi di largo consumo a forte contenuto di
imballaggi di difficile smaltimento, da parte di 5 famiglie con quattro componenti, è
riportato nella tabella seguente:
Reddito mensile
(€)
Spesa per generi a forte
contenuto di imballaggi
(€)
Y
2.200
1.200
1.880
2.150
1.650
X
630
490
570
585
540
i. Si determini la funzione lineare di regressione di Y da X;
ii. Si misuri la bontà di adattamento della funzione di regressione ai dati osservati,
utilizzando l’indice ritenuto opportuno, commentando il risultato ottenuto;
iii. Si determini la funzione lineare di regressione di X da Y;
iv. Si effettui la media geometrica tra i due coefficienti di regressione ottenuti,
rispettivamente, al punto a) e al punto c);
v. Si calcoli, infine, il coefficiente di correlazione di Bravais–Pearson, e si commenti
il risultato ottenuto.
Soluzione
Al punto i. si determinino i valori dei parametri β e α forniti dalle formule (6) e (7),
servendosi, se ritenuto opportuno, delle formule abbreviate di calcolo della varianza e
della covarianza. Successivamente, al punto ii., si proceda con il calcolo dell’indice di
determinazione fornito dalla formula (8), ove i valori di ŷ = α + β x sono ottenuti, per
ogni i, sostituendo nella retta così individuata il valore assunto dalla corrispondente
modalità della variabile X (suggerimento: si creino poi due ulteriori colonne, costituite
rispettivamente dagli scarti al quadrato riportati al numeratore e al denominatore della
formula 8). Al punto iii. si proceda analogamente al punto i., avendo l’accortezza però di
invertire le variabili X e Y e di conseguenza di sostituire la x con la y (e viceversa) nelle
formule (6) e (7), e denotando questa volta con α 1 e β 1 rispettivamente l’intercetta e il
coefficiente di regressione della nuova retta individuata (in cui la variabile X è funzione
lineare di Y). Al punto iv. si effettui la radice quadrata del prodotto dei due coefficienti di
regressione individuati in precedenza ed infine, al punto v., dopo aver calcolato il
coefficiente di correlazione con la formula (4) si verifichi che esso coincide con il valore
ottenuto al punto iv.
Si verifichi anche che il quadrato del coefficiente di correlazione coincide con l’indice di determinazione
calcolato al punto ii.
5
B3. Nella tabella che segue viene riportata la serie storica del totale dei cosiddetti “crediti
problematici” che gravano sul sistema finanziario di un dato Paese (in milioni di euro):
Tempi
Totale dei “crediti problematici”
Giugno 2008
65,4
Dicembre 2008
61,3
Giugno 2009
55,5
Dicembre 2009
40,2
Giugno 2010
38,7
Dicembre 2010
33,5
Giugno 2011
30,2
i.
assumendo come unità temporale il semestre, si esprima il totale dei crediti
problematici in funzione (lineare) del tempo;
si valuti la bontà di adattamento del modello ottenuto;
si commenti il risultato ottenuto con riferimento alla serie storica in esame.
ii.
iii.
Soluzione
Si proceda con il calcolo dei parametri β e α forniti dalle formule (6) e (7), assumendo
come variabile indipendente il tempo t (con i seguenti valori: -3, -2, -1, 0, 1, 2, 3), e si
calcoli poi l’indice di determinazione utilizzando la formula ritenuta opportuna. Si
commenti, infine, il risultato ottenuto.
6