Università degli Studi di Basilicata – Facoltà di Economia Corso di Laurea in Economia Aziendale - a.a. 2012/2013 lezioni di statistica del 15 e 18 aprile 2013 - di Massimo Cristallo - A1. Le relazioni tra i fenomeni In molte applicazioni pratiche si è interessati a stabilire se determinate circostanze influenzano un certo carattere statistico e, nel caso in cui l’influenza esiste, a indagare i modi e l’intensità con cui essa si manifesta. Se vi è assenza di qualsiasi legame tra due caratteri X e Y, cioè X è indipendente da Y, allora qualunque valore assunto dal carattere X non modifica la distribuzione del carattere Y. Se i caratteri quantitativi X e Y si influenzano reciprocamente, cioè tra gli stessi caratteri esiste un certo grado di associazione ma non è possibile stabilire quale dei due influenza l’altro, si parla di analisi dell’interdipendenza. Aspetti legati all’interdipendenza sono la concordanza e la discordanza. Si ha concordanza tra due caratteri quantitativi se ai valori più piccoli di un carattere corrispondono generalmente valori più piccoli dell’altro, e se a quelli più grandi corrispondono in genere i valori più grandi. In caso contrario, cioè se ai valori più piccoli di un carattere corrispondono generalmente valori più grandi dell’altro, e se a quelli più grandi corrispondono in genere i valori più piccoli, si parla di discordanza. Per poter stabilire il tipo di relazione tra i due caratteri, può risultare utile rappresentare i dati osservati, cioè gli N punti di coordinate ( x i , yi ) , in un sistema di assi cartesiani ortogonali. Ogni punto ( x i , yi ) rappresenta la coppia di valori relativa ad un singolo caso osservato. La rappresentazione nel piano cartesiano dei punti ( x1 , y1 ) , ( x 2 , y2 ) ,..., ( x N , y N ) determina una nuvola intorno ad una retta crescente o decrescente a seconda che vi sia, rispettivamente, concordanza o discordanza tra i caratteri osservati. E’ evidente che nel caso di concordanza, gli scarti delle diverse modalità dei caratteri X e Y rispetto alle rispettive medie saranno, per la maggior parte, entrambi positivi o entrambi negativi, quindi il loro prodotto sarà senz’altro positivo. Viceversa, nel caso di discordanza, gli scarti delle diverse modalità dei caratteri X e Y rispetto alle rispettive medie saranno, per la maggior parte, di segno contrario, quindi il loro prodotto sarà senz’altro negativo. Una misura dell’interdipendenza è fornita dalla codevianza, così definita: Codev (X, Y) = ∑ ( x i − µ x ) ( yi − µ y ) N (1) i =1 ove µ x e µ y denotano, rispettivamente, la media aritmetica dei caratteri X e Y. Per le cose dette, la codevianza assume valore positivo o negativo a seconda che vi sia concordanza o discordanza. Un indicatore più utile del precedente è la covarianza, ottenuta rapportando la codevianza al numero delle unità rilevate, in modo da eliminare l’influenza della numerosità delle osservazioni: ∑ ( x i − µ x ) ( yi − µ y ) N σ xy = i =1 (2) N e che assume valore positivo o negativo a seconda che vi sia concordanza o discordanza tra i caratteri in esame. E’ immediato notare la similitudine della formula della covarianza con quella della varianza. Infatti, se i caratteri X e Y fossero coincidenti si otterrebbe esattamente la formula della varianza. La covarianza misura l’associazione lineare tra due caratteri quantitativi. Tale misura, però, ha il difetto di essere influenzata dal grado di variabilità dei caratteri esaminati. Per gli stessi motivi già evidenziati per gli indici di variabilità assoluta, anche in questo caso è possibile costruire un indice “relativo”, cioè privo di unità di misura, per misurare la concordanza o discordanza. Poiché si dimostra che il massimo valore che la covarianza tra due caratteri X e Y può assumere è pari al prodotto delle deviazioni standard dei medesimi caratteri, cioè: Max σ xy = σ x ⋅ σ y (3) rapportando la (2) alla (3) si ottiene un indice relativo di concordanza o discordanza. Tale indice, noto come coefficiente di correlazione di Bravais-Pearson, è dato dal rapporto: ∑( x N σ ρ xy = xy = σ x ⋅σ y i =1 ∑( x N i =1 i i − µx − µx )(y i − µy ) ∑( y 2 N i =1 i ) − µy ) . (4) 2 E’ immediato dedurre che −1 ≤ ρ xy ≤ + 1 , ove in particolare risulta ρ xy = − 1 in caso di perfetta relazione lineare decrescente tra i due caratteri, mentre ρ xy = + 1 in caso di perfetta relazione lineare crescente tra i due caratteri. 2 Difficilmente ρ xy assume i valori estremi sopra indicati. Tuttavia, si può affermare che valori di ρ xy vicini a − 1 denotano una elevata discordanza tra i due caratteri in esame, al contrario valori di ρ xy vicini a + 1 rilevano una elevata concordanza. L’interpretazione del coefficiente di correlazione ρ xy è in alcuni casi complicata dalla circostanza che altri fattori variabili influiscono più o meno fortemente quelli presi in considerazione. In questi casi la correlazione tra X e Y è per la maggior parte dovuta a quella esistente tra ciascuna variabile e una o più altre variabili. Ad esempio, la correlazione positiva tra la produzione nel tempo di alcune “coppie” di prodotti agricoli, come ad esempio il grano e il vino, potrebbe essere dovuta all’influenza esercitata dalle condizioni meterologiche su entrambi i prodotti considerati. Se i caratteri quantitativi X e Y non si influenzano reciprocamente, ma sul piano logico è ipotizzabile, invece, una dipendenza del carattere Y dal carattere X secondo una struttura funzionale lineare (retta) ŷ = α + β x ove le quantità α e β sono ignote, si pone allora il problema di stabilire quali siano i valori dei parametri α e β che possono meglio descrivere la relazione (di dipendenza) tra i caratteri in esame. I suddetti parametri vengono generalmente determinati, a partire dai dati osservati, imponendo la condizione che: ∑ (α + β x N i i =1 − yi ) 2 = minimo (5) cioè che la funzione da scegliere si avvicini quanto più possibile alle osservazioni yi . Si dimostra che i valori dei parametri β e α che soddisfano la (5) sono dati dalle espressioni seguenti: β= σ xy σ x2 α = µy − β ⋅ µx (6) (7) La (6) e la (7) rappresentano, rispettivamente, il coefficiente di regressione e l’intercetta di quella retta che fra le infinite rette del piano (che si ottengono modificando i valori di α e β ) più si adatta alla relazione esistente tra i caratteri in esame. Un indice che permette di stabilire se il modello stimato presenta, o meno, un buon adattamento ai dati osservati, è il coefficiente di determinazione: 3 ∑ ( ŷi − µ y ) N R2 = i =1 N ∑ ( yi − µ y i =1 2 ) (8) 2 che varia tra 0 (caso di indipendenza) e 1 (caso di perfetto legame funzionale tra i due caratteri). Se il modello è buono, allora può essere utilizzato per fare previsioni sul fenomeno oggetto di indagine. Si osservi che la rappresentazione grafica dei dati osservati potrà orientarci sulla scelta del tipo di funzione da utilizzare nei casi concreti, salvo che si dispone di una conoscenza specifica riguardo alla relazione che lega i due caratteri quantitativi in esame. Per questioni di semplicità, la nostra analisi è stata limitata al caso di una funzione lineare. ___________________________________________________________ B1. Nella tabella che segue sono riportate le serie storiche del tasso di indebitamento delle famiglie, in percentuale, (X) e del fabbisogno di energia elettrica, in migliaia di megawatt, (Y) in un dato Paese nel periodo 2008-2012: Anni 2008 2009 2010 2011 2012 X 27,8 31,1 32,6 32,6 35,1 Y 279 286 299 305 311 i. si calcoli il coefficiente di correlazione lineare tra le due serie storiche, illustrandone il significato; ii. si dica, motivando la risposta, quali trasformazioni di ciascuna serie storica sarebbe opportuno introdurre; iii. si calcoli il coefficiente di correlazione sui dati trasformati, illustrandone il significato; iv. si confrontino i risultati ottenuti ai punti i) e iii). Soluzione Per il punto i. si proceda utilizzando la formula (4), mentre al punto ii. si determinino i numeri indici a base mobile rispetto all’anno precedente. Al punto iii. si proceda quindi al ri-calcolo del coefficiente di correlazione ed infine, al punto iv., si commentino i risultati ottenuti. Per il calcolo del coefficiente di correlazione è possibile procedere direttamente con la formula (4), o in alternativa servendosi delle formule abbreviate di calcolo della varianza e della covarianza (riportate nelle relative slide). 4 B2. Il reddito mensile e la spesa mensile per generi di largo consumo a forte contenuto di imballaggi di difficile smaltimento, da parte di 5 famiglie con quattro componenti, è riportato nella tabella seguente: Reddito mensile (€) Spesa per generi a forte contenuto di imballaggi (€) Y 2.200 1.200 1.880 2.150 1.650 X 630 490 570 585 540 i. Si determini la funzione lineare di regressione di Y da X; ii. Si misuri la bontà di adattamento della funzione di regressione ai dati osservati, utilizzando l’indice ritenuto opportuno, commentando il risultato ottenuto; iii. Si determini la funzione lineare di regressione di X da Y; iv. Si effettui la media geometrica tra i due coefficienti di regressione ottenuti, rispettivamente, al punto a) e al punto c); v. Si calcoli, infine, il coefficiente di correlazione di Bravais–Pearson, e si commenti il risultato ottenuto. Soluzione Al punto i. si determinino i valori dei parametri β e α forniti dalle formule (6) e (7), servendosi, se ritenuto opportuno, delle formule abbreviate di calcolo della varianza e della covarianza. Successivamente, al punto ii., si proceda con il calcolo dell’indice di determinazione fornito dalla formula (8), ove i valori di ŷ = α + β x sono ottenuti, per ogni i, sostituendo nella retta così individuata il valore assunto dalla corrispondente modalità della variabile X (suggerimento: si creino poi due ulteriori colonne, costituite rispettivamente dagli scarti al quadrato riportati al numeratore e al denominatore della formula 8). Al punto iii. si proceda analogamente al punto i., avendo l’accortezza però di invertire le variabili X e Y e di conseguenza di sostituire la x con la y (e viceversa) nelle formule (6) e (7), e denotando questa volta con α 1 e β 1 rispettivamente l’intercetta e il coefficiente di regressione della nuova retta individuata (in cui la variabile X è funzione lineare di Y). Al punto iv. si effettui la radice quadrata del prodotto dei due coefficienti di regressione individuati in precedenza ed infine, al punto v., dopo aver calcolato il coefficiente di correlazione con la formula (4) si verifichi che esso coincide con il valore ottenuto al punto iv. Si verifichi anche che il quadrato del coefficiente di correlazione coincide con l’indice di determinazione calcolato al punto ii. 5 B3. Nella tabella che segue viene riportata la serie storica del totale dei cosiddetti “crediti problematici” che gravano sul sistema finanziario di un dato Paese (in milioni di euro): Tempi Totale dei “crediti problematici” Giugno 2008 65,4 Dicembre 2008 61,3 Giugno 2009 55,5 Dicembre 2009 40,2 Giugno 2010 38,7 Dicembre 2010 33,5 Giugno 2011 30,2 i. assumendo come unità temporale il semestre, si esprima il totale dei crediti problematici in funzione (lineare) del tempo; si valuti la bontà di adattamento del modello ottenuto; si commenti il risultato ottenuto con riferimento alla serie storica in esame. ii. iii. Soluzione Si proceda con il calcolo dei parametri β e α forniti dalle formule (6) e (7), assumendo come variabile indipendente il tempo t (con i seguenti valori: -3, -2, -1, 0, 1, 2, 3), e si calcoli poi l’indice di determinazione utilizzando la formula ritenuta opportuna. Si commenti, infine, il risultato ottenuto. 6