Lezioni di Statistica del 15 e 18 aprile 2013 Docente: Massimo

UNIVERSITA’ DEGLI STUDI DI BASILICATA
FACOLTA’ DI ECONOMIA
Corso di laurea in Economia Aziendale
anno accademico 2012/2013
Lezioni di Statistica
del 15 e 18 aprile 2013
Docente: Massimo Cristallo
LA RELAZIONE TRA FENOMENI
In molte applicazioni pratiche si è interessati a stabilire se determinate
circostanze influenzano un certo carattere statistico e, nel caso in cui
l’influenza esista, indagare i modi e l’intensità con cui essa si manifesti.
Se vi è assenza di qualsiasi legame tra due caratteri X e Y, cioè X è
indipendente da X, allora qualunque valore di X non modifica la
distribuzione di Y.
ESEMPIO (dipendenza tra due caratteri)
A) Relazione del carattere “reddito” con la “spesa per consumi”.
ANALISI DELLA REGRESSIONE
Fase 1- Diagramma di dispersione
• Una relazione fra due caratteri quantitativi si rappresenta ponendo
la variabile indipendente sull' asse delle ascisse (simbolizzato da
una x) e la variabile dipendente sull'asse delle ordinate
(simbolizzata da una y) di un diagramma a dispersione.
• In corrispondenza di ogni intensità xi , con i = 1, 2, …, N, si
dispone delle manifestazioni di una certa circostanza concomitante.
• Ogni punto (xi, yi) rappresenta la coppia di valori relativa ad un
singolo caso osservato.
.
ANALISI DELLA REGRESSIONE
Fase 2 – Scelta del tipo di funzione
- La rappresentazione grafica dei dati osservati potrà orientarci sulla
scelta del tipo di funzione da utilizzare nei casi concreti, salvo che
disponiamo di una conoscenza specifica riguardo alla relazione che
lega i due caratteri quantitativi in esame.
- Per questioni di semplicità, ci limiteremo al caso di una funzione
lineare (cioè ad una retta, poiché si dispone di due caratteri
quantitativi x e y).
ANALISI DELLA REGRESSIONE
Fase 3 – Stima dei parametri della retta
yˆ = α + β ⋅ x
ove si dimostra (con il metodo dei minimi quadrati) che :
n
β=
∑ xi yi − N x y
i =1
N ⋅ Var ( x )
α = y −β⋅ x
è il coefficiente di regressione di y da x
è l'intercetta della retta
in cui x e y sono, rispettivamente, la media dei caratteri x e y.
ANALISI DELLA REGRESSIONE
Fase 4 – Verifica della bontà di adattamento del modello
Esistono una serie di indici che permettono di stabilire se il modello
stimato presenta, o meno, un buon adattamento ai dati osservati.
L’indice più usato al riguardo è l’indice di determinazione:
R2 =
N
∑ ( yˆi − y )
2
i =1
N
∑ ( yi − y )
2
i =1
che varia tra 0 (caso di indipendenza) e 1 (caso di perfetto legame
funzionale tra i due caratteri).
Se il modello è buono, può essere utilizzato per fare previsioni sul fenomeno
oggetto di indagine.
ANALISI DELL’INTERDIPENDENZA
In molte situazioni in cui vengono rilevati due caratteri quantitativi x e y
non è possibile stabilire quale dei due caratteri sia quello antecedente,
pur essendoci tra gli stessi un certo grado di associazione.
Si parla in questi casi di analisi dell’interdipendenza.
Anche in tale analisi, per poter stabilire il tipo di relazione tra i due
caratteri, può risultare utile rappresentare i dati osservati, cioè gli N punti
di coordinate (xi, yi), su un sistema di assi cartesiani ortogonali.
ASPETTI DELL’INTERDIPENDENZA
• Aspetti dell’interdipendenza sono la concordanza e la discordanza.
• Si ha concordanza tra due caratteri quantitativi se ai valori più
piccoli di un carattere corrispondono generalmente valori più
piccoli dell’altro, e se a quelli più grandi corrispondono in genere i
valori più grandi.
• In caso contrario, cioè se ai valori più piccoli di un carattere
corrispondono generalmente valori più grandi dell’altro, e se a
quelli più grandi corrispondono in genere i valori più piccoli,
parleremo di discordanza.
.
UNA MISURA ASSOLUTA DELL’INTERDIPENDENZA - La Codevianza
E’ evidente che nel caso di concordanza, gli scarti delle diverse modalità dei
caratteri x e y rispetto alle rispettive medie saranno, per la maggior parte,
entrambi positivi o entrambi negativi, quindi il loro prodotto sarà senz’altro
positivo. Viceversa, nel caso di discordanza, gli scarti delle diverse modalità
dei caratteri x e y rispetto alle rispettive medie saranno, per la maggior parte,
di segno contrario, quindi il loro prodotto sarà senz’altro negativo.
Una misura dell’interdipendenza si ottiene, allora, nel modo seguente:
Codev (x, y) = ∑ ( x i − x )( yi − y ) = ∑ x i yi − N x y
N
N
i =1
i =1
che, ovviamente, assume valori positivi o negativi, a sec onda
che vi sia, rispettivamente, concordanza o discordanza.
UNA MISURA DELL’INTERDIPENDENZA - La Covarianza
Un indicatore più utile è la covarianza, ottenuta rapportando la codevianza
al numero delle unità rilevate, in modo da eliminare l’influenza della
numerosità delle osservazioni. Per le cose dette si ottiene, allora, la seguente
formula:
N
N
∑ ( x i − x )( yi − y ) ∑ x i yi
i =1
i =1
Cov (x, y) =
=
−x y
N
N
che assume valori positivi o negativi a sec onda
che vi sia, rispettivamente, concordanza o discordanza.
N.B.
Si noti la similitudine della formula della covarianza con quella
della varianza.Infatti,se i caratteri x e y sono coincidenti
si ottiene esattamente la formula della varianza.
UNA MISURA RELATIVA DELL’INTERDIPENDENZA - Il coefficiente di
correlazione di Bravais - Pearson
La covarianza misura l’associazione lineare tra due caratteri quantitativi.
Tale misura, però, ha il difetto di essere influenzata dal grado di variabilità
dei caratteri esaminati. Per avere un indicatore dell’associazione lineare tra
due variabili x e y, che risulti indipendente dalla loro variabilità, si ricorre al
coefficiente di correlazione r di Bravais – Pearson:
Cov ( x, y )
=
r=
Var ( x) Var ( y )
Codev ( x, y )
Dev ( x) Dev ( y )
ove il denominatore rappresenta il massimo valore
che può assumere il numeratore, e quindi r può
assumere valori compresi tra -1 (massima discordanza)
e +1 (massima concordanza).
Interpretazione del coefficiente di correlazione di Bravais - Pearson
L’interpretazione del coefficiente di correlazione è in alcuni casi complicata
dalla circostanza che altri fattori variabili influiscono più o meno fortemente
quelli presi in considerazione.
In questi casi la correlazione tra x e y è per la maggior parte dovuta a quella
esistente tra ciascuna variabile e una o più altre variabili.
Esempio
La correlazione positiva tra la produzione nel tempo di alcune coppie di
prodotti agricoli, come ad esempio il grano e il vino, potrebbe essere dovuta
all’influenza esercitata dalle condizioni meterologiche su entrambi i prodotti
considerati.