Le distribuzioni di frequenza per variabili discrete

annuncio pubblicitario
Lezione 1
Elementi di statistica
descrittiva
Insegnamento: Statistica
Corso di Laurea Magistrale in Matematica
Facoltà di Scienze, Università di Ferrara
E-mail: [email protected]
1
Contenuti del corso

Cenni di statistica descrittiva:




Calcolo delle probabilità



Distribuzioni di frequenza
Indici statistici di posizione
Indici statistici di variabilità
Teoria delle variabili aleatorie
Modelli di variabili aleatorie
Statistica inferenziale




Teoria degli stimatori
Metodi di costruzione degli stimatori
Teoria dei test
Test parametrici e non parametrici
2
Principali Riferimenti Bibliografici

Levine, Krehbiel, Berenson (2006): Statistica, II
edizione, Apogeo.

Piccolo D., (2000): Statistica, II edizione, il Mulino,
Bologna.
3
La statistica: concetti di base
Definizione: la Statistica è la scienza che si occupa
della trattazione dei dati rilevati su fenomeni
misurabili allo scopo di
1. rappresentare e sintetizzare i fenomeni di interesse
 STATISTICA DESCRITTIVA: lo scopo è quello di
introdurre i metodi di analisi dei dati, i principali tipi di
grafici ed il concetto di variabile
2. prendere delle decisioni in merito ad ipotesi di
interesse  STATISTICA INFERENZIALE
Statistica: teoria e metodo per la raccolta,
l’interpretazione dei dati e la scelta decisionale
4
La statistica: concetti di base
Alcune definizioni:
 Popolazione: aggregati di individui non necessariamente
viventi o materiali (ad es. se si effettua un certo numero di
misure,
l’insieme
dei
risultati
costituisce
una
popolazione). Popolazioni presentano delle variazioni al
loro interno origine aleatoria.
 Fenomeno aleatorio: fenomeno in cui è presente in
modo essenziale un elemento di casualità.
 Unità statistica (soggetto): elemento di base della
popolazione sul quale viene effettuata la rilevazione o la
misurazione di uno o più fenomeni oggetto dell’indagine
5
La statistica: concetti di base
 Variabili (o caratteri): è il fenomeno oggetto dello studio,
rilevato o misurato sulle unità statistiche. Dalla variabile
oggetto di studio otteniamo un insieme di n osservazioni
registrate che costituiscono i dati da analizzare.
 Modalità: espressione concreta del carattere nelle unità
statistiche, cioè il numero (variabili quantitative) o
l’attributo (variabili qualitative).
 Frequenza: numero di volte che una determinata
modalità si verifica nel collettivo di riferimento. Se la
frequenza è un intero non negativo si parla di frequenza
assoluta; quando invece è rapportata al totale delle unità
statistiche della popolazione si parla di frequenza relativa.
6
I tipi di dati
 Variabile numerica: se assume per modalità dei numeri.
 Variabile numerica discreta: se l’insieme dei valori che
può assumere a priori è finito o numerabile.
 Variabile numerica continua: se l’insieme dei valori che
può assumere a priori è l’insieme dei numeri reali o un
intervallo di numeri reali.
 Variabile non numerica: se assume per modalità degli
attributi non numerici della più varia natura.
7
La frequenza: definizione e motivazione
La distribuzione di frequenza è una organizzazione dei dati
in forma tabellare tale che ad ogni modalità di una certa
variabile (quantitativa o qualitativa) si fa corrispondere la
rispettiva frequenza (assoluta o relativa).
DEFINIZIONE (per le variabili numeriche)
Frequenza: conteggio del numero di unità statistiche che
cadano in un certo intervallo di valori, detto classe.
DEFINIZIONE (per le variabili categoriali)
Frequenza: conteggio del numero di unità statistiche che
assumono una data modalità.
Lo studio della frequenza ci fornisce una fondamentale informazione sulla distribuzione
della variabile di interesse: il modo in cui (ossia dove e come) i valori della variabile si
distribuiscono nell’intervallo di variazione (variabili numeriche) o tra le diverse modalità
8
(variabili categoriali).
Esempio
Si consideri il voto espresso in trentesimi di due studenti (A e B) in 21
esami:
A
30
18
18
24
28
30
30
30
28
27
30
24
28
27
30
30
30
26
30
28
30
B
30
18
18
20
21
20
30
18
18
27
30
24
18
22
22
30
20
26
20
22
30
Raggruppiamo i voti dei due laureandi “conteggiando” la frequenza di
ciascuno dei voti compresi tra 18 e 30 ed escludiamo dall’elenco delle
modalità quelle non osservate nei due casi:
Voti
18
20
21
22
24
26
27
28
30
Totale
Esami
A
2
0
0
0
2
1
2
4
10
21
B
5
4
1
3
1
1
1
0
5
21
Emerge che il profitto di A è globalmente più elevato di quello di B.
9
Le distribuzioni di frequenza per variabili discrete
Se in una popolazione composta da n elementi, una variabili
X assume k modalità distinte x1,...,xk in modo tale che la
modalità x1 si presenta n1 volte,....la modalità xk si presenta k
volte allora possiamo rappresentare queste informazioni in
forma tabellare mediante la distribuzione di frequenza:
Modalità della variabile X
Frequenze Assolute
Frequenze Relative
x1
n1
n1/n
x2
n2
n2/n
...
...
...
...
...
...
xi
ni
ni/n
...
...
...
xk
nk
nk/n
Totale
n
1
10
Esempio
Si vuole esaminare le distribuzioni di frequenza (assolute e relative) delle
famiglie della Lombardia e della Calabria in rapporto alla variabile
“Numero di componenti” (Censimento 1981 della popolazione italiana –
Istat 1994)
Lombardia
Calabria
Numero di
Componenti
Freq.
Assoluta
Freq.
Relativa
Freq.
Assoluta
Freq.
Relativa
1
591.927
0.1921
105.823
0.1700
2
743.032
0.2411
132.552
0.2130
3
747.740
0.2426
111.192
0.1787
4
665.163
0.2158
129.278
0.2077
5
233.871
0.0759
79.952
0.1285
6 e più
100.054
0.0325
63.516
0.1021
Totale
3.081.787
1.0000
622.313
1.0000
11
Rappresentazione grafica delle distribuzioni di
frequenza per variabili discrete
Per variabili discrete è preferibile rappresentare la distribuzione di frequenza
mediante un diagramma a barre: diagramma cartesiano in cui i valori di
ascissa corrispondono ai valori delle modalità ed in ordinata le rispettive
frequenze
Diagramma a barre - -Distribuzione di frequenza della Variabile Numero di
componenti
0.3000
Lombardia
Calabria
0.2500
0.2000
0.1500
0.1000
0.0500
0.0000
1
2
3
4
5
6
12
Le distribuzioni di frequenza per variabili continue
Modalità della variabile X
Frequenze Assolute
Frequenze Relative
x0  x  x1
n1
n1/n
x 2  x  x3
n2
n2/n
...
...
...
...
...
...
xi 1  x  xi
ni
ni/n
...
...
...
xk 1  x  xk
nk
nk/n
Totale
n
1
Rappresentazione grafica: Istogramma di frequenza (Karl
Pearson 1895)
Per ogni classe si disegna un rettangolo di area ni (ovvero ni/n) – la cui base
misura (xi-xi-1) e l’altezza misura hi=ni/(xi-xi-1). La quantità hi è anche detta
densità di frequenza.
13
La frequenza per variabili continue
Numero di classi: da un minimo di 5 ad un massimo di 15:
k  n oppure k  1 3.322 log 10 n
Estremi delle classi: devono facilitare la lettura e l’interpretazione dei dati.
Ampiezza delle classi: si calcolano secondo la seguente formula:
NOTA BENE  Elementi di soggettività nel calcolo della classi
Una diversa definizioni del numero e/o degli estremi e/o dell’ampiezza
delle classi genera una differente espressione della frequenza, che può
essere anche sensibile se la numerosità dei dati è scarsa.
Rappresentazione della frequenza: la frequenza può essere rappresentata
FORMA
FORMATO
Tabella
 Grafico


Frequenza assoluta
 Frequenza relativa
14
Tabella e Istogramma di frequenza
assoluta e relativa
Fondi di investimento a capitalizzazione integrale
Fondi di investimento a capitalizzazione integrale
Istogramma di frequenza relativa
Frequenza relativa percentuale
Istogramma di frequenza assoluta
Frequenza
20
10
0
20
25
30
35
40
45
50
40
30
20
10
0
20
25
30
35
40
45
50
Rendimenti a un anno
Rendimenti a un anno
15
Il poligono: un’alternativa
all’istogramma di frequenza
Frequenza %
Anche nel caso del poligono l’asse orizzontale rappresenta il fenomeno
oggetto dell’analisi, mentre sull’asse verticale viene indicato il numero, la
percentuale o la frequenza relativa di osservazioni per ogni intervallo di
raggruppamento.
Il poligono si costruisce
scegliendo il punto medio
Fondi di investimento a Capitalizzazione Integrale:
Poligono di frequenza %
di ciascuna classe a
50%
rappresentare tutte le
osservazioni che cadono
40%
nella classe stessa, e
30%
congiungendo
poi
la
20%
sequenza dei punti medi
10%
alla
percentuale
di
0%
20-25
25-30
30-35
35-40
40-45
45-50
osservazioni nella classe
Rendimento annuo
corrispondente.
16
La funzione di ripartizione empirica
Consideriamo la distribuzione delle modalità ordinate di una variabile X, rilevate sulle n unità
della popolazione (non necessariamente tutte distinte)
x1  x2  x3    xi    xn
È possibile attribuire a ciascuna di esse frequenza assoluta 1 e frequenza relativa 1/n. Nella
popolazione la frazione 1/n di unità statistiche presenta valori di X minori o uguali a x1, la
frazione 2/n di unità statistiche presenta valori di X minori o uguali a x2.........la frazione
n/n di unità statistiche (cioè tutte) presenta valori inferiori o uguali a xn.
Funzione di ripartizione empirica (distribution function) :=
funzione che associa ad ogni valore reale x0 la frazione delle
unità che sono inferiori o uguali a x0.
# ( X  x0 )
F ( x0 )  freq. relativa delle unità con modalità  x 0  
n
•
•
•
•
0≤F(x)≤1
F(x) è non decrescente
F(-∞)=0; F(+∞)=1;
F(x) è continua da destra
17
Esempio
Calcoliamo la funzione di ripartizione empirica di X = “numero
di componenti delle famiglie residenti” in Lombardia ed in
Calabria (Censimento Istat 1981)
Lombardia
Calabria
Numero di
Componenti
Freq.
Relative
Funz.
Ripartizione
Freq.
Assoluta
Freq.
Relativa
1
0.1921
0.1921
105.823
0.1700
2
0.2411
0.4332
132.552
0.2130
3
0.2426
0.6758
111.192
0.1787
4
0.2158
0.8916
129.278
0.2077
5
0.0759
0.9675
79.952
0.1285
6 e più
0.0325
1.000
63.516
0.1021
Totale
1.0000
622.313
1.0000
18
Indici statistici di sintesi
Per trarre delle indicazioni adeguate quando si considerano
dati quantitativi, non è sufficiente rappresentare i dati
mediante tabelle ed grafici di frequenza.
Una buona analisi dei dati richiede anche che le
caratteristiche principali delle osservazioni siano sintetizzate
con opportune misure, dette Indici Statistici, e che tali
misure siano adeguatamente analizzate e interpretate.
Tipi di indici:

Misure di tendenza centrale (Indici di posizione)

Misure di Variabilità (Indici di dispersione)

Misure di Forma
19
Misure di Tendenza Centrale
Nella maggior parte degli insiemi di dati, le osservazioni mostrano una
tendenza a raggrupparsi attorno a un valore centrale.
Obiettivo di una misura di posizione (location index) è quello di
sintetizzare in un singolo valore l’intera distribuzione di frequenza per
effettuare confronti nel tempo, nello spazio o tra circostanze differenti.
Tale valore descrittivo è una misura di posizione o di tendenza centrale.
Tipi di misure di tendenza centrale:

Media

Mediana

Moda
20
Misure di Tendenza Centrale: la Media
La media aritmetica (anche chiamata semplicemente
media) è la misura di posizione più comune. Si calcola
dividendo la somma dei valori osservati per il numero totale
di osservazioni.
21
Misure di Tendenza Centrale: la Media

La media è sempre compresa tra il minimo ed il massimo
delle modalità della variabile

La somma degli scarti dalla media (  ( xi   )) è sempre
nulla, per cui la media costituisce il “baricentro” di una
distribuzione di frequenza.

Il calcolo della media si basa su tutte le osservazioni (X1, X2,
X3, . . . , Xn) dell’insieme di dati, proprietà questa che non è
presentata
da
nessun’altra
misura
di
posizione
comunemente usata.

Se una variabile X presenta media µ allora la variabile α+βX
presenta media α+β µ (linearità della media)

La media aritmetica è l’unico valore che rende minimo la
2
somma degli scarti al quadrato ( ( xi   ) )
22
Misure di Tendenza Centrale: la Media
Commento: quando usare la Media Aritmetica
Proprio perché il calcolo della media si basa su tutte le
osservazioni, tale misura di posizione risulta influenzata da
valori estremi.
In presenza di valori estremi, la media aritmetica fornisce
una rappresentazione distorta dei dati ed è pertanto
opportuno in questi casi ricorrere ad altre misure di
posizione.
Se dal campione rimuoviamo il fondo Mentor Merger
(rendimento = 10.0) che possiamo considerare come un
outlier (dato anomalo), ricalcolando la media otteniamo un
valore pari a 31.11.
23
Misure di Tendenza Centrale: la Mediana
La mediana (Galton 1883) è il valore centrale in un insieme
di dati ordinati dal valore più piccolo al più grande (cioè in
ordine non decrescente).
Commento: La mediana non è influenzata dalle
osservazioni estreme di un insieme di dati: nel caso di
osservazioni estreme è quindi opportuno descrivere
l’insieme di dati con la mediana piuttosto che con la media. 24
Misure di Tendenza Centrale: la Mediana
Per trovare la posizione occupata dal valore mediano nella
serie ordinata delle osservazioni si usa l’equazione (3.2)
secondo una delle due regole seguenti:
REGOLA 1. Se l’ampiezza del campione è un numero
dispari, la mediana coincide con il valore centrale, vale a
dire con l’osservazione che occupa la posizione (n+1)/2
nella serie ordinata delle osservazioni.
REGOLA 2. Se l’ampiezza del campione è un numero pari,
la mediana allora coincide con la media dei valori
corrispondenti alle due osservazioni centrali.
25
Misure di Tendenza Centrale: la Mediana
26
Misure di Tendenza Centrale: la Moda
La moda è il valore più frequente in un insieme di dati.

A differenza della media, la moda non è influenzata dagli outlier.

Tuttavia tale misura di posizione viene usata solo per scopi descrittivi,
poiché è caratterizzata da maggiore variabilità rispetto alle altre misure
di posizione (piccole variazioni in un insieme di dati possono far variare
in modo consistente la moda).

La moda può non esistere o non essere unica, se unica la distribuzione
è detta unimodale, quando ci sono più mode diverse è detta bimodale o
multimodale.
27
Misure di Tendenza Centrale: la Moda
NOTA: un insieme di dati può non avere moda, se nessuno
valore è “più tipico”.
28
Misure di Tendenza Centrale: i Quartili
Mentre la mediana è un valore che divide a metà la serie
ordinata delle osservazioni, i quartili sono misure descrittive
che dividono i dati ordinati in quattro parti.
29
Misure di Tendenza Centrale: i Quartili
Tre sono le regole usate per il calcolo dei quartili.

REGOLA 1. Se il punto di posizionamento è un numero
intero, si sceglie come quartile il valore dell’osservazione
corrispondente.

REGOLA 2. Se il punto di posizionamento è a metà tra
due numeri interi, si sceglie come quartile la media delle
osservazioni corrispondenti.

REGOLA 3. Se il punto di posizionamento non è né un
intero né a metà tra due numeri interi, una regola
semplice consiste nell’approssimarlo per eccesso o per
difetto all’intero più vicino e scegliere come quartile il
valore numerico dell’osservazione corrispondente.
30
Misure di Tendenza Centrale: i Quartili
31
Misure di dispersione
Una seconda caratteristica importante di un insieme di dati
è la variabilità. La variabilità è la quantità di dispersione
presente nei dati. Due insiemi di dati possono differire sia
nella posizione che nella variabilità; oppure possono essere
caratterizzati dalla stessa variabilità, ma da diversa misura
di posizione; o ancora, possono essere dotati della stessa
misura di posizione, ma differire notevolmente in termini di
variabilità.
32
Misure di dispersione
Le misure più utilizzate per misurare la dispersione sono:

Intervallo di variazione (range)

Intervallo di variazione (range) Interquartile

Varianza

Scarto Quadratico Medio

Coefficiente di variazione
33
Misure di dispersione: il Range
Il range (o intervallo di variazione) è la differenza tra
l’osservazione più grande e quella più piccola in un insieme
di dati.
NOTA: un limite del range consiste nel fatto che non tiene
conto di come i dati si distribuiscono effettivamente tra il
valore più piccolo e quello più grande.
Per questo motivo, in presenza di osservazioni estreme,34
risulta una misura inadeguata della variabilità.
Misure di dispersione: il Range Interquartile
Il range (o intervallo) interquartile è la differenza tra il
terzo e il primo quartile in un insieme di dati.
NOTA: Questa misura di variabilità sintetizza la dispersione
del 50% delle osservazioni che occupano le posizioni
centrali, e non è pertanto influenzata da valori estremi.
35
Misure di dispersione: la Varianza
Sebbene il range sia una misura della dispersione totale e il
range interquartile della dispersione centrale, nessuna di
queste due misure tiene conto di come le osservazioni si
distribuiscano o si concentrino intorno a una misura di
tendenza centrale, come ad esempio la media.
Due misure della variabilità che forniscono questo tipo di
informazione sono la varianza e la sua radice quadrata, lo
scarto quadratico medio. Queste misure sintetizzano la
dispersione di valori osservati attorno alla loro media.
36
Misure di dispersione: la Varianza
Varianza e la sua radice quadrata, lo scarto quadratico
medio, invece sintetizzano la dispersione dei valori
osservati attorno alla loro media.
37
Misure di dispersione:
lo Scarto Quadratico Medio
38
Interpretazione della Varianza e dello Scarto
Quadratico Medio

La varianza e lo scarto quadratico medio misurano la
dispersione “media” attorno alla media: sono ottenute
“valutando’’ come le osservazioni più grandi oscillano
sopra la media e come le osservazioni più piccole si
distribuiscono al di sotto della media.

La varianza possiede alcune importanti proprietà
matematiche; tuttavia, la sua unità di misura coincide
con il quadrato dell’unità di misura dei dati dati – lire
al quadrato, metri al quadrato e così via. Mentre lo
scarto quadratico medio è espresso nell’unità di
misura originaria dei dati – lire o metri.
39
Interpretazione della Varianza e dello Scarto
Quadratico Medio


Lo scarto quadratico medio ci aiuta a stabilire se e
quanto i dati sono concentrati o dispersi intorno alla
loro media.
Per quasi tutti gli insiemi di dati, la maggior parte dei
valori osservati si trova nell’intervallo centrato sulla
media e i cui estremi distano dalla media per 1 scarto
quadratico medio.
40
Capire la variabilità dei dati
41
Misure di dispersione: il Coefficiente di
Variazione
A differenza delle altre misure di variabilità, il coefficiente di
variazione è una misura relativa, espressa come una
percentuale e non nell’unità di misura dei dati.
Il coefficiente di variazione, indicato con CV, misura la
dispersione nell’insieme di dati relativamente alla media.
42
Misure di dispersione: il Coefficiente di
Variazione
NOTA: Il coefficiente di variazione è particolarmente utile
quando si confrontano le variabilità di due o più insiemi di
dati che sono espressi in unità di misura diverse.
43
Misure di forma
La
terza
caratteristica
dei
dati
che
prendiamo
in
considerazione è la forma della loro distribuzione, cioè il
modo in cui si distribuiscono.
La distribuzione dei dati può essere simmetrica o meno.
Se la distribuzione dei dati non è simmetrica, si dice
asimmetrica oppure obliqua.
Tipi di misure di forma:

Asimmetria
44
Forma della distribuzione:
Simmetrica o Obliqua
Per descrivere la forma della distribuzione è sufficiente
confrontare la media con la mediana. Se queste due misure
sono uguali, la distribuzione è considerata simmetrica.



media < mediana:
asimmetria negativa o distribuzione obliqua a
sinistra
media = mediana: simmetria
media > mediana:
asimmetria positiva o distribuzione obliqua a
destra
45
Misure di sintesi descrittive
per una popolazione

Finora abbiamo preso in considerazioni diverse
statistiche che sintetizzano le informazioni contenute in
un campione. In particolar modo, abbiamo usato
queste statistiche per descrivere le caratteristiche di
posizione, di variabilità e di forma.

Supponiamo ora che l’insieme di dati che abbiamo a
disposizione non sia un campione, ma una raccolta di
misurazioni numeriche da una intera popolazione.

Quando si considera un’intera popolazione, le misure
di sintesi descrittive corrispondenti alla media
aritmetica, alla varianza e allo scarto quadratico medio
sono i parametri della popolazione.
46
Misure di sintesi descrittive
per una popolazione
La media della popolazione viene indicata con il simbolo ,
la lettera minuscola dell’alfabeto greco mu.
47
Misure di sintesi descrittive
per una popolazione
La varianza della popolazione si indica con il simbolo 2, la
lettera minuscola dell’alfabeto greco sigma elevato al
quadrato (si legge “sigma quadro”) e lo scarto quadratico
medio della popolazione si indica con il simbolo .
NOTA:
Osserviamo
che
le
formule per il calcolo della
varianza
e
quadratico
popolazione
dello
scarto
medio
della
differiscono
da
quelle della varianza e dello
scarto
quadratico
medio
campionari per il termine (n - 1)
che compare al denominatore
di S2 e S che è sostituito da N
per il calcolo di
2
e .
48
Misure di sintesi descrittive
per una popolazione
Quando la distribuzione dei dati non è caratterizzata da una
forte asimmetria e le osservazioni sono concentrate intorno
a media e mediana, possiamo usare la cosiddetta regola
empirica per esaminare la variabilità dei dati e per
analizzare più approfonditamente il significato dello scarto
quadratico medio.
NOTA: Pertanto lo scarto quadratico medio ci aiuta a capire
come le osservazioni si distribuiscono al di sotto e al di
sopra della media, e a individuare e segnalare osservazioni
anomale (gli outlier).
49
Misure di sintesi descrittive
per una popolazione
Tabella 3.6
La dispersione dei valori intorno alla media
50
Analisi esplorativa dei dati
Tabella 3.7
Relazioni tra i cinque numeri di sintesi e la forma
della distribuzione
51
I cinque numeri di sintesi
Un approccio che mira a sintetizzare opportunamente le
diverse caratteristiche dei dati consiste neI considerare i
cinque numeri di sintesi:
Xmin
Q1
Mediana
Q3
Xmax
A partire da questi numeri è possibile ottenere due misure di
posizione (la mediana, la media interquartile) e due misure
di variabilità (il range interquartile e il range), che
consentono di effettuare un’“analisi esplorativa dei dati” per
avere un’idea più precisa della forma della distribuzione.
52
Il diagramma a “Scatola e Baffi”
(o Boxplot)
Il diagramma scatola e baffi o (o boxplot) fornisce una
rappresentazione grafica dei dati sulla base dei cinque
numeri di sintesi.
Linea verticale al
centro della scatola
 mediana
Linea verticale a
sinistra della scatola
 Q1
Linea tratteggiata a sinistra
 minimo
Linea verticale a
destra della scatola
 Q3
Linea tratteggiata a destra
 massimo
53
Il diagramma a “Scatola e Baffi”
(o Boxplot)
Figura 3.7
Diagrammi a scatola e baffi relativi ai rendimenti nel
2003 dei fondi a basso, medio e alto rischio
54
Il diagramma a “Scatola e Baffi”
(o Boxplot)
Per valutare la relazione che
sussiste tra i metodi di analisi
esplorativa dei dati, come il
diagramma scatola e baffi, e le
rappresentazioni
grafiche,
come i poligoni, consideriamo
la Figura, nella quale sono
riportati i diagrammi scatola e
baffi e i poligoni relativi a
quattro ipotetiche distribuzioni.
NOTA: l’area sottostante a ciascuna
curva è divisa nei quartili corrispondenti ai
cinque numeri di sintesi su cui si basa55il
diagramma scatola e baffi.
La covarianza ed il coefficiente di correlazione
Diagramma di dispersione o scatterplot: diagramma utile a valutare
l’eventuale dipendenza tra due variabili, nei punti di ascissa si pongono i
dati relativi ad una variabile ed in ordinata quelli relativi all’altra e si
rappresentano con punti le singole osservazioni.
In questo paragrafo introduciamo la covarianza ed il coefficiente di
correlazione, che misurano la forza della relazione lineare tra due
variabili.
La covarianza è una misura che sintetizza la forza della relazione lineare
tra due variabili numeriche (X e Y).
La covarianza campionaria
n
cov( X , Y ) 
(X
i 1
i
 X )(Yi  Y )
(3.16)
n 1
56
La covarianza ed
il coefficiente di correlazione
Ad esempio, si può calcolare la covarianza tra il rendimento
nel 2003 e le spese dei fondi comuni ad alto rischio
specializzati in aziende di piccole dimensioni.
57
La covarianza ed
il coefficiente di correlazione
Figura 3.9
Foglio di Microsoft Excel con i calcoli necessari per ottenere
la covarianza tra le spese e i rendimenti 2003 dei fondi ad
alto rischio specializzati in aziende di piccole dimensioni
9.579
cov( X , Y ) 
 1.19738
9
58
La covarianza ed
il coefficiente di correlazione
Un limite della covarianza è che questa misura può
assumere un qualunque valore, e non è quindi possibile fare
riferimento ad essa per valutare la forza della relazione
lineare in termini relativi. A questo scopo bisogna riferirsi al
coefficiente di correlazione.
Il coefficiente di correlazione misura l’intensità della
relazione lineare tra due variabili quantitative. I valori del
coefficiente di correlazione variano tra −1 nel caso di una
relazione lineare inversa (o negativa) perfetta e +1 nel caso
di una relazione lineare diretta (o positiva) perfetta.
Una relazione lineare si dice perfetta quando i punti del
diagramma di dispersione possono essere uniti
l’uno
59
all’altro con una linea retta.
La covarianza ed
il coefficiente di correlazione
Ovviamente, nel caso si abbiano dati campionari, si
calcolerà il coefficiente di correlazione campionaria, che
viene indicato con r. Con dati campionari è praticamente
impossibile osservare coefficienti di correlazioni uguali a −1
o a +1.
60
La covarianza ed
il coefficiente di correlazione
61
La covarianza ed
il coefficiente di correlazione
E’ importante sottolineare che la correlazione di per sé
stessa non può essere utilizzata per trarre conclusioni
sull’esistenza di un nesso causa-effetto tra due variabili.
Il coefficienti di correlazione campionario
cov( X , Y )
r
S X SY
n
cov( X , Y ) 
(X
i 1
(X
i 1
 X )(Yi  Y )
n 1
n
n
SX 
i
(3.17)
i
 X)
n 1
2
SY 
2
(
Y

Y
)
 i
i 1
n 1
62
La covarianza ed
il coefficiente di correlazione
Figura
3.12
Foglio di Microsoft Excel con i calcoli necessari per ottenere
le correlazioni tra le spese e i rendimenti 2003 dei fondi ad
alto rischio specializzati in aziende di piccole dimensioni
r
cov( X , Y )
1.19738

 0.3943786
S X SY
(0.287663)(10.554383)
63
Scarica