L’analisi della correlazione
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano
Statistica
1
Obiettivi dell’unità didattica
•  Definire la condizione di indipendenza in media
•  Definire il metodo statistico per l’analisi della correlazione
tra una variabile numerica ed un altro carattere
Contenuti
• 
Distribuzione doppia di frequenze con almeno una delle
due variabili è numerica
• 
La condizione di indipendenza in media
• 
Il rapporto di correlazione del Pearson
Prof. Roberta Siciliano
Statistica
2
1
Supponiamo che Y sia numerica
E’ possibile determinare la media totale di Y e le medie parziali di
Y condizionata a ciascuna modalità del carattere X
µY |X =x i =
µY =
€ Prof. Roberta Siciliano
1
∑ y n per i = 1,...,k
n i+ j j ij
1
∑yn
N j j +j
Statistica
3
€
Esempio
E’ possibile determinare la media totale e le medie parziali
µY |X = x 2
(10 × 7) + (20 × 11) + (30 × 6) + (40 × 3)
= 21.85
27
(10 × 8) + (20 × 11) + (30 × 15) + (40 × 18)
=
= 28.26
52
µY |X = x1 =
€
€
Prof. Roberta Siciliano
Statistica
4
2
Proprietà della media
La media di Y equivale alla media della distribuzione delle medie parziali
Si può notare che…
µY
€
µ
(
=
Y |X = x1
Prof. Roberta Siciliano
) (
× n1+ + µY |X = x 2 × n 2+
N
Statistica
Esempio
)=
5
Y=numero di
giornate di
soggiorno
X= genere
Calcoliamo la media totale e le medie parziali
Prof. Roberta Siciliano
Statistica
6
3
Devianza e sua scomposizione
(
)
2
(
)
2
Dev(Y ) = ∑ j y j − µY n + j = ∑i ∑ j y j − µY n ij =
(
= ∑ ∑ (y − µ
+2∑ ∑ ( y − µ
= ∑ ∑ (y − µ
2
)
) n + ∑ ∑ (µ
+µ
− µ )n
) n + ∑ (µ
= ∑i ∑ j y j − µY |X =x i + µY |X =x i − µY n ij =
i
i
i
j
j
j
j
j
Y |X =x i
2
ij
Y |X =x i
j
Y |X =x i
i
Y |X =x i
Y |X =x i
j
Y
ij
Prof. Roberta Siciliano
i
Y |X =x i
− µY n ij +
=
ij
2
)
2
)
2
− µY n i+
Statistica
7
€
Devianza e sua scomposizione
(
)
2
(
−µ ) n
)
2
Dev(Y ) = ∑i ∑ j y j − µY |X =x i n ij + ∑i µY |X =x i − µY n i+ =
(
= ∑i Dev(Y | X = x i ) + ∑i µY |X =x i
2
Y
i+
=
= Dev(W ) + Dev(B)
Devianza interna (Within)
Devianza esterna (Between)
€
Prof. Roberta Siciliano
Statistica
8
4
Interpretazione
•  La variabile X è detta di stratificazione in quanto dalle sue
modalità si determinano gli strati o gruppi parziali del
collettivo.
•  La devianza “Between” descrive la variabilità “tra” i
gruppi, ossia la variabilità delle medie parziali di Y rispetto
alla media generale.
•  La devianza “Within” descrive la variabilità “interna” ai
gruppi, ossia la somma delle variabilità della Y in ciascun
gruppo.
•  Quanto più i gruppi sono ben discriminati tanto maggiore è
la componente di variabilità esterna rispetto a quella
interna. Ciò implica che la variabile X “spiega” il
comportamento della Y.
Prof. Roberta Siciliano
Statistica
9
Rapporto di correlazione del Pearson
Il rapporto descrive quanta parte della devianza totale è spiegata
dalla variabilità delle medie parziali rispetto alla media generale
Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari
a 1 in assenza di variabilità interna ai gruppi
Il rapporto di
correlazione è un
indice NON
SIMMETRICO
ηY2 / X ≠ ηX2 /|Y
Prof. Roberta Siciliano
Statistica
10
€
5
Riconsideriamo l’esempio
Prof. Roberta Siciliano
Statistica
11
Esempio
Esiste Indipendenza in distribuzione?
Verifichiamo:
Prof. Roberta Siciliano
Statistica
12
6
Verifica
Le Distribuzioni Parziali relative sono diverse dalla distribuzione
Marginale relativa quindi non esiste indipendenza in distribuzione
Prof. Roberta Siciliano
Statistica
13
Esiste indipendenza in media?
NON ESISTE indipendenza in distribuzione, verifichiamo se
esiste l’indipendenza in media
Le MEDIE PARZIALI sono uguali alla media generale, per cui
esiste indipendenza in media
Prof. Roberta Siciliano
Statistica
14
7