Fraire-Note su ACP-CoeffCorrel-Test Bartlett

Per l’ACP si richiede che le variabili siano correlate (almeno la metà dei coefficienti di correlazione
siano maggiori di |0.3|) ossia affinché abbia senso individuare dei fattori comuni, componenti
principali (CP), che non ci sarebbero se le variabili fossero indipendenti ossia ciascuna variabile
rappresenterebbe una dimensione a se stante, una CP . Nel caso invece in cui le variabili fossero
altamente correlate invece ci sarebbe in realtà una sola CP che spiegherebbe quasi il 100% della
variabilità totale della nuvola dei punti originaria e quindi la ricerca di dimensioni sottostanti le
variabili originarie non avrebbe senso. Pertanto nell’ACP la correlazione dovrebbe porsi a livelli
intermedi. E’ da osservare inoltre che esistono test statistici per verificare l’ipotesi di indipendenza
tra le variabili.
A tal scopo al coefficiente di correlazione dei dati originari ρ si applicano nelle ipotesi nulla H0 e
nell’ipotesi alternativa H1 seguenti:
H
: ρ = 0
0
H
: ρ ≠ 0
1
i seguenti tests.
(n<30)
Il test t =T di Student con g = n -2 g.l. considerando la statistica-test:
T=
R n−2
1 − R2
in cui R è il coefficiente di correlazione campionario. Per condurre il test: la statistica-test T può
assumere valori compresi tra ± t n −2;α che sono le soglie corrispondenti al livello di significatività
scelto avendo prefissato = livello di significatività (o probabilità – dimensione – dell’errore di I
specie : rifiutare H 0 quando è vera): se T cade nella zona di accettazione A dell’ipotesi nulla le due
variabili sono indipendenti
R= /2
A
− t n −2;α
R= /2
t n − 2 ;α
Per grandi campioni sempre nelle ipotesi
H
0
: ρ
= 0
H
1
: ρ
≠ 0
si impiega invece la statistica-test:
Z =
1
1
n −1
1
Complementi alle lezioni tenute dalla Prof.ssa Mary Fraire – Facoltà di Sociologia, Università degli Studi di Roma
‘La Sapienza’, a.a.2005-06 per il Modulo Specialistico (MS) di STATISTICA (SECS-S/01) – Laboratorio di Analisi
dei dati Multivariati delle lezioni. Il modulo didattico riguarda i corsi (SERS, PROVA, CATRI) della Laurea
Magistrale in Sociologia e il corso per la Laurea Magistrale in Programmazione e gestione delle Politiche e dei Servizi
sociali (ProPolis) .
Che si distribuisce come una v.c. normale standardizzata N(0;1). Quindi in relazione al livello di
significatività prefissato si accetterà o rifiuterà l’ipotesi nulla a seconda che la statistica test cada
nella zona di accettazione A o di rifiuto R determinata dai valori di ± zα/2 a livello prefissato .
− zα
2
!
+ zα
2
"
Il test di Bartlett utilizza la matrice di varianze e covarianze con variabili standardizzate Z quindi
la matrice di correlazione Rk,k per la scelta del n° delle CP e per effettuare il test si impiega la
statistica- test:
p = c o m p o n e n ti − d a − e stra rre
q = n ° v a r ia b ili − o rig in a rie
b c = − [( n − 1) −
In cui X q − p =
1
2
(2 q + 5) −
p ] ln X
6
3
q− p
D et ( R )
∏ λ j [ che si distribuisce secondo il χ² con g = (q-p)(q-p-1)/2.
Se si impiega invece la statistica-test:
b c = − [( n − 1 ) −
1
( 2 q + 5 )] ln d e t R
6
(in cui rispetto alla precedente statistica-test p=0 e X = detR), che si distribuisce secondo il χ² con
g.l.= q(q-1)/2 in cui q=n°variabili originarie e può essere impiegata ad un livello di probabilità
prefissato per provare l’ipotesi nulla H 0: indipendenza tra le variabili anche prima
dell’estrazione delle CP contro l’ipotesi alternativa H 1 : che le variabili siano correlate. Infatti se
Rk,k = I (le variabili sono indipendenti) e il lnDet Rk,k = 0.
A
R
Nel software SPSS questo è il testo impiegato per la verifica della correlazione tra le variabili
originarie nella matrice di correlazione.