Per l’ACP si richiede che le variabili siano correlate (almeno la metà dei coefficienti di correlazione siano maggiori di |0.3|) ossia affinché abbia senso individuare dei fattori comuni, componenti principali (CP), che non ci sarebbero se le variabili fossero indipendenti ossia ciascuna variabile rappresenterebbe una dimensione a se stante, una CP . Nel caso invece in cui le variabili fossero altamente correlate invece ci sarebbe in realtà una sola CP che spiegherebbe quasi il 100% della variabilità totale della nuvola dei punti originaria e quindi la ricerca di dimensioni sottostanti le variabili originarie non avrebbe senso. Pertanto nell’ACP la correlazione dovrebbe porsi a livelli intermedi. E’ da osservare inoltre che esistono test statistici per verificare l’ipotesi di indipendenza tra le variabili. A tal scopo al coefficiente di correlazione dei dati originari ρ si applicano nelle ipotesi nulla H0 e nell’ipotesi alternativa H1 seguenti: H : ρ = 0 0 H : ρ ≠ 0 1 i seguenti tests. (n<30) Il test t =T di Student con g = n -2 g.l. considerando la statistica-test: T= R n−2 1 − R2 in cui R è il coefficiente di correlazione campionario. Per condurre il test: la statistica-test T può assumere valori compresi tra ± t n −2;α che sono le soglie corrispondenti al livello di significatività scelto avendo prefissato = livello di significatività (o probabilità – dimensione – dell’errore di I specie : rifiutare H 0 quando è vera): se T cade nella zona di accettazione A dell’ipotesi nulla le due variabili sono indipendenti R= /2 A − t n −2;α R= /2 t n − 2 ;α Per grandi campioni sempre nelle ipotesi H 0 : ρ = 0 H 1 : ρ ≠ 0 si impiega invece la statistica-test: Z = 1 1 n −1 1 Complementi alle lezioni tenute dalla Prof.ssa Mary Fraire – Facoltà di Sociologia, Università degli Studi di Roma ‘La Sapienza’, a.a.2005-06 per il Modulo Specialistico (MS) di STATISTICA (SECS-S/01) – Laboratorio di Analisi dei dati Multivariati delle lezioni. Il modulo didattico riguarda i corsi (SERS, PROVA, CATRI) della Laurea Magistrale in Sociologia e il corso per la Laurea Magistrale in Programmazione e gestione delle Politiche e dei Servizi sociali (ProPolis) . Che si distribuisce come una v.c. normale standardizzata N(0;1). Quindi in relazione al livello di significatività prefissato si accetterà o rifiuterà l’ipotesi nulla a seconda che la statistica test cada nella zona di accettazione A o di rifiuto R determinata dai valori di ± zα/2 a livello prefissato . − zα 2 ! + zα 2 " Il test di Bartlett utilizza la matrice di varianze e covarianze con variabili standardizzate Z quindi la matrice di correlazione Rk,k per la scelta del n° delle CP e per effettuare il test si impiega la statistica- test: p = c o m p o n e n ti − d a − e stra rre q = n ° v a r ia b ili − o rig in a rie b c = − [( n − 1) − In cui X q − p = 1 2 (2 q + 5) − p ] ln X 6 3 q− p D et ( R ) ∏ λ j [ che si distribuisce secondo il χ² con g = (q-p)(q-p-1)/2. Se si impiega invece la statistica-test: b c = − [( n − 1 ) − 1 ( 2 q + 5 )] ln d e t R 6 (in cui rispetto alla precedente statistica-test p=0 e X = detR), che si distribuisce secondo il χ² con g.l.= q(q-1)/2 in cui q=n°variabili originarie e può essere impiegata ad un livello di probabilità prefissato per provare l’ipotesi nulla H 0: indipendenza tra le variabili anche prima dell’estrazione delle CP contro l’ipotesi alternativa H 1 : che le variabili siano correlate. Infatti se Rk,k = I (le variabili sono indipendenti) e il lnDet Rk,k = 0. A R Nel software SPSS questo è il testo impiegato per la verifica della correlazione tra le variabili originarie nella matrice di correlazione.