L’analisi della correlazione Corso di STATISTICA Prof. Roberta Siciliano Ordinario di Statistica, Università di Napoli Federico II Professore supplente, Università della Basilicata a.a. 2011/2012 Prof. Roberta Siciliano Statistica 1 Obiettivi dell’unità didattica • Definire la condizione di indipendenza in media • Definire il metodo statistico per l’analisi della correlazione tra una variabile numerica ed un altro carattere Contenuti • Distribuzione doppia di frequenze con almeno una delle due variabili è numerica • La condizione di indipendenza in media • Il rapporto di correlazione del Pearson Prof. Roberta Siciliano Statistica 2 1 Supponiamo che Y sia numerica E’ possibile determinare la media totale di Y e le medie parziali di Y condizionata a ciascuna modalità del carattere X µY |X =x i = µY = € Prof. Roberta Siciliano 1 ∑ y n per i = 1,...,k n i+ j j ij 1 ∑yn N j j +j Statistica 3 € Esempio E’ possibile determinare la media totale e le medie parziali µY |X = x 2 (10 × 7) + (20 × 11) + (30 × 6) + (40 × 3) = 21.85 27 (10 × 8) + (20 × 11) + (30 × 15) + (40 × 18) = = 28.26 52 µY |X = x1 = € € Prof. Roberta Siciliano Statistica 4 2 Proprietà della media La media di Y equivale alla media della distribuzione delle medie parziali Si può notare che… µY € µ ( = Y |X = x1 Prof. Roberta Siciliano ) ( × n1+ + µY |X = x 2 × n 2+ N Statistica Esempio )= 5 Y=numero di giornate di soggiorno X= genere Calcoliamo la media totale e le medie parziali Prof. Roberta Siciliano Statistica 6 3 Devianza e sua scomposizione ( ) 2 ( ) 2 Dev(Y ) = ∑ j y j − µY n + j = ∑i ∑ j y j − µY n ij = ( = ∑ ∑ (y − µ +2∑ ∑ ( y − µ = ∑ ∑ (y − µ 2 ) ) n + ∑ ∑ (µ +µ − µ )n ) n + ∑ (µ = ∑i ∑ j y j − µY |X =x i + µY |X =x i − µY n ij = i i i j j j j j Y |X =x i 2 ij Y |X =x i j Y |X =x i i Y |X =x i Y |X =x i j Y ij Prof. Roberta Siciliano i Y |X =x i − µY n ij + = ij 2 ) 2 ) 2 − µY n i+ Statistica 7 € Devianza e sua scomposizione ( ) 2 ( −µ ) n ) 2 Dev(Y ) = ∑i ∑ j y j − µY |X =x i n ij + ∑i µY |X =x i − µY n i+ = ( = ∑i Dev(Y | X = x i ) + ∑i µY |X =x i 2 Y i+ = = Dev(W ) + Dev(B) Devianza interna (Within) Devianza esterna (Between) € Prof. Roberta Siciliano Statistica 8 4 Interpretazione • La variabile X è detta di stratificazione in quanto dalle sue modalità si determinano gli strati o gruppi parziali del collettivo. • La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale. • La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo. • Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y. Prof. Roberta Siciliano Statistica 9 Rapporto di correlazione del Pearson Il rapporto descrive quanta parte della devianza totale è spiegata dalla variabilità delle medie parziali rispetto alla media generale Il rapporto è pari a 0 quando c’è indipendenza in media ed è pari a 1 in assenza di variabilità interna ai gruppi Il rapporto di correlazione è un indice NON SIMMETRICO ηY2 / X ≠ ηX2 /|Y Prof. Roberta Siciliano Statistica 10 € 5 Riconsideriamo l’esempio Prof. Roberta Siciliano Statistica 11 Esempio Esiste Indipendenza in distribuzione? Verifichiamo: Prof. Roberta Siciliano Statistica 12 6 Verifica Le Distribuzioni Parziali relative sono diverse dalla distribuzione Marginale relativa quindi non esiste indipendenza in distribuzione Prof. Roberta Siciliano Statistica 13 Esiste indipendenza in media? NON ESISTE indipendenza in distribuzione, verifichiamo se esiste l’indipendenza in media Le MEDIE PARZIALI sono uguali alla media generale, per cui esiste indipendenza in media Prof. Roberta Siciliano Statistica 14 7