Elementi di Psicometria con Laboratorio di SPSS 1 10-Significatività statistica per la correlazione vers. 1.0 (5 novembre 2014) Germano Rossi1 [email protected] 1 Dipartimento di Psicologia, Università di Milano-Bicocca 2014-2015 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 1 / 15 Correlazione Immaginate di aver raccolto un campione di 20 persone di aver misurato 2 variabili e di aver trovato un valore di .56 In termini assoluti è una buona correlazione ma. . . Siamo sicuri che il valore di .56 con un campione di 20 persone sia una buona stima della correlazione della popolazione? Potrebbe essere un campione “balordo” con una correlazione eccessivamente alta (o bassa) Usiamo la logica della distribuzione campionaria G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 2 / 15 Distribuzione campionaria della correlazione Usiamo i dati di Tab. 10.1 (vostro libro): una popolazione finita di 2 variabili che correlano a 0.00365 Estraiamo dei campioni di ampiezza 20 Calcoliamo la correlazione per ciascuno dei campioni. . . Facciamo la rappresentazione grafica per vedere come: i valori vicini a 0 sono i più frequenti valori (positivi e negativi) vicini a 0 sono leggermente meno frequenti di 0 man mano i valori si allontanano da 0, meno frequenti diventano In pratica i valori della distribuzione campionaria della correlazione si distribuiscono approssimativamente come una normale. G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 3 / 15 Distribuzione campionaria della correlazione L’approssimazione alla normale è sempre migliore all’aumentare dell’ampiezza dei campioni (per N piccole si può aggiustare la distribuzione) Se la correlazione trovata nel nostro campione di partenza è compresa nel 95% attorno alla media di 0, allora la nostra correlazione sarà non significativa ovvero casualmente estratta da una popolazione con correlazione 0 Se la correlazione trovata sarà compresa nel 5% delle due code della normale, allora sarà considerata significativa, cioè un valore poco probabile da ottenere casualmente. G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 4 / 15 Dimostrazione (o verifica) dell’ipotesi Quello che abbiamo fatto può essere considerato una dimostrazione di un’ipotesi Abbiamo ipotizzato che nella popolazione da cui abbiamo estratto il campione, la correlazione fra le due variabili è 0 Abbiamo costruito una distribuzione campionaria della correlazione E abbiamo confrontato la correlazione calcolata con la distribuzione delle correlazioni Se la probabilità associata alla nostra correlazione è ≤ 2.5% allora riteniamo che sia improbabile che il nostro campione sia stato estratto da quella popolazione (che ha r=0) In tal caso, concludiamo che il campione viene da una popolazione diversa G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 5 / 15 Verifica di ipotesi Possibilità 1 (ipotesi nulla): la correlazione nella popolazione È zero ρ=0 Possibilità 2 (ipotesi alternativa): la correlazione nella popolazione NON È zero ρ 6= 0 L’ipotesi nulla (indicata anche come H0 ) è tale, perché si basa su informazioni che abbiamo già o che ipotizziamo come vere e di cui siamo sicuri (la correlazione è nulla) L’ipotesi alternativa (indicata come H1 ) è l’ipotesi che contrapponiamo a quella nulla G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 6 / 15 Inferenza Nell’inferenza per la correlazione, H0 è sempre uguale (H0 : ρ = 0), mentre le ipotesi alternative potrebbero essere: H1 : ρ 6= 0 H1 : ρ > 0 H1 : ρ < 0 con gl = N − 2 In pratica ci chiediamo se il valore da noi trovato viene da una popolazione con correlazione nulla. Se accettiamo H0 , sì e quindi la correlazione trovata (qualunque sia il suo valore) non deve neppure essere presa in considerazione (non va interpretata). G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 7 / 15 Tavole stati Inferenza La tavola dei valori critici riporta i valori (per i gradi di libertà, per diversi α e per le dueCipotesi, mono e bi-direzionali) sotto i quali accettare l’ipotesi nulla. Tabella Valori critici del coefficiente r di Pearsonr df (= N = 2; N = numero di coppie di dati) 1 2 3 4 5 N = 76 Livello di significatività per il test a una coda 0,05 0,025 0,01 0,005 Livello di significatività per il test a due code 0,10 0,05 0,02 0,01 0,988 0,900 0,805 0,729 0,669 α = .05(bi) 7 8 G. Rossi (Dip. Psicologia) rt = .65 ⇒0,622 H0 0,582 0,549 ElemPsico 0,997 0,950 0,878 0,811 0,754 0,9995 0,980 0,934 0,882 0,833 rt0,707 = .79 ⇒ H0,789 1 0,666 0,632 0,750 0,716 0,9999 0,990 0,959 0,917 0,874 0,834 0,798 0,765 2014-2015 8 / 15 Ipotesi nulla e alternativa L’ipotesi nulla è l’unica su cui si possono effettivamente fare calcoli L’ipotesi alternativa apre, invece, ad un insieme di possibilità (ρ = 0.1, ρ = 0.11, ρ = 0.12 . . .) che non è possibile verificare tutte contemporaneamente Se il ragionamento basato sull’ipotesi nulla si dimostra probabile (95%), la accetteremo per vera. Se il ragionamento basato sull’ipotesi nulla si dimostra improbabile (5%), opteremo per quella alternativa L’ipotesi alternativa la verifichiamo “per assurdo”, ovvero dimostrando probabilmente falsa l’ipotesi nulla G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 9 / 15 Ipotesi nulla e alternativa L’ipotesi nulla è quella “conservativa” L’ipotesi alternativa è quella “innovativa” Nel caso della correlazione, la “conservatività” è data dall’ipotesi che non ci sia correlazione fra due variabili Ovviamente l’alternativa è che ci sia correlazione Se ipotizziamo una correlazione nulla nella popolazione, la distribuzione campionaria avrà Mr = 0 e σr = √ 1 N −1 Altre formule trasformano r in z (in base al valore di N) G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 10 / 15 Tavole di significatività Pearson La tabella a p.109 riporta per ogni valori di N i valori che identificano il 2.5% estremo delle code Per N=5, i valori -0.88 e +0.88 indicano i valori estremi Ovvero, valori di r compresi fra -0.88 e +0.88 sono non significativi (accettiamo H0 ) e quindi la correlazione del nostro campione è stata casualmente estratta dalla popolazione ipotizzata Valori di r ≤ −.88 oppure r ≥ +.88 sono significativi e indicano che ci sono poche probabilità che la correlazione calcolata sia stata estratta casualmente da una popolazione con ρ = 0 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 11 / 15 Tavole di significatività Pearson L’appendice A riporta una tavola più completa e più precisa Per ogni valore di N, sono riportato i valori (chiamati “critici”) per il 10%, 5%, il 2% e l’1% (riga “Due code”) Vediamo che per N=5 il valore critico al 5% è .878 (approssimabile a .88) Se riprendiamo l’esempio iniziale di r = .56 con N=20, troviamo un valore critico di 0.444 Poiché .56 è maggiore di .444, la nostra correlazione è significativa G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 12 / 15 Tavole di significatività Spearman La tabella a p.112 riporta per ogni valori di N i valori che identificano il 2.5% estremo delle code Per N=7, i valori -0.79 e +0.79 indicano i valori estremi Ovvero, valori di rs compresi fra -0.79 e +0.79 sono non significativi (accettiamo H0 ) e quindi la correlazione del nostro campione è stata casualmente estratta dalla popolazione ipotizzata Valori di rs ≤ −.79 oppure rs ≥ +.79 sono significativi e indicano che ci sono poche probabilità che la correlazione calcolata sia stata estratta casualmente da una popolazione con ρ = 0 G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 13 / 15 Criterio di significatività La regione critica si basa su un valore arbitrario, indicato con α, che è la probabilità di rifiutare H0 quando, invece, è vera. Ci sono 2 tipi di errore: Errore di primo tipo o α: l’errore di accettare per vera H1 che, invece, è falsa ovvero di rifiutare H0 che è invece vera Errore di secondo tipo o β: l’errore di accettare per vera H0 che, invece, è falsa ovvero rifiutare H1 che invece è vera Si chiama potenza di un test la sua capacità di accettare H1 quando è vera [1-β] Qualunque sia la decisione che prendiamo, corriamo un rischio calcolato Il rischio viene calcolato tramite l’uso delle distribuzioni di probabilità G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 14 / 15 Relazioni fra errori e ipotesi Ipotesi H0 - Vera H1 - Falsa H0 - Falsa H1 - Vera Accetto H0 ; rifiuto H1 Corretta 1−α Errore II tipo β Rifiuto H0 ; accetto H1 Errore I tipo α Corretta 1−β C’è un legame (complesso) fra α e β: all’aumentare di α diminuisce β Buona parte della statistica inferenziale si focalizza su α In psicologia si usano comunemente i seguenti valori di α: α = .05 5% * α = .01 1% ** α = .001 0.1% *** G. Rossi (Dip. Psicologia) ElemPsico 2014-2015 15 / 15