Elementi di Psicometria con Laboratorio di SPSS 1

Elementi di Psicometria con Laboratorio di SPSS 1
10-Significatività statistica per la correlazione
vers. 1.0 (5 novembre 2014)
Germano Rossi1
[email protected]
1 Dipartimento
di Psicologia, Università di Milano-Bicocca
2014-2015
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
1 / 15
Correlazione
Immaginate di aver raccolto un campione di 20 persone
di aver misurato 2 variabili
e di aver trovato un valore di .56
In termini assoluti è una buona correlazione ma. . .
Siamo sicuri che il valore di .56 con un campione di 20 persone
sia una buona stima della correlazione della popolazione?
Potrebbe essere un campione “balordo” con una correlazione
eccessivamente alta (o bassa)
Usiamo la logica della distribuzione campionaria
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
2 / 15
Distribuzione campionaria della correlazione
Usiamo i dati di Tab. 10.1 (vostro libro): una popolazione finita di 2
variabili che correlano a 0.00365
Estraiamo dei campioni di ampiezza 20
Calcoliamo la correlazione per ciascuno dei campioni. . .
Facciamo la rappresentazione grafica per vedere come:
i valori vicini a 0 sono i più frequenti
valori (positivi e negativi) vicini a 0 sono leggermente meno
frequenti di 0
man mano i valori si allontanano da 0, meno frequenti diventano
In pratica i valori della distribuzione campionaria della correlazione
si distribuiscono approssimativamente come una normale.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
3 / 15
Distribuzione campionaria della correlazione
L’approssimazione alla normale è sempre migliore all’aumentare
dell’ampiezza dei campioni (per N piccole si può aggiustare la
distribuzione)
Se la correlazione trovata nel nostro campione di partenza è
compresa nel 95% attorno alla media di 0, allora la nostra
correlazione sarà non significativa ovvero casualmente estratta
da una popolazione con correlazione 0
Se la correlazione trovata sarà compresa nel 5% delle due code
della normale, allora sarà considerata significativa, cioè un valore
poco probabile da ottenere casualmente.
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
4 / 15
Dimostrazione (o verifica) dell’ipotesi
Quello che abbiamo fatto può essere considerato una
dimostrazione di un’ipotesi
Abbiamo ipotizzato che nella popolazione da cui abbiamo estratto
il campione, la correlazione fra le due variabili è 0
Abbiamo costruito una distribuzione campionaria della
correlazione
E abbiamo confrontato la correlazione calcolata con la
distribuzione delle correlazioni
Se la probabilità associata alla nostra correlazione è ≤ 2.5%
allora riteniamo che sia improbabile che il nostro campione sia
stato estratto da quella popolazione (che ha r=0)
In tal caso, concludiamo che il campione viene da una
popolazione diversa
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
5 / 15
Verifica di ipotesi
Possibilità 1 (ipotesi nulla): la correlazione nella popolazione È
zero
ρ=0
Possibilità 2 (ipotesi alternativa): la correlazione nella popolazione
NON È zero
ρ 6= 0
L’ipotesi nulla (indicata anche come H0 ) è tale, perché si basa su
informazioni che abbiamo già o che ipotizziamo come vere e di cui
siamo sicuri (la correlazione è nulla)
L’ipotesi alternativa (indicata come H1 ) è l’ipotesi che
contrapponiamo a quella nulla
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
6 / 15
Inferenza
Nell’inferenza per la
correlazione, H0 è
sempre uguale
(H0 : ρ = 0), mentre
le ipotesi alternative
potrebbero essere:
H1 : ρ 6= 0
H1 : ρ > 0
H1 : ρ < 0
con gl = N − 2
In pratica ci chiediamo se il valore da noi trovato viene da una popolazione
con correlazione nulla. Se accettiamo H0 , sì e quindi la correlazione
trovata (qualunque sia il suo valore) non deve neppure essere presa in
considerazione (non va interpretata).
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
7 / 15
Tavole stati
Inferenza
La tavola dei valori critici riporta i valori (per i gradi di libertà, per diversi α e
per
le dueCipotesi, mono e bi-direzionali) sotto i quali accettare l’ipotesi nulla.
Tabella
Valori critici del coefficiente r di Pearsonr
df
(= N = 2;
N = numero
di coppie
di dati)
1
2
3
4
5
N = 76
Livello di significatività per il test a una coda
0,05
0,025
0,01
0,005
Livello di significatività per il test a due code
0,10
0,05
0,02
0,01
0,988
0,900
0,805
0,729
0,669
α = .05(bi)
7
8
G. Rossi (Dip. Psicologia)
rt = .65 ⇒0,622
H0
0,582
0,549
ElemPsico
0,997
0,950
0,878
0,811
0,754
0,9995
0,980
0,934
0,882
0,833
rt0,707
= .79 ⇒ H0,789
1
0,666
0,632
0,750
0,716
0,9999
0,990
0,959
0,917
0,874
0,834
0,798
0,765
2014-2015
8 / 15
Ipotesi nulla e alternativa
L’ipotesi nulla è l’unica su cui si possono effettivamente fare calcoli
L’ipotesi alternativa apre, invece, ad un insieme di possibilità
(ρ = 0.1, ρ = 0.11, ρ = 0.12 . . .) che non è possibile verificare tutte
contemporaneamente
Se il ragionamento basato sull’ipotesi nulla si dimostra probabile
(95%), la accetteremo per vera.
Se il ragionamento basato sull’ipotesi nulla si dimostra
improbabile (5%), opteremo per quella alternativa
L’ipotesi alternativa la verifichiamo “per assurdo”, ovvero
dimostrando probabilmente falsa l’ipotesi nulla
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
9 / 15
Ipotesi nulla e alternativa
L’ipotesi nulla è quella “conservativa”
L’ipotesi alternativa è quella “innovativa”
Nel caso della correlazione, la “conservatività” è data dall’ipotesi
che non ci sia correlazione fra due variabili
Ovviamente l’alternativa è che ci sia correlazione
Se ipotizziamo una correlazione nulla nella popolazione, la
distribuzione campionaria avrà
Mr = 0
e
σr = √
1
N −1
Altre formule trasformano r in z (in base al valore di N)
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
10 / 15
Tavole di significatività Pearson
La tabella a p.109 riporta per ogni valori di N i valori che identificano il 2.5%
estremo delle code
Per N=5, i valori -0.88 e +0.88 indicano i valori estremi
Ovvero, valori di r compresi fra -0.88 e +0.88 sono non significativi (accettiamo
H0 ) e quindi la correlazione del nostro campione è stata casualmente estratta
dalla popolazione ipotizzata
Valori di r ≤ −.88 oppure r ≥ +.88 sono significativi e indicano che ci sono
poche probabilità che la correlazione calcolata sia stata estratta casualmente da
una popolazione con ρ = 0
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
11 / 15
Tavole di significatività Pearson
L’appendice A riporta una tavola più completa e più precisa
Per ogni valore di N, sono riportato i valori (chiamati “critici”) per il 10%,
5%, il 2% e l’1% (riga “Due code”)
Vediamo che per N=5 il valore critico al 5% è .878 (approssimabile a .88)
Se riprendiamo l’esempio iniziale di r = .56 con N=20, troviamo un
valore critico di 0.444
Poiché .56 è maggiore di .444, la nostra correlazione è significativa
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
12 / 15
Tavole di significatività Spearman
La tabella a p.112 riporta per ogni valori di N i valori che identificano il 2.5%
estremo delle code
Per N=7, i valori -0.79 e +0.79 indicano i valori estremi
Ovvero, valori di rs compresi fra -0.79 e +0.79 sono non significativi (accettiamo
H0 ) e quindi la correlazione del nostro campione è stata casualmente estratta
dalla popolazione ipotizzata
Valori di rs ≤ −.79 oppure rs ≥ +.79 sono significativi e indicano che ci sono
poche probabilità che la correlazione calcolata sia stata estratta casualmente da
una popolazione con ρ = 0
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
13 / 15
Criterio di significatività
La regione critica si basa su un valore arbitrario, indicato con α,
che è la probabilità di rifiutare H0 quando, invece, è vera.
Ci sono 2 tipi di errore:
Errore di primo tipo o α: l’errore di accettare per vera H1 che,
invece, è falsa ovvero di rifiutare H0 che è invece vera
Errore di secondo tipo o β: l’errore di accettare per vera H0 che,
invece, è falsa ovvero rifiutare H1 che invece è vera
Si chiama potenza di un test la sua capacità di accettare H1
quando è vera [1-β]
Qualunque sia la decisione che prendiamo, corriamo un rischio
calcolato
Il rischio viene calcolato tramite l’uso delle distribuzioni di
probabilità
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
14 / 15
Relazioni fra errori e ipotesi
Ipotesi
H0 - Vera
H1 - Falsa
H0 - Falsa
H1 - Vera
Accetto H0 ; rifiuto H1
Corretta
1−α
Errore II tipo
β
Rifiuto H0 ; accetto H1
Errore I tipo
α
Corretta
1−β
C’è un legame (complesso) fra α e β: all’aumentare di α diminuisce β
Buona parte della statistica inferenziale si focalizza su α
In psicologia si usano comunemente i seguenti valori di α:
α = .05
5% *
α = .01 1% **
α = .001 0.1% ***
G. Rossi (Dip. Psicologia)
ElemPsico
2014-2015
15 / 15