Metodologia della ricerca e analisi dei
dati in (psico)linguistica
24 Giugno 2015
Statistica inferenziale
[email protected]
Distribuzione di frequenza
• Distribuzione degli errori nel dettato in 2^
7
6
5
4
3
2
1
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Un salto logico…
• Da quanto è frequente un certo numero di
errori in seconda
• a…
• Quanto è probabile che un bambino di
seconda commetta 2 (o 10 o 7) errori?
La probabilità
• La probabilità di un evento varia da 0 (non c’è
alcuna possibilità che si verifichi) a 1
(occorrerà sicuramente).
• Si esprime in termini decimali (es. probabilità
del .05; .10 )
• Ma la si può interpretare in termini di
percentuale.
• Per ogni distribuzione di frequenza possiamo
calcolare la probabilità che si verifichi un certo
evento (es. numero di errori).
• Ma è complicato!
Distribuzioni teoriche di probabilità
• Esistono alcune distribuzioni di frequenza che
permettono, mediante l’uso di formule, di
individuare subito qual è la probabilità di
occorrenza di un particolare punteggio.
• Distribuzione normale, binomiale, chi
quadro…
Come è possibile?
• Esempio distribuzione normale standard
Normal Curve
20
Frequency
16
12
8
4
0
-4
-2
0
Score (X)
2
4
Distribuzione Normale standard
• Distribuzione con media 0 e Deviazione
Standard 1, ottenuta dalla trasformazione
della variabile casuale X in unità di deviazione
standard (variabile z).
Proprietà della Normale
1. Media, mediana e moda hanno il medesimo
valore
2. La curva è simmetrica rispetto alla media
3. La curva è asintotica all’asse delle X
4. L’area al di sotto della curva normale è uguale
a 1.
Area sottesa alla curva
–L’area sottesa alla Normale fra -1.96 DS e
+1.96 DS è pari al 95% dell’area totale
–L’area sottesa alla Normale fra -3ds e +3ds è
pari 99.8% dell’area totale
Che cosa dobbiamo fare?
• Dobbiamo SOLO trasformare i nostri dati in
una distribuzione teorica di probabilità!
Standardizzazione (o
normalizzazione)
Trasformare i dati grezzi in una distribuzione di
dati con media e deviazione standard note.
(x  X )
z
s
Che cosa otteniamo?
• Distribuzione con M = 0 e DS= 1;
• Il 95% dei valori si colloca tra z = -1.96 e
z=+1.96
Tavole di z
• Come le leggiamo?
Facciamo un esempio
• Bambino di seconda elementare;
• Tempo di lettura lista aa della prova di lettura
di parole (Batteria Sartori, Job, Tressoldi).
• Tavole di z
• Norme tempi di lettura Batteria Sartori Job
Tressoldi.
• Variabile dipendente: tempo di lettura lista aa
• 68 sec
Come procediamo?
• Vedi foglio con dati normativi.
• Attenzione: cosa sono i dati normativi?
• Individuiamo M e DS per aa, nella riga 2^
elementare
Stabiliamo Hp speriementale
• La velocità di lettura del bambino si discosta
da quella della popolazione.
• (NP: Hp alternativa assume sempre che ci sia
un effetto, una differenza).
• Il bambino NON è estratto da una popolazione
con media = 35 e DS = 15.
Stabiliamo una Hp nulla
• La velocità di lettura del bambino è = a quella
della popolazione.
• Si può anche dire…
• il bambino è estratto da una popolazione (a
sviluppo tipico) con media = 35 e DS = 15.
Calcoliamo il Punto z
• Z = (68-35)/15 = 2,2
• A che valore di probabilità è associato?
• Prendere le tavole.
• 0,98 (valore estremo)
• = 1- 0,98 = 0,2
f(x)
0.4
0.3
98%
0.2
2%
0.1
0
-4
-3
-2
-2
0
1
2
Z = 2,2
3
4
• Diremo che:
• C’è 2% di probabilità che questo bambino sia
estratto da una popolazione a sviluppo tipico
con M = 35 e DS = 15.
P <.05?
• Hp sperimentale è valida.
• La velocità di lettura del bambino si discosta
da quella della popolazione.
Standardizzazione: a quali dati
si applica?
• Variabili casuali continue
• QI, velocità di lettura, ecc.
E quando ho una variabile
categorica?
• Es. lancio di una moneta
• Immaginiamo di lanciare una moneta 10 volte.
• Qual è ogni volta probabilità di ottenere Testa
o Croce?
• .5
• Se ottengo 8 volte testa mi insospettisco….
Binomiale
• La distribuzione binomiale indica la probabilità
che si verifichino diversi eventi casuali fra loro
indipendenti, ognuno dei quali può assumere
solo uno fra due (o più) valori diversi: giusto o
sbagliato (es. testa o croce).
Nella pratica quotidiana?
• Test di comprensione sintattica delle relative:
• 10 item
• 2 possibili risposte (p = 0,5 di indovinare la
giusta)
Definiamo le Hp
• Hp0= il partecipante sta rispondendo a caso
(below chance);
• Hp1 = il partecipante non sta rispondendo a
caso (above chance).
• Es. bambino risponde correttamente a 8 su 10
item;
• N = 10
• P = 0,5
• r (successi) = 8
Distribuzione BINOMIALE
N = 10
P = 0,5
r=8
r
0
1
2
3
4
5
6
7
8
9
10
Probabilità
0,00098
0,00977
0,04395
0,11719
0,20508
0,24609
0,20508
0,11719
0,04395
0,00977
0,00098
Per ogni evento r (successo) la binomiale indica quanto è
probabile, assumendo che sia dovuto a fluttuazioni casuali.
Come procediamo?
• Sommiamo i valori estremi di probabilità
(includendo anche la probabilità associata
all’evento r = 8):
• P (0,1,9,10,8) = 0,00098 + 0,00977 + 0,00977
+ 0,00098 + 0,04395 = 0,0644 p ≥ 0,05
• r = 8 non rientra tra i valori estremi di successi
(0,1,9,10) tali per cui p ≤ 0,05
• Non posso rigettare Hp0.
• Il bambino è below chance.
• Vedi foglio di calcolo excel
Distribuzione campionaria della
media e uso nel test delle Hp
Usare la distribuzione campionaria
per testare ipotesi?
• La media campionaria é distribuita in modo
Normale;
• Se prendiamo x campioni, e costruiamo la
distribuzione di frequenza delle medie
campionarie, questa avrà una distribuzione
normale.
Distribuzione campionaria

= 10
= 10
M = 10
M=9
M = 11
M = 10
M=9
M=8
M = 12
M = 11
M = 10
Distribuzione campionaria
• Frequenza con cui si distribuiscono le medie
dei campioni estratti da una stessa
popolazione.
Frequenza
Come si distribuiscono?
Medie dei campioni
Come procediamo?

Applichiamo la distribuzione teorica di
probabilità normale per testare se:
X 
Assumendo che nella popolazione Hp nulla sia
valida;
Quindi cos’è il p?
• Probabilità che il nostro campione sia estratto
da una popolazione in cui Hp nulla è valida.
• Possiamo anche dire:
• p = Probabilità che la differenza tra condizioni
che abbiamo ottenuto sia dovuto a fattori
CASUALI.
La distribuzione del Chi quadro
Quando si applica?
(a) i dati non sono normalmente distribuiti;
(b) le varianze possono essere non omogenee;
(c) i dati sono misurati su una scala ordinale.
Il Chi-Quadrato (2)
• Si usa con dati nominali, quando tutto quello
che si ha a disposizione è la frequenza con cui
è occorso un certo evento.
Come funziona?
• Confronta una distribuzione di frequenza
osservata con una distribuzione di frequenza
attesa. La distribuzione attesa è quella che noi
avremmo se H0 valida.
La formula del 2

O  E 
2
2


E
Necessario calcolare le frequenze
attese (E – expected).
Come inseriamo i nostri dati?
Compito 1 Compito 2
RISOLTO
ERRORE
La tabella rappresenta le
frequenze osservate (O observed)
E la media e la DS?
• Non possiamo calcolarle.
• Abbiamo una frequenza.
• Che potremo riportare come %
• x% dei partecipanti ha svolto correttamente il
compito 1, mentre solo il x% ha svolto
correttamente il compito 2.
Come lo calcoleremo?
• In R