La raccolta e l`analisi dei dati linguistici

Laboratorio di
Metodologia della ricerca
Università di Urbino
Mirta Vernice
[email protected]
Sito del corso
• esercitazionestatistica.pbworks.com
• Cliccare sul link Metodologia della Ricerca.
• Troverete tutto il materiale relativo al
laboratorio.
Come contattarmi
• [email protected]
Obbligo di frequenza
• OBBLIGO DI FREQUENZA ALL’ 80% DELLE ORE
• QUESTO SIGNIFICA: 1 assenza
• Per problemi/eventuali richieste MANDARE
EMAIL!
In cosa consiste il lavoro
individuale?
• Stesura di 1 report scientifico + analisi dei
dati.
• Riguarderà gli esperimenti che saranno svolti
o impostati a lezione.
• Max 700 parole (2 facciate di word, interlinea
doppia, carattere Times New Roman,
dimensione 12).
Info più dettagliate nella
prossima lezione!!
Che cosa faremo in questo
laboratorio?
• Impostazione e svolgimento di esperimenti
psicologici.
• Costruzione/testing/scoring
• Analisi statistica dei risultati.
– Statistica descrittiva
– Statistica inferenziale
Programma che useremo
• Excel
• Rcmdr (R commander)
• IMPORTANTE: se possibile, portare il portatile
a lezione!
La lezione di oggi
• La ricerca sperimentale in psicologia.
• Breve ripasso di Excel (inserimento dati,
statistica descrittiva, ecc.).
Uno studio sperimentale
• Raccogliere letteratura su un argomento
• Proporre un’ipotesi sperimentale
• Testarla
• Condurre un’analisi statistica dei risultati
• Stendere un report scientifico
Ordine delle sezioni di un
report/articolo scientifico
– Titolo
– Abstract
– Introduzione
– Metodi
– Risultati
– Discussione
– Bibliografia
Tanto io non farò mai ricerca….
E la tesi?
Metodologia della ricerca
• Individuare un oggetto di indagine
– Lettura/produzione sintattica/accesso lessicale/
• e un paradigma sperimentale
– Self paced reading/masked priming/ecc.
•
•
•
•
Disegnare un esperimento
Costruirlo
Testare partecipanti
Analizzare i dati
Da cosa si parte?
•Da una ipotesi…
•Per esempio?
Ipotesi sperimentali
• Parole bisillabiche lette più velocemente di
parole trisillabiche.
• Parole acquisite prima lette più velocemente
di parole acquisite più tardi nel corso dello
sviluppo.
• (punto critico: come definiamo AoA?)
Burani et al., 2002
• Parole morfologicamente complesse lette più
velocemente di parole non complesse, a parità
di numero di lettere e frequenza.
• CAMMELLO RT > CASSIERE
• Ma solo in popolazioni a sviluppo atipico (es.
dislessici).
Hp sperimentale
• Deve essere verificata.
• Come si procede?
1. Prevedere che tipo di risultato si otterrebbe
assumendo che l’Hp sperimentale sia valida;
2. Prevedere che tipo di risultato si otterrebbe
assumendo che l’Hp sperimentale NON lo sia.
Hp sperimentale vs. Hp nulla
• Nel caso di Burani et al., 2002?
• Definiamo Hp sperimentale e Hp nulla.
Hp Nulla: importante
• No: Non esiste relazione tra i due eventi
(complessità morfologica delle parole/velocità
lettura/popolazione a sviluppo atipico vs.
tipico)
• Bensì: le eventuali variazioni riscontrate negli
eventi considerati sono dovute al CASO.
Hp sperimentale
• Predice una relazione tra due o più eventi
(complessità morfologica di una
parola/velocità di lettura);
• Assume che questo si verifichi in una
popolazione a sviluppo atipico.
Variabili dipendenti/indipendenti
• Variabile dipendente: quella che misuro.
• Variabile indipendente: quella che manipolo.
• Indipendente: Causa
• Dipendente: Effetto
Variabile indipendente
• Che significa manipolare?
• Variare.
• Condizioni sperimentali: diverse “versioni” in
cui può comparire un item nell’esperimento
(es. parole complesse vs. non complesse).
Variabile dipendente
• Quella che posso misurare.
• Su cui conduco l’analisi dei dati.
• La natura della variabile dipendente
determina il tipo di analisi.
Variabile dipendente
• Variabile categorica
– corretto/sbagliato
– attivo/passivo
• Variabile continua
– Tempo di lettura (Reading time)
– RT (Reaction time)
Una Hp sperimentale…
• Permette di predire chiaramente sia quello
che avverrà, sia ciò che non avverrà.
Statistica
• Permette di stabilire se l’Hp sperimentale è
verificata oppure no.
• Quando Hp sperimentale non è verificata, non
è detto che Hp nulla lo sia.
• Si dirà semplicemente che bisogna rigettare
Hp sperimentale.
“Statistics is deeply intertwined with research
design. If you want to be good at designing
psychological studies, you need to understand
the basics of stats.”
Dan Navarro
Un esempio
Carminati, 2002; 2005
•
•
•
•
Esperimento Self paced reading
Position of Antecedent Strategy (PAS):
In contesti anaforici osserva che:
Pronomi nulli sono assegnati a un
antecedente in posizione sintattica più
saliente (in genere, il soggetto).
• Pronomi espliciti sono assegnati (di solito) a
un antecedente non-soggetto.
Carminati, 2002; 2005
1a. Quando Vanessa ha visitato Giovanna in
ospedale, lei le ha portato un mazzo di fiori.
1b. Quando Vanessa ha visitato Giovanna in
ospedale, Ø le ha portato un mazzo di fiori.
1c. Quando Vanessa ha visitato Giovanna in
ospedale, lei era già fuori pericolo.
1d. Quando Vanessa ha visitato Giovanna in
ospedale, Ø era già fuori pericolo.
Self Paced Reading
Quando ____ ____ ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____Vanessa ____ ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____ ____ ha ____ ___ ___ ____ ___ ___ ____
Self Paced Reading
____ ____ ____visitato ___ ___ ____ ___ ___ ____ ___
Self Paced Reading
____ ____ ____ ___ Giovanna___ ____ ___ ___ _____
Disegno fattoriale
• Manipolazione 2x2
• 2(Pronoun: overt vs. null) x 2 (Semantically
plausible co-referent: object vs. subject).
• Manipolazione within items e within subjects.
• Cosa significa?
Carminati, 2002; 2005
1a. Quando Vanessa ha visitato Giovanna in
ospedale, lei le ha portato un mazzo di fiori.
1b. Quando Vanessa ha visitato Giovanna in
ospedale, Ø le ha portato un mazzo di fiori.
1c. Quando Vanessa ha visitato Giovanna in
ospedale, lei era già fuori pericolo.
1d. Quando Vanessa ha visitato Giovanna in
ospedale, Ø era già fuori pericolo.
Lista latin square
•
•
•
•
•
•
•
Soggetto 1
Item 1 condizione a
Item 2 condizione b
Item 3 condizione c
Item 4 condizione d
Item 5 condizione a
….
Lista latin square
•
•
•
•
•
•
•
Soggetto 2
Item 1 condizione b
Item 2 condizione c
Item 3 condizione d
Item 4 condizione a
Item 5 condizione b
….
Latin square
Vetrata
commemorativa in
onore di Ronald Fisher
Caius College,
Cambridge
Manipolazione
• Può essere:
– Entro item (within-items)
– Tra item (between-items)
– Entro soggetti (within-subjects)
– Tra soggetti (between-subjects)
• Between/within items
• Manipolazioni “between-” richiedono MOLTI
partecipanti. Necessario manipolare ordine di
occorrenza dei trial tra soggetti.
• Manipolazioni “within-” richiedono un
numero più limitato di partecipanti perché
controllano variabilità soggetti/item.
Pilot study/Norming
• Nella costruzione item sperimentali
controllare:
– Frequenza verbi/NP
– Accettabilità
– Familiarità
– AoA (Age of Acquisition)
E i filler?
• Necessari.
• “Assorbono” la manipolazione degli item
sperimentali.
• Almeno 3 volte il numero degli item
sperimentali (in un esperimento
comportamentale).
Partecipanti
• Adulti
• Popolazioni specifiche? Bambini? Bilingui?
SLI?
• Quali criteri di inclusione?
• Impatto sul disegno dell’esperimento.
Importante: somministrare un questionario sul
background linguistico-culturale
Partecipanti
•
•
•
•
Quanti ce ne vogliono?
Dipende dal nostro studio.
È within o between subjects?
Quante condizioni sperimentali abbiamo?
• NB: in genere minimo 6 partecipanti per ogni
lista latinsquare.
Partecipanti
• Mai lasciarli a sé stessi…
• Istruzioni possono fare la differenza.
– Rating di accettabilità scala -5 punti:
• A. “….basa le tue risposte sulla tua intuizione di
parlante nativo”
• B. “…credi che un professore di italiano accetterebbe
questa espressione?”
Metodologia e statistica nel
paper (o report scientifico)
Introduzione
•
•
•
•
•
Breve introduzione dell’area di indagine
Cenni su qualche ricerca condotta in precendenza
Scopo dello studio
Breve descrizione dei metodi
Ipotesi
Nell’Introduzione
• Dopo aver brevemente spiegato il metodo,
introdurre l’ipotesi
• Ipotesi:
– A) “Ci si aspetta una differenza tra condizione X e
Y”
oppure:
– B) “Ci si aspetta una performance migliore nella
condizione X rispetto a Y”
Che differenza tra queste due
ipotesi?
• Hp direzionale;
• Hp non direzionale;
• Avrà delle implicazioni sull’analisi statistica che
condurremo.
Metodo
• Sottosezioni:
– Participanti: Chi?
– Materiali: Cosa è stato usato? Descrivere gli item.
– Disegno: Quale manipolazione sperimentale è
stata attuata?
– Procedura: Come si è svolto l’esperimento?
Partecipanti
• 20 studenti (3 M) dell’Università X hanno
preso parte al nostro studio. Tutti i
partecipanti avevano una vista nella norma.
Materiali
• Indicare:
• Item sperimentali utilizzati (quanti erano,
come erano)
• Eventuali filler
• Supporti tecnici usati per la somministrazione
(foglio di risposta, computer)
Disegno
• Variabile dipendente
• Variabile indipendente
• Com’è stata manipolata var indipendente?
• Within- (entro) o between-(tra) participants?
Procedura
• Tipo di somministrazione (individuale o
collettiva?)
• Come si è svolto l’esperimento?
• Che tipo di istruzioni hanno ricevuto?
Metodo: Importante
• Chi lo legge deve essere in grado di replicare al
dettaglio l’esperimento!
Risultati
• 2 informazioni
• Statistica descrittiva (punteggi grezzi, misure
di tendenza centrale, di dispersione,
frequenze, percentuali);
• Statistica inferenziale (valori ottenuti
dall’applicazione di un test statistico).
• La statistica descrittiva elabora dati per
descrivere fenomeni;
• La statistica inferenziale stima le
caratteristiche di un fenomeno che si riferisce
a una popolazione a partire dall’analisi delle
caratteristiche di un campione.
Popolazione e campione
• Popolazione
– L’insieme di unità (persone, piante, città, ecc.) su
cui vogliamo generalizzare un certo risultato (o un
modello statistico).
• Campione
– Un insieme più piccolo di unità (ma idealmente
rappresentativo) estratte da una popolazione,
usato per determinare delle caratteristiche circa
quella popolazione.
 = 10
Field, 2008
Caveat
• Dati descrittivi sono puramente speculativi!
(non si può concludere granché a partire da
una media o da una percentuale...)
• Solo statistica inferenziale permette di
confermare che l’Hp sperimentale sia
verificata (o no…).
Caveat 2
• Entrambi (dati descrittivi e inferenziali)
indispensabili;
• La descrittiva precede l’inferenziale; fornisce
informazioni cruciali per esplorare i dati.
L’inferenziale stabilisce generalizzabilità
risultati all’intera popolazione.
Risultati
• Descrittivi
• NB: se i dati (medie e dev standard) sono
riportati nelle Tavole, non occorre ripeterle
nel testo. Altrimenti, nel testo bisogna
includere i numeri esatti.
Tavole
Tavola 1: Proporzione di risposte corrette tra partecipanti di
genere maschile e femminile.
Donne
Uomini
Condizione 1
M
SD
.67
.34
.70
.27
Condizione 2
M
SD
.58
.32
.56
.40
Importante: in genere si mette sempre media (M), e
Deviazione Standard (DS) (oppure, se non DS, Errore
Standard, SE).
Risultati
• Statistica inferenziale
• “L’analisi ha permesso di rilevare una
significativa differenza tra la condizione X e Y.”
Discussione
•
•
•
•
•
•
Ricapitolare i risultati principali
Confrontarli con gli studi precedenti
Possibili problemi relativi allo studio condotto
Implicazioni per studi successivi
Direzioni future (cosa posso investigare poi?).
Conclusioni
Tipi di studi
Ricerca sperimentale
– Una o più variabili manipolate sistematicamente
per osservare l’effetto (da solo o combinato) che
causano su una ulteriore variabile.
– È possibile stabilire un rapporto di causa-effetto
tra variabili.
– Si applica alla maggioranza degli studi in psicologia
sperimentale/psicolinguistica.
Ricerche Cross-sectional
– I dati sono raccolti da partecipanti di diverse età
(es. 6 mesi, 12, 18 mesi), ogni gruppo di età è
costituito da partecipanti diversi.
– ≠Studi longitudinali
– Stesso partecipante testato in diverse età della sua
vita.
Studi correlazionali
– Osservare quello che avviene senza interferire
sperimentalmente (manipolare una variabile).
– Indagare relazione tra abilità in prove diverse di
uno o più gruppi di partecipanti.
– Es. Accuratezza in lettura e accuratezza ortografica
in scrittura.
Altre nozioni utili
Nozione di Causa-Effetto
1. Abituarsi a pensare all’indipendente come causa
e la dipendente come effetto.
2. Devono essere contigue (nel tempo).
3. L’effetto non deve occorrere in presenza della
causa.
I “Confounding”
– Una variabile (che in genere non abbiamo
controllato), diversa dalla nostra indipendente,
che potenzialmente può avere un effetto sulla
dipendente;
– Es. La relazione tra età e competenza
morfosintattica potrebbe essere influenzato da
SES (Socio-economic Status).
Eliminare i confounding
– Un effetto deve essere presente quando la causa è
presente. Quando la causa è assente anche
l’effetto deve essere assente.
– Condizione di controllo: la causa è assente.
Paradigmi sperimentali
– Repetition task/continuation task
– Priming (si adatta ad esperimenti di
produzione/comprensione/accesso lessicale)
– Self paced reading
– Eye tracking (reading, visual word paradigm)
– Tecniche neuro…
Decisione lessicale
Ascolta la parola e
decidi: è una parola
reale?
Var. dipendente: RT e
accuratezza.
• Linger
• Software gratuito per esperimenti self-paced
reading.
• http://tedlab.mit.edu/~dr/Linger//
Software per condurre
esperimenti
Software commerciali
• Presentation
• E-prime
• preparare lo script in e-prime e condurre
l'esperimento con e-run (free).
• PsyScope
• http://psy.ck.sissa.it/
• Disegnato per condurre tutti i tipi di
esperimenti psicolinguistici. Misura RTs.
• NB: solo su Mac.
• DMDX
• http://www.u.arizona.edu/~kforster/dmdx/d
mdx.htm
• Adatto a diversi tipi di esperimenti di
psicolinguistica. Misura i RTs rispetto a stimoli
visivi e uditivi.
• NB: solo su PCs. Poco flessibile.
Mechanical turk
Take Home Message





Avere una domanda di ricerca sensata.
Mantenere costante tutto quello che non
interessa indagare.
Sapere come “gestire” bias e altre variabili
difficilmente controllabili.
Costruire un esperimento bilanciato.
Conoscere i propri dati descrittivi prima di
analizzarli statisticamente.