Seconda parte decima unità

DECIMA UNITA’
Il confronto tra due campioni
Nell’unità precedente abbiamo approfondito come si può procedere nello stimare i parametri di una
popolazione a partire dalle statistiche di un suo campione. Il teorema di limite centrale, in
particolare, ci ha fornito i mezzi per giungere a stime per le quali potevano anche indicare gli
intervalli di confidenza. In altre parole, identificare la probabilità che le nostre conclusioni fossero
esatte o anche controllare la probabilità di compiere un errore di stima. Quando si conoscono i
parametri della popolazione, e in particolare s, è possibile ricorrere alla distribuzione di z per poter
giungere a valutazioni adeguate e prendere decisioni in condizioni di incertezza controllata.
Tuttavia, si è anche constatato che quando non si conoscono i parametri di una popolazione e ancor
più quando l’ampiezza del campione considerato è modesta, occorre ricorrere a un nuovo tipo di
distribuzione, o meglio a una famiglia di distribuzioni, quella del t di Student.
In questa unità esamineremo più da vicino le opportunità che offre questa distribuzione per
affrontare le seguenti situazioni:
a) confrontare la media delle differenze tra due campioni dipendenti (cioè correlati tra di loro)
e la media attesa;
b) confrontare tra loro le medie di due campioni indipendenti, cioè non correlati tra di loro.
In particolare ci interessa affrontare un insieme di questioni assai interessante e denso di
applicazioni nel campo delle scienze dell’educazione. Esso può essere espresso in questi termini.
Abbiamo due campioni dei quali possiamo elaborare le loro statistiche. A partire da questi dati è
possibile stimare se essi provengono da una medesima popolazione o se, invece, essi mettono in
evidenza l’esistenza di due distinte popolazioni? Quale grado di fiducia possiamo assegnare alle
conclusioni raggiunte?
1. Il caso relativo al confronto tra le medie di due campioni indipendenti, cioè non correlati
tra di loro.
E’ questo il caso più frequente nelle indagini svolte nell’ambito delle scienze dell’educazione. Si
vuole infatti chiarire se le medie individuate in due campioni differiscano tra loro in modo
significativo e se su questa base è possibile inferire che essi sono tratti da due popolazioni diverse.
Si tratta, cioè, di trovare le strade per ottenere informazioni tali che ci garantiscano, almeno a un
sufficiente livello di fiducia, cioè di probabilità, che i campioni presi in considerazione provengono
da una stessa o da differenti popolazioni. Se utilizziamo un certo metodo di intervento psicologico a
un gruppo sperimentale e confrontiamo i risultati ottenuti con quelli di un gruppo paragonabile di
controllo, le differenze che riscontriamo sono tali che possiamo affermare di essere di fronte a due
popolazioni diverse dal punto di vista adottato? Con quale grado di fiducia? Oppure in realtà si
tratta della stessa popolazione, cioè il trattamento adottato nel gruppo sperimentale non dà risultati
significativamente diversi da quelli che riscontriamo in quello di controllo. Inoltre, questi risultati
sono generalizzabili a tutta la popolazione di riferimento? Con quale grado di fiducia?
97
Per affrontare problematiche di questo tipo è stato utile, come per quelle considerate nell’unità
precedente, ricorrere a una distribuzione ideale di riferimento, che, come si può facilmente pensare,
è proprio quella normale. Vediamo come si può procedere.
Invece di considerare la distribuzione delle medie dei campioni estraibili da una popolazione, in
questo caso si prende in considerazione la distribuzione delle differenze tra le medie di due
campioni. E’ facile pensare che alcune di queste differenze saranno minime, qualcuna potrà anche
essere uguale a zero, ma altre potrebbero essere anche assai ampie. L’insieme delle differenze di
tutte le possibili coppie estraibili viene a costituire un nuovo tipo di distribuzione di frequenze. Se i
campioni estratti sono sufficientemente grandi quanto a numero di unità statistiche e i campioni
provengono dalla stessa popolazione la distribuzione delle differenze tra le medie delle coppie di
campioni assumerà approssimativamente la forma normale. La media di questa distribuzione
sappiamo che è zero.
Otteniamo così quella che si chiama la distribuzione campionaria delle differenze tra le medie.
Mentre la sua media è zero, la sua dispersione dipende dalla dispersione della popolazione. La
deviazione standard di questa distribuzione è denominata errore standard delle differenze tra le
medie.
A esempio, immaginiamo di estrarre a caso due campioni alla volta (senza reimmissione) da una
popolazione, per la quale si abbia µ = 5,0 e s = 0,99. Estraiamo due unità per il primo campione
(cioè, n1 = 2) e tre unità per il secondo campione (cioè, n2 = 3). Per esempio, possiamo estrarre 5 e 6
per il primo campione e 4, 4, 7 per il nostro secondo campione. Ora, poiché X 1 = 5,5 e X 2 = 5,0,
sarà X 1 - X 2 = 0,5. Supponiamo adesso di continuare a estrarre campioni con n1 = 2 e n2 = 3,
finché non abbiamo ottenuto un gran numero di coppie di campioni. Se calcoliamo le differenze tra
le medie delle coppie di campioni e trattiamo ciascuna differenza come un punteggio, possiamo
costruire una distribuzione di frequenza delle differenze stesse.
Quale dovrebbe essere intuitivamente la forma di questa distribuzione di frequenza? Avendo
selezionato coppie di campioni dalla stessa popolazione, con una procedura casuale, ci dovremmo
aspettare una distribuzione normale con media uguale 0.
Facendo un passo in più, possiamo descrivere la distribuzione della differenza tra coppie di medie
campionarie, anche nel caso in cui i campioni non sono estratti dalla stessa popolazione. Avremo
infatti una distribuzione normale con media (µx1-x2) uguale a µ1 – µ2 e deviazione standard (s x1-x2)
denominata anche errore standard della differenza tra le medie uguale a
Così la distribuzione campionaria della statistica:
è una distribuzione normale che ci consente pertanto di ricorrere a una curva normale standardizzata
per la verifica statistica delle ipotesi.
La statistica z viene impiegata solamente allorché sono noti i parametri della popolazione. Poiché
solo raramente essi sono noti, siamo costretti ancora una volta a stimare l’errore standard, che nel
nostro caso è s x1-x2.
98
Se estraiamo un campione di n1 individui da una popolazione con varianza incognita ed un secondo
campione di n2 individui da un’altra popolazione con varianza incognita, l’errore standard della
differenza tra le medie, può essere calcolato mediante la formula
oppure
Tuttavia, se n1 e n2 = n, le formule si possono semplificare:
dove n è il numero di elementi appartenenti a ciascuno dei due campioni.
Le precedenti formule rappresentano stime distorte dell’errore standard della differenza tra le
medie. Tuttavia al crescere di n, esse tendono a divenire stime corrette. La stima corretta, che
suppone i due campioni estratti da popolazioni con la stessa varianza, cumula la somma dei
quadrati, nonché i gradi di libertà dei due campioni al fine di ottenere una stima globale dell’errore
standard della differenza. Pertanto:
Tuttavia, se n1 e n2 = n, la formula si semplifica e diventa:
Per ottenere la somma dei quadrati nei due gruppi, possiamo applicare una formula già incontrata
per ogni campione e quindi ottenere:
Allorché gli n sono uguali le varie formule sono algebricamente identiche. Così, per n uguale in
ambedue i campioni, una qualunque di esse può essere utilizzata a seconda delle condizioni
disponibili per il loro calcolo.
La statistica utilizzata per la verifica delle ipotesi, quando la deviazione standard della popolazione
non è nota, è il rapporto t
99
in cui (µ1 – µ2) è il valore atteso sulla base dell’ipotesi nulla. La t di Student richiede una stima
corretta di sx1-x2 perciò le formule precedentemente introdotte possono essere usate per calcolare
sx1-x2
La tavola fornisce i valori critici della t, necessari per determinare la significatività del test ai vari
livelli di a. Poiché i gradi di libertà di ogni campione sono pari rispettivamente ad n1-1 e n2-1, il
numero totale di gl sarà pari ad n1 + n2 – 2.
Problema
Un ricercatore è interessato a determinare se un dato farmaco ha effetto sul rendimento di alcuni
soggetti impegnati in un compito di coordinazione psico-motoria. Si scelgono 9 soggetti per il
gruppo 1 (gruppo sperimentale) ai quali prima della prova si somministra il farmaco.
Contemporaneamente i 10 soggetti del gruppo 2 (gruppo di controllo) ricevono del placebo.
Poniamo questo problema in termini statistici. I risultati dell’esperimento sono presentati nella
tabella 10.1
Tab. 10.1 - Punteggio di due gruppi di soggetti in un test di coordinazione psico-motoria .
Ipotesi nulla (H0): Non c’è alcuna differenza a livello di popolazione tra le medie del gruppo di
coloro che hanno assunto il farmaco nel test di coordinazione psico-motoria; cioè µ1 = µ2 o µ1 – µ2 =
0.
Ipotesi alternativa (H1): Esiste una qualche differenza a livello di popolazione tra le medie dei
punteggi ottenuti dai due gruppi nel test di coordinazione psico-motoria.
Noterete che la nostra ipotesi alternativa è non direzionale. Pertanto, dovremo usare un test di
significatività di tipo bidirezionale, cioè µ1 ? µ2.
Test statistico: Dovendo confrontare due medie campionarie, nella presunzione che esse
provengano da popolazioni distribuite normalmente e con uguale varianza, è appropriato l’uso del
test della t di Student, relativamente al caso di due campioni.
Livello di significatività: a = 0,05.
Distribuzione campionaria: La distribuzione campionaria è data dalla distribuzione della t di
100
Student con gl n1 + n2 - 2, cioè 9 + 10 - 2 = 17.
Regione critica: Poiché H1 è un’ipotesi non direzionale, la regione critica è costituita da tutti i valori
di t minori o uguali a -2,110 e maggiori o uguali a 2,110.
Essendo n1 ? n ed avendo supposto le varianze uguali, utilizzeremo la formula
per stimare l’errore standard della differenza tra le medie. La somma dei quadrati del gruppo 1 è:
Analogamente, la somma dei quadrati nel gruppo 2 è:
Pertanto il valore di t è dato da
Decisione: Poiché la t che abbiamo ottenuto cade entro le regione critica, respingiamo l’ipotesi H0.
Il valore negativo di t sta semplicemente ad indicare che la media del gruppo 2 è maggiore della
media del gruppo 1. Nell’utilizzare la Tavola B, non teniamo conto del segno di t.
2. Il caso relativo al confronto tra le medie di due campioni dipendenti, cioè correlati tra di
loro.
Uno dei maggiori problemi che deve affrontare lo studioso del comportamento è l’estrema
variabilità dei suoi dati. In effetti, è proprio a causa di questa variabilità che egli è costretto a far
ricorso agli strumenti dell’inferenza statistica. Allorché un esperimento viene effettuato e quindi si
ottengono i dati relativi a due o più gruppi ed inoltre si trova una certa differenza dei valori medi nei
due gruppi stessi, ci si pone la seguente domanda: «La differenza che noi abbiamo osservato è così
grande da risultare improbabile la sua attribuzione a fattori puramente casuali?»
Come abbiamo visto, la semplice ispezione visiva dei dati non è generalmente sufficiente per
rispondere alla domanda precedente, proprio a causa di una certa sovrapposizione dei gruppi
sperimentali, dal punto di vista delle risposte. Questa sovrapposizione, d’altra parte, è da attribuire
al fatto che i soggetti stessi rispondono in maniera estremamente variabile alle condizioni
sperimentali. In un dato esperimento, i punteggi di ciascun soggetto sulla variabile risposta possono
essere considerati come la risultante di tre fattori: (1) l’attitudine del soggetto stesso e/o la sua
abilità nel compito assegnatogli; (2) gli effetti della variabile sperimentale; e (3) l’errore casuale
dovuto ad un’ampia gamma di differenti cause, quali la variabilità delle condizioni sperimentali
101
stesse, da esperimento ad esperimento, oppure le fluttuazioni momentanee di elementi, quali
possono essere, l’attenzione del soggetto, le motivazioni del soggetto stesso nell’esperimento, e così
via. Per quanto riguarda l’errore casuale non c’è gran che da fare, se non cercare di controllare al
massimo le condizioni sperimentali stesse. Per quanto riguarda invece gli effetti della variabile
sperimentale, essa costituisce proprio l’oggetto della nostra ricerca. Nella maggior parte delle
ricerche, la differenza individuale tra i soggetti costituisce di gran lunga il fattore più importante
dell’intrinseca variabilità dei punteggi sulla variabile risposta. Tutto ciò che possiamo fare in questo
caso è di tenere conto di questo tipo di variabilità cercando di rimuoverla per quanto è possibile,
così da poter evidenziare l’effetto della variabile sperimentale stessa sulla risposta dei soggetti.
Questo capitolo è dedicato alle tecniche comunemente impiegate per raggiungere questo obiettivo e
che possiamo comprendere nel termine di: campioni correlati.
Nella nostra precedente discussione sulla t di Student abbiamo presentato la formula per la stima
dell’errore standard della differenza tra le medie, cioè
In effetti questa non è la formula più generale per il calcolo dell’errore standard della differenza, in
quanto essa è la seguente:
L’ultimo termine della precedente formula viene eliminato ogni qual volta i soggetti del campione
sono assegnati con una procedura casuale alle varie condizioni sperimentali; questo fatto comporta
che allorché i punteggi vengono associati in maniera puramente casuale la correlazione tra i due
campioni dovrà essere zero. Qualunque correlazione che si potrà ritrovare in questi casi dovrà
essere considerata come spuria, nella misura in cui l’associazione tra i punteggi è stata effettuata in
maniera puramente casuale. Conseguentemente, allorché i soggetti sono assegnati alle condizioni
sperimentali in maniera puramente casuale, l’ultimo termine si riduce a zero (in quanto si ha r = 0).
Tuttavia si danno parecchie situazioni sperimentali in cui noi non assegniamo i soggetti in maniera
casuale alle condizioni sperimentali La maggior parte di queste situazioni può essere classificata in
due gruppi.
1. Piano sperimentale del tipo prima - dopo. L’osservazione su un soggetto viene effettuata sia
prima che dopo l’introduzione della variabile sperimentale. L’assunzione fondamentale è che
ciascun individuo rimanga relativamente coerente con se stesso nel corso di tutto l’esperimento. In
questo caso esisterà indubbiamente una correlazione tra il campione dei punteggi rilevati prima ed il
campione dei punteggi rilevati dopo l’introduzione della variabile sperimentale.
2. Piano sperimentale per gruppi appaiati. Gli individui appartenenti sia al gruppo
sperimentale che al gruppo di controllo vengono accoppiati sulla base di una stessa variabile che
risulta essere correlata alla variabile dipendente, cioè alla variabile risposta. Così se siamo
interessati a determinare l’effetto di un certo farmaco sulla capacità degli individui di risolvere un
problema matematico, possiamo appaiare gli individui sulla base della stima del loro quoziente di
intelligenza, oppure in base al loro addestramento in matematica oppure in base all’anno di
iscrizione ad una data facoltà od anche in base al loro rendimento nella soluzione di altri problemi
matematici. Un tale piano sperimentale presenta due vantaggi:
a) Ci assicura che i gruppi sperimentali si trovino nelle stesse condizioni, per quanto riguarda le
102
loro capacità di base;
b) Consente di avvantaggiarsi della correlazione della variabile risposta con le capacità di base
suddette, e pertanto ci dà l’opportunità di rimuovere in concreto una sorgente di errore nelle
nostre misurazioni.
Al fine di comprendere i vantaggi dell’uso di campioni correlati, prendiamo in considerazione un
problema di campionamento e calcoliamo l’errore standard della differenza tra le medie, utilizzando
la formula basata su gruppi non appaiati e utilizzando, poi, la formula che prende invece in
considerazione la correlazione tra i gruppi.
Tab. 10.2 - Punteggi di due gruppi di soggetti in un esperimento basato su un piano a gruppi appaiati.
La Tabella 10.2 ci presenta i dati relativi a due gruppi di soggetti appaiati sulla base di una variabile
notoriamente correlata alla variabile risposta. I membri di ciascuna coppia sono assegnati, con una
procedura casuale, alle condizioni sperimentali.
I seguenti passi sono utilizzati nel calcolo dell’errore standard della differenza tra le medie nel caso
di campioni non appaiati.
PASSO 1 - La somma dei quadrati del gruppo 1
PASSO 2 - La deviazione standard del gruppo 1 è
PASSO 3 - L’errore standard della media del gruppo 1 è
PASSO 4 - Analogamente l’errore standard della media del gruppo 2 è
PASSO 5 - L’errore standard della differenza tra le medie per campioni indipendenti è
103
Per calcolare l’errore standard della differenza tra le medie nel caso di campioni appaiati, dobbiamo
utilizzare il seguente procedimento.
PASSO 1 - Utilizzando la formula per trovare il coefficiente di correlazione troviamo che la
correlazione tra i due gruppi è
PASSO 2 - L’errore standard della differenza tra le medie, per il caso di gruppi appaiati è
Si può notare che la formula, in cui un termine è caratterizzato dalla presenza del coefficiente di
correlazione, ci dà una netta riduzione dell’errore standard stesso.
In altri termini essa ci fornisce un test più sensibile alla differenza tra le medie e quindi ci dà una
maggior opportunità di arrivare al rifiuto dell’ipotesi nulla, quando questa è falsa. Nel linguaggio
dell’inferenza statistica diciamo che è un test più potente. Naturalmente la maggior potenza, o
sensibilità della formula, è direttamente correlata alla nostra capacità di associare i soggetti su una
variabile che sia correlata con la variabile risposta. In effetti se r tende a crescere, sx1-x2 tenderà a
diventare, in corrispondenza, piuttosto piccolo, mentre se r si avvicina allo zero, il vantaggio di
usare campioni correlati tende progressivamente a svanire.
Un bilanciamento della migliore sensibilità dell’errore standard della differenza tra le medie, per r
molto grande, è dato dalla perdita dei gradi di libertà. Infatti mentre il numero di gradi di libertà nel
caso di campioni non appaiati è n1 + n2 – 2, il numero dei gradi di libertà di un campione costituito
da due sottogruppi correlati è dato dal numero delle coppie – 1, cioè n = 1. Questa differenza nei
gradi di libertà può risultare critica allorché il loro numero diventa eccessivamente piccolo, in
quanto, come abbiamo visto, sono necessari dei valori della t di Student molto più alti per ottenere
un test significativo.
104