Prova delle ipotesi per la media della popolazione

Il campionamento
I concetti di probabilità introdotti sono utili per affrontare il problema del loro utilizzo nell’ambito
della statistica induttiva, cioè di quella parte della statistica che si occupa, con riferimento a un certo
fenomeno, di un numero ristretto di unità dalle quali si vogliono ricavare informazioni valide per
l’intera popolazione.
Spesso è infatti impossibile esaminare l’intera popolazione riferita a un certo fenomeno e quindi ci
si limita ad osservare una parte di questa che servirà per fornire informazioni valide per l’insieme
delle unità.
Il principio fondamentale alla base dell’inferenza statistica è stabilire in che modo deve avvenire la
scelta del campione perché è evidente che campioni diversi danno luogo a informazioni diverse e di
conseguenza alcuni campioni possono essere più simili alla popolazione di altri.
Il processo di induzione fa riferimento alla probabilità e il campione probabilistico o casuale,in base
al quale ogni elemento della popolazione ha una probabilità nota e non nulla di essere scelto ,è il più
semplice da utilizzare.
Con riferimento a questa scelta si dice che ogni elemento della popolazione ha la stessa probabilità
di essere estratto e ogni elemento viene scelto in modo indipendente l’uno dall’altro.
Ne consegue che il primo elemento estratto della c.c.X sarà uno dei possibili valori che può
assumere la v.c. stessa , lo stesso vale per il secondo e così via fino ad arrivare a n corrispondente
alla numerosità del campione stesso.
Le v.c. X1, X2,…..,Xn ,tra loro indipendenti,costituiranno l’insieme degli elementi che sono stati
estratti alla prima, alla seconda,..alla ennesima estrazione e ancora ognuna di questa v.c. si
presenterà con le stesse caratteristiche della popolazione di origine cioè avrà la stessa distribuzione
di probabilità..
Principali distribuzioni campionarie – Campionamento con reintroduzione
L’estrazione delle unità può essere con reintroduzione o senza reintroduzione.
Nel campionamento con reintroduzione gli elementi di volta in volta estratti per formare i diversi
campioni di dimensione n che formano lo spazio campionario vengono reintrodotti nell’urna che,
per questa ragione, rimane sempre costante nella sua composizione.Le estrazioni sono così
indipendenti.
Somma campionaria
Quando si desidera avere risultati il più possibile corretti un esperimento dovrebbe essere ripetuto
molto volte e la statistica del parametro che interessa dovrebbe essere calcolata su ogni campione
estratto dal momento che la media delle statistiche campionarie calcolate su più campioni è più
stabile, cioè presenta una minore variabilità, rispetto alla statistica calcolata su un solo campione.La
somma campionaria non è altro che la somma degli elementi estratti alla prima, alla seconda alla
ennesima estrazione :
S  X 1  X 2  X 3  .......  X n
e se di questa somma si vuole conoscere il valore medio si avrà :
E S   E  X 1   E  X 2   E  X 3   ......  E  X n 
1
Poichè le variabili casuali sono indipendenti e distribuite in modo uguale alla popolazione di
origine, potremo scrivere :
ES         ....    n
la media della somma campionaria è uguale a n volte la media della popolazione dove n sta a
indicare la dimensione campionaria.
Lo stesso ragionamento può essere fatto per il calcolo della varianza ottenendo :
var S   var  X 1   var  X 2   var  X 3   ......  var  X n 
var S    2   2   2  ....   2  n 2
d .s.S    n
La distribuzione riferita alle diverse somme campionarie con le corrispondenti probabilità è
chiamata distribuzione stimatore e le singole si sono le stime della somma calcolate campione
pert campione
Distribuzione delle medie campionarie


Consideriamo il caso di una distribuzione normale X  N  ,  2 dalla quale vengono estratti dei
campioni di dimensione n per i quali si calcola la media:

X

1
X i
n
Le n osservazioni campionarie possono essere considerate come n v.c. campionarie aventi ognuna
la stessa distribuzione di tipo normale con la stessa media e la stessa varianza.
Dalla formula vediamo che la media può essere considerata come una combinazione lineare di n
variabili casuali distribuite allo stesso modo e dal momento che provengono da una popolazione di
tipo normale anche la media campionaria sarà distribuita in modo normale per qualunque valore
finito di n.
Ora calcoliamo la media e la varianza della distribuzione della media campionaria :
1
  
1
 1
E  X   E  X i   E  X 1  X 2  X 3  ....  X n   n  
n
n
 n
 
La distribuzione delle medie campionaria ha una media uguale al valore del parametro della
popolazione.
1
2
  
1
 1
var  X   var  X i   2 var  X 1  X 2  X 3  ....  X n   2 n 2 
n
n
n
 n
 
2
   
ds X  
n
 
la varianza della distribuzione campionaria risulta inferiore alla varianza della popolazione e la
dispersione della media campionaria dipende dalla dimensione del campione e dalla varianza della
popolazione.Da quanto detto ricaviamo che :
1)data l’ampiezza n del campione le medie campionarie saranno tanto più concentrate intorno alla
media della popolazione quanto più piccola è la varianza della stessa ;
1) data la varianza della popolazione la varianza della distribuzione delle medie campionarie
sarà tanto più piccola quanto maggiore sarà la dimensione del campione.
La distribuzione riferita alle diverse medie campionarie con le corrispondenti probabilità è chiamata
distribuzione stimatore e le singole si sono le stime della somma calcolate campione per
campione
La distribuzione stimatore media campionaria è uno stimatore corretto perché la sua media
coincide con la media della popolazione.
  
E X   
 
Distribuzione delle varianze campionarie
La varianza campionaria può essere definita come :
1 
 2  n  X i 

^
X



2
e assumerà valori diversi che dipenderanno dal campione estratto.
Se noi vogliamo calcolare la media di tutte le possibile varianze che possono essere calcolate nello
spazio campionario possiamo aspettarci che tale media coincida o meno con la varianza della
popolazione.
Per verificarlo consideriamo il valore atteso delle varianze campionarie :
 
E
2
1 
 E  X i 
n 

il valore di  X i 

E X i      2
2




X

X
2
2

 costituisce per noi una incognita ma sappiamo che :

e

 

E X    
n


2
2
perciò noi possiamo scrivere il valore atteso della varianza campionaria aggiungendo e sottraendo il
valore della media della popolazione, ottenendo :
3
 
E
2
2

1 
1 

 

 E  X i      X   E  X i      X    
n 
n 



2
2
1 
 

 

2
   E  X i     E  X     2 E  X i    X    
n 




2

1
1  
2

 

2
E  X i     E  X     E  X i    X    
n
n 
n



1
1 2
 
1
2
   
 2E X     X i    
n
n n

n
2 
2



 

 n 1
 2E X      2 
2
2 
  2

n
n
n
n
 n 


2
2
2
2
la media delle varianze campionarie non è uno stimatore corretto ma moltiplicando entrambi i
n
termini dell’uguaglianza per il rapporto
si ottiene :
n 1
 
 n 
2
2

E   
n

1


questa espressione può essere scritta sotto la forma :
 
 n  2
2
E
 
 n 1
 n 1 
E
  X i 
 n 1 n 
 1  
E
 X i 
 n 1 
2

X

X

2
 

2

2
 

che è uno stimatore corretto di  2
Questo stimatore viene indicato con s2 e avrà la forma :
2



 X i  X 
 e rappresenta lo stimatore corretto della varianza della
s2  
n 1
popolazione.Scriveremo pertanto che:
 
E s2   2
4
Campionamento senza reintroduzione
In questo tipo di campionamento l’elemento estratto non viene reintrodotto nell’urna che viene
quindi, di volta in volta , modificata. Questa modalità di estrazione non ha alcuna influenza sul
calcolo della media della distribuzione della somma e delle medie campionarie che rimangono
invariate rispetto al campionamento con reintroduzione e introduce invece una modifica nel calcolo
delle varianze perché le estrazioni sono tra loro dipendenti .
Le formule delle due distribuzioni campionarie principali, somma e media, saranno :
Somma campionaria
ES         ....    n
var S   n 2
N n
N 1
d .s.S    n
N n
N 1
Media campionaria
 

x
2 
2 N n

n N 1
x

 

n
x
N n
N 1
Nel caso di campionamento senza reintroduzione quando prendiamo in esame le varianze delle
distribuzioni campionarie X1, X2,…. Xn dal momento che le estrazioni sono tra loro dipendenti
dobbiamo considerare tutte le possibili covarianze tra le distribuzioni campionarie. Esse sono in
numero di ( n-1 )+ ( n-2 ) + ( n-3)…..:Dal momento che la somma dei primi ( n-1 ) termini ordinati
nn  1
in senso crescente è pari a :
e sapendo che la covarianza tra le coppie di distribuzioni Xi,Xj
2
è:
covX i , X j   
si avrà :
var


X

1
n2
2
N 1


 2
nn  1   2  1  2
2 nn  1 
n


2


  2 n  
2
N 1  n 
N  1 

2 
n 1   2  N  n 
1 



n  N 1 n  N 1 
5
Distribuzioni di tipo binomiale
Se il campionamento è riferito a questo tipo di popolazioni le relazioni che si osserveranno per
quanto riguarda le medie e le varianze delle distribuzioni campionarie ottenute secondo il tipo di
campionamento saranno:
Campionamento con reintroduzione
Distribuzione della somma campionaria:
 s  n
 s2  n 1   
 s  n 1   
Distribuzione della media campionaria
 

x
2 
 1   

n
x


 1   

n
x
Campionamento senza reintroduzione
Distribuzione della somma campionaria
 s  n
 s2  n 1   
N n
N 1
 s  n 1   
N n
N 1
Distribuzione della media campionaria
 

x
2 

x
 1    N  n
n

N 1
6



 1    N  n
N 1
n
x
Esercizio
Cerchiamo ora di chiarire con i numeri i concetti esposti riguardanti le principali distribuzioni
campionarie prendendo in esame la seguente popolazione :
xi : 10, 20, 30
Calcoliamo la media aritmetica e la varianza di questi dati :
x 
10  20  30 60

 20
3
3
100  400  900
1400
 400 
 400  466.67  400  66.67
3
3
Costruiamo lo spazio campionario relativo all’estrazione con reintroduzione di tutti i possibili
campioni di ampiezza 2 che si possono ottenere dalla popolazione esaminata.
Lo spazio campionario sarà formato da 9 campioni pari a Nn =32 = 9 e viene mostrato nella tabella
che segue :
 x2 
Spazio campionario
X1
X2
10
10
10
20
20
20
30
30
30
10
20
30
10
20
30
10
20
30
Calcoliamo la media e la varianza delle due distribuzioni campionarie X1, X2
X 
10  10  10  20  20  20  30  30  30 180

 20
9
9
 X2 
100  100  100  400  400  400  900  900  900
4200
 400 
 400  466.67
9
9
1
1
7
La distribuzione X2 presenta gli stessi valori cambiati solo come posizione e quindi ha la stessa
media e la stessa varianza di X1. Le due distribuzioni hanno pertanto media e varianza uguali alla
popolazione di origine.
Costruiamo la distribuzione somma campionaria e media campionaria ,che sono le due
distribuzioni stimatore, e calcoliamo la media e la varianza ( i valori che compaiono in colonna in
corrispondenza delle due distribuzioni sono le stime calcolate campione per campione):
si 2
si
20
30
40
30
40
50
40
50
60
360

x
 2
x
i
400
900
1600
900
1600
2500
1600
2500
3600
15600
10
15
20
15
20
25
20
25
30
180
i
100
225
400
225
400
625
400
625
900
3900
360
 40
9
s 
 s  n    2  20  40
 s2 
15600
 1600  1733.33  1600  133.33
9
 s2  n   2  2  66.67  133.33
180
 20
9
X
3900
 2 x 
 400 = 433.33 – 400 = 33.33
9
X

x

valgono le seguenti relazioni :

x
lo stimatore media campionaria è uno stimatore corretto
x
2 

x
2
n

66.67
 33.33 c.v.d.
2
8
Errore campionario- Distribuzione media campionaria

x : 10.15, 20,15….30 e la media della popolazione  costituisce l’errore
campionario, mentre la differenza tra E( x ) e la media della popolazione è la distorsione o bias.
Ogni differenza tra le
i

i
La distribuzione della media campionaria è uno stimatore corretto della media della popolazione
  
perché la distorsione è uguale a zero: E  X   
 
Costruiamo la distribuzione delle varianze campionarie corrette e non corrette e calcoliamo la
media :
σi 2
si 2
/
25
100
25
/
25
100
25
/
300
/
50
200
50
/
50
200
50
/
600
^ 2
E(

i
)=300/9=33.33 stimatore non corretto
Per correggere questo valore dobbiamo moltiplicare il risultato ottenuto per il rapporto :
Infatti : 33.33  2 =66.66..
n
n 1
E( s i2 )=600/9=66.67 stimatore corretto
Il valore atteso di si2 è invece uno stimatore corretto perché ogni devianza è stata divisa per n-1
gradi di libertà.
9
Campionamento senza reintroduzione
Se l’elemento estratto non viene reintrodotto nell’urna si ha il campionamento senza reintroduzione
e lo spazio campionario sarà formato da N ( N –1 ) campioni di ampiezza 2. Nel caso esaminato la
spazio campionario sarà composto da 3  2 = 6 campioni e viene rappresentato nella tabella cvhe
segue :
X1
X2
10
10
20
20
30
30
20
30
10
30
10
20
Le distribuzioni stimatore somma e media campionaria e i calcoli necessari per ottenere il valore
delle medie e varianze campionarie sono indicate nel prospetto che segue :
si 2
si
30
40
30
50
40
50
240
900
1600
900
2500
1600
2500
10000

x
 2
x
i
15
20
15
25
20
25
120
i
225
400
225
625
400
625
2500
Calcoliamo le medie e le varianze delle due distribuzioni :
s 
240
 40
6
 s  n    2  20  40
 s2 
10000
 1600  1666.67  1600  66.67
6
 s2  n   2
 
x
x
N n
32
1
 2  66.67
 133.33   66.67
N 1
3 1
2
120
 20
6
10
2500
 400 = (416.67 – 400) = 16.67
6
2 
x
x
2 
2
x
n
x

N  n 66.67 1 66.67

 
 16.67 c.v.d.
N 1
2
2
4
Gli stimatori-Generalità
^
Uno stimatore del parametro della popolazione viene indicato con
 mentre 
è il parametro della
^
popolazione.Poiché
scrivere :
^

è costruito partendo dalle osservazioni campionarie possiamo anche
^
   x1 , x2 ,..., xn 
che sta ad indicare che teta segnato è una funzione delle v.c.estratte.
^
Questa distribuzione avrà una media : E   e una varianza data da :
 
2
^
^
 ^ 
 ^    ^ 
var    E   E    E     E  
 
 
    

2
2
la deviazione standard di questa quantità è indicata come l’errore standard dello stimatore.
Alcuni concetti devono essere ancora richiamati :
^
1) l’errore campionario è dato dalla differenza :    ;
^
2) il bias o distorsione da : E     ;
 
2
^

3) l’errore quadratico medio da : E     chiamato anche mean square error e abbreviato


con MSE.
L’errore campionario è semplicemente la differenza tra il valore dello stimatore e il vero valore
del parametro che si intende stimare; il bias è la differenza tra la media della distribuzione
campionaria di un certo stimatore e il vero valore del parametro da stimare e infine l’errore
quadratico medio è legato alla dispersione della distribuzione dello stimatore e per questo
motivo ha un concetto simile a quello della varianza.Osserviamo la differenza tra la varianza
dello stimatore e l’errore quadratico medio. Si vede subito che se lo stimatore è uno stimatore
corretto i due valori sono coincidenti altrimenti si verificherà una differenza nei loro valori.La
relazione tra l’errore quadratico medio e la varianza dello stimatore può essere mostrata nel
modo seguente :
2
^

^

^
^
MSE  E      E   E    E      


 
 


2
2
^
 ^

  ^
 E   E    E       
   


11
2
2
^
 ^

^

 ^ 
 ^    ^ 
 E   E    E  E       2 E   E    E     
 
    

  



Consideriamo il doppio prodotto :
la quantità:
^
 ^ 
E   E   0
 

perché il valore atteso di questa quantità è uguale a :
^
^
E    E    0 :
 
 
e la formula finale sarà:
2
^
 ^

 ^ 
MSE  E   E     E     
 

  

2
cioè l’errore quadratico medio è uguale alla varianza dello stimatore più il quadrato della
distorsione o bias.Da questo discende che l’errore quadratico medio non può mai essere più
piccolo della varianza dello stimatore e la differenza tra i due è data dal bias al quadrato e
ancora che quando lo stimatore è corretto l’errore quadratico medio coincide con la varianza
dello stimatore..
Proprietà degli stimatori
1) Correttezza
Uno stimatore si dice corretto quando in media tende ad assumere il valore del parametro che si
^
^
intende stimare : E    
se E     si dice che lo stimatore presenta uno distorsione o
 
 
^
 
bias data da : E     ;
 
2) efficienza
Se prendiamo in esame il requisito della correttezza i migliori stimatori sono quelli che presentano
distorsione nulla ma questi stimatori possono essere più di uno e allora tra questi si sceglierà quello
che presenta la varianza minima. Possiamo quindi dire che :
^
lo stimatore  è uno stimatore efficiente di  se presenta le seguenti caratteristiche :
^
1) è corretto cioè : E     ;
 
^
^
 
^ 
2) è la var    var  1  dove  1 è un qualunque altro stimatore corretto del parametro della
 
 
popolazione .
12
Sotto condizioni abbastanza generali si può dimostrare che lo stimatore a varianza minima sarà
fornito dalla disuguaglianza di Cramer-Rao attraverso la quale è possibile determinare il limite
inferiore di una stimatore non distorto di un certo parametro: Se esiste uno stimatore non
distorto che ha una varianza uguale a questo limite allora quello stimatore è il più
efficiente ed è unico:




1


Var Y   
2 
 nE   log f x;  
 
  

stimatore
dove con Y abbiamo indicato una generica distribuzione
cioè la varianza di uno stimatore è maggiore o al più uguale all’inverso di n volte il valore atteso
della derivata della funzione logaritmica calcolata rispetto al parametro della popolazione
elevata al quadrato:Lo stimatore che rispetta questo limite inferiore è lo stimatore più efficiente.
Infatti ad ogni parametro  corrisponde un valore minimo della varianza dello stimatore
corretto al di sotto del quale , qualunque sia lo stimatore utilizzato, la varianza non può
discendere.
Esempio
Si supponga di estrarre un campione casuale ( X1, X2, ….,Xn) da una popolazione distribuita
secondo una legge di Poisson di parametro  :
f x;   
x
exp   
x!
si chiede di determinare il limite inferiore di Cramer –Rao.
Risoluzione
Per prima cosa trasformiamo la funzione sotto forma logaritmica e poi deriviamo rispetto a  .
Si avrà :
log f x;    x log   log x!
 log f x;   x
x
 1 



Andiamo al teorema di Cramer-Rao. Scriveremo :
var Y  
1
 x
nE 

  
2
1

n
1

2
E x   

2
n
1
1
2


1 

n n

che è il limite inferiore della varianza dello stimatore corretto di  . Questo valore è pari alla
varianza dello stimatore della distribuzione della media campionaria che quindi è uno stimatore
corretto ed efficiente.
13
Esempio
Sia data una funzione relativa ad una distribuzione di tipo normale e si chiede di verificare il
limite inferiore di Cramer-Rao per la varianza dello stimatore :

f  x;    2 2


1
2
 1
x   2 
exp 
2
 2

trasformando in logaritmi si otterrà :

1
log f  x;     log 2 2
2

1
 2
2
x   2 

 log f x;   x  


2
e applicando la disuguaglianza di Cramer –Rao alla derivata del logaritmo della funzione
normale si avrà:
Var Y  
1
x
nE  2 
  
2
1

n
1
4
E x   
2

1
n 2
4

1
2

n
n
2
che è la varianza della distribuzione delle medie campionarie. Tra tutti i possibili stimatori
corretti della media della popolazione lo stimatore media campionaria è quello che presenta
varianza minima.
3) consistenza
Uno stimatore viene definito consistente se la dispersione dello stimatore intorno al parametro da
stimare diventa sempre più piccola all’aumentare della dimensione campionaria.In base a questa
^
proprietà quanto più elevata è la dimensione del campione tanto più lo stimatore

tenderà a
fornire stime sempre più vicine a  .
La consistenza è una proprietà molto importante per gli stimatori perché assicura la coerenza tra
l’aumento della dimensione campionaria e le informazioni contenute nel campione.
Esempio
Dato un campione casuale estratto da una popolazione normale N  ,  2 lo stimatore media
campionaria è come abbiamo visto uno stimatore corretto ed efficiente perché :
2
  
var Y  
E X   
n
 


Tale stimatore è anche consistente perché all’aumentare della dimensione campionaria si verifica
che :
14

  
var
0
 X   lim
lim
n 
  n n
2
Stimatori di massima verosimiglianza
Abbiamo già avuto modo di osservare che la stima di un parametro varierà a seconda delle possibili
scelte degli elementi campionati. Di fronte a una ennupla di osservazioni campionarie come si
dovrà scegliere il campione che fornisce la stima migliore per il parametro della popolazione?
A priori la bontà di una stima può essere giudicata con riferimento alle proprietà che abbiamo
precedentemente esaminato :
1) correttezza ;
2) efficienza ;
3) consistenza
ma spesso gli stimatori esaminati rispettano solo una o due delle proprietà enunciate e allora la
scelta fra tutti i possibili campioni è legata al tipo di problema da affrontare e di volta in volta si
sceglierà se operare con stimatori consistenti piuttosto che corretti e efficienti o altrimenti può
essere preferibile scegliere stimatori efficienti e distorti piuttosto che corretti ma poco
efficienti.Vi sono diversi modi di stimare i parametri ma tra questi uno è particolarmente
importante perché dà luogo a stimatori che , in generale, sono sempre consistenti anche se non
sempre corretti . Questo metodo è il metodo della massima verosimiglianza .
Con l’utilizzo di questo metodo tra tutti i possibili campioni estratti si sceglierà quello che
presenta la massima probabilità di generare il valore del parametro che interessa.
Dal momento che le n v.c. osservate sono tra loro indipendenti la funzione di verosimiglianza
che si vuole rendere massima sarà data dal prodotto delle densità di probabilità relative a
ciascuna osservazione campionaria: Tale funzione sarà espressa sotto forma di una funzione l
che è data da prodotto delle funzioni di densità corrispondenti agli elementi estratti:
l  f x1  f x2 .... f xn 
l  f xi 
Le stime di massima verosimiglianza si ottengono massimizzando tale funzione rispetto ai
parametri che compaiono in essa e per far questo si richiede che le derivate parziali calcolate
rispetto ai parametri siano uguagliate a zero.Si avrà pertanto, a seconda del numero dei
parametri :
l
l
l
 0;
 0;......;
0
1
2
n
Per ottenere queste stime è più semplice trasformare la funzione di verosimiglianza in logaritmi
effettuando la trasformazione : L  log e l dal momento che il log ( l) è una trasformazione
monotona di l e quindi si avrà che:
L   log f xi 
la soluzione richiesta sarà data da:
L
L
L
 0;
 0;.........;
0
1
2
n
15
Esempio
Supponiamo che X sia una variabile di Bernoulli che assume i valori 0 e 1 con probabilità
1   ;  . Le funzioni di densità saranno :
f 0  1  
f 1  
La distribuzione di probabilità di X può essere descritta da :
f x    x 1   
1 x
Supponiamo ora di estrarre un campione casuale di n valori e di voler trovare la stima di
massima verosimiglianza per  . Las funzione di verosimiglianza sarà :

l  f x1  f x 2 ....... f x n    x1 1   
1 x1
 
x2
1   1 x
2
 ......  
xn
1   1 x
n
 
xi
1   nx
i
e passando ai logaritmi otterremo:
L  xi log   n  xi log 1   
In questa espressione l’unico parametro incognito è  e derivando rispetto a questo si ha :
L xi n  xi  1


 
1 
^
uguagliando a zero la derivata calcolata rispetto a
che stiamo parlando di una stima ,si ottiene :
L
^


xi
^


xi  n
^
1
 che è stato così contrassegnato per indicare
0
moltiplicando per il minimo comune multiplo le due parti dell’equazione si avrà ancora :
^
^


xi 1     xi  n   0


e effettuando tutte le possibili semplificazioni dopo aver eseguito i prodotti :
^
x
lo stimatore di massima verosimiglianza per la media della popolazione è la
 i
n
proporzione dei successi trovata nel campione.

16
Esempio
Consideriamo la funzione di densità di una curva normale di espressione :


 1
x   2 
exp 
2
 2

il suo logaritmo è :
f  x   2 2

1
2
1
1
 x   2
 log 2 2 
2
2
2
e la sua funzione di verosimiglianza avrà la forma : l  f x1  f x2 ...... f xn 
Passando ai logaritmi il prodotto si trasforma in sommatoria e scriveremo : L   log f xi  e
sostituendo i valori precedentemente trovati :
1
 1
xi   2  calcolando la derivata parziale uguagliata a zero rispetto a
L    log 2 2 
2
2
 2

^
 si otterrà :
L
1
  2 xi    2  0

2
x i
n
lo stimatore di massima verosimiglianza per la media della popolazione non è altro che la media
calcolata sul campione .
Nella funzione normale compare anche il parametro  2 per cui possiamo derivare anche rispetto a
questo parametro ottenendo :
^
xi  n 
^

e
L
n
1
2


 x i     0
2
2
4

2
2
 x i   
che è lo stimatore di massima verosimiglianza della

n
varianza della popolazione normale.
 ^ 2
n 1
.Ricordando che E     2
il valore ottenuto non è uno stimatore corretto e allora uno
n


stimatore di massima verosimiglianza non sempre fornisce stime corrette.
^ 2
n  xi   
2
^ 2
e
2

17
Le statistiche o v.c. campionarie
Per compiere inferenza ( calcolo degli intervalli di confidenza, prova delle ipotesi) abbiamo
necessità di utilizzare particolari statistiche campionarie riferite ai diversi parametri della
popolazione sui quali l’inferenza stessa dovrà essere applicata.
Statistiche campionarie riferite alla varianza della popolazione
Per compiere inferenza sulla varianza della popolazione la statistica campionaria di riferimento è il
chi quadro che assume il significato di combinazione lineare di n variabili standardizzate elevate al
quadrato:
Si distinguono due casi:
1)si conosce la media della popolazione;
2) non si conosce la media della popolazione e occorre stimarla attraverso il calcolo della media
campionaria.
1° caso)
la sommatoria di n v.standardizzate al quadrato sarà:
2  
 X i   2
2
^ 2

n
2
cioè si avrà un  n2 con n gradi di libertà perché dal momento che la media è conosciuta non
abbiamo dovuti calcolare la media campionaria:
Media e varianza del  2 con media della popolazione conosciuta:
 
E 2  n
 
var  2  2n
2° caso) media della popolazione ignota
il  2 lo otterremo nel modo che segue:
2



 Xi  X 
2
  n  1s
2  
2
2


e questa volta si avrà un chi quadro con n-1 gradi di libertà dal momento che un grado di libertà è
stato utilizzato per calcolare la nedia campionaria:  n21
18
Media e varianza del  2 con media della popolazione sconosciuta:
 
E  2  n  1
 
var  2  2n  1
La variabile  2 è continua, non può essere negativa e varia tra zero e infinito dato che è il risultato
della somma di quantità positive.La sua forma dipende dal numero dei gradi di libertà e si dice che
all’aumentare dei gradi di libertà la curva tende a disporsi secondo una normale.
Riprendiamo ora in esame la formula:
 
E  2  n 1
E
n  1s
2
2
sostituendo a chi quadro la sua espressione si avrà:
 n-1
  n n11
E s2 
2
2
resta cioè dimostrato che il valore atteso della varianza campionaria corretta è uguale alla varianza
della popolazione.
Ora consideriamo la varianza di chi quadro:
 
var  2  2n  1 scriveremo:
var
n  1s 2
2
 2n  1
e isolando la varianza dello stimatore corretto della varianza della
popolazione:
var s 2 
2n  1   4
n  12

2 4
n 1
Il valore di chi quadro va letto sulle tavole in corrispondenza di un certo livello di probabilità o
significatività e del numero dei gradi di libertà.
Statistiche campionarie per la media della popolazione
Quando si compie inferenza con riferimento alla media della popolazione occorre distinguere due
casi :
1° caso) varianza della popolazione nota o campioni di grande dimensione:
2° caso) varianza della popolazione sconosciuta.
19
1° caso)
La variabile di riferimento e la v.c.zeta campionaria che non è altro che la standardizzazione della
distribuzione media campionaria: Si avrà:

z
x

n
Le caratteristiche della distribuzione z sono già state illustrate e il riferimento è quindi a una curva
che si presenta come una normale con media pari a  e varianza pari a

n
.
2° caso
Quando invece la varianza della popolazione non è nota e occorre stimarla attraverso s 2 è
necessario il ricorso a un’altra statistica campionaria , la v.c. t che viene definita come rapporto tra
due v.c. campionarie: z ,variabile normale standardizzata e la radice di una v.c. chi quadro
ponderato con i corrispondenti gradi di libertà:

x

t
n
n  1s 2
n  1 2


x


n

s


x
s
n
la distribuzione ottenuta è strettamente legata al campionamento da popolazioni normali e fa
riferimento alla deviazione standard stimata . E’ una variabile di tipo continuo definita
nell’intervallo  ; e presenta una forma simmetrica che dipende dai gradi di libertà e dal valore
della probabilità
:
Media e varianza della v.c. t
Et   0
var t  
n
n2
con n  2
La distribuzione t a differenza della normale presenta le code più ingrossate ed è più schiacciata
verso l’asse delle ascisse.Questo significa che la distribuzione è meno precisa. All’aumentare dei
gradi di libertà la distribuzione di t tende alla distribuzione normale standardizzata.
20
Anche i valori di t sono stati tabulati e vengono letti in corrispondenza di un certo livello e dei
gradi di libertà.
Grafico della distribuzione t

f(t)

t
Distribuzione F
Questa distribuzione e viene utilizzata quando si vuole testare l’omogeneità tra due varianze o nella
costruzione della tabella Anova per testare l’ipotesi di uguaglianza tra più medie.
Prende il nome dagli studiosi Fisher e Snedecor che per primi la analizzarono e viene definita come
rapporto tra due chi quadro ponderati con i corrispondenti gradi di libertà:
F
n1  1s12
n1  1 12
n2  1s 22
n2  1 22
s12
  22
s2
2
Quando si testa l’omogeneità o uguaglianza tra varianze si verifica che:  12   22 e il rapporto si
riduce a :
F
s12
s 22
con l’avvertenza che al numeratore figurerà il valore della varianza corretta più grande.
Intervallo di confidenza per la media della popolazione- Campionamento con reintroduzione
1° caso:  conosciuto
Quando si conosce il  della popolazione per costruire l’intervallo di confidenza a un certo grado
di fiducia dobbiamo impostare la seguente disuguaglianza:
21



x

P  z a 
  z
 2

2

n



  1






 
P x  z a 
   x z  
 1
n
n 
2
2

confidenza per la media sarà:

  x z  
e da questa si si ricava che con prob 1-l’ntervallo di

n
2
2° caso:  sconosciuto
l’intervallo di confidenza per la media della popolazione assumerà la seguente espressione:





x 

P  ta 
 t    1  
 2 ,n 1
, n 1 
s
2


n




s
s 
  1
P x  t a 
   x t  

, n 1
, n 1
n
n
2
2


grado di fiducia pari a 1-a sarà:

  x t 
2
.n 1

e l’ntervallo di confidenza per la media con un
s
n
Le quantità :
z 

n
2
t
2
.n 1

s
n
vengono chiamate grado di precisione della stima e indicate con  .
22
Determinazione della numerosità campionaria
Quando ad  viene attribuito un certo grado di precisione è possibile trovare la numerosità
campionaria necessaria perché quel grado di precisione venga rispettato:

z 
n
2
t
2
.n 1

s

n

Elevando le due espressioni al quadrato si otterrà:

z 2 
n
2
t 2
2
2
, n 1

z 2   2
  2 dalla quale si ottiene: n 
2
s
  2 e n sarà uguale a : n 
n
2
2
t 2
2
, n 1
 s2
2
Intervalli di confidenza per la media -Campionamento senza reintroduzione
1° caso:  conosciuto



x 

P  z a 
  z

N

n
2
2

n N 1



P x  z a 
n
2




  1



N n

   x z  
N 1
n
2
N n
  1
N  1 
e da questa si si ricava che con prob 1-l’ntervallo di confidenza per la media sarà:

  x z  
2

n
N n
N 1
23
2° caso:  sconosciuto
l’intervallo di confidenza per la media della popolazione assumerà la seguente espressione:





x 


P  t a 
 t    1  
, n 1
, n 1
s N n
2
 2

n N 1




N n
s
s N n 
  1   e l’ntervallo di confidenza per la
P x  t a

   x t  

, n 1
, n 1
N

1
N

1
n
n
2
2


media con un grado di fiducia pari a 1- sarà:

  x t 
2
.n 1
s

n
N n
N 1
Anche in questo caso posto il grado di precisione della stima pari a  potremo trovare la
numerosità campionaria necessaria con la seguente formula(quando si conosce il ):
z 2  N   2
n
2
 2

2
2
  N  1  z    
2


e quando il  non è conosciuto nella formula comparirà s.
Intervallo di confidenza per una proporzione:
Campionamento con reintroduzione:
L’espressione di partenza sarà:


P  z a 

 2



P 
  z   1  

P1  P 
2

n


P1  P 
P1  P  
  1
P P  z a 
   P  z 

n
n
2
2


1-l’ntervallo di confidenza per la media sarà:
  P  z 
2
e da questa si ricava che con prob.
P1  P 
n
24
Intervallo di confidenza per una proporzione:
Campionamento senza reintroduzione:



P  z a 
 2





P 
  z   1  
P1  P  N  n
2 

n
N 1


P1  P  N  n
P1  P  N  n 
  1
P P  z a 
   P  z 

n
N

1
n
N

1
2
2


con prob 1-l’ntervallo di confidenza per la media sarà:
  P  z 
2
e da questa si ricava che
P1  P  N  n
n
N 1
Intervallo di confidenza per la varianza:
Partendo dall’espressione:

n  1s 2   2
P  2  

2
2
 1 2

  1


e isolando  2 si otterrà:



n  1s 2 
 n  1s 2
2
P 2
  2
  1



a

1 , n 1 
2
 2 ,n 1

che con un grado di fiducia pari a 1- conterrà il vero valore della varianza della popolazione.
25
Esercizio
Si lancino due dadi e sia X = numero di volte in cui si presenta un numero pari e Y = somma dei
numeri pari estratti. Si chiede di costruire la tabella a doppia entrata risultante dall’esperimento e di
calcolare:
1) la media e la varianza delle due variabili aleatorie x e y;
2) la media e la varianza della distribuzione somma.
Risoluzione
Per costruire la tabella finale seguiamo il seguente schema che ci permette di individuare gli eventi
richiesti:
1°dado/ 2° dado
1
2
3
4
5
6
1
X=0;Y=0
X=1;Y=2
X=0;Y=0
X=1;Y=4
X=0;Y=0
X=1;Y=6
2
X=1;Y=2
X=2;Y=4
X=1;Y=2
X=2;Y=6
X=1;Y=2
X=2;Y=8
3
4
X=0;Y=0 X=1;Y=4
X=1;Y=2 X=2;Y=6
X=0;Y=0 X=1;Y=4
X=1;Y=4 X=2;Y=8
X=0;Y=0 X=1;Y=4
X=1;Y=6 X=2;Y=10
5
6
X=0;Y=0 X=1;Y=6
X=1;Y=2 X=2;Y=8
X=0;Y=0 X=1;Y=6
X=1;Y=4 X=2;Y=10
X=0;Y=0 X=1;Y=6
X=1;Y=6 X=2;Y=12
Dallo schema costruito notiamo che la variabile aleatoria X si presenta con modalità : 0, 1 ,2 e la
variabile aleatoria Y con i valori: 0, 2, 4, 6,8,10,12. La tabella ottenuta è la seguente:
X/ Y
0
2
4
6
8
10 12
totale
9/36
/
/
/
/
/
/
9/36
/ 6/36 6/36 6/36
/
/
/
18/36
/
/ 1/36 2/36 3/36 2/36 1/36
9/36
9/36 6/36 7/36 8/36 3/36 2/36 1/36 36/36=1
0
1
2
Totale
Da questa è immediato notare che tra le variabili casuali messe a confronto esisterà sicuramente una
relazione poichè al suo interno sono presenti diverse caselle vuote.
Calcoliamo ora i valori richiesti per le due distribuzioni:
Distribuzione della variabile aleatoria X
Tabella per il calcolo della media e della varianza
xi
0
1
2
totale
p(xi)
9/36
18/36
9/36
1
xip(xi) xi2 xi2p(xi)
/ 0
/
18/36 1 18/36
18/36 4 36/36
36/36
54/36
 x   xi p  xi  
i
36
1
36
26
 x2   xi2 pxi    x2 
i
54 2
 1  1.5  1  0.5
36
Distribuzione della variabile aleatoria o casuale Y
Tabella per il calcolo della media e della varianza
yj
0
2
4
6
8
10
12
totale
p(yj) yjp(yj) yj2 yj2p(yj)
9/36
/
0
0
6/36 12/36
4 24/36
7/36 28/36 16 112/36
8/36 48/36 36 288/36
3/36 24/36 64 192/36
2/36 20/36 100 200/36
1/36 12/36 144 144/36
1 144/36
960/36
 y   y j p y j  
i
144
4
36
 y2   y 2j p y j    y2 
j
960
 4 2  26.67  16  10.67
36
Calcolo della covarianza
Tabella dei prodotti: xiyjp(xy)
X/ Y
0
1
2
Totale
0 2
4
6
8
10
12
totale
/
/
/
/
/
/
/
/
/ 12/36 24/36 36/36
/
/
/ 72/36
/
/ 8/36 24/36 48/36 40/36 24/36 144/36
/ 12/36 32/36 60/36 48/36 20/36 40/36 216/36
cov xy    x i y y pxy   x  y 
i
j
216
 1 4  6  4  2
36
Le due variabili aleatorie tendono a variare nello stesso senso.
Distribuzione somma
Dalla tabella iniziale:
xi /yj
0
1
2
Totale
0
2
4
6
8
10 12
totale
9/36
/
/
/
/
/
/
9/36
/ 6/36 6/36 6/36
/
/
/
18/36
/
/ 1/36 2/36 3/36 2/36 1/36
9/36
9/36 6/36 7/36 8/36 3/36 2/36 1/36 36/36=1
27
Sommando le due variabili e attribuendo alle somme stesse le corrispondenti probabilità si ottiene:
si
p(si)
0
9/36
3
6/36
5
6/36
7
6/36
6
1/36
8
2/36
10
3/36
12
2/36
14
1/36
totale 36/36=1
Dopo aver riordinato i dati, la tabella necessaria per il calcolo della media e della varianza è la
seguente:
p(si)
sip(si) si2 si2p(si)
9/36
0
0
0
6/36 18/36
9
54/36
6/36 30/36 25 150/36
1/36
6/36 36
36/36
6/36 42/36 49 294/36
2/36 16/36 64 128/36
3/36 30/36 100 300/36
2/36 24/36 144 288/36
1/36 14/36 196 196/36
36/36=1 180/36
1446/36
si
0
3
5
6
7
8
10
12
14
totale
 s   si psi  
i
180
5
36
 s   x   y  1  4  5 c.v.d.
 s2   si2 psi    s2 
i
1446 2
 5  40.17  25  15.17
36
28
Esercizio
Sia data la seguente popolazione :
xi
ni
0-5
5-10
10-30
30-50
totale
30
40
20
10
100
Si chiede di calcolare la media e la varianza della distribuzione e dopo aver contrassegnato gli
elementi che la compongono di estrarre, con l’ausilio della tavola dei numeri casuali due campioni
di ampiezza n=12 , di calcolare le medie e le d.s. campionarie e di costruire gli intervalli di
confidenza al 95% per la media della popolazione supponendo :
a) la d.s. della popolazione è nota ;
b) la d.s. della popolazione è ignota.
Risoluzione
Rispondiamo alla prima parte delle richieste calcolando la media aritmetica e la deviazione standard
della popolazione . I calcoli compaiono nella tabella che segue :
xi
x i’
ni
0-5
5-10
10-30
30-50
totale
30
40
20
10
100
xi’ni
2.5
7.5
20
40
75
300
400
400
1175
xi’2
6.25
56.25
400
1600
x 
1175
 11.75
100
 x2 
26437.5
 11.75 2  264.375  138.0625  126.31
100
xi’2ni
187.5
2250
8000
16000
26437.5
Ora numeriamo gli elementi della popolazione in modo da poter effettuare la corrispondenza tra
elemento estratto e classe di appartenenza e poi estraiamo i due campioni di ampiezza 12
xi
0-5
5-10
10-30
30-50
totale
ni
Ni
30
40
20
10
100
30
70
90
100
Num. ele.
00-29
30-69
70-89
90-99
29
I 12 numeri casuali letti sulla tavola sono :
82 97 56 61 58 84 73 11 94 36 55 79
Effettuata la corrispondenza con le classi osservate nella popolazione , la tabella che si ottiene è la
seguente:
x i’
ni
2.5
7.5
20
40
1
5
4
2
12
Calcoliamo la media e la varianza ricordando che dal momento che il campione è piccolo la
varianza deve essere corretta :
x i’
ni
2.5
7.5
20
40

1
5
4
2
12
xi’ni
2.5
37.5
80
80
200
xi’2
6.25
56.25
400
1600
xi2ni
6.25
281.25
1600
3200
5087.5
x
200
 16.67
12
s2 
5087.5  12  16.67 2 5087  3334.67 1752.83


 159.35
11
11
11
s  159.35  12.62
Per il secondo campione i 12 numeri casuali sono stati i seguenti:.
82 97 53 90 87 55 70 01 47 56 32 1
e la distribuzione campionaria ottenuta è indicata nella tabella che segue :
x i’
ni
2.5
7.5
20
40
2
5
3
2
12
30
I calcoli per la media e la varianza compaiono nella tabella che segue :
x i’
2.5
7.5
20
40

x
s2 
xi’ni
ni
1
5
4
2
12
5
37.5
60
80
xi’2
6.25
56.25
400
1600
xi2ni
12.5
281.25
1200
3200
4693.75
182.5
 15.2
12
4693.75  12  15.2 2 4693.75  2772.48 1921.27


 174.66
11
11
11
s  174.66  13.22
I due campioni estratti sono composti da elementi differenti e quindi le stime che essi forniscono
non sono uguali. La dimensione campionaria è piccola e ora può essere interessante vedere se
l’intervallo di fiducia al 95% comprende il vero valore della media della popolazione. Pertanto
costruiamo i due intervalli di confidenza di cui al punto a) e b).
a) 1° caso
Nel primo caso si suppone di conoscere la deviazione standard della popolazione   11.24 e la
variabile campionaria da usare è z  . L’intervallo assumerà la forma :
2
1° campione
  16.67  1.96 
11.24
12
 16.67  6.37
10.3    23.04
2° campione
  15.2  1.96 
11.24
12
 15.2  6.37
8.83    21.57
tutti e due gli intervalli calcolati a un livello di fiducia 1-  , anche se la dimensione campionaria è
piccola, contengono la media calcolata precedentemente sull’intera popolazione pari a 11.75 .
31
b) 2° caso
Se la deviazione standard della popolazione non è conosciuta dobbiamo far riferimento alla
deviazione standard corretta e alla variabile campionaria t  dove n-1 sono i gradi di libertà della
2
, n 1
distribuzione . I due intervalli di confidenza saranno :
1° campione

  x  t
2
s
, n 1
n
 16.67  2.201 
12.62
12
 16.67  8.03
8.64    24.7
2° campione

  x  t
2
s
, n 1
n
 15.2  2.201 
13.22
12
 15.2  8.41
6.79    23.61
Anche in questo caso i due intervalli di confidenza contengono il vero valore della media della
popolazione ma il grado di precisione è passato da 6,37 a 8,03 e 8,41 perché la d. s. è stata stimata.
32
Prova delle ipotesi
La prova delle ipotesi è un’assunzione che viene fatta in relazione al valore che può assumere un
parametro della popolazione.
L’ipotesi che viene sottoposta a test viene chiamata ipotesi nulla o della non differenza e la verifica
di tale ipotesi richiede che siano stabilite::
1) l’ipotesi nulla:
2) l’ipotesi alternativa;
3) il livello di significatività del test o errore di prima specie;
4) la dimensione campionaria;
5) la statistica test;
6) i valori critici che dividono le regioni di rifiuto e di accettazione.
Sulla base dei dati a disposizione si calcolerà il valore campionario della statistica appropriata e si
troverà se questa cade nella zona di rifiuto o di accettazione del test e infine si adotterà lam
decisione statistica con riferimento al problema esaminato.
Errori di prima e di seconda specie
Il livello di significatività del test viene anche chiamato errore di prima specie ed è la probabilità di
rifiutare l’ipotesi nulla quando questa è vera. L’errore di prima specie viene indicato con e
individua nel grafico le zone di accettazione e di rifiuto dell’ipotesi.
L’errore di seconda specie viene indicato con  ed è la probabilità di accettare l’ipotesi nulla
quando è falsa. Il suo complemento 1- è la potenza del test che viene definita come la probabilità
di rifiutare correttamente l’ipotesi nulla quando è falsa. Questi due errori vengono calcolati con
riferimento all’ipotesi alternativa una volta che si è determinato il punto critico in termini di media
campionaria che delimita le zone di rifiuto o di accettazione del test.
Le ipotesi nulle che ora prenderemo in esame vengono chiamate anche parametriche perché sono
riferite ai parametri della popolazione media e varianza.
Prova delle ipotesi per la media della popolazione
L’ipotesi nulla da testare è la seguente:
H 0 :   0
contro l’ipotesi alternativa che può essere :
H1 :  0
H1 :  0
H1 :    0
con un livello di significatività o errore di prima specie che verrà di volta in volta indicato:Questo
individuerà nel grafico due zone la zona di rifiuto e la zona di accettazione del test.Supponiamo
33
che il valore a prefissato sia pari al 5% .I casi che si potranno verificare a seconda che il test si
unilaterale ( ipotesi alternativa del tipo maggi
Test unilaterale del tipo maggiore , la zona di rifiuto si trova nella coda destra della curva:
accettazione
rifiuto
5%

 z

Test unilaterale del tipo minore, la zona di rifiuto si trova nella coda sinistra della curva:
rifiuto
accettazione
5%

 z 

Test bilaterale – Le zone di rifiuto si trovano nelle due code:
rifiuto
rifiuto
5%

 zz 

34
Per testare l’ipotesi concernente la media della popolazione dobbiamo distinguere due casi:
- il sigma della popolazione è conosciuto;
- il sigma della popolazione è ignoto e occorre stimarlo con s.
Nel primo caso la variabile campionaria di riferimento è la variabile z che è la standardizzazione
della media calcolata sul campione rispetto all’ipotesi nulla che si sta testando:

z
x

0
n
il valore calcolato si confronterà con il valore di z corrispondente all’errore  e
Decisione
per un test unilaterale di tipo maggiore se:
z z si accetterà l’ipotesi ;
z  z l’ipotesi dovrà essere rifiutata.
Se invece l’ipotesi alternativa è di tipo minore:
se  z   z si rifiuterà l’ipotesi ;
se  z  z l’ipotesi dovrà essere accettata
Se il sigma della popolazione non è conosciuto la variabile che deve essere calcolata sui valori
campionari osservati è:


tx
0
s
n
con la deviazione standard stimata s che è data da:



 xi  x 


s
n 1
2
La variabile t calcolata sul campione andrà confrontata con il valore di t letto sulle tavole in
corrispondenza del livello dell’errore e di n-1 gradi di libertà : t ,n 1 e la regola di decisione sarà:
se t  t ,n 1
rifiuterò l’ipotesi ;
se t t ,n 1
l’ipotesi andrà accettata.
se  t   t ,n 1
se  t  t ,n 1
accetterò l’ipotesi;
l’ipotesi andrà rifiutata
35
A seconda che il test sia unilaterale o bilaterale usando la variabile t i grafici di riferimento saranno:
unilaterale positivo
accettazione
rifiuto



t,n-1




unilaterale negativo
rifiuto
accettazione

tn
Bilaterale
accettazione
rifiuto
rifiuto

 tntn 









36


Prova dell’ipotesi su una proporzione
L’ipotesi nulla da testare è:
H0 :  0
contro l’ipotesi alternativa che potrà essere del tipo:
H1 :   0
H1 :   0
H1 :    0
Tale ipotesi viene testata con la variabile z:
z
P 0
 0 1   0 
n
e la regola di decisione sarà (se l’ipotesi alternativa è di tipo maggiore):
se z z si accetterà l’ipotesi ;
se z  z l’ipotesi dovrà essere rifiutata.
Se invece l’ipotesi alternativa è di tipo minore:
se  z   z si rifiuterà l’ipotesi ;
se  z  z l’ipotesi dovrà essere accettata
I grafici relativi alla verifica di questa ipotesi sono equivalenti a quelli relativi alla media della
popolazione con il riferimento non a 0 ma a 0.
L'ipotesi nulla rappresentata graficamente sarà, con un livello di errore del 5%,:
accettazione
rifiuto

 z
La verifica delle ipotesi che è stata fin qui condotta prendendo come riferimento il valore di z che
corrisponde a un certo livello di significatività può essere anche effettuata rispetto al punto critico
37
del test rappresentato dalla media campionaria o dalla proporzione calcolata rispetto al valore di z o
t corrispondente all’errore di prima specie. Infatti considerando il nostro solito errore del 5% si avrà
a seconda che il test si rivolto alla coda positiva o negativa della curva:

x
 1.645 

0
dalla quale si ricaverà il valore incognito della media campionaria, punto critico
n
del test:


x  1.645 
n
 0

 1.645 
x

0
n

x  1.645 

n
 0
Se il test è bidirezionale il valore di z sarà letto in corrispondenza al valore di /2 e i punti critici
saranno:

 1.96 
x

0
n

x  1.96 

n
 0

 1.96 
x

0
n

x  1.96  n   0

Se l’ipotesi nulla è riferita a una proporzione le formule che ci forniranno i punti critici a seconda
che il test sia unilaterale o bilaterale saranno:
 1.64 
P 0
 0 1   0 
dalla quale si otterrà il punto critico espresso in termini di proporzione
n
campionaria:
38
P  1.64 
 1.64 
 0 1   0 
n
0
P 0
 0 1   0 
n
P  1.64 
 0 1   0 
n
0
Se il test è bilaterale i due punti critici saranno:
 1.96 
P 0
 0 1   0 
n
P  1.96 
 1.96 
 0 1   0 
n
0
P 0
 0 1   0 
n
P  1.96 
 0 1   0 
n
0
Se si utilizza la variabile t il ragionamento che si fa per individuare il punto critico è lo stesso solo
che ,oltre al livello di significatività del test ,occorre conoscere la dimensione campionaria per
leggere sulle tavole il valore di t corrispondente a n-1 gradi di libertà. Se per esempio il livello di
significatività è ancora 0.05 e la numerosità campionaria è pari a 10 unità, si avrà:


 1.8331  x
0
s
dalla quale si ottiene il punto critico per un test unilaterale rivolto alla coda
n
positiva della curva:

s
 0
n
e se invece ci riferiamo alla coda negativa si avrà:
x  1.8331
39

 1.8331 
x
0
s
n
e il punto critico espresso in media campionaria assumerà il valore:

s
x  1.8331 
n
 0

Per il test bidirezionale i due valori di media campionaria si otterranno risolvendo rispetto a
uguaglianze che seguono:
x
le

 2.2622 
x
0
s
n

s
x  2.2622 
n
 0

 2.2622 
x
0
s
n

x  2.2622 
s
n
 0
Potenza del test
La potenza del test , rappresentata da 1- è la probabilità di rifiutare correttamente l’ipotesi nulla
quando è falsa e viene calcolata in corrispondenza di diversi valori di ipotesi alternativa e tenendo
sempre fisso il punto critico espresso in media o proporzione campionaria. Tale punto delimita
le zone di rifiuto o di accettazione del test calcolato in corrispondenza del livello di errore
fissato. I diversi valori di media o proporzione campionaria che verranno via via testati sono riferiti
all’ipotesi alternativa che può essere del tipo maggiore , minore o diverso dall’ipotesi nulla e
pertanto ci riferiremo alla parte destra o alla parte sinistra della curva normale oppure a entrambe. Il
test è più potente quando si riferisce a una sola coda quindi, quando è possibile, si sceglierà questa
soluzione.
Ora supponiamo che accanto all’ipotesi nulla si sia fissata un’ipotesi alternativa del tipo
maggiore.Per calcolare la potenza del test si procede nel seguente modo :
1) si calcola il punto critico espresso in media o proporzione campionaria corrispondente al
livello di significatività prescelto;
2) tale valore critico nel grafico corrispondente all’ipotesi nulla individuerà la zona di rifiuto e
la zona di accettazione del test :
40
3) si prendono in esame i diversi valori di media alternativa e si costruiscono le relative curve
tenendo sempre fisso il punto critico e quindi le zone di rifiuto e di accettazione. Si
potranno presentare i seguenti casi:
a) il valore di media alternativa è minore del valore critico
I grafici di riferimento saranno
Ipotesi nulla

1-




 x c
Ipotesi alternativa con  e potenza del test







   x c
la potenza del test si otterrà sottraendo da 0.5 l’area letta sulle tavole in corrispondenza del valore
standardizzato:

z
x
c
 1

che avrà segno positivo.
n
41
2° caso
La media alternativa risulta maggiore del valore critico
I grafici di riferimento saranno:
Ipotesi nulla

1-




 x c
Ipotesi alternativa







 xc


La potenza del test si otterrà sommando all’area della semicurva pari a 0.5 l’area corrispondente al
valore standardizzato:

z
x
c
 1

che questa volta avrà segno negativo.
n
42
Effetti sulla potenza del test
1) per un test unilaterale con valori conosciuti  ,n e  la potenza del test aumenta
all’aumentare della distanza tra la media 1 e la media ipotizzata sotto Ho;
2) per ,n e  e1 specificati un test unilaterale è più potente di un test bilaterale e perciò
dovrebbe essere scelto tutte le volte che è possibile specificare la direzione dell’ipotesi
alternativa;
3) per n,  , tipo di test e media1 specificati la potenza del test aumenta all’aumentare del
livello di significatività e quindi diminuisce l’errore di secondo tipo.;
4) per  , ,tipo di test e media1 la potenza del test aumenta all’aumentare della
dimensione campionaria.
Prova delle ipotesi sulla varianza della popolazione
L’ipotesi nulla da testare è:
H 0 :  2   02
contro l’ipotesi alternativa che potrà essere del tipo:
H 1 :  2  02
H 1 :  2  02
H 1 :  2   02
(solitamente l’ipotesi alternativa è del tipo maggiore).
La variabile empirica da calcolare sulle risultanze campionarie è:

2

n  1s 2

 02
che andrà confrontata con il valore letto sulle tavole a un dato livello di significatività e con n-1
gradi di libertà.
43
Decisione
Se  2  2 ,n1 l’ipotesi nulla che la varianza della popolazione sia pari a un certo valore andrà
accettata;
se  2  2 ,n1 si rifiuterà l’ipotesi nulla.
accettazione
rifiuto
n
Prova delle ipotesi sulla uguaglianza tra varianze
L’ipotesi da testare è:
H 0 :  12   22
contro le ipotesi alternative :
H 1 :  2  02
oppure
H 1 :  2  02
oppure
H 1 :  2   02
la variabile empirica usata per la verifica di questo test è:
F
s12
s 22
costruita mettendo al numeratore la varianza campionaria corretta più grande.
Questa variabile verrà confrontata con la variabile F letta sulle tavole in corrispondenza del livello
di significatività  e di m-1 gradi di libertà al numeratore e di n-1 gradi di libertà al denominatore.
44
Decisione
Se: F  F ,m 1,n 1 si accetta l’ipotesi
Se : F  F ,m1,n 1 si rifiuta l’ipotesi
accettazione
rifiuto
F,m-1,n-1
Ipotesi nulla sulla differenza tra le medie di due popolazioni
L’ipotesi da testare è :
H 0 : 1   2 oppure
H 0 : 1   2  0 contro l’ipotesi alternativa :
H 0 : 1   2
H 0 : 1   2
H 0 : 1   2
Si possono presentare diverse situazioni:
1°) i campioni provengono da due popolazioni indipendenti con varianze note
La variabile sperimentale sarà data da:

z

x1  x 2
 12
n1

 22
n2
45
che verrà confrontato con il valore di z letto sulle tavole corrispondente al livello di significatività
adottato e la regola di decisione sarà:
se: z  z si rifiuta l’ipotesi di uguaglianza tra medie ;
se: z z si accetta l’ipotesi.
Intervallo di confidenza per la differenza tra medie con  conosciuto:
1   2   x1  x 2   z  




2
 12
n1

 22
n2
2°) i due campioni provengono da popolazioni con varianze sconosciute
L’ipotesi che si fa è che le due popolazioni siano distribuite normalmente e che ci sia omogeneità
delle varianze testata con l’ipotesi nulla:
H 0 :  12   22
se questa omogeneità viene accettata si calcolerà la variabile:


x1  x 2
t
sc
1
1

n1 n2
dove sc è la deviazione standard comune che sarà calcolata con la formula:
sc 
n1  1s12  n2  1s 22
n1  n2  2
Il valore empirico sarà confrontato con il valore di t letto sulle tavole al livello  e con n1+n2-2
gradi di libertà e poi si prenderà la decisione di accettare o rifiutare l’ipotesi .
I grafici possono essere del tipo:
Test unilaterale positivo
accettazione
rifiuto

tnn
46
Test unilaterale negativo

rifiuto
accettazione

tnn 


Test bilaterale
accettazione
rifiuto
rifiuto

 tntn1+n2-2 
Intervallo di confidenza per la differenza tra media con s stimato:
1   2   x1  x 2   t 
s
,n  n 2




2
1
2
1 1

n1 n2
3° ) i due campioni provengono da popolazioni indipendenti con varianze diverse
In questo caso la prova delle ipotesi relativa all’omogeneità delle varianze non è stata accettata e
quindi per testare l’ipotesi nulla della differenza tra le due medie si ricorre al metodo di CochranCox con il calcolo della statistica test:

t' 

x1  x 2
s12 s 22

n1 n2
47
che andrà confrontata con la statistica :
t' ' 
t1  w1  t 2  w2
w1  w2
nella quale t1 è il valore di t letto in corrispondenza del livello a o  con n1-1 gradi di libertà, t2 è
il valore di t letto in corrispondenza del livello di a o  con n2-1 gradi di libertà a seconda che
l’ipotesi alternativa sia di tipo unilaterale o bilaterale. :
w1 
s12
n1
e
w2 
s 22
n2
decisione
se t '  t '' si rifiuta l’ipotesi :
se t ' t '' si accetta l’ipotesi
Prova delle ipotesi per la differenza tra due proporzioni
L’ipotesi nulla è:
H 0 :  1   2 oppure
H 0 :  1   2  0 contro una delle seguenti ipotesi alternative:
H 0 :  1  2
H 0 :  1  2
H 0 : 1   2
La statistica test è data da:
P1  P2
z
P1 1  P1  P2 1  P2 

n1
n2
che andrà confrontata con il valore di z letto sulle tavole in corrispondenza del valore di a fissato.
La regola di decisione sarà:
respingere H0 se e z  z
accettare H0 se z z
Per testare questa ipotesi si può procedere anche nel modo che verrà di seguito illustrato.
Si calcola la proporzione di successi comune ai due campioni con la formula:
^
x1  x2
per differenza si calcola la proporzione comune degli insuccessi: 1  P e si
n1  n2
costruisce la statistica test:
^
P
48
z
P1  P2
e poi si procede nel solito modo per accettare o rifiutare
1 

 1
P 1  P    n1  n2 
^
^
l’ipotesi nulla.
Intervallo di confidenza per la differenza tra proporzioni:
 1   2  P1  P2   z  
2
P1 1  P1  P2 1  P2 

n1
n2
oppure
1 1
 
 n1 n2 
 1   2  P1  P2   z   P1  P 
^
2
^

Prova delle ipotesi per l’uguaglianza tra frequenze relative: il test del 2
L’ipotesi nulla che si vuole testare è relativa all’uguaglianza tra frequenze relative. Se in una
tabella si verifica questa situazione si dice che tra i due caratteri messi a confronto esiste
indipendenza. Questa ipotesi nulla:
H 0 : f1  f 2  .....  f k ovvero:
H 0 : nij  nij'
contro l’ipotesi alternativa che anche una sola delle frequenza sia differente.
Viene testata con la statistica test:
  
2
c
i
j
n
ij
 nij'
nij'

2
che andrà confrontata con il valore di chi quadro letto sulle tavole al livello
di errore fissato e con gradi di libertà dati dal prodotto del numero delle righe meno 1 e dal numero
delle colonne meno 1:  a2,r 1c1 .
Decisione:
Ho viene rifiutata se :  2   a2,r 1c1 e si dirà allora che tra i due caratteri esiste dipendenza
Ho viene accettata se:  2   a2,r 1c1 e i due caratteri sono tra loro indipendenti.
Questa ipotesi viene anche definita non parametrica perché si basa sullo studio delle frequenze di
associazione e non su parametri.
49
Analisi della varianza
L’analisi della varianza è un metodo dovuto al Fisher ed è fondamentale per l’interpretazione
statistica di molti dati. E’ un metodo utilizzato per testare l’ipotesi di uguaglianza tra più medie e si
basa sulle differenze riscontrate tra medie campionarie prendendo in considerazione le rispettive
varianze. Ecco perché il test di Fisher si chiama analisi della varianza indicata con il suo acronimo
ANOVA ( analysis of variance). Il principio che sta alla base di questo test è quello di stabilire se
due o più medie campionarie possono derivare da popolazioni che presentano lo stesso parametro .
Le ipotesi che stanno alla base di questo test e che:
1) i valori osservati derivino da una distribuzione normale;
2)sia presente l’omogeneità delle varianze
3)esista indipendenza tra le osservazioni.
L’ipotesi nulla da testare è:
H 0 : 1   2   3  ........   k contro l’ipotesi alternativa che anche una sola media sia diversa
H 0 : 1   2   3  ........   k
Il test si basa sulla scomposizione della devianza campionaria in devianza tra i gruppi e
devianza entro i gruppi, più precisamente si avrà:-c
2
2



 
devY     y ij  y i     y i  y  ni


i
j 
i 
2



y

y

i j  ij i  è la devianza dell’errore o non spiegata chiamata anche devianza within. Essa
rappresenta la sommatoria delle differenze al quadrato tra i valori osservati in ciascun campione e la
corrispondente media. Questa devianza, divisa per i suoi gradi di libertà, compare sempre al
denominatore di Fc.
2
 
i  y i  y  ni è la devianza spiegata o tra i gruppi chiamata anche devianza between e rappresenta
la sommatoria delle differenze al quadrato tra ciascuna media campionaria e la media di tutte le
osservazioni ponderate con la numerosità campionaria..
La statistica test sarà data dal rapporto tra le due devianze ciascuna divisa per i corrispondenti gradi
di libertà , dando luogo alla variabile test F:
2
 
i  y i  y  ni
r  1oc  1
Fc 



i j  yij  y i 2
n  r on  c 
che andrà confrontato con il valore di F letto sulle tavole al livello di significatività scelto e con
gradi di libertà r-1 o c-1 al numeratore e n-r o n-c al denominatore.
Se F campionario risulterà maggiore di questo valore l’ipotesi andrà rifiutata se minore o uguale si
accetterà l’ipotesi che i campioni provengono da popolazioni che presentano la stessa media.
50
I calcoli per arrivare al valore finale di F vengono esposti in una tabella che si chiama tabella
ANOVA il cui schema è di seguito esposto:
Tipi di devianza
Spiegata( between)
Non spiegata(
within)
Devianza totale
devianze
2
 
i  y i  y  ni
Gradi di
libertà
r  1oc  1



y

y

ij
i 
i j 

2
n  r on  c



j  y j  y 
2
n  1
varianze
F
2
 
i  y i  y  ni
r  1oc.1
2



y

y

ij
i 
i j 

n  r on  c 



j  y j  y 
n 1
2
 
i  y i  y  ni
r  1oc  1
Fc 



y

y

i j  ij i 2
n  r on  c 
2
Se l’ipotesi viene accettata non ci darà una differenza significativa tra la varianza spiegata e quella
non spiegata e ci si attenderà un valore di Fc vicino all’unità se invece è vera l’ipotesi alternativa la
varianza tra gruppi sarà verosimilmente più grande di quella osservata tra elementi di uno stesso
gruppo e quindi i campioni esaminati non sono rappresentativi di una stessa popolazione.
Quando i gruppi da confrontare sono solo due ricordiamo che si può usare il test t precedentemente
esaminato della differenza tra due medie in presenza di omogeneità tra le varianze. I due metodi
sono equivalenti e vale la relazione:
t c2  Fc
Test di adattamento
I test statistici che servono per testare l’ipotesi che i dati campionari osservati siano compatibili con
una certa distribuzione sono detti test sulla bontà di adattamento.
Per testare l’ipotesi si suppone di avere a disposizione un campione di n osservazioni suddivisi in k
classi. Per ciascuna classe si suppone di conoscere la frequenza osservata Oi e la frequenza attesa Ai
con la quale la si vuole confrontare. Le frequenze attese sono quelle frequenze che ci si aspetterebbe
di trovare se la distribuzione dei dati osservati seguisse effettivamente la distribuzione ipotizzata.
Per valutare la bontà dell’adattamento si utilizza la statistica test:
O  Ai 2
 c2    i
Ai
i
j
Per n di una certa dimensione questa statistica si distribuisce secondo un 2 con gradi di libertà pari
a: k-p-1
Dove:
k = numero delle classi;
p = numero dei parametri presenti nella distribuzione teorica;
1= vincolo sempre presente riferito al fatto che la somma delle frequenze osservate deve essere
sempre uguale al totale delle frequenze attese.
Ad esempio in una distribuzione normale i parametri che compaiono sono due, la media e la
varianza, nella distribuzione di Poisson compare solo un parametro  , e così via.--51
Se l’ipotesi viene accettata i dati osservati si adattano alla distribuzione ipotizzata, e la forma della
distribuzione della popolazione viene completamente specificata e in presenza di n grande
campione anche le stime dei parametri sarebbero da ritenersi molto vicine ai veri valori dei
parametri. Il test di adattamento a una normale è di grande utilità quando si parla di normalità della
distribuzione X o Y nella popolazione nel caso di analisi della varianza. Se l’ipotesi viene rifiutata
i dati osservati non si adattano alla distribuzione teorica ipotizzata.
Perché questa procedura sia valida è necessario che le frequenze assolute siano tutte maggiori o
uguali a 5. Se qualcuna è minore di 5 occorre opportunamente accorpare due o più classi
successive.
Quando si effettua questa operazione il numero delle classi da considerare per testare l’ipotesi è
quello ridotto ,non quello della distribuzione di partenza.
Test chi quadro di indipendenza
Il test del chi quadro può essere anche utilizzato per verificare l’indipendenza tra due distribuzioni.
In questo caso l’ipotesi nulla prenderà in considerazione le frequenze relative della tabella per
verificare se esse risultano o meno uguali per riga e per colonna . Nel primo caso l’ipotesi di
indipendenza sarà accettata mentre non lo sarà nel secondo caso. L’ipotesi nulla sarà quindi:
H 0  XeYsonoind ipendenti
H1  XeYsonodipendenti
Il test si effettua calcolando il chi quadro sulle osservazioni campionarie presenti nella tabella a
doppia entrata osservata
, con la formula:
  
2
c
i
j
n
ij
 nij*

2
nij*
E confrontandolo con il valore letto sulle tavole al livello a scelto e con gradi di libertà pari a:
( r-1)*(c-1)
 ,r 1c1
Il confronto tra i due valori, come al solito, ci dirà se l’ipotesi si accetta o si rifiuta.
Modello lineare
Il modello lineare è rappresentato dalla seguente equazione :
Yi    xi   i
dove  è la vera ordinata all’origine della popolazione,  è il vero coefficiente angolare della
popolazione e  è l’errore casuale nella variabile Y per una certa osservazione e le sue proprietà si
deriveranno da quelle più sotto specificate per Y.
Nel modello lineare distinguiamo due componenti una sistematica data da:    x e una aleatoria
rappresentato da  che è una v.c. normale con media pari a zero e varianza  2 .La variabile x è di
tipo non stocastico e può essere sottoposta a controllo mentre la v.c. Y è il valore di risposta in
corrispondenza di un valore fissato x.
Le ipotesi alla base del modello lineare sono le seguenti:
1) per ogni xi nella popolazione c’è una distribuzione normale di Y dalla quale viene estratto il
valore campionario ;
2)la media della distribuzione y è data da : E Yi     xi ;
52
3) qualunque sia x, la varianza di Y intorno alla sua media è sempre uguale ( omoschedasticità
della varianza );
4) la componente deterministica è incorrelata con quella casuale e le componenti casuali delle
varie unità sono incorrelate tra loro.
Inferenza sui parametri della retta
Stima puntuale
Le dimostrazioni che seguono mostrano come il valore atteso dell’intercetta all’origine e del
coefficiente angolare rispondano al requisito della correttezza.
^
Prendiamo in esame i l coefficiente angolare stimato

calcolato sul campione che presenterà
la seguente forma:
^

 


 xi  x  Yi 





 xi  x 


ora ponendo :



 xi  x 

ci  
 2


 x i  x 


2





 xi  x Yi

 
 2


 xi  x 


y 
l’espressione prece4dente può essere scritta sotto la forma :
^
  c Y
i i
Il risultato ottenuto ci permette di dire che lo stimatore beta può essere espresso come
combinazione lineare della v.c.Y con pesi pari a ci.
Calcoliamo il valore atteso di questa espressione :







x


x





i
i
^
x
x
 



 
  xi    
E     ci E Yi  
 2
 2




 
 xi  x 
 xi  x 







 xi  x  xi

 
 2


 xi  x 


La prima parte della sommatoria è uguale a zero per la prima proprietà della media aritmetica,
l’espressione iniziale si riduce quindi a :
53




 2
 xi  x  xi
2
2

x


x

x

n
 
  i x i  i
x 
E      
2
2

 2



 
2
2

x

n

x

n
 xi  x 
i
i
x
x


^
Lo stimatore coefficiente angolare è uno stimatore corretto.
La varianza dello stimatore sarà:
2




x



i
^
x
 
 2

 2 
2
var     ci  var Yi  

 4
 2




 
 xi  x 
 xi  x 




Perché la varianza di Yi è rappresentata da  2 ?
 
ricordando
var Yi   E  xi   i  EYi   E  xi   i    xi   E  i2 e
rappresenta la distanza tra il valore osservato e il valore teorico della Y si avrà;
2
yi  yi' 

n2
che
2
  s
2
2
res
al denominatore compaiono due gradi di libertà che sono riferiti alle
^
stime effettuate rispetto ai valori  e
^

della retta di regressione stimata.
 ^ 
Anche lo stimatore   può essere espresso come combinazione lineare delle Y. Infatti:
 

^

 Y   x 
^
^




 xi  x Yi


Yi 
x
 2
n


 xi  x 







x




i
x
1  
 Y  a Y

 x
i
i i
n
 2 



 x i  x  

 

^
calcoliamo il valore atteso dello stimatore  :
 ^ 
 ^ 

E   EY   E   x    
 
 
 
 ^ 
x  E   x    
 


x

x 
54
^

 ^ 
var    var Y  
 

2

 ^ 
_ ^
 


Y 

var

var

2
cov


x
x  
Y




 




x 

ma la covarianza è uguale a zero e quindi si avrà_
  
var      x
n
 
 2
2
^
 2 




1
  2   x 
dev x
 n dev x 


2
_
Perché la covarianza tra
^
Ye
e uguale a zero?
 ^ 
_ ^ 
 ^ 
_
covY ,    EY    EY   E   
 




 


 E   


^

 



x      x      x 

 



2
   x  2  0
^
In base ai valori trovati dal momento che sia lo stimatore

^
che lo stimatore  si
distribuiscono in modo normale siamo in grado di costruire le variabili campionarie che ci
serviranno per costruire gli intervalli di confidenza e testare le diverse ipotesi nel modello
lineare :
Il coefficiente angolare e l’ordinata all’origine calcolati sul campione se standardizzati
assumeranno la seguente forma
^
 
t^ 

s
dev x
^
 
t^ 

 2
s
1
 x
n dev x
dove :
55

 y i  y i'
n2
s 

^ 2
2

k
devY
n2
perché la devianza al numeratore deve essere corretta con n-2 gradi di libertà che ci sono serviti
per il calcolo dei parametri della retta di regressione stimata
Intervalli di confidenza
Gli intervalli di confidenza per i parametri della retta di regressione verranno costruiti nel modo
che segue :



P  t 

.n  2
2





    t   1  

,n2 
s
2


dev x

^
e isolando  :
^
 ^
s
s 
P   t 

     t     1  

,n2
dev x
de x 
2
2

^
    t
2
, n 2

s
dev x




^







P  t 

 t    1   isolando  :
.n  2
,n2
_ 2
2
 2

1
x


s



n
dev
x



 2
 2 
 ^

^
1
1
P  t 
 s
 x      t   s
 x   1
,n 2
n dev x
n dev x 

2
2




56
 2
^
    t
2
,n 2
1
 x
n dev x
 s
Prova delle ipotesi sul parametro 

Le ipotesi nulle sui parametri della vera retta di regressione sono:
H0 :   0
H 0 :   0
contro l’ipotesi alternativa maggiore, minore o diversa dell’ipotesi nulla.
La statistica test sarà:
^
t^ 
 0

se l’ipotesi nulla che si testa riguarda l’assenza di relazione;
s
dev x
o invece:
^
t^

 

0
s
dev x
se si testa l’ipotesi che il coefficiente angolare della vera retta di regressione sia pari a un certo
valore.
Il confronto avverrà con il valore di t letto sulle tavole al livello di significatività stabilito e con
n-2 gradi di libertà.
Se l’espressione:
^
t^ 

 0
s
viene elevata al quadrato si otterrà:
dev x
^ 2

s y2
^ 2
^ 2
devY

dev
 devx
x

 devY  n  2 
s x2
t 2^  2 


^ 2
^ 2
^ 2
s




1   devY
1   devY
1   devY
dev x












n2
n2
devx
^ 2
^ 2
 n  2
^ 2

1   




57
^
t^ 

 n  2
^ 2

1   




e l’ipotesi che verrà testata sarà sempre legata all’assenza di una relazione di tipo lineare ma del
tipo:
H0 :   0
Il confronto nell’uno e nell’altro caso avverrà con il valore di t letto sulle tavole in
corrispondenza di un certo livello di significatività e di n-2 gradi di libertà e se tale valore risulta
maggiore del valore di t calcolato sul campione si accetterà l’ipotesi e nel caso contrario si
rifiuterà.
Regola di decisione:
se:
t c  t ,n2 si rifiuta l’ipotesi di assenza di relazione lineare mentre se:
t c  t ,n2 l’ipotesi verrà accettata e tra i caratteri messi a confronto non esiste relazione di tipo
lineare.
L’ipotesi di assenza di relazione lineare può essere testata anche con la tabella Anova nella
quale compariranno i seguenti valori:
Tabella ANOVA
Tipi di deviazione
spiegata
Non spiegata
totale
Devianze


 Yi '  Y 




 Yi  Yi '
2




 Yi  Y 


g. libertà
1
2
n-2
2
n-1
Varianze



 Yi '  Y 


1
2
 Yi  Yi '
n2
2


Il valore F campionario sarà dato dal rapporto tra le due varianze:
58
2



 Yi '  Y 


1
Fc 
2
 Yi  Yi '
n2


e andrà confrontato con il valore di F letto sulle tavole a un certo livello di significatività e con 1
grado di libertà al numeratore e n-2 gradi di libertà al denominatore.
Regola di decisione
Se :
Fc  F ,1,n  2 si respingerà l’ipotesi , mentre se:
Fc  F ,1,n  2 l’ipotesi andrà accettata.
Prova delle ipotesi sul valore 
H0 :  0
H0 :  0

La variabile t calcolata sulle risultanza campionarie sarà:
^
 0
t^ 

 2
s
1
 x
n dev x
se l’assunzione è relativa al fatto che la retta passi per l’origine degli assi
Regola di decisione
Se:
t c  t ,n2 si rifiuterà l’ipotesi nulla che la retta di regressione passi per l’origine degli assi,
mentre nel caso opposto :
t c  t ,n2 la si accetterà.
se si vuole testare l’ipotesi che l’ordinata all’origine sia pari a un certo valore si calcolerà il t
campionario:
59
^
 
t^ 

0
 2
s
1
 x
n dev x
da confrontarsi con il valore di t ,n-2 .
Regola di decisione
se:
t c  t ,n2 si rifiuterà l’ipotesi nulla che l’intercetta all’origine sia pari a un certo valore , mentre la
si accertterà nel caso:
t c  t , n  2 .
60