Inferenza statistica (Testo completo

?
INFERENZA STATISTICA
Bruno Chiandotto
Dipartimento di Statistica, Informatica, Applicazioni “G. Parenti”(DISIA)
Firenze, luglio 2015
It is easy to lie with statistics
It is hard to tell the truth without it
Andrejs Dunkels
Queste Note didattiche sono state predisposte (in edizione provvisoria) per facilitare la preparazione
dell'esame di Inferenza statistica. Lo studente troverà nelle note soltanto alcuni degli elementi di base
del calcolo delle probabilità e dell’inferenza statistica. Si tratta di un’ introduzione alla conoscenza dei
metodi moderni di analisi statistica dei fenomeni collettivi da approfondire mediante la lettura di altri
testi.
.
INDICE
0. Premessa
Introduzione
0.1 Inferenza statistica classica
0.2 Inferenza statistica bayesiana
0.3 Teoria statistica delle decisioni
0.4 Digressione: scale di misura
Conclusioni
1
3
6
8
12
15
1. Calcolo delle probabilità
Introduzione
1.1 Alcuni concetti di base
1.2 Algebra degli eventi
1.3 Probabilità
1.4 Formula di Bayes
1.5 Variabili casuali semplici
1.6 Valore atteso di funzioni di variabili casuali semplici
1.7 Variabili casuali discrete
1.7.1 Binomiale
1.7.2 Ipergeometrica
1.7.3 di Poisson
1.7.4 Binomiale negativa
1.7.5 Geometrica (di Pascal)
1.7.6 Variabili casuali discrete: riepilogo
1.8 Variabili casuali continue
1.8.1 Normale (di Gauss-Laplace
1.8.2 Log-normale
1.8.3 di Cauchy
1.8.4 Gamma
1.8.5 di Pareto (I° tipo)
1.8.6 di Weibull
1.8.7 Esponenziale negativa
1.8. 2 di Pizzetti-Pearson
1.8.9 Beta
1.8.10 Uniforme
1.8.11 t di Student
1.8.12 F di Fisher-Snedecor
1.8.13 Variabili casuali continue riepilogo
1.9 Variabili casuali multidimensionali
1.10 Valore atteso di funzioni di variabili casuali multidimensionali
1.11 Variabili casuali discrete e continue a k dimensioni
1.11.1 Trinomiale (binomiale doppia)
1.11.2 Multinomiale e Ipergeometrica a k dimensioni
1.11.3 Normale doppia
1.11.4 Normale a k dimensioni
1.11.5 di Dirichlet
1.12 La famiglia esponenziale
1.13 Distribuzioni multiple multivariate
1.14 Distribuzioni a priori coniugate
i
17
17
21
24
33
37
40
50
50
56
62
66
71
72
75
75
83
84
84
85
86
86
88
91
95
95
96
97
102
107
112
113
115
116
124
126
126
129
132
1.15 Teoremi fondamentali del calcolo delle probabilità
135
2. Campionamento e distribuzioni campionarie
Introduzione
2.1 Campioni casuali
2.2 Sufficienza
2.3 Distribuzioni campionarie
2.4 Campionamento da popolazioni normali
2.5 Campionamento da popolazioni non normali
2.6 Campionamento da due popolazioni indipendenti
143
143
150
155
163
166
172
3. Stima
Introduzione
3.1 Stima puntuale
3.1.1 Proprietà degli stimatori
3.1.2 Sufficienza
3.1.3 Concentrazione e prossimità
3.1.4 Efficienza
3.1.5 Proprietà asintotiche
3.2 Metodi di stima puntuale
3.2.1 Minimizzazione dell’errore quadratico medio
3.2.2 Massima verosimiglianza
3.2.3 Proprietà degli stimatori di massima verosimiglianza
3.2.4 Altri metodi di stima
3.3 Stima statistica di intervallo (intervalli di confidenza)
3.3.1 Intervallo di confidenza per la media di una v.c. normale con varianza nota
3.3.2 Intervallo di confidenza per la media di una v.c. normale con var. incognita
3.3.3 Intervallo di confidenza per la var. di una v.c. normale con media incognita
3.3.4 Intervallo di confidenza per la media di una v.c. con distribuz. arbitraria
3.3.5 Intervalli simultanei di conf. per la media e la varianza di una v.c. normale
3.3.6 Intervallo di confidenza per la differenza tra medie e tra proporzioni
3.3.7 Intervallo di confidenza per la differenza tra medie per dati appaiati
3.3.8 Intervallo di confidenza per il rapporto tra varianze
3.4 Determinazione della numerosità campionaria
175
176
177
177
178
179
184
185
185
187
196
197
200
202
203
205
205
207
209
211
212
212
4. Test delle ipotesi
Introduzione
4.1 Verifica di ipotesi statistiche
4.1.1 Ipotesi semplici
4.1.2 Ipotesi composite
4.2 Test sulla media
4.2.1 p-value
4.2.2 Potenza del test
4.3 Test sulla varianza
4.4 Test sulla probabilità
4.5 Determinazione della dimensione campionaria
4.6 Confronto tra campioni
4.6.1 Confronto tra medie
4.6.2 Confronto tra proporzioni
4.6.3 Confronto tra varianze
4.6.4 Confronto per dati appaiati
4.7 Determinazione della dimensione campionaria
ii
215
215
219
224
225
232
235
244
246
251
253
254
260
263
266
269
5. Modello statistico lineare
Introduzione
5.1 Modello di regressione lineare semplice
5.1.1 Ipotesi di specificazione (caso A)
5.1.2 Stima dei minimi quadrati
5.1.3 Ipotesi di specificazione (caso B)
5.1.4 Stima di massima verosimiglianza
5.1.5 Stima di intervallo
5.1.6 Test delle ipotesi
5.1.7 Trasformazione di modelli non lineari
5.2 Coefficiente di correlazione lineare
5.3 Modello di regressione lineare multipla
5.3.1 Ipotesi di specificazione (caso A)
5.3.2 Stima dei minimi quadrati
5.3.3 Ipotesi di specificazione (caso B)
5.3.4 Stima di massima verosimiglianza
5.3.5 Stima di intervallo e test delle ipotesi
5.4 Modello di analisi della Varianza (ANOVA)
5.4.1 Analisi a un criterio di classificazione
5.4.2 Analisi a due criterio di classificazione
5.5 Analisi della Varianza e modello di regressione
5.6 Analisi della covarianza (ANCOVA)
273
275
278
279
287
288
289
293
293
294
297
298
299
303
303
304
308
309
312
318
322
6. Inferenza statistica bayesiana
Introduzione
6.1 Formula di Bayes
6.2 Distribuzioni a priori coniugate
6.3 Distribuzioni a priori non informative
6.4 Stima e test delle ipotesi in ottica bayesiana
6.5 Regressione bayesiana
6.5.1 Regressione bayesiana con distribuzioni a priori non infor. e coniugate
325
328
334
346
347
353
355
7. Teoria statistica delle decisioni
Introduzione
7.1 Teoria delle decisioni
7.2 Decisioni basate sulle sole informazioni a priori
7.2.1 Assiomi di comportamento razionale (Ia parte)
7.2.2 Assiomi di comportamento razionale (2a parte)
7.2.3 Assiomi di comportamento razionale (3a parte)
7.3 Decisioni in situazioni di estrema incertezza
7.4 Struttura del processo decisionale
7.5 Decisioni basate sulle sole informazioni campionarie
7.6 Decisioni basate su informazioni a priori e informazioni campionarie
7.7 Valore dell’informazione
Riferimenti bibliografici
361
361
366
366
368
369
371
374
379
386
395
403
iii
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
0. PREMESSA
Introduzione
Nello studio dei fenomeni1 di qualunque natura essi siano (economici, aziendali, fisici,
biologici, ecc.) e qualunque sia la finalità (puramente conoscitiva o operativa) che
s’intende perseguire, sorge sovente la necessità di rappresentare le manifestazioni dei
fenomeni stessi attraverso tabelle e grafici per recepire più immediatamente particolari
caratteristiche del fenomeno oggetto di analisi; altre volte, può interessare cogliere nella
multiforme variabilità o mutabilità2 delle loro manifestazioni quello che in esse c'è di
tipico o di costante, o magari interessa fornire una qualche misura della diversità stessa
e/o di voler evidenziare in qualche modo l’eventuale relazione che lega fenomeni
diversi ma logicamente collegati; infine, si può avere interesse a rappresentare il
fenomeno o la relazione tra fenomeni mediante specifici modelli analitici che,
schematizzando e semplificando la realtà, ne rendono più facile la comprensione.
L’interesse può riguardare quindi:
a. l’esecuzione di rappresentazioni tabellari e grafiche che mettano in evidenza
certi aspetti generali del fenomeno o dei fenomeni oggetto di analisi
(rappresentazioni tabellari e grafiche);
b. il calcolo di indici che mettano in evidenza quello che c'è di tipico nelle
manifestazioni dei fenomeni (rappresentazioni sintetiche: valori medi);
c. il calcolo di indici che mettano in evidenza quello che c'è di mutabile e/o
variabile nelle manifestazioni di fenomeni (rappresentazioni sintetiche: indici
di variabilità e/o mutabilità);
d. la misura della relazione tra fenomeni mediante
(rappresentazioni sintetiche: indici di associazione);
appropriati
indici
e. l’introduzione di modelli che esprimano analiticamente l'insieme delle
manifestazioni del fenomeno e/o la relazione tra fenomeni (rappresentazioni
analitiche).
In seguito verranno distinti i modelli probabilistici dai modelli statistici. I modelli
probabilistici, quali rappresentazioni, nella generalità dei casi, approssimate della realtà,
1
In questa nota tutte le volte che si usa il termine fenomeno si fa riferimento al così detto fenomeno collettivo, cioè
ad un fenomeno la cui misura e conoscenza richiede l’osservazione di una pluralità di sue manifestazioni.
2
Si dice variabile il fenomeno collettivo le cui manifestazioni si diversificano per grandezze numeriche enumerabili o
misurabili (caratteri quantitativi), si dice mutabile il fenomeno collettivo le cui manifestazioni si diversificano per
attributi non numerici (caratteri qualitativi) che possiedono, o meno, un ordine naturale di successione (cfr.
Digressione sulle scale di misura in questo capitolo) . Come si avrà modo di chiarire nelle pagine seguenti, la natura,
quantitativa o qualitativa, delle modalità classificatorie condiziona interamente il processo di analisi statistica dei dati:
dalla fase della loro raccolta a quella dell’elaborazione finale.
1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
consentono una più immediata comprensione degli aspetti più rilevanti relativi ai
fenomeni di interesse. Per contro, i modelli statistici, oltre ad essere rappresentazioni
semplificata della realtà, facilitano anche la formulazione di previsioni e consentono la
ricerca di nessi causali fornendo informazioni utilizzabili a fini decisionali.
In particolare, se si è interessati alla conoscenza di un certo fenomeno (carattere) F si
possono rappresentare le sue possibili manifestazioni (modalità del carattere) come
punti di un insieme P (popolazione). Ovviamente non tutti i punti hanno lo stesso peso,
e cioè può accadere che una determinata manifestazione (specifica modalità del
carattere considerato) si realizzi più frequentemente di una seconda e questa con
maggiore frequenza di una terza e così via, in tal caso, a ciascun punto resta associato
un peso che, a seconda del contesto di riferimento, statistico o probabilistico, assume la
denominazione di frequenza relativa o di probabilità.
All'insieme P può essere associato un secondo insieme R che può essere chiamato
caratteristico, cioè l'insieme di tutti gli indici caratteristici di compattazione dei dati
che possono essere derivati applicando le funzioni (da intendersi in senso lato come
gruppo di operazioni logiche o algebriche di qualunque natura) g1  , g2  ,......, gh  ,
all'insieme P in modo tale che ciascun elemento di R, che può essere definito l'insieme
delle rappresentazioni statistiche, consenta una più facile ed immediata comprensione
del fenomeno F.
Quella riportata nella Fig.0.1 è una schematizzazione estremamente semplificata dei
problemi propri della cosiddetta statistica descrittiva cui si è riferito ai punti a., b., c., d.
ed e., elencati in precedenza. La figura rettangolare contiene la strumentazione (metodi
di compattazione) capace di trasformare i dati in informazioni.
Statistica descrittiva
g 1 
F

P
g i 
R

g h 
Fig. 0.1 - Rappresentazione schematica della struttura logica del metodo statistico
2
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
0.1 - Inferenza statistica classica
Nelle argomentazioni svolte, si è implicitamente ipotizzato di avere a disposizione
tutte le manifestazioni del fenomeno o dei fenomeni oggetto di analisi, e di voler in
qualche modo, attraverso tabelle, grafici o calcolo di indici caratteristici, ecc.,
compattare i dati a disposizione, ovvero raccogliere molteplici aspetti in un solo
aspetto, individuare il costante nel variabile, accentuare quella particolarità del
fenomeno che più interessava oscurandone altre ecc.. Quella prospettata non è,
usualmente, la realtà in cui si opera: nella generalità dei casi si deve procedere
nell’analisi di un fenomeno, avendo a disposizione soltanto una parte delle
manifestazioni dello stesso. In altri termini si dispone di un sottoinsieme C (campione)
di manifestazioni del fenomeno F pur restando inalterato il problema di comprensione
del fenomeno stesso attraverso l'utilizzo di tabelle, grafici e appropriati indici di
compattazione.
Si ammetta dunque di essere interessati ad un particolare indice sintetico θ e che
questo possa essere determinato applicando la funzione g  a tutti gli elementi di P, ma
che sia impossibile effettuare una tale operazione potendo disporre soltanto di un
sottoinsieme C (campione) delle manifestazioni del fenomeno F.
Il problema da risolvere a questo punto, è quello dell’individuazione della funzione
t  che applicata a C fornisca un punto θ̂ nello spazio caratteristico Rc che sia il più
vicino possibile a θ . Interessano, cioè, indici che siano rappresentativi non di particolari
aspetti del fenomeno, così come risulta dall'insieme parziale C delle sue manifestazioni,
ma come risulterebbe se si disponesse dell'insieme P di tutte le sue manifestazioni.
Il punto ˆ , quindi, deve essere il più vicino possibile a  ; con un linguaggio più
tecnico si dice che ˆ deve essere una buona stima di  ; in realtà, come si avrà modo di
chiarire successivamente, più che di buona stima si parlerà di buon stimatore, poiché
non è possibile misurare la “distanza” di una quantità nota ˆ ad una quantità incognita
 . Pertanto, è il procedimento che si segue per ottenere la quantità ˆ che può essere
“buono” o “cattivo”, e la “bontà” (proprietà augurabili) dovrà valere qualunque sia il
valore di  , bontà che si misura attraverso l'analisi del suo comportamento (cfr. Fig.
0.2) nell'insieme di tutti i possibili campioni estraibili dalla popolazione (universo dei
campioni).
La stima è il primo dei due problemi che costituiscono l'oggetto di studio della c.d.
inferenza statistica o statistica induttiva. Un tale problema consiste, come già detto, nel
cercare di estendere le conclusioni relative alla misura di un certo indice caratteristico,
derivanti da un insieme parziale di manifestazioni di un determinato fenomeno,
all'insieme di tutte le sue manifestazioni effettive o potenziali.
3
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
Inferenza statistica classica
f 1 
F

P
f i 
R

f h 
DEDUZIONE
(Calcolo delle Probabilità)
INDUZIONE
( Inferenza statistica)
t 1 
SPAZIO o UNIVERSO
dei Campioni

t i 
C
Rc

t k 
Fig. 0.2 - Rappresentazione grafica del processo di induzione statistica (inferenza classica)
Se le conclusioni cui si vuol pervenire non riguardano direttamente la misura di una
entità incognita ma la ragionevolezza di una specifica assunzione relativa a tale entità si
ha a che fare con il secondo problema di cui si occupa la statistica induttiva: “il test
delle ipotesi (statistiche)”.
I problemi della stima e quello del test delle ipotesi sono strettamente collegati ma
coinvolgono problematiche logicamente diverse e devono, pertanto, essere tenuti
distinti. Facendo sempre riferimento all'indice  , un test statistico si risolve nella
formulazione di un'ipotesi sul presumile vero valore dell'indice per poi decidere, sulla
scorta dell'evidenza campionaria, se accettare o meno l'ipotesi formulata.
Come già sottolineato, la complessa natura dei fenomeni economici, biologici, fisici,
ingegneristici, ecc. oltre a giustificare l'esistenza di metodi statistici sempre più raffinati,
esige spesso l'introduzione di modelli analitici che, semplificando e schematizzando la
realtà, ne rendono più facile la comprensione.
Poiché una serie innumerevole di fenomeni nelle varie scienze è governata da leggi
aventi natura aleatoria, ne consegue immediatamente che i modelli probabilistici
risultano essere i più appropriati per descrivere le loro manifestazioni (cfr. Fig. 0.3).
4
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
Deduzione
MODELLO
(Probabilità)
UNIVERSO
DEI
CAMPIONI
Induzione
(Inferenza statistica)
EVIDENZA
EMPIRICA
(CAMPIONE)
SITUAZIONE
REALE
Fig. 0.3 - Relazioni tra probabilità, statistica induttiva, evidenza empirica e modello.
Anche se fra i criteri logici od empirici che possono guidare nella individuazione del
modello rappresentativo più opportuno alcuni hanno validità generale, usualmente essi
sono strettamente connessi alla natura e al tipo del fenomeno che si intende analizzare.
Al riguardo si deve sottolineare che quando si procede all'introduzione di un modello
analitico per esprimere le manifestazioni di un fenomeno di interesse, non ha più senso
parlare di popolazione in quanto la popolazione è rappresentata dal modello stesso,
espressione del processo di generazione dei dati, e le manifestazioni del fenomeno o
dei fenomeni d’interesse osservate hanno, necessariamente, sempre natura di
manifestazioni campionarie essendo la popolazione rappresentata analiticamente
attraverso il modello stesso (superpopolazione)3.
La rappresentazione analitica dei fenomeni si risolve, nel caso in cui si considera, ad
esempio, un solo carattere quantitativo, nella introduzione di un simbolo X al quale è
associata una funzione di massa di probabilità, nel caso discreto, di densità di
probabilità, nel caso continuo, del tipo:
f  x ;   per x  S e  Θ
dove: S rappresenta lo spazio campionario di definizione di x, cioè lo spazio (supporto)
di tutti i valori assumibili dall'entità variabile x ;  il parametro o i parametri
caratteristici del modello; Θ 4 lo spazio parametrico, cioè lo spazio di tutti i valori
assumibili dal parametro/i, usualmente incognito/i,  . Come si avrà modo di verificare
successivamente, tra gli indici caratteristici (misure di compattazione delle
manifestazioni dei fenomeni di interesse) ed i parametri caratteristici, esiste una stretta
relazione analitica.
3
Questa affermazione vale, ovviamente, anche quando s’introducono modelli analitici per rappresentare le relazioni
(associazione) tra caratteri.
4
In queste note il carattere in grassetto sta ad indicare che il simbolo utilizzato fa riferimento ad un vettore e/o ad una
matrice e non a uno scalare; nel caso specifico i simboli  e Θ stanno ad indicare che si sta trattando di uno o più
parametri.
5
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
Quando si ritiene opportuna l'introduzione di un modello analitico per rappresentare
le manifestazioni di un fenomeno di interesse, si possono distinguere almeno due
situazioni di mancanza di conoscenza: la prima situazione è quella caratterizzata da una
conoscenza parziale della funzione f  x ; 1 ,2 ,....,k   f  x ;   nel senso che si
conosce la forma analitica della funzione ma non si conosce il valore di tutti o di alcuni
dei parametri che caratterizzano la funzione stessa, in questa circostanza si parla di
inferenza statistica parametrica. La seconda situazione è quella di mancata conoscenza
della forma analitica del modello, in questa circostanza si parla di inferenza statistica
non parametrica. Una terza situazione, intermedia rispetto alle due precedenti, è quella
in cui si specificano certe componenti del modello (ad esempio si suppone che la v.c.
appartenga alla famiglia esponenziale ma non si specifica la sottofamiglia: forma
funzionale della funzione di massa o di densità). Se si opera in tale contesto si parla di
inferenza statistica semi-parametrica, nel senso che il modello statistico per l’analisi
del fenomeno è specificato solo parzialmente.
La dizione inferenza statistica non parametrica non è certamente la più appropriata in
quanto interpretabile come se, in questo ambito, le procedure di statistica induttiva non
riguardassero i parametri. Ovviamente, questa interpretazione è fuorviante, infatti, con
la dizione “non parametrica” si vuole, molto semplicemente, caratterizzare le situazioni
inferenziali nelle quali non si conosce la forma analitica e, ovviamente, il valore dei
parametri caratteristici, elementi questi entrambi coinvolti nelle procedure inferenziali.
La dizione corretta per caratterizzare tali situazioni è quella di inferenza statistica libera
da distribuzione (distribution free).
Ai problemi di stima e di test delle ipotesi, che in questo contesto possono riguardare
i soli parametri caratteristici od anche la forma analitica del modello cui si ritiene
opportuno fare ricorso, si aggiunge la necessità di procedere ad una misura e verifica
della capacità (bontà) rappresentativa (adattamento) del modello stesso.
La stima e il test delle ipotesi sono, in un contesto lievemente differente, gli stessi
due problemi di stima e di verifica delle ipotesi sopra considerati.
Uno degli aspetti più importanti di cui la statistica si occupa, è dunque quello
dell'estensione di conclusioni da un campione di osservazioni alla popolazione o
superpopolazione, nel caso in cui si procede all’impiego di modelli, dal quale il
campione è stato estratto. Se si fa riferimento ai modelli, tale problema si risolverà
nell'utilizzo dei dati campionari per la scelta, la modifica e la misura del grado di
rappresentatività dei modelli, od anche, nella verifica di ipotesi statistiche sulla forma
e/o sul valore dei parametri che caratterizzano i modelli stessi.
0.2 - Inferenza statistica bayesiana
Le considerazioni fino ad ora svolte riguardano la cosiddetta inferenza statistica
classica: in questo contesto, per pervenire a delle conclusioni sulla popolazione, o sulla
sua rappresentazione attraverso un modello, si utilizzano i soli dati campionari (insieme
6
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
parziale di manifestazioni del fenomeno d’interesse).
Un diverso modo per risolvere i problemi di induzione statistica è quello usualmente
noto come approccio bayesiano all’inferenza statistica. L’elemento caratterizzante di
questo approccio è l’utilizzo esplicito e formalizzato del bagaglio conoscitivo pregresso
(informazioni a priori) sul fenomeno d’interesse. Si deve, però, sottolineare che
l’elemento distintivo del ragionamento bayesiano non risiede tanto nell’utilizzo delle
informazioni a priori (queste infatti vengono utilizzate, come si avrà modo di chiarire in
seguito, anche nell’approccio classico all’inferenza statistica), quanto nel diverso modo
attraverso il quale le informazioni a priori vengono utilizzate.
Se si prevede l’impiego di modelli rappresentativi della realtà (del fenomeno e/o
delle relazioni tra fenomeni), la conoscenza a priori si risolve nell’introduzione di una
distribuzione di probabilità sul parametro o sui parametri caratteristici del modello che
assumono, in tale ottica, la natura di variabili casuali e non più, come accade nell’ottica
classica, quella di costanti incognite.
Inferenza statistica bayesiana
f 1 

F
f i 
P

R
f h 
C
t 1 

t i 
Informazioni
a priori
Rc

t k 
Fig.0.4 - Rappresentazione grafica del processo di induzione statistica (inferenza bayesiana)
In precedenza, trattando dei modelli rappresentativi dei fenomeni, in funzione del
patrimonio conoscitivo disponibile si è operata la distinzione inferenza statistica
classica parametrica, non parametrica e semiparametrica; analogamente, in funzione
del patrimonio conoscitivo disponibile, si parlerà di inferenza statistica bayesiana
parametrica, inferenza statistica bayesiana non parametrica e inferenza statistica
bayesiana semiparametrica.
7
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
In altri termini, nel contesto classico, dato il modello
f  x ;   per x  S e  Θ


nel caso parametrico l’unica incognita è rappresentata dal parametro (o
parametri)  che lo caratterizzano e i dati campionari verranno utilizzati per
trarre conclusioni su tale entità;
nel caso non parametrico sono incognite sia il parametro (o parametri)  che lo
caratterizzano, sia la forma analitica f
 , 
del modello e i dati campionari
verranno utilizzati per trarre conclusioni sia sulla forma analitiche sui parametri.
Nel contesto bayesiano, dati i modelli5
f  x ,   per x  S e  Θ
  
dove    , 


per  Θ e  
rappresenta la distribuzione a priori del parametro (o parametri)  , la
dizione di inferenza bayesiana parametrica, non parametrica e semiparametrica,
dipenderà dallo stato di conoscenza sulla forma analitica delle funzioni f  x ,   e
   ;
.
0.3 - Teoria statistica delle decisioni
Per comprendere i fenomeni occorre procedere all’analisi delle loro manifestazioni, se
ci si domanda poi per quale ragione si è interessati ad una tale comprensione, la risposta
è che si può voler soddisfare una mera esigenza conoscitiva fine a se stessa, o che la
conoscenza è finalizzata alla risoluzione di uno specifico problema decisionale.
In un contesto decisionale, la scelta può riguardare gli aspetti più diversificati che
vanno da quelli quotidiani più banali (dovendo raggiungere un luogo di lavoro o di
studio distante dalla propria abitazione ci si può servire di un mezzo pubblico di
trasporto o utilizzare l’automobile personale o chiamare un taxi; dovendo uscire di casa
con tempo incerto si deve decidere se prendere o meno l’ombrello, ecc.), a quelli
relativamente più complessi riguardanti, ad esempio, il gestore di una piccola attività
commerciale (procedere o meno alla ristrutturazione, e in che modo, dei locali in cui si
svolge l’attività commerciale, effettuare, e in che forma e tramite quale veicolo, o meno
attività promozionali, e fino a che punto, e in che modo, ampliare la gamma di prodotti
offerti, ecc.) fino a quelli più complessi ed articolati quali, ad esempio quelli propri
delle imprese di medie e grandi dimensioni qualunque sia il settore di attività (procedere
alla produzione di un nuovo modello, e quale, di automobile, scelta del processo
5
Si richiama l’attenzione sulla simbologia utilizzata: l’espressione con il punto e virgola come elemento separatore
 x ;   indica che la prima entità è una variabile mentre la seconda è una
costante, per contro quando l’elemento separatore è una virgola f  x ,   entrambe le entità sono delle variabili.
delle due entità dell’argomento
f
8
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
produttivo più adeguato, procedere, come, dove e con quali dimensioni o meno
all’impianto di un nuovo stabilimento, ecc.).
Qualunque problema decisionale da risolvere, dal più banale al più complesso,
richiede la chiara definizione del problema stesso e l’individuazione delle possibili
relazioni che connettono i vari elementi o aspetti che lo caratterizzano.
Il quadro logico di riferimento e le informazioni sono gli ingredienti essenziali di
ogni processo decisionale, la teoria delle decisioni, la teoria statistica ed i metodi e i
modelli sviluppati in questi ambiti disciplinari sono gli strumenti essenziali (e necessari)
per lo svolgimento ottimale di ogni processo decisionale, decisioni che, come già
sottolineato e come si avrà modo di verificare successivamente, devono essere nella
generalità dei casi prese in situazioni di conoscenza parziale della realtà in cui si opera 6.
Si è già detto che la disciplina che si occupa della raccolta e del trattamento
scientifico dei dati statistici (manifestazioni dei fenomeni collettivi di interesse) è la
Statistica, se poi le informazioni stesse devono essere utilizzate per risolvere uno
specifico problema decisionale, cioè un problema che si risolve nella scelta ottimale di
una tra diverse alternative a disposizione, allora il contesto di riferimento è la Teoria
delle decisioni. Nella fusione delle due discipline si sostanzia un’altra disciplina
scientifica: “La Teoria statistica delle decisioni” o “Teoria delle decisioni statistiche”
che per certi versi può essere intesa come generalizzazione ed estensione della Statistica
che in questo modo risulta anche meglio caratterizzata nelle sue diverse connotazioni e
meglio precisata nei contenuti. In altri termini si può anche definire la statistica come il
fondamento logico e metodologico per la risoluzione dei problemi decisionali.
La teoria delle decisioni fissa principi razionali di comportamento che consentono la
derivazione di regole di scelta ottimale. Gli sviluppi più recenti di tale teoria consentono
anche di valutare e correggere eventuali incoerenze e contraddizioni nel comportamento
dei decisori.
E’ già stato sottolineato che nel contesto empirico l’elemento fondamentale di
riferimento sono i dati statistici (disponibili o acquisibili) e che la statistica può essere
identificata come la disciplina che tratta di metodi attraverso i quali i dati statistici, cioè
le manifestazioni dei fenomeni di interesse, dovrebbero o potrebbero essere impiegati
per ottenere, in funzione delle specificità del problema analizzato, una rappresentazione
semplificata della realtà (i dati vengono trasformati in informazione) facendo emergere
le caratteristiche che interessano in dipendenza degli obiettivi che s’intendono
perseguire (l’informazione diventa conoscenza utilizzabile a fini decisionali).
In tale ottica, assumono rilevanza ulteriori elementi quali l’esatta definizione della
qualità e quantità d’informazione che s’intende acquisire, la decisione sui tempi e sui
modi di acquisizione e la valutazione dei costi connessi.
6
Come già sottolineato, due sono i motivi principali che determinano una conoscenza parziale della realtà:
l’impossibilità o la non convenienza di acquisire tutte le informazioni relative agli aspetti che interessano pur
essendo, almeno teoricamente, possibile una tale acquisizione, o la non disponibilità, neppure potenziale, delle
informazioni, ed è questo il caso in cui le manifestazioni del fenomeno di interesse riguardano eventi futuri o sono
rappresentate attraverso un modello analitico.
9
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
La statistica, che si occupa della raccolta e del trattamento finalizzato dei dati, entra,
a pieno titolo, in ogni processo decisionale, finalizzato al conseguimento di uno
specifico obiettivo, che prevede l’utilizzo di informazioni. Un processo nel quale:
 l’input (materia prima) è costituito da dati statistici riferiti ad una specifica
realtà, della quale rappresentano qualitativamente e/o quantitativamente uno o
più aspetti;
 la trasformazione avviene attraverso l’impiego di procedure e metodi analitici;
 l’output (prodotto) è la conoscenza del fenomeno indagato la cui natura e
interpretazione dipende dagli input utilizzati e dal meccanismo logico e
metodologico di elaborazione e dalle finalità che s’intendono perseguire.
Da quanto sopra detto, emergono almeno tre insiemi di elementi caratteristici:
 un insieme di elementi che vengono introdotti quali input nel processo di
trasformazione;
 un insieme di procedure di elaborazione;
 un insieme di prodotti costituito da tutte le modalità assumibili dai risultati
conseguenti l’applicazione delle procedure.
Si supponga ora che sia sempre possibile associare ad ogni prodotto la descrizione
delle conseguenze che scaturiscono dalla scelta, le quali assumeranno una fisionomia
particolare a seconda dell’oggetto del problema: se si tratta di operare una
compattazione di dati osservati con l’obiettivo di mettere in risalto una caratteristica
specifica del fenomeno, le conseguenze potranno essere descritte dalla perdita (di
informazione) determinata dal processo, oppure, se il problema è finalizzato alla scelta
di una modalità operativa, le conseguenze potranno essere identificate in perdite
monetarie o di altra natura ed essere, eventualmente, collegate ad errori commessi nel
processo di trasformazione.
Risulta, pertanto, definito un quarto insieme di elementi:
 l’insieme delle conseguenze.
Il criterio guida nell’operare la trasformazione dei dati consiste, per quanto possibile,
nell’evitare conseguenze negative. Ne deriva che l’informazione circa le conseguenze
assume una rilevanza esclusiva ed un ruolo condizionante rispetto ad ogni altra tipologia
(disponibile) per la quale si renderà, appunto, necessario un confronto o, meglio,
un’integrazione con i dati di perdita già definiti.
La traccia originale viene, quindi, specificata e organizzata secondo lo schema
seguente: avendo definito l’insieme dei risultati possibili (le informazioni finali) e
avendo individuato le perdite corrispondenti, l’elaborazione deve essere effettuata
avendo come obiettivo la minimizzazione della perdita.
Considerando che, con l’impostazione sopra delineata, sulla base di una funzione di
perdita viene selezionato l’elemento ottimo (quello cioè cui corrisponde la perdita
minima), risulta naturale attribuire agli specifici elementi che costituiscono l’insieme
dei prodotti l’identità di decisioni, nel senso che essi rappresentano le alternative
possibili del risultato di un problema del quale è stato specificato l’obiettivo. Si può,
10
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
pertanto, accantonare l’espressione processo di trasformazione (compattazione) dei
dati e fare riferimento al problema decisionale quale schematizzazione che prevede la
lista di tutti gli esiti possibili e la scelta di quello ottimo secondo il criterio di
minimizzazione della perdita.
Assumendo come struttura di riferimento quella sopra introdotta è possibile
formulare, senza perdere in generalità e senza condizionamenti, ogni problema statistico
in termini decisionali.
A proposito dell’ultima affermazione fatta, sorge una problematica di estrema
rilevanza riguardo ai vantaggi e alle difficoltà, se non addirittura alla ragionevolezza,
propri di una impostazione quale è quella decisionale. Alcuni autori ritengono
l’impostazione decisionale applicabile ai soli problemi con finalità operative, altri
considerano (come l’autore di queste note) la logica decisionale applicabile, secondo
modalità particolari, a tutte le problematiche descrittive e/o inferenziali anche quando
queste sono caratterizzate da finalità esclusivamente conoscitive, altri ancora ritengono
la logica decisionale semplicistica ed oltremodo riduttiva.
Gli elementi a sostegno dell’impostazione decisionale sono innumerevoli e di varia
natura. Si può, innanzi tutto, osservare che la duplice finalità, conoscitiva ed operativa,
assegnata alla statistica quale disciplina scientifica, con conseguente attribuzione dei
problemi decisionali alla seconda finalità, si risolve, semplicemente, nella
specificazione della duplice tipologia di prodotti che vanno a costituire l’insieme delle
decisioni espresse come:
 azioni da intraprendere e da realizzare concretamente;
 affermazioni da formulare le quali, a loro volta, possono configurarsi come
asserzioni che specificano la conformità dell’evidenza osservata nei
confronti di una o più ipotesi assunte a priori;
 asserzioni che specificano la stima di una quantità incognita e/o
l’adattamento di un modello teorico ad una specifica realtà di interesse,
ecc..
Il problema si risolve sempre in una decisione, che poi questa sia orientata al cosa
dire o al cosa fare è solo una questione di specificità della situazione in cui lo statistico
opera. Se si parla poi di atti o decisioni in termini più generali, nel senso di scelte, la
suddivisione diventa addirittura artificiosa se si pensa che ogni azione può essere
considerata come l’effetto dell’affermazione: “ la decisione d” è la migliore possibile.
Ne scaturisce, allora, una differenza solo verbale, terminologica e, quindi, non
sostenibile dal punto di vista concettuale.
Un altro rilevante aspetto che può consigliare la scelta decisionale, risiede nella
logica interna propria della teoria statistica delle decisioni che induce a formulare ed
interpretare correttamente un problema statistico. Si tratta di una correttezza che può
essere ricondotta a due fatti essenziali: gli obiettivi che s’intendono perseguire e i dati
utilizzabili. L’obiettivo della minimizzazione della perdita evidenzia, infatti, la
parzialità e la particolarità del risultato che scaturisce dall’elaborazione: problemi
11
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
analoghi affrontati con specificazioni diverse della funzione di perdita possono
condurre, anzi generalmente conducono, a conclusioni diverse in quanto collegate ad
elementi diversi dell’insieme delle decisioni possibili.
Quale soluzione è quella giusta è quale è quella sbagliata? Nessuna delle due, oppure
entrambe se viste in ottiche diverse; il giudizio non deve essere formulato in termini di
correttezza o errore, si può solo dire che, ritenendo valida (accettabile, verosimile) una
struttura di perdita così come è rappresentata dalla funzione prescelta, la decisione
migliore è quella che risulta dall’imposizione della condizione di perdita minima.
L’ultima riflessione si ricollega alla necessità di attribuire ai dati una specifica forma
per poter ottenere una rappresentazione (compattazione) degli stessi significativa. La
realtà non è né descrivibile né rappresentabile senza ricorrere a schemi concettuali di
riferimento e in corrispondenza di ognuno di essi si ottiene un risultato, evidentemente
parziale e condizionato allo schema specificato. La logica decisionale, i cui risultati
sono condizionati alla particolare funzione di perdita specificata, fa emergere in modo
inequivocabile tale consapevolezza.
Non è infrequente imbattersi in situazioni operative nelle quali la decisione si riflette
sulla situazione reale determinandone in qualche modo i mutamenti, diventa allora
indispensabile procedere ad una ulteriore approfondimento dell’analisi avendo come
obiettivo l’individuazione dei nessi causali presenti nel contesto di interesse.
A conclusione di questa introduzione si sottolinea che, sempre in funzione del
contesto in cui si opera, si distinguerà la teoria statistica delle decisioni in classica e
bayesiana che potrà essere ulteriormente distinta in causale o non causale7.
0.4 - Digressione: scale di misura
Come sottolineato più volte, uno dei compiti principali della statistica è quello di
descrivere i fenomeni collettivi come primo passo verso la loro spiegazione, cui si può
pervenire anche applicando i metodi induttivi della statistica attraverso la verifica
empirica di ipotesi sviluppate sul piano teorico. Ma il passaggio dal piano teorico a
quello empirico non è per niente immediato; per poter connettere i concetti, sviluppati
nel contesto teorico ed in quello empirico, risulta indispensabile operare delle scelte
preliminari. Una di queste ha carattere fondamentale e riguarda il tipo di misura che si
intende adottare come espressione delle manifestazioni dei fenomeni oggetto di
indagine. La scala di misura non può che avere carattere convenzionale, e sarà tanto più
efficace quanto più riesce a facilitare la spiegazione dei fenomeni.
La classificazione secondo una scala di misura convenzionalmente scelta è
l'operazione che accompagna il processo di osservazione ogni qual volta quest'ultimo si
trasforma da occasionale in volontario e finalistico (osservazione scientifica). La
classificazione pertanto rappresenta il primo stadio di ogni ricerca e consiste nel
7
Il lettore interessato ad un approfondimento dell’argomento può utilmente consultare , tra gli altri, Chiandotto
(2012 e 2013). I due contributi sono riportati nella stessa pagina web di queste note.
12
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
raggruppare le manifestazioni dei fenomeni secondo una o più caratteristiche di
interesse, decidendo quali manifestazioni devono considerarsi uguali e quali diverse.
Per ciò che concerne l'operazione di classificazione secondo una scala di misura si
distinguono, generalmente, quattro diversi livelli di misurazione; in questo contesto si
parla di scale nominali, scale ordinali, scale di intervallo e scale razionali o di rapporto.
La scala di rapporto rappresenta il più alto livello di misurazione, ha uno zero
assoluto (non arbitrario) e possiede una unità di misura di tipo fisico scelta come
elemento comune di riferimento.
La scala di intervallo, che possiede tutte le proprietà delle scale nominali ed ordinali,
si differenzia dalla scala di rapporto in quanto, pur possedendo una unità di misura di
tipo fisico, lo zero in essa contenuto ha natura arbitraria.
Sia le scale di rapporto che le scale di intervallo sono dunque espresse con una unità
di misura fisica scelta come elemento di riferimento e in questo caso si parla di
fenomeni misurabili, la diversità tra le due scale risiede nello zero scelto, che è assoluto
nelle scale di rapporto (il numero di componenti di un nucleo familiare, l’utile
conseguito da una azienda in un anno, ecc.), relativo nelle scale di intervallo (l’intensità
dei terremoti espressa in scala Mercalli o Richter, la temperatura di un corpo espressa in
gradi Celsius o Fahrenheit, ecc.). Sulle due scale è quindi possibile applicare le usuali
operazioni aritmetiche di addizione, sottrazione, moltiplicazione e divisione, ma solo
per i fenomeni le cui manifestazioni sono espresse con una scala di rapporto ha senso
istituire, appunto, un rapporto tra diverse intensità di manifestazione; ad esempio, ha
senso concludere che il salario del dipendente A, che percepisce 3.000 € al mese, è il
doppio di quello del dipendente B, che ne percepisce 1.500, mentre non ha senso
affermare che la temperatura del corpo A è il doppio di quella del corpo B se le due
temperature sono, rispettivamente, pari a 10° e 5° gradi Celsius, mentre è del tutto
sensato dire che la differenza di temperatura tra i due corpi è di 5° gradi Celsius.
La scala ordinale consente un ordinamento delle manifestazioni dei fenomeni in
funzione dell'entità posseduta di un certo carattere senza che sia possibile, peraltro,
stabilire l'ammontare (intensità) del carattere posseduto; tale fatto pone le scale ordinali
ad un livello inferiore rispetto alle scale di intervallo nelle quali è invece possibile
misurare tale entità. Esempi di caratteri espressi in scala ordinale sono: il titolo di
studio, il grado militare, la qualifica del personale, ecc.
La scala nominale costituisce il più semplice livello di misurazione. Sotto il profilo
formale le scale nominali possiedono unicamente le proprietà di simmetria e di
transitività; da ciò deriva che relativamente alle manifestazioni di fenomeni classificate
secondo una scala nominale si potrà semplicemente affermare se sono uguali o diverse.
Esempi di caratteri in scala nominale sono: il sesso, il tipo di diploma di scuola media
superiore, il settore merceologico, ecc.
L'aver distinto i procedimenti di classificazione secondo una scala di misura è
operazione tutt’altro che oziosa; infatti, è proprio la scala di misura adottata a
condizionare la scelta dei metodi statistici (descrittivi, induttivi o decisionali) d'analisi
più appropriati.
13
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
Con riferimento ai problemi di classificazione secondo la scala di misura adottata, va
detto che gli statistici tendono usualmente ad operare una classificazione dicotoma dei
fenomeni a seconda che le loro manifestazioni abbiano natura qualitativa (scale
nominali ed ordinali) o quantitativa (scale di intervallo o di rapporto). Un tale fatto porta
a distinguere, come già evidenziato nelle pagine precedenti, i fenomeni in mutabili8 e
variabili a seconda che essi assumano, nelle loro manifestazioni, modalità qualitative o
modalità quantitative.
Un fenomeno variabile, e cioè un fenomeno classificato secondo le modalità
quantitative di un suo carattere, può avere natura discreta o continua. Essendo il numero
associato a ciascuna modalità misurabile di un certo carattere usualmente detto
variabile, in seguito si parlerà semplicemente di variabili (discrete o continue) senza
stare a specificare ogni volta che si sta trattando di un fenomeno classificato secondo le
modalità quantitative di un suo carattere (discreto o continuo).
Una variabile discreta può assumere soltanto un insieme finito o un’infinità
numerabile di valori, mentre una variabile continua potrà assumere tutti i valori
all'interno di un certo intervallo dell’asse reale. Sono variabili discrete il numero dei
soggetti affetti da cancro polmonare, il numero degli abitanti di una certa regione, ecc.;
sono variabili continue la temperatura di un corpo, l'età di un individuo, la velocità di
un'automobile, ecc. In linea generale tutte le grandezze relative allo spazio (lunghezza,
superficie, ecc.), al tempo (età, durata in vita, ecc.) e alla massa (peso, pressione
arteriosa, ecc.), sono delle variabili continue 9.
Si parla di mutabili o variabili semplici, quando un fenomeno risulta classificato
secondo le modalità (qualitative o quantitative) di un solo carattere, si parla invece di
mutabili/variabili multiple o multivariate o multidimensionali (vettori casuali),
quando un fenomeno viene classificato secondo le modalità (qualitative o quantitative)
di più caratteri; nel caso in cui si considerino, relativamente ad un certo fenomeno,
caratteri aventi natura qualitativa e caratteri aventi natura quantitativa, si parla di
variabili miste.
8
Si segnala in proposito che la dizione mutabile statistica è poco utilizzata. Quando il carattere di interesse ha natura
qualitativa usualmente si parla di variabili qualitative od anche di dati categorici, espressi con scala nominale o
ordinale.
9
Nel trattare le variabili casuali, cioè entità variabili che possono assumere un’infinità non numerabile di valori
dell’asse reale si farà riferimento ai loro intervalli di definizione (supporto) utilizzando la seguente notazione:
(a,b)=x
 a < x < b; [a,b]=x
 a  x  b; (a,b]=x  a < x  b; [a,b)=x  a  x < b.
14
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
Relazioni e scale di misura
Relazione
ci = cj
ci  cj
ci  cj
Scala di misura
Qualitativa
Quantitativa
Nominale Ordinale
Intervallo
Rapporto
*
*
*
*
*
*
*
*
*
*
*
ci - cj
ci : cj
*
*
*
Conclusioni
La Statistica quale disciplina scientifica, qualunque sia la sua connotazione di statistica
descrittiva, statistica induttiva (inferenza statistica) o teoria statistica delle decisioni,
deve necessariamente avvalersi della matematica (essendo essa stessa una disciplina
matematica).
Nel lettore di queste note didattiche si presuppone la conoscenza dell’analisi
matematica nei connotati essenziali (calcolo differenziale ed integrale in una e più
variabili) 10.
Non si presuppone, invece, la conoscenza di quella parte della matematica che è nata
e si è sviluppata per il trattamento scientifico dei contesti aleatori: “La Teoria delle
probabilità”.
Essendo l’aleatorietà la peculiarità intrinseca dell’oggetto di studio dell’inferenza
statistica, il primo capitolo di queste note è dedicato alla trattazione sufficientemente
estesa degli aspetti essenziali della probabilità vista però nelle sue caratterizzazioni
strumentali preferendo, di conseguenza, la dizione di Calcolo delle probabilità a quella
di Teoria delle probabilità.
Nel primo capitolo, dedicato interamente alla probabilità, si procede alla
introduzione delle variabili casuali (v.c.) e alla illustrazione dei modelli probabilistici
(variabili casuali discrete e continue, semplici e multiple) di uso più frequente. Il
secondo capitolo tratta del campionamento e delle distribuzioni campionarie. La stima
(puntuale e di intervallo) e il test delle ipotesi sono oggetto, rispettivamente, del terzo e
del quarto capitolo. La trattazione rientra nell’ambito della cosidetta Inferenza statistica
classica parametrica mentre l’Inferenza statistica bayesiana parametrica viene trattata
molto sommariamente nel sesto capitolo. Il quinto capitolo è dedicato ad uno dei temi
10
Per il lettore che ritiene di dover “rinfrescare” le proprie conoscenze matematiche un utile riferimento è Khuri
(2003).
15
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
0. Premessa
classici e più rilevanti dell’inferenza statistica: il modello statistico lineare
(rappresentazione analitica delle relazioni tra caratteri). La rappresentazione analitica
implica l’introduzione di modelli matematici che sono logicamente giustificati soltanto
se si ritiene che la realtà d’interesse sia rappresentabile attraverso il modello stesso; se si
ritiene, cioè, che il fenomeno o i fenomeni di riferimento siano governati da leggi
esprimibili analiticamente ricordando che:
All models are wrong but some are useful (Box, 1979)11.
Il settimo e conclusivo capitolo è dedicato ad una sommaria esposizione della Teoria
statistica delle decisioni12.
11
Molti anni prima di Box, Pompilj (1951) in un contributo sulla Logica della conformità, scrive: ”….. Voglio
invece osservare che non solo la conformità è concettualmente diversa dalla plausibilità, ma che addirittura nel
nostro ordine di idee, un problema della plausibilità o significatività non ha senso, perché non è lecito domandarsi
se un modello è vero o falso quando si può sempre rispondere che, a stretto rigore, ogni modello è falso, in quanto
non coincide con la realtà.
Questo, naturalmente, non vuol dire che una teoria della significatività non abbia senso, ma solo che essa non può
servire per discutere se il modello è vero,….”. ….. mentre invece il suo uso, correttamente fatto nell'ambito del
modello, può diventare utilissimo, purché lo schema teorico di per se stesso già affermi che possono agire più cause
e per di più fornisca tutti i dati necessari per una corretta applicazione di tali teorie, di modo che di volta in volta, e
sempre relativamente al modello che sta alla base delle nostre indagini, si possa inferire, dall'esame dei risultati
sperimentali, sulle cause che hanno agito. Ma fuori di questo modello, che deve essere considerato preesistente e
indiscutibile, ogni indagine in tal senso risulta necessariamente vana!”
Riguardo alle affermazioni di Box e Pompilj, occorre precisare che si tratta di riferimenti ad una particolare
interpretazione del termine modello; in realtà, come si avrà modo di chiarire successivamente, alcuni modelli
(probabilistici) non costituiscono una rappresentazione semplificata della realtà ma derivano dalla traduzione in
termini analitici del processo generatore dei dati.
12
Gli argomenti illustrati in queste note sono trattati in forma più estesa, tra gli altri, in Mood, Graybill, Boes
(1988); Piccolo (1998); Barnett (1999); Robert (2007); Rohatgi e Salek (2001); Gelman e al. (1995);
Casella, Berger (2002), Keener (2010) e Olive (2014).
16
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Cap. 1 – Calcolo delle probabilità
CAP. 1 – CALCOLO DELLE PROBABILITA’
Introduzione
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei
fenomeni collettivi diventando presupposto essenziale della statistica e della teoria
statistica delle decisioni.
Il calcolo delle probabilità è una disciplina matematica astratta e altamente
formalizzata pur conservando il suo originale e rilevante contenuto empirico. Per questa
sua particolare natura l’esposizione dei suoi contenuti essenziali risulta facilitata
dall’introduzione di definizioni esplicite relative agli aspetti e concetti che ne
costituiscono il corpo.
1.1 - Alcuni concetti base
Definizione 1: Si dice prova o esperimento casuale ogni operazione o attività il cui
risultato non può essere previsto con certezza.
Risulta chiaro che il termine prova o esperimento va qui inteso in senso lato,
comprendendo in esso sia il lancio di un dado, sia l'estrazione di una pallina da un'urna,
sia la rilevazione dei pesi dei coscritti alla leva, sia l’esito di una operazione chirurgica,
sia la sperimentazione di un nuovo farmaco, sia il controllo dei pezzi prodotti da un certo macchinario ecc.
Definizione 2: Si dice spazio campionario di un esperimento casuale l'insieme  di
tutti i possibili risultati (punti campionari), esaustivi e mutualmente
escludentesi, dell'esperimento stesso.
Di seguito si riportano alcuni esempi di esperimento casuale e di spazio campionario
ad esso associato.
Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio
campionario è dato da
 = {T, C} = 1 ,  2 
dove T = 1 è il punto campionario testa e C =  2 è il punto campionario croce.
17
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
In questo esempio si è assunto che gli unici risultati possibili siano T e C, e che
quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che
anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento
casuale è
 = {T, C, B}= 1 , 2 , 3 
dove B è il punto campionario “moneta in equilibrio sul bordo”.
Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento
casuale sia un’operazione di finanziamento di una banca ad una impresa cliente, i cui
risultati possibili sono la restituzione o meno del finanziamento concesso da parte
dell’impresa. In tal caso, infatti, lo spazio campionario  è dato da
 = {R, NR}= 1 ,  2 
dove R è il punto campionario finanziamento restituito e NR il punto campionario
finanziamento non restituito.
Nel caso in cui l'esperimento consiste nel controllo dei pezzi prodotti da un certo
macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo
prodotto, lo spazio campionario  sarà composto dai soli due elementi (punti
campionari) 1 e 2 , dove 1 rappresenta il pezzo difettoso ed 2 il pezzo non
difettoso.
Quando l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio
campionario è dato da
 = {1, 2, …, 90}= 1 , 2 ,....., 90 
costituito, come è ovvio, da tutti i numeri interi da 1 a 90; da rilevare che, in realtà,
l’esito di questo esperimento casuale non è un numero ma una pallina contrassegnata da
un numero, cosi come quando si lancia un dado, l’esito della prova non è un numero ma
una faccia su cui sono riportati 1 o 2 ……..o 6 puntini.
Quando l'esperimento consiste nell'estrazione di una pallina da un'urna che ne
contiene n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio
campionario resta definito da
Ω  ω1 ,ω2 ,..., ωi ,...,ωn 
dove i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione
della pallina contrassegnata con il numero i.
Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito
internet oppure nel contare il numero di stelle presenti nell’universo, lo spazio
campionario è dato da
 = {0, 1, 2, …, ∞} = ω1 ,ω2 ,..., .
cioè, da tutti i numeri interi non negativi, dato che il numero di accessi o di stelle è un
numero intero e non è possibile stabilirne a priori il valore massimo che per
convenzione si pone uguale ad infinito.
18
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Infine, nel caso in cui l'esperimento casuale consiste nel test di durata di un
pneumatico, lo spazio campionario è costituito da
 = {0,∞}
cioè da numeri reali non negativi, dato che la durata è un numero che non può essere
negativo. Si segnala che anche in questo caso l’estremo superiore pari a ∞ sta ad
indicare che non è possibile stabilire la durata massima che, ovviamente, da un punto di
vista empirico non potrà essere infinita.
Negli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà
nell'individuazione e nella successiva enumerazione dei punti campionari che ne
costituiscono i possibili risultati. In esperimenti più complessi possono risultare di
notevole ausilio alcune formule combinatorie che facilitano notevolmente
l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario.
Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un
numero finito di punti (come nel caso del lancio della moneta, dei pezzi buoni/difettosi,
delle palline estratte da un’urna), oppure da un’infinità numerabile di punti (come nel
caso del numero di accessi ad un sito internet), o infine da un’infinità non numerabile
di punti (come nel caso del test di durata di un pneumatico).
Definizione 3: Se lo spazio campionario è costituito da un numero finito o da
un’infinità numerabile di punti campionari, si dice evento ogni
sottoinsieme E dello spazio campionario . Se lo spazio campionario
è costituito da un’infinità non numerabile di punti, non tutti i possibili
sottoinsiemi di  hanno la natura di eventi (si tratta di sottoinsiemi non
misurabili1); in questa sede verranno, comunque, considerati soltanto i
cosidetti sottoinsiemi misurabili di  . Si può pertanto definire come
evento qualunque sottoinsieme misurabile dello spazio campionario.
Se, ad esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che
ne contiene n, si può pensare di suddividere l'intero spazio campionario in due
sottoinsiemi (eventi) Ω1  E1 ed Ω2  E2 contenenti, rispettivamente, i punti
campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b)
presentarsi di una pallina contrassegnata con un numero pari.
1
In matematica un insieme non-misurabile è un insieme la cui struttura è talmente complicata da impedire la
possibilità di assegnare all’insieme stesso una misura significativa. Borel e Kolmogorov nelle loro formulazioni della
teoria della probabilità hanno ristretto la classe dei possibili sottoinsiemi dell’asse reale che derivano da un insieme
numerabile di operazioni di unione ed intersezione di intervalli aperti o chiusi dell’asse stesso, sottoinsiemi
usualmente definiti come insiemi di Borel o Borelliani. Il primo esempio di insieme non misurabile è attribuito al
matematico italiano Vitali (1905). Un esempio di insieme non misurabile è quello costituito dagli intervalli semiaperti
(a,b]=x
: a < x  b ed anche [a,b)=x
: a  x < b.
19
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Sia  i l’evento estrazione di pallina contrassegnata con il numero i , il sottoinsieme
E = (  :  i per i pari o dispari) = 1 , 2 ,...,i ,..., n  = 
coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si
realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o
contrassegnata con un numero dispari o contrassegnata con un numero pari.
Il sottoinsieme
E = (  : i per i pari e dispari) = 
è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da
un numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero
che è dispari e pari allo stesso tempo. L'evento così definito viene detto evento
impossibile (si tratta dell'evento che non si potrà mai realizzare) e denotato con il
simbolo  .
Gli eventi Ei  i  , per i = 1, 2,…, n, vengono detti eventi elementari in quanto
costituiti da un solo punto campionario.
Si consideri ora l’insieme B di tutti i possibili sottoinsiemi misurabili di , cioè
l’insieme degli eventi, su questo insieme si può introdurre un'algebra, cioè un insieme di
operazioni che soddisfano certe proprietà e che generano, come risultato delle
operazioni stesse, ancora degli eventi, cioè elementi che appartengono allo stesso
insieme B sui quali è stata introdotta l’algebra; si parla, in tal caso, di sistema chiuso
rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di
operazioni, si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il
sistema è chiuso rispetto ad un’infinità numerabile di operazioni, si parla di algebra di
Boole completa o, più semplicemente, di -algebra o -campo.
Definizione 4 - Si definisce come spazio degli eventi ed anche Algebra di Boole
completa costruita su  , (-algebra) l’insieme B di tutti i possibili
sottoinsiemi misurabili di  sul quale è stata introdotta un’algebra.
Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto
esposto in queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di
diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come
insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio
campionario  . Si ha così che l'evento certo  (coincidente con l'intero spazio
campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile
 rappresenta l'insieme vuoto.
20
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015

1.2 - Algebra degli eventi
Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione
(), quella di somma o unione (), quella di complementazione o negazione E e
quella di differenza (-); si tratta delle stesse operazioni che, oltre al concetto di
inclusione, verranno qui considerate in quanto costituenti parte essenziale dell'algebra
degli eventi.
Si dice che un evento E1 è incluso nell'evento E2, e si scrive E1  E2 se ogni punto
campionario appartenente ad E1 appartiene anche ad E2. Due eventi E1 ed E2 sono,
quindi, uguali se e solo se (sse) contemporaneamente
E1  E2 ed E1  E2.
Ovviamente, in questo caso i due eventi saranno costituiti dagli stessi punti
campionari.
Si definisce come negazione (complementazione nella teoria degli insiemi) di un
evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E
sarà pertanto, costituito da tutti i punti campionari di  che non appartengono ad E.
Nella figura sottostante vengono proposti graficamente (facendo ricorso ai
diagrammi di Venn) il concetto di evento incluso e di evento negato.

E1
E2
E2
Fig. 1.1 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta
l’intero spazio campionario  e E  E .
1
2
L'intersezione tra due eventi E1 ed E2 è l'evento E3 = E1  E2 che si realizza quando
si realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che
appartengono sia ad E1 sia ad E2. L'unione tra due eventi E1 ed E2 è l'evento E4 = E1 
E2 che resta definito da tutti i punti campionari che appartengono ad E1 o ad E2 o ad
entrambi gli eventi E1 ed E2 , si tratta , cioè, dell’evento che si realizza quando si
realizza almeno uno di due eventi E1 o E2 La differenza fra due eventi E1 ed E2 è
l'evento E5 = E2 – E1 che risulta costituito dai punti campionari che appartengono ad
E2 ma non a E1, si tratta, cioè, dell’evento che si realizza E2 ma non E1.
La rappresentazione grafica tramite i diagrammi di Venn delle tre operazioni
(intersezione, unione e diffrenza) è riportata nella figura sottostante
21
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015



E3
E1
E2
E1
E2
E4
E1
E2
E5
Fig. 1.2 - Diagrammi di Venn per l’intersezione, l’unione e la differenzadove il tratteggio
vuole evidenziare rispettivamente, l’evento E3 , nella prima figura, l’evento E4 nella seconda
figura e l’evento E5 nella terza figura.
Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni
base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori
operazioni di unione e di differenza non essendo queste ultime operazioni
concettualmente nuove; infatti:
E1  E2   E1  E2 
E2  E1   E1  E2 
La relazione E1  E2  E1  E2  e la relazione duale E1  E2  E1  E2  non sono
altro che la formulazione tramite la simbologia relativa alla teoria degli insiemi delle
leggi di de Morgan.
L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione,
sia formale sia operativa, che esse comportano.
Due eventi E1 e E2 si dicono incompatibili se la loro intersezione dà luogo all'evento
impossibile
E1  E2 = 
si tratta, quindi, di eventi che non hanno elementi (punti campionari) comuni.
A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo  sta ad
indicare che l’evento E1 è contenuto nell’evento E2 (E1 sottoinsieme proprio di E2) e il
simbolo rappresenta la relazione di implicazione (dalla prima relazione deriva
necessariamente - è implicata - la seconda relazione):
E1  E2 => E1  E2 = E1
E1  E2 => E1  E2 = E2
 =
 
 E
E  =
E=E
22
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
E  =E
E=
E E =
E E =
E1  (E1  E2)
E2  (E1  E2)
(E1  E2)  E1
(E1  E2)  E2
Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento
E1/E2 (e si legge l'evento E1 condizionato dall'evento E2 o, più semplicemente, l'evento
E1 dato E2 ) va interpretato presupponendo già verificato l'evento condizionante E2. Il
condizionamento degli eventi si risolve, praticamente, in una sorta di ridefinizione dello
spazio campionario che da  si trasforma nell'evento condizionante, o, in altre parole,
è l'evento condizionante che assume la natura di spazio campionario di riferimento.

E1
E2
Fig. 1.3 - Ridefinizione dello spazio per eventi condizionati
Se si considera l'evento condizionato E1/E2 non solo E2 si trasforma in  ma anche
l'evento E1 si trasforma nell'evento E1  E2, in quanto, sapendo che l'evento E2 si è
verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1 non
appartengono ad E2.
Le operazioni di unione e di intersezione possono, naturalmente, essere applicate
anche a k (>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato
l'evento E
E = E1  E2  ...  Ek 
k
Ei
i 1
che contiene tutti i punti campionari i (comuni ai k eventi E1,E2,….,Ek; mentre
l'unione tra gli stessi k eventi, se necessari, dà come risultato l'evento E=
E =  = E1  E2  ... Ek =
23
k

i 1
Ei
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
che contiene tutti i punti campionari  i che appartengono ad almeno uno degli eventi
Ei. Un caso particolare di eventi necessari E1,E2,….,Ek è rappresentato da una partizione
dello spazio campionario, cioè, quando i k eventi sono necessari (un evento si deve
necessariamente verificare) e incompatibili, cioè, quando  =
k

i 1
Ei e Ei  Ej=  per
i≠j.
Le operazioni di unione e di intersezione soddisfano la proprietà associativa:
E1  E2  E3 = (E1  E2)  E3 = E1  (E2  E3)
E1  E2  E3 = (E1  E2)  E3 = E1  (E2  E3)
e quella distributiva:
E1  (E2  E3) = (E1  E2)  (E1  E3)
E1  (E2  E3) = (E1  E2)  (E1  E3)
La proprietà distributiva, dell’intersezione rispetto all’unione e dell’unione rispetto
all’intersezione, per k eventi è espressa, rispettivamente, da
k
E  (E1  E2 ... Ek) = E  (  Ei) =
i 1
k
E  (E1  E2 ... Ek) = E  (  Ei ) =
i 1
k

i 1
k

i 1
(E  Ei)
(E  Ei)
1.3 - Probabilità
Definizione 5: Si dice probabilità di un evento la funzione a valori reali P(E), definita
sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio
campionario, che soddisfa specifiche proprietà.
I concetti (primitivi) prova o esperimento casuale, evento e probabilità sono collegati
fra loro dalla seguente frase: "l'esperimento genera l'evento (elementare) con una
certa probabilità"; dove, naturalmente, la probabilità va intesa come misura applicata
agli eventi quando viene condotto un esperimento casuale.
I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità.
Si tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli
studiosi dopo la sua formulazione da parte di Kolmogorov (1933)2. Si tratta infatti di
una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui
quali è più facile trovare l'accordo. Ma se da un lato il cosiddetto approccio assiomatico
alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di sviluppo
della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni operatività
2
Andrej Nikolaevič Kolmogorov - in russo: Андре́й Никола́евич Колмого́ро - (1933) Grundbegriffe der
Wahrscheinlichkeitsrechnung. Julius Springer, Berlin. Il testo è stato tradotto in inglese con il titolo Foundations of
the Theory of Probability (1956), 2a edizione. Chelsea Publishing Company, New York.
24
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
della definizione stessa in quanto non consente la derivazione numerica della misura di
probabilità nei singoli casi concreti. Quando si vuol far ricorso alla probabilità per
risolvere problemi reali si dovrà, quindi, fare necessariamente riferimento ad altre
definizioni nelle quali l'aspetto semantico viene privilegiato.
Prima di trattare della definizione assiomatica di probabilità conviene, pertanto,
introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in
questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o
statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche
della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre
le definizioni soddisfano ai postulati posti a base della definizione assiomatica di
probabilità.
Definizione classica (a priori) della probabilità
La probabilità P(E) di un evento E è data dal rapporto tra il numero n E dei casi
favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi
siano egualmente possibili
n
numero dei casi favorevoli
P( E )  E 
n
numero dei casi possibili
Esempio 1.1
L’azienda Lance Clothiers produce un’ampia varietà di abbigliamento maschile, tra cui
camicie. Una volta prodotte, le camicie vengono ripiegate e impacchettate singolarmente da 10
macchine e, una volta raccolto il risultato di ciascuna macchina in cartoni, vengono spedite ai
clienti. A seguito di un’ispezione di routine si scopre che una di queste 10 macchine non è
messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni camicia
sottoposta al processo di ripiegatura e impacchettamento. Prima dell’ ispezione, è stata inviata,
a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10 provenienti dal
macchinario difettoso. Qual è la probabilità che un cliente riceva il pacco contenente le
camicie difettose?
Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario
dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi
contengono le camicie difettose (nE), allora, per la definizione classica di probabilità:
P( E ) 
nE
10

 0,10 ,
n 100
dove con E si indica l’evento “pacco contenente camicie difettose”.
Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La
prima critica è di ordine logico e riguarda la circolarità della definizione: affermare che
tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili (non
si può definire un concetto utilizzando lo stesso concetto). Altre due critiche riguardano
l’operatività della definizione; una volta superato lo scoglio logico, non sono affatto rare
25
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
le situazioni reali nelle quali non è possibile procedere all’enumerazione dei casi
favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può effettuare una
tale enumerazione, non è infrequente la circostanza in cui i casi non sono tutti
ugualmente possibili.
Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far
ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è
stata introdotta una diversa definizione di probabilità.
Definizione frequentista o statistica (a posteriori) della probabilità
La probabilità di un evento ripetibile E è data dal rapporto tra il numero n E delle volte
in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse
condizioni) quando il numero delle prove stesse tende ad infinito
n
P(E) = lim E
n  n
La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta
di idealizzazione della frequenza relativa 3. Taluni autori ritengono, infatti, che
probabilità e frequenza relativa non siano altro che l'aspetto teorico e quello empirico di
uno stesso concetto ed interpretano la frequenza relativa di un evento come misura
approssimata (per n finito) della probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura quale
quella relativa al limite irraggiungibile (+) imposto al numero delle prove, ma ad una
tale critica si risponde accettando la frequenza relativa di un numero finito (ma
sufficientemente elevato) di prove come misura approssimata della probabilità. Molto
più problematica è la risposta alla critica relativa alla ripetibilità delle prove
(esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle
situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere
all’effettuazione di alcuna prova.
Esempio 1.2
La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo produce
un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità seleziona
casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente. Nell’ultima
ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati). Qual è la
probabilità che il processo produca un circuito difettoso?
La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola prova
di un esperimento, quindi 500 selezioni rappresentano 500 prove, cioè n = 500. Si indichi con E
l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la probabilità
che il processo produca un circuito difettoso, sulla base della definizione frequentista, è
approssimata dalla frequenza relativa di E nelle 500 prove:
3
Nel contesto della statistica descrittiva, si definisce frequenza relativa il rapporto tra il numero delle unità statistiche
caratterizzate da una specifica modalità del carattere in esame ed il numero totale delle unità statistiche osservate.
26
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
P( E ) 
Versione 2015
nE 15

 0, 03.
n 500
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla
definizione classica e alla definizione frequentista di probabilità è la definizione sotto
riportata.
Definizione soggettiva della probabilità
La probabilità P(E) di un evento E viene definita come il grado di fiducia che un
individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di
probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di
scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento
in questione si realizzi. Si deve sottolineare che questa affermazione vale solo nel caso
di individui con funzione di utilità lineare 4.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima
riguarda proprio la soggettività insita nella stessa definizione, la seconda è relativa alla
difficoltà di traduzione in un valore numerico significativo del grado di fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere
intesa in senso condizionato, cioè condizionatamente allo stato di informazione
dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi
attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui
si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano
l’esplicitazione del proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla
misura di probabilità si perviene attraverso l’attivazione di un processo relativamente
semplice, almeno sul piano concettuale, che è quello di porre l’individuo di fronte ad
una operazione di scommessa.
Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione
numerica della probabilità, non sono necessarie per lo sviluppo del calcolo delle
probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione si farà
riferimento negli sviluppi teorici che seguono. Alle tre definizioni non assiomatiche si
farà, di volta in volta, riferimento nelle esemplificazioni delle argomentazioni teoriche.
Definizione assiomatica di probabilità
Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il
concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità.
Assioma 1 - Gli eventi formano un’algebra di Boole completa
Assioma 2 - La misura di probabilità di un evento P(E) è unica
4
Sul concetto di funzione di utilità si avrà modo di soffermare l’attenzione nel Cap. 7.
27
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Assioma 3 - La misura della probabilità di un evento è sempre non negativa
P(E)  0
Assioma 4 - La probabilità dell’evento certo è uguale a 1
P( ) = 1
Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro
intersezione è l’evento impossibile, allora la probabilità della loro unione è uguale
alla somma delle probabilità dei singoli eventi (principio delle probabilità totali
per eventi incompatibili o principio ristretto delle probabilità totali)
P(E1  E2) = P(E1) + P(E2) per E1  E2 = 
Assioma 6 - La probabilità dell’evento condizionato E1/E2 è pari alla probabilità
dell’intersezione dei due eventi rapportata alla probabilità dell’evento
condizionante supposta maggiore di 0
P(E1  E 2 )
P(E1/E2) =
per P(E2) > 0
P(E 2 )
L’ultima relazione può essere riscritta (principio delle probabilità composte) come:
P(E1  E2) = P(E2) P(E1/E2) = PE2E1) = P(E1) P(E2/E1)
In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo
modifichi necessariamente la probabilità di realizzarsi di un altro evento E2, può
accadere cioè che
P(E1 / E2) = P(E1)
in tal caso si ha (principio delle probabilità composte per eventi indipendenti o
principio ristretto delle probabilità composte)
P(E1 E2) = P(E1) P(E2)
ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti
stocasticamente, o indipendenti in probabilità).
Il principio delle probabilità composte può riguardare anche un numero qualsiasi di
eventi E1, E2, E3,..., si avrà allora
P(E1  E2  E3 ...) = P(E1) P(E2/E1) P(E3/E1  E2) ...
k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o
probabilisticamente) mutualmente indipendenti se e solo se pr ogni sottoinsiemi di
eventi la probabilità dell’intersezione è uguale al prodotto delle probabilità
P(Ei  Ej) = P(Ei) P(Ej)
P(Ei Ej Eh) = P(Ei) P(Ej) P(Eh)
………………………………………..
P(E1 E2 Ek) = P(E1) P(E2)…….. P(Ek)
Pertanto tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni
P(E1  E2) = P(E1) P(E2)
P(E1 E3) = P(E1) P(E3)
P(E2 E3) = P(E2) P(E3)
P(E1 E2 E3) = P(E1) P(E2) P(E3)
28
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non
implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le
prime tre.
Esempio 1.3
L’esperimento casuale consiste nel lancio di due dadi regolari contrassegnati, ciascuno, da un
numero da 1 a 6 su ogni faccia.
Si definiscono quindi i 3 eventi di interesse:
E1= il risultato del lancio del I dado è pari
E2= il risultato del lancio del II dado è dispari
E3= la somma dei risultati del lancio dei due dadi è pari.
Di seguito si riportano le probabilità ottenute:
Gli eventi E1 ed E2 sono indipendenti, infatti
P(E1  E2) = 9/36 =1/4
P(E1) P(E2) =1/2 * 1/2 =1/4
Gli eventi E1 ed E3 sono indipendenti, infatti
P(E1  E3) = 9/36=1/4
P( E1 )  P( E3 )  1/ 2 1/ 2  1/ 4
Gli eventi E2 ed E3 sono indipendenti, infatti
P(E2  E3) = 9/36=1/4
P( E2 )  P( E3 )  1/ 2 1/ 2  1/ 4
I tre eventi E1 , E2 ed E3 non sono peò indipendenti; infatti, se si realizzano l’evento E1 , E2,
l’evento E3 non si può realizzare (è impossibile)
P( E1  E2  E3 )  P(  ) = 0.
Si definiscono ora i 3 eventi di interesse:
E1= il risultato del lancio del I dado è 1 o 2 o 3
E2= il risultato del lancio del I dado è 3 o 4 o 5
E3= la somma dei risultati del lancio dei due dadi è 9.
Da cui
E1  E2   3,1 ,  3, 2  ,  3,3 ,  3, 4  ,  3,5  ,  3, 6  
E1  E3   3, 6  
E2  E3   3, 6  ,  4,5  ,  5, 4  
E1  E2  E3   3, 6  
Le probabilità sono
29
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
1
1
, P  E3  
2
9
1 1
P  E1  E2     P  E1  P  E2 
6 4
1
1
P  E1  E3  
  P  E1  P  E3 
36 18
1
1
P  E2  E3     P  E2  P  E3 
12 18
1
P  E1  E2  E3  
 P  E1  P  E2  P  E3  .
36
P  E1   P  E2  
Pertanto l’indipendenza tripla tra eventi non implica l’indipendenza tra coppie di eventi.
Avendo definito la probabilità come funzione da applicare agli eventi dove, come
precisato, l'evento è un qualunque sottoinsieme dello spazio campionario , cioè un
elemento dell’insieme B (Algebra di Boole completa costruita su  ), risulta facile
dimostrare le relazioni (teoremi) seguenti:
P( E )  1  P(E)


P(E)  1
P(  ) = 0
 E1  E2 => P(E1) < P(E2)
 P(E1  E2) = P(E1) + P(E2) - P(E1  E2)
L'ultima relazione, detta anche (impropriamente perché non è una affermazione ma
deriva da un teorema) principio delle probabilità totali, per k eventi diventa
k
 k

k 1
P  Ei   Σ PEi   Σ i Σ j PEi  E j   Σ i Σ j Σ h PEi  E j  Eh      1  Ei
i 1
 i 1 
e si riduce al postulato delle probabilità totali (Assioma 5)
k
 k

P  Ei  =  P(E i )
 i 1  i 1
quando i k eventi Ei sono tra loro incompatibili.
La probabilità per eventi condizionati o, più semplicemente, la probabilità
condizionata P(E1/E2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati
formano un’algebra di Boole, inoltre
P(E1/E)  0
P(E/E) = 1
P(E1  E2  .../E) = P(E1/E) + P(E2/E) +....
se gli eventi E1, E2,... sono incompatibili.
Inoltre
E1  E2 => P(E1/E)  P(E2/E)
30
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
P( E1 /E) = 1 - P(E1/E)
P(E1  E2/E) = P(E1/E) + P(E2/E) - P(E1  E2/E)
Il principio delle probabilità composte può riguardare anche un numero qualsiasi
di eventi E1, E2, E3,..., si avrà
P(E1  E2  E3 ...) = P(E1) P(E2/E1) P(E3/E1  E2) ...
Esempio 1.4
La società IMA produce componenti meccaniche per un cliente. Siccome i limiti di tolleranza
specificati dal cliente sono piuttosto severi, la produzione di queste componenti è stata affidata
a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte sono
ispezionate e classificate come “buone” (G - good) o “difettose” (D).
La seguente tabella riporta i dati relativi alla produzione di un giorno di lavoro:
Macchinista
Condizioni
G
D
Totale
A
80
20
100
B
88
12
100
Totale
168
32
200
Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al
macchinista preposto al processo produttivo.
Si determinano le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal macchinista
A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G), dove G è l’evento
“parte prodotta secondo le specifiche di tolleranza del cliente”; P(D), dove D è l’evento “parte
difettosa”.
P( A)  100 / 200  0,50
P(B)  100 / 200  0,50
P(G)  168 / 200  0,84
P(D)  32 / 200  0,16
Le probabilità congiunte dei vari eventi sono:
P( A  G )  80 / 200  0,40
P( A  D)  20 / 200  0,10
P( B  G )  88 / 200  0,44
P( B  D)  12 / 200  0,06
Le probabilità condizionate dei vari eventi sono:
P A  G  0,40

 0,80
P( A)
0,50
P A  D  0,10
P A D  

 0,625
P( D )
0,16
PG A 
31
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
P A  D  0,10

 0,20
P( A)
0,50
PB  G  0,44
PB G  

 0,524
P(G )
0,84
PD A 
PB  G  0,44

 0,88
P( B )
0,50
PD  G  0,00
PG D  

 0,00
P ( D)
0,16
PG B  
Infine, si vuol capire se la condizione (buona / difettosa) di una parte prodotta è indipendente
dal macchinista che la produce.
Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è
stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la
relazione che sussiste tra P(G  A) e P(G)  P( A) .
Dai precedenti calcoli risulta
P(G  A)  80 / 200  0,40
P(G )  168 / 200  0,84
P( A)  100 / 200  0,50
P(G )  P( A)  0,84  0,50  0,42
Siccome P(G  A)  P(G)  P( A)  A e G non sono statisticamente indipendenti, quindi il
macchinista preposto al processo di produzione influenza la condizione buona o difettosa della
parte prodotta.
Alla stessa conclusione si perviene considerando le relazioni tra P( A G) e P( A) , dal momento
che
P(A G )  80 / 168  0,48 e
P( A)  100 / 200  0,50
 P( A G )  P( A)
Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le seguenti
ulteriori relazioni:
P( A D)  P( A)
P( B G )  P( B)
P( D B)  P( B)
che confermano la dipendenza statistica tra operatore preposto al processo produttivo e
risultato dello stesso.
Esempio 1.5
L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto con
uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al 1° luglio sussiste una certa
incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto,
32
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio,
come può essere stimata l’incertezza in questa situazione?
Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B
l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda
stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le
materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine
del mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si
ottiene
P( A  B)  P( A B) P( B)  3 / 4  2 / 3  0,50
Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in tempo e
riesca a consegnare il materiale al cliente per la fine di luglio.
Può essere interessante procedere al calcolo di ulteriori probabilità. Se si indica con B
l’evento che le materie prime non arrivino in tempo si ha P( B ) = 1-2/3 =1/3. Se si ritiene che
la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato
entro il 15 le materie prime necessarie, sia P(A/ B ) = 1/5, applicando di nuovo il principio
delle probabilità composte, si ottiene
P( A  B)  P( A B) P( B)  1 / 5  1 / 3  0,0667
cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati
per la scadenza contrattuale è pari al 6,67%.
A questo punto, al management dell’azienda può essere utile conoscere la probabilità di
terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano
consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica
l’uno o si verifica l’altro), allora per il principio delle probabilità totali per eventi
incompatibili, si ha
P(A)  P(A  B)  P(A  B)  0,50  0,0667  0,5667
Quindi, la probabilità che la società Sigma riesca a rispettare i termini di esecuzione del
contratto è pari al 56,67%.
1.4 - Formula di Bayes
La formula di Bayes rappresenta un elemento teorico fondamentale nello sviluppo
dell’Inferenza statistica e della Teoria statistica delle decisioni. Esso consente, infatti,
al soggetto decisore di revisionare le informazioni a priori (aggiornamento della
conoscenza) che lo stesso possiede sul fenomeno oggetto di studio attraverso le ulteriori
informazioni acquisite tramite esperimenti campionari, in modo da ottenere
informazioni (a posteriori) più affidabili e, quindi, più utili a fini decisionali.
Si consideri una partizione dello spazio campionario  in k eventi E1, E2, ... , Ei, ... ,
Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni
Ei  Ej =  per i  j = 1, 2, ...,k
e
33
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
k
E
i
= .
i 1
Se E è un evento appartenente ad  si ha
k
k

E = E   = E  (  Ei ) =
i 1
(E  Ei)
i1
e, per l'incompatibilità degli eventi Ei, anche
k
P(E) = P [  (E  Ei)] =
i 1
k

P(E  Ei).
i 1
Inoltre, valendo le relazioni
P(E  Ej ) = P(Ej )P(E/ Ej ) = P(Ej E) = P(E) P(Ej /E)
si avrà
P(Ej /E) =
P(E j ) P(E / E j )
P(E)

P( E j ) P( E / E j )
k
 P( E ) P( E / E )
i 1
i
i
che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi
Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto,
P(E j /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej ) rappresenta la
probabilità a priori della stessa causa e P(E/Ej ) è detta probabilità probativa
(verosimiglianza, nell’ambito dell’inferenza statistica, come si avrà modo di precisare
in seguito) dell'evento E.

E1
E3
E
E4
E
E2
E5
Fig. 1.4 - Partizione dello spazio campionario  in cinque eventi E1, E2, E3, E4 ed E5
La formula di Bayes esprime in maniera molto semplice il processo di
apprendimento dall'esperienza in contesti non deterministici.
Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini
di probabilità (a priori) P(E j), queste probabilità si trasformano, al verificarsi dell'evento
E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(E j /E). Le
probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una
volta che sono state acquisite ulteriori informazioni relative ad una realizzazione di un
esperimento casuale.
34
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.6
Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il
40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto
ad errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati,
in occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende
al 50% per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di
qualità sia stato trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato
causato da un errore meccanico?
Se si assume che:
P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore
meccanico;
P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore
umano;
P(D/Em) = 0,90 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di
una parte difettosa causata da errore meccanico;
P(D/Eu) = 0,50 è la probabilità di riscontrare, a seguito di una ispezione, la presenza di
una parte difettosa causata da errore umano;
P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata
da errore meccanico.
Applicando la formula di Bayes si ha:
P  Em / D  

P  Em  D 
P  Em  P  D / E m 


P  D
P  E m  P  D / E m   P  Eu  P  D / E u 
0, 40  0,90
 0,55
0, 40  0,90  0,60  0,50
Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al
55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è
pari al 45% (=1- 0,55).
La seguente tabella mostra le fasi dell’applicazione della formula di Bayes:
Causa
Ei
Meccanica m
Umana u
Totale
Prob. a priori
P(Ei)
Prob. Condiz.
P(D/Ei)
Prob. congiunte
P(Ei) (D/Ei)
Prob.a posteriori
P(Ei/D)
0,40
0,60
1,00
0,90
0,50
0,36
0,30
0,66
0,55
0,45
1,00
35
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.7
Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3, A4,
ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può
ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose
che lo stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti
difettose prodotte da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata
acquistata un anno fa; 5% per A3 che è stata acquistata due anni fa; 10% per A4 che è
operativa già da tre anni. Al termine del quarto anno di attività ogni macchinario viene
rimpiazzato con uno nuovo. Per effettuare un controllo aggiuntivo, il responsabile della
produzione seleziona casualmente un pezzo già pronto per la spedizione al cliente. Tale pezzo
risulta difettoso: qual è la probabilità che il pezzo estratto casualmente sia stato prodotto dalla
macchina A2, dato che risulta essere difettoso?
Si ponga:
P(D) = probabilità che sia osservata una parte difettosa
P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo
P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa,
dato che è stata prodotta dal macchinario i-esimo.
In base ai dati del problema risulta:
P(D/A1) = 0,00
P(D/A2) = 0,01
P(D/A3) = 0,05
P(D/A4) = 0,10
Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la probabilità
a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al 25%,
cioè:
P(A1) = P(A2) = P(A3) = P(A4) = 0,25
quindi,
P( D)  P( A1 ) P( D A1 )  P( A2 ) P  D A2   P  A3  P  D A3   P  A4  P  D A4  
 0, 25  0,00  0, 25  0,01  0, 25  0,05  0, 25  0,10  0,040
A questo punto si può applicare la formula di Bayes per determinare la probabilità a posteriori
che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso:
P  A2 D  
P  A2  P  D A2 
P  D

0,25  0,01
 0,0625  6,25%
0,04
La seguente tabella mostra il dettaglio dei passaggi svolti:
Causa
Ai
A1
A2
A3
A4
Totali
Prob.a priori
P(Ai)
0,25
0,25
0,25
0,25
1,00
Prob.condizionate
P(D/Ai)
0,00
0,01
0,05
0,10
Prob.congiunte
P(Ai) P(D/Ai)
0,0000
0,0025
0,0125
0,0250
0,0400*
Prob.a posteriori
P(Ai/D)
0,0000
0,0625
0,3125
0,6250
1,0000
* Probabilità marginale: P(D) = 0,04 = probabilità che sia osservata una parte difettosa
36
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a
posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato
campionario) sul risultato del problema. Le differenze registrate sono decisamente rilevanti:
dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la
probabilità che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal
25% al 62,5%, mentre la probabilità che una parte difettosa provenga dalla macchina A 1
scende dal 25% allo 0%. Fatto questo del tutto ragionevole se si tiene conto della circostanza
che il numero di difetti dipende dall’età del macchinario.
Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e
dopo aver precisato che la tripletta (, B, P(.)) [dove:  è lo spazio campionario (cioè
l’insieme di tutti i punti campionari 1 ,  2 ,... possibili risultati di un esperimento
casuale), B è l’algebra di Boole completa costruita su  e P(.) è una funzione definita su
B che gode di particolari proprietà], viene detta spazio di probabilità o spazio
probabilistico, si può procedere all'introduzione di due ulteriori concetti che possono
essere ritenuti fondamentali nello sviluppo sia del calcolo delle probabilità sia della
statistica. Il primo concetto è quello di "variabile casuale" o "variabile aleatoria" o
"variabile stocastica" o "numero aleatorio", il secondo è quello di "funzione di
distribuzione" o "funzione di ripartizione" o "funzione delle probabilità cumulate".
1.5 - Variabili casuali semplici
Definizione 6 - Si dice variabile casuale, una funzione X (.) a valori reali definita sullo
spazio campionario  ; cioè ogni funzione che, soddisfacendo ad
opportune condizioni (tali da preservare la struttura di B), associa ad
ogni punto dello spazio campionario un numero reale.
In termini più rigorosi, la funzione univoca X(  ) definita su  è una variabile
casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la
relazione
A = ω  Ω : X(ω)  x  B
cioè se l’insieme A, costituito da tutti gli eventi elementari  per i quali il valore
assunto dalla funzione X(  ) è minore od uguale ad un numero reale qualsiasi x, è un
elemento di B, cioè un evento appartenente all’algebra.
Le variabili casuali si distinguono in:
 discrete, se il codominio della funzione è costituito da un numero finito o
da un'infinità numerabile di numeri reali;
 continue, se il codominio della funzione è costituito da un insieme
continuo (e quindi non numerabile) di numeri reali.
37
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Definizione 7 - Si dice funzione di distribuzione della variabile casuale X, la funzione
F(x) definita dalla relazione
F(x) = P (X  x)
dove: x rappresenta un numero reale qualunque; P (X  x) misura la
probabilità con cui la variabile casuale X può assumere un valore
inferiore od uguale al numero reale x.
Da sottolineare che la funzione di distribuzione non rappresenta altro che la
probabilità dell’evento A definito in precedenza; infatti:
P(A) = P   : X ()  x  PX ()  x  P( X  x) .
Se con x1, x2,...,xk, si indicano le possibili determinazioni distinte, ordinate in modo
crescente, di una certa variabile casuale discreta X e con p1, p2,...,pk, le probabilità
rispettive, si avrà
F(xi) = P(X  xi) =
i

i
P(X = xj) =
j 1

j 1
pj
pj  P  X  xj  .
dove
La funzione f(xi ) che deriva dalla relazione f(xi ) = F(xi ) - F(xi-1 ) viene detta
funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità
variabile X ha di assumere la specifica determinazione xi ; infatti
f (xi ) = F(xi ) - F(xi-1 ) = P (X  xi ) - P (X  xi-1 ) = P(X = xi )
per i = 1, 2, ... , k .
Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente
continua (si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia
soddisfatta), esisterà la derivata
d F ( x)
f  x 
.
dx
Si ricorda in proposito che le funzioni assolutamente continue sono funzioni
uniformemente continue e derivabili quasi ovunque, cioè, derivabili in tutti i punti a
meno di un insieme di punti con misura nulla.
La funzione f(x) così definita viene detta funzione di densità di probabilità o più
semplicemente funzione di densità. Si avrà quindi che

x

f(y) dy = F(x);
inoltre
f(x) dx = dF(x)= P  x  X  x  dx 
rappresenta la probabilità con cui una variabile casuale continua X assume valori
all'interno dell'intervallino infinitesimo (x , x+dx). Per le v.c. continue la probabilità in
un punto è sempre pari a zero.
38
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti
(corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di
probabilità, nel continuo, che identificano completamente le variabili casuali cui si
riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri
caratteristici. Per evidenziare tale fatto, si usa la notazione
F  x;1 ,2 , ... ,r   F  x;  , f  x;1 ,2 , ... ,r   f  x ; 
dove   1 ,2 , ... ,r  è il vettore dei parametri caratteristici della funzione che, come
si avrà modo di chiarire successivamente, viene anche detto modello probabilistico.
Si richiama l’attenzione sulla punteggiatura introdotta per separare gli elementi che
definiscono l’argomento della funzione: il punto e virgola separa la componente x,
entità variabile, dalle altre componenti (parametri) che sono separate da una virgola e
che, come si avrà modo di precisare in seguito, nel contesto dell’inferenza statistica
classica sono entità costanti usualmente incognite. Il valore assunto da queste ultime
entità individua il modello probabilistico specifico relativo alla famiglia definita dalla
funzione F  x;  o f  x;  .
Ripercorrendo il processo che ha portato alla definizione della funzione di
distribuzione, della funzione di massa e di densità di probabilità, risulta immediata
l’individuazione delle proprietà che tali funzioni soddisfano.
Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1,
x2,..., xi, ... , xk, (dove: xi< xi+1 e k può anche tendere al valore +), e che la variabile
casuale continua X risulti definita nell’intervallo dell’asse reale (a,b), dove: a < b, a
può tendere al valore - e b tendere al valore +, allora la funzione di distribuzione
F(x):
1.
assume valori nell’intervallo unitario
0  F(x)  1
2.
il limite sinistro assume valore zero
lim F(x) = 0
x
3.
il limite destro assume valore uno
lim F(x) = 1
x
4.
è monotona non decrescente
5.
è continua a destra nel caso discreto (i punti di discontinuità si collocano
in corrispondenza dei valori x1, x2,..., xk assunti dalla variabile) ed è assolutamente
continua (uniformemente continua e derivabile quasi ovunque) nel caso continuo.
La funzione di massa di probabilità f  xi  , essendo una probabilità gode delle
proprietà già considerate relativamente a tale entità, inoltre
k
 f(x )  1 .
i 1
i
La funzione di densità f(x) soddisfa le condizioni
39
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
f(x)  0

b
a
f ( x) dx  1
Da quanto è stato detto deriva che una variabile casuale è completamente individuata
dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa
rappresenta una formalizzazione astratta (modello) dell'insieme delle possibili
manifestazioni di un certo fenomeno avente natura aleatoria.
1.6 - Valore atteso di funzioni di variabili casuali semplici
Per particolari esigenze scientifiche ed operative si può essere interessati
all’effettuazione di una rappresentazione sintetica delle manifestazioni di un certo
fenomeno mediante indici caratteristici. Può, cioè, risultare conveniente, o sufficiente,
descrivere una variabile casuale con degli indici caratteristici, anziché procedere ad una
sua rappresentazione completa mediante la funzione di distribuzione o la funzione di
massa o di densità di probabilità. Successivamente si avrà modo di verificare la stretta
relazione esistente tra parametri caratteristici e indici caratteristici di una distribuzione.
Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al
calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile
casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla
definizione di una nuova variabile casuale Y, cioè, se X è una v.c., anche Y =g(X) è una
variabile casuale, che può essere sia discreta che continua, la cui funzione di massa di
probabilità f  yi  o di densità (di probabilità) f  y  si ottiene attraverso appropriate
trasformazioni della funzione di massa o di densità della v.c. X.
Definizione 8: Si definisce valore atteso di una trasformazione Y  g  X  - dove Y è
una variabile casuale - di una variabile casuale X , con funzione di
distribuzione F(x) , la quantità che risulta dalla relazione
k
E Y   E  g  X     g  xi  f  xi 
nel discreto
i 1
E Y   E  g  X     g  x  f  x  dx
nel continuo5
5
Se si ricorre al così detto integrale di Lebesgue-Stieltjes non occorre distinguere il caso discreto dal caso continuo,
basterà scrivere
 k
  g  xi  f ( xi )
E  g ( X )   g  x  d F  x    i 1
LS
 b g  x  f ( x) dx
 a
nel discreto
nel continuo
Il lettore interessato ad un approfondimento dell’argomento può consultare, tra gli altri, Royden (1963).
40
dove f xi  è la funzione di massa di probabilità della variabile casuale discreta X che
assume il valore xi con probabilità f xi  , per i = 1, 2, ..., k ; mentre f x  è la funzione
di densità di probabilità della variabile casuale continua X , definita in un intervallo
dell’asse reale  a, b , anche - ∞,+ ∞  .
Si può osservare come l’operatore valore atteso non richieda la derivazione della
funzione di densità o di massa di probabilità della variabile casuale trasformata
Y = g(X)
e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione f(xi)
nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni g1 (X) e g2(X)
ancora variabili casuali
E a g1 ( X )  b g2 ( X )  a E  g1 ( X )  b E  g2 ( X )
come si può verificare facilmente osservando le relazioni sotto riportate
k
E  a g1 ( X )  b g2 ( X )  a g1 ( xi )  b g 2 ( xi )  f ( xi ) 
i 1
k
k
i 1
i 1
 a g1 ( xi ) f ( xi )  b g 2 ( xi ) f ( xi )  a Eg1 ( X )  b Eg 2 ( X )
nel discreto e
b
E  a g1 ( X )  b g 2 ( X )    a g1 ( x)  b g 2 ( x)  f ( x) dx 
a
 a  g1 ( x) f ( x) dx  b  g 2 ( x) f ( x) dx  a E  g1 ( X )  b E  g 2 ( X )
b
b
a
a
nel continuo.
41
42
Momenti rispetto all’origine
Ponendo
g(X) = Xr per r = 0, 1, 2 , ...
si ha
 k r
nel discreto
  xi f ( xi )
r  E  g ( X )  E ( X r )   i 1
 b x r f ( x)dx
nel continuo
 a
che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto
all’origine. Da rilevare che il momento di ordine 0
 k
  f ( xi )  1 nel discreto
0  E ( X 0 )   i 1
 b f ( x) dx  1 nel continuo
 a
è assolutamente non significativo risultando sempre uguale ad uno per qualunque
variabile casuale.
Particolare rilevanza assume il momento di ordine uno.
 k
  xi f ( xi )
  1  Eg ( X )  E ( X )   i 1
b
 x f ( x) dx

a
che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico
(indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella
variabile casuale. Altri momenti di un certo rilievo sono il momento secondo  2 , il
momento terzo  3 ed il momento quarto  4 che evidenziano, come si avrà modo di
sottolineare, la loro rilevanza in contesti diversi di sintesi delle variabili casuali.
43
Momenti rispetto alla media o momenti centrali
Ponendo
g(X) = ( X   ) r , per r = 0, 1, ...
dove   1  E ( X ) è il momento primo rispetto all’origine (media aritmetica) della
variabile casuale X , si avrà
 k
( xi   )r f ( xi )
nel discreto


r  E  g ( X )  E ( X   ) r    i 1
 b ( x   ) r f ( x) dx
nel continuo
 a
che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media
(aritmetica).
Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento
centrale di ordine uno; infatti
1  E  g ( X )  E ( X   )  E ( X )  E ( )      0
per qualunque variabile casuale.
La trasformazione g(X) = ( X   ) rappresenta una traslazione dell’origine nel punto
medio. La variabile casuale trasformata g(X) = ( X   ) si indica usualmente con il
simbolo S x  ( X   ) e viene detta variabile casuale scarto. Qualunque variabile
casuale scarto ha, pertanto, il momento primo sempre uguale a zero; cioè la media
aritmetica di una qualunque variabile casuale scarto è uguale a zero.
Il momento centrale di ordine due
2  E  g ( X )  E ( X   )2  
 E( X 2   2  2X )  E( X 2 )  E( 2 )  2E( X ) 
  2   2  2 2   2   2   2
viene denominato varianza ed assume una rilevanza tutta particolare in quanto è
l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da
sottolineare che il momento centrale di ordine due  2 , cioè la varianza  2 , è uguale al
44
momento secondo rispetto all’origine ( 2 ) meno il quadrato del momento primo
rispetto all’origine (  2 )
 2  2  2  12
Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati per
sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile
casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e
sulla varianza di particolari trasformazioni di variabili casuali.
Ad esempio, in molti contesti di ricerca, è necessario procedere ad una
trasformazione lineare (trasformazione affine) della variabile X
Y=a+bX
Tale trasformazione rappresenta un cambiamento del sistema di riferimento che si
risolve nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è
espressa la variabile.
Se con  x e  x2 si indicano rispettivamente la media e la varianza della variabile
casuale X, la media e la varianza della variabile casuale trasformata Y risultano dalle
relazioni
 y  E(Y )  E (a  bX )  a  b x
 y2  E (Y   y ) 2   E (a  bX  a  b x ) 2  




 E (bX  b x ) 2  b 2 E ( X   x ) 2  b 2 x2
cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla
trasformazione lineare della media della variabile casuale originaria e la varianza di una
trasformazione lineare di una variabile casuale è pari alla varianza della variabile
casuale originaria moltiplicata per il quadrato del coefficiente della
trasformazione.
Momenti standardizzati
Ponendo
 X  
gX  
 , per r = 0, 1, ...
  
dove:  è il momento primo (media aritmetica) della variabile casuale X e  la radice
r
quadrata positiva della sua varianza  2 , si ha
 k  xi   r
f ( xi )
 
 X    r   
 
i 1 
 r  E  g ( X )   E 
 


   b  x   r

 a    f ( x)dx

 
nel discreto
per r = 1, 2,
nel continuo
che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r
La trasformazione (lineare), standardizzazione
45
Zx 
X 


 1
 X
 
è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio,
si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di
variabilità  che prende il nome di scostamento quadratico medio.
Oltre ai momenti standardizzati di ordine zero  0  1 e di ordine uno  1  0 
anche il momento standardizzato di ordine due è del tutto irrilevante; infatti
 X    2  1
1
2
2
   2 E  X      2    1

    
cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a
uno.
Particolare rilevanza assumono, invece, il momento terzo standardizzato
 2  E 
3
 X   3  E  X     3
3  E  
 3  1
 
3

   
che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento
quarto standardizzato
4
 X   4  E  X     4
 4  E 
 4  2
 
4

   
che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà
analizzata nelle pagine successive) della distribuzione.
Sui due indici di simmetria ( 1 ) e di curtosi ( 2 ) si avrà modo di tornare
successivamente, dopo aver parlato della variabile casuale normale, mentre risulta
conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti
di tipicità delle variabili casuali: la moda e la mediana.
Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si
definisce come moda ( M o ) di una distribuzione il valore della modalità cui corrisponde
la probabilità (nel caso discreto) o la densità di probabilità (nel caso continuo) più
elevata.
Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo
che può essere esteso anche a situazioni in cui si considerano non solo il massimo
assoluto (della probabilità o della densità di probabilità) ma anche i massimi relativi
(massimi locali).
Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili
casuali è la mediana. Si definisce come mediana ( M e ) di una variabile casuale
continua il valore centrale della distribuzione stessa; cioè il valore della modalità
rispetto al quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di
valori superiori.
46
Si può aver interesse al calcolo di altri valori (segnaletici) particolari. Se la variabile
casuale è continua si considerano il valore che è preceduto dal 25% dei casi e seguito
dal 75% dei casi (Q1 ) e quello preceduto dal 75% dei casi e seguito dal 25% dei casi
(Q3 ) . I valori Q1 e Q3 vengono detti, rispettivamente, primo e terzo quartile;
ovviamente il secondo quartile Q2 è uguale alla Mediana. In generale il p-esimo
quantile, con 0 p1, è il valore, usualmente indicato con Qx(p), che soddisfa la
relazione P X  Qx(p)  = p.
Per le variabili casuali continue è sempre possibile operare la suddivisione con una
proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra
di Qx(p), mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per
le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere
diversa da zero, pertanto la proporzione di valori a sinistra di Qx(p) può essere  p e la
proporzione di valori a destra di Qx(p) può essere  (1-p). Può accadere, cioè, che non
esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente
individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della
funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ).
Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p
valga per un intervallo di valori di x, in questo caso il quantile si ottiene calcolando la
semisomma degli estremi dell’intervallo.
Momenti fattoriali
Ponendo
g  X   X  X  1 X  2     X  r  1 , per r = 0, 1, ...
si ottengono i momenti fattoriali di ordine r:
 r   Eg ( X )  EX ( X  1) X - 2     X  r  1 .
Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto
riportate; relazioni che consentono di derivare i momenti rispetto all’origine (in qualche
caso di difficile computo) dai momenti fattoriali.
 1  1
  2    2  1
 3    3  3  2  2 1

Funzione Generatrice dei Momenti
Ponendo
g  X   et X
47
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
dove e è la costante di Nepero, e la trasformazione è definita per ogni valore di t
compreso nell’intervallo – h < t < h con h > 0, si ha
mx (t )  E  et X    et xi f ( xi ) , se X è una v.c. discreta;
k
i 1
mx ( t )  E  e t X  

e
tx
f ( x )dx , se X è una v.c. continua.

che viene detta funzione generatrice dei momenti rispetto all’origine (trasformata di
Laplace) della v.c. X.
La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra
questa una delle più rilevanti è quella di consentire il computo immediato dei momenti
rispetto all’origine; infatti, se si sviluppa in serie e t X
e
tX
X 2t 2 X 3t 3
 1 X t 

 
2!
3!
si ha:
1
1
1
1


mx (t )  E  et X   E 1  X t  ( X t )2  ( X t )3  ....  1  1t  2t 2  3t 3  ....
2!
3!
2!
3!


da cui
dr
m x t  t 0 per r = 1,2,….
dt r
Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel
punto t = 0 si ottiene il momento r-esimo rispetto all’origine.
Ragionando in modo analogo, si possono definire la funzione generatrice dei
momenti centrali e la funzione generatrice dei momenti standardizzati.
La proprietà più rilevante della funzione generatrice dei momenti (quando esiste) è
l’univocità, il che comporta l’identificazione univoca della v.c. di riferimento; esiste
cioè una corrispondenza biunivoca tra la funzione generatrice dei momenti e la funzione
di distribuzione e, quindi, tra funzione generatrice dei momenti e funzione di massa o di
densità di probabilità.
Una ulteriore importante proprietà della funzione generatrice dei momenti è quella
della conservazione del limite. Sia X1, X2,…, Xn una successione di v.c. con funzione di
distribuzione F(xn) e funzione generatrice dei momenti m xn t  ; allora, se
r 
lim F xn   F x *
n
si dimostra che
lim mxn  t   mx*  t 
n 
Inoltre se m x t  è la funzione generatrice dei momenti della v.c. X, allora ea mx  bt  è
la funzione generatrice dei momenti della v.c. Y = a + b X .
48
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.11
Sia X una variabile casuale continua definita nell’intervallo ( 0,+ ) con funzione di densità di
probabilità f ( x)   e  x ( v.c. esponenziale negativa) si ha:


m(t )  E (e tX )   etx  e  x dx 
 t
0
per t < 
I momenti rispetto all’origine sono dati da:
m' ( t ) 
m' ' ( t ) 
1
dm(t )

, quindi m' (0)  E ( X ) 

2

dt
  t 
2
dm' (t )
2
, quindi m' ' (0)  E ( X ) 2  2

3

dt
  t 
Mentre il secondo momento centrale (varianza) è data da
 2   2  12 
2

2

1

2

1
2
Funzione Generatrice dei Momenti Fattoriali
Ponendo
g  X   t X , dove t assume valori in un intorno di 1
si ha
m x  (t )  E  t X    t xi  f ( xi ) , se X è una v.c. discreta;
k
i 1
 

m x  (t )  E t X   t x  f ( x)dx , se X è una v.c. continua.

che viene detta funzione generatrice dei momenti fattoriali della v.c. X.
La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il
momento fattoriale di ordine r .
 r  
dr
m x  t  / t 1  EX X - 1X - 2       X  r  1 , per r = 0, 1, ...
dt r
.
Funzione Caratteristica
Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la
precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere, sia per v.c.
discrete che possono assumere una infinità numerabile di valori diversi, sia per v.c.
continue non essendo convergente la somma di infiniti termini o l’integrale.
Se si pone
g  X   ei t X
49
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
per ogni valore di t compreso nell’intervallo –h < t < h con h > 0 e i   1 è l’unità
immaginaria, la funzione sotto definita esiste sempre

mx (i t )  E  ei t X    ei t x f  xi  nel caso discreto
i 1
mx (i t )  E  ei t X  

e
itx
f  x  dx nel caso continuo

infatti, se si considera, ad esempio il caso continuo si ha
mx (i t)  E  ei t X   E  cos t X  i sen t X  

e
itx
f  x  dx 





-
 cos t x f  x  dx  i  sen t x f  x  dx
essendo cos t x e i sen t x
assolutamente limitate, l’integrale sopra scritto è
assolutamente convergente (si può quindi calcolare) per qualunque valore di t
compreso tra   e   .
La funzione sopra introdotta viene detta funzione caratteristica (trasformata di
Fourier) della v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti
ma, rispetto a quest’ultima funzione, ha l’ulteriore proprietà di esistere sempre.
1.7 - Variabili casuali discrete
Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati
particolarmente utili in vari campi della ricerca applicata. Tra questi, ne vengono
presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo di
distribuzione ad essi associata.
1.7.1 Distribuzione binomiale
La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui
un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale.
Essa può, quindi, essere considerata un eccellente modello probabilistico per molte
situazioni reali. Infatti, tale distribuzione può servire per studiare ad es. l'atteggiamento
dei cittadini nei confronti di un determinato provvedimento legislativo (favorevoli o
contrari alla elezione diretta del presidente della repubblica), per analizzare la
produzione di un determinato macchinario (pezzi regolari e pezzi difettosi), l’esito di
una visita medica (sano o malato), ecc.. Serve cioè, in generale, nello studio di tutti quei
fenomeni che possono essere caratterizzati da un evento che può realizzarsi o meno:
"successo" o "insuccesso"; dove successo vuol dire estrazione di pallina bianca, essere
favorevole alla elezione diretta del presidente, pezzo regolare, ecc., mentre insuccesso
vuol dire estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso,
ecc.
50
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola
prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non
verificarsi dell'evento.
Si consideri ora la variabile casuale X    X , dove X indica il numero delle volte
in cui l'evento E si presenta in n prove indipendenti. Per n = 1 si avrà che la variabile
casuale X    X , detta variabile casuale di Bernoulli e anche variabile casuale
indicatore, potrà assumere unicamente i due valori 0 e 1, con probabilità
P (X = 0) = q = 1 - p ; P (X = 1) = p
La corrispondente funzione di massa di probabilità assume i valori f(0) = 1-p = q e
f(1) = p, e può essere espressa dalla formula
f(x) = f(x;p) = px (1-p)1-x = px q1-x per x = 0, 1
Per n qualsiasi, si avrà che la variabile casuale X (numero di successi in n prove
indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che
associa ad ogni possibile sequenza di successi ed insuccessi in n prove indipendenti, il
numero x di successi che nelle n prove si sono verificati. La probabilità di x successi
P(X = x) = f(x), cioè la funzione di massa di probabilità è data da
n
n
n x
f(x) = f(x;n,p) =   p x 1  p     p x q n  x
 x
 x
n
n!
dove   
rappresenta il numero di permutazioni con ripetizione di n
 x  x !  n  x !
oggetti, di cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro, e
coincide con il numero delle combinazioni di n oggetti x a x.
L'interpretazione della formula della funzione di massa di probabilità della variabile
casuale cosi costruita (variabile casuale binomiale) è immediata: la probabilità di una
specifica successione di x successi e (n-x) insuccessi indipendenti è pari a (principio
delle probabilità composte per eventi indipendenti)
p  p p  p q  q q  p x q n  x ;


 
xvolte
( n  x ) volte
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,
tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi
incompatibili) tante volte quante sono le permutazioni con ripetizione di n oggetti di
cui x sono uguali tra loro e (n-x) diversi dagli x ma uguali tra loro.
Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x)
rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma
delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale
binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti
n
 n  x n x
  p q  ( p  q) n  1n  1

x 0  x 
51
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
La media e la varianza della distribuzione binomiale sono date rispettivamente dalle
uguaglianze
n
n
n
   x f ( x; n, p)   x   p x q n x  np
x 0
x 0
 x
n
n
n
x 0
x 0
 
 2   ( x   )2 f ( x; n, p)   ( x  np) 2   p x q n x  npq
x
Dimostrazione:  = n p
n
n
n
n
n(n  1)!
  E ( X )   x f ( x; n, p)   x   p x qn x   x
p p x 1qn1( x1)
x( x  1)! n  1  ( x  1)!
x 0
x 0
x 1
 x
ponendo n-1 = m e x-1 = y, si ha
m
m!
  np 
p y qm y  np( p  q)m  np  1  np
y 0 y !( m  y )!
Bin om io di
Newton
Dimostrazione: 2 = n p q
 2  2   2  2  n 2 p 2
n
n
x 0
 
n
n
x 0
 
2  E ( X 2 )   x 2   p x q n  x   x  x  1  1   p x q n  x 
x
x
n
n
 x( x  1)  x  p q
x
n x
 
x 0
n
  x   p x qn x 
x 0
 x
n
np
n
   x  x  1 
x 2
m
 n(n  1)
y 0
n( n  1)( n  2)!
p x q n  x  np 
x ( x  1)( x  2)!  n  2   x  2   !
m
m!
m!
p 2 p y q m y  np  n(n  1) p 2 
p y q m y  np 
y ! ( m  y )!
y
!(
m

y
)!
y 0
Binomio
di
Newton
 n(n  1) p 2  np  n 2 p 2  np 2  np  n 2 p 2  n p 1  p   n 2 p 2  npq
dove y = x-2 e m = n-2, da cui:
 2   2   2   2  n 2 p 2  n 2 p 2  npq  n 2 p 2  npq
La funzione generatrice dei momenti della v.c. binomiale è data da
n
n
x
n
 n
mx  t   E etX   et x   p x q n  x     et p q n  x  p et  q
x 0
x 0  x 
 x
dalla quale si deducono facilmente i momenti
 
 
52


n
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
n 1
d
mx  t  / t  0  n p e t  p e t  q  / t  0  n p
dt
n 1
n2
d2
μ2  2 mx  t  / t 0   n p et  p et  q   n (n - 1 ) p et  p et  q  p et  / t 0 



dt
 n p  n  n - 1 p 2  n 2 p 2  n p 1 - p   n 2 p 2  n p q
μ1 
Var(X)  σ 2  μ2  μ12  n 2 p 2  n p q - n 2 p 2  n p q
Distribuzione binomiale relativa
Si consideri la variabile casuale binomiale X specificata dai parametri n e p , se si opera la
X
si ottiene una nuova variabile, denominata distribuzione
n
1 2
binomiale relativa, che potrà assumere i valori 0, , ,...., 1 con probabilità
n n
 X x
P Y  y   P     P  X  x 
 n n
La funzione generatrice dei momenti di questa v.c. è espressa da
trasformazione Y  g  X  
t
 tX
 tX 

my  t   E  e   E  e n   E  e n    p e n  q 



 

da questa espressione si derivano facilmente i momenti
n
tY
t

d
d
1  nt
t
n
μ1  m y  t  / t 0  mx   / t 0  n p e  p e  q 
dt
dt  n 
n

n 1
/ t 0  p
n 1
n 2
t
t
t 



d2
1  nt
1  nt
n
n
μ2  2 m y  t  / t 0   p e  p e  q   (n - 1 ) p e  p e  q  p e n  / t 0 
dt
n
n




p 1
p
p2
pq
   n - 1 p 2   p 2 
 p2 
n n
n
n
n
pq
pq
- p2 
n
n
Un modo più rapido per derivare media e varianza della distribuzione binomiale
relativa è, ovviamente, quello di ricorrere all'operatore lineare valore atteso, infatti si ha
X 1
E Y   E    n p  p
n n
Var(X)  σ 2  μ2  μ12  p 2 
X
Var Y   Var 
n
pq
 1
 2 n p q
n
 n
53
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.12
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1-p
= 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno
un maschio, b) almeno un maschio ed una femmina.
a) Almeno un maschio
Poichè si ha
 4
 0
P (0 maschi) =    0,50  0,54 
1
16
P (1 maschio) =    0,51  0,53 
 4
1
1
4
P (2 maschi) =    0,52  0,52 
 4
 2
3
8
 4
 3
1
4
 4
 4
1
16
P (3 maschi) =    0,53  0,51 
P (4 maschi) =    0,54  0,50 
la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione
P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi)
=
1 3 1 1 15
    .
4 8 4 16 16
Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a quello
che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che
sottratta alla unità fornisce il risultato; si avrà
 4
 0
P ( almeno un maschio ) = 1 - P ( nessun maschio) =  1    0,5 0 0,5 4  1 
1 15

16 16
b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà
P ( almeno un maschio ed una femmina ) = 1 – P ( nessun maschio oppure nessuna femmina )=
1 - P ( nessun maschio ) - P (nessuna femmina) = 1 
1
1 14 7


 .
16 16 16 8
Esempio 1.13
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo
predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%,
almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da
sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie
da sottoporre ad esperimento) capace di soddisfare la disuguaglianza.
P (X  2) > 0,80
dove X sta per il numero di cavie che sopravvivono all'esperimento.
Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico successo
significa cavia sopravvissuta) ed n = 7, si ha
54
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
7
7
P( X  2)  1  P( X  0)  P( X  1)  1    0,40 0 0,60 7    0,401 0,60 6  0,84
 0
1
Per p = 0,4 ed n = 6, si ha
 6
 6
P( X  2)  1  P( X  0)  P( X  1)  1    0, 400 0,606    0, 401 0,605  0,77
 0
 1
Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7.
Esempio 1.14
Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi
sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni
meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in
cui le temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa.
Qual è la probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente
per meno di 11 giorni durante il mese di gennaio?
Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente
(successo), n  18 e p  0.80 si ha:
10
18 
P( X  10)  P( X  0)  P( X  1)  ...  P( X  10)     0.8x  0.218 x  0.0163
x 0  x 
Esempio 1.15
Soltanto il 45% delle borse prodotte dall’azienda Alfa rispetta i requisiti base di soddisfazione
del cliente. Qual è la probabilità che, considerato un campione di 20 borse selezionate
casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima soddisfazione?
Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità”
(successo), n = 20 e p = 0,45 (probabilità di un successo), allora si ha:
15
P(11 ≤ X ≤15) = P( X =11)+…………+ P( X =15) =
 20 
 x  0, 45  0,55
x
n x
= 0,24775
x 11
Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i
requisiti di soddisfazione minima del cliente è del 25%.
Esempio 1.16
Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur avendo
già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti vuoti,
esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il
numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire
tutti i posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un
passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando
55
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
che ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con
una probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%.
Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia aerea
vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco; II)
la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati
almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti.
Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha:
I)
P(X ≥ 206 ) = P(X =206)+… …+ P( X =215) =
 215 
x
n x
 0,95  0,05 = 0,363
x
x  206 

II)
P(X ≥ 201 ) = P(X =201)+… …+ P( X =215) =
 215 
0,95x  0,05n  x = 0,877

x 201  x 
215

215

III) P(X ≥ 195) = P(X =195)+……+ P( X =215) =
 215 
x
n x
 0,95  0,05 = 0,997
x
x 195 

IV ) P(X ≥ 190) = P(X =190)+……+ P( X =215) =
 215 
0,95x  0,05n  x = 0,999.

x 190  x 
215

215

1.7.2 Distribuzione ipergeometrica
Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la
distribuzione binomiale proponendo l'interpretazione che si rifà al linguaggio
dell'estrazione casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso
campo di applicabilità della distribuzione binomiale e dovrà essere ad essa sostituita
tutte le volte che gli eventi relativi alle singole prove non possono essere considerati
indipendenti.
Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La
K .
probabilità di estrarre pallina bianca in una prova sarà p =
N
Come già detto in precedenza, se si effettuano n estrazioni con ripetizione (cioè con
reinserimento della pallina nell’urna) la probabilità di ottenere esattamente x palline
bianche, nelle n prove, è data da
x
n x
n  K   K 
n
P( X  x)  f ( x)      1      p x q n  x
 x  N   N 
 x
cioè, l'estrazione con ripetizione (campionamento bernoulliano) conduce alla
distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere
ogni volta la pallina estratta nell'urna (campionamento esaustivo o campionamento
senza ripetizione); in questa situazione la probabilità di estrarre esattamente x palline
bianche è data da
56
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
K N K
  

x
nx 
per max [ 0,n - (N - K) ]  x  min [n, K]
f ( x)  f ( x; n, K , N )    
N
 
n
Infatti, se n > K, X potrà assumere al massimo il valore K, inoltre se
n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K).
Naturalmente
K N K
  

min n , K 
min n , K 
x   nx 

f ( x; n, K , N ) 
1


N
max 0, n  N  K  
max 0, n  N  K 
 
n
Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni
successione di n palline di cui x bianche e n-x nere costituisce una partizione dello
spazio campionario in eventi elementari equiprobabili, per cui è sufficiente fare il
rapporto tra il numero di eventi favorevoli (cioè il numero delle sequenze contenenti
esattamente x palline bianche) e il numero complessivo di eventi elementari (cioè il
numero di tutte le possibili sequenze di N palline ad n ad n).
Gli eventi favorevoli affinché si verifichi X = x sono quelli che contengono x
K 
palline bianche scelte tra le K esistenti e sono in numero di   , moltiplicati per tutti
x
quelli che contengono le rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che
N  K
K N  K
 . Quindi, i casi favorevoli sono   
sono in numero di 
 , mentre i
 nx 
 x  nx 
N 
casi possibili sono tutte le combinazioni di N palline prese ad n ad n, cioè   . Da ciò
n
deriva la formula precedente che definisce la distribuzione di probabilità di una v.c.
ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo aver
opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel
seguente modo:
 K  N  K 
K!
( N  K )!
 x  n  x 
  x ! ( K  x )! (n  x )! ( N  K  n  x )! 
f ( x )  f ( x; n , K , N )    
N!
N
 
n
n ! ( N  n )!
 
 n K K 1
K  x 1 N  K N  K 1
N  K  n  x 1
 
........
......
N  x 1 N  x N  x 1
N  n 1
 x  N N 1
A meno del coefficiente binomiale, l’ultima espressione è pari al prodotto delle
probabilità che la prima pallina estratta sia bianca, per la probabilità che la seconda sia
bianca dato che la prima è bianca, …., per la probabilità che la x-esima pallina sia
57
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
bianca dato che le precedenti sono state bianche, per la probabilità che (x+1)-esima
pallina sia nera dato che si sono verificate x palline bianche, …., per la probabilità che
l‘n-esima sia nera dato che in precedenza si sono verificate x bianche e (n-x+1) nere.
Tale probabilità, cioè quella della sequenza ordinata di x palline bianche (n-x) nere, va
ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però
n
sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto   .
 x
La media e la varianza della distribuzione che ha la funzione di massa di probabilità
sopra indicata e che viene detta ipergeometrica, sono definite dalle relazioni di seguito
riportate dove, per semplicità di notazione, si è ipotizzata la possibilità che la variabile X
possa assumere i valori 0 ed n ; ovviamente, se l’ipotesi non è soddisfatta basterà
sostituire gli estremi 0 ed n con i valori
max [ 0,n - (N - K) ] e min [n, K]
K N  K
K  K  1
 x  nx 


n
  x x  x 1 
   x f ( x; n , K , N )   x   

N
N
x 0
x 0
x 1
n
n
 
n
n
K
N
n
n

x 1
 K  1  N  1  ( K  1) 
 x  1   n  1  ( x  1) 

 
 n K n p
N

1
N


 n 1 


58
 N  1  ( K  1) 
 n  1  ( x  1) 

 
N

1


 n 1 


B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
n
2 
x
n
2
f ( x; n , K , N ) 
x 0
n


x 1
n


x 2
x
x 0
2
Versione 2015
K N  K
 x  nx 
  
 
N
 
n
 
K K 1  K  2
x x  1  x  2 
 x  x  1  x 
N N 1
n n 1
K K 1  K  2
x x  1  x  2 
 x  x  1 
N N 1
n n 1
 N  2  ( K  2) 
 n  2  ( x  2) 

 
N

2


 n2 


 N  2  ( K  2) 
 n  2  ( x  2) 

 
N

2


 n2 


n

x 1
 K  1
K 

 x 1 
N
n
 K  2   N  2  ( K  2) 
 x  2   n  2  ( x  2) 
K K 1

 
  n K  K K 1

n  n  1
N

2
N N 1
N N N 1


x 2
 n2 


K N  K
2
  

n
n
nK   x   n  x  N  n K

2
2
   ( x   ) f ( x; n , K , N )    x  

n
N 
N 1 N
N
x 0
x 0 
n
 
n

 N  1  ( K  1) 
 n  1  ( x  1) 

 
N

1


 n 1 


n  n  1  n
K
N
N n
 K
1    n p q
N 1
 N
od anche
K K 1
K
K2
K  K 1
K
n  n  1  n   n 2 2  n
 n  1  1  n  

N N 1
N
N
N  N 1
N
K
 N  n  1  
K  N  K  1  n  1  N  N  1  n K  N  1 
K
 N  n pq N n
n 
n
N
N  N  1) 
N
N 1
N 1

 2  2   2 
N n
( 1) viene usualmente detto fattore di correzione (per il
N 1
campionamento senza ripetizione). Si osservi che, se n = 1, allora la varianza della v.c.
ipergeometrica coincide esattamente con quella della binomiale (v.c di Bernoulli):
infatti, estraendo una sola pallina è del tutto irrilevante il fatto che essa venga
reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso in cui N
N n
tende ad infinito, infatti, il fattore di correzione
tende ad 1.
N 1
Il fattore
Si procede alla dimostrazione della relazione
59
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
K N  K
 x  nx 
  
 1
f ( x; n , K , N ) 

N
 
max 0,n  N  K 
n
 
min n , K 
min n , K 

max 0,n  N  K 
ipotizzando, anche in questo caso per semplificare la notazione algebrica, che i limiti
della sommatoria siano pari a 0 ed n, si dimostra quindi l’uguaglianza
K N  K
 

n 
 x   n  x  1

N
x 0
n
 
Si consideri l’identità
1  a 
K r
K r
K r y
 
 a
y 
y 0 
Ponendo y  K - x si ha
1  a 
K r
K
 K  r  K x
 
 a
xr  K  x 
inoltre
N K
N K s

 a
s
s 0


Se si moltiplicano membro a membro le due identità si ha
1  a 
1  a 

K

x r

K

x r
K r
N K

1  a 
N K

N K
 1  a 
N K
K r
K x

 K  x a
s 0


N K
K r N

 K  x 
s 0

 
N r

N K
a N K s 


s


K
N  xs

 a
s

ponendo N-x-s = t , si ha
1  a N  r

N r
 N t  K  r   N  K  
t

 K  x

N  x t
  a

 
 xr 
 
t 0
ma
1  a N  r

N r
N  r


t


 
t 0
at
Per il principio d’identità dei polinomi vale l’uguaglianza
60
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015

N t
 K  r
K  x
xr


ponendo r 
 N  K 
N  x t 


0 e t  N -n
K


K  x
x o


ed anche
N  K
 n  x 


n

K
 x 
x o


cioè
n

n

x o
K
 x 


N  K
 n  x 


 N  r


t


si ha
N


 

N

n


N 
 

 n 
N  K
 n  x 

 1
N 
 n 


Al crescere della dimensione della popolazione ( N   ) la distribuzione
ipergeometrica tende alla distribuzione binomiale, risultato questo facilmente intuibile
se si considera una popolazione molto numerosa dove la presenza o assenza
(reimmisione o non reimmissione della pallina estratta) non modifica sostanzialmente le
probabilità di estrazione. Ovviamente, l’approssimazione è tanto più buona quanto più
elevato il valore assunto da N e quanto più piccolo è il valore assunto da n.
K N  K
 x  nx 

lim f ( x )  lim f ( x; n, K , N )  lim   
N 
N 
N 
N
n
 
 n K K 1
K  x 1 N  K N  K 1
N  K  n  x 1
lim  
........
......

N  x
N  x 1 N  x N  x 1
N  n 1
  N N 1
n
K / N ( K  1) / N
( K  x  1) / N ( N  K ) / N
( N  K  n  x  1) / N
   lim
........
......

( N  x  1) / N ( N  x ) / N
( N  n  1) / N
 x  N  N / N ( N  1) / N
n
p 1/ N
p  ( x  1) / N 1  p
1  p  (n  x  1) / N
   lim p
........
......

N

11/ N
1  ( x  1) / N 1  x / N
1  ( n  1) / N
 x
n
n
n x
   p x 1  p     p x q n  x
 x
 x
La funzione generatrice dei momenti della v.c. ipergeometrica non è utile.
Esempio 1.17
Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono a
pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per
acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona
casualmente tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti.
Qual è la probabilità che l’assicuratore venda una polizza ad una delle tre persone che
incontrerà?
61
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi
N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una
polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte,
si ha n = 3.
Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da:
 K   N  K   4  6
 x   n  x   1  2
       60  0,50 .
P  x  1    
120
N
 10 
n
3
 
 
Esempio 1.18
Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il manager
responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20 prodotti e
ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione contenga I)
esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose?
La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa essere
difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione
estratto consiste di 5 pezzi, quindi n = 5.
Ricapitolando: N = 20, K = 6, n = 5
I)
 K   N  K   6   14 
 x   n  x   2  3 
       0,352  35, 2%
P  x  2    
N
 20 
n
5
 
 
II)
Px  2  P( x  2)  P( x  1)  P( x  0)  f (2)  f (1)  f (0)
 6   14 
1  4 
f(2) =0.352, f (1)       0,387 , f (0) 
 20 
5
 
 6   14 
 0  5 
     0,129
 20 
5
 
 P  x  2  f (2)  f (1)  f (0)  0,352  0,387  0,129  0,868  86,8% .
1.7.3 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari)
A differenza delle precedenti variabili casuali, la distribuzione di Poisson non è
generata direttamente da una successione di prove Bernoulliane (se non come processo
limite) ma riguarda il numero di eventi registrati in un ambito circoscritto di tipo
temporale, spaziale, concettuale; cioè, si parla di variabile casuale di Poisson quando
interessa conoscere il numero X di eventi (accadimenti, successi,…) che si verificano
in uno specifico intervallo di tempo o di spazio o di circostanze. Per es., si
distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello
62
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
bancario ogni giorno, il numero di chiamate che arriva ad un centralino ogni 10 minuti,
il numero di auto in attesa al casello autostradale ogni minuto, il numero di incidenti
mortali tra gli operai addetti ad un certo processo chimico pericoloso per ogni impianto
funzionante, il numero di pezzi difettosi prodotti da ciascun macchinario di un’azienda
ecc.
La funzione di massa di probabilità della v.c. di Poisson è data da
f ( x)  f ( x;  ) 
x e 
per x = 0, 1, 2 ...
x!
(dove e è la costante di Nepero e  un numero reale positivo). Naturalmente la somma
delle probabilità, per questa particolare variabile casuale discreta che può assumere
l'infinità (numerabile) di valori diversi 0, 1, 2,... , è pari ad 1


 x e 
x 0
x 0
x!
 f ( x;  )  

x
x 0
x!
 e 
 e   e  1
La media e la varianza sono date da


 x e
x 0
x 0
x!
   xf ( x;  )   x

 x
x 1
  x 1e 
x  x  1!

 y e
y 0
y!
 

dove y=x-1.


 x e
x 0
x 0
x!
 2   ( x   ) 2 f ( x;  )   ( x   ) 2

 x e 
x 0
x!
  x2

   x  x  1  x 
x 0

  x  x  1
x 0

 2
y 0
y 
 e
y!

 x e 
x 0
x!
 2
 x e
x!


 x e 
x 0
x!
 2  x

  2  2  
 e
x 
x( x  1)  x  2 !

 x e 
x 0
x!
x
 2 
+   2  
dove y=x-2.
Dalle uguaglianze sopra riportate risulta che l’unico parametro caratterizzante la
distribuzione di Poisson  coincide con la media e la varianza della variabile casuale
stessa.
I momenti possono essere più facilmente derivati se si considera la funzione
generatrice dei momenti:
63
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015

 et 
t

  et 1
etx e    x
tX

mx (t )  E ( e )  
e 
 e   e e  e
x!
x!
x 0
x 0
  et 1
d
1  mx  t  / t 0  e
 e t / t 0  
dt
 et 1
 et 1
d2
2  2 m x  t  / t  0  e   e t  e t  e    e t / t 0   2  
dt
Var ( X )   2  2  12   2     2  
x

Esempio 1.19
Il dipartimento per il controllo di qualità della Shirt Manufacturing Company rileva che per
ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in quanto
presentano delle imperfezioni nelle cuciture. L’azienda ha in programma 2 spedizioni ad un
cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la
sostituzione?
p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005
n = numero totale di magliette prese in considerazione = 2  10000 = 20.000
 = numero medio di magliette difettose = n  p  20000  0.0005  10
x = numero di magliette difettose > 10
Quindi:
 xe

x!
x 0
10
P( x  10)  P( x  11)  P( x  12)  ...  1  P( x  10)  1  
10 x e 10
 1 
 1  0,583  0,417  41,7%
x!
x 0
10
.
Esempio 1.20
Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei
principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori
di ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, vuole garantirsi
una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra vuole
evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non vendute in
tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel risolvere
tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto ciò di
cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media
mensile ( ) è approssimativamente 17 unità.
Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I)
inferiore o uguale alle 20 unità e II) sia compresa tra le 10 e le 15 unità.
20
x e  
x 0
x!
P( x  20)  
P(10  x  15) 
15
x e 
x 10
x!

17 x e 17
 0.806  80.6%
x!
x 0
20

17 x e 17

 0.345  34.5% .
x!
x 10
15
64
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Distribuzione di Poisson come limite della distribuzione binomiale
La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta
una conveniente approssimazione della distribuzione binomiale nel caso in cui il
numero delle prove n sia abbastanza elevato (in genere si assume n  100 ) e la
probabilità che l'evento si presenti in una singola prova sia sufficientemente prossima
allo 0. L’approssimazione è giustificata in quanto si dimostra che la legge di
distribuzione di Poisson può essere derivata come limite della distribuzione Binomiale
nel caso in cui n tende ad infinito e p tende a 0, mentre il prodotto  = n p rimane
costante.
La formula generale per la probabilità di x successi in n prove Bernoulliane, cioè in n
estrazioni casuali con ripetizione (eventi indipendenti) è rappresentata dalla v.c.
Binomiale
n
f ( x)  f ( x; n, p)    p x (1  p) n  x
 x
Si consideri la famiglia per cui il prodotto n p sia una costante . Se si pone  = n p,
allora p = /n, sostituendo p = /n nella precedente espressione si ha
n      
f ( x;  , n )       1  
n
 x  n  
x
n x

1 x
n!

 
x
x!
  n  x ! n 
n!


 
x ! n  x !  n 
 
1  
n

x
 
1  
n


n x

1 x  n ( n  1) ( n  2).....( n  x  1)( n  x )! 

 

x!
(n  x )! n  n  n......n


1 x n n 1
n  x  1   

 
......
1  
x!
n  
n
n n
1 x   1
x  1 

=
 1  1   ...... 1 

x!
n  

  n
Per x costante si ha

 1
lim f ( x;  , n )  lim   x 1
n 
n  x !


nx
n x
n x

n x

 
1  
n

x  1 
 1

 1   ...... 1 

n  
 n

 
1  
 n
n x
 
1  
n

n x



1 x
1
 x e
 
 
 lim 1     x lim 1   
x ! n 
n
x ! n 
n
x!
che è la funzione di massa di probabilità della v.c. di Poisson.
Allo stesso risultato si perviene ma in modo decisamente più rapido se si considerano
le funzioni generatrici dei momenti delle due v.c.; infatti
n
=
lim
n 
p e
t
 q
n
n

  
 lim  et  1     lim
n 
 n   n
n
65
   et  1
1 

n

n

 et 1
 e  


B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.21
E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto
che ne contiene 1000 sta per essere inviato al cliente. Si calcola la media e la varianza delle
lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di
distribuzione Binomiale.
Funzione di distribuzione di Poisson:
Media =   n  p  1000  0.03  30
Varianza =  2    n  p  30
Funzione di distribuzione Binomiale:
Media =   n  p  1000  0.03  30
Varianza =  2    n  p  q  1000  0.03  0.97  29.1
Come si può osservare le due medie coincidono e le due varianze sono molto simili. Tale
risultato evidenzia la buona approssimazione della distribuzione Binomiale con la distribuzione
di Poisson nel caso incui p è molto vicina a zero ed n è abbastanza.
 2  n  p  q  n  p 1  n  p   .
Esempio 1.22
Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo
sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga fino a 5
difettosi? Si calcola tale probabilità ricorrendo sia alla distribuzione Binomiale che alla
distribuzione di Poisson.
Distribuzione Binomiale:
5
 200 
P( x  5)   
0,02 x 0,98200 x  0,787  78,7%

x 0  x 
Distribuzione di Poisson:
  n  p  200  0.02  4
4 x e4
 0,785  78,5%  78,7% .
x!
x 0
5
P( x  5)  
1.7.4 Distribuzione binomiale negativa
La distribuzione Binomiale Negativa si usa quando si è interessati al numero di
ripetizioni (prove) indipendenti necessario per ottenere k volte un certo evento
d’interesse (successo). Essa può essere derivata direttamente dalla distribuzione
Binomiale. Nella Binomiale il numero di prove n viene fissato in anticipo e la variabile
casuale è il numero di successi che si ottengono nelle n prove. Viceversa, la Binomiale
Negativa specifica in anticipo il numero k di successi che si vuole osservare, mentre la
variabile casuale diventa il numero di prove necessario per osservare il numero k di
successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le
distribuzioni, ciò che cambia è l’evento d’interesse.
66
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Indicando con X la v.c. numero di prove necessario per ottenere k successi (Ia
definizione) i valori che tale variabile può assumere sono k, k+1, k+2, ...., cioè
un’infinità di valori. Se si indica con p la probabilità di ottenere un successo in una
singola prova dell’esperimento e con  (evento elementare) una possibile sequenza di
esiti (S indica un successo e I un insuccesso), si ha:
I I I  I S S  S
( x  k ) volte
k volte
 = (I  I  I  I  .....  I  S  S  S ....  S)
inoltre, essendo gli eventi associati alle singole sottoprove indipendenti, la probabilità di
 è data da:
P() = P(I I  I  I  .....  I  S  S  S ....  S) =
= q  q q  p  p p  p  q x  k  p k .


 
( x  k ) volte
k volte
Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un
totale di x prove affinché si manifestino k successi, la probabilità dell’evento  rimane
invariata ed è pari a pk(1– p)x-k.
Per ricavare la funzione di massa di probabilità della distribuzione Binomiale
Negativa basta conoscere il numero di possibili permutazioni che possono essere
effettuate in modo da ottenere k successi in x prove. Se sono richieste x prove per
ottenere k successi, allora devono verificarsi (k – 1) successi nelle prime (x – 1) prove;
inoltre, il k-esimo successo deve verificarsi all’x-esima prova (cioè l’ultima). Questo
equivale a dire che, con riferimento all’evento  sopra riportato, il numero delle
possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli
eventi tranne l’ultimo. In altre parole, l’ultimo evento che si verifica deve essere sempre
il k-esimo successo: se questo si verificasse prima dell’x-esima prova vorrebbe dire che
il numero di prove necessario per ottenere k successi non è più x ma un valore inferiore.
Se si indica con k l’evento nel quale nelle prime x-1 prove si realizzano k-1 successi, la
sua probalità si può derivare facendo riferimento alla distribuzione Binomiale nella
quale su n=x-1 prove si realizzano k-1 successi
 x  1 k 1
 x  1 k 1
x k
P k   
p (1  p) x 1( k 1)  

 p (1  p)
k

1
k

1




La probalità di successo nella x-esima prova è p, quindi, la funzione di massa di
probabilità della variabile casuale Binomiale negativa è data da:
 x  1 k
P( X  x )  f ( x; k , p)  
p (1  p)( x k ) , con x = k, k+1, k+2, k+3, ....

 k  1
Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale
Negativa sono date da:
1
1 p k q
E ( X )  k ; Var ( X )  k
 2 .
p
p2
p
Infatti:
67
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
EX    


k
E  X 2   2 


k


 x  1 k
k
x 
p (1  p)( x k ) 

p
 k  1
 x  1 k
( x k )
x2 

 p (1  p )
k

1


 x  1
  x  x  1  k  1 p
k
Versione 2015

k
(1  p )( x k ) 

k
k k k 2 k 1  p  k 2 k q
 2  2
 2 2
2
p
p
p p
p2
p
p
k
k 1
(1  p)( x k ) 
k

 x  1
  x  x  1  x   k  1 p
k
k
p
(1  p )( x k ) 
k
 x  1
k
(1  p )( x k ) 
k
k  k  1
p2

 x
  k  p
 x  k  1 p



 x  1 k  2
k k  k  1 k
( x k )
 
 
 k  1 p (1  p )
p
p2
p


2
k2 k q k2 k q


 2
p2 p2 p2
p
Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile
casuale è l’inverso della probabilità che si verifichi l’evento “successo” nella singola
prova, moltiplicato per k. Infatti, se l’evento è raro, la probabilità p è molto bassa,
pertanto, occorrerà attendere mediamente un numero piuttosto elevato di prove prima
che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità
p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà
mediamente più basso.
Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi
problemi di attesa. Si supponga, ad esempio, che in un processo di produzione
automatico in ogni secondo viene prodotta una parte del macchinario, la parte viene
testata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa.
Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti
difettose che il recipiente è in grado di contenere, allora la lunghezza di tempo (in
secondi) prima che il recipiente sia riempito e debba essere sostituito con uno vuoto è X,
dove X segue la distribuzione Binomiale negativa con parametri k e p e rappresenta il
numero totale di pezzi difettosi (cioè, il numero totale di prove) necessari per ottenere il
k-esimo pezzo difettoso.
Var  X   2  12 
Esempio 1.23
Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un
prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca
vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5
richieste di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che
la seconda approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata,
altrimenti il manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di
68
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
finanziamento approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con
le rispettive probabilità:
Sequenze
Probabilità
ARRRA
0,2  0,8  0,8  0,8  0,2 = 0,02048
RARRA
0,8  0,2  0,8  0,8  0,2 = 0,02048
RRARA
0,8  0,8  0,2  0,8  0,2 = 0,02048
RRRAA
0,8  0,8  0,8  0,2  0,2 = 0,02048
Totale
0,02048  4= 0,08192 = 8,!92%
Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della
distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene:
 5  1
4!
P( X  5)  
0, 202 0,852 
 0,04  0,512  0,08192  8, 20% .

3! 1!
 2  1
Esempio 1.24
Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi
prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista
del controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed
effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7
lamine ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità
che il processo produttivo venga interrotto?
Sia x = 7, k = 4 e p = 0,90, allora:
 7  1
 6
P( X  7)  
0,94 0,174     0,6561  0,001  0,0131  13,1% .

 4  1
 3
Esempio 1.25
Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il
45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro
attrezzi. Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in
attesa. Qual è la probabilità che le 18 chiamate siano completate prima che i 9 carri attrezzi
siano utilizzati? Per x = 18, k = 9 e p = 0,45, si ha:
 18  1
9
189
P( X  18)  
 0, 45  0,55  0,0847  8, 47% .
9

1


La funzione X   sopra definita fa corrispondere a ciascun punto campionario il
numero delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X
così definita potrà assumere i valori k, k+1, k+2,.... +. Una diversa definizione è
quella di non considerare il numero delle prove necessarie per ottenere k successi ma il
numero delle prove necessarie prima ottenere k successi (IIa definizione), in tal caso
la v.c. X cosi definita potrà assumere i valori 1, 2, 3,…, + .
Una ulteriore possibile definizione della distribuzione binomiale negativa (IIIa
definizione) è quella di definire X   come il numero di insuccessi necessari per
69
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
ottenere k successi. In questo caso la v.c. risultante può assumere i valori 0, 1, 2,……,
+, cioè tutti i numeri naturali da zero a + ed ha funzione di massa di probabilità pari
a:
 k  x  1 k
 k  x  1 k x   k  k
x
P ( X  x )  f ( x; k , p )  
p (1  p) x  
p q    p  q 


x 
x 


 x 
 k  k  ( k  1 )  k  2  
dove,   
x ! n - x !
 x 
espressione questa che da ragione anche della denominazione di distribuzione binomiale
negativa.
L'uguaglianza tra gli ultimi termini della relazione sopra scritta deriva
dall'uguaglianza
 k  x  1   k 
x
    1 .


x   x 

Infatti

 x   k  1 
 x   k  1 !   x   k  1 ! 


x ! k  1!
x

 x ! x   k  1  x !
 x   k  1   k   k  1  1  x   k  1  2   x   k  1   x  1   x   k  1  x ! 
x ! k  1!
x valori

 x   k  1   x   k  1  1  x   k  1  2   x   k  1  x  2   x   k  1  x  1 
x!
Riscrivendo l’espressione precedente invertendo l’ordine degli x termini al
numeratore:
k  k  1  k  x  3  k  x  2   k  x  1
x!
Se si moltiplicano gli x termini per -1, si ottiene:
 1  k  k  1  k  x  3 k  x  2  k  x  1 
x
x!
 1
x
 k 
 
 x
La funzione generatrice dei momenti della v.c. binomiale negativa in questa terza
formulazione è:

x
k
 k 
 k 
 p 
x
mx  t   E  e    e   p k  q      p k  et q   p k 1  q e t   
t 
x 0
x 0  x 
 x
 1 q e 
Risultato che deriva dalla relazione

k
k
x
t
1

e
q


   x   et q 
x 0 


tX
xt
70
k
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
che si ottiene dallo sviluppo del binomio di Newton

n
n
 a  b      a x bn x
x 0  x 
per a   et q ed n  k .
Ricorrendo alla funzione generatrice dei momenti si determinano facilmente media e
varianza della distribuzione.
d
kq
μ1  m x t / t 0 
dt
p
μ2 
d2
k 2 q2 k q


m
t
/

 2
x
t 0
dt 2
p2
p
Var(X)  σ 2  μ 2  μ12 
k 2 q2 k q k 2 q2 k q
 2 
 2
p2
p
p2
p
1.7.5 Distribuzione geometrica (di Pascal)
Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi
desiderato sia pari ad 1, si parla più propriamente di distribuzione Geometrica. Quindi,
quest’ultima non è altro che un caso particolare della Binomiale negativa quando k = 1
ed indica il numero di prove necessarie prima di ottenere un successo, o il numero di
insuccessi prima di ottenere un successo.
La distribuzione di probabilità della v.c. Geometrica risulta utile in diverse
situazioni. Per esempio, per certi tipi di macchinari è noto che la probabilità p di rottura
(successo) è la stessa ogni volta che il macchinario viene impiegato e non aumenta
all’aumentare del numero di volte in cui il macchinario è stato utilizzato in precedenza.
La qualità di un macchinario così fatto è, dunque, determinata da p: quanto più p è
basso tanto più il macchinario è affidabile. Un metodo per testare un macchinario di
questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità
che la rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p.
Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel
settore creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere
conto del fatto che non può permettersi di concedere troppi prestiti che potrebbero non
andare a buon fine (per i quali, cioè, il cliente non sarà in grado di pagare gli interessi
e/o di restituire il capitale ottenuto a prestito). D’altra parte è altresì vero che è
praticamente impossibile concedere prestiti del tutto esenti da rischio. Indicando
semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e con p
la probabilità che venga concesso un prestito che avrà esito negativo 6, il responsabile
6
La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere
troppo denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la
possibilità di spuntare margini di guadagno elevati.
71
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
per l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la
probabilità che il prossimo prestito che gli sarà concesso avrà esito negativo, avendo
egli già onorato con esito positivo i precedenti 5, 10, 50 ... prestiti concessigli in
passato.
1.7.6 Variabili casuali discrete: riepilogo
Prima di procedere con l’esposizione delle principali variabili casuali continue, si riepilogano
le caratteristiche e le propprietà delle variabili casuali discrete considerate.
 V.c. di Bernoulli
Descrizione: numero di successi in una sola prova
Parametro caratteristico: p = probabilità di ottenere un successo
Supporto della v.c. X: x 0, 1
La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di prove è fisso, pari ad 1.
Funzione di massa di probabilità:
f(x) = f(x;p) = p x 1  p 
1 x
 p x q1 x
EX   p
Var(X)  pq
mx  t   p et  q
 V.c. Binomiale
Descrizione: numero di successi in n prove indipendenti (campionamento con
ripetizione)
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova;
n, numero delle prove
Supporto della v.c. X: x 0, 1, 2, …., n
Ogni prova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
La probabilità dell’evento “successo” è costante in tutte le sottoprove
Il numero di sottoprove è fisso, pari ad n.
Funzione di massa di probabilità:
n
n
n x
f(x) = f(x;n,p) =   p x 1  p     p x q n  x
 x
 x
EX   n p
Var(X)  n p q
mx  t    p et  q 
n
 V.c. Ipergeometrica
Descrizione: numero di successi in n prove (campionamento senza ripetizione)
72
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo”
possibili; N, numero totale di eventi (successi e insuccessi) possibili
Supporto della v.c. X: x max(0, n – N + K), min (n, K)
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il risultato di una sottoprova modifica la probabilità (condizionata) di successo nelle
sottoprove successive
Il numero di sottoprove è fisso, pari ad n.
Funzione di massa di probabilità:
K N K
  

x   nx 

per max [ 0,n - (N - K) ]  x  min [n, K]
f ( x)  f ( x; n, K , N ) 
N
 
n
EX   n p
Var(X)  n p q
N n
N 1
 V.c. di Poisson
Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio)
Parametro caratteristico: , che indica sia la media che la varianza della variabile
casuale
Supporto della v.c. X: x 0, 1, 2,…., +∞
Il tasso medio  di occorrenza dell’evento E è costante
La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono
La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono
tende a zero.
Funzione di massa di probabilità:
f ( x)  f ( x;  ) 
x e 
x!
EX   
Var(X)  
mx (t )  e


 et 1
 V.c. Binomiale negativa
- Prima definizione
Descrizione: numero di prove occorrenti perché si verifichino k successi
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova; k, numero prefissato di successi che si desidera di ottenere
Supporto della v.c. X: x k, k+1, k+2,…, +
Ogni sottprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
73
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
L’esperimento termina al verificarsi del k-esimo successo
Funzione di massa di probabilità:
 x  1 k
( xk )
P( X  x)  f ( x; k , p)  
 p  (1  p)
k

1


k
EX  
p
kq
Var(X)  2
p
-
Terza definizione
Descrizione: numero di insuccessi prima di ottenere k successi
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova; k, numero prefissato di successi che si desidera ottenere
Supporto della v.c. X: x 0, 1, 2,…, +
Ogni sottoprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
L’esperimento termina al verificarsi del k-esimo successo
Funzione di massa di probabilità:
 k 
x
P( X  x )  f ( x; k , p)    p k  q 
 x 
kq
EX  
p
kq
Var(X)  2
p
 p 
mx  t   
t 
 1 q e 
k
 V.c. Geometrica
Descrizione: numero di sottoprove occorrenti perché si verifichi un successo, od anche,
numero di insuccessi prima di ottenere un successo
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola
sottoprova
Supporto della v.c. X: x 1, 2,…, + , nel caso in cui si considera il numero delle
sottoprove necessarie per ottenere un successo, x 0, 1, 2,…, +  nel caso in cui si
considera il numero di insuccessi prima di ottenere un successo.
Ogni sottoprova è indipendente dalle altre
Ogni sottoprova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
Il numero di sottoprove non è fisso, ma coincide con la v.c. X
L’esperimento termina al verificarsi del primo successo
Quando si considera il numero delle sottoprove necessarie per ottenere un successo
74
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
EX  
Versione 2015
1
p
Var(X) 
q
p2
Quando si considera il numero degli insuccessi necessari per ottenere un successo
EX  
q
p
q
p2
p
mx  t  
.
1  q et
Var(X) 
1.8 - Variabili casuali continue
1.8.1 Distribuzione normale (di Gauss-Laplace)
La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata
la più importante tra le distribuzioni continue, soprattutto per le seguenti ragioni:
 una vasta serie di esperimenti casuali ha associata una variabile casuale la cui
distribuzione è approssimativamente normale;
 alcune variabili casuali, che non sono distribuite normalmente, possono essere
rese tali mediante trasformazioni relativamente semplici;
 alcune distribuzioni, relativamente complicate, possono essere approssimate
sufficientemente bene dalla distribuzione normale;
 alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi
statistiche o per la determinazione di intervalli di stima, o sono distribuite
normalmente o derivano da tale distribuzione.
Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure
notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo
fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e
che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i
fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che
svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema
del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in
seguito.
La funzione di densità di probabilità della distribuzione normale è
f ( x )  f ( x;  ,  ) 
2
1
2 2

e
Ovviamente (cfr. righe successive)
75
1  x 


2   
2
per -  x  +
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015



f (x;  ,  2 ) dx  1 .
Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo
nel punto x = . Si dimostra, inoltre, che i due parametri caratteristici  e 2
corrispondono proprio alla media (momento primo rispetto all’origine) e alla varianza
(momento secondo rispetto alla media) della distribuzione.

   x f ( x;  ,  2 ) dx


 2   ( x   )2 f ( x;  ,  2 ) dx

Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c.
Normale è uguale al parametro  e la varianza al parametro  2 risulta conveniente
introdurre la funzione generatrice dei momenti della quale si farà anche largo uso nelle
pagine successive.
2

1/2 2   x   
1
mx (t )  E  etX   et E et  X      et 
e t  x   e
dx 

2
1
2



e

1 
 x   2  2 2t  x      4t 2   4t 2 
2 2 
dx  et 
2 2
t /2
1
2



e


2
 x    2t /2 2
ma
2
   x    2t  /2 2
1
e
dx  1
2 
infatti, effettuando la trasfomazione
z
x     2t

, dz 
dx

 dx   dz
si ha
2
   x    2t  /2 2
1
1   z2 /2
e
dx 
e dz  A

2 
2 
se si considera la relazione
1   z2 /2
1   v2 /2
1    z2 v2 /2
A2 
e
dz
e
dv

e
dz dv
2  
2 
2 
e si effettua la trasformazione in coordinate polari
76
dx
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
z  r cos  e v  r sen
si ha


1 2    r 2 cos2   r 2 sen2 /2
e
J  r,   dr d 
 
2 0 0
1 2   r 2 /2
1 2  r 2 /2

e
r dr d 
e
r dr  1  A = 1


0
2 0
2 0
si ricorda che J  r,   rappresenta lo Jacobiano della trasformazione
A2 
1
2


e
 z 2  v 2 /2
dz dv 
z z
cos  - r sen 
r 
J  r,   

 r  cos 2   sen 2   r  1  r
v v
sen  r cos 
r 
quindi
mx (t )  e t 
2 2
t /2
inoltre
1   z 2 /2
1 A
e
dz 
2 
dove è stata operata la trasformazione
z
x

1
2 2




e
 x    z  dz 
1

1  x 


2   
2
d x
dx.
Derivando la funzione generatrice dei momenti in t=0 si ottengono i momenti di
interesse.
2 2
2 2
d
d
μ1  mx  t  / t 0  et   t / 2 / t 0  et   t / 2     2t  / t 0  
dt
dt
2
2
2 2
2 2
d
μ2  2 mx  t  / t 0  et   t / 2     2t   et   t / 2  2  / t 0   2   2


dt
Var(X)  σ 2  μ2  μ12   2   2   2   2
Queste relazioni provano quanto sopra affermato; cioè, che i parametri caratteristici
µ e  2 rappresentano, rispettivamente, la media e la varianza della distribuzione
normale.
Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di
curtosi) sono dati rispettivamente, da:
1   3  


2  4  


 x 
2

 f ( x;  ,  ) dx  0



3
 x 
2

 f ( x;  ,  ) dx  3
  
4
77
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Ovviamente, essendo la distribuzione normale simmetrica, l’indice 1 assume valore
zero. In altre distribuzioni l’indice assume, invece, valore negativo in caso di
asimmetria a sinistra, valore positivo in caso di asimmetria a destra, della distribuzione
(cfr. Fig. 1.5).
Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo;
infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa
riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore
assunto dall’indice di curtosi pari a 3, si dirà platicurtica la distribuzione con valore
dell’indice 2 inferiore a 3, leptocurtica la distribuzione con valore dell’indice 2
maggiore di 3 (cfr. Fig. 1.5).
Se si considera la funzione di distribuzione della variabile casuale normale
F(x)  P(X  x)  
x

1
e
2πσ 2

e si effettua la trasformazione (standardizzazione) Z =
F(z) = P(Z  z) =
1
2

z

e

1
(y  μ)2
2σ 2
x

1 2
y
2
dy
si ha
dy
i cui valori sono stati tabulati.
Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore
medio nullo e varianza pari ad uno.
Asimmetria positiva
1 > 0
Asimmetria negativa
1 < 0
 Me Mo
Mo Me 
Distribuzione leptocurtica
2 > 3
Distribuzione normale
2 = 3
Distribuzione platicurtica
2 < 3
Fig. 1.5 - Forma delle distribuzioni
Tenendo presente che
78
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
b
a X  b
a
F (b)  F (a)  P(a  X  b)  P


Z
  P


 
 
 
 
Se si pone a = (µ -  e b = (µ +  si ha, utilizzando le tavole della distribuzione
normale standardizzata, che
P (µ - < X  µ + ) = P(-1 < Z  1)  0,68
per a = (µ - 2 e b = (µ + 2 si ha
P (µ - 2 < X  µ + 2) = P(-2 < Z  2)  0,955
per a = (µ - 3 )e b = (µ + 3 si ha
P (µ - 3 < X  µ + 3) = P(-3 < Z  3)  0,997
Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale
normale:
 circa i due terzi dei valori sono contenuti nell'intervallo

(    ),       ;
circa
il
95%
dei

(   2  ),    2    (µ - 2µ + 2;
circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo
valori
sono
contenuti
nell'intervallo
(   3  ),    3    .
I valori soglia per le probabilità 0,95, 0,99 e 0,999 sono, rispettivsmente, 1,96, 2,58 e
3,29
 P (µ - 1,96  < X  µ + 1,96 ) = 0,95
 P (µ - 2,58  < X  µ + 2,58 ) = 0,99
 P (µ - 3,29  < X  µ + 3,29 ) = 0,999.
Esempio 1.25
Sia X una variabile casuale normale di media µ = -2 e varianza  2 = 0,25; si vuol determinare
il valore della costante c in modo da soddisfare le relazioni:
a)
P (X  c) = 0,2;
b)
P (-c  X  -1) = 0,5;
c)
P (-c  X  c) = 0,95; d)
P (-2-c  X  -2+c) = 0,9.
Utilizzando la tavola in cui sono riportati i valori della funzione di distribuzione della variabile
casuale normale standardizzata, si ottengono i seguenti risultati:
c  2
c  2


c  2
X  c
a ) P ( X  c )  P

  1  P Z 
  1  F
  0,2 
  P Z 
 
0,5 
0,5 
 


 0,5 
c  2
c2

 P Z 
 0,842  c  1,579
  0,8 
0,5 
0,5

 c  2
  c  2 X   1 2    c  2


b) P(c  X  1)  P


 Z  2   PZ  2  P Z 
  P


0,5   0,5
0,5 
 0,5


2c
2c
2c
 F (2)  F 
 0,057  c  2,0285
  0,5  F 
  0,4772 
0,5
 0,5 
 0,5 
79
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015

c2  
c2
 c  2 X   c  2 
 c  2
c ) P ( c  X  c )  P 


  P  0,5  Z  0,5   2  P  Z  0,5   0,5 
0,5

0,5



  


c2
c  2
2c
 2F 
 1,96  c  1,02
  1  0,95  F 
  0,975 
0,5
 0,5 
 0,5 
c 
c 
 c X  
 c
d ) P(2  c  X  2  c)  P 


  P  0,5  Z  0,5   P(Z  2c)  P(Z  2c) 
0,5

0,5




 F (2c)  F (2c)  0,9  2c  1,645  c  0,823
Esempio 1.26
Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un
determinato spessore e che la produzione subisca delle piccole variazioni (in termini di
spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte,
può essere convenientemente rappresentato mediante un modello probabilistico di tipo
normale. Sia X la variabile casuale normale che interessa e si ammetta di conoscere la sua
media µ = 10 mm. e la sua varianza σ2 = 0,0004. Si vuol determinare la percentuale attesa di
lamine difettose supposto che:
a) siano difettose le lamine con spessore inferiore a 9,97 mm.;
b) siano difettose le lamine con spessore superiore a 10,05 mm.;
c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm.
Usando la tavola della distribuzione normale si ottengono i seguenti risultati:
 9,97  10 
  F (1,5)  0,067
 0,02 
a) P( X  9,97)  F 
 10,05  10 
  0,006
 0,02 
b) P( X  10,05)  1  p( X  10,05)  1  F 
c) P (X < 9,97) + P (X > 10,03) = 1 - P (9,97  X  10,03) = 1 - P (X  10,03)
 10,03  10 
 9,97  10 
  F
 = 0,13.
 0,02 
 0,02 
+ P (X < 9,97) = 1 - F 
Esempio 1.27
La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati di
precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in
grado di percorrere una media  di 40.000 km con una deviazione standard  di 10.000 km. E’
politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km,
riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio
abbia una distribuzione normale:
Qual’è la probabilità che venga prodotto un pneumatico che duri almeno 55.000 km? Quanti
pneumatici di questo tipo saranno prodotti ogni anno?
Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km saranno prodotti
in un anno?
Qual’è il costo annuo atteso per i risarcimenti?
80
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a livello di
qualità, quanti km ci si può aspettare che faccia?
Utilizzando le tavole della distribuzione Normale standardizzata si ottengono i seguenti
risultati:
I)
55000  40000 

P( X  55000)  P Z 
  PZ  1,5  1  PZ  1,5  1  0,9332  0,0668
10000


Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari al
6,68%. In un anno saranno prodotti 2.000.000  0,0668  133.600 pneumatici di questo tipo.
II)
Per x = 35.000  z = (35.000-40.000)/10.000 = - 0,5
Per x = 25.000  z = (25.000 – 40.000)/10.000 = - 1,5
Quindi,
P25.000  X  35.000  P(1,5  Z  0,5)  F (0,5)  F (1,5)  0,3085  0,0668  0,2417
Di conseguenza, saranno prodotti 2.000.000  0,2417  483.400 pneumatici l’anno con una
capacità di uso compresa tra i 25.000 e i 35.000 km.
III)
La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data,
analogamente ai casi appena visti, da:
28.000  40.000 

P X  28.000  P Z 
  P( Z  1,2)  0,1151
10.000


Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a:
2.000.000  0,1151  5,00  1.151.000 €
IV)
P( X  x)  P( Z  z )  1  P( Z  z )  0,05  P( Z  z )  1  0,05  0,95  z  1,65
z
x  40.000
 1,65  x  10.000  1,65  40.000  56.500km
10.000
Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra
perlomeno 56.500 km.
Esempio 1.28
L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione.
Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale
iniziale. Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si
distribuiscono normalmente con media pari a 525 e deviazione standard pari a 55.
L’attuale politica di assunzione si svolge in due fasi. Durante la prima fase i candidati vengono
separati in tre categorie: candidati automaticamente accettati, candidati automaticamente
rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è
perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera
425. In merito agli incerti, il responsabile del personale procede alla seconda fase della
selezione, basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di
lavoro, attitudini e conoscenze particolari ecc.
81
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Il responsabile del personale dell’azienda Beta vuole conoscere, in primo luogo, I) la
percentuale di candidati che automaticamente vengono accettati o rifiutati; in secondo luogo,
II) vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si decida
di accettare automaticamente il 15% dei migliori candidati e di rifiutare automaticamente il
10% dei peggiori.
Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione
Normale standardizzata, si ottengono le seguenti soluzioni:
I)
425  525 

P( X  425)  P Z 
  P( Z  1,82)  3,45%
55


600  525 

P( X  600)  P Z 
  P( Z  1,36)  1  P( Z  1,36)  8,63%
55


Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà
automaticamente accettato.
II)
x  525 

P( X  x )  P Z 
  P( Z  z )  0,10  z  1,27  x  1,27  55  525  455
55 

x  525 

P( X  x )  P Z 
  P( Z  z )  0,15  1  P( Z  z )  P( Z  z )  0,85
55 

 z  1,04  x  1,04  55  525  582
Pertanto, se l’azienda Beta vuole incrementare sia il numero di candidati accettati
automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal
3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del
rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600
a 582.
Esempio 1.29
Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande
magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro
commerciale seleziona casualmente 200 adulti e, mentre escono dal negozio, chiede loro se
hanno effettuato almeno un acquisto. Se la ricerca di mercato è corretta, qual è la probabilità
che almeno 150 soggetti del campione selezionato abbiano effettuato un acquisto?
Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X ha
una distribuzione Binomiale con parametri n = 200 e p = 0,70. Per trovare la probabilità
esatta, è necessario risolvere la seguente equazione:
P( X  150) 
 200 
0,70 x  0,30200 x

x 150  x 
200

In mancanza di un computer è piuttosto difficile e lungo risolvere tale equazione; in alternativa
si può, dunque, ricorrere all’approssimazione tramite la v.c Normale di media
  np  200  0,70  140
e
deviazione
standard
  np(1  p)  200  0,7  0,3  6,5 :
82
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
150  140
 1,54
6,5
P( Z  1,54)  1  P( Z  1,54)  1  0,9382  6,18%
z
Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano
effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18% che
costituisce una buona approssimazione al vero valore che è pari al 6,95%.
1.8.2 Distribuzione log-normale
La distribuzione log-normale denominata anche distribuzione di Galton è definita nel
semiasse reale positivo con funzione di densità di probabilità
f ( y;  ,  ) 
1
2
y
2
e

 log y   2
2 2
per 0  y  ,   0 e  2  0
dove Y  e X e X è una v.c. normale con media  e varianza  2 .
Anche se la v.c. log-normale ha momenti rispetto all’origine di qualunque ordine, la
funzione generatrice dei momenti è infinita my  t   E  et Y    per qualunque t > 0 .
La funzione caratteristica
my  i t   E  e

itY

i t 
n!
n 0
n
en  n 
2
2
/2
consente la facile derivazione dei momenti di qualunque ordine 7
E Y  
d
d
m y  i t  |t 0 
dit
dit


i t 
n!
n 0
n
en   n 
2
2
/2
|t 0 
 i t  e2   2 2   |  e    2 /2
d 
   2 /2

1   i t  e
 t 0
dit 
2!

2

E Y 2  
d2
d  it 
m y  i t  |t 0 
2

d2
d  it 
2

n 0
i t 
n!
n
en   n 
2
2
/2
|t 0 

 i t  e2   2 2   |  e2   2 2
   2 /2
1

i
t
e




 t 0
2
2!
d  it  

2
2
2
2     2 /2 
Var Y   2  12  e2   2  e
 e2    e  1 .

2
d2


Gli ambiti applicativi di questa distribuzione sono molto numerosi, da quello
economico a quello medico, da quello idrologico a quello demografico. Hanno
distribuzione log-normale il reddito, gli indici di borsa, i tassi di cambio, gli indici dei
7
Si richiamano due significative proprietà di questa v.c.:
1. Poiché il logaritmo di una v.c. log-normale è simmetrico ed i quantili sono invarianti rispetto a
trasformazioni monotone, la media geometrica e la mediana della v.c. log-normale sono uguali.
2. A ragione della mancata convergenza della funzione generatrice dei momenti della v.c log-normale (non
esiste), l’insieme di tutti i momenti non identificano univocamente la variabile stessa.
83
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
prezzi, la dimensione delle città e delle imprese, i valori massimi mensili e annuali delle
piogge, alcune misure relative allo stato di salute degli individui quali la pressione
sanguigna il peso distintamente per donne e uomini, ecc.
1.8.3 Distribuzione di Cauchy
Un’altra interessante distribuzione, soprattutto per le sue caratteristiche negative è la
distribuzione di Cauchy o anche di Cauchy-Lorentz; in statitistica viene spesso trattata
come esempio di distribuzione “patologica”.
La v.c. di Cauchy non ha funzione generatrice dei momenti, la sua media (momento
primo rispetto all’origine) non esiste e la sua varianza è infinita. La funzione di densità
di probabilità di questa variabile è

1

f ( x; ,  )  
 per -  x  , -<  0 e   0.
   x   2   2 
Per α = 0 e β = 1 si si ottiene la distribuzione di Cauchy nella sua forma standard
1
f ( x;0,1) 
.
 1  x 2 
La funzione caratteristica della distribuzione di Cauchy è

1

i  t   |t |
.

 dx = e
   x   2   2 

La rilevanza applicativa della v.c. di Cauchy è da attribuire soprattutto ai lavori di
Lorentz in ambito fisico.
mx  i t   E  e i t X  


ei t x
1.8.4 Distribuzione gamma
La distribuzione Gamma viene utilizzata nella generalità dei casi come modello per
descrivere fenomeni dipendenti dal tempo o, in termini più generali, per fenomeni di
durata (di vita, di resistenza, di funzionamento ecc.). Essa può essere più facilmente
compresa se si fa riferimento alla distribuzione discreta di Poisson. Infatti, nella
distribuzione di Poisson la variabile casuale X rappresenta il numero di successi,
mentre lo spazio di riferimento è fissato (unità di tempo o di spazio o di volume).
Viceversa, nella distribuzione continua Gamma la variabile casuale diventa lo spazio di
riferimento, mentre il numero di successi è fissato. In altri termini, mentre la Poisson
fornisce la probabilità che x successi si manifestino in un certo intervallo di tempo (o di
spazio o di volume), noto il numero medio di successi  = β per unità di tempo (o di
spazio o di volume), la distribuzione Gamma fornisce la probabilità che un tempo X = x
sia necessario affinché si manifesti un certo numero prefissato α di successi, noto il
tasso di manifestazione β di successi per unità di tempo. I parametri della distribuzione
Gamma sono, quindi, due: il numero α di successi che si desidera ottenere e il tasso di
manifestazione medio β di successi per unità di tempo.
84
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
La funzione di densità di probabilità della v.c. Gamma è data da:
f ( x; ,  ) 

1
x 1e

( ) 
x
per 0  x  ,   0 e   0

dove


( )  x 1e x dx
0
Procedendo ad una integrazione per parti si dimostra facilmente l’uguaglianza
( )    1 (  1)
Inoltre, se α è un numero intero si ha ( )    1! , (1)  0!  1 e (1 2)   .
La funzione generatrice dei momenti è
mx (t )  E ( etX )  

0
x

1
et x x 1e  dx 

( ) 
 1  t 
x 


1

 1
  

x
e
dx  1   t 
 0
( ) 
da cui
d
 1
  mx  t  / t 0   1   t      / t 0   
dt
d2
2  2 mx  t  / t 0    2   1
dt
var( X )  2  12    2
1.8.5 Distribuzione di Pareto (I° tipo)
La v.c. di Pareto si è rivelata un modello soddisfacente per la rappresentazione di
fenomeni in svariati contesti di ricerca, in particolare nelle scienze sociali, in quelle
geofisiche ed nell’ambito attuariale. Questa distribuzione è stata introdotta
dall’economista italiano Vilfredo Pareto per misurare la distribuzione del reddito. La
base della distribuzione è rappresentata dal fatto che un’elevata proporzione della
popolazione possiede un basso reddito mentre una bassa proporzione possiede un
reddito elevato. La funzione di densità di questa v.c è
f ( x;  ,  ) 
 
,  x 
  1
dove   0 e   0 ,  è il minimo assumibile dalla v.c. X.
Media e varianza sono
EX  

2 
per  > 1 Var  X  =
per  > 2.
2
 1
 -1  - 2 
La funzione generatrice dei momenti è definita per i soli valori di t  0
85
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
mx  t   E  e t X      t    - ,- t  e per t  0, mx  0   1

dove   - , - t  


-t
t  1et dt è la funzione matematica Gamma incompleta.
Il parametro   0 viene utilizzato, tra l’altro, come indice per la misura di
concentrazione del reddito.
1.8.6 Distribuzione di Weibull
La distribuzione di Weibull, anche per la sua estrema versatilità, trova largo impiego in
ambito ingegneristico per rappresentare fenomeni di affidabilità e di durata dei prodotti.
Questa v.c. ha funzione di densità
x

 

f ( x; ,  )   x  1 e    , 0  x   

dove   0 e   0 , x indica il tempo di rottura (guasto, difetto, fallimento nel contesto
economico, morte nel contesto biologico, ecc.). Per   1 , la v.c. di Weibull coincide
con la v.c. esponenziale negativa che verrà introdotta al punto successivo; mentre per
  2 , si ottiene la v.c. di Rayleigh; inoltre, per  che tende a +  la variabile tende
alla distribuzione di Dirac centrata sul valore x   .
Il parametro  rappresenta il tasso di rottura, tasso che, con il trascorrere del tempo,
decresce se   1 , cresce per   1 mentre rimane costante per   1 . Per 0    1 la
densità tende a +  per x che tende a 0.
La media e la varianza sono
2

 1
2  
1  

2 
E  X     1+  , Var  X  =  1+    1     .
      
 

 

La funzione generatrice dei momenti, che può essere espressa in diverse forme, è
analiticamente troppo complicata per risultare di qualche utilità.
1.8.7 Distribuzione esponenziale negativa
La funzione di densità di probabilità della distribuzione esponenziale negativa si ottiene
ponendo   1 nella funzione di densità di probabilità della v.c gamma:
f ( x;  ) 
1


e
x

per 0  x  ,   0
La funzione generatrice dei momenti è
mx (t )  E (et X )  1   t 
86
1
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
da cui
EX   
Var ( X )   2
Il parametro β viene usualmente denominato parametro di sopravvivenza (survival
parameter) e la variabile X sta ad indicare la durata in vita e   E  X  indica il tempo
medio di sopravvivenza8.
La distribuzione esponenziale negativa può essere anche intesa come la controparte
continua della distribuzione geometrica che, come già sottolineato, descrive il numero
di prove bernoulliane necessarie per ottenere un cambiamento di stato (x insuccessi
prima di ottenere 1 successo). L'esponenziale negativa descrive il tempo continuo
necessario affinché si realizzi un cambiamento di stato.
Un modo alternativo di definizione della v.c. esponenziale negativa è dato
1
dall'introduzione del reciproco del parametro  ponendo   , usualmente detto rate

parameter; in tal caso si ha
f ( x;  )   e x per 0  x  ,   0
1
1 

mx (t )  E (e )  1  t  da cui E ( X )     1,Var ( X )   2 .
  
La distribuzione esponenziale negativa in questa seconda formulazione può essere
utilizzata per determinare la probabilità che sia necessario un intervallo di tempo X = x
affinché si abbia la prima manifestazione dell’evento d’interesse.
La funzione delle probabilità cumulate dell’esponenziale negativa
F x   P X  x   1  e x
assume particolare significato quando l’evento d’interesse è il guasto di un macchinario
1
o di una sua parte. In tal caso, ponendo   ,  diventa il tasso di rottura di quel
tX

macchinario per unità di tempo e la funzione delle probabilità cumulate fornisce la
probabilità che il macchinario si guasti prima del tempo X = x. In realtà, è di maggiore
interesse conoscere la probabilità che il macchinario non si guasti prima di un certo
tempo x: tale probabilità è semplicemente 1  F ( x )  e  x . Tale funzione è spesso
chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o,
analogamente, la probabilità che non si verifichi nessun guasto entro certi tempi per
certi tipi di macchinario. Affinché la funzione di attendibilità sia un buon modello è,
però, necessario che il macchinario d’interesse abbia un tasso di rottura  costante nel
tempo; in caso contrario l’Esponenziale non fornisce un buon modello per verificare
l’affidabilità del macchinario.
8
Questa distribuzione può, come sopra sottolineato, derivare dalla distribuzione di Weibull, sostituendo
87

con
.
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Un aspetto interessante della funzione di attendibilità è che tramite essa è possibile
conoscere l’affidabilità di un intero sistema produttivo costituito da una serie di
macchinari M1, M2, ...., Mn, aventi, rispettivamente, tassi di fallimento 1, 2, ..., n
costanti, così da valutare oggettivamente la possibilità di ultimare una certa produzione
entro il termine di consegna x. Infatti, l’affidabilità A dell’intero sistema è data da:
n


A  exp   x i 
 i 1 
e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di
fallimento delle singole componenti.
Esempio 1.30
Si consideri un’azienda produttrice di computer che sta per lanciare sul mercato un nuovo tipo
di stampante: uno dei principali fattori critici per il successo di questo nuovo prodotto è stato
individuato dai manager dell’azienda nel suo effettivo corretto funzionamento. Infatti, se la
stampante dovesse rompersi, ne risentirebbero negativamente la soddisfazione del consumatore
e, quindi, il livello delle vendite future di tutti i prodotti dell’azienda. Prima del lancio sul
mercato, il management dell’azienda vorrebbe, dunque, avere maggiori informazioni sul grado
di affidabilità del nuovo prodotto, in termini di guasti che lo stesso potrebbe presentare nel
termine di un anno dall’acquisto da parte del cliente. A tal proposito il responsabile tecnico
della produzione sa che tutte le componenti della stampante sono già state ampiamente usate e
testate da anni su altri prodotti dell’azienda e sono altamente affidabili; l’unica eccezione è
rappresentata da un sensore elettrico che entra in funzione ogni volta che la stampante viene
predisposta per un tipo di carta più grande del classico A4. Egli stima che il dispositivo venga
attivato in media 10 volte all’anno. Il modello esponenziale fornisce, in questo caso, la
probabilità di “sopravvivenza” del singolo prodotto, tramite l’espressione P( X  x )  e  x ,
dove x rappresenta una misura del tempo di sopravvivenza. Poiché il tempo è misurato in
termini di numero di volte in cui il dispositivo elettrico viene attivato, cioè 10, allora si può
porre x = 10. L’unico parametro sconosciuto, a questo punto, rimane , il tasso di fallimento.
A questo proposito il responsabile tecnico acquista un certo numero di dispositivi elettrici e li
sottopone a 10.000 cicli di accendimento e spengimento: il numero di guasti osservati è di 7 sul
totale di 10.000 cicli. Dunque, il responsabile tecnico stima il tasso di fallimento del sensore
pari a   7 / 10.000  0,0007 . Di conseguenza,
P( X  x)  e  x  e 0,0007  10  e 0,007  0,993  99,3% ,
cioè la probabilità che una stampante funzioni adeguatamente per almeno un anno senza
presentare guasti è pari al 99,3%.
1.8.8 Distribuzione 2 (di Pizzetti-Pearson)
n
(n intero positivo) e   2 si ottiene una
2
importante v.c generalmente indicata con il simbolo  n2 (distribuzione chi quadro) la
Se nella distribuzione Gamma si pone  
cui funzione di densità è:
88
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
f ( x)  f ( x; n) 
2
n/2
1
x ( n / 2)1e  x / 2
(n / 2)
per x  0
dove il parametro n rappresenta i gradi di libertà della distribuzione 2.
La curva della distribuzione 2 è monotona per n = 1 e n = 2; per n > 2 ha un
massimo nel punto x = n - 2.
La funzione generatrice dei momenti, la media e la varianza sono date da
mx (t )  E (et X )  1  2 t 

n
2
e   n, Var( X )  2 n
Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale
normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 ,
definita nell’intervallo (0 , +), è una variabile del tipo 2 (chi quadro) con un grado
di libertà. Infatti, se si considera la funzione di densità della v.c. normale standardizzata
1 
f  z 
e
2
z2
2
e si opera la trasformazione Z 2  X , la funzione di distribuzione della v.c. X è


F  x  P  X  x = P Z 2  x  P  x  Z   x 


 2P 0  Z   x  2

 x
0
2
z
2

1
e
2
dz
Se si trasforma la variabile d’integrazione ponendo z 2  v
1  12
da cui z  0  v  0, z   x  v  x e dz  v dv si ha
2
v
1
v
1
x
x



1
1 2
1
F  x  2
e 2
v dv 
e 2 v 2 dv  F  z 2 
2
0
0
2
2
2
che è la funzione di distribuzione di una v.c. 1 con 1 grado di libertà.


Tenendo presente questo risultato e che la funzione generatrice dei momenti di una
v.c. X di tipo 12 è data da mx (t )  E (et X )  1  2 t 

1
2
ne deriva che la somma di n
variabili casuali normali standardizzate indipendenti al quadrato ha una distribuzione di
n
tipo  n2 con n gradi di libertà. Infatti,ponendo X   Zi2 si ha
i 1
n
mx (t )  E (et X )  E (e
t
 Zi2
i 1
n
)

n
E (e t Zi ) 
2
i 1
Si dimostra che la variabile casuale 
1  2 t 

1
2
 1  2 t 

n
2
.
i 1
2
n
standardizzata tende, al crescere di n, alla
distribuzione normale standardizzata, ne deriva quindi una possibilità di
approssimazione della v.c. 2 mediante la v.c. normale per n sufficientemente elevato.
Da questo risultato deriva, inoltre, che la somma di k variabili casuali del tipo 2,
89
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
stocasticamente indipendenti e con gradi di libertà rispettivamente pari a n1, n2, ...,nk, è
ancora una variabile casuale 2 con
k
g   ni gradi di libertà (proprietà additiva o
i 1
riproduttiva del 2). Infatti, date k v.c. indipendenti X1, X2, ….. , Xk di tipo2 con gradi
X
k
di libertà rispettivamente pari a n1, n2, ...,nk, la v.c. somma Y 
i
ha funzione
i 1
generatrice dei momenti
k
my (t )  E (etY )  E (e
t
 Xi
1
)  E (et X1 ) E (et X 2 )  E (et X k ) 
k
 1  2 t 

n1
2
1  2 t 

n2
2
 1  2 t 

nk
2
 1  2 t 

 ni
1
2
 1  2 t 

g
2
k
dove g   ni .
i 1
Esempio 1.31
Sia X una variabile casuale del tipo  n2 con 5 gradi di libertà (n=5). Si vogliono determinare le
costanti c, c e c in modo che sia:
1
2
a) P (X  c) = 0,10
b) P (X > c) = 0,05
c) P (c1 < X  c2) = 0,95 per c1 < c2
Utilizzando le tavole della distribuzione  n2 si avrà
a) - P (X  c) = F(c) = 0,10 => c = 1,61
b) - P (X > c) = 1 - p (X  c) = 1 - F(c) = 0,05 => c = 11,1
c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c2)
capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05
in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2,
oppure 0,02 a sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano
particolari ragioni per specificare altrimenti, si suddivide la probabilità in parti uguali, così
facendo si avrà
P (X  c1) = F(c1) = 0,025 => c1 = 0,831
P (X > c2) = 1 - P (X  c2) = 0,025 => c2 = 12,8
da cui
P (c1 < X  c2) = P (0,831 < X  12,8) = 0,95.
90
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
1.8.9 Distribuzione beta
La distribuzione Beta è considerata la distribuzione base per le variabili casuali limitate
inferiormente e superiormente, è definita su un intervallo finito a,b, dipende da quattro
parametri (a, b,   0 e   0 ) ed ha la seguente funzione di densità di probabilità:
1
( x  a) 1 (b  x)  1
f ( x; a, b,  ,  ) 
per a  x  b,  0 e   0 .
B( ,  )
(b  a)   1
L’espressione analitica della funzione matematica Beta è
1
B( ,  )   x 1 (1  x)  1 dx per   0 e   0
0
La funzione Beta (integrale di Eulero) è in relazione con la funzione matematica
gamma (.)
( )(  )
.
B  ,   
    
Per α e β interi si ha
B  ,   
  1!    1! 9
    1!
La funzione generatrice dei momenti della v.c. Beta ha una espressione algebrica
tutt'altro che semplice e si rivela quindi scarsamente utile; comunque, i momenti
possono essere facilmente derivati ricorrendo alla funzione di densità di probabilità.
Nella generalità dei casi, la variabile casuale Beta viene definita sull’intervallo
unitario 0,1, cioè per a = 0 e b = 1. In questo caso la funzione di densità diventa:
1
(    1)!
  1
  1
f ( x; ,  ) 
x  1 1  x 

x  1 1  x 
con 0  x  1
B( ,  )
(  1)! (   1)!
La media e la varianza della distribuzione Beta sono date da:


 
e 2 

2
        1
Al variare del valore dei parametri  e  , la funzione di densità Beta può
assumere un gran numero di forme diverse. L’estrema flessibilità di questa v.c. la rende
idonea a rappresentare molti fenomenti in svariati ambiti disciplinari; inoltre, come si
avrà modo di illustrare nel Cap. 6, gioca un ruolo molto rilevante nel contesto
dell’inferenza statistica bayesiana.
9
Altre espressioni analitiche per rappresentare la funzione matematica Beta sono:
n  


 
n 
y 1

; B  ,    
B  ,    
 
n  0   n 
0 1  y 

B  ,    2  2  sen x 
0
2 1
cos x 
2  1
dx
.
91
;

   

B  ,   
1 


  n1  n  + +n  
1
;
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
La figura riportata10 nelle pagine successive rappresenta un esempio di impiego della
v.c. beta. I grafici evidenziano il diverso metro di valutazione impiegato nelle facoltà: a
fronte di un’attribuzione di voti prossima alla simmetria nelle facoltà di Economia,
Giurisprudenza e Ingegneria, si collocano facoltà quali Lettere e Filosofia, Scienze della
Formazione e Farmacia, con una asimmetria molto pronunciata e per le quali risulta in
modo molto evidente uno sbilanciamento verso l’attribuzione di voti più elevati. Infatti,
se si ritorna alla classica votazione in 30-esimi si registrano le seguenti votazioni medie.
Economia 26, Giurisprudenza 25,9, Ingegneria 26,2, Lettere e Filosofia 28, Scienze
della Formazione 28,4, Farmacia 26,6. Relativamente alle votazioni attribuite si segnala
che anche altre facoltà evidenziano un’attitudine all’attribuzione di voti elevati. A
completamento del quadro informativo si riportano le votazioni medie attribuite nelle
altre facoltà. Agraria 26,5, Architettura 27, Medicina e Chirurgia 26,9, Scienze
Matematiche, Fisiche e Naturali 26,7, Scienze Politiche 26,5.
10
I grafici sono stati ripresi dal volume Chiandotto, Bacci, Bertaccini (2004). I laureati e diplomati dell’Ateneo
Fiorentino dell’anno 2000: Profilo e sbocchi occupazionali (pp. I-XLIX, 1-532). consultabile anche sul sito
http://valmon.disia.unifi.it/index.php?idp=P9. Università degli Studi di Firenze.
92
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Fig. 1.6 – Laureati dell’Ateneo fiorentino nell’anno solare 2000: voto medio agli esami in
110esimi, per facoltà (distribuzioni di frequenza)
15
%
15
%
ATENEO
Beta ATENEO (α = 5,63 ; β = 2)
12
Agraria
Beta Agraria (α = 9,79 ; β = 3,5)
Beta Ateneo
Asimmetria = -0,27
12
Asimmetria = -0,64
9
9
6
6
3
3
0
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
Architettura
Beta Architettura (α = 17,96 ; β = 6,01)
Beta Ateneo
Asimmetria = -0,4
15
%
12
71
74
12
9
6
6
3
3
0
80
83
86
89
92
95
98
101 104 107 110
Econom ia
Beta Economia (α = 8,15 ; β = 4,11)
Beta Ateneo
Asimmetria = -0,17
15
%
9
77
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
Farm acia
Beta Farmacia (α = 4,64 ; β = 1,8)
Beta Ateneo
Asimmetria = -1,41
15
%
12
71
74
12
9
6
6
3
3
0
80
83
86
89
92
95
98
101 104 107 110
Giurisprudenza
Beta Giurisprudenza (α = 5,87 ; β = 3,01)
Beta Ateneo
Asimmetria = -0,15
15
%
9
77
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
71
93
74
77
80
83
86
89
92
95
98
101 104 107 110
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Fig. 1.6 – (continua)
15
%
12
Lettere e Filosofia
Beta Lettere e Filosofia (α = 11,72 ; β = 1,7)
Beta Ateneo
Asimmetria = -1,00
15
%
Ingegneria
Beta Ingegneria (α = 8,42 ; β = 3,88)
Beta Ateneo
Asimmetria = -0,19
12
9
9
6
6
3
3
0
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
71
Medicina e Chirurgia
Beta Medicina e Chirurgia (α = 7,38 ; β = 2,31)
Beta Ateneo
Asimmetria = -0,55
15
%
12
74
12
9
6
6
3
3
0
80
83
86
89
92
95
98
101 104 107 110
Scienze Form az
Beta Scienze Formaz (α = 11,01 ; β = 1,36)
Beta Ateneo
Asimmetria = -0,80
15
%
9
77
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
71
Scienze Politiche
Beta Scienze Politiche (α = 7,51 ; β = 3,16)
Beta Ateneo
Asimmetria = -0,50
15
%
12
74
12
9
6
6
3
3
0
80
83
86
89
92
95
98
101 104 107 110
SMFN
Beta SMFN (α = 7,46 ; β = 2,77)
Beta Ateneo
Asimmetria = -0,44
15
%
9
77
0
71
74
77
80
83
86
89
92
95
98
101 104 107 110
71
94
74
77
80
83
86
89
92
95
98
101 104 107 110
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
1.8.10 Distribuzione uniforme
La distribuzione Uniforme Continua si configura come caso particolare della
distribuzione Beta ponendo  =  = 1. Tale distribuzione viene impiegata per
descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo
intervallo. Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa
probabilità, così che la funzione di densità di probabilità assume una forma rettangolare,
esplicitata dalla seguente relazione.
1
con    a  x  b  
f ( x; a, b) 
ba
La funzione di ripartizione F(x) è pari a:
xa
con a  x  b
F ( x) 
ba
b  a  .
ab
e la media e la varianza: E ( X ) 
; Var ( X ) 
12
2
2
1.8.11 Distribuzione t (di Student)
La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo
pseudonimo di "Student".
La v.c t di Student è definita dalla relazione
Z
X 
Y /n
dove:
 Z è una variabile casuale normale standardizzata;
 Y è una variabile casuale 2 con n gradi di libertà;
 Z e Y sono variabili stocasticamente indipendenti.
La funzione di densità di probabilità di una variabile casuale X di tipo t di Student ha
funzione di densità di probabilità definita dalla relazione:
f ( x )  f ( x; n ) 
   n  1 2 
  n 2
1
n  1  x 2 n 
n 1 2
per    x  
è simmetrica ed ha un massimo nel punto t = 0. La media è  = 0 per n  2 , mentre
non esiste per n = 1; la varianza non esiste per n = 1, 2 mentre per n  3 la varianza è
n
data da  2 
.
n2
Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata;
un buona approssimazione si ottiene anche per n relativamente piccolo ( n  30 ).
La funzione generatrice dei momenti della v.c. t di Student non esiste.
95
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Esempio 1.32
Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono determinare i
valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) = 0,05;
c)P(-c < X  c) = 0,99; d) P(0 < X  c) = 0,475.
Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si
ottiene:
a)- P (X > c) = 1 - P (X  c) = 1 - F(c) = 0,05 => c = 1,83
b)- P (X  c) = F(c) = 0,05 => c = -1,83
c)- P (-c < X  c) = P (X < c) - P (X  c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] =
0,99 => c = 3,25
d)- P (0 < X  c) = P (X  c) - P (X  0) = F(c) - 0,5 = 0,475 => c = 2,26.
1.8.12 Distribuzione F (di Fisher- Snedecor)
La distribuzione F è relativa alla variabile
X 
V / n1
Y / n2
dove, V e Y sono due variabili casuali del tipo 2, con gradi di libertà rispettivamente
pari a n1 e n2, distribuite indipendentemente.
Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale, e si verifica
facilmente che le due variabili casuali Fn1 ,n2 e Fn21,n1 hanno la stessa distribuzione.
La funzione di densità di probabilità di una variabile casuale X di tipo F di FisherSnedecor, con n1 e n2 gradi di libertà, è:
n n 
  1 2  n1n1 /2n2n2 /2
x ( n1 /2)1
2 
f ( x )  f ( x; n1 , n2 )  
per 0  x  +
 n1   n2  (n1 x  n2 )( n1  n2 )/2
   
2 2
La media e la varianza sono date da:

n2
2n22 (n1  n  2)
; 2 
n2  2
n1 (n2  2) 2 (n2  4)
La funzione generatrice dei momenti della v.c. F di Fisher-Snedecor non esiste.
Esempio 1.33
Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono
determinare i valori della costante c che soddisfano le relazioni:
a) P (X  c) = 0,95 ; b) P (X  c) = 0,01.
Utilizzando la tavola della distribuzione F si ottiene
a) P (X  c) = F7,10(c) = 0,95 => c = 3,14
b) - Per quanto detto nel testo risulta l'uguaglianza
F7,10(c) = 1 - F10,7(1/c), per cui
96
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
P (X  c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 =>
1
= 6,62 => c = 0,15.
c
1.8.13 Variabili casuali continue: riepilogo11
Di seguito è riportato riepilogo delle variabili casuali continue considerate.
 V.c. Normale
Descrizione: una vasta serie di esperimenti casuali ha associata una variabile casuale la
cui distribuzione è approssimativamente normale;alcune variabili casuali che non sono
distribuite normalmente, possono essere rese tali mediante trasformazioni relativamente
semplici; alcune distribuzioni relativamente complicate, possono essere approssimate
sufficientemente bene dalla distribuzione normale. E’ la distribuzione su cui è basata
principalmente tutta l’inferenza statistica soprattutto grazie al teorema del limite centrale
Parametri caratteristici:  e 2 che rappresentano, rispettivamente, media e varianza
della distribuzione.
Supporto della v.c. X: x (-,+)
Funzione di densità di probabilità
f ( x )  f ( x;  , 2 ) 
1
2 2
e
1  x 
 

2  
2
Forma – Simmetrica, centrata sulla media μ e con indice di curtosi pari a 3. Cfr.
http://www.xycoon.com/continuousdistributions.htm.
E  X   μ1  
Var(X)  σ 2
mx (t )  e t 
2 2
t /2
 V.c. Log-normale
Descrizione: Molti fenomeni possono essere adeguatamente descritti dalla
distribuzione log-normale: il reddito, gli indici di borsa, i tassi di cambio, gli
indici dei prezzi, la dimensione delle città e delle imprese, i valori massimi
mensili e annuali delle piogge, ecc
Parametri caratteristici:  e 2
Supporto della v.c. X: x (0,+)
Funzione di densità di probabilità
f ( y;  ,  ) 
2
1

e
 log y   2
2 2
y  2
Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
11
Si consiglia la consultazione del sito:” http://www.xycoon.com/continuousdistributions.htm” dove è riportata una
panoramica pressoché completa delle v.c. continue.
97
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
E Y   e   
2
Versione 2015
/2


Var Y   e2    e  1 .
2
my i t   E  e
2

itY

n 0
i t 
n!
n
en   n 
2
2
/2
 V.c. di Cauchy
Descrizione: Trova le maggiori applicazioni in ambito fisico.
Parametri caratteristici: α e β
Supporto della v.c. X: x -,+
Funzione di densità di probabilità

1



   x   2   2 
Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
mx  i t   ei  t   | t | .
f ( x; ,  ) 
 V.c. di Pareto (I° tipo)
Descrizione: Introdotta per misurare la distribuzione del reddito, anche a ragione di
successive generalizzazioni, trova applicazione in diversi contesti applicativi quali quello
geofisico e l’attuariale.
Parametri caratteristici: α e β
Supporto della v.c. X: x (0,+)
Funzione di densità di probabilità
 
f ( x;  ,  )   1

Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
 
per  > 1
 1
2 
Var  X  =
per  > 2.
2
 -1  - 2 
EX  
La funzione generatrice dei momenti è definita per i soli valori di t  0
mx  t   E  e t X      t    - ,- t  e per t  0, mx  0   1

 V.c. di Weibull
Descrizione: E’ estremamente versatile e trova largo impiego nell’analisi di fenomeni di
durata.
Parametri caratteristici: α e β
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
98
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
  1   x  
x e

f ( x; ,  ) 
Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
 1
E  X      1+ 
 
2
  2   
1   
Var  X  =     1+      1     .
         
mx  t   non utile
2
 V.c. Gamma
Descrizione - Fornisce la distribuzione del tempo necessario affinché si realizzino k
eventi indipendenti quando il tasso di realizzazione è costante. Utilizzata spesso come
modello per descrivere fenomeni di durata (in vita, resistenza, funzionamento
ecc.).
Parametri caratteristici - α, il numero di successi desiderati; =1/β, il tasso di
realizzazione di un successo per unità di tempo
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
x

1
f ( x; ,  ) 
x 1e 

( ) 
Forma - Quando α  1, la funzione è asimmetrica positiva con una moda; quando α = 1,
la
funzione
decresce
monotonicamente
a
partire
dall’origine.
Cfr.
http://www.xycoon.com/continuousdistributions.htm.
1
EX    


Var(X)  2    2

 1 
mx (t )  1  t 
  

 1   t 

 V.c. Esponenziale negativa
Descrizione: Deriva dalla v.c. Gamma quando α = 1. Fornisce la probabilità
dell’intervallo di tempo necessario affinché si realizzino due eventi indipendenti con
tasso di realizzazione costante
Parametri caratteristici: , il tasso di realizzazione di un successo per unità di tempo
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
f ( x;  ) 
1


e
x

99
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
EX   
Var(X)   2
1
1
 1 
mx (t )  1  t   1   t 
  
 V.c. 2 di Pizzetti-Pearson
Descrizione: Deriva dalla v.c. Gamma per  
n
(n intero positivo) e   2 e anche
2
dalla somma di n variabili casuali normali standardizzate indipendenti elevate al
quadrato.
Parametri caratteristici: n, il numero di gradi di libertà
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
f ( x)  f ( x; n) 
2
n/2
1
x ( n / 2)1e  x / 2
(n / 2)
Forma - Asimmetrica positiva con indice di curtosi maggiore di 3. Per n tendente ad ,
assume una forma sempre più vicina alla Normale.
Cfr. http://www.xycoon.com/continuousdistributions.htm.
EX   n
Var(X)  2n
 V.c. Beta
Descrizione: Distribuzione base per le variabili casuali limitate inferiormente e
superiormente. E’ impiegata come modello per descrivere la distribuzione degli stimatori
dei parametri di alcune variabili casuali
Supporto della v.c. X: x (a, b)
Parametri caratteristici:  e , che definiscono la forma e i momenti caratteristici della
funzione
Funzione di densità di probabilità
1
( x  a) 1 (b  x)  1
B( ,  )
(b  a)   1
Forma - Varia notevolmente al variare di  ed . Per es., se  = , la funzione è
simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando  con  si riflette la
forma della distribuzione rispetto al suo asse di simmetria. Se sia  che  sono entrambi
f ( x; a, b,  ,  ) 
maggiori di 1, allora la funzione mostra una moda, altrimenti, se sono entrambi minori di
1, presenta una forma ad U e, quindi, una “antimoda”. Quando (-1) (-1)  0, la
funzione presenta una forma a “J”.
Cfr. http://www.xycoon.com/continuousdistributions.htm.
100
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
EX  
Versione 2015


Var (X) 

2
        1
 V.c. Uniforme (rettangolare)
Descrizione:E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi
di eventi all’interno di un certo intervallo, quando la probabilità di realizzazione è
proporzionale all’ampiezza dell’intervallo.
Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x
Supporto della v.c. X: x (a, b)
Funzione di densità di probabilità
f ( x; a, b) 
1
ba
Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse
nell’intervallo (a, b).
EX  
ab
2
b  a 
Var(X) 
2
12
 V.c. t di Student
Descrizione: Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di
una v.c. Chi – quadrato divisa per i suoi gradi di libertà
Parametri caratteristici: n, il numero di gradi di libertà
Supporto della v.c. X: x (-,+)
Funzione di densità di probabilità
 n 1


1
2 

f ( x)  f ( x; n) 
n 1
n
  n 
x2  2
1  
2
n 

Forma - Simmetrica con media nel punto 0 (se n = 1 però la media non esiste). Per n
tendente ad +, assume una forma sempre più vicina alla Normale.
E  X    non esiste per n  1
E  X   0  per n  2
Var(X)   non esiste per n  1 e n  2
Var(X) 
n
per n  3
n2
101
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
 V.c. F di Fisher-Snedecor
Descrizione:Deriva dal rapporto di due v. c. Chi – quadrato indipendenti, ciascuna
divisa per i rispettivi gradi di libertà (n1 ed n2)
Parametri caratteristici: n1 ed n2, i gradi di libertà
Supporto della v.c. X: x (0, +)
Funzione di densità di probabilità
n n 
  1 2  n1n1 / 2 n2n2 / 2
x ( n1 / 2)1
2 

f ( x)  f ( x; n1 , n2 ) 
n 
 n  (n1 x  n2 )( n1  n2 ) / 2
 1    2 
2
 2
Forma - Cfr. http://www.xycoon.com/continuousdistributions.htm.
E  X    non esiste per n  1 e n  2
EX  
n2
 per n  2
n2  2
Var(X)   non esiste per n  1 e n  2
Var(X) 
2 n22  n2  n1  2 
 per n  4
n1 (n  2)2  n  4 
1.9 - Variabili casuali multidimensionali
Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle
funzioni che soddisfano a certe condizioni e che associano a ciascun evento elementare
(punto dello spazio campionario) ω Ω un numero reale.
L’estensione al caso multidimensionale non presenta difficoltà di ordine logico, si
tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare
non più un numero ma una k-upla (k  2) ordinata di numeri reali.
Definizione 9 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione
X()
X ()   x , x ,..., x  '  x 12 a valori reali in Rk (spazio euclideo
1
2
k
a k  2 dimensioni) definita su  per la quale vale la relazione
A     : X ()  x  B per ogni x  Rk
dove
12
Da rilevare che il vettore x è stato definito come vettore colonna mentre x’ indica il vettore riga (trasposto di x).
102
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
 x1
x
 2
x 

 
 xk









sta ad indicare un vettore di k numeri reali.
Quindi la variabile casuale a k dimensioni è una funzione a k componenti che fa
corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre,
essendo A  B elemento dell’algebra di Boole costruita sugli eventi (   ) è possibile
determinare la sua misura di probabilità
P  A  P   / X ( )  x   P  X ( )  x   P  X  x  
 P  X 1  x1  
 X 2  x2 


 X k  xk   F  x1 , x2 ,......, xk   F  x 
che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle
probabilità cumulate della variabile casuale a k dimensioni (vettore casuale)
 X1 
X 
 2 
X   


  
Xk 


La variabile casuale multipla (v.c.m.) X =  X 1, X 2 ,....., X k 
'
è discreta se tutte le
componenti possono assumere soltanto un numero finito o un’infinità numerabile di
valori reali distinti, è invece continua se tutte le componenti possono assumere
un’infinità non numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di
variabili casuali miste, quando alcune componenti sono discrete, altre continue.
La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a
proposito della funzione di distribuzione per variabili casuali semplici F(x). Infatti, la
funzione di distribuzione:
1. è monotona non decrescente rispetto a tutti gli argomenti;
2. valgono i limiti:
lim F ( x1 , x2 ,..., xi ,..., xk )  0 ; per i  1, 2,...., k
xi   
lim F ( x1 , x2 ,..., xk )  1
x1   
x2   
xk   
lim F ( x1 , x2 ,..., xi ,..., xk ) 
xi   
 F ( x1 , x2 ,..., xi 1 , xi 1 ,..., xk ); per i  1, 2,...., k
dove F ( x1 , x2 ,..., xi 1 , xi 1 ,...,xk ) è la funzione di distribuzione della variabile
casuale a k-1 dimensioni  X1, X 2 , ..., X i 1, X i 1,..., X k  ;
103
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
3. è continua a destra rispetto a tutti gli argomenti nel caso discreto, è
assolutamente continua rispetto a tutti gli argomenti nel caso continuo.
Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di
distribuzione possono essere ricavate in modo univoco, rispettivamente
 nel caso discreto, la funzione di massa di probabilità
f ( x1i , x2 j ,..., xks )  P  X1  x1i    X 2  x2 j     X k  xks 
che rappresenta, appunto, la probabilità che ha il vettore casuale
X   X1, X2 ,
, Xk 
'
'
di assumere la determinazione xi   x1i , x2 j , , xks  .
 nel caso continuo la funzione di densità di probabilità
f ( x1 , x2 ,..., xk ) 
ed anche
d F ( x1 , x2 ,..., xk ) 
k
F ( x1 , x2 ,..., xk )
 x1  x2  xk
f ( x1 , x2 ,..., xk ) dx1dx2 .....dxk  f  x  d  x  
 P  ( x1  X 1  x1  dx1 )  ( x2  X 2  x2  dx2 )  ......  ( xk  X k  xk  dxk )
che rappresenta la probalità che ha il vettore casuale di assumere una
determinazione nell’ipercubo infinitesimo a k dimensioni
 xi , xi  dx   ( x1, x1  dx1 ),( x2 , x2  dx2 ),......,( xk , xk  dxk )
Per la funzione di massa di probabilità valgono le proprietà:
0  f(x1i, x2j, ... , xks)  1
i  j ...s f(x1i ,x2 j ,...,xks )  1
mentre per la funzione di densità valgono le proprietà
f ( x1 , x2 ,..., xk )  0
 

 

  ... 
f ( x1 , x2 ,..., xk ) dx1 dx2 ...dxk 1
Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso
discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza
biunivoca e le funzioni stesse identificano completamente la variabile casuale
multipla (vettore casuale) X   X 1, X2 ,
, Xk  .
'
Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale
multipla
 X1, X2 ,
, X k  , si dicono indipendenti in probabilità o statisticamente
'
indipendenti se vale la relazione
F(x1, x2, ..., xk) = F(x1) F(x2) ... F(xk)
od anche
f(x1i, x2j, ..., xks) = f(x1i) f(x2j) ... f(xks)
nel discreto
f(x1, x2, ..., xk) = f(x1) f(x2) ... f(xk)
nel continuo
104
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a
due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è
posto X1 = X e X2 = Y . La variabile casuale doppia (X, Y) è completamente
individuata dalla sua funzione di distribuzione
F ( x, y)  P ( X  x)  (Y  y)
od anche:
i) dalla sua funzione di massa di probabilità nel caso discreto
f ( xi , y j )  F ( xi , y j )  F ( xi , y j 1 )  F ( xi 1 , y j )  F ( xi 1 , y j 1 ) 
 P ( X  xi )  (Y  y j )   pij  fij
per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +);
ii) dalla sua funzione di densità di probabilità nel caso continuo
f ( x, y ) 
2
F ( x, y )
x  y
per a  x  b e c  y  d (a e/o c possono tendere al valore -, b e/o d
possono tendere al valore +).
Valgono, ovviamente, le relazioni
h
0  f(xi , yj)  1
k
 f ( x , y
,
i 1 j 1
f(x , y)  0
,
b
d
a
c
i
j
) 1
  f ( x, y) dx dy 1
inoltre
h
 f (x , y
i 1
i
j
) f ( y j )
j
)  f ( xi ) ; i  1,2,..., h
k
 f (x , y
j 1
i
j  1,2,..., k
b

f ( x, y ) dx  f ( y ) ; c  y  d
a
d

f ( x, y ) dy  f ( x) ; a  x  b
c
che definiscono le funzioni di massa e di densità di probabilità delle variabili casuali
semplici componenti la variabile casuale doppia (variabili casuali marginali).
Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a
doppia entrata del tipo
105
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Y
Versione 2015
y1
y2
...
yj
...
yk
x1
p11
p12
...
p1j
...
p1k
p1.
x2
p21
p22
...
p2j
...
p2k
p2.





xi
pi1
pi2
pik
pi.





xh
ph1
ph2
...
phj
...
phk
ph.
p.1
p.2
...
p.j
...
p.k
1
X

...
pij
...

Tab. 1.1 - Schema di tabella a doppia entrata per la variabile casuale doppia
discreta (Xi,Yj)
dove:
pij  fij  f ( xi , y j )  P ( X  xi )  (Y  y j ) 
k
pi.  pij per i = 1,2,...,h
j 1
h
p. j  pij per j = 1,2,...,k
i 1
h
k
p..  pij 1
i 1 j 1
Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X,
Y), sono indipendenti statisticamente, o indipendenti in probabilità se:
pij  pi.  p. j  P ( X  xi )  (Y  y j )   P( X  xi )  P(Y  y j )  f ( xi , y j )  f ( xi )  f ( y j )
Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti,
interesserà, per un verso, la misura dell’eventuale relazione, per altro verso, l’analisi
delle cosiddette variabili casuali condizionate che, riferendosi per semplicità sempre al
caso discreto, sono definite dalle relazioni:
 variabili casuali condizionate X/
(X/Y = yj) = X/yj
per j = 1,2,...,k
con funzioni di massa condizionata
f ( xi , y j )
f(xi/yj) =
per i = 1,2,...,h ; j = 1,2,...,k
f (y j )
 variabili casuali condizionate Y/
(Y/X = xi) = Y/xi
per i = 1,2,...,h
con funzioni di massa condizionata
f ( xi , y j )
f(yj/xi) =
per i = 1,2,...,h ; j = 1,2,...,k
f ( xi )
106
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della
variabile condizionante Y ) e h variabili condizionate Y/xi (tante quante sono le
modalità della variabile condizionante X ).
Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e
(Y/X = x) = Y/x sono in numero infinito.
La funzione di distribuzione o le funzioni di massa o di densità di probabilità
descrivono in modo completo sia la variabile casuale doppia che le variabili casuali
semplici (variabili casuali marginali) componenti la variabile casuale doppia e le
variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali
semplici può risultare comunque conveniente una descrizione sintetica (e quindi
parziale) delle variabili casuali doppie.
Un modo per procedere nella sintesi, analogamente a quanto si è fatto per le variabili
casuali semplici, è quello di calcolare il valore atteso di opportune trasformazioni delle
variabili casuali doppie; ovviamente, le trasformazioni devono essere tali da rendere
significativo (finito) il computo del valore atteso.
1.10 - Valore atteso di funzioni (trasformazioni) di variabili casuali
doppie e multiple
Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da
Eg  X , Y    g xi , y j   f xi , y j    g xi , y j   pij nel discreto
h
k
h
i 1 j 1
Eg  X , Y   
b
a
k
i 1 j 1
 g x, y   f x, y  dx dy
d
nel continuo
c
Momenti misti rispetto all’origine
Ponendo g(X , Y) = Xr  Ys , per r,s = 0,1,2,..., si ha
 rs  E X r  Y s    xir y sj  pij
h
k
nel discreto
i 1 j 1
 rs  E X r  Y s   
b
a

d
c
x r y s  f x,y  dx dy
nel continuo
che viene detto momento misto di ordine rs rispetto all’origine.
Risulta facile verificare che i momenti misti 10 e 01 sono i momenti primi (cioè
le medie aritmetiche) delle variabili casuali marginali semplici X ed Y ; infatti, si ha:
10  E  X 1  Y 0    xi  pij   xi  pij   xi pi. =  x
h
k
i 1 j 1
10  E  X 1  Y 0  
b
d
a
c

h
k
h
i 1
j 1
i 1
nel discreto
x  f  x, y  dx dy   x  f  x  dx   x
b
a
107
nel continuo
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Analoghe considerazioni possono essere fatte nei confronti dei momenti 01, 20,
02, 30, 03, ecc.
Il momento misto più significativo ed interessante è quello del primo ordine o
momento misto rispetto all’origine di ordine 1,1, 11 = xy
11  E  X 1  Y 1    xi  y j pij =  xy
h
k
nel discreto
i 1 j 1
11  E  X 1  Y 1  
b
d
a
c

x  y  f  x, y  dx dy   xy
nel continuo.
Momenti misti rispetto alla media o momenti misti centrali
Ponendo
g(X  Y) = ( X   x ) r (Y   y ) s
per r, s = 0,1,2,…
si ha
rs  E ( X  x )r (Y   y )s 
che viene detto momento misto centrale, o momento misto rispetto alla media, di ordine
rs .
I momenti misti 00 , 10 ,01 non sono significativi essendo sempre uguali a uno e
zero, mentre risulta particolarmente interessante il momento misto di ordine 11 :
11  E ( X  x ) (Y   y )    xy   yx  11  10  01
che viene detto covarianza.
La covarianza è un indice assoluto di concordanza tra le due v.c. componenti la v.c.
doppia. Si tratta, cioè, di un indice che misura l’associazione tra le due componenti X
ed Y e potrà assumere valore positivo, negativo o nullo. Assumerà un valore positivo
quando le due componenti della variabile casuale doppia variano tendenzialmente nella
stessa direzione, al crescere dei valori assunti dalla X crescono i valori assunti dalla Y ,
ed anche, al diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y.
In questo caso si avrà che a scarti positivi (negativi) (X-x) corrisponderanno,
usualmente, scarti positivi (negativi) (Y-y) ed il prodotto degli scarti risulterà positivo.
La covarianza assume invece valore negativo quando le due variabili variano in
direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori
assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il
computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di
una variabile ed uno scarto negativo dell’altra variabile e viceversa.
Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine
delle due variabili casuali marginali, cioè le due varianze:
20  E ( X  x )2 (Y   y )0   E ( X  x )2    x2
02  E ( X  x )0 (Y   y )2   E (Y   y )2    y2
108
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Momenti misti standardizzati
Se si pone
 X  x
g(X,Y) = 
 x



r
Y  y

 
y





s
per r,s = 0,1,2,…
si ha
 X    r  Y  
y
x
rs  E 
 
  x    y





che viene detto momento misto standardizzato di ordine rs .
Il momento misto più significativo è il momento misto standardizzato di ordine 1,1



s
 X     Y   y  
 xy
x
  xy   yx  
  
 
  x    y    x   y
usualmente detto coefficiente di correlazione (di Bravais-Pearson).
Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra,
infatti, la relazione
11  E 
 xy   x y
dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y
sono linearmente dipendenti cioè quando Y = a+b X . In questo caso xy = yx = 1
ed il segno dipenderà dal segno del coefficiente angolare b della retta Y = a+b X.
Teorema.  xy  1 , yx = 1 se e solo se y = a + b x
Si consideri il seguente valore atteso di una combinazione lineare delle v.c. scarto
S x   X   x  e S y  Y   y  :
2
2
2
E  X   x    Y   y   E  X   x     2 E Y   y    2 E  X   x   Y   y  




  x2   2 y2  2 xy  0
La disuguaglianza può anche essere nella forma
 2 y2  2 xy   x2  0
espressione che evidenzia chiaramente che si tratta di una disequazione di 2° grado che
ammette soluzione solo se il discriminante   b2  4ac assume un valore minore o
uguale a 0, cioè se    2  xy   4 y2 x2  0 , da cui
2
2  
xy
2
 4 y2 x2 
 xy2
 xy
1
 1   xy   yx    1
2 2
 y x
 x y
 Condizione sufficiente: se y = a + b x allora yx = 1
109
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
infatti, se y = a + b x si ha
2
2
Var Y    y2  E Y   y    E  a  bX   a  b x     b 2 x2




Cov  X Y    xy  E  X   x  Y   y   E  X   x   b  X   x   b  x2
da cui
2=
 xy2
b2  x4

 12    1
2
2
2
2 2
x  y x b x
 Condizione necessaria: yx = 1 solo se y = a + b x
infatti, yx = 1 solo se nella disequazione vale il segno di uguaglianza, cioè, se
E  X   x    Y   y    0   X   x    Y   y   0 
2
x 1
 X  ab X
 

1
dove, a   y  x e b   .


Per quanto sopra riportato deriva che il coefficiente di correlazione potrà assumere
soltanto valori compresi tra -1 e +1, ed è pari a -1 o +1 sse tra le due v.c. esiste una
relazione lineare perfetta; il segno – o + dipende dal valore del coefficiente angolare b
della retta, se negativo o positivo 13. Se xy = yx = 0 (cioè se xy = yx = 0) si dice che
le due componenti X ed Y sono linearmente indipendenti. Questa forma di
indipendenza è una forma molto particolare di mancanza di associazione tra variabili e
non esclude affatto la presenza di un possibile legame di natura diversa tra le due
componenti X ed Y della variabile casuale doppia (X,Y). Infatti potrebbe sussistere tra
le due componenti un legame funzionale molto stretto, ad es. Y = a+bX2 , e risultare
xy = 0.
Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di
concordanza) è un indice di dipendenza o meglio interdipendenza (essendo xy = yx)
lineare.
Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra
forma di indipendenza). Infatti, se le due componenti X ed Y sono statisticamente
indipendenti f(x,y) = f(x)f(y) e quindi (senza perdere in generalità si considera il solo
caso continuo)
 Y  y 
13
Si segnala che quanto riportato non rappresenta altro che una specifica particolarizzazione della disuguaglianza di
Cauchy-Schwarz. Tale disuglianza è espressa dalla relazione
a' , b
dove
a' , b
2
 a' , a  b, b
indica il prodotto scalare (interno) tra i due vettori di uguale dimensione
la diseguaglianza è quindi espressa dalla relazione




n
i 1
2

ai bi  


a  b .
n
n
2
i
i 1
110
2
i
i 1
a e b , se la dimensione è n
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
b
d
11   xy  E ( X   x ) (Y   y )   
 ( x   )( y 
x
a
y
) f ( x, y ) dx dy
c
a ragione dell'indipendenza tra x e y si ha
b

a
d
 ( x   )( y 
x
y
) f ( x)  f ( y ) dx dy 
c
b
d
a
c
  ( x   x ) f ( x) dx   ( y   y ) f ( y ) dy  10  01  0
L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a
meno di casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione
nelle righe seguenti ed è quello particolarmente rilevante della variabile casuale normale
doppia.
Momenti delle distribuzioni condizionate
La derivazione dei momenti delle distribuzioni condizionate non comporta alcuna
difficoltà, basterà fare riferimento, nel calcolo del valore atteso, alla funzione di massa o
di densità di probabilità condizionate. Ad esempio, per media (momento primo rispetto
all’origine) e varianza (momento secondo rispetto alla media) nel caso continuo si ha
 y / x  E Y / x  



y f  y / x  dy;  x / y  E  X / y  

x f  x / y  dx

 ( y   ) f  y / x  dy
)  
 ( x   ) f  x / y  dx
Var Y / x    y2/ x  E (Y   y / x ) 2  
Var  X / y    x2/ y  E ( X   x / y


2
y/x


2
2
x/ y

Funzione generatrice dei momenti
La funzione generatrice dei momenti di una variabile casuale doppia è definita dalla
relazione

mx , y  t x , t y   E e
tx X  t y Y

La funzione generatrice dei momenti, quando esiste, identifica completamente la v.c.
doppia (X , Y) e consente di ottenere facilmente sia le funzioni generatrici dei momenti
delle distribuzioni marginali sia i momenti misti rispetto all’origine; infatti
 Distribuzioni marginali

  lim E  e
lim mx , y  t x , t y   lim E e
tx X  t y Y
lim mx , y  t x , t y
tx X  t y Y
t y 0
t x 0
t y 0
t x 0
 Momenti
111
  E  e   m t 
  E  e   m t 
tx X
x
x
y
y
ty Y
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015

tx X  t y Y
/

tx X  t y Y
/
d
d
mx , y  t x , t y  / tx 0, t y 0 
E e
dt x
dt x
d
d
mx , y  t x , t y  / tx 0, t y 0 
E e
dt y
dt y

d2
d2
mx , y  t x , t y  / tx 0, t y 0 
E e
dt x dt y
dt x dt y
t x 0, t y 0
t x 0, t y 0
tx X  t y Y
/

tx X
/

ty Y
/

d
E e
dt x

d
E e
dt y
t x 0, t y 0
t x 0
ty 0
 10   x
 01   y
 11   xy
2
3

tx X  t y Y  tx X  t y Y 

d 2 
E 1  tx X  t y Y 

   / tx 0, t y 0 
dt x2 
2!
3!





E  t x2 X 2   E  t y2Y 2   E  2t x t y XY 
d2 

1

t
E
X

t
E
Y

   / tx 0, t y 0 




x
y
2

dt x 
2!



t x2 20  t y2 02  2t x t y 11
d2 
 2 1  tx x  t y  y 
   / tx 0, t y 0  20
dt x 
2!

2
3

tx X  t y Y  tx X  t y Y 

d 2 
 / t 0, t 0 
E
1

t
X

t
Y




x
y
dt y2 
2!
3!
 x y



E  t x2 X 2   E  t y2Y 2   E  2t x t y XY 
d2 
 2  1  t x E  X   t y E Y  
   / tx 0, t y 0 

dt y 
2!



t x2 20  t y2 02  2t x t y 11
d2 
 2 1  tx x  t y  y 
   / tx 0, t y 0  02
dt y 
2!

Quanto detto per le v.c. doppie (k = 2) può essere facilmente esteso al caso più
generale per un k > 2 qualsiasi, restando cosi definite le variabili casuali multiple
(v.c.m.) o vettori casuali a k dimensioni. Si possono definire, quindi, le variabili
marginali e quelle condizionate di qualsiasi ordine ed i momenti di qualsiasi natura e
ordine.
La funzione generatrice dei momenti è
mx
, x2 ,....., xk
t
x1


, t x2 ,....., t xk  E e
t x1 X1  t x2 X 2 ....t xk X k

Da tale funzione si derivano facilmente le distribuzioni marginali e, quindi, le
distribuzioni condizionate ed i momenti di qualsiasi ordine.
1.11 - Variabili casuali discrete e continue a k dimensioni
In questo paragrafo si procederà alla descrizione delle sole variabile casuali doppie
(k=2) binomiale (detta usualmente variabile casuale trinomiale) e normale di cui verrà
proposta anche l’estensione al caso k >2; si procederà, inoltre, alla definizione della
112
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
v.c. ipergeometrica a k dimensioni e della v.c. di Dirichlet, verranno, infine, introdotte
tre variabili casuali multiple multivariate (matrici casuali), le prime due derivano,
rispettivamente dalla generalizzazione della v.c normale multipla e della v.c. gamma
multipla, mentre la terza, la distribuzione di Wishart, che è una specifica sottofamiglia
della gamma multipla multivariata, viene trattata separatamente per la sua rilevanza in
quanto distribuzione campionaria della matrice di varianze e covarianze (matrice di
dispersione) di una variabile casuale multinormale.
1.11.1 Distribuzione trinomiale (binomiale doppia)
Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova
sia 1 o 2 o 3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna
prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un risultato
esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità associate
ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).
Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri
reali in cui la prima componente X rappresenta il numero delle volte in cui si è
presentato il risultato 1 nelle n prove, mentre Y rappresenta il numero delle volte in
cui si è presentato il risultato 2. Ovviamente, il numero delle volte in cui si presenta il
risultato 3 non può essere inserito come terza variabile essendo lo stesso numero
univocamente determinato per differenza (n – x – y).
Se, per semplicità di notazione, si pone
p1  P(1 )  P( X 1)  px
p2  P(2 )  P(Y 1)  p y
p3  P(3 )  P  ( X  0)  (Y  0)   1  px  p y  q
si avrà
f ( x, y; n, px , p y )  P ( X  x)  (Y  y) 
n!
pxx p yy q n  x  y
x ! y !(n  x  y)!
dove: x rappresenta il numero delle volte in cui si è presentato il risultato 1 nelle n
prove ed y il numero delle volte in cui si è presentato il risultato 2 ; x potrà, pertanto,
assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n-x ,
oppure x,y = 0, 1, 2, …, n con il vincolo x+y  n .
La funzione generatrice dei momenti della v.c. trinomiale è data da
n
n x
n
n!
t X t Y
t x t y
t
E e x y   e x y
pxx p yy qn  x  y  px etx  p y e y  q .
x ! y !(n  x  y )!
x 0 y 0




Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono
variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto
riportate relative ad alcuni momenti misti
10 = x = n px , 01 = y = n py
113
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
20   x2  n px (1  px ) , 02   y2  n py (1  py )
11   xy   yx   n px p y , 11   xy   yx  
E (Y / x)  (n  x)
py
, E ( X / y )  (n  y )
1  px
px  p y
(1  px ) (1  p y )
px
1 py
L’espressione analitica delle due distribuzioni condizionate è
(n  x)!  p y

f ( y / x) 
y!(n  x  y )!  1  p x



y
 q

 1  px



n x y
(n  y )!  p x
f ( x / y) 
x!(n  x  y )!  1  p y




x
 q

1 p
y





n x y
Esempio 1.34
Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere
classificato come accettabile se x1  X  x2 , sovradimensionato se X > x2 oppure
sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono,
rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove
statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1
sovradimensionato e 3 sottodimensionati?
Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi, ciascuno
dei quali segue una distribuzione binomiale.
Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un
campione di 10 unità:
10 
P( X  6)   0.7 6  0.34  0.2001  20.01%
6
Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati.
Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi
sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento
è data da:
 4  0.2   0.1 
P(Y  1)   
 
  0.099  9.90% ,
 1  0.3   0.3 
1
3
dove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al
principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo
sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o
sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3.
La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y “1
pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità.
Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata
di Y = 1 dato X = 6, quindi:
1
10!
4!  0, 2 
P( X  6  Y  1) 
 0,76  0,34 

6! 4!
1! 3!  0,3 
114
3
 0,1 

 ,
 0,3 
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
semplificando si ottiene:
P( X  6  Y  1) 
10!
 0, 76  0, 21  0,13  0.2001 0.0990  1, 98%.
6! 1! 3!
L’estensione al caso k > 2 è immediata: infatti basterà considerare n prove
indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1
risultati necessari ed incompatibili 1, 2, …, k, k+1 . Si potrà introdurre la variabile
casuale multinomiale a k dimensioni (X1, X2, …, Xk) , dove le componenti
rappresentano il numero delle volte in cui, nelle n prove, si è presentato,
rispettivamente il risultato 1, 2, …, k . Il numero delle volte in cui si presenta il
k
risultato k+1 non viene considerato risultando il suo valore per differenza n   xi .
i 1
1.11.2 Distribuzione multinomiale e ipergeometrica a k dimensioni
Se con
k
p1 , p2 , ..., pk
e
pk 1  q 1   pi
i 1
si indicano le probabilità dei risultati (punti campionari) 1, 2, …, k+1 , la funzione di
massa di probabilità della variabile casuale multinomiale è
f ( x1 , x2 , ... xk ; p1  p2 ... pk )  f ( x; p) 
n!

x1 ! x2 ! ... xk !  n 



k
 x  !
p1x1  p2x2 ... pkxk q
n 
k
 xi
i 1
i
i 1
k
dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo
x  n .
i
i 1
La funzione generatrice dei momenti della v.c. multinomiale a k dimensioni è data da
  
t' X
n
E e
x1 0
n  x1
n 
k 1
 xi
i 1
  
x2 0
n!
t' X
e
xk 0
k
x1 ! x2 !  (n   xi )!
i 1
  p1et1  p2et2    pk etk  q 
dove, t

 t1 , t2 , , tk 
'
n
per -h  ti  h con h  0, i = 1,2,,k.
115
p1x1 p2x2  pkxk q
n 
k
 xi
i 1

B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
oo....i....o  E  X i    x  n pi
i
Var  X i   n pi 1  pi 
Covar  X i X i    xi x j   i j   n pi p j
Corr  X i X i    xi x j  i j  
pi p j
1  pi  1  p j 
.
Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti
che, rifacendosi allo schema di estrazione da un’urna, si procede ad n estrazioni senza
ripetizione da un’urna contenente N palline, si deriva la versione a k dimensioni della
variabile casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di
probabilità
k


N

Ni 


 N1   N 2   N k  
i 1

    ...  
k
x
x
x

 1   2   k  n x 

i 

i 1


f ( x1 , x2 ,..., xk ; n, N1 , N 2 , , N k ) 
N
 
n
k
dove N1, N2, …, Nk, Nk+1 ( N k 1  N   N i ) rappresentano le palline, rispettivamente,
i 1
del colore 1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore
numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo
k
x  n N
i 1
i
anche dai valori N1, N2,…, Nk.
1.11.3 Distribuzione normale doppia
La funzione di densità della variabile casuale normale doppia o variabile casuale
normale bivariata è data da
f ( x, y;  x ,  y ,  x ,  y ,  xy ) 

1
2   x y 1   xy2
e
1
2
2(1  xy
)
2

 y y
 x   x   2   x   x  
xy
  x 
 x    y


  y y
 
  y
 




2




per -  x  + e -  y  + e dove i parametri che caratterizzano la distribuzione
coincidono con gli indici caratteristici più significativi della distribuzione stessa
10  E( X )   x ,  01  E(Y )   y
 20  E( X   x ) 2    x2 ,  02  E(Y   y ) 2    y2
 X     Y   y
x

  x    y
11  E 

 xy
  
  xy   yx  
   11 10 01 





x
y
x
y

116
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti

f ( x) 

f ( x, y)dy 

2  x2

f ( y) 

f ( x, y )dx 

f ( x / y) 
f ( x, y )

f ( y)
f ( x, y )
f ( y / x) 

f ( x)

1

1
2  y2

1
2  (1   xy2 )
2
x
e

1
2  y2 (1   xy2 )
e
e
e
1
( x   x )2
2 x2
1
2 y2
( y   y )2



 x   x   xy x ( y   y ) 
y


2
y


1
( x  x )
 y   y   xy
2
x
2  2y (1  xy
)

2
1
2
2  x2 (1  xy
)
che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni
condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle
distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni
marginali e dal coefficiente di correlazione. Se xy = yx =  = 0, le due variabili
casuali componenti la v.c. doppia sono statisticamente indipendenti
 f ( x, y)  f ( x)  f ( y) e le distribuzioni condizionate, per l’indipendenza, non
risentono più del condizionamento e risultano uguali alle distribuzioni marginali.
Nella Fig. 1.7 è riportata la forma della funzione di densità e le sezioni orizzontali e
verticali della variabile casuale normale doppia le cui componenti sono incorrelate
(indipendenti) ed hanno uguale varianza.
Nella Fig. 1.8 sono riportate le sezioni orizzontali di variabili casuali normali doppie
incorrelate (xy = 0) con relazione diversa tra le varianze delle due distribuzioni
marginali. Nella Fig. 1.9 sono riportate le sezioni orizzontali di una variabile casuale
normale doppia, le cui componenti hanno stessa varianza  x2   y2  1 , per diversi
livelli di correlazione; mentre nella Fig. 1.10 le sezioni sono relative a diversi livelli di
correlazione e diversa varianza (  x2  4 e  y2  1) .
117
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
 = 0 ;  x2   y2   .2
 = 0,7 ;  x2   y2   .2
 = 0,9 ;  x2   y2   .2
Fig. 1.7 – Funzione di densità di una variabile casuale normale bivariata
Osservando le Figg. 1.8, 1.9 e 1.10 si rileva l’incidenza del valore assunto dai
parametri caratteristici sulla forma della funzione di densità. La forma campanulare
perfetta si ha solo quando xy = yx = 0 e  x2   y2 . Se xy = yx =  = 1 , cioè se
esiste un legame lineare tra le due componenti, si avrà un completo schiacciamento
della distribuzione doppia che degenera in una distribuzione semplice. Cosa questa
peraltro desumibile immediatamente anche per via analitica; infatti, valendo la relazione
Y = a + b X non ha più senso parlare di variabilità su due componenti essendo la
variabilità dell’una (es. la Y) strettamente determinata dalla variabilità dell’altra.
118
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Fig. 1.8 - Sezioni orizzontali di una variabile casuale normale doppia con xy = yx = 0
Fig. 1.9 – Sezioni orizzontali di una variabile casuale normale bivariata con  x2   y2  1
119
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Fig. 1.10 -
Versione 2015
Sezioni orizzontali di una variabile casuale normale bivariata
con  x2  4 e  y2  1
Di seguito si riportano le dimostrazioni di quanto sopra affermato ed evidenziato
graficamente nelle figure.
La funzione specificata è una funzione di densità, infatti:

1
2   x y 1   xy2
e
1
2
2(1  xy
)
2

 yy
 x   x   2   x   x  
xy
  x 
 x    y


  yy
 
  y
 




2




0
e




 
f  x, y  dx dy  1
La prima disuguaglianza è immediata, si dimostra la seconda relazione.




 



f ( x, y;  x ,  y ,  x ,  y ,  ) dx dy 


1

2   x y 1   2

e
2

 x   x   2   x   x
2(1  )   x 
 x

1
2
 y  y
 
  y
  y y
 
  y
 
Se si operano le trasformazioni
y  y
x  x
zx 
e zy 
si ha dx dy   x y dz x dz y
x
y
120




2




dx dy
quindi
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità


1

2   x y 1   2






1
2

2
2

 y  y   y  y  
 x   x   2   x   x  
 
 




2(1  )   x 
  x    y    y  

1


 
Versione 2015
1  2
e
2
e
1
 z x2  2  z x z y  z 2y 

2(1  2 ) 
dx dy 
dz x dz y
Se si completa nell’esponente il quadrato in z x si ha




 







1
2






1  2
e
1
2
1  2
1
2
1  2
1
 z x2  2  z x z y  z 2y 

2(1  2 ) 

1
 z x2  2  z x z y   2 z 2y   2 z 2y  z 2y 

2(1  2 ) 

1
 z  z
x
y
2(1  2 ) 
e

e
zx   z y
Se si effettua la trasformazione v 




 



2
1  2

1
1  2
e
2
v

1
e 2 dv
2
dz x dz y 

 1  2  z 2y 
2




1
e
2
dz x dz y
si ha dz x  1   2
1
 z  z
x
y
2(1  2 ) 

dz x dz y 
z 2y
2
 1  2  z 2y 

1 2
dv , quindi
2
dz x dz y 
dz y  1
La funzione generatrice dei momenti è definita dalla relazione

mx, y  t x , t y   E e
tx X  t y Y

e
tx x  t y  y 

1 2 2
t x  x  2  t x t y  x  y  t y2  y2
2
Infatti, se si effettuano le trasformazioni
zx 
x  x
x
e zy 
y  y
y
da cui x   x z x   x e y   y z y   y si ha
121

B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità


mx , y  t x , t y   E e x
e
tx  x t y  y
e
tx  x t y  y

 







 
Versione 2015
t  x z x   x   t y  y z y   y
e
 e
tx  x t y  y
2
1  2
e

e
1  2
t  x z x  t y y z y


dz x dz y 


1
 z x2  2  z x z y  z 2y  2 1  2 t x x z x  2 1  2 t y y z y 

2(1  2 ) 

1

E ex
1
 z x2  2  z x z y  z 2y 

2(1  2 ) 

1
t x x z x  t y y z y
2

dz x dz y
se si completano i quadrati in z x e z y ad esponente si ottiene
mxy  e
e
e
t x  x t y  y  
 
 
t x  x  t y  y  
 
 
2 1  2

1
2 1  2

 
e
1
t x  x  t y  y  t x2 x2  2  t x t y x y  t y2 y2
2

 
1 2
z x  2  z x z y  z 2y  2 1  2 t x x z x  2 1  2 t y y z y 

2(1  2 ) 

1
e

    
d zx d z y 
  

2
2

2
2
2 2 2
2 2 
 z x  2  z y  1  t x x  1  z y   t x  x  t y y  1  t x  x  2  t xt y x y t y y 
2(1  ) 

1
2

 
1
 
2  1  2
 
e

    
2
2
1 
2
2
 z x   z y  1  t x x  1  z y   t x  x  t y y 
2(1  2 ) 


d zx d z y 
d zx d z y
effettuando le trasformazioni
u
z x   z y  1   2  t x x
1 
e v  z y  t x x  t y y si ha dz x dz x  1   2 du dv
2
si ha
mx, y  t x , t y   e
e

1
t x  x t y  y  t x2 x2  2  t x t y x y t y2 y2
2



1
2


1
t x  x  t y  y  t x2 x2  2  t x t y x y t y2 y2
2
e

u2
2
du



1
2
e

v2
2
dv 

Le distribuzioni marginali sono normali
La distribuzione marginale X della v.c. doppia (X,Y) è normale con parametri  x e  x2 .
Infatti
f  x 





1

2   x y 1   2
f  x, y  dy  
122
e
2

 x   x   2   x   x

2(1  )   x 
 x

1
2
 yy
 
  y
  y  y

  y
 




2




dy
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
y  y
se si opera la trasformazione z y 
1

2   x y 1   2
e


1

2  x 1  2

1
2(1  2 )



da cui dy   y dz y si ha
y
e
1
2(1  2 )
2

 x   x   2   x   x
  x 
 x

 yy
 
  y
 x    2
 xx 
2
x

 2  
 z z
x  y y
  x 


  yy
 
  y
 








2




dy 
dz y
completando il quadrato di z y ad esponente si ha

1

2  x 1  2
f  x  



2  x 1 
1
e
2  x


1

1
2
 x    2

 xx 
2
x

 2  
 zy  zy 
2




2(1  )  x 
 x 


1

e
 x   x 2
2
2 x
e
d zy 
2
2
 x    2
 xx 
2
2  xx 
2  xx  
x


2

z

z











y
y
2(1  2 )   x 
 x 
 x 
  x  

1


1

2 1  2


e

1
2(1  2 )

 xx 
zy  


 x 



d zy 
2
d zy
ma

1

2 1  2

v


 x   x  

zy  

  x  

1  2



e

 xx  
1
zy  

2(1  2 ) 
  x  
2
d z y  1 per la trasformazione
da cui d z y  1   2 d v pertanto
f  x 

1
2  x
e
1
 x   x 2
2 x2
Ragionamento analogo vale per f  y  che è data da
f  y 

1
2  y
e
123

1
y y
2 y2

2
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Le distribuzioni condizionate sono normali
1
f  x / y 
f  x, y 
2
e
2   x y 1   2

f  y
2

 x   x   2   x   x

2(1  )   x 
 x

1


1
2  y

1

1
2  x 1 
2(1 
e
2
2
) x2



 xx   x y  y 
y




e
1
2 y2
 y  y 
 yy
 
  y
  yy
 
  y
 




2





2
2
Analogamente
1
f  y / x 
f  x, y 
f  x

2

 x   x   2   x   x
2(1  2 )   x 
 x

1

e
2   x y 1   2

1
2  x


1
2  y 1 
e
2
1
2(1  )
2
 y2
y


 x y    x x  
x


e
1
2 x2
 yy
 
  y
  yy
 
  y
 




2





 x   x 2
2
Da sottolineare che se le due distribuzioni marginali di una v.c. doppia sono normali
non necessariamente la v.c. di origine è normale; ovviamente, se le due v.c. marginali
normali sono indipendenti è normale anche la v.c. doppia di origine.
1.11.4 Distribuzione normale a k dimensioni
La funzione di densità della variabile casuale normale a k ≥ 1 dimensioni o variabile
casuale normale k-dimensionale è data da
f ( x ; ,  ) 
1
(2  )k /2 
1/2
e
1
  x   ' 1  x    
2
dove tutte le componenti del vettore x'  ( x1 , x2 ,...., xk ) variano tra -∞ e +∞ e
 x1
x
 2
x 

 
 xk


 1 
 11

 


 2 
 21
;     ;   





  
 k1

 k 



 12
 22
k2
2
 12
 1k   


 2 k   21  22
1


 kk 


 k1  k 2
 1k 

 2k 


 k2 
inoltre, x   x1, x2 ,...., xk  rappresenta una possibile determinazione del vettore casuale
'
X   X 1, X 2 ,...., X k  ,    1, 2 ,...., k  il vettore medio, cioè il vettore delle k medie
'
'
aritmetiche (momenti di ordine 1 rispetto all’origine) relative alle k v.c. semplici
124
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
componenti la v.c. multipla e  la matrice k×k di varianze e covarianze (matrice di
dispersione); se  non è definita positiva la v.c. multipla non esiste e si parla di v.c.
multipla a k dimensioni degenere, in altri termini la dimensione del vettore casuale
'
X   X 1, X 2 ,...., X k  è inferiore a k.
Il termine
 x -   '  1  x -  
viene usualmente detto distanza generalizzata o
distanza di Mahalanobis di x da  .
Si dimostra, senza eccessiva difficoltà, che tutte le v.c. marginali e condizionate,
semplici e multiple, si distribuiscono normalmente.
La funzione generatrice dei momenti è definita dalla relazione
 
mx1 , x2 ,, xk  t1, t2 , , tk   E e
dove, t

t1 , t2 , , tk '
t' X
t'μ 
e
1 '
t t
2
per -h  ti  h con h  0, i = 1,2,,k.
Un modo diverso per rappresentare la funzione di densità di probabilità della
variabile casuale multinormale è quello di fare riferimento alle correlazioni anziché alle
varianze e covarianze, in questo caso si ha
f ( x ; ,  ) 
 1

dove R   21


 k1
12
1
k 2
1k 
2 k 


1 
1
(2  )
k
2
DRD
per ij 
1
e
1
'
  x    ( DRD )1  x    

2
2
 ij
è detta matrice di correlazione
i  j
0
 1 0
0 
0 
2

e dove D 
è detta matrice di dispersione.




k 
0 0
La matrice di correlazione si può ottenere dalla matrice di dispersione e viceversa
R  D1  D1 e   D R D
Le v.c. marginali e condizionate di ogni ordine hanno distribuzione normale ma se
tutte le v.c. marginali semplici di una v.c. a k dimensioni hanno distribuzione normale
non necessariamente la varibile k-upla di origine è normale. Quest’ultima implicazione
vale se le v.c marginali semplici sono indipendenti, in questo caso le covarianze sono
tutte nulle e la matrice di dispersione è una matrice diagonale.
125
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
1.11.5 Distribuzione di Dirichlet
La distribuzione di Dirichlet è una v.c. a k dimensioni (vettore casuale) caratterizzato da
k+1 parametri positivi che deriva da una generalizzazione al caso multivariato della v.c.
Beta (k=1). Questa distribuzione è spesso usata come distribuzione a priori della v.c.
multinomiale nell’inferenza statistica bayesiana.
 k 1 

i 


f ( x ;  )  k 1 i 1 

k 1
x
 i 1
i
   
i 1
i
i 1
 x ,  x  1 , x , x ,....., x
k
dove, xk 1  1 
k
i
i 1
i
1
k 1
2
> 0 e   1,  2,.....,  k 1 .
i 1
La media e la varianza delle distribuzioni marginali sono
E  Xi  
i
, Var  X i  =



i 

k 1
   
i
i 1
2
i
.

  k 1

i
i  
 i  1

 

i 1
 i 1   i 1

Un caso particolare di questa distribuzione è rappresentato dall’uguaglianza
1  2  .....   k =  k 1 =  . In tale caso si parla di distribuzione di Dirichlet
k 1

k 1


simmetrica la cui funzione di densita diventa
f ( x ; ) 
  k  1  
   
k 1
k 1
x
 1
i
.
i 1
1.12 - La famiglia esponenziale
Una v.c. semplice X, caratterizzata da un solo parametro  , con funzione di densità o
massa di probabilità f  x ;  appartiene alla famiglia esponenziale se può essere
espressa nella forma (standard):
f
 x;   a  
h  x  e  t  x  per a    0 , h  x   0 e  
dove,  può essere definito come parametro standard e  come spazio parametrico
standard.
Se il supporto della v.c. X non dipende da  la famiglia è detta regolare altrimenti
si parla di famiglia irregolare.
126
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Modi equivalenti per rappresentare la famiglia esponenziale sono
 x;   h  x  e  t  x d   ; f  x;   e  t  x d   g  x 
 d    log a   e g  x   log h  x 
f
dove
Una v.c. caratterizzata da r parametri con funzione di densità o massa di probabilità
f  x ;1 ,2 ,....,r   f  x ;  , dove, θ  1 ,2 ,....,r  , appartiene alla famiglia
esponenziale se può essere espressa nella forma:
r
f
i   ti  x 
 x;   a  
h  x   e i1
dove, a    0 , h  x   0 e  Θ
o anche
r
r
i   ti  x  d  
; f  x;  
 x;   h  x  e
dove  d    log a   e g  x   log h  x  .
i 1
f
i   ti  x  d    g  x 
e i1
L’espressione analitica della funzione di massa o di densità della famiglia
esponenziale nel caso multivariato è:
r
i   ti  x 
 x;   a   h  x  e
x'   x1 , x2 ,....., xk  rappresenta un vettore casuale a
i 1
f
dove
k dimensioni.
Modi equivalenti per rappresentare la famiglia esponenziale nel caso multivariato
multiparametrico sono
r
r
i   ti  x   d  
; f  x;   
 x;    h  x  e
dove  d    log a   e g  x   log h  x  .
i 1
f
i   ti  x  d   g  x 
e i1
Nella generalità dei casi la famiglia esponenziale non viene presentata nei termini
sopra riportati (formulazione standard). Una diversa rappresentazione della famiglia
esponenziale, che agevola gli sviluppi teorici, è quella che si ottiene, attraverso una
specifica riparametrizzazione, usualmente detta naturale o canonica e i nuovi
parametri     (spazio parametrico naturale) vengono detti parametri naturali o
canonici.
Nel caso univariato e di un solo parametro l’espressione in forma naturale è
f
 x;   b  
h  x   e t  x  per b    0 , h  x   0 e     
od anche
f
 x;   h  x 
e t  x d   ; f
 x;   e t  x d   g  x 
Nel caso univariato multiparametrico l’espressione in forma naturale è
r
f
 x;   h  x 

c   e i1
od anche
127
ti  x 
dove i  i  
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
r
f
 x;   h  x 
i
e i1
Versione 2015
r
ti  x   d  
 x;   
; f
i
ti  x   d    g  x 
e i1
Nel caso multivariato multiparametrico la rappresentazione in forma naturale è
r
f
 x;   c  
i
ti  x 
h  x   e i1
od anche
r
f
 x;    h  x 
i
e i1
r
ti  x   d  
; f
 x;   
i
ti  x   d    g  x 
e i1
Specificando opportunamente le funzioni a valori reali riportate nelle diverse
espressioni analitiche sopra introdotte si derivano molte delle distribuzioni illustrate
nelle pagine precedenti; infatti, appartengono alla famiglia esponenziale, la v.c.
binomiale (bernoulli come caso particolare della binomiale), lav.c. binomiale negativa e
la v.c. multinomiale per n noto, la v.c. di poisson, la v.c. di Pareto per valore minimo
noto, la v.c. di Weibull per  noto, la v.c. gamma, la v.c. beta, le v.c. casuali normale,
log-normale e normale multivariata. Non appartengono alla famiglia esponenziale la
v.c. ipergeometrica, la v.c. uniforme quando gli estremi di variabilità non sono noti, la
v.c. di Cauchy, la v.c. logistica, la v.c. t di student e la v.c. F di Fisher-Snedecor; più in
generale, non appartengono alla famiglia esponenziale tutte le distribuzioni il cui
supporto dipende da parametri caratteristici (famiglia irregolare) a meno che questi non
vengano assunti come noti.
Esempio 1.35
Di seguito si riportano a titolo esemplificativo le rappresentazione in forma naturale (canonica)
di alcune distribuzioni tra quelle sopra elencate.
 v.c. Binomiale (v.c. di Bernoulli, come caso particolare della binomiale)
La funzione di massa di probabilità della v.c. binomiale è caratterizzata dai due parametri n e
p , assumendo noto il valore di n l’unico parametro di interesse è θ=p. Operando opportune
trasformazioni si deriva facilmente la rappresentazione in forma esponenziale della funzione di
massa di probabilità.

 p  
log 
 x
n
n
 n
n x
n
1 p
 p t x
f  x; n, p     p x 1  p     p x q n  x    1  p  e      h  x  a  p  e    
 x
 x
 x
n
 p 
n
dove: a  p   1  p   0 , h  x      0 ,   p   log 
 , t(x) = x.
 x
 1 p 
 Poisson
La funzione di massa di probabilità della v.c. di Poisson è caratterizzata dal solo parametro  .
Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma
esponenziale della funzione di massa di probabilità.
128
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
f ( x)  f ( x;  ) 
dove,
 x e 
1   x log
e e
x!

x!
1
 h  x  , e   a    , log    , t  x   x .
x!
 Normale
La funzione di densità di probabilità della v.c. normale è caratterizzata dai due parametri
 e  2 . Operando opportune trasformazioni si deriva facilmente la rappresentazione in forma
esponenziale della funzione di densità di probabilità.
1
f ( x)  f ( x;  ,  ) 
2
2 2
e
1  x 
 

2  
2

1

e
2 2
2

2 2
e
1
2 2
x2 

x
2
dove

1
2 2
e
2
2 2
 a  , 2  , 1  h  x  , 
1
2

 2 , x 2  t1  x  , x  t2  x 
2
 1 ,
2
 Multinomiale
La funzione di massa di probabilità della v.c. multinomiale a k dimensioni è caratterizzata da
k+1 parametri n e p1 , p2 ,......, pk , assumendo noto il valore di n, i parametri di interesse
sono p   p1 , p2 ,......, pk  . Operando opportune trasformazioni si deriva facilmente la
'
rappresentazione in forma esponenziale della funzione di massa di probabilità.
f ( x; p) 
k
n!
k

i 1

xi !  n 



k
i 1

xi  !


p
xi
i

k

i 1

xi !  n 



k
i 1

xi  !


e
n log q
q
k
 xi
i 1

i 1
k
n!
n
p 
 xi log qi 
e i1
dove
n!
k

i 1

xi !  n 


k

i 1

xi  !


 h  x, e
n log q
e
 k

n log 1 pi 


 i 1 

p 
 h  p  , i  log  i  , ti  x   xi
q
.
1.13 - Distribuzioni multiple multivariate
Ai punti precedenti sono state illustrate alcune tra le v.c. a k ≥ 1 dimensioni di uso più
comune, introducendo il termine di vettore casuale. Una ulteriore generalizzazione è il
129
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
passaggio dal vettore casuale alla matrice casuale; nelle righe successive verranno
introdotte tre generalizzazioni di particolare interesse utilizzando la terminologia
variabile casuale multipla multivariata (v.c.m.m.). In particolare verranno considerate
le generalizzazioni della v.c normale, della v.c. gamma, della v.c. beta e la distribuzione
di Wishart che è una sottofamiglia della gamma multipla multivariata.
Distribuzione normale multipla multivariata
La funzione di densità di probabilità di una matrice casuale normale X di dimensione
n×k è data da
 1

exp  tr V 1  X  M  ' U 1  X  M   
2


f ( X; M , U ,V ) 
n /2
k /2
n k /2
 2  V U
Dove M (matrice dei momenti) è, ovviamente di dimensione n×k , e le due matrici di
varianze e covarianze U, di dimensione n×n, e V , di dimensione k×k , possono essere
definite dalle relazioni
U  E  X  M  X  M  '
V  E  X  M  '  X  M   / c
c è una costante che dipende da U tale da consentire la derivazione della costante di
normalizzazione della funzione di densità.
La v.c.m.m normale può essere posta in relazione con la v.c.m. normale se e solo se
vec  X 
N vec  M  , V  U  14
se vale questa relazione, cioè se il vettore vec (X) di dimensione nk×1 si distribuisce
normalmente con vettore medio vec(M), di dimensione nk×1 e matrice di dispersione
V  U , di dimensione nk×nk si ha
X
MNnk  M , U,V  .
Distribuzione gamma multipla multivariata
La funzione di densità di probabilità di una matrice casuale gamma X simmetrica e
definita positiva di dimensione k×k , X M  k  ,  ,  k  è data da
f ( X ; ,  ,  k ) 
k

X
   k 1 /2

e
 k     k
1

tr

1
k X

, 0 < X < 1k
dove   0 ,   0 ,  k è una matrice simmetrica definita positiva di dimensione k×k e
14
Si ricorda che che l’operatore vec(X) indica l’operazione di vettorizzazione della matrice X (i vettori colonna della
matrice vengono allineati sulla prima colonna) mentre l’operatore  indica il prodotto di Konecker tra matrici
(ciascun elemento della prima matrice viene moltiplicato per la seconda matrice definite nel prodotto).
130
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
 k   
e
 tr  X 
X

   k 1 /2
dX
dove  rappresenta l'insieme di tutte le matrici definite positive di dimensione k×k , è
la funzione matematica gamma multivariata che può anche essere scritta
 k     k  k 1/4
K
1


     i 1 .
i 1
2


Distribuzione beta multipla multivariata
La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e
definita positiva di dimensione k×k , X MBek  ,   è data da
X
f ( X ; ,  ) 
  k 1 /2
Ik - X
   k 1 /2
, 0 < X < 1k
Bek  ,  
dove    k  1 / 2 ,    k  1 / 2 e
Bek  ,   

X
   k 1 /2
Ik - X
   k 1 /2
dX
0 < X < 1k
ed anche
 k    k   
 k    
Bek  ,   
è la funzione matematica beta multivariata.
Distribuzione di Wishart e Wishart inversa
La funzione di densità di probabilità di una matrice casuale di Wishart X simmetrica e
definita positiva di dimensione k×k , X Wk  ,  k  è data da
f ( X ; ,  k ) 
k
  /2
X

 k 1 /2
e


1
tr  k1 X
2

, 0 < X < 1k
 k  / 2  2 k /2
dove   k  1 , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della
distribuzione,  k è una matrice simmetrica e definita positiva di dimensione k×k.
Una prima osservazione da fare su questa distribuzione è che essa rappresenta una
sottofamiglia della distribuzione Gamma multipla multivariata per    / 2 e  =2 ;
inoltre, la distribuzione di Wishart può essere interpretata come una generalizzazione
della v.c  2 . Infatti, se si pone k = 1 e  k  1 , la matrice X si riduce ad uno scalare
quindi x W1  ,1 , da cui

f ( x; ) 
x2
1
e

x
2
  / 2  2 /2
131
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
che rappresenta la funzione di densità di probabilità di una v.c.  2 con  gradi di
libertà.
La funzione di densità di probabilità di una matrice casuale di Wishart inversa X
simmetrica e definita positiva di dimensione k×k , X InvWk  ,  k  è data da
f ( X ; ,  k ) 
k
 /2

 + k 1

1
2

tr  k X 1
e 2
 k  / 2  2 k /2
X

, 0 < X < 1k
dove   k  1 , per assicurare l’invertibilità di X , rappresenta i gradi di libertà della
distribuzione,  k è una matrice simmetrica e definita positiva di dimensione k×k.
1.14 - Distribuzioni a priori coniugate
La formula di Bayes introdotta nelle pagine precedenti consente, come già sottolineato,
di esprimere il processo di apprendimento dall’esperienza e, quindi, dà la possibilità di
aggiornare le informazioni (a priori) che il soggetto possiede in merito ad uno specifico
fenomeno di interesse sulla base delle nuove informazioni acquisite o acquisibili
(informazioni campionarie). Nell’illustrazione della formula sono stati introdotti i
concetti di probabilità a priori, di probabilità probativa o verosimiglianza e di
probabilità a posteriori.
Se anziché far riferimento alla probabilità si fa riferimento, senza perdere in
generalità, alla funzione di densità di probabilità per un modello caratterizzato da un
solo parametro assunto variabile (perché incognito) nel continuo15, poiché valgono le
relazioni
f ( x, )  f ( x /  ) f ( )  f ( / x) f ( x) ,
dove, avendo attribuito al parametro  la natura di variabile a ragione della mancata
conoscenza del suo valore, è stata utilizzata la simbologia f ( x, ) anziché f ( x; ) , la
formula di Bayes è espressa dalla relazione
f ( x /  ) f ( )
f ( x /  ) f ( )
f ( / x) 

f ( x)
f ( x /  ) f ( ) d


e, utilizzando la simbologia di più largo impiego, anche
f ( x /  )  ( )
f ( x /  )  ( )
 ( / x) 

f ( x)
f ( x /  )  ( ) d


dove,  ( / x) rappresenta la distribuzione di probabilità a posteriori del parametro  ,
 ( ) la sua distribuzione a priori e f ( x /  ) la verosimiglianza.
15
Ragionamento del tutto analogo vale anche quando si considerano più parametri, definiti nel discreto o nel
continuo, per la funzione di massa di probabilità e per la funzione di distribuzione.
132
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Quando la distribuzione di probabilità a posteriori appartiene alla stessa famiglia
della distribuzione a priori, quest’ultima viene detta distribuzione di probabilità a priori
coniugata16.
Definizione 10 – Data la relazione
 ( / x) 
f ( x /  )  ( )
 f ( x /  )  ( ) d

() è detta distribuzione a priori coniugata di f ( x, ) se la
corrispondente distribuzione a posteriori  (/x) appartiene alla
medesima famiglia di ().
Per comprendere meglio l’utilità del concetto di distribuzione a priori coniugata, si
consideri un processo di tipo Bernoulliano; in questo caso la distribuzione campionaria
è di tipo Binomiale. Poiché p è il parametro sconosciuto della popolazione (la causa che
genera l’evento), coerentemente a quanto riportato nella precedente tabella, si assume
che la distribuzione a priori di p sia di tipo Beta con parametri  e .
(    1)!
 1
 1
  p     p; ,   
p 1 1  p   p 1 1  p 
  1!    1!
poiché
n
f  x / p   f  x; n, p     p x (1  p)n  x  p x (1  p)n  x
 x
dalla formula di Bayes risulta che la distribuzione a posteriori è proporzionale17 al
prodotto della verosimiglianza per la distribuzione a priori, pertanto si ha:
  p / x     p   f  x / p   p 1 1  p 
 1
 p x (1  p)n x  p x 1 1  p 
n    x 1
che, a meno della costante di normalizzazione, è una distribuzione di tipo beta con
parametri pari a x+α e n+β; cioè, la distribuzione a priori e quella a posteriori
appartengono alla stessa famiglia. La costante di normalizzazione risulta essere
  x      n     x    1!   n    1!
.

x   n   
 x    n    1!
Considerazioni del tutto analoghe possono essere svolte nei confronti della v.c.
multinomiale a k dimensioni. Come già anticipato, in questo caso, la distribuzione a
priori coniugata della v.c. multinomiale è la v.c. di Direchlet.
La funzione di massa di probabilità della v.c. multinomiale è
16
17
Per un approfondimento del tema si può utilmente consultare Raiffa e Schlaifer (1961).
Il simbolo  sta ad indicare la relazione di proporzionalità tra le quantità poste a confronto.
133
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
f  x / p   f ( x; n, p) 
k

i 1

k 1
n!
k 1
x !

i 1
k
n!

xi !  n 



k
i 1

xi  !


p
n
xi
i
q
k
 xi
i 1

i 1
k 1
pixi 
p
xi
i
i 1
i
i 1
dove
k
k


xk 1   n 
xi  e pk 1  q  1 
pi


i 1
i 1


mentre, la funzione di densità di probabilità della v.c. di Dirichlet è


 k 1 

i 


 ( p)   ( p;  )  k 1 i 1 

   
k 1
p
k 1
 i 1
i

i 1
p
 i 1
i
i 1
i
i 1
da cui
k 1
 ( p / x )   ( p; n, x,  ) 
k 1
k 1
 p  p   p
i 1
xi i 1
i
xi
i
i
i 1
i 1
i 1
che, a meno della costante di proporzionalità (normalizzazione)




k 1
 i  xi 

i 1
k 1
    x 
i
i
i 1
è la funzione di densità di probabilità di una v.c di Dirichlet; cioè la distribuzione a
priori e quella a posteriori appartengono alla stessa famiglia.
Alcuni esempi di distribuzioni a priori coniugate sono riportati nella tabella seguente.
dove N indica la distribuzione Normale,  la distribuzione Gamma, B la Binomiale, Be
la Beta, P la distribuzione di Poisson e BinNeg la distribuzione Binomiale Negativa.
134
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Distrib.campionaria
Distrib.a priori
Distrib.a posteriori
f(x/)
()
 (/x)
N(,2)
N(,2)
  2   x 2  2 2 
N 

, 2
2
2
   2 
  
(,)
(,)
(+,+x)
B(n, p)
e(,)
Be(x+,n+)
P()
(,)
(+x,+1)
BinNeg(,1/)
(, )
B(+r, +x)
1.15 - Teoremi fondamentali del calcolo delle probabilità
Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di
carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie
informative che si collocano a un livello intermedio tra la conoscenza completa, seppure
spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica espressa
dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e significativi è
quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a cui si perviene
facilmente attraverso una opportuna specificazione di un teorema più generale: il
teorema di Markov.
Teorema (disuguaglianza)di Markov – Sia X una variabile casuale con funzione di
distribuzione F(x), g(X) una funzione a valori reali non negativa (in modo
tale che Y = g(X) sia essa stessa variabile casuale) e c una costante positiva,
allora
Eg ( X )
Pg ( X )  c 
c
Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema
con relativa facilità.
Dimostrazione
Eg ( X ) 

 g ( x)
f ( x) dx 


 x: g ( x )c
c f ( x) dx 

g ( x) f ( x) dx 
 x: g ( x )c



g ( x) f ( x) dx 
 x: 0 g ( x )c
0 f ( x) dx  c
 x: 0 g ( x )c

 x: g ( x )c 
 P  g ( X )  c 
135
f ( x) dx  c P  g  X   c  
E  g ( X )
c
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Di particolare interesse risulta una specificazione (corollario) del teorema.
Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza 2
finita, allora
1
P  X    k   1  2 .
k
Dimostrazione 1
Ponendo g(X) = X -  e c = k 
per k > 0
2
dove:  = E(X) e  = var(X) , si avrà, dal Teorema di Markov,
P  X    k    P ( X   )2  k 2  2  



E ( X  )2
2
1

 2 
2
2
2
2
k 
k 
k
 P X    k  
1
k2
ed anche


1
k2
Alla stessa conclusione si giunge partendo dalla definizione di varianza di una
variabile casuale:
Dimostrazione 2
P X    k   1
Var(X) =  2  


x   2 f ( x)dx
L’integrale può essere diviso nella somma di tre integrali:
2 
  k

  k

x   2 f ( x)dx   k x   2 f ( x)dx   k x   2 f ( x)dx
sottraendo il secondo integrale soltanto dal membro di destra dell’equazione, si ottiene
la seguente disuguaglianza:
2  
  k

x  
2

x  
  k
f ( x) dx  
2
f ( x) dx
Si consideri

  k

x  
2
f ( x) dx  
  k

 k 
2
f ( x) dx  k 2 2 
  k

f ( x) dx ,
poiché se x è almeno k volte il valore atteso di X, allora la differenza al quadrato tra x e
il suo valore atteso, cioè (x - )2, deve essere maggiore di k2 2. Ad esempio, se x =  k - h, allora x -  =  - k - h -  = - (k + h). Di conseguenza, il quadrato di questa
quantità sarà più grande di k22. Analogamente

   x   
k
2
f ( x) dx  k 2 2 

  k
quindi, sostituendo, si ottiene:
136
f ( x) dx
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
 2  k 2 2 
Versione 2015

  k

f ( x) dx  

  k
f ( x) dx

la quantità in parentesi è uguale a
P  x    k   P  x    k   P  x    k   1  P  x    k 
quindi
 2  k 2 2 1  P  x    k 
1
 1  P  x    k 
k2
1
 P  x    k   1  2
k
La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile
casuale, la probabilità dei valori che si collocano in un intorno della media di ampiezza
1
 k 
è sempre superiore ad
1  2 . Ad es., per k = 2, si ottiene
k
P    2  X    2   3 / 4 , cioè per ogni variabile casuale avente varianza finita
almeno ¾ dei valori distano dalla sua media meno del doppio della deviazione
standard.
Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1
oppure per k < 1, risulta che la probabilità è  0 : ma questo è sempre vero per la
definizione stessa di probabilità.
Se si fa riferimento ad una particolare distribuzione e si considera una specifica
funzione g(X) si perviene ad un altro interessante risultato.
Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai
X
parametri p ed n e la trasformazione Y 
, cioè la variabile casuale binomiale
n
X
X pq
relativa, la cui media e varianza sono, rispettivamente, E    p e Var   
.
n
n
n
Applicando la disuguaglianza per
X X
g Y   g   
p
n
n
si avrà

P

2
 X
 
E   p  
2
 X

 
X
pq

 n

2
 p  c   P   p   c   

2
n
c
n c2


 n

da cui
137
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
pq
 X

lim P   p  c   lim
0
n

n c2
 n

ed anche (probabilità dell’evento contrario)
n 
 X

lim P   p  c   1
n 
 n

Siccome c può essere scelto piccolo a piacere, si può anche concludere che al
crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni
analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità
dell’evento stesso.
Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile
casuale binomiale relativa interpretabile come media aritmetica di n variabili casuali di
Bernoulli indipendenti e identicamente distribuite.
Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più
interessante è quella che estende il risultato ad una successione qualsiasi di variabili
casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media
E(Xi) = .
Teorema di Kolmogorov (legge debole dei grandi numeri) – Sia X1, X2, …, Xn, … una
successione di variabili casuali indipendenti e identicamente distribuite, di media 
1 n
finita, allora per la variabile casuale X n   X i , di media E ( X n )   , vale la
n i 1
relazione
P lim X n    1


n 
Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano
varianza 2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,
dimostrare facilmente la cosiddetta legge debole dei grandi numeri espressa dalla
relazione




lim P X n    c  1  P X n    c  1   ,
n
dove 0 <  < 1.
Dimostrazione
Ponendo g ( X )  X n   e applicando il Teorema di Markov, si ottiene


X n    c  P  X n   

da cui
P
2
2
E  X n    
2


 c2   1  

1


c2
n c2

2 
X n    c  lim  1 
1
2 
n 
n 
n
c


La legge forte dei grandi numeri è espressa dalla relazione
lim P


138
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015


P lim X n    1
n
La diferenza tra le due leggi è ovvia; infatti, anche se entrambe le leggi affermano
che al crescere della numerosità degli elementi della successione considerati la loro
media tende alla media comune µ , nel primo caso (legge debole) si ammette la
possibilità che, in probabilità, si registri uno scarto tra X n e  , nel secondo caso (legge
forte) tale possibilità è esclusa.
Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in
quanto consentono di fare inferenze attendibili sulla media di una popolazione quando
si dispone soltanto di un campione. Tali leggi, infatti, stabiliscono che è possibile
determinare un intero positivo n (ampiezza campionaria) tale che, se si prende un
campione casuale di ampiezza maggiore o uguale ad n da una popolazione con media ,
allora la probabilità che la differenza tra la media campionaria X n e la media della
popolazione  sia minore di una quantità fissata piccola a piacere è vicina ad 1 quanto si
vuole.
Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della
probabilità e della statistica ma ancora più rilevante è, come si avrà modo di
approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale
(teorema centrale del limite), qui se ne propone una versione particolare, quella
usualmente attribuita a Lindberg-Levy.
Teorema del limite centrale - Sia X1, X2, …, Xn, … una successione di variabili casuali
indipendenti ed identicamente distribuite (i.i.d.) di media  e varianza 2 > 0 finita;
si consideri la variabile casuale (media aritmetica dei primi n elementi della
successione)
1 n
Xn   Xi
n i 1
che avrà valore medio e varianza, rispettivamente, E ( X n )   e Var ( X n ) 
2
n
, allora
la variabile casuale standardizzata
Zn 
Xn 
/ n
per n  + tende alla distribuzione normale (standardizzata).
Dimostrazione
Si indichi con
t2
2
m  t   e la funzione generatrice dei momenti della v.c. Normale
standardizzata e con mzn  t  la funzione generatrice dei momenti di Zn. si vuol
dimostrare che mzn  t  tende a m(t) al crescere di n.
139
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
Per l’indipendenza delle v.c. Xi, vale

 n

X i   




 X n   

 t n X i   
i 1




mzn (t )  E (et Zn )  E exp  t

E
exp
t

E
exp


n
 

  / n 
 i 1  / n  

  / n 






n
 n

 t X i   
 t X i   
E  exp 

E exp 




 n  / n   i 1 
 n  
 i 1
Se si pone Yi = (Xi - )/ , la funzione generatrice dei momenti di Yi, cioè my  t  , è
indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi

 t X i    n 
 t
 n   t    t 
mz (t )   E exp 

E
exp
Y
i      mY 
  

    mY 

 n    i 1 
 n   i 1   n     n  
i 1

n
n
La derivata r-esima di mY (t / n ) calcolata per t = 0 fornisce il momento r-esimo
rispetto alla media della densità f(.) divisa per ( n ) r , pertanto
 t
1  2  t  1 3  t 
mY (t / n )  1  1


 .... 
 n 2!  2  n  3!  3  n 
2
 1
t2
 n
2!
2

t3
3
t2
t3

.....

1


3
3
2n 3! n
n 
 
3!
3
 
3
3
 .....
3
passando al limite per n    si ottiene
n
n
n


t2

 t 2 

t2
t3
3
t2
t2 


lim mzn  t   lim 1 

 .....  lim 1 
 o     lim  1    e 2
3
3
n 
n 
n

2
n

2
n
 2n   n  2n 



3! n


 t2 
t2
dove o   , per n  , sta ad indicare un infinitesimo di ordine superiore a
2n
 2n 
 
t2
2
ma e è la funzione generatrice dei momenti della v.c. normale standardizzata, quindi,
la v.c. Zn , per n   ha la stessa funzione generatrice dei momenti della v.c.
normale standardizzata, cioè, stessa funzione di distribuzione e stessa funzione di
densità.
In altre parole, il teorema del Limite Centrale afferma che, se si dispone di variabili
casuali indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di
1
media e varianza, allora la variabile casuale X n   X i ha, per n abbastanza grande,
n i
una distribuzione approssimativamente normale con media
140
 e varianza
2
. La
n
B. Chiandotto
INFERENZA STATISTICA
Cap. 1 - Calcolo delle probabilità
Versione 2015
bontà dell’approssimazione dipende dal tipo di distribuzione comune. L’elemento
essenziale da osservare è che non importa quale distribuzione comune abbiano le v.c.
X1, X2, …, Xn, …, purché esse abbiano una media ed una varianza finite e siano
indipendenti.
Quindi, ogni volta che un fenomeno reale può essere interpretato come la somma
oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la
prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel
fenomeno sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il
punteggio che si riceve sottoponendosi ad una serie numerosa di test a risposta multipla
è la risultante di numerose cause, tra cui: la preparazione generale del soggetto, la
conoscenza degli argomenti specifici selezionati dall’esaminatore, l’attitudine verso la
materia, i fattori psicologici ecc. Anche se difficili da quantificare, questi effetti
determinano con pesi differenti l’esito e il voto finale che si distribuisce
approssimativamente come una v.c. Normale.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella
in cui non si richiede più che le variabili casuali della successione abbiano identica
distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi
generali di regolarità delle distribuzioni tra le quali la condizione che le medie E(Xi) =
(i) e le varianze Var ( X i )   i2  0 siano finite. In questo caso, naturalmente, la
variabile che tende alla variabile casuale normale standardizzata è
Zn 
dove: X n 
1
n
n
 Xi ,  
i 1
1
n
Xn 
 /n
n
n
i 1
i 1
  (i ) e  2   i2 .
141
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
CAP. 2 - CAMPIONAMENTO e DISTRIBUZIONI
CAMPIONARIE
Introduzione
Nella premessa a queste note si è avuto modo di distinguere la statistica descrittiva
dalla statistica induttiva (inferenza statistica) sottolineando che si opera nel primo
ambito quando si dispone di tutte le manifestazioni del fenomeno d’interesse, in tali
circostanze la statistica (descrittiva) si risolve in un insieme di metodi che consentono
una compattazione adeguata delle informazioni disponibili per rendere possibile o,
quantomeno, facilitare la comprensione degli aspetti del fenomeno che più interessano
(a fini conoscitivi e/o decisionali).
Se per qualche motivo (perché impossibile o perché non conveniente) non si dispone
di tutte le manifestazioni del fenomeno ma soltanto di un sottoinsieme di queste, si
dispone cioè di un campione casuale di manifestazioni del fenomeno d’interesse, la
statistica (induttiva) si caratterizza come l’insieme delle teorie e dei metodi che
consentono di pervenire, utilizzando i dati campionari, a delle conclusioni che siano “il
più vicino possibile” a quelle cui si sarebbe pervenuti disponendo di tutte le
manifestazioni del fenomeno.
Nel caso in cui si ritiene che il fenomeno sia governato da una legge esprimibile
analiticamente (modello probabilistico), anche se nella generalità dei casi si tratta di una
approssimazione alla realtà, qualunque insieme di manifestazioni del fenomeno a
disposizione rappresenta necessariamente un campione essendo l’intera popolazione
rappresentata dal modello (superpopolazione).
2.1 Campioni casuali
Se con P si indica l’insieme di tutte le possibili manifestazioni del fenomeno di
interesse e con Cp un suo sottoinsieme (Cp  P), operando su Cp (campione) si
vogliono trarre conclusioni valide per P , si vuole, cioè, inferire dal campione alla
popolazione.
La statistica (induttiva) tratta in modo quasi esclusivo dei campioni casuali
(campioni probabilistici), cioè, dei sottoinsiemi Cp di P cui si perviene attraverso
l’applicazione di un qualche meccanismo di selezione avente natura probabilistica. Non
costituisce, quindi, parte integrante della statistica induttiva (inferenza statistica)
l’analisi dei campioni non probabilistici; rientrano in quest’ultima categoria i cosiddetti
campioni ragionati e quelli per i quali non è noto il meccanismo generatore.
E’ campionamento ragionato quello che individua le unità campionarie, cioè le unità
143
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
statistiche portatrici delle informazioni (manifestazioni del fenomeno d’interesse),
attraverso l’applicazione di procedure basate sull’impiego ragionato dell’informazione
disponibile al momento in cui si procede all’individuazione delle unità che andranno a
costituire il campione. In proposito si deve, comunque, sottolineare che le informazioni
disponibili costituiscono spesso la base di schemi di campionamento probabilistico più
complessi (campionamento sistematico, campionamento stratificato, campionamento a
grappolo, campionamento a più stadi, campionamento stratificato a più stadi, ecc.), ma
in tali circostanze le informazioni disponibili vengono utilizzate solo per incrementare
l’efficienza (attraverso una riduzione della variabilità campionaria) del processo di
induzione dal campione alla popolazione, e non per individuare le singole unità che
andranno a costituire il campione che saranno comunque estratte casualmente.
In questa sede si tratterà esclusivamente del campionamento casuale semplice; cioè,
dei campioni cui si perviene procedendo all’estrazione di n (dimensione del campione)
elementi che hanno la stessa probabilità di essere inclusi nel campione.
Nell’ambito del campionamento si ipotizzerà sempre (almeno a livello teorico)
l’esistenza di un modello probabilistico capace di rappresentare adeguatamente il
fenomeno che interessa analizzare. In altre parole, si assumerà che la popolazione P sia
rappresentata da una variabile casuale semplice o multipla con una propria funzione di
distribuzione non completamente nota. Ovviamente, se la funzione di distribuzione
fosse completamente nota si tornerebbe al caso di disponibilità completa di tutte le
possibili manifestazioni del fenomeno d’interesse.
Se si fa riferimento al caso unidimensionale, ma ragionamento analogo vale anche
nel caso multidimensionale, la situazione di riferimento è quella di una variabile casuale
semplice X con funzione di distribuzione F  x ; 1 ,2 ,....,k   F  x ;   , dove
(1 ,2 ,....,k )   è l’insieme (vettore) dei parametri caratteristici del modello definiti
nello spazio parametrico  k    k  ; cioè, lo spazio di variabilità dei parametri che
caratterizzano lo specifico modello, rappresentativo della specifica situazione reale,
nell’ambito della famiglia di distribuzioni espressa dalla funzione F  ,  .
Se, come avviene usualmente, si considera la funzione di massa (caso discreto) o di
densità (caso continuo) di probabilità della variabile casuale X , si dirà che si sta
trattando della variabile casuale semplice X con funzione di massa o di densità di
probabilità f  x ; 1 ,2 ,....,k   f  x ;   .
Si è detto che esiste un problema di inferenza statistica quando la funzione di
distribuzione F  ,  non è completamente nota; al riguardo si possono distinguere
almeno due situazioni di mancanza di conoscenza: la prima situazione è quella
caratterizzata da una conoscenza parziale della funzione F  x ;   nel senso che si
conosce la forma analitica della funzione ma non si conosce il valore di tutti o di alcuni
parametri caratteristici della funzione stessa, in questa circostanza si parla di inferenza
statistica parametrica. La seconda situazione è quella d’ignoranza completa: non si
144
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
conosce sia il valore dei parametri sia la forma analitica della funzione di massa o di
densità di probabilità; in questa circostanza si parla di inferenza statistica non
parametrica. Una terza situazione, intermedia rispetto alle due precedenti, è quella in
cui si specificano certe componenti del modello (ad esempio si suppone che la v.c.
appartenga alla famiglia esponenziale ma non si specifica la sottofamiglia: forma
funzionale della funzione di massa o di densità). Se si opera in tale contesto si parla di
inferenza statistica semi-parametrica, nel senso che la forma analitica del modello
probabilistico rappresentativo del fenomeno in esame è specificata solo parzialmente.
Si ricorda che la dizione inferenza statistica non parametrica non è certamente la più
appropriata in quanto interpretabile come se, in questo ambito, le procedure di statistica
induttiva non riguardassero i parametri. Ovviamente, questa interpretazione è
fuorviante, infatti, con la dizione “non parametrica” si vuole, molto semplicemente,
caratterizzare le situazioni inferenziali nelle quali non si conosce forma analitica e
valore dei parametri caratteristici, elementi questi entrambi coinvolti nelle procedure
inferenziali. La dizione corretta per caratterizzare tali situazioni è quella di inferenza
statistica libera da distribuzione (distribution free).
E’ già stato sottolineato che in queste note si parlerà in modo esclusivo di
campionamento casuale semplice; in realtà il limite è ancora più rigido, infatti, la
trattazione sarà limitata al campionamento casuale semplice con ripetizione
(campionamento bernoulliano), in questo contesto le variabili casuali associate a
ciascuna unità campionaria risultano indipendenti e identicamente distribuite (i.i.d.).
Al riguardo si deve, comunque, sottolineare che nelle situazioni reali, soprattutto
quando si procede all'estrazione di unità campionarie da popolazioni finite, il
campionamento che si realizza è quello esaustivo (campionamento casuale semplice
senza ripetizione), ma è anche vero che nella generalità dei casi le differenze tra i due
schemi di campionamento diventa operativamente irrilevante avendo a che fare con
popolazioni di dimensione molto elevate, dimensione che diventa infinita nel caso di
variabili casuali continue. Tale motivazione giustifica la trattazione del campionamento
bernoulliano molto più semplice dal punto di vista analitico. Al riguardo si sottolinea,
comunque, che i campioni casuali semplici senza ripetizione pur non soddisfacendo
l’ipotesi di indipendenza soddisfano l’ipotesi di scambiabilità 1.
Definizione 1
1
Se X1, X2,...,Xn costituiscono un insieme di variabili casuali
indipendenti e identicamente distribuite (i.i.d.), la loro funzione di
Nel caso di campionamento con ripetizione è soddisfatta la condizione (cfr. Definizione 1)
n
F  x1 ,x2 ,....,xn ;     F  xi ;  
i 1
Mentre la condizione di scambiabilità è molto meno restrittiva e richiede il soddisfacimento della relazione

F  x1 ,x2 ,....,xn ;    F x 1 ,x  2 ,....,x  n ; 
per tutte le permutazioni
 1 ,   2  ,.....,   n  .
145

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
massa o di densità di probabilità congiunta soddisfa l'uguaglianza
f  x1 ,x2 ,....,xn ; θ1 ,θ2 ,....,θk   f  x ;   
n
 f  x1 ;    f  x2 ;    ....  f  xi ;    ....  f  xn ;     f  xi ;  
i 1
allora si dice che l’insieme di variabili casuali i.i.d. X1, X2,...,Xn
costituisce un campione casuale semplice di
n osservazioni
indipendenti relativo alla variabile casuale X che ha funzione di massa
o di densità di probabilità equivalente a quella (comune) di ciascuna
componente
Xi
del campione. Il punto campionario
'
 X1, X 2 ,...., X n 
X 
è definito nello spazio o universo dei campioni
X
ad n dimensioni C n
 Cn  .
f  xi ;   , per i = 1, 2,..,n, si è indicata la
Nella formula sopra riportata con
funzione di massa, o di densità di probabilità, dell'i-esimo elemento costituente il
campione. Avendo supposto l'indipendenza tra le osservazioni campionarie, si avrà,
come già sottolineato, l'uguaglianza (equivalenza) tra la distribuzione della variabile
casuale X relativa alla popolazione e la variabile Xi (tale deve essere intesa a priori, cioè
prima dell'effettiva estrazione del campione) relativa all'i-esimo elemento campionario
(i = 1, 2 ...,n).
Dalla definizione risulta che se, ad esempio, si volesse estrarre un campione di n
elementi da una popolazione distribuita normalmente, con media  e varianza  2 , la
funzione di densità di probabilità del campione casuale è


n


f  x1 , x2 ,...., xn   f x1 , x2 ,...., xn ;  ,  2   f xi ;  ,  2 
n

i 1

1
2 2
e
1  xi   


2  
2

1

2  2

n/2
e

i 1
n
1
2
2
  xi   
2
i 1
Se l'estrazione del campione di n elementi riguardasse una v.c. di Poisson
caratterizzata dal parametro  , la funzione di massa di probabilità del campione
casuale è:
f  x1 , x2 ,...., xn   f  x1 , x2 ,...., xn ;   
n
n
i 1
i 1
  f  xi ; λ   
λ xi  λ
e
xi!
Alle due funzioni f(x1, x2,...,xn; µ,2 ) e f(x1,x2, ..., xn;  ) sopra riportate e, in
generale, ad ogni funzione di massa o di densità di probabilità campionaria può essere
associata una seconda interpretazione che introduce nella trattazione un concetto di
estrema rilevanza: la funzione di verosimiglianza. Si tratta di una funzione del tutto
equivalente, in termini formali, alla funzione di massa o di densità di probabilità
146
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
campionaria, ma che da questa si diversifica sostanzialmente. Infatti, la funzione
f  x1 , x2 ,...., xi ,...., xn ;    f

n
x;    f  xi ;  
i 1
 x1 , x2 ,...., xi ,...., xn 
è detta di verosimiglianza quando alla n-pla
vengono attribuiti i
valori campionari osservati; pertanto, essendo x1 , x2 ,...., xi ,...., xn quantità note, la
f  x1 , x2 ,...., xi ,...., xn ;   è, in realtà, funzione del solo parametro (o parametri) 
per un campione prefissato. Per evidenziare questa particolare interpretazione si può
rappresentare algebricamente la funzione di verosimiglianza con l’espressione
n
L    L  / X  x    f  / xi 
i 1
dove X 
'
 X1, X 2 ,...., X n 
casuale) associata alle
n
rappresenta la variabile casuale ad n dimensioni (vettore
rilevazioni campionarie, mentre
x   x1 , x2 ,....., xn 
'
rappresenta il punto campionario, cioè una specifica determinazione del vettore casuale
X , definito nello spazio o universo dei campioni a n dimensioni .
Pertanto, nella prima interpretazione, la funzione
n
 f  x;    f  xi ;  
i 1
si riferisce all’universo dei campioni, si tratta, come già sottolineato, di un riferimento a
priori, cioè prima dell’effettiva estrazione del campione. In questo contesto, le variabili
che interessano sono, appunto le n componenti, X1, X2,…,Xn, associate a ciascun punto
campionario per un dato valore del parametro  , o del vettore dei parametri  
Nella seconda interpretazione, la variabile di riferimento è il parametro (vettore dei
parametri) incognitoin quanto si assume l’avvenuta estrazione campionaria delle unità
statistiche di osservazione e le variabili associate a ciascuna unità (punto campionario)
hanno assunto una specifica determinazione, sono cioè delle costanti note, mentre 
(parametro o vettore dei parametri) assume la natura di variabile essendo tale entità
un’incognita del problema. Al riguardo si sottolinea che nel contesto della cosi detta
inferenza statistica classica  ,pur essendo teoricamente variabile in quanto incognito,
non ha la natura di variabile casuale, interpretazione questa, che come si avrà modo di
chiarire successivamente, è propria dell'inferenza statistica bayesiana. Un tentativo,
non completamente riuscito a parere delle scrivente, di attribuzione di natura aleatoria al
parametro (o parametri) è rappresentato dalla cosi detta inferenza fiduciale proposta da
Fisher nel 1930 attraverso l'introduzione del concetto di probabilità inversa che non ha
natura di distribuzione di probabilità a priori. Comunque, alcune generalizzazioni e
sviluppi recenti dell'inferenza fiduciale sembrano fornire una risposta soddisfacente ad
alcune perplessità insite nell'impostazione iniziale data da Fisher2.
2
Al riguardo si può consultare, tra gli altri, Hannig (2009).
147
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Esempio 2.1
Si consideri una popolazione bernoulliana (variabile casuale di Bernoulli X che può assumere
i due valori 0, assenza del carattere, ed 1, presenza del carattere) con parametro caratteristico
 = p e si supponga che da tale popolazione si voglia procedere all’estrazione di n = 6, n = 12
ed n = 36 unità campionarie rimettendo ogni volta l’unità estratta nella popolazione
(campionamento bernoulliano). In tali situazioni la funzione di massa di probabilità è quella
sotto riportata
n
n
f(x1,x2,…,xn;p) =
 f(x ;p) =
i
 xi
n
p i 1 ( 1  p )
n
 xi
i 1
i 1
dove basterà sostituire ad n i valori 6, 12 e 36.
Se si procede alla rilevazione campionaria nei tre casi sopra considerati e le sequenze
osservate sono, rispettivamente:
- (1,0,1,1,1,1) per n = 6 (x=5);
- (1,1,0,1,1,1,1,1,1,1,0,1) per n = 12 (x=10);
- (0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,1,1,1,0,0,1,1,1,1,1,0,1,0,1,1) per n = 36 (x=30).
Le funzioni di verosimiglianza sono :
L(p) = p5 (1-p)1
per 0  p  1
10
2
L(p) = p (1-p)
per 0  p  1
30
6
L(p) = p (1-p)
per 0  p  1
la cui rappresentazione grafica è riportata alla pagina successiva.
Osservando la Fig. 2.1 si rileva in modo molto evidente la tendenza alla normalità della
funzione di verosimiglianza al crescere della dimensione campionaria.
Per una comprensione più immediata sia dei metodi statistici che verranno trattati in
seguito, sia delle loro proprietà, occorre sempre tenere presente la distinzione fra
variabile casuale e determinazioni (valori osservati) della variabile casuale stessa: prima
di effettuare l'estrazione campionaria gli elementi costituenti il campione X1, X2,...,Xn,
sono variabili casuali; infatti, l'elemento generico Xi (i = 1, 2 ..,n) ha, come già
sottolineato, una struttura del tutto analoga a quella della variabile casuale X, ha cioè la
stessa funzione di distribuzione e, quindi, stessa funzione di massa o di densità di
probabilità. Dopo aver osservato i risultati campionari, le quantità x1 , x2 ,...., xn
costituiscono particolari determinazioni della variabile casuale X.
Poiché gli elementi costituenti un campione sono delle variabili casuali, è variabile
casuale anche ogni funzione T(X1,X2,…,Xn) non costante degli stessi. Tale funzione,
che non dipende dai parametri incogniti  1 , 2 ,...., k ,viene usualmente detta statistica
(dall’inglese statistic). Sarà, quindi, possibile derivare la funzione di massa o di densità
di probabilità di tale variabile in funzione della distribuzione di massa o di densità di
probabilità delle variabili casuali associate ai singoli elementi campionari.
148
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
L(p)
0,08
0,07
n= 6 , x = 5
0,06
0,05
0,04
0,03
0,02
0,01
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
L(p)
0,005
0,0045
n =12 , x = 10
0,004
0,0035
0,003
0,0025
0,002
0,0015
0,001
0,0005
0
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1
0,5
0,6
0,7
0,8
0,9
1
L(p)
n =36 , x = 30
0,0000001
9E-08
8E-08
7E-08
6E-08
5E-08
4E-08
3E-08
2E-08
1E-08
0
0
0,1
0,2
0,3
0,4
Fig. 2.1 – Funzione di verosimiglianza relativa a n prove con ripetizione effettuate su una
popolazione in cui ciascuna unità è caratterizzata dalla presenza o assenza di uno
specifico carattere
149
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
2.2 Sufficienza
Da quanto sopra detto, qualunque statistica, cioè qualunque funzione
T(X1,X2,…,Xn)=T(X) degli elementi campionari che non contiene parametri incogniti, è
essa stessa variabile casuale come gli elementi Xi (i = 1, 2,….,n) costituenti il
campione.
Una statistica potrebbe, al limite, contenere tutte le informazioni campionarie,
rappresentare, cioè, un punto campionario nello spazio ad n dimensioni. Nella
generalità dei casi la funzione T    compatta le informazioni, riducendo lo spazio di
riferimento da n dimensioni a k dimensioni dove k  n è il numero dei parametri che
caratterizzano la v.c. che si sta trattando.
X 
Definizione 1 (Sufficienza). Se
'
 X1, X 2 ,...., X n 
costituisce un campione
casuale semplice bernoulliano estratto da una popolazione rappresentata
dalla variabile casuale, discreta o continua X , con funzione di massa o di
densità di probabilità f(x;) , una statistica T  X  = T(X1,X2,…,Xn) si
dice sufficiente per il modello f(x;) se e solo se la distribuzione del
campione condizionata da un qualunque valore assunto dalla statistica
T(.) , cioè f(x1,x2,…,xn / T=t), è la stessa per qualunque valore di  , cioè,
se e solo se la distribuzione condizionata del punto campionario
X 
'
 X1, X 2 ,...., X n 
non varia al variare di non dipende da 
Per comprendere il significato della definizione, si supponga per semplicità che
T  X  sia una v.c. discreta e t un possibile valore di T  X  , allora
P  X  x T  X   t ( x )  
P  X  x  T  X   t ( x ) 
P T  X   t ( x ) 
ma
 X  x   T  X   t  x  3, quindi
P  X  x  T  X   t  x   P  X  x 
quindi
P  X  x 
p( x |  )
P  X  x T  X   t ( x )  

P T  X   t ( x )  q t ( x ) |  
3
Infatti, l’uguaglianza
T  X   t  x  deve valere per qualunque funzione
150
T(.) ivi incluso
T X  X .
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
dove p( x |  ) è la distribuzione di massa di probabilità congiunta del campione X e
q t  x  |   è la distribuzione di massa di probabilità di T  X  . Quindi, T  X  è una
statistica sufficiente per θ se, e solo se, per ogni x il rapporto
p( x |  )
è una costante
q t ( x ) |  
non dipendente da θ.
Il risultato ottenuto in precedenza conduce alla formulazione del seguente teorema:
Teorema 1: Se p( x; ) è la distribuzione di massa di probabilità congiunta di X e
q(t ; ) è la distribuzione di massa di probabilità di T  X  , allora T  X  è
una statistica sufficiente per θ se, e solo se,  x  Ω
il rapporto
p ( x;  )
è una costante non dipendente da θ.
q(T ( x ); )
Esempio 2.2
Siano X 1 ,...,X n variabili casuali i.i.d. di Bernoulli con parametro p, 0 < p < 1. Allora
T  X   X1  ...  X n è sufficiente per p. Infatti, osservando che T  X  indica il numero di Xi
uguali ad 1 ed ha una distribuzione binomiale b(n, p) allora
p ( x; p )
 p xi (1  p)1 xi  p  xi (1  p) (1 xi )  pt (1  p)nt   n 

t
q T ( x ); p   n  t
n t
n t
n t
n t
n t
 
 t  p (1  p)
 t  p (1  p)
 t  p (1  p )
 
 
 
1
Un risultato questo che non dipende dal parametro p.
Esempio 2.3
Siano X 1 ,...,X n variabili casuali i.i.d. da una popolazione N  ,  2 , con parametro σ2 noto.


Allora la media campionaria T  X   X è sufficiente per μ. Infatti, la distribuzione di densità
congiunta del campione X è:
f ( x;  )   (2 2 ) 1/2 exp  ( xi   ) 2 2 2 
i

 (2 2 )  n /2 exp    ( xi  x  x   ) 2
 i
 2  
2


 (2 2 )  n /2 exp     ( xi  x ) 2  n ( x   ) 2 

 i
151


 2 
2

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
e, poiché X segue una distribuzione N   ,  n  , allora il rapporto


2
 


(2 2 )  n /2 exp     ( xi  x ) 2  n( x   ) 2   2 2  
f ( x;  )

  i


2
2
1/2
2
q  t ( x );  
(2  n ) exp n  x     2 



 n 1 2 (2 2 )  ( n 1)/2 exp    ( xi  x )2
 i
 2  
2

non dipende da μ.
La definizione 1 ed il teorema 1 spesso non consentono una facile verifica della
proprietà di sufficienza, obiettivo questo che si può invece conseguire se si fa
riferimento ad un famoso teorema usualmente noto come criterio di fattorizzazione di
Neyman-Fisher.
Teorema 2 (Criterio di fattorizzazione di Neyman-Fisher): Dato un campione
casuale semplice X1, X2,…,Xn estratto da una popolazione X con funzione
di massa o di densità di probabilità f(x;) , dove  rappresenta il parametro
incognito, una statistica T(X1,X2,…,Xn) è sufficiente per il modello f(x;) se
e solo se vale la relazione:
n
f x1 , x2 ,..., xn ;    f xi ;   g T x1 , x2 ,..., xn  ;   hx1 , x2 ,..., xn 
i 1
dove h(x1,x2,…,xn) è una funzione non negativa dei soli elementi
campionari e gT x1 , x2 ,..., xn  ;  è una funzione non negativa che dipende
da  e dagli elementi campionari solo attraverso la funzione T    .
Dimostrazione (caso discreto).
Poiché T  X  è una statistica sufficiente la distribuzione condizionata di X dato
T  X   t  x  non dipende da  ma tenendo presente che:
X  x  T  X   t  x   P  X  x   P  X  x  T  X   t  x 
si ha
f ( x |  )  P ( X  x )  P  X  x  T  X   t ( x ) 
 P T  X   t ( x )   P  X  x T  X   t ( x ) 




 per la sufficienza P X  x T  X   t ( x )  P X  x T  X   t ( x )
 g (T ( x ) |  )  h( x ).
152

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Si supponga che f ( x; )  g (T ( x); )  h( x) , ma
P T  X   t  x  

x:T  X t  x 

  h  x
   
f  x;   g t  x  ;  
x:T X t x
inoltre
se X  x e T  X   t  x  , allora T  x   t  x  ma
P  X  x T  X   t  x   

P  X  x  T  X   t  x  
P  X  x 


P T  X   t  x  
P T  X   t  x  
g t  x  ;   h  x 
g t  x  ;  

x:T  X  t  x 
 X  x   T  X   t  x  , quindi
h  x
 h  x

h  x
x:T  X  t  x 
che non dipende da  , cioè, T  X  è una statistica sufficiente.
Corollario – Una statistica T = T(X1,X2,…..,Xn) è sufficiente per  se e solo se la
funzione di verosimiglianza associata al punto campionario assume la forma
L   gt x1 , x2 ,....., xn  ; 
Esempio 2.3 (continua)
Per il modello normale, la funzione di densità può essere scomposta nei fattori

f ( x  )  (2 2 )  n / 2 exp  


con h( x)  (2 )
2 n / 2
 x  x  /  2
n
2
2
i
i 1

exp  




i

   exp  n( x   )

2
(2 2 ) 

( xi  x ) 2 (2 2 )  che non dipende dal parametro


2
2
incognito μ e g (t |  )  exp n( x   ) (2 )
 che, viceversa, dipende dal campione
x solo attraverso la funzione t  x   x .
Per i modelli probabilistici appartenenti alla famiglia esponenziale l’individuazione
di statistiche sufficienti è immediata se si fa riferimento al criterio di fattorizzazione;
infatti, se X1 ,..., X n sono variabili casuali i.i.d. relative ad un campione estratto da una
distribuzione di massa o di densità di probabilità f ( x; ) che appartiene alla famiglia
esponenziale si ha:
f  x;   a   h  x   e   t  x
quindi
153
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
n
f ( x1 , x2 ,....., xn ;  )  f
 x;    f  xi ;  
i 1
  a    
n
n

  
h  xi   e
n
 t  xi 
i 1
 g T  X ;    h  X 
i 1
  
dove g T  X  ;   a    e
n
n
t  xi 
i 1
, h X  
n
h x  e
i
i 1
T  X    t  xi  , quindi
n
i 1
T  X  è statistica sufficiente per θ.
La definizione di sufficienza e il criterio di fattorizzazione possono essere facilmente
estesi al caso in cui la funzione di densità o di massa di probabilità è caratterizzata da un
vettore di k parametri   1 , 2 ,..., k  cui corrisponde un vettore di k statistiche
'
T  X   T1  X  , T2  X  ,..., Tk  X 
'
(le dimensioni dei due vettori non devono
necessariamente coincidere).
La verosimiglianza assume la forma
n
L(  x ) 
 f  x ;  
i
i 1
  a    
n
n
hx   e
n
i  t  xi 
i 1
i
 g T  x;    h  x  .
i 1
Se la famiglia esponenziale è regolare, le statistiche definite nel vettore T  X  ,
prese nel loro insieme, sono congiuntamente sufficienti per   1 , 2 ,..., k  .
Se la famiglia esponenziale è regolare, cioè se il supporto della v.c. X non dipende
da  , il vettore T  X   T1  X  , T2  X  ,..., Tk  X  è sufficiente per  .
'
Relativamente al concetto di sufficienza valgono, inoltre, le seguenti proprietà:
 se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si
dimostra che qualsiasi trasformazione biunivoca di tale statistica (o vettore di
statistiche) è anch’essa sufficiente;
 nel criterio di fattorizzazione, se in luogo di f(x; ) si considera il suo logaritmo
naturale log f(x; ), la scomposizione di tale funzione in due componenti si
realizza in modo analogo, con la differenza che i due fattori anziché
moltiplicarsi si traducono nella somma dei loro logaritmi. Infatti:


log  f  x1, x2 ,..., xn ;   log g T  x1, x2 ,..., xn  ;    h  x1, x2 ,..., xn  




 log g T  x  ;   h  x   log g T  x  ;   log h  x   g1 T  x  ;   h1  x 
La proprietà richiamata in quest’ultimo punto sta ad indicare che se T(x) è sufficiente
per  se e solo se log f (x; ) può essere scomposto nella somma di due funzioni
154
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
g1(T(x); ) e h1(x), di cui: la prima dipende dal parametro e dal campione solo
attraverso la funzione T(.); la seconda dipende solo dagli elementi del campione.
Esempio 2.3 (continua)
Per il modello normale, qualora sia μ che σ2 risultino incognite (cosicché il vettore dei
parametri risulti   (  ,  2 ) ), ogni parte della densità campionaria congiunta che dipende o
da μ o σ2 deve essere inclusa, per il teorema di fattorizzazione, nella funzione g(.). Da quanto
visto in precedenza si ha che
 


f ( x  )  (2 2 )  n /2 exp     ( xi  x ) 2  n( x   ) 2  / (2 2 )  

  i

 (2 2 )  n /2 exp
 (n  1)t
2

 n(t1   ) 2  (2 2 ) 
 g (t1 , t2 |  ,  )h( x )
2
con
t1  x ,
t 2   ( xi  x ) 2 (n  1)
h( x)  1 .
e
Quindi
i
T  X   T1  X  , T2  X    X , S 2  sono statistiche congiuntamente sufficienti per ( ,  2 ) .
Riguardo alle statistiche sufficienti si deve, infine, sottolineare che l’intero campione
X è per definizione esso stesso una statistica sufficiente (con T  x   x e h  x   1 per
ogni x ). Da ciò segue che ogni funzione biunivoca di una statistica sufficiente è ancora
una statistica sufficiente. Infatti, sia T *  x   r T  x  , con T  x  sufficiente e r
funzione biunivoca con inversa r–1. Allora, per il Teorema di fattorizzazione,




f ( x |  )  g T ( x) |    h( x)  g r 1 T * ( x)  /   h( x)  g * T * ( x)  /   h( x)
quindi T * ( x ) è una statistica sufficiente.
La non unicità delle statistiche sufficienti solleva un problema di scelta tra le
alternative possibili; ovviamente la scelta ottimale ricadrà sulla statistica caratterizzato
dal più elevato livello (in termini esplicativi) di sintesi, senza dover rinunciare ad alcuna
delle informazioni necessarie alla conoscenza dei parametri incogniti; una tale statistica
viene detta sufficiente minimale
Una statistica sufficiente minimale non è unica, in quanto una qualunque sua
funzione biunivoca è ancora una statistica sufficiente minimale.
2.3 Distribuzioni campionarie
Definizione 2 Si dice distribuzione campionaria ogni distribuzione di probabilità che
evidenzia la relazione esistente tra i possibili valori che possono essere
assunti (nell'universo dei campioni) da una qualsiasi funzione
T(X1,X2,…,Xn)=T(X) (ad es. un indice sintetico) applicata agli n
elementi campionari (casuali) e la distribuzione di massa o di densità di
155
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
probabilità associata agli n elementi costituenti il campione stesso.
Si consideri la funzione, definita sugli elementi X1, X2,...,Xn, di un campione casuale
semplice con ripetizione relativo ad una certa variabile X che ha momento
s-esimo (s = 1,2,3,…) pari a s e varianza pari a 2:
1 n
X s = Ts (X1,X2,...,Xn) =  X is ; s=1,2,...
n i 1
che viene usualmente detto momento campionario, o momento empirico, di ordine s
rispetto all'origine. Evidentemente tale momento varierà al variare del campione e
descriverà una variabile casuale, la cui funzione di massa o di densità di probabilità
dipenderà dalla funzione di massa o di densità di probabilità delle variabili casuali
X1,X2,…,Xn, e quindi, dalla funzione di massa o di densità di probabilità della variabile
casuale X.
È facile verificare che il valore medio (momento primo rispetto all’origine) del
momento campionario s-esimo X s è pari al momento s-esimo della variabile X, infatti,
1 n
 1 n
E X s   E   X is    E X is  E X s  μ s
 n i 1
 n i 1
quindi, per s=1 si avrà
 
 
1 n
1 n
 1 n
E  X   E   X i    E  X i    E  X  = E(X)= µ1=µ
n i 1
 n i 1  n i 1
cioè, il valor medio della media campionaria è uguale alla media della popolazione.
La varianza della media campionaria è data da
1 n
 1 n
2
Var  X    x2  Var 
Xi   2
Var  X i  
n
 n
n
i 1
 i 1

cioè, la varianza della media campionaria è pari alla varianza della popolazione divisa
per la dimensione del campione.
La radice quadrata positiva (scostamento quadratico medio o deviazione standard)
della varianza campionaria di uno stimatore viene usualmente denominata errore
standard o errore di campionamento, volendo con ciò sottolineare la sua particolare
caratteristica di misura della bontà di uno stimatore in termini di variabilità. Tale
denominazione viene utilizzata tutte le volte che si procede al calcolo della varianza
sulle distribuzioni campionarie di indici sintetici; su questo punto si avrà comunque
modo di soffermarsi a lungo successivamente.
Nel caso di campionamento semplice esaustivo (senza ripetizione) si ha:


n

1 n
 1  n
V ar  X   σ x2  Var   X i   2  Var  X i   Cov  X i , X j  
i 1 i  j
 n i 1  n  i 1

1
σ 2  n - 1  σ *
 2  n  σ 2  n  (n  1 )  σ * 

n
n
n
156
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
dove  σ*  CovX i ,X j  per ogni i,j. Se si assume n=N, si ha:
Var  X  
σ 2  n - 1  σ *

0
n
n
σ2
da cui σ*  che sostituito nella precedente espressione da
N 1
2
σ 2  n - 1  σ
σ2 N - n
Var  X  

 
n
N 1
n N -1
N n
dove
viene, come già sottolineato, usualmente detto fattore di correzione e
N1
fornisce una misura della maggiore efficienza del campionamento esaustivo rispetto al
campionamento con ripetizione.
Definendo la varianza campionaria (corretta) attraverso l’espressione:
n
1
X i  X 2
S 2  T(X 1 ,X 2 ,...,X n ) 

n  1 i 1
si può verificare, nell'ipotesi di campionamento bernoulliano (campione casuale
semplice con ripetizione), che E (S2) è uguale a 2, cioè il valor medio della varianza
campionaria corretta è pari alla varianza della popolazione. Mentre la varianza della
varianza campionaria corretta S2 è espressa da:
1 
n3 4
Var  S 2    4 
 
n 
n 1

dove  4 rappresenta il momento quarto rispetto alla media (momento centrale) ella
4
popolazione ( 4  E  X     ) dalla quale viene estratto il campione mentre


 4   2  .
2
Il computo del valore atteso della varianza campionaria corretta non presenta alcuna
difficoltà, infatti:
n
n
2
1
 1 n
 n

2
2
E S2   E 
X

X

E
X

X

2
X
Xi  






i
i


i 1
i 1
 n  1 i 1
 n  1  i 1

n
1
n
n
n E  X 2   2 n E  X 2  

2 
2 
EX2


n 1
n 1
n 1
n 1
ma
2
 2 2   2


Var X  E  X    E  X   


n
n
   n  1  2
  2
 EX2  2
 2  2
n
n
da cui
 
E S2  
2
n
n
n
n
2 
EX2 
2 
n 1
n 1
n 1
n 1
157
 2   n  1  2
n
 2   2   2 .
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Relativamente più laborioso è il computo della varianza della varianza campionaria
corretta, di seguito si riporta il momento secondo della varianza campionaria e la sua varianza
che si ottiene sottraendo a tale momento il momento primo al quadrato, cioè  2 .
2
  n  1  2 4
E  S 2    4 


 n
n  n  1
2
2
2
1 
n3 4 
Var  S 2   E  S 2     E  S 2    4 
 .


n 
n 1

Esempio 2.4 (distribuzioni campionarie per campioni estratti da popolazioni discrete)
Si considerino cinque palline identiche a meno dei contrassegni numerici (1, 3, 5, 7, 9) che su di
esse sono riportati. La distribuzione di frequenza relativa alla variabile casuale associata
all’estrazione di una pallina può essere rappresentata nel modo seguente
Modalità
xi
Frequenze assolute
ni
1
3
5
7
9
1
1
1
1
1
Frequenze relative
fi=ni/n
(probabilità: pi)
1/5
1/5
1/5
1/5
1/5
Tab. 2.1 - Popolazione discreta uniforme
Si supponga di aver estratto 100 campioni casuali, di dimensione n = 2, dalla popolazione
riportata nella Tab.2.1 e che l'operazione di campionamento (effettuata reinserendo ogni volta
l'unità estratta nella popolazione) abbia dato luogo alle 100 coppie di risultati riportati nella
Tab. 2.2.
Se per ogni coppia di risultati campionari si procede al computo della media
X  M 1  T X 1 , X 2  
X1 X2
2
dove (X1, X2) rappresenta la coppia degli elementi costituenti il campione, si potrà derivare la
distribuzione campionaria sperimentale (relativa ai 100 campioni estratti) della media
aritmetica che sono riportati nella Tab. 2.3, dove, evidentemente, la frequenza assoluta ni sta
ad indicare il numero dei campioni (su 100 estratti) di due elementi per il quale si è realizzata
quella particolare modalità x i (media aritmetica dei due elementi campionari).
La distribuzione campionaria sperimentale della variabile riportata nella Tab. 2.3 costituisce
una approssimazione della distribuzione campionaria (teorica) di X . Se si procedesse
all'estrazione di una seconda serie di 100 campioni, di dimensione 2, si otterrebbe una diversa
X , tale da costituire
anche essa
un'approssimazione della distribuzione campionaria teorica di X . Considerando le due serie
distribuzione campionaria sperimentale di
158
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
di esperimenti ad un tempo (cioè 200 campioni di dimensione 2) si dovrebbe ottenere una
distribuzione campionaria sperimentale di X più vicina alla distribuzione teorica di quanto
non siano le due distribuzioni considerate separatamente.
N.
Campione
N.
Campione
N.
Campione
N.
Campione
N.
Campione
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
(3,3)
(5,3)
(1,1)
(7,3)
(1,5)
(3,5)
(5,5)
(5,7)
(9,3)
(3,3)
(5,7)
(7,3)
(3,7)
(3,3)
(1,7)
(5,9)
(9,1)
(3,9)
(7,3)
(7,5)
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
(5,3)
(9,3)
(5,9)
(7,3)
(5,5)
(9,9)
(9,5)
(9,7)
(7,3)
(3,7)
(3,1)
(5,5)
(9,1)
(5,9)
(5,9)
(9,1)
(3,1)
(7,1)
(7,7)
(7,9)
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
(3,7)
(1,7)
(5,7)
(7,7)
(1,9)
(3,3)
(3,7)
(3,1)
(1,1)
(1,7)
(1,5)
(9,1)
(7,7)
(7,3)
(5,9)
(3,5)
(9,7)
(5,7)
(5,1)
(1,3)
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
(5,1)
(3,5)
(3,1)
(7,7)
(1,1)
(9,7)
(1,3)
(9,5)
(3,5)
(9,7)
(9,7)
(1,3)
(1,5)
(7,1)
(3,5)
(5,5)
(3,5)
(9,5)
(7,1)
(9,5)
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
(1,9)
(3,7)
(9,3)
(9,1)
(5,9)
(5,3)
(1,9)
(9,5)
(1,9)
(5,5)
(9,3)
(1,1)
(3,3)
(1,3)
(5,1)
(1,5)
(1,5)
(7,1)
(7,1)
(3,5)
Tab. 2.2 - Prospetto dei risultati relativi a 100 campioni di dimensione 2, estratti casualmente
dalla popolazione riportata nella Tab. 2.1
Media campionaria
M1  xi
1
2
3
4
5
6
7
8
9
Frequenza assoluta
ni
4
8
13
18
25
10
15
6
1
Frequenza relativa
fi = ni/100
0,04
0,08
0,13
0,18
0,25
0,10
0,15
0,06
0,01
Tab. 2.3 - Distribuzione campionaria sperimentale della media aritmetica relativa ai risultati
riportati nella Tab. 2.2
Per determinare la distribuzione campionaria teorica della variabile casuale X si può seguire
159
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
la via sotto indicata.
a) - Si considerano tutte le possibili coppie di valori (X1, X2) estraibili (con ripetizione) dalla
popolazione riportata nella Tab. 2.1, che sono
(1,1)
(3,1)
(5,1)
(7,1)
(9,1)
(1,3)
(3,3)
(5,3)
(7,3)
(9,3)
(1,5)
(3,5)
(5,5)
(7,5)
(9,5)
(1,7)
(3,7)
(5,7)
(7,7)
(9,7)
(1,9)
(3,9)
(5,9)
(7,9)
(9,9)
e su queste coppie di valori vengono calcolate le medie aritmetiche;
b) - Si determina la probabilità relativa a ciascuna coppia (X1, X2). Essendo il campione
estratto con ripetizione da una popolazione uniforme si avrà
P X 1  x1    X 2  x2   P X 1  x1   P X 2  x2  
1
25
per i, j = 1, 2, 3, 4, 5;
c) - Si sommano le probabilità relative alle coppie di valori che danno luogo alla stessa media.
Il risultato delle operazioni indicate ai punti a), b), c), possono essere riassunti nella tabella
seguente
Modalità
M1  xi
1
2
3
4
5
6
7
8
9
Probabilità
f  xi   pi
0,04 0,08 0,12 0,16 0,20 0,16 0,12 0,08 0,04
Tab. 2.4 - Distribuzione campionaria (teorica) della media aritmetica per campioni di
dimensione 2 estratti dalla popolazione uniforme riportata nella Tab. 2.1
Il confronto tra i dati relativi alla distribuzione campionaria teorica e quelli relativi alla
distribuzione campionaria empirica è riportato nella figura seguente
0,25
0,2
0,18
0,16
0,16
0,13
0,12
0,15
0,12
0,1
0,08
0,08
0,06
0,04
0,04
0,01
1
2
3
4
5
Frequenze empiriche
6
7
8
9
Frequenze teoriche (probabilità)
Fig. 2.2 - Distribuzione campionaria sperimentale (come da Tab. 2.3) e teorica (come da Tab.
2.4) per la media calcolata su campioni di dimensione 2 estratti dalla popolazione
uniforme X: 1, 3, 5, 7, 9
160
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Utilizzando i dati riportati nella Tab. 2.4 si derivano le uguaglianze
EX     5
Var  X   σ x2 
σ2
4
2
che verificano empiricamente la proprietà che ha il valor medio (valore atteso) della variabile
casuale media campionaria X di essere uguale al valor medio (media aritmetica) della
variabile casuale relativa all'intera popolazione e della varianza che risulta essere pari alla
varianza della popolazione divisa per la numerosità del campione.
Esempio 2.5 (distribuzioni campionarie per campioni estratti da popolazioni discrete)
Si considerino 6 palline identiche a meno della numerazione: {, , , , , }. La
funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è allora data da
x 1
1 / 2
1 / 3
x3

f(x) = 
x9
1 / 6
 0 altrimenti
Per tale v.c. è facile derivare i principali momenti. Il seguente prospetto riassume il calcolo di 
= E(X) = 3 e 2 = Var(X) = E(X2) – E(X)2 = 17 – 32 = 8.
x
f(x)
x f(x)
x2 f(x)
1
1/2
1/2
1/2
3
1/3
1
3
9
1/6
3/2
27/2
1
3
17
Tab. 2.5 – Prospetto di calcolo di E(X) e Var(X).
Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono essere
estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni forma l’universo
dei campioni che possono essere estratti dalla v.c. X. L’universo dei campioni può a sua volta
essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori e la cui distribuzione sono
riportati nella Tab. 2.6 (la probabilità di ciascuna coppia è semplicemente il prodotto delle
probabilità dei singoli, dato che le estrazioni sono indipendenti).
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1
Tab. 2.6 – Funzione di massa della v.c. doppia X = (X1, X2).
Qualunque statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza una sua
distribuzione campionaria.
Media campionaria: T(X ) = X = (X1 + X2)/2
161
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
La seguente tabella riporta, per ogni campione, la relativa media campionaria con la sua
probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1
x
1
2
5
2
3
6
5
6
9
Tab. 2.7 – Prospetto per la costruzione della funzione di massa della media campionaria.
La funzione di massa della media campionaria è riportata nella tabella seguente
x
1
2
3
5
6
9
tot
f( x )
1/4 1/3 1/9 1/6 1/9 1/36 1
Tab. 2.8 – Funzione di massa della media campionaria X .
Si può verificare che E( X ) = 3 e Var( X ) = 4.
Varianza campionaria corretta: T(X ) = S2 = [(X1 – X )2 + (X2 – X )2]/(2 – 1)
La tabella che segue riporta, per ogni campione, i valori assumili dalla varianza campionaria
corretta con le relative probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1
2
s
0
2
32
2
0
18
32
18
0
Tab. 2.9 – Prospetto per la costruzione della funzione di massa della varianza campionaria
corretta.
Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria corretta,
nella quale si sommano le probabilità relative alle coppie di valori uguali.
s2
0
2
18
32
tot
2
f(s )
7/18 1/3 1/9 1/6
1
Tab. 2.10 – Funzione di massa della varianza campionaria corretta S2.
Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si
può verificare che E(S2) = 8 e V(S2) = 144.
Minimo campionario: T(X ) = x(m) = min{X1, X2}
La seguente tabella riporta, per ogni campione, il relativo minimo campionario con la sua
probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1
x(m)
1
1
1
1
3
3
1
3
9
Tab. 2.11 – Prospetto per la costruzione della funzione di massa del minimo campionario.
162
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Da tale tabella si ricava facilmente la funzione di massa del minimo campionario, nella quale si
sommano le probabilità relative alle coppie di valori che danno luogo allo stesso minimo.
x(m)
1
3
9
tot
f(x(m))
3/4 2/9 1/36 1
Tab. 2.12 – Funzione di massa del minimo campionario X(m).
Si può verificare che E(x(m)) = 1,6 e Var(x(m)) = 2, 2 .
Massimo campionario: T(X ) = x(M) = max{X1, X2}
La tabella seguente riporta, per ogni campione, il relativo massimo campionario con la sua
probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1
x(M)
1
3
9
3
3
9
9
9
9
Tab. 2.13 – Prospetto per la costruzione della funzione di massa del massimo campionario.
Da tale tabella si ricava facilmente la funzione di massa del massimo campionario, nella quale
si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso massimo.
x(M)
1
3
9
tot
f(x(M))
1/4
4/9 11/36 1
Tab. 2.14 – Funzione di massa del massimo campionario x(M).
Si può verificare che E(x(M)) = 4, 3 e Var(x(M)) = 10, 2 .
2.4 Campionamento da popolazioni normali
Per campioni estratti da popolazioni normali vale il seguente teorema:
Teorema 1 Se X1, ..,Xn costituiscono un campione casuale di elementi relativi ad una
popolazione normale, di media µ e varianza 2, allora la variabile
casuale campionaria:
1 n
X   Xi
i)
n i 1
è distribuita normalmente con media µ e varianza  2/n;
n
1 n
 X 
2
Y  2   X i  μ    i
 
 
σ i 1
i 1 
2
ii)
è distribuita come un 2 con g = n gradi di libertà;
 X
n
iii)
V
(n  1 )S

σ2
2
163
i 1
 X
2
i
σ2
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
è distribuita come un 2 con g = (n - 1) gradi di libertà.
Dimostrazione
i)
- La funzione generatrice dei momenti della v.c X è data
 1  Xi t 
n
mx  t   E e
 E  e i1 




per l'indipendenza delle v.c. X i
n
 
X t
 1  Xi t  n
1
Xi t
n
E  e i1    E (e n
)

 i 1


per la normalità delle v.c. X i
n
n
 E (e
1
Xi t
n
i 1
n
)  e
1
t2
 t 2  2
n
n
e
 t t 2
2
n
i 1
che è la f.g.m. di una v.c. normale di media  e varianza  2 / n.
ii) - La funzione generatrice dei momenti della v.c Y è data da
 t n  X i   
m y  t   E  e   E  e i 1   


per l'indipendenza delle v.c. X i
2
Y t




 X  
 t n  X i     n
t i

i 1  

   E (e    )
E e

 i 1


per la normalità delle v.c. X i e ricordando che il quadrato
2
2
di una v.c. normale standardizzata ha distribuzione χ12
n
 E (e
i 1
 X  
t  i

  
2
n
1
n
)   ( 1  2 t) 2  ( 1  2 t) 2
-
-
i 1
che è la f.g.m. di una v.c. chi quadro con n gradi di libertà  n2 .
iii) - La funzione generatrice dei momenti della v.c Y è data da
164
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
my  t   E  eY t   (1  2 t )  n /2
 t n  X i   
 E  e i1  


2




per l'indipendenza delle v.c. X i
n
  E (e
 X  
t i

  
i 1
2
n
)   E (e
 X  X  X  
t  i




2
n
)   E (e
i 1
 X X 
t  i

  
2
e
 X  
t 

  
2
)
i 1
se si ipotizza l'indipendenza tra le n v.c. scarto X i  X e la v.c. X si ha
n
 E (e
 X X 
t  i

  
2
e
 X  
t 

  
2
i 1
= E (e
 Xi  X 
 
i 1
 
n
 E (e
t
)   E (e
 X X 
t  i

  
2
)  E (e
 X  
t 

  
2
)
i 1
n
t
n
 Xi  X 
 
i 1
 
2
)  E (e
 X  
t 

 / n 
n
2
)  E (e
t
 Xi  X 
 
i 1
 
2
)  (1  2 t ) 1/2 
2
)  E (e
tV
)  E (e
Y t
)(1  2 t )
1/2
 (1  2 t ) (1  2 t )
n /2
1/2
 (1  2 t )

n 1
2
che è la f.g.m. di una v.c. chi quadro con n - 1 gradi di libertà  ; quindi, la v.c. V
2
n-1
Si dimostra ora l’indipendenza tra il vettore delle v.c. scarto
X 1  X , X 2  X ,.........., X n  X  e la v.c. X    , il che implica l’indipendenza
n
tra V 
 X
i 1
i
X
2
 n  1 S 2

2
e la v.c. X .
2
Si consideri la f.g.m. del vettore casuale a n+1 dimensioni
X   , X
 X  , X 2  X  ,.........., X n  X 
1

mx , x1  x , x2  x ,....., xn  x   t , t1 , t2 ,....., tn   E e
X t   X 1  X  t1   X 2  X  t2 .....  X n  X  tn
n
 1  X i t  X i ti  t j 1  X i 
   t  ti  t  X i 
n i 1
n

i 1
j 1
i 1
  E  e i 1  n

 E e








 per la normalità e l'indipendenza delle v.c. X i 
n
n
n
n

1 n 
dove
t


t j 
n j 1 

2


E
 e

i 1

n
 e
t
  ti  t
n

 Xi

t
n t
n  n  ti  t

   ti  t     
2

i 1  n
i 1
  t
  e

2
 2
 

e
n
e
t 
t
 2
  ti  t  
t

n


t

t


i


2
n

i 1
t 2 2
2 n
n
 ti  t 2  2 /2
 e i 1
165


 n21.
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
dove e
t 
t 2 2
2 n
è la f.g.m. della v.c. distribuita normalmente X e
n
 ti  t 2  2 /2
e i 1
X
1
è la f.g.m. del vettore casuale a n dimensioni
 X  ,  X 2  X  ,..........,  X n  X  .
Pertanto
,
poiché
la
f.g.m.
del
vettore
casuale
a
n+1
dimensioni
 X ,  X 1  X  ,  X 2  X  ,.........., X n  X  è uguale al prodotto di due funzioni
generatrici dei momenti,
una relativa al vettore a n dimensioni
  X1  X  ,  X 2  X  ,..........,  X n  X  l’altra relativa alla v.c.


X
ne deriva
l’indipendenza tra le variabili casuali X e V , quindi la variabile casuale campionaria
X μ
Z
X μ
σ/ n
W


V/(n  1)
S/ n
(n 1) S 2
σ2
dove
X μ
T
S/ n
ha una distribuzione del tipo t di Student con (n - 1) gradi di libertà essendo basata sul
rapporto tra una variabile casuale normale standardizzata e la radice quadrata di una
variabile del tipo 2 divisa per i propri gradi di libertà.
Sul concetto di gradi di libertà si avrà modo di tornare in seguito, qui basta
sottolineare che i gradi di libertà relativi alla variabile casuale campionaria Y sono n
perché n sono le variabili casuali indipendenti (X1 - ), (X2 - ),…(Xn - ) che entrano
nel suo computo. Mentre i gradi di libertà relativi alla variabile casuale campionaria V
sono (n – 1) in quanto, pur essendo n gli elementi, le n variabili casuali scarto
 X1  X  ,  X 2  X  ,...  X n  X  che entrano nel suo computo , soltanto (n – 1) sono
tra loro indipendenti , infatti, le n variabili scarto sono (per costruzione) soggette al
vincolo
n
 X
i 1
i
 X0
2.5 Campionamento da popolazioni non normali
Nei casi in cui l'evidenza empirica o ragioni teoriche escludono la normalità della
popolazione cui si riferisce il campione (casuale) di dati a disposizione, e non si hanno
altre informazioni sulla popolazione stessa, si può fare ricorso al teorema del limite
centrale che individua la normale come distribuzione approssimata della variabile
166
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
casuale media campionaria. Si riporta di nuovo l'enunciato del teorema nella sua forma
più semplice adeguandolo al contesto del campionamento.
Teorema 2 (del limite centrale) - Se X1, X2,...,Xn costituiscono un campione casuale
semplice di n elementi relativi ad una qualunque popolazioni di media µ
e varianza (finita) 2, allora la variabile casuale media campionaria
1 n
X   Xi
n i 1
per
n
sufficientemente elevato ha una distribuzione
approssimativamente normale, con media µ e varianza 2/n.
Va sottolineato, inoltre, che la tendenza alla normalità della variabile casuale X , si
realizza anche quando le osservazioni campionarie si riferiscono ad n popolazioni
distinte, purché esse abbiano media e varianza finita. Si avrà pertanto che (ricordando
quanto detto a proposito di combinazioni di variabili casuali normali indipendenti) la
distribuzione campionaria di una qualsiasi combinazione lineare di medie calcolate su
un gruppo di campioni indipendenti tende alla normalità al crescere della numerosità di
ciascuno dei campioni considerati.
Benché il teorema del limite centrale riguardi grandi campioni, nelle applicazioni
empiriche più frequenti, l'approssimazione normale risulta soddisfacente anche per
campioni di modeste dimensioni. Se le osservazioni campionarie si riferiscono a
popolazioni distinte, si avrà una buona approssimazione per i piccoli campioni n  30 
solo quando le distribuzioni di tali popolazioni non si discostano troppo dalla
distribuzione normale e le loro varianze non sono molto diverse.
Tornando al problema dell’approssimazione della distribuzione della media
campionaria per campioni riferiti ad una stessa popolazione non normale, si deve
osservare che la bontà dell’approssimazione dipende, oltre che dalla dimensione
campionaria anche dalla natura e dalla forma della distribuzione originaria dalla quale il
campione è stato estratto.
Nella Fig. 2.3 è riportata la distribuzione della media campionaria standardizzata per
campioni di diverse dimensioni estratta da popolazioni continue definite dai modelli:
a) X:
 3x 3
b) X:
x  1 , f(x)  e  x 1
, f(x)  2 3
167
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
f ( x)  2 3
f ( x)  e
 x 1
Fig. 2.3 - Distribuzione della media campionaria per campioni di diverse dimensioni estratti
da due diverse popolazioni continue.
Come si può facilmente desumere osservando le figure, a parità di dimensione
campionaria, l’approssimazione migliore è quella relativa alla distribuzione uniforme
(distribuzione simmetrica) rispetto alla distribuzione di tipo esponenziale che presenta
una asimmetria abbastanza pronunciata.
Esempio 2.5
Si supponga di estrarre un campione casuale semplice di dimensione n da una popolazione di
tipo dicotomico, cioè da una popolazione caratterizzata dalla presenza o meno di un
determinato carattere; si supponga inoltre che la proporzione delle unità che possiede il
carattere di interesse sia pari a p , mentre 1 - p = q è la proporzione delle unità che non
possiede il carattere in questione. La popolazione dalla quale viene estratto il campione di dati
può essere, in base a quanto detto, rappresentata da una variabile casuale bernoulliana
caratterizzata dal parametro   p del tipo
X : x0 = 0 , x1 = 1
P(X = x0) = q , P(X = x1) = p
il cui valor medio e varianza sono rispettivamente  = p e 2 = p q .
168
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Ora, se si considera il punto campionario (X1, X2,...,Xn ) si vede come, nell’universo dei
campioni, ciascuna componente Xi (i=1, 2, ..., n) sia una variabile casuale del tutto simile alla
variabile casuale X che rappresenta la popolazione.
Si avrà pertanto che la variabile casuale campionaria
n
P  T(X 1 , X 2 ,..., X n )  
i 1
Xi
n
che indica la proporzione delle unità che nel campione presentano quel determinato carattere,
avrà una distribuzione di tipo binomiale (variabile casuale binomiale relativa), con valor medio
E(P) =  = p e varianza  p2 = p q/n . Questa conclusione consente d’interpretare la variabile
casuale binomiale relativa, ottenuta attraverso una combinazione lineare di variabili casuali di
bernoulli indipendenti, come distribuzione campionaria di proporzioni o percentuali.
Ovviamente, se si definisce come variabile casuale campionaria
n
XT   Xi
i 1
cioè il totale di successi nelle n estrazioni campionarie indipendenti effettuate, tale variabile è
esattamente una variabile casuale binomiale con parametri caratteristici n e p , con media 
= n p e varianza  2 = n p q; il che consente d’interpretare la variabile casuale binomiale
come somma di n variabili casuali di bernoulli indipendenti caratterizzate da uno stesso
parametro p.
Nelle Figg. 2.4 e 2.5 è riportata la distribuzione binomiale (opportunamente standardizzata)
per diversi valori di n e di p e la relativa approssimazione con la distribuzione normale.
Come si può facilmente desumere osservando le figure, a parità di dimensione campionaria
l’approssimazione è tanto più buona quanto più p è prossimo al valore 0,5 (distribuzione
simmetrica); ovviamente l’approssimazione migliora al crescere della dimensione campionaria.
169
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Fig. 2.4 - Istogrammi della distribuzione binomiale per p = 0,2 e diversi valori di n e relativa
approssimazione con la variabile casuale normale standardizzata.
170
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
Fig. 2.5 - Istogrammi della distribuzione binomiale per p = 0,5 e diversi valori di n e
relativa approssimazione con la variabile casuale normale standardizzata
171
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
2.6 Campionamento da due popolazioni indipendenti
Nelle pagine precedenti sono state calcolate media e varianza delle variabili casuali,
media campionaria X e varianza campionaria (corretta) S2, associate a campioni
estratti da una qualunque popolazione. Di queste due variabili, di loro trasformazioni e
del rapporto tra loro particolari trasformazioni, è stata derivata anche la distribuzione
campionaria nel caso di campionamento da popolazioni normali. Si è, inoltre, data
indicazione della distribuzione asintotica (cioè della distribuzione cui si perviene
facendo tendere ad infinito la dimensione del campione) della media campionaria per
campioni estratti da popolazioni non normali. Si procederà ora alle stesse elaborazioni
in riferimento a differenze tra medie campionarie e al rapporto tra varianze campionarie
facendo specifico riferimento a campioni estratti da due popolazioni normali.
Si supponga ora di estrarre con ripetizione due campioni casuali indipendenti, di
dimensione m ed n , da due popolazioni distinte rappresentate dalle variabili casuali X
e Y, il cui valore medio e varianza sono rispettivamente x ,  x2 , y ,  y2 .
Sugli elementi campionari (X1, X2,...,Xm ) e (Y1, Y2,...,Yn ) si calcolino le quattro
statistiche
1 n
1 m
Y   Yi
;
X   Xi
n i 1
m i 1
1 m
1 n
X i  X 2 ;
Yi  Y 2
S y2 


m  1 i 1
n 1 i 1
si calcolino, cioè, le due medie campionarie e le due varianze campionarie corrette, e si
definiscano le nuove entità (differenza tra medie campionarie e differenza tra varianze
campionarie corrette)
V  X Y
S x2 
W  S x2  S y2
Le due variabili campionarie V e W, nell’universo dei campioni, hanno medie e
varianze espresse dalle uguaglianze seguenti
E (V )   x   y
Var (V )   x2   y2 
E (W )    
2
x
 x2
m

 y2
n
2
y
Var (W )  Var ( S x2 )  Var ( S y2 )
Inoltre, se i due campioni sono estratti da popolazioni normali indipendenti vale il
seguente teorema
Teorema 3 Se X1, X2, ..., Xm costituisce un campione casuale estratto da una
popolazione normale di media
172
x
e varianza σ x2 , Y1, Y2, ..., Yn un
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
2. Campionamento e distribuzioni campionarie
campione casuale estratto da una popolazione normale di media y e
varianza σ y2 , allora:
1.
la variabile casuale campionaria
1 m
1 n
U  X  Y   X i   Yi
m i 1
n i 1
2
σ x2 σ y
è distribuita normalmente con media x - y e varianza
, infatti:

m
n

mu  t   E  eU t   E e
x t 
2.
 x2 t 2
y t 

X Y  t
  E e  E e  

 x   y  t   mx
 2y t 2
e
e
e
la variabile casuale campionaria
m 2
n
2
Y t
X t
2
 2y  t 2

n  2


n Y 
 X  x 
i
y
V   i

  
 x  i 1   y
i 1 
2

2
2
  Z x  Z y

2
è distribuita come una variabile casuale  con m+n gradi di libertà, infatti:
2
m

 
mv  t   E eV t  E e
1  2 t 
3.

m
2
 1  2 t 

Z
n
2
2
2
x Zy
t
  E e
 1  2 t 

Z x2 t
 E e 
Z y2 t

mn
2
la variabile casuale campionaria
2
2
m
n 
 Xi  X 
(m 1) S2x (n  1) S y
Yi  Y 
W 




  Wx  Wy

 

σ 2x
σ 2y
σ x  i 1  σ y 
i 1 
2
è distribuita come una variabile casuale 2 con m+n-2 gradi di libertà, infatti:
W t
 W +W  t
mw  t   E eW t E e x y  E e Wx t E e y


1  2 t 
4.

m 1
2



 1  2 t 

n 1
2
 

 1  2 t 


mn2
2
la variabile casuale campionaria
( m  1 )S x2
F
 x2
( n  1 )S y2
 y2
/( m  1 )
/( n  1 )
2
S x2  y
 2 2
Sy  x
definita come rapporto tra due variabili casuali 2 indipendenti divise per i rispettivi
gradi di libertà, è distribuita come una variabile casuale F di Fisher-Snedecor con m1 ed n-1 gradi di libertà.
Le considerazioni svolte a proposito delle distribuzioni campionarie degli indici
sintetici media e varianza, possono essere naturalmente estese ad altri indici
caratteristici quali mediana, quartili, scostamento quadratico medio, ecc. .
173
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
CAP. 3 – STIMA
Introduzione
Nel capitolo precedente sono state esaminate le distribuzioni di alcune funzioni
T(X1,X2,…,Xn) degli elementi campionari soffermando l’attenzione, in particolare, su
media e varianza facendo specifico riferimento al campionamento da popolazioni
normali. Come sottolineato, considerazioni analoghe possono essere svolte nei confronti
di funzioni T    diverse da quelle analizzate; la logica del procedimento da seguire resta
sostanzialmente immutata anche se, ovviamente, lo svolgimento analitico dipenderà dalle
specificità considerate. Rimane altresì immutata anche la natura della funzione T    che,
nella generalità dei casi, è quella di compattare l’informazione campionaria in modo da
consentire un’estensione delle conclusioni cui si perviene attraverso l’elaborazione dei
dati campionari all’intera popolazione dalla quale il campione stesso è stato estratto.
Il nucleo centrale dell’inferenza statistica o statistica induttiva risiede, appunto, nella
fissazione di “criteri di ottimalità” e nell’individuazione di regole che consentano il loro
soddisfacimento affinché il processo di induzione (dal campione alla popolazione) sia il
“migliore possibile”.
I criteri di ottimalità dipendono, ovviamente, dai problemi di induzione che si
vogliono risolvere e che, come già sottolineato nella premessa, possono essere distinti e
raggruppati in problemi statistici di:
1.
stima (puntuale e per intervallo)
2.
verifica o test d’ipotesi.
Nel primo caso, i dati campionari vengono utilizzati per ottenere una misura (stima)
di un’entità incognita relativa alla popolazione (indici caratteristici e/o parametri
caratteristici e/o forma analitica del modello rappresentativo del fenomeno che s’intende
analizzare).
Nel secondo caso, i dati campionari vengono utilizzati per procedere al rifiuto o
all’accettazione di una particolare ipotesi (congettura) formulata in merito ad entità incognite
relative alla popolazione di origine del campione.
La stima e il test delle ipotesi possono riguardare sia la forma funzionale del modello
rappresentativo della popolazione di interesse sia i parametri che lo caratterizzano sia,
più semplicemente, gli indici caratteristici; in questo caso si parla, come già più volte
sottolineato, di inferenza statistica non parametrica o inferenza libera da distribuzione
(distribution free) in quanto non si presuppone nota la forma analitica del modello
rappresentativo della popolazione. Se invece la stima o il test delle ipotesi riguardano i
soli parametri caratteristici, in quanto si assume nota la forma analitica del modello, si
175
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
parla di inferenza statistica parametrica.
In questo capitolo si tratterà, in modo quasi esclusivo, di stima parametrica
limitatamente alla così detta impostazione classica dell’inferenza statistica, cioè,
dell’inferenza statistica che tratta di procedure di induzione basate sulla sola evidenza
campionaria (informazione oggettiva) a differenza dell’impostazione bayesiana che
prevede, invece, l’utilizzo simultaneo di informazioni campionarie e di informazioni a
priori che, nella generalità dei casi, hanno natura soggettiva.
3.1 - Stima puntuale
Se X è una variabile casuale discreta o continua, con funzione di massa o di densità di
probabilità f(x;dove  Θ rappresenta il parametro caratteristico non noto, la stima
puntuale di  si risolve nella ricerca di una funzione degli elementi campionari
 x , x ,..., x  in modo tale da ottenere un valore ˆ  T  x , x ,..., x  che sia ‘il più
1
2
1
n
2
n
vicino possibile’ al vero valore dell’entità incognita 
Come già sottolineato più volte, attraverso l’introduzione della statistica T    si
effettua una compattazione delle informazioni passando, usualmente, dagli n valori
1 n
numerici x1,x2,…,xn ad un solo valore numerico, ad es. x   xi . Risulta evidente
n i 1
che tale operazione comporta una notevolissima perdita di informazioni; aspetto questo
che non deve assolutamente preoccupare, anzi, in molte situazioni risulta vantaggioso,
soprattutto quando le informazioni che si perdono sono del tutto irrilevanti ai fini degli
obiettivi che s’intendono perseguire.
L’ultima considerazione suggerisce una prima possibilità di qualificazione della
generica affermazione ̂ deve essere “il più vicino possibile” a  od anche, ̂ deve
essere “la migliore stima” di  . Ad esempio, se si ha ragione di ritenere che una certa
variabile casuale X sia distribuita normalmente, ma non si conosce il valore numerico dei
due parametri che la caratterizzano, µ e 2, si può decidere di estrarre un campione di n
elementi dalla distribuzione stessa e cercare poi di individuare due funzioni che applicate
ai valori campionari diano una misura, la “migliore”, dei due parametri incogniti.
Analogo ragionamento può essere fatto nei confronti del parametro  che caratterizza la
distribuzione di Poisson, del parametro p che caratterizza la distribuzione bernoulliana,
ecc.
Più in generale, data una variabile casuale, discreta o continua, X con funzione di
massa o di densità di probabilità f(x;), la stima puntuale del un parametro incognito 
si ottiene applicando una specifica funzione T    ai valori campionari; essa varierà
quindi al variare del campione, secondo la legge di distribuzione della popolazione cui il
campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a
176
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
giudicare la “bontà” di una qualunque stima ̂ = T(x1, x2,...,xn). Infatti, non è possibile
affermare se un singolo valore numerico, cioè se una particolare stima ̂ è “buona” o
“cattiva” poiché ̂ è tanto più “buona” quanto più si approssima al vero valore del
parametro  , ma, essendo tale valore incognito, il confronto non è possibile; risulta,
cioè, impossibile valutare la “bontà” di una singola stima.
Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di
stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima
impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo
campione ma all’intero universo di tutti i campioni possibili. Il confronto fra stimatori
dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie;
cosa questa ovviamente poco pratica, si preferisce allora effettuare il confronto facendo
riferimento a particolari indici caratteristici delle variabili casuali stima.
3.1.1 Proprietà degli stimatori
Se con X si indica una variabile casuale, discreta o continua, con funzione di massa o di
densità di probabilità f(x;) , caratterizzata dal parametro incognito  , il problema della
ricerca dello stimatore ”migliore” del parametro stesso si sostanzia nella individuazione
della “migliore” funzione T  X 1, X 2 ,...., X n   T  X  da applicare agli elementi
campionari di cui si dispone:
Definizione 1 (Stimatore). Se con X si indica una variabile casuale, discreta o continua,
con funzione di massa o di densità di probabilità f(x;), caratterizzata dal
parametro incognito , e si indica con X1,X2,…,Xn un campione casuale
semplice riferito alla variabile stessa, si dice stimatore qualunque statistica
T  X 1, X 2 ,...., X n   T  X  , cioè qualunque variabile casuale, funzione
degli elementi campionari, le cui determinazioni vengono utilizzate per
ottenere una stima del parametro incognito  .





Le proprietà “ottimali” che verranno considerate in queste note sono la:
sufficienza;
concentrazione;
prossimità;
efficienza;
consistenza.
3.1.2 Sufficienza
Relativamente alle “proprietà ottimali” di uno stimatore si deve, innanzi tutto, tenere
177
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
presente che la funzione T    opera una compattazione delle informazioni; risulta,
pertanto, più che ragionevole richiedere ad uno stimatore ˆ  T  X 1, X 2 ,....., X n  di
contenere il massimo delle informazioni che il campione fornisce in merito al valore del
parametro incognito .
Nel caso in cui si riesce ad individuare uno stimatore ̂ che contiene tutte le
informazioni su  possedute dal campione di dati a disposizione, si dice che ̂ è uno
stimatore sufficiente di . Appare subito evidente che nei casi in cui esistono più
stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe
poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata
utilizzazione di informazioni utili contenute nel campione. Ovviamente, è sufficiente lo
stimatore basato su una statistica sufficiente (cfr. paragrafo 2.2).
3.1.3 Concentrazione e prossimità
Oltre alla sufficienza, risulta conveniente che le singole stime non si discostino troppo
dal valore incognito da stimare, che presentino, cioè, il minimo di variabilità intorno a
tale valore, variabilità che può essere misurata sia attraverso specifici indici sintetici,
come si avrà modo di verificare nelle righe successive, sia considerando direttamente la
distribuzione di probabilità.
Definizione 2 (Concentrazione). Lo stimatore Θˆ *  T *  X 1, X 2 ,..., X n  che soddisfa la
relazione:




P     Θˆ *      P     Θˆ     per qualsiasi valore di
 0
è detto più concentrato dello stimatore Θˆ  T  X 1, X 2 ,....., X n  .
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra
due particolari stimatori Θˆ * e Θ̂ . Se la disuguaglianza vale per
qualunque stimatore Θ̂ alternativo a Θˆ * si dirà che Θˆ * è lo stimatore
più concentrato in assoluto.
Definizione 3 (Prossimità). Lo stimatore
relazione:

Θˆ *  T *  X 1, X 2 ,..., X n 
che soddisfa la

P Θˆ *    Θˆ    0,5 per qualsiasi valore di 
è detto più prossimo
Θˆ  T  X 1, X 2 ,....., X n  .
178
(secondo
Pitman)
dello
stimatore
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Quella specificata è una proprietà relativa, si effettua, cioè, il confronto tra due
particolari stimatori Θˆ * e Θ̂ . Se la disuguaglianza vale per qualunque stimatore Θ̂
alternativo a Θˆ * si dirà che Θˆ * è lo stimatore che presenta una migliore
approssimazione in assoluto.
3.1.4 Efficienza
Le proprietà di concentrazione e di prossimità sono certamente del tutto auspicabili
purtroppo, però, sono veramente rare le situazioni nelle quali esistono stimatori che
godono di tali proprietà oltre alle difficoltà analitiche connesse alla loro derivazione. Si
dovrà, pertanto, fare riferimento non all’intera distribuzione di probabilità ma a specifici
indici sintetici di variabilità, procedendo, cioè, al computo di scostamenti appropriati tra i
valori assumibili dallo stimatore e il vero valore del parametro incognito (qualunque
esso sia) per poi addivenire ad una loro adeguata sintesi. L’entità aleatoria che si sta
trattando è la variabile casuale stimatore Θˆ  T  X , X ,....., X  e la costante di
1
2
n
riferimento è il parametro incognito . Gli scostamenti tra tutti i valori che la variabile
casuale stima Θ̂ assume, nell’universo dei campioni, e il valore incognito  , possono
essere espressi dalla differenza in valore assoluto | Θˆ   | od anche al quadrato
Θ̂   
2
o qualunque altra misura di scostamento ritenuta adeguata al caso in esame.
Θˆ *  T *  X 1, X 2 ,..., X n 
Definizione 4 (Efficienza nell’ESM). Lo stimatore
soddisfa la relazione: E
 | Θˆ
*
 |

 E
 | Θˆ   | 
che
per qualunque
  e per qualunque stimatore ˆ alternativo allo stimatore Θˆ * , dove,
al solito, E 
 sta ad indicare il valore atteso (valore medio) dell’entità
all’interno della parentesi, è detto il più efficiente nell’errore semplice
medio.
ESM( Θ̂ ) = E | Θˆ   | .


Definizione 5 (Efficienza nell’EQM). Lo stimatore

soddisfa la relazione: E (Θˆ *   )2

Θˆ *  T *  X 1, X 2 ,..., X n  ,

 E (Θˆ   )2

per qualunque
  e per qualunque stimatore ˆ , alternativo allo stimatore ˆ * ,
è detto il più efficiente nell’errore quadratico medio
 
EQM Θ̂  E
179
 ˆ     .
2
che
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Quello sopra introdotto è un concetto assoluto di efficienza che risulta
operativamente poco utile in quanto sono molto infrequenti le situazioni di ricerca in cui
si riesce ad individuare per via analitica lo stimatore più efficiente (nell’errore semplice
medio o nell’errore quadratico medio), sempre nell’ipotesi di esistenza di tale stimatore.
Analogamente a quanto detto a proposito delle proprietà di concentrazione e di
prossimità, oltre a considerare la proprietà di efficienza in senso assoluto si può
introdurre il concetto di efficienza in senso relativo confrontando due diversi stimatori
Θ̂1 e Θ̂2 di uno stesso parametro incognito  .
Lo stimatore Θ̂1 si dice più efficiente dello stimatore Θ̂2 :
per qualunque   ;

nell’errore semplice medio se ESM( Θ̂1 ) < ESM( Θ̂2 ) ,

nell’errore quadratico medio se EQM( Θ̂1 ) < EQM( Θ̂2 ), per qualunque   .
L’efficienza relativa dello stimatore Θ̂1 rispetto allo stimatore Θ̂2 è definita dai
rapporti:
 

ESM Θˆ 
ESM Θˆ1
eESM
eEQM 
2
 
EQM Θˆ 
EQM Θˆ1
2
Comunque, il problema più rilevante nella ricerca dello stimatore più efficiente non
risiede tanto nelle difficoltà analitiche di computo quanto nell’inesistenza di un tale
stimatore ottimale; infatti, non sono affatto rare le situazioni nelle quali non esiste uno
stimatore che minimizza l’ESM o l’EQM per qualunque valore di  . In tali situazioni si
dovrà abbandonare l’obiettivo della ricerca dell’ottimo assoluto, non esistendo un tale
ottimo, per procedere, eventualmente, alla ricerca di un sub-ottimo.
Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di
minimizzare l’ESM o l’EQM in una classe ristretta di stimatori (minimo vincolato)
essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta; il vincolo
usualmente imposto è quello della correttezza o non distorsione dello stimatore.
Definizione 6 (Correttezza o non distorsione). Uno stimatore Θˆ n  Tn ( X 1 , X 2 ,..., X n )
(di  ) si dice corretto o non distorto se
E( Θ̂ ) = .
per qualunque  Θ .
Si consideri ora la relazione



 


2
2
2
EQM (Θˆ )  E  Θˆ     E Θˆ  E (Θˆ )  E (Θˆ )     E Θˆ  E (Θˆ )    E ˆ -    0 




 
2
 Var (Θˆ )   E Θˆ -     2ˆ  d 2


180
2
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
dove
 
d    E Θˆ
viene detta distorsione. Se
Θˆ n  Tn ( X 1 , X 2 ,..., X n ) è uno
stimatore non distorto di  si ha d 2 = 0 e quindi:



 

EQM (Θˆ )  E  Θˆ     E Θˆ  E Θˆ   Var (ˆ)




cioè, se uno stimatore è corretto il suo errore quadratico medio e la sua varianza
coincidono. Pertanto, nella classe ristretta degli stimatori corretti si può affermare che lo
stimatore più efficiente nell’EQM è lo stimatore di minima varianza. Quest’ultima
conclusione provoca spesso confusione inducendo a concludere che lo stimatore più
efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione
errata perché l’affermazione vale solo nell’ambito degli stimatori corretti.
Il vincolo di correttezza in molti testi non viene introdotto con una tale connotazione,
cioè come restrizione della classe degli stimatori, ma come proprietà dello stimatore
stesso. Nella logica espositiva qui seguita, dove la “bontà” di uno stimatore è misurata
facendo riferimento alla sua variabilità campionaria, una tale interpretazione della
correttezza non può essere accolta; in altre parole la correttezza rappresenta un vincolo e
non una proprietà. Ovviamente, a parità di tutte le altre condizioni, uno stimatore
corretto è preferibile ad uno stimatore distorto.
È stato più volte sottolineata la possibilità di non esistenza dello stimatore più
efficiente, sia nell’EQM che nell’ESM, possibilità questa molto meno frequente invece
nella classe ristretta degli stimatori corretti; infatti, come si avrà modo di chiarire nelle
righe che seguono, per alcuni modelli è possibile dimostrare che, in una classe ristretta,
esiste lo stimatore più efficiente nell’EQM. In tale ottica un ruolo fondamentale è svolto
dalla disuguaglianza di Cramèr-Rao; si tratta di una disuguaglianza che individua il
valore minimo assumibile dalla varianza di uno stimatore corretto.
2
2
Teorema 3 (Limite di Cramèr-Rao); Sia X una v.c. con funzione di massa o di densità
f(x; ), dove  Θ è un parametro incognito, e     X 1, X 2 ,..., X n  è
uno stimatore corretto di  , se sono soddisfatte le condizioni di regolarità:
d
log f  x;  esiste per qualunque x e per qualunque  Θ ;

d
n
d
d n

f
x
;

dx
dx

dx


f  xi ;  dx1dx2 dxn




i
1
2
n
   d 
d    i 1
i 1

;
d
d
    t  x1 , x2 ,  xn 
     t  x1 , x2 ,  xn 
n
 f  x ; 
i
i 1
d
d
n
dx1dx2 dxn 
 f  x ; 
i 1
181
i
dx1dx2 dxn ;
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
 d

 0  E 
log f  x;      per qualunque  Θ .

  d
vale la relazione di disuguaglianza
1
1
Var ˆ 

2
2
n

  d
 
 
 d
E   log  f  X i ;θ    nE   log f  X;   
 

i 1
 
  d


  d

Dimostrazione
n
d
d
1


t
x
,
x
,

x
f  xi ;  dx1dx2 dxn 



1
2
n
d
d   
i 1
 
     t  x1 , x2 ,  xn 
     
d
d
d
d
n
 f  x ; 
i 1
i
n
 f  x ; 
i 1
i
dx1dx2 dxn 
dx1dx2 dxn 
d n

     t  x1 , x2 ,  xn      
f  xi ;   dx1dx2 dxn 

 d i 1

n
d
 n
     t  x1 , x2 ,  xn      
log  f  xi ;    f  xi ;  dx1dx2 dxn 
i 1
 d
 i 1

d n

 E  t  x1 , x2 ,  xn      
f  xi ;   

 d i 1


 per la disuguaglianza Cauchy - Schwarz 
2
n
 
d
 
log  f  xi ;θ    
 E  t  x1 , x2 ,  xn      
i 1
 dθ
 
 
E

t  x1 , x2 ,  xn    
2

2
n
  d
 
 E 
log  f  xi ;   
d

i 1

 

da cui
E

t  x1 , x2 ,  xn    
2
  Var ˆ  
1
2
n
  d
 
E   log  f  xi ;θ   
i 1
 
  dθ
ma
182
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
 d

E 
log
  d
n

i 1

f  xi ;  

2



 
 E 

 

n
i 1

d
log f  xi ;  
d


n
n
d
 d

E
log f  xi ;  
log f  x j ;   
d
 d

j (  i ) 1
i 1

 per l'indipendenza delle v.c. Xi 
i 1




2
  d
 
E 
log f  xi ;    
 
  d
2
  d
d
d

 
 E  f  xi ;  
 E  f  xi ;     n E  
log f  x;    

d
d

 
  d
j (  i ) 1 

n

n
2
i 1
n
2
  d
 
 n E 
log f  x;   
 
  d
La quantità
2
2
n


 
 d

 d

 
I    E  log  f  X i ;θ     n E 
log f x;  

 
i 1

 
 d

 d

usualmente detta informazione di Fisher, si indica con I( ) e fornisce una misura
dell’informazione contenuta nel campione. Da sottolineare che l’informazione I() è la
varianza della variabile casuale che si ottiene derivando il logaritmo della funzione di
verosimiglianza; tale derivata è detta funzione score ed è espressa da:
S   
infatti
L'   f '  x1 , x2 ,..., xn ; 
d
log L   

d
L  
f  x1 , x2 ,..., xn ; 

Var  S  θ   E  S  θ 
2
  I θ 
poiché
f '  x1 ,x2 ,...,xn ;θ 
E  S  θ      
 f  x1 ,x2 ,...,xn ;θ   dx1  dx2 dxn 
f  x1 ,x2 ,...,xn ;θ 
d
d
d
   f  x1 ,x2 ,...,xn ;θ   dx1  dx2 dxn 
f  x;  dx 
1  0


dθ
dθ x
dθ
L’informazione di Fisher può essere quindi espressa dall’uguaglianza:

I    E S   
ma
183
2

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
0

d
x d
d

log f  x,     f  x,    dx 

 d

 d2

  2 log f  x,     f  x,   d x 
x  d

2
d

 E  S     E  S   
 d

da cui


E

x
d

 d log f  x,   
2
 f  x ,   dx 

 S      E  dd S    I  
2
Si noti che per definire la funzione score S() e l’informazione di Fisher I() si è
fatto riferimento all’universo dei campioni, cioè, nella funzione di verosimiglianza al
singolo punto campionario x1,x2,…,xn si è di nuovo sostituita la variabile casuale ad n
dimensioni X = (X1,X2,…,Xn).
La conclusione cui si perviene è che la varianza di uno stimatore corretto non può
scendere sotto il reciproco dell’informazione di Fisher, quindi, se Var ( ̂ ) = 1/I() lo
stimatore ̂ è il “migliore”, cioè, il più efficiente nell’ambito degli stimatori corretti. Se
risulta, invece, Var ( ̂ ) > 1/I(), non è possibile pervenire ad alcuna conclusione nel
senso che potrebbe esistere o non esistere un altro stimatore corretto più efficiente.
Comunque, si dimostra che il limite minimo della disuguaglianza viene raggiunto, se
sono soddisfatte alcune condizioni di regolarità, se e solo se il modello probabilistico
(v.c. rappresentativa della popolazione di riferimento) dal quale il campione è stato
estratto appartiene alla famiglia esponenziale caratterizzata da un solo parametro.
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo la cui esistenza è garantita per le v.c. che appartengono alla famiglia
esponenziale. Lo stimatore che minimizza l’errore quadratico medio nell’ambito ristretto
delle stime corrette, rappresenta, pertanto, la strategia dominante nella classe ristretta
degli stimatori corretti.
In molte situazioni operative non esiste un’alternativa dominante, neppure nella classe
ristretta degli stimatori corretti, ed anche quando una tale possibilità sussiste a livello
teorico può risultare molto difficile o addirittura impossibile procedere alla sua
derivazione analitica. Una possibile via da seguire per la ricerca dell’ottimo è
rappresentata dall’inserimento di ulteriori vincoli: il più semplice ed immediato, che
risolve anche le difficoltà di ordine analitico, è il vincolo di linearità.
Sulle conseguenze dell’introduzione del vincolo di linearità si avrà modo di soffermare
l’attenzione nelle pagine successive
3.1.5 Proprietà asintotiche
Al crescere della dimensione del campione cresce anche l’ammontare del patrimonio
184
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
informativo a disposizione, è quindi ragionevole presumere che al crescere della
dimensione campionaria debba anche crescere la “bontà” dello stimatore.
Per ciò che concerne il comportamento di un qualunque stimatore puntuale al crescere
della dimensione del campione si riportano le due definizioni seguenti che introducono
un’ulteriore augurabile proprietà degli stimatori: la consistenza.
Definizione 7 (Consistenza in senso debole). Uno stimatore ˆn  Tn ( X 1 , X 2 ,..., X n )
(di  ) si dice consistente in senso debole se
Lim P | ˆ   |  
 1
n


n
per qualunque   e per qualunque  positivo piccolo a piacere.
Definizione 8 (Consistenza in senso forte). Uno stimatore ˆn  Tn ( X 1 , X 2 ,..., X n ) (di
 ) si dice consistente in senso forte se
 
 0
 
 0
lim EQM ˆn
n 
o anche
lim ESM ˆn
n 
per qualunque  
Ovviamente, la consistenza forte implica la consistenza debole; infatti, per la
disuguaglianza di Cebicev si ha

P | ˆn   |






2
E  ˆn   


 1  2


ma Lim E  ˆn     0, quindi


n 
 E  ˆ   2  

 n
 
Lim P | ˆn   |    Lim 1   2
 1
n 
n 






2



3.2 - Metodi di stima puntuale
Una volta elencate le proprietà che si ritiene debbano essere soddisfatte da uno stimatore
puntuale, si dovranno valutare i metodi di stima proposti in letteratura verificando se, ed
in quali condizioni operative, producono stimatori che soddisfano tali proprietà.
In queste note verranno considerati, anche se in alcuni casi molto sommariamente, i
metodi di stima:
 della minimizzazione dell'errore quadratico medio;
185
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima




della massima verosimiglianza;
dei momenti;
del minimo chi-quadro (2);
della minima distanza.
3.2.1 Minimizzazione dell’errore quadratico medio
Un metodo di stima particolarmente rilevante e direttamente collegato alle proprietà delle
stime sopra elencate è quello basato sulla minimizzazione dell'errore quadratico medio;
si tratta, quindi, di un metodo che ha come obiettivo l’individuazione dello stimatore più
efficiente in assoluto.
Un inconveniente di questo metodo è rappresentato dal fatto che, come già
sottolineato più volte, per molte distribuzioni non esiste uno stimatore ̂ capace di
minimizzare l'errore quadratico medio rispetto a tutti i possibili valori di , succede cioè
che per alcuni valori di  l'errore quadratico medio risulta minimizzato dallo stimatore
ˆ , mentre per altri valori di  , al minimo si perviene attraverso una diverso stimatore
1
̂ 2 . In tali situazioni, essendo  una quantità incognita, il problema non ammette
soluzione, o meglio, è il metodo della minimizzazione dell'errore quadratico medio che
non fornisce la soluzione. Comunque, nelle situazioni in cui si riesce ad individuare lo
stimatore più efficiente in senso assoluto si parla di strategia dominante ed uno degli
acronimi di più largo impiego per caratterizzare tale stimatore è B(E) (Best Estimator).
Poiché, come già sottolineato, le stime che minimizzano l'errore quadratico medio non
sempre esistono, si preferisce sovente restringere la classe delle funzioni di stima a quelle
che rispettano certe condizioni; ad es. si può, come già sottolineato, restringere la classe
alle sole stime non distorte e ricercare tra queste la stima che minimizza l'errore
quadratico medio. In questo caso, il metodo della minimizzazione dell'errore quadratico
medio si riduce al metodo della minimizzazione della varianza; ma, in tali condizioni si
deve tenere presente che l’ottimo cui si può, eventualmente, pervenire è un ottimo
vincolato (un ottimo relativo e non un ottimo assoluto).
Si consideri ora la Fig. 3.1 dove sono stati riportati i grafici relativi alle distribuzioni
campionarie di tre diversi stimatori di , due di questi, ˆ e ̂ , danno luogo a delle
1
2
stime di  corrette, mentre il terzo, ˆ3 , dà luogo ad una stima distorta di .
186
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
f (  3 )
f (  1 )
f (  2 )

Fig. 3.1 - Grafico relativo alla distribuzione di tre diversi stimatori
Dei tre stimatori considerati ˆ1 , ̂ 2 e ˆ3 il secondo ̂ 2 è senz'altro da scartare,
infatti tale stimatore pur essendo corretto presenta una variabilità nettamente superiore a
quella dell'altro stimatore corretto ˆ . La scelta tra le funzioni che danno luogo agli
1
stimatori ˆ1 e ˆ3 , presenta invece qualche difficoltà; infatti, in questo caso si tratta di
confrontare due stimatori, dei quali, quello che possiede la “proprietà” della correttezza
ˆ1 mostra una maggiore variabilità rispetto a . Risulta ragionevole, nella situazione
prospettata, scegliere lo stimatore ˆ3 ; infatti, come si può evincere dalla figura, valendo
la disuguaglianza
 
 
EQM ˆ3  EQM ˆ1
la probabilità di ottenere valori prossimi a
 risulta più elevata per lo stimatore ˆ3 rispetto allo stimatore ˆ1 .
L’inserimento del vincolo di correttezza riduce, in pratica, lo spazio in cui ricercare
l’ottimo; se si riuscisse ad individuare tale ottimo, lo stimatore che minimizza l’errore
quadratico medio nell’ambito ristretto delle stime corrette, si sarebbe individuata la
strategia dominante nella classe ristretta degli stimatori corretti. Un tale stimatore viene
usualmente indicato con l’acronimo BU(E) (Best Unbiased Estimator). Nel situazione
prospettata nella Fig. 3.1 il miglior stimatore nella classe ristretta è ˆ .
1
In molte situazioni operative non esiste un’alternativa dominante, cioè un minimo per
qualunque valore di , neppure nella classe ristretta degli stimatori corretti, ed anche
quando una tale possibilità sussiste a livello teorico può risultare molto difficile o
addirittura impossibile procedere alla sua derivazione analitica, come già sottolineato, in
tali situazioni si può procedere all’inserimento di un ulteriore vincolo, il vincolo di
linearità
n
T  X 1 , X 2 ,..., X n    0   i X i .
i 1
187
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Nella classe ristretta degli stimatori lineari e corretti si riesce ad individuare gli
stimatori ottimali (cioè gli stimatori più efficienti) in molte situazioni rilevanti di ricerca,
tra queste, la più significativa è quella che riguarda i modelli statistici lineari, in
particolare il così detto modello classico di regressione lineare. In tale contesto, come
si avrà modo di chiarire successivamente, il metodo di stima statistica puntuale che ne
risulta viene, usualmente, detto metodo di stima dei minimi quadrati. Per indicare lo
stimatore che minimizza l’EQM nell’ambito degli stimatori lineari e corretti si utilizza
usualmente l’acronimo BLU(E) (Best Linear Unbiased Estimator)
Il metodo di stima puntuale basato sulla minimizzazione dell’errore quadratico medio
può essere interpretato facilmente in termini decisionali. In un contesto decisionale
l’errore quadratico medio assume la veste di funzione di perdita e l’impossibilità di
individuazione dello stimatore più efficiente si risolve nella constatazione della non
esistenza di un’alternativa decisionale (azione) che risulti dominante rispetto a tutte le
altre: la migliore azione per qualunque stato di natura che, nella specifica circostanza, è
rappresentato dal valore assunto dal parametro incognito .
3.2.2 Massima verosimiglianza
Un secondo metodo di stima puntuale particolarmente rilevante è il metodo della
massima verosimiglianza.
Si ricorda che: data una variabile casuale, discreta o continua X, con funzione di
massa, o di densità di probabilità f(x;) e un campione casuale semplice di n osservazioni
su X , si è definita di verosimiglianza la funzione
n
L( )  L( / x)  f ( ; x1 , x2 ,..., xn )   f ( ; xi )
i 1
Come già sottolineato, la funzione di verosimiglianza coincide, in termini formali, con
la funzione di massa o di densità di probabilità del campione: si tratta, infatti, di una
stessa espressione interpretata come funzione:
 degli elementi campionari x1, x2,...,xn che variano nell'universo dei campioni
(funzione di densità o di massa di probabilità);
 del parametro  per un campione prefissato (funzione di verosimiglianza).
Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le
variabili che interessano sono, appunto, le variabili casuali campionarie X1,X2,…,Xn.
Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto
particolari determinazioni x1,x2,…,xn e sono, pertanto, quantità costanti note; risulta,
allora, ragionevole interpretare l’espressione come funzione del parametro (o dei
parametri) che, pur essendo una costante, assume la veste di variabile essendo
incognito il suo valore.
~
Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore 
che massimizza la funzione L(). Se L() è una funzione differenziabile, condizione
188
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
necessaria affinché essa abbia un massimo è che dL()/d = 0 . Nella generalità dei casi
non occorre procedere ad ulteriori elaborazioni (computo delle derivate di ordine
superiore) essendo il punto di stazionarietà individuato un punto di massimo.
La derivazione della funzione di verosimiglianza L() comporta il computo del
n
prodotto

f(xi; ), operazione non immediata, per tale motivo, in genere si preferisce
i 1
massimizzare non la verosimiglianza L() ma il suo logaritmo naturale
l () = log L() =
n

log f (xi; )
i 1
detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, il
~
valore  che massimizza la log-verosimiglianza l() è identico a quello che massimizza
la verosimiglianza L().
Si ricorda che la derivata prima della log-verosimiglianza è stata definita come
funzione score; di conseguenza, se la log-verosimiglianza è differenziabile allora
condizione necessaria affinché la funzione abbia un massimo è che il suo score sia
nullo:
d
S() =
l   = 0.
d
~
Il valore  che massimizza la verosimiglianza o la log-verosimiglianza è detto stima
di massima verosimiglianza del parametro incognito . Se nella soluzione si
sostituiscono alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ..., Xn)
si ottengono gli stimatori di massima verosimiglianza.
Ovviamente se la distribuzione della variabile casuale X è caratterizzata da più
parametri 1, ..., k, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle
derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k
componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri
risolvendo il sistema delle equazioni definito dalle derivate parziali uguagliate a zero.
Anche in questo caso, come per quello di un solo parametro, nella generalità dei casi al
punto di stazionarietà corrisponde il massimo della funzione.
Si riporta nelle righe seguenti la derivazione delle stime di massima verosimiglianza,
elencandone proprietà e legge di distribuzione, per campioni relativi ad alcune v.c. tra
quelle esaminate nel Cap. 1; si tratta sempre di distribuzioni che appartengono alla
famiglia esponenziale per le quali è, quindi sempre possibile individuare stimatori
sufficienti e, a ragione della disuguaglianza di Cramèr-Rao, ottimali nell’ambito degli
stimatori corretti.
V.C. di Bernoulli
La log-verosimiglianza della v.c. di Bernoulli è data da
189
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
n
l(p) =

n
log f(xi; p) =
i 1

xi 1 xi
log ( p q
i 1
n
n
i 1
i 1
) = log p  xi + log (1-p) (n –  xi).
derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ha
S(p) =
1
p
n

xi –
i 1
n
1
(n –  xi) = 0.
q
i 1
risolvendo l’equazione rispetto a p si ricava la stima di massima verosimiglianza di p
1
~
p =
n
n

xi = x .
i 1
Lo stimatore di massima verosimiglianza di p è quindi la media campionaria
P = X =
1
n
n

Xi,
i 1
n
Poiché ciascuna Xi è una v.c. di Bernoulli ne consegue che

Xi è la somma degli
i 1
1, nel campione (somma dei successi nelle n prove), e X =
1
n
n

Xi è la proporzione
i 1
dei successi. L’immediata conclusione cui si perviene, ricordando quanto esposto nel
n
Cap.1, è che lo stimatore  X i ha distribuzione binomiale con parametri n e p, mentre
i 1
la media campionaria X è una binomiale relativa; questa distribuzione per n
sufficientemente grande può essere approssimata con la distribuzione Normale avente la
stessa media (p) e la stessa varianza (p q/n).
n
La statistica

Xi , e qualsiasi altra trasformazione biunivoca della stessa, è una
i 1
statistica sufficiente per p, quindi P = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di p, inoltre, il suo EQM coincide con la varianza e
raggiunge il limite di Cramér-Rao; infatti:
n
 d  1 n
d

1 
  
I  p    E  S  p    E    X i 
n

X i   


1 p 
i 1
  
 dp  p i 1
 dp

1
E  2
 p
n
 Xi 
i 1
n
n

  np n 1  p  nq  np
n

X




i  
2 
2
2
pq
pq
1  p   i 1  p 1  p 
1
da cui
1
pq

I  p
n
che è pari alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza P  X è
in assoluto lo stimatore migliore di p nella classe degli stimatori corretti.
190
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Infine, P  X è consistente in senso forte, dato che:
 X   Lim
Var  X n   Lim
pq
0
n
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole.
Lim EQM
n
n
n
n
V.C. di Poisson
La log-verosimiglianza della v.c. di Poisson è data da
n

l() =
log f(xi; ) =
i 1
n

log
 xi e 
xi !
i 1
n
= log   xi – n –
i 1
n

log xi!
i 1
derivando rispetto a  per ottenere lo score ed uguagliando a 0 si ha
S() =
1

n

i 1
~ 1
xi – n = 0   =
n
n

xi = x .
i 1
n
La distribuzione campionaria della v.c.
 X , per la proprietà additiva della v.c. di
i 1
i
Poisson, è ancora una v.c. di Poisson con parametro n che coincide con la media e la
varianza della v.c. stessa; mentre la distribuzione campionaria di  = X 1 è una v.c. di
Poisson relativa di media  e varianza /n. Tale distribuzione per n sufficientemente
grande può essere approssimata con la distribuzione normale avente la stessa media ( ) e
la stessa varianza (/n) della Poisson relativa.
n
La statistica

Xi (e qualsiasi altra trasformazione biunivoca della stessa) è una
i 1
statistica sufficiente per p, quindi  = X è uno stimatore sufficiente, essendo funzione
di tale statistica sufficiente, e corretto di , quindi, il suo EQM coincide con la varianza e
raggiunge il limite di Cramér-Rao; infatti:
 d 1 n

d

I     E  S     E    X i  n  
 d


 d   i 1
 n
 n
  E    X i / 2  
 i 1
 
da cui
1
Si segnala che l’utilizzo della simbologia che prevede le maiuscole per indicare le variabili casuali e le minuscole
per indicare le determinazioni assunte dalle stesse non viene sempre rispettato quando manca il corrispondente
simbolo maiuscolo per specifici caratteri minuscoli, ad esempio si utilizza lo stesso simbolo 
stima che lo stimatore di  ,
lo stimatore di

2

per indicare sia la stima che lo stimatore di
.
191
,
2
per indicare sia la
per indicare sia la stima che
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
1


I  p n
che è uguale alla varianza di X ; pertanto, lo stimatore di massima verosimiglianza
  X è in assoluto lo stimatore migliore di  nella classe degli stimatori corretti.
Inoltre,   X è consistente in senso forte, dato che:
 X   Lim
Var  X n   Lim

 0.
n
Poiché la consistenza forte implica quella debole, X è anche consistente in senso
debole per .
Lim EQM
n
n
n
n 
V.C. Normale
La log-verosimiglianza della v.c. Normale è data da:
l  , 
   log f x ;  ,    log
n
2
n
2
i 1
i
i 1
n
n
n
1
  log 2   log  2 
2
2
2 2
 x
i 1
1
2 2
e

1
2 2
 xi   2

 
2
i
Poiché la log-verosimiglianza dipende da 2 parametri è possibile distinguere quattro
diverse situazioni di stima:
 di  ;
 di  2 con  noto ;
 di  2 con  incognito ;
 simultanea di  e  2 .
Stima di 
Per quanto concerne la stima di  non è stata specificata l’eventuale conoscenza del
parametro  2 in quanto non influente; infatti, se si considera la funzione score, che si
ottiene come più volte specificato derivando ed eguagliando a 0 la log-verosimiglianza
rispetto al parametro d’interesse si ha:
S() = –
1
2 2
n

i 1
2(xi – )(–1) =
1
2
n
(
i 1
1
xi – n) = 0  ~ =
n
n

xi = x .
i 1
pertanto lo stimatore di massima verosimiglianza di  è la media campionaria
 = X =
192
1
n
n

i 1
Xi.
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Come si è già avuto modo di verificare   X , si distribuisce normalmente con media

e varianza 2/n. X , è uno stimatore sufficiente, perché basato sulla statistica
n
sufficiente
X
i 1
i
, corretto ed il più efficiente nella classe degli stimatori corretti di
infatti se si considera il limite della disuguaglianza di .Cramér-Rao
 dS   
1
 = –E( 2 (– n)) = n/2,
I() = –E 

 d 
si ha
1/I() = 2/n
che è uguale alla varianza di   X .
Inoltre X è consistente in senso forte per  ; poiché la consistenza forte implica
quella debole, X è anche consistente in senso debole per .
Stima di 2 con  nota
La funzione score è data da
S(2) = –
n
2
2
+
n
1
2
4

i 1
1
(xi – )2 = 0  ~ 2 =
n
n

i 1
(xi – )2 = s*2* .
Questo significa che lo stimatore di massima verosimiglianza di  2 è
~ 2 = S*2* =
1
n
n

(Xi – )2,
i 1
detta varianza campionaria con  nota.
Come già visto nel Cap. 2 la distribuzione campionaria di
2
n
n~ 2 nS*2*
 Xi   
 2  

 
2

i 1 
 
è di tipo Chi-quadrato con n gradi di libertà  n2 la cui media e varianza sono
rispettivamente pari ad n e a 2n, cioè
 nS 2 
E  *2*  = n
 


da cui deriva:
E ~ 2  =E( S *2* ) = 2
 nS 2 
Var  2**  = 2n,
 


Var( ~ 2 ) =Var( S *2* ) = 24/n.
Pertanto la varianza campionaria ~ 2 = S *2* è uno stimatore corretto e sufficiente
n
di 2 perché basato sulla statistica sufficiente   X i    ed il più efficiente
2
i 1
nell’ambito degli stimatori corretti come si verifica facilmente attraverso il computo del
limite fissato dalla disuguaglianza Cramér-Rao.
193
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
   = –E(
 dS  2
I( ) = –E 
2
 d
2


n
2
4
–
n
1
2
6

(xi – )2) = –
i 1
n
2
4
+
n

4
=
n
2 4
da cui
1/I(2) = 24/n
che è uguale alla varianza di ~ 2 .
Inoltre, ~ 2 = S 2 è consistente in senso forte per 2, dato che
**
Lim EQM  n2   LimVar  n2   Lim
n
n
n
2 4
0.
n
Poiché la consistenza forte implica quella debole, ~ 2 = S *2* è anche consistente in
senso debole per 2.
Stima congiunta di e2
Nel caso in cui si voglia stimare la varianza, ma non è noto il valore assunto da  , non si
può procedere come indicato al punto precedente poiché nell’espressione ~ 2 = S 2 =
**
1
n
n

(Xi – )2 è presente  che non è noto e che non interessa ai fini della stima di 2.
i 1
Il parametro incognito  e non di interesse ai fini della stima viene detto parametro di
disturbo; disturbo che può essere facilmente eliminato procedendo ad una sua stima che
pur non interessando direttamente è strumentale all’obiettivo che si vuol perseguire che
è, appunto, quello della stima di  2 . Piuttosto che trattare questo problema, facilmente
risolvibile se si considera quanto detto ai due punti precedenti, si procede alla risoluzione
del problema della stima congiunta di entrambi i parametri  e  2 .
Se entrambi i parametri  e 2 sono incogniti, le funzioni score eguagliate a zero per i
due parametri sono quelle considerate in precedenza:
s() =
s(2) = –
1
2
n
2
2
+
n
(  xi – n) = 0,
i 1
n
1
2
4

(xi – )2 = 0.
i 1
risolvendo il sistema rispetto ai due parametri incogniti si ottengono le stime:
1
~ = x =
n

n
xi
~ 2 =
i 1
1
n
n

i 1
(xi – x )2 = s*2 .
Gli stimatori di massima verosimiglianza di  è di 2 sono quindi
1
~ = X =
n
n

i 1
Xi
1
~ 2 = S *2 =
n
cioè, la media campionaria e la varianza campionaria.
194
n

i 1
(Xi – X )2,
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
n
Le statistiche

n
Xi e
i 1

i 1
X i2 (e qualsiasi altra trasformazione biunivoca di tale
coppia) sono congiuntamente sufficienti per  e 2 (per verificare tale risultato basta
n
svolgere il quadrato nel termine

(xi – )2 e operare le relative somme). Di
i 1
conseguenza ~ = X e ~ 2 = S *2 sono stimatori congiuntamente sufficienti, essendo
funzione di statistiche congiuntamente sufficienti.
Per quanto detto nel Cap. 2, risulta che: a) le due v.c. X e S *2 sono fra loro
indipendenti; b) X è una stima corretta di  mentre S *2 è una stima distorta di  2 ;
inoltre, la v.c.
nS *2
2
 Xi  X

 
n
=

i 1



2


ha distribuzione del tipo chi-quadro con n-1 gradi di libertà  n21 .
Per le proprietà della v.c. Chi-quadrato
 n S2 
E  2*  = n – 1
  
 n S2 
Var  2*  = 2(n – 1)
  
da cui
E( S *2 ) =
n 1 2

n
Var ( S *2 ) = 2 4
n 1
n2
.
Essendo S *2 uno stimatore distorto di 2, il teorema di Cramér-Rao non si applica
perché viene a cadere una delle ipotesi fondamentali dello stesso. Comunque, poiché
EQM( S *2 ) = 4 (2n – 1)/n2 tende a 0 per n → ∞, S *2 è uno stimatore consistente in
senso forte. Dato poi che la consistenza forte implica quella debole, S *2 è anche
consistente in senso debole per 2. Inoltre, per quanto esposto nel capitolo precedente,
è invece stimatore corretto di  2 la varianza campionaria corretta
S2 =
1 n
 (Xi – X ).
n  1 i 1
Poiché la v.c.
 n  1 S 2 = n S *2
2
X X

=   i
2
2

 

i 1 
ha distribuzione di tipo chi-quadro con n-1 gradi di libertà con media e varianza
 n  1 S 2
E 
2
 

 = n – 1

n
 n  1 S 2
Var 
2
 
ne risulta
195

 = 2 (n – 1),

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
E(S2) = 2
Var (S2) = 24/(n – 1).
Lo stimatore (non di massima verosimiglianza) S2 è, quindi, uno stimatore corretto e
sufficiente di 2 ma non raggiunge il limite di Cramér-Rao sopra individuato 1/I(2) =
24/n che è inferiore alla varianza dello stimatore S2 che è pari a 24/(n-1). La
differenza rispetto al limite di Cramér-Rao è, comunque, esigua e diminuisce rapidamente
al crescere di n. Infine, risulta facile verificare che S2 è uno stimatore consistente in
senso forte, e, quindi, anche in senso debole, di 2.
V.C. Gamma
La log-verosimiglianza della v.c. Gamma con parametri  e è data da
l(, ) =
n

log f(xi; , ) =
i 1
n

i 1
x
 i 

1
 1
log 
xi e  

    

che dopo alcune semplificazioni diviene
n
l  ,    n log   n log       1  log xi 
i 1
1

n
x
i 1
i
Per ricavare le stime di massima verosimiglianza di  e  occorre derivare rispetto ad
entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0.
s() = – n log – n
s() = –
n

'  
+
 
+
1
2
n

log xi = 0,
i 1
n

xi = 0.
i 1
Dalla seconda relazione si ricava  in funzione di , tuttavia, sostituendo tale risultato
nella prima equazione, la funzione gamma ivi coinvolta non consente la derivazione
analitica di , il che significa che non si possono derivare analiticamente le stime di
~
massima verosimiglianza ~ e  anche se, osservando la formula della logn
verosimiglianza si conclude che le statistiche

i 1
n
log xi e

xi (e qualsiasi altra
i 1
trasformazione biunivoca di tale coppia) sono congiuntamente sufficienti per  e . Di
~
conseguenza, anche se non si riesce a ricavare l’espressione analitica di ~ e  , tali
stimatori esistono e sono stimatori congiuntamente sufficienti.
Questa situazione, apparentemente anomala, si incontra in realtà nella generalità dei
casi; infatti, solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono
di esplicitare analiticamente la formula degli stimatori, di ricavarne l’esatta distribuzione
campionaria e di derivare il valore degli indici caratteristici quali media, varianza e EQM.
Quando non è possibile derivare l’espressione analitica degli stimatori di massima
196
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
verosimiglianza si procede, usualmente, alla massimizzazione della verosimiglianza
tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in
corrispondenza del massimo per approssimazioni successive iniziando da un punto di
partenza (starting point).
3.2.3 Proprietà degli stimatori di massima verosimiglianza
Da quanto visto ai punti precedenti, gli stimatori di massima verosimiglianza cui si è
pervenuti godono di buone proprietà. Ci si deve ora domandare se in tutte le situazioni
(per tutti i modelli) è possibile pervenire agli stessi risultati, la risposta non è affermativa:
le proprietà degli stimatori di massima verosimiglianza, per campioni di dimensione
finita, vanno valutate caso per caso, anche se, generalmente, tali stimatori godono di
buone proprietà che vengono di seguito richiamate.
 Invarianza - Si dimostra che se  è lo stimatore di massima
verosimiglianza di  allora g(  ) è lo stimatore di massima verosimiglianza
di g(). In altri termini per stimare tramite massima verosimiglianza una
qualche trasformazione di un parametro già stimato basta prendere la stima
precedente e trasformare questa allo stesso modo. Ad esempio: nel modello
normale la stima di massima verosimiglianza di  è la radice quadrata di
~ 2 ; oppure nel modello di Poisson la stima di massima verosimiglianza di
~
1/ è 1/  .
 Sufficienza - Se esistono delle statistiche sufficienti allora gli stimatori di
massima verosimiglianza sono funzione di questi e pertanto sono stimatori
sufficienti. Questa proprietà è una conseguenza del criterio di
fattorizzazione; infatti se esistono stimatori sufficienti allora la logverosimiglianza è la somma di due componenti, una dipende solo dal
parametro e dalle statistiche sufficienti, l’altra solo dal campione
 Efficienza “per campioni finiti” - Si dimostra che se esiste uno stimatore
corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della
massima verosimiglianza individua “automaticamente” tale stimatore.
 Efficienza asintotica - Si dimostra che sotto condizioni molto generali di
regolarità, lo stimatore di massima verosimiglianza  è asintoticamente
(cioè per n → ∞) efficiente, cioè:
- è asintoticamente corretto lim E(  n ) = ;
n
- la sua varianza tende al limite di Cramér-Rao che a sua volta tende a 0
lim Var (  n ) = dove  I   ; indica l’informazione di Fisher;
n
- poiché di norma  tende a 0 per n → ∞ ne deriva come conseguenza
la consistenza in senso forte e quindi anche in senso debole.
197
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
 Normalità asintotica - Si dimostra che
n I   n   
lim
n
pertanto, per
N  0,1
sufficientemente elevato  n
n
ha distribuzione
approssimativamente normale con media il vero valore di  e varianza pari
al limite inferiore di Cramér-Rao, in simboli
 n ≈ N[, 1/I()].
Per caratterizzare le ultime due proprietà asintotiche è stato introdotto l’acronimo
BAN(E) (Best Asymptotically Normal Estimator) o anche CAN(E) (Consistent
Asymptotically Normal Estimator).
3.2.4 Altri metodi di stima
Oltre al metodo di stima della minimizzazione dell’EQM e della massima verosimiglianza,
molti altri metodi di stima sono stati proposti in letteratura: il metodo dei momenti, il
metodo della minima distanza, il metodo del minimo 2 ecc. In seguito si parlerà
diffusamente del solo metodo dei minimi quadrati (minimizzazione dell’EQM nella
classe ristretta degli stimatori lineari e corretti), nei punti seguenti si procederà, invece,
ad una sintetica illustrazione degli altri metodi richiamati.
Metodo dei momenti
Se con  r  E[ X r ] si indica il momento r-esimo di una v.c. X, la cui funzione di densità o
di massa di probabilità f  x;  e   1 ,2 ,....,k  , nella generalità dei casi  r  E[ X r ]
è funzione nota dei k parametri 
 r  r 1 ,...,k  . Dato che il corrispondente
1
momento campionario risulta essere M r   X r , si impongono le k relazioni di
n
uguaglianza (momenti empirici = momenti teorici)
M r   r 1 ,..., k 
con r = 1,…, k
ne risulta, quindi, un sistema di k equazioni in k incognite che risolto (quando
possibile) fornisce la stima dei momenti ˆ1 ,...,ˆk dei k parametri incogniti
  1,2 ,....,k  .
'
Esempio 3.1
Sia X 1 ,...,X n un campione casuale da una distribuzione con media μ e varianza σ2. Siano
1 , 2    ,  2 . Stimando i parametri con il metodo dei momenti le equazioni cui si perviene
sono:
 
   ,    
M 1  1  ,  2  
M2
2
2
198
2
 2
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
e la soluzione è:
ˆ  x
ˆ 2 
1 n
  xi  x 
n i 1
2
Esempio 3.2
Sia X 1 ,...,X n un campione casuale da una distribuzione di Poisson con parametro λ. Poiché un
solo parametro caratterizza la distribuzione, allora il metodo dei momenti suggerisce
banalmente la seguente soluzione:
ˆ  x
Il metodo dei momenti, seppur ragionevole, non è in generale un buon metodo per la
derivazione degli stimatori; infatti, nei casi in cui applicando il metodo dei momenti si ottengono
stimatori con buone proprietà, allo stesso risultato si può usualmente pervenire attraverso
l’impiego di un diverso metodo di stima. Al riguardo, si deve comunque segnalare che, in talune
situazioni, è l’unico metodo applicabile.
Metodo del minimo chi-quadro
Sia X1,..., X n un campione casuale estratto da una densità f ( x; ) , e sia S1 ,..., S k una partizione
del campo di variazione di X. La probabilità p j ( ) che un’osservazione appartenga all’intervallo
S j della partizione è data da p j ( )   f ( x; ) dx . Si indichino con Nj il numero di Xi che cadono
Sj
k
nell’intervallo S j (ovviamente con n   N j ), e si costruisca la sommatoria
j 1
k
[n j  n  p j ( )]2
j 1
n  p j ( )
 
2
dove nj è il valore osservato di Nj. Il numeratore dei termini della sommatoria altro non è che il
quadrato dello scarto tra il numero osservato e quello atteso di determinazioni che cadono
nell’intervallo Sj. La stima del minimo chi-quadro di θ è il valore ˆ che minimizza  2 . È, cioè,
quel valore di  che, mediamente, rende il numero atteso di osservazioni nell’intervallo S j “più
vicino possibile ” al numero realmente osservato.
Il metodo risente, ovviamente, dell’arbitrarietà della partizione S1 ,..., S k adottata.
Esempio 3.3
Sia X 1 ,...,X n un campione casuale da una distribuzione di Bernoulli di parametro p.
Poiché il campo di variazione di X consiste unicamente nei due valori 0 e 1 allora,
1
 
2
j 0

[n j  n  p j  p ] 2
n  p j  p

[n 0  n(1  p)] 2 [n1  np] 2

n(1  p)
np
[n  n1  n(1  p)] 2 [n1  n p] 2 [n1  n p] 2
1



n(1  p)
np
n
p (1  p)
199
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Dato che  2  0 , in questo caso si può individuare il minimo in modo diretto osservando che
 2  0 se pˆ  n1 n . Si osservi che in questo esempio la partizione S1 ,..., S k poteva essere scelta
in un unico modo, e che lo stimatore trovato è lo stesso di quello che si sarebbe ottenuto col
metodo dei momenti o con quello della massima verosimiglianza.
Poiché può risultare difficile individuare il punto di minimo di  2 , si preferisce talvolta sostituire
il denominatore n p j  p  direttamente con il valore osservato n j , ottenendo il cosiddetto chiquadro modificato. La stima del minimo chi-quadro modificato è allora quel ˆ che minimizza il
 2 modificato.
Metodo della minima distanza
Sia X 1 , X 2 ,..., X n un campione casuale estratto dalla distribuzione F ( x; ) , e sia d(F,G) una
funzione che misura la distanza che intercorre tra due funzioni di ripartizione F e G (ad esempio,
d ( F , G)  sup F ( x)  G( x) misura la massima distanza verticale tra F e G).
x
La stima di minima distanza di θ è quel valore tra tutti i possibili in  che minimizza
d ( F ( x), Fn ( x)) dove Fn (x) è la funzione di ripartizione campionaria o empirica. Lo stimatore di
minima distanza è intuitivamente attraente ma è spesso di difficile derivazione essendo
problematico minimizzare d ( F , Fn )  sup F ( x)  Fn ( x) .
x
Esempio 3.4
Sia X 1 ,...,X n un campione casuale da una distribuzione di Bernoulli di parametro p. Allora,
F ( x; p)  (1  p) I [0,1) ( x)  I [1,) ( x)
Sia nj = numero di osservazioni uguali a j (j = 0,1). Allora
n0
I [ 0,1) ( x)  I [1, ) ( x)
n
Se si usa la funzione di misura della distanza d ( F , G)  sup F ( x )  G( x )
Fn ( x; p) 
x
d ( F ( x), Fn ( x)) risulta minimizzata per 1  pˆ 
n0
n
ˆ  1 .
, cioè p
n
n
3.3 - Stima statistica di intervallo (intervalli di confidenza)
Nelle pagine precedenti è stato considerato il problema della scelta del “migliore”
stimatore puntuale di uno o più parametri incogniti , sulla scorta di un campione di
osservazioni. E' stato detto che se il metodo di stima adottato possiede, nell'universo dei
campioni, determinate proprietà, si può presumere che il valore effettivo ottenuto sia
“abbastanza prossimo” al valore incognito che si vuol stimare. Comunque un singolo
numero non dà nessuna indicazione sulle probabilità che la stima ottenuta assuma un
200
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
valore prossimo al vero valore del parametro incognito. Con il metodo di stima di
intervallo si supera questo inconveniente, infatti, la sua applicazione fornisce
informazioni sia sul valore numerico del parametro incognito che sul grado di
attendibilità (intesa in senso probabilistico) della stima stessa.
La procedura della stima mediante intervalli (di confidenza) consiste nella
determinazione, sulla scorta delle informazioni campionarie, di due statistiche L1 (limite
inferiore) e L2 (limite superiore) in modo da soddisfare la relazione
P (L1    L2) = 1 -  per 0 <  < 1
dove L1 = T1(X1,X2,…,Xn) e L2 = T2(X1,X2,…,Xn) (L1 < L2) sono, nell'universo dei
campioni, variabili casuali in quanto funzioni degli n elementi campionari, e (1-)
(usualmente pari a 0,95, 0,99 e 0,999) è il così detto livello di confidenza. Un livello di
confidenza ad es. pari a 0,95 sta ad indicare che su 100 campioni 95 generano intervalli
che includono il vero valore del parametro incognito. Evidentemente nelle situazioni reali
si disporrà di un solo campione, e quindi di una sola determinazione l1 ,l 2  ,
dell'intervallo casuale di confidenza
L1 , L2 
, che potrà essere uno dei 95 sui 100
includenti  o uno dei 5 su 100 che non lo includono. Pertanto, relativamente
all’intervallo l1 ,l 2  non si potrà dire che lo stesso ha probabilità 1- di contenere al suo
interno il vero valore del parametro incognito , o lo contiene, allora la probabilità è pari
ad 1, o non lo contiene, allora la probabilità è 0; da tale constatazione deriva anche la
dizione, per 1- , di livello di confidenza e non di livello di probabilità.
Ogni intervallo di stima risulta, quindi, caratterizzato da due elementi essenziali:
1. l’affidabilità o attendibilità, misurata dal livello di confidenza;
2. l’informatività, misurata dall’ampiezza dell’intervallo.
Ovviamente, l’obiettivo da perseguire è quello dell’individuazione di intervalli molto
affidabili ma di ampiezza modesta. Purtroppo, livello di confidenza e ampiezza
dell'intervallo sono in relazione diretta; cioè, all'aumentare dell'attendibilità della stima (di
intervallo) aumenta anche la sua ampiezza e, quindi, diminuisce la sua capacità
informativa. Non sarà quindi possibile, nella determinazione di un intervallo di stima,
perseguire il duplice obiettivo di massimizzazione del livello di confidenza e di
minimizzazione dell’ampiezza dell’intervallo. Un modo per ridurre l'ampiezza degli
intervalli, a parità di livello di confidenza (o aumentare il livello di confidenza a parità di
ampiezza degli intervalli) è naturalmente quello di aumentare la dimensione del
campione.
L’ultima considerazione svolta suggerisce una possibile via operativa per il
perseguimento simultaneo del duplice obiettivo: si fissano a priori, sia il livello di
confidenza sia l’ampiezza massima dell’intervallo, per poi procedere alla determinazione
della dimensione campionaria necessaria e che consente il perseguimento del duplice
obiettivo. Comunque, la procedura usualmente seguita è quella basata sulla fissazione del
livello di confidenza 1- con la conseguente individuazione dell’intervallo di ampiezza
201
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
minima (intervallo ottimale).
Verranno considerati ora alcuni problemi specifici di determinazione degli intervalli di
confidenza. Si segnala in proposito che la procedura seguita è quella basata
sull’elemento pivotale, dove per elemento pivotale s’intende una qualunque funzione
degli elementi campionari e del parametro incognito di interesse la cui distribuzione
campionaria è completamente nota, ed essendo completamente nota non può dipendere
da  il cui valore è incognito; in altre parole, l’elemento pivotale dipende da  ma non
dipende da  la sua distribuzione. Quanto affermato può essere espresso dalla
definizione che segue.
Definizione 9 (Elemento pivotale): Sia X una v.c. con funzione di massa o di densità
f(x; ), dove   Θ , e sia X = (X1, …, Xn) un campione casuale semplice
bernoulliano estratto da X. Allora un pivot (o cardine) è una quantità
Q( X ; ) che possiede le seguenti caratteristiche:
1. è funzione del campione X = (X1, …, Xn);
2. è funzione di  (il parametro di cui si vuol trovare l’intervallo di confidenza);
3. non contiene altri parametri incogniti oltre a ;
4. la sua distribuzione è completamente nota;
5. è invertibile rispetto a .
La procedura per la determinazione di un intervallo di confidenza attraverso il metodo
dell’elemento pivotale si articola nei passi sotto riportati:
1. si individua un pivot Q( X ; ) per il problema in analisi; nella generalità dei casi,
la via più facile per individuare l’elemento pivotale è quella che prende avvio da
2.
3.
4.
uno stimatore puntuale ̂ , se possibile ottimale, del parametro incognito 
rispetto al quale si vuol determinare l’intervallo di confidenza;
si fissa il livello di confidenza 1–;
si determina l’intervallo di ampiezza minima (il più informativo) [c1, c2] all’interno
del quale il pivot è compreso con probabilità pari al livello di confidenza scelto,
cioè P[c1  Q ( X ; )  c2] = 1–;
si inverte la relazione c1  Q( X ;  )  c2 rispetto a  in modo da ricavare
l’intervallo di confidenza cercato per , che quindi soddisferà
P[L1( X )    L2( X )] = 1–.
3.3.1 Intervallo di confidenza per la media di una variabile casuale normale con
varianza nota.
Sia
x1,
x2,...,xn,
una
specifica
determinazione
di
un
campione
casuale
X   X 1 , X 2 , ... , X n  estratto da una popolazione distribuita normalmente con media µ
'
202
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
incognita e varianza σ 2 nota; si voglia determinare un intervallo di confidenza per la
media µ.
La variabile media campionaria
1 n
X   Xi
n i 1
ha, nell'universo dei campioni, distribuzione normale con media µ e varianza σ 2 /n . La
variabile standardizzata della X
X -
~ N  0,1
/ n
è elemento pivotale in quanto funzione degli elementi campionari, del parametro
incognito  ed ha una distribuzione normale , completamente nota, di media 0 e varianza
pari ad 1; si potranno, allora, sulla scorta delle tavole della distribuzione normale
standardizzata, determinare due valori c1 e c2 tali che
P (c1  Z  c2) = 1- 
si scelgono per c1 e c2 valori simmetrici, cioè c2 = - c1 = c = z α 2 , comportando questi
Z
valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e
dell’accentramento dei valori intorno alla media della distribuzione normale. Per tali
motivi, l’intervallo ottenuto è quello più informativo.
In tal caso, per quanto detto in precedenza, se si scegliesse ad esempio, = 0,05 si
avrebbe c1= - z 2 = -1,96 e c2 = z 2 = 1,96. L'uguaglianza sopra scritta è
perfettamente equivalente alla relazione
P
 X -z
 2
/ n

 X z

  1- 
 X  1,96  / n 
  0,95
  
 2
/ n
Per  = 0,05 si avrebbe quindi l'intervallo di confidenza
P
 X -1,96  / n 
  
Esempio 3.5
Il peso medio alla nascita relativo ad un campione di 200 animali è risultato pari a 0,824
grammi. Sapendo che lo scostamento quadratico medio della variabile (approssimativamente
normale) peso alla nascita è gr. 0,042, si vogliono determinare gli intervalli di confidenza (ai
livelli del 95% e del 99%) per l'indice caratteristico µ (peso medio).
Applicando la formula sopra riportata si ha

P  X  1,96  0,042 / 200


  
203
 X  1,96  0,042 /

200   0,95

Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
e quindi l'intervallo
0,8182  μ  0,8298
Per  = 0,01 si ha
P

 X - 2,58  0,042 /
200

  
 X  2,58  0,042 /

200   0,99

e quindi l'intervallo
0,8153  µ  0,8317
Si noti come all'aumentare del livello di confidenza sia cresciuta, di conseguenza, l'ampiezza
dell'intervallo, e come questa diminuirebbe (a parità di livello di confidenza) se si aumentasse
la numerosità del campione.
3.3.2 Intervallo di confidenza per la media di una variabile casuale normale con
varianza incognita.
Se ci si trova nella situazione espressa nel punto precedente, supponendo però incognita
la varianza, l'intervallo di confidenza sopra individuato non potrà più essere utilizzato;
infatti, nei due limiti, inferiore e superiore, dell'intervallo compare lo scostamento
quadratico medio incognito della popolazione (parametro di disturbo). Il problema della
determinazione dell'intervallo di confidenza può essere risolto sostituendo, allo
scostamento quadratico medio incognito  una sua stima campionaria.
Se si stima  mediante la formula
2
1 n
Xi  X 


n  1 i 1
S
la variabile casuale
X- μ
~ tn 1 
S / n
ha una distribuzione del tipo t di Student con n - 1 gradi di libertà. Infatti, per quanto
detto nelle pagine precedenti, tale variabile resta definita dal rapporto tra la variabile
X-μ
casuale normale standardizzata Z 
e la radice della variabile casuale 2 divisa
σ / n
V
n
X  X
2
 n  1 S 2 / (n  1) 
S2
.
σ2
σ2
σ2
La variabile V sopra definita è elemento pivotale in quanto funzione degli elementi
campionari, del parametro incognito  ed ha distribuzione campionaria completamente
nota.
per i rispettivi gradi di libertà Y 
i 1
i
204
/ (n  1) 
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
Mediante l'uso delle tavole si potranno allora determinare due valori c 1 e c2 tali che
P (c1  V  c2) = 1 - 
Se si sceglie un intervallo simmetrico, cioè c2 = - c1 = c = tα 2 , comportando questi
valori l’individuazione dell’intervallo di ampiezza minima a ragione della simmetria e
dell’accentramento dei valori intorno alla media della distribuzione t di Student,
seguendo lo schema di ragionamento adottato sopra, si ha
P

 X -t
S/ n
 2

 μ 
 X t
 2
S/ n

  1- 
dove, naturalmente, il valore numerico di c dovrà essere individuato sulle tavole della
distribuzione t in corrispondenza del prefissato livello di confidenza 1- e degli n -1
gradi di libertà.
Esempio 3.6
Avendo somministrato ad un campione casuale di cavie una particolare dieta, dalla nascita
fino all'età di tre mesi, ed avendo riscontrato i seguenti incrementi nel peso: 55, 62, 54, 57, 65,
64, 60, 63, 58, 67, 63 e 61 grammi; si vuol determinare un intervallo di confidenza, al livello
del 95%, relativamente all'incremento medio di peso.
Attribuendo al caso le differenze riscontrate negli aumenti di peso, si potrà presumere normale
la popolazione teorica di tutte le cavie sottoponibili a quella particolare dieta. In questo caso
l'intervallo simmetrico di confidenza può essere derivato dall'uguaglianza.
P
 X -t
 /2

S/ n   
 X t
 /2
S/ n


 1- 
dove, rispetto alla formula sopra definita, è stato sostituito al simbolo c il simbolo tα/
2
per
indicare che si sta trattando di un intervallo simmetrico il cui livello di confidenza è pari a 1  e che la distribuzione campionaria di riferimento è la t di Student.
Sulle tavole della distribuzione t , in corrispondenza di 12 - 1 = 11 gradi di libertà e per  =
0,05 si trova t /2  t0,025  2,20 ( dove 2,20 è il valore che soddisfa la relazione P(t  2,20) =
F (2,20) = 0,975) si avrà allora
P
 X -t
 /2

S / 12   
 X t
 /2
S / 12


 1- 
Poiché la stima della media e della varianza corretta dell'incremento medio di peso riscontrato
nelle dodici cavie sono rispettivamente pari a 60,75 e 16,38 risulta l'intervallo di confidenza
 60,75 - 2,20

16,38 12   
 60,75  2,20
16,38 12

cioè
58,17  µ  63,32.
3.3.3 Intervallo di confidenza per la varianza di una variabile casuale normale con
media incognita
Se si vuol procedere alla determinazione di un intervallo di confidenza per la varianza di
205
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
una variabile casuale normale con media incognita si consideri la variabile casuale
n
 Xi  X
(n  1 )S 2

V


2
σ
σ
i 1 
2

 ~  n21

che ha nell’universo dei campioni distribuzione del tipo 2 con n-1 gradi di libertà. Si
tratta, quindi, di elemento pivotale essendo completamente nota la sua distribuzione e
dipendendo solo dai valori campionari e dal parametro incognito di interesse 2.
Pertanto, utilizzando i valori riportati nelle tavole della distribuzione 2 si potranno
determinare due valori c1 e c2 per i quali è soddisfatta la relazione
Pc1  V  c2   1  α .
Anche se l’intervallo che ne risulta non è di lunghezza minima, essendo la
distribuzione 2 non simmetrica, c1 e c2 vengono scelti usualmente in modo simmetrico
c1  12 / 2 , c2  2 / 2
dove i simboli χ
1α / 2
e χ α / 2 stanno ad indicare i valori della variabile casuale 2 che
hanno, rispettivamente, l’/2% dei casi a sinistra e l’/2% dei casi a destra.
L’intervallo sopra scritto diventa


(n 1) S 2
Pχ 12α/ 2 
 χ α/2 2   1  α
2
σ


che è perfettamente equivalente all’intervallo
 (n  1 )S 2
P

2
 χ α/ 2
σ2 
(n  1 )S 2 
  1 α
χ12α/ 2 
3.3.4 Intervallo di confidenza per la media di una variabile casuale con legge di
distribuzione arbitraria.
I metodi per la derivazione degli intervalli di confidenza illustrati, si riferiscono a
campioni estratti da popolazioni aventi distribuzione normale; ragionamento analogo può
essere fatto nel caso della distribuzione bernoulliana, della distribuzione di Poisson, ecc.
Sembra naturale però chiedersi come determinare gli intervalli di confidenza relativi a
parametri caratteristici di interesse quando non è nota la forma della distribuzione della
popolazione cui si riferisce il campione di osservazioni disponibile. Se esistono le
condizioni richieste dal teorema del limite centrale, nel caso in cui il parametro d'interesse
è la media, la risposta è immediata; infatti, in tale situazione, la media campionaria avrà
una distribuzione approssimativamente normale, potrà allora essere applicata la
metodologia esposta nelle pagine precedenti.
Ad esempio, se con X si indica il numero di successi osservabili in corrispondenza di un
esperimento casuale replicato n volte, la variabile casuale X ha distribuzione binomiale, si
potrebbe, pertanto, procedere alla determinazione degli intervalli di confidenza facendo,
eventualmente, ricorso alle tavole della distribuzione binomiale. Ma, come già segnalato nelle
206
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
pagine precedenti, la variabile
Z
X  np
npq
 N 0,1) 
per n abbastanza grande, dove naturalmente p è la misura delle probabilità di successo,
ha una distribuzione approssimativamente normale con media 0 e varianza 1; quindi, per
n abbastanza grande, la variabile X ha distribuzione approssimativamente normale con
media n p e varianza n p q . Si ricorda in proposito che l'approssimazione è tanto
migliore quanto più p è prossimo al valore 0,5.
Per quanto sopra detto, utilizzando le tavole della distribuzione normale, risulta facile
determinare il valore che soddisfa la relazione
P ( - c  Z  c) = 1 - 
dove  è un prefissato livello di confidenza. Infatti:
  X  np 2

P ( - c  Z  c) = P (Z  c ) = P 
 c2  
 np 1  p 

2
2
P (n  c2 ) p 2  (2 X  c 2 ) p  X 2 / n  0  1  
Essendo positivo il coefficiente n + c2 della disuguaglianza
(n + c2) p2 - (2X + c2) p + X2/n < 0
ne deriva che essa risulterà soddisfatta per valori di p interni all'intervallo  p1 , p2  ; dove
p1 e p2 indicano le soluzioni dell'equazione di secondo grado
(n + c2) p2 - (2X + c2) p + X2/n = 0
L’uguaglianza sopra scritta risulta pertanto equivalente alla relazione
P (p1  p  p2) = 1- 
Se oltre ad n anche X ed (n - X) assumono valori sufficientemente elevati, le quantità
p1 e p2 potranno essere derivate più semplicemente, ma in modo approssimato dalle
uguaglianze
p1 
X
 zα 2
n
X n  n - X  n
n
; p2 
X
 zα 2
n
X n  n - X  n
n
Esempio 3.7
In una certa stazione sperimentale sono stati osservati 550 germogli di pisello, 420 dei quali
presentavano colorazione verde (carattere dominante) mentre i rimanenti 130, colorazione
gialla (carattere recessivo). Si vuol determinare un intervallo di confidenza, al livello del 95%,
per la percentuale p di piselli verdi.
Essendo n = 550 piuttosto elevato si potrà ricorrere all'approssimazione normale; dalle tavole
di tale distribuzione risulta, come noto, che c = 1,96 è il valore che soddisfa l'uguaglianza
P ( - c  Z  c) = 0,95
quindi
207
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
p1 
p2 
2  420  1,96 2 
2  420  1,96   4550  1,96 420
2550  1,96 
2 2
2
2
/ 550
 0,72637
/ 550
 0,79724
2
2  420  1,96 2 
2  420  1,96   4550  1,96 420
2550  1,96 
2 2
2
2
2
pertanto l'intervallo di confidenza sarà
0,73  p  0,80
Qualora fossero state applicate le formule approssimate si sarebbe ottenuto
p1 = 0,7263 , p2 = 0,7976.
3.3.5 Intervalli simultanei di confidenza per la media e la varianza di una variabile
casuale normale
Sia x1, x2,...,xn, una specifica determinazione di un campione estratto da una popolazione
distribuita normalmente con media µ e varianza σ 2 entrambe incognite; si vogliano
determinare intervalli simultanei (regione) di confidenza per la media µ e per la
varianza σ 2 .
Una prima possibilità di soluzione del problema è quella di utilizzare gli intervalli già
determinati in precedenza: per la media µ in presenza del parametro di disturbo incognito
σ 2 e per la varianza σ 2 in presenza del parametro di disturbo incognito µ:
P

 X -t
α1 2
S/ n

 X t
 μ 
α1 2
S/ n

  1 - α1
 (n  1 )S 2
(n  1 )S 2 
2
P
 σ  2
  1  α2
2
χ1α2 / 2 
 χα2 / 2
Questa via deve essere esclusa per due ragioni fondamentali:
1. la regione (intervalli simultanei) di confidenza che si ottiene combinando i
due intervalli non è ottimale (non è di minima dimensione);
2. i due intervalli casuali non sono indipendenti (presenza in entrambi gli
intervalli della v.c. varianza campionaria), quindi, il livello di confidenza
1  1   e 1   2  .
congiunto non è uguale al prodotto dei due livelli
Se si tiene presente che, nella derivazione dell’intervallo di confidenza per la media,
2
alla mancata conoscenza del parametro di disturbo σ si è sopperito attraverso una sua
stima puntuale corretta
S2 

1
 Xi  X
n 1
208

2
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
nella situazione in esame è forse più ragionevole pensare ad un diverso modo di
2
eliminazione del “disturbo”, ad esempio, facendo ricorso non alla stima puntuale di σ
ma ad una stima per intervallo. I due intervalli causali, che risultano anche indipendenti,
da prendere in considerazione sono:
P
 X -z
α1 2
σ/ n

 μ 
 X z
α1 2
σ/ n

  1- α1
 (n  1 )S 2
(n  1 )S 2 
2
P

σ

  1  α2
2
χ12α2 / 2 
 χ α2 / 2
Se ora si considera che:



X-μ
P  z α1 2 
 z α1 2   1  α1  P   z α1 2
σ/ n



si ottiene la relazione funzionale (parabola):

 X - μ
2

2
2
 X-μ 
  z α1 2
 
σ / n 



2

 z α2 2  σ 2 / n  σ 2  n  X - μ  / z α2 2
2
1
1
che consente di tracciare i confini della regione di confidenza per µ e σ 2 .
Nella Fig. 3.2 sono riportati gli intervalli simultanei di confidenza per µ e σ 2 : il
rettangolo in grassetto rappresenta la regione di confidenza ottenuta combinando i due
intervalli cui si è pervenuti attraverso elaborazioni separate e per la quale non si è in
grado di calcolare il livello 1     1  1   1   2  essendo i due intervalli casuali non
indipendenti, mentre la determinazione simultanea, non solo consente di calcolare il
livello di confidenza 1     1  1   1   2  ma individua anche una regione di
confidenza di minore dimensione (quella racchiusa tra i due rami della parabola e le due
linee che definiscono l’intervallo di confidenza per la varianza σ 2 ) anche se non è quella
ottimale.
209
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
2
X-μ 
2
 z 2α 2  σ 2 /n
1
(n  1 )s 2 χ12α2 / 2
s2
(n  1 )s 2 χ α/2 2
x  t1 2 s / n
x
x  t1 2 s / n

Fig. 3.2 – Intervalli simultanei di confidenza per la media e la varianza di una distribuzione
normale
3.3.6 Intervallo di confidenza per la differenza fra medie e tra proporzioni
Partendo da considerazioni analoghe a quelle fatte nelle pagine precedenti, risulta facile
verificare che l’intervallo di confidenza simmetrico per la differenza fra le medie  x e
 y di due distribuzioni normali con varianze note  x2 e  y2 , risulta dall’uguaglianza
P  X  Y   c  x2 / m   y2 / n

 x   y   X  Y   c  x2 / m   y2 / n   1  

dove X e Y sono le medie campionarie, m e n le numerosità dei due campioni casuali
supposti indipendenti. La costante c dovrà essere determinata sulla scorta delle tavole
della distribuzione normale, in corrispondenza del prefissato livello di confidenza 1- .
L’elemento pivotale che ha consentito la derivazione dell’intervallo è:
X  Y    X  Y 
~ N  0,1
 x2

 n2
m
n
Nel caso in cui i due campioni casuali si riferissero a popolazioni normali aventi la
stessa varianza incognita 2 , la formula per l’intervallo simmetrico di confidenza, per la
differenza fra le medie  x e  y è
210
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima

( m  1) S x2  ( n  1) S y2  1 1  

P   X  Y   c
     x   y 
mn2
 m n  
 

( m  1) S x2  ( n  1) S y2  1 1   
  X  Y   c
     1  
mn2
 m n   


dove X e Y sono le due medie campionarie; S x2 e S y2 le due varianze campionarie
(stime corrette di 2); m , n le numerosità dei due campioni. La costante c dovrà
essere determinata in corrispondenza di m + n - 2 gradi di libertà, sulla scorta delle
tavole della distribuzione t di Student, al prefissato livello di confidenza 1- .
L’elemento pivotale che ha consentito la derivazione dell’intervallo è:
X  Y    X  Y 
2

2

m
n
X  Y    X  Y 
 1 1
  
m n
S
  m  1 S x2  n  1 S y2 



2
2


~ tm  n-2
 m  1 S x2   n  1
 m  n  2
dove S 
 m  n  2 
S y2
Analogamente a quanto detto sopra, l’intervallo di confidenza per la differenza fra
proporzioni, qualora i campioni siano numerosi e px , py siano vicini a 0,5, è espresso
dalla formula


P   Pˆx  Pˆy  c
 


Pˆx (1  Pˆx ) Pˆy (1  Pˆy ) 
  px  p y 

m
n




Pˆx (1  Pˆx ) Pˆy (1  Pˆy )  
ˆ
ˆ


 Px  Py  c

  1
m
n




dove, al solito Pˆx e Pˆy sono le due proporzioni campionarie; px e py le proporzioni


incognite delle popolazioni; m e n le numerosità dei due campioni. La costante c dovrà
essere determinata, sulla scorta della distribuzione normale, in corrispondenza del
prefissato livello di confidenza 1- .
Gli intervalli di confidenza per la somma di medie e di proporzioni, relativamente a
situazioni analoghe a quelle sopra esposte, saranno identici a quelli già considerati, a
meno del segno (x + y e px + py anziché x - y e px - py).
211
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
3.3.7 Intervallo di confidenza per la differenza fra medie per dati appaiati
Se X ~ N(x,  x2 ) e Y ~ N(y,  y2 ) sono due v.c. con varianze  x2   y2 incognite e si
vuole costruire un intervallo di confidenza per xy sulla base dell’evidenza
campionaria, l’elemento definito nella sezione precedente non è più pivotale poiché le
due varianze  x2 e  y2 (parametri di disturbo) non sono note. Si può allora pensare di
sostituire alle quantità incognite una loro stima ed ottenere la v.c..
X  Y   x   y 
,
S x2 / m  S y2 / n
dove S x2 e S y2 sono, rispettivamente, le varianze campionarie corrette di X e di Y
utilizzate come stimatori di  x2 e  y2 . Purtroppo, questa v.c., pur non dipendendo da
parametri incogniti, non è elemento pivotale non essendo nota la sua distribuzione.
Infatti, la v.c. di cui si conosce la distribuzione (t di Student con n+m-2 gradi di
libertà) è quella definita dal rapporto tra la v.c. la normale standardizzata relativa alla
differenza tra medie e la radice di un  2 divisa per i propri gradi di liberta relativa alla
combinazione delle varianze:
X  Y   x   y 
 x2 / m   y2 / n
  m  1 S x2  n  1 S y2 



2
 y2 
  x
 m  n  2
Ma in questa espressione le due varianze incognite  x2 e  y2 , che compaiono al
numeratore e al denominatore, non si semplificano.
Per campioni di dimensioni modeste il problema della determinazione dell’intervallo di
confidenza per  x   y in presenza di due varianze  x2 e  y2 diverse ed incognite trova
la sua soluzione ottimale nel caso in cui le due v.c. X e Y non sono indipendenti, anzi,
si presume che la rilevazione dei due caratteri sia stata effettuata sulle stesse unità
statistiche (dati appaiati). In tale situazione si avranno a disposizione n coppie di
osservazioni xi , yi  e si può, pertanto considerare la v.c. V = X – Y che è ancora una
v.c. normale (essendo combinazione
v  E V   E  X   E Y   x   y
e varianza
lineare
di
v.c.
normali)
con
media
 v2  Var V   Var  X   Var Y   Cov  X , Y    x2   y2   xy .
Per la determinazione dell’intervallo di interesse basterà applicare la procedura
illustrata in precedenza quando si è trattato della stima di intervallo per la media di una
v.c. normale con varianza incognita. Da rilevare che per risolvere il problema non
occorre procedere alla stima delle varianze  x2 e  y2 e della covarianza  xy bastando la
stima della varianza della v.c. differenza V = X – Y. L’elemento pivotale è
212
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
X  Y   x   y 
Sv
n
n
1
n 1
~ tn 1 dove Sv 
Vi 2 
i 1
1
n 1
n
 X
i 1
 Yi i .
2
i
Si segnala che trattare con dati appaiati riduce drasticamente il numero dei gradi di
libertà che sono pari a n-1 rispetto ai gradi di libertà che si sarebbero avuti (2n-2) nel
caso di campioni indipendenti.
3.3.8 Intervallo di confidenza per il rapporto di varianze
Se si vuole determinare l’intervallo di confidenza per il rapporto di due varianze
 x2 e  y2 , di popolazioni normali indipendenti con medie x e y incognite, disponendo
di m informazioni campionarie su X ed n su Y, basterà fare riferimento all’elemento
pivotale rappresentato dalla variabile casuale
(m  1) S x2
W

2
x
(n  1) S y2
 y2
m
/(m  1)

/(n  1)
S 


S 
2
x
2
y
2
y
2
x
 X
i 1
n
 X  /(m  1)
2
i
 Y  Y 
i 1
i
2

/(n  1)
 y2
~ Fm 1,n 1
 x2
che ha, nell’universo dei campioni, distribuzione del tipo F di Fisher-Snedecor con m-1 e
n-1 gradi di libertà.
Si può, pertanto, determinare l’intervallo
Pc1  W  c2   1  α
Anche in questo caso se si scelgono valori di c1 e c2 simmetrici
c1  F1α/2 , c2  Fα/2
cioè valori della variabile casuale non simmetrica F che hanno, rispettivamente, l’/2%
dei casi a sinistra e l’/2 % dei casi a destra, si otterrà un intervallo non ottimale.
Sotto le ipotesi introdotte si ha l’intervallo
2


S2 σ y
P F1α/ 2  x2  2  Fα/ 2   1  α


Sy σ x


che è perfettamente equivalente all’intervallo
 S y2

σ y2 S y2
P 2 F1α/ 2  2  2 Fα/ 2   1  α
S

σ x Sx
 x

ed anche
 S2 1
σ 2 S2 1 
P  2x 
 2x  2x 
  1  α.
S F
σ
S
F
y
α/2
y
y
1

α/2


213
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
3.4 - Determinazione della numerosità campionaria
La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la
problematica della scelta della dimensione campionaria.
Nelle pagine precedenti è stato sottolineato che un intervallo di confidenza è
caratterizzato da due elementi fondamentali: il livello di confidenza, che ne misura
l’affidabilità, e l’ampiezza, che ne misura l’informatività. L’obiettivo che si vuol
perseguire è quello della determinazione di un intervallo per il quale siano massime sia
l’affidabilità che l’informatività; purtroppo, come già detto, fra questi due elementi esiste
un legame diretto, nel senso che all’aumentare del livello di confidenza aumenta anche
l’ampiezza dell’intervallo, e che quindi non è possibile, contemporaneamente,
massimizzare il livello di confidenza e minimizzare l’ampiezza.
Pertanto, in presenza di una dimensione campionaria predeterminata, se si vuole
incrementare l’informatività si dovrà rinunciare a qualcosa in termini di affidabilità e
viceversa. Nelle situazioni in cui la dimensione non è prefissata si può, una volta fissato il
livello di confidenza, procedere alla determinazione della dimensione campionaria in
modo da ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza
prefissata.
La procedura da seguire è quella illustrata nelle due esemplificazioni che seguono.
Sia X ~ N(,  2 ) e si supponga, in prima istanza, che  2 sia nota. Si vuol
determinare la dimensione del campione affinché l’ampiezza dell’intervallo di confidenza
per , al livello di confidenza (1 – ), sia pari ad A.
Si supponga di voler procedere alla determinazione di un intervallo di confidenza per
la media di una popolazione normale la cui varianza è nota prefissando sia il livello di
confidenza 1   sia l’ampiezza indicata con A.
L’espressione dell’intervallo di confidenza per il caso in esame è già stata individuata
ed è
P
 X -z
 2
/ n

  
 X z
 2
/ n

  1- 
Avendo prefissato sia il livello di confidenza che l’ampiezza dell’intervallo deve valere
la relazione:

A  X  z 2  / n


 X z
 2

 / n  2 z 2 / n  n  4 z2 2  2 / A
si ricava n come incognita
n = (2 z/A)2,
che, dovendo sempre essere un intero, va arrotondato per eccesso.
La formula fornisce la dimensione campionaria cercata, nel rispetto dei vincoli
prefissati, ma è basata sull’assunto della conoscenza del parametro  2 , circostanza
214
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
questa che si riscontra molto raramente nei contesti operativi; nella generalità dei casi, la
varianza  2 è incognita. In tale contesto, per stabilire la dimensione del campione si
dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o da
un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione ridotta ed il cui
unico scopo è quello di pervenire ad una stima della varianza incognita.
Come seconda esemplificazione si ipotizzi di voler determinare la dimensione
campionaria per un intervallo di confidenza del parametro p relativo ad una v.c. di
Bernoulli, , nel rispetto dei vincoli di confidenza ed informatività prefissati.
Come già visto, se risulta ragionevole l’approssimazione con la distribuzione normale,
l’intervallo di confidenza per il parametro p è:
X
p  1  p 
p  1  p  
X
P   zα 2
 p   zα 2
  1 
n
n
n
 n

dove X rappresenta il numero delle volte in cui l’evento d’interesse si è verificato in n
prove indipendenti.
Avendo prefissato il livello di confidenza ( 1   ) e l’ampiezza A dell’intervallo, deve
essere soddisfatta l’uguaglianza
X
 zα 2
n
da cui deriva
A
p  1  p 
n

X
 zα 2
n
p  1  p 
 2zα 2
n
p  1  p 
n
p  1  p 
.
n A
Relazione che non può essere utilizzata essendo p l’incognita del problema;
problema che può, comunque, essere risolto o seguendo le indicazioni fornite nella
esemplificazione precedente (informazioni pregresse o indagine pilota), oppure, ed è la
procedura usualmente impiegata, ponendo p = (1-p) = 0,5 , valore questo che
massimizza l’espressione, cioè il valore di n. Si tratta di un atteggiamento prudenziale
che comporta, nella generalità dei casi un sovradimensionamento della numerosità
campionaria.
n  4 z2 2
Esempio 3.8
Nell’esempio la numerosità del campione, anziché essere fissata a priori, viene determinata in
funzione del livello di confidenza e dell'ampiezza dell'intervallo (errore ammesso).
Uno sperimentatore, sapendo che lo scostamento quadratico medio del tempo di reazione delle
cavie ad un certo stimolo è pari a 0,05 secondi, vuole determinare il numero minimo di cavie
da sottoporre ad esperimento affinché, nella stima del tempo medio di reazione, l'eventuale
errore non superi 0,01 secondi ai livelli di confidenza del 95% e del 99%.
Al livello del 95% i limiti di confidenza sono
L1  X  1,96 
0,05
n
L2  X  1,96 
,
215
0,05
n
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
3. Stima
dovendo essere soddisfatto il vincolo sull'errore
1,96  0,05 / n  0,01
si avrà
n  96,04
Al livello di confidenza del 99% la disuguaglianza relativa all'errore risulta essere
2,58  0,05 / n  0,01
da cui
n  166,4
Si può quindi concludere che se lo sperimentatore vuole contenere l'errore, nella stima del
tempo medio di reazione, nel limite di 0,01 secondi, dovrà fissare la dimensione del campione
a 97, nel caso in cui sia interessato ad un livello di confidenza del 95%; dovrà invece estendere
l'esperimento a 167 cavie nel caso in cui porti il livello di confidenza al 99%.
216
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
CAP. 4 – TEST delle IPOTESI
Introduzione
In questo capitolo si affronta il problema della verifica d’ipotesi statistiche limitando
sostanzialmente la trattazione alla cosiddetta teoria classica del test delle ipotesi
parametriche e facendo, soprattutto, riferimento a campioni estratti da popolazioni
normali; comunque, la portata generale dei principi enunciati e la logica delle
argomentazioni svolte rimangono immutate anche se si fa riferimento a campioni estratti
da popolazioni non normali.
Argomentazioni diverse devono essere svolte sia nei riguardi dell’impostazione
bayesiana della teoria del test delle ipotesi sia nei riguardi della teoria dei test non
parametrici.
È stato sottolineato in precedenza che la teoria dell'inferenza statistica riguarda
principalmente due specifici argomenti: la stima ed il test delle ipotesi. In entrambi i casi
si tratta di valutare aspetti incogniti, concernenti una determinata popolazione, sulla
scorta delle risultanze campionarie.
Il problema della stima e quello del test delle ipotesi, anche se simili, vanno comunque
tenuti distinti in quanto coinvolgono problematiche diverse. Infatti, come già
sottolineato, nel primo caso l'evidenza campionaria, eventualmente integrata da
conoscenze a priori, viene utilizzata per stimare un'entità incognita relativa ad una certa
popolazione; nel secondo caso, l'evidenza campionaria, eventualmente integrata da
conoscenze a priori, viene utilizzata per verificare statisticamente la validità di una certa
assunzione (ipotesi) concernente una specifica entità incognita.
4.1 - Verifica di ipotesi statistiche
La rilevanza del problema della verifica di ipotesi statistiche è facilmente intuibile se si
pensa che dall'operazione di verifica scaturisce, nella generalità dei casi, l'accettazione o
il rifiuto dell'ipotesi formulata. A conferma di un tale fatto, vanno considerati soprattutto
i problemi di decisione nei quali all'accettazione o al rifiuto di una certa ipotesi è
collegata la scelta di una particolare linea di comportamento.
Definizione 1 (Ipotesi statistica). Un'ipotesi statistica è un'affermazione che specifica
parzialmente o completamente la legge di distribuzione di una variabile
casuale. L'affermazione può riferirsi, sia alla forma funzionale della legge
217
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
di distribuzione sia ai parametri caratteristici, o ai soli parametri
caratteristici quando si assuma nota la forma analitica della distribuzione
stessa.
Se l'ipotesi, usualmente indicata con il simbolo H0 e detta ipotesi nulla o ipotesi di
lavoro, specifica completamente la legge di distribuzione della variabile casuale, si dice
semplice, nel caso opposto l’ipotesi viene detta composita o composta. Inoltre, se
l'ipotesi riguarda i parametri caratteristici di una particolare distribuzione di cui si
conosce la forma analitica si parla di ipotesi parametrica; si dice invece non parametrica
(o più correttamente distribution free), l'ipotesi statistica che non presuppone nota tale
forma. Ovviamente l'ipotesi non parametrica, come generalmente accade, può
riguardare sia la forma analitica della distribuzione sia i parametri che la caratterizzano.
Ad esempio, se si ipotizza che l'altezza degli italiani adulti di sesso maschile si
distribuisce in modo normale con media pari a 1,70 metri e scostamento quadratico
medio pari a 0,28 metri, si sta trattando di un’ipotesi statistica semplice (specifica
completamente la legge di distribuzione del fenomeno) non parametrica (l'ipotesi
riguarda anche la forma della distribuzione). Se invece si dà per acquisito il fatto che
l'altezza degli italiani adulti di sesso maschile si distribuisce normalmente, l'ipotesi
statistica potrà riguardare i soli parametri caratteristici media e varianza (o lo
scostamento quadratico medio ). L'ipotesi sarà semplice, se specifica un preciso
valore numerico per i due parametri, ad esempio: l'altezza media è pari a 1,70 metri; sarà
invece composita se specifica un insieme di valori, ad esempio: l'altezza media degli
italiani adulti di sesso maschile è compresa nell'intervallo (1,68 , 1,72) metri.
Definizione 2 (Test di ipotesi). Un test di ipotesi (statistica) è una regola attraverso la
quale si decide se accettare o meno l'ipotesi formulata sulla base delle
risultanze campionarie. I dati si riferiscono naturalmente alla variabile
casuale sulla cui legge di distribuzione è stata formulata l'ipotesi.
Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di
tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C
in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decide di rifiutare
l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto
campionario cade in C0.
218
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si
dice regione di accettazione lo spazio C0.
C = Spazio o universo dei campioni
C1 = Regione o spazio di rifiuto di H0
(
Regione critica )
C0 = Regione o spazio di
.
accettazione dell’ipotesi H0
Fig. 4.1 - Bipartizione dell'universo dei campioni
È stata introdotta la definizione di un test statistico e non del test statistico, in quanto
si intuisce facilmente come la bipartizione dell'universo dei campioni, e cioè la definizione
della regione critica, possa essere effettuata secondo criteri o regole differenti che non
conducono necessariamente agli stessi risultati. Due differenti test, e cioè due modi
diversi di bipartizione dell'universo dei campioni, possono essere posti a confronto
attraverso un'analisi del processo logico seguito nella loro formulazione, o più
semplicemente, sempre che sia possibile, confrontando le probabilità di commettere degli
errori adottando l'una o l'altra procedura per sottoporre a test una stessa ipotesi.
Nell'accettare o rifiutare, sulla scorta dell'evidenza campionaria, una determinata
ipotesi nulla, si può agire correttamente, e cioè accettare un'ipotesi vera o rifiutare
un'ipotesi falsa, oppure si possono commettere errori aventi diversa natura:
a)
rifiutare un'ipotesi nulla quando essa è vera. Si parla in questo caso di errore di I
specie o di I tipo;
b)
accettare un'ipotesi nulla quando essa è falsa. Si parla in questo caso di errore di II
specie o di II tipo.
Il processo decisionale sopra illustrato può essere schematicamente riassunto nella
tavola che segue.
219
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Stato di
natura
H0 è vera
H0 è falsa
Azioni
Si accetta H0
Si rifiuta H0
Decisione corretta
Si commette un
errore di I tipo
Si commette un
errore di II tipo
Decisione corretta
Tab. 4.1 - Tavola di decisione
Quando H0 è un’ipotesi semplice, la probabilità di commettere un errore di primo
tipo, e cioè la probabilità di rifiutare un’ipotesi quando essa è vera, è indicata
usualmente con .
α  P  X  C1 / H 0 
dove viene detto livello di significatività del test e
X 
 X1 , X 2 ,...., X n 
rappresenta il punto campionario.
La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare
un'ipotesi quando essa è falsa, è indicata con   
β  H1   P  X  C0 / H1 
dove
H1  H0 , che rappresenta la negazione dell’ipotesi
Ho , viene detta ipotesi
alternativa e, nell’ambito della teoria classica o frequentista del test delle ipotesi,
completa il contesto decisionale nel senso che, nella specifica situazione sotto esame, o è
vera l’ipotesi nulla H0 o è vera l’ipotesi alternativa H1;  indica, pertanto, la
probabilità dell’errore di II tipo che dipende, ovviamente, dalla specificazione dell’ipotesi
alternativa H1.
La quantità ( H1 ) = 1 – ß (H1), e cioè la probabilità di rifiutare un'ipotesi quando
essa è falsa, viene detta forza o potenza del test relativamente all'ipotesi alternativa H1.
Al variare di H1 la  ( H1 ) assumerà il carattere di funzione, e viene detta funzione
forza del test. Da rilevare che i termini forza e potenza vengono usati come sinonimi e
traducono il termine inglese power.
Quanto sopra affermato si riferisce al caso d'ipotesi H0 semplice. Nel caso di ipotesi
nulla composita, si può definire il livello di significatività come
α  Sup P  X  C1 / H 0 
H  H0
Così posto il problema, si vede chiaramente come la migliore soluzione sia
rappresentata da un test capace di minimizzare simultaneamente le probabilità di
220
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire
un tale obiettivo, e cioè, non è sempre possibile individuare un test capace di minimizzare
contemporaneamente le due probabilità di commettere errore quando la dimensione del
campione sia stata fissata. Si dovrà quindi operare in modo diverso; infatti, come già
sottolineato, la procedura che si segue generalmente è quella di fissare il livello della
probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di
significatività ) e nell'individuare poi il test che minimizza la probabilità di commettere
un errore di II tipo.
Si potrebbe, più semplicemente, dire che fissato il livello di significatività si
cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che ha il
valore di ( H1 ) più elevato.
4.1.1 Ipotesi semplici
Si è distinto in precedenza le ipotesi sulla forma funzionale della legge di distribuzione
della variabile casuale oggetto d'analisi dalle ipotesi sui parametri caratteristici di tale
legge (supposta nota). Le ipotesi statistiche sono state ulteriormente distinte in semplici e
composite a seconda che le ipotesi stesse specifichino completamente o parzialmente la
legge di distribuzione del fenomeno.
Nel caso in cui l'ipotesi nulla H0 e l'ipotesi alternativa H1 siano entrambe semplici, lo
spazio parametrico Θ , a una o più dimensioni, di definizione dei parametri risulta
formato da due soli punti
Θ = (, )
Le ipotesi sono
H0 :  = 0
H1 :  = 
La costruzione di un test si riduce, in effetti, alla bipartizione dello spazio dei
campioni C in due sottospazi C0 e C1. Per quanto sopra detto, si vede quindi
chiaramente come il miglior test per sottoporre a verifica un'ipotesi H0 sia quello che
individua la migliore regione critica C1, dove per miglior regione critica s’intende,
appunto, quella che, a parità di livello di significatività, presenta la probabilità di
commettere un errore di II tipo più bassa; la regione di accettazione risulterà determinata
di conseguenza. In termini formali si può dire che la migliore regione critica C1 (il
miglior test) di grandezza ( a livello  di significatività) per sottoporre al test l'ipotesi
semplice H0 :  =  contro l'ipotesi alternativa H1 :  =  è quella che soddisfa le
due relazioni
P ( X  C1 /H0 ) = 
P ( X  C1 /H1 )  P ( X  Ci /H1 )
221
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
dove: X 
 X1, X 2 ,...., X n 
'
rappresenta il punto campionario, e
Ci (i = 2, 3,...)
rappresenta ogni possibile regione critica alternativa a C1 tale che P ( X  Ci /H0 ) = 
Un famoso teorema (teorema o lemma fondamentale di Neyman-Pearson) attesta
che esiste, ed è sempre possibile individuare, la migliore regione critica nel caso in cui si
voglia sottoporre a test un'ipotesi statistica semplice contro un'ipotesi alternativa
anch'essa semplice.
Teorema 1 (Neyman-Pearson): Sia X una variabile casuale con funzione di massa o di
densità di probabilità f (x;) e sia x = (x1, x2,...,xn) un campione casuale di
osservazioni su X. Allora la funzione di verosimiglianza del campione sarà
espressa da
L  ; x   L  ; x1 , x2 ,, xn  .
Siano 0 e 1 due valori distinti di , K una costante reale positiva e si
voglia sottoporre a test l'ipotesi H0 :  = 0
contro l'ipotesi alternativa
H1 :  = 1. Se C1 (regione critica) è un sottospazio dello spazio dei
campioni C tale che
L  θ1 ; x 
 K  x  C1
L  θ0 ; x 
e di conseguenza C0 = C – C1 (regione di accettazione) consiste nell'insieme
di punti campionari tali che
L  θ1 ; x 
 K  x  C0
L  θ0 ; x 
dove K viene scelto in modo che la probabilità di commettere un errore di I
specie sia pari a   P  X  C1 / H 0     , allora la regione critica C1
presenta la più bassa probabilità d'errore di II specie, tra le regioni critiche
che hanno livello di significatività pari ad .
Dimostrazione
Siano C1 e C1* due regioni di rifiuto dell’ipotesi nulla H0 per le quali valgono le
relazioni
P  X  C1 / H 0   P  X  C1* / H 0   
si vuol dimostrare che se C1 risulta definito dalle disuguaglianze sopra riportate allora:
P  X  C1 / H1   P  X  C1* / H1 
si vuole dimostrare, cioè, che il test definito dalla regione C1 è più potente di quello
222
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
definito da una qualunque altre regione critica C1* che abbia lo stesso livello di
significatività .
Si consideri la differenza tra le probabilità di non commettere un errore di II tipo
(potenza) relative alle due regioni critiche:


P  X  C1 / H1   P X  C1* / H1  
L 1 , x   
L 1 , x 
C1
C1
ma

 
 C  C   C
 
 C   C
C1  C1  C  C1  C0*  C1*  C1  C0*  C1  C1*
C1*  C1*  C  C1*
0
*
1
1
*
1
0

 C1

quindi

P C   P C
 
 C   P C

C 
P  C1   P C1  C0*  P C1  C1*
*
1
*
1
*
1
0
1
da cui
L 1 , x   

C1 C0*
L 1 , x   
C1 C1*

C1 C0*
C1* C0
L 1 , x   
L 1 , x   
L 1 , x  
C1* C1
L 1 , x 
C1* C0
per le due disuguaglianze riportate nell'enunciato del teorema si ha:
in
C1  L 1 , x   K  L  0 , x 
in
Co  L 1 , x   K  L  0 , x 
pertanto

C1 C0*

L 1 , x   
C1 C0*
C1 C0*
K  L  0 , x   
C1 C1*
  K  L  0 , x   
C1
L 1 , x   
C1* C0
C1*
K  L  0 , x   
C1* C0
K  L  0 , x   
C1* C1
K  L  0 , x  
K  L  0 , x   
C1* C0
K  L  0 , x  
K  L  0 , x   K      0 


 P  X  C1 / H1   P X  C1* / H1  0.
Bisogna tener presente che, dal punto di vista operativo, quando si procede nella
formulazione di un test, lo spazio dei campioni C di riferimento non è lo spazio di
variabilità della n-upla X =  X 1 , X 2 ,…, X n  che costituisce il campione casuale, ma lo
spazio di variabilità di una funzione T (  ) di tali valori che assume, pertanto, la natura
di variabile casuale test; ad esempio, se  = µ , la funzione di compattazione è data dà
1
X = T  X 1 , X 2 ,…, X n  =
n
223
X .
n
i
i=1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Pertanto lo spazio di riferimento della media campionaria X è lo spazio dei campioni
relativo a tale variabile, cioè l'intero asse reale e la sua suddivisione potrà essere del tipo
riportato nella figura che segue:
Fig. 4.2 - Regione critica e regione di accettazione dell'ipotesi H 0
Tre considerazioni vanno fatte in merito al teorema di Neyman-Pearson:
 il teorema resta valido qualunque sia il numero dei parametri (purché finito)
caratteristici della legge di distribuzione delle probabilità della variabile casuale X;
 il teorema non richiede esplicitamente l'indipendenza stocastica delle n
osservazioni costituenti il campione;
 nel teorema sono fissate le condizioni necessarie affinché un test sia il più potente
ma vengono anche indicate le regole per la derivazione della regione critica.
Esempio 4.1
Sia
f

x;   

1
e
2
1
 x   2
2
la funzione di densità di probabilità di una variabile casuale X normale di media    e
varianza  2  1 .
Relativamente alle seguenti ipotesi (entrambe semplici)
H 0 :θ  θ 0
H 1 :θ  θ 1  θ 0
si assuma la disponibilità di un campione casuale x = (x1, x2, ...., xn). In queste condizioni si
può pervenire alla individuazione della migliore regione critica C 1, cioè alla individuazione
del test più potente, facendo ricorso al teorema di Neyman-Pearson.
Le funzioni di verosimiglianza sotto le ipotesi H0 e H1 sono
224
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
L  1; x    f ( xi ; 1 )  (2  )
n
2


e
n

1
( xi  1 )2
2 i1
i 1
n
 f ( x ; )
L  0 ; x  
i
i 1
 (2  )
0

n
2

e
n

1
( xi  0 )2
2 i 1
La migliore regione critica, cioè quella che minimizza la probabilità β H 1  dell'errore di II
tipo una volta fissata la probabilità α dell'errore di I tipo, resta individuata dalla
disuguaglianza
n
 f ( x ; )
L  1; x 

L  0 ; x 
i
i 1
n
1
 f ( x ; )
i
i 1
e
n
n

1
2
2
 ( xi  0 )  ( xi  1 ) 
2  i 1

i 1


K
0
dove K è una costante da determinare in funzione di α.
Prendendo il logaritmo degli ultimi due termini della disuguaglianza si ottiene
n
1 n

2
(x

θ
)

(xi  θ 1 )2   log K


i
0

2  i 1
i 1

moltiplicando per 2 i due termini della disuguaglianza si ha
n
(x  θ
i 1
i
n
)  (xi  θ 1 )2  2 log K
2
0
i 1
essendo
n
n
n
n
i 1
i 1
i 1
i 1
n
n
n
n
i 1
i 1
i 1
i 1
(xi  θ 0 )2   xi2  2θ 0  xi  nθ 02  xi2  2 nθ 0 x  nθ 02
(xi  θ 1 )2   xi2  2θ 1  xi  nθ 12  xi2  2 nθ 1 x  nθ 12
dove
n x  n
n
1 n
x

xi
i 
n i 1
i 1
la relazione di disuguaglianza può essere scritta
2  n  x  θ1 - θ0  + n   θ02 - θ12   2  log K
ed anche, dividendo per la quantità negativa n   0  1  che inverte il segno di
disuguaglianza (si ricordi l'ipotesi 1 < 0)
x 


2  log K- n θ 02  θ 12
 K*
2  n θ 1  θ 0 
Poiché X ha, sotto l'ipotesi nulla H0 :θ  θ 0 , distribuzione normale con media    0 e
varianza 2 = 1/n , sarà facile determinare il valore di K che soddisfa la relazione
225
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi


2  log K - n   θ02 - θ12 
PX 
/H 0  = α


2  n   θ1 - θ0 


In pratica l'operazione si semplifica tenendo presente che il membro di destra della
disuguaglianza è una funzione costante di K , basterà allora individuare il valore K* che
soddisfa la relazione


P X  K * /H 0  α
od anche
 X θ 0

K* θ 0
P 

/H 0   α
1/ n
 1/ n

il che equivale alla relazione
P  Z  c  α
dove Z è una variabile casuale normale standardizzata e c 
K* θ 0
è il punto critico che
1/ n
ha alla sua sinistra (regione critica) l' α dei valori della distribuzione.
4.1.2 Ipotesi composite
Il teorema di Neyman-Pearson consente di derivare la migliore regione critica soltanto
nei casi in cui sia l'ipotesi nulla che quella alternativa sono semplici. Quando H0 o H1, o
entrambe le ipotesi sono composite non esiste un analogo teorema. E' stata comunque
suggerita, sempre dagli stessi autori, una procedura generale per l’individuazione della
regione critica che dà usualmente buoni risultati: il test del rapporto di verosimiglianza.
Si dimostra, infatti, che nei casi in cui esiste la migliore regione critica essa viene
individuata dal test del rapporto di verosimiglianza.
Si dimostra inoltre che se esiste un test uniformemente più potente (test UMP
dall’inglese Uniformly Most Powerful), cioè un test che relativamente ad una data ipotesi
nulla semplice H0 e per un prefissato livello di probabilità dell'errore di I tipo minimizza
la probabilità dell'errore di II tipo, qualunque sia la specificazione della ipotesi alternativa
composita H1 , esso è un test del rapporto di verosimiglianza.
Il test del rapporto di verosimiglianza può essere definito nei seguenti termini:
Definizione 3 (Test del rapporto di verosimiglianza). Si supponga che x = (x1,
x2,...,xn) costituisca un campione casuale di una variabile X la cui
distribuzione di probabilità sia caratterizzata dal parametro incognito ,
e si voglia sottoporre a test una ipotesi nulla contro un'ipotesi alternativa
(una o entrambe composite). Si indichi con L Θˆ il valore massimo
 
0
della funzione di verosimiglianza del campione rispetto al parametro il
226
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
cui campo di variabilità è circoscritto dall'ipotesi H0, e si indichi con
L Θˆ il valore massimo della funzione di verosimiglianza rispetto a ,
 
il cui campo di variabilità riguarda ogni valore specificato dall'ipotesi H0
o H1. Allora la regione critica del test (generalizzato) del rapporto di
verosimiglianza è formata da tutti i punti campionari che soddisfano la
relazione
L Θˆ0
max L θ / θ Θˆ0
 K
per 0  K  1
R=
= θ
L Θˆ
max L θ / θ Θˆ
 
 
θ




dove K è scelto in modo che la probabilità di commettere un errore di I specie sia
uguale ad . Da rilevare che il rapporto sopra indicato non potrà mai superare l'unità; la
costante K sarà quindi sempre inferiore o uguale a 1 e potrà essere determinata sulla
base della distribuzione probabilistica del rapporto stesso in corrispondenza del livello 
di significatività prefissato.
La distribuzione di R non è sempre facilmente derivabile, in ogni caso si dimostra
che, per n abbastanza grande, e se sono soddisfatte certe condizioni generali di
regolarità, la variabile casuale W = - 2 log R, ha una legge di distribuzione approssimata
del tipo  con  gradi di libertà, dove  rappresenta il numero di vincoli di
uguaglianza puntuali sui parametri specificati dall’ipotesi nulla.
Nelle pagine successive verranno discusse alcune procedure per sottoporre a test
ipotesi sui parametri della distribuzione normale. Tutti i test considerati sono test del
rapporto di verosimiglianza, da sottolineare che l'applicazione di tale test al problema
della verifica di ipotesi semplici contro alternative semplici dà luogo a risultati identici a
quelli che si otterrebbero utilizzando il teorema di Neyman-Pearson.
2
4.2 - Test sulla media
Per poter verificare delle ipotesi statistiche si deve avere a disposizione un campione di
osservazioni che consenta di poter concludere sulla ragionevolezza dell'ipotesi (nulla)
formulata; se ciò accade si accetta l'ipotesi stessa (ritenendola ragionevole), altrimenti si
procede al suo rifiuto in favore dell'ipotesi alternativa.
Molti autori ritengono che piuttosto che concludere per l’accettazione dell’ipotesi
nulla si debba parlare più correttamente di non rifiuto dell’ipotesi stessa, la motivazione
di un tale atteggiamento risiede nell’impossibilità di derivare, in molte situazioni di
ricerca, una misura significatività della probabilità di commettere l’errore di II specie.
Si ammetta di poter disporre di un campione di osservazioni x =  x1, x2 , ..., xn 
'
2
estratto da una popolazione normale di media µ e varianza 
risolvere i seguenti problemi di test d'ipotesi:
227
incognite, e di voler
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
a)
H0 : µ = µ0
H1 : µ = µ1 > µ0
b)
H0 : µ = µ0
H1 : µ > µ0
c)
H0 : µ = µ0
H1 : µ < µ0
d)
H0 : µ = µ0
H1 : µ  µ0
Si fissi ora un certo livello di significatività , cioè la misura della probabilità d'errore
di I specie che si è disposti a sopportare. L'ipotesi riguarda la media di una distribuzione
normale, si sceglie quindi come funzione degli elementi del campione (variabile casuale
test) la media campionaria:
1 n
X  T  X 1 , X 2 ,...., X n    X i
n i 1
Lo spazio di variabilità della variabile casuale campionaria X è l'intero asse reale. La
procedura di test consisterà quindi nella suddivisione dell'asse reale in due regioni in
modo tale che la probabilità d'errore di I specie sia pari a , cioè in modo che
P  X  C1 / H 0   α
dove C1 rappresenta la regione critica.
Si è visto in precedenza che la variabile casuale campionaria
X- μ
T 
S/ n
ha una legge di distribuzione del tipo t di Student con n-1 gradi di libertà. Avrà quindi la
distribuzione t, con n-1 gradi di libertà anche la variabile casuale
X- μ 0
T 
S/ n
Caso a)
H0 : µ = µ0
H1 : µ = µ1 > µ0
L'asse reale viene diviso nei due intervalli (- , c) , (c ,+). Il primo degli intervalli
specifica la zona di accettazione, il secondo la zona critica. Il valore numerico di c ,
valore critico del test, si ottiene dalla relazione
P ( T > c / µ = µ0 ) = 
caso b)
H0 : µ = µ0
H1 : µ > µ0
In questo caso l'ipotesi alternativa è composita, la procedura di test uniformemente
più potente (cioè quella che minimizza la probabilità d'errore di II specie contro ogni
228
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
specificazione delle ipotesi alternative H1) è esattamente identica a quella indicata nel
caso precedente.
caso c)
H0 : µ = µ0
H1 : µ < µ0
L'ipotesi alternativa anche in questo caso è composita ma con segno di
disuguaglianza, relativamente all'ipotesi alternativa, invertito rispetto al caso precedente.
Si dovrà sempre suddividere l'asse reale nei due intervalli (- , - c) ,(- c , +) ma la
regione critica è data dall'intervallo (- , - c). Il valore critico si ottiene dalla relazione
P ( T < - c / µ = 0 ) = 
Da sottolineare che nelle due situazioni sopra descritte si applica il test del rapporto di
verosimiglianza che individua la migliore regione critica; individua cioè, il test
uniformemente più potente; a sostegno di una tale affermazione è sufficiente ipotizzare
un’applicazione reiterata del teorema di Neyman-Pearson in corrispondenza a ciascuna
specifica dell’ipotesi alternativa: la regione critica individuata è sempre la stessa, ed è
quella che minimizza la probabilità dell’errore di II tipo, ovviamente, tale probabilità
varierà al variare della specifica dell’ipotesi alternativa.
caso d)
H0 : µ = µ0
H1 : µ  µ0
Nei due casi precedenti sono state considerate ipotesi alternative composite
unidirezionali, in questo caso l’ipotesi alternativa composita è bidirezionale. In tale
contesto l'asse reale viene suddiviso in tre parti (- , c1) , (c1 , c2) , (c2 , +) ,
l'intervallo (c1 , c2) costituirà la zona di accettazione, mentre i due intervalli (- , c1) e
(c2 , +) costituiscono insieme la zona di rifiuto. Poiché la distribuzione t è simmetrica,
si scelgono usualmente i valori di c1, c2 equidistanti dallo 0, cioè c2 = c e c1 =- c . Il
valore critico c > 0 si otterrà allora dalla relazione
P ( T < -c / µ = µ0 ) = P ( T  c / µ = µ0 ) =/2.
Evidentemente la procedura indicata non fornisce un test uniformemente più potente;
infatti, se il vero valore di µ fosse superiore a µ0, il test più potente sarebbe quello
indicato nel caso a); se invece il vero valore di µ fosse inferiore a µ0 il test più potente
sarebbe quello indicato nel caso c). Non avendo maggiori informazioni sulle alternative,
relativamente all'ipotesi H1: µ  µ0, si preferisce attribuire alle due possibilità µ > µ0 e
µ < µ0 uguale peso. Da rilevare che il test così ottenuto risulta quello uniformemente
più potente nella classe ristretta dei cosiddetti test corretti o non distorti (test UMPU
dall’inglese Uniformly Most Powerful Unbiased).
Definizione 4 (Correttezza di un test). Un test si dice corretto o non distorto se
soddisfa il vincolo     , cioè, se la probabilità di non commettere
229
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
un errore di II tipo è sempre maggiore od uguale alla probabilità di
commettere un errore di I tipo.
Nei quattro casi sopra esaminati si rifiuta l'ipotesi H0 se la specifica determinazione
della variabile casuale T cade nella zona critica (zona di rifiuto), si accetta altrimenti.
Esempio 4.2
Si supponga di voler risolvere il seguente problema di test d'ipotesi
H0 :  = 30
H1 :  < 30
al livello di significatività = 0,01, disponendo delle informazioni sulla media campionaria
x = 26 e sulla varianza campionaria corretta s2 = 36 relative ad un campione di 25
elementi estratti da una popolazione normale.
Non essendo nota la varianza della popolazione, la regione critica o regione di rifiuto
dell'ipotesi nulla H0 :  = 30 si individua facendo riferimento alla variabile casuale t di
Student con 25-1 gradi di libertà
t
dove S x  S /
X 
Sx
n . Tenendo presente l'ipotesi alternativa H1 :  < 30 la regione critica resta
quindi individuata dal punto critico - c  - t  - t0,01  - 2,492 che rappresenta la specifica
determinazione della variabile casuale t di Student che ha alla sua sinistra l'1% dei casi.
Poiché il valore campionario è
t
x -
x -
26 - 30


 - 3,33
sx
s / n 6 / 25
si rifiuta l'ipotesi nulla H0 :  = 30, al livello di significatività dell'1%.
Esempio 4.3
Dati i seguenti otto valori campionari 31, 29, 26, 33, 40, 28, 30 e 25 estratti da una
popolazione normale si vuole sottoporre a test l'ipotesi che la media sia pari a 35 contro
l'ipotesi alternativa che non lo sia, al livello di significatività  = 0,01.
Il problema di test d'ipotesi da risolvere è
H0 :μ  35
H0 :μ  35
Essendo la varianza della popolazione una incognita del problema (parametro di disturbo) si
dovrà procedere ad una sua stima utilizzando i dati campionari
S2 
1 n
(xi  x )2

n 1 i 1
essendo
230
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
x
1 n
1 8
x

xi  30,25
 i 8
n i 1
i 1
s2 
1 8
(xi  30,25)2  22,21
7 i 1
s  s 2  4,71
La determinazione della variabile casuale test che in questo caso, essendo incognita la
varianza, è la t di Student, è pari a
t
xμ
x- μ
30,25 - 35


 - 2,85
sx
s / n 4,71 / 8
Essendo  = 0,01 i valori critici della variabile t, con (8-1) =7 gradi di libertà che
c1  - tα/ 2  - 3,499 e c2  tα/ 2  3,499 . Il valore
definiscono la regione critica sono
campionario -2,85 è contenuto nell'intervallo (-3,499 , 3,499), pertanto si accetta l'ipotesi
nulla  = 35 attribuendo la differenza riscontrata rispetto al valore campionario x  30,25
a fattori di carattere accidentale.
Esempio 4.4
Per giustificare la loro richiesta di aumento di stipendio, gli impiegati di una ditta di vendita
per corrispondenza affermano di riuscire ad evadere, mediamente, un ordine di acquisto ogni
13 minuti. Il direttore generale della ditta ha effettuato una verifica casuale sui tempi di
evasione di 400 ordini registrando un tempo medio di evasione di 14 minuti e una variabilità,
misurata in termini di varianza corretta, di 100 minuti. Cosa si può concludere riguardo alle
richieste degli impiegati se si fissa una probabilità di errore di I tipo (livello di significatività)
del 5%?
Si deve sostanzialmente verificare se la media rilevata nel campione è più elevata, al livello di
significatività del 5%, di quella dichiarata dagli impiegati. Ovviamente, dato che in questo
particolare problema è auspicabile che il tempo di evasione di un ordine sia basso, il direttore
acconsentirà all’aumento di stipendio solo se il tempo di evasione riscontrato nell’azienda non
sia più alto rispetto a quello dichiarato dagli impiegati.
Il problema di verifica d'ipotesi è quindi formalizzato nei termini seguenti
H 0 : μ  13
H 1 :   13
La variabile casuale test di riferimento
t
X μ
X- μ

Sx
S/ n
ha, nell'universo dei campioni, distribuzione del tipo t di Student con n-1 gradi di libertà.
Conviene sottolineare che, in questo specifico esempio, essendo la dimensione campionaria
elevata (n = 400) si può fare riferimento alla distribuzione normale quale approssimazione
della distribuzione t di student che fornisce un valore critico (test unidirezionale ), per  =
231
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
0,05, pari a 1,65. La regola di decisione è quella di rifiutare l'ipotesi H 0 se il valore assunto
(valore empirico) dalla v.c. test nello specifico campione è  1,65, di accettare se il valore
empirico è < 1,65.
Poiché x  14 e s x  s /
n  10 / 400 si ha
xμ
14 - 13

 2  1,65
sx
10 / 400
si rifiuta l'ipotesi
H0 concludendo che tempo medio richiesto per evadere un ordine è
superiore ai 13 minuti dichiarati dagli impiegati.
Esempio 4.5
Si supponga di disporre di un campione di 10 elementi rispetto al quale siano stati ottenuti i
10
valori x = 50,
(x  x)
2
i 1
i
 99 e di dover risolvere il seguente problema di test d'ipotesi
H : µ = 47
0
H1 : µ  47
ipotizzando la normalità della distribuzione della variabile di interesse.
Non essendo nota la varianza della popolazione e relativamente ridotta la dimensione del
campione non si può fare ricorso all'approssimazione normale, la variabile casuale test da
utilizzare è, pertanto, la variabile casuale t di Student.
X- μ
S/ n
T 
dove
n
 (x  x)
2
S
i
11
n 1
quindi
10
2
S x2 =
S
=
n
(x - x)
2
i
i=1
9×10
=
La determinazione assunta dalla variabile casuale
Ho :  = 47 risulta essere
t
99
= 1,1
90
t
di Student sotto l'ipotesi nulla
x   50  47
= 2,8604

Sx
1,0488
Per (n – 1) = 9 gradi di libertà ed  = 0,01 i valori critici che delimitano la regione di
accettazione sono  tα/
2
 - 3,25 e. tα / 2  3,25 . Essendo 2,8604 < 3,25 si accetta l'ipotesi
nulla Ho :  = 47.
232
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se si sceglie il livello di significatività  = 0,05, i valori critici sono -t/2 = - 2,262 e t/2
=2,262; essendo 2,8604 > 2,262 l 'ipotesi nulla Ho :  = 47 dovrà essere rifiutata.
Esempio 4.6
Si supponga di aver somministrato ad un gruppo di 12 cavie una particolare dieta dalla
nascita fino all'età di 3 mesi e di aver riscontrato i seguenti incrementi di peso: 55, 62, 54, 57,
65, 64, 60, 63, 58, 67, 63 e 61 grammi. Sapendo che le cavie del tipo considerato, quando non
sono sottoposte a diete speciali, mostrano un incremento medio di peso (nei primi tre mesi di
vita) pari a 65 grammi, ci si domanda se le risultanze campionarie siano tali da poter
attribuire alla dieta la differenza riscontrata nell'incremento medio di peso pari a 60,75; si
vuole sapere cioè se la differenza d = (60,75 – 65) debba essere attribuita alla dieta o se non
debba invece essere attribuita a fattori aventi carattere puramente accidentale. Una possibile
risposta al quesito si può ottenere applicando la procedura di test sopra illustrata; la
procedura può essere riassunta come segue:
1. si fissa il livello di significatività, ad esempio  = 0,05;
2. si specificano le due ipotesi
H0 : µ = 65
H1 : µ  65
L'ipotesi alternativa è di tipo bidirezionale in quanto si può ritenere, almeno per il momento,
che un qualsiasi incremento medio di peso maggiore o minore di 65 grammi possa essere
attribuito all'effetto della dieta;
3. si individua la variabile casuale test
T 
X- 65
S / 12
che, per quanto detto, è del tipo t di Student con 12 - 1 = 11 gradi di libertà. Tale variabile
descrive l'andamento dei risultati campionari (sintetizzati nella formula sopra scritta) sotto
l'ipotesi nulla H0; cioè a condizione che la dieta non abbia effetto e che quindi le differenze tra
X e 65 siano da attribuire esclusivamente a fattori accidentali;
4.
si determina il valore critico c che soddisfa la relazione
P ( -c  T  c) = 0,95
Dalle tavole della distribuzione t di Student, in corrispondenza di 11 gradi di libertà, risulta c
= 2,20;
5. si pone a confronto il valore t (la specifica determinazione della variabile casuale T)
calcolato sui dati campionari
t =
60,75 - 65
= -3.64
16,38 / 12
con il valore critico determinato al punto precedente.
Essendo
t = -3,64 < -2,20 = -c
si rifiuta l'ipotesi nulla H0 : µ = 65, al livello di significatività  = 0,05, si rifiuta cioè
l'ipotesi che la differenza d = 60,75 - 65 sia da attribuire al caso.
233
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Qualora si ritenga, a priori, che la dieta debba provocare un incremento medio di peso
inferiore a 65 grammi, la procedura di test da adottare sarà quella di tipo unidirezionale. In
tal caso si dovrà porre
H0 : µ = 65
H1 : µ < 65
si determina poi, in funzione della variabile test
T 
X- 65
S / 12
il valore critico c che soddisfa la relazione
P (T  -c) = 0,05
Dalle tavole della distribuzione t di Student risulta c = 1,80. Essendo
t = -3,64 < -1,80 = -c
si rifiuta l'ipotesi H0 : µ = 65.
Le due procedure di test adottate, bidirezionale e unidirezionale, portano entrambe alla stessa
conclusione: rifiuto dell'ipotesi nulla. A tale proposito va però sottolineato che se la t
campionaria avesse assunto un valore compreso nell'intervallo (-2,20 , -1,80) l'applicazione
della procedura di test bidirezionale, a livello  = 0,05 di significatività, avrebbe comportato
un'accettazione dell'ipotesi nulla mentre, allo stesso livello di significatività, l'applicazione
della procedura di test unidirezionale avrebbe comportato un suo rifiuto.
I test sopra illustrati sono, per l’ipotesi alternativa unidirezionale e per l’ipotesi bidirezionale,
rispettivamente, il test uniformemente più potente ed il test uniformemente più potente nella
classe dei test corretti.
4.2.1 p-value
Dalle considerazioni svolte, risulta evidente il ruolo fondamentale giocato dal livello di
significatività del test. Stante l'arbitrarietà nella fissazione del livello , cioè della
probabilità massima di errore di I specie che si è disposti a sopportare, spesso il
ricercatore preferisce discutere di livello di significatività soltanto a posteriori. Nel caso
specifico dell'esempio 4.6, si sarebbe detto che il risultato campionario t = - 3,64 è
significativo, nel caso di test bidirezionale, al livello dello 0,8%; volendo esprimere con
tale affermazione il fatto che l'area sottesa alla curva descritta dalla funzione di densità di
probabilità della distribuzione t di Student corrispondente alla regione critica, definita
dagli intervalli (- , -3,64), (3,64 , + ) è pari a 0,008. Tale valore viene usualmente
detto P-value.
Definizione 5 (P-value). In corrispondenza di una particolare determinazione t0 assunta
da una qualunque variabile casuale test T  X 1, X 2 , ..., X n  si dice Pvalue la probabilità dei valori che superano, in valore assoluto e nella
direzione estrema, il valore osservato.
234
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Questa definizione viene usualmente accettata quando T    è una statistica usata
per sottoporre a test l’ipotesi nulla
H 0 :   0
contro un’ipotesi alternativa
unidirezionale quando i valori estremi da considerare si collocano o nella coda di destra
della distribuzione ( H 1 : θ  θ 0 ) o nella coda sinistra della distribuzione ( H 1 : θ  θ 0 ).
Molto più problematica è la situazione nel caso di ipotesi bidirezionale H 1 : θ  θ 0 , in
questo caso i valori estremi da considerare sono sia quelli della coda di destra sia quelli
della coda di sinistra, a ragione di ciò, alcuni autori sostengono che in tali circostanze il
valore del P-value debba essere raddoppiato; nell’esempio sopra considerato, se
l’ipotesi alternativa fosse stata H1 : µ  65 , il P-value sarebbe stato pari a 0,16 = 0,08
+ 0,08.
Nel caso in cui la variabile casuale test abbia distribuzione discreta si pone il problema
di includere o meno nel P-value la probabilità corrispondente al valore osservato.
Usualmente tale probabilità viene inclusa per intero, così da ottenere un test
conservativo, cioè con un livello di significatività effettivo non superiore a quello
nominale.
Si richiama l’attenzione sul fatto che il ricorso al P-value è criticato da molti autori a
ragione, sia del fatto sopra considerato relativo all’attribuzione di un valore numerico al
P-value , essendo il valore stesso interpretabile come evidenza empirica contro l’ipotesi
nulla ( P = 0,08 è sicuramente un’evidenza empirica contro l’ipotesi nulla H0 : µ = 65
più forte di quanto non lo sia P = 0,16 ), sia perché può accadere che ad uno stesso
valore di P possono corrispondere realtà molto diverse.
Se si presuppone, ad esempio, di voler risolvere il problema di test H0 : µ = 65
contro l’ipotesi alternativa H0 : µ  65 avendo a disposizione un campione di
dimensione n estratto da una popolazione normale con varianza nota σ 2  1 , sotto
X  65
l’ipotesi nulla la variabile casuale test Z x 
si distribuisce come una normale
1/ n
standardizzata. In tale situazione, per n = 4 , x = 66 la determinazione della variabile
casuale test è z = 2, cui corrisponde un P-value pari a 0,0228, allo stesso valore di P
si perviene per n = 400 e x = 65,1. Ovviamente, le due situazioni sono decisamente
diverse anche se la misura dell’evidenza empirica, in termini di P-value, è la stessa; ma
questo è un problema che riguarda tutta l’impostazione classica della teoria del test
dell’ipotesi e che trova una sua soddisfacente soluzione solo nell’ambito
dell’impostazione bayesiana dell’inferenza statistica.
I problemi di test delle ipotesi fino ad ora considerati facevano riferimento ad una
variabile casuale normale con varianza incognita. Qualora la varianza fosse nota, per
risolvere i quattro problemi di test indicati, si dovrebbe operare in modo analogo facendo
però riferimento alla distribuzione normale anziché alla distribuzione t di Student.
235
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Esempio 4.7
Una fabbrica di lampadine afferma che i propri prodotti hanno una durata media di 1.000 ore;
come acquirente si vuole verificare tale affermazione. Sottoponendo a prova un campione
casuale di 100 lampadine si riscontra una durata media di 970 ore.
Poiché è nota la variabilità (misurata dalla varianza) nella durata che risulta essere  =
1.600, cosa si può concludere riguardo all'affermazione ad un livello di significatività del
5%?
Il problema di verifica d'ipotesi da risolvere è
H0 :  = 1.000
H1 :   1.000
Essendo nota la varianza ed ipotizzando la normalità della distribuzione d’origine, la variabile
casuale test di riferimento è
Zx 
X- μ
σ / n
che, nell'universo dei campioni ha distribuzione normale standardizzata. I valori critici per
una probabilità di errore di I tipo, prefissata al livello  = 0,05, sono
 zα/ 2  - 1,96 e zα / 2  1,96
che individuano le zone di accettazione di H0 nell'intervallo (-1,96 , 1,96) mentre la regione
di rifiuto è rappresentata dai semintervalli (- , -1,96) e (1,96 , +).
Poiché la determinazione della variabile casuale test (valore empirico), pari a
970  1.000
 -7,5 , ricade nell'intervallo ( - , -1,96) (regione critica) si rifiuta l'ipotesi
40 / 100
H0 concludendo che la durata media delle lampadine è inferiore a 1.000 ore.
Esempio 4.8
Un'impresa afferma che le batterie prodotte hanno una durata media di 22 ore e che la loro
variabilità, misurata attraverso lo scostamento quadratico medio, è pari a 3 ore. Nove batterie
vengono sottoposte a prova e si accerta una durata media di 20 ore.
Ipotizzando per la popolazione una variabilità pari a quella dichiarata dalla casa produttrice e
la normalità della distribuzione, si vuol verificare la validità dell'affermazione fatta
dall'impresa.
2
Poiché la durata delle batterie si distribuisce normalmente e la varianza è nota ( = 9), la
media campionaria X si distribuirà, nell'universo dei campioni, normalmente con varianza
σ x2 
σ2
9

1
n
9
La formulazione delle due ipotesi (nulla e alternativa) è
H0: µ = µ0 = 22
H1 : µ  µ0
pertanto, fissato il livello di significatività  = 0,05, la regione di accettazione dell'ipotesi
236
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
nulla
risulta
individuata
dall'intervallo
(-z
,
z
cioè
dall'intervallo
(-1,96 , 1,96). Essendo
z 
x- μ 0
20 - 22

 -2
1
σ / n
pari ad un valore inferiore al valore –1,96 che delimita la regione di accettazione, l'ipotesi
nulla H0 : µ = 22 viene rifiutata, concludendo che la durata media delle batterie in questione
è inferiore alle 22 ore.
Se la varianza della popolazione non fosse nota ed il valore 9 corrispondesse alla stima
campionaria corretta di tale entità incognita, la variabile casuale test di riferimento sarebbe la
t di student con 8 (= 9-1) gradi di libertà. In questo caso, al livello di significatività
i punti critici risulterebbero pari a -2,306 e 2,306, ed essendo il valore campionario assunto
dalla variabile casuale t (= -2) contenuto nell'intervallo -2,306 — 2,306 si dovrebbe
accettare l'ipotesi nulla attribuendo alla differenza riscontrata (tra valore ipotizzato e valore
registrato per il campione) natura accidentale. Da sottolineare che nella situazione prospettata
la mancanza di informazioni (varianza della popolazione incognita) porta a concludere in
maniera opposta pur avendo la stessa evidenza campionaria: rifiuto di H0 nel caso di varianza
nota, accettazione di H0 nel caso di varianza incognita; la maggiore variabilità dei risultati
campionari fa “perdere” di “significatività statistica” all’evidenza empirica.
4.2.2 Potenza di un test
Si esaminerà ora in modo dettagliato il problema di test di ipotesi relative alla media di
una popolazione normale di varianza nota. Questo caso, pure se meno interessante del
precedente da un punto di vista operativo in quanto la varianza è generalmente una
quantità incognita, consente, da un lato di meglio precisare i concetti già esposti in
merito alla procedura di test da utilizzare, dall'altro un maggiore approfondimento degli
aspetti connessi alla determinazione della probabilità di commettere un errore di II tipo
o anche alla probabilità di non commettere un errore di II tipo (potenza di un test).
Si ammetta dunque di poter disporre di un campione di osservazioni
x   x1 ,x2 ,....,nn  relative ad una popolazione normale di media incognita µ e varianza
nota σ 2 , e di voler sottoporre a test le seguenti ipotesi:
a)
H0 : µ = µ0
H1 : µ = 0 > µ0
b)
c)
d)
H0 : µ = µ0
H1 : µ > µ0
H0 : µ = µ0
H1 : µ < µ0
H0 : µ = µ0
H1 : µ  µ0
237
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se l'ipotesi nulla H0 è vera, la media campionaria
1 n
X   Xi
n i 1
2
si distribuisce, nell'universo dei campioni, normalmente con media 0 e varianza  /n.
Per l'individuazione della migliore regione critica (quando esiste) si può procedere alla
standardizzazione della variabile casuale X
X- μ 0
σ / n
e riferirsi alle tavole della distribuzione normale standardizzata utilizzando una procedura
del tutto analoga a quella illustrata a proposito della distribuzione t di Student. Ad
esempio per  = 0,05, i valori critici di riferimento per le quattro possibili ipotesi
alternative considerate sono:
a) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64;
Zx 
b) c = 1,64, si rifiuta l'ipotesi nulla H0 se Z x > 1,64;
c)
c = -1,64, si rifiuta l'ipotesi nulla H0 se Z x < -1,64;
d) c1 = -1,96 e c2 = 1,96, si rifiuta l'ipotesi H0 se Z x < -1,96 oppure Z x > 1,96.
Nei quattro casi sopra considerati, sono stati individuati i valori critici facendo
riferimento alla distribuzione normale standardizzata. Risulta subito evidente come sia
possibile riferirsi direttamente alla variabile casuale X anziché alla sua standardizzata.
Infatti, dall'uguaglianza


 X- μ 0

P Z x  1,64  P 
 1,64   P X  μ 0  1,64  σ/ n  0,05
σ / n

risulta immediatamente il valore critico del test per il primo (e secondo) caso


considerato, in riferimento alla variabile casuale test X anziché Z x . Nella Fig. 4.3 si
evidenziano graficamente, per tutti e quattro i casi di ipotesi alternativa considerati, la
regione critica e quella di accettazione in riferimento alla variabile casuale test X ed al
livello di significatività  = 0,05:
Nel primo grafico della Fig. 4.3 (quello relativo al caso a) dove entrambe le
ipotesi formulate sono semplici) è stata evidenziata graficamente oltre alla
regione di rifiuto dell'ipotesi H0 anche l'area corrispondente alla probabilità
= 0,05 dell'errore di I tipo e l'area corrispondente alla probabilità   H1  di
commettere un errore di II tipo. La potenza o forza del test  = 1 – ß ( H1 ),
cioè la probabilità di non commettere un errore di II tipo, risulta graficamente
espressa dall'area sottesa alla curva di destra relativa all'intervallo (c ,+).
Dalla Fig. 4.3 e da quanto detto a proposito degli intervalli di confidenza si desume
238
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
che la potenza di un test resta influenzata:
a) dal livello di significatività  prescelto;
b) dalla specificazione dell'ipotesi alternativa;
c) dalla numerosità del campione.
L'immediata considerazione da fare in merito alla relazione che lega la forza di un test
al livello di significatività è che un test è tanto più potente quanto più è elevata la
probabilità dell'errore di I tipo. Infatti, se si osserva la Fig. 4.4 si vede chiaramente come
l'incremento del livello  (probabilità dell'errore di I tipo), comportando un allargamento
dell'intervallo di rifiuto (regione critica), determini una riduzione della probabilità
dell'errore di II tipo e di conseguenza un aumento della potenza del test.
239
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.3 - Distribuzione campionaria e regione critica relative a quattro diverse specificazioni
dell'ipotesi alternativa H1 rispetto all'ipotesi nulla H0 : µ = µ0
240
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.4 - Relazione tra potenza di un test e livello di significatività
Si consideri ora il caso in cui si voglia sottoporre a test l'ipotesi nulla H0 : µ = µ0,
contro l'ipotesi alternativa:
a)
H1 :   0  0
b)
H1 :   0  0
c)
H1 :   0  0
al livello  di significatività.
I tre problemi di test sono illustrati graficamente nella Fig. 4.5. Osservando le curve
tracciate si vede chiaramente come la potenza del test cresca all'aumentare dello scarto
tra il valore di µ specificato dall'ipotesi nulla ed il valore di µ specificato nell'ipotesi
alternativa. Nella Fig. 4.6 si riporta il grafico della funzione forza del test in relazione a
tutte le possibili specificazioni delle ipotesi alternative composite unidirezionali
H1 : µ < µ0 e H1 : µ > µ0 e l'ipotesi alternativa composita bidirezionale H1 : µ  µ0
241
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.5 - Relazione tra potenza del test e specificazione dell'ipotesi alternativa
242
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.6 - Grafico della funzione forza del test relativo all'ipotesi nulla H0 : contro tre
diverse specificazioni dell'ipotesi alternativa composita H1
L'espressione analitica che consente di determinare il valore numerico assunto dal
punto critico relativo alla variabile casuale test X , quando si vuole sottoporre a test
un'ipotesi nulla del tipo H0: µ = µ0 contro un'ipotesi alternativa del tipo H1: µ > µ0 è
data dall'uguaglianza
c = µ0 + z /n
dove z è la determinazione numerica della variabile casuale normale standardizzata che
soddisfa la relazione P (Z > z) = . Evidentemente la relazione sopra scritta si riferisce
ad un campione di osservazioni di dimensione n estratto da una popolazione normale di
varianza nota .
Osservando la relazione si rileva come l'entità c (valore critico) sia una funzione
decrescente di n. Ciò sta a significare che ad un aumento della dimensione campionaria
corrisponde una diminuzione nel valore numerico di c, il che comporta un ampliamento
dell'intervallo che delimita la regione critica con un conseguente aumento della forza del
test.
A titolo esemplificativo si riporta il grafico della funzione forza del test in riferimento
a due diverse dimensioni campionarie n ed m (n > m)
243
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Fig. 4.7 - Grafico della funzione forza del test relativo a due diverse dimensioni campionarie
Un'ultima considerazione da fare in merito alla potenza o forza di un test statistico
riguarda la varianza campionaria σ c2 della variabile casuale test . Dalle formule sopra
scritte risulta che il valore critico c è legato funzionalmente ed in senso positivo a  2
( c2   x2   2 / n) , ciò sta a significare che a più bassi valori di  2 , corrispondono più
bassi valori di c e quindi più ampie regioni critiche. Sarà pertanto possibile, operando su
 2 ottenere un incremento nella potenza di un test senza dover necessariamente
procedere ad un aumento della dimensione campionaria o della probabilità dell'errore di I
tipo.
Questa affermazione ha naturalmente significato soltanto nei casi in cui sia
effettivamente possibile operare su  2 , ad esempio, attraverso un’opportuna
pianificazione della rilevazione campionaria o del disegno degli esperimenti. Il caso più
semplice e più significativo è quello relativo alle modalità di estrazione delle unità
campionarie quando si considera la media campionaria X quale variabile casuale test;
infatti, come già sottolineato, se si procede all’estrazione da una popolazione finita
rimettendo ogni volta l’unità estratta nella popolazione (campionamento con ripetizione)
σ2
si ha σ 
, se invece si effettua l’estrazione in modo esaustivo (estrazione senza
n
2
x
ripetizione) si ha  x2 
2 N n

2
, dove N è la dimensione della popolazione e
n N 1 n
n è la dimensione del campione. Ovviamente, questa osservazione non riguarda
l’esempio sopra riportato che fa riferimento alla distribuzione normale dove la
dimensione N è infinita.
Relativamente alla varianza σ c2 della variabile casuale test, si deve sottolineare che
nella generalità dei casi tale varianza dipende dalla variabilità del fenomeno oggetto di
studio, cioè, dalla varianza σ 2 della popolazione che, come più volte sottolineato,
244
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
è un’entità usualmente incognita (parametro di disturbo). Si dovrà, pertanto,
procedere ad una stima di tale entità il che porta alla determinazione di una
2
2
stima σˆ c di σ c ; la radice positiva di tale quantità σ̂ c , come già sottolineato,
viene usualmente detta errore standard.
Esempio 4.9
Si consideri la variabile casuale continua X definita nel semiasse reale positivo esteso
(X : 0  x  + ) con funzione di densità di probabilità (distribuzione esponenziale negativa)
f

x;   
1
e


x

e si supponga di voler risolvere il seguente problema di test d'ipotesi
H0 :  = 2
H1 :  > 2
Supponendo, inoltre, la disponibilità di un campione di due elementi (n = 2) e definendo la
regione critica attraverso la disuguaglianza X1 + X2  9,5 si può derivare l'espressione
analitica della funzione forza del test  (H1) determinandone il valore per H1:  = 4.
Come più volte sottolineato, la funzione forza del test rappresenta la probabilità di non
commettere un errore di II tipo, cioè la probabilità di rifiutare l'ipotesi H0 quando l'ipotesi
stessa è falsa.
  H1   P  X  C1 / H1   1- P  X  C0 / H1 
Se si esplicita l'ipotesi alternativa nel modo seguente
H 1 :θ  θ 1  4
e si tiene conto della regola di decisione prescelta (accettare l'ipotesi H 0 quando
X1 + X2 < 9,5), e del fatto che le due variabili casuali campionarie X1 e X 2 sono
indipendenti, si avrà:
 
9,5
P ( X 1 + X 2 < 9,5/H 1 )=
0
f ( x1 ;θ1 )dx1 dx2 = 1-
 
9,5
0
 (θ1 )= 1- β(θ1 )= 1- 
9,5
0

9,5×x2
0
9,5×-x2
0
9,5×-x2
f ( x1 ;θ1 ) dx1 dx2
0
1
e
θ12
 x1 +x2 

θ1 
1 - 
e
θ12
x1 +x2
θ1
θ +9,5 dx1 dx2 = 1
e
θ1
Per 1 = 4 si ha
4+9,5 - 9,54
γ(4)=
e = 0,31 .
4
Si è più volte affermato che la variabile casuale
245
dx1 dx2
9,5
θ1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
X- μ
S/ n
ha una legge di distribuzione t di Student quando la popolazione che genera il campione
è di tipo normale. Non sempre però, nella ricerca applicata, risulta soddisfatta la
condizione di normalità; ci si deve allora chiedere che cosa succede alla legge di
distribuzione della variabile T definita dalla formula quando una tale condizione non
sussiste. L'osservazione da fare è che la variabile T si dimostra particolarmente sensibile
alle variazioni nella legge di distribuzione della popolazione che genera il campione.
Le considerazioni sopra svolte impongono una certa cautela nell’utilizzazione della
distribuzione t di Student, nel senso che si può fare ricorso ad una tale distribuzione
solo quando si è sufficientemente convinti della normalità, o approssimativa normalità,
della popolazione che genera il campione. Tale affermazione vale naturalmente nei casi in
cui la dimensione del campione non supera le 30 unità, oltre tale dimensione, come già
sottolineato, la distribuzione t di Student e la distribuzione normale praticamente
coincidono, basterà allora riferirsi alla distribuzione normale purché questa costituisca
una buona approssimazione della distribuzione della media campionaria.
Per quanto concerne i casi in cui si abbia a che fare con campioni di dimensione
superiore a 30, si rimanda a quanto sommariamente detto a proposito degli intervalli di
confidenza per campioni estratti da popolazioni di cui non è nota la legge di
distribuzione. Infatti, si rileva immediatamente come le procedure proposte per
sottoporre a test delle ipotesi statistiche, e quelle utilizzate per la determinazione degli
intervalli di confidenza, presentino punti di contatto tali da consentire un passaggio
immediato dall'intervallo di confidenza alla regione di accettazione.
A sostegno di quanto sopra affermato si può, ad esempio, considerare il problema di
T 
2
test, sulla media µ di una popolazione normale con varianza nota pari a  , definito
dalle ipotesi
H0 : μ μ 0
H1 :   0
La regione di accettazione dell'ipotesi H 0 : μ  μ 0 al livello  = 0,05 di significatività,
risulta essere
 1,96 
X - 0
 1,96
/ n
che può anche essere scritta
X  1,96 σ / n
 μ 0  X  1,96 σ / n
e tale espressione rappresenta l'analogo dell'intervallo di confidenza (al livello del 95%)
per la media di una popolazione normale
X  1,96 σ/
n  μ  X  1,96 σ/
246
n
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
già visto in precedenza. L'implicazione è dunque che un intervallo per la media, al livello
di confidenza del 95%, costituisce l'intervallo che include tutte quelle ipotesi, sulla
media stessa, che verrebbero accettate in una procedura di test bidirezionale, qualora
fosse stato fissato un livello di significatività pari a 0,05.
***
La somiglianza tra le procedure di test e quelle di determinazione degli intervalli di
confidenza, non deve naturalmente indurre a confondere i problemi di test con quelli
di stima; essi sono logicamente e sostanzialmente diversi.
***
4.3 - Test sulla varianza
Nel caso in cui si voglia sottoporre a test un'ipotesi sulla varianza di una popolazione
normale con media incognita, disponendo di un campione di n elementi e per un certo
, si deve operare in modo analogo a quanto fatto relativamente alla media. La variabile
casuale campionaria di riferimento (variabile casuale test) diventa
W 
n- 1  S 2
σ2
che ha una legge di distribuzione del tipo 2 con n-1 gradi di libertà ed è definita
nell'intervallo (0 ,+).
Caso a) b)
H0 : σ 2  σ 02
H 1 :  2   *2   02 (od anche H1 : σ 2   02 )
Il valore critico c si ottiene dalla relazione
P ( W  c /  2   02 ) = 
Caso c)
H 0 :  2   02
H1 :  2   02
Il valore critico c si ottiene dalla relazione
P ( W  c /  2   02 ) = 
Caso d)
H 0 :  2   02
H1 :  2   02
2
I valori critici c1 e c2 (si noti che la distribuzione  non è simmetrica) si ottengono
dalle relazioni
P ( W  c 2 /  2   02 ) = /2
247
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
P ( W  c1 /  2   02 )= 1-/2
Esempio 4.10
Sulla scorta di una lunga esperienza è stato calcolato lo scostamento quadratico medio 
sulla variabile descritta dal tempo di anestesia relativamente a soggetti di sesso maschile
sottoposti ad uno specifico trattamento; tale scostamento è risultato pari a 0,25 ore. Lo stesso
trattamento viene applicato ad un campione di 20 donne, e riscontrando uno scostamento
quadratico medio, nel tempo di anestesia, pari a 0,32 ore.
Sapendo che i venti soggetti femminili sottoposti a trattamento presentano, nei confronti
dell'anestetico, le stesse condizioni dei soggetti maschili, si vuole spiegare l'incremento
riscontrato nella variabilità. In altri termini, ci si chiede se l'incremento riscontrato sia da
attribuire al genere oppure a fattori aventi natura accidentale.
Il problema può essere formalizzato specificando l'ipotesi nulla e l'ipotesi alternativa nei
termini che seguono
H0 : σ 2f  σ m2  0,25
H 1 :  2f   m2  0,25
dove f sta ad indicare lo scostamento quadratico medio relativo alla popolazione di donne,
m lo scostamento quadratico medio relativo alla popolazione di uomini.
Sotto l'ipotesi nulla, e cioè a condizione che l'ipotesi nulla sia vera, la variabile casuale test
w
19  S 2
σ m2
dove
S2 
1 20
(X i  X)2

19 i 1
rappresenta la varianza calcolata sul campione di venti soggetti femminili, avrà una
distribuzione del tipo  con 19 gradi di libertà. Relativamente allo specifico campione si ha
w=
19  0,32 2
= 31,1
0,25 2
Se si fissa un livello di significatività nell'ordine del 5%, si può determinare, sulla scorta delle
tavole della distribuzione , il valore critico c per il quale risulta soddisfatta la relazione
P (W  c) = 0,95
Poiché risulta essere
c = 30,1, la zona di accettazione sarà data dall'intervallo
(0 , 30,1), mentre la regione critica risulterà espressa dall'intervallo (30,1 ,+ ). Stante tale
situazione si rifiuta l'ipotesi nulla; si rifiuta, cioè, l'ipotesi che la differenza riscontrata nella
variabilità sia da attribuire al caso.
Se il livello di significatività viene fissato nell'ordine dell'1%, si deduce un valore critico c =
36,2. In tal caso, e cioè al livello di significatività dell'1%, il valore campionario ricadrebbe
nella zona di accettazione della ipotesi nulla; verrebbe pertanto attribuita al caso la differenza
riscontrata.
248
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Esempio 4.11
Una fabbrica di batterie di automobili dichiara che il proprio prodotto presenta una
2
variabilità nella durata (misurata dalla varianza) pari a 0,8 ( = 0,8). Un campione casuale
di 16 batterie viene sottoposto a prova evidenziando una varianza corretta pari a 1. Si vuole
verificare, al livello di significatività del 5% ( = 0,05) se la varianza nella durata del
prodotto è superiore a 0,8.
La formulazione delle ipotesi per il problema in esame è
H 0 :  2  0,8
H1 :  2  0,8
mentre la v.c. test di riferimento è
n - 1 S 2

W=
~ χ2
σ2
n-1
che, nell'universo dei campioni, ha una distribuzione del tipo  con n - 1 gradi di libertà.
Per  = 0,05 e (n – 1) = 15 gradi di libertà il valore critico risulta essere  02,05  24,996 ,
pertanto la regola di decisione sarà (test unidirezionale): si accetta H0 se il  empirico è
 24,996, si rifiuta H0 se il empirico è > 24,996.
Essendo χ 2 =
 n - 1 S 2
σ2
=
15 - 12
= 17,5  24,996 si accetta l'ipotesi H0.
0,8
4.4 - Test sulla probabilità
Volendo utilizzare la teoria del test delle ipotesi per risolvere un problema di verifica
d'ipotesi sulla probabilità di un particolare evento (la distribuzione di riferimento è la v.c.
di Bernoulli), si può procedere come illustrato nelle pagine precedenti; si fissa cioè un
livello di significatività (probabilità dell'errore di I tipo) e si individua poi la regione
critica (di rifiuto dell'ipotesi nulla formulata) che massimizza la potenza del test
(probabilità di non commettere un errore di II tipo).
Se la dimensione del campione è sufficientemente elevata per sottoporre a test
un'ipotesi su una probabilità si può fare ricorso alla distribuzione normale essendo questa
un’approssimazione abbastanza buona della distribuzione binomiale per
n
sufficientemente elevato e n p > 5, n q > 5, dove n rappresenta la dimensione
campionaria, p la probabilità dell'evento che interessa e q = 1- p la probabilità
contraria.
In particolare se X rappresenta il numero di successi in n prove bernoulliane (prove
indipendenti), la proporzione campionaria
X
Pˆ 
n
249
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
p q
n .
Se si vuole quindi sottoporre a test una specifica ipotesi, al livello di significatività
del tipo H 0 : p  p0 contro l'ipotesi alternativa H1 : p  p 0 si può fare ricorso alla
ha una distribuzione approssimativamente normale con media p e varianza
variabile casuale normale standardizzata
Pˆ - p0
~ N  0,1
p0  q0 / n
Z 
dove q0 = 1-p0 . Si rifiuterà l'ipotesi se
pˆ -p0
 Z cioè se p̂  p0  Z
p0  q0 / n
p0  q0
n
dove Z è il valore (punto critico) della distribuzione normale standardizzata che ha alla
sua destra l' % dei casi.
Si noti che l'ipotesi nulla
H0  p  p0
non specifica solo la media p0 della
distribuzione bernoulliana ma anche la varianza p0  q0 .
Esempio 4.12
Si supponga di voler sottoporre a test l'ipotesi
H0 : p 
2
3
contro l'ipotesi alternativa
2
disponendo di un campione di 200 osservazioni indipendenti che evidenzia una
3
150
frequenza relativa p̂ 
 0,75 . Poiché sotto l'ipotesi nulla H0, la proporzione
200
campionaria p̂ ha una distribuzione approssimativamente normale con media p  2/3 e
H1 : p 
varianza p  q / n  1/900 , se si sceglie il livello di significatività = 0,05, il punto critico
che delimita la regione critica sarà
z  1,645 . Pertanto l'ipotesi nulla
H 0 : p  2/3
dovrà essere rifiutata quando
p - 2/3
 1,645
1 / 30
Cioè quando
p̂ 
Essendo
2
1
 1,645 
 0,722
3
30
p  0,75  0,722, l'ipotesi nulla H 0 : p  2 3 viene rifiutata al livello di
significatività del 5%. Ad analoga conclusione si perviene se si fissa il livello di significatività
= 0,01, infatti si ha pˆ ³
2
1
+ 2,34×
= 0,744 .
3
30
Se si specifica l'ipotesi alternativa in termini di un preciso valore numerico risulta possibile,
come chiarito in precedenza, calcolare la potenza del test.
250
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Nella tabella che segue, per = 0,01 e  = 0,05, sono riportati i valori assunti dalla funzione
forza del test in corrispondenza di alcune particolari specifiche dell'ipotesi alternativa.
= 5%
H1 : p 
0,60
0,65
0,67
0,69
0,71
0,73
0,75
0,77
0,79
0,81
0,83
pq /
200
0,0346
0,0337
0,0332
0,0327
0,0321
0,0314
0,0306
0,0297
0,0288
0,0277
0,0266
0,722  p
p q / 200
3,517
2,128
1,557
0,969
0,364
-0,264
-0,625
-1,626
-2,372
-3,188
-4,071
= 1%
Potenza
0,000
0,017
0,059
0,166
0,358
0,604
0,822
0,948
0,991
0,999
1,000
0,744  p
p q / 200
4,170
2,798
2,238
1,661
1,069
0,455
-0,186
-0,865
-1,587
-2,373
-3,222
Tab. 4.2- Potenza del test relativa a specifiche dell’ipotesi alternativa H1 : p 
Potenza
0,000
0,003
0,012
0,048
0,142
0,325
0,574
0,806
0,944
0,991
1,000
2
.
3
Ovviamente anche in riferimento alle proporzioni (probabilità) si possono presentare casi di
test d'ipotesi del tipo H0 : p  p0 contro l'alternativa bidirezionale H1 : p  p0 od anche
H0 : p0  p  p1 contro l'alternativa H1 :  p  p0    p  p1  .
Esempio 4.13
Si supponga di avere a che fare con una distribuzione bernoulliana e di voler sottoporre a test
l'ipotesi nulla H0 : p  0,5 al livello di significatività = 0,05.
Si ammetta, inoltre, di poter disporre di un campione di n = 100 osservazioni indipendenti e
di volere calcolare la potenza del test in riferimento a ciascuna delle seguenti specifiche
dell'ipotesi alternativa
a) H1 : p  0,55
b) H1 : p  0,60
c ) H1 : p  0,65
d ) H1 : p  0,70
e) H1 : p  0,75
Essendo sufficientemente elevata la dimensione campionaria e risultando, inoltre, n p e n q
superiori a 5, si può approssimare la distribuzione binomiale con la distribuzione normale che,
quando l’ipotesi nulla H0 : p  0,5 è vera, ha media μ  n p  100  0,50  50 e varianza
σ 2  n p q  100  0,5  0,5  25 .
Poiché  = 0,05
si rifiuta l'ipotesi nulla
H0 : p  0,5
campionaria della variabile casuale normale standardizzata
251
quando la determinazione
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Z
X- n p
n p q
assume un valore superiore al punto critico c = 1,65 che è il valore che soddisfa la relazione
(quando l'ipotesi nulla è vera)
 X- 50

P
 1,65   0,05
 5

e in modo equivalente
P  X  50  5  1,65   0,05
cioè
P  X  58   0,05
La potenza di un test è misurata dalla probabilità di rifiutare un'ipotesi H 0 quando questa è
falsa, si dovrà allora calcolare la probabilità X > 58 per ciascuna specifica dell'ipotesi
alternativa cioè
P  X  58 / H1   0,05
I valori della potenza del test per i vari casi richiesti sono riportati nella tabella che segue
H1: p =
µ=np
σ  n p q
p = 0,55
p = 0,60
p = 0,65
p = 0,70
p = 0,75
55
60
65
70
75
4,97
4,90
4,77
4,58
4,33
X μ
σ
 Z
0,60
-0,11
-1,48
-2,62
-3,93
Potenza
0,274
0,659
0,929
0,996
1,000
Tab. 4.3 - Valori della potenza del test
Esempio 4.14
Relativamente ad una distribuzione bernoulliana si vuole risolvere il problema di test d'ipotesi
H0 : p  0,5
H1 : p  2 / 3
al livello di significatività = 0,01 e presupponendo la disponibilità di 36 osservazioni
campionarie indipendenti. Si vuole evidenziare, inoltre, la crescita della potenza del test al
crescere della dimensione campionaria considerando in particolare i valori n = 36, 64, 100,
144 e 196.
La distribuzione binomiale può essere approssimata dalla distribuzione normale essendo, in
tutti i casi considerati, la dimensione campionaria sufficientemente elevata e np, nq maggiore
di 5.
Per ciascuna specifica del valore n si calcola la media  = n p e lo scostamento quadratico
medio σ  n p q in corrispondenza del valore p = 0,5
252
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
=np
36
64
100
144
196
18
32
50
72
98
  n pq
3
4
5
6
7
Poiché il valore p specificato dall'ipotesi alternativa H1, è più elevato di quello specificato
dall'ipotesi nulla, al livello di significatività
 = 0,01, si rifiuta l'ipotesi H0 quando la
determinazione campionaria della variabile casuale normale standardizzata assume un valore
superiore al valore critico c = z = 2,3 essendo questo il valore che soddisfa la relazione
 X- 18

P
 2,33   0,01
 3

ed anche
da cui
P  X  3  2,33  18   0,01
P  X  24,99   0,01
I valori critici in corrispondenza degli altri valori di n sono
n  64  4  2,33  32  41,32
n  100  5  2,33  50  61,65
n  144  6  2,33  72  85,98
n  196  7  2,33  982  114,31
Per n = 36 la potenza del test deriva dalla relazione
24,99 - 24 
 X- 24
P  X  24,99 / H 1   P 

  P  Z  0,3498   0,36
2,83 
 2,83
Analogamente per gli altri valori di n.
41,32 - 42,67 

n  64  P  Z 
  P  Z  - 0,3581   0,64
3,77


61,65 - 66,67 

n  100  P  Z 
  P  Z  - 1,0658   0,86
4,71


85,98 - 96 

n = 144  P  Z 
 = P  Z  - 1,7703  = 0,96
5,66 

114,31 - 130' ,67 

n  196  P  Z 
  P  Z  - 2,4788   0,99 .
6,60


253
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
4.5 - Determinazione della dimensione campionaria
Nella trattazione fino ad ora svolta è stata considerata fissa la dimensione campionaria,
si presentano però spesso situazioni in cui non ci si limita alla fissazione del solo livello di
significatività avendo anche interesse ad una potenza del test non inferiore ad una certa
soglia. Per poter conseguire un tale obiettivo si potrà intervenire convenientemente sulla
dimensione campionaria.
Si consideri, il caso in cui, in riferimento a una distribuzione normale, si voglia
sottoporre a test l'ipotesi nulla
H 0 :μ  μ 0
contro l'ipotesi alternativa H1 :   1  0 al livello di significatività  e in modo tale
che la potenza del test non sia inferiore a  . Si ricorda che, γ  H1   1 - β  H1  ,
cioè, la potenza di un test rappresenta la probabilità di non commettere un errore di II
tipo.
Si rifiuta l'ipotesi nulla quando per la media campionaria vale la disuguaglianza
x  0  z 

n
se si indica con z il valore Z della variabile casuale normale standardizzata che ha alla
sua destra il  % dei casi, il vincolo sulla potenza impone il rispetto della relazione


P X  0  z   / n  
od anche1
 X  1

  1
P
 0
 z   
/ n
/ n

deve, quindi, essere soddisfatta l'uguaglianza
0  1
 z   z
/ n
da cui
1 Da rilevare che attraverso questo passaggio si sta considerando la distribuzione della media campionaria
sotto l’ipotesi alternativa
H1 :   1 ,
campionaria sotto l’ipotesi nulla
X
che, in entrambi i casi, è pari a
X
cioè
X
N  1 ,  / n 
2
X
e non la distribuzione della media
N  0 ,  2 / n  ; da notare l’uguaglianza della varianza campionaria di
 x2   2 / n .
254
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n=
z

+ z

2
  μ1 - μ0  / σ  2
Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è
H1 :   1  0 anche se per correttezza formale a denominatore dell’espressione a
secondo membro si dovrebbe porre μ0 - μ1 ma il risultato non cambia in quanto lo scarto
deve essere elevato al quadrato.
Se n non è intero si opera una approssimazione per eccesso.
Esempio 4.15
Se si scelgono i valori α=0.05, γ=0,90, μ 0  100 ,μ 1  110 e σ 2  400 si avrà
n=
 1,645+1,282  2 = 34,268
  100 - 110  / 20  2
si dovrà, pertanto, fissare la dimensione campionaria n = 35.
Se con   0  1 si indica lo scarto tra la specificazione dell’ipotesi nulla e l’ipotesi
alternativa la relazione che consente la derivazione della dimensione campionaria nel
rispetto del vincolo sulla potenza diventa:
n=
z

+ z

  / σ 2
2
.
pertanto, la dimensione campionaria potrà essere ottenuta soltanto quando tutti gli
elementi presenti nella formula sono noti:
 livello di significatività  ;

potenza del test   H1  ;

specifica dello scarto tra le due ipotesi   0  1 e varianza della popolazione
2.
Sulla scorta dell’ultima osservazione ne consegue che le formule per la
determinazione della dimensione campionaria, spesso riportate nei testi didattici, che
fanno riferimento ad ipotesi alternative composite hanno solo carattere indicativo in
quanto per poter procedere a tale determinazione se deve comunque specificare in modo
puntuale l’ipotesi alternativa; in particolare deve essere noto lo scarto   0  1 .
La formula da impiegare è quella sopra riportata nel caso di ipotesi alternativa
unidirezionale; mentre, nel caso di ipotesi bidirezionale la formula diventa2
2 Al riguardo si tenga presente l’osservazione sopra riportata nel paragrafo 4.2.1 riguardo al valore da assegnare al
p-value nel caso di ipotesi alternative bidirezionali.
255
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n=
z
 /2
+ z

2
  / σ 2
z
=
 /2
+ z

2
2
2
.
Come già sottolineato a proposito del problema della mancata conoscenza della
varianza della popolazione nel caso della determinazione di una dimensione campionaria
in grado di soddisfare un prefissato livello di informatività (cfr. paragrafo 3.4) di un
intervallo di stima, anche in questo caso, per stabilire la dimensione del campione si
dovrà ricorrere ad una sua stima, che potrà derivare da conoscenze pregresse o
da un’indagine campionaria “pilota”, che sarà, ovviamente, di dimensione
ridotta ed il cui unico scopo è quello di pervenire ad una stima della varianza
incognita  2 .
Il problema della mancata conoscenza della varianza della popolazione non sussiste,
invece, quando si vuol procedere alla determinazione della dimensione campionaria, in
funzione di una prefissata potenza, quando si desidera sottoporre a test ipotesi su una
proporzione (parametro p di una v.c. di Bernoulli) H 0 : p  p0 contro l’ipotesi
alternativa H1 : p  p1  p0 ; infatti, in questo caso, la varianza  2  p 1  p  risulta
specificata dalle due ipotesi per cui, sotto H 0 : p  p0 ,  H2 0  p0 1  p0  , mentre sotto
H1 : p  p1 ,
 H2  p1 1  p1  ,
infatti
1
in
questo
caso,
ricorrendo
all’approssimazione normale, si rifiuta l’ipotesi nulla quando
x
 0  z  p0 1  p0 
n
Poiché il vincolo sulla potenza impone il rispetto della relazione
 X

P
 p0  z  p0 1  p0    
 n

od anche


X

P    p1  / p1 1  p1  / n  p0  z  p0 1  p0  / n  p1 /

 n
deve, quindi, essere soddisfatta l’uguaglianza
p z
0


 p0 1  p0   p1 /

p1 1  p1  / n   

p1 1  p1  / n   z
da cui
2
 z p0 1  p0   z p1 1  p1  
 .
n
p0  p1


Allo stesso risultato si perviene nel caso in cui l’ipotesi alternativa unidirezionale è
H1 : p  p1  p0 ponendo a denominatore del secondo membro dell’uguaglianza la
differenza p1  p0
256
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
4.6 - Confronto tra campioni
Nelle pagine precedenti è stato analizzato il problema della verifica di ipotesi statistiche
sulla scorta di dati concernenti singoli campioni. Più specificamente, si è discusso della
possibilità di utilizzazione dei dati campionari per la determinazione della struttura
generale di una particolare popolazione rappresentata mediante un modello
probabilistico, di forma nota ma caratterizzato da parametri incogniti.
Verrà analizzato ora il problema del confronto tra due campioni, avendo come fine
l'accertamento delle possibilità di una loro attribuzione alla stessa popolazione o a
popolazioni aventi uno o più parametri caratteristici di uguale valore.
Relativamente a due gruppi di osservazioni campionarie, anche se generati da una
stessa popolazione, in cui si riscontra generalmente una qualche differenza, il problema
da risolvere sarà quindi quello di accertare l'eventuale significatività statistica di una tale
differenza. Evidentemente, ogni conclusione favorevole alla significatività di una
differenza comporterà l'attribuzione dei due campioni, cui la differenza si riferisce, a
popolazioni distinte.
Nei punti seguenti le considerazioni saranno limitate in modo quasi esclusivo al
problema del confronto di medie e varianze relative a campioni estratti da popolazioni
normali.
4.6.1 Confronto tra medie
Si supponga di avere a disposizione un gruppo di m osservazioni campionarie casuali
x   x1, x2 ,....., xm  relative ad una popolazione normale X di media incognita µx e
'
varianza nota σ x2
ed un secondo gruppo di n osservazioni campionarie casuali
y   y1 , y2 ,....., yn  relative ad una popolazione normale Y di media incognita µy e
'
varianza nota σ y2 . Si supponga, inoltre, che le due v.c. siano indipendenti e di voler
verificare se la differenza eventualmente riscontrata tra le due medie campionarie x e y
sia da attribuire al caso o al fatto che le due medie µx e µy, delle popolazioni che hanno
generato i due campioni, sono diverse; si vuole in altri termini decidere per l'eventuale
significatività statistica della differenza riscontrata.
Il problema di cui sopra può essere formalizzato attraverso una specificazione
dell'ipotesi nulla e dell'ipotesi alternativa seguendo la linea di ragionamento descritta
nelle pagine precedenti. Le possibili formulazioni, strettamente legate alla problematica
dell'analisi che si sta conducendo, portano alla considerazione dei tre casi seguenti:
Caso a)
H0 : µx = µy
H1 : µx > µy
257
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Caso b)
H0 : µx = µy
H1 : µx < µy
Caso c)
H0 : µx = µy
H1 : µx  µy
La variabile casuale
Zx-y =
X -Y
σ x2 / m + σ y2 / n
ha, quando l'ipotesi nulla è vera, legge di distribuzione normale standardizzata. Avendo
individuato la legge di distribuzione di una funzione (quella che interessa) degli elementi
campionari, sarà facile definire la regione critica e quella di accettazione per la
risoluzione dei problemi indicati. Infatti, poiché nell'espressione sopra riportata compare
la differenza tra le due medie campionarie, sarà facile l'estensione di quanto detto a
proposito di una singola media al caso qui considerato.
I valori critici nei tre casi proposti si derivano facilmente dalle relazioni:
Caso a)
P ( Z > c / µ x = µy ) = 
Caso b)
si accetta l'ipotesi H0 se z < c, si rifiuta altrimenti:
P ( Z <- c / µx = µy ) = 
si accetta l'ipotesi H0 se z > - c, si rifiuta altrimenti;
Caso c)
P ( Z < - c / µx = µy ) = /2
si accetta l'ipotesi H0 se - c  z  c, si rifiuta altrimenti.
Nei tre casi considerati z rappresenta la specifica determinazione della variabile
casuale normale standardizzata Z.
Nelle indagini sperimentali ove i test statistici vengono applicati regolarmente per
lunghi periodi di tempo, non risulta difficile una misura precisa della variabilità dei
risultati; in tali situazioni potrà essere applicata la teoria sopra esposta, ogni qual volta si
voglia procedere ad un confronto fra medie, attraverso un semplice ricorso alle tavole
della distribuzione normale standardizzata. Va rilevato però che sono molto più frequenti
i casi in cui la variabilità risulta essere anch'essa, oltre i valori medi, una incognita del
problema. In tali circostanze si potrà, comunque, ricorrere all’approssimazione con la
distribuzione normale quando la dimensione dei due campioni è sufficientemente elevata.
Esempio 4.16
Per un campione casuale di 120 studenti dell'università di Firenze si rileva un'età media di
20,2 anni ed una varianza (campionaria corretta) pari a 1,44. Per un campione casuale di 100
studenti dell'università di Roma i valori riscontrati sono invece 21 anni e 2,25. Prefissando una
258
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
probabilità di errore di I tipo a livello  = 0,05, si vuole verificare statisticamente
l'uguaglianza nell'età media tra gli studenti dei due Atenei.
Se con x si indica l'età media degli studenti dell'Università di Firenze e con y l'età media
degli studenti dell'Università di Roma il problema di test da risolvere è:
H0 : x = y
H1 : x  y
Essendo le dimensioni campionarie sufficientemente elevate si può ritenere accettabile la
congettura che la variabile casuale campionaria
 X- Y  -  μ
x
-μ y 
S x- y
dove X e Y sono le due medie campionarie e
Sx - y =
( S x2 e
S y2
S x2 / m + S y2 / n
le due varianze campionarie corrette) ha, nell'universo dei campioni, una
distribuzione approssimativamente normale e può pertanto essere utilizzata quale v.c. test.
La regione di accettazione di H0 resta definita dall'intervallo -1,96 – 1,96 mentre la regione
di rifiuto è data dai due intervalli (- , -1,96) e (1,96 , +).
Essendo la determinazione della variabile casuale test sotto l'ipotesi H0 pari a
x y

sx  y
20,2 - 21
1,2 / 120  1,5 2 / 100
2
 - 4,30
e quindi non compresa nell'intervallo (-1,96 , 1,96) si rifiuta l'ipotesi formulata di
uguaglianza nell'età media degli studenti dei due Atenei al livello di significatività del 5%.
Esempio 4.17
Un recente rapporto dell'Istituto Italiano di Ricerche sulla Popolazione afferma che l'età
media al matrimonio delle persone che non conseguono il titolo di studio di scuola media
superiore è inferiore a quello di coloro che conseguono tale titolo. Si vuole verificare, al
livello di significatività del 5% ( = 0,05), tale affermazione avendo a disposizione due
campioni casuali di 100 individui delle due categorie ed avendo riscontrato: per coloro che
non posseggono un titolo di scuola media superiore un'età media al matrimonio pari a 22,5
anni e una varianza (campionaria corretta) pari a 1,96, mentre quelli che posseggono il titolo
hanno evidenziato un'età al matrimonio di 23 anni e una varianza (campionaria corretta) pari
a 3,24.
Se con x e y si indica l'età media al matrimonio, rispettivamente, di coloro che non
posseggono il titolo di scuola media superiore e di coloro che lo posseggono, il problema di
test (unidirezionale) da risolvere è
H0 :μ x  μ y
H1 :μ x  μ y
Essendo la dimensione campionaria sufficientemente elevata, la v.c. campionaria
259
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
 X -Y 
-

x
- y 
Sx - y
dove X e Y sono le medie campionarie, S X Y 
S x2 / m  S y2 / n , S x2 e S y2 sono le
due varianze campionarie corrette, ha, nell'universo dei campioni, distribuzione
approssimativamente normale. Pertanto il valore critico -Z = -1,64 individua la regione
critica nell'intervallo (-1,64 , +), mentre la regione di accettazione è definita da (- , -1,64).
La determinazione empirica della variabile casuale test, quando l’ipotesi nulla
H 0 : σ 2x  σ 2y è vera, è
z=
x - y -0
=
sx - y
22,5 - 23
1,4 2 / 100 + 1,8 2 / 100
=
-0,5
= - 2,18
0,229
che risulta inferiore a -1,64. Si rifiuta pertanto l'ipotesi H0 : x  y, concludendo che l'età
media al matrimonio di coloro che non hanno conseguito il diploma di scuola media superiore
è più bassa dell'età media al matrimonio di coloro che hanno conseguito il titolo.
Si indichino con X e Y due variabili casuali normali di medie incognite µx e µy e
di varianze pure incognite x2 = y2 = 2. Supponendo di disporre di due gruppi di
osservazioni casuali indipendenti sulle variabili X e Y, si possono risolvere i problemi
a), b) e c) trattati al punto precedente facendo ricorso alla variabile casuale t di Student
anziché alla normale standardizzata. Infatti, essendo la varianza comune alle due
popolazioni incognita, si deve sostituire, nella formula precedente, a 2 una sua stima.
Così operando si ottiene la variabile casuale
X -Y
T=
S
 m+ n  / m  n
~ tm+n-2
dove S2 rappresenta la stima di 2 ottenuta combinando opportunamente (media
aritmetica ponderata delle varianze campionarie) le informazioni disponibili. In
particolare si ha
S
2

m - 1 S x2  n - 1 S y2
mn-2
per m e n dimensioni dei due campioni e
1 m
1 n
2
2
S x2 
(
x

x
)
;
S

( yi  y )2 .


i
y
m -1 i 1
n -1 i 1
Si controlla facilmente quanto si già avuto modo di sottolineare a proposito degli
intervalli di confidenza, cioè che la variabile casuale T, definita nella relazione sopra
scritta, deriva dal rapporto fra una variabile casuale normale standardizzata e la radice di
una variabile casuale χ
2
divisa per i propri gradi di libertà. Tale variabile ha legge di
260
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
distribuzione del tipo t di Student con m+n-2 gradi di libertà, poiché le due variabili
poste a rapporto sono indipendenti.
I valori critici c per i tre casi a), b) e c), considerati al punto precedente, derivano
dalle relazioni
Caso a)
P (T > c / µx = µy) = 
si accetta l'ipotesi H0 se t < c, si rifiuta altrimenti;
P (T < - c / µx = µy) = 
Caso b)
si accetta l'ipotesi H0 se t  - c, si rifiuta altrimenti;
P (T < - c / µx  µy) = /2
Caso c)
si accetta l'ipotesi H0 se - c  t < c, si rifiuta altrimenti.
Dopo aver individuato il valore critico c, mediante l'uso delle tavole della
distribuzione t, relativamente al caso che interessa (uno dei tre sopra considerati), si
porrà a confronto tale valore critico con la determinazione campionaria specifica t della
variabile casuale T.
Esempio 4.18
Si consideri la seguente tabella dove vengono riportati i risultati relativi a campioni di
osservazioni su due diverse famiglie di mycelio fungino della stessa specie.
Famiglia A
246,3
Famiglia B
246,2
247,1
244,9
239,2
257,3
Tab. 4.4 - Peso secco in mg. di mycelio fungino relativo a due famiglie appartenenti alla
stessa specie
Relativamente al fenomeno che si sta analizzando si può ipotizzare ragionevolmente la
normalità delle distribuzioni del peso e, trattandosi di funghi della stessa specie, anche
un'uguale variabilità dei risultati in corrispondenza delle due famiglie; in tal caso ci si trova
ad operare su due campioni di dimensione m = n = 3 estratti da popolazioni normali di uguale
varianza (incognita).
Si supponga di voler verificare statisticamente l'ipotesi (di uguaglianza) fra il peso medio, µx,
dei funghi appartenenti alla famiglia A ed il peso medio µ y, dei funghi appartenenti alla
famiglia B) Ho : µx = µy contro l'ipotesi alternativa H1 : µx  µy al livello di significatività
 = 0,05. La procedura di test da applicare dovrà essere quindi di tipo bidirezionale.
261
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Per quanto detto sopra, il valore critico c (c > 0), suddividerà lo spazio campionario (- —
+) relativo alla variabile casuale test T di riferimento, in una zona di accettazione costituita
dall'intervallo (- c , c) e in una zona di rifiuto costituita dagli intervalli (( - ,- c) , (c ,+)).
Sulle tavole della distribuzione t di Student, in corrispondenza a 4 gradi di libertà, si
individua il valore c che soddisfa la relazione
P (T < - c/µx = µy) = 0,025
che risulta essere 2,78. Tale valore critico c = 2,78 dovrà essere posto a confronto con la
determinazione specifica della variabile casuale T.
Dalle informazioni campionarie derivano i seguenti valori
x = 247,6 , y = 246,1, s x2  83,17
, s y2  1,22
e quindi S2 = 42,195 . La derivazione specifica della variabile casuale T sarà pertanto
t
247,6  246,1
42,195  2 / 3

1,5
 0,2828
5,3038
poiché
t = 0,28 < c = 2,78
l'ipotesi nulla H0 : µx = µy non viene rifiutata al livello di significatività del 5% ricadendo la
determinazione t di T nell'intervallo (- c , c). Tale fatto, comporta sostanzialmente
l'accettazione dell'ipotesi che i due campioni provengano da una stessa popolazione, ed una
attribuzione delle differenze campionarie riscontrate a fattori aventi carattere puramente
accidentale.
Nell'esempio specifico, potrebbe interessare una diversa ipotesi alternativa; ad esempio
l'ipotesi che il peso medio dei funghi appartenenti alla famiglia A sia più elevato del peso
medio dei funghi appartenenti alla famiglia B (H1: µx > µy). In tale eventualità, allo stesso
livello  = 0,05 di significatività, risulta un valore critico c = 2,13 che comporta come nel
caso di ipotesi alternativa bidirezionale, una accettazione dell'ipotesi nulla H 0 : µx = µy..
Esempio 4.19
Si supponga di dover decidere sulla durata di due diverse marche di lampadine di ugual prezzo
avendo verificato la durata di 100 lampadine di ciascuna marca e riscontrato i seguenti valori
campionari: medie campionarie x = 1.180, y = 1.160, varianze campionarie corrette s x2 =
14.400, s 2y = 1.600. La decisione deve essere presa al livello di significatività  = 0,05.
Il problema decisionale può essere impostato nei seguenti termini
H0 : μ x  μ y
H1 : μ x  μ y
o, in modo equivalente
H0 : μ x  μ y  0
H1 : μ x  μ y  0
262
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
dove μ x e μ y rappresentano la durata media delle lampadine, rispettivamente, della prima
e della seconda marca.
Per risolvere il problema di test d'ipotesi si può fare riferimento alla distribuzione normale
essendo sufficientemente elevata la dimensione campionaria. La differenza tra le due medie
X Y
campionarie
avrà, pertanto, nell'universo dei campioni, una distribuzione
approssimativamente normale con media μ x  μ y e varianza
σ x2 y  σ x2 / m  σ y2 / n
Al livello di significatività  = 0,05 , i valori critici che individuano la regione di accettazione
sono
c1  - zα/ 2  - 1,96
e
c2  zα/ 2  1,96 . Inoltre, sotto l'ipotesi nulla H0
il
valore campionario assunto dalla variabile casuale test è pari a
z
1180  1160
14400  1600  / 100
 1,58
Essendo il valore 1,58 incluso nell'intervallo (- 1,96 , 1,96) si accetta l'ipotesi di uguale
durata delle due diverse marche di lampadine, attribuendo a fattori accidentali la differenza di
durata riscontrata nei due campioni.
4.6.2 Confronto tra proporzioni (probabilità)
Capita spesso di dover affrontare situazioni in cui interessa accertare se la proporzione di
individui o oggetti in due popolazioni distinte siano uguali o diverse. La percentuale degli
elettori che voterà per il PD alla prossima consultazione elettorale sarà la stessa in
Toscana e in Emilia Romagna? la percentuale dei bambini vaccinati che contrae la
poliomielite è inferiore a quella dei bambini non vaccinati? ecc.. Per poter rispondere a
tali quesiti si effettua una rilevazione campionaria in ciascuna delle popolazioni di
interesse (elettori emiliani ed elettori toscani, bambini vaccinati e bambini non vaccinati,
ecc.) e le proporzioni riscontrate nei campioni vengono poste a confronto.
Le osservazioni campionarie sono variabili di tipo bernoulliano potendo assumere
soltanto i valori 0 (non vota per il PD) ed 1 (vota per il PD). Nella prima popolazione gli
indici caratteristici sono μ x  p x e σ x2  p x  q x , mentre nella seconda popolazione si ha
μ y  p y e σ 2y  p y  q y , dove, naturalmente, px è la probabilità di successo (voterà per
il PD, non contrarrà la poliomielite, ecc.) nella prima popolazione e py la probabilità di
successo nella seconda popolazione.
L'ipotesi nulla può assumere la forma
H0 : px  p y
contro l'ipotesi alternativa
H1 : px  p y
(ipotesi bidirezionale)
od anche
263
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H1 : px  p y
(ipotesi unidirezionali)
H1 : px  p y
Se si suppone di disporre, rispettivamente, di m rilevazioni campionarie dalla prima
popolazione e n dalla seconda popolazione, la variabile casuale campionaria p̂ x  p̂ y ,
cioè la differenza tra le proporzioni riscontrate nei due campioni indipendenti avrà
nell'universo dei campioni distribuzione di tipo binomiale con media p x  p y e varianza
 x2 / m   y2 / n  p x  q x / m  p y  q y / n .
Sotto l'ipotesi nulla
H 0 : p x  p y  p , cioè se l'ipotesi nulla è vera, la variabile
casuale differenza tra proporzioni campionarie avrà media nulla e varianza
σ p̂2x  p̂ y  p q  1 /m  1 /n  .
Se la dimensione di due campioni è sufficientemente elevata la distribuzione binomiale
può essere approssimata dalla distribuzione normale. Pertanto, sotto l'ipotesi nulla
H 0 : p x  p y  p , la variabile casuale campionaria
Z pˆ x  pˆ y 
dove, Pˆ 
 a  b /  m  n  ,
Pˆx  Pˆy
Pˆ Qˆ  1 / m  1 / n
Qˆ  1-Pˆ

ed a e b rappresentano il numero di
successi, rispettivamente, nel primo e nel secondo campione, ha una distribuzione
normale standardizzata.
La procedura di test da adottare è quella illustrata in precedenza, quando si è fatto
riferimento al problema del confronto tra medie per popolazioni normali con identica
varianza incognita. Da sottolineare che in questo caso non si utilizza la distribuzione t di
Student essendo, per assunzione, elevate le dimensioni campionarie.
Esempio 4.20
Effettuata un'indagine di mercato riguardo al gradimento di un nuovo prodotto, due differenti
gruppi sociali si sono espressi, rispettivamente, a favore nel 45% e nel 55% dei casi.
Avendo inoltre accertato una variabilità nelle risposte (misurata attraverso lo scostamento
quadratico medio corretto) pari, rispettivamente 0,04 e 0,03 e sapendo che i due gruppi
costituenti il campione degli intervistati sono molto numerosi, si vuole verificare
statisticamente, al livello di significatività del 10%, l'ipotesi che la percentuale di soggetti
favorevole al nuovo prodotto è più elevata nel secondo gruppo rispetto a quelle del primo
gruppo.
Se con p x e p y si indicano le due percentuali di soggetti favorevoli al nuovo prodotto nel
primo e nel secondo gruppo, il problema di test d'ipotesi è
264
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H0 : px  p y
H1 : px  p y
od anche
H0 : p y  px  0
H1 : p y  px  0
Indicando con
p̂ x e p̂ y le percentuali che hanno espresso il loro gradimento del nuovo
prodotto, nel primo e nel secondo gruppo sociale, con
σ̂ p̂2 y  p̂x  S p̂2x  S p̂2y la varianza
stimata della v.c. differenza, e con S p̂2x , S p̂2 y le varianze campionarie corrette riscontrate nei
due campioni, tenendo inoltre presente le elevate dimensioni campionarie, la variabile casuale
 Pˆ  Pˆ  -  p
y
x
y
 px 
ˆ Pˆ  Pˆ
y
x
ha, nell'universo dei campioni, distribuzione approssimativamente normale (standardizzata) e
può essere, pertanto, assunta quale v.c. test di riferimento.
Al livello di significatività  = 0,1 il valore critico del test (unidirezionale) è
z = 1,28, pertanto la regione critica resta individuata dall'intervallo (1,28 , +) mentre la
regione di accettazione è data dall'intervallo ( -  , 1,28).
Poiché, sotto l'ipotesi nulla H0 , la determinazione campionaria delle v.c. test è
p̂ y  p̂ x
σ̂ p̂ y  p̂x

0,55 - 0,45
0,04 2  0,03 2
 2  1,28
si rifiuta l'ipotesi formulata concludendo che la percentuale di coloro che esprimono
gradimento del nuovo prodotto è superiore nel secondo gruppo sociale rispetto al primo
gruppo.
Esempio 4.21
Ad un campione di 325 studenti di sesso maschile e di 200 di sesso femminile è stato chiesto di
esprimersi riguardo all'efficacia di un nuovo ausilio didattico. Tra i maschi 221 si sono
espressi favorevolmente mentre sono state 120 le femmine che hanno espresso parere
favorevole. I risultati campionari sono indice di una differenza significativa tra maschi e
femmine riguardo al loro atteggiamento nei confronti della efficacia del nuovo ausilio
didattico?
Si vuole risolvere il problema per  = 0,05. Il problema di test delle ipotesi assume la forma
H0 : px  p y
H1 : px  p y
o, in modo equivalente
H0 : px  p y  0
265
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H1 : p y  px  0
dove
px
e
rappresentano, rispettivamente, la proporzione di maschi e di femmine
py
favorevoli al nuovo ausilio didattico; ovviamente i valori si riferiscono all'intera popolazione.
La variabile casuale campionaria
 Pˆ  Pˆ  -  p
y
x
y
 px 
ˆ Pˆ  Pˆ
y
x
dove Pˆx , e Pˆy sono le proporzioni di soggetti favorevoli, riscontrabili nei due campioni, ha,
nell'universo dei campioni, una distribuzione approssimativamente normale con media 0 e
varianza 1 (normale standardizzata).
Al livello  di significatività del 5% i valori che definiscono la regione critica sono;
c1  - zα/ 2  - 1,96
e
c2  zα/ 2  1,96 . Poiché
p̂ y  120 / 200  0,60 si ha ˆ p̂x  p̂ y 
p̂ x  221 / 325  0,68
e
0,68  0,32 / 325  0,60  0,40 / 200  0,043
e quindi sotto l'ipotesi nulla H 0 : p x  p y , z  
 0,68 - 0,60   0  / 0,043
 1,86 .
Essendo il valore campionario 1,86 contenuto nell'intervallo (-1,96 , 1,96) si accetta l'ipotesi
nulla di uguaglianza tra le due proporzioni nelle popolazioni attribuendo alla differenza
riscontrata nei campioni natura accidentale.
4.6.3 Confronto tra varianze
Una logica estensione di quanto sopra detto risulta essere l'analisi del problema relativo
al confronto tra varianze di popolazioni normali con medie incognite.
Si ammetta di poter disporre di due campioni di osservazioni indipendenti, il primo
x   x1 , x2 ,...., xm  , relativo alla variabile casuale normale X di media μ x incognita e
'
varianza σ x2 ; il secondo, y   y1 , y2 ,...., yn  relativo alla variabile casuale normale Y di
'
media incognita μ y e varianza  y2 .
La variabile casuale espressa dal rapporto tra due variabili casuali indipendenti del tipo

 divise per i rispettivi gradi di libertà
 m  1 S x2
F 
 x2
 n  1 S y2
 y2
/  m -1
/  n -1
2
2
1 m
1 n
Yi  Y  , ha nell'universo dei campioni
X i  X  e S y2 




n  1 i 1
m  1 i 1
legge di distribuzione del tipo F con (m - 1) e (n - 1) gradi di libertà. Infatti, se
dove S x2 
266
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
l'ipotesi H 0 :σ x2  σ y2 è vera si ha
m 1 S x2 / m- 1
σ x2
S x2
.

n 1 S y2 / n- 1 S y2
σ y2
Se si vuole quindi risolvere il problema espresso dalle ipotesi
H 0 :  x2   y2
H 1 : σ x2  σ y2
basterà fissare il livello di significatività  , e determinare poi il valore critico c che
bipartisce l'intervallo (0 ,+  ) (si ricordi che la variabile casuale F è definita in tale
intervallo) in modo che sia
P  F  c / σ x2  σ y2   
Si accetta l'ipotesi nulla H 0 :σ x2  σ y2 se la determinazione
f 
sx2
della variabile
sy2
S x2
casuale F  2 , relativa al campione specifico, risulta inferiore al valore critico, si
Sy
rifiuta altrimenti.
Esempio 4.22
Un campione di 20 ragazzi e di 15 ragazze è stato sottoposto a una prova d'esame. La
votazione media dei ragazzi è stata 78/100, mentre quella delle ragazze è stata 84/100; la
variabilità dei risultati, misurata dallo scostamento quadratico medio corretto, è stata,
rispettivamente, pari a 6/100 per i ragazzi e 8/100 per le ragazze. Si vuol sottoporre a test
l'ipotesi di uguaglianza delle varianze σ x2 e σ 2y nelle due popolazioni contro l'ipotesi
alternativa σ x2 < σ 2y , al livello di significatività  = 0,05, presupponendo la normalità delle
due distribuzioni.
Il problema di test d'ipotesi può essere formulato nei seguenti termini
H 0 :  x2   y2
H1   x2  σ y2
Poiché le variabili casuali
S y2 (n - 1)
S x2 (m - 1)
e
σ x2
σ y2
dove m ed n rappresentano le dimensioni campionarie, S x2 e S y2 le varianze campionarie
corrette, hanno nell'universo dei campioni distribuzione del tipo 2 con, rispettivamente,(m - 1)
267
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
ed (n - 1) gradi di libertà ed essendo i due campioni indipendenti, la variabile casuale
 m - 1 S x2
Fm ,n
/  m - 1
2
S x2  y
σ x2



S y2  x2
 n - 1 S y2
/  n - 1
σ 2y
è distribuita secondo una F di Fisher-Snedecor con (m-1) e (n-1) gradi di libertà. Sotto
l'ipotesi nulla H 0 :  x2   y2 , cioè quando l'ipotesi nulla è vera, la variabile casuale diventa
S x2
F  2
Sy
Il valore critico che definisce la zona di accettazione al livello  = 0,05 di significatività è
c  Fm,n; =
1
Fn ,m;

1
2,26
, che rappresenta la particolare determinazione della
variabile casuale F, con 15-1 = 14 e 20-1 = 19 gradi di libertà e che ha alla sua destra il
5% dei casi.
Essendo il valore campionario
F 
82
 1,78
62
inferiore al valore critico 2,26 si accetta l'ipotesi di uguale varianza attribuendo a fattori
accidentali la differenza riscontrata nel campione.
Esempio 4.23
Lo scostamento quadratico medio dello spessore di una particolare lamina metallica già in
commercio è sufficientemente ridotto, il che consente un suo facile utilizzo nella fase di
assemblaggio della componente stessa. Un nuovo produttore di lamine metalliche afferma che
il suo prodotto, offerto ad un prezzo inferiore, presenta una variabilità dimensionale non
superiore a quello già presente nel mercato.
Due campioni casuali di 100 lamine dei due prodotti vengono sottoposti a misurazione
evidenziando i seguenti risultati
S x2 
100
  x  x
i
/ 99  0,041
i
 y  / 99  0,058
2
i 1
per il prodotto X già presente sul mercato,
S y2 
100
y
i 1
2
per il nuovo prodotto Y.
Si chiede se risulta conveniente procedere all'acquisto del nuovo prodotto al livello di
significatività del 5%.
Le ipotesi per il problema sono
H 0 : σ 2x  σ 2y
268
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H 1 : σ x2  σ y2
La variabile casuale test di riferimento
 m - 1 S x2
σ x2
 n - 1 S y2
σ y2
/  m - 1
/  n - 1
S x2  y
 2 2
Sy  x
2
ha, nell'universo dei campioni una distribuzione del tipo F di Fisher-Snedecor con
(m - 1) e (n - 1) gradi di libertà.
Nel caso specifico, e sotto l'ipotesi H0 (cioè quando l'ipotesi nulla all’estremo dell’intervallo di
definizione H 0 : σ 2x  σ 2y è vera), si ha il valore critico c = 1,39.
La regola di decisione è quella di rifiutare l'ipotesi H0 se l'F empirico è superiore a 1,39
mentre di accettare l'ipotesi se l'F empirico è inferiore a 1,39.
Essendo F 
0,041
 0,7069  1,39 si accetta l'ipotesi H0 concludendo che, avendo una
0,058
probabilità di sbagliare del 5%, la variabilità nello spessore delle nuove lamine non è
inferiore o uguale a quello delle vecchie lamine e non si procede al cambiamento del fornitore.
4.6.4 Confronto per dati appaiati
Nelle pagine precedenti è stato considerato il problema del confronto fra due campioni
nell'ipotesi di indipendenza assoluta tra gli elementi che li compongono; nel lavoro di
ricerca può accadere però di dover analizzare situazioni nelle quali una tale condizione
non risulta completamente soddisfatta. Può accadere cioè che tra le osservazioni, relative
ai due campioni che devono essere sottoposti a confronto, esista una qualche relazione in
modo tale da rendere possibile un confronto diretto fra ogni osservazione di un campione
con la controparte dell'altro campione. Un esempio classico è rappresentato dal caso in
cui le coppie di osservazioni siano relative ad una stessa unità statistica (la stessa unità
sperimentale prima della cura e dopo la cura, il fatturato di una stessa azienda prima e
dopo una specifica campagna pubblicitaria, ecc.), anche se vanno naturalmente riferite,
almeno a priori, a due differenti popolazioni.
Si indichi con ( Xi ,Yi ) l'i-esimo elemento di un insieme costituito da n coppie di
osservazioni, e si assuma che la differenza Vi = Xi - Yi (i = 1, 2,...,n) rappresenti
un'unità campionaria casuale relativa ad una popolazione normale di media v e varianza
 v2 . Allora la variabile casuale
T
V  v
Sv / n
269
~ t n 1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
n
1 n
2
V

X

Y
e
S

(Vi  V )2 /(n  1)
i

v
n i 1
i 1
ha, nell'universo dei campioni, una distribuzione del tipo t di Student con n-1 gradi di
libertà.
Utilizzando la variabile casuale test T espressa nella formula sopra scritta sarà
possibile sottoporre a test l'ipotesi H 0 : μ v  0 , contro un'ipotesi alternativa
dove : V 
bidirezionale o unidirezionale, seguendo di pari passo la procedura esposta al punto
precedente.
Esempio 4.24
Si supponga di voler confrontare due diversi metodi di misura della percentuale di amido
presente in un particolare tipo di patate. Si fissa a tal fine un livello di significatività = 0,05
e si effettuano le due misurazioni su sedici patate. I risultati dell’operazione di misura, e le
differenze riscontrate in ciascuna patata, sono riportati nella tabella che segue
n.progressivo
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
Percentuale di amido
Metodo di mis A
Metodo di mis B
(x)
(y)
21,7
21,5
18,7
18,7
18,3
18,3
17,5
17,4
18,5
18,3
15,6
15,4
17,0
16,7
16,6
16,9
14,0
13,9
17,2
17,0
21,7
21,4
18,6
18,6
17,9
18,0
17,7
17,0
18,3
18,5
15,6
15,5
Differenze
0,2
0,0
0,0
0,1
0,2
0,2
0,3
-0,3
0,1
0,2
0,3
0,0
-0,1
0,1
-0,2
0,1
Tab. 4.5 - Percentuale di amido presente in 16 patate
Dai dati della tabella si ottiene
v  0,075 ; sv  0,17
ne risulterà pertanto una determinazione campionaria della variabile casuale T pari a
0,075×4
= 1,7
0,17
Se interessa sottoporre a test l'ipotesi nulla H 0 : μ v  0 contro l'ipotesi alternativa
t =
270
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
H 1 : μ v  0 (che sono equivalenti a H0 : µx = µy e H1 : µx  µy), si deve ricercare il
valore critico c che soddisfa la relazione
P ( -c  T  c) = 0,95
Dalle tavole della distribuzione t di Student, in corrispondenza a 15 gradi di libertà, risulta
c = 2,131
Essendo t = 1,7 < c = 2,131, si deve accettare la ipotesi di uguaglianza tra i due metodi di
misura della percentuale di amido nelle patate.
Esempio 4.25
I corsi per la lettura veloce dei testi sono ormai abbastanza popolari e diffusi. Si supponga che
una particolare azienda di fornitura di servizi abbia fatto partecipare dieci suoi dipendenti,
scelti casualmente, ai suddetti corsi e che abbia registrato i seguenti risultati
Impiegato
1
2
3
4
5
6
7
8
9
10
Valutazione capacità di lettura
dopo il corso
221
231
203
216
207
203
201
179
179
211
Valutazione capacità di lettura
prima del corso
211
216
191
224
201
178
188
159
177
197
La valutazione della capacità di lettura risulta da una combinazione della velocità e della
comprensione del testo letto. Cosa si può concludere riguardo all'efficacia del corso?
La valutazione delle capacità di lettura è stata effettuata sugli stessi individui prima e dopo la
partecipazione al corso, si tratta perciò di dati appaiati del tipo (xi , yi ), dove yi rappresenta
la valutazione dopo la partecipazione al corso mentre xi la valutazione prima della
partecipazione. Se si indicano con x e y le valutazioni medie teoriche relative alle due
situazioni (prima e dopo il corso) configurate, il problema di verifica d'ipotesi ha la seguente
formulazione
H0 : μ x  μ y
H1 : μ x  μ y
e può essere risolto facendo riferimento alla variabile casuale test
T
V  v
Sv / n
dove
271
~ t n 1
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
1
V=
n
(Y - X ); μ =μ - μ
Sv =
1
n-1
n
i
i
v
x
y
i=1
 Y - X  -V 
n
i
2
i
i=1
che, nell'universo dei campioni, ha distribuzione t di Student con n-1 gradi di libertà.
Sotto l'ipotesi
H0, per 10-1 = 9 gradi di libertà e al livello di significatività
 = 0,01, il punto critico (test unidirezionale) è t = 2,82. La regola di decisione è quello di
rifiutare l'ipotesi H0 se il t empirico è  2,82 accettare l'ipotesi se il t empirico è inferiore a
2,82. Poiché v = 10,9;sv = 9,28 il t empirico
t=
v
sv / 10
=
10,9
= 3,715
9,28/ 10
è maggiore di 2,82 ,si rifiuta, pertanto, l'ipotesi d'uguaglianza con una probabilità d'errore
dell’1%. Si rifiuta cioè l'ipotesi che la partecipazione al corso non abbia influenza sulla
capacità di lettura degli individui che ne fruiscono.
Si deve sottolineare che per la risoluzione dei problemi di confronto considerati nei
due esempi precedenti si poteva fare riferimento, presupponendo l'indipendenza dei due
campioni, alla variabile casuale test T; in tal caso la stima della varianza incognita 2
σ
2
x

 σ y2  σ 2 si poteva ottenere, come abbiamo visto, attraverso una combinazione
delle stime calcolate sui singoli campioni. Si deve, però, osservare che il test t applicato
alle coppie di osservazioni, presenta il vantaggio d'eliminare l'influenza di fattori estranei
in quanto essi, avendo lo stesso effetto su ciascuna unità campionaria, verrebbero a
compensarsi nelle differenze vi. Va inoltre detto che la procedura di test basata sulla
singola osservazione, almeno così come è stata esposta, parte dall'assunto che i dati
campionari derivino da popolazioni con identica varianza mentre la procedura di test
sopra esposta non richiede il soddisfacimento della condizione di uguaglianza delle
varianze delle due popolazioni.
Nel caso in cui sia soddisfatta la condizione

2
x
  y2   2  e si abbia ragione di
ritenere che i risultati sperimentali non siano influenzati da fattori estranei (campioni
indipendenti), è da preferire la procedura di test esposta al punto precedente. Infatti, con
una tale procedura si opera disponendo di (2n-2) gradi di libertà, il che implica una
potenza del test, rispetto alla potenza del test svolto in questo punto, che è basato su
(n-1) gradi di libertà, tanto più elevata quanto più piccola è la dimensione del campione.
4.6.5 Determinazione della dimensione campionaria
Così come per il caso di campioni estratti da una sola popolazione, anche quando si
272
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
affronta il problema del confronto tra campioni estratti da due diverse popolazioni, si può
aver interesse nell'introdurre un vincolo sul livello   H1  della potenza del test per un
prefissato livello  di significatività.
Si supponga, ad esempio, che in riferimento a popolazioni normali una differenza
μ x  μ y  10 sia rilevante e che si vuole, essere relativamente sicuri nell'individuare una
tale differenza. In termini tecnici tale obiettivo si traduce nell’individuazione di un test
con potenza sufficientemente elevata.
Se si fissano i livelli  = 0,05 e  = 0,70, il problema sopra posto può essere risolto
formulando l'ipotesi nulla
H0 : x   y  0
contro l'ipotesi alternativa
H 1 : μ x  μ y  10
La variabile casuale test
 X Y
 - μ x μ y 
σ x- y
dove σ x2
e σ 2y


X Y
 - μ x μ y 
σ x2 / m  σ y2 / n
sono le varianze delle due popolazioni m e n le dimensioni
campionarie sotto l'ipotesi nulla H 0 :  x   y  0 ed al livello di significatività
 = 0,05 deve soddisfare la relazione
 X -Y

P
 1,645   0,05
 

 x- y

ed anche
P  X - Y

 1,645   x - y
  0,05
Il vincolo sulla potenza si traduce nella relazione
 X - Y - 10
1,645   x - y - 10 
  0,70
P

 


x- y
x- y


Sapendo che il valore della variabile casuale normale standardizzata Z che ha alla sua
destra il 70% dei casi è pari a -0,524 si avrà
1,645 - 10 /  x-y  - 0,524
ed anche
 x2 y  σ x2 / m  σ y2 / n  10 2 /  1,645  0,524 2
dal quale si possono ricavare i valori di m fissando n o, alternativamente, i valori di n
fissando m od anche, se si ipotizza pari dimensione v=m=n i valori di v che soddisfano il
vincolo sulla potenza.
273
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
Se, ad esempio, si suppone che σ x2  σ y2  12
e che la dimensione campionaria
relativa alla prima popolazione sia m = 7, la dimensione n del secondo campione, al
livello  = 0,05 di significatività e con potenza  = 0,70 è data dalla relazione
144 / 7 + 144 / n ≤ 100 / 1,645 + 0,524 2


che fornisce
n ≥ 210.
Per  = 0,05 e  = 0,70 e σ x2  σ y2  12 , la dimensione campionaria v per ciascun
campione si ottiene dalla relazione
144 / v + 144 / v ≤ 100 /  1,645 + 0,524 2
che da
v = m= n ≥ 13,549.
Si sottolinea che la parità nella dimensione dei due campioni, non solo non richiede la
specifica preliminare della dimensione di uno dei due campioni, che può anche risultare
più che ragionevole in certe situazioni di ricerca (dimensione campionaria
necessariamente ridotta per ragioni di costo o altra natura) la dimensione campionaria
complessiva pari m+n=28 che soddisfa il vincolo sulla potenza è nettamente inferiore a
quella necessaria quando si fissa la dimensione di uno dei due campioni a livello molto
contenuto come nel caso sopra considerato (m = 7). Per contro, se ad es. si fissa m=12,
a parità delle altre condizioni, il valore di n che deriva dalla relazione
144 / 12 + 144 / n ≤ 100 / 1,645 + 0,524 2

deve soddisfare la disuguaglianza

n ≥ 15,558.
Esempio 4.26
Per effettuare una verifica dell'effetto di un vaccino contro la poliomielite si deve pianificare la
rilevazione (dimensionare il campione) in modo da ottenere risultati significativi sia in termini
di probabilità dell'errore di I tipo sia, per le ovvie e rilevanti conseguenze, in termini di
probabilità dell'errore di II tipo.
Vista la scarsa diffusione della malattia, ci si deve aspettare una dimensione campionaria
molto elevata sia nei confronti dei soggetti vaccinati che di quelli non vaccinati.
Supponendo che la proporzione di bambini colpiti da poliomielite sia di 30 su 100.000 (cioè
0,0003), e che il vaccino sia effettivo al 50%, il che implica una riduzione del tasso al valore
0,00015, appare ragionevole imporre la condizione di aver un'elevata probabilità, ad es. pari a
0,90 (= = 1-), di evidenziare una tale differenza.
Imponendo l'uguaglianza delle due dimensioni campionarie m = n si ottiene la seguente
particolarizzazione della formula sopra introdotta
274
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
4. Test delle ipotesi
m  n 
dove
z
e
z

p x qx  p y q y
p
x

 py
z


 z

2
2
sono le convenienti determinazioni della variabile casuale normale
standardizzata ottenuta in funzione dei prefissati livelli delle probabilità di errore  e  .
Se si assume, quindi, p x = 0,00015, p y = 0,0003,  = 0,05 e  = 0,10, si avrà
 0,00015× 1 - 0,00015  + 0,003× 1 - 0,0003 
n 
 0,00015 - 0,0003  2
275
 1,6450 + 1,282  2
= 171,400.
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Cap. 5 – Modello statistico lineare
CAP. 5 – MODELLO STATISTICO LINEARE
Introduzione
Si supponga che la manifestazione di uno specifico fenomeno, ad esempio la domanda
di un certo bene di consumo da parte delle famiglie, sia indicata con y e che sia
possibile osservare n manifestazioni del fenomeno stesso y1 , y 2 ,...., yi ,...., y n . Si
ipotizzi, inoltre, che altri caratteri, ad esempio reddito disponibile, prezzo del bene,
prezzo di beni sostitutivi, ecc., influiscano sulle determinazioni
y i . Se con
x1 , x2 ,...., x j ,...., xm
si indicano tali caratteri, è ipotizzabile tra la variabile y e le
variabili xj una relazione del tipo
y  f x1 , x2 ,...., x j ,...., xm 
che, per ciascuna unità statistica di osservazione (ad es. la famiglia), diventa
yi  f x1i , x2i ...., x ji ,...., xmi  per i = 1,2……,n.
Si supponga ora che le m variabili xj possano essere distinte in tre gruppi: le prime
k variabili x1 , x2 ,...., xk  rappresentano fenomeni osservabili e sono molto influenti sul
fenomeno y , le successive h variabili ( xk 1, xk 2 ,...., xk h ) , sempre molto influenti su
y, non sono osservabili, mentre le residue variabili
xk h1 , xk h2 ,...., xm 
sono poco
influenti su y.
Per quanto sopra detto e introducendo l’ipotesi di additività degli effetti, si può
riscrivere la relazione precedente nel modo seguente
y  f x1 , x2 ,...., xk , xk 1 , xk 2 ,...., xk h   v
dove v riassume in un’unica variabile l’effetto combinato dei fattori poco influenti.
Essendo, comunque, non osservabili le variabili ( xk 1 , xk 2 ,...., xk h ) si è costretti ad
introdurre un’ulteriore approssimazione e, sempre nell’ipotesi di additività degli effetti,
la relazione iniziale diventa
y  f x1 , x2 ,...., xk   w  v
dove la variabile w rappresenta l’effetto di fattori influenti ma non osservabili.
Ovviamente, l’approssimazione ora introdotta potrebbe risultare non del tutto
accettabile e compromettere, quindi, la capacità rappresentativa del modello.
Se si introduce un’ulteriore approssimazione: la linearità (dove la linearità va intesa
nel senso sotto precisato) degli effetti dei fattori influenti ed osservabili si ha
y   0   1  x1  ....   k  xk  z  w  v
dove z rappresenta l’effetto non lineare su y delle variabili x1 , x2 ,...., xk .
277
La relazione (modello analitico rappresentativo del legame tra il carattere y,
variabile dipendente o variabile endogena, ed i caratteri x1 , x2 ,...., xk , variabili
indipendenti o variabili esplicative o variabili esogene) può essere riscritta nella forma
y   0   1  x1  ....   k  xk  u
dove
u  z  wv
rappresenta
la
cosiddetta
componente
accidentale
e
y *   0  1  x1  ....   k  xk rappresenta la componente sistematica del modello.
Si sottolinea che la linearità è riferita ai coefficienti
variabili
x1 , x2 ,...., xk , cioè, la generica variabile
xi
 0 ,  1 ,....,  k
e non alle
può rappresentare, sia la
manifestazione osservata x di un fenomeno che si ritiene influente su y , sia qualunque
trasformazione nota di tale manifestazione ad esempio x2, x3, 1/x, log x, o anche
l’effetto combinato di più variabili (interazione)  x1  x2  ,  x3  x5  ,  x1  x2  xk  , ecc, .
Il modello statistico lineare sopra definito assume diverse caratterizzazioni in
relazione alla natura delle variabili inserite nel modello stesso. Se tutte le variabili, sia la
variabile dipendente y che le variabili esplicative xi (i = 1, 2, …., k), sono
quantitative, espresse cioè con scala di intervallo o di rapporto, il modello viene detto di
regressione lineare. Nel caso in cui la variabile dipendente ha natura quantitativa
mentre le variabili esplicative hanno natura qualitativa, sono cioè variabili categoriche
(mutabili statistiche), si parla di modello di analisi della varianza (ANOVA quale
acronimo di ANalysis Of VAriance). Quando alcune variabili esplicative hanno natura
qualitativa ed altre natura quantitativa e la variabile dipendente è quantitativa, il
modello viene detto di analisi della covarianza (ANCOVA quale acronimo di ANalysis
of COVAriance). Nel caso in cui, è la variabile dipendente ad avere natura qualitativa
mentre le variabili indipendenti sono quantitative si parla di modelli Logit, Probit e
Tobit in relazione alla trasformazione cui viene assoggettata la variabile dipendente yi
che per la sua natura politomica viene usualmente espressa dal simbolo  ij che indica la
probabilità che ha l’i-esima osservazione (i = 1, …, n) di ricadere nella j-esima
categoria (j = 1, …, m) della variabile risposta, cioè,  ij  P(Yi  j ) per (j = 1, …, m)1.
Dei modelli richiamati, in questa sede si procederà alla descrizione sufficientemente
dettagliata del solo modello di regressione lineare (semplice e multipla) e del modello
di analisi della varianza (sia nella formulazione classica, collegato al piano o disegno
degli esperimenti, sia nella sua espressione in termini di modello di regressione)
segnalando, però, che se nel modello di regressione multipla si ipotizza per la
componente accidentale l’appartenenza alla famiglia esponenziale i vari modelli
1
Nelle situazioni di ricerca nelle quali i dati raccolti sono riferiti a variabili categoriche, e che usualmente vengono
rappresentati in tabelle di contingenza (tabelle che riportano le frequenze delle osservazioni che ricadono nelle varie
combinazioni delle categorie relative alle diverse variabili), se una delle variabili viene trattata come variabile
dipendente (variabile risposta), il riferimento sono sempre i modelli logit, probit o tobit, se invece tutte le variabili
vengono trattate alla stessa stregua (in modo simmetrico) i modelli di riferimento vengono detti Log-lineari. Di
particolare interesse, soprattutto per le loro implicazioni operative, sono i modelli proposti in letteratura per trattare i
dati categorici di tipo ordinale. Sull’argomento si può consultare, tra gli altri, McCullagh e Nelder (1989).
278
elencati possono essere trattati in maniera unitaria rappresentando particolari
specificazioni di un’unica categoria che è quella dei modelli statistici lineari
generalizzati (Nelder e Wedderburn, 1972).
5.1 - Modello di regressione lineare semplice
Se si dispone di n osservazioni per ciascuna osservazione varrà la relazione:
yi  yi*  ui  β0  β1  x1i  β2i  x2i       βk  xki  ui per i  1,2,...., n
Per k = 1 , e ponendo x1  x , si ottiene l’espressione del modello di regressione
lineare semplice (una sola variabile esplicativa)
y  β0  β1  x  u  y*  u
dove y*  β0  β1  x , che per le n osservazioni disponibili, diventa
yi  yi*  ui  β0  β1  xi  ui per i  1,2,....,n.
Si ricorda che x i può rappresentare, sia la manifestazione diretta (osservazione) del
fenomeno rappresentato con il simbolo algebrico x, sia una qualunque trasformazione
nota di tale manifestazione o combinazione nota delle variabili esplicative.
Se si dispone di n coppie di osservazioni  yi , xi  sulle due variabili di interesse e si
procede alla loro rappresentazione nel piano cartesiano, Fig. 5.1 e Fig. 5.2, che
evidenziano, rispettivamente, il caso di una sola osservazione y i (i = 1,2,….,n) in
corrispondenza di ciascuna modalità x i (cfr. Fig. 1), e il caso di più osservazioni y ij
( i  1,2,....., s; j  1,2,...., ni ) in corrispondenza di ciascuna modalità x i (cfr. Fig. 5.2).
y
y
.
.
. .
.. . ... .
. .. . . . .
.
. . ...
. . . ..
.
. .
.
.…
.
x
Fig, 5.1 – Distribuzione ipotetica di coppie di osservazioni (una sola osservazione y in
corrispondenza di ciascuna modalità osservata della x ).
279
.
.
*
.
.
y
.
.
.
*
.
.
xx1
.
.
.
*
.
.
.
.
.
*
.
.
.
.
*
.
.
.
.
*
.
.
Spezzata di regressione
Costruita sulle medie delle distribuzioni
condizionate
.
x2
x3
………. x ……………….. x
i
x
xs
s-1
Fig. 5.2 - Distribuzione ipotetica di coppie di osservazioni (più osservazioni di y in
corrispondenza di ciascuna modalità osservata della x ).
In entrambe le situazioni prospettate è ipotizzabile una relazione di tipo lineare tra le
due variabili; infatti, si può osservare come le due rette sovrapposte alle nuvole di punti
(cfr. Figg: 5.3 e 5.4) rappresentino in modo abbastanza soddisfacente l’andamento dei
punti stessi.
yi*   0   1  xi
per i = 1,2,…..,n.
y
y
.
. .. .
.
.
.
.
.
x
.
. .
.
..
.
x
Fig, 5.3 – Distribuzione ipotetica di coppie di osservazioni e retta interpolante (una sola
osservazione y in corrispondenza di ciascuna modalità osservata della x ).
280
.
.
*
.
.
y
Retta di regressione
.
.
.
*
.
.
xx1
.
.
.
*
.
.
.
.
*
.
.
.
.
*
.
.
.
.
.
*
.
.
Spezzata di regressione
Costruita sulle medie delle distribuzioni
condizionate
.
x2
x3
………. x ……………….. x
i
s-1
xs
x
Fig. 5.4 - Distribuzione ipotetica di coppie di osservazioni e retta interpolante (più
osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).
Di rette sovrapponibili ai punti ne esistono un numero infinito, si tratta, allora, di
individuare quella ritenuta migliore sulla scorta di un prefissato criterio di ottimalità, Il
problema dal punto di vista statistico è, dunque, quello di procedere alla stima ottimale
dei due parametri incogniti (coefficienti che definiscono la retta) β 0 (intercetta) e β 1
(coefficiente di regressione) o, più in generale, utilizzare le n coppie di informazioni
campionarie  yi , xi  per “fare” inferenza sul modello lineare che si ritiene possa
rappresentare in maniera soddisfacente il legame che sussiste tra le due variabili di
interesse e che in una sorta di popolazione teorica (super-popolazione) dovrebbe,
prescindendo dalla componente accidentale, risultare di tipo deterministico.
Se la relazione fosse perfetta in corrispondenza di ciascun valore x i si dovrebbe
osservare un unico valore y i uguale ad y i* , in realtà, come già sottolineato, una tale
eventualità si riscontra molto raramente nella pratica operativa: la componente
sistematica del modello spiega soltanto una parte della variabile dipendente; ad
esempio, se si pensa che la domanda di un certo bene dipenda dal reddito disponibile è
abbastanza ovvio ipotizzare che non tutti i soggetti in possesso di uno stesso ammontare
di reddito domandino la stessa quantità del bene, la relazione tra reddito (variabile x) e
quantità del bene domandato (variabile y ) è, pertanto del tipo yi  yi*  u i e non
yi  yi* .
Nel modello introdotto le quantità note sono dunque y i ed x i mentre le quantità
non note sono β 0 , β 1
e, quindi,
y i* e
u i . Si tratterà allora di utilizzare le
informazioni campionarie disponibili per procedere ad una stima (puntuale o di
281
intervallo) delle entità incognite e, eventualmente, alla verifica di ipotesi statistiche sulle
entità stesse. Le stime  0 e  1 di β 0 e β 1 consentono di ottenere i valori stimati sia di
*
*
y i* , y i   0   1 xi , che di u i , ui  yi  y i .
5.1.1 Ipotesi di specificazione (caso A)
Sul modello di regressione lineare semplice vengono usualmente introdotte delle ipotesi
che specificano le condizioni di base che si ritiene, quantomeno in via di prima
approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo
particolare il modello stesso che viene detto modello classico di regressione lineare
semplice.
Le ipotesi di specificazione riguardano la variabile (esplicativa o indipendente) x i
e, soprattutto la componente accidentale u i :
1. le x i (i = 1,2,….,n) sono quantità costanti in ripetuti campioni, sono, cioè, o
variabili matematiche o determinazioni di variabili casuali, in quest’ultimo caso
l’analisi viene effettuata condizionatamente ai valori x1 , x2 ,...., xn ;
2. le variabili casuali ui hanno valore atteso (media) nullo
E  ui   0 per i = 1,2,….,n ;
3. le variabili casuali u i hanno varianza costante (omoschedasticità)
Var  ui   E  ui2    2 per i = 1,2,….,n;
4. le variabili casuali u i sono incorrelate (incorrelazione)
Cov  ui ,u j   E  ui ,u j   0
per i  j = 1,2,….,n.
Le conseguenze sulle variabili yi (anche esse variabili casuali in quanto
trasformazioni lineari di variabili casuali) 2 delle ipotesi introdotte sono:
E  yi   E  yi /xi   β0  β1  xi  yi* per i = 1,2,… ,n;
a.
b.
c.
V ar  yi   Var  yi /xi   σ 2
C ov  yi , y j   0
per i = 1,2,…,n;
per i  j = 1,2,…,n.
Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima
puntuale dei due coefficienti incogniti  0 e  1 .
Se con β̂ 0 e con β̂ 1 si indicano le due stime ottenute, ne risulta di conseguenza che
la stima di y i* è, come già sottolineato, data da
ŷi*  β̂ 0  β̂ 1  xi per i = 1,2,…,n
2
Si noti che per semplicità di notazione è stato utilizzato il carattere minuscolo yi per indicare sia le
variabili casuali che le loro determinazioni, dal contesto risulta chiara la natura assunta dal carattere. La
stessa soluzione è stata adottata anche per altri caratteri.
282
mentre la stima di ui e data da ûi  yi  ŷi* che viene detto residuo di regressione o
errore di regressione. Inoltre, a ragione dell’ipotesi E ui   0 , si ha
yˆ i*  βˆ 0  βˆ1  xi  yˆ i .
5.1.2 Stima dei minimi quadrati
Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati
sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli
statistici lineari, il modello classico di regressione lineare costituisce la specificazione
più semplice di tale classe di modelli.
Se si pone
Q  β0 , β1  
 y
n
i 1
i
 yi*

2

 y
n
i 1
i
 β0  β1  xi

2
il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori β 0 e β 1 che
minimizzano la somma dei quadrati degli scarti sopra definita. Per individuare tale
minimo basterà determinare il punto di stazionarietà (che è sicuramente un punto di
minimo avendo a che fare con una funzione quadratica il cui punto di massimo è
infinito) della funzione Q  β 0 ,β 1  che si ottiene risolvendo il sistema:
Q  β0 , β1 
0
β0
Q  β0 , β1 
0
β1
che diventa
n
Q  β0 , β1 
 n
 n

2



y

β

β

x


2
y

n
β

β




i
0
1
i
i
0
1  xi   0


β0
β0  i 1
i 1

 i 1

n
n
Q  β0 , β1 
 n
 n

2



y

β

β

x


2
y
x

β
x

β
xi2   0





i
0
1
i
i i
0
i
1


β1
β1  i 1
i 1
i 1

 i 1

cioè
n
n
 yi  n β0  β1  xi
i 1
n
i 1
 y i xi  β 0
i 1
n
n
i 1
i 1
 xi  β 1  xi2
Risolvendo il sistema delle due equazioni nelle due incognite  0 e  1 si ottiene
β̂ 0  y  β̂ 1  x
283
n
βˆ1 
 x
i 1
n
 x
i 1
 x yi
i
i
 x
2

Codev  y,x  σ xy
 2  b y/x
Devx 
σx
1
1 n
y i e x   xi .

n i 1
n i 1
E’ possibile a questo punto riproporre le Figg. 5.3 e 5.4 dove le rette interpolanti non
sono più rette generiche ma quelle (cfr. Figg. 5.5 e 5.6) che derivano dall’applicazione
del metodo dei minimi quadrati (rette dei minimi quadrati). Nella Fig. 5.6 è stata
inserita anche l’ipotesi di normalità dei valori assunti dalla variabile y in
corrispondenza di ciascun valore assunto dalla variabile x ; ma su quest’ultimo aspetto
si avrà modo di tornare successivamente.
dove y 
n
y
.
. .. .
.
.
.
y
.
.
.
. .
.
.
.
.
yˆ i *  yˆ i  ˆ0  ˆ1 xi
x
x
Fig, 5.5 – Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (una
sola osservazione y in corrispondenza di ciascuna modalità osservata della x ).
y
.
.
.

..
.
.
.
..

.
.
.
x1
x2
.
.
.

.
.
.
xi
.
.
.

..
.
.
xk
yˆ i *  yˆ i  ˆ0  ˆ1 xi
x
Fig. 5.6 - Distribuzione ipotetica di coppie di osservazioni e retta dei minimi quadrati (più
osservazioni di y in corrispondenza di ciascuna modalità osservata della x ).
284
Le varianze degli stimatori sono:




2
1
x
2

 σ 2
Var  β̂ 0   σ β̂ 0 
 n
n

xi  x 2 


i 1


1
Var  β̂ 1   σ β̂21  n
σ 2
2
  xi  x 
i 1


2

 x  x     2
1
   n i
2
n
 x j  x  


j 1


ˆ  yˆ *    2*
Var
i
yˆ
i
infatti, valendo le relazioni di uguaglianza:
 x
 x yj
n
1 n
βˆ0  y  βˆ1  x   y j 
n j 1
j 1
j
n
 x  x 
i 1
x 
2
i


n
 1 xj  x  x 
  y j  aj  y j
   n
2
j 1  n
j 1
 xi  x  


i 1


n
dove a j 
1 xj  x  x

2
n n
  xi  x 
i 1
 x
n
βˆ1 
j 1
n
j
 x yj
 x  x 
i 1
dove b j 
2
i


n
 x x 
  y j   bj  y j
  n j
2 
j 1 
j 1
   xi  x  
 i 1

n
xj  x
n
 x  x 
i 1
2
i


1
x

x

 x  x   y  n c  y
yˆ i*     n i
 j  j  j j
2
j 1  n
j 1

 xr  x 



r 1


x  x x  x
1
dove c j   n i
 j 
2
n
  xr  x 
n
r 1
285
e ricordando che la varianza di una combinazione lineare di variabili casuali
indipendenti è pari alla combinazione delle varianze delle singole variabili casuali con
coefficienti elevati al quadrato si ha:

V ar 


ai  y i  

i 1

n
n
 ai2  Var  yi
i 1
n
  σ 2  ai2
i 1
da cui:
 

 Var 

Var βˆ 0


 



n
1
n
j 1
 
Var βˆ1
2

n

j 1


n
n
n

1 x j  x   x
2
a j  y j    a j  var  y j      n


j 1
j 1
j 1 n

 x i  x 2


i 1

x
j
 x 2  x 2
n
   xi  x  2  2
i 1




 σ2   1 

 n




x
n
 x
i 1
i
2
 x




x

x


 σ2 
 Var   b j  y j    b2j  var  y j     n j
2 
j 1 
 j 1
 j 1
   xi  x  
 i 1

n
n
2
n
286
2


 σ2 





σ2



1
n
 x  x 
i 1
i
σ2
2
2

Var  yˆi*   Var 



n
n 
 n 2
x

x
 i  x  x   σ 2 
1

c

y

c

var
y


 j 

 j  j 
j
j 
n
2
j 1
j 1  n
 j 1
x

x
 r 




r 1



 n
n 
1
   2  
 j 1 n
j 1 




2

x

x
 i  x  x   2
 j 
n
2
x

x
 r 


r 1



 1 x  x

i

x

x
 j  

n
2
j 1  n
   xr  x 

 r 1

n


 σ2



ma


 1 x  x
 1
i


x

x



j
n
2
 n
j 1  n
   xr  x 

 r 1

ed anche
 xi  x 
n
n

j 1






n
 x
r 1
r
x
n
 x
2 j 1
j
 x  0
2

2
 xi  x  x  x    xi  x 
 j 
n
2
2
 n
2
x

x



r

   xr  x  
r 1

 r 1

x
n
j 1
 x 
2
j
 xi  x 
n
x
r 1
r
2
 x
2
quindi


2
1
x

x

   σ 2
Var  yˆi*     n i
2
n
 xr  x  



r 1

Seguendo la stessa procedura, risulta facile anche la derivazione della covarianza tra
le due variabili casuali stima β̂ 0 e β̂ 1

 

 1 xj  x  x   x  x 
x
 n j
 σ2   n
Cov βˆ0 , βˆ1     n
σ2
2
2
2
j 1  n
 xi  x      xi  x  
 xi  x 



i 1
i 1

  i 1

Per quanto sopra detto si ottiene
ŷi*  β̂ 0  β̂ 1  xi  y  β̂ 1 x  β̂ 1 xi  y  β̂ 1 xi  x 


n
Se si procede al calcolo della varianza dello stimatore yˆ i* basandosi su questa
espressione si ha:
287
 


 
 


Var yˆ i*  σ y2ˆ*  Var βˆ 0  βˆ1  xi  Var βˆ 0  xi2Var βˆ1  2 xi Cov βˆ 0 ,βˆ1 
i




2
1
x
1
x

  σ 2  x2 

 n
 σ 2  2 xi n
σ2
i
n
 n

 xi  x  2 
 x i  x 2
 x i  x 2




i 1
i 1
i 1






2
 xi  x   2
1
   n
σ
n
2
x j  x  


j 1


che coincide con l’espressione già ottenuta.
Si sottolinea che le stime dei minimi quadrati godono delle proprietà specificate dal
teorema che segue.
Teorema 1 (Gauss-Markov): Le stime dei minimi quadrati di  0 e 1 sono di minima
varianza nell’ambito delle stime lineari e corrette (BLUE dall’inglese Best
Linear Unbiased Estimator).
Dimostrazione
Si procederà alla dimostrazione per ˆ1 , considerazioni analoghe possono essere svolte
nei confronti di ˆ .
0
Lo stimatore ˆ1 è lineare e corretto; infatti:
 x
n
βˆ1 
j 1
j
 x  y j
n
 x
i 1
 x
2
i


xj  x
  n

2
j 1
   xi  x 
 i 1
n


n
  y  b  y (linearità)
j
j
 j 
j 1


inoltre
 
 n  x x
j
ˆ
E β1  E   n
 j 1 
2
    xi  x 
  i 1
 




 n  x x
j
 y   

j
n

 j 1 
2

   xi  x 


 i 1



  E y  
j



(correttezza)
n


x j x j  x 



n
x

x
j
j

1
      x  
  n
 1  1
1
j
n

 0
2
2
j 1
 xi  x 
   xi  x  

i 1
 i 1

Si consideri ora un generico stimatore lineare e corretto di  1 , ad esempio
ˆ
n
ˆ1    j y j , dove, per il vincolo di correttezza deve risultare
j 1
288
n
 n
 n
ˆ
E  ˆ1   E    j y j     j E  y j     j   0  1  x j   1
 
j 1
 j 1
 j 1
cioè
n

j 1
j
n

0 e
j 1
j
 x j  1.
ˆ
Tenendo conto di quanto sopra scritto, si dimostra che Varˆ1  Varˆ1 .
ˆ
Var  ˆ1     2j Var  y j    2    2j   2    j  b j  b j 
  j 1
j 1
j 1
n
n
n
2



 dove b j 







n
2
 xi  x  


i 1

xj  x
n
n
 n

2
  2     j  b j    b 2j  2    j  b j   b j  
j 1
j 1
 j 1

n
n
n
 n

2
  2    j  b j    2   b 2j  2    j  b j  b 2j  
j 1
j 1
j 1
 j 1

  2    j  b j 
n
j 1
2

 n
 j  xj
ˆ
 Var  0  2    n
 j 1
xi  x
 
i 1
 


n
j x
j 1
  x  x

2
n
i 1
n
2
i

j 1

n
i 1


1

2
xi  x 


per il vincolo della correttezza
n
 j  0 e
j 1
n

j 1
j
 xj
quindi
ˆ
Var  ˆ1    2 
 

n
j
 
2
 b j   Var ˆ1  Var ˆ1
j 1
dove, il segno di uguaglianza vale solo quando  j  b j .
Come si può osservare le varianze degli stimatori β̂ 0 , β̂ 1 e ŷ i* dipendono dalla
varianza  2 (parametro di disturbo), usualmente incognita, della componente
accidentale. Una stima corretta di tale parametro è data da
 y
n
ˆ 2 
i
 ŷi*

2
n
 û
2
i
 i 1
n2
n2
*
dove, come già sottolineato, ûi  yi  ŷi rappresentano i residui di regressione (cfr.
i 1


Fig. 5.7), mentre la stima della varianza della componente accidentale viene usualmente
detta varianza residua e misura la parte (stimata) della variabilità della y i (variabile
dipendente) non spiegata dalla variabile esplicativa x i (variabile indipendente).
289
Da quanto detto risultano le seguenti stime delle varianze degli stimatori
 
 ˆ 2ˆ
 
 σˆ β2ˆ
ˆ
Var
ˆ0
ˆ
Var
βˆ1


2
1

x
  ˆ 2
   n
2
n

 xi  x  


i 1


1
 n
 σˆ 2
2
  xi  x 
0
1
i 1


xi  x 2
1

n
n
x j  x 2


j 1

Vˆar  yˆ i*   ˆ y2ˆ * 
i


 ˆ2
σ


y
uˆ2
.
uˆ1
.
x1
ûk
. .
.
. ..
.
. ..
.
.
.
yˆ i *  yˆ i  ˆ0  ˆ1 xi
ûi
.
x2
.
xi
xn
x
Fig. 5.7 - Distribuzione ipotetica di coppie di osservazioni, retta dei minimi quadrati e residui
di regressione
5.1.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)
Se alle quattro ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore
ipotesi di normalità della distribuzione della componente accidentale
ui  N  0,  2 
per i = 1,2,...,n
ne deriva, come conseguenza diretta, la normalità della distribuzione delle yi
i.
yi  N β 0  β 1  xi ,σ 2


inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica
l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti, da cui:
ii.

̂ 0  N β 0 ,σ β̂
290
0



iii.
̂ 1  N β 1 ,σ β̂
iv.
ŷ i*  N yi* ,σ ŷ2*

1
i

n
n  2  σ̂
2
 uˆi2
n
 y  y 
i
2
i
= i 1 2  i 1
  n2 2

2
σ2
Le conseguenze espresse ai punti i., ii., iii. e iv. sono di immediata verifica, infatti:
i)
le variabili yi  β 0  β 1  xi  ui sono distribuite normalmente in quanto
v.
trasformazioni di variabili casuali normali;
le variabili ˆ , ˆ e yˆ * sono distribuite normalmente in quanto espresse da
ii)
0
1
i
combinazioni lineari di variabili casuali normali indipendenti.
Meno immediata è la conseguenza espressa al punto v. I gradi di libertà derivano dal
fatto che rispetto agli n gradi di libertà originari (le n osservazioni campionarie), due
gradi di libertà si perdono nella operazione di stima; infatti, vengono imposti due vincoli
per ottenere le stime di  0 e 1 . Pertanto, mentre le yi costituiscono n variabili
casuali indipendenti , le n variabili casuali yˆi*  yˆi , devono soddisfare i due vincoli
introdotti per ottenere le stime
 0 e 1 . Inoltre, nell’universo dei campioni, le due
variabili casuali stima ˆ0 e ˆ1 hanno distribuzione indipendente dalla variabile casuale
n
W
 û
i 1
2
i
χ
2
con n – 2
σ
gradi di libertà.
L’ipotesi di normalità già introdotta nella Fig. 5.6, trova una più esplicita
rappresentazione nella Fig. 5.8.
2
che ha, come già sottolineato, una distribuzione di tipo
291
f(u)
y
x
yˆi *  yˆi  ˆ0  ˆ1 xi
x
1
2
xi
x
Fig. 5.8 – Ipotesi di distribuzione normale della componente accidentale nel modello di
regressione lineare semplice
5.1.4 Stima di massima verosimiglianza
L’introduzione dell’ipotesi di normalità consente il calcolo della verosimiglianza del
campione e di procedere, pertanto, all’uso del metodo della massima verosimiglianza
per ottenere la stima dei parametri incogniti 0 , 1 e  2 .
La verosimiglianza del campione è data da
L

 β , β ,σ
0
n

i 1
dove
/ y1 , y2 ,...., yn ; x1 ,x2 ,....,xn   L  β0 , β1 ,σ 2 / y , x   L
2
1
1
2πσ
2
e

1
2σ
2
 yi  β0  β1  xi  2
 2π 

2 n / 2
e

1
2σ 2

β0 , β1 , σ 2

n
  yi  β0  β1  xi  2

i 1
y'   y1 , y2 ,...., yn  e x '  x1 ,x2 ,....,xn .
Le stime di massima verosimiglianza dei parametri incogniti si ottengono facilmente
derivando ed uguagliando a zero le derivate del logaritmo della verosimiglianza.
Risulta facile verificare che le stime di massima verosimiglianza
 0 e 1
coincidono con le stime dei minimi quadrati ˆ0 e ˆ1 , mentre la stima di massima
292
n
 2 è data da ~ 2 
verosimiglianza della varianza
 û
2
i
i 1
n
; ovviamente,
u~i  ûi e
~
yi  yˆ i  ~
yi*  yˆ i* .
Si segnala che per derivare le stime di massima verosimiglianza  0 e 1 si può
anche evitare il ricorso alla derivazione della verosimiglianza (o della logverosimiglianza); infatti, al riguardo basta osservare che il massimo della
verosimiglianza rispetto a β0  e β1 si ottiene quando è minima la quantità riportata ad
1
esponente dell’espressione e
2 2
n
 yi   0  1 xi 
i 1
2
n
, cioè il minimo di
 y  
i 1
i
 1  xi  che
2
0
è l’espressione di base del metodo dei minimi quadrati.
Relativamente alle stime di massima verosimiglianza ottenute si deve sottolineare
che gli stimatori  e  pur coincidendo numericamente con gli stimatori ˆ e ˆ da
0
0
1
1
questi si diversificano in quanto (Teorema di Rao) sono di minima varianza nell’ambito
degli stimatori corretti (BUE dall’inglese Best Unbiased Estimator), inoltre, la stima
~ 2 della varianza  2 non è corretta, cioè, E ~ 2    2 .
5.1.5 Stima di intervallo
Per quanto sopra richiamato, si può procedere facilmente alla derivazione delle stime di
intervallo per i parametri incogniti  0 , 1 e  2 e per le quantità yi* e y i . Infatti,
facendo riferimento alla situazione più usuale, che è quella della non conoscenza del
valore assunto dal parametro di disturbo  2 (varianza della componente accidentale),
per  prefissato si ottengono gli intervalli sotto riportati
P ˆ  t  ˆ    ˆ  t  ˆ
 1- 


0
 /2
ˆ0
0
0
 /2
ˆ0
P ˆ1  t / 2  ˆ ˆ  1  ˆ1  t / 2  ˆ ˆ
1
1

  1- 
  n  2   ˆ 2
 n  2  ˆ 2   1  
2
P 



2
12 / 2 
  / 2
Si segnala che l’ultimo intervallo è stato derivato distribuendo simmetricamente il
valore di  nelle due code della distribuzione e che l’intervallo per  0 si ottiene
attraverso i passaggi sotto riportati (ragionamento analogo vale per l’intervallo relativo
a 1 ).
Poiché

β̂ 0  N β 0 ,σ β̂20
293

si avrà
Z β̂ 0 =
β̂ 0  β 0
 N 0,1
σ β̂ 0
che non è elemento pivotale essendo incognita la varianza σ β̂20 dove è presente la
varianza della componente accidentale; infatti
σ β̂20
ma, se si tiene presente che


2
1

x
 σ 2
  n
n

xi  x 2 


i 1


n  2  σˆ 2
W
e che Z β̂ 0
 χ n-2 2
σ
e W sono variabili casuali indipendenti, si ha
2
Tβ̂ 0 
β̂ 0  β 0
β̂  β 0
W
/
 0
 t n2
σ β̂ 0
(n  2)
σ̂ β̂ 0
che rappresenta la variabile casuale t di Student con (n-2) gradi di libertà (elemento
pivotale) che consente la derivazione dell’intervallo sopra riportato applicando il
procedimento di derivazione degli intervalli di confidenza illustrato nel Cap. 3.
L’intervallo di stima relativo alle variabili yi assume particolare rilevanza; infatti,
un tale intervallo può interessare sia valori corrispondenti a valori osservati di x, cioè
x1 , x2 ,...., xn  , sia valori non osservati di tale variabile. Ad esempio, si potrebbe aver
interesse a determinare un intervallo di stima per y *p e/o per y p che corrispondono ad
un valore non osservato x p ma assumibile dalla variabile x. Quando si procede alla
stima per intervallo di y p , l’intervallo stesso assume la particolare connotazione di
intervallo di previsione e la quantità y p  βˆ 0  βˆ1 x p  uˆ p viene detto errore di
previsione.
Ipotizzando la non conoscenza della varianza σ 2 della componente accidentale,
l’intervallo per un generico valore y i* , corrispondenti a valori osservati della variabile
esplicativa xi , può essere determinato facendo riferimento alla variabile casuale t di
Student (elemento pivotale)
T ŷ* 
i
ŷ i*  y i*

ˆ ŷ*
i
ŷ i*  y i*
1
ˆ 

n

xi  x 2
 x
n
j 1
 x
2
j
ed anche per y *p e y p corrispondenti a valori non osservati di x
294
T y* 
p
yˆ *p  y *p
σˆ yˆ*
yˆ *p  y *p

1
σˆ 

n
p
x  x 
 x  x 
2
p
n
j 1
2
j
Gli intervalli, per un prefissato livello di confidenza 1- e per valori osservati e non
osservati di x, sono:


P ŷi*  tα/ 2 σ̂ ŷ*  yi*  ŷi*  tα/ 2 σ̂ ŷ*  1 - α
i
i
cioè


xi  x 2
xi  x 2
1
1
*
*
*

ˆ
ˆ
P ŷ i  tα /2 σ 
 n
 y i  ŷi  tα /2 σ 
 n

n
n
2
x j  x 
x j  x 2



j 1
j 1

e

P yˆ *p  t α/ 2  σˆ yˆ*  y*p  yˆ *p  t α/ 2  σˆ yˆ*
p
p



  1 α



 1-α
cioè


2
2



xp  x
xp  x 
1
1
*
*
*

  1 α
P yˆ p  t α/ 2  σˆ 
 n
 y p  yˆ p  t α/ 2  σˆ 
 n

n
n
x j  x 2
x j  x 2 



j 1
j 1


Capita spesso, e ciò avviene soprattutto quando si vogliono effettuare previsioni, di
essere interessati alla determinazione di intervalli di stima non per il valore teorico y *
(cioè il valore che dovrebbe assumere la variabile dipendente in assenza di effetti
accidentali e che è uguale, per le ipotesi di specificazione introdotte, al valore medio
yh*  E  yh   E  0  1 xh  uh  ma per il valore effettivo yh  0  1 xh  uh (valore
osservato od osservabile che include, quindi, anche l’effetto della componente
accidentale).
Per perseguire un tale obiettivo si deve osservare che, come già sottolineato, le stime
puntuali di un generico valore ŷ *h e ŷ h , corrispondente ad una determinazione x h (h
= i = p o qualunque altro indice), coincidono, cioè
ŷ*h  ŷ h  β̂ 0  β̂ 1  xh , le loro
varianze sono però diverse; infatti, se si considera l’errore di previsione û h  y h  ŷ h
si ha:
E  û h

E  β 0  β 1 xh  u h  β̂ 0  β̂ 1 xh   0
295


2
Var  uˆh   E  uˆh2   E   0  1 xh  uh  ˆ0  ˆ1 xh  


 E   0 - ˆ0  1 - ˆ1 xh  uh  2 


2
 Var ˆ0  Var ˆ1  xh  Cov ˆ0 , ˆ1  xh  Var  uh  

 
 
 






2 
 1
x  x 
  2  1   n h
2
 n
 x j  x  


j 1


pertanto l’intervallo di stima per y h è dato da

P ŷ h  tα/ 2 σ̂ ŷ  y h  ŷ h  tα/ 2 σ̂ ŷ
h
h
  1 -α
cioè


x  x 2
x  x 2
1
1
P  ŷ h  tα/ 2 σ̂  1   n h
 y h  ŷ h  tα/ 2 σ̂  1   n h

n
n
x j  x 2
x j  x 2



j 1
j 1

L’intervallo per
y h risulta più ampio di quello relativo ad
variabilità dovuta alla stima di


  1 α



y *h ; infatti: alla
 0 e 1 si aggiunge la variabilità indotta dalla
componente accidentale u h ; inoltre, l’ampiezza degli intervalli così determinati
dipendono fortemente dallo scarto
xh  x 
e risultano tanto più ampi quanto più il
valore di ferimento della x si allontana dal suo valore medio x . L’evidenziazione
grafica di tale situazione è riportata nella Fig. 5.9.
Intervallo di confidenza per yh
y
ŷ h  β̂ 0  β̂ 1  xh
y
Intervallo di confidenza per y *h
x
x
Fig. 5.9 – Intervalli di confidenza per i valori medi y *h e per i valori individuali y h .
296
5.1.6 Test delle ipotesi
Per quanto detto nelle pagine precedenti e nel Cap. 4, è ora possibile risolvere
facilmente qualunque problema di test delle ipotesi riguardo alle entità incognite
presenti nel modello di regressione lineare semplice. Infatti, sotto la condizione di
normalità della distribuzione della componente accidentale, basterà fare riferimento alle
variabili casuali (variabili casuali test) Tβ̂ 0 ,Tβ̂ 1 ,Tŷ" ,Tŷi e W sopra definite.
i
Se, ad esempio, si volesse risolvere il problema di test delle ipotesi
H0 :β 1  0
H1 :β 1  0
la regione di rifiuto dell’ipotesi nulla (nessun effetto della variabile esplicativa x sulla
variabile dipendente y) risulterebbe definita dai semi-intervalli ( ,  t/2) e ( t/2 ,
+).
Se il problema di test fosse
H0 :β 1  0
H1 :β 1  0
cioè, di effetto nullo contro effetto negativo (e questo potrebbe essere un caso di
interesse quando, ad esempio, x rappresenta il prezzo di un certo bene ed y la
domanda del bene stesso: al crescere del prezzo la domanda del bene dovrebbe
diminuire). La regione critica del test (rifiuto dell’ipotesi nulla) è costituita dal semiintervallo ( ,  t ).
Le procedure di test sopra richiamate derivano dall’applicazione del test del rapporto
di verosimiglianza che, come già sottolineato, fornisce (quando esiste, e i casi
considerati rientrano in questa categoria) il test uniformemente più potente, nel caso di
ipotesi alternativa unidirezionale, il test uniformemente più potente nella classe dei test
non distorti, nel caso di ipotesi alternativa bidirezionale.
5.1.7 Trasformazioni di modelli non lineari
È stato precisato che la linearità del modello di regressione semplice è riferita ai
coefficienti e non alla variabile; infatti, ad esempio, il modello y  β 0  β 1  x 3 è
perfettamente equivalente al modello y   0  1  x sopra considerato. L’equivalenza
è del tutto ovvia, infatti, se si pone z  x 3 , si ottiene il modello di regressione lineare
semplice y  β 0  β 1  z .
Le considerazioni svolte valgono quindi per tutti i modelli lineari nei parametri
incogniti che li caratterizzano. E’, tuttavia, possibile in molti casi di interesse applicare
le stesse procedure a modelli non lineari nei parametri, è ciò accade tutte le volte in cui
risulta possibile ricondursi alla situazione di linearità operando opportune
trasformazioni del modello non lineare. Ovviamente, quando si operano delle
297
trasformazioni sia le ipotesi di specificazioni sia le conclusioni cui si perviene vanno
riferite al modello trasformato e non al modello originario. Alcuni esempi significativi
sono quelli sotto riportati.
i)
y  0  x 1  eu  log y  log 0  1  log x  u ,
la trasformata logaritmica fornisce il modello doppio logaritmico
ii)
y  e0  1x  eu  log y  0  1  x  u
y  0  e1x  eu  log y  log 0  1  x  u
e y  0  x 1  eu  y  log 0  1  log x  u
le cui trasformate logaritmiche forniscono i modelli semilogaritmici.
5.2 - Coefficiente di correlazione lineare
Il coefficiente di correlazione lineare
 yx   xy  
è stato introdotto come indice
relativo di concordanza (rapporto tra l’indice assoluto di concordanza covarianza
 yx   xy ed il valore massimo che |  yx | può assumere e che è dato dal prodotto tra
gli scostamenti quadratici medi  y   x ), cioè

 yx
Codev  y, x 

 y x
Dev  y   Dev  x 
Tale coefficiente è anche uguale alla media geometrica dei due coefficienti di
σ yx Codev  y, x 
σ yx Codev  y, x 
regressione
e
. Infatti, in
b x/y  2 
b y/x  2 
σy
Dev  y 
σx
Dev  x 
riferimento al modello
yi  β 0  β 1  xi  ui la stima dei minimi quadrati (e della
Codev  y,x  σ xy
massima verosimiglianza) di β 1 è pari a βˆ1 
 2  by / x , se si ipotizza
Dev  x 
σx
un modello lineare del tipo xi   0   1  yi  vi e si introducono le usuali ipotesi di
specificazione, la stima dei minimi quadrati (e della massima verosimiglianza) di  1 è
pari a ˆ1 
Codev  y, x   yx
 2  bx / y dal che risulta quanto affermato:
Dev  y 
y
  ˆ1  ˆ1  by / x  bx / y 
 yx
Codev  y, x 

.
 y x
Dev  y   Dev  x 
Una terza, forse la più interessante, interpretazione del coefficiente di correlazione
lineare di Bravais-Pearson deriva dalle osservazioni che seguono.
Dato il modello
yi  β 0  β 1  xi  ui
per i = 1,2,….,n
298
che soddisfa alle ipotesi di specificazione introdotte, la devianza totale della variabile
osservata y è data da
Dev (T )  Dev ( y )    yi  y     yi  yˆi*  yˆi*  y  
n
n
2
i 1
2
i 1
   yi  yˆi*     yˆi*  y   Dev  r   Dev  R 
n
n
2
i 1
i 1
Dev  r     yi  yˆi* 
n
dove
2
2
viene detta devianza residua e misura la parte della
i 1
devianza totale della variabile y che non risulta spiegata dalla supposta relazione con la

n
variabile x ; Dev  R  =  ŷi*  y

2
viene detta devianza di regressione e misura
i 1
quanta parte della devianza di y è spiegata dalla relazione lineare con la variabile x .
Il rapporto tra devianza di regressione e devianza totale
Dev  R 
Dev  r 
R2 
 1
Dev T 
Dev T 
usualmente detto indice di determinazione, assume valori compresi nell’intervallo (0 ,
1): assume valore 0 quando tutti i valori ŷi  ŷi* che si trovano sulla retta di
regressione sono uguali tra loro e, quindi, uguali a y (media della variabile y ), assume
 yi  ŷi 
valore 1 quando tutti gli scarti
sono uguali a zero, cioè, quando tutti i punti
osservati si trovano sulla retta di regressione (adattamento totale del modello).
Tenendo presente che
n
n

2
Dev  R     yˆi  y   βˆ0  βˆ1  xi  y
i 1
i 1
   y  βˆ  x  βˆ  x  y 
2
n
i 1
1
1
i
2

σ
σ
2
 βˆ12    xi  x   yx4  n  σ x2  n yx2
σx
σx
i 1
2
n
2
si avrà
2
2
n  σ yx
/ σ x2
σ yx
Dev  R 
R 
 
 2 2  ρ2
2
Dev T 
nσy
σx  σ y
2
cioè: l’indice di determinazione è uguale al quadrato del coefficiente di correlazione
lineare, il che consente d’interpretare tale quadrato come misura della proporzione della
variabilità totale della variabile y che risulta spiegata dalla supposta relazione lineare
con la variabile x .
Se in corrispondenza di ciascuna modalità xi (i = 1,2,….... ,s) della variabile x , si
disponesse di più osservazioni yij (j = 1,2,….,ni), si potrebbe procedere alla seguente
scomposizione della devianza totale della variabile y
299
ni
ni
Dev (T )  Dev ( y )    yij  y     yij  yˆi*  yˆi*  yi  yi  y  
s
s
2
i 1 j 1
ni
2
i 1 j 1
ni
ni
   yij  yˆi*     yˆi*  yi     yi  y  
s
2
i 1 j 1
i 1 j 1
dove: y i 
1
ni
s
2
i 1 j 1
ni
   yij  yi 
s
s
2
2
i 1 j 1
ni
ni
   yi  yˆi*     yˆi*  y 
s
s
2
i 1 j 1
2
i 1 j 1
ni
y
j 1
ij
e le tre diverse devianze ottenute dalla scomposizione (si ricorda
che i doppi prodotti sono tutti nulli) sono di facile interpretazione: in un caso come
primo elemento di riferimento si considerano i valori che si trovano sulla retta di
regressione (cfr. Fig. 5.10), nel secondo caso il primo elemento di riferimento sono i
valori (medie di gruppo) che si trovano sulla spezzata di regressione.
y
yi j
.
uˆ i  yij  yˆi
yi j  y
yˆ i  y
.
.
ŷi
yˆ i  yi
yi
yi  y
y
ˆ0  ˆ1 xi
x
x
Fig. 5.10 – Scomposizione della devianza totale della variabile y
Se si vuole sottoporre a test l’ipotesi di un effetto “significativo” della variabile x
sulla variabile y , si può procedere come sopra indicato, cioè formulando l’ipotesi:
H 0 : 1  0
H1 : 1  0
od anche facendo ricorso ad un test di bontà di adattamento del modello.
Si è già osservato che
W
n  2 σ̂ 2
σ
2
se si considera ora la variabile
300
 χ n2 2
yˆ
Dev  R   
V

n
i 1
2
che ha legge di distribuzione
*
i
 y
2
2
 2 con un grado di libertà ed è indipendente dalla
variabile W ; che ha legge di distribuzione  2 con (n-2) gradi di libertà, la variabile
(rapporto tra due variabili  2 indipendenti divise per i rispettivi gradi di libertà)
n
W
F

V/ n  2 
  ŷ
i 1
 y
2
i
σ2

n  2  σ̂ 2
:
/ n  2 
2
σ
ha, sotto l’ipotesi H 0 : β 1  0 (quando l’ipotesi è vera) legge di distribuzione del tipo
F di Fisher-Snedecor con 1 e (n-2) gradi di libertà.
Da rilevare che sotto l’ipotesi H 0 : β 1  0 contro l’ipotesi
l’uguaglianza T
2
n2
H1 :β 1  0
vale
 F1,n2 , il che porta a concludere che nel caso di regressione lineare
semplice la procedura per sottoporre a test l’ipotesi di adattamento del modello e
l’ipotesi (bidirezionale) sul coefficiente angolare della retta di regressione sono del tutto
equivalenti. In proposito vale la pena, infine, segnalare che tale procedura equivale
anche a quella relativa al test diretto sul coefficiente di correlazione  ; infatti, sotto
l’ipotesi H 0 : ρ  0 contro l’ipotesi alternativa H 1 : ρ  0 , la variabile casuale test di
riferimento è
Tˆ 
ˆ 
 n  2
1  ˆ 2
Dev  x 
Dev  R 
ˆ
 ˆ1 
: 1
/  n  2   1  Tˆ .
1
Dev  y 
Dev T 
ˆ ˆ
1
5.3 - Modello di regressione lineare multipla
Se si dispone di n k-uple ( xi1 , xi 2 ,....., xik ) di osservazioni e per ciascuna osservazione si
ipotizza la relazione:
yi  β1  β2  xi 2  β3  xi 3       βk  xik  ui per i  1,2,...., n
dove si è
posto xi1  1 per i  1, 2,..., n, si ottiene l’espressione del modello di
regressione lineare multipla (k-1 variabili esplicative).
Utilizzando la notazione matriciale le n relazioni possono essere rappresentate in
forma compatta
y X u y u
*
n, k k ,1
n,1
n,1
dove:
y  X
*
n ,1
n , k k ,1
301
n,1
n,1
1 x12 x13  x 1 j  x1k 
 1 
 y1 
u1 




y 
 u 
1 x22 x23  x 2 j  x2 k 
  2 
 2
 2 
................................ 
.... 
.... 
.... 


 
 
 
.... 
.... 
....
................................ 


y
; X 
;    ; u 

 yi 
ui 
n ,k
n ,1

k ,1
n ,1
1 xi 2 xi 3  x ij  xik 
 j 
 
 
................................ 
.... 
.... 
.... 




.... 
.... 
................................ 
.... 
 
 
1 x x  x  x 
  k 
 yn 
un 
n
2
n
3
nj
nk


5.3.1 Ipotesi di specificazione (caso A)
Come nel caso del modello di regressione lineare semplice vengono introdotte delle
ipotesi che specificano le condizioni di base che si ritiene, quantomeno in via di prima
approssimazione, siano soddisfatte e che per la loro natura caratterizzano in modo
particolare il modello stesso che viene detto modello classico di regressione lineare
multipla.
Le ipotesi di specificazione riguardano le variabile (esplicative o indipendenti o
variabili esogene) xij e, soprattutto, la componente accidentale u i :
 
X è di rango massimo r X  k  n ed è
1. la matrice delle variabili esplicative
n,k
n,k
costituita da quantità costanti in ripetuti campioni, si tratta, cioè, o di variabili
matematiche o di determinazioni di variabili casuali, in quest’ultimo caso
l’analisi viene effettuata condizionatamente ai valori osservati;
3. il vettore casuale u ha valore atteso (media) nullo
n ,1

E u 0
n,1
n,1
4. la matrice di dispersione (matrice di varianze e covarianze) del vettore casuale u

 
n ,1
Var u  Σu  E u  u   2  I n
n ,1
'
n ,1 1, n
n,n
dove In rappresenta la matrice identità, questa ipotesi specifica che le variabili casuali
u i sono incorrelate ed omoschedastiche
Le conseguenze sul vettore casuale u delle ipotesi introdotte sono (da ora in poi si
n,1
omette per semplicità la dimensione delle matrici):
E  y   E  y / X   X  β  y*
a.
b.
Var  y   Var  y / X    y   2 I .
Sulla scorta delle ipotesi di specificazione introdotte, si può procedere alla stima
puntuale del vettore dei coefficienti di regressione incogniti  .
302
5.3.2 Stima dei minimi quadrati
Si è già avuto modo di accennare in precedenza al metodo di stima dei minimi quadrati
sottolineando, in particolare, il largo impiego del metodo stesso nell’ambito dei modelli
statistici lineari, il modello classico di regressione lineare costituisce la specificazione
più semplice di tale classe di modelli.
Se si pone
Q  β 
  y -y 
n
i 1
i
*
i
2
  y - Xβ '  y - Xβ  = y'y - β'X'y - y'Xβ + β'X'Xβ =
= y'y - 2y'Xβ + β'X'Xβ
il metodo di stima dei minimi quadrati si sostanzia nella ricerca dei valori del vettore dei
k parametri β che minimizza la somma dei quadrati degli scarti (forma quadratica)
sopra definita. Per individuare tale minimo basterà determinare il punto di stazionarietà
(che è sicuramente un punto di minimo avendo a che fare con una funzione quadratica il
cui punto di massimo è infinito) della funzione Q  β  che si ottiene risolvendo il
sistema:
 Q  β

  y'y - 2 β'X'y + β'X'Xβ 
β
β
  2 X'y  2 X'Xβ  0 
0 
-1
 X'Xβ  X'y  βˆ =  X'X  X'y
Dalle stime dei minimi quadrati β̂ si derivano le stime di y e y *
yˆ * = yˆ = X  X'X  X'y = P y
-1
dove
P = X  X'X  X'
-1
e i residui di regressione sono definiti dalla relazione
-1
uˆ = y - yˆ = y - Xβˆ = y - X  X'X  X'y =
-1
=  I - X  X'X  X'  y = M y = M u


-1
dove M =  I - X  X'X  X'  .


Le matrici idempotenti e simmetriche P ed M sopra definite vengono dette matrici
fondamentali dei minimi quadrati.
Si verificano facilmente le relazioni
P2 = P ; M 2 = M ; P X = X ; M X = 0 ; P y M y = 0 ; P + M = I
'
quindi
y = Xβˆ + uˆ = P y + M y
mentre la somma dei quadrati dei residui è data da
 y - yˆ   y - yˆ  = uˆ' uˆ = y' M
'
303
y
Se con in'  1, 1, ........,1 si indica il vettore unitario, la media delle n osservazioni
relative alla variabile y è definita da
y  1/ n i' y
mentre il vettore degli scarti è dato da s y = y - y e la somma dei quadrati degli scarti da
s 2y  s y
2
n
n
= s'y s y =  y - i y   y - i y  =   yi - y    yi - yi + yi - y  
'
2
i 1
n
n
i 1
i 1
2
i 1
n
  ( yi - yˆi ) 2    yˆi - y  - 2 ( yi - yˆi )  yˆi - y  
2
i 1
 uˆ uˆ +  yˆ - i y   yˆ - i y  - 2 y i' uˆ = uˆ uˆ + s'y s y = uˆ + s yˆ
2
'
2
dove i' uˆ = 0 , in quanto nella matrice X è presente il termine costante, e s yˆ = yˆ - y .
Le formule sopra riportate ripropongono, relativamente al modello di regressione
lineare multipla, quanto già visto trattando della regressione semplice in merito alla
scissione della devianza totale della variabile y, infatti:
Dev (T)= Dev (y)  s y
n
n
2
n
n
   yi - y     yi - yˆi + yˆi - y  
2
i 1
2
i 1
   yi - yˆi     yˆi - y   uˆ uˆ + s'yˆ s yˆ = uˆ + s yˆ
2
i 1
2
2
2
 Dev  r   Dev  R 
i 1
n
dove, come già sottolineato, Dev  r     yi  yˆi 
2
è la devianza residua che misura
i 1
la parte della devianza totale della variabile y che non risulta spiegata dalla supposta
n
relazione con le variabili x2 , x3 ,......, xk mentre Dev  R  =   yˆi  y  è la devianza di
2
i 1
regressione che misura quanta parte della devianza di y è spiegata dalla relazione,
lineare nei parametri 1 ,  2 , ......,  k , con le variabili x2 , x3 ,......, xk .
Il coefficiente di determinazione, che misura la percentuale di devianza totale della
variabile y spiegata dalla regressione, è definito da
n
R2 
Dev  R 
Dev T 
= 1-
Dev  r 
Dev T 
 1
uˆ
sy
2
2
 1
 uˆ
i 1
n
s
i 1
2
i
2
i

s yˆ
sy
2
2
ovviamente, 0  R  1.
Teorema di Gauss-Markov – Gli stimatori dei minimi quadrati dei coefficienti di
regressione
2
-1
βˆ =  X ' X  X ' y
sono i migliori stimatori nell’ambito degli stimatori lineari e corretti, sono, cioè,
BLU(E).
304
La linearità è del tutto evidente, la dimostrazione della correttezza è immediata,
infatti, ricordando che  X ' X  X ' X = I, I β = β e E  u  = 0 , si ha
-1
 

E βˆ = E  X ' X


-1

X' y = E  X' X



-1

X '  X β + u  = E  X ' X




-1
X' X β + X' X

-1
X ' u = β

Per dimostrare l’efficienza per un vettore di stimatori si deve procedere alla
definizione della matrice dell’errore quadratico medio.
-1
Per βˆ =  X ' X  X ' y si ha
 
 



'
EQM βˆ = Var βˆ =  βˆ = E  βˆ - β βˆ - β  =


'
= E  (X ' X)-1 X ' y - β (X ' X)-1 X ' y - β   =


'
= E  (X ' X)-1 X '  Xβ + u  - β (X ' X)-1 X '  Xβ + u  - β   =




.
= E (X ' X)-1 X ' uu' X(X ' X)-1  = (X ' X)-1 X ' E  uu'  X(X ' X)-1 =
= (X ' X)-1 X ' σ 2 I X(X ' X)-1 = σ 2 (X ' X)-1
ˆ
Un vettore di stimatori β̂ si dice efficiente almeno quanto un diverso stimatore β̂ se
la matrice
ˆ
A  EQM  βˆ   EQM βˆ
 
 
è semidefinita positiva (si ricorda che una matrice A si dice semidefinita positiva se
x’A x ≥ 0 per tutti gli x in Rn).
Si consideri ora un qualunque altro stimatore lineare e corretto di β
ˆ
βˆ = C' y
dove C è una matrice (n,k) di coefficienti che, a ragione del vincolo di correttezza, deve
ˆ
soddisfare la relazione E  βˆ  = E C' y = E C '  X β + u   = β cioè C ' X = I .
 
Tenendo presente che
-1
-1
ˆ
ˆ
βˆ = βˆ + βˆ - βˆ = βˆ + C ' y - X ' X X ' y = βˆ +  C ' - X ' X X '  y


si ha






'
 ˆ

ˆ
ˆ
ˆ
EQM  βˆ  = Var  βˆ  =  βˆˆ  σ 2 C ' C = E  βˆ - β   βˆ - β   =
 
 




= σ 2 (X ' X)-1 + σ 2 C ' -  X ' X  X '
-1
cioè
305

C' -  X ' X  X '
-1

'

 
-1
ˆ
EQM  βˆ  = EQM ˆ + σ 2 C' -  X ' X  X '
 
dove la matrice


C' - X ' X

-1
X'


= C' C - C' X X ' X

= C' C - X ' X


C' - X ' X
 -X X 
-1
'
-1

-1

C' -  X ' X  X '
-1

'

'
X' =

X 'C + X ' X

-1

X' X X' X

-1
=
-1
è semidefinita positiva, pertanto anche
-1
ˆ
A  EQM  βˆ  - EQM ˆ = σ 2 C' C -  X ' X 
 

 

è una matrice semidefita positiva.
In particolare, per ogni coefficiente di regressione l’errore quadratico medio (che
ˆ
coincide con la varianza) di un qualunque stimatore lineare e corretto β̂ di β è
sempre maggiore o uguale all’errore quadratico medio dello stimatore dei minimi
quadrati β̂ ; infatti:  ˆˆ   ˆ   i dove  i  0 per i =1, 2, …..,k, e l’uguaglianza si
i
i
realizza solo quando C' =  X ' X  X ' .
-1
Oltre ai coefficienti di regressione
 i è usualmente incognita anche la varianza
della componente accidentale  . Per derivare uno stimatore corretto della varianza si
osservi che3
2
 






E uˆ' uˆ = E u' Mu = tr E Muu' = tr Mσ 2 I = σ 2  n - k 
e


-1
-1
tr  M  = tr M =  I - X  X'X  X'  = tr  I  - tr  X  X'X  X'  = n - k




pertanto, una stima corretta di  2 è data da
ˆ 
2
u' u
n-k

 
1 n 2
 uˆi  E σˆ 2 = σ 2
n - k i=1
n
3
Si ricorda che la traccia di di una matrice quadrata di ordine n è definita da
tr  A  =  aii ; inoltre valgono le
i=1
seguenti relazioni:
 la traccia di uno scalare è lo scalare stesso;

tr  A   B    tr  A    tr  B  ;

tr  A× B×C   tr  C × A× B  = ..... = tr C × B× A 
306
per prodotti conformabili.
n
dove (n-k) rappresentano i gradi di libertà associati alla somma dei residui  uˆi2 che
i=1
derivano dalle n osservazioni originarie yi (che per ipotesi sono incorrelate) e dai k
vincoli cui devono soddisfare che risultano dalle k equazioni normali che consentono
di ottenere le stime dei coefficienti di regressione.
Sostituendo a  2 la sua stima ˆ 2 nell’espressione  ̂   2 (X' X)-1 , si ottiene la
stima della matrice di varianze e covarianze (matrice di dispersione) del vettore degli
stimatori β̂
Σˆ ˆ  ˆ 2 (X' X)-1 .
5.3.3 Ipotesi di specificazione (caso B: normalità della componente accidentale)
Se alle tre ipotesi di specificazione introdotte in precedenza si aggiunge l’ulteriore
ipotesi di normalità del vettore casuale
u
N  0,  2 I 
ne deriva, come conseguenza diretta, la normalità della distribuzione del vettore y
y
N  Xβ ,  2 I 
inoltre, ricordando che nel caso di variabili casuali normali la correlazione nulla implica
l’indipendenza, le variabili casuali yi risultano statisticamente indipendenti.
5.3.4 Stima di massima verosimiglianza
La funzione di verosimiglianza del vettore casuale y è espressa dalla relazione
 1
exp   2
 2
i 1
n / 2
'
 1

  2 2 
exp   2  y - Xβ   y - Xβ  
 2

il cui logaritmo è:
L  β,  2    f  yi    2 2 
n
log L  β ,  2   
n / 2
 y  x β
n
i 1
i
'
i
2



n
n
1
'
log 2  log 2 2  2  y - Xβ   y - Xβ  .
2
2
2
Le stime di massima verosimiglianza del vettore β e di  2 sono date da:


u' u
uˆ' uˆ
1 n 2
 uˆi .
n
n
n i 1
Come si può rilevare, le stime di massima verisimiglianza dei coefficienti di
regressione coincidono con le stime dei minimi quadrati, mentre la stima della varianza
è diversa e non è corretta.
β= X X
'
-1
X ye  
'
2
307


Si dimostra (teorema di Rao) che gli stimatori di massima verosimiglianza β sono
BU(E), sono, cioè, i migliori stimatori (i più efficienti) nell’ambito degli stimatori
corretti.
Da quanto sopra riportato derivano le seguenti proprietà:

β  βˆ
N β,  

N ( Xβ,  yˆ * )
y*  yˆ *
N ( Xβ,  yˆ )
y  yˆ
n
n 

2

 n - k   ˆ

2

'
uu


uˆ uˆ
 û
'

=
i 1
2
i
  n2 k

n - k   ˆ 2 uˆ' uˆ
-1
-1

2 
'
2
'

dove  yˆ = σ  X X  ,  yˆ = σ I +  X X  ; inoltre, β̂ e
 2 sono


2

incorrelate e quindi, a ragione dell’ipotesi di normalità, indipendenti; infatti:
2
2
2
2
2
*




-1
-1
E  uˆ βˆ - β   E  I - X  X ' X  X '  uu' X  X ' X  




  2 X  X ' X    2 X  X ' X   0.
-1
-1
5.3.5 Stima di intervallo e test delle ipotesi
È ora possibile procedere alla stima di intervallo e alla verifica di ipotesi statistiche sia
riguardo ai coefficienti di regressione che alla varianza della componente accidentale;
inoltre, si può procedere alla stima per intervallo delle variabili y* e y.
Se si pone V =  X ' X 
-1
e W = I -  X ' X  , risulta facile verificare le relazioni
-1
che seguono
j
N   j ,  2v jj 
y*j
N  y*j ,  2v jj 
yj
N  y*j ,  2 w jj 
dove v jj e w jj rappresentano i valori che occupano la j - esima posizione, rispettivamente,
nelle matrici V =  X ' X  e W = I -  X ' X  , che ripropone la stessa situazione già
esaminata quando si è trattato del modello di regressione lineare semplice, l’unica
differenza riguarda la variabile casuale χ 2n k che risulta ora caratterizzata da (n – k)
-1
-1
308
gradi di libertà, essendo k i parametri 1 , 2 ,....., k stimati rispetto ai 2 parametri
0 , 1 considerati in precedenza.
In particolare si ha:
j j
N  0,1
 2v jj

j

  j /  2v jj
sˆ / 
2
2


  j   j / sˆ2v jj
tn  k
Una conveniente generalizzazione di quanto sopra richiamato è rappresentata dalla
possibilità di sottoporre a verifica statistica ipotesi su specifiche combinazioni linerari
dei coefficienti di regressione:
H0 : R β = r
dove R è una matrice di dimensione (q,k) di rango q ≤ k , r un vettore di dimensione q,
con R e r noti.
Da quanto sopra riportato deriva che
R βˆ

N R β, σ 2 R  X ' X  R'
-1

e, sotto l’ipotesi nulla H 0 : R β = r , si ha
1
2


-1
R βˆ - r  R  X ' X  R' 


'
-1
 R βˆ - r 
χ 2q
pertanto, per risolvere il problema di test d’ipotesi
H0 : R β = r
H1 : R β  r
basta far riferimento alla variabile casuale test (usualmente detta statistica di Wald)
309




1
'
-1
1

'
'
 2 R βˆ - r  R  X X  R  R βˆ - r  / q

 
F
2
2
ˆ
 n  k  s /   /  n  k 
 R βˆ - r   R  X X 
'

'
-1
R' 

-1
 R βˆ - r 
sˆ 2 q
Fq ,n  k
che, come indicato, si distribuisce come una v.c. F di Fisher-Snedecor con q e (n – k)
gradi di libertà.
Se nell’ultima espressione si pone q = 1, r = 0 e R è un vettore di dimensione (1,k)
con valore pari ad 1 nel j-esimo elemento e 0 per tutti gli altri elementi, ricordando che
F1,nk  tn2k
si ottengono gli stessi risultati già considerati relativamente ai singoli coefficienti di
regressione.
Un’ipotesi statistica di particolare interesse è
H0 : 2  3    k  0
contro l’ipotesi alternativa che almeno un coefficiente sia diverso da 0. Questa ipotesi si
specifica ponendo q = k – 1 e:
0 1 0 0  0 
0 0 1 0  0 


R  .................  =  0k 1 I k 1  ;
k 1 ,k


................. 
0 0 0 0 1 
0 
0 
 
rk 1  ...
 
...
0 
Il test così specificato diventa
 R βˆ - r   R  X X 
'
F
'
-1
R' 

sˆ2 q
-1
 R βˆ - r 
Fk 1,n k
inoltre:
s yˆ /  2  k  1
2
F
uˆ /  2  n  k 
2

Dev  R  /  k  1
R2 n  k

Dev  r  /  n  k  1  R 2 n  1
L’ultima relazione scritta sta ad indicare sia il fatto che l’ipotesi
310
Fk 1,nk
H0 : 2  3    k  0
può essere espressa sia in termini di analisi della varianza (cfr. Tab. 5.1), sia la relazione
tra il valore numerico assunto dall’indice di determinazione R 2 e la significatività del
test: tanto più prossimo ad 1 è il valore assunto da R 2 tanto più significativa risulterà
la v.c. test.
Fonte di
variabilità
Regressione
Residua
Totale
Somma dei quadrati
(Devianze)
2
s yˆ
n
 s'yˆ s yˆ    yˆi  y 
Devianze
medie
k-1
s yˆ /  k  1
n-k
uˆ /  n  k 
2
n
uˆ  u u yˆ    yi  yˆi 
'
yˆ
2
n
2
s yˆ /  k  1
2
F
2
2
i 1
 s'y s y    yi  y 
F
2
i 1
2
sy
Gradi
di
libertà
uˆ /  n  k 
2
n-1
i 1
Tab. 5.1 – Analisi della varianza per il modello di regressione
Relativamente all’indice di determinazione R 2 si deve osservare che il valore
numerico assunto dell’indice stesso dipende strettamente dal numero di variabili
esplicative incluse nel modello, al limite, se il numero di tali variabili è pari ad (n – 1),
R 2  1 ; infatti, in questo caso il sistema di equazioni normali è costituito da tante
equazioni quante sono le incognite (k = n) e l’iperpiano di regressione si adatterà
perfettamente a tutti i punti osservati (la varianza residua è uguale a 0). Per tale ragione,
quando si procede alla stima di un modello di regressione multipla per misurare la bontà
di adattamento del modello ai dati osservati si fa usualmente riferimento al cosiddetto
R 2 corretto (per tener conto dei gradi di libertà) definito da:


n
1  R2 .
nk
Al crescere del numero di variabili esplicative inserite nel modello, per motivi
puramente numerici, cresce anche il valore assunto dall’indice R 2 mentre il valore
assunto dall’indice R 2 può anche diminuire, cresce solo se il coefficiente di regressione
della nuova variabile inserita risulta statisticamente significativo.
Sono stati esaminati i due casi estremi di ipotesi:
R2  1

sul singolo coefficiente di regressione H 0 :  j  0 per j  2,3,....., k ;

su tutti i coefficienti di regressione associati alle variabili esplicative
H0 : 2  3    k  0 ;
311
ovviamente, si possono sottoporre a test ipotesi su gruppi di coefficienti o su
combinazioni lineari di coefficienti specificando in modo adeguato la matrice R ed il
vettore r. Ad esempio se si vuol sottoporre a test l’ipotesi H 0 : 2  3  4  0 , si
dovrà porre:
0 1 0 0  0 
R  0 0 1 0  0  ;
3 ,k
0 0 0 1  0 
0 
r3  0  .
0 
5.4 - Modello di analisi della varianza (ANOVA)
Il termine analisi della varianza è già stato introdotto nei paragrafi precedenti per
indicare la scomposizione della variabilità presente nella variabile risposta nel modello
di regressione distinguendo la variabilità da attribuire a fattori influenti (variabilità
spiegata) dalla variabilità da attribuire a fattori accidentali (variabilità non spiegata).
Nel modello di regressione multipla si è avuto modo di procedere ad una ulteriore
scomposizione della variabilità spiegata in funzione della diversa natura dei fattori
considerati.
Storicamente però l’analisi della varianza viene introdotta facendo riferimento a
procedure di test di ipotesi dove le variabili esplicative sono di natura categorica, in
particolare si fa riferimento a situazioni sperimentali dove i fattori esplicativi sono
espressi in scala nominale (Fisher, 1925). La trattazione estesa dell’argomento rientra
nel contesto di quella parte della statistica usualmente denotata con il termine piano o
disegno degli esperimenti. Al riguardo si deve sottolineare che sarebbe più appropriato
parlare di analisi della devianza e non di analisi della varianza in quanto la
scomposizione degli effetti viene operata sulla somma del quadrato degli scarti tra
valori osservati e la loro media, cioè sulla devianza, a prescindere dal numero delle
osservazioni che entrano in gioco solo al momento della verifica delle ipotesi come
gradi di libertà associati alle diverse componenti della scomposizione della cosidetta
devianza totale.
In queste note si farà riferimento ai soli disegni fattoriali completi limitando la
trattazione alle situazioni in cui i fattori sperimentali sono al massimo 3 (one-way, twoway e three-way ANOVA).
L’esperimento fattoriale completo è caratterizzato dalla presenza di più osservazioni
sperimentali in corrispondenza di ciascuna modalità, nel caso in cui si sta trattando di un
solo fattore sperimentale, se i fattori sperimentali sono 2 o più di 2 si deve poter
disporre di più osservazioni in corrispondenza di ogni possibile combinazione delle
modalità dei fattori sperimentali considerati.
312
5.4.1 Analisi a un criterio di classificazione
Si consideri la situazione sperimentale cha prevede l’impiego di un solo fattore
sperimentale A caratterizzato da h modalità distinte Ai (i = 1, …, h) e di poter disporre
di ni risposte sperimentali in corrispondenza dell’i-esima modalità Ai; si ipotizzi, cioè,
una situazione sperimentale nella quale sono previsti h trattamenti ciascuno dei quali è
replicato ni (i = 1, 2,…., h) volte. Il modello base per procedere ad un’analisi della
varianza è
Yi = μ+αi +ui = i +ui per i = 1,2,.....,h
dove i = μ+αi la componente sistematica del modello e ui la componente accidentale,
inoltre
h

i 1
i
 0 , E  ui   0, Var  u i    2 e E (ui  u j )  0 per i  j.
Da quanto scritto deriva E Yi   i    i .
Se si dispone, come ipotizzato, di ni risposte in corrispondenza della modalità Ai il
modello per le
h
n   ni
i 1
osservazioni disponibili assume la forma
Yir    i  uir = i  uir per i  1, 2,....., h; r  1, 2,..., ni
h
dove risulta sempre soddisfatta la relazione   i  0 , inoltre
i 1
E (uir  u jr )  0 per i  j e E(uir  uis )  0 per r  s.
In sostanza la situazione prospettata si riferisce ad h gruppi distinti di soggetti i
quali, all’interno di ciascun gruppo, possono differire tra loro solo per l’effetto di fattori
di carattere accidentale mentre i soggetti appartenenti a gruppi diversi possono differire,
sia per effetto di fattori di carattere accidentale sia per effetto di fattori strutturali, le
differenze strutturali sono evidenziate dalla diversità delle medie μi = μ+αi.
A questo punto risulta facile l’interpretazione dei coefficienti αi che rappresentano
lo scarto (in più o in meno) rispetto all’intera popolazione da attribuire all’appartenenza
allo specifico gruppo i-esimo.
Se si dispone di un campione di n osservazioni distribuite, come ipotizzato, negli h
gruppi si può procedere alla risoluzione degli usuali problemi di inferenza: stima delle
h medie incognite μi = μ+αi e/o verifica di ipotesi statistiche sulle medie stesse.
L’ipotesi classica è quella di uguaglianza tra le h medie
H0 : 1  2    h  
contro l’ipotesi alternativa che sia presente una qualche differenza tra le stesse medie.
313
Un modo perfettamente equivalente di definizione dell’ipotesi nulla è
H0 : 1   2     h  0
contro l’ipotesi alternativa che un qualche αi sia diverso da zero.
Per quanto detto in precedenza risulta facile derivare le stime dei minimi quadrati
delle medie μi e di μ.
A partire dalle osservazioni yir si ottiene
ni
yi. 1 ni
yi.   yir ; y i. 
  yir  i per i  1, 2,..., h
ni ni r 1
r 1
h
h ni
1
1 h
1
y..   yi.  yir ; y..  y..   yi. 
n
n i 1
n
i 1
i 1 r 1
h
ni
 yir 
i 1 r 1
1
n
h
y
i 1
i.
 ni  
Se si considera la variabilità totale presente nelle osservazioni e si procede ad una
sua misura attraverso il calcolo della devianza totale (Dev (T) = somma dei quadrati
degli scarti dalla media) si ha
h
ni
h
ni
Dev T    ( yir  y.. ) 2   ( yir  y i.  y i.  y.. ) 2 
i 1 r 1
h
ni
  ( yir  y i. ) 2 
i 1 r 1
h
ni
  ( yir  y i. ) 2 
i 1 r 1
h
i 1 r 1
h
ni
 ( yi.  y.. )2 
i 1 r 1
h
(y
i.
h
ni
 ( y
i 1 r 1
ir
 y i. )( y i.  y.. ) 
 y.. ) 2  ni  Dev  r   Dev  A 
i=1
ni
h
dove Dev  r    ( yir  y i. )2 e Dev  A   ( y i.  y.. ) 2  ni .
i 1 r 1
i=1
Dev (r) misura la variabilità da attribuire all’effetto di fattori di carattere accidentale
(devianza residua) mentre Dev (A) misura la variabilità da attribuire all’effetto sia di
fattori di carattere accidentale sia all’eventuale effetto del fattore sperimentale A
(devianza sperimentale). Si tratta dell’usuale scomposizione della devianza in devianza
entro i gruppi e devianza tra i gruppi.
Se sono soddisfatte le ipotesi di specificazione poste a base del modello e si inserisce
l’ulteriore e ragionevole (per il teorema del limite centrale) ipotesi di normalità della
distribuzione della componente accidentale uir , si possono derivare senza eccessiva
difficoltà le distribuzioni campionarie delle v.c. W1 = Dev (r)/ σ2 e W2= Dev (A)/ σ2 e
dimostrare la loro indipendenza
W1  Dev  r  /  2  n2h
W2  Dev  A /  2
 h21
dove i gradi di libertà associati alla v.c. W1 sono pari al numero degli scarti indipendenti
presenti nell’espressione
h
ni
Dev  r    (Yir Y i. )2
i 1 r 1
314
che sono uguali al numero delle osservazioni indipendenti yir meno il numero di
vincoli cui gli scarti devono soddisfare, poiché all’interno di ciascuno degli h gruppi la
somma degli scarti dalla media è pari a 0, h sono i vincoli a fronte di n osservazioni
indipendenti il che comporta un numero di gradi di libertà pari a (n-h); mentre i gradi di
libertà associati alla v.c. W2 sono pari al numero degli scarti indipendenti presenti
nell’espressione
h
ni
h
Dev  A   (Y i.  Y .. )2   (Y i.  Y .. )2  ni
i 1 r 1
i 1
che sono uguali al numero delle osservazioni indipendenti meno il numero di vincoli cui
gli scarti devono soddisfare, poiché h sono le variabili indipendenti e la somma degli
scarti dalla media soddisfa un solo vincolo ( somma nulla), i gradi di libertà sono pari a
(h-1).
Se si procede alla definizione del rapporto tra le due v.c. indipendenti W1 e W2 divise
per i rispettivi gradi di libertà
h
W
W2 /  n  h 

W1 /  h  1
Dev T  /  h  1
Dev  r  /  n  h 

 (Y
i 1
h
i.
 Y .. ) 2  ni /  h  1
ni
 (Y
i 1 i 1
ir
 Y i. ) /  n  h 
Fh 1,n  h
2
la v.c. risultante W, quando l’ipotesi nulla è vera, si distribuisce come una F di FisherSnedecor con (h-1) e (n-h) gradi di libertà.
Se il valore empirico w assunto dalla v.c. W è superiore al valore riportato nelle
tavole della distribuzione F con (h-1) e (n-h) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h medie μi viene rifiutata.
Si riporta di seguito l’usuale rappresentazione tabellare dell’analisi della varianza ad
un criterio di classificazione (un solo fattore sperimentale).
Fonte di
variazione
Devianza
Gradi di
libertà
Devianza
media
F
h-1
DevM(A)=
Dev(A)/(h-1)
W=DevM(A)/
DevM (r)
n-h
DevM (r) =
Dev (r)/(n-h)
n-1
DevM (T)=
h
A
Dev  A   (Y i.  Y .. )2  ni
i 1
h
r
ni
Dev  r    (Yir Y i. )2
i 1 r 1
h
T
h
Dev T    (Y ir  Y .. )2
i 1 i 1
Tab. 5.2 - Tavola per l’analisi della varianza ad un criterio di classificazione
Lo svolgimento dell’analisi della varianza nei termini sopra descritti consente di pervenire ad
una conclusione inferenziale riguardo al possibile effetto complessivo del fattore considerato ma
315
non consente l’individuazione della modalità che hanno inciso sui risultati nel caso di rifiuto
dell’ipotesi nulla; non si individuano, cioè, gli scarti αi diversi da 0. Per poter perseguire un tale
obiettivo si deve procedere all’effettuazione di una diversa analisi, usualmente denominata
analisi delle medie, che si svolge attraverso l’introduzione del concetto di contrasto definito
come combinazione lineare tra le risposte di un esperimento i cui coefficienti sommano a zero.
Se h è il numero delle modalità che caratterizzano uno specifico fattore sperimentale risulta
possibile procedere alla verifica statistica (test d’ipotesi) sul possibile effetto di specifiche
modalità del fattore sperimentale definendo h – 1 contrasti (confronti) ortogonali).
Se in un esperimento ad un criterio di classificazione (un solo fattore sperimentale) le
modalità diverse del fattore sperimentale sono pari ad h, è possibile sottoporre a test h-1 ipotesi
indipendenti definendo h-1 contrasti (confronti) ortogonali del tipo
h
Ci   ais s per i  1, 2,..., h  1
s 1
h
C j   a js  s per j  1, 2,..., h  1
s 1
dove
h
a
is
h
a
= 0;
h
js
= 0 e  ais a js  0
.
Nel caso di un fattore caratterizzato da tre modalità due possibili confronti ortogonali
sono
s 1
s 1
s 1
3
C1   a1s  s =3  1
s 1
3
C2   a2 s  s  3  23  1 .
s 1
5.4.2 Analisi a due criteri di classificazione
Si consideri la situazione sperimentale cha prevede l’impiego di due fattori sperimentali,
il primo fattore A è caratterizzato da h modalità distinte Ai (i = 1, …, h), il secondo
fattore B è caratterizzato da k modalità distinte Bj (j = 1, …, k); in questa situazione il
numero dei trattamenti diversi è pari a h × k . Si supponga di poter disporre di nij
risposte sperimentali in corrispondenza della combinazione tra l’i-esima modalità Ai del
fattore A la j-esima modalità Bj del fattore; pertanto, il numero delle risposte disponibili
in questa situazione sperimentale è
h
k
n   nij
i 1 j 1
.
Per poter svolgere un’analisi della varianza completa quando si considerano più
fattori sperimentali è necessario effettuare uno stesso numero di replicazioni per ciascun
trattamento (esperimenti bilanciati o ortogonali). Quando tale condizione non è
316
soddisfatta si procede all’applicazione di una diversa procedura, usualmente detta
analisi della varianza per classificazioni concatenate che, comunque, non verrà trattata
in questa sede.
Nel caso di esperimenti bilanciati si ha nij = m per i = 1.2,….., h e j = 1,2,…,k, le
risposte disponibili sono pari a
n  hk m
Il modello base per procedere ad un’analisi della varianza è
Yij = μ+αi +  j +   ij +uij = ij +uij per i = 1,2,.....,h; j  1, 2,..., k
dove ij = μ+αi +  j +   ij rappresenta la parte sistematica del modello e uij la parte
accidentale, inoltre,
h

i 1
i
k

0 ,
j 1
j
h
k
i 1
j 1
 0,    ij  0,    ij  0
E  uij   0, Var  u ij    2 e E (uij  ui* j* )  0 per i, j  i* , j *.
Da quanto scritto deriva E Yij   ij    i   j    ij .
Se si dispone, come ipotizzato, di m risposte in corrispondenza di ciascun
trattamento il modello per le n = h×k×m osservazioni disponibili assume la forma
Yijr = μ+αi +  j +   ij +uijr = ij +uijr per i = 1,2,.....,h; j  1, 2,..., k ; r  1, 2,..., m
dove
E  uijr   0, Var  u ijr    2 e E (uijr  ui* j*r* )  0 per i, j, r  i* , j * , r *.
Le medie relative ai sottogruppi risultano dalle uguaglianze
i.. = μ+αi ; . j. = μ+  j ; ij. = μ+αi   j    ij .
Le risposte ai trattamenti possono essere rappresentate in una forma tabellare come
quella di seguito riportata dove (cfr. Tab. 3):
m
k
k
r 1
j 1
j 1 r 1
m
h
h
m
h
m
m
Yij .   Yijr ; Yi..   Yij .   Yijr ; Y. j .   Yij .   Yijr ; Y...   Yijr
i 1
i 1 r 1
i 1 r 1 r 1
valori questi che consentono la derivazione immediata delle medie, infatti,
1
1 m
1
1 k
1 k m
Yij .  Yij .   Yijr ; Yi.. =
Yi.. 
Yij . 

 Yijr ;
m
m r 1
k m
k  m j 1
k  m j 1 r 1
Y. j . 
h m m
1
1 h
1 h m
1
1
Y. j . 
Yij . 
Yijr ; Y... 
Y... 
Yijr



hm
h  m i 1
h  m i 1 r 1
hk m
h  k  m i 1 r 1 r 1
317
….
A1
B1
Y111
Y112
….
Y11r
….
Y11m
Y11.
….
….
….
….
….
….
….
….
….
Bk
….
Y1k1
….
Y1k2
….
….
….
Y1kr
….
….
….
Y1km
….
Y1k.
B1
Yi11
Yi12
….
Yi1r
….
Yi1m
Yi1.
….
….
….
….
….
….
….
….
….
Y1..
….
Ai
Bj
Yij1
Yij2
….
Yijr
….
Yijm
Yij.
….
….
….
….
….
….
….
….
Yi..
Bk
Y111
Y112
….
Y11r
….
Y11m
Yik.
….
….
….
….
….
….
….
….
….
Ah
B1
Yh11
Yh12
….
Yh1r
….
Yh1m
Yh1.
….
….
….
….
….
….
….
….
Bk
Yhk1
Yhk2
….
Yhkr
….
Yhkm
Yhk.
Yh..
Y…
Y.1. , Y.2. ,….,Y.k.
Tab. 5.3- Dati di base per l’analisi della varianza a due criteri di classificazione
Disponendo delle n  h  k  m risposte yijr dell'esperimento si può procedere alla stima e
alla verifica di ipotesi sulle entità incognite presenti nel modello.
Le stime dei minimi quadrati delle medie sono
y
1 m
ˆ ij .  ij .   yijr = yij . ; per i  1, 2,..., h e j  1, 2,..., k
m m r 1
y
1
1 k m
ˆ i..  i.. 
yi.. 
 yijr  yi.. ; per i  1, 2,..., h
k m k m
k  m j 1 r 1
y. j .
1
1 h m
y. j . 
 yijr = y. j. ; per j  1, 2,..., k
hm hm
h  m i 1 r 1
h
k
m
1
1
ˆ... 
y... 
yijr = y... .

hk m
h  k  m i 1 j 1 r 1
ˆ.j. 

Le ipotesi che interessa verificare sono l’eventuale effetto sui risultati sperimentali
del:
 fattore A - H0: α1 = α2=……..= αh = 0
 fattore B - H0: β1 = β 2=……..= β k = 0
 interazione tra i due fattori (AB) - H0: (α β)11= (α β)12=……..= (α β)hk = 0
318
obiettivo questo che è facilmente perseguibile procedendo ad una adeguata
scomposizione della variabilità presente nei dati, variabilità che come visto in
precedenza viene misurata attraverso il computo e della devianza totale.
h
k
m
h
Dev T    ( yijr  y... ) 2 
k
m
h
k
m
 ( y
i 1 J 1 r 1
h
k
i 1 J 1 r 1
m
  ( yijr  yij . ) 2   ( yi..  y... ) 2 
i 1 J 1 r 1
h
k
i 1 J 1 r 1
m
  ( yijr  yij . ) 2 
i 1 J 1 r 1
 yij .  yij .  yi..  yi..  y. j .  y. j .  y...  y...  y... ) 2 
ijr
h
 ( yi.. y... )2 k m 
i 1
h
k
m
h
 ( y. j. y... )2 
 ( y. j. y... )2 h m 
j 1
m
  (y
i 1 J 1 r 1
k
k
ij .
i 1 J 1 r 1
h
k
 ( y
i 1 J 1
ij .
 yi..  y. j .  y... ) 2 
 yi..  y. j.  y... ) 2 m 
 Dev  r   Dev  A   Dev  B   Dev  AB 
h
k
m
dove Dev  r    ( yijr  yij . ) 2 , Dev  A  
i 1 J 1 r 1
h
h
(y
i 1
i ..
 y... ) 2 k m, Dev  B  
k
(y
j 1
. j.
 y... ) 2 h m e
k
Dev  AB    ( yij .  yi..  y. j .  y... ) 2 m .
i 1 J 1
Nello sviluppo del quadrato tutti i doppi prodotti sono pari a zero, pertanto, la
devianza totale risulta scomposta in quattro componenti:
 Dev(r) - che misura l’incidenza sulle risposte dei soli fattori di carattere
accidentale.
 Dev(A) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore
A e dei fattori di carattere accidentale.
 Dev(B) - che misura l’incidenza sulle risposte dell’eventuale effetto del fattore
B e dei fattori di carattere accidentale.
 Dev(A B) - che misura l’incidenza sulle risposte dell’eventuale effetto
dell’interazione tra i due fattori A e B e dei fattori di carattere accidentale.
Senza eccessiva difficoltà si derivano le seguenti distribuzioni campionarie
W1  Dev  r  /  2 n2hk
W2  Dev  A /  2
h21
W3  Dev  B  /  2
k21
W4  Dev  A B  /  2
(2h1)( k 1)
Si dimostra, inoltre, che le v.c. W2, W3 e W4 hanno distribuzione indipendente da W1,
mentre hanno distribuzione del tipo F le v.c.
319
WA 
WB 
W A B  
W2 /  h  1
W1 /(n  h  k )
W3 /  k  1
W1 /(n  h  k )
W4 /  h  1 k  1
W1 /(n  h  k )


Dev  A /  h  1
Dev  r  /(n  h  k )
Dev  B  /  k  1
Dev  r  /(n  h  k )
F h1,( nhk )
F k 1,( nhk )
Dev  A B  /  h  1 (k  1) 

Dev  r  /(n  h  k )
F h 1 k 1,( n hk )
Si riporta di seguito la rappresentazione tabellare dell’analisi della varianza a due
criteri di classificazione.
Fonte di
Devianza
variazione
A
Dev  A  
Gradi di
Devianza
libertà
media
h
 (Y
 Y .. ) k  m
2
i.
h-1
i 1
B
Dev  B  
k
 (Y
 Y .. ) h  m
2
. j.
k-1
j 1
(A B)
Dev  A B  
h
k
 (Y
i 1
(h-1) x (k-1)
j 1
DevM(A)=
WA=DevM(A)/
Dev(A)/(h-1)
DevM (r)
DevM(B)=
WB=DevM(B)/
Dev(B)/(k-1)
DevM (r)
DevM(AB)=
 Y i ..  Y . j .  Y ) m
2
ij .
Dev(AB)/
(h-1)(k-1)
r
Dev  r  
h
i 1
T
Dev  T  
k
m

h
(Yijr Y ij . )
n-h x k
j 1 r 1
h
m
 (Y
i 1
2
i 1
ijr
 Y ... )
2
n-1
r 1
F
WAB=DevM(A
B)/ DevM (r)
DevM (r) =
Dev (r)/(n-h k)
DevM (T)=
Dev (r)/(n-1)
Tab. 5.4 - Tavola per l’analisi della varianza a due criteri di classificazione
Se il valore empirico wA assunto dalla v.c. WA è superiore al valore riportato nelle
tavole della distribuzione F con (h-1) e (n-h . k) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h medie μi.. viene rifiutata: il
fattore A ha effetto sui risultati sperimentali; se il valore empirico wB assunto dalla v.c.
WB è superiore al valore riportato nelle tavole della distribuzione F con (k-1) e (n-h . k)
gradi di libertà, al prefissato livello di significatività α , l’ipotesi nulla di uguaglianza
delle k medie μ.j. viene rifiutata: il fattore B ha effetto sui risultati sperimentali; se il
valore empirico wAB assunto dalla v.c. WAB è superiore al valore riportato nelle tavole
della distribuzione F con (h-1).(k-1) e (n-h . k) gradi di libertà, al prefissato livello di
significatività α , l’ipotesi nulla di uguaglianza delle h . k medie μij. viene rifiutata:
l’interazione tra i due fattori A e B ha effetto sui risultati sperimentali.
L’estensione a situazioni sperimentali che prevedono l’impiego, in modo bilanciato,
di tre o più criteri di classificazione non presenta difficoltà. Si riporta, a titolo
esemplificativo, il modello di analisi della varianza per tre fattori (analisi della varianza
320
a tre criteri di classificazione) A , B e C aventi, rispettivamente, h , k e g modalità e
ciascun trattamento è replicato m volte; in totale, il numero dei trattamenti è pari a h . k .
g, mentre il numero delle risposte è n = h × k × g × m.
Yijsr = μ+αi +  j +  s    ij +   is +     js +    ijs +uijsr = ijs +uijsr
per i = 1,2,.....,h; j  1, 2,..., k ; s  1, 2,..., g; r  1, 2,..., m
Nella tabella che segue (Tab. 5.5) è riportata la scomposizione della devianza totale
nelle devianze che interessano con i relativi gradi di libertà.
Il numero dei trattamenti è pari a h × k × g e ciascun trattamento viene replicato m
volte.
Quando il numero dei trattamenti è elevato e le possibilità di replicazione, per motivi
finanziari o di altra natura, sono limitate si procede spesso all’effettuazione di una sola
replicazione (m = 1) per ciascun trattamento. Per poter effettuare un’analisi della
varianza in tali situazioni è necessario avere informazioni a priori riguardo al possibile
effetto dell’interazione sui risultati sperimentali; se si ritiene che una qualche
interazione (usualmente quelle di ordine più elevato) non ha effetto, la variabile,
opportunamente trasformata, riferita a tale interazione (che per ipotesi risente dei soli
effetti di natura accidentale) verrà assunta come riferimento per i confronti.
321
Fonte di
variazione
A
Devianza
Gradi di libertà
h
 (Y
Dev  A  
 Y .. ) k  g  m
(h-1)
 Y .. ) h  g  m
(k-1)
2
i.
i 1
B
k
 (Y
Dev  B  
2
. j.
j 1
C
g
 (Y ..s  Y
Dev  C  
) hk m
2
..
(g-1)
s 1
(A B)
(A C)
(B C)
Dev  A B  
Dev  A C  
Dev  B C  
h
k
 (Y
i 1
j 1
h
g
 (Y
i 1
s 1
k
g
 (Y
 Y i ..  Y . j .  Y ) g  m
(h-1) (k-1)
i.s
 Y i ..  Y ., s  Y ... ) k  m
(h-1) (g-1)
. js
 Y . j .  Y ..s  Y ) h  m
(k-1) (g-1)
2
ij .
2
2
j 1 s 1
Dev  A B C  
(A B C)
R
T
h
k
i 1
j 1
 
 Yijs.  Yij..  Yi.s.  Y. js.  Yi...  Y. j..  Y..s.  Y.... 
g
2
(h-1) (k-1) (g-1)
s 1
Dev  r  
Dev  T  
    Yijsr  Yijs. 
h
k
g
m
i 1
j 1
s 1
r 1
    Yijsr  Y.... 
h
k
g
m
i 1
j 1
s 1
r 1
2
(m-1) h k g
hkgm–1 =n1
2
Tab. 5.5 - Tavola per l’analisi della varianza a tre criteri di classificazione
5.5 - Analisi della varianza e modello di regressione
A conclusione del paragrafo 5.4.1 è stato sottolineato che mediante il ricorso ai contrasti
ortogonali è possibile verificare statisticamente la presenza o meno dell’effetto di
singole modalità del fattore sperimentale per il quale è stata preliminarmente accertata
l’influenza sui risultati sperimentali senza procedere ad un adeguato sviluppo del tema.
La ragione dell’ omissione è giustificata dalla possibilità di conseguire un tale
obiettivo, in modo decisamente più soddisfacente, ricorrendo ad un diverso strumento
metodologico: il modello di regressione. A tal fine basterà procedere ad una adeguata
specificazione del modello di regressione multipla introdotto nel paragrafo 5.3
y  X  u
n,1
n,k k,1
dove
322
n,1
1 x12 x13  x 1 j  x1k 
 1 
 y1 
u1 




y 
 u 
1 x22 x23  x 2 j  x2 k 
  2 
 2
 2 
................................ 
.... 
.... 
.... 


 
 
 
.... 
.... 
....
................................ 


y
; X 
;    ; u 

 yi 
ui 
n ,k
n ,1

k ,1
n ,1
1 xi 2 xi 3  x ij  xik 
 j 
 
 
................................ 
.... 
.... 
.... 




.... 
.... 
................................ 
.... 
 
 
1 x x  x  x 
  k 
 yn 
un 
n
2
n
3
nj
nk


Se si riprende in considerazione il modello ANOVA ad un criterio di classificazione
sopra definito
Yir    i  uir = i  uir per i  1, 2,....., h; r  1, 2,..., ni
e si procede alla sua rappresentazione in forma matriciale si ha
 y11 
 y12 
:::: 


 y1n1 
 __ 
y 
 21 
 y22 
:::: 
 y2 n 
 2
 __ 
:::: 
y  
;
:::: 
n ,1
 __ 


 yh1 
 yh 2 
:::: 
y 
 hnh 
 __ 
 yh1 
y 
 h2 
:::: 
 yhnh 
1 1 0    0    0 0 
1 1 0    0    0 0 
:::::::::::::::::::::::::::::


1 1 0    0    0 0 
 _____________ 
1 0 1    0    0 0 
1 0 1    0    0 0 


:::::::::::::::::::::::::::::
1 0 1    0    0 0 
 _____________ 
:::::::::::::::::::::::::::: 
 ;
X 
n , h 1
:::::::::::::::::::::::::::: 
 _____________ 
1 0 0    0    1 0 
1 0 0    0    1 0 


:::::::::::::::::::::::::::::
1 0 0    0    1 0 
 _____________ 
1 0 0    0    0 1 


1 0 0    0    0 1 
:::::::::::::::::::::::::::::
1 0 0    0    0 1 
u11 
u12 
:::: 


u1n1 
 __ 
u 
 21 
u22 
:::: 
 
u2 n 
1 
 2
.... 
 __ 
 
::::
....
    ; u   
::::
n ,1
 i 
h 1,1
 __ 
.... 


.... 
uh1 
 
uh 2 
 h 
:::: 
u 
 hnh 
 __ 
uh1 
u 
 h2 
:::: 
uhnh 
La matrice X in forma più compatta assume la forma
n , h1
323
1n1 1n1 0n1       0n1 0n1 
1 0 1       0 0

n2 n2
 n2 n2 n2

A  X  ::::::::::::::::::::::::::::::::::::::::::::::
n , h 1
n , h 1
1nh-1 0nh-1 0nh-1      1nh-1 0nh-1 
1 0 0        0 1

nh nh
 nh nh nh

dove si è utilizzato il simbolo A, al posto di X, per evidenziare la particolare natura
della matrice, con 0ni e 1ni sono stati indicati i vettori di dimensione ni (i = 1, 2, .., h)
composti, rispettivamente di 0 e 1. Ogni singola osservazione è espressa dalla relazione
h
per r  1, 2,..., n (  ni )
Yr  0  1 A1   2 A2     h Ah  ur
i 1
e la rappresentazione matriciale del modello è
y A  u
n,h+1 h+1,1
n,1
n,1
Occorre sottolineare che la matrice A è di rango h, infatti, la prima colonna delle
n , h1
matrice stessa è pari alla somma delle successive h colonne, pertanto la matrice

B  A' A
h 1, h 1
h 1, n n , h 1
 non è invertibile.
Un modo per risolvere il problema è quello di ricorrere all’inversa generalizzata
(inversa di Penrose) oppure di procedere ad una opportuna riparametrizzazione del
modello.
Riparametrizzazione 1 - Si procede all’eliminazione della prima colonna della matrice
A (cell-means model). La matrice cosi ottenuta
n , h1
1n1 0n1       0n1 0n1 
   1
0 1       0 0

  2
n2 n2
 n2 n2

*

A  ::::::::::::::::::::::::::::::::::::::: per   ::::::::

n,h
h ,1
0nh-1 0nh-1      1nh-1 0nh-1 
    h 1
0 0       0 1

    h
nh nh
 nh nh

è di rango pieno pari ad h  n , pertanto la matrice

B*  A*' A*
h ,h
h ,n n ,h







è invertibile.
In forma compatta il modello diventa
y  A*    u
n ,1
n , h h,1
n ,1
e ogni singola osservazione assume la forma
Yr  1 A2   2 A2  3 A3     h Ah  ur
La stima dei minimi quadrati dei coefficienti è
324
h
per r  1, 2,..., n (  ni ).
i 1
-1
βˆ * =  A*' A*  A*' y .
Riparametrizzazione 2 - Si procede all’eliminazione dell’ultima colonna della matrice
A (cell-reference model) ponendo αh = 0, in questo modo l’ultima categoria diventa
n , h1
il riferimento delle altre categoria e l’eventuale effetto dell’ultima modalità viene
conglobato nella media μ. Si sottolinea che il riferimento all’ultima colonna ha valore
puramente esemplificativo; infatti,la scelta, può riguardare una qualunque delle h
colonne in relazione al problema in esame tenendo presente che l’eliminazione della
colonna comporta l’impossibilità di sottoporre a test l’effetto della corrispondente
modalità del fattore in esame. La matrice che deriva dell’eliminazione dell’h-esima
assume la forma
1n1 1n1 0n1       0n1 
  h
1 0 1       0

1   h
n2
 n2 n2 n2

**

A  :::::::::::::::::::::::::::::::::::::::: per    2   h
n , h 1
h ,1
1nh-1 0nh-1 0nh-1      1nh-1 
:::::::::
1 0 0       0

 h 1   h
nh
 nh nh nh

ed è di rango massimo; pertanto, la matrice

B**  A**' A**
h,h
h,n
n,h







ammette inversa.
In forma compatta il modello diventa
y  A**    u
n,1
n,h
h,1
n,1
e ogni singola osservazione assume la forma
Yr  0  1 A1   2 A2     h1 Ah 1  ur
h
per r  1, 2,..., n (  ni )
i 1
La stima dei minimi quadrati dei coefficienti è
-1
βˆ ** =  A**' A**  A**' y .
Riparametrizzazione 3 - Una terza possibile riparametrizzazione si ottiene tenendo
conto del vincolo sui coefficienti
model). Se si pone  
h
h 1
i 1
i 1
i  0   h  i (deviation from the mean
h
1
i il vincolo viene inserito nel modello considerando la
h i 1
matrice
325
1n1 1n1 0n1        0n1 0n1 
   
1 0 1        0

1   
0
n2
n2
 n2 n2 n2

***

A  :::::::::::::::::::::::::::::::::::::::::::::::  per    2   


n,h
h ,1
1nh-1 0nh-1 0nh-1       1nh-1 0 nh-1 
::::::::: 
1  1  1     1  1 
 h 1   
nh
nh 
 nh nh nh
Si tratta di una riparametrizzazione analoga alla precedente dove, però, la categoria
di riferimento non è più l’h-esima ma una categoria media virtuale.
***
La matrice A è di rango massimo; pertanto, la matrice
n ,h

B***  A***' A***
h,h
h ,n
n ,h

ammette inversa.
In forma compatta il modello diventa
y  A***    u
n,1
n,h
h,1
n,1
che consente la derivazione delle stime dei minimi quadrati
-1
βˆ *** =  A***' A***  A***' y .
La relazione tra le media di gruppo i     i per i = 1, 2, ..., h e i coefficienti
stimati utilizzando l’ultima parametrizzazione (che tiene conto del vincolo cui devono
soddisfare i coefficienti  i ) è espressa dall’uguaglianza
 1     1  1 1 0  0    
 2      2  1 0 1 0  1 
h 1
:::::   ::::::::   :::::::::::::::::::::    ;  =  

h
i

 
 
 2 
i 1
 h 1      h 1  1 1 0 1  :::: 
 h      h  1  1  1  1   h 1 
Seguendo lo stesso procedimento si può esprimere il modello di analisi della
varianza in termini di modello di regressione quando i fattori sperimentali sono 2 o più
di 2; l’estensione a casi più generali presenta solo difficoltà formali.
5.6 - Analisi della covarianza (ANCOVA)
L’introduzione dell’ipotesi di normalità ed incorrelazione delle componenti accidentali
consente di ottenere sia stime per intervallo dei coefficienti ed intervalli di previsione,
sia di sottoporre a test ipotesi sul valore dei coefficienti stessi (se uguali o diversi da
zero) o su loro combinazioni linari (contrasti e contrasti ortogonali).
Nel paragrafo 5.3.5 è stata illustrata la formulazione di ipotesi statistiche su
combinazioni lineari dei parametri che caratterizzano il modello di regressione nella
forma generale
H0 : R β = r
H1 : R β  r
326
dove R è una matrice di dimensione (q,h) e di rango q ≤ h , r un vettore di dimensione q,
con R e r noti. Tale formulazione consente, non solo di sottoporre a test l’ipotesi di
nessun effetto totale del fattore o dei fattori e delle relative interazioni, ma di verificare
anche ipotesi sull’effetto di singole modalità o di combinazioni di modalità attraverso
l’impiego della v.c. test F
 R βˆ - r   R  X X 
'
F
'
-1
R' 

-1
 R βˆ - r 
sˆ2 q
Fq ,n k .
Basterà, infatti, sostituire alla matrice X la matrice A+ relativa al caso in esame e
procedere al computo dei gradi di libertà corrispondenti.
Nessun problema sostanziale si deve affrontare quando alcune delle variabili
esplicative hanno natura categoriche e altre quantitativa. Il modello corrispondente, che
viene detto di analisi della covarianza, nel caso in cui si considerano k-1 variabili
esplicative quantitative (che in questo contesto vengono usualmente dette covariate), un
solo fattore sperimentale caratterizzato da h modalità e si ipotizza assenza di
interazione tra variabili quantitative e la variabile categorica assume la forma
y  X  X  A     u .
n,1
n,k k,1
n,h
h,1
n,1
L’estensione a casi più generali presenta difficoltà formali di entità non trascurabile.
327
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Cap. 6 – Inferenza statistica bayesiana
CAP. 6 – INFERENZA STATISTICA BAYESIANA
Introduzione
Nei capitoli precedenti è stata affrontata, in modo quasi esclusivo, la problematica
dell’inferenza statistica parametrica, presupponendo, cioè, nota la forma analitica del
modello rappresentativo del fenomeno o dei fenomeni oggetto d’analisi mentre non
sono noti i parametri che li caratterizzano. I soli dati campionari sono stati utilizzati per
pervenire ad una stima (puntuale o di intervallo) o per sottoporre a verifica empirica
ipotesi riguardanti tali parametri.
Dopo aver fissato ragionevoli criteri di ottimalità, sono state analizzate le procedure e
le condizioni che consentono il perseguimento dei risultati che soddisfano uno o più
criteri tra quelli elencati. Sono stati dunque i parametri (costanti non note) l’oggetto
specifico della trattazione usualmente indicata come inferenza statistica classica o
frequentista secondo l’impostazione di Fisher e Neyman-Pearson.
Questo capitolo è dedicato alla trattazione, seppure molto sommaria di un modo
diverso di risoluzione dei problemi di inferenza induttiva: l’approccio bayesiano
all’inferenza statistica, basato su una filosofia di analisi dei dati alternativa a quella
propria dell’approccio classico. Nell’approccio classico i dati campionari sono l’unica
fonte utilizzata ed utilizzabile per pervenire ad una conoscenza “oggettiva”1 della realtà
rispetto alla quale non si presuppone alcuna conoscenza pregressa, mentre
nell’approccio bayesiano una tale conoscenza si presuppone e i dati campionari servono
solo per procedere al suo aggiornamento. Poiché, come più volte sottolineato, per
facilitare la comprensione della realtà caratterizzata dalla variabilità presente nelle
1
Giuseppe Pompilj (nel volume sulla teoria dei campioni 1961) scrive: “..Cercherò di illustrare il significato e la
portata delle formule di Bayes riportando alcuni brani di un mio articolo della rivista Archimede (Pompilj, 1951a).
L’esperienza quotidiana ci pone continuamente di fronte a contrasti apparentemente paradossali perché in essi le
parti invocano, a sostegno delle opposte tesi, gli stessi fatti, su cui perfettamente concordano.
Come mai, …., le parti concordano sui fatti (e talvolta anche nei minimi particolari di questi fatti) ed arrivano poi a
conclusioni contrastanti? ……..
…..Attraverso quale meccanismo ciascuno di noi si persuade di certe interpretazioni? Qual è di questa persuasione
la componente soggettiva e quella oggettiva? Si tratta di problemi assai vecchi ; e non può certo soddisfare la
spiegazione dogmatica degli antichi sofisti: l’uomo è la misura di tutte le cose …….
Nei Sei personaggi in cerca di autore quando il Capocomico interrompe la tirata della figliastra esclamando:
veniamo al fatto; veniamo al fatto, signori miei! Queste sono discussioni – Il padre, il personaggio padre - interviene
chiarendo:
Ecco, sissignore! Ma un fatto è come un sacco: vuoto non si regge: perché si regga, bisogna prima farci entrar
dentro la ragione e i sentimenti che lo han determinato.
Questa battuta del padre contiene la vera essenza del problema testé delineato; perché una volta riconosciuto,
secondo l’immagine pirandelliana, che un fatto è come un sacco, possiamo facilmente capire come a seconda di quel
che ci si mette dentro potrà assumere un aspetto piuttosto che un altro. …..”
Sullo stesso argomento si può utilmente consultare Corrado Gini che, oltre ad essere stato precursore (Gini, 1911) di
quello che viene usualmente definito come approccio bayesiano empirico all’inferenza statistica (Chiandotto,
1978), in due contributi (1939 e 1943) anticipa gran parte delle critiche rivolte alla teoria dei test di significatività
(inferenza statistica classica) negli anni successivi dai sostenitori dell’approccio bayesiano.
329
manifestazioni dei fenomeni di interesse, la realtà stessa viene rappresentata attraverso
opportuni modelli analitici (modelli probabilistici), anche per rappresentare la
conoscenza pregressa si procede all’introduzione di specifici modelli che in questo caso
però non sono rappresentativi della variabilità oggettiva insita nei dati, in quanto i
parametri che caratterizzano i modelli sono delle costanti, ma rappresentano invece una
variabilità virtuale che dipende dalla mancanza di conoscenza o dalla conoscenza
parziale di cui si dispone.
Tecnicamente il problema si risolve considerando i parametri non più delle costanti
incognite ma delle variabili casuali governate da una propria legge di distribuzione delle
probabilità (probabilità a priori).
L’approccio bayesiano viene rifiutato da una componente molto rilevante della
comunità scientifica che ritiene l’approccio stesso troppo condizionato da possibili
preconcetti che poco hanno a che vedere con l’oggettività del processo scientifico, e ciò
vale in particolare nei casi in cui si perviene alla formulazione della legge di
distribuzione a priori rifacendosi alla definizione soggettiva della probabilità 2.
Quest’ultima considerazione evidenzia un fatto su cui vale la pena richiamare
l’attenzione del lettore, e cioè sulla presunta oggettività dell’approccio classico alla
problematica dell’inferenza induttiva che assegna ai soli dati campionari il compito di
fornire informazioni sul fenomeno oggetto d’indagine: se si presuppone nota la forma
analitica del modello rappresentativo della realtà, risulta ovvio che non sono solo i dati
campionari a giocare un ruolo rilevante nel processo cognitivo, ma anche la conoscenza
pregressa che suggerisce la forma del modello. Una conoscenza pregressa che potrebbe
comunque essere fondata esclusivamente su dati campionari (dati oggettivi), ma allora
si riproporrebbe il dilemma dell’esistenza di un a priori della conoscenza pregressa in
un processo del quale non si intravede il motore primo.
La conoscenza pregressa del processo generatore dei dati è l’elemento che suggerisce
il modello probabilistico rappresentativo della realtà cui fare riferimento nell’analisi,
modello che determina anche le conclusioni cui si perviene, che possono essere molto
diverse, anche se basate sugli stessi dati campionari, se diversi sono i processi che
hanno generato i dati.
Esempio 6.1
Si supponga che in n lanci di una moneta la faccia testa si sia presentata k volte; l’evidenza
empirica disponibile è, quindi, rappresentata da k successi in n prove indipendenti. Si tratta
di una evidenza la cui rappresentazione attraverso un modello probabilistico dipende
strettamente dal processo che l’ha generata; infatti, se il numero dei lanci è prefissato, il
modello cui fare riferimento è la distribuzione binomiale; se invece il numero n dei lanci è il
risultato di un processo che richiede di effettuare tanti lanci quanti ne occorrono per il
conseguimento di k teste il modello da considerare è la distribuzione binomiale negativa. Ora,
2
Al riguardo conviene, comunque, sottolineare che in letteratura si ritrovano numerosi contributi di autori che
propongono la derivazioni di distribuzioni a priori “oggettive” a partire dalla distribuzione a priori uniforme (a priori
non informativa) proposta Laplace, a quelle proposte da Jeffreys, da Jaynes, da Bernardo e da altri autori.
330
se con p si indica la probabilità di testa, in presenza di uno stesso risultato campionario k
successi in n prove indipendenti le conclusioni cui si perviene sono diverse: nel primo caso
(numero di lanci prefissato) la variabile casuale X ha distribuzione binomiale con funzione di
massa di probabilità
n
 x
f(x) = f(x;n,p) =   p
x
1  p 
n x
n
   p x q n x
 x
la cui media e varianza sono, rispettivamente E  X   n p e Var  X   n p q ; mentre, nel
secondo caso la variabile casuale X ha distribuzione binomiale negativa (numero di insuccessi
prima di ottenere k successi) con funzione di massa di probabilità (IIIa versione)
 k  x  1 k
 k  x  1 k x
x
P( X  x)  f ( x; k , p)  
 p  (1  p)  
 p q
 x 
 x 
dove n = k + x,
la cui media e varianza sono, rispettivamente E  X  
kq
kq
e Var  X   2 .
p
p
La verosimiglianza per i due diversi processi generatori dei dati è:
10  5  1 10
15  10
1510
5
e   p / X  10   
 p 1  p 
 p  (1 p ) .
5

10 

  p / X  10   
Come si può rilevare le due espressioni sono identiche a meno della costante di
normalizzazione (permutazioni con ripetizione)
15  10  5  1 14  14 
 
      .
5
10  
 5 9
Le stime di massima verosimiglianza del parametro p (probabilità di successo) sono molto
diverse, rispettivamente,
p
k 10
k
10
  0, 67 nel primo caso e p 

 0, 4 nel
k  n 25
n 15
secondo caso.
Diverse sono anche le conclusioni cui si perviene quando si procede alla verifica di ipotesi
statistiche.
L’esempio sottolinea la rilevanza delle “conoscenze a priori” nel condizionare sia la
scelta della procedura di analisi statistica dei dati sia le conclusioni che dalle analisi
stesse derivano. L’interpretazione restrittiva e (a parere dell’autore di queste note)
scorretta dell’oggettività della scienza che esclude dal processo scientifico ogni
elemento di soggettività non può giustificare il rifiuto dell’approccio bayesiano se
basato sull’impiego di probabilità soggettive. Probabilità che derivano dal bagaglio
conoscitivo posseduto dal soggetto che è chiamato ad esprimerle e che lo caratterizzano
come scienziato. Il problema non risiede tanto nell’uso delle conoscenze a priori quanto
nella natura e nel corretto impiego delle stesse; la natura dipende dalla qualità dello
scienziato e un corretto impiego è rappresentato dalla formula di Bayes.
331
In letteratura sono stati proposti numerosi altri approcci all’inferenza statistica, oltre
a quello classico (frequentista) e quello bayesiano (soggettivista), tra i più rilevanti si
segnalano l’approccio 3:
 Fiduciale (Fisher, 1930, 1935 e 1956)
 Della verosimiglianza (Barnard, 1949, 1985; Birnbaum, 1962; Edwards,
1972; Azzalini, 1996 e Royall, 1997)
 Della plausibilità (Barndorff-Nielsen, 1976)
 Strutturale (Fraser, 1949 e 1968)
 Pivotale (Barnard, 1949, 1985)
 Prequentiale (Dawid, 1984, 1997 e 2000)
 Predittivo (Geisser, 1993)
 Bayesiano/verosimiglianza integrato (Aitkin, 2010)
6.1 La formula di Bayes
Nei capitoli precedenti sono stati illustrati i metodi che consentono la derivazione di
risultati che soddisfano a certi criteri di ottimalità predefiniti per la risoluzione di
problemi di stima (puntuale e di intervallo) o di verifica di ipotesi statistiche relative ai
parametri (uno o più costanti non note) presupponendo la conoscenza della funzione di
massa o di densità di probabilità della v.c. X
X
f  x;1 ,2 ,...,   f  x; 
e la disponibilità di un campione casuale semplice di osservazioni sulla v.c. X
X   X 1 , X 2 ,..., X i ,..., X n 
'
con funzione di massa o di densità di probabilità
f  x1 , x2 ,..., xn ;1 , 2 ,...,    f  x;    f  xi ; 
n
i 1
dove
f  xi ;   f  x;  .
Nel contesto dell’inferenza statistica classica, un ruolo particolarmente rilevante è
svolto dalla funzione di verosimiglianza. Al riguardo basta ricordare quanto detto a
proposito del metodo di stima della massima verosimiglianza e del test del rapporto di
massima verosimiglianza.
Se si osserva l’espressione analitica della funzione di massa o di densità di
probabilità del campione e della funzione di verosimiglianza
n
 funzione di verosimiglianza  L    L  ; x   f  / x    f  xi ; 
i 1
n
 funzione di massa o densità di probabilità  f  x;   f  x /     f  xi ; 
i 1
3
Sull’argomento si può consultare Barnett (1999).
332
si rileva immediatamente come ad una apparente uguaglianza formale corrisponde una
rilevante differenza sostanziale; infatti, si tratta di due probabilità condizionate, nel
primo caso, della variabile 
dato uno specifico risultato campionario
 L    f  / X  x  , nel secondo caso della variabile X dato uno specifico valore
di  .
In altri termini, le due funzioni, di verosimiglianza e di probabilità (massa o densità),
sono formalmente del tutto equivalenti ma è completamente diversa la loro
interpretazione. Nel caso della funzione di verosimiglianza l’argomento è la variabile 
o il vettore di variabili  una volta acquisita l’informazione campionaria X che
rappresenta l’elemento condizionante, mentre nella funzione di massa o di densità di
probabilità è il vettore casuale delle osservazioni campionare X la cui distribuzione
dipende dai valori assunti dal/i parametro/i  /  .
Per risolvere i problemi inferenziali si è fatto riferimento, a seconda della tipologia di
problema, a specifiche variabili casuali, verificandone il comportamento nell’universo
di tutti i possibili campioni estraibili dalla popolazione rappresentata dal modello
f  x;   f  x /   ; in particolare, sono state considerate le funzioni degli elementi
campionari:

la v.c. stimatore i  Ti  X 1 , X 2 ,..., X n   Ti  X  per i  1,2,...,

la v.c. elemento pivotale Yi  Ti  X ;i  = Ti  X / i  per 1  1, 2,...,

la v.c. test Vi  Ti  X ;i  =Ti  X / i  per i  1, 2,..., .
Nota la legge di distribuzione nell’universo dei campioni delle variabili sopra
elencate è possibile risolvere i problemi inferenziali verificando il soddisfacimento dei
criteri di ottimalità predefiniti. Al riguardo si segnala che, nella generalità dei casi,
quando il modello è caratterizzato da più parametri ma solo alcuni sono di interesse
occorre intervenire sui cosi detti parametri di disturbo, cioè sui parametri ai quali non si
è interessati ma che sono presenti quali elementi caratterizzanti la distribuzione
campionaria delle tre variabili sopra elencate e che spesso non consentono il
perseguimento dell’obiettivo prefissato. In tali circostanze, se non si riesce ad ottenere i
risultati d’interesse, qualunque sia il valore assunto dal/dai parametro/i di disturbo si
procede sostituendo al/i valore/i incognito/i del parametro/i una sua/loro stima.
Operazione quest’ultima non sempre consente il perseguimento dell’obiettivo
desiderato.
Nelle pagine seguenti si avrà modo di evidenziare come il problema della presenza di
parametri di disturbo trovi una immediata e soddisfacente soluzione nel contesto
bayesiano. Inoltre, in tale contesto è possibile affrontare e risolvere in modo
soddisfacente anche il problema della scelta del della forma analitica del modello quale
rappresentazione semplificata della realtà.
Nell’approccio bayesiano non si fa più riferimento ad un modello probabilistico
f  x;   f  x /   rappresentativo del fenomeno d’interesse noto a meno del valore
333
assunto dal/i parametro/i che lo caratterizzano ed individuano lo specifico modello
quale/i elemento/i condizionante/i, si fa invece riferimento ad una distribuzione
congiunta (di massa o di densità di probabilità)
f  x, 
Entrambi gli argomenti della funzione x e  hanno natura di variabili casuali, la
prima dovuta alla naturale variabilità del fenomeno indagato (variabilità aleatoria) la
seconda dovuta alla mancata conoscenza del suo valore numerico (variabilità virtuale o
epistemica).
Riprendendo quanto detto a proposito delle probabilità condizionate di eventi
valgono le uguaglianze
f  x,   f  x /      
f  x,     / x   f  x 
dove    rappresenta la forma analitica del modello rappresentativo del vettore
casuale  . Dalle due relazioni di uguaglianza si deriva l’espressione analitica della
formula di Bayes
f  x /      
f  x /      
  / x  

f  x
 f  x /       d  

dove è stato ipotizzato un spazio di variabilità dei parametri continuo.
Se anziché fare riferimento alla variabile X si considera il vettore casuale
campionario X   X 1 , X 2 ,..., X i ,..., X n  la formula di Bayes diventa
'
  / x  

f  x /      
f  x

f  x /      

f  x /       d  

L      
 L      
f  x
dove
f  x    f  x /       d  

definisce la distribuzione marginale di X   X 1 , X 2 ,..., X i ,..., X n  , usualmente detta
'
distribuzione predittiva a priori di X , che rappresenta la costante di normalizzazione
della distribuzione a posteriori di  , il simbolo  sta ad indicare la relazione di
proporzionalità tra le due quantità poste a confronto, mentre  L      
rappresenta nucleo (kernel in inglese) della distribuzione a posteriori4.
4
Il nucleo di una funzione di massa o di densità di probabilità è dato dalla rappresentazione analitica della stessa
funzione dopo aver omesso tutti i termini che non sono funzioni della variabile casuale di riferimento, ad esempio alla
funzione di densità di probabilità della v.c. normale
334
A fronte della distribuzione predittiva a priori si colloca la distribuzione predittiva a
posteriori
f  x / x    f  x /  , x     / x  d  

che fa riferimento ad un nuovo campione di possibili osservazioni X avendo già
osservato n manifestazioni dello stesso fenomeno X = x .
Le funzioni sopra introdotte hanno la seguente interpretazione probabilistica
  / x 
 distribuzione condizionata pel parametro/i (probabilità a posteriori )
f x / 
 distribuzione condizionata del campione (probabilità a priori del campione )
L    f  / X  x 
 distribuzione del parametro/i ( verosimiglianza )
  
 distribuzione del parametro/i (probabilità a priori )
f  x
 distribuzione marginale del campione (probabilità predittiva a priori )
f  x / x
 distribuzione marginale del campione (probabilità predittiva a posteriori )
dove la probabilità va intesa come funzione di densità di probabilità nel caso continuo e
come funzione di massa di probabilità nel caso discreto.
Le ragioni principali che hanno frenato lo sviluppo e l’impiego della teoria e dei
metodi propri dell’inferenza statistica bayesiana sono da ricercare soprattutto i due
problemi presenti nella formula di bayes. Il primo è rappresentato dal già segnalato
rifiuto da parte di molti autori del modo soggettivo con cui si perviene alla misura della
probabilità a priori    , anche a prescindere dalle difficoltà di traduzione, a volte
molto rilevanti, delle conoscenze a priori in distribuzioni di probabilità significative. I l
secondo problema risiede, invece, nella difficoltà di derivazione in forma chiusa
(analiticamente) dell’espressione
f  x    f  x /       d   .

Ad entrambi i problemi sono state proposte delle soluzioni che non sono però
condivise dall’intera comunità scientifica soprattutto per ciò che concerne il problema
della scelta della distribuzione a priori.
Una delle proposte di rilevanza non marginale, e che offre una soluzione
relativamente soddisfacente ad entrambi i problemi, è rappresentata dall’impiego delle
distribuzioni a priori coniugate introdotte nel paragrafo 14 del primo capitolo. Infatti,

f x,  / 
è associato il nucleo
e

2

1
 2 
2
n /2
e

1
2
 x 
2 2
1
 x   2
2 2
che consente di scrivere


f x,  /  2  e
335

1
2
 x 
2 2
.
tale scelta, fornendo direttamente l’espressione analitica della distribuzione a posteriori,
oltre a risultare ragionevole in molti contesti di ricerca non richiede il computo della
distribuzione marginale f  x  . In realtà, operativamente, il passaggio dalla distribuzioni
a priori coniugata alla distribuzione a posteriori avviene facendo riferimento al nucleo
della distribuzione: dal nucleo della distribuzione a priori coniugata si passa al nucleo
della distribuzione a posteriori alla cui espressione completa si perviene attraverso la
facile derivazione della costante di normalizzazione.
Il mancato ricorso all’impiego delle distribuzioni a priori coniugate richiede
necessariamente il computo dell’espressione a denominatore della formula di Bayes
che, come già sottolineato, solo in rare occasioni può essere ottenuta per via analitica.
Le stesse difficoltà di derivazione analitica si presentano allorquando si vuol
procedere ad una sintesi della distribuzione a posteriori attraverso il computo di indici
caratteristici (ad esempio i momenti della v.c.  ). Se si considera una generica funzione
g   si deve procedere, cioè, al computo della relazione
E  g      g     / x  d   

 g   f  x /       d  
 f  x /       d  
dove le difficoltà di derivazione analitica riguardano entrambi gli integrali, quello a
denominatore e quello a numeratore dell’espressione.
I metodi classici di integrazione numerica, a ragione della complessità dei problemi,
nella generalità dei casi, non portavano a soluzioni soddisfacenti cui si è invece
pervenuti attraverso il ricorso ai cosidetti metodi Montecarlo (Markov Chain Monte
Carlo - MCMC).
All’introduzione dei metodi MCMC in ambito statistico si deve sostanzialmente
attribuire l’enorme sviluppo, sia nel contesto teorico che in quello applicativo,
dell’inferenza Bayesiana.
Il principio si cui sono basati i metodi MCMC è relativamente semplice, si tratta di
effettuare operazioni ripetute di campionamento casuale da una popolazione di
riferimento fino a pervenire ad una approssimazione della distribuzione desiderata
attraverso l’impiego delle catene di Markov ricorrendo a specifici algoritmi proposti in
letteratura. Tra i più noti e di più largo impiego si segnalano l’algoritmo di MetropolisHastings, il Gibbs sampler, lo slice sampling e il perfect sampling; al riguardo si
segnala, in particolare, il software gratuito WinBUGS5.
Le difficoltà di traduzione delle informazioni a disposizione in distribuzioni di
probabilità a priori e, soprattutto, il rifiuto delle stesse in quanto caratterizzate da elevata
soggettività (preconcetti) associate alla constatazione che in molte situazioni di ricerca
5
Si tratta di un software molto flessibile sviluppato nell’ambito del progetto Bayesian inference Using Gibbs
Sampling (BUGS) che consente l’analisi bayesiana di modelli statistici complessi attraverso l’impiego di metodi
Markov Chain Monte Carlo (MCMC). Il progetto avviato nel 1989 dall’Unità Biostatistica MRC di Cambridge è
stato successivamente sviluppato da questa Unità in collaborazione con l’Imperial College School of Medicine di
Londra.
336
non si ritiene sufficiente, o del tutto assente, il bagaglio informativo disponibile a priori,
hanno suggerito l’introduzione delle cosidette distribuzioni a priori oggettive6.
Al paradigma bayesiano fanno, pertanto, riferimento almeno due scuole di pensiero:
da un lato si collocano i sostenitori della scelta soggettiva della probabilità a priori
(bayesiani soggettivisti), e in questa categoria si colloca anche l’autore di queste note,
dall’altro lato si collocano coloro che ritengono sia possibile pervenire ad una misura
“oggettiva” delle probabilità a priori (bayesiani oggettivisti). Nell’ambito di questa
seconda categoria vanno però distinti almeno 2 diversi filoni:
 i bayesiani empirici che ritengono giustificato l’impiego del metodo bayesiano
solo quando si dispone di un’evidenza empirica a priori adeguata;
 coloro che suggeriscono l’impiego di distribuzioni a priori usualmente, ma
impropriamente, dette non informative7.
In questa sede non si procederà all’approfondimento dell’argomento8 limitando
l’esposizione a brevi considerazioni su alcune tipologie di distribuzioni a priori e alla
presentazione di alcuni esempi di derivazione della distribuzione a posteriori in
dipendenza di una scelta acritica9 della distribuzioni a priori. In particolare, verranno
illustrati esempi di derivazione della distribuzione a posteriori per alcune variabili
casuali considerando le distribuzioni a priori coniugate e alcune distribuzioni a priori
non informative.
Prima di procedere nelle esemplificazioni risulta conveniente anticipare alcuni
concetti che verranno ripresi e meglio precisati nelle pagine successive.
Nell’introdurre il concetto di probabilità a priori è stata utilizzata la generica
espressione    , si tratta ovviamente di una rappresentazione che necessita di ulteriori
elementi caratterizzanti. Trattandosi di una distribuzione di massa o di densità di
probabilità, l’espressione analitica sarà generalmente caratterizzata da uno o più
parametri '  1 ,  2 ,......,  s  usualmente detti iperparametri; pertanto, per esplicitare
tale dipendenza si deve utilizzare la forma   /   per rappresentare la probabilità a
priori, mentre l’espressione della probabilità a posteriori diventa
f  x /      ,  
f  x /      ,  
  / x,   


f  x
 f  x /      ,   d  


L      ,  
 L      ,   .
f  x
6
Altri termini utilizzati per qualificare tali distribuzioni sono: non informative, di default, convenzionali, di
riferimento, non soggettive.
7
Uno dei più autorevoli sostenitori dell’approccio bayesiano oggettivo Bernardo (1997) al riguardo dichiara: ”Noninformative priors do not exist”. A dialogue with José M. Bernardo”.
8
Il lettore interessato può utilmente consultare, tra gli altri, il contributo di Berger “ The Case for Objective Bayesian
Analysis” e quello di Goldstein (2006). Al riguardo particolarmente interessanti sono anche i lavori di Joyce (2009) e
quello di Robert e al., (2009).
9
Il lettore interessato al tema può utilmente consultare i contributi di Kass e Wasserman (1996) e quello di Berger,
Bernardo e Sun (2009). Per un’approfondimento sulla derivazione soggettiva delle distribuzioni di probabilità a
priori si può, tra gli altri, consultare il lavoro di Jenkinson (2005).
337
di conseguenza, le distribuzioni predittive a priori e a posteriori assumono la forma
f  x /     f  x /      ,   d   e f  x / x,     f  x /      / x,   d   .


6.2 - Distribuzioni a priori coniugate
Si riporta la definizione di distribuzione coniugata introdotta nel paragrafo 14 del I°
capitolo di queste Note: “Quando la distribuzione di probabilità a posteriori
appartiene alla stessa famiglia della distribuzione a priori, quest’ultima viene detta
distribuzione di probabilità coniugata”.
Come si avrà modo di verificare scorrendo gli esempi di seguito riportati, il ricorso alle
distribuzioni a priori coniugate presenta notevoli vantaggi; infatti, si tratta spesso di
distribuzioni molto flessibili che proprio per questa loro caratteristica si rivelano adeguate in
molte situazioni di ricerca. Comunque, al fine di evitare errate conclusioni, il ricorso ad una tale
tipologia di distribuzioni non deve essere acritico ma deve essere limitato ai soli casi in cui si
possiede un adeguato patrimonio informativo a priori che ne giustifichi l’impiego.
Esempio 6.2 (distribuzione di Bernoulli)
Per la distribuzione di Bernoulli f  x, p   p x 1  p 
1 x
  p; ,   
per x : 0,1 , la v.c. Beta
p 1 1  p 

p 1 1  p 
1
0
 1
 1
dp
è distribuzione coniugata a priori, infatti
L  p; x     p  p x 1  p 
  p / x 

f  x
f  x
p 1 1  p 
1 x

1
0
p
 x   1
1  p 
1 x    1
 p *1 1  p 
 1
*
p 1 1  p 
 1
 1

dp
dove  x      *, 1  x      *
che è una distribuzione Beta con parametri  * e  *.
Esempio 6.3 (distribuzione Binomiale)
La v.c Beta è anche distribuzione coniugata a priori della distribuzione Binomiale, infatti,
riprendendo la funzione di massa di probabilità della distribuzione binomiale
n
 x
F(x,n,p) =   p x 1  p 
si ha
338
n x
n
   p x q n x
 x
 p 1 1  p 
L  p; x  m     p    n  m
nm
  p / x  m 
   p 1  p  / f  x   1

 1
f  x
 m 
  p 1 1  p  dp
 1
0
    1! p 1 1  p  1
n!
n x
p x 1  p 


x !  n  x !
  1!    1!


1
    1! p 1 1  p  1
n!
n x
x
p 1  p  dp


0   1!    1!
x !  n  x !
 x    n  x    1! p x  1 1  p n x  1 =



 x    1!  n  x    1!
n  x   1
p x  1 1  p 
=
B( x   , n  x   )
 p
m   1
1  p 
1 m    1
 p *1 1  p 
dove  *   m    ,  *   n  m   
 * 1
che è una distribuzione Beta con parametri  *   m    e  *   n  m    .
Esempio 6.4 (distribuzione Multinomiale)
Come già sottolineato nel Cap. 1 la v.c di Dirichlet
 k 1 

i 


i 1


 ( p)   ( p;  )  k 1

   
k 1
p
k 1
 i 1
i
i 1

p
 i 1
i
i 1
i
i 1
è distribuzione a priori coniugata della v.c. multinomiale
n!
f ( x , p) 

x1 ! x2 ! ... xk ! n 



k
i 1

xi  !


p1x1  p2x2 ... pkxk q
n
k
 xi
i 1
infatti
k 1
 ( p / x  m ) 
k 1
 p  p
i 1
mi
i
i
i 1
k 1

i 1
p
i  mi  1
i
i 1
i
Esempio 6.5 (distribuzione di Poisson)
La funzione di verosimiglianza della v.c. di Poisson è
L ( ; x ) 

i 1
n
 xi
e n   xi
 e n   i1
xi !
La v.c. Gamma
339

p
i* 1
i
i 1
che è una distribuzione di Dirichlet con parametri  *   i  mi .
n
k 1




  1e 
 ( ) 
   1e 

   
è distribuzione a priori coniugata della v.c. di Poisson, infatti
n

L  ; x      
  / x  

 
*
1
e
 p *1 1  p 



  e
n

 xi  1  n   
xi !
    
  i1
e

f  x
i 1
f  x

 *

e
 n
 1
xi

n
dove xi     *,
 * 1
i 1
 n
n
 x  e 
che è una distribuzione Gamma con parametri  * 
*
i
i 1

 *

 n
.
Esempio 6.6 (distribuzione Normale)
La funzione di verosimiglianza della v.c. Normale è


L , ; x 
2

1
2 2

e
n /2

n
1
2
2
  xi   
2
 e
i 1
n
1

2
2
  xi   
2
i 1
e


n
2  x   2
2 2

 e

n
2
 x  
2 2
Per  nota, la v.c.Gamma inversa10
 
2  1
 ( 2 /  ; ,  ) 
 e



2
  2 
  
 1

e

2
è distribuzione a priori coniugata della v.c. Gamma inversa, infatti dalla verosimiglianza
L   , / x  
2
1
 2 
2 n /2
e

1
2 2
n
  xi   
2
i 1
si ha
10
Se
Y
  ,   la
x  1  e
f ( x;  ,  ) 
  
v.c

X =
1/Y è

x
 x  1e

detta
Gamma
inversa
ed ha
funzione
di
densità

x
.
Si segnala che a risultati analoghi si perviene anche se si
considera la v.c. Gamma anziché la v.c. Gamma inversa.
340
  2 /  , x ;  ,   
 e

n
2
 x   2
2
L  /  ; x    
2
f  x
n

2    2  1
 
dove  *   
1
2

e

2
 
   2 
2 n /2
n

2    2  1

e
e
n
1

2
2
  xi   
i 1
2

 2 
 1
 e


2
  
f  x
2
 n
  2  x    


2

 

*
2  1

e

*
2
n
n
2
e  *     x  0  .
2
2
che è una distribuzione Gamma inversa con parametri  *   
n
n
2
e *    x  
2
2
n
n
2

Inv   ,    x     .
2
2


cioè :  2 /  , x
Per  2 nota, la v.c. normale

  /  ; 0 , 
2
2
0

1
 2 
2
0
n /2
e

1
2
   0 
2 02
è distribuzione a priori coniugata della v.c. Normale, infatti
n
1


   0 2
  xi   2
f  x /      
1
1
2 2 i 1
212
2
   /  , x ; 0 ,  0  

e

e
/ f  x 
n /2
n /2
f  x
 2 2 
 2 02 
1

1
e
 2 
2 n /2

n
1 
2
2
  xi  x   n  x    
2 2  i 1



1
 2 
2 n /2
0
e

1
   0 2
2 02
/ f  x  e

1  n
1
2
2
  x     2    0  
2   2
0

Ma
n
2
x  
2

1
 02
2
   0 
2
 n  02   2  
n x  02  0 2 
n
2



x  0 

  2
2 2
2
2
2 
  n 0    n 0
  0  
da cui
   /  2 , x; 0 ,  02   e
e
dove * 

1
2  *2


n
2 2
 x   2

e
1
2 02
   0  2

=e
n x  02  1 2 
1  2  n  02 
 

2
2
2  0
 2  n  02 

 * 
2
n x  02  1 2
 2 02
2
e


.
*
 2  n  02
 2  n  02
La distribuzione marginale a posteriori di  / x è quindi normale
 /  2, x
 n x  02  0 2
 2 02 
N
,
.
2
2
 2  n  02 
   n 0
341
2

Si dimostra la relazione
n
2
n

2
x  
x  
2
2


1
 12
1

2
0
2
   1 
2
   0 
2
 n  12   2  
n x  12  1 2 
n
2



x  1 

  2
2 2
2
2
2 
  n 1    n 1
  1  
n
n
n
1
1
1
 2 x 2  2  2  2 2 x   2  2  2 02  2 2  0 



0
0
0
 n
 n
 n
1 
1
1
  2  2  2   2   2 x + 2 0   2 x 2  2 02 
0 
0
0


 


 n
 n
1
1
2   2 x + 2 0   2 x 2  2 02 

0
0
 n
1 

 

  2  2   2 






n
1
0 



 2 2
0 





2 
 n
1  2
  2  2   
0 



 n
  n

1
1
 2 x + 2 0   2 x + 2 0 
0
0

  

2
 n
1 
 n
1 
 2
 2 2

2
0 
0 


2






2
 n

1
n 2 1 2
  2 x + 2 0 
x  2 0 
0
 n
2
0
1   


 2  2  

2





n
1


0 

n
1

 2
 2 2 

2
0  
  
0 


2
2


  n

1
n
1
n 2 1 2

x
+

x + 2 0   2
x  2 0



 02 0   2
 n  02   2   
2
0
0







   
2
2 2
 n
 n
1  
1  


  0 
n
1

 2 2 
 2 2 
 2 2



0 



0




0 



2
 n

1
2
 2 x + 2 0 
2
2
2
2
0
 n 0   
n x  0  0   
  n x2  1 2 

  
 
2 2
2
2
  n 0 
2
 02 0
 n
1 
  0  
 2 2
0 

2
 n  02   2  
n x  02  0 2 
n
2



x  0 

  2
2 2
2
2
2 
  n 0    n 0
  0  
c.v.d .
Relativamente più onerosa è la derivazione della distribuzione a posteriori quando entrambi i
parametri (media e varianza) sono incogniti.
Se si considerano le distribuzioni a priori sopra definite, si assume implicitamente
l’indipendenza tra  e  2 ma in questo caso non è possibile ottenere una distribuzione a
342
priori coniugata, cosa che risulta invece possibile se si assume una relazione di dipendenza tra
le 2 variabili esplicitandola nella definizione della distribuzione a priori



  
 , 2    /  2   2 .
Le due distribuzioni sotto definite (normale e Gamma inversa)
  / 
2

1
 2 
2 n /2
1
e

1
212
   1 2

1
 2 
2
/ n0 
n /2
e

1
2  2 / n0
   1 2
per  12   2 / n0
e
 
2
 
 2 
 1
 e


2
  
generano la distribuzione congiunta Normale-Gamma inversa
1

   ,  2      /  2    2  
 
cioè
 , 
1
2 2


e
1
2  2 / n0
   1 2
NInv  1 ,  2
2
2  2 / n0
e
   1 2
2  2 / n0
 
2  1


 e
  


2


2
  e
; n ; ,   che è distribuzione a priori coniugata di una v.c. che

2  1
0
appartiene alla stessa famiglia. Infatti, se si considera la verosimiglianza


L  , ; x 
2

1
2 2

n /2
e
1 n
2
  xi   
2 2 i1

tenendo presente che xi    xi  x  x   si ha


L  , 2 ; x 


1
2 2

n /2
1
 2 
e
2 n /2
e

n
1
2
2
  xi   
i 1
2

1 
2

( n 1) s 2  n  x    

2 2 
la distribuzione a posteriori congiunta è
343
1
 2 
2 n /2
e

1  n
2
2
  xi  x   n  x    
2 2  i1


   , / x  
2


e
1
2  2 / n0
 
2  1

2  2 / n0
 

1
2 2
 

 e


2

  

 e
1
 2 2 
 
 2 

e

n0 1 n x 



n  n0 n  n0 
2 2 
 n0 

1 
2
( n 1) s 2  n  x    

2 2 

 n  n0 
 n 1 /2
e
n /2

1
 n     2 +n  x   2    2   ( n 1) s 2 
0
1
 

2 2 

2  2 / n0     2 2 
n

2  2   1

f  x
   1 2
n

2  2   1

   /  2    2  L   ,  2 ; x 
n /2
2

1/2
1
2  2
 

 e

/ f  x 
/ f  x 

n n0
1 
2
 x  1 2 
 2   ( n 1) s 
 n  n0 
2  2 

  
/ f  x
dove per derivare l’ultimo termine dell’ultima uguaglianza è stata utilizzata la relazione
n  x     n0    1 
2
2

n n
n 
nx 
 0  x  1    n0  n     0 1 

n0  n
n  n0 n  n0 

2
la cui dimostrazione è la stessa svolta in precedenza dove i coefficienti che moltiplicano i due
quadrati sono n e n0 anziché
n

2
e
1
 12
.
Se si pone :
 *2   2 /  n  n0  ,  * 
n



*    , *   
2
si ha
   , / x  
2
 
1
2  2
 
1
2  2



e

e
n0 1
nx
,

n  n0 n  n0
n n0
(n  1) 2
2
s 
 x  1 
2
2  n  n0 
   /  2    2  L   ,  2 ; x 
f  x
 n  n0 
2
2
 n  n0 
2  *2

n0 1 n x 



n  n0 n  n0 

   
* 2

2
n

2  2   1
 
 
*
2  1

e

e

n n0
1  ( n 1) 2
s 
 x  1 2 
 
2
2  n  n0 

 2 
*
2
che è una v.c. Normale-Gamma inversa, cioè
 ,
2
/ x
NInv   * ,  *2 ; * ,  * 
La distribuzione a posteriori marginale della v.c.  2 / x si deduce immediatamente dall’ultima
relazione sopra scritta; infatti, se si integra rispetto a μ si ottiene 11
11
Questa operazione rappresenta un esempio di quanto affermato in precedenza riguardo al trattamento dei parametri
di disturbo che possono essere spesso rimossi attraverso una semplice operazione di marginalizzazione.
344
  / x  
2
 

+
-

1
2 2
 
1
2 2
e
    
2 1/2
*
1
*
2

*
2  1
   
* 2
2  *2
e
 
*
2  1
 

*
2  1

*
2

*
2
e
e
d 
Che è una distribuzione Gamma inversa con parametri
n



*    , *   
2
n n0
(n  1) 2
2
s 
 x  1 
2
2  n  n0 
quindi
2 / x

 n  1 s 2  n n0 x   2 
n
Inv   ,  

1 
2
2
2  n  n0 


Inv  * ,  * 
La distribuzione condizionata a posteriori di μ è
  /  , x 
2
   , / x 
2
  2 / x 

1
2  2
 

e
1
   
* 2
2  *2
 
*
2  1
 

*
2  1

e
e
*
2
e
*
2

1
2  *2
   
* 2
quindi
n 

nx
N 0 1 
,  2 /  n  n0  
 n  n0 n  n0

 /  2, x
Per derivare la distribuzione marginale a posteriori di μ conviene considerare una
sottofamiglia della v.c. gamma inversa attraverso una specificazione dei parametri
caratteristici ponendo  

2
,  =
  12
nella distribuzione a priori della varianza. La
2
densità
 
2  1
 ( 2 ) 
 e



2
  
  2 
 1

e

2
diventa
 (
 
)

2  2 1
2

  
2 2
1

e
  / 2 
 12
2 2
 


2  2 1

e
 12
2 2
che è una v.c. chi quadro inversa scalata 12con ν gradi di libertà e parametro di scala  12 cioè
2
InvS  2  ,  12  .
Con tale specifica la distribuzione a priori congiunta assume la forma
12
La v.c. chi-quadro inversa è definita come sottofamiglia della v.c. gamma inversa mediante una specifica dei
parametri. Nella v.c. chi-quadro inversa scalata, oltre al parametro che misura i gradi di libertà, è presente un ulteriore
parametro di scala.
345
1

   ,  2      /  2    2  
 
1
2 2


e
1
2  2 / n0
   1 2
 
2  1
2  / n0
2
e
   1 2

2  2 / n0

e

 
2  2 1

  
2 2
1

e
 12
2 2

  / 2 
 12
2 2
che è una v.c.normale-chi quadro inversa scalata con ν gradi di libertà e parametro di scala
 12 cioè
 , 2
 2

NInvS  2  1 , ; ,  12  .
n0


Con tale specifica la distribuzione a posteriori congiunta assume la forma
  , / x  
2

n  
2  2  2  1
 
   /  2    2  L   ,  2 ; x 
f  x
1
2  /  n  n0 

2
e
 2 
n 1 /2
 n0 
 n0 1 n x 

 

n  n0 n  n0 

2
1
2 2
   2 /   

1/2

2
1



2
e
1
2 2


n n0
2
2
 x  1 2 
 1  ( n 1) s 
 n  n0 


  / 2 
da cui

  , 2 / x  
 
1
2  2
 
1
2  2



e

e
e
 n  n0 

n0 1 n x 

 

n  n0 n  n0 
2 2 
2

2  2 / n0
1
2  /  n  n0 
2
1

n0 1
nx 

 

n  n0
n  n0 

   
* 2
2  *2
*
2  2 1
 
 n  3 
2   2  2 
 

e
   2 
2
 
2 

e
1 
2
2
 1   n 1 s 
2  2 
n 
1
2

e

n n0
 n  n0 
 x  1 2 


n /2

n n0
1 
2
2
 x  1 2 
 1  ( n 1) s 
 n  n0 
2  2 


*
2 2
dove
2
* n0 1  n x , *2   ,  * = n e  *  12  (n1) s2  n n0
n  n0
n  n0
x    .
n  n 
n  n0
2
1
0
Pertanto, la distribuzione a priori congiunta è data dal prodotto di una v.c. normale e una v.c.
 2 inversa scalata

2
 , 2 / x NInvS  2  n0 1  n x ,  ; n ,  12  (n1) s2  n n0


n  n0 n  n0 n  n0
cioè
, 2 / x

2



x   
n  n 
1
0
NInvS  2   * ,  *2 ; * ,  *  .
quindi, la distribuzione marginale a posteriori di  2 è
346
/ f  x

n n0
2
InvS  2   n,   12   n  1 s 2 
 x  1    InvS  2  * ,  *
 n  n0 


2 / x
.
cioè, la distribuzione marginale a posteriori della varianza è una v.c. chi-quadro inversa
scalata con  *    n gradi di libertà e con parametro di scala
 *    12   n  1 s 2 
n n0
2
 x  1  .
 n  n0 
Mentre la distribuzione marginale a posteriori di  / x si ottiene integrando rispetto a  2 la
distribuzione a posteriori congiunta .
  / x 


0





0

0
1
2  2
 
   ,  2 / x  d 2 

e
1
2  /  n  n0 
2
n   3
2 
2
 

e
1
2
2

n0 1 n x 

 

n  n0 n  n0 

2
 
2 
n 
1
2

e

n n0
1 
2
2
 x  1 2 
 1  ( n 1) s 
 n  n0 
2  2 

2


n n0
n 
n x  
 12  ( n 1) s 2 
 x  1 2   n  n0     0 1 

n  n0 n  n0  

 n  n0 



d 2 
d 2
Se si pone

n n0
n 
nx 
2
A      n  1 s 
 x  1    n  n0     0 1 

n  n0 n  n0 
 n  n0 

2
1
2
2
e z  A / 2 2   2  A / 2 z  d 2  d 2  
A
dz
2z2
si ha
  / x 


0
A

n  1
2
 A
 
 2z 
 n   3 /2
 A 
e  z   2  dz  A n  1 /2
 2z 

   12   n  1 s 2 


 z 
n  1 /2
e  z dz 
0
2

n n0
n0 1
nx  
2

 x  1    n  n0    
 
n  n0 n  n0  
 n  n0 


2


n0 1
nx  
2
2
 1   n  n0    

 /   1   n  1 s 
n  n0 n  n0  


     * 2 

 1 

 / * 




n n0
2
 x  1   
 n  n0 
 
 n  1 /2
 n  1 /2
 n  1 /2
con  =  12   n  1 s 2 
n n0
2
 x  1 
 n  n0 
che, a meno della costante di normalizzazione, rappresenta una v.c. t scalata non centrale con
 * = n  gradi di libertà, parametro di non centralità * 
2

n 
nx 
2
2
scala  *     0 1 
 /   1   n  1 s 
n

n
n

n
0
0 

347
n0 1
nx
e parametro di

n  n0 n  n0
n n0
2
 x  1  , cioè
 n  n0 


/x
n 
nx
NCSt *   * ,    NCSt  n  0 1 
,  12   n  1 s 2 
 n  n0 n  n0
n n0
2
 x  1   .
 n  n0 

Esempio 6.7 (distribuzioni multidimensionali)
Nel Cap. 1 se è già avuto modo di considerare la v.c. di Dirichlet come distribuzione a priori
coniugata della v.c multinomiale, in questo esempio si procederà all’esame della v.c. normale a
k dimensioni.
Operando in modo analogo a quanto già fatto per la v.c. normale semplice e ricordando che la
funzione di densità di probabilità della v.c. normale a k dimensioni è espressa da
1
f ( x,  ,  ) 
(2  )
k
1

2
e

1
 x   '  1  x    
2 
2
dove
 x1
x
 2
x 

 
 xk


 1 
 11

 


 2 
 21


;     ;









 k1

 k 



2
 12
 1k   

 2 k   21  22
 12
 22
 1k 

1


 kk 
k2
 2k 


 k1  k 2


 k2 
Per  noto, la v.c., se si ipotizza che la matrice di dispersione  (definita positiva) si
distribuisce come una Wishart inversa con parametri  (gradi di libertà) e  0 (matrice definita
positiva) è facile verificare che la stessa è distribuzione a priori coniugata della v.c.
multidimensionale Wishart inversa. Infatti, poiché la funzione a priori di densità di probabilità
è
 (       0 ) 
0
2
nk
2
n
2

n  k 1
2
e
 k  n / 2


1
tr  0  1
2


n  k 1
2
e


1
tr  0  1
2

dove  k  n / 2  è la funzione gamma multivariata
 k  n / 2  
k  k 1 /4
n
  n / 2  1  i  / 2
i 1
mentre la funzione di verosimiglianza per un campione di dimensione n estratto da una v.c.
normale a k dimensioni è

1
L(  ,  / X ) 
(2  )
nk
2

si ha
348
n
2
e
1
2
 n

' 1
  xi      xi    
 i 1


 (    X     0 ) 


1
(2  )
e

nk 2

n2
e
f X
n

1 
' 1
  xi      xi    
2  i 1


0
2
dove xi

0
2
n

1 
' 1
  xi      xi    
2  i 1


 (     X     0 ) L(  ,  / X )

n 2
nk
2
 n k 1
e

 n k 1

1
tr  0  1
2

2
1
 tr  0  1
2
e
 k  n / 2
nk 2
2
 k  n / 2

n 2




 x1i , x2 i ,, xki  è l’i-esimo vettore delle osservazione campionarie.
'
Esempio 6.8 (famiglia esponenziale)
Ai risultati sopra illustrati si poteva pervenire attraverso specificazioni delle conclusioni cui si
perviene se si fa riferimento alla famiglia esponenziale regolare la cui distribuzione a priori
coniugata è facilmente derivabile. Infatti, se si riprende in considerazione la funzione di
verosimiglianza di una v.c. appartenente alla famiglia esponenziale regolare caratterizzata da
un solo parametro  (cfr. paragrafo 2 del secondo capitolo)
f ( ; x1 , x2 ,....., xn )  f  ; x  
n
 f  , x  
i
i 1
  a    
n
  
n
hx   e
n
 t  xi 
i 1
i
i 1
e si introduce una distribuzione a priori per il parametro  appartenente alla stessa famiglia
esponenziale
 ( /  ,  )  a  

   
e
per   0,
si ottiene la distribuzione a posteriori
 ( / x,  ,  )  a  
 n
     t  x 
e
 a  
*
   *
e
che appartiene alla stessa famiglia.
L’estensione al caso multi-parametrico è immediata. Infatti, se la distribuzione a priori
appartiene alla famiglia esponenziale
r
 ( /  ,  )   a  

i   i
 e i1
dove,   0,    1 , 2 ,....,  r  e   1 , 2 ,..., k  ,
tenendo presente che la verosimiglianza della famiglia esponenziale nel caso multi-parametrico
è
349
r
i   ti  x 
L   x   a   h  x   e i1
Si ottiene la distribuzione a posteriori del vettore dei parametri 
r
 ( / x,  ,  )   a  
 n
i   ti  x  i
 e i1
  a  
*
  i
e
che appartiene alla famiglia esponenziale.
6.3 - Distribuzioni a priori non informative
La prima regola per la determinazione di una distribuzione a priori non informativa è
quella collegata al principio della ragione insufficiente, usualmente attribuita a Laplace,
che assegna un’uguale probabilità a tutte le possibili alternative.
Esempio 6.9 – (Distribuzione binomiale e distribuzione a priori Uniforme)
Nell’esempio 6.3 si è proceduto alla derivazione della distribuzione a posteriori della binomiale
introducendo la v.c. Beta come a priori. La distribuzione a posteriori è espressa dalla formula
f  p / n, x  =
p x  1 1  p 
n  x   1
B( x   , n  x   )
che è la funzione di densità di probabilità di una v.c. di tipo Beta con parametri
x  e n  x   .
Ovviamente, per poter utilizzare questa distribuzione occorre conoscere i valori dei
parametri  e  che identificano la specifica v.c. appartenente alla famiglia Beta; fissazione
dei valori che può essere effettuata utilizzando il patrimonio informativo a disposizione o in
modo completamente soggettivo. Se non si possiede alcuna informazione oggettiva e si ritiene
opportuno evitare la valutazione puramente soggettiva si possono scegliere i valori
  2 e   1 che definisce la funzione di densità a priori per il parametro p
f  p 
1
1 0
che rappresenta la funzione di densità di un v.c. rettangolare, cioè una variabile casuale
uniforme definita nell’intervallo unitario. La distribuzione a posteriore sopra definita diventa
f  p / n, x  
f  p f  x / p

1
0
f  p  f  x / p  dp

p x 1 1  p 
n x
B( x  2, n  x  1)
.
Tra le altre proposte di derivazione della distribuzione a priori quella che ha avuto il
maggior impatto e di più largo impiego è stata proposta da Jeffreys (1946). Questo
autore suggerisce come regola generale per la derivazione della distribuzione a priori la
radice quadrata positiva del determinante della matrice dell’informazione di Fisher
350
1/2
    det  I n  i , j 
1/2
   2 log f  x;   
 det  E 

 
  i  j

1/2
n
   2
 
  log f  x;   log f  x;  
 det  E 
log  f  X i ;     Cov 
,
.
i
 j
i 1
 


  i  j
Altre interessanti proposte, ma non esenti da critiche, sono quella basata sulla
massimizzazione dell’entropia, sviluppata soprattutto da Jaynes (1957, 1968,…) e
quella basata sulla massimizzazione della divergenza attesa di Kullback-Leibler
   / x  
E log
 tra la distribuzione a posteriori e la distribuzione a priori, la reference
   

prior, proposta inizialmente da Bernardo (1979) e sviluppato successivamente
soprattutto da questo stesso autore in collaborazione con Berger (1989, 1991,
1992,….)13.
Un aspetto su cui richiamare l’attenzione quando si propone l’utilizzo di una
distribuzione a priori di riferimento (distribuzione non informativa) è la possibilità che
si tratti di una distribuzione impropria, cioè di una distribuzione per la quale vale la
relazione
    d  
che può comportare come conseguenza una distribuzione a
posteriori impropria, in questo caso non è possibile alcuna inferenza; non sorge nessun
problema, invece, quando pur essendo impropria la distribuzione a priori la
corrispondente distribuzione a posteriori è propria.
6.4 - Stima e test di ipotesi in ottica bayesiana
Nei capitoli precedenti son stati illustrati alcuni tra i metodi statistici proposti in
letteratura per la risoluzione dei problemi di stima, puntuale e di intervallo, e di verifica
di ipotesi relativamente all’entità incognita  , cioè al parametro o ai parametri che
caratterizzano il modello f  x;  la cui forma analitica si presume nota. Sono state
discusse, come più volte sottolineato, le soluzioni proposte nel contesto del cosi detto
approccio frequentista all’inferenza statistica (inferenza statistica classica). In questo
paragrafo verranno illustrate molto sommariamente le soluzioni proposte nel contesto
bayesiano.
13
Al riguardo si sottolinea che diversi autori hanno proposto di utilizzare la terminologia reference prior
(distribuzione a priori di riferimento) anziché la terminologia distribuzioni a priori non informativa sostenendo, a
ragione secondo l’autore di queste note, che qualunque distribuzione a priori contiene un qualche elemento
informativo. Accettando tale proposta si potrebbe connotare, come avviene in altri casi, tale distribuzione rifacendosi
all’autore che l’ha proposta: quindi distribuzione a priori di Bernardo, o anche di Bernardo-Berger, anziché
reference prior. Si sottolinea, inoltre, che le tre proposte di Jeffreys, Bernardo e Jaynes, pur differenziandosi tra loro,
hanno numerosi punti di contatto.
351
Stima puntuale e di intervallo di parametri caratteristici
Da quanto illustrato nei paragrafi precedenti dovrebbe emergere in modo evidente la
logica di base del cosi detto paradigma bayesiano quando si vuol procedere all’analisi di
un qualunque fenomeno attraverso l’impiego di un modello probabilistico capace di
fornirne una rappresentazione soddisfacente.
Il modello, la cui forma analitica si è presupposta nota, è caratterizzato da uno o più
parametri nei confronti dei quali si presume una conoscenza a priori incerta che viene
espressa facendo ricorso ad uno specifico modello probabilistico. Il livello di
conoscenza attuale del ricercatore si incrementa attraverso l’acquisizione di
informazioni campionarie (oggettive) che consentono l’aggiornamento dello stato di
conoscenza attraverso un passaggio dalla distribuzione di probabilità a priori alla
distribuzione di probabilità a posteriori che costituirà l’a priori del gradino successivo
nel processo di apprendimento dall’esperienza.
In questo contesto, l’utilizzazione dei dati campionari per derivare una stima
puntuale di  risulta improprio, infatti, i dati devono servire esclusivamente per
procedere all’aggiornamento della conoscenza, che sarà ancora una volta espressa
attraverso una distribuzione di probabilità, solo quando la distribuzione a posteriori
degenera e si riduce ad un solo punto, cui è associata una probabilità pari ad 1, si
prefigura un uso dei dati campionari per la derivazione di un valore puntuale di  .
Comunque, in diversi contesti operativi può risultare conveniente (o necessario)
sintetizzare la distribuzione attraverso un unico indice, la scelta più ragionevole
dovrebbe ricadere sul valor di  cui è associata la probabilità a posteriori più elevata (la
moda della distribuzione), in realtà si ricorre, nella generalità dei casi, al calcolo della
media aritmetica e, talvolta, alla mediana.
Ad esempio, nel caso mono-parametrico (un solo parametro caratteristico) per
derivare una stima puntuale di  si può procedere all’applicazione del metodo della
massima verosimiglianza ottenendo come risultato la moda della distribuzione a
posteriori
  M o  argmax   / x  .

Alternativamente si può procedere al calcolo della media aritmetica 14 ˆ o della
mediana  .
ˆ  ˆ  E  g      d   / x 



1
ˆ  Mˆ e   d   / x    d   / x   .


2
14
Ovviamente, oltre alla media aritmetica, si può procedere al calcolo di tutti i momenti di interesse specificando in
modo adeguato la funzione
g  
nella relazione
E  g     g   d   / x  .

352
In ogni caso l’operazione di stima puntuale contraddice la logica bayesiana, logica
che risulta invece interamente soddisfatta se si procede al computo di una stima per
intervallo.
Gli intervalli bayesiani di confidenza, usualmente denominati intervalli o regioni
(nel caso si considerino più parametri) di credibilità, non solo sono coerenti con la
logica bayesiana ma risolvono anche alcuni problemi interpretativi.
Come si è avuto modo di sottolineare, quando è stata trattata la stima di intervallo nel
contesto classico la quantità 1   che, inizialmente, cioè quando è riferita all’elemento
pivotale, è una probabilità, al termine del processo perde tale natura; infatti, non si parla
più di livello di probabilità ma di livello di confidenza. Nella stima per intervallo,
l’entità casuale è l’intervallo stesso che ha una probabilità pari all’ 1   di contenere al
suo interno il vero valore di  (costante incognita), ma una volta ottenuto l’intervallo
non ha più senso parlare di probabilità in quanto l’intervallo, o contiene al suo interno il
vero valore di  , allora la probabilità è pari ad 1, o non lo contiene, allora la probabilità
e zero. Il termine confidenza sta ad indicare che si “confida” che l’intervallo ottenuto
sia uno degli 1    % degli intervalli che contengono al proprio interno il vero valore
di  .
Se si indica con C  x  la regione di credibilità a posteriori a livello 1   per  si
ha

C  x 
  / x   1  
Se in questa espressione si sostituisce alla probabilità a posteriori   / x  la
probabilità a priori    si ottiene la regione di credibilità a priori a livello 1  

C
    1   .
Dalle considerazioni sopra svolte risulta in modo del tutto evidente che la regione
(intervallo) di credibilità non è univocamente individuato, anche in questo caso come
sottolineato a proposito degli intervalli di confidenza, l’obiettivo che si vuol perseguire
è quello della derivazione della regione più informativa cioè della regione che, al
prefissato livello di probabilità 1 - α  , ha la dimensione più piccola.
La conoscenza della distribuzione a posteriori del parametro  consente, ovviamente, il
calcolo immediato di intervalli di stima (intervalli di confidenza bayesiani o intervalli di
credibilità); ad esempio un intervallo al livello di credibilità 1 - α  è espresso da qualunque
intervallo  L1 , L2  che soddisfa l’uguaglianza

L2
L1
d   / x    1   .
Come nel caso già trattato, tra tutti gli intervalli che soddisfano tale relazione si
dovrà scegliere quello maggiormente informativo che nel caso di un solo parametro è
rappresentato dall’intervallo di lunghezza minima.
353
La differenza tra gli intervalli di confidenza e gli intervalli di credibilità è
sostanziale; infatti, come già chiarito in precedenza, mentre per gli intervalli di
confidenza è l’intervallo stesso
 L1 , L2 
che a priori, cioè prima di effettuare la
rilevazione campionaria, ha una probabilità dell’( 1 – α) % di contenere al suo interno il
vero valore del parametro ϴ , nel caso degli intervalli di credibilità la probabilità è riferita al
parametro  (variabile casuale) che ha una probabilità dell’(1 – α) % di essere contenuto
nell’intervallo  L1 , L2  .
Riprendendo in considerazione quanto detto nel Capitolo 3 riguardo agli intervalli di
confidenza, si può procedere alla determinazione degli intervalli di credibilità senza alcuna
difficoltà, infatti, basterà fare riferimento alla distribuzione a posteriori del parametro o dei
parametri di interesse. Si sottolinea, ancora una volta, la superiorità degli intervalli di credibilità,
rispetto agli intervalli di confidenza, sia dal punto di vista interpretativo che da quello operativo
quando sono presenti parametri di disturbo.
Nel caso degli intervalli di confidenza il problema si può risolvere attraverso una stima
puntuale del parametro di disturbo che richiede, però la derivazione di una diversa distribuzione
campionaria degli estremi dell’intervallo stesso; derivazione che in alcuni casi non presenta
alcuna difficoltà, come ad esempio la determinazione degli intervalli di confidenza per la media
di una distribuzione normale semplice quando la varianza è incognita (dalla distribuzione
normale si passa alla variabile t di Student), ma che in altri casi presenta notevoli difficoltà, al
riguardo basta citare il caso della determinazione degli intervalli per la differenza tra medie di
due distribuzioni normali quando le due corrispondenti varianze non sono note. Come segnalato
più volte, nel contesto bayesiano il problema della presenza di parametri di disturbo si risolve
attraverso una semplice operazione di marginalizzazione della distribuzione a posteriori.
Test d’ipotesi
Nel contesto classico di verifica di ipotesi statistiche sono state introdotte due ipotesi,
l’ipotesi nulla o ipotesi di lavoro H 0 :  Θ0 e l'ipotesi alternativa H1 :  Θ1 dove
Θ0 Θ1  Θ e Θ0 Θ1   , fissato un livello di significatività
α (probabilità
dell’errore di I° tipo, cioè rifiutare un’ipotesi nulla vera) si procede al rifiuto o
all’accettazione (non rifiuto) dell’ipotesi nulla a seconda che il punto campionario cada
o meno nella regione critica o, alternativamente si procede alla determinazione del pvalue (probabilità che la variabile casuale test assuma un valore “più estremo” di quello
osservato se l’ipotesi nulla è vera) agendo di conseguenza. Nel contesto bayesiano il
problema di verifica d’ipotesi diventa banale, infatti, avendo a disposizione la
distribuzione a posteriori del parametro/i basterà procedere al computo delle probabilità
a posteriori relative alle due ipotesi
 0/ x  P  Θ 0 / x 
 1/ x  P  Θ1 / x 
354
e procedere alla scelta dell’ipotesi che presenta la probabilità più elevata, cioè scegliere
H 0 :  Θ0 o H1 :  Θ1 in funzione del valore assunto dal rapporto a posteriori
(posterior odds)
 0/ x P  Θ 0 / x 

.
 1/ x P  Θ1 / x 
se favorevole ( >1 ) o meno ( < 1 ) all’ipotesi H 0 :  Θ0 .
Analogamente al rapporto tra le probabilità a posteriori si può procedere al calcolo
del rapporto tra le probabilità a priori (prior odds)
 0 P  Θ 0 

.
 1 P  Θ1 
Il rapporto tra gli odds
B0 
 0/ x  0  0/ x  1 P  Θ 0 / x  P  Θ1 
/


 1/ x  1  1/ x  0 P  Θ1 / x  P  Θ0 
viene detto fattore di Bayes in favore dell’ipotesi H 0 :  Θ0 , ovviamente il fattore di
Bayes in favore dell’ipotesi H1 :  Θ1 è espresso da
B1  1 / B0 
 1/ x  0 P  Θ1 / x  P  Θ 0 

.
 0/ x  1 P  Θ 0 / x  P  Θ1 
Procedere nell’accettazione o al rifiuto di una specifica ipotesi H 0 :  Θ0 contro
l’ipotesi alternativa H1 :  1 in funzione del valore assunto dalle probabilità a
posteriori delle due ipotesi appare del tutto ragionevole, in realtà tale approccio presenta
degli inconvenienti di natura tutt’altro che marginale. Ad esempio, nel caso di un ipotesi
nulla semplice H 0 :   0 contro l’ipotesi alternativa composita bidirezionale H 0 :    0 ,
la procedura è inapplicabile essendo pari a 0 la probabilità a posteriori dell’ipotesi nulla
0
 0/ x  P  0 / x    f  x /      d  
0
in quanto  0  P   0   0 .
Il problema si può risolvere o tenendo presente la relazione che tra intervalli di stima
e test delle ipotesi, procedendo all’accettazione se  0 ricade nell’intervallo di credibilità
calcolato per la v.c.  , ma la procedura non ha più la natura di test d’ipotesi, oppure
assegnando all’ipotesi nulla una probabilità a priori maggiore di 0
 0   P   0   0 , cioè inserendo una probabilità a priori mistura tra una v.c.
discreta ed una v.c. continua.
Un modo alternativo per risolvere il problema di scelta dell’ipotesi è quello di fare
riferimento al valore assunto dal fattore di bayes. Procedura questa che, pur non
risolvendo il problema di scelta tra un’ipotesi nulla semplice ed un’ipotesi alternativa
composita, presenta, come si avrà modo di chiarire nelle righe successive, indubbi
vantaggi.
355
La procedura basata sul fattore di Bayes non presenta delle carenze anche quando
entrambe le ipotesi sono semplici. Infatti, se entrambe le ipotesi sono semplici si
ha  0/ x   0 f  x / 0  e 1/ x  1 f  x / 1  pertanto il fattore di Bayes
B0 
 0/ x  0  0/ x 1 f  x /  0   0 1 f  x /  0 
/



1/ x 1 1/ x  0 f  x / 1  1  0
f  x / 1 
si riduce al rapporto tra le due verosimiglianze. Risultato questo che, se per un verso
può soddisfare i critici dell’approccio bayesiano, per altro verso non può soddisfare i
fautori dell’approccio bayesiano soggettivo in quanto implica una eliminazione
“meccanica” della conoscenza a priori15.
L’utilità del ricorso al fattore di Bayes emerge in modo evidente quando al problema
di scelta delle ipotesi viene attribuita la valenza di scelta tra modelli alternativi di
rappresentazione della realtà fenomenica.
Se con M si indica un generico modello capace di rappresentare il fenomeno oggetto
di analisi, l’ipotesi H 0 :  Θ0 può essere interpretata anche come H 0 :    0 , cioè
l’ipotesi che il modello rappresentativo della realtà sia proprio M 0   , dove 
rappresenta lo spazio contenente tutti i possibili modelli rappresentativi del fenomeno
oggetto d’analisi, mentre l’ipotesi H1 :  Θ1 resta specificata da H1 :    1 con
M1   , il fattore di Bayes assume la forma
B0 
P    0 / x P    1

P   1 / x P    0 


 Θ0
 Θ1
f  x /    0   d
f  x /    1   d
.
Il fattore di Bayes, che è definito dal rapporto ponderato delle verosimiglianze dei
due modelli, misura la capacità relativa del modello M 0 rispetto al modello M 1 , di
rappresentare la realtà; proprietà, questa, indubbiamente apprezzabile. Per contro, la
scelta del modello basata sul confronto tra le probabilità a posteriori solleva delle
perplessità soprattutto se si tiene conto di quanto riportato nella premessa a queste Note:
tutti i modelli sono sbagliati (hanno quindi probabilità 0 di essere veri) ma qualcuno è
utile; ovviamente, l’utilità è strettamente condizionata dalla sua capacità rappresentativa
della realtà16.
15
Diversa è la situazione quando la conoscenza a priori perde di rilevanza a ragione dell’acquisizione di evidenza
empirica (campionaria oggettiva) sempre più estesa. Al riguardo se segnala la convergenza tra risultati bayesiani e
quelli classici al crescere della dimensione campionaria, si dimostra, infatti, l’equivalenza asintotica dei due approcci.
16
In letteratura è stata proposta una regola pratica per interpretare il valore numerico assunto dal fattore di Bayes:
se
B0  1 l’evidenza (a priori e campionaria) supporta il modello M 0 ;
se
101/2  B0  1 l’evidenza contro il modello M 0 è minima;
se
101  B0  101/2
se
102  B0  101
se
B0  10
2
l’evidenza contro il modello
l’evidenza contro il modello
l’evidenza contro il modello
M 0 è sostanziale;
M 0 è molto elevata;
M 0 è decisiva.
356
Se i modelli alternativi non sono 2  M 0 e M1  ma s
 Mi
per i  1, 2, ...,s il fattore
di Bayes potrà essere calcolato per s  s  1 / 2 confronti tra modelli. Calcolo questo non
necessario per operare la scelta del modello, infatti, per perseguire tale finalità basterà
operare s – 1 confronti: si calcola il fattore di Bayes per i modelli M1 e M 2 , il modello
migliore viene confrontato co il modello M 3 e cosi via fino al confronto tra il modello
M s ed il modello risultante dal processo di selezione che ha evidenziato la maggiore
capacità rappresentativa.
6.5 - Regressione bayesiana
Come illustrato nel capitolo precedente nel modello di regressione lineare multipla si
studia la relazione tra una variabile spiegata (variabile dipendente) y e k-1 (k ≥ 2)
variabili esplicative. Il modello è espresso dalla relazione
yi  β1  β2  xi 2  β3  xi 3       βk  xik  ui per i  1,2,...., n
che in forma matriciale diventa
y  X  u
n,1
n,k k,1
n,1
dove
1 x12 x13  x 1 j  x1k 
 1 
 y1 
u1 




y 
 u 
1 x22 x23  x 2 j  x2 k 
  2 
 2
 2 


.... 
.... 
.... 
................................


 
 
 
.... 
.... 
....
................................ 


y
; X 
;    ; u 




n ,k
n ,1

y
u 
k ,1
n ,1
1 xi 2 xi 3  x ij  xik 
 j 
 i
 i 
................................ 
.... 
.... 
.... 


 
.... 
.... 
................................ 
.... 
 
 
1 x x  x  x 


 yn 
un 

 k 
nj
nk 
 n 2 n3
Le ipotesi di specificazione poste alla base del modello sono:
1. la matrice X nxk è costituita da variabili matematiche o determinazioni di
variabili casuali, sono cioè costanti in ripetuti campioni; in particolare il primo
vettore colonna della matrice è costituito da 1, il coefficiente 1 rappresenta,
pertanto, l’intercetta dell’iperpiano di regressione;
2. la matrice X nxk è di rango massimo = k ≤ n;
3. il vettore unx1 ha componenti aleatorie con valore atteso nullo ( E  un1   0n1 ),
varianza
costante
(omoschedasticità
Var  ui   E  ui2   0 )
incorrelate ( E  ui  u j   0 per i  j ), in forma matriciale

 
Var u  Σu  E u  u   2  I n
n ,1
'
n,n
357
n ,1 1, n
e
risultano
4. ipotesi di normalità del vettore casuale
u
N  0,  2 I  .
Se le prime tre ipotesi sono soddisfatte, si possono derivare le stime dei minimi
quadrati ˆ del vettore  che sono date da:
-1
βˆ =  X ' X  X ' y
dove l’apice riportato ad esponente vuole indicare che si sta facendo riferimento alla
matrice trasposta. Si ricorda che tali stime sono le migliori (minimizzano l’errore
quadrato medio) nell’ambito delle stime lineari e corrette (BLU- Best Linear Unbiased).
La stima corretta della varianza σ2 è data da:

ˆ 2   y  yˆ   y  yˆ   /  n  k )    y  X ˆ
'


  y  X ˆ   /  n  k )  
'
'
1


  y '  I  X  X ' X  X '  y  /  n  k )    uˆ'  uˆ  /  n  k )   S 2
 
 
Se si introduce l’ipotesi di normalità si può calcolare la verosimiglianza
L  β ,  2   f  β ,  2 / y, X    f  yi    2 2 
n
 n /2
i 1
  2 2 
 n /2
.
2
 1 n
exp   2   yi  x'i β   
 2 i 1

'
 1

exp   2  y - Xβ   y - Xβ  
 2

La stima di massima verosimiglianza  del vettore  è identica alle stime dei
minimi quadrati:
   X ' X  X ' y  ˆ
1
ma, come già richiamato nel capitolo precedente le stime di massima verosimiglianza
sono le migliori nell’ambito delle stime corrette (BU- Best Unbiased). Inoltre valgono
le proprietà degli stimatori sotto elencate:

l’ipotesi di incorrelazione tra le componenti accidentali ui (i  1, 2,...., n) implica
l’indipendenza, ne consegue quindi l’indipedenza tra le componenti yi (i  1, 2,...., n) del
vettore casuale y

1
 ~ N   ,  2  X '  X  



y ~ N X   , 2  X '  X 

2
W   n  k   ˆ 2 /  2 ~  n
k

Il vettore casuale  e la v.c. W sono indipendenti.

1

Questi risultati consentono di procedere alla determinazione degli intervalli di
 i (i = 1, 2,……,k) e  2 , gli intervalli di
confidenza per i parametri incogniti
previsione in corrispondenza ad una specifica determinazione del vettore delle variabili
esplicative x p e di procedere alla verifica di ipotesi statistiche. Al riguardo si ricorda
358
che se la varianza  2 non è nota basterà fare riferimento alla variabile t di Student,
con n-k gradi di libertà, anziché alla variabile normale.
Quanto sopra richiamato fa riferimento all’impostazione classica dell’inferenza
statistica nel cui contesto i parametri sono costanti incognite da stimare e/o sui quali
verificare ipotesi statistiche utilizzando soltanto l’informazione campionaria a
disposizione.
6.5.1 Regressione bayesiana con distribuzioni a priori non informative e coniugate
 i (i = 1, 2,……,k) e  2 , essendo entità
incognite, assumono la natura di variabili casuali con una propria distribuzione di
probabilità.
La verosimiglianza sopra introdotta soddisfa la relazione
 n /2
'
 1

L  β ,  2   f  β ,  2 / y, X    2 2  exp   2  y - Xβ   y - Xβ   
 2

'
 n /2
 1

  2 2  exp   2 y - Xβ - Xβˆ  Xβˆ y - Xβ - Xβˆ  Xβˆ  
 2

'
'
'
 n /2
 1
  2 2  exp  2  y - Xβˆ y - Xβˆ  2 β - βˆ X ' y - Xβˆ  β - βˆ X ' X β - βˆ
 2 
'
 n /2
 1

  2 2  exp   2  n  k  S 2  β - βˆ X ' X β - βˆ  
 
 2 
poiché
Nell’impostazione bayesiana, i parametri





 


 

 



 β - βˆ  X  y - Xβˆ    β - βˆ   X y - X Xβˆ    β - βˆ   X Xβˆ - X Xβˆ    β - βˆ  0 = 0
'
'
'
'
'
'
'
'
'
dove le statistiche βˆ e S 2 , stime corrette di β e  2 , sono congiuntamente sufficienti.
Distribuzioni a priori non informative
La procedura standard è per l’introduzione di distribuzioni a priori non informative
prevede le seguenti distribuzioni
     c1 (costante )
inoltre, ponendo   log  2 e     c2 (costante ) , tenendo conto che lo Jacobiano
della trasformazione da  a  2 è pari a   2 si ha   2     2 , quindi
   ,  2     2 per  2  0 17
17
Si tratta di una distribuzione a priori impropria che genera, comunque, una distribuzione a posteriori propria. Da
sottolineare che anche se viene etichettata come non informativa, in realtà implica che la probabilità a priori associata
a β , qualunque sia il suo valore, possa essere anche molto elevata.
359
  
Se si procede al prodotto di questa quantità (probabilità a priori) con la
verosimiglianza si ha la distribuzione a posteriori
   ,  2 / y, X   L  β ,  2     ,  2    2 
  n  2  /2
'
 1

exp   2  y - Xβ   y - Xβ   
2



ed anche




'
 1

exp   2  n  k  S 2  β - βˆ X ' X β - βˆ   




 2

'
  n  k  /2 1
 k/2
 1

 1

  2 
exp   2  n  k  S 2    2  exp   2  β - βˆ X ' X β - βˆ  
 
 2

 2 
Se si fa riferimento all’ultimo membro della relazione si evince immediatamente la
forma della distribuzione condizionata a posteriori del vettore β e la distribuzione
   ,  2 / y, X    2 
  n  2  /2




marginale a posteriori del parametro  2
 /  2, y
ˆ  2  X' X  1 
N  


 n  k n  k  S 2 
 / y Inv 


2
 2

dove il simbolo Inv sta ad indicare la variabile casuale Gamma inversa 18
Senza eccessiva difficoltà si deriva anche la distribuzione marginale a posteriori di
β , infatti
2
   / y , X       ,  2 / y  d 2 

0




'
 1

exp   2  n  k  S 2  β - βˆ X ' X β - βˆ   d 2
0



 2 
ma l’espressione sotto il segno di integrale rappresenta, a meno della costante
moltiplicativa l’espressione della funzione di densità di una variabile casuale Gamma
inversa
'
n

Inv     n  k  S 2  β - βˆ X ' X β - βˆ  




2

pertanto, il valore dell’integrale è, semplicemente, dato dal reciproco della costante di
normalizzazione della densità di una Inv  ,   che è pari a      ,


 
2   n  2  /2




dove   n  2 e




'
    n  k  S 2  β - βˆ X ' X β - βˆ  .

Se si pone   n  k si ha
18
Si ricorda che la funzione di densità di probabilità della v.c. X Gamma inversa è data da:
f ( x; ,  ) 
   1  x
x e
per 0  x  ,   0 e   0 .
( )
360




'
   / y , X    n  k  S 2  β - βˆ X ' X β - βˆ 





  n  k  k  /2

   k  /2
'
   β - βˆ S 2 X ' X β - βˆ 


che rappresenta, a meno della costante moltiplicativa, l’espressione della funzione di
densità di una variabile casuale t di Student multivariata19, cioè:
1
 / y tk  , βˆ , S 2  X ' X   .


Se si ricorre alla distribuzione a priori di Jeffreys definita da
 R   ,  2      k 2/2
si deriva la distribuzione a posteriori congiunta
     2 / y, X  
1
 
2
 n  k  2 /2
'
c
 1 
exp  2  n  k  S 2 
β - βˆ X ' X β - βˆ
1 c
 2 



 
mentre le distribuzioni marginali a posteriori di β e  2 hanno la forma
 /  2 , y, X
 2 / y, X
1
N  βˆ ,  2  X ' X  


Inv n / 2, S 2  n  k  / 2 .
Distribuzione a priori informative
Riprendendo in considerazione e generalizzando quanto riportato nell’esempio 6.5
riguardo alla distribuzione coniugata a priori di una v.c. normale, una possibile
specificazione della distribuzione a priori nel caso in esame
    2        2     2 
è la distribuzione coniugata congiunta di una normale e una gamma inversa
 /  
2
N  * ,  2   e  2
Inv  ,  
pertanto la distribuzione a priori assume la forma
19
La funzione di densità di probabilità t di Student multivariata di un vettore casuale V di dimensione k è data da
   k  /2
'
 1

   k  / 2 1   w     1  w    
 

f  w; ,  ,   
1/2
k /2
k /2
  / 2    
dove  rappresentano i gradi di libertà,  è un vettore di dimensione k (parametri di locazione) e 
matrice simmetrica definita positiva di dimensione k (parametri di scala).
361
è una

   ,  2      /  2    2  
cioè
  , 
e
1
   * '  -1    * 
2 2
12
(2  2 )1 2  

 2 
 1
 e


2
  
N  * ,  2    Inv ( ,  ) che è distribuzione a priori coniugata di una
2
v.c. che appartiene alla stessa famiglia. Infatti, se si considera la verosimiglianza
L  β ,  2    2 2 
 n /2



'
 1
exp  2  n  k  S 2    ˆ X ' X   ˆ
 2 
 
la distribuzione a posteriori congiunta è data da
   , / y  
2


e
   , 2  L   , 2 / x 
1
   * '  -1    * 
2 2
(2  2 )k /2  
  2 2 
 n /2

f  y
k /2

 2 
 1
 e


2
  
   /  2    2  L   ,  2 / x 
f  y




'
 1
exp   2  n  k  S 2    ˆ X ' X   ˆ
 2 
ma

  / f  y 
  *    *     ˆ  X ' X    ˆ  
'
'
-1




       -1        *  ˆ  *-1  *  ˆ
'
'

dove
    -1 +X ' X 
1
    -1 +X ' X 
1
*    +  X ' X 
 -1 β* +  X ' X  βˆ 


1
1
si ha
   , / y  
2
1

 exp  
2
 2
   , 2  L   , 2 / y 
f  y

   /  2    2  L   ,  2 / y 
f  y
           
'
-1
'
 1 

exp   2  n  k  S 2  *  ˆ  *-1  *  ˆ   
 
  2 
'
1


  
-1
2 * 1
 exp  









exp   *2 






2

 2

  
'

dove *  n / 2   e *   n  k  S 2  *  ˆ  *-1 *  ˆ  ,quindi

2 
  2 

 n /2  1



362





  ,
2
/ y
NInv   ,  2 * , * 
che appartiene alla stessa famiglia della distribuzione a priori normale gamma inversa.
Una proposta alternativa di distribuzione a priori informativa, molto utilizzata nel
contesto econometrico, è quella suggerita da Zellner nel 1986, usualmente denominata
G-prior , proposta che si differenzia dalla a-priori non informativa sopra illustrata per
l’a-priori su β .
Le due distribuzioni a priori sono
  2   1/  2
N   0 , g  2  X ' X 

Attraverso passaggi algebrici analoghi a quelli
distribuzione congiunta a posteriori

    2 / y 
1
 
2
 n  2 /2
.

sopra riportati si deriva la
1
'
 1 
g
exp  2  n  k  S 2 
β - βˆ X ' X β - βˆ
1 g
 2 




 

mentre la distribuzione marginale a posteriori del vettore β è




'


g  S 2  β0 - βˆ X ' X β0 - βˆ /  g  1 

1

1


 X' X 
 0  βˆ , 
  / y  tk  ,
  
g 1
n  g  1




cioè, una v.c t di Student multivariata di dimensione k .
I risultati riportati nelle righe precedenti consentono la risoluzione dei problemi di
stima puntuale, stima d’intervallo e di test delle ipotesi seguendo la procedura già
illustrata. Si sottolinea che nel contesto della regressione multipla assumono particolare
rilevanza, sia i temi connessi alla scelta del modello più appropriato (quello che
evidenzia la capacità rappresentativa più elevata della realtà sotto esame), nel cui
ambito è ricompresa anche la problematica relativa alla selezione delle variabili
esplicative da includere nel modello stesso, sia i temi collegati all’impiego del modello
a fini previsionali, previsioni che potranno essere effettuate utilizzando la distribuzione
predittiva a posteriori di Y.


363
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Cap. 7 – Teoria statistica delle decisioni
CAP. 7 – TEORIA STATISTICA DELLE DECISIONI
Introduzione
Nella premessa a queste note didattiche si è affermato che la disciplina che si occupa
della raccolta e del trattamento scientifico dei dati (manifestazioni dei fenomeni
collettivi di interesse) per trasformarli in informazioni è la Statistica, se poi le
informazioni stesse devono essere utilizzate per risolvere uno specifico problema
decisionale, cioè un problema che si risolve nella scelta ottimale di una tra diverse
alternative a disposizione, allora il contesto di riferimento è la Teoria delle decisioni.
Nella fusione delle due discipline si sostanzia un’altra disciplina scientifica: “La
Teoria statistica delle decisioni” o “Teoria delle decisioni statistiche” che per certi
versi può essere intesa come generalizzazione ed estensione della Statistica che in
questo modo risulta anche meglio caratterizzata nelle sue diverse connotazioni e meglio
precisata nei contenuti. In altri termini si può anche definire la statistica come il
fondamento logico e metodologico per la risoluzione dei problemi decisionali.
In questa prospettiva la Statistica si caratterizza come disciplina scientifica che non
si limita alla sola trasformazione dei dati in informazioni ma che si occupa anche della
trasformazione delle informazioni in conoscenza utilizzabile a fini operativi di
intervento (fini decisionali) 1.
7.1 - Teoria delle decisioni
Oggetto di studio della teoria delle decisioni è il processo decisionale. Attraverso
l’analisi del comportamento degli attori (individui o gruppi) coinvolti nel processo, si
procede, cioè, all’esame di come i decisori prendono o dovrebbero prendere delle
decisioni.
Allo sviluppo della teoria delle decisioni hanno contribuito cultori di discipline
diverse: filosofi e logici, matematici e statistici, psicologi e sociologi, economisti, ecc.
Gli sviluppi della teoria spaziano dalle speculazioni astratte, relative ad agenti
idealmente razionali, ai suggerimenti pratici per la risoluzione ottimale di specifici
1
Molti autori (Cox, 1958; Smith, 1961; Barnett, 1999) affermano che una distinzione deve essere fatta tra inferenza
statistica e teoria statistica delle decisioni. Ma altri autori come Savage (1951) e Lindley (1965, 2006), e questo è
anche il parere dell’autore di queste note didattiche, considerano la teoria statistica delle decisioni come una naturale
e necessaria generalizzazione dell’inferenza statistica. Inoltre, l'approccio decisionale, combinando varie teorie di
inferenza statistica, evita i dogmatismi che possono portare a situazioni paradossali, è esente da errori logici, è più
efficace nel contesto applicativo e tratta con successo una gamma più ampia di problemi rispetto agli approcci
tradizionali. L'approccio decisionale fornisce, cioè, una soluzione soddisfacente al cosiddetto problema pragmatico
dell’induzione.
365
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
problemi decisionali, all’analisi dei processi decisionali coi come si svolgono nella
realtà.
In questa ottica si è soliti distinguere la teoria delle decisioni in due filoni principali:
teoria normativa e teoria descrittiva. Chi si occupa di teoria descrittiva cerca di scoprire
come le decisioni vengono prese nei diversi contesti operativi; chi si occupa di teoria
normativa analizza il modo con cui le decisioni dovrebbero essere prese facendo
riferimento ad agenti idealmente razionali, procedendo, cioè, all’esame
delle
conseguenze logiche di differenti regole decisionali o esplorando gli aspetti logicomatematici o filosofici di diverse descrizioni di comportamento razionale. Questa
distinzione è utile ma alquanto artificiosa, essendo l’informazione sul modo effettivo di
prendere decisioni, certamente rilevante ai fini della fissazione di regole su come le
decisioni devono essere prese; d’altro lato nessuno studio sul comportamento effettivo
di agenti può consentire il conseguimento di risultati soddisfacenti se lo stesso non
viene, in qualche modo, posto a confronto con una sorta di comportamento ideale
(razionale).
La teoria descrittiva delle decisioni non interessa in questa sede essendo oggetto di
discipline specifiche quali la psicologia, la sociologia e, per alcuni aspetti, l’economia.
Qui verranno presentati gli elementi essenziali della teoria normativa delle decisioni 2: ci
si occuperà, cioè, di come le decisioni dovrebbero essere prese per massimizzare il
proprio “benessere” e non di come le decisioni sono effettivamente prese.
Ma, come già sottolineato, il riferimento alla teoria normativa non può essere
assoluto, si deve, infatti, tenere conto di tutta una serie di vincoli e di condizionamenti
che emergono dall’analisi dei processi reali affinché le regole di comportamento
razionale possano tradursi in comportamenti effettivi utili al decisore.
Per caratterizzare e distinguere questo specifico sviluppo della teoria normativa delle
decisioni alcuni autori hanno suggerito la dizione teoria prescrittiva che si caratterizza,
appunto, per il fatto che le regole ideali di comportamento razionale analizzate devono
poter essere tradotte in comportamenti effettivi (sui quali, come già sottolineato, incide
una serie innumerevole di condizionamenti sia individuali che di contesto) tali da
consentire al decisore il conseguimento del beneficio massimo.
I fondamenti della moderna teoria delle decisioni o si trovano nell’opera di Von
Neumann e Morgenstern (1947). I due autori mostrano come, sulla base di alcuni
postulati o assiomi di comportamento razionale di colui che deve prendere una
decisione, sia possibile introdurre una funzione a valori reali detta, a seconda del
contesto in cui si opera, di valore, o di utilità, per cui una decisione fondata unicamente
sulla massimizzazione del valore atteso di tale funzione consente l’individuazione della
scelta ottimale in accordo al proprio schema di preferenze.
Critiche di varia natura sono state rivolte al criterio dell’utilità attesa. Esse possono
essere comunque ridotte e sintetizzate nei due punti seguenti:
2
Per un approfondimento dell’argomento si può utilmente consultare, tra gli altri, Chiandotto e Bacci (2015).
366
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
1. quelle rivolte all’evidenza empirica degli assiomi di comportamento
razionale che sono alla base della moderna teoria dell’utilità;
2. quelle che sottolineano l’impossibilità pratica di derivare una funzione di
valore o di utilità significativa.
Alle critiche richiamate al punto 2 sono state fornite risposte che, nella generalità dei
casi, risolvono il problema dell’elicitazione della funzione di utilità in modo
soddisfacente3.
Per quanto riguarda, invece, le critiche richiamate al punto 1 si può rispondere che
esse hanno, ma non sempre, una certa rilevanza quando si considera il comportamento
di un agente e si voglia poi accertare fino a che punto egli segue le linee di
comportamento razionale attribuitegli. Quando però dal piano di verifica empirica di
una teoria, intesa in senso unicamente descrittivo, si passa al piano normativo della
stessa, tali critiche perdono, almeno in parte, di significato.
Il problema della rilevanza degli assiomi sul comportamento del decisore, va visto,
non nel senso di buona descrizione ma in quello di buona norma. Un tale problema
risulta però estremamente delicato in quanto, come già sottolineato, le implicazioni
normative degli assiomi, e quindi la bontà degli stessi, vanno giudicate in funzione dei
risultati operativi cui conduce la teoria che su di essi è fondata.
Qualunque decisione comporta una scelta tra più alternative, o azioni, o atti, ciascuna
delle quali produrrà una tra più conseguenze che dipenderà dalle condizioni del
contesto, lo stato di natura, nel quale il processo decisionale si svolge. Le decisioni,
sono, pertanto, costituite da azioni, stati e conseguenze, con le ultime che dipendono,
nella generalità dei casi, dallo stato di natura e dall’azione scelta.
Quando si analizza un problema di decisione, l’analista, che può essere lo stesso
soggetto che prende la decisione, deve individuare l’insieme rilevante delle azioni, degli
stati e delle conseguenze per caratterizzare in modo adeguato il problema stesso.
Attraverso l’individuazione di azioni, stati e conseguenze e costruendo, eventualmente,
una tavola o un albero di decisione, si procede alla specificazione del problema
decisionale.
Alcune interessanti questioni sono legate alla specificazione di un problema
decisionale. La prima riguarda la descrizione appropriata degli stati di natura. Ogni
problema decisionale implica delle conseguenze che il soggetto della decisione
considera migliori di altre, altrimenti non sussisterebbe un problema di scelta. In questo
contesto assume particolare rilevanza il principio della dominanza secondo il quale
devono essere escluse tutte le alternative che comportano conseguenze peggiori,
qualunque sia lo stato di natura, di una qualche specifica alternativa. Se c’è
un’alternativa che domina tutte le altre, il principio di dominanza porta a scegliere tale
3
Si tratta di critiche analoghe a quelle rivolte all’approccio bayesiano soggettivo. In tale approccio, come illustrato
nel capitolo precedente, alla misura delle probabilità a priori si perviene attraverso una traduzione soggettiva delle
proprie conoscenze, cioè al patrimonio informativo disponibile al momento in cui si procede all’analisi dei dati
campionari (conoscenza oggettiva).
367
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
alternativa ed il problema decisionale è risolto in modo ottimale. Sfortunatamente casi
del genere si riscontrano molto raramente nelle situazioni reali.
Una seconda interessante questione legata alla specificazione del problema
decisionale è quella relativa alla distinzione tra decisione giusta e decisione razionale,
la decisione di chi agisce è giusta se si risolve in esiti ottimali. Se si disponesse di una
conoscenza completa del futuro basterebbe, pertanto, fare riferimento al solo principio:
prendi la decisione giusta. Purtroppo la maggior parte delle decisioni è basata sul ciò
che si ritiene possa accadere e non su quello che accadrà realmente. Nella quasi totalità
dei casi risulta quindi impossibile prendere una decisione giusta, si dovrà allora
prendere una decisione razionale, valutando al meglio l’insieme parziale di informazioni
a disposizione riguardo al vero stato del mondo, e non è affatto scontata l’equivalenza:
decisione razionale = decisione giusta.
Da quanto sopra detto emerge implicitamente una diversificazione tra situazioni
decisionali.
Usualmente si distinguono le decisioni a seconda del contesto informativo in cui
l’agente opera in:
1.
decisioni in situazioni di certezza
2.
“
“
“
“ rischio
3.
“
“
“
“ incertezza
Se con A   a1 , a2 ,..., ai ,..., am  si indica l’insieme delle decisioni (azioni) alternative
possibili, con   1 ,2 ,..., j ,...,n  l’insieme dei possibili stati di natura e con
C   c11 ,c12 ,...,cij ,...,cmn  l’insieme delle conseguenze, dove le conseguenze cij sono
funzione dell’azione a i e dello stato  j
cij  f ( ai , j )
per i=1, 2, ..., m ; j=1, 2, ..., n
si può rappresentare il processo decisionale (dove è stato ipotizzato un numero discreto
di alternative ed un numero discreto di stati di natura) in modo appropriato facendo
ricorso alla tavola di decisione o all’albero di decisione:
Azione
Stato di natura
P 1  P  2 
P  j 
P  n 
a1
c11
c12
c1 j
c1n
a2
c21
c22
c2 j
c2 n
ai
ci1
ci 2
cij
cin
am
cm1
cm 2
cmj
cmn
Tab. 7.1 – Tavola di decisione
368
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
c11
1
2
c12
.
.
j
.
c1j
.
n
.
.
c1n
c21
a1
1
2
c22
.
.
j
.
n
a2
c2j
.
.
c2n
.
.
.
Nodo
decisionale
.
ci1
ai
.
.
.
1
2
ci2
.
.
j
am
Azioni
.
n
.
cij
.
.
cin
cm1
1
2
.
j
.
Nodo
aleatorio
n
cm2
.
.
cmj
.
.
cmn
Stati
Conseguenze
Fig. 7. 1 - Albero di decisione
369
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
7.2 - Decisioni basate sulle sole informazioni a priori
Se l’agente, il decisore, conoscesse lo stato di natura, ad es.:  j , il problema di scelta si
ridurrebbe al confronto tra m conseguenze (nell’es. c1 j ,c2 j ,...,cij ,...,cmj ) e la scelta
razionale equivarrebbe alla scelta giusta, sempre che siano note le conseguenze ed il
decisore sia in grado di esprimere, in modo razionale, le sue preferenze riguardo alle
conseguenze stesse. Il comportamento razionale consente, in altre parole,
l’individuazione dell’alternativa ottimale che comporta il conseguimento del massimo
beneficio.
Il problema di decisione introdotto può, pertanto, essere rappresentato nel modo
seguente:
Azioni Conseguenze
a1
c1
a2
c2
:
:
ai
:
:
ci
:
:
am
:
:
cm
dove con A, ai  A, si indica lo spazio o insieme delle azioni e con C, ci  C, lo spazio o
insieme delle conseguenze.
Come già sottolineato in precedenza, le considerazioni che s’intendono svolgere
riguarderanno esclusivamente la teoria normativa delle decisioni; si considererà, cioè,
la teoria che si preoccupa di definire come le decisioni dovrebbero essere prese dagli
individui al fine di massimizzare il proprio benessere; essa, quindi, non fa riferimento ai
comportamenti effettivamente osservabili nella realtà ma fa riferimento ad un individuo
“idealmente razionale” e deduce, sulla scorta di assiomi e attraverso la dimostrazione di
teoremi, un insieme di regole di comportamento cui l’individuo stesso deve uniformarsi.
7.2.1 Assiomi di comportamento razionale (parte I)
Dato l’insieme di conseguenze C  c1, c2 ,..., cm  e le relazioni di preferenza  , ,  4 ,
si possono definire i seguenti assiomi, esplicativi di un comportamento razionale:
4
La relazione di preferenza forte

(a

b sta a significare che l'agente - il decisore - preferisce strettamente
l'alternativa a all'alternativa. b). La relazione di preferenza debole  (a  b sta a significare che l'agente - il
decisore - preferisce debolmente l'alternativa a all'alternativa b). La relazione di indifferenza  (a  b sta a significare
che le due alternative forniscono all'agente - il decisore - esattamente lo stesso beneficio).
370
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Assioma 1: Comparabilità
ci , c j  C, ci  c j oppure c j  ci oppure sono vere entrambe
Assioma 2: Transitività
ci , c j , ck  C , se ci  c j e c j  ck  ci  ck
Assioma 3: Coerenza tra indifferenza e preferenza debole
ci , c j  C : ci  cj  (ci  cj e cj  ci)
Assioma 4: Coerenza tra preferenza forte e preferenza debole
ci , c j  C : ci  c j  cj  ci
La rilevanza degli assiomi emerge con tutta chiarezza quando se ne evidenziano le
implicazioni operative. La confrontabilità implica la necessità per il decisore di operare,
comunque, una scelta tra due alternative anche se questa, in base al terzo assioma, può
comportare indifferenza tra le stesse. La transitività e gli assiomi di coerenza
rispondono a una richiesta di non contraddittorietà tra le preferenze espresse.
Se i quattro assiomi sono soddisfatti, valgono i teoremi sotto riportati5.
Teorema 1 (Esistenza della funzione di valore).
Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale
viene introdotta una relazione  che soddisfa gli assiomi 1 - 4 esiste, e può
essere costruita, una funzione a valori reali espressi in scala ordinale V(.)
tale da soddisfare la relazione
ci  cj  V(ci )  V(cj ).
Il teorema 2 stabilisce l'esistenza di una funzione a valori ordinali perfettamente
equivalente allo schema di preferenze del decisore.
Teorema 2 (Unicità della funzione di valore).
Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale
viene introdotta una relazione
 che soddisfa gli assiomi 1 - 4, esistono due
funzioni di valore V(.) e W(.) che soddisfano le relazioni
ci  cj  V(ci )  V(cj ) e ci  cj  W(ci )  W(cj )
se e solo se V()=h(W(.)) dove h(.) è una funzione monotona crescente.
Il teorema 3 stabilisce che la funzione a valori reali espressi in scala ordinale è
unica a meno di una trasformazione monotona crescente.
Per lo sviluppo successivo della trattazione risulta conveniente introdurre una nuova
relazione tra oggetti, la relazione di scambio.
Definizione - La relazione di scambio  (a  b sta ad indicare la cessione di b per
avere in cambio a. Una generica relazione di scambio si indica con (ci  cj) e si legge:
“lo scambio di cj con ci, vale a dire la cessione di cj per ottenere ci”. Anche sulle
5
La dimostrazione dei teoremi è riportata, tra gli altri, in Chiandotto e Bacci (2004 e 2015).
371
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
relazioni di scambio ha senso introdurre le relazioni di preferenza forte, di preferenza
debole e di indifferenza (per distinguerle dalle analoghe relazioni sugli oggetti saranno
indicate con una “s” come pedice, s ,  s ,s).
7.2.2 Assiomi di comportamento razionale (parte II)
Assioma 5: Ordinamento debole
Sia la relazione  che la relazione  s soddisfano gli assiomi 1 – 4
Assioma 6: Coerenza tra  e  s
 ci, cj, ck  C: ci  cj  (ci  cj )  s (ck  ck )  ck  C
Assioma 7: Coerenza interna della relazione di scambio
a) (ci  cj )  s (ck  cz )  (cz  ck )  s (cj  ci ).
b) (ci  cj )  s (ck  cz ) e (cj  cl )  s (cz  cy )  (ci  cl )  s (ck  cy ).
Assioma 8: Solvibilità
a)  ci, cj, ck  C  y  C tale che: (y ci ) s (cj  ck )
b)  ci, cj  C  y  C tale che: (ci y ) s (y  cj )
Assioma 9: Proprietà Archimedea
Ogni sequenza standard strettamente limitata è finita
cn / y cn ;  cn  cn1  s c1  c0  ,
dove  indica il condizionamento alle relazioni che lo seguono; nel caso particolare che
si sta trattando y  cn significa che la sequenza è strettamente limitata e (cn  c(n-1)) s
(c1  c0) implica che (c1  c0) s (c2  c1) s (c3  c2) s … s (cn  c(n-1)), ossia che
la sequenza è standard.
Se gli assiomi fin qui elencati risultano soddisfatti valgono i seguenti teoremi.
Teorema 3 (Esistenza della funzione di valore misurabile)
Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale
vengono introdotte le relazioni
 e  s che soddisfano gli assiomi 5 - 9
esiste, e può essere costruita, una funzione misurabile a valori reali espressi
in scala di intervallo V(.) tale da soddisfare le relazioni
ci
 cj  V(ci )  V(cj );
(ci  cj )  s (ch  ck )  V(ci ) - V(cj )  V(ch ) - V(ck ).
Il teorema 3 stabilisce l'esistenza di una funzione di valore misurabile
perfettamente equivalente allo schema di preferenze del decisore.
372
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Teorema 4 (Unicità della funzione di valore misurabile)
Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale
vengono introdotte le relazioni
 e  s che soddisfano gli assiomi 5 - 9,
esistono due funzioni espresse su scala di intervallo V(.) e W(.) che
soddisfano le relazioni
ci
(ci  cj )
 s (ch  ck ) V(ci) - V(cj)  V(ch) - V(ck);
ci
(ci  cj )
 cj  V(ci)  V(cj);
 cj  W(ci)  W(cj);
 s (ch  ck ) W(ci) - W(cj)  W(ch) - W(ck)
se e solo se V(.)=+ W(.) per   0.
Il teorema 4 stabilisce che la funzione di valore misurabile è unica a meno di una
trasformazione lineare positiva.
Se lo stato di natura non è noto ma si dispone di una misura della probabilità dei vari
stati di natura, si parla di decisioni in situazioni di rischio.
La tavola di decisione sopra riportata potrà essere riscritta nei termini seguenti
Probabilità degli stati di natura
P 2 
.....
P n 
c11
c1n
.....
c1n
a2
c 21
c 22
c2n
....
....
am
.....
.....
c m1
.....
.....
cm2
.....
.....
.....
Azioni
P1 
a1
.....
.....
.....
c mn
7.2.3 Assiomi di comportamento razionale (parte III)
Assioma 10: Ordinamento debole
Ribadisce semplicemente che le preferenze del decisore sull’insieme delle lotterie
L  l1 , l2 ,..., lm  6 obbediscono agli assiomi 1 - 4.
6
Se per convenienza, e senza perdere in generalità, si assume che
c1  c2  ........  cn una qualunque lotteria di
riferimento è espressa nella forma
c1 p cn   p, c1 ; 0, c2 ; 0, c3 ;..........; (1  p), cn 
dove
c1
è la conseguenza preferita a tutte le altre e
non banale deve essere
lotterie degeneri
c1  cn
cn
è la conseguenza meno preferita; affinché il problema risulti
. Si può osservare come le singole conseguenze possono essere interpretate come
cij  0, ci1 ; 0, ci 2 ;.........;0, ci ( j 1) ; 1, cij ; 0, ci ( j 1) ;.........; 0, cim  .
373
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Assioma 11: Continuità
 l1, l2, l3  L, se l1  l2  l3   p (con 0  p  1) tale che l2  p l1 + (1-p) l3 .
L’assioma risponde ad un’esigenza di continuità nelle preferenze. Ad esso sono state
mosse varie critiche di carattere logico: alcuni affermano che esistono “premi” per cui
nessun valore di p è tale, per il decisore, da consentire il rispetto della relazione di
indifferenza. Ad esempio, se la lotteria l3 ha come risultato unico possibile la morte del
decisore, questi preferirà sempre e comunque la lotteria l2. In realtà questa critica può
essere superata riconoscendo che ognuno di noi, ogni giorno, compie tante semplici
azioni che comportano pur sempre una possibilità di morire (per es., attraversare la
strada).
Assioma 12: Monotonia
Date due lotterie l1 e l2  L e tali che l1  l2 e due probabilità p e p’, allora
(l1 p l2)  (l1 p’ l2)  p  p’
In altre parole, il decisore sceglierà sempre la lotteria che gli dà la probabilità più alta di
ottenere il risultato preferito.
Assioma 13: Riduzione delle lotterie composte
Sia data la lotteria composta l = (q1, l1; q2, l2; …..; qs, ls), avente, quindi, come premi le
lotterie semplici l1, l2, …, ls e dove lj = (pj1, c1; pj2, c2;…..; pjr, cr) con j = 1, 2, …, s è la
generica lotteria premio.
Sia, poi, l’ la lotteria semplice (p1, c1; p2, c2; …; pr, cr), dove pi = q1p1i + q2 p2i + …..+
qs psi per i = 1, 2, …r, allora l l’.
Assioma 14: Sostituzione o cancellazione
Siano ci , c j  C tali che ci ~ c j ; siano, poi, l ed l’ due lotterie, semplici o composte,
tali che
l = (……;q, ci ;……)
l’ = (……; q, c j ; ……)
allora l l’
Assioma 15: Indipendenza
Dati ci , c j , ch  C tali che ci ~ c j  (ci p ch ) ~ (c j p ch )
Il rispetto degli assiomi 1-15 di comportamento razionale sopra riportati consente di
dimostrare l’esistenza e l’unicità della funzione di utilità di un generico soggetto
decisore.
Teorema 5 (Esistenza della funzione di utilità)
Se le preferenze di un individuo sull’insieme C obbediscono agli assiomi 1–
15, allora esiste una funzione di utilità u definita su C tale che:
a) ci  cj  u(ci )  u(cj )
 ci, cj  C (Proprietà di ordinabilità)
b)
(p1, c1; p2, c2; ….; pr, cr)  (p’1, c1; p’2, c2; ….; p’r, cr)
 u(p1, c1; p2, c2; ….; pr, cr )  u(p’1, c1; p’2, c2; ….; p’r, cr )
374
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
 p1u(c1) + p2 u(c2) + …..+ pr u(cr)  p’1u(c1) + p’2 u(c2) + …..+ p’r
u(cr)

r
r
i 1
i 1
 pi  uxi    pi' uxi  (Proprietà di linearità)
Teorema 6 (Unicità della funzione di utilità)
Se u è una funzione di utilità su C, allora w   u   con  > 0 è
anch’essa una funzione di utilità che rappresenta lo stesso schema di
preferenze. Analogamente, se u(.) e w(.) sono due funzioni di utilità su C
che rappresentano lo stesso schema di preferenze, allora esistono un  > 0 e
un  tali che w   u   .
Il teorema 6 afferma, dunque, che per ogni individuo esiste una ed una sola
funzione di utilità a meno di trasformazioni lineari positive.
Un individuo razionale (che soddisfa cioè gli assiomi 1 - 15 per ottenere il massimo
beneficio sceglierà l’azione a cui egli associa, in base al suo schema di preferenze,
l’utilità attesa maggiore. Cioè l’alternativa a* che soddisfa la relazione
n
m

a*  argmax  P  j  uij 
i 1
 J 1

dove uij  u  ai , j  è una funzione a valori reali detta di utilità. Pertanto, il criterio di
decisione ottimale è quello della massimizzazione dell’utilità attesa.
7.3 - Decisioni in situazioni di estrema incertezza
Se non si dispone di alcuna informazione sulla probabilità dei vari stati di natura, si
parla di decisioni in situazioni di incertezza.
Alcuni autori, quelli che si richiamano alla scuola bayesiana-soggettivista, non
accettano la tripartizione sopra richiamata in quanto ritengono, non solo possibile, ma
anche necessario, per una risoluzione ottimale dei problemi decisionali, procedere
all’introduzione di una misura della plausibilità (probabilità soggettiva) dei vari stati di
natura facendo così cadere la distinzione tra situazioni di rischio e situazioni di
incertezza.
Su questo punto si avrà modo di ritornare successivamente, qui si accoglie la
possibilità dell’esistenza di situazioni che possono essere definite di estrema incertezza
o di ignoranza assoluta, nelle quali non si può o non si vuole procedere alla misura
della plausibilità dei vari stati di natura.
Si supponga ora che le conseguenze siano esattamente definite, che siano espresse in
termini di utilità
yij  cij  u (ai , j )
per i=1, 2, ..., m ; j=1, 2, ..., n
e che ragionevolmente, un’utilità più elevata sia preferita ad una utilità più bassa.
L’azione ottima è, pertanto, quella cui corrisponde l’utilità più elevata. Quindi, nel
caso in cui il decisore si trova ad operare in situazioni di certezza, cioè di conoscenza
375
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
dello stato di natura, il problema decisionale è praticamente risolto: basterà, infatti,
scorrere la colonna delle utilità, individuare la più elevata e scegliere l'azione
corrispondente a tale valore.
Molto più problematico è il caso in cui il decisore si trova ad operare in situazioni di
estrema incertezza. Infatti, se si guarda alla Tab. 7.2, dove ai simboli algebrici cij sono
stati sostituiti i simboli y ij , che rappresentano le utilità, si vede chiaramente come, non
essendo noto lo stato di natura, non sia possibile operare il confronto tra i valori
numerici riportati nella tavola a meno che non ci si riconduca ad una situazione analoga
a quella prospettata in precedenza (situazione di certezza) dove ad ogni azione diversa
corrisponde un solo valore numerico; si tratta, in altre parole, di passare, in qualche
modo, da n colonne ad una sola colonna.
Azione
Stato
di natura
a1
a2


ai


am
θ1
θ2

θj

θn
y11
y21


yi1


ym1
y12
y22


yi2


ym2








y1j
y2j


yij


ymj








y1n
y2n


yin


ymn
Tab. 7.2 - Tavola di decisione con conseguenze espresse in termini di utilità
Il caso in cui l’agente non sia in grado o non voglia assegnare una distribuzione di
probabilità agli stati di natura s’incontra frequentemente in pratica. Risulta quindi
conveniente una breve rassegna dei criteri di decisione suggeriti per la risoluzione del
problema di scelta in tali situazioni (di estrema incertezza). Per semplificare
l’esposizione, senza perdere in generalità, ci si limiterà ad analizzare il caso discreto.
Tra i criteri suggeriti per la soluzione del problema di decisione in situazioni di
estrema incertezza assumono un certo rilievo: quelli che, grosso modo, fondano il
criterio di decisione su elementi caratteristici (ad esempio la realizzazione più
favorevole, quella meno favorevole, ecc.) della Tab. 7.2.
1. Criterio del max-min o criterio di Wald. Esso consiste nello scegliere l’azione a*
che corrisponde al massimo delle utilità minime
a*  argmax (min yij )
i
376
j
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Questo criterio è proprio del pessimista estremo il quale è convinto che, qualunque
azione egli scelga, si realizzerà sempre quello stato di natura (condizioni strutturali,
economiche di produzione e di mercato, di lavoro, ecc.) che gli permetterà il
conseguimento del beneficio minimo. Quindi, egli si premunirà contro la natura
cercando di ottenere il massimo, tra i benefici minimi, che essa è disposta a
concedere.
2. Criterio del max-max. All’opposto del pessimista estremo c’è l’estremo ottimista, ed
è colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto
benigna nei suoi confronti da concedere il beneficio massimo. La scelta ottimale
risulta dalla relazione
a*  argmax (max yij )
j
i
3. Criterio di Hurwicz. Considerando l’espressione
a*  argmax
i
  min y  (1   ) max y 
j
ij
j
ij
per  compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti.
L’ assume quindi il senso di indice di pessimismo; infatti, per  = 1 si ha il criterio
del max-min, per  = 0 si ha il criterio del max-max.
4. Criterio di Savage o del min-max rimpianto. Per applicare il criterio di Savage,
occorre sostituire agli elementi di ciascuna colonna della Tab. 2 la differenza tra
l’elemento che ha valore massimo e l’elemento che occupa quella posizione
rij  max yij  yij
i
scegliendo poi l’azione a* per la quale il massimo rimpianto assume valore minimo
a*  argmin (max rij )
i
j
Attraverso il criterio del min-max rimpianto l’operatore cerca di minimizzare i danni
di una decisione errata.
I quattro criteri di decisione presentati hanno tutti un certo carattere di accettabilità:
naturalmente gli argomenti che possono essere avanzati a sostegno dell’uno o dell’altro
criterio, sono di natura diversa, il che in effetti non presenta gravi inconvenienti.
L’aspetto più problematico riguarda invece l’applicazione dei quattro criteri: infatti
se essi vengono adottati in uno stesso problema di decisione ne può risultare una scelta
di quattro azioni differenti. Da alcuni autori tale fatto è stato preso a pretesto per
affermare che uno o più criteri devono essere necessariamente errati. Non sembra
comunque che esistano ragioni sufficienti a sostegno di tale punto di vista; pare invece
più giusta l’affermazione che tutti i criteri proposti hanno una portata applicativa
limitata, e che a seconda delle circostanze dovrà essere adottato il criterio più
opportuno.
377
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Un ulteriore criterio cui si fa riferimento quando si deve operare in situazioni di
estrema incertezza è il cosiddetto criterio di Laplace o criterio della ragione
insufficiente. Il criterio di Laplace individua quale azione migliore a* quella cui
corrisponde il massimo della somma
a*  argmax
i
n
y
j 1
ij
In base al criterio di Laplace, si attribuisce implicitamente a tutti gli stati di natura j
uguale probabilità; ciò viene fatto in quanto non si hanno motivi sufficienti per ritenere
che la distribuzione delle probabilità sia diversa da quella uniforme. Evidentemente una
tale giustificazione risulta del tutto insoddisfacente perché non sono chiari i motivi per i
quali lo stato d’ignoranza completa debba implicare necessariamente un’uguale
probabilità degli stati di natura. Pertanto, o si prende atto che si sta operando in
situazioni di estrema incertezza, e cioè di ignoranza completa riguardo alla plausibilità
(probabilità) dei vari stati di natura, e si agisce di conseguenza, oppure si dovrà
procedere esplicitamente alla valutazione (soggettiva) 7 delle probabilità attraverso
procedure adeguate. In realtà, anche negli altri criteri si opera una sorta di introduzione
indiretta delle probabilità, ma si tratta comunque di una assegnazione di probabilità che
dipende più dalle azioni che dagli stati di natura. Infatti, se si considera, ad esempio, il
criterio del max-max, questo si risolve, in sostanza e distintamente per ciascuna azione,
nell’attribuzione di una distribuzione degenere di probabilità che assegna valore 1 alla
probabilità dello stato di natura cui corrisponde la conseguenza più favorevole, mentre
nel criterio del max-min si assegna valore 1 alla probabilità dello stato di natura cui
corrisponde la conseguenza più sfavorevole.
7.4 - Struttura del processo decisionale
In questo paragrafo, e nei due paragrafi successivi, verranno presi in considerazione gli
aspetti più elementari della teoria statistica delle decisioni seguendo gli schemi classici
introdotti da A. Wald nel 19508.
Si ricorda che nelle pagine precedenti sono stati analizzati i problemi decisionali in
situazioni di estrema incertezza (nessuna informazione sugli stati di natura) e in
situazioni di rischio o incertezza presupponendo la conoscenza della distribuzione delle
probabilità sugli stati di natura (decisioni basate sulle sole informazioni a priori),
verificando che, nel contesto della teoria dell’utilità classica, l’azione ottima per il
decisore è quella che massimizza l’utilità attesa.
Il decisore deve scegliere tra una gamma di azioni alternative possibili ma le
conseguenze di ciascuna azione dipendono da una situazione reale detta stato di natura.
Il decisore, sia in situazioni di estrema incertezza (mancanza assoluta di informazioni
sulle probabilità relative allo stato di natura), sia in quelle di rischio (conoscenza della
7
8
Su queste problematiche si veda quanto è stato detto nel capitolo precedente.
L'argomento viene trattato estesamente in Ferguson (1967), De Groot (1970), Berger (1985) e Piccinato (1996),
378
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
distribuzione di probabilità sugli stati di natura), può procedere nella scelta oppure
decidere di rinviare la scelta definitiva dell’azione procedendo all’acquisizione di
ulteriori dati (di tipo campionario). Si sottolinea in proposito che l’acquisizione di dati
comporta usualmente un costo che potrebbe non risultare compensato dal guadagno
informativo; ma sul valore dell’informazione campionaria si avrà modo di soffermare
l’attenzione successivamente.
Le diverse tipologie di problemi decisionali da affrontare e risolvere sono pertanto
di:
 decisione in assenza assoluta di informazioni (teoria classica delle
decisioni);
 decisione basata sulle sole informazioni a priori (teoria bayesiana delle
decisioni);
 decisione basata sulle sole informazioni campionarie (teoria statistica
classica delle decisioni);
 decisione basata su informazioni campionarie e informazioni a priori
(teoria statistica bayesiana delle decisioni).
Nel paragrafo successivo verrà affrontato il terzo problema, quello cioè della
risoluzione di problemi decisionali basandosi sulle sole informazioni campionarie, ma
prima di procedere nella illustrazione risulta conveniente una elencazione dei fattori che
entrano in gioco e che possono caratterizzare i problemi decisionali in tutte le loro
possibili articolazioni.
Gli elementi che possono caratterizzare lo svolgimento di un qualunque processo
decisionale, sia in termini di spazi di riferimento che di funzioni, nelle diverse
strutturazioni e fattispecie operative, sono:
   spazio parametrico o spazio degli stati di natura; in molte situazioni
tale spazio è Rh e può trattarsi sia di uno spazio discreto che di uno spazio
continuo;
 A  spazio delle azioni finali (si assume che lo spazio sia discreto);
 E  spazio delle prove o degli esperimenti (si assume che lo spazio sia
discreto);
 S  spazio o universo dei campioni come risultato di ciascun
esperimento. Generalmente i risultati campionari vengono espressi da n
(dimensione campionaria) k-uple, se k sono i caratteri presi in
considerazione di numeri reali  X1 , X 2 ,..., X i ,..., X n  dove X i , i = 1, 2,
….,n, è un vettore di dimensione k;
 D  spazio delle decisioni.
In aggiunta agli spazi appena definiti risulta conveniente introdurre esplicitamente
almeno tre funzioni:
379
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015

la funzione di utilità U  u  a,  , definita in precedenza, la funzione

associa a ciascuna azione e stato di natura una conseguenza espressa in
termini di utilità;
la funzione di decisione a  d  x  , funzione che proietta ciascun punto

dello spazio campionario nello spazio delle azioni9;
la funzione di perdita L  l  a,  , la funzione associa a ciascuna azione e
stato di natura una conseguenza espressa in termini di perdita.
Le relazioni tra i diversi elementi sopra definiti sono illustrate nella Fig. 7.2 dove è
riportata la struttura completa del processo decisionale le cui diverse articolazioni
saranno caratterizzate dalla presenza di specifici elementi e particolari relazioni: Ad
esempio, nella teoria classica delle decisioni (decisioni in situazioni di estrema
incertezza), entrano in gioco soltanto lo spazio degli stati di natura, lo spazio delle
azioni e lo spazio delle conseguenze (espresse in termini di utilità o di perdite).
Spazio delle
decisioni
D
Spazio degli
esperimenti
Spazio dei
campioni
x
E
S
d  x
Spazio delle azioni
A
a

Spazio
parametrico
(Stato di natura)
Verosimiglianza
f  x , 
Θ
Utilità
U a, 
o
Perdite
La, 
Probabilità a posteriori
P  / x 
Probabilità a priori
  
Fig. 7.2 - Struttura del processo decisionale
L’introduzione della funzione di perdita L  l a,  (loss) consente la trattazione
della teoria statistica delle decisioni nei termini più tradizionali secondo l’impostazione
9
Una regola di decisione (funzione di decisione) si dice semplice o non aleatoria se ad ogni punto
corrisponde un solo punto
a A
a  A , mista od aleatoria se ad ogni punto x  S
xS
corrisponde una gamma di punti
cui è associata una distribuzione di probabilità. Da rilevare che le regole di decisione semplici si ottengono
come caso particolare di quelle miste quando lo spazio delle probabilità è degenere.
380
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
originaria data da Wald e che risulta più consona al tipico ragionamento statistico. A
sostegno di tale affermazione basta fare riferimento ai problemi classici di stima
statistica puntuale e di test delle ipotesi. Nel primo caso si ricorda che, una delle
proprietà “augurabili” per lo stimatore ˆ  T  X  di  è l’efficienza che
tradizionalmente viene misurata attraverso il computo dell’errore quadrato medio
qualunque sia il vero valore del parametro  
ˆ *  T  x   min E
 T  X       min EQM ˆ 
2
 
basterà interpretare EQM ˆ come funzione di perdita che si vuol minimizzare. Nella
teoria del test delle ipotesi, fissata la probabilità di commettere un errore di I tipo si
cerca di minimizzare la probabilità di commettere un errore di II tipo; in questo caso, la
perdita che si vuol minimizzare è rappresentata dalla probabilità dell’errore di secondo
tipo.
Se si ragiona in termini di perdite, interpretate semplicemente come utilità negative,
si può riproporre la tabella di decisione esprimendo le conseguenze cij in termini di
perdite cij  l ai , j   lij anziché in termini di utilità cij  uai , j   uij .
Decisioni
Stato di natura
1
2
……
d1
l  d1 ,1 
l  d1 ,2 
……
d2
l  d 2 ,1 
l  d 2 ,2 
....
.....
.....
di
l  di ,1 
l  di ,2 
....
.....
.....
dm
l  d m ,1 
l  d m ,2 
j
l  d1 , j 
l  d 2 , j 
l  di , j 
l  d m , j 
.....
n
.....
l  d1 ,n 
.....
.....
…..
.....
.....
l  d 2 ,n 
.....
l  di ,n 
.....
l  d m ,n 
Tab. 7.3 - Tavola di decisione con conseguenze espresse dalla funzione di perdita
Se il decisore opera in condizioni di estrema incertezza, cioè nelle situazioni nelle
quali non possiede informazioni sulla distribuzione di probabilità degli stati di natura, o
non vuole utilizzare quelle in suo possesso perché poco affidabili, per risolvere il
problema di scelta dovrà fare ricorso ad uno dei criteri proposti per risolvere i problemi
decisionali in situazioni di estrema incertezza. illustrati nel paragrafo precedente.
Di seguito vengono riproposti tre dei criteri introdotti considerando le perdite
lij  l ai , j  anziché le utilità) uij  l  ai , j  .
381
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Criterio del min-max o criterio di Wald. Esso consiste nello scegliere l’azione a* che
corrisponde al minimo della massima perdita
a*  argmin( max lij )
j
i
Come già sottolineato questo criterio è proprio del pessimista estremo il quale è
convinto che, qualunque azione egli scelga, si realizzerà sempre quello stato di natura
cui è collegata la perdita massima.
Criterio del min-min. All’opposto del pessimista estremo c’è l’estremo ottimista, ed è
colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto
benigna nei suoi confronti da concedere la perdita minima. La scelta ottimale risulta
dalla relazione
a*  argmin ( min lij )
j
i
Criterio di Hurwicz.

a*  argmin α max lij + (1 - α) min lij
i
j
j

per  compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti.
L’ assume quindi il senso di indice di pessimismo; infatti, per  = 1 si ha il criterio
del min-max, per  = 0 si ha il criterio del min-min.
Se il decisore opera in condizioni di rischio, cioè nel presupposto che sia nota la
distribuzione delle probabilità sugli stati, soddisfacendo i postulati di comportamento
razionale sopra illustrati, il problema decisionale ha una soluzione immediata; infatti,
basterà sostituire il principio di massimizzazione dell’utilità attesa con quello della
minimizzazione della perdita attesa: Pertanto l’azione ottimale a * è definita dalla
relazione


n

a*  argmin E l  ai , j   argmin  l  ai , j   P  j  
ai
ai
 i 1

Come già sottolineato, per risolvere il problema decisionale in situazioni di estrema
incertezza, degli elementi sopra definiti e riproposti in forma grafica nella Fig. 7.2,
quelli da considerare sono:
 la funzione di perdita e il corrispondente spazio delle conseguenze;
 lo spazio delle azioni;
 lo spazio degli stati di natura;
mentre, per risolvere il problema decisionale in situazioni di rischio, degli elementi
sopra definiti e riproposti in forma grafica nella Fig. 7.1, quelli da considerare sono:
 la funzione di perdita e il corrispondente spazio delle conseguenze;
 lo spazio delle azioni;
 lo spazio degli stati di natura;
382
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni

Versione 2015
la distribuzione delle probabilità (a priori) sugli stati di natura.
7.5 - Decisioni basate sulle sole informazioni campionarie
Nelle due situazioni prospettate nel paragrafo precedente, l'operatore può procedere
all'individuazione dell'azione a*, nell'insieme potenziale delle azioni A, ritenuta ottimale
(attraverso l’impiego di uno dei criteri di decisione elencati, se si opera in condizioni di
estrema incertezza, quella che minimizza la perdita attesa, se si opera in situazioni di
rischio o incertezza), alternativamente, come già sottolineato, può decidere di acquisire
informazioni sullo stato di natura predisponendo un particolare esperimento da scegliere
dalla famiglia E di esperimenti potenziali. Da notare che qui l'esperimento va inteso in
senso ampio, includente cioè tutti i casi di acquisizione di dati quali la rilevazione
mediante indagine campionaria, la predisposizione di un esperimento in senso classico,
la raccolta di dati già pubblicati, lo spoglio di schede contenenti le manifestazioni di
certi fenomeni, ecc..
Ovviamente, l’acquisizione di informazioni campionarie, oltre a collocare il processo
decisionale nel contesto statistico (dalla teoria delle decisioni alla teoria statistica delle
decisioni), può comportare un costo che potrebbe non essere compensato dalla
riduzione dell’incertezza. Sorge così un nuovo problema decisionale che abbisogna di
soluzione; l’interrogativo a cui dare risposta è, quindi, se procedere o meno
all’acquisizione di informazioni campionarie il cui valore (e convenienza) potrà essere
misurato soltanto a posteriori, cioè dopo aver realizzato l’esperimento ed acquisito le
informazioni. Il tema del valore dell’informazione campionaria verrà trattato nel
paragrafo 7.7, il paragrafo 7.6 sarà dedicato, invece, alla illustrazione delle
problematiche connesse alla integrazione delle informazioni a priori con informazioni
campionarie (teoria statistica bayesiana delle decisioni), mentre in questo paragrafo si
affronterà il tema della scelta ottimale tra le diverse alternative utilizzando le sole
informazioni campionarie (decisioni basate sulle sole informazioni campionarie: teoria
statistica classica delle decisioni).
Come già sottolineato, seguendo una tradizione ormai consolidata, la presentazione
farà riferimento alle perdite e non alle utilità; in proposito, si sottolinea ancora una volta
che la funzione di perdita non è altro che una particolare caratterizzazione della
funzione di utilità.
L’argomento verrà introdotto attraverso l’illustrazione di un problema decisionale
divenuto ormai classico in letteratura perché, nonostante la sua estrema semplicità,
consente una trattazione approfondita di tutti gli aspetti di interesse: si deve decidere se
non procedere (azione a1 ) o procedere (azione a 2 ) alla trivellazione di un pozzo non
disponendo di informazioni sulla presenza o meno del petrolio nel terreno. Se il petrolio
non è presente, lo stato di natura è  1 , se invece è presente, lo stato di natura è  2 , il
costo della perforazione è pari a 300mila $, gli introiti, in caso di presenza del petrolio,
sono pari a 900mila $; ovviamente l’introito in caso di assenza di petrolio è 0.
383
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Il problema decisionale è proposto nella Tab. 7.4, dove si fa riferimento alle utilità, e
nella Tab. 7.5, dove le conseguenze sono espresse in termini di perdite.
Se il decisore conoscesse le probabilità (a priori), ad esempio P1   0.50 e
P 2   0.50 , ne risulterebbe un’utilità attesa pari a 0, in corrispondenza dell’azione a1 ,
mentre l’utilità attesa per a 2 è pari 300mila $, quindi la scelta ottimale è a*  a2 . Per
contro, le perdite attese sarebbero, rispettivamente pari a 300mila $, per l’azione a1 , e
pari a 150mila $ per l’azione a 2 ; ovviamente, anche se si ragiona di termini di perdita si
individua a 2 come azione ottimale. L’esito peraltro risulta scontato; infatti se si ragiona
in termini di lotteria, puntando 300mila $ si ha una probabilità del 50% di ricevere la
propria posta triplicata. Ovviamente questa conclusione è valida solo presupponendo
una funzione di utilità lineare; un soggetto fortemente avverso al rischio potrebbe,
infatti, decidere di non procedere alla trivellazione.
Azioni
a1 : non perforare
a 2 : perforare
Stato di natura
1 : assenza di petrolio
 2 :presenza di petrolio
0
0
-300
600
Tab. 7.4 - Tavola di decisione: problema di trivellazione con utilità come conseguenze
Azioni
a1 : non perforare
a 2 : perforare
Stato di natura
1 : assenza di petrolio
 2 :presenza di petrolio
0
600
300
0
Tab. 7.5 - Tavola di decisione: problema di trivellazione con perdite come conseguenze
Gli aspetti concernenti l’influenza degli atteggiamenti individuali nei confronti delle
scelte decisionali emergono anche nelle situazioni nelle quali non si possiede alcuna
informazione sulle probabilità degli stati di natura. Infatti, se si fa riferimento alla Tab.
7.4 e si ricorre al criterio del max-min (pessimista) l’azione ottima risulta essere a1 ,
mentre il criterio del max-max (ottimista) individua a 2 come azione migliore. Nella
Tab. 7.5 si riportano le soluzioni del problema decisionale fornite dal criterio di Hurwitz
in corrispondenza di diversi valori assunti dal coefficiente (di pessimismo)  .
L’equivalenza riscontrata tra gli esiti di questo criterio e quelli che derivano dal criterio
dell’utilità (perdita) attesa non è affatto generalizzabile a situazioni con stati di natura o
azioni superiori a due.
384
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Osservando i dati riportati in tabella si rileva il valore dell’indice di pessimismo che
induce il decisore a modificare la propria strategia, la soglia comporta la scelta
dell’azione a1 (non trivellare) rispetto all’azione a 2 è   0.666  P 1   0.666 .
Cioè, se si fa riferimento alla massimizzazione dell’utilità attesa, si decide di procedere
alla trivellazione (azione a 2 ) se P 2   0.333 .
Valori dell’indice
di pessimismo 
0
0,1
0,2
0,3
0,4
0,5
0,6
0,65
0,66
0,67
0,68
0,7
0,8
0,9
1
Azioni
a1 : non perforare
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
a 2 : perforare
600
510
420
330
240
150
60
15
6
-3
-12
-30
-120
-210
-300
Tab. 7.6 - Problema di trivellazione con utilità come conseguenze: criterio di Hurwitz
Si supponga che il decisore abbia la possibilità di acquisire,
informazioni sulla presenza o meno di petrolio nel terreno utilizzando
indipendenti. I possibili esiti dell’utilizzo dei sismografi sono riportati
l’informazione fornita dai sismografi non è certa, le probabilità
corrispondenza dei due diversi stati di natura sono riportati nella tabella.
Segnalazione
del sismografo
Assenza di petrolio
Presenza di petrolio
a costo zero,
due sismografi
nella Tab. 7.7;
di errore, in
Stato di natura
1 : assenza di petrolio
 2 : presenza di petrolio
0.6
0.4
0.3
0.7
Tab. 7.7 – Probabilità dell’esito del sismografo condizionato allo stato di natura
385
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Il decisore potrà decidere se trivellare o meno sulla scorta dell’informazione
campionaria acquisibile il cui esito può essere:
 entrambi i sismografi indicano assenza di petrolio,
 entrambi i sismografi indicano presenza di petrolio;
 un sismografo indica presenza di petrolio mentre l’altro indica assenza.
Se con 0 si indica assenza di petrolio e con 1 presenza di petrolio, lo Spazio
campionario S sarà costituito dai quattro punti campionari:
S  0,0, 0,1, 1,0, 1,1
cui sono associate le probabilità:
P0,0 /  2   P0 /  2   P0 /  2   0.09
P0,0 / 1   P0 / 1   P0 / 1   0.36
P0,1 / 1   P0 / 1   P1 / 1   0.24
P1,0 / 1   P1 / 1   P0 / 1   0.24
P0,1 /  2   P0 /  2   P1 /  2   0.21
P1,0 /  2   P1 / 1   P0 /  2   0.21
P1,1 /  2   P1 /  2   P1 /  2   0.49 .
P1,1 / 1   P1 / 1   P1 / 1   0.16
I due punti campionari estremi indicano, rispettivamente, assenza di petrolio e
presenza di petrolio segnalata da entrambi i sismografi; mentre, i due punti intermedi
indicano che uno solo, dei due sismografi, segnala la presenza di petrolio. In sostanza si
è in presenza di tre punti campionari per due diversi stati di natura, quindi il numero
delle funzioni di decisione possibili è pari a 2 3 = 8: Si ricorda che la funzione di
decisione è una funzione che fa corrispondere ad ogni punto campionario una specifica
azione. Nella Tab. 7.8 è riportata l’esplicitazione delle 8 funzioni di decisione.
Punti campionari
0,0
0,1 o 1,0
1,1
d1
d2
Funzioni di decisione
d3
d5
d6
d4
a1
a2
a1
a1
a2
a1
a2
a2
a1
a2
a1
a2
a1
a2
a1
a2
a1
a2
a2
a1
a1
a2
a2
a1
d7
d8
Tab. 7.8 – Probabilità dell’esito del sismografo condizionato allo stato di natura
Se si analizza quanto riportato nella Tab. 7.8 si rileva immediatamente la scarsa
razionalità di alcune funzioni di decisione, ad es., le funzioni d 1 e d 2 individuano,
rispettivamente, l’azione a1 e l’azione a 2 qualunque sia l’esito campionario, mentre la
funzione d 5 individua l’azione a 2 (procedere alla trivellazioni) quando entrambi i
sismografi registrano assenza di petrolio, mentre individuano l’azione a1 (non procedere
alla trivellazione) quando uno o entrambi i sismografi registrano presenza di petrolio.
Prescindendo per il momento dalla ragionevolezza o meno delle funzioni di decisione,
si può procedere al calcolo delle perdite attese (rischi) associate a ogni funzione di
386
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
decisione in corrispondenza dei due diversi stati di natura. A titolo esemplificativo si
considera la funzione d 6 , la procedura di calcolo è illustrata nella Tab. 7.9.
1
2
Stato di natura  1
Punti
campionari
Azione
scelta
0,0
a1
0
Prob. del
campione
0.36
0,1 , 1,0 o
1,1
a2
300
0.64
Perdita
1
2
Stato di natura  2
600
Prob. del
campione
0.09
0
0.91
Perdita
Perdita attesa
(Rischio)
Col. 1 x Col. 2
1
2
Perdita attesa
(Rischio)
0
54
192
0
192
54
Tab. 7.9 – Calcolo delle perdite attese per la funzione di decisione d 6
Nella Tab. 7.10 sono riportate le perdite attese (rischi) per tutte le funzioni di
decisione introdotte.
Decisioni
Stati di natura
1 : assenza di petrolio
 2 :presenza di petrolio
d1
0
600
d2
300
0
d3
144
348
d4
48
306
d5
108
546
d6
192
54
d7
252
294
d8
156
252
Tab. 7.10 – Tavola delle perdite attese (rischi)
Se si osserva la tabella si evince immediatamente che la natura del problema che il
decisore deve risolvere è sostanzialmente analoga a quella già esaminata in precedenza;
si tratta, cioè, di scegliere tra le 8 decisioni possibili quella che minimizza la perdita
387
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
attesa non avendo informazioni sulla probabilità degli stati di natura (situazione di
estrema incertezza) facendo però riferimento a perdite e decisioni anziché a utilità e
azioni.
Il primo passo da compiere è, quindi, quello della verifica della presenza di
un’eventuale decisione dominante, quella cioè caratterizzata da rischio minimo
qualunque sia lo stato di natura. Osservando i valori riportati nella Tab. 7.9 si verifica
l’assenza di una tale eventualità. Il secondo passo consiste nell’individuazione (e
successiva eliminazione) di eventuali decisioni dominate da altre, ed è questo il caso
delle decisione d 3 e d 5 , che risultano dominate dalla decisione d 4 , e della decisione
d 7 , che risulta dominata dalla decisione d 8 .
Tornando al problema decisionale nei suoi termini più generali si può affermare che
la decisone ottima per l’operatore è quella che minimizza la perdita (massimizza
l’utilità) per qualunque stato di natura e risultanza campionaria, ma una tale strategia
difficilmente si riesce a determinare nella pratica; qualora si riuscisse ad individuarla si
parlerebbe di strategia "uniformemente migliore".
Per superare le difficoltà relative alla determinazione della strategia "ottima" è stato
proposto, tra l’altro di restringere la classe delle decisioni ammissibili; si tratta di un
metodo che prevede l'esclusione di strategie che non soddisfano a determinati requisiti
ritenuti "augurabili" dall'operatore. Un tale modo di procedere consente da un lato
l'eliminazione dall'analisi delle strategie meno efficienti, dall'altro incrementa le
possibilità di esistenza di strategie uniformemente migliori, facilitandone
l'individuazione, nella classe ristretta.
Una delle condizioni che può essere considerata per restringere la classe delle
decisioni possibili è l'invarianza. A giustificazione di tale restrizione si può dire che se
un problema di decisione risulta simmetrico od invariante rispetto a certe operazioni,
sembra ragionevole restringere la classe delle decisioni possibili a quelle che siano
simmetriche od invarianti nei confronti delle stesse operazioni.
Restringere la classe delle decisioni possibili si sostanzia nella introduzione di
vincoli che devono essere soddisfatti dalle decisioni stesse. Si tratta, sostanzialmente, di
una procedura del tutto analoga a quella adottata nel contesto della regressione lineare:
infatti, in tale contesto, imponendo il soddisfacimento dei vincoli di linearità e
correttezza è stato possibile individuare lo stimatore ottimale, cioè, lo stimatore BLU .
Assegnando all’errore quadratico medio la natura di funzione di perdita, è stato
possibile individuare la strategia dominante.
Il tema della restrizioni della classe delle decisioni non verrà qui affrontato
procedendo, invece, alla generalizzazione di quanto discusso nell’esempio sopra
illustrato. Si farà riferimento ad un generico numero n di stati di natura, ad un generico
numero r di funzioni di decisione e ad un generico vettore casuale X   X 1, X 2 ,...., X n 
'
associato alla rilevazione campionaria frutto della conduzione di uno specifico
esperimento.
388
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
In questo contesto la generica funzione di decisione assume la forma
a  d  x1 , x2 ,...., xn   d  x  ,
dove
x   x1 , x2 ,...., xn 
'
rappresenta
l’esito
dell’esperimento condotto (risultato campionario), cioè, la determinazione del vettore
casuale X   X 1, X 2 ,...., X n  . Pertanto la perdita attesa (rischio) resta definita dalla
'
relazione:


R  d ,   R d  x  ,   Ex l d  x  ,  .
Relazione che per un vettore campionario relativo ad una variabile discreta diventa


R  d ,   E x l  d  x  ,    x l  d  x  ,   P  x /   
 x
1

x2
  x l  d  x1 , x2 ,...., xn  ,    f  x1 ,    f  x2 ,   ....... f  xn ,  
n
dove f xi ,  , per i=1,2,….,n, rappresenta la funzione di massa di probabilità della
variabile casuale X i associata all’i-esima unità campionaria.
Se le variabili casuali X i originano da una variabile casuale continua, l’espressione
algebrica del rischio (perdita attesa) è data da:


R  d ,   E x l  d  x  ,    l d  x  ,  P  x /   
x

x1
x2
...... l  d  x1 , x2 ,...., xn  ,   f  x1 ,    f  x2 ,   ....... f  xn ,    dx1dx2 .....dxn
xn
dove f xi ,  , per i=1,2,….,n, rappresenta la funzione di densità di probabilità della
variabile casuale X i associata all’i-esima unità campionaria.
La tavola di decisione che riassume i termini del problema decisionale (cfr. Tab.
7.11) è del tutto analoga alla Tab. 7.3, anche se ora è espressa in termini di funzioni di
decisioni e di rischi (perdite attese) anziché di perdite; pertanto, per risolvere il
problema decisionale, basterà fare ricorso ai criteri illustrati nel paragrafo 7.4.
Decisioni
Stato di natura
1
2
……
d1
Rd1 ,1 
Rd1 , 2 
……
d2
Rd 2 ,1 
Rd 2 , 2 
....
…………
…………
……
……
Rd i , 2 
di
Rd i ,1 
....
…………
…………
……
……
dr
R  d r ,1 
R  d r ,2 
……
j
Rd1 , j 
Rd 2 , j 
…………
Rd i , j 
…………
R  d r , j 
.......
.......
n
Rd1 , n 
Rd 2 , n 
.......
.......
…………
…...
.......
…………
.......
R  d r ,n 
Rd i , n 
Tab. 7.11 - Tavola di decisione con conseguenze espresse dai rischi (perdite attese)
389
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
7.6 - Decisioni basate su informazioni a priori e informazioni
campionarie
Nei paragrafi precedenti si è visto come l'operatore possa utilizzare l'insieme delle
probabilità a priori, che riflettono le sue "credenze" sulle possibilità di realizzazione dei
vari stati di natura, per determinare l'utilità attesa o, alternativamente, la perdita attesa
relativamente a ciascuna azione; è stato inoltre esaminato il caso in cui l'operatore,
prescindendo da ogni informazione a priori, utilizza le informazioni campionarie per il
computo del rischio. E' stato sottolineato anche il fatto che, generalmente, non è
possibile individuare una funzione di decisione capace di minimizzare il rischio in
corrispondenza di ciascuno stato di natura; cioè, nella generalità dei casi non esiste una
decisione dominante. A tale proposito è stata esaminata la possibilità di ricorrere con
opportuni adattamenti, ai criteri esposti nel paragrafo 7.4. Una seconda possibilità è,
ovviamente, quella d'introdurre una distribuzione di probabilità sugli stati di natura,
calcolando il rischio atteso, per poi procedere alla individuazione della decisione che
minimizza tale rischio atteso (decisione ottimale).
Evidentemente l'introduzione di una distribuzione di probabilità sugli stati di
natura attribuisce al problema decisionale un carattere completamente diverso da
quello discusso nel precedente paragrafo, assumendo una natura del tutto
analoga ad un problema decisionale nel quale l'operatore, disponendo di certe
informazioni a priori e non ritenendole sufficient i, decide di procedere
all’acquisizioni di dati aggiuntivi per incrementare il suo bagaglio di
conoscenze sul fenomeno in oggetto d’analisi.
In questo paragrafo si vedrà come l'applicazione del criterio (paradigma)
bayesiano alla tabella dei rischi conduca all’individuazione della decisione
ottimale; cioè, quella che minimizza il rischio atteso (analisi in forma
normale). Si vedrà, inoltre, come l'operatore possa integrare, con le
informazioni aggiuntive di tipo campionario, le informazioni a priori mediante
una loro revisione attraverso l'applicazione delle formule di Bayes (analisi in
forma estensiva) pervenendo agli stessi risultati. In proposito si deve
sottolineare che spesso la revisione delle probabilità a priori attraverso le
formule di Bayes può risultare un'operazione estremamente complessa; e ciò è
vero soprattutto se non si riesce ad individuare uno "statistic" 10 la cui
distribuzione sia determinata univocamente dai dati campionari. Per contro, si
deve tener presente del fatto che quando si è in presenza di un numero elevato
di possibili stati di natura e di possibili risultanze campionarie risulta molto
complicata, a volte anche impossibile, la definizione di tutte le possibili
funzioni di decisione.
10
Si ricorda che uno statistic, statistica in italiano, è una funzione nota degli elementi campionari e che le probabilità
a priori revisionate vengono dette probabilità a posteriori.
390
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Nel paragrafo precedente è stato illustrato un esempio in merito alla decisone
di procedere o meno alla trivellazio ne di un pozzo per la ricerca del petrolio
esaminando la possibilità di acquisizione di informazioni campionarie
attraverso l’impiego di sismografi. Se si prende nuovamente in considerazione
l’esempio partendo dalla tabella dei rischi e si osservano i dat i riportati nella
Tab. 7.11 si rileva immediatamente che se lo stato di natura più probabile è 1
le decisioni migliori risultano essere d 1 e d 4 , mentre se è più probabile lo stato di
natura  2 le decisioni migliori sono la d 2 e la d 6 . Si supponga ora che le probabilità
associate ai due stati di natura siano P1  0.2 e P 2  0.8 , sulla scorta di tali
probabilità si possono calcolare i rischi attesi riportati nella Tab. 7.12.
Funzioni di
decisione
Stati di natura
1 : assenza di petrolio  2 :presenza di petrolio
Dominanza
d1
0
600
-
d2
300
0
-
d3
144
348
Dominata
d4
48
306
-
d5
108
546
Dominata
d6
192
54
d7
252
294
Dominata
d8
156
252
-
Tab. 7.11 – Tavola delle perdite attese (rischi)
Per chiarezza espositiva risulta utile riproporre la tabella delle funzioni di
decisione
Punti campionari
0,0
0,1 o 1,0
1,1
d1
d2
Funzioni di decisione
d3
d5
d6
d4
a1
a2
a1
a1
a2
a1
a2
a2
a1
a2
a1
a2
a1
a2
a1
a2
a1
a2
a2
a1
a1
a2
a2
a1
d7
d8
Poiché la decisione che minimizza il rischio atteso è d 2 , cioè quella di
procedere alla trivellazione qualunque sia l’esito della rilevazione campionaria, la
conclusione cui si perviene è che l’informazione campionaria acquisita, in questo caso
specifico, è del tutto irrilevante.
391
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
A prescindere dal risultato cui si è pervenuti ipotizzando l’acquisizione di
informazioni campionarie con dimensione del campione pari a 2 ( n=2), il
problema decisionale poteva essere affrontato e risolto in modo diverso secondo
i passi di seguito indicati:
1. fissazione delle probabilità a priori sugli stati di natura;
2. esecuzione della rilevazione campionaria e registrazione dei
risultati;
3. revisione, utilizzando la formula di bayes, delle probabilità a priori
sugli stati di natura sulla base delle risultanze campionarie;
4. applicazione del criterio bayesiano per l’individuazione dell’azione
cui corrisponde la perdita attesa minima.
Se si fa ricorso a questa procedura, la tabella dei rischi non è più necessaria
in quanto il criterio di decisione bayesiano può essere applicato direttamente
alla tabella delle perdite utilizzando le probabilità a priori riviste; utilizzando,
cioè, le probabilità a posteriori. Comunque, le due diverse procedure
pervengono alla stessa conclusione.
Funzioni di
decisione
Stati di natura
1 : assenza di petrolio  2 : presenza di petrolio
P 2  0.8
P1  0.2
Rischi
attesi
d1
0
600
480
d2
300
0
60
d4
48
306
254
d6
192
54
82
d8
156
252
233
Tab. 7.12 – Tavola dei rischi attesi per le decisioni non dominate
Se si assume che le probabilità a priori siano quelle sopra introdotte,
P1  0.2 e P 2  0.8 , osservando i dati riportati nella Tab. 7.12 si individua d 2
quale decisione ottimale che, come osservato, è una decisione indipendente dal risultato
campionario. Si ipotizzi ora una diversa distribuzione delle probabilità a priori, ad
esempio, P1  0.55 e P2  0.45 , e si calcolano i rischi attesi si individua d 6 quale
decisione ottimale (quella cui corrisponde il rischio atteso minimo). Si ricorda che la
decisione d 6 prevede di non procedere alla trivellazione se entrambi i sismografi
segnalano assenza di petrolio, di procedere alla trivellazione quando uno o entrambi i
sismografi segnalano presenza di petrolio.
Pertanto, se anziché procedere nel modo sopra indicato, cioè all’introduzione delle
funzioni di decisione e al computo dei rischi attesi, si procedesse alla scelta dell’azione
392
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
ottimale basando il calcolo sulla distribuzione delle probabilità a posteriori si perviene
alla stessa soluzione finale; infatti, ricordando la formula di Bayes
f  x /   f  
f  / x  
 f  x /   f  
e i valori definiti nel capitolo precedente
P0,0 / 1  P0 / 1   P0 / 1   0.36
P0,0 /  2   P0 /  2   P0 /  2   0.09
P0,1 / 1   P0 / 1   P1 / 1   0.24
P0,1 /  2   P0 /  2   P1 /  2   0.21
P1,0 / 1   P1 / 1   P0 / 1   0.24
P1,0 /  2   P1 / 1   P0 /  2   0.21
P1,1 / 1   P1 / 1   P1 / 1   0.16
P1,1 /  2   P1 /  2   P1 /  2   0.49 .
cioè le probabilità che derivano dalla distribuzione binomiale
 n  x n x
  p q
 x
2!
2!
f 0 /  2  
0.70  0.32  0.09
0.40  0.62  0.36
0!2!
0! 2!
2!
2!
f 1 / 1  
0.41  0.61  0.48
f 1 /  2  
0.71  0.31  0.42
1!1!
1! 1!
2!
2!
f  2 / 1  
0.42  0.60  0.16
f 2 /  2  
0.7 2  0.30  0.49
2!0!
2! 0!
si deducono facilmente le probabilità a posteriori.
Nel caso che si sta trattando n  2 mentre p  0.4 se   1 , p  0.7 se
f  0 / 1  
   2 ,quindi:
f 1 / 0 
f 0 / 1  f 1 
0.36  0.55

 0.83
f 0 / 1   f 1   f 0 /  2   f  2  0.36  0.55  0.09  0.45
f 2 / 0  1  f 1 / 0  0.17
f 1 / 1 
f 1/ 1  f 1 
0.48  0.55

 0.58
f 1/ 1   f 1   f 1/  2   f  2  0.48  0.55  0.42  0.45
f  2 / 1  1  f 1 / 1  0.42
f 1 / 2 
f 2 / 1  f 1 
0.16  0.55

 0.03
f 2 / 1   f 1   f 2 /  2   f  2  0.16  0.55  0.49  0.45
f 2 / 2  1  f 1 / 2  0.97 .
Le tavole di decisione nei tre casi considerati sono di seguito riportate.
393
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Azioni
a1 : non perforare
a 2 : perforare
Versione 2015
Stato di natura
1 : ass. di petrolio  2 : pres. di petrolio
P 2 / 0  0.17
P1 / 0  0.83
Perdita attesa
0
600
102
300
0
249
Tab. 7.13 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi
segnalano assenza di petrolio
Azioni
a1 : non perforare
a 2 : perforare
Stato di natura
1 : ass. di petrolio  2 : pres. di petrolio
P 2 / 1  0.42
P1 / 1  0.58
Perdita attesa
0
600
252
300
0
174
Tab. 7.14 - Tavola di decisione con probabilità a posteriori nel caso in cui un solo sismografo
segnala assenza di petrolio
Azioni
a1 : non perforare
a 2 : perforare
Stato di natura
1 : ass. di petrolio  2 : pres. di petrolio
P1 / 2  0.03
P 2 / 2  0.97
Perdita attesa
0
600
582
300
0
9
Tab. 7.15 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi
segnalano presenza di petrolio
Osservando quanto riportato nelle Tabb. 7.13, 7.14 e 7.15 si perviene alla
conclusione di non procedere alla trivellazione quando entrambi i sismografi
segnalano assenza di petrolio (cfr. Tab. 7.13), di procedere invece alla
trivellazione quando uno (cfr. Tab. 7.14) o entrambi (cfr. Tab. 7.15) i
sismografi segnalano presenza di petrolio, scelte queste che corrispondono
esattamente alla decisione d 6 , cioè la decisione che minimizza il rischio atteso.
***
Si dimostra l’equivalenza tra la minimizzazione del rischio atteso (forma normale) e il
criterio bayesiano basato sulle probabilità a posteriori (forma estensiva).
394
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Per una qualunque funzione di decisione d i è possibile procedere al computo
del rischio (perdita attesa) Rdi ,  in corrispondenza di ogni stato di natura
 Θ . Se si conosce la distribuzione di probabilità sugli stati di natura sarà,
inoltre, possibile procedere al calcolo del rischio atteso

E Rdi ,    Rdi ,   f   nel caso in cui lo stato di natura è discreto

E Rdi ,    Rdi ,   f    d nel caso in cui lo stato di natura è

continuo.
La scelta ottimale è la decisione
 d *  argmin   R  di ,   f  

nel caso in cui lo stato di natura è
di
discreto

d *  argmin 
 R  d ,   f    d 
i
di
nel caso in cui lo stato di natura è
continuo.
Si ricorda che:
1. la funzione di decisione è definita sullo spazio dei campioni, è cioè
una funzione che fa corrispondere a ciascun punto campionario una
specifica azione, a  d  x1 , x2 ,...., xn   d  x  ;
2. il rischio corrisponde alla perdita attesa,


R  d ,   R d  x  ,   Ex l d  x  ,  ,
si avrà, pertanto,
argmin  E  R  d i ,  
d
i
  argmin E  R  di  x  ,  
di

.

 argmin E  E x l  d i  x  ,   


di
Considerando, senza perdere in generalità, il caso in cui sia lo spazio
parametrico che lo spazio dei campioni sono discreti, si ha:
argmin  E  R  d i ,   
d
i
 argmin
di
  argmin E  E x l  di  x  ,   
di
   l  d  x  ,   f  x /  

x
i
 f  .
Se si cambia l’ordine di sommatoria, si tiene conto della relazio ne a  d  x  e
dell’uguaglianza f  x /    f    f  / x   f  x  si ha:
395
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
  argmin    x  l  di  x  ,   f  x /    f   
argmin  E  R  d i ,   
d
i
 argmin
di

  x

Versione 2015
di
  l  d  x  ,  f  / x  f  x 

x

i
argmin   l  d i  x  ,   f  / x  


di

f  x 



   x argmin   l  a,    f  / x   f  x   .
di


dove, nell’ultimo passaggio, si è tenuto
a  d  x1 , x2 ,...., xn   d  x  .
pertanto
a  argmin  E  R  di ,  
d
*
i
conto
della
  argmin  l  a,  f  / x 
d
relazione
.
i
*
dove con a si è voluto indicare l’azione ottimale quando nel problema decisionale si
utilizzano sia le informazioni a priori che le informazioni campionarie, si tratta cioè
della perdita attesa calcolata utilizzando le probabilità a posteriori. Al riguardo si
ricorda che la corrispondente azione ottimale individuata utilizzando le sole
informazioni a priori è data da
a*  argmin
a
 l  a,  f  

.
***
Questo risultato dimostra la completa equivalenza delle due diverse procedure,
forma normale e forma estensiva, che consentono la minimizzazione della
perdita attesa. I diversi passaggi hanno riguardato il caso in cui sia lo spazio
parametrico che lo spazio dei campioni siano discreti; procedimento del tutto
analogo vale anche nel caso in cui entrambi gli spazi siano continui o uno sia
discreto e l’altro continuo.
Nel caso in cui entrambi gli spazi sono continui si ha:

argmin E  R  d i ,     argmin
d
d
i
 argmin
di

i
x
  l d  x  ,  f  x /   d  x  f  

x
i
 l  d  x  ,  f  / x  d  
i

   argmin   l  d i  x  ,   f  / x  d   
 
di
 x

f  x d  x
a  argmin
*
a


f  x d  x 



   argmin   l  d i  x  ,   f  / x  d    f  x  d  x  
x


di


cioè:
 l d  x  ,  f  / x  d   argmin  l a,  f  / x  d 

i
a
396


d   
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
il che dimostra la completa equivalenza tra i due criteri. Cosa questa
d'altronde ovvia in quanto le due procedure sono basate sugli stessi dati e
calcoli, l'unica differenza risiede nell'ordine con cui le operazioni analitiche
vengono eseguite; infatti, entrambi si avvalgono delle pro babilità a priori e delle
informazioni campionarie nel computo dei valori attesi (rischi o utilità).
L'operatore sceglierà, vista la completa equivalenza dei due criteri, quello
che risulta più facilmente trattabile dal punto di vista algebrico ed operativo.
Se si riflette sulle operazioni che devono essere effettuate per pervenir e alla
individuazione della decisione ottimale ci si rende immediatamente conto, però,
dell’onerosità della procedura (forma normale) basata sull’introduzione delle
funzioni di decisione; si è visto, infatti, nell’esempio che per un semplice
problema decisionale in cui sono soltanto 2 le possibili azioni e 3 i possibili
risultati campionari, il numero delle funzioni di decisione possibili risulta pari a
8  2 3 ; anche se, al riguardo, si deve sottolineare che le funzioni di decisione
“ragionevoli”, cioè quelle da prendere in considerazione, sono soltanto 2: la d 4
e la d 6 . Concettualmente più semplice, è la procedura ( forma estensiva) basata
sulla minimizzazione dell’utilità attesa considerando le pro babilità a posteriori;
ma, come già sottolineato, anche in questo caso si possono incontrare notevoli
difficoltà.
Il paragrafo successivo sarà dedicato alla trattazione dei casi di
aggiornamento delle probabilità a priori sulla scorta dell’evidenza campion aria,
cioè di derivazione delle probabilità a posteriori, che si incontrano più
frequentemente nella pratica. Mentre, a ulteriore chiarimento delle
considerazioni sopra svolte, si dedica la parte conclusiva di questo paragrafo
alla illustrazione di un altro caso decisionale.
Esempio 7.1
Si supponga che la proporzione di pezzi difettosi presenti in un lotto possa
assumere quattro diversi valori 1  0.02,  2  0.03,  3  0.04,  4  0.05 e che le
probabilità
(a
priori)
dei
diversi
stati
di
natura
siano
P1   0.10, P 2   0.20, P 3   0.40, P 4   0.30 , si supponga di aver estratto
un campione casuale bernoulliano (estrazione con ripetizione) di 100 pezzi dal
lotto e di aver riscontrato la presenza di 3 pezzi difettosi. Come si deve
procedere nella revisione dell’informazioni a priori tenendo conto del le
risultanze campionarie? Sostanzialmente quello che si vuol fare e passare da
P j   f  j  a P  j / x   f  j / x  , per j = 1, 2, 3 e 4.
Se si indica con X il numero di pezzi difettosi riscontrabili nel lotto dei 10 0
pezzi esaminati, tale entità variabile potrà assumere i valori 0, 1, 2,…., x,….,
100 e la probabilità (verosimiglianza) di un qualunque risultato campionario
397
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
per uno specifico stato di natura  è espressa dalla distribuzione binomiale
100  x
100  x
. Pertanto, la probabilità totale è data da
P X  x /   
  1   
 x 
 X  x     1     X  x      2   
P  X  x  P 

  X  x     3     X  x      4   
 P  X  x / 1  P 1   P  X  x /  2  P  2  
 P  X  x / 3  P 3   P  X  x /  4  P  4  
100 
 100 

100  x
100  x
x
x
 
 0,10   
 0, 20  
 0, 02  1  0, 02 
 0, 03  1  0, 03 
 x 
  x 

100 
 100 

100  x
100  x
x
x
 
 0, 40   
 0,30 
 0, 04  1  0, 04 
 0, 05  1  0, 05 
 x 
  x 

da cui
 X  3    0, 02     X  3    0, 03   
P  X  3  P 

  X  3    0, 04     X  3    0, 05   
 P  X  3 /   0, 02  P   0, 02   P  X  3 /   0, 03 P   0.03 
 P  X  3 /   0, 04  P   0, 04   P  X  3 /   0, 05  P   0, 05  
100 
 100 

3
97
3
97
 
 0, 02  0,97  0,10   
 0, 03  0,97  0, 20  
 3 
  3 

100 
 100 

3
97
3
97
 
 0, 04  0,96  0, 40   
 0, 05  0,95  0,30  
 3 
  3 

  0,18  0,10    0, 23  0, 20    0, 20  0, 40    0,14  0,30   0,186
Il valore 0,186 è, quindi, la probabilità che l’entità variabile X assuma la
determinazione 3, cioè la probabilità di ottenere il risultato campionario ipotizzato
P  X  3  f  3 .
Disponendo delle risultanze campionarie e delle probabilità a priori si può procedere
al computo delle probabilità a posteriori. Le elaborazioni sono riassunte nella Tab.
7.16.
Stato
di
natura

Probabilità
a
priori
  
Probabilità
condizionata
(verosimiglianza)
f 3 /  
Probabilità
congiunta
f  3 /     
Probabilità a posteriori
f  / 3 
f  3 /     
4
 f  3 /     
i 1
0,02
0,10
0,18
0,018
398
0,097
i
i
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
0,03
0,04
0,05
0,20
0,40
0,30
1,00
0,23
0,20
0,14
Versione 2015
0,046
0,080
0,042
0,186
0,248
0,430
0,225
1,000
Tab. 7.16 – Revisione delle probabilità a priori e computo delle probabilità a posteriori in
corrispondenza di un risultato campionario pari a 3 relativo ad un campione di dimensione
100
Come si può facilmente desumere analizzando i dati riportati nella Tab. 7.16, i
risultati campionari hanno prodotto delle variazioni nella distribuzione delle probabilità
sugli stati di natura; a questo punto il decisore può utilizzare tali valori per procedere al
calcolo delle perdite attese oppure procedere ad una ulteriore rilevazione campionaria, i
cui risultati consentono una seconda revisione delle probabilità, in questo processo di
revisione le probabilità a posteriori riportate nella tabella assumono la natura di
probabilità a priori nel secondo passo di aggiornamento della conoscenza. Si può
dimostrare senza eccessiva difficoltà che la procedura di aggiornamento delle
probabilità in due passi successivi produce gli stessi risultati della procedura che
congloba i risultati delle due rilevazioni in un solo campione che dovranno essere
utilizzati per revisionare le probabilità a priori iniziali.
I calcoli necessari per aggiornare le probabilità a priori sulla scorta dell’evidenza
campionaria nell’esempio sopra illustrato sono relativamente semplici, in altri casi la
soluzione non è cosi immediata. Fortunatamente, esistono situazioni, e sono abbastanza
frequenti, in cui il problema dell’aggiornamento delle probabilità a priori può essere
risolto in modo agevole, si tratta dei casi in cui è giustificato il ricorso alle distribuzioni
a priori coniugate già considerate nei capitoli 2 e 6 di queste note.
7.7 - Il valore dell’informazione
Si è detto nelle pagine precedenti come, in alcuni problemi di decisione,
l'operatore possa ritenere di non avere informazioni suf ficient i sia in relazione
agli stat i di natura (ed è il caso speci ficamente trattato) che alle
conseguenze. Si è pure visto come in tali condizioni egli possa procrast inare
il momento della scelta decidendo per l'acquisizione di ulterior i
informazioni, magari di tipo campionario.
Evidentemente la decisione di procedere all'acquisizione di ulteriori
elementi d'informazione deve essere presa a priori. Un tale fatto introduce nel
problema decisionale un elemento aggiuntivo d'incertezza relativo alle
risultanze campionarie e quindi alla bontà delle informazioni. L'operatore sa che
attraverso un'indagine potrà acquisire ulteriori informazioni che ridurranno
quasi certamente lo stato d'incertezza in cui è costretto ad operare, ma non
conosce esattamente la misura di tale riduzione. D'altra parte l'operatore sa
399
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
anche che l'effettuazione di un'indagine comporta delle spese, e che una
dilazione della decisione potrebbe risultare eccessiva ed implicare quindi
ulteriori cost i. Nel caso della scelt a degli in vestimenti pubblici, ad esempio,
può risultare impossibile o estremamente costosa una dilazione nell'inizio dei
lavori almeno per due ragioni, una legata a motivi di natura strettamente
polit ica, l'altra di carattere prevalentemente tecnico. Infatti, basta pensare,
all'urgenza di certe opere a carattere sociale, relativamente al primo caso, e al
fatto che dal momento in cui le informazioni vengono acquisite al momento in
cui una decisione d'investimento diviene operativa la situazione reale di
riferimento può essere notevolmente mutata, relativamente al secondo caso.
Riassumendo, in mer it o al problema dell'acquisizio ne di ulteriori
informazioni si devono distinguere almeno tre fatti:
1. che l'indagine comporta un costo e. che non è noto con certezza
fino a che punto tale costo sarà compensato dalle informazioni
aggiuntive;
2. che per l'effettuazione dell'indagine, in genere, si può disp orre di
un arco di tempo limitato;
3. che la decisione d'acquisire ulteriori informazioni deve essere
presa a priori.
Da quanto scritto ai punt i 1 e 2 si capisce immediatamente come
un'indagine del genere debba avere quasi necessariamente carattere
campionario.
Va sottolineato il fatto che le informazioni aggiuntive possono essere
utilizzate, oltre che per modificare la distribuzione delle pro babilità sugli stati di
natura, anche per modificare l'insieme delle conseguenze o la forma della
funzione di utilità.
Nelle pagine successive verrà descritto sommariamente il pro blema
dell'acquisizione di ulteriori informazioni attraverso indagini campionarie,
discutendo alcune procedure attraverso le quali può essere stabilito un piano
di campionamento ottimo in funzio ne di un problema decisionale, nei
termini espost i nel paragrafo precedente.
Poiché qui ci si limiterà, come già detto, a considerare il caso in cui i dati
campionari vengono utilizzati dall'operatore per mo dificare la distribuzione
della probabilità sugli stati di natura, quando si parlerà di piano di
campionamento ottimo, l'ottimalità andrà riferita a tale aspetto del problema
decisionale.
La bontà di un campionamento viene misurata attraverso il confronto tra
l'ut ilit à/perdita attesa calcolat a facendo us o dei dat i aggiuntivi, e
l'utilità/perdita attesa ottenibile senza campionamento. In altri termini, se
l'utilità attesa relativa all'azione migliore, calcolata utilizzando le informazioni
campionarie e detraendo il costo sopportato è superiore all'ut ilit à attesa
relativa alla migliore azione senza l'uso dei dat i campionari, allora ci si
400
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
troverà in condizioni tali per le quali il costo del campionamento è più che
compensato dalla r iduzione dello stato d'incertezza in cui si è costrett i ad
operare; si procederà quindi all'effettuazione dell'indagine.
Un secondo problema relativo al campionamento (il primo è quello di
deciderne l'effettuazione) riguarda la dimensione campionaria.
Evidentemente, più si aumenta la dimensione del campione, maggiori
saranno le informazioni disponibili; d'altra parte ad una più elevata riduzione
dello stato d'incertezza cor risponderà un costo più elevato. Il piano di
campionamento ottimo sarà quello che massimizza l'utilità attesa alla luce di
questi due effetti contrastanti. In termini marginalist ici si può affermare che
la dimensione del campione va aument ata fino a quando il costo di un’unità
d'informazione addizionale bilancia l'incremento/decremento nell'utilità/perdita
attesa (costo marginale pari all'utilità marginale).
Prima di procedere alla trattazione puntuale del problema del
campionamento conviene introdurre ulteriori concetti che si riveleranno di
grande utilità nel corso dell’esposizione. Si tratta essenzialmente di due
concetti:
 il valore atteso dell’informazione perfetta (expexted value of
perfect information EVPI);
 il valore atteso dell’informazione campionaria ( expexted value of
sample information EVSI).
Il valore atteso dell’informazione perfetta viene è dato dalla differenza tra l’utilità o
la perdita attesa che corrisponde all’azione ottima, cioè quella cui corrisponde la
massima utilità attesa o la minima perdita attesa e l’utilità o perdita attesa calcolata
ipotizzando la conoscenza perfetta dello stato di natura, Se il decisore sa che lo stato di
natura è 1 lo stesso non avrà alcuna difficoltà ad individuare l’utilità/perdita
corrispondente l’azione migliore, allo stesso modo può procedere in corrispondenza di
tutti gli altri stati di natura 2 , 3 , ... ,  j , ... , n . Se si indica con
l *  j   min l  ai , j  la perdita minima corrispondente a ciascun stato di natura, si
i
potrà procedere al computo della perdita attesa in situazione di incertezza ma sotto
l’ipotesi di perfetta informazione
a*p  argmin
a
 l

*
  f  
Ricordando che l’azione migliore in situazione di incertezza è data dalla relazione
 l  a,  f  
a  argmin

a
il valore atteso dell’informazione perfetta è espresso da
EVPI = a*p  a *  argmin
a
 l

*
  f  - argmin  l  a,  f  
a
Nel paragrafo precedente oltre ad aver dimostrato l’equivalenza tra forma normale e
forma estensiva, quando nei problemi decisionali si può disporre sia di informazioni a
401
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
priori che di informazioni campionarie, è stata individuata come azione ottimale quella
che risulta dalla relazione

a  argmin
a
 l  a,  f  / x 

,
a questo punto è possibile definire il valore atteso dell’informazione campionaria
(EVSI) che si ottiene, semplicemente, calcolando la differenza tra la perdita attesa
basata sulle probabilità a priori e la perdita attesa basata sulle probabilità a posteriori,
cioè

EVSI  a  a  argmin
a
 l  a,  f  

 argmin
a
 l  a,  f  / x 

Come già sottolineato qualunque rilevazione campionaria comporta un costo che può
essere definito dalla relazione
C  n   C f  n Cv
dove il costo totale del campionamento è costituito da una quota fissa più una quota
variabile il cui ammontare dipende dalla dimensione campionaria.
Pertanto il guadagno atteso netto associato alla rilevazione campionaria (expected net
gain from sampling ENGS) è dato da
ENGS  EVSI  C n  EVSI  C f  Cv n  EVSI  C f  n Cv
dove l’ultimo membro dell’ultima espressione è la traduzione della funzione di costo
nell’ipotesi di linearità del costo stesso.
Ovviamente, la dimensione campionaria ottima è quella cui corrisponde il massimo
valore ENGS  0 ; inoltre, C max   EVPI .
Se si riportano in un grafico alcune delle quantità sopra definite si perviene ad una
figura del tipo di quella di seguito riportata (cfr. Fig. 7.3), dove, per l’ipotesi di linearità,
il costo marginale del campionamento è costante, mentre la perdita attesa marginale
dopo il campionamento è supposta decrescente.
Un ulteriore grafico (cfr. Fig. 7.4) consente la visione e l’incidenza di altri elementi
rilevanti nello svolgimento dei processi decisionali.
402
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015

Perdita attesa senza campionamento a  min
a
 l a,  f  


Perdita totale attesa = a + C(n)
Perdita totale attesa minima
Costo del campionamento = C(n)
Dimensione campionaria ottima
Fig. 7.3 - Effetto del costo di campionamento e perdita attesa in corrispondenza della
dimensione campionaria ottima.
EVPI
EVSI
Costo del campionamento = C(n)
ENGS
Dimensione campionaria ottima
Dimensione campionaria
Fig. 7.4 - Valore atteso dell’informazione perfetta, valore atteso dell’informazione
campionaria e guadagno netto atteso
403
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Ad illustrazione di quanto detto si riprenda in considerazione il problema decisionale
di procedere o meno alla perforazione. La tabella di perdita relativa a questo problema
già considerata in precedenza è quella sotto riportata dove è stata aggiunta la probabilità
a priori sugli stati di natura e la perdita attesa in corrispondenza delle due azioni.
Azioni
a1 : non perforare
a 2 : perforare
Stato di natura
1 : assenza di petrolio  2 : presenza di petrolio
P 2   0, 45
P 1   0,55
Perdita
attesa
0
600
270
300
0
165
Tab. 7.18 - Tavola di decisione: problema di trivellazione con perdite come conseguenze
Sulla scorta delle sole informazioni a priori il decisore sceglierà l’azione a 2 cui
corrisponde la perdita minore. Comunque il decisore, non completamente convinto dei
valori assegnati alle probabilità a priori potrebbe decidere di acquisire ulteriori
informazioni. In precedenza è stata esaminata la possibilità di acquisire informazioni
sullo stato di natura impiegando dei sismografi a costo zero. Ma come più volte
sottolineato qualunque rilevazione campionaria comporta un costo: nel caso specifico si
ipotizza una funzione di costo lineare senza costi fissi C  n   n 10 , cioè l’uso di un
sismografo costa 10 $, 2 sismografi (indipendenti) costano 20, ecc. ; ovviamente in
questo caso la dimensione campionaria non potrà superare le 16 unità, con 17 unità si
andrebbe incontro ad un costo superiore al vantaggio conseguibile.
Nella tavola che segue sono riportate le probabilità che ha un sismografo di segnalare
assenza o presenza di petrolio.
Segnalazione
del sismografo
Assenza di petrolio
Presenza di petrolio
Stato di natura
1 : assenza di petrolio
 2 : presenza di petrolio
0.6
0.4
0.3
0.7
Tab. 7.19 – Probabilità dell’esito del sismografo condizionato allo stato di natura
Tenendo conto di tali probabilità il decisore che intende acquisire ulteriori
informazioni può perseguire due diverse vie, la prima, che è sicuramente la più
efficiente ma non di facile attuazione, consiste nel procedere all’acquisizione di una
informazione campionaria per decidere sulla scorta dell’evidenza acquisita se
proseguire nel campionamento o operare la scelta definitiva. La seconda via è quella
della effettuazione di un’analisi completa, detta analisi a preposteriori, che consente la
individuazione della dimensione campionaria ottimale.
404
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
I due possibili esiti dell’utilizzo di un sismografo sono x = 0 (assenza di petrolio)
oppure x = 1 (presenza di petrolio) con le relative probabilità:
P X  0  PX  0 / 1 P 1   PX  0 /  2 P  2   0,6  0,55  0,3  0,45  0,465
P X  1  PX  1 / 1 P 1   PX  1 /  2 P  2   0,4  0,55  0,7  0,45  0,535
Ricordando la formula di Bayes
f  x /   f  
f  / x  
 f  x /   f  
P1 / X  0 
P1 / X  1 
PX  0 / 1 P 1 
0,6  0,55

 0,71
PX  0 / 1 P 1   PX  0 /  2 P  2  0,6  0,55  0,3  0,45
PX  1 / 1 P 1 
0,4  0,55

 0,41
PX  1 / 1 P 1   PX  1 /  2 P  2  0,4  0,55  0,7  0,45
P 2 / X  0  1  P1 / X  0  1  0,71  0,29
P 2 / X  1  1  P1 / X  1  1  0,41  0,59
Si può ora riproporre la tabella di decisione inserendo le probabilità a posteriori
Stato di natura
assenza
di  2 :presenza
1 :
Azioni
petrolio
P 1 / 0   0, 71
petrolio
P  2 / 0   0, 29
P 1 /1  0, 41
P  2 /1  0,59
P  X  0   0, 465
P  X  1  0,535
di
Perdita
attesa
a1 : non perforare
0
600
X =0
174
a1 : non perforare
0
600
X=1
354
a 2 : perforare
300
0
X =0
213
a 2 : perforare
300
0
X=1
123
Tab. 7.20 – Perdita attesa condizionata per un campione di dimensione 1
Come si desume dalla Tab. 7.20 se l’esito campionario è X = 0, l’azione
migliore è a1 non perforare (perdita attesa 174), se invece l’esito campionario è X =
1, l’azione migliore è a 2 perforare (perdita attesa 123). L’analisi a preposteriori
fornisce gli elementi per decidere se procedere all’acquisizione dell’informazione
(utilizzo di un sismografo del costo di 10$).
La perdita attesa non condizionata è data da

a  min
a
 l  a,  f  / x   174  0,465  123  0,535  146,72 .

405
B. Chiandotto
Inferenza statistica
7. Teoria statistica delle decisioni
Versione 2015
Confrontando questa perdita con quella calcolata in corrispondenza della
migliore azione in assenza di informazioni campionarie si ha

EVSI  a   a  165  146,72  18,18
Se il decisore ritiene di dover proseguire nell’analisi a preposteriori e quindi
procedere all’utilizzo di due sismografi si otterrebbero i seguenti risultati. Si
precisa che si limiterà a riportare soltanto i valori relativi alle azioni ottimali
in corrispondenza dei diversi risultati campionari.
Le probabilità a posteriori sono date da
P1 / X  0  0,83; P1 / X  1  0,58; P1 / X  2  0,29
P 2 / X  0  0,17; P 2 / X  1  0,42; P1 / X  2  0,71
e le perdite attese condizionate corrispondenti alle azioni ottimali sono
a 0  102

a 1  174

a 2  87

Tenendo presente che P X  0  0,2385 , P X  1  0,4530 ,
P X  2  0,308 , la perdita attesa non condizionata è pari a $ 129,99.

EVSI  a   a  165  129,99  35,01
ENGS = EVSI-C(2) = 35,01 – 20 =15,01.
La conclusione è che risulta conveniente procedere nell’utilizzo di due
sismografi. Ad analoga conclusione si perviene se si prevede l’utilizzo di tre
sismografi; infatti la perdita attesa ottimale non condizionata dell’esito
campionario è pari a $ 116,40, quindi

EVSI  a   a  165  116,40  55,54
ENGS = EVSI-C(3) = 55,54 – 40 =18,60.
Se si procede all’analisi ipotizzando l’utilizzo di 4 sismografi si perviene ad
una conclusione diversa; infatti, la perdita attesa ottimala non condizionata
dell’esito campionario è pari a $ 109,46, quindi

EVSI  a   a  165  109,46  55,54
ENGS = EVSI-C(3) = 55,54 – 40 =15,54.
Come si può rilevare il guadagno che si consegue in corrispondenza di un
campione di dimensione n = 4 è inferire a quello accertato per n= 3 (15,54
contro 18,60), si accerta cioè una riduzione del vantaggio marginale dato dal
campionamento, il che porta a fissare la dimensione ottima in n = 3.
406
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Riferimenti bibliografici
Riferimenti bibliografici
Aitkin M. (2010). Statistical Inference: An Integrated Bayesian/Likelihood Approach, Chapman &
Hall/CRC
Azzalini A. (1996). Statistical Inference Based on the Likelihood, Chapman & Hall.
Barnard G.A. (1949). Statistical inference, JRSS, Series B, 11.
Barnard G.A. (1985). Statistical inference. In Encyclopedia of Statistica Science, Vol. 6, Kotz S. e Johnson
M.L. (eds).
Barndorff-Nielsen (1976). Plausibilty Inference, JRSS, Series B, 38.
Barnett V. (1999). Comparative Statistical Inference, Wiley.
Berger
(1985). Statistical Decision Theory and Bayesian Analysis, Springer.
Berger J.O., Bernardo J.M. e Sun D. (2009). The formal definition of reference priors, The Annals of
Statistics, Vol. 37, n.2.
Bernardo, J. M. (1997). Noninformative priors do not exist: A discussion, J. Statistics Planning and
Inference 65.
Birnbaum A. (1962) On the foundation of statistical inference, JASA, 57.
Box G:E.P. (1979). Robustness in the Strategy of Scientific Model Building, in Robustness in Statistics,
Launer R.L. e Wilkinson G.N. (eds.), Academic Press.
Casella G. e Berger R.L. (2002). Statistical Inference, 2nd ed., Duxbury.
Chiandotto B. (1978). L’approccio bayesiano empirico alla problematica dell’inferenza statistica, in I
fondamenti dell’inferenza statistica. Atti del Covegno, Firenze 28-30 aprile 1977. Dipartimento Statistico
dell’Università di Firenze.
Chiandotto B. e Bacci S. (2004). Decisioni razionali per il governo dell’università, un prerequisito
essenziale: la teoria dell’utilità, Università degli Studi di Firenze.
Chiandotto B., Bacci S. e Bertaccini B. (2004). I laureati e diplomati dell’Ateneo Fiorentino dell’anno 2000:
Profilo e sbocchi occupazionali, http://valmon.disia.unifi.it/index.php?idp=P9. Università degli Studi di
Firenze.
407
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Riferimenti bibliografici
Chiandotto
B.
(2012).
Statistica,
Causalità
e
teoria
delle
Decisioni,
http://local.disia.unifi.it/chiandot/INF_STAT/Dispense/Letture/STATISTICA%20CAUSALITA%20e%20T
EORIA%20delle%20DECISIONI.pdf.
Chiandotto B. (2013). Bayesian and non-bayesian approaches to statistical inference: a personal view in
“Selected Issues in Statistical Methods and Applications in an Historical Perspective”, Studies in
Theoretical and applied Statistics, Springer-Verlag.
Cox D.R. (1958). Some problems connected with statistical inference. Ann. Math. Stat. 29.
Dawid, A.P. (1984). Present position and potential developments: some personal views. Statistical
theory. The prequential approach. JRSS, Series A, 147.
Dawid, A.P. (1997). Prequential analysis. In Encyclopedia of Statistical Sciences, Kotz S., Read C.B. e
Banks D.L. (eds), Wiley.
Dawid A. P. (2000). Causal inference without counterfactuals, JASA 95.
DeGroot M. (1970). Optimal statistical decisions, McGraw-Hill.
Edwards A.W.F. (1972). Likelihood, Cambridge, University Press, 2nd ed. 1992.
Ferguson T.S. (1967). Mathematical statistics: a decision theoretic approach, Academic Press.
Fisher R.A. (1930). Inverse Probability. Proc. Camb. Phil. Soc., 26.
Fisher R.A. (1935). The logic of Inductive inference, JRSS. 98.
Fisher R.A. (1956). Statistical Method and Scientific Inference. Oliver and Boyd.
Fraser D.A.S.(1968). The Structure of Inference, Wiley.
Geisser (1993). Predictive Inference: An Introduction, Chapman & Hall.
Gelman A., Carlin J., Stern H., Dunson D., Vehtari A., e Rubin D. (2013). Bayesian Data Analysis, 3rd ed.,
Chapman and Hall/CRC.
Gini C. (1911).Considerazioni sulle probabilità a posteriori e applicazioni l rapporto dei sessi nelle nascite
umane, Studi Economico-Giuridici dell’Università di Cagliari, ristampato in Metron, Vol. XV, 1949.
Gini C. (1939). I pericoli della statistica, Atti della I Riunione della Società Italiana di Statistica.
Gini C. (1943). I test di significatività, Atti della VII Riunione della Società Italiana di Statistica.
Goldstein M. (2006). Subjective Bayesian Analysis: Principles and Practice, Bayesian Analysis, n. 3.
Hanning J. (2009). On Generalized Fiducial Inference, Statistica Sinica, 19.
Jenkinson D. (2005). The Elicitation of Probabilities - A review of the Statistical Literature,
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.106.6173&rep=rep1&type=pdf.
408
Corso di laurea magistrale in Statistica, Scienze Attuariali e Finanziarie
INFERENZA STATISTICA (Note didattiche)
Bruno Chiandotto
Versione 2015
Riferimenti bibliografici
Joyce J. (1999). The Foundations of Causal Decision Theory, Cambridge University Press.
Kass R.E. e Wasserman L.A. (1996). The selection of prior distributions by formal rules, Journal of the
American Statistical Association, 91.
Keener R.W. (2010). Theoretical Statistics, Springer.
Khuri A.I. (2003). Advanced Calculus with Applications in Statistics, Wiley.
Kolmogorov A.N. (1956). Foundations of the Theory of Probability, 2nd ed., Chelsea Publishing Company.
Lindley D.V. (1965). Introduction to Probability and Statistics from a Bayesian Viewpoint, Part 1:
Probability, Part 2: inference, Cambridge University Press.
Lindley D. V. (2006). Understanding Uncertainty. J. Wiley.
NcCullagh P. e Nelder J.A. (1989). Generalized Linear Models, 2d ed., Chapman & Hall/CRC.
Olive D. (2014). Statistical Theory and Inference, Springer.
Piccinato L. (1996). Metodi per le decisioni statistiche, Springer.
Pompilj G. (1951a). Lineamenti di una teoria della persuasione, Archimede, 3.
Pompilj G. (1951b). Logica della conformità, Archimede, 4.
Raiffa H. e Schlaifer R. (1961). Applied Statistical Decision Theory,
Administration, Harvard University.
Graduate School of Business
Robert C.P. (2007). The Bayesian Choice: From Decision-Theoretic Foundations to Computational
Implementation, 2nd ed., Springer.
Rohatgi V.K. e Saleh E. (2011). An Introduction to Probability and Statistics, 2nd ed., Wiley.
Royall R. (1997). Statistical Evidence: a Likelihood Paradigm, Chapman & hall.
Royden H.L. (1963). Real Analysis, MacMillan.
Savage L.J. (1951). The theory of statistical decision, JASA, 46.
Savage L.J. (1954). The Foundations of Statistics, Wiley.
Smith C.A.B. (1961). Consistency in Statistical Inference and Decision, Journal of the Royal Statistical
Society, Series B, Vol. 23, n. 1.
Vitali G. (1905). Sul problema della misura dei gruppi di punti di una retta, Tip. Gamberini e Parmeggiani.
Wald A. (1950). Statistical Decision Functions, Wiley.
409