Capitolo 6 STIMA DEI PARAMETRI 1. Introduzione - UniFI

CORSO DI LAUREA IN ECONOMIA AZIENDALE
Metodi Statistici per l’impresa (Note didattiche)
Bruno Chiandotto – Fabrizio Cipollini
Capitolo 6
STIMA DEI PARAMETRI
Come indicato nel cap. 2, il calcolo delle probabilità è presupposto essenziale della
teoria della statistica. Proprio sulla base dei concetti del calcolo delle probabilità (cui
faremo costante riferimento) affrontiamo ora l’inferenza statistica. Tuttavia per evitare
l’errato fraintendimento che tale materia sia “pura tecnica”, nell’introduzione che segue
presentiamo l’argomento senza formule: lo scopo è dare un senso al problema, un senso
agli specifici argomenti trattati, un senso ai singoli concetti enunciati. Non tutto sarà
perfettamente chiaro dopo la prima lettura. Per questo si invita lo studente rileggere
l’introduzione dopo aver completato lo studio (perché solo allora ogni affermazione qui
contenuta avrà un senso compiuto) e, soprattutto, ogni volta che avrà la sensazione di
aver “perso il filo”.
1. Introduzione
1.1. Introduzione all’inferenza statistica
In generale, per capire “come si affronta” un certo problema è assolutamente necessario
comprendere prima “dove sta” il problema. Questo è valido a maggior ragione per una
problematica tecnicamente tutt’altro che banale quale l’inferenza statistica. Per questo
motivo si fa precedere la trattazione degli argomenti affrontati (stima puntuale, stima
per intervallo, test delle ipotesi) da alcune considerazioni generali che danno un senso
logico a quanto presentato nel seguito.
Il problema è il seguente e lo schematizziamo per punti.
•
Il punto di partenza è l’analisi di un certo fenomeno d’interesse il cui risultato non
è prevedibile con certezza.
•
Il calcolo delle probabilità indica che dal punto di vista statistico tale fenomeno può
essere rappresentato mediante una variabile casuale, cioè un “oggetto” casuale le
1
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
cui manifestazioni non sono prevedibili in modo certo essendo, appunto, frutto del
caso. Il calcolo delle probabilità dice anche che per identificare una v.c. occorre
esplicitare i valori che questa può assumere e con quale probabilità. Se possiamo
fare questo abbiamo detto tutto della v.c. e quindi del fenomeno che interessa: di più
non è possibile fare.
•
Nella pratica, la probabilità può essere distribuita sui valori che la v.c. può assumere
nei modi più vari. L’obiettivo è conoscere, in modo completo (cioè attraverso la
funzione di massa o la funzione di densità) o parziale (cioè solo attraverso
particolari indici caratteristici) la distribuzione della v.c. considerata. Per
raggiungere questo obiettivo la statistica può seguire diverse vie.
-
Inferenza parametrica. La prima via sfrutta i modelli già preconfezionati e
pronti all’uso che la statistica (servendosi del calcolo delle probabilità) mette a
disposizione proprio per rappresentare certe situazioni tipiche dei fenomeni
reali: il modello di Bernoulli, il modello Binomiale, il modello Ipergeometrico,
il modello di Poisson, il modello Normale, il modello Gamma, ecc. (l’elenco
potrebbe continuare molto a lungo, con modelli anche assai complicati che
possono coinvolgere anche più variabili). Pertanto sulla base delle caratteristiche
del fenomeno in oggetto, di analisi simili, di considerazioni teoriche,
dell’esperienza passata, ecc. si sceglie fra i modelli statistici a disposizione
quello che sembra adattarsi meglio al fenomeno in analisi (oppure se ne inventa
uno nuovo, magari modificando quelli già disponibili). Tale via all’inferenza è
detta inferenza parametrica, nel senso che il modello statistico per l’analisi del
fenomeno è completamente specificato in tutte le sue parti (forma funzionale e
parametri caratteristici) e l’unica inferenza possibile è quella sui parametri
caratteristici del modello.
-
Inferenza non-parametrica. Una via radicalmente opposta a quella indicata
(ma spesso utilizzata in combinazione con la precedente) è quella di non
formulare alcun modello (ad esempio non supporre alcuna forma funzionale per
la distribuzione della v.c.) ma di servirsi di particolari strumenti statistici
particolarmente “flessibili” per arrivare ad una caratterizzazione del problema
studiato esclusivamente sulla base dei dati. Tale via all’inferenza è detta
2
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
inferenza non-parametrica, nel senso che il modello statistico per l’analisi del
fenomeno è completamente non specificato e non ci sono parametri caratteristici
su cui fare inferenza (dato che non c’è nessun modello): sono i dati a guidare in
modo determinante i risultati.
-
Inferenza semi-parametrica. Infine una via intermedia a quelle indicate si ha
quando si specificano certe componenti del modello (ad esempio si suppone che
la v.c. abbia certi indici caratteristici, come media e varianza) ma si lasciano le
altre non specificate (di solito non si specifica la completa forma funzionale
della funzione di massa o di densità). Anche in questo caso esistono strumenti
statistici per poter ottenere dei risultati solo sulle grandezze che interessano
senza dover fare le altre ipotesi. Tale via all’inferenza è detta inferenza semiparametrica, nel senso che il modello statistico per l’analisi del fenomeno è
specificato solo in modo parziale. Come è facile intuire, tale approccio ha
caratteristiche intermedie fra gli altri due, anche se per molti aspetti è più vicino
al primo che al secondo.
Non facendo di norma assunzioni sulla forma funzionale della distribuzione,
l’inferenza non-parametrica e quella semi-parametrica sono spesso raggruppate sotto
la dizione distribution free.
Per quanto riguarda il presente corso ci occuperemo principalmente di inferenza
parametrica e in parte di inferenza semiparametrica. Tuttavia, per semplicità, in
questa introduzione faremo essenzialmente riferimento al caso parametrico.
•
Scelto il modello opportuno per il fenomeno analizzato, tale modello dipende
tipicamente da uno o più parametri incogniti. Solo se si riesce a dare un valore a
tali parametri allora la distribuzione della v.c. considerata è completamente nota e si
è detto tutto del fenomeno analizzato. Tuttavia, in generale di tali parametri si sa
solo che assumono valori in un certo insieme, detto spazio parametrico, ma non di
più. Come fare allora per determinare i parametri? Anzi, più in generale, come
rispondere ai 3 problemi base dell’inferenza statistica sui parametri d’interesse,
ovvero:
1. (Stima puntuale) Come tentare di indovinare il valore dei parametri?
2. (Stima per intervallo) Come determinare, per ciascun parametro d’interesse, un
3
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
intervallo che ne contiene il vero valore “con alta probabilità”?
3. (Test delle ipotesi) Come procedere all’accettazione o al rifiuto di una
particolare ipotesi formulata sui parametri?
•
Per rispondere alle domande di cui sopra occorre sfruttare qualche informazione.
Come informazione di base l’inferenza statistica utilizza un certo insieme di
osservazioni del fenomeno oggetto di studio: tale insieme è detto campione. Quindi:
sulla base dell’informazione del campione si vuol fare inferenza sui parametri del
modello scelto e quindi sulla legge probabilistica alla base del fenomeno analizzato.
La branca dell’inferenza statistica che utilizza come unica informazione per
rispondere alle tre domande di cui sopra le sole osservazioni del campione è detta
statistica classica. In contrapposizione a questa si colloca la statistica bayesiana,
che invece prevede l’utilizzo, oltre all’informazione campionaria, anche di
informazioni a priori che, generalmente, hanno natura soggettiva. Il nome di
statistica bayesiana viene dal fatto di utilizzare il teorema di Bayes come strumento
fondamentale di inferenza.
Per quanto riguarda questo corso ci occuperemo esclusivamente di statistica
classica.
1.2. Introduzione alla stima puntuale
Fin qui la presentazione da un punto di vista generale dell’inferenza statistica, con
accenno ai vari problemi che si possono presentare e ai diversi approcci che si possono
seguire per la risoluzione di tali problemi.
Per rendere il quadro più concreto, occorre evidenziare tre punti fondamentali, che per
maggiore chiarezza interpretiamo principalmente in ottica di stima puntuale:
1. un campione è solo una realizzazione parziale del fenomeno oggetto di analisi;
2. poiché un campione è composto in genere da molte osservazioni del fenomeno, nel
passare dal campione ad una valutazione del o dei parametri occorre un processo di
sintesi delle osservazioni del campione;
3. la scelta del modello può essere sbagliata; in altri termini non è detto che il
modello scelto si adatti bene ai dati analizzati.
Il chiarimento di questi punti consente di evidenziare una serie di aspetti importanti che
4
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
costituiranno oggetto di analisi nelle pagine che seguono.
1. Essendo solo una realizzazione parziale del fenomeno osservato, non è affatto detto
(e anzi è più unico che raro) che dal campione si riesca a determinare il valore esatto
dei parametri: in generale si può solo ricavarne una stima, cioè una valutazione sulla
base delle informazioni a disposizione. Inoltre al cambiare del campione si
ottengono in generale stime diverse.
2. In base alla considerazione precedente, è facile rendersi conto che ogni stima è un
processo di sintesi del campione affetto da errore. Caso per caso occorre scegliere la
sintesi migliore, cioè quella che, a parità di altre condizioni, consente di andare “più
vicino possibile” alla grandezza da stimare. Tuttavia dato che il vero valore di
ciascun parametro non è noto (se si conoscesse non ci sarebbe bisogno di stimarlo)
non è possibile determinare quanto la stima fornita sbaglia rispetto al valore vero del
parametro. Nonostante ciò la statistica ha messo a punto opportuni strumenti per
valutare la bontà delle stime effettuate. Tali strumenti, però, richiedono di far
riferimento non al solo campione estratto ma all’intero universo dei campioni, cioè a
tutti i campioni che sarebbero potuti venire fuori dal modello considerato.
3. Non è affatto detto che il modello scelto sia “ben scelto”; in altri termini può darsi
che quello considerato non sia il modello più adatto per il fenomeno analizzato. La
statistica fornisce allora gli strumenti per testare la bontà del modello scelto, cioè
per decidere, sulla base dei dati del campione, se il modello può essere accettato
oppure deve essere abbandonato in favore di un altro. Questo problema sarà
affrontato nell’ambito del test delle ipotesi di cui al relativo capitolo.
2. La scelta del modello statistico
Il primo passo per l’analisi statistica di un certo fenomeno è, sempre, la scelta del
modello più opportuno per rappresentare il “comportamento probabilistico” del
fenomeno stesso. Detto infatti che questo può essere rappresentato da una v.c., diciamo
X, si tratta di scegliere fra i modelli statistici, quello più adatto per rappresentare la
distribuzione di X.
In realtà la scelta del modello, anche se determinante in funzione nei risultati
dell’analisi, non è prettamente materia statistica, anche se una certa conoscenza della
5
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
materia è assolutamente necessaria. Infatti la scelta del modello è il risultato finale di
considerazioni di varia natura: le caratteristiche del fenomeno in oggetto, analisi simili
(magari con riferimento a quanto presente in letteratura), considerazioni puramente
teoriche, l’esperienza passata con problemi analoghi, ecc. Caso per caso ciascuno degli
aspetti indicati pesa in modo diverso.
Per quanti riguarda questo corso, in linea di massima la scelta del modello sarà
strettamente guidata dal docente, ma non bisogna dimenticare che nella pratica tale
decisione ricade su chi effettua l’analisi. Come aiuto, si forniscono di seguito alcuni
semplici esempi in cui si discute la scelta del modello.
Esempio
Supponiamo di voler analizzare, nell’ambito della popolazione italiana, il gradimento
nei confronti di un provvedimento legislativo di “completa liberalizzazione dell’orario
di apertura dei negozi”.
Se interessa distinguere fra FAVOREVOLI e NON FAVOREVOLI al provvedimento, il
più opportuno sembra essere il modello di Bernoulli. In altri termini se X è la v.c.
“FAVOREVOLE al provvedimento”, allora tale v.c. assumerà valore 1 se un individuo
è favorevole e 0 se non favorevole. In simboli X ~ Be(p) dove p ∈ [0, 1]. Dal punto di
vista statistico, il problema a questo punto è fare inferenza su p.
Esempio
Supponiamo che il “responsabile qualità” di una grossa impresa produttrice di filati di
lana voglia analizzare il numero di difetti presenti nella propria produzione prendendo
come base matasse da 10000 metri.
Fra quelli introdotti (ce ne potrebbero essere tuttavia altri adatti alla situazione indicata),
il modello più opportuno sembra essere la distribuzione di Poisson. Allora assumeremo
che la v.c. X = “numero di difetti in una matassa da 10000 m” ~ Po(λ) dove λ ≥ 0. Dal
punto di vista statistico, il problema a questo punto è fare inferenza su λ.
6
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Esempio
Supponiamo che un centro di analisi stia studiando la redditività delle piccole imprese
del settore “mobili e arredi” utilizzando l’indice ROE = utile/capitale netto.
Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un
modello ragionevole è rappresentato dalla distribuzione Normale. Allora assumeremo
che la v.c. X = “ROE” ~ N(µ, σ2), dove µ ∈ R e σ2 ≥ 0. A questo punto il problema è
fare inferenza sui due parametri µ e σ2.
Esempio
Supponiamo che il responsabile alle vendite di un’impresa del settore moda stia
analizzando il tempo di permanenza in magazzino dei suoi giubbotti in pelle.
Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un
modello ragionevole è rappresentato dalla distribuzione Gamma. Allora assumeremo
che la v.c. X = “Tempo di permanenza in magazzino” ~ Ga(α, β), dove α, β > 0. A
questo punto il problema è fare inferenza sui due parametri α e β.
Dagli esempi proposti possiamo trarre il seguente schema riassuntivo. Sia X la v.c.,
discreta o continua, che rappresenta il fenomeno oggetto di analisi. La scelta fra i diversi
modelli presenti in letteratura per rappresentare la distribuzione di X si basa, come detto,
su considerazioni di diversa natura. In ogni caso scegliere un modello significa scegliere
la funzione di massa o di densità di X. Sia quindi
f(x;θ)
la funzione di massa (se discreta) o la funzione di densità (se continua) della v.c. X,
dove θ indica i parametri caratteristici funzione scelta. Si ipotizza che θ ∈ Θ, cioè che i
parametri appartengano ad un certo insieme Θ detto spazio parametrico; lo spazio
parametrico è quindi l’insieme dei valori che i parametri possono assumere. Ad
esempio: nel modello di Bernoulli il parametro è p il cui spazio parametrico è [0, 1]; nel
modello di Poisson il parametro è λ il cui spazio parametrico è [0, +∞); nel modello
Normale i parametri sono µ e σ2 e lo spazio parametrico è il prodotto cartesiano dei
rispettivi spazi parametrici, cioè R × [0, +∞); nel modello Gamma i parametri sono α e
7
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
β e lo spazio parametrico è il prodotto cartesiano dei rispettivi spazi parametrici, cioè (0,
+∞) × (0, +∞).
3. Concetti di base
Con riferimento a quanto detto finora, sia allora X una v.c., discreta o continua, che
rappresenta il fenomeno oggetto di analisi e sia quindi
f(x;θ)
la funzione di massa o di densità della v.c. X, dove θ ∈ Θ indica i parametri caratteristici
funzione scelta.
Per semplicità, nella trattazione che segue ci limiteremo ad analizzare il processo di
inferenza per un parametro alla volta; in altre parole supporremo che θ sia uno scalare e
che lo spazio parametrico Θ sia un sottoinsieme di R (al limite R stesso). Solo quando
utile faremo espliciti richiami al caso multiparametrico.
In generale θ non è noto: l’unica cosa che si conosce è lo spazio parametrico Θ a cui
appartiene. Non essendo noto bisogna cercare di “indovinare” o, più correttamente, di
stimare θ. Per stimare θ si dispone dell’informazione contenuta in un campione di
osservazioni
x = (x1, …, xn)
della v.c. X che rappresenta il fenomeno studiato. La stima puntuale di θ si risolve allora
nella ricerca di una funzione del campione
θ̂ = T(x1, …, xn),
in modo da ottenere un valore θ̂ che sia “più vicino possibile” al parametro incognito θ.
Purtroppo, posto in questi termini il problema di stima puntuale non ha soluzione. Infatti
come è possibile giudicare quanto la stima
θ̂ = T(x1, …, xn)
è vicina al parametro incognito
θ
8
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
se questo, appunto, è incognito? (Com’è possibile giudicare quanto un numero è vicino
ad un altro numero se quest’ultimo non si conosce?)
Per giudicare il processo di stima occorre allora correggere i termini del problema sulla
base di una considerazione fatta in precedenza. Il punto cruciale è il seguente: il
campione a disposizione, x = (x1, …, xn), è solo uno fra i tanti campioni che sarebbero
potuti capitare. Se fosse stato estratto un campione diverso, quasi sicuramente la stima
del parametro sarebbe risultata diversa. Per giudicare la bontà di un processo di stima,
allora, occorre valutarne il comportamento non sulla base del solo campione a
disposizione, ma sulla base di tutti i possibili campioni. In questo modo si ottengono
due vantaggi:
1. è possibile definire il concetto di bontà di un dato procedimento di stima puntuale;
2. è possibile interpretare i risultati ottenuti dal campione a disposizione alla luce del
comportamento di tutti i possibili campioni.
Tornando allora al nostro problema, fra l’assunzione che la v.c. X si distribuisce secondo
una certa funzione di massa o di densità f(x;θ) e il campione x = (x1, …, xn) occorre
inserire alcuni concetti intermedi.
Innanzitutto assumeremo da ora in poi che il campione a disposizione sia un campione
casuale semplice (spesso abbreviato in c.c.s.), cioè un campione le cui osservazioni
sono indipendenti ovvero:
1. o estratte con reimmissione;
2. oppure estratte senza reimmissione da una popolazione di numerosità talmente
elevata da rendere praticamente nulla la probabilità di estrarre la stessa unità
campionaria.
Su questa base, a ciascuna estrazione campionaria i-ma è associata una v.c. Xi che
rappresenta tutti i possibili valori che possono venire fuori da tale estrazione.
Essendo le estrazioni indipendenti, è ovvio che ciascuna Xi sarà distribuita esattamente
come la v.c. dalla quale è stata effettuata l’estrazione, cioè
Xi ∼ f(xi; θ),
con i = 1, …, n.
9
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Di conseguenza, l’universo dei possibili campioni (di dimensione prefissata n) che
possono essere estratti è rappresentato dalla v.c. multipla
X = (X1, …, Xn)
la cui funzione di massa o funzione di densità è espressa da
f(x1, …, xn; θ) =
n
∏ f(xi; θ),
i=1
dato che le estrazioni sono fra loro indipendenti (si veda cap. 2 sulle v.c. multiple).
In questo contesto il campione
x = (x1, …, xn)
sarà una particolare realizzazione della v.c. multipla
X = (X1, …, Xn).
Altra conseguenza è che con riferimento all’universo dei campioni, cioè alla v.c.
multipla X = (X1, …, Xn), la v.c. sintesi del campione ai fini della stima
T(X1, …, Xn)
sarà anch’essa una v.c., essendo a sua volta funzione di v.c. Per dare risalto a questo
aspetto diamo alcune definizioni.
Definizione 1: Definizione di statistica. Si dice statistica (dall’inglese statistic)
qualunque funzione
T(X1, …, Xn)
del c.c.s. X = (X1, …, Xn) (inteso come campione di v.c.) che non
contiene parametri incogniti. Il valore della statistica calcolato sui dati
campionari x = (x1, …, xn), cioè
T(x1, …, xn),
è detto valore campionario della statistica.
Definizione 2: Definizione di stimatore e di stima. Sia X è una v.c. con funzione di
massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e sia X
= (X1, …, Xn) un c.c.s. estratto da X. Allora si dice stimatore qualunque
statistica
T(X1, …, Xn)
10
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
utilizzata per stimare θ. Il valore dello stimatore calcolato sui dati
campionari x = (x1, …, xn) al fine di stimare θ, cioè
T(x1, …, xn),
è detto stima.
Definizione 3: Distribuzione campionaria. Sia X una v.c. con funzione di massa o di
densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia T(X1, …, Xn)
una statistica calcolata sul c.c.s. X = (X1, …, Xn). Allora la distribuzione
della statistica T(X1, …, Xn) (che abbiamo già detto essere una v.c.) è
detta distribuzione campionaria della statistica.
Un commento sulle definizioni introdotte. Una statistica è una qualsiasi funzione T(X1,
…, Xn) del campione, mentre uno stimatore è un caso particolare di statistica quando
quest’ultima è utilizzata per stimare un certo parametro. Essendo funzioni di v.c., sia la
statistica che lo stimatore sono a loro volta v.c. e quindi hanno una certa distribuzione,
detta distribuzione campionaria. La differenza fra stimatore e stima è infine la seguente:
lo stimatore, essendo una funzione delle v.c. X = (X1, …, Xn) è a sua volta una v.c.; la
stima essendo una funzione dei numeri x = (x1, …, xn) è a sua volta un numero.
Ovviamente essendo x = (x1, …, xn) una particolare realizzazione di X = (X1, …, Xn),
anche la stima T(x1, …, xn) sarà una particolare realizzazione dello stimatore T(X1, …,
Xn). La legge di probabilità con cui la v.c. stimatore origina le singole stime è data dalla
distribuzione campionaria dello stimatore.
4. Proprietà di uno stimatore
Riassumiamo alcune considerazioni espresse finora. Data una v.c. X con funzione di
massa o di densità f(x; θ), la stima puntuale del un parametro incognito θ si ottiene
applicando una specifica funzione T(.) ai valori campionari. Tale stima, allora, varierà al
variare del campione secondo la legge di distribuzione f(x; θ) della popolazione cui il
campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a
giudicare la “bontà” di una qualunque stima θ̂ = T(x1, ...,xn). Infatti, non è possibile
11
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
affermare se un singolo valore numerico, cioè se una particolare stima θ̂ è “buona” o
“cattiva”. Se da una parte è ragionevole ritenere che θ̂ è tanto più “buona” quanto più si
approssima al vero valore del parametro θ, dall’altra parte essendo tale valore incognito,
il confronto non è possibile: risulta, cioè, impossibile valutare la “bontà” di una singola
stima. Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece
di stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di
stima impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo
campione ma all’universo di tutti i campioni possibili. Il confronto fra stimatori dovrà,
quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie e, più
in particolare, fra particolari indici caratteristici delle distribuzioni campionarie.
Torniamo allora alla problematica generale della stima statistica puntuale. Sia X una
variabile casuale, discreta o continua, con funzione di massa o di densità f(x; θ),
caratterizzata dal parametro incognito θ ∈ Θ. Il problema della ricerca del ”miglior”
stimatore di θ si sostanzia nella individuazione della “migliore” funzione T(.) da
applicare al campione di cui si dispone. Qui di seguito si descrivono le principali
proprietà di uno stimatore. Esempi dei concetti introdotti saranno discussi nella sez. 4.5
e nella sez. 6 relativa ai metodi di stima.
4.1. Sufficienza
Relativamente alle proprietà “ottimali” di uno stimatore si deve, innanzi tutto, tenere
presente che la funzione T(.) opera una compattazione delle informazioni. Risulta,
pertanto ragionevole richiedere ad uno stimatore θ̂ = T(X1, …,Xn) di contenere il
massimo delle informazioni che il campione fornisce in merito al valore del parametro
incognito θ. Questa proprietà è esplicitata dalla definizione di sufficienza.
Definizione 4: Definizione di statistica sufficiente. Sia X una v.c. con funzione di
massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia X
= (X1, …, Xn) un c.c.s. estratto da X. Allora una statistica T(X1, …, Xn) è
12
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
sufficiente per θ sse la distribuzione del campione condizionata ad un
qualunque valore assunto dalla statistica T(.), cioè
f(x1, …, xn | T = t),
non dipende da θ.
Tale definizione risulta di interpretazione non immediata: cerchiamo di spiegarla. La
definizione dice che una statistica T è sufficiente per un certo parametro se nella
distribuzione del campione, una volta condizionati al valore della statistica, il parametro
scompare. In altri termini, ricordando l’interpretazione dell’evento condizionante come
“informazione”, T è sufficiente se, una volta calcolata e quindi conosciuta T, nel
campione stesso non rimane più alcuna informazione su θ che infatti scompare nella
distribuzione condizionata: tutto quello che c’era per risalire al parametro è stato
“spremuto” da T.
Il concetto di sufficienza può essere esteso da una statistica ad uno stimatore nel modo
seguente: è sufficiente lo stimatore basato su una statistica sufficiente. In questo caso
allora θ̂ contiene tutte le informazioni su θ contenute nel campione a disposizione.
Appare subito evidente che nei casi in cui esistono stimatori sufficienti, si dovrà
restringere la ricerca del miglior stimatore entro tale classe poiché, al di fuori di essa,
ogni altro stimatore avrebbe come conseguenza una mancata utilizzazione di
informazioni utili contenute nel campione.
Purtroppo la definizione di sufficienza è nella pratica di difficile utilizzazione per due
motivi:
1. la distribuzione condizionata di cui alla definizione spesso è tutt’altro che semplice
da ricavare;
2. la definizione richiede di avere già in testa una statistica T(.) e quindi di verificare se
questa è sufficiente o meno per il parametro; si presta invece poco alla ricerca di
statistiche sufficienti.
Questi due inconvenienti sono tuttavia superati da un importante risultato teorico noto
come criterio di fattorizzazione di Neyman-Fisher.
13
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Teorema 1:
Criterio di fattorizzazione di Neyman-Fisher. Sia X una v.c. con
funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro
incognito e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora la statistica
T(X1, …, Xn) è sufficiente per θ sse vale la relazione:
f(x; θ) = g(T(x); θ) h(x)
dove: g(T(x); θ) è una funzione non negativa che dipende dal parametro e
dal campione solo attraverso la funzione T(.); h(x) è una funzione non
negativa degli elementi del campione.
Grazie a questo teorema, per trovare una statistica sufficiente basta riuscire a fattorizzare
la funzione di massa o di densità del campione nel modo indicato: uno dei fattori deve
dipendere solo dal parametro e da una certa statistica (che quindi sarà sufficiente per il
parametro); l’altro deve dipendere solo dal campione.
Tale teorema consente anche di fornire la seguente immagine del concetto di
sufficienza. Supponiamo che X sia effettivamente distribuito secondo la funzione di
massa o di densità f(x; θ) e che T(X) sia sufficiente per θ. In tale situazione supponiamo
poi di assegnare, come informazione per stimare θ, ad uno studente tutto il campione x =
(x1, …, xn) e all’altro (poverino!) la sola statistica T(x). Sembrerebbe questa una
discriminazione del secondo a favore del primo. Ciò è falso: infatti T(x) contiene tutta
l’informazione su θ che c’è nel campione, tanto che anche sapendo solo T(x) è possibile
scrivere la funzione di massa o di densità del campione. Il campione, quindi, non
contiene nient’altro su θ che, appunto, T(x) (paradossalmente è il secondo studente ad
essere avvantaggiato, dato che non deve neanche calcolarsi T(x)!).
Alcune precisazioni importanti.
1. La definizione di sufficienza e il criterio di fattorizzazione possono essere
banalmente estesi al caso in cui θ sia un vettore di parametri e/o T(X) un vettore di
statistiche (le dimensioni dei due vettori non necessariamente coincidono). In tal
caso le statistiche del vettore T(X), prese insieme, sono (congiuntamente) sufficienti
per θ.
14
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
2. Sulla base di quanto detto al punto precedente, l’intero campione X = (X1, …, Xn) è,
chiaramente, sempre sufficiente per θ, qualunque sia il modello scelto. E’ ovvio però
che in tale situazione il concetto di sufficienza è poco interessante per l’assenza di
compattazione delle informazioni fornita da tale statistica. I casi interessanti sono
quelli in cui esistono delle statistiche sufficienti di dimensione minore rispetto
all’intero campione.
3. Il criterio di fattorizzazione evidenzia che la sufficienza è una proprietà intrinseca
del modello. Infatti la funzione di massa o di densità del campione f(x; θ), che è
quella che viene fattorizzata nel teorema, segue direttamente dalla specificazione
della distribuzione della v.c. X data da f(x; θ).
4. Se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si può
facilmente dimostrare che qualsiasi trasformazione biunivoca di tale statistica (o
vettore di statistiche) è anch’essa sufficiente.
5. Nel criterio di fattorizzazione, se in luogo di f(x; θ) si considera il suo logaritmo
naturale lnf(x; θ), la scomposizione di tale funzione in due componenti funziona in
modo analogo, con la differenza che invece di moltiplicarsi si sommano. Infatti
ln f(x; θ) = ln[g(T(x); θ) h(x)] = ln g(T(x); θ) + ln h(x) = g1(T(x); θ) + h1 (x).
Questo significa che T(x) è sufficiente per θ sse ln f(x; θ) può essere scomposto nella
somma di due funzioni g1(T(x); θ) e h1(x), di cui: la prima dipende dal parametro e
dal campione solo attraverso la funzione T(.); la seconda dipende solo dagli elementi
del campione. Questa osservazione sarà utile negli esempi illustrati nella sezione
relativa ai metodi di stima.
4.2. Misure di errore: MSE e MAE
Oltre alla sufficienza, è ragionevole richiedere che le singole stime siano “più vicine
possibile” al parametro incognito da stimare. D’altra parte abbiamo già detto che, per
una serie di ragioni, il confronto deve essere fatto fra la v.c. stimatore θ̂ = T(X1, …, Xn)
e il parametro θ. Gli scostamenti fra lo stimatore θ̂ e il parametro incognito θ, possono
essere espressi dalla differenza in valore assoluto |θˆ – θ | o dalla differenza al quadrato
( θˆ – θ)2. D’altra parte poiché θ̂ è una v.c., anche |θˆ – θ | e ( θˆ – θ)2 lo sono, motivo per
15
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
il quale tali differenze vengono di norma sintetizzate prendendone il valore atteso. Si
ricavano allora le seguenti misure di errore fra stimatore e parametro:
MAE( θˆ ; θ) = E[|θˆ – θ |];
MSE( θˆ ; θ) = E[( θˆ – θ)2].
L’acronimo MAE sta per Mean Absolute Error o errore assoluto medio; l’acronimo
MSE significa invece Mean Squared Error o errore quadratico medio. Come già
evidenziato, tali misure di errore non sono v.c., poiché è stato applicato l’operatore di
valore atteso; è opportuno tuttavia aggiungere che in generale dipendono da θ, dato che
il valore del parametro è incognito. Sulla base di tali misure di errore è ragionevole
definire uno stimatore migliore di un altro, rispetto ad una certa misura di errore, se la
misura di errore del primo è inferiore alla corrispondente misura di errore del secondo
qualunque sia il valore del parametro.
Definizione 5: Definizione di efficienza relativa. Lo stimatore θˆ1 è più efficiente nel
MAE rispetto a θˆ2 se
MAE( θˆ1 ; θ) ≤ MAE( θˆ2 ; θ) per qualunque θ ∈ Θ ;
lo stimatore θˆ1 è più efficiente nel MSE rispetto a θˆ2 se
MSE( θˆ1 ; θ) ≤ MSE( θˆ2 ; θ)
per qualunque θ ∈ Θ .
Seppure importante per stabilire il migliore fra due stimatori dati, all’atto pratico è
auspicabile stimare θ col migliore stimatore possibile in assoluto. E’ allora opportuno
introdurre anche un concetto di efficienza in senso assoluto.
Definizione 6: Definizione di efficienza assoluta. Lo stimatore θˆ * è il più efficiente
nel MAE se per ogni altro stimatore θˆ
MAE( θˆ * ; θ) ≤ MAE( θˆ ; θ)
per qualunque θ ∈ Θ ;
lo stimatore θˆ * è il più efficiente nel MSE se per ogni altro stimatore
θˆ
MSE( θˆ * ; θ) ≤ MSE( θˆ ; θ)
16
per qualunque θ ∈ Θ .
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Per quanto ragionevole dal punto di vista logico, nella pratica la ricerca dello stimatore
in assoluto più efficiente (nel MAE o nel MSE) si scontra però con un problema non di
poco conto: in genere tale stimatore ottimale non esiste (eccetto in casi particolari un po’
artificiosi)! Questo perché (come è ragionevole fare) nella definizione si richiede che
l’indice di errore sia inferiore per qualunque θ ∈ Θ , mentre la situazione comune è
quella nella quale non esiste uno stimatore che minimizza il MAE o il MSE per
qualunque valore di θ. E’ facile rendersi conto di ciò se si pensa al seguente stimatore di
θ:
T(X1, …, Xn) = 3.
E’ chiaro che un tale stimatore è assolutamente “stupido”: infatti stima il parametro
incognito sempre con 3, ignorando completamente l’informazione contenuta nel
campione. D’altra parte quando θ è effettivamente 3 (o comunque nei dintorni di 3) è
impossibile fare meglio dello stimatore “stupido” indicato (Fig. 1). In generale altri
stimatori avranno un MAE o un MSE più piccolo dello stimatore di cui sopra ma non per
i θ “vicini” a 3. Poiché di stimatori “stupidi” come quello indicato se ne possono
costruire infiniti (uno per ogni valore di θ), da questo ragionamento si evince che in
generale lo stimatore più efficiente in assoluto, nel senso del MAE o del MSE, non
esiste.
In tali situazioni, allora, si dovrà abbandonare l’obiettivo della ricerca dell’ottimo (non
esistendo un ottimo!) per procedere, eventualmente, alla ricerca di un sub-ottimo. Si
può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di minimizzare
il MAE o il MSE in un insieme ristretto di stimatori (minimo vincolato) essendo
ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta. Questo aspetto è
approfondito nella seguente sezione.
17
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
8
7
6
5
4
3
2
1
0
-1
-1 0
1
2
3
4
5
6
7
Fig. 1 – Andamento del MSE per tre diversi stimatori di θ > 0: θˆ1 (tratto rosa), θˆ2
(tratto verde), θˆ3 (tratto blu). θˆ1 è più efficiente di θˆ2 ma non di θˆ3 , nonostante
quest’ultimo sia lo “stimatore stupido”.
4.3. Correttezza
Sviluppiamo il ragionamento conclusivo della sezione precedente con riferimento alla
misura di errore MSE. Il MSE, infatti, rispetto al MAE è più facile da trattare dal punto
di vista matematico. Più in particolare il MSE può essere scomposto nel modo seguente:
MSE( θˆ ; θ) = V( θˆ ) + bias( θˆ ; θ)2,
dove V( θˆ ) è la varianza dello stimatore θˆ e bias( θˆ ; θ) = E( θˆ ) – θ è la distorsione
dello stimatore. La scomposizione si ricava facilmente sommando e sottraendo E( θˆ )
nella definizione e poi applicando le proprietà dei valori attesi (si ricorda che θ ed E( θˆ )
sono costanti!) :
MSE( θˆ ; θ) = E[( θˆ – θ)2] = E[( θˆ – E( θˆ ) + E( θˆ ) – θ)2] = E[ ( θˆ – E( θˆ ))2 + (E( θˆ ) – θ)2
+ 2 ( θˆ – E( θˆ ))(E( θˆ ) – θ) ] = E[( θˆ – E( θˆ ))2] + E[(E( θˆ ) – θ)2] + 2 [E( θˆ ) – θ] E[ θˆ –
E( θˆ )] = V( θˆ ) + [E( θˆ ) – θ)2] + 2 [E( θˆ ) – θ] [E( θˆ ) – E( θˆ )] = V( θˆ ) + bias( θˆ ; θ)2 + 0
Tornando al risultato di cui sopra, il MSE di uno stimatore può essere quindi scomposto
18
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
nella somma di due componenti: la varianza dello stimatore, V( θˆ ) e il quadrato della
distorsione, bias( θˆ ; θ)2 = [E( θˆ ) – θ]2. Poiché, come detto, in generale non esiste lo
stimatore con il MSE più piccolo per ogni θ fra tutti gli stimatori, può valere la pena di
limitare la ricerca dello stimatore migliore ad un insieme ristretto di stimatori. In
particolare si può cercare nell’ambito degli stimatori con distorsione pari a 0, per i quali,
si vede facilmente, il MSE è uguale alla varianza dello stimatore.
Definizione 7: Definizione di correttezza. Uno stimatore θ̂ di θ si dice corretto o
non distorto se
E( θ̂ ) = θ
per qualunque θ ∈ Θ .
Da questa definizione segue allora immediatamente che se uno stimatore θ̂ è corretto
relativamente a θ allora:
1. la sua distorsione è 0, cioè bias( θˆ ; θ) = 0 (da questo deriva l’espressione non
distorto);
2. il suo MSE e la sua varianza coincidono, cioè
MSE( θˆ ; θ) = V( θˆ );
pertanto nella classe ristretta degli stimatori corretti lo stimatore più efficiente nel
MSE è lo stimatore di minima varianza. Quest’ultima conclusione provoca spesso
confusione inducendo a concludere che lo stimatore più efficiente è lo stimatore di
minima varianza; si tratta, ovviamente, di una conclusione errata perché
l’affermazione vale solo nell’ambito degli stimatori corretti.
Torniamo ora al problema da cui si è partiti. Si è detto ripetutamente che lo stimatore
più efficiente in assoluto, sia nel senso del MAE che del MSE, di norma non esiste.
Ebbene, è possibile dimostrare che, per certi modelli, esiste invece lo stimatore più
efficiente nel MSE se si limita la ricerca alla classe degli stimatori corretti. Tuttavia
poiché la teoria sottostante è eccessivamente complessa per i fini di questo corso non la
vedremo. Ci limitiamo ad aggiungere tre considerazioni.
19
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
1. La prima è che l’effetto pratico del vincolo di correttezza è, come è ovvio, quello di
eliminare tutti gli stimatori distorti, fra i quali sono compresi anche gli “stimatori
stupidi”.
2. La seconda è che, nell’ambito della teoria relativa alla ricerca del migliore stimatore
corretto, gioca un ruolo fondamentale il concetto di sufficienza visto in precedenza.
3. La terza, a fini pratici più importante, è legata ad un risultato teorico di importanza
fondamentale noto come limite di Cramèr-Rao.
Teorema 2:
Limite di Cramèr-Rao. Sia X una v.c. con funzione di massa o di
densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e supponiamo che
f(x; θ) soddisfi certe condizioni di regolarità. Sia poi X = (X1, …, Xn) un
c.c.s. estratto da X. Allora se θˆ è uno stimatore corretto di θ, la varianza
di θˆ non può essere minore di un certa soglia minima:
V( θˆ ) ≥ 1/I(θ),
dove
 ds (θ )
I(θ) = E[s(θ)2] = –E 
 dθ 
è detta informazione di Fisher.
In parole, questo teorema dice che la varianza di uno stimatore corretto non può
scendere sotto il reciproco dell’informazione di Fisher. L’utilità del teorema è la
seguente. Se si prende uno stimatore θˆ e si verifica che è corretto, allora si calcola la
sua varianza V( θˆ ) (che per la correttezza coincide col suo MSE), poi l’informazione di
Fisher I(θ) e quindi il suo reciproco 1/I(θ): se si nota che V( θˆ ) = 1/I(θ) allora è
impossibile fare meglio (fra quelli corretti) dello stimatore considerato, perché sotto
1/I(θ) non si può scendere. E’ ovvio però che con questo criterio, se viene V( θˆ ) > 1/I(θ),
allora non è possibile sapere se esiste un altro stimatore corretto con varianza più
piccola di quello trovato.
Purtroppo un limite di questa teoria è dato dal fatto che per molti modelli non esiste lo
20
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
stimatore più efficiente nel MSE neppure nella classe degli stimatori corretti. Inoltre per
molti modelli risulta perfino impossibile determinare E( θ̂ ) e di conseguenza anche
V( θˆ ) e MSE( θˆ ; θ). E questo rende a sua volta impossibile la ricerca dello stimatore più
efficiente nel MSE di cui si è discusso finora.
4.4. Consistenza
Anche dal punto di vista intuitivo, è facile rendersi conto che al crescere della
dimensione del campione cresce anche la quantità di informazione a disposizione. E’
quindi ragionevole richiedere ad uno stimatore che al crescere della dimensione
campionaria n debba anche crescere la “precisione” dello stimatore nello stimare il
parametro. Questo concetto è precisato dalla proprietà di consistenza. Per esplicitare il
fatto che questa proprietà è legata alla dimensione del campione aggiungiamo l’indice n
allo stimatore, scrivendo θˆn al posto di θˆ .
Definizione 8: Definizione di consistenza debole. Uno stimatore θˆn di θ è
consistente in senso debole se
lim P(|θˆn – θ | < ε) = 1
n→∞
per qualunque θ ∈ Θ e per qualunque ε > 0 piccolo a piacere.
Definizione 9: Definizione di consistenza forte. Uno stimatore θˆn di θ è consistente
in senso forte se
lim MSE( θˆn ; θ) = 0
n→∞
per qualunque θ ∈ Θ.
Relativamente alla consistenza forte, grazie alla scomposizione
MSE( θˆn ; θ) = V( θˆn ) + bias( θˆn ; θ)2
vista in precedenza, è possibile dedurre che, per n → ∞, MSE( θˆn ; θ) tende a 0 sse
tendono a 0 le sue due componenti (entrambe non negative) V( θˆn ) e bias( θˆn ; θ).
21
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Quindi se la varianza e la distorsione di uno stimatore tendono entrambi a 0 allora lo
stimatore è consistente in senso forte e, viceversa, se lo stimatore è consistente in senso
forte allora la sua varianza e la sua distorsione tendono a 0. Uno stimatore la cui
distorsione tende a 0 è detto asintoticamente corretto, e per esso vale
lim E( θˆn ) = θ
n→∞
per qualunque θ ∈ Θ.
E’ possibile inoltre dimostrare che la consistenza forte implica la consistenza debole.
Questo fatto è una banale conseguenza del teorema di Markov (cap. 2): basta porre nel
teorema indicato, X = θˆn , g(X) = |θˆn – θ |, c = ε:
P(|θˆn – θ | ≥ ε) = P(( θˆn – θ ) 2 ≥ ε2) ≤
[(
E θˆn − θ
ε2
)]= MSE (θˆn ,θ )→ 0,
ε2
da cui P(|θˆn – θ | < ε) = → 1.
Infine un’ultima nota. Per certi aspetti, la consistenza è la proprietà più importante fra
quelle viste. Possiamo argomentare questa affermazione in due sensi. Primo: se uno
stimatore è consistente non è detto che sia buono, ma sicuramente uno stimatore non
consistente è da buttare. Secondo: come affermato alla fine della sez. 4.3, per la maggior
parte dei modelli statistici (fanno eccezione quelli più semplici) è impossibile
determinare valore atteso, varianza e quindi anche MSE degli stimatori considerati. Le
proprietà asintotiche, e in particolare quelle relative alla consistenza, sono invece assai
più facili da ricavare e spesso sono anche le uniche disponibili (si veda al proposito
l’esempio in sez. 5.1.5).
4.5. Un esempio
Proviamo ad illustrare alcuni dei concetti presentati in questa sez. 4 mediante un
esempio. L’esempio è per la verità un po’ artificiale ma può comunque dare un senso a
quanto visto in questa sezione. Esempi più realistici saranno presentati nella sezione che
segue.
22
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Si considerino 6 palline identiche a meno dei numeri su di esse riportati: {1, 1, 1, 3,
3, 9}. La funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è
allora data da
x =1
1 / 2
1 / 3
x=3

f(x) = 
x=9
1 / 6
 0 altrimenti
Per tale v.c. è facile derivare i principali momenti (si veda cap. 2). Il seguente prospetto
riassume il calcolo di µ = E(X) = 3 e σ2 = V(X) = E(X2) – E(X)2 = 17 – 32 = 8.
x
1
3
9
f(x)
x f(x)
1/2
1/2
1/3
1
1/6
3/2
1
3
Tabella 1 – Prospetto di calcolo di E(X) e V(X).
x2 f(x)
1/2
3
27/2
17
Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono
essere estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni
forma l’universo dei campioni che possono essere estratti dalla v.c. X. L’universo dei
campioni può a sua volta essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori
e la cui distriuzione sono riportati nella seguente tabella (la probabilità di ciascuna
coppia è semplicemente il prodotto delle probabilità dei singoli, dato che le estrazioni
sono indipendenti).
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4
1/6 1/12 1/6
1/9 1/18 1/12 1/18 1/36
1
Tabella 2 – Funzione di massa della v.c. doppia X = (X1, X2).
A questo punto, ogni statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza
una sua distribuzione campionaria. Consideriamo ora alcune statistiche e proviamo a
determinarne la distribuzione campionaria.
23
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
Media campionaria: X = (X1 + X2)/2 (per la formula generale si veda sez. 5.1)
La seguente tabella riporta, per ogni campione, la relativa media campionaria con la
sua probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4
x
1
1/6 1/12 1/6
2
5
1/9 1/18 1/12 1/18 1/36
2
3
6
5
6
1
9
Tabella 3 – Prospetto per la costruzione della funzione di massa della media
campionaria.
Da tale tabella si ricava facilmente la funzione di massa della media campionaria,
nella quale si sommano le probabilità relative alle coppie di valori che danno luogo
alla stessa media.
x
1
2
3
5
f( x )
1/4
1/3
1/9
1/6
6
9
tot
1/9 1/36
1
Tabella 4 – Funzione di massa della media campionaria X .
Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i
momenti di f(x), si può verificare che E( X ) = 3 e V( X ) = 4 [si invita lo studente a
farlo]. Questo significa che X è uno stimatore corretto di µ e che anche il suo MSE
è 4.
•
Varianza campionaria corretta: S2 = [(X1 – X )2 + (X2 – X )2]/(2 – 1) (per la
formula generale si veda sez. 5.1)
La seguente tabella riporta, per ogni campione, la relativa varianza campionaria
corretta con la sua probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4
s2
0
1/6 1/12 1/6
2
32
1/9 1/18 1/12 1/18 1/36
2
0
18
32
18
1
0
Tabella 5 – Prospetto per la costruzione della funzione di massa della varianza
campionaria corretta.
24
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria
corretta, nella quale si sommano le probabilità relative alle coppie di valori che
danno luogo alla stessa varianza.
s2
0
f(s2)
2
7/18 1/3
18
32
tot
1/9
1/6
1
Tabella 6 – Funzione di massa della varianza campionaria corretta S2.
Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i
momenti di f(x), si può verificare che E(S2) = 8 e V(S2) = 144 [si invita lo studente a
farlo]. Questo significa che S2 è uno stimatore corretto di σ2 e che anche il suo MSE
è 144.
•
Minimo campionario: x(1) = min{X1, X2}
La seguente tabella riporta, per ogni campione, il relativo minimo campionario con
la sua probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4
x(1)
1
1/6 1/12 1/6
1
1
1/9 1/18 1/12 1/18 1/36
1
3
3
1
3
1
9
Tabella 7 – Prospetto per la costruzione della funzione di massa del minimo
campionario.
Da tale tabella si ricava facilmente la funzione di massa del minimo campionario,
nella quale si sommano le probabilità relative alle coppie di valori che danno luogo
allo stesso minimo.
x(1)
1
f(x(1))
3/4
3
9
2/9 1/36
tot
1
Tabella 8 – Funzione di massa del minimo campionario x(1).
Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i
momenti di f(x), si può verificare che E(x(1)) = 1. 6 e V(x(1)) = 2. 2 [si invita lo
25
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
studente a farlo]. Questo significa che x(1) è uno stimatore distorto del minimo della
v.c. X, che è 1, e che MSE(x(1), min) = 2. 2 + (1. 6 – 1)2 = 2. 6 .
•
Massimo campionario: x(2) = max{X1, X2}
La seguente tabella riporta, per ogni campione, il relativo massimo campionario con
la sua probabilità
x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot
f(x)
1/4
x(2)
1
1/6 1/12 1/6
3
9
1/9 1/18 1/12 1/18 1/36
3
3
9
9
9
1
9
Tabella 9 – Prospetto per la costruzione della funzione di massa del massimo
campionario.
Da tale tabella si ricava facilmente la funzione di massa del massimo campionario,
nella quale si sommano le probabilità relative alle coppie di valori che danno luogo
allo stesso massimo.
x(2)
1
3
9
tot
f(x(2))
1/4
4/9
11/36
1
Tabella 10 – Funzione di massa del massimo campionario x(2).
Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i
momenti di f(x), si può verificare che E(x(2)) = 4. 3 e V(x(2)) = 10. 2 . [si invita lo
studente a farlo]. Questo significa che x(2) è uno stimatore distorto del massimo
della v.c. X, che è 9, e che MSE(x(2), min) = 10. 2 + (4. 3 – 10)2 = 42. 3 .
5. Metodi di stima puntuale
Le proprietà di uno stimatore sono importanti perché specificano quali sono le
caratteristiche desiderabili: uno stimatore con proprietà migliori di un altro è
chiaramente preferibile. D’altra parte le proprietà indicate non dicono molto circa il
problema come fare a trovare uno stimatore (magari anche “buono”). Infatti,
riprendendo alcune considerazioni già fatte:
26
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
la ricerca di stimatori sufficienti, seppur importante dal punto di vista della sintesi
delle informazioni, non dice molto circa la capacità dello stimatore di “andare
vicino” al parametro incognito;
•
la ricerca dello stimatore che minimizza il MAE o il MSE per ogni valore del
parametro non ha soluzione;
•
la ricerca dello stimatore che minimizza il MSE nella classe dei soli stimatori
corretti ha soluzione solo in casi relativamente semplici (oltre al fatto di essere assai
complessa);
•
infine le proprietà di correttezza non fanno alcun riferimento al “come fare” per
trovare degli stimatori.
Per questi motivi occorre allora trattare i metodi di stima puntuale proposti in letteratura
verificando se, ed in quali condizioni operative, producono stimatori che soddisfano le
proprietà indicate.
In letteratura sono stati proposti molti metodi di stima, ciascuno adatto in specifici
contesti. Ne ricordiamo i principali:
1. Metodo della massima verosimiglianza
2. Metodo della minima perdita (il caso più importante, ma non l’unico, è il metodo
dei minimi quadrati che vedremo in particolare nell’ambito del modello di
regressione)
3. Metodo dei momenti
4. Metodo degli stimatori analoghi
5. Metodo del minimo Chi-quadrato
6. Metodo della minima distanza
5.1. Massima verosimiglianza
Il metodo di gran lunga più rilevante fra quelli menzionati è metodo della massima
verosimiglianza. La sua importanza è dovuta:
1. alle particolari proprietà di cui godono gli stimatori ottenuti con tale metodo;
2. alla generalità e alla relativa semplicità del metodo dal punto di vista del calcolo (per
poterlo applicare basta che si riesca a calcolare la verosimiglianza);
27
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
3. alla notevole diffusione del metodo, peraltro legata ai due punti precedenti:
possiamo stimare che circa l’85-90% dei modelli sono stimati con tale metodo.
In questa sezione si descrivono le principali caratteristiche del metodo della massima
verosimiglianza. Questa trattazione ci consentirà anche, attraverso gli esempi, di
illustrare concretamente quanto visto nella precedente sez. 4 circa le proprietà degli
stimatori.
5.1.1. Descrizione del metodo
Data una v.c. X, con funzione di massa o di densità, f(x; θ), e un c.c.s. X = (X1, …, Xn)
estratto da X, abbiamo già detto che la distribuzione del campione X = (X1, …, Xn) è data
dalla funzione di massa o di densità
f(x1, …, xn; θ) =
n
∏ f(xi; θ).
i=1
Ovviamente, in quanto funzione di massa o di densità f(x1, …, xn; θ) è una funzione
delle osservazioni del campione x = (x1, …, xn) per un certo θ fissato.
La verosimiglianza L(θ) è la funzione di massa o di densità del campione X = (X1, …,
Xn) vista però come funzione del parametro per fissato il campione, cioè
L(θ) = f(x1, …, xn; θ) =
n
∏ f(xi; θ).
i=1
Pertanto la verosimiglianza coincide in termini formali con la funzione di massa o di
densità del campione; si tratta infatti della stessa espressione interpretata:
1. come funzione degli elementi campionari x = (x1, …, xn) (funzione di massa o di
densità) che variano nell'universo dei campioni per θ fissato;
2. come funzione del parametro θ per un campione x = (x1, …, xn) prefissato.
Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le
variabili che interessano sono, appunto, le variabili casuali campionarie (X1, …, Xn).
Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto
particolari determinazioni (x1, …, xn) (il campione) e sono, pertanto, costanti note;
risulta, allora, ragionevole interpretare l’espressione come funzione del parametro (o dei
parametri) θ che, pur essendo una costante, assume la veste di variabile essendo
28
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
incognito il suo valore.
~
Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore θ
che massimizza la funzione L(θ). Se L(θ) è una funzione differenziabile, condizione
necessaria affinché essa abbia un massimo rispetto a θ è che
dL(θ )
= 0.
dθ
D’altra parte fare la derivata di L(θ) comporta, sulla base dell’espressione di cui sopra,
n
fare la derivata del prodotto
∏ f(xi; θ), cosa in generale abbastanza fastidiosa per le
i=1
note caratteristiche della derivazione di un prodotto. Per questo motivo, in genere si
preferisce massimizzare non la verosimiglianza L(θ) ma il logaritmo naturale della
verosimiglianza
l(θ) = ln L(θ) =
n
∑
ln f(xi; θ)
i=1
detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, è
~
garantito che il θ che massimizza la log-verosimiglianza l(θ) è identico a quello che
massimizza la verosimiglianza L(θ).
Di nuovo, se la log-verosimiglianza l(θ) è una funzione differenziabile allora condizione
necessaria affinché abbia un massimo è
s(θ) =
dl (θ )
= 0.
dθ
La derivata prima della log-verosimiglianza s(θ) è spesso indicata col termine score; di
conseguenza, se la log-verosimiglianza è differenziabile allora condizione necessaria
affinché abbia un massimo è che lo score sia 0.
Si nota come l’applicazione del logaritmo ha trasformato un prodotto in una somma,
decisamente più facile da derivare dato che in generale “la derivata di una somma è la
somma delle derivate”; il altre parole lo score è dato in generale da
s(θ) =
dl (θ )
=
dθ
n
∑
i=1
29
d
ln f(xi; θ).
dθ
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
~
Il valore θ che massimizza la verosimiglianza o la log-verosimiglianza è detto stima di
massima verosimiglianza del parametro incognito θ. Se nella soluzione si sostituiscono
alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ..., Xn) si ottengono
gli stimatori di massima verosimiglianza.
Ovviamente se la distribuzione della variabile casuale X, è caratterizzata da più
parametri θ1, ..., θk, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle
derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k
componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri
facendo il sistema fra le equazioni ottenute.
Vediamo ora in alcuni esempi semplici come funziona il metodo della massima
verosimiglianza e le caratteristiche degli stimatori ottenuti con tale metodo. [Anche se
ad una prima lettura questo materiale sembra “vasto”, lo schema di ragionamento
seguito è sempre lo stesso e si basa su quanto esposto nelle sezioni precedenti. Si
consiglia lo studente di provare da solo, con carta e penna, a ricostruire il filo logico
degli argomenti presentati].
5.1.2. Esempio X ~ Be(p)
Se si ipotizza che la v.c. X ~ Be(p), allora la log-verosimiglianza è data da
n
l(p) =
∑
n
ln f(xi; p) =
i=1
∑
ln ( p xi q1− xi )
i=1
che dopo alcune semplificazioni diviene
n
l(p) = ln p ∑ xi + ln q (n –
i=1
n
∑
xi).
i=1
Derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ottiene
1
s(p) =
p
n
∑
i=1
1
xi –
(n –
q
n
∑
xi) = 0.
i=1
Risolvendo tale equazione rispetto a p si ricava dopo alcuni passaggi che la stima di
massima verosimiglianza di p è
30
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
1
~
p =
n
n
∑
xi = x .
i=1
Questo significa che lo stimatore di massima verosimiglianza di p è
1
~
p = X =
n
n
∑
Xi,
i=1
detta media campionaria. Poiché ciascuna Xi è una Be(p), allora essa risulterà 0
n
(INSUCCESSO) o 1 (SUCCESSO); ne consegue che
∑
Xi sarà semplicemente la
i=1
somma degli 1, cioè la somma dei successi nel campione, e X =
1
n
n
∑
Xi sarà
i=1
semplicemente la proporzione di successi nel campione.
Ma quali proprietà ha lo stimatore ottenuto?
•
n
Da come è scritta la log-verosimiglianza si nota subito che
∑
Xi (e qualsiasi altra
i=1
trasformazione biunivoca della stessa) è una statistica sufficiente per p. Di
conseguenza ~
p = X è uno stimatore sufficiente, essendo funzione di tale statistica
sufficiente.
•
In secondo luogo la distribuzione campionaria di ~
p = X può essere ricavata sulla
base di quanto detto nel cap. 2 sulla distribuzione Binomiale [rivedere!]. Infatti: Xi ~
Be(p) ⇒
n
∑
i=1
1
Xi ~ Bi(n, p) ⇒ ~
p = X =
n
n
∑
Xi ~ BiRe(n, p). Dunque ~
p = X si
i=1
distribuisce, esattamente, come una Binomiale con parametri n e p, relativizzata per
il numero di osservazioni del campione. Tale distribuzione per n sufficientemente
grande può essere approssimata con la distribuzione Normale avente la stessa media
(p) e la stessa varianza (pq/n) della Binomiale relativa. In simboli
~
p = X ~ BiRe(n, p) ≈ N(µ = p, σ2 = pq/n).
•
Quanto detto permette di ottenere immediatamente i principali indici caratteristici
della distribuzione campionaria di ~
p = X . Infatti, per le proprietà della Binomiale
relativa (menzionate sopra),
31
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
E( X ) = p,
V( X ) = pq/n.
Su questa base si vede subito che X è uno stimatore corretto di p e che, quindi, il
suo MSE( X ; p) coincide con la varianza dello stimatore.
•
Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le
n
∑
proprietà dei valori attesi e il fatto che, essendo
i=1
n
Xi ~ Bi(n, p), E( ∑ Xi) = np,
i=1
allora
 ds ( p ) 
 = –E(–p–2
I(p) = –E 
 dp 
n
∑
n
∑
–2
Xi – q (n –
i=1
Xi)) = p–2 n p + q–2 (n – np) =
i=1
n/pq,
da cui
1/I(p) = pq/n
che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo
stimatore migliore di p nella classe degli stimatori corretti.
•
Da quanto detto sopra consegue che X è consistente in senso forte per p, dato che
MSE( X ; p) = pq/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella
debole, X è anche consistente in senso debole per p.
5.1.3. Esempio X ~ Po(λ)
Se si ipotizza che la v.c. X ~ Po(λ) allora la log-verosimiglianza è data da
l(λ) =
n
∑
ln f(xi; λ) =
i=1
n
∑
ln
i=1
λ xi e −λ
xi !
che dopo alcune semplificazioni diviene
n
l(λ) = ln λ ∑ xi – nλ –
i=1
n
∑
ln xi!
i=1
Derivando rispetto a λ per ottenere lo score ed uguagliando a 0 si ottiene
s(λ) =
1
λ
n
∑
xi – n = 0.
i=1
Risolvendo tale equazione rispetto a λ, si ricava che la stima di massima vero-
32
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
simiglianza di λ è
~ 1
λ =
n
n
∑
xi = x .
i=1
Questo significa che lo stimatore di massima verosimiglianza di λ è
~
1
λ = X =
n
n
∑
Xi,
i=1
di nuovo la media campionaria.
Ma quali proprietà ha lo stimatore ottenuto?
•
n
Da come è scritta la log-verosimiglianza si nota subito che
∑
Xi (e qualsiasi altra
i=1
trasformazione biunivoca della stessa) è una statistica sufficiente per λ. Di
~
conseguenza λ = X è uno stimatore sufficiente, essendo funzione di tale statistica
sufficiente.
•
~
In secondo luogo la distribuzione campionaria di λ = X può essere ricavata sulla
base di quanto detto nel cap. 2 sulla distribuzione Poisson [rivedere!]. Infatti: Xi ~
n
~
Po(λ) ⇒ (additività per v.c. Poisson indipendenti) ∑ Xi ~ Po(nλ) ⇒ λ = X =
i=1
1
n
n
∑
~
Xi ~ PoRe(nλ). Dunque λ = X si distribuisce, esattamente, come una
i=1
Poisson con parametro nλ, relativizzata per il numero di osservazioni del campione.
Tale distribuzione per n sufficientemente grande può comunque essere approssimata
con la distribuzione Normale avente la stessa media (λ) e la stessa varianza (λ/n)
della Poisson Relativa. In simboli
~
λ = X ~ PoRe(nλ) ≈ N(µ = λ, σ2 = λ/n).
•
Quanto detto permette di ottenere immediatamente i principali indici caratteristici
~
della distribuzione campionaria di λ = X . Infatti per le proprietà della Poisson
relativa (menzionate sopra)
E( X ) = λ,
V( X ) = λ/n.
33
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Su questa base si vede subito che X è uno stimatore corretto di λ e che, quindi, il
suo MSE( X ; λ) coincide con la varianza dello stimatore.
•
Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le
n
proprietà dei valori attesi e il fatto che, essendo
∑
i=1
n
Xi ~ Po(nλ), E( ∑ Xi) = nλ,
i=1
allora
 ds (λ ) 
–2
I(λ) = –E 
 = –E(–λ
 dλ 
n
∑
Xi) = λ–2 n λ = n/λ,
i=1
da cui
1/I(λ) = λ/n
che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo
stimatore migliore di λ nella classe degli stimatori corretti.
•
Da quanto detto sopra consegue che X è consistente in senso forte per λ, dato che
MSE( X ; λ) = λ/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella
debole, X è anche consistente in senso debole per λ.
5.1.4. Esempio X ~ N(µ, σ2)
Se si ipotizza che la v.c. X ~ N(µ, σ2) allora la log-verosimiglianza è data da
l(µ, σ2) =
n
∑
ln f(xi; µ, σ2) =
i=1
n
∑
i=1
 1
 1  x − µ  2 
ln 
exp −  i
 

2
2  σ  
 2πσ



che dopo alcune semplificazioni diviene
l(µ, σ2) = –
1
n
n
ln(2π) – lnσ2 –
2
2
2σ 2
n
∑
(xi – µ)2.
i=1
In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri e possiamo
distinguere i seguenti casi.
a) Stima di µ con σ2 nota
Se si vuole stimare µ e si conosce il valore di σ2, allora la log-verosimiglianza dipende
dal solo parametro µ. La formula è identica alla precedente ma conviene esplicitarla:
34
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
l(µ) = –
n
n
1
ln(2π) – lnσ2 –
2
2
2σ 2
n
∑
(xi – µ)2.
i=1
Per ricavare la stima di massima verosimiglianza di µ, si deriva l(µ) rispetto µ per
ottenere lo score e si uguaglia a 0:
s(µ) = –
n
1
2σ 2
∑
2(xi – µ)(–1) = 0,
i=1
che dopo alcune semplificazioni diviene
s(µ) =
1
σ2
n
( ∑ xi – nµ) = 0.
i=1
Risolvendo rispetto a µ si ricava che la stima di massima verosimiglianza di µ è
1
µ~ =
n
n
∑
xi = x .
i=1
Questo significa che lo stimatore di massima verosimiglianza di µ è
1
µ~ = X =
n
n
∑
Xi,
i=1
di nuovo la media campionaria.
Ma quali proprietà ha lo stimatore ottenuto?
•
La distribuzione campionaria di µ~ = X può essere ricavata sulla base di quanto
detto nel cap. 2 sulla distribuzione Normale [rivedere!]. Infatti: Xi ~ N(µ, σ2) ⇒
(proprietà delle combinazioni lineari per v.c. Normali indipendenti con ci = 1/n per i
1
= 1, …, n) µ~ = X =
n
n
∑
Xi ~ N(µ, σ2/n). In breve, allora,
i=1
µ~ = X ~ N(µ, σ2/n).
•
Quanto detto permette di ottenere immediatamente i principali indici caratteristici
della distribuzione campionaria di µ~ = X . Infatti per le proprietà della Normale
(menzionate sopra)
V( X ) = σ2/n.
E( X ) = µ,
35
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il
suo MSE( X ; µ) coincide con la varianza dello stimatore.
•
Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score e le
proprietà dei valori attesi allora
 ds (µ ) 
1
 = –E(
I(µ) = –E 
(– n)) = n/σ2,
2
σ
 dµ 
da cui
1/I(µ) = σ2/n
che è identico a V( X ) (vedi sopra). Questo significa che, se σ2 è noto, X è in
assoluto lo stimatore migliore di µ nella classe degli stimatori corretti.
•
Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che
MSE( X ; µ) = σ2/n tende a 0 per n → +∞. Poiché la consistenza forte implica quella
debole, X è anche consistente in senso debole per µ.
b) Stima di σ2 con µ nota
Se si vuole stimare σ2 e si conosce il valore di µ, allora la log-verosimiglianza dipende
dal solo parametro σ2. La formula è identica alla precedente:
n
n
1
l(σ ) = – ln(2π) – lnσ2 –
2
2
2σ 2
2
n
∑
(xi – µ)2.
i=1
Per ricavare la stima di massima verosimiglianza di σ2, si deriva rispetto σ2 per ottenere
lo score e si uguaglia a 0:
s(σ2) = –
n
2σ
2
+
n
1
2σ
4
∑
(xi – µ)2 = 0.
i=1
Risolvendo rispetto a σ2, si ricava che la stima di massima verosimiglianza di σ2 è
1
σ~ 2 =
n
n
∑
i=1
(xi – µ)2 = s*2* .
Questo significa che lo stimatore di massima verosimiglianza di µ è
1
σ~ 2 = S*2* =
n
detta varianza campionaria con µ nota.
36
n
∑
i=1
(Xi – µ)2,
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Ma quali proprietà ha lo stimatore ottenuto?
•
La distribuzione campionaria di σ~ 2 = S *2* può essere ricavata sulla base di quanto
detto nel cap. 2 sulla distribuzione Chi-quadrato [rivedere!]. Infatti: Xi ~ N(µ, σ2)
2
Xi − µ
X −µ
2
~ N(0, 1) ⇒  i
⇒
 ~ χ (1) ⇒ (additività per v.c. Chi-quadrato
σ
 σ 
2
n
indipendenti)
X −µ
∑  iσ  ~ χ2(n). Ma
i =1
nS *2*
σ2
•
2
nS *2*
 Xi − µ 
=
∑  σ  σ 2 , per cui, in breve,
i =1
n
2
n
X −µ
∑  iσ  ~ χ2(n).
i =1
=
Quanto detto permette anche di ottenere immediatamente i principali indici
caratteristici della distribuzione campionaria di σ~ 2 = S *2* . Infatti, per le proprietà
della Chi-quadrato,
 nS *2* 
E 2  = n
σ 


 nS*2* 
V  2  = 2n,
σ 


da cui deriva, sfruttando le proprietà dei valori attesi,
E( S *2* ) = σ2
V( S *2* ) = 2σ4/n.
Su questa base si vede subito che σ~ 2 = S *2* è uno stimatore corretto di σ2 e che,
quindi, il suo MSE( S *2* ; σ2) coincide con la varianza dello stimatore.
•
Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le
n
2
2
n
 Xi − µ 
 X −µ 
2
proprietà dei valori attesi e il fatto che, essendo ∑
 ~ χ (n), E( ∑ i  )
i=1  σ 
i=1  σ 
= n, allora
( ) = –E(
 ds σ 2
I(σ2) = –E 
 dσ 2



n
2σ
4
–
n
1
2σ
6
∑
(xi – µ)2) = –
i=1
da cui
1/I(σ2) = 2σ4/n
37
n
2σ
4
+
n
σ
4
=
n
2σ 4
,
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
che è identico a V( S *2* ) (vedi sopra). Questo significa che, se µ è noto, S *2* è in
assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti.
•
Da quanto detto sopra consegue che S *2* è consistente in senso forte per σ2, dato
che MSE( S *2* ; σ2) = 2σ4/n tende a 0 per n → ∞. Poiché la consistenza forte implica
quella debole, S *2* è anche consistente in senso debole per σ2.
c) Stima di µ e σ2 entrambi incogniti
Se si vuole stimare µ e σ2 entrambi incogniti (la cosa più comune nella pratica), allora la
log-verosimiglianza è quella vista all’inizio di questo esempio:
l(µ, σ2) = –
n
n
1
ln(2π) – lnσ2 –
2
2
2σ 2
n
∑
(xi – µ)2.
i=1
Per ricavare la stima di massima verosimiglianza di µ e σ2 occorre derivare rispetto ad
entrambe le variabili, ottenendo (i passaggi sono gli stessi visti in precedenza) le due
componenti del vettore score, ed uguagliarle a 0:
s(µ) =
s(σ2) = –
σ2
n
2σ
n
1
2
+
( ∑ xi – nµ) = 0,
i=1
n
1
2σ
4
∑
(xi – µ)2 = 0.
i=1
Facendo il sistema e risolvendo rispetto ai parametri si ottengono le stime:
1
µ~ = x =
n
n
∑
xi
i=1
1
σ~ 2 =
n
n
∑
i=1
(xi – x )2 = s*2 .
Questo significa che gli stimatori di massima verosimiglianza di µ è di σ2 sono
rispettivamente
1
µ~ = X =
n
n
∑
i=1
Xi
1
σ~ 2 = S*2 =
n
n
∑
(Xi – X )2,
i=1
ovvero, rispettivamente, la media campionaria e la varianza campionaria non
corretta.
Ma quali proprietà hanno gli stimatori ottenuti?
38
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche
n
∑
n
∑ X i2
Xi e
i=1
(e qualsiasi altra trasformazione biunivoca di tale coppia) è
i=1
sufficiente per µ e σ2 (per ottenere tale risultato basta svolgere il quadrato nel
n
termine
∑
(xi – µ)2 e operare le relative somme). Di conseguenza µ~ = X e σ~ 2 =
i=1
S*2 sono insieme stimatori sufficienti, essendo funzione di tali statistiche
sufficienti.
•
Analizziamo adesso la distribuzione campionaria di σ~ 2 = S*2 . Innanzitutto si può
dimostrare (si omette la dimostrazione perché piuttosto complessa) che le v.c. X e
S*2 sono fra loro indipendenti. Inoltre sottraendo e sommando X all’interno di
n
∑
(Xi – µ)2 si ricava
i=1
n
∑
(Xi – µ)2 =
i=1
n
∑
(Xi – X )2 + n( X –µ)2
n
 Xi − X

 σ
i=1
che, dividendo per σ2, equivale a
n
∑
i=1
2
 Xi − µ 

 =
 σ 
∑
i=1
2
2

 X −µ 
 + 
 .
σ / n 

Ora, poiché il membro di sinistra si distribuisce secondo una χ2(n) e il secondo
addendo a destra si distribuisce secondo una χ2(1) ed è indipendente dal precedente
(per quanto detto sopra) per differenza
nS*2
σ2
•
n
=
∑
i=1
 Xi − X

 σ
2

 ~ χ2(n – 1).

Quanto detto permette di ottenere immediatamente i principali indici caratteristici
della distribuzione campionaria di σ~ 2 = S*2 . Infatti per le proprietà della Chiquadrato
 nS *2 
E 2  = n – 1
σ 


 nS *2 
V  2  = 2(n – 1),
σ 


da cui deriva, sfruttando le proprietà dei valori attesi,
39
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
E( S*2 ) =
n −1 2
σ
n
V( S*2 ) = 2σ4
n −1
n2
.
Su questa base si vede subito che σ~ 2 = S*2 è uno stimatore distorto di σ2 con
bias( S*2 ; σ2) = E( S*2 ) – σ2 = –σ2/n. Inoltre, facendo due conti, MSE( S*2 ; σ2) =
σ4(2n – 1)/n2.
•
Essendo S*2 uno stimatore distorto di σ2, il teorema di Cramér-Rao non si applica
perché viene a cadere una delle ipotesi fondamentali dello stesso.
•
Chiaramente poiché MSE( S*2 ; σ2) = σ4(2n – 1)/n2 tende a 0 per n → ∞, S*2 è uno
stimatore consistente in senso forte per σ2. Dato poi che la consistenza forte
implica quella debole, S*2 è anche consistente in senso debole per σ2.
Dalla formula del valore atteso di S*2 si nota tuttavia che se ne può facilmente ricavare
uno non distorto. Infatti se nel valore atteso di S*2 si moltiplichiano ambo i membri per
n/(n – 1), quello di destra diviene σ2 e lo stimatore (portando il fattore all’interno della
parentesi) diviene
n
n 1
S *2 =
n −1
n −1 n
n
∑
(Xi – X )2 =
i=1
1 n
∑ (Xi – X )2
n − 1 i=1
Questo nuovo stimatore di σ2
S2 =
1 n
∑ (Xi – X ),
n − 1 i=1
ha quindi la proprietà di essere corretto ed è per questo detto varianza campionaria
corretta. Ovviamente S2 non è stimatore di massima verosimiglianza di σ2.
•
Per la distribuzione campionaria di S2 si considera la v.c.
(n − 1)S 2 = nS*2
σ2
•
σ2
n
=
∑
i=1
 Xi − X

 σ
2

 ~ χ2(n – 1).

Questo risultato permette di ottenere immediatamente i principali indici caratteristici
della distribuzione campionaria di S2. Infatti per le proprietà della Chi-quadrato
40
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
 (n − 1)S 2 
=n–1
E
 σ2 


 (n − 1)S 2 
 = 2(n – 1),
V
 σ2 


da cui deriva, sfruttando le proprietà dei valori attesi,
E(S2) = σ2
V(S2) = 2σ4/(n – 1).
Su questa base si vede subito che S2 è uno stimatore corretto di σ2 (risultato ovvio
per come è stato costruito!) e che, quindi, il suo MSE(S2; σ2) coincide con la
varianza dello stimatore.
•
Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo
trovato in precedenza, è:
1/I(σ2) = 2σ4/n
che come si nota è più piccolo di V(S2) (vedi sopra). Questo significa che S2 non è in
assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti, anche se la
differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al
crescere di n.
•
A sua volta, da quanto detto sopra consegue che S2 è consistente in senso forte per
σ2, dato che MSE(S2; σ2) = 2σ4/(n – 1) tende a 0 per n → ∞. Dato poi che la
consistenza forte implica quella debole, S2 è anche consistente in senso debole per
σ2.
Veniamo ora alle caratteristiche dello stimatore µ~ = X .
•
Apparentemente sembrerebbe che, essendo lo stimatore identico al caso in cui σ2 è
noto, non cambi niente rispetto a quanto detto nel caso a). In realtà la distribuzione
dello stimatore vista in precedenza, cioè µ~ = X ~ N(µ, σ2/n), non è più utilizzabile,
in quanto σ2 non è noto. Se, come sembra logico, si prova a sostituire σ2 con una
sua stima, ad esempio S2, la distribuzione non è più la stessa, perché si sostituisce
una costante con una v.c. Tuttavia utilizzando quanto detto nel cap. 2 sulla
distribuzione T [rivedere!] è possibile ricavare la distribuzione di X . Infatti X ~
N(µ, σ2/n) ⇒
X −µ
~ N(0, 1). Sostituendo al denominatore σ con la sua stima S si
σ/ n
ricava
41
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
X −µ
S/ n
=
X −µ
X −µ
σ/ n =
S/ n
σ/ n
σ/ n
(n − 1)S 2 (n − 1)
2
~ T(n – 1)
σ
dato che il numeratore è una normale standard, il denominatore è la radice di una
Chi-quadrato con (n – 1) gradi di libertà divisa per i gradi di libertà e numeratore e
denominatore sono indipendenti (per la citata indipendenza di X e S2).
•
In base al risultato precedente si può dimostrare (la dimostrazione però è complessa)
che
E( X ) = µ,
V( X ) =
n−2 2
σ /n.
n
Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il
suo MSE( X ; µ) coincide con la varianza dello stimatore. Si nota anche che la
varianza di X è leggermente maggiore rispetto al caso in cui σ2 è nota: è il “prezzo”
da pagare per il fatto di doverla stimare.
•
Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo
trovato in precedenza, è
1/I(µ) = σ2/n
che come si nota è più piccolo di V( X ) (vedi sopra). Questo significa che X non è
in assoluto lo stimatore migliore di µ nella classe degli stimatori corretti, anche se la
differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al
crescere di n.
•
Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che
MSE( X ; µ) =
n−2 2
σ /n tende a 0 per n → ∞. Poiché la consistenza forte implica
n
quella debole, X è anche consistente in senso debole per µ.
5.1.5. Esempio X ~ Ga(α, β)
Se si ipotizza che la v.c. X ~ Ga(α, β) allora la log-verosimiglianza è data da
42
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
l(α, β) =
n
∑
ln f(xi; α, β) =
i=1
n
∑
i=1
 β α α −1 − βx 
ln 
x e 
 Γ(α )

che dopo alcune semplificazioni diviene
l(α, β) = nα lnβ – n ln Γ(α) – (α – 1)
n
∑
i=1
n
lnxi – β ∑ xi.
i=1
In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri. Supponiamo
che siano entrambi incogniti.
Per ricavare la stima di massima verosimiglianza di α e β occorre derivare rispetto ad
entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0:
s(α) = n lnβ – n
s(β) =
Γ' (α )
–
Γ(α )
n
∑
lnxi = 0,
i=1
nα n
– ∑ xi = 0.
β i=1
Dalla seconda delle due espressioni è semplice ricavare β in funzione di α. Tuttavia
sostituendo tale risultato nella prima equazione, la funzione gamma ivi coinvolta rende
impossibile la derivazione analitica della stima di α. E senza scrivere la stima di α non è
possibile esplicitare neppure quella di β. Questa situazione è interessante perché
consente alcune precisazioni importanti.
•
Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche
n
∑
i=1
n
lnxi e ∑ xi (e qualsiasi altra trasformazione biunivoca di tale coppia) è
i=1
sufficiente per α e β. Di conseguenza anche se non si riesce a dare l’espressione
~
esplicita, α~ e β sono insieme stimatori sufficienti. Infatti essendo questi il
risultato della massimizzazione della log-verosimiglianza e dipendendo questa dal
campione solo tramite tali statistiche, ovviamente anche il punto di massimo della
~
log-verosimiglianza, cioè ( α~ , β ), dipenderà dal campione solo via le statistiche
sufficienti. Non può dipendere che da quello che c’è!
43
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
Come detto, non è possibile esplicitare le formule degli stimatori di massima
~
verosimiglianza α~ e β . Questo non significa che tali stimatori non esistono, ma
solo, ripetiamo, che è impossibile scriverli in forma esplicita come funzione del
campione. In base al punto precedente sappiamo solo che dipendono dal campione
n
tramite le statistiche sufficienti
∑
i=1
n
lnxi e ∑ xi, ma la formula esplicita non si riesce
i=1
a scrivere.
Questa situazione, apparentemente strana e complicata, in realtà è (quasi) la regola.
Infatti solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono di
esplicitare la formula degli stimatori, di ricavarne l’esatta distribuzione campionaria, di
indicare l’esatto valore degli indici caratteristici quali valore atteso, varianza e MSE.
Quando questo non è possibile, come accade di norma, allora:
1. la massimizzazione della verosimiglianza può avvenire solo tramite algoritmi
iterativi, implementati su calcolatore, che trovano valore in corrispondenza del
massimo per approssimazioni successive iniziando da un punto di partenza (starting
point);
2. le proprietà degli stimatori di massima verosimiglianza che si possono utilizzare
sono essenzialmente quelle asintotiche (consistenza + efficienza asintotica +
distribuzione asintotica) di cui discuteremo nel seguito.
5.1.6. Proprietà degli stimatori di massima verosimiglianza
Finora abbiamo analizzato una serie di esempi, nei quali abbiamo visto (quando è stato
possibile) che gli stimatori trovati hanno particolari proprietà, in genere abbastanza
buone. C’è da chiedersi: fortuna? Oppure è il metodo della massima verosimiglianza
che ogni volta fornisce stimatori dalle buone caratteristiche? Inoltre: le proprietà degli
stimatori trovati vanno valutate caso per caso oppure è possibile trovare qualche
proprietà valida in generale, ogni volta che il metodo della massima verosimiglianza è
utilizzato?
44
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Ebbene, è possibile dimostrare che gli stimatori ottenuti col metodo della massima
verosimiglianza godono di alcuna proprietà importanti.
~
1. Invarianza: si può dimostrare che se θ è lo stimatore di massima verosimiglianza
~
di θ allora g( θ ) è lo stimatore di massima verosimiglianza di g(θ). In altri termini
per stimare tramite massima verosimiglianza una qualche trasformazione di un
parametro già stimato basta prendere la vecchia stima e trasformare questa allo
stesso modo. Ad esempio: nel modello normale la stima di massima verosimiglianza
di σ è la radice quadrata di σ~ 2 ; oppure nel modello di Poisson la stima di massima
~
verosimiglianza di 1/λ è direttamente 1/ λ . Quella di invarianza sembra una
proprietà ragionevole (e perfino banale). In realtà non sono molti i metodi di stima
che ne godono.
2. Stimatori sufficienti: Se esistono delle statistiche sufficienti allora gli stimatori di
massima verosimiglianza sono funzione di questi e pertanto sono stimatori
sufficienti. Come tali gli stimatori di massima verosimiglianza riassumono tutta
l’informazione sui parametri presente nel campione. Questa proprietà è una
conseguenza banale del criterio di fattorizzazione. Infatti se esistono stimatori
sufficienti allora (si veda sez. 4.1) la log-verosimiglianza è la somma di due
componenti: una dipende solo dal parametro e dalle statistiche sufficienti, l’altra
solo dal campione; in simboli
l(θ) = ln f(x; θ) = g1(T(x); θ) + h1(x).
Siccome quando si deriva per trovare il massimo, la parte che non dipende dal
parametro va via, allora lo score è
s(θ) =
dl (θ ) dg1 (T (x );θ )
=
= 0.
dθ
dθ
E’ ovvio che, qualunque sia l’equazione che viene fuori dalla precedente
~
uguaglianza (anche ipercomplicata), il θ potrà dipendere solo da quello che c’è in
questa equazione, e dunque non da tutto il campione ma solo da T (se ovviamente
un T sufficiente esiste).
3. Efficienza “per campioni finiti”: Si può dimostrare che se esiste uno stimatore
corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della
massima verosimiglianza individua “automaticamente” tale stimatore (cfr esempi
45
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
visti in precedenza). Più in generale, gli stimatori di massima verosimiglianza hanno
buone proprietà per campioni finiti.
4. Efficienza “asintotica”: Si può dimostrare che sotto condizioni molto generali di
~
regolarità, lo stimatore di massima verosimiglianza θ è asintoticamente (cioè per n
→ ∞) efficiente, ovvero:
a. è asintoticamente corretto, cioè
~
lim E( θ n ) = θ;
n→∞
~
questo significa che la distorsione bias( θ n ; θ) va a 0 per n → ∞;
b. la sua varianza tende al limite di Cramér-Rao il quale a sua volta tende a 0, cioè
~
lim V( θ n ) = 1/Ι(θ);
n→∞
c. poiché di norma 1/Ι(θ) tende a 0 per n → ∞ è di conseguenza consistente in
senso forte e quindi anche in senso debole.
~
5. Normalità asintotica: Si può dimostrare che, per n → ∞, θ n ha distribuzione
Normale con media il vero valore di θ e varianza pari al limite inferiore di CramérRao. In simboli
~
θ n ≈ N[θ, 1/I(θ)].
Gli ultimi tre risultati, e in particolare gli ultimi due, sono di importanza fondamentale.
Richiamato il fatto che la proprietà 3 vale per campioni di qualsiasi dimensione, mentre
la 4 e la 5 solo per “grandi” campioni, in generale tali proprietà affermano che, se il
modello è correttamente specificato, il metodo della massima verosimiglianza fornisce
buoni stimatori. Talmente buoni che:
•
per certi modelli raggiungono situazioni di ottimo anche per piccoli campioni,
fornendo ad esempio il miglior stimatore fra quelli corretti (proprietà 3);
•
in generale sono praticamente imbattibili al crescere della dimensione campionaria
(proprietà 4).
Ma c’è di più. Infatti la proprietà 5 consente, se il campione è abbastanza grande, di
derivare la distribuzione campionaria di qualsiasi stimatore, anche in quei casi (che
come detto sono la maggioranza) nei quali lo stimatore non può essere scritto in forma
46
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
esplicita e per il quale, di conseguenza, è impossibile determinare distribuzione
campionaria, valore atteso, varianza, ecc. Ad esempio per il modello Ga(α, β) di cui alla
sez. 5.1.5, facendo i calcoli di I(α) e I(β) si ricava che

 1
Γ(α )2
α~n ≈ N[α, 1/I(α)] = N α ,
2
 n Γ' ' (α )Γ(α ) − Γ' (α ) 
 1 β2
~
β n ≈ N[β, 1/I(β)] = N  β ,
.
 n α 
Per enfatizzarne l’importanza, le proprietà asintotiche 4 e 5 sono state identificate con le
sigle BAN, Best Asymptotically Normal ovvero “asintoticamente il migliore stimatore e
pure con distribuzione Normale”, oppure CANE, Consistent Asimptotically Normal
Efficient ovvero “consistente, asintoticamente efficiente e pure con distribuzione
Normale”.
5.2. Stimatori analoghi
Sia X la v.c. che rappresenta il fenomeno d’interesse e supponiamo che la distribuzione
di X sia caratterizzata da uno o più parametri θ ∈ Θ. Supponiamo poi di disporre di un
c.c.s. X = (X1, …, Xn) estratto da X.
Facendo riferimento ad un singolo parametro da stimare θ, il metodo degli stimatori
analoghi può essere utilizzato quando θ ha una particolare interpretazione in termini di
indici caratteristici della v.c. X. Infatti per stimatore analogo si intende uno stimatore
la cui formula è suggerita dall’analogia interpretativa con il parametro da stimare θ in
termini di indici caratteristici. Gli esempi che seguono chiariranno il senso di tale
analogia.
Si sottolinea di nuovo che, per la loro natura, è possibile trovare stimatori analoghi solo
nei casi in cui il parametro ha un’interpretazione semplice che permette di sfruttare
l’analogia. E’ chiaro anche che quando può essere utilizzato, tale approccio è di
semplice applicazione, dato che è l’interpretazione del parametro in termini di indici
caratteristici a suggerire in modo pressoché immediato uno stimatore.
Aggiungiamo infine che, viste le ottime proprietà degli stimatori di massima
verosimiglianza, gli stimatori analoghi in genere non sono in competizione con questi
47
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
ma sono utilizzati soprattutto in contesti semiparametrici (si veda sez. 1.1), cioè quando
la distribuzione della v.c. non è completamente specificata ma se ne vogliono conoscere
ugualmente certi indici caratteristici.
5.2.1. Esempio X ~ (µ, σ2)
Supponiamo che la v.c. X abbia media µ e varianza σ2 ma non si vogliano fare ipotesi
sulla, distribuzione di X. Vogliamo stimare µ e σ2.
Siccome µ ha, appunto, una interpretazione in termini di media di X, lo stimatore
analogo più immediato è la media campionaria
µ̂ = X =
1
n
n
∑
Xi.
i=1
Ma quali proprietà ha tale stimatore?
•
Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione
campionaria di X non può essere ricavata.
•
Possono essere tuttavia ricavati alcuni momenti di X , e in particolare
V( X ) = σ2/n,
E( X ) = µ
ricorrendo dalle proprietà delle combinazioni lineari di v.c. di cui alle v.c. multiple
nel cap. 2 [si invita lo studente a dimostrarle per conto proprio]. Questo implica che
X è uno stimatore di µ corretto, con MSE uguale alla varianza, consistente in
senso forte e quindi anche in senso debole.
•
Per ricavare una distribuzione approssimata di X bisogna ricorrere al teorema del
limite centrale (cap. 2), sulla base del quale per n → ∞ X ha approssimativamente
una distribuzione Normale con media µ e varianza σ2/n; in simboli
X ≈ N(µ, σ2/n).
Purtroppo questa distribuzione contiene il parametro σ2. Nel caso in cui questo sia
noto non c’è nient’altro da aggiungere e quella indicata è la distribuzione che
conviene considerare (sempre se n è sufficientemente grande). Tuttavia anche nel
caso in cui σ2 non è noto, dato che la distribuzione di cui sopra è solo una
48
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
distribuzione asintotica, è possibile dimostrare che essa rimane inalterata se al posto
di σ2 si mette una sua stima (di cui diremo tra breve) fatta con uno stimatore
consistente.
Giusto a proposito di σ2. Siccome tale parametro ha una interpretazione in termini di
varianza di X, lo stimatore analogo più immediato è la varianza campionaria, in una
delle diverse versioni già viste: se µ è noto conviene stimare σ2 con la varianza
campionaria con µ nota, cioè
σ̂ 2 = S*2* =
1
n
n
∑
(Xi – µ)2,
i=1
altrimenti se µ non è noto si può ricorrere alla varianza campionaria corretta, ovvero
σ̂ 2 = S2 =
1 n
∑ (Xi – X )2.
n − 1 i=1
Ma quali proprietà ha tale stimatore?
•
Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione
campionaria di S *2* e di S2 non può essere ricavata.
•
Possono essere tuttavia derivati alcuni momenti di S *2* e di S2, e in particolare:
E( S *2* ) = σ2
V( S *2* ) = [ µ 4 – σ4] /n,
che sono utili se µ è noto;
E(S2) = σ2
V(S2) = [ µ 4 – (n–3)/(n–1)σ4] /n,
che sono utili se µ è incognito ( µ 4 = E[(X – µ)2] è il momento 4° centrale della v.c.
X). Questo implica che entrambi gli stimatori sono corretti, consistenti in senso
forte e quindi anche in senso debole di σ2.
•
Anche per S *2* e di S2 può essere ricavata una distribuzione asintotica che però non
esplicitiamo per lo scarso uso che ne faremo in questo corso.
49
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
5.2.2. Esempi X ~ Be(p), X ~ Po(λ)
Si invita lo studente a riflettere sul fatto che nei casi X ~ Be(p) e X ~ Po(λ), lo stimatore
analogo del parametro sarebbe stato in entrambi i casi X , dato che i parametri p e λ
sono anche le medie delle rispettive distribuzioni. In questi casi allora lo stimatore
analogo coincide con quello di massima verosimiglianza per cui sono identiche anche le
proprietà.
5.3. Altri metodi di stima puntuale
Oltre al metodo della massima verosimiglianza e a quello degli stimatori analogici,
molti altri metodi di stima sono stati proposti in letteratura. Un elenco, non esaustivo, è
stato fatto all’inizio della sez. 5, nel quale ai due metodi indicati abbiamo aggiunto il
metodo della minima perdita (all’interno del quale ha un’importanza particolare il
metodo dei minimi quadrati), il metodo dei momenti, il metodo della minima
distanza, il metodo del minimo χ2.
In linea di massima, viste le eccellenti proprietà degli stimatori di massima
verosimiglianza, in un contesto di inferenza parametrica in cui il modello è ben
specificato tale metodo è pressoché imbattibile, come molti esperimenti di simulazione
al calcolatore hanno dimostrato in contesti assai diversi. Gli altri metodi sono utilizzati,
allora,
soprattutto
negli
“spazi
lasciati
liberi”
dal
metodo
della
massima
verosimiglianza, e cioè:
1. o quando il modello non è completamente specificato, come accade nell’inferenza
semiparametrica (è il caso dei metodi della minima perdita, dei momenti e degli
stimatori analoghi);
2. o quando la verosimiglianza è troppo difficile da calcolare (è di nuovo il caso del
metodo dei momenti);
3. o quando la struttura dei dati rende utile il ricorso ad altri metodi (è il caso di metodi
della minima distanza, e del minimo χ2).
Poiché una trattazione esauriente dei metodi di stima va oltre i propositi di questo corso
conviene fermarsi qui. In seguito si parlerà diffusamente del solo metodo dei minimi
quadrati quando discuteremo del modello di regressione lineare.
50
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
51
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
6. Stima per intervallo
Nelle pagine precedenti è stato considerato il problema della scelta del modo migliore
per stimare uno o più parametri incogniti θ, sulla base di un campione di osservazioni.
In base di quanto detto, si può presumere che se lo stimatore utilizzato possiede “buone”
proprietà, la stima ottenuta θˆ sia “abbastanza vicina” al parametro incognito da stimare
θ. Tuttavia un singolo numero non dà nessuna indicazione sulle probabilità che la stima
θˆ assuma un valore prossimo a quello del parametro θ. Con il metodo di stima per
intervallo si supera questo inconveniente. Infatti, detto in parole semplici, la stima per
intervallo consiste nella ricerca di un intervallo che, con “alta probabilità”, contiene il
valore vero del parametro da stimare.
Definiamo ora il concetto con precisione. Sia X la solita v.c. che rappresenta il
fenomeno d’interesse e supponiamo che X si distribuisca secondo la funzione di massa o
di densità f(x; θ) dove θ ∈ Θ. Supponiamo poi che da X sia stato estratto un c.c.s. x =
(x1, …, xn) che costituisce l’informazione a disposizione; tale campione è solo una delle
possibili realizzazioni nell’universo dei campioni rappresentato dalla v.c. X = (X1, …,
Xn), del quale ogni singola variabile Xi ha la stessa distribuzione di X.
La procedura di stima per intervallo di θ consiste nella determinazione, sulla base delle
informazioni campionarie, di due estremi L1(X) (estremo inferiore) e L2(X) (estremo
superiore) in modo da soddisfare la relazione
P[L1(X) ≤ θ ≤ L2(X)] = 1 – α,
dove: α ∈ (0, 1), usualmente pari a 0.95, 0.99 o 0.999, è detto livello di confidenza;
l’intervallo [L1(X), L2(X)] è detto stimatore per intervallo o, più comunemente,
intervallo di confidenza, dove L1(X) e L2(X) sono v.c. in quanto funzioni del campione
di v.c. X. Sostituendo nelle formule di L1(X) e L2(X) il campione a disposizione x = (x1,
…, xn) al posto di X = (X1, …, Xn), si ottiene la stima per intervallo o intervallo di
confidenza numerico [L1(x), L2(x)] utilizzato nella pratica.
Si fa notare che fra l’intervallo casuale [L1(X), L2(X)] e quello numerico [L1(x), L2(x)]
c’è la stessa differenza che, nell’ambito della stima puntuale, esiste fra stimatore T(X) e
52
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
stima T(x): proprio questo suggerisce di chiamare [L1(X), L2(X)] stimatore per intervallo
e [L1(x), L2(x)] stima per intervallo di θ. Evidentemente nelle situazioni reali si dispone
di un solo campione, e quindi di una sola determinazione [L1(x), L2(x)], dell'intervallo
casuale di confidenza [L1(X), L2(X)]: pertanto [L1(x), L2(x)] potrà essere o uno degli (1 –
α)% includenti θ o uno degli α% che non lo includono. Quindi non si può dire che
l’intervallo [L1(x), L2(x)] ha probabilità 1 – α di contenere il vero valore del parametro
incognito θ. Infatti, o lo contiene, e allora la probabilità è 1, o non lo contiene, e allora la
probabilità è 0: la probabilità è riferita allo stimatore [L1(X), L2(X)] e non alla stima
[L1(x), L2(x)]. Da tale constatazione deriva la dizione, per 1 – α , di livello di
confidenza e non di livello di probabilità.
Ogni intervallo di confidenza è caratterizzato da due elementi essenziali:
1. il livello di confidenza, che ne misura l’affidabilità o attendibilità;
2. l’ampiezza dell’intervallo, che ne misura l’informatività.
Ovviamente, l’obiettivo da perseguire è individuare intervalli contemporaneamente
molto affidabili e altamente informativi. Purtroppo, tra affidabilità e informatività c’è
sempre una relazione inversa: all’aumentare del livello di confidenza (affidabilità)
aumenta anche l’ampiezza dell’intervallo e, quindi, diminuisce la sua informatività. Non
è quindi possibile, nella determinazione di un intervallo di confidenza, perseguire
contemporaneamente il duplice obiettivo di massimizzare il livello di confidenza e
minimizzare l’ampiezza dell’intervallo. La procedura usualmente seguita è allora quella
di fissare il livello di confidenza 1 – α e individuare il conseguente intervallo di
ampiezza minima.
Ma come fare per determinare un intervallo di confidenza? Fra i molti metodi proposti
in letteratura si considera il solo metodo del pivot (o metodo del cardine). Prima di
illustrare il metodo occorre chiarire cos’è un pivot.
Definizione 10: Definizione di pivot. Sia X una v.c. con funzione di massa o di densità
f(x; θ), dove θ ∈ Θ, e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora
53
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
un pivot (o cardine) è una quantità che possiede le seguenti
caratteristiche:
1. è funzione del campione X = (X1, …, Xn);
2. è funzione di θ (il parametro di cui si vuol trovare l’intervallo di
confidenza);
3. non contiene altri parametri incogniti (oltre a θ);
4. la sua distribuzione è completamente nota;
5. è invertibile rispetto a θ.
Sulla base di queste caratteristiche possiamo identificare il pivot con
Q(X; θ).
Il concetto di pivot e, soprattutto, la sua utilità saranno completamente chiari solo dopo
aver visto alcuni esempi. Come passo iniziale si invita tuttavia lo studente a confrontare
la definizione di pivot con quelle di statistica e di stimatore, appuntando analogie e
differenze.
Vediamo ora come avendo a disposizione un pivot è possibile trovare un intervallo di
confidenza per il parametro d’interesse. Il metodo del pivot si articola nei seguenti
passi:
1. si sceglie il livello di confidenza 1 – α;
2. si individua un pivot Q(X; θ) per il problema in analisi;
3. si determina l’intervallo più stretto (più informativo) [q1, q2] all’interno del quale il
pivot è compreso con probabilità pari al livello di confidenza scelto, cioè
P[q1 ≤ Q(X; θ) ≤ q2] = 1 – α;
4. si inverte la relazione q1 ≤ Q(X; θ) ≤ q2 rispetto a θ in modo da ricavare l’intervallo
di confidenza cercato per θ, che quindi soddisferà
P[L1(X) ≤ θ ≤ L2(X)] = 1 – α.
La descrizione del metodo, la cui applicazione sarà definitivamente chiara solo dopo
aver visto gli esempi, permette di argomentare perché un pivot deve avere le
caratteristiche richieste nella definizione. Infatti: 1. deve essere funzione del campione X
perché se questo non compare non è possibile sfruttarne l’informazione; 2. deve
54
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
dipendere dal parametro θ perché altrimenti è impossibile ricavare un intervallo di
confidenza per θ se questo non c’è; 3. non deve dipendere da altri parametri incogniti
perché altrimenti la soluzione è funzione di qualcosa che non si conosce ed è del tutto
inutile; 4. la sua distribuzione deve essere completamente nota perché altrimenti non è
possibile calcolare l’intervallo per il pivot, [q1, q2], di cui al punto 3; 5. deve infine
essere invertibile rispetto al parametro perché altrimenti non è possibile ricavare
l’intervallo per θ, [L1(X), L2(X)], di cui al punto 4.
Rimane un ultimo punto da definire: come si trova un pivot? In linea di massima questo
aspetto deve essere affrontato caso per caso, come vedremo negli esempi. Tuttavia, la
via più facile per individuare un pivot è quella di partire da uno stimatore puntuale θ̂ ,
possibilmente ottimale, del parametro incognito θ e poi effettuare opportune
trasformazioni in modo da ricavare il pivot.
Gli esempi che seguono, che illustrano il metodo per alcuni modelli, dovrebbero chiarire
definitivamente come funziona il metodo del pivot. Nei primi esempi svolgeremo tutti i
passaggi logici con un certo dettaglio; successivamente, dato che molti passaggi si
ripetono analoghi, ci limiteremo ai soli punti principali; si consiglia tuttavia lo studente
di ripetere per tutti gli esempi l’intero ragionamento. Si evidenzia infine che nelle
applicazioni pratiche non è necessario ripetere tutti i passi del metodo: basta utilizzare il
pivot oppure le formule finali. Conoscere il metodo, però, serve per dare una base logica
a quanto fatto operativamente e per avere chiaro il perché di quello che si fa. [Poiché
faremo uso di molti concetti visti sia nel cap. 2 che nelle sezioni precedenti di questo
capitolo, si raccomanda lo studente di riguardare queste parti quando necessario. Di
nuovo, inoltre, si invita lo studente a ricostruire il filo logico degli argomenti presentati
carta e penna alla mano.]
6.1. X ~ N(µ, σ2): intervallo per µ con σ2 nota
Sia X ~ N(µ, σ2) con σ2 nota. Si vuole costruire un intervallo di confidenza per µ, sulla
base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).
55
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
Il punto cruciale è l’individuazione del pivot (passo 2 del metodo).
-
Si parte da uno stimatore puntuale “buono” di µ (si veda sez. 5.1.4):
X.
Questo non è un pivot perché dipende dal campione ma non da µ, il parametro
di cui si vuol trovare l’intervallo.
-
Ricordando che X ~ N(µ, σ2/n) (sez. 5.1.4), possiamo allora considerare come
candidato a pivot
X – µ.
Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da
altri parametri incogniti e la sua distribuzione è completamente nota, dato che
X – µ ~ N(0, σ2/n).
-
Tuttavia, di norma si preferisce considerare come pivot
X −µ
σ/ n
dato che questo ha una distribuzione N(0, 1) per la quale sono immediatamente
disponibili le tavole.
•
Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della N(0,
1), la distribuzione del pivot, si ricava l’intervallo più stretto [z1, z2] all’interno del
quale il pivot è compreso con probabilità (1 – α):
P[z1 ≤
X −µ
σ/ n
≤ z2] = 1 – α.
Per la simmetria della distribuzione Normale, si dimostra che l’intervallo più stretto
è quello per il quale z1 e z2 sono simmetrici rispetto a 0. Di conseguenza si ha [z1, z2]
= [–z, z] e quindi
P[–z ≤
X −µ
σ/ n
≤ z] = 1 – α,
dove z è il quantile 1 – α/2 della N(0, 1). Si fa notare che questo intervallo lascia
esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra.
•
A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal
precedente [si invita lo studente a fare i passaggi!] l’intervallo di confidenza per µ:
56
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
P( X – zσ/ n ≤ µ ≤ X + zσ/ n ) = 1 – α.
L’intervallo di confidenza cercato per µ è quindi
[ X – zσ/ n , X + zσ/ n ].
Importante: per quanto detto nella sez. 5.2.1, se la dimensione del campione n è
sufficientemente grande si arriva ad un risultato identico anche se non si fa nessuna
ipotesi sulla legge di distribuzione di X, cioè si suppone semplicemente X ~ (µ, σ2),
dove σ2 è nota oppure viene stimata con uno stimatore consistente, ad esempio S2.
Si evidenzia che questo risultato rappresenta il prototipo di tutti gli intervalli di
confidenza che si ottengono quando la distribuzione dello stimatore è Normale. Infatti
se θˆ è uno stimatore di θ con distribuzione (anche approssimativamente) Normale,
diciamo
θˆ ~ N[θ, σ2( θˆ )],
allora gli intervalli che scaturiscono sono sempre del tipo
[ θˆ – zσ( θˆ ), θˆ + zσ( θˆ )].
Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore ha una
distribuzione Normale (come in molti degli esempi che seguiranno): basta sostituire a θ
il parametro considerato, a θˆ lo specifico stimatore e a σ( θˆ ) la deviazione standard
dello stimatore (o una sua stima se il campione è abbastanza grande). Ad esempio nell’
esempio discusso si ha θ = µ, θˆ = X e σ( θˆ ) = σ/ n .
6.2. X ~ N(µ, σ2): intervallo per µ con σ2 non nota
Sia X ~ N(µ, σ2) con σ2 incognita. Si vuole costruire un intervallo di confidenza per µ,
sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).
•
Individuiamo il pivot (passo 2 del metodo).
-
Si parte dal pivot dell’esempio precedente, cioè
X −µ
σ/ n
57
.
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Purtroppo questo non è più un pivot perché dipende dal campione e da µ, ma
dipende anche da σ che adesso è incognito.
-
Per trasformare il precedente in un pivot possiamo sostituire σ con un suo
stimatore, ad esempio S. In questo modo si ottiene
X −µ
.
S/ n
Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da
altri parametri incogniti e la sua distribuzione è nota, dato che
X −µ
~ T(n – 1)
S/ n
(si veda sez. 5.1.4).
•
Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della T(n
– 1), la distribuzione del pivot, si ricava l’intervallo più stretto [t1, t2] all’interno del
quale il pivot è compreso con probabilità (1 – α):
P[t1 ≤
X −µ
≤ t2] = 1 – α.
S/ n
Per la simmetria della distribuzione T, si dimostra che l’intervallo più stretto è
quello per il quale t1 e t2 sono simmetrici rispetto a 0. Di conseguenza [t1, t2] = [–t, t]
e quindi
P[–t ≤
X −µ
≤ t] = 1 – α,
S/ n
dove t è il quantile 1 – α/2 della T(n – 1). Di nuovo si fa notare che questo intervallo
lascia esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra.
•
A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal
precedente l’intervallo di confidenza per µ [si invita lo studente a fare i passaggi!]:
P[ X – t S/ n ≤ µ ≤ X + t S/ n ] = 1 – α.
L’intervallo di confidenza cercato per µ è quindi
[ X – t S/ n , X + t S/ n ].
Di nuovo, si segnala che questo risultato rappresenta il prototipo di tutti gli intervalli di
confidenza che si ottengono quando la distribuzione dello stimatore è T. Infatti se θˆ è
uno stimatore di θ che, una volta standardizzato, ha una distribuzione T, diciamo
58
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
θˆ − θ
~ T (n),
σ θˆ
()
allora gli intervalli che scaturiscono sono sempre del tipo
[ θˆ – tσ( θˆ ), θˆ + tσ( θˆ )].
Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore considerato
ha una distribuzione T (come in alcuni esempi che seguiranno): basta sostituire a θ il
parametro considerato, a θˆ lo specifico stimatore e a σ( θˆ ) la deviazione standard dello
stimatore o, più spesso, una sua stima. Ad esempio nel presente esempio si pone θ = µ,
θˆ = X e σ( θˆ ) = S/ n .
6.3. X ~ N(µ, σ2): intervallo per σ2 con µ nota
Sia X ~ N(µ, σ2) con µ nota. Si vuole costruire un intervallo di confidenza per σ2, sulla
base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α).
•
Individuiamo il pivot (passo 2 del metodo).
-
Si parte da uno stimatore puntuale “buono” di σ2 (si veda sez. 5.1.4):
S *2* .
Questo non è un pivot perché dipende dal campione ma non da σ2, il parametro
di cui si vuol trovare l’intervallo.
-
Possiamo allora considerare come candidato a pivot
nS *2*
σ2
.
Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da
altri parametri incogniti e la sua distribuzione è nota, dato che
nS*2*
σ
2
~ χ2(n) (si
veda sez. 5.1.4).
•
Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della
χ2(n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno
del quale il pivot è compreso con probabilità (1 – α):
59
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
P[c1 ≤
nS *2*
σ2
≤ c2] = 1 – α.
Purtroppo la distribuzione Chi-quadrato non è simmetrica e l’individuazione
dell’intervallo più stretto per (1 – α) fissato può avvenire solo per via numerica.
Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che lascia a sinistra
α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1 – α/2 della
χ2(n). In questo senso l’intervallo costruito ha una qualche analogia con quello visto
negli esempi precedenti in cui il pivot aveva una distribuzione N(0, 1) o T: di nuovo
l’intervallo lascia α/2 alla sua sinistra e ancora α/2 alla sua destra.
•
A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal
precedente l’intervallo di confidenza per σ2 [si invita lo studente a fare i passaggi!]:
P[n S*2* /c2 ≤ σ2 ≤ n S*2* /c1] = 1 – α.
L’intervallo di confidenza cercato per σ2 è quindi
[n S*2* /c2, n S*2* /c1].
Chiaramente, se invece di un intervallo per la varianza σ2 interessa costruire un
intervallo per la deviazione standard σ, basta prendere la radice quadrata dei due
estremi dell’intervallo precedente. L’intervallo di confidenza per σ al livello (1 – α)
è quindi
[ nS *2* / c 2 , nS *2* / c1 ].
6.4. X ~ N(µ, σ2): intervallo per σ2 con µ non nota
Sia X ~ N(µ, σ2) con µ incognita. Si vuole costruire un intervallo di confidenza per σ2,
sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α),.
•
Individuiamo il pivot (passo 2 del metodo).
-
Si parte dal pivot dell’esempio precedente, cioè
nS *2*
σ2
.
Purtroppo questo non è più un pivot perché dipende dal campione e da σ2, ma
dipende anche dal parametro incognito µ che compare nella formula di S*2* .
60
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
-
Possiamo però utilizzare un come candidato a pivot una grandezza simile alla
precedente, cioè
(n − 1)S 2 .
σ2
Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da
altri parametri incogniti e la sua distribuzione è nota, dato che
(n − 1)S 2 ~ χ2(n –
σ2
1) (si veda sez. 5.1.4).
•
Una volta individuato il pivot, tutto procede in modo esattamente analogo
all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle
tavole della χ2(n – 1) in luogo della χ2(n). Quindi l’intervallo di confidenza per σ2
cercato è
[(n – 1) S2/c2, (n – 1) S2/c1],
mentre
[
(n − 1)S 2 / c2 , (n − 1)S 2 / c1 ]
è il corrispondente intervallo per la deviazione standard σ.
6.5. X ~ Be(p): intervallo per p
Sia X ~ Be(p). Si vuole costruire un intervallo di confidenza per p, sulla base del c.c.s. x
= (x1, …, xn), al livello di confidenza (1 – α).
•
Vediamo l’individuazione del pivot (passo 2 del metodo).
-
Si parte da uno stimatore puntuale “buono” di p (si veda sez. 5.1.2):
X.
Questo non è un pivot perché dipende dal campione ma non da p, il parametro di
cui si vuol trovare l’intervallo.
-
La distribuzione esatta di X è BiRe(n, p) (si veda sez. 5.1.2), ma questa
distribuzione rende assai difficile l’individuazione del pivot. Possiamo
facilmente uscire da questo problema se il campione è “abbastanza grande”. In
questo caso, infatti, X ≈ N(p, pq/n) per cui
61
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
X−p
pq / n
ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per
essere un pivot.
•
Una volta che si è individuato il pivot, in linea di massima si può procedere nel
modo consueto. Prima, dalle tavole della N(0, 1) si ricava l’intervallo più stretto
all’interno del quale il pivot è compreso con probabilità (1 – α), che abbiamo detto
essere [–z, z] dove z è il quantile 1 – α/2 della N(0, 1)
P[–z ≤
X−p
≤ z] = 1 – α;
pq / n
poi, si ricava il conseguente l’intervallo di confidenza per p. La derivazione
dell’intervallo di confidenza è però resa complessa dalla presenza di p, sotto radice,
anche al denominatore, presenza che in definitiva impone la risoluzione di una
disequazione di secondo grado in p [
(X − p )2 ≤ z2: lo studente provi a risolverla
pq / n
per conto proprio]. Per evitare tale complicazione, di norma si preferisce sostituire
al denominatore
pq / n un suo stimatore consistente
X (1 − X )/ n e considerare
come pivot
X−p
X (1 − X )/ n
che ancora si distribuisce approssimativamente come una N(0, 1).
•
A questo punto la derivazione dell’intervallo per p (passi 3 e 4 del metodo) procede
nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché
l’intervallo di confidenza cercato per p è
[ X – z X (1 − X )/ n , X + z X (1 − X )/ n ].
6.6. X ~ Po(λ): intervallo per λ
Sia X ~ Po(λ). Si vuole costruire un intervallo di confidenza per λ, sulla base del c.c.s. x
= (x1, …, xn), al livello di confidenza (1 – α).
62
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Questo caso può essere risolto in maniera del tutto simile al precedente.
•
Vediamo prima l’individuazione del pivot (passo 2 del metodo).
-
Si parte da uno stimatore puntuale “buono” di λ (si veda sez. 5.1.3):
X.
Questo non è un pivot perché dipende dal campione ma non da λ, il parametro di
cui si vuol trovare l’intervallo.
-
La distribuzione esatta di X è PoRe(n λ) (si veda sez. 5.1.3), ma questa
distribuzione rende assai difficile l’individuazione del pivot. Possiamo
facilmente uscire da questo problema se il campione è “abbastanza grande”. In
questo caso, infatti, X ≈ N(λ, λ/n) per cui
X −λ
λ/n
ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per
essere un pivot.
-
Tuttavia, analogamente al caso Bernoulli, la derivazione dell’intervallo di
confidenza per λ è resa complessa dalla presenza di λ, sotto radice, anche al
denominatore, presenza che impone la risoluzione di una disequazione di
secondo grado in λ [lo studente provi a impostarla e risolverla per conto
proprio]. Per evitare tale complicazione, di norma si preferisce sostituire al
denominatore
λ / n un suo stimatore consistente
X / n e considerare come
pivot
X −λ
X /n
la cui distribuzione approssimata è N(0, 1).
•
A questo punto la derivazione dell’intervallo per λ (passi 3 e 4 del metodo) procede
nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché
l’intervallo di confidenza cercato per λ è
[ X – z X / n , X + z X / n ].
63
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
6.7. X ~ f(x; θ): intervallo per θ
Sia X ~ f(x; θ), una generica funzione di massa o di densità caratterizzata dal parametro
θ. Si vuole costruire un intervallo di confidenza per θ, sulla base del c.c.s. x = (x1, …,
xn), al livello di confidenza (1 – α).
Ovviamente, nel caso in cui la funzione di massa o di densità f(x; θ) sia una di quelle
considerate negli esempi precedenti valgono le considerazioni già fatte. In realtà questo
esempio è interessante in tutti quei casi, come nel modello Gamma, in cui la stima non
può essere ottenuta analiticamente ma solo per via numerica.
•
Sfruttando le proprietà degli stimatori di massima verosimiglianza, se il campione è
~
~
abbastanza grande allora θ ≈ N[θ, σ2( θ ) = 1/I(θ)]. Di conseguenza, sostituendo a
~
I(θ) una sua stima consistente I( θ ), possiamo considerare come candidato a pivot
(passo 2 del metodo)
~
( θ – θ)
()
~
Iθ .
Questa grandezza ha tutti i requisiti per essere un pivot, dato che ha una
distribuzione approssimata N(0, 1).
•
A questo punto la derivazione dell’intervallo per θ (passi 3 e 4 del metodo) procede
nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché
l’intervallo di confidenza cercato per θ è
()
()
~
~ ~
~
[ θ – z / I θ , θ + z / I θ ].
6.8. X ~ N(µX, σ X2 ), Y ~ N(µY,
µX − µY con σ X2 e σ Y2 note
σ Y2 )
indipendenti: intervallo per
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 note.
Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1,
…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α).
•
Il pivot può essere costruito facilmente (passo 2 del metodo) sulla base dell’esempio
6.1. Infatti, poiché due buoni stimatori dei parametri incogniti sono forniti,
rispettivamente, da X e Y , un buon stimatore della differenza µX − µY sarà allora
64
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
X – Y . Sulla base della distribuzione di X e Y e dell’assunzione di indipendenza
di X ed Y si ottiene allora
X – Y ~ N(µX − µY, σ X2 /m + σ Y2 /n)
da cui si ricava che
X − Y − (µ X − µ Y )
σ X2 / m + σ Y2 / n
la cui distribuzione è N(0, 1), è un pivot.
•
A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del metodo)
procede nel modo consueto per v.c. Normali (sez. 6.1) e
[ X – Y – z σ X2 / m + σ Y2 / n , X – Y + z σ X2 / m + σ Y2 / n ]
è l’intervallo di confidenza per µX − µY cercato.
Importante: per quanto detto nella sez. 5.2.1, se le dimensioni dei campioni m ed n sono
sufficientemente grandi si arriva ad un risultato identico anche se non si fa nessuna
ipotesi sulle leggi di distribuzione di X ed Y, cioè si suppone semplicemente X ~ (µX,
σ X2 ) e Y ~ (µY, σ Y2 ), dove σ X2 e σ Y2 sono note oppure vengono stimate con stimatori
consistenti, ad esempio S X2 ed S Y2 .
6.9. X ~ N(µX, σ X2 ), Y ~ N(µY, σ Y2 ) indipendenti: intervallo per
µX − µY con σ X2 e σ Y2 non note
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 incognite.
Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1,
…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α),
•
Nella situazione di cui al presente esempio, il pivot costruito nella sezione
precedente non è più un pivot in virtù del fatto che le due varianze σ X2 e σ Y2 sono
non note. Si può allora pensare di stimarle, come si è fatto altre volte, ma purtroppo
la v.c.
65
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
X − Y − (µ X − µ Y )
S X2 / m + SY2 / n
,
dove S X2 e S Y2 sono rispettivamente le varianze campionarie corrette di X e di Y
utilizzate come stimatori di σ X2 e σ Y2 , non ha una distribuzione nota e quindi non è
un pivot pur avendone tutte le altre caratteristiche.
•
Ci sono allora due modi di uscire da questa situazione.
-
Il primo modo è supporre σ X2 = σ Y2 . Visto che le due varianze sono uguali
utilizziamo allora un unico simbolo: σ X2 = σ Y2 = σ2.
In questo caso σ2 può essere stimato sfruttando l’informazione di entrambi i
campioni (dato che tutti e due hanno σ2 come varianza) mediante lo stimatore
S P2 =
n
m
1
2
∑ (X i − X ) + ∑ Y j − Y
m + n − 2  i =1
j =1

(

)2  =

S X2 (m − 1) + S Y2 (n − 1)
.
m+n−2
Si fa notare che o stimatore S P2 costruito ha la stessa struttura di S2: media dei
quadrati degli scarti dalla media. Poiché S X2 e S Y2 sono entrambi stimatori
corretti di σ2 (che ricordiamo è lo stesso per X e Y sulla base dell’ipotesi
iniziale), anche S P2 è stimatore corretto di σ2. Inoltre poiché
(m + n − 2)S P2
σ2
=
S X2 (m − 1)
σ2
+
SY2 (n − 1)
σ2
e i due addendi a destra, oltre ad essere indipendenti, hanno rispettivamente
distribuzione χ2(m – 1) e χ2(n – 1), allora, per la proprietà di additività del Chiquadrato,
(m + n − 2)S P2
σ
2
~ χ2(m + n – 2).
Finalmente, sostituendo S P2 alla varianza comune σ2 nel pivot dell’esempio
precedente si ottiene
66
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
X − Y − (µ X − µ Y )
S P 1/ m + 1/ n
X − Y − (µ X − µ Y )
=
σ 1/ m + 1/ n
S P 1/ m + 1/ n
X − Y − (µ X − µ Y )
=
σ 1/ m + 1/ n
σ 1/ m + 1/ n
(m + n − 2)S P2 (m + n − 2)
2
.
σ
L’espressione a destra, più complicata, serve solo allo scopo di ricavare la
distribuzione della v.c. considerata: è il rapporto fra una Normale standard e la
radice quadrata di una chi-quadrato χ2(m + n – 2) divisa per i suoi gradi di
libertà e quindi ha una distribuzione T(m + n – 2). Insieme alle altre
caratteristiche, questo fa sì che
X − Y − (µ X − µ Y )
S P 1/ m + 1/ n
sia un pivot.
A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del
metodo) procede nel modo consueto per v.c. T (sez. 6.2) e
[ X – Y – z Sp 1 / m + 1 / n , X – Y + z S p 1 / m + 1 / n ]
è l’intervallo di confidenza per µX − µY cercato.
-
Il secondo modo è applicabile quando le dimensioni dei due campioni, m ed n,
sono “abbastanza grandi”. In tal caso, infatti, si può dimostrare che
X − Y − (µ X − µ Y )
S X2 / m + S Y2 / n
,
ha una distribuzione approssimata N(0, 1) dato che abbiamo stimato la varianza
di X – Y , ovvero σ X2 /m + σ Y2 /n, con lo stimatore consistente S X2 /m + S Y2 /n.
A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del
metodo) procede nel modo consueto per v.c. Normali (sez. 6.1) e
[ X – Y – z S X2 / m + S Y2 / n , X – Y + z S X2 / m + S Y2 / n ]
è l’intervallo di confidenza per µX − µY cercato.
Poiché il risultato precedente si basa sulle proprietà asintotiche degli stimatori
utilizzati, per quanto detto al termine della sez. 6.8 tale risultato rimane valido
anche se non si fanno ipotesi sulla forma delle distribuzioni di X e di Y, cioè si
67
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
suppone semplicemente X ~ (µX, σ X2 ) e Y ~ (µY, σ Y2 ), purché, ripetiamo, i due
campioni abbiano dimensione sufficientemente elevata.
6.10. X ~ N(µX, σ X2 ), Y ~ N(µY,
σ X2 / σ Y2 con µX e µY note
σ Y2 )
indipendenti: intervallo per
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY note. Vogliamo
costruire un intervallo di confidenza per σ X2 / σ Y2 , sulla base dei c.c.s. x = (x1, …, xm) e y
= (y1, …, yn), al livello di confidenza (1 – α). Si evidenzia che il rapporto è il metodo
usuale di confrontare le varianze.
•
Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base dell’esempio
6.3.
-
Poiché
due
buoni
stimatori
dei
parametri
incogniti
sono
costituiti,
rispettivamente, da S *2* X e S *2*Y (le varianze campionarie per le medie note di X
e di Y), un buon stimatore del rapporto σ X2 / σ Y2 è allora
S *2* X / S *2*Y
che però non è un pivot perché il rapporto σ X2 / σ Y2 non vi compare.
-
Si consideri allora, come candidato a pivot, la seguente grandezza:
mS*2* X
S *2* X σ Y2
S *2*Y σ X2
=
σ X2
nS *2*Y
σ Y2
m
.
n
L’espressione a destra, più complicata, serve solo allo scopo di ricavare la
distribuzione della v.c. considerata: è il rapporto fra due chi-quadrato
indipendenti, χ2(m) a numeratore e χ2(n) a denominatore, divise per i rispettivi
gradi di libertà e quindi ha una distribuzione F(m, n). Insieme alle altre
caratteristiche, questo fa sì che
S *2* X σ Y2
S *2*Y σ X2
68
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
sia un pivot.
•
Una volta individuato il pivot, si procede al passo 3 del metodo. Dalle tavole della
F(m, n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno
del quale il pivot è compreso con probabilità (1 – α):
P[c1 ≤
S *2* X σ Y2
≤ c2] = 1 – α.
S *2*Y σ X2
Purtroppo la distribuzione F, come la Chi-quadrato, non è simmetrica e
l’individuazione dell’intervallo più stretto per (1 – α) fissato può avvenire solo per
via numerica. Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che
lascia a sinistra α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1
– α/2 della F(m, n).
•
A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal
precedente l’intervallo di confidenza per σ X2 / σ Y2 [si invita lo studente a fare i
passaggi!]:
P(
S *2* X
S *2*Y
/c2 ≤
σ X2
σ Y2
S *2* X
≤
S *2*Y
/c1) = 1 – α.
Di conseguenza l’intervallo per σ X2 / σ Y2 cercato è
[
S *2* X
S *2*Y
/c2 ,
6.11. X ~ N(µX, σ X2 ), Y ~ N(µY,
σ X2 / σ Y2 con µX e µY non note
S *2* X
S *2*Y
σ Y2 )
/c1].
indipendenti: intervallo per
Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY incognite.
Vogliamo costruire un intervallo di confidenza per σ X2 / σ Y2 , sulla base dei c.c.s. x = (x1,
…, xm) e y = (y1, …, yn), al livello di confidenza (1 – α).
•
Individuiamo il pivot (passo 2 del metodo).
-
Si parte dal pivot dell’esempio precedente, cioè
69
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
S *2* X σ Y2
S *2*Y σ X2
.
Purtroppo questo non è più un pivot perché dipende dal campione e da σ X2 / σ Y2 ,
ma dipende anche dai parametri incogniti µX e µY che compaiono,
rispettivamente, nelle formule di S *2* X e S *2*Y .
-
Possiamo però utilizzare un come candidato a pivot una grandezza simile alla
precedente, cioè
(m − 1)S X2
S X2 σ Y2
S Y2 σ X2
σ X2
=
(n − 1)SY2
σ Y2
(m − 1)
,
(n − 1)
dove S X2 e S Y2 sono le varianze campionarie corrette rispettivamente di X e di
Y. L’espressione a destra, che serve solo allo scopo di ricavarne la distribuzione,
porta a concludere che tale v.c. è il rapporto fra due chi-quadrato indipendenti,
χ2(m – 1) a numeratore e χ2(n – 1) a denominatore, divise per i rispettivi gradi di
libertà e quindi ha una distribuzione F(m – 1, n – 1). Insieme alle altre
caratteristiche, questo fa sì che
S X2 σ Y2
S Y2 σ X2
sia un pivot.
•
Una volta individuato il pivot, tutto procede in modo esattamente analogo
all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle
tavole della F(m – 1, n – 1) in luogo della F(m, n). Quindi l’intervallo di confidenza
per σ X2 / σ Y2 cercato è
[
S X2
S Y2
/c2 ,
S X2
S Y2
/c1].
6.12. X ~ Be(pX), Y ~ Be(pY) indipendenti: intervallo per pX – pY
Siano X ~ Be(pX), Y ~ Be(pY) due v.c. indipendenti. Si vuole costruire un intervallo di
70
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
confidenza per pX – pY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di
confidenza (1 – α).
•
Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base degli esempi
6.5 e 6.11.
-
Poiché due buoni stimatori dei parametri incogniti sono, rispettivamente, X e
Y , un buon stimatore della differenza pX − pY sarà allora X – Y che
ovviamente non è un pivot.
-
Essendo X e Y distribuiti entrambi secondo una binomiale relativa, la
distribuzione campionaria esatta della differenza X – Y è assai difficile da
trovare. Se m ed n sono abbastanza grandi, però, si può sfruttare
l’approssimazione Normale della distribuzione dei due stimatori, cioè X ≈
N(pX, pXqX/m) e Y ≈ N(pY, pYqY/m), in base alla quale X – Y ≈ N(pX − pY,
pXqX /m + pYqY /n). Da questa si ricava il candidato a pivot
X − Y − ( p X − pY )
p X q X / m + pY qY / n
che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per
essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui
si vuol trovare l’intervallo pX − pY.
-
Al solito, se i due campioni hanno dimensione sufficientemente elevata si può
sostituire il denominatore
consistente
p X q X / m + pY qY / n
con un suo stimatore
X (1 − X )/ m + Y (1 − Y )/ n , ottenendo come pivot
X − Y − ( p X − pY )
X (1 − X )/ m + Y (1 − Y )/ n
che di nuovo ha una distribuzione approssimata N(0, 1).
•
A questo punto la derivazione dell’intervallo per pX − pY (passi 3 e 4 del metodo)
procede nel modo consueto per v.c. distribuite in modo Normale, cosicché
l’intervallo di confidenza cercato per pX − pY è
[ X – Y – z X (1 − X )/ m + Y (1 − Y )/ n , X – Y + z X (1 − X )/ m + Y (1 − Y )/ n ].
71
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
6.13. X ~ Po(λX), Y ~ Po(λY) indipendenti: intervallo per λX –
λY
Siano X ~ Po(λX), Y ~ Po(λX) due v.c. indipendenti. Vogliamo costruire un intervallo di
confidenza per λX – λY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di
confidenza (1 – α).
•
Il pivot (passo 2 del metodo) può essere costruito in modo del tutto analogo a quanto
visto nell’esempio precedente.
-
Infatti un ragionamento del tutto simile a quello fatto sopra porta ad individuare
come candidato a pivot
X − Y − (λ X − λY )
λ X / m + λY / n
che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per
essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui
si vuol trovare l’intervallo λX − λY.
-
Al solito, se i due campioni hanno dimensione sufficientemente elevata si può
sostituire il denominatore
λ X / m + λY / n con un suo stimatore consistente
X / m + Y / n , ottenendo come pivot
X − Y − (λ X − λY )
X /m+Y /n
che di nuovo ha una distribuzione approssimata N(0, 1).
•
A questo punto la derivazione dell’intervallo per λX – λY (passi 3 e 4 del metodo)
procede nel modo consueto per v.c. distribuite in modo Normale, cosicché
l’intervallo di confidenza cercato per λX – λY è
[ X – Y – z X / m + Y / n , X – Y + z X / m + Y / n ].
6.14. X ~ N(µX, σ X2 ), Y ~ N(µY,
dati appaiati
σ Y2 ):
intervallo per µX − µY con
Negli esempi precedenti, quando abbiamo considerato il confronto fra parametri di due
v.c. X e Y abbiamo sempre ipotizzato che tali v.c. fossero indipendenti. Ci sono però
72
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
situazioni in cui dette v.c. non possono essere considerate indipendenti. Uno fra i casi
più importati si ha per i cosiddetti dati appaiati, ovvero quando i campioni x = (x1, …,
xn) e y = (y1, …, yn) sono relativi alle stesse unità (per questo la dimensione n dei due
campioni è la stessa). In tale caso l’indipendenza viene meno per il fatto che le unità
della popolazione sono le stesse in due situazioni diverse (X ed Y) ed è quindi lecito
attendersi, per ciascuna unità i del campione, una correlazione fra le risposte da essa
date nelle due situazioni.
Sulla base di quanto detto, allora, supponiamo X ~ N(µX, σ X2 ), Y ~ N(µY, σ Y2 ):
vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei dati appaiati
x = (x1, …, xn) e y = (y1, …, yn), al livello di confidenza (1 – α).
Questa situazione si risolve facilmente osservando che µX − µY è anche il valore atteso
di X – Y, cioè µX − µY = E(X – Y) (banale proprietà dei valori attesi!). Di conseguenza
una risposta circa la differenza µX − µY la si ottiene anche se al posto di X ed Y,
separatamente, si analizza direttamente la differenza D = X – Y, il cui valore atteso è,
come detto, proprio µX − µY, quello che interessa. Sulla base delle proprietà della
Normale (si veda cap. 2), D = X – Y è combinazione lineare di v.c. Normali ed è quindi
2
(esiste una
ancora Normale con media µD = µX − µY e con varianza incognita σ D
2
qualche relazione di σ D
con σ X2 e σ Y2 , ma dato che non ha nessuna importanza ai fini
del nostro esempio lasciamola perdere).
In base a questo ragionamento possiamo allora considerare, come nuova variabile di
analisi,
2
D ~ N(µD, σ D
),
dove (ripetiamo): D = X – Y, µD = µX − µY (ed è quello che ci interessa), il campione
estratto da D è rappresentato dalle differenze d = (d1, …, dn), dove ciascuna di è la
differenza fra le osservazioni corrispondenti alla i-ma unità nei due campioni, ovvero di
= xi – yi.
A questo punto il problema in analisi è stato trasformato nella costruzione di un
intervallo di confidenza per la media (µD) di una v.c. Normale con varianza incognita
2
(σ D
), per il quale vale esattamente quanto detto nella sez. 6.2. Il pivot è allora
73
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
D − µD
SD / n
,
la cui distribuzione è T(n – 1) e nel quale S D2 è la varianza campionaria corretta di D.
L’intervallo cercato per µD = µX − µY è invece
[ D – tSD, D + tSD]
dove t è il quantile (1 – α/2) della T(n – 1).
Per concludere, due osservazioni.
La prima riguarda il fatto che, per quanto detto nella sez. 5.2.1, se la dimensione del
campione n è sufficientemente grande si arriva ad un risultato identico anche se non si fa
nessuna ipotesi sulla legge di distribuzione di D, cioè si suppone semplicemente D ~
2
(µD, σ D
), tranne il fatto che il quantile (1 – α/2) della distribuzione T deve essere
sostituito col corrispondente quantile della distribuzione N(0, 1).
La seconda riguarda il fatto che rispetto ad una situazione confrontabile in cui X e Y
sono indipendenti, diciamo varianze σ X2 e σ Y2 uguali e campioni x e y con la stessa
dimensione n (si veda sez. 6.9), la condizione di appaiamento fa praticamente dimezzare
i gradi di libertà del pivot, dato che da (2n – 2) si passa ad (n – 1).
6.15. Determinazione della dimensione del campione
La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la
problematica della scelta della dimensione del campione.
Nella sez. 6, abbiamo detto che un intervallo di confidenza è caratterizzato da due
elementi fondamentali: il livello di confidenza, che ne misura l’affidabilità, e
l’ampiezza, che ne misura l’informatività. Abbiamo anche detto che fra questi due
elementi esiste un legame diretto, nel senso che all’aumentare del livello di confidenza
aumenta anche l’ampiezza, e che quindi non è possibile, contemporaneamente,
massimizzare il livello di confidenza e minimizzare l’ampiezza. Questo, ovviamente,
vale se il campione è già stato estratto (e quindi n è ormai dato) e dobbiamo solo
determinare l’intervallo.
Se però il campione non è ancora stato estratto ma anzi occorre decidere di quante
osservazioni farlo, allora possiamo procedere determinando la dimensione del campione
74
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
in modo da ottenere un intervallo di confidenza per il parametro d’interesse di
ampiezza prefissata. In altri termini si procede nel modo seguente:
1. anzitutto si stabilisce il parametro che interessa stimare;
2. successivamente, si fissano il livello di confidenza (1 – α) e l’informatività, in
termini di ampiezza A, dell’intervallo di confidenza per il parametro d’interesse;
3. infine, sulla base degli elementi precedenti si determina la dimensione n del
campione.
Per rendere più chiaro il procedimento vediamo adesso due esempi.
Sia X ~ N(µ, σ2) e supponiamo in prima istanza che σ2 sia nota. Si vuol determinare la
dimensione del campione affinché l’ampiezza dell’intervallo di confidenza per µ, al
livello di confidenza (1 – α), sia pari ad A.
Poiché l’intervallo di confidenza per µ nella situazione in oggetto (si veda sez. 6.1) è
pari a
[ X – zσ/ n , X + zσ/ n ],
dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da
A = X + zσ/ n – ( X – zσ/ n ) = 2 zσ/ n .
Poiché σ è nota, z si determina dalle tavole in base al livello di confidenza (1 – α), A è
stabilito da chi effettua l’analisi, dalla precedente relazione
A = 2 zσ/ n
si ricava n come incognita
n = (2 zσ/A)2,
che, dovendo sempre essere un intero, si raccomanda di arrotondare per eccesso.
Questa formula fornisce la dimensione campionaria cercata. Si nota che tale
dimensione, come è logico, aumenta all’aumentare della variabilità σ , all’aumentare del
livello di confidenza (infatti all’aumentare di (1 – α) aumenta anche z) e al diminuire
dell’ampiezza dell’intervallo (chiaramente: richiedere una maggiore informatività
obbliga ad aumentare la dimensione del campione).
Si fa notare che, sulla base del teorema del limite centrale, l’intervallo di confidenza
utilizzato per ricavare la dimensione campionaria e, di conseguenza, la formula ottenuta
75
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
per n, rimangono inalterate se si omette l’ipotesi iniziale di normalità purché l’n
conseguente risulti “abbastanza grande”.
Purtroppo un grosso limite applicativo della formula precedente è dato dal fatto che in
genere la varianza σ2 è incognita (se non è nota µ è ancora più improbabile che si
conosca σ2). In questo caso, tuttavia, la formula di riferimento è ancora la precedente:
l’unico possibile rimedio è sostituire a σ una sua stima (anche non eccellente) che in
genere può essere ricavata basandosi su dati provenienti da:
•
precedenti rilevazioni simili;
•
statistiche ufficiali o dati amministrativi attinenti al fenomeno studiato;
•
indagine pilota, in cui l’indagine statistica in oggetto viene testata su un piccolo
numero di unità, con l’obiettivo di mettere a punto vari aspetti della rilevazione
complessiva, fra i quali il questionario della rilevazione e, appunto, la stima di σ2
per stabilire la dimensione del campione.
Come altro esempio vediamo il caso X ~ Be(p). Si vuol determinare la dimensione del
campione affinché l’ampiezza dell’intervallo di confidenza per p, al livello di
confidenza (1 – α), sia pari ad A.
Poiché l’intervallo di confidenza per p nella situazione in oggetto (si veda sez. 6.5) è
pari a
[ X – z X (1 − X )/ n , X + z X (1 − X )/ n ],
dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da
A = X + z X (1 − X )/ n – ( X + z X (1 − X )/ n ) = 2 z X (1 − X )/ n .
D’altra parte, prima di effettuare la rilevazione X non si conosce, per cui la precedente
relazione
A = 2 z X (1 − X )/ n ,
da cui deriva
n = (2 z X (1 − X ) /A)2
in genere non può essere sfruttata. Ci sono allora due modi di uscire da questo
problema:
76
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
•
Il primo, banale, è sostituire a X il corrispondente valore calcolato sulla base di
rilevazioni precedenti o di dati amministrativi.
•
Il secondo, assai più utilizzato nella pratica, deriva dall’osservazione che la
grandezza X (1 – X ) a numeratore è massima quando X = 0.5 (per rendersene
conto basta fare la derivata di X (1 – X ) rispetto a X , uguagliare a 0 e trovare il
punto di massimo cercato) e che il massimo vale allora 0.5 (1 – 0.5) = 0.25. Poiché
oltre questa soglia non si può andare, si può operare sostituendo prudenzialmente a
X (1 – X ) il suo massimo 0.25, ottenendo come formula finale
n = (z/A)2.
7. Alcuni esempi numerici
Concludiamo il capitolo con alcuni esempi numerici.
Esempio
Dall’analisi dei bilanci relativi ad un campione di 200 imprese tessili, sono state
calcolate le seguenti statistiche relativamente alla variabile d’interesse X =
UTILE/FATTURATO:
n
Media
Varianza campionaria corretta
200
0.03
0.0256
Per analizzare tale indice di bilancio è ragionevole utilizzare il modello Normale,
ovvero X ~ N(µ, σ2).
La stima puntuale dei parametri è facilmente fatta. Infatti:
•
un “buon” stimatore di µ è dato da X (si veda sez. 5.1.4), per cui possiamo stimare
µ con x = 0.03;
•
un “buon” stimatore di σ2 è dato da S2 (si veda sez. 5.1.4), per cui possiamo stimare
σ2 con s2 = 0.0256.
E comunque sempre bene completare le stime puntuali fornendo una misura
77
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
dell’”accuratezza” degli stimatori utilizzati, ad esempio fornendo la loro varianza o,
ancora meglio, loro deviazione standard. Poiché V( X ) = σ2/n, tale grandezza può essere
stimata tramite s2/n = 0.0256/200 = 0.000128; quindi una stima di σ( X ) è data da
0.000128 = 0.0113. Analogamente V(S2) = 2σ4/(n – 1), che può essere stimato con
2s4/(n – 1) = 2×0.02562/199 = 0.000006586; quindi una stima di σ(S2) è data da
0.000006586 = 0.00257. Notiamo anche che, essendo i due stimatori corretti, la stima
della loro varianza costituisce anche una stima del loro MSE.
Vediamo ora la stima per intervallo dei parametri considerando un livello di
confidenza 0.95.
•
Come pivot per costruire l’intervallo di confidenza per µ si considera
X −µ
S/ n
, la cui
distribuzione è T(n – 1) (sez. 6.2) (facciamo comunque osservare che n – 1 = 199 e
quindi tale distribuzione potrebbe essere tranquillamente approssimata con la N(0,
1)). Il pivot di cui sopra porta al seguente intervallo per µ:
[ X – t S/ n , X + t S/ n ].
Sostituendo i valori x = 0.03, s =
0.0256 = 0.16, n = 200, t = 1.9719 (quantile
0.975 trovato dalle tavole della T(200) invece della T(199)) si ottiene che
l’intervallo di confidenza al 95% per µ è [0.0077,0.0523]. Tale intervallo viene così
ampio (ampiezza pari a 0.0446) per la forte variabilità presente nella popolazione
considerata, variabilità misurata dalla stima di σ2 fornita da s2.
•
Come pivot per costruire l’intervallo di confidenza per σ2 si considera
(n − 1)S 2 , la
σ2
cui distribuzione è χ2(n – 1) (sez. 6.4). Tale pivot porta al seguente intervallo per σ2:
[(n – 1) S2/c2, (n – 1) S2/c1].
Sostituendo i valori s2 =
0.0256 = 0.16, n = 200, c1 = 162.73 c2 = 241.06 (dove c1
e c2 sono rispettivamente i quantili 0.025 e 0.975 della χ2(200) invece della
χ2(199)), si ottiene che l’intervallo di confidenza cercato al 95% per σ2 è
[0.0211,0.0313]. Il corrispondente intervallo per σ è invece [0.145,0.177] (per
ottenerlo basta fare la radice quadrata degli estremi dell’intervallo per σ2).
78
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
Chiediamoci ora quante imprese avremmo dovuto includere nel campione per avere un
intervallo per la media µ di ampiezza 0.03, invece di 0.0446, sempre al livello di
confidenza 0.95. A tale scopo si può utilizzare il ragionamento descritto nella sez. 6.15,
che ha portato alla formula
n = (2 zσ/A)2.
Sostituendo i valori z = 1.96 (quantile 0.975 della N(0, 1)), A = 0.03, e ponendo σ pari
alla stima fatta s = 0.16 (tale valore rappresenta l’unica informazione che abbiamo di σ),
si ottiene n = 437.09 da arrotondare per eccesso a 438.
Per concludere, mantenendo l’ipotesi di normalità della distribuzione dell’indice
UTILE/FATTURATO e “facendo finta” che le stime puntuali fornite per µ e σ
corrispondano ai valori veri degli stessi parametri (cosa che, lo ripetiamo per l’ennesima
volta, nella realtà non è dato di sapere!), si invita lo studente a rispondere alle seguenti
domande di cui diamo solo i risultati:
1. Qual è la probabilità che un’impresa abbia un indice UTILE/FATTURATO negativo?
(0.4256)
2. Qual è invece la probabilità che tale indice sia superiore a 0.1? (0.3309)
3. Quanto valgono primo quartile, mediana, terzo quartile e scarto interquartile
dell’indice? (-0.0779, 0.03, 0.1379, 0.2158)
4. Entro quale intervallo, simmetrico rispetto alla media, è compreso l’indice del 90%
delle imprese? (-0.2332, 0.2932)
Esempio
Il ministero del lavoro ha commissionato ad una società uno studio per appurare in che
percentuale le piccole imprese manifatturiere senza dipendenti sarebbero disposte ad
assumere dipendenti, nei prossimi tre anni, in presenza di certi sgravi contributivi e
fiscali.
La prima difficoltà che la società incaricata si è trovata di fronte è il dimensionamento
del campione di imprese da intervistare. Tradotto in termini statistici, il ministero ha
richiesto un intervallo di confidenza al 99%, per la percentuale d’interesse, di ampiezza
79
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
0.08.
Vediamo come si può operare in questa situazione.
Anzitutto occorre scegliere un modello per il fenomeno in analisi. Senza incertezze
possiamo scegliere il modello di Bernoulli, cioè X ~ Be(p), in cui 1 sta per “intenzione
di assumere” e 0 per “non intenzione di assumere”.
Relativamente al dimensionamento del campione, in una situazione di completa
ignoranza del valore assunto da p si può ricorrere alla formula
n = (z/A)2
illustrata in sez. 6.15. Sostituendo i valori z = 2.58 (quantile 0.995 della N(0, 1)) e A =
0.08 si ottiene n = 1040.06 da arrotondare per eccesso a 1041.
Supponiamo ora che delle 1041 imprese intervistate, 431 abbiano manifestato
l’intenzione di assumere personale in presenza degli sgravi indicati.
La stima puntuale del parametro p è facilmente fatta. Infatti un “buon” stimatore di p è
dato da X (si veda sez. 5.1.2), per cui possiamo stimare p con x = 431/1041 = 0.414,
che corrisponde a circa il 41%. Per completare la stima puntuale mediante misure di
”accuratezza”, possiamo stimare la varianza o, ancora meglio, la deviazione standard.
Poiché V( X ) = pq/n, tale grandezza può essere stimata tramite x (1 – x )/n = 0.414 (1 –
0.414)/1041 = 0.000233; quindi una stima di σ( X ) è data da
0.000233 = 0.0153.
Notiamo anche che, essendo X uno stimatore corretto di p, la stima della varianza
costituisce anche una stima del suo MSE.
Vediamo ora la stima per intervallo di p considerando (1 – α) = 0.99. La dimensione
campionaria è sufficientemente elevata per considerare come pivot
X−p
X (1 − X )/ n
,
la cui distribuzione approssimata è N(0, 1) (sez. 6.5). Il pivot di cui sopra porta al
seguente intervallo per p:
[ X – z X (1 − X )/ n , X + z X (1 − X )/ n ].
Sostituendo i valori x = 0.414, n = 1041, z = 2.58 (il quantile 0.995 della N(0, 1)) si
80
B. Chiandotto – F. Cipollini
Versione 2003 – Cap. 6
Metodi statistici per le decisioni d’impresa
ottiene che l’intervallo di confidenza al 99% per p è [0.375,0.453]. Si nota che
l’ampiezza dell’intervallo viene 0.078, leggermente inferiore a quella prevista 0.08 per
effetto del fatto che il campione è stato dimensionato sulla base di un valore x (1 – x ) =
0.5 (1 – 0.5) = 0.25, superiore a quello effettivo di 0.414 (1 – 0.414) = 0.2426 (si veda
sez. 6.5).
Per concludere, mantenendo l’ipotesi X ~ Be(p) e “facendo finta” che la stima puntuale
fornita per p coincida col valore vero del parametro (cosa che, ripetiamo, nella realtà
non è dato di sapere!), si invita lo studente a rispondere alle seguenti domande di cui
diamo solo i risultati. Supponendo che il numero di piccole imprese manifatturiere senza
dipendenti sia 6 milioni, si estraggano casualmente 100 imprese:
1. Come si distribuisce il numero di imprese che, fra queste 100, intendono assumere?
Che valore atteso e che varianza ha? (distribuzione esatta IG(N = 6000000, K = Np =
2484000, n = 100), ben approssimabile con una Bi(n = 100, p = 0.414); valore atteso
= np = 41.4; varianza = npq = 24.26).
2. Qual è la probabilità che, di queste 100, almeno 50 abbiano intenzione di assumere
dipendenti? (0.0404: usare l’approssimazione Normale della Binomiale).
3. Qual è invece la probabilità che, di queste 100, meno di 30 abbiano intenzione di
assumere? (0.0103: usare l’approssimazione Normale della Binomiale).
4. Quanto valgono, primo quartile, mediana, terzo quartile e scarto interquartile del
numero di imprese che intendono assumere fra le 100 estratte? (38.08, 41.4, 44.72,
6.64: usare l’approssimazione Normale della Binomiale)
5. Entro quale intervallo, simmetrico rispetto alla media, si colloca al 90% il numero
delle imprese che intendono assumere fra le 100 estratte? (33.3, 49.5)
81