CORSO DI LAUREA IN ECONOMIA AZIENDALE Metodi Statistici per l’impresa (Note didattiche) Bruno Chiandotto – Fabrizio Cipollini Capitolo 6 STIMA DEI PARAMETRI Come indicato nel cap. 2, il calcolo delle probabilità è presupposto essenziale della teoria della statistica. Proprio sulla base dei concetti del calcolo delle probabilità (cui faremo costante riferimento) affrontiamo ora l’inferenza statistica. Tuttavia per evitare l’errato fraintendimento che tale materia sia “pura tecnica”, nell’introduzione che segue presentiamo l’argomento senza formule: lo scopo è dare un senso al problema, un senso agli specifici argomenti trattati, un senso ai singoli concetti enunciati. Non tutto sarà perfettamente chiaro dopo la prima lettura. Per questo si invita lo studente rileggere l’introduzione dopo aver completato lo studio (perché solo allora ogni affermazione qui contenuta avrà un senso compiuto) e, soprattutto, ogni volta che avrà la sensazione di aver “perso il filo”. 1. Introduzione 1.1. Introduzione all’inferenza statistica In generale, per capire “come si affronta” un certo problema è assolutamente necessario comprendere prima “dove sta” il problema. Questo è valido a maggior ragione per una problematica tecnicamente tutt’altro che banale quale l’inferenza statistica. Per questo motivo si fa precedere la trattazione degli argomenti affrontati (stima puntuale, stima per intervallo, test delle ipotesi) da alcune considerazioni generali che danno un senso logico a quanto presentato nel seguito. Il problema è il seguente e lo schematizziamo per punti. • Il punto di partenza è l’analisi di un certo fenomeno d’interesse il cui risultato non è prevedibile con certezza. • Il calcolo delle probabilità indica che dal punto di vista statistico tale fenomeno può essere rappresentato mediante una variabile casuale, cioè un “oggetto” casuale le 1 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa cui manifestazioni non sono prevedibili in modo certo essendo, appunto, frutto del caso. Il calcolo delle probabilità dice anche che per identificare una v.c. occorre esplicitare i valori che questa può assumere e con quale probabilità. Se possiamo fare questo abbiamo detto tutto della v.c. e quindi del fenomeno che interessa: di più non è possibile fare. • Nella pratica, la probabilità può essere distribuita sui valori che la v.c. può assumere nei modi più vari. L’obiettivo è conoscere, in modo completo (cioè attraverso la funzione di massa o la funzione di densità) o parziale (cioè solo attraverso particolari indici caratteristici) la distribuzione della v.c. considerata. Per raggiungere questo obiettivo la statistica può seguire diverse vie. - Inferenza parametrica. La prima via sfrutta i modelli già preconfezionati e pronti all’uso che la statistica (servendosi del calcolo delle probabilità) mette a disposizione proprio per rappresentare certe situazioni tipiche dei fenomeni reali: il modello di Bernoulli, il modello Binomiale, il modello Ipergeometrico, il modello di Poisson, il modello Normale, il modello Gamma, ecc. (l’elenco potrebbe continuare molto a lungo, con modelli anche assai complicati che possono coinvolgere anche più variabili). Pertanto sulla base delle caratteristiche del fenomeno in oggetto, di analisi simili, di considerazioni teoriche, dell’esperienza passata, ecc. si sceglie fra i modelli statistici a disposizione quello che sembra adattarsi meglio al fenomeno in analisi (oppure se ne inventa uno nuovo, magari modificando quelli già disponibili). Tale via all’inferenza è detta inferenza parametrica, nel senso che il modello statistico per l’analisi del fenomeno è completamente specificato in tutte le sue parti (forma funzionale e parametri caratteristici) e l’unica inferenza possibile è quella sui parametri caratteristici del modello. - Inferenza non-parametrica. Una via radicalmente opposta a quella indicata (ma spesso utilizzata in combinazione con la precedente) è quella di non formulare alcun modello (ad esempio non supporre alcuna forma funzionale per la distribuzione della v.c.) ma di servirsi di particolari strumenti statistici particolarmente “flessibili” per arrivare ad una caratterizzazione del problema studiato esclusivamente sulla base dei dati. Tale via all’inferenza è detta 2 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa inferenza non-parametrica, nel senso che il modello statistico per l’analisi del fenomeno è completamente non specificato e non ci sono parametri caratteristici su cui fare inferenza (dato che non c’è nessun modello): sono i dati a guidare in modo determinante i risultati. - Inferenza semi-parametrica. Infine una via intermedia a quelle indicate si ha quando si specificano certe componenti del modello (ad esempio si suppone che la v.c. abbia certi indici caratteristici, come media e varianza) ma si lasciano le altre non specificate (di solito non si specifica la completa forma funzionale della funzione di massa o di densità). Anche in questo caso esistono strumenti statistici per poter ottenere dei risultati solo sulle grandezze che interessano senza dover fare le altre ipotesi. Tale via all’inferenza è detta inferenza semiparametrica, nel senso che il modello statistico per l’analisi del fenomeno è specificato solo in modo parziale. Come è facile intuire, tale approccio ha caratteristiche intermedie fra gli altri due, anche se per molti aspetti è più vicino al primo che al secondo. Non facendo di norma assunzioni sulla forma funzionale della distribuzione, l’inferenza non-parametrica e quella semi-parametrica sono spesso raggruppate sotto la dizione distribution free. Per quanto riguarda il presente corso ci occuperemo principalmente di inferenza parametrica e in parte di inferenza semiparametrica. Tuttavia, per semplicità, in questa introduzione faremo essenzialmente riferimento al caso parametrico. • Scelto il modello opportuno per il fenomeno analizzato, tale modello dipende tipicamente da uno o più parametri incogniti. Solo se si riesce a dare un valore a tali parametri allora la distribuzione della v.c. considerata è completamente nota e si è detto tutto del fenomeno analizzato. Tuttavia, in generale di tali parametri si sa solo che assumono valori in un certo insieme, detto spazio parametrico, ma non di più. Come fare allora per determinare i parametri? Anzi, più in generale, come rispondere ai 3 problemi base dell’inferenza statistica sui parametri d’interesse, ovvero: 1. (Stima puntuale) Come tentare di indovinare il valore dei parametri? 2. (Stima per intervallo) Come determinare, per ciascun parametro d’interesse, un 3 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa intervallo che ne contiene il vero valore “con alta probabilità”? 3. (Test delle ipotesi) Come procedere all’accettazione o al rifiuto di una particolare ipotesi formulata sui parametri? • Per rispondere alle domande di cui sopra occorre sfruttare qualche informazione. Come informazione di base l’inferenza statistica utilizza un certo insieme di osservazioni del fenomeno oggetto di studio: tale insieme è detto campione. Quindi: sulla base dell’informazione del campione si vuol fare inferenza sui parametri del modello scelto e quindi sulla legge probabilistica alla base del fenomeno analizzato. La branca dell’inferenza statistica che utilizza come unica informazione per rispondere alle tre domande di cui sopra le sole osservazioni del campione è detta statistica classica. In contrapposizione a questa si colloca la statistica bayesiana, che invece prevede l’utilizzo, oltre all’informazione campionaria, anche di informazioni a priori che, generalmente, hanno natura soggettiva. Il nome di statistica bayesiana viene dal fatto di utilizzare il teorema di Bayes come strumento fondamentale di inferenza. Per quanto riguarda questo corso ci occuperemo esclusivamente di statistica classica. 1.2. Introduzione alla stima puntuale Fin qui la presentazione da un punto di vista generale dell’inferenza statistica, con accenno ai vari problemi che si possono presentare e ai diversi approcci che si possono seguire per la risoluzione di tali problemi. Per rendere il quadro più concreto, occorre evidenziare tre punti fondamentali, che per maggiore chiarezza interpretiamo principalmente in ottica di stima puntuale: 1. un campione è solo una realizzazione parziale del fenomeno oggetto di analisi; 2. poiché un campione è composto in genere da molte osservazioni del fenomeno, nel passare dal campione ad una valutazione del o dei parametri occorre un processo di sintesi delle osservazioni del campione; 3. la scelta del modello può essere sbagliata; in altri termini non è detto che il modello scelto si adatti bene ai dati analizzati. Il chiarimento di questi punti consente di evidenziare una serie di aspetti importanti che 4 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa costituiranno oggetto di analisi nelle pagine che seguono. 1. Essendo solo una realizzazione parziale del fenomeno osservato, non è affatto detto (e anzi è più unico che raro) che dal campione si riesca a determinare il valore esatto dei parametri: in generale si può solo ricavarne una stima, cioè una valutazione sulla base delle informazioni a disposizione. Inoltre al cambiare del campione si ottengono in generale stime diverse. 2. In base alla considerazione precedente, è facile rendersi conto che ogni stima è un processo di sintesi del campione affetto da errore. Caso per caso occorre scegliere la sintesi migliore, cioè quella che, a parità di altre condizioni, consente di andare “più vicino possibile” alla grandezza da stimare. Tuttavia dato che il vero valore di ciascun parametro non è noto (se si conoscesse non ci sarebbe bisogno di stimarlo) non è possibile determinare quanto la stima fornita sbaglia rispetto al valore vero del parametro. Nonostante ciò la statistica ha messo a punto opportuni strumenti per valutare la bontà delle stime effettuate. Tali strumenti, però, richiedono di far riferimento non al solo campione estratto ma all’intero universo dei campioni, cioè a tutti i campioni che sarebbero potuti venire fuori dal modello considerato. 3. Non è affatto detto che il modello scelto sia “ben scelto”; in altri termini può darsi che quello considerato non sia il modello più adatto per il fenomeno analizzato. La statistica fornisce allora gli strumenti per testare la bontà del modello scelto, cioè per decidere, sulla base dei dati del campione, se il modello può essere accettato oppure deve essere abbandonato in favore di un altro. Questo problema sarà affrontato nell’ambito del test delle ipotesi di cui al relativo capitolo. 2. La scelta del modello statistico Il primo passo per l’analisi statistica di un certo fenomeno è, sempre, la scelta del modello più opportuno per rappresentare il “comportamento probabilistico” del fenomeno stesso. Detto infatti che questo può essere rappresentato da una v.c., diciamo X, si tratta di scegliere fra i modelli statistici, quello più adatto per rappresentare la distribuzione di X. In realtà la scelta del modello, anche se determinante in funzione nei risultati dell’analisi, non è prettamente materia statistica, anche se una certa conoscenza della 5 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa materia è assolutamente necessaria. Infatti la scelta del modello è il risultato finale di considerazioni di varia natura: le caratteristiche del fenomeno in oggetto, analisi simili (magari con riferimento a quanto presente in letteratura), considerazioni puramente teoriche, l’esperienza passata con problemi analoghi, ecc. Caso per caso ciascuno degli aspetti indicati pesa in modo diverso. Per quanti riguarda questo corso, in linea di massima la scelta del modello sarà strettamente guidata dal docente, ma non bisogna dimenticare che nella pratica tale decisione ricade su chi effettua l’analisi. Come aiuto, si forniscono di seguito alcuni semplici esempi in cui si discute la scelta del modello. Esempio Supponiamo di voler analizzare, nell’ambito della popolazione italiana, il gradimento nei confronti di un provvedimento legislativo di “completa liberalizzazione dell’orario di apertura dei negozi”. Se interessa distinguere fra FAVOREVOLI e NON FAVOREVOLI al provvedimento, il più opportuno sembra essere il modello di Bernoulli. In altri termini se X è la v.c. “FAVOREVOLE al provvedimento”, allora tale v.c. assumerà valore 1 se un individuo è favorevole e 0 se non favorevole. In simboli X ~ Be(p) dove p ∈ [0, 1]. Dal punto di vista statistico, il problema a questo punto è fare inferenza su p. Esempio Supponiamo che il “responsabile qualità” di una grossa impresa produttrice di filati di lana voglia analizzare il numero di difetti presenti nella propria produzione prendendo come base matasse da 10000 metri. Fra quelli introdotti (ce ne potrebbero essere tuttavia altri adatti alla situazione indicata), il modello più opportuno sembra essere la distribuzione di Poisson. Allora assumeremo che la v.c. X = “numero di difetti in una matassa da 10000 m” ~ Po(λ) dove λ ≥ 0. Dal punto di vista statistico, il problema a questo punto è fare inferenza su λ. 6 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Esempio Supponiamo che un centro di analisi stia studiando la redditività delle piccole imprese del settore “mobili e arredi” utilizzando l’indice ROE = utile/capitale netto. Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un modello ragionevole è rappresentato dalla distribuzione Normale. Allora assumeremo che la v.c. X = “ROE” ~ N(µ, σ2), dove µ ∈ R e σ2 ≥ 0. A questo punto il problema è fare inferenza sui due parametri µ e σ2. Esempio Supponiamo che il responsabile alle vendite di un’impresa del settore moda stia analizzando il tempo di permanenza in magazzino dei suoi giubbotti in pelle. Fra quelli introdotti (ma anche in questo caso ce ne potrebbero essere altri adatti), un modello ragionevole è rappresentato dalla distribuzione Gamma. Allora assumeremo che la v.c. X = “Tempo di permanenza in magazzino” ~ Ga(α, β), dove α, β > 0. A questo punto il problema è fare inferenza sui due parametri α e β. Dagli esempi proposti possiamo trarre il seguente schema riassuntivo. Sia X la v.c., discreta o continua, che rappresenta il fenomeno oggetto di analisi. La scelta fra i diversi modelli presenti in letteratura per rappresentare la distribuzione di X si basa, come detto, su considerazioni di diversa natura. In ogni caso scegliere un modello significa scegliere la funzione di massa o di densità di X. Sia quindi f(x;θ) la funzione di massa (se discreta) o la funzione di densità (se continua) della v.c. X, dove θ indica i parametri caratteristici funzione scelta. Si ipotizza che θ ∈ Θ, cioè che i parametri appartengano ad un certo insieme Θ detto spazio parametrico; lo spazio parametrico è quindi l’insieme dei valori che i parametri possono assumere. Ad esempio: nel modello di Bernoulli il parametro è p il cui spazio parametrico è [0, 1]; nel modello di Poisson il parametro è λ il cui spazio parametrico è [0, +∞); nel modello Normale i parametri sono µ e σ2 e lo spazio parametrico è il prodotto cartesiano dei rispettivi spazi parametrici, cioè R × [0, +∞); nel modello Gamma i parametri sono α e 7 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa β e lo spazio parametrico è il prodotto cartesiano dei rispettivi spazi parametrici, cioè (0, +∞) × (0, +∞). 3. Concetti di base Con riferimento a quanto detto finora, sia allora X una v.c., discreta o continua, che rappresenta il fenomeno oggetto di analisi e sia quindi f(x;θ) la funzione di massa o di densità della v.c. X, dove θ ∈ Θ indica i parametri caratteristici funzione scelta. Per semplicità, nella trattazione che segue ci limiteremo ad analizzare il processo di inferenza per un parametro alla volta; in altre parole supporremo che θ sia uno scalare e che lo spazio parametrico Θ sia un sottoinsieme di R (al limite R stesso). Solo quando utile faremo espliciti richiami al caso multiparametrico. In generale θ non è noto: l’unica cosa che si conosce è lo spazio parametrico Θ a cui appartiene. Non essendo noto bisogna cercare di “indovinare” o, più correttamente, di stimare θ. Per stimare θ si dispone dell’informazione contenuta in un campione di osservazioni x = (x1, …, xn) della v.c. X che rappresenta il fenomeno studiato. La stima puntuale di θ si risolve allora nella ricerca di una funzione del campione θ̂ = T(x1, …, xn), in modo da ottenere un valore θ̂ che sia “più vicino possibile” al parametro incognito θ. Purtroppo, posto in questi termini il problema di stima puntuale non ha soluzione. Infatti come è possibile giudicare quanto la stima θ̂ = T(x1, …, xn) è vicina al parametro incognito θ 8 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa se questo, appunto, è incognito? (Com’è possibile giudicare quanto un numero è vicino ad un altro numero se quest’ultimo non si conosce?) Per giudicare il processo di stima occorre allora correggere i termini del problema sulla base di una considerazione fatta in precedenza. Il punto cruciale è il seguente: il campione a disposizione, x = (x1, …, xn), è solo uno fra i tanti campioni che sarebbero potuti capitare. Se fosse stato estratto un campione diverso, quasi sicuramente la stima del parametro sarebbe risultata diversa. Per giudicare la bontà di un processo di stima, allora, occorre valutarne il comportamento non sulla base del solo campione a disposizione, ma sulla base di tutti i possibili campioni. In questo modo si ottengono due vantaggi: 1. è possibile definire il concetto di bontà di un dato procedimento di stima puntuale; 2. è possibile interpretare i risultati ottenuti dal campione a disposizione alla luce del comportamento di tutti i possibili campioni. Tornando allora al nostro problema, fra l’assunzione che la v.c. X si distribuisce secondo una certa funzione di massa o di densità f(x;θ) e il campione x = (x1, …, xn) occorre inserire alcuni concetti intermedi. Innanzitutto assumeremo da ora in poi che il campione a disposizione sia un campione casuale semplice (spesso abbreviato in c.c.s.), cioè un campione le cui osservazioni sono indipendenti ovvero: 1. o estratte con reimmissione; 2. oppure estratte senza reimmissione da una popolazione di numerosità talmente elevata da rendere praticamente nulla la probabilità di estrarre la stessa unità campionaria. Su questa base, a ciascuna estrazione campionaria i-ma è associata una v.c. Xi che rappresenta tutti i possibili valori che possono venire fuori da tale estrazione. Essendo le estrazioni indipendenti, è ovvio che ciascuna Xi sarà distribuita esattamente come la v.c. dalla quale è stata effettuata l’estrazione, cioè Xi ∼ f(xi; θ), con i = 1, …, n. 9 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Di conseguenza, l’universo dei possibili campioni (di dimensione prefissata n) che possono essere estratti è rappresentato dalla v.c. multipla X = (X1, …, Xn) la cui funzione di massa o funzione di densità è espressa da f(x1, …, xn; θ) = n ∏ f(xi; θ), i=1 dato che le estrazioni sono fra loro indipendenti (si veda cap. 2 sulle v.c. multiple). In questo contesto il campione x = (x1, …, xn) sarà una particolare realizzazione della v.c. multipla X = (X1, …, Xn). Altra conseguenza è che con riferimento all’universo dei campioni, cioè alla v.c. multipla X = (X1, …, Xn), la v.c. sintesi del campione ai fini della stima T(X1, …, Xn) sarà anch’essa una v.c., essendo a sua volta funzione di v.c. Per dare risalto a questo aspetto diamo alcune definizioni. Definizione 1: Definizione di statistica. Si dice statistica (dall’inglese statistic) qualunque funzione T(X1, …, Xn) del c.c.s. X = (X1, …, Xn) (inteso come campione di v.c.) che non contiene parametri incogniti. Il valore della statistica calcolato sui dati campionari x = (x1, …, xn), cioè T(x1, …, xn), è detto valore campionario della statistica. Definizione 2: Definizione di stimatore e di stima. Sia X è una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora si dice stimatore qualunque statistica T(X1, …, Xn) 10 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa utilizzata per stimare θ. Il valore dello stimatore calcolato sui dati campionari x = (x1, …, xn) al fine di stimare θ, cioè T(x1, …, xn), è detto stima. Definizione 3: Distribuzione campionaria. Sia X una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia T(X1, …, Xn) una statistica calcolata sul c.c.s. X = (X1, …, Xn). Allora la distribuzione della statistica T(X1, …, Xn) (che abbiamo già detto essere una v.c.) è detta distribuzione campionaria della statistica. Un commento sulle definizioni introdotte. Una statistica è una qualsiasi funzione T(X1, …, Xn) del campione, mentre uno stimatore è un caso particolare di statistica quando quest’ultima è utilizzata per stimare un certo parametro. Essendo funzioni di v.c., sia la statistica che lo stimatore sono a loro volta v.c. e quindi hanno una certa distribuzione, detta distribuzione campionaria. La differenza fra stimatore e stima è infine la seguente: lo stimatore, essendo una funzione delle v.c. X = (X1, …, Xn) è a sua volta una v.c.; la stima essendo una funzione dei numeri x = (x1, …, xn) è a sua volta un numero. Ovviamente essendo x = (x1, …, xn) una particolare realizzazione di X = (X1, …, Xn), anche la stima T(x1, …, xn) sarà una particolare realizzazione dello stimatore T(X1, …, Xn). La legge di probabilità con cui la v.c. stimatore origina le singole stime è data dalla distribuzione campionaria dello stimatore. 4. Proprietà di uno stimatore Riassumiamo alcune considerazioni espresse finora. Data una v.c. X con funzione di massa o di densità f(x; θ), la stima puntuale del un parametro incognito θ si ottiene applicando una specifica funzione T(.) ai valori campionari. Tale stima, allora, varierà al variare del campione secondo la legge di distribuzione f(x; θ) della popolazione cui il campione si riferisce, ed è necessario fare riferimento a tale distribuzione per riuscire a giudicare la “bontà” di una qualunque stima θ̂ = T(x1, ...,xn). Infatti, non è possibile 11 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa affermare se un singolo valore numerico, cioè se una particolare stima θ̂ è “buona” o “cattiva”. Se da una parte è ragionevole ritenere che θ̂ è tanto più “buona” quanto più si approssima al vero valore del parametro θ, dall’altra parte essendo tale valore incognito, il confronto non è possibile: risulta, cioè, impossibile valutare la “bontà” di una singola stima. Pertanto, è improprio parlare di stima “buona” o “cattiva”, si deve parlare invece di stimatore “buono” o “cattivo”, intendendo, con ciò, fare riferimento al metodo di stima impiegato le cui proprietà non sono valutabili facendo riferimento ad un singolo campione ma all’universo di tutti i campioni possibili. Il confronto fra stimatori dovrà, quindi, essere basato sul confronto tra le corrispondenti distribuzioni campionarie e, più in particolare, fra particolari indici caratteristici delle distribuzioni campionarie. Torniamo allora alla problematica generale della stima statistica puntuale. Sia X una variabile casuale, discreta o continua, con funzione di massa o di densità f(x; θ), caratterizzata dal parametro incognito θ ∈ Θ. Il problema della ricerca del ”miglior” stimatore di θ si sostanzia nella individuazione della “migliore” funzione T(.) da applicare al campione di cui si dispone. Qui di seguito si descrivono le principali proprietà di uno stimatore. Esempi dei concetti introdotti saranno discussi nella sez. 4.5 e nella sez. 6 relativa ai metodi di stima. 4.1. Sufficienza Relativamente alle proprietà “ottimali” di uno stimatore si deve, innanzi tutto, tenere presente che la funzione T(.) opera una compattazione delle informazioni. Risulta, pertanto ragionevole richiedere ad uno stimatore θ̂ = T(X1, …,Xn) di contenere il massimo delle informazioni che il campione fornisce in merito al valore del parametro incognito θ. Questa proprietà è esplicitata dalla definizione di sufficienza. Definizione 4: Definizione di statistica sufficiente. Sia X una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora una statistica T(X1, …, Xn) è 12 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa sufficiente per θ sse la distribuzione del campione condizionata ad un qualunque valore assunto dalla statistica T(.), cioè f(x1, …, xn | T = t), non dipende da θ. Tale definizione risulta di interpretazione non immediata: cerchiamo di spiegarla. La definizione dice che una statistica T è sufficiente per un certo parametro se nella distribuzione del campione, una volta condizionati al valore della statistica, il parametro scompare. In altri termini, ricordando l’interpretazione dell’evento condizionante come “informazione”, T è sufficiente se, una volta calcolata e quindi conosciuta T, nel campione stesso non rimane più alcuna informazione su θ che infatti scompare nella distribuzione condizionata: tutto quello che c’era per risalire al parametro è stato “spremuto” da T. Il concetto di sufficienza può essere esteso da una statistica ad uno stimatore nel modo seguente: è sufficiente lo stimatore basato su una statistica sufficiente. In questo caso allora θ̂ contiene tutte le informazioni su θ contenute nel campione a disposizione. Appare subito evidente che nei casi in cui esistono stimatori sufficienti, si dovrà restringere la ricerca del miglior stimatore entro tale classe poiché, al di fuori di essa, ogni altro stimatore avrebbe come conseguenza una mancata utilizzazione di informazioni utili contenute nel campione. Purtroppo la definizione di sufficienza è nella pratica di difficile utilizzazione per due motivi: 1. la distribuzione condizionata di cui alla definizione spesso è tutt’altro che semplice da ricavare; 2. la definizione richiede di avere già in testa una statistica T(.) e quindi di verificare se questa è sufficiente o meno per il parametro; si presta invece poco alla ricerca di statistiche sufficienti. Questi due inconvenienti sono tuttavia superati da un importante risultato teorico noto come criterio di fattorizzazione di Neyman-Fisher. 13 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Teorema 1: Criterio di fattorizzazione di Neyman-Fisher. Sia X una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora la statistica T(X1, …, Xn) è sufficiente per θ sse vale la relazione: f(x; θ) = g(T(x); θ) h(x) dove: g(T(x); θ) è una funzione non negativa che dipende dal parametro e dal campione solo attraverso la funzione T(.); h(x) è una funzione non negativa degli elementi del campione. Grazie a questo teorema, per trovare una statistica sufficiente basta riuscire a fattorizzare la funzione di massa o di densità del campione nel modo indicato: uno dei fattori deve dipendere solo dal parametro e da una certa statistica (che quindi sarà sufficiente per il parametro); l’altro deve dipendere solo dal campione. Tale teorema consente anche di fornire la seguente immagine del concetto di sufficienza. Supponiamo che X sia effettivamente distribuito secondo la funzione di massa o di densità f(x; θ) e che T(X) sia sufficiente per θ. In tale situazione supponiamo poi di assegnare, come informazione per stimare θ, ad uno studente tutto il campione x = (x1, …, xn) e all’altro (poverino!) la sola statistica T(x). Sembrerebbe questa una discriminazione del secondo a favore del primo. Ciò è falso: infatti T(x) contiene tutta l’informazione su θ che c’è nel campione, tanto che anche sapendo solo T(x) è possibile scrivere la funzione di massa o di densità del campione. Il campione, quindi, non contiene nient’altro su θ che, appunto, T(x) (paradossalmente è il secondo studente ad essere avvantaggiato, dato che non deve neanche calcolarsi T(x)!). Alcune precisazioni importanti. 1. La definizione di sufficienza e il criterio di fattorizzazione possono essere banalmente estesi al caso in cui θ sia un vettore di parametri e/o T(X) un vettore di statistiche (le dimensioni dei due vettori non necessariamente coincidono). In tal caso le statistiche del vettore T(X), prese insieme, sono (congiuntamente) sufficienti per θ. 14 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 2. Sulla base di quanto detto al punto precedente, l’intero campione X = (X1, …, Xn) è, chiaramente, sempre sufficiente per θ, qualunque sia il modello scelto. E’ ovvio però che in tale situazione il concetto di sufficienza è poco interessante per l’assenza di compattazione delle informazioni fornita da tale statistica. I casi interessanti sono quelli in cui esistono delle statistiche sufficienti di dimensione minore rispetto all’intero campione. 3. Il criterio di fattorizzazione evidenzia che la sufficienza è una proprietà intrinseca del modello. Infatti la funzione di massa o di densità del campione f(x; θ), che è quella che viene fattorizzata nel teorema, segue direttamente dalla specificazione della distribuzione della v.c. X data da f(x; θ). 4. Se T(.) è una statistica sufficiente (o un vettore di statistiche sufficienti), si può facilmente dimostrare che qualsiasi trasformazione biunivoca di tale statistica (o vettore di statistiche) è anch’essa sufficiente. 5. Nel criterio di fattorizzazione, se in luogo di f(x; θ) si considera il suo logaritmo naturale lnf(x; θ), la scomposizione di tale funzione in due componenti funziona in modo analogo, con la differenza che invece di moltiplicarsi si sommano. Infatti ln f(x; θ) = ln[g(T(x); θ) h(x)] = ln g(T(x); θ) + ln h(x) = g1(T(x); θ) + h1 (x). Questo significa che T(x) è sufficiente per θ sse ln f(x; θ) può essere scomposto nella somma di due funzioni g1(T(x); θ) e h1(x), di cui: la prima dipende dal parametro e dal campione solo attraverso la funzione T(.); la seconda dipende solo dagli elementi del campione. Questa osservazione sarà utile negli esempi illustrati nella sezione relativa ai metodi di stima. 4.2. Misure di errore: MSE e MAE Oltre alla sufficienza, è ragionevole richiedere che le singole stime siano “più vicine possibile” al parametro incognito da stimare. D’altra parte abbiamo già detto che, per una serie di ragioni, il confronto deve essere fatto fra la v.c. stimatore θ̂ = T(X1, …, Xn) e il parametro θ. Gli scostamenti fra lo stimatore θ̂ e il parametro incognito θ, possono essere espressi dalla differenza in valore assoluto |θˆ – θ | o dalla differenza al quadrato ( θˆ – θ)2. D’altra parte poiché θ̂ è una v.c., anche |θˆ – θ | e ( θˆ – θ)2 lo sono, motivo per 15 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa il quale tali differenze vengono di norma sintetizzate prendendone il valore atteso. Si ricavano allora le seguenti misure di errore fra stimatore e parametro: MAE( θˆ ; θ) = E[|θˆ – θ |]; MSE( θˆ ; θ) = E[( θˆ – θ)2]. L’acronimo MAE sta per Mean Absolute Error o errore assoluto medio; l’acronimo MSE significa invece Mean Squared Error o errore quadratico medio. Come già evidenziato, tali misure di errore non sono v.c., poiché è stato applicato l’operatore di valore atteso; è opportuno tuttavia aggiungere che in generale dipendono da θ, dato che il valore del parametro è incognito. Sulla base di tali misure di errore è ragionevole definire uno stimatore migliore di un altro, rispetto ad una certa misura di errore, se la misura di errore del primo è inferiore alla corrispondente misura di errore del secondo qualunque sia il valore del parametro. Definizione 5: Definizione di efficienza relativa. Lo stimatore θˆ1 è più efficiente nel MAE rispetto a θˆ2 se MAE( θˆ1 ; θ) ≤ MAE( θˆ2 ; θ) per qualunque θ ∈ Θ ; lo stimatore θˆ1 è più efficiente nel MSE rispetto a θˆ2 se MSE( θˆ1 ; θ) ≤ MSE( θˆ2 ; θ) per qualunque θ ∈ Θ . Seppure importante per stabilire il migliore fra due stimatori dati, all’atto pratico è auspicabile stimare θ col migliore stimatore possibile in assoluto. E’ allora opportuno introdurre anche un concetto di efficienza in senso assoluto. Definizione 6: Definizione di efficienza assoluta. Lo stimatore θˆ * è il più efficiente nel MAE se per ogni altro stimatore θˆ MAE( θˆ * ; θ) ≤ MAE( θˆ ; θ) per qualunque θ ∈ Θ ; lo stimatore θˆ * è il più efficiente nel MSE se per ogni altro stimatore θˆ MSE( θˆ * ; θ) ≤ MSE( θˆ ; θ) 16 per qualunque θ ∈ Θ . B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Per quanto ragionevole dal punto di vista logico, nella pratica la ricerca dello stimatore in assoluto più efficiente (nel MAE o nel MSE) si scontra però con un problema non di poco conto: in genere tale stimatore ottimale non esiste (eccetto in casi particolari un po’ artificiosi)! Questo perché (come è ragionevole fare) nella definizione si richiede che l’indice di errore sia inferiore per qualunque θ ∈ Θ , mentre la situazione comune è quella nella quale non esiste uno stimatore che minimizza il MAE o il MSE per qualunque valore di θ. E’ facile rendersi conto di ciò se si pensa al seguente stimatore di θ: T(X1, …, Xn) = 3. E’ chiaro che un tale stimatore è assolutamente “stupido”: infatti stima il parametro incognito sempre con 3, ignorando completamente l’informazione contenuta nel campione. D’altra parte quando θ è effettivamente 3 (o comunque nei dintorni di 3) è impossibile fare meglio dello stimatore “stupido” indicato (Fig. 1). In generale altri stimatori avranno un MAE o un MSE più piccolo dello stimatore di cui sopra ma non per i θ “vicini” a 3. Poiché di stimatori “stupidi” come quello indicato se ne possono costruire infiniti (uno per ogni valore di θ), da questo ragionamento si evince che in generale lo stimatore più efficiente in assoluto, nel senso del MAE o del MSE, non esiste. In tali situazioni, allora, si dovrà abbandonare l’obiettivo della ricerca dell’ottimo (non esistendo un ottimo!) per procedere, eventualmente, alla ricerca di un sub-ottimo. Si può, ad esempio, procedere alla ricerca di uno stimatore puntuale capace di minimizzare il MAE o il MSE in un insieme ristretto di stimatori (minimo vincolato) essendo ragionevole ipotizzare l’esistenza di un ottimo in una classe ristretta. Questo aspetto è approfondito nella seguente sezione. 17 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 8 7 6 5 4 3 2 1 0 -1 -1 0 1 2 3 4 5 6 7 Fig. 1 – Andamento del MSE per tre diversi stimatori di θ > 0: θˆ1 (tratto rosa), θˆ2 (tratto verde), θˆ3 (tratto blu). θˆ1 è più efficiente di θˆ2 ma non di θˆ3 , nonostante quest’ultimo sia lo “stimatore stupido”. 4.3. Correttezza Sviluppiamo il ragionamento conclusivo della sezione precedente con riferimento alla misura di errore MSE. Il MSE, infatti, rispetto al MAE è più facile da trattare dal punto di vista matematico. Più in particolare il MSE può essere scomposto nel modo seguente: MSE( θˆ ; θ) = V( θˆ ) + bias( θˆ ; θ)2, dove V( θˆ ) è la varianza dello stimatore θˆ e bias( θˆ ; θ) = E( θˆ ) – θ è la distorsione dello stimatore. La scomposizione si ricava facilmente sommando e sottraendo E( θˆ ) nella definizione e poi applicando le proprietà dei valori attesi (si ricorda che θ ed E( θˆ ) sono costanti!) : MSE( θˆ ; θ) = E[( θˆ – θ)2] = E[( θˆ – E( θˆ ) + E( θˆ ) – θ)2] = E[ ( θˆ – E( θˆ ))2 + (E( θˆ ) – θ)2 + 2 ( θˆ – E( θˆ ))(E( θˆ ) – θ) ] = E[( θˆ – E( θˆ ))2] + E[(E( θˆ ) – θ)2] + 2 [E( θˆ ) – θ] E[ θˆ – E( θˆ )] = V( θˆ ) + [E( θˆ ) – θ)2] + 2 [E( θˆ ) – θ] [E( θˆ ) – E( θˆ )] = V( θˆ ) + bias( θˆ ; θ)2 + 0 Tornando al risultato di cui sopra, il MSE di uno stimatore può essere quindi scomposto 18 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa nella somma di due componenti: la varianza dello stimatore, V( θˆ ) e il quadrato della distorsione, bias( θˆ ; θ)2 = [E( θˆ ) – θ]2. Poiché, come detto, in generale non esiste lo stimatore con il MSE più piccolo per ogni θ fra tutti gli stimatori, può valere la pena di limitare la ricerca dello stimatore migliore ad un insieme ristretto di stimatori. In particolare si può cercare nell’ambito degli stimatori con distorsione pari a 0, per i quali, si vede facilmente, il MSE è uguale alla varianza dello stimatore. Definizione 7: Definizione di correttezza. Uno stimatore θ̂ di θ si dice corretto o non distorto se E( θ̂ ) = θ per qualunque θ ∈ Θ . Da questa definizione segue allora immediatamente che se uno stimatore θ̂ è corretto relativamente a θ allora: 1. la sua distorsione è 0, cioè bias( θˆ ; θ) = 0 (da questo deriva l’espressione non distorto); 2. il suo MSE e la sua varianza coincidono, cioè MSE( θˆ ; θ) = V( θˆ ); pertanto nella classe ristretta degli stimatori corretti lo stimatore più efficiente nel MSE è lo stimatore di minima varianza. Quest’ultima conclusione provoca spesso confusione inducendo a concludere che lo stimatore più efficiente è lo stimatore di minima varianza; si tratta, ovviamente, di una conclusione errata perché l’affermazione vale solo nell’ambito degli stimatori corretti. Torniamo ora al problema da cui si è partiti. Si è detto ripetutamente che lo stimatore più efficiente in assoluto, sia nel senso del MAE che del MSE, di norma non esiste. Ebbene, è possibile dimostrare che, per certi modelli, esiste invece lo stimatore più efficiente nel MSE se si limita la ricerca alla classe degli stimatori corretti. Tuttavia poiché la teoria sottostante è eccessivamente complessa per i fini di questo corso non la vedremo. Ci limitiamo ad aggiungere tre considerazioni. 19 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 1. La prima è che l’effetto pratico del vincolo di correttezza è, come è ovvio, quello di eliminare tutti gli stimatori distorti, fra i quali sono compresi anche gli “stimatori stupidi”. 2. La seconda è che, nell’ambito della teoria relativa alla ricerca del migliore stimatore corretto, gioca un ruolo fondamentale il concetto di sufficienza visto in precedenza. 3. La terza, a fini pratici più importante, è legata ad un risultato teorico di importanza fondamentale noto come limite di Cramèr-Rao. Teorema 2: Limite di Cramèr-Rao. Sia X una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ è un parametro incognito, e supponiamo che f(x; θ) soddisfi certe condizioni di regolarità. Sia poi X = (X1, …, Xn) un c.c.s. estratto da X. Allora se θˆ è uno stimatore corretto di θ, la varianza di θˆ non può essere minore di un certa soglia minima: V( θˆ ) ≥ 1/I(θ), dove ds (θ ) I(θ) = E[s(θ)2] = –E dθ è detta informazione di Fisher. In parole, questo teorema dice che la varianza di uno stimatore corretto non può scendere sotto il reciproco dell’informazione di Fisher. L’utilità del teorema è la seguente. Se si prende uno stimatore θˆ e si verifica che è corretto, allora si calcola la sua varianza V( θˆ ) (che per la correttezza coincide col suo MSE), poi l’informazione di Fisher I(θ) e quindi il suo reciproco 1/I(θ): se si nota che V( θˆ ) = 1/I(θ) allora è impossibile fare meglio (fra quelli corretti) dello stimatore considerato, perché sotto 1/I(θ) non si può scendere. E’ ovvio però che con questo criterio, se viene V( θˆ ) > 1/I(θ), allora non è possibile sapere se esiste un altro stimatore corretto con varianza più piccola di quello trovato. Purtroppo un limite di questa teoria è dato dal fatto che per molti modelli non esiste lo 20 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa stimatore più efficiente nel MSE neppure nella classe degli stimatori corretti. Inoltre per molti modelli risulta perfino impossibile determinare E( θ̂ ) e di conseguenza anche V( θˆ ) e MSE( θˆ ; θ). E questo rende a sua volta impossibile la ricerca dello stimatore più efficiente nel MSE di cui si è discusso finora. 4.4. Consistenza Anche dal punto di vista intuitivo, è facile rendersi conto che al crescere della dimensione del campione cresce anche la quantità di informazione a disposizione. E’ quindi ragionevole richiedere ad uno stimatore che al crescere della dimensione campionaria n debba anche crescere la “precisione” dello stimatore nello stimare il parametro. Questo concetto è precisato dalla proprietà di consistenza. Per esplicitare il fatto che questa proprietà è legata alla dimensione del campione aggiungiamo l’indice n allo stimatore, scrivendo θˆn al posto di θˆ . Definizione 8: Definizione di consistenza debole. Uno stimatore θˆn di θ è consistente in senso debole se lim P(|θˆn – θ | < ε) = 1 n→∞ per qualunque θ ∈ Θ e per qualunque ε > 0 piccolo a piacere. Definizione 9: Definizione di consistenza forte. Uno stimatore θˆn di θ è consistente in senso forte se lim MSE( θˆn ; θ) = 0 n→∞ per qualunque θ ∈ Θ. Relativamente alla consistenza forte, grazie alla scomposizione MSE( θˆn ; θ) = V( θˆn ) + bias( θˆn ; θ)2 vista in precedenza, è possibile dedurre che, per n → ∞, MSE( θˆn ; θ) tende a 0 sse tendono a 0 le sue due componenti (entrambe non negative) V( θˆn ) e bias( θˆn ; θ). 21 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Quindi se la varianza e la distorsione di uno stimatore tendono entrambi a 0 allora lo stimatore è consistente in senso forte e, viceversa, se lo stimatore è consistente in senso forte allora la sua varianza e la sua distorsione tendono a 0. Uno stimatore la cui distorsione tende a 0 è detto asintoticamente corretto, e per esso vale lim E( θˆn ) = θ n→∞ per qualunque θ ∈ Θ. E’ possibile inoltre dimostrare che la consistenza forte implica la consistenza debole. Questo fatto è una banale conseguenza del teorema di Markov (cap. 2): basta porre nel teorema indicato, X = θˆn , g(X) = |θˆn – θ |, c = ε: P(|θˆn – θ | ≥ ε) = P(( θˆn – θ ) 2 ≥ ε2) ≤ [( E θˆn − θ ε2 )]= MSE (θˆn ,θ )→ 0, ε2 da cui P(|θˆn – θ | < ε) = → 1. Infine un’ultima nota. Per certi aspetti, la consistenza è la proprietà più importante fra quelle viste. Possiamo argomentare questa affermazione in due sensi. Primo: se uno stimatore è consistente non è detto che sia buono, ma sicuramente uno stimatore non consistente è da buttare. Secondo: come affermato alla fine della sez. 4.3, per la maggior parte dei modelli statistici (fanno eccezione quelli più semplici) è impossibile determinare valore atteso, varianza e quindi anche MSE degli stimatori considerati. Le proprietà asintotiche, e in particolare quelle relative alla consistenza, sono invece assai più facili da ricavare e spesso sono anche le uniche disponibili (si veda al proposito l’esempio in sez. 5.1.5). 4.5. Un esempio Proviamo ad illustrare alcuni dei concetti presentati in questa sez. 4 mediante un esempio. L’esempio è per la verità un po’ artificiale ma può comunque dare un senso a quanto visto in questa sezione. Esempi più realistici saranno presentati nella sezione che segue. 22 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Si considerino 6 palline identiche a meno dei numeri su di esse riportati: {1, 1, 1, 3, 3, 9}. La funzione di massa della v.c. X = “risultato dell’estrazione di una pallina” è allora data da x =1 1 / 2 1 / 3 x=3 f(x) = x=9 1 / 6 0 altrimenti Per tale v.c. è facile derivare i principali momenti (si veda cap. 2). Il seguente prospetto riassume il calcolo di µ = E(X) = 3 e σ2 = V(X) = E(X2) – E(X)2 = 17 – 32 = 8. x 1 3 9 f(x) x f(x) 1/2 1/2 1/3 1 1/6 3/2 1 3 Tabella 1 – Prospetto di calcolo di E(X) e V(X). x2 f(x) 1/2 3 27/2 17 Si considerino ora tutti i possibili campioni x = (x1, x2) di dimensione n = 2 che possono essere estratti con reimmissione dalla v.c. in oggetto. La “lista” di questi campioni forma l’universo dei campioni che possono essere estratti dalla v.c. X. L’universo dei campioni può a sua volta essere rappresentato dalla v.c. doppia X = (X1, X2), i cui valori e la cui distriuzione sono riportati nella seguente tabella (la probabilità di ciascuna coppia è semplicemente il prodotto delle probabilità dei singoli, dato che le estrazioni sono indipendenti). x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 1/6 1/12 1/6 1/9 1/18 1/12 1/18 1/36 1 Tabella 2 – Funzione di massa della v.c. doppia X = (X1, X2). A questo punto, ogni statistica calcolata su X = (X1, X2) è una v.c. e ha di conseguenza una sua distribuzione campionaria. Consideriamo ora alcune statistiche e proviamo a determinarne la distribuzione campionaria. 23 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • Media campionaria: X = (X1 + X2)/2 (per la formula generale si veda sez. 5.1) La seguente tabella riporta, per ogni campione, la relativa media campionaria con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 x 1 1/6 1/12 1/6 2 5 1/9 1/18 1/12 1/18 1/36 2 3 6 5 6 1 9 Tabella 3 – Prospetto per la costruzione della funzione di massa della media campionaria. Da tale tabella si ricava facilmente la funzione di massa della media campionaria, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo alla stessa media. x 1 2 3 5 f( x ) 1/4 1/3 1/9 1/6 6 9 tot 1/9 1/36 1 Tabella 4 – Funzione di massa della media campionaria X . Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si può verificare che E( X ) = 3 e V( X ) = 4 [si invita lo studente a farlo]. Questo significa che X è uno stimatore corretto di µ e che anche il suo MSE è 4. • Varianza campionaria corretta: S2 = [(X1 – X )2 + (X2 – X )2]/(2 – 1) (per la formula generale si veda sez. 5.1) La seguente tabella riporta, per ogni campione, la relativa varianza campionaria corretta con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 s2 0 1/6 1/12 1/6 2 32 1/9 1/18 1/12 1/18 1/36 2 0 18 32 18 1 0 Tabella 5 – Prospetto per la costruzione della funzione di massa della varianza campionaria corretta. 24 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Da tale tabella si ricava facilmente la funzione di massa della varianza campionaria corretta, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo alla stessa varianza. s2 0 f(s2) 2 7/18 1/3 18 32 tot 1/9 1/6 1 Tabella 6 – Funzione di massa della varianza campionaria corretta S2. Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si può verificare che E(S2) = 8 e V(S2) = 144 [si invita lo studente a farlo]. Questo significa che S2 è uno stimatore corretto di σ2 e che anche il suo MSE è 144. • Minimo campionario: x(1) = min{X1, X2} La seguente tabella riporta, per ogni campione, il relativo minimo campionario con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 x(1) 1 1/6 1/12 1/6 1 1 1/9 1/18 1/12 1/18 1/36 1 3 3 1 3 1 9 Tabella 7 – Prospetto per la costruzione della funzione di massa del minimo campionario. Da tale tabella si ricava facilmente la funzione di massa del minimo campionario, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso minimo. x(1) 1 f(x(1)) 3/4 3 9 2/9 1/36 tot 1 Tabella 8 – Funzione di massa del minimo campionario x(1). Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si può verificare che E(x(1)) = 1. 6 e V(x(1)) = 2. 2 [si invita lo 25 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa studente a farlo]. Questo significa che x(1) è uno stimatore distorto del minimo della v.c. X, che è 1, e che MSE(x(1), min) = 2. 2 + (1. 6 – 1)2 = 2. 6 . • Massimo campionario: x(2) = max{X1, X2} La seguente tabella riporta, per ogni campione, il relativo massimo campionario con la sua probabilità x = (x1, x2) (1,1) (1,3) (1,9) (3,1) (3,3) (3,9) (9,1) (9,3) (9,9) tot f(x) 1/4 x(2) 1 1/6 1/12 1/6 3 9 1/9 1/18 1/12 1/18 1/36 3 3 9 9 9 1 9 Tabella 9 – Prospetto per la costruzione della funzione di massa del massimo campionario. Da tale tabella si ricava facilmente la funzione di massa del massimo campionario, nella quale si sommano le probabilità relative alle coppie di valori che danno luogo allo stesso massimo. x(2) 1 3 9 tot f(x(2)) 1/4 4/9 11/36 1 Tabella 10 – Funzione di massa del massimo campionario x(2). Utilizzando un prospetto di calcolo simile a quello utilizzato per calcolare i momenti di f(x), si può verificare che E(x(2)) = 4. 3 e V(x(2)) = 10. 2 . [si invita lo studente a farlo]. Questo significa che x(2) è uno stimatore distorto del massimo della v.c. X, che è 9, e che MSE(x(2), min) = 10. 2 + (4. 3 – 10)2 = 42. 3 . 5. Metodi di stima puntuale Le proprietà di uno stimatore sono importanti perché specificano quali sono le caratteristiche desiderabili: uno stimatore con proprietà migliori di un altro è chiaramente preferibile. D’altra parte le proprietà indicate non dicono molto circa il problema come fare a trovare uno stimatore (magari anche “buono”). Infatti, riprendendo alcune considerazioni già fatte: 26 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • la ricerca di stimatori sufficienti, seppur importante dal punto di vista della sintesi delle informazioni, non dice molto circa la capacità dello stimatore di “andare vicino” al parametro incognito; • la ricerca dello stimatore che minimizza il MAE o il MSE per ogni valore del parametro non ha soluzione; • la ricerca dello stimatore che minimizza il MSE nella classe dei soli stimatori corretti ha soluzione solo in casi relativamente semplici (oltre al fatto di essere assai complessa); • infine le proprietà di correttezza non fanno alcun riferimento al “come fare” per trovare degli stimatori. Per questi motivi occorre allora trattare i metodi di stima puntuale proposti in letteratura verificando se, ed in quali condizioni operative, producono stimatori che soddisfano le proprietà indicate. In letteratura sono stati proposti molti metodi di stima, ciascuno adatto in specifici contesti. Ne ricordiamo i principali: 1. Metodo della massima verosimiglianza 2. Metodo della minima perdita (il caso più importante, ma non l’unico, è il metodo dei minimi quadrati che vedremo in particolare nell’ambito del modello di regressione) 3. Metodo dei momenti 4. Metodo degli stimatori analoghi 5. Metodo del minimo Chi-quadrato 6. Metodo della minima distanza 5.1. Massima verosimiglianza Il metodo di gran lunga più rilevante fra quelli menzionati è metodo della massima verosimiglianza. La sua importanza è dovuta: 1. alle particolari proprietà di cui godono gli stimatori ottenuti con tale metodo; 2. alla generalità e alla relativa semplicità del metodo dal punto di vista del calcolo (per poterlo applicare basta che si riesca a calcolare la verosimiglianza); 27 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 3. alla notevole diffusione del metodo, peraltro legata ai due punti precedenti: possiamo stimare che circa l’85-90% dei modelli sono stimati con tale metodo. In questa sezione si descrivono le principali caratteristiche del metodo della massima verosimiglianza. Questa trattazione ci consentirà anche, attraverso gli esempi, di illustrare concretamente quanto visto nella precedente sez. 4 circa le proprietà degli stimatori. 5.1.1. Descrizione del metodo Data una v.c. X, con funzione di massa o di densità, f(x; θ), e un c.c.s. X = (X1, …, Xn) estratto da X, abbiamo già detto che la distribuzione del campione X = (X1, …, Xn) è data dalla funzione di massa o di densità f(x1, …, xn; θ) = n ∏ f(xi; θ). i=1 Ovviamente, in quanto funzione di massa o di densità f(x1, …, xn; θ) è una funzione delle osservazioni del campione x = (x1, …, xn) per un certo θ fissato. La verosimiglianza L(θ) è la funzione di massa o di densità del campione X = (X1, …, Xn) vista però come funzione del parametro per fissato il campione, cioè L(θ) = f(x1, …, xn; θ) = n ∏ f(xi; θ). i=1 Pertanto la verosimiglianza coincide in termini formali con la funzione di massa o di densità del campione; si tratta infatti della stessa espressione interpretata: 1. come funzione degli elementi campionari x = (x1, …, xn) (funzione di massa o di densità) che variano nell'universo dei campioni per θ fissato; 2. come funzione del parametro θ per un campione x = (x1, …, xn) prefissato. Nella prima interpretazione (a priori), si fa riferimento all’universo dei campioni e le variabili che interessano sono, appunto, le variabili casuali campionarie (X1, …, Xn). Nella seconda interpretazione (a posteriori), le variabili campionarie hanno assunto particolari determinazioni (x1, …, xn) (il campione) e sono, pertanto, costanti note; risulta, allora, ragionevole interpretare l’espressione come funzione del parametro (o dei parametri) θ che, pur essendo una costante, assume la veste di variabile essendo 28 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa incognito il suo valore. ~ Il metodo di stima della massima verosimiglianza consiste nello scegliere il valore θ che massimizza la funzione L(θ). Se L(θ) è una funzione differenziabile, condizione necessaria affinché essa abbia un massimo rispetto a θ è che dL(θ ) = 0. dθ D’altra parte fare la derivata di L(θ) comporta, sulla base dell’espressione di cui sopra, n fare la derivata del prodotto ∏ f(xi; θ), cosa in generale abbastanza fastidiosa per le i=1 note caratteristiche della derivazione di un prodotto. Per questo motivo, in genere si preferisce massimizzare non la verosimiglianza L(θ) ma il logaritmo naturale della verosimiglianza l(θ) = ln L(θ) = n ∑ ln f(xi; θ) i=1 detto log-verosimiglianza. Essendo il logaritmo naturale una funzione monotona, è ~ garantito che il θ che massimizza la log-verosimiglianza l(θ) è identico a quello che massimizza la verosimiglianza L(θ). Di nuovo, se la log-verosimiglianza l(θ) è una funzione differenziabile allora condizione necessaria affinché abbia un massimo è s(θ) = dl (θ ) = 0. dθ La derivata prima della log-verosimiglianza s(θ) è spesso indicata col termine score; di conseguenza, se la log-verosimiglianza è differenziabile allora condizione necessaria affinché abbia un massimo è che lo score sia 0. Si nota come l’applicazione del logaritmo ha trasformato un prodotto in una somma, decisamente più facile da derivare dato che in generale “la derivata di una somma è la somma delle derivate”; il altre parole lo score è dato in generale da s(θ) = dl (θ ) = dθ n ∑ i=1 29 d ln f(xi; θ). dθ B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa ~ Il valore θ che massimizza la verosimiglianza o la log-verosimiglianza è detto stima di massima verosimiglianza del parametro incognito θ. Se nella soluzione si sostituiscono alle determinazioni (x1, ..., xn) le corrispondenti variabili casuali (X1, ..., Xn) si ottengono gli stimatori di massima verosimiglianza. Ovviamente se la distribuzione della variabile casuale X, è caratterizzata da più parametri θ1, ..., θk, per trovare il massimo occorrerà uguagliare a 0 ciascuna delle derivate parziali rispetto ad ogni singolo parametro (lo score è quindi un vettore a k componenti, una per ogni parametro incognito) e poi ricavare la stima dei parametri facendo il sistema fra le equazioni ottenute. Vediamo ora in alcuni esempi semplici come funziona il metodo della massima verosimiglianza e le caratteristiche degli stimatori ottenuti con tale metodo. [Anche se ad una prima lettura questo materiale sembra “vasto”, lo schema di ragionamento seguito è sempre lo stesso e si basa su quanto esposto nelle sezioni precedenti. Si consiglia lo studente di provare da solo, con carta e penna, a ricostruire il filo logico degli argomenti presentati]. 5.1.2. Esempio X ~ Be(p) Se si ipotizza che la v.c. X ~ Be(p), allora la log-verosimiglianza è data da n l(p) = ∑ n ln f(xi; p) = i=1 ∑ ln ( p xi q1− xi ) i=1 che dopo alcune semplificazioni diviene n l(p) = ln p ∑ xi + ln q (n – i=1 n ∑ xi). i=1 Derivando l(p) rispetto a p per ottenere lo score ed uguagliando a 0 si ottiene 1 s(p) = p n ∑ i=1 1 xi – (n – q n ∑ xi) = 0. i=1 Risolvendo tale equazione rispetto a p si ricava dopo alcuni passaggi che la stima di massima verosimiglianza di p è 30 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 1 ~ p = n n ∑ xi = x . i=1 Questo significa che lo stimatore di massima verosimiglianza di p è 1 ~ p = X = n n ∑ Xi, i=1 detta media campionaria. Poiché ciascuna Xi è una Be(p), allora essa risulterà 0 n (INSUCCESSO) o 1 (SUCCESSO); ne consegue che ∑ Xi sarà semplicemente la i=1 somma degli 1, cioè la somma dei successi nel campione, e X = 1 n n ∑ Xi sarà i=1 semplicemente la proporzione di successi nel campione. Ma quali proprietà ha lo stimatore ottenuto? • n Da come è scritta la log-verosimiglianza si nota subito che ∑ Xi (e qualsiasi altra i=1 trasformazione biunivoca della stessa) è una statistica sufficiente per p. Di conseguenza ~ p = X è uno stimatore sufficiente, essendo funzione di tale statistica sufficiente. • In secondo luogo la distribuzione campionaria di ~ p = X può essere ricavata sulla base di quanto detto nel cap. 2 sulla distribuzione Binomiale [rivedere!]. Infatti: Xi ~ Be(p) ⇒ n ∑ i=1 1 Xi ~ Bi(n, p) ⇒ ~ p = X = n n ∑ Xi ~ BiRe(n, p). Dunque ~ p = X si i=1 distribuisce, esattamente, come una Binomiale con parametri n e p, relativizzata per il numero di osservazioni del campione. Tale distribuzione per n sufficientemente grande può essere approssimata con la distribuzione Normale avente la stessa media (p) e la stessa varianza (pq/n) della Binomiale relativa. In simboli ~ p = X ~ BiRe(n, p) ≈ N(µ = p, σ2 = pq/n). • Quanto detto permette di ottenere immediatamente i principali indici caratteristici della distribuzione campionaria di ~ p = X . Infatti, per le proprietà della Binomiale relativa (menzionate sopra), 31 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa E( X ) = p, V( X ) = pq/n. Su questa base si vede subito che X è uno stimatore corretto di p e che, quindi, il suo MSE( X ; p) coincide con la varianza dello stimatore. • Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le n ∑ proprietà dei valori attesi e il fatto che, essendo i=1 n Xi ~ Bi(n, p), E( ∑ Xi) = np, i=1 allora ds ( p ) = –E(–p–2 I(p) = –E dp n ∑ n ∑ –2 Xi – q (n – i=1 Xi)) = p–2 n p + q–2 (n – np) = i=1 n/pq, da cui 1/I(p) = pq/n che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo stimatore migliore di p nella classe degli stimatori corretti. • Da quanto detto sopra consegue che X è consistente in senso forte per p, dato che MSE( X ; p) = pq/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella debole, X è anche consistente in senso debole per p. 5.1.3. Esempio X ~ Po(λ) Se si ipotizza che la v.c. X ~ Po(λ) allora la log-verosimiglianza è data da l(λ) = n ∑ ln f(xi; λ) = i=1 n ∑ ln i=1 λ xi e −λ xi ! che dopo alcune semplificazioni diviene n l(λ) = ln λ ∑ xi – nλ – i=1 n ∑ ln xi! i=1 Derivando rispetto a λ per ottenere lo score ed uguagliando a 0 si ottiene s(λ) = 1 λ n ∑ xi – n = 0. i=1 Risolvendo tale equazione rispetto a λ, si ricava che la stima di massima vero- 32 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa simiglianza di λ è ~ 1 λ = n n ∑ xi = x . i=1 Questo significa che lo stimatore di massima verosimiglianza di λ è ~ 1 λ = X = n n ∑ Xi, i=1 di nuovo la media campionaria. Ma quali proprietà ha lo stimatore ottenuto? • n Da come è scritta la log-verosimiglianza si nota subito che ∑ Xi (e qualsiasi altra i=1 trasformazione biunivoca della stessa) è una statistica sufficiente per λ. Di ~ conseguenza λ = X è uno stimatore sufficiente, essendo funzione di tale statistica sufficiente. • ~ In secondo luogo la distribuzione campionaria di λ = X può essere ricavata sulla base di quanto detto nel cap. 2 sulla distribuzione Poisson [rivedere!]. Infatti: Xi ~ n ~ Po(λ) ⇒ (additività per v.c. Poisson indipendenti) ∑ Xi ~ Po(nλ) ⇒ λ = X = i=1 1 n n ∑ ~ Xi ~ PoRe(nλ). Dunque λ = X si distribuisce, esattamente, come una i=1 Poisson con parametro nλ, relativizzata per il numero di osservazioni del campione. Tale distribuzione per n sufficientemente grande può comunque essere approssimata con la distribuzione Normale avente la stessa media (λ) e la stessa varianza (λ/n) della Poisson Relativa. In simboli ~ λ = X ~ PoRe(nλ) ≈ N(µ = λ, σ2 = λ/n). • Quanto detto permette di ottenere immediatamente i principali indici caratteristici ~ della distribuzione campionaria di λ = X . Infatti per le proprietà della Poisson relativa (menzionate sopra) E( X ) = λ, V( X ) = λ/n. 33 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Su questa base si vede subito che X è uno stimatore corretto di λ e che, quindi, il suo MSE( X ; λ) coincide con la varianza dello stimatore. • Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le n proprietà dei valori attesi e il fatto che, essendo ∑ i=1 n Xi ~ Po(nλ), E( ∑ Xi) = nλ, i=1 allora ds (λ ) –2 I(λ) = –E = –E(–λ dλ n ∑ Xi) = λ–2 n λ = n/λ, i=1 da cui 1/I(λ) = λ/n che è identico a V( X ) (vedi sopra). Questo significa che X è in assoluto lo stimatore migliore di λ nella classe degli stimatori corretti. • Da quanto detto sopra consegue che X è consistente in senso forte per λ, dato che MSE( X ; λ) = λ/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella debole, X è anche consistente in senso debole per λ. 5.1.4. Esempio X ~ N(µ, σ2) Se si ipotizza che la v.c. X ~ N(µ, σ2) allora la log-verosimiglianza è data da l(µ, σ2) = n ∑ ln f(xi; µ, σ2) = i=1 n ∑ i=1 1 1 x − µ 2 ln exp − i 2 2 σ 2πσ che dopo alcune semplificazioni diviene l(µ, σ2) = – 1 n n ln(2π) – lnσ2 – 2 2 2σ 2 n ∑ (xi – µ)2. i=1 In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri e possiamo distinguere i seguenti casi. a) Stima di µ con σ2 nota Se si vuole stimare µ e si conosce il valore di σ2, allora la log-verosimiglianza dipende dal solo parametro µ. La formula è identica alla precedente ma conviene esplicitarla: 34 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa l(µ) = – n n 1 ln(2π) – lnσ2 – 2 2 2σ 2 n ∑ (xi – µ)2. i=1 Per ricavare la stima di massima verosimiglianza di µ, si deriva l(µ) rispetto µ per ottenere lo score e si uguaglia a 0: s(µ) = – n 1 2σ 2 ∑ 2(xi – µ)(–1) = 0, i=1 che dopo alcune semplificazioni diviene s(µ) = 1 σ2 n ( ∑ xi – nµ) = 0. i=1 Risolvendo rispetto a µ si ricava che la stima di massima verosimiglianza di µ è 1 µ~ = n n ∑ xi = x . i=1 Questo significa che lo stimatore di massima verosimiglianza di µ è 1 µ~ = X = n n ∑ Xi, i=1 di nuovo la media campionaria. Ma quali proprietà ha lo stimatore ottenuto? • La distribuzione campionaria di µ~ = X può essere ricavata sulla base di quanto detto nel cap. 2 sulla distribuzione Normale [rivedere!]. Infatti: Xi ~ N(µ, σ2) ⇒ (proprietà delle combinazioni lineari per v.c. Normali indipendenti con ci = 1/n per i 1 = 1, …, n) µ~ = X = n n ∑ Xi ~ N(µ, σ2/n). In breve, allora, i=1 µ~ = X ~ N(µ, σ2/n). • Quanto detto permette di ottenere immediatamente i principali indici caratteristici della distribuzione campionaria di µ~ = X . Infatti per le proprietà della Normale (menzionate sopra) V( X ) = σ2/n. E( X ) = µ, 35 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il suo MSE( X ; µ) coincide con la varianza dello stimatore. • Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score e le proprietà dei valori attesi allora ds (µ ) 1 = –E( I(µ) = –E (– n)) = n/σ2, 2 σ dµ da cui 1/I(µ) = σ2/n che è identico a V( X ) (vedi sopra). Questo significa che, se σ2 è noto, X è in assoluto lo stimatore migliore di µ nella classe degli stimatori corretti. • Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che MSE( X ; µ) = σ2/n tende a 0 per n → +∞. Poiché la consistenza forte implica quella debole, X è anche consistente in senso debole per µ. b) Stima di σ2 con µ nota Se si vuole stimare σ2 e si conosce il valore di µ, allora la log-verosimiglianza dipende dal solo parametro σ2. La formula è identica alla precedente: n n 1 l(σ ) = – ln(2π) – lnσ2 – 2 2 2σ 2 2 n ∑ (xi – µ)2. i=1 Per ricavare la stima di massima verosimiglianza di σ2, si deriva rispetto σ2 per ottenere lo score e si uguaglia a 0: s(σ2) = – n 2σ 2 + n 1 2σ 4 ∑ (xi – µ)2 = 0. i=1 Risolvendo rispetto a σ2, si ricava che la stima di massima verosimiglianza di σ2 è 1 σ~ 2 = n n ∑ i=1 (xi – µ)2 = s*2* . Questo significa che lo stimatore di massima verosimiglianza di µ è 1 σ~ 2 = S*2* = n detta varianza campionaria con µ nota. 36 n ∑ i=1 (Xi – µ)2, B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Ma quali proprietà ha lo stimatore ottenuto? • La distribuzione campionaria di σ~ 2 = S *2* può essere ricavata sulla base di quanto detto nel cap. 2 sulla distribuzione Chi-quadrato [rivedere!]. Infatti: Xi ~ N(µ, σ2) 2 Xi − µ X −µ 2 ~ N(0, 1) ⇒ i ⇒ ~ χ (1) ⇒ (additività per v.c. Chi-quadrato σ σ 2 n indipendenti) X −µ ∑ iσ ~ χ2(n). Ma i =1 nS *2* σ2 • 2 nS *2* Xi − µ = ∑ σ σ 2 , per cui, in breve, i =1 n 2 n X −µ ∑ iσ ~ χ2(n). i =1 = Quanto detto permette anche di ottenere immediatamente i principali indici caratteristici della distribuzione campionaria di σ~ 2 = S *2* . Infatti, per le proprietà della Chi-quadrato, nS *2* E 2 = n σ nS*2* V 2 = 2n, σ da cui deriva, sfruttando le proprietà dei valori attesi, E( S *2* ) = σ2 V( S *2* ) = 2σ4/n. Su questa base si vede subito che σ~ 2 = S *2* è uno stimatore corretto di σ2 e che, quindi, il suo MSE( S *2* ; σ2) coincide con la varianza dello stimatore. • Calcoliamo ora il limite di Cramér-Rao. Ricordando la formula dello score, le n 2 2 n Xi − µ X −µ 2 proprietà dei valori attesi e il fatto che, essendo ∑ ~ χ (n), E( ∑ i ) i=1 σ i=1 σ = n, allora ( ) = –E( ds σ 2 I(σ2) = –E dσ 2 n 2σ 4 – n 1 2σ 6 ∑ (xi – µ)2) = – i=1 da cui 1/I(σ2) = 2σ4/n 37 n 2σ 4 + n σ 4 = n 2σ 4 , B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa che è identico a V( S *2* ) (vedi sopra). Questo significa che, se µ è noto, S *2* è in assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti. • Da quanto detto sopra consegue che S *2* è consistente in senso forte per σ2, dato che MSE( S *2* ; σ2) = 2σ4/n tende a 0 per n → ∞. Poiché la consistenza forte implica quella debole, S *2* è anche consistente in senso debole per σ2. c) Stima di µ e σ2 entrambi incogniti Se si vuole stimare µ e σ2 entrambi incogniti (la cosa più comune nella pratica), allora la log-verosimiglianza è quella vista all’inizio di questo esempio: l(µ, σ2) = – n n 1 ln(2π) – lnσ2 – 2 2 2σ 2 n ∑ (xi – µ)2. i=1 Per ricavare la stima di massima verosimiglianza di µ e σ2 occorre derivare rispetto ad entrambe le variabili, ottenendo (i passaggi sono gli stessi visti in precedenza) le due componenti del vettore score, ed uguagliarle a 0: s(µ) = s(σ2) = – σ2 n 2σ n 1 2 + ( ∑ xi – nµ) = 0, i=1 n 1 2σ 4 ∑ (xi – µ)2 = 0. i=1 Facendo il sistema e risolvendo rispetto ai parametri si ottengono le stime: 1 µ~ = x = n n ∑ xi i=1 1 σ~ 2 = n n ∑ i=1 (xi – x )2 = s*2 . Questo significa che gli stimatori di massima verosimiglianza di µ è di σ2 sono rispettivamente 1 µ~ = X = n n ∑ i=1 Xi 1 σ~ 2 = S*2 = n n ∑ (Xi – X )2, i=1 ovvero, rispettivamente, la media campionaria e la varianza campionaria non corretta. Ma quali proprietà hanno gli stimatori ottenuti? 38 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche n ∑ n ∑ X i2 Xi e i=1 (e qualsiasi altra trasformazione biunivoca di tale coppia) è i=1 sufficiente per µ e σ2 (per ottenere tale risultato basta svolgere il quadrato nel n termine ∑ (xi – µ)2 e operare le relative somme). Di conseguenza µ~ = X e σ~ 2 = i=1 S*2 sono insieme stimatori sufficienti, essendo funzione di tali statistiche sufficienti. • Analizziamo adesso la distribuzione campionaria di σ~ 2 = S*2 . Innanzitutto si può dimostrare (si omette la dimostrazione perché piuttosto complessa) che le v.c. X e S*2 sono fra loro indipendenti. Inoltre sottraendo e sommando X all’interno di n ∑ (Xi – µ)2 si ricava i=1 n ∑ (Xi – µ)2 = i=1 n ∑ (Xi – X )2 + n( X –µ)2 n Xi − X σ i=1 che, dividendo per σ2, equivale a n ∑ i=1 2 Xi − µ = σ ∑ i=1 2 2 X −µ + . σ / n Ora, poiché il membro di sinistra si distribuisce secondo una χ2(n) e il secondo addendo a destra si distribuisce secondo una χ2(1) ed è indipendente dal precedente (per quanto detto sopra) per differenza nS*2 σ2 • n = ∑ i=1 Xi − X σ 2 ~ χ2(n – 1). Quanto detto permette di ottenere immediatamente i principali indici caratteristici della distribuzione campionaria di σ~ 2 = S*2 . Infatti per le proprietà della Chiquadrato nS *2 E 2 = n – 1 σ nS *2 V 2 = 2(n – 1), σ da cui deriva, sfruttando le proprietà dei valori attesi, 39 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa E( S*2 ) = n −1 2 σ n V( S*2 ) = 2σ4 n −1 n2 . Su questa base si vede subito che σ~ 2 = S*2 è uno stimatore distorto di σ2 con bias( S*2 ; σ2) = E( S*2 ) – σ2 = –σ2/n. Inoltre, facendo due conti, MSE( S*2 ; σ2) = σ4(2n – 1)/n2. • Essendo S*2 uno stimatore distorto di σ2, il teorema di Cramér-Rao non si applica perché viene a cadere una delle ipotesi fondamentali dello stesso. • Chiaramente poiché MSE( S*2 ; σ2) = σ4(2n – 1)/n2 tende a 0 per n → ∞, S*2 è uno stimatore consistente in senso forte per σ2. Dato poi che la consistenza forte implica quella debole, S*2 è anche consistente in senso debole per σ2. Dalla formula del valore atteso di S*2 si nota tuttavia che se ne può facilmente ricavare uno non distorto. Infatti se nel valore atteso di S*2 si moltiplichiano ambo i membri per n/(n – 1), quello di destra diviene σ2 e lo stimatore (portando il fattore all’interno della parentesi) diviene n n 1 S *2 = n −1 n −1 n n ∑ (Xi – X )2 = i=1 1 n ∑ (Xi – X )2 n − 1 i=1 Questo nuovo stimatore di σ2 S2 = 1 n ∑ (Xi – X ), n − 1 i=1 ha quindi la proprietà di essere corretto ed è per questo detto varianza campionaria corretta. Ovviamente S2 non è stimatore di massima verosimiglianza di σ2. • Per la distribuzione campionaria di S2 si considera la v.c. (n − 1)S 2 = nS*2 σ2 • σ2 n = ∑ i=1 Xi − X σ 2 ~ χ2(n – 1). Questo risultato permette di ottenere immediatamente i principali indici caratteristici della distribuzione campionaria di S2. Infatti per le proprietà della Chi-quadrato 40 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa (n − 1)S 2 =n–1 E σ2 (n − 1)S 2 = 2(n – 1), V σ2 da cui deriva, sfruttando le proprietà dei valori attesi, E(S2) = σ2 V(S2) = 2σ4/(n – 1). Su questa base si vede subito che S2 è uno stimatore corretto di σ2 (risultato ovvio per come è stato costruito!) e che, quindi, il suo MSE(S2; σ2) coincide con la varianza dello stimatore. • Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo trovato in precedenza, è: 1/I(σ2) = 2σ4/n che come si nota è più piccolo di V(S2) (vedi sopra). Questo significa che S2 non è in assoluto lo stimatore migliore di σ2 nella classe degli stimatori corretti, anche se la differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al crescere di n. • A sua volta, da quanto detto sopra consegue che S2 è consistente in senso forte per σ2, dato che MSE(S2; σ2) = 2σ4/(n – 1) tende a 0 per n → ∞. Dato poi che la consistenza forte implica quella debole, S2 è anche consistente in senso debole per σ2. Veniamo ora alle caratteristiche dello stimatore µ~ = X . • Apparentemente sembrerebbe che, essendo lo stimatore identico al caso in cui σ2 è noto, non cambi niente rispetto a quanto detto nel caso a). In realtà la distribuzione dello stimatore vista in precedenza, cioè µ~ = X ~ N(µ, σ2/n), non è più utilizzabile, in quanto σ2 non è noto. Se, come sembra logico, si prova a sostituire σ2 con una sua stima, ad esempio S2, la distribuzione non è più la stessa, perché si sostituisce una costante con una v.c. Tuttavia utilizzando quanto detto nel cap. 2 sulla distribuzione T [rivedere!] è possibile ricavare la distribuzione di X . Infatti X ~ N(µ, σ2/n) ⇒ X −µ ~ N(0, 1). Sostituendo al denominatore σ con la sua stima S si σ/ n ricava 41 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa X −µ S/ n = X −µ X −µ σ/ n = S/ n σ/ n σ/ n (n − 1)S 2 (n − 1) 2 ~ T(n – 1) σ dato che il numeratore è una normale standard, il denominatore è la radice di una Chi-quadrato con (n – 1) gradi di libertà divisa per i gradi di libertà e numeratore e denominatore sono indipendenti (per la citata indipendenza di X e S2). • In base al risultato precedente si può dimostrare (la dimostrazione però è complessa) che E( X ) = µ, V( X ) = n−2 2 σ /n. n Su questa base si vede subito che X è uno stimatore corretto di µ e che, quindi, il suo MSE( X ; µ) coincide con la varianza dello stimatore. Si nota anche che la varianza di X è leggermente maggiore rispetto al caso in cui σ2 è nota: è il “prezzo” da pagare per il fatto di doverla stimare. • Confrontiamo questo risultato con il limite di Cramér-Rao. Tale limite, lo abbiamo trovato in precedenza, è 1/I(µ) = σ2/n che come si nota è più piccolo di V( X ) (vedi sopra). Questo significa che X non è in assoluto lo stimatore migliore di µ nella classe degli stimatori corretti, anche se la differenza rispetto al limite di Cramér-Rao è esigua e diminuisce rapidamente al crescere di n. • Da quanto detto sopra consegue che X è consistente in senso forte per µ, dato che MSE( X ; µ) = n−2 2 σ /n tende a 0 per n → ∞. Poiché la consistenza forte implica n quella debole, X è anche consistente in senso debole per µ. 5.1.5. Esempio X ~ Ga(α, β) Se si ipotizza che la v.c. X ~ Ga(α, β) allora la log-verosimiglianza è data da 42 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa l(α, β) = n ∑ ln f(xi; α, β) = i=1 n ∑ i=1 β α α −1 − βx ln x e Γ(α ) che dopo alcune semplificazioni diviene l(α, β) = nα lnβ – n ln Γ(α) – (α – 1) n ∑ i=1 n lnxi – β ∑ xi. i=1 In questo caso, ovviamente, la log-verosimiglianza dipende da 2 parametri. Supponiamo che siano entrambi incogniti. Per ricavare la stima di massima verosimiglianza di α e β occorre derivare rispetto ad entrambe le variabili, ottenendo le due componenti del vettore score, ed uguagliarle a 0: s(α) = n lnβ – n s(β) = Γ' (α ) – Γ(α ) n ∑ lnxi = 0, i=1 nα n – ∑ xi = 0. β i=1 Dalla seconda delle due espressioni è semplice ricavare β in funzione di α. Tuttavia sostituendo tale risultato nella prima equazione, la funzione gamma ivi coinvolta rende impossibile la derivazione analitica della stima di α. E senza scrivere la stima di α non è possibile esplicitare neppure quella di β. Questa situazione è interessante perché consente alcune precisazioni importanti. • Da come è scritta la log-verosimiglianza si ricava subito che la coppia di statistiche n ∑ i=1 n lnxi e ∑ xi (e qualsiasi altra trasformazione biunivoca di tale coppia) è i=1 sufficiente per α e β. Di conseguenza anche se non si riesce a dare l’espressione ~ esplicita, α~ e β sono insieme stimatori sufficienti. Infatti essendo questi il risultato della massimizzazione della log-verosimiglianza e dipendendo questa dal campione solo tramite tali statistiche, ovviamente anche il punto di massimo della ~ log-verosimiglianza, cioè ( α~ , β ), dipenderà dal campione solo via le statistiche sufficienti. Non può dipendere che da quello che c’è! 43 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • Come detto, non è possibile esplicitare le formule degli stimatori di massima ~ verosimiglianza α~ e β . Questo non significa che tali stimatori non esistono, ma solo, ripetiamo, che è impossibile scriverli in forma esplicita come funzione del campione. In base al punto precedente sappiamo solo che dipendono dal campione n tramite le statistiche sufficienti ∑ i=1 n lnxi e ∑ xi, ma la formula esplicita non si riesce i=1 a scrivere. Questa situazione, apparentemente strana e complicata, in realtà è (quasi) la regola. Infatti solo pochi modelli statistici, fra i quali quelli visti in precedenza, consentono di esplicitare la formula degli stimatori, di ricavarne l’esatta distribuzione campionaria, di indicare l’esatto valore degli indici caratteristici quali valore atteso, varianza e MSE. Quando questo non è possibile, come accade di norma, allora: 1. la massimizzazione della verosimiglianza può avvenire solo tramite algoritmi iterativi, implementati su calcolatore, che trovano valore in corrispondenza del massimo per approssimazioni successive iniziando da un punto di partenza (starting point); 2. le proprietà degli stimatori di massima verosimiglianza che si possono utilizzare sono essenzialmente quelle asintotiche (consistenza + efficienza asintotica + distribuzione asintotica) di cui discuteremo nel seguito. 5.1.6. Proprietà degli stimatori di massima verosimiglianza Finora abbiamo analizzato una serie di esempi, nei quali abbiamo visto (quando è stato possibile) che gli stimatori trovati hanno particolari proprietà, in genere abbastanza buone. C’è da chiedersi: fortuna? Oppure è il metodo della massima verosimiglianza che ogni volta fornisce stimatori dalle buone caratteristiche? Inoltre: le proprietà degli stimatori trovati vanno valutate caso per caso oppure è possibile trovare qualche proprietà valida in generale, ogni volta che il metodo della massima verosimiglianza è utilizzato? 44 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Ebbene, è possibile dimostrare che gli stimatori ottenuti col metodo della massima verosimiglianza godono di alcuna proprietà importanti. ~ 1. Invarianza: si può dimostrare che se θ è lo stimatore di massima verosimiglianza ~ di θ allora g( θ ) è lo stimatore di massima verosimiglianza di g(θ). In altri termini per stimare tramite massima verosimiglianza una qualche trasformazione di un parametro già stimato basta prendere la vecchia stima e trasformare questa allo stesso modo. Ad esempio: nel modello normale la stima di massima verosimiglianza di σ è la radice quadrata di σ~ 2 ; oppure nel modello di Poisson la stima di massima ~ verosimiglianza di 1/λ è direttamente 1/ λ . Quella di invarianza sembra una proprietà ragionevole (e perfino banale). In realtà non sono molti i metodi di stima che ne godono. 2. Stimatori sufficienti: Se esistono delle statistiche sufficienti allora gli stimatori di massima verosimiglianza sono funzione di questi e pertanto sono stimatori sufficienti. Come tali gli stimatori di massima verosimiglianza riassumono tutta l’informazione sui parametri presente nel campione. Questa proprietà è una conseguenza banale del criterio di fattorizzazione. Infatti se esistono stimatori sufficienti allora (si veda sez. 4.1) la log-verosimiglianza è la somma di due componenti: una dipende solo dal parametro e dalle statistiche sufficienti, l’altra solo dal campione; in simboli l(θ) = ln f(x; θ) = g1(T(x); θ) + h1(x). Siccome quando si deriva per trovare il massimo, la parte che non dipende dal parametro va via, allora lo score è s(θ) = dl (θ ) dg1 (T (x );θ ) = = 0. dθ dθ E’ ovvio che, qualunque sia l’equazione che viene fuori dalla precedente ~ uguaglianza (anche ipercomplicata), il θ potrà dipendere solo da quello che c’è in questa equazione, e dunque non da tutto il campione ma solo da T (se ovviamente un T sufficiente esiste). 3. Efficienza “per campioni finiti”: Si può dimostrare che se esiste uno stimatore corretto la cui varianza è pari al limite di Cramér-Rao, allora il metodo della massima verosimiglianza individua “automaticamente” tale stimatore (cfr esempi 45 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa visti in precedenza). Più in generale, gli stimatori di massima verosimiglianza hanno buone proprietà per campioni finiti. 4. Efficienza “asintotica”: Si può dimostrare che sotto condizioni molto generali di ~ regolarità, lo stimatore di massima verosimiglianza θ è asintoticamente (cioè per n → ∞) efficiente, ovvero: a. è asintoticamente corretto, cioè ~ lim E( θ n ) = θ; n→∞ ~ questo significa che la distorsione bias( θ n ; θ) va a 0 per n → ∞; b. la sua varianza tende al limite di Cramér-Rao il quale a sua volta tende a 0, cioè ~ lim V( θ n ) = 1/Ι(θ); n→∞ c. poiché di norma 1/Ι(θ) tende a 0 per n → ∞ è di conseguenza consistente in senso forte e quindi anche in senso debole. ~ 5. Normalità asintotica: Si può dimostrare che, per n → ∞, θ n ha distribuzione Normale con media il vero valore di θ e varianza pari al limite inferiore di CramérRao. In simboli ~ θ n ≈ N[θ, 1/I(θ)]. Gli ultimi tre risultati, e in particolare gli ultimi due, sono di importanza fondamentale. Richiamato il fatto che la proprietà 3 vale per campioni di qualsiasi dimensione, mentre la 4 e la 5 solo per “grandi” campioni, in generale tali proprietà affermano che, se il modello è correttamente specificato, il metodo della massima verosimiglianza fornisce buoni stimatori. Talmente buoni che: • per certi modelli raggiungono situazioni di ottimo anche per piccoli campioni, fornendo ad esempio il miglior stimatore fra quelli corretti (proprietà 3); • in generale sono praticamente imbattibili al crescere della dimensione campionaria (proprietà 4). Ma c’è di più. Infatti la proprietà 5 consente, se il campione è abbastanza grande, di derivare la distribuzione campionaria di qualsiasi stimatore, anche in quei casi (che come detto sono la maggioranza) nei quali lo stimatore non può essere scritto in forma 46 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa esplicita e per il quale, di conseguenza, è impossibile determinare distribuzione campionaria, valore atteso, varianza, ecc. Ad esempio per il modello Ga(α, β) di cui alla sez. 5.1.5, facendo i calcoli di I(α) e I(β) si ricava che 1 Γ(α )2 α~n ≈ N[α, 1/I(α)] = N α , 2 n Γ' ' (α )Γ(α ) − Γ' (α ) 1 β2 ~ β n ≈ N[β, 1/I(β)] = N β , . n α Per enfatizzarne l’importanza, le proprietà asintotiche 4 e 5 sono state identificate con le sigle BAN, Best Asymptotically Normal ovvero “asintoticamente il migliore stimatore e pure con distribuzione Normale”, oppure CANE, Consistent Asimptotically Normal Efficient ovvero “consistente, asintoticamente efficiente e pure con distribuzione Normale”. 5.2. Stimatori analoghi Sia X la v.c. che rappresenta il fenomeno d’interesse e supponiamo che la distribuzione di X sia caratterizzata da uno o più parametri θ ∈ Θ. Supponiamo poi di disporre di un c.c.s. X = (X1, …, Xn) estratto da X. Facendo riferimento ad un singolo parametro da stimare θ, il metodo degli stimatori analoghi può essere utilizzato quando θ ha una particolare interpretazione in termini di indici caratteristici della v.c. X. Infatti per stimatore analogo si intende uno stimatore la cui formula è suggerita dall’analogia interpretativa con il parametro da stimare θ in termini di indici caratteristici. Gli esempi che seguono chiariranno il senso di tale analogia. Si sottolinea di nuovo che, per la loro natura, è possibile trovare stimatori analoghi solo nei casi in cui il parametro ha un’interpretazione semplice che permette di sfruttare l’analogia. E’ chiaro anche che quando può essere utilizzato, tale approccio è di semplice applicazione, dato che è l’interpretazione del parametro in termini di indici caratteristici a suggerire in modo pressoché immediato uno stimatore. Aggiungiamo infine che, viste le ottime proprietà degli stimatori di massima verosimiglianza, gli stimatori analoghi in genere non sono in competizione con questi 47 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa ma sono utilizzati soprattutto in contesti semiparametrici (si veda sez. 1.1), cioè quando la distribuzione della v.c. non è completamente specificata ma se ne vogliono conoscere ugualmente certi indici caratteristici. 5.2.1. Esempio X ~ (µ, σ2) Supponiamo che la v.c. X abbia media µ e varianza σ2 ma non si vogliano fare ipotesi sulla, distribuzione di X. Vogliamo stimare µ e σ2. Siccome µ ha, appunto, una interpretazione in termini di media di X, lo stimatore analogo più immediato è la media campionaria µ̂ = X = 1 n n ∑ Xi. i=1 Ma quali proprietà ha tale stimatore? • Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione campionaria di X non può essere ricavata. • Possono essere tuttavia ricavati alcuni momenti di X , e in particolare V( X ) = σ2/n, E( X ) = µ ricorrendo dalle proprietà delle combinazioni lineari di v.c. di cui alle v.c. multiple nel cap. 2 [si invita lo studente a dimostrarle per conto proprio]. Questo implica che X è uno stimatore di µ corretto, con MSE uguale alla varianza, consistente in senso forte e quindi anche in senso debole. • Per ricavare una distribuzione approssimata di X bisogna ricorrere al teorema del limite centrale (cap. 2), sulla base del quale per n → ∞ X ha approssimativamente una distribuzione Normale con media µ e varianza σ2/n; in simboli X ≈ N(µ, σ2/n). Purtroppo questa distribuzione contiene il parametro σ2. Nel caso in cui questo sia noto non c’è nient’altro da aggiungere e quella indicata è la distribuzione che conviene considerare (sempre se n è sufficientemente grande). Tuttavia anche nel caso in cui σ2 non è noto, dato che la distribuzione di cui sopra è solo una 48 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa distribuzione asintotica, è possibile dimostrare che essa rimane inalterata se al posto di σ2 si mette una sua stima (di cui diremo tra breve) fatta con uno stimatore consistente. Giusto a proposito di σ2. Siccome tale parametro ha una interpretazione in termini di varianza di X, lo stimatore analogo più immediato è la varianza campionaria, in una delle diverse versioni già viste: se µ è noto conviene stimare σ2 con la varianza campionaria con µ nota, cioè σ̂ 2 = S*2* = 1 n n ∑ (Xi – µ)2, i=1 altrimenti se µ non è noto si può ricorrere alla varianza campionaria corretta, ovvero σ̂ 2 = S2 = 1 n ∑ (Xi – X )2. n − 1 i=1 Ma quali proprietà ha tale stimatore? • Non essendo nota la distribuzione della v.c. di partenza, l’esatta distribuzione campionaria di S *2* e di S2 non può essere ricavata. • Possono essere tuttavia derivati alcuni momenti di S *2* e di S2, e in particolare: E( S *2* ) = σ2 V( S *2* ) = [ µ 4 – σ4] /n, che sono utili se µ è noto; E(S2) = σ2 V(S2) = [ µ 4 – (n–3)/(n–1)σ4] /n, che sono utili se µ è incognito ( µ 4 = E[(X – µ)2] è il momento 4° centrale della v.c. X). Questo implica che entrambi gli stimatori sono corretti, consistenti in senso forte e quindi anche in senso debole di σ2. • Anche per S *2* e di S2 può essere ricavata una distribuzione asintotica che però non esplicitiamo per lo scarso uso che ne faremo in questo corso. 49 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 5.2.2. Esempi X ~ Be(p), X ~ Po(λ) Si invita lo studente a riflettere sul fatto che nei casi X ~ Be(p) e X ~ Po(λ), lo stimatore analogo del parametro sarebbe stato in entrambi i casi X , dato che i parametri p e λ sono anche le medie delle rispettive distribuzioni. In questi casi allora lo stimatore analogo coincide con quello di massima verosimiglianza per cui sono identiche anche le proprietà. 5.3. Altri metodi di stima puntuale Oltre al metodo della massima verosimiglianza e a quello degli stimatori analogici, molti altri metodi di stima sono stati proposti in letteratura. Un elenco, non esaustivo, è stato fatto all’inizio della sez. 5, nel quale ai due metodi indicati abbiamo aggiunto il metodo della minima perdita (all’interno del quale ha un’importanza particolare il metodo dei minimi quadrati), il metodo dei momenti, il metodo della minima distanza, il metodo del minimo χ2. In linea di massima, viste le eccellenti proprietà degli stimatori di massima verosimiglianza, in un contesto di inferenza parametrica in cui il modello è ben specificato tale metodo è pressoché imbattibile, come molti esperimenti di simulazione al calcolatore hanno dimostrato in contesti assai diversi. Gli altri metodi sono utilizzati, allora, soprattutto negli “spazi lasciati liberi” dal metodo della massima verosimiglianza, e cioè: 1. o quando il modello non è completamente specificato, come accade nell’inferenza semiparametrica (è il caso dei metodi della minima perdita, dei momenti e degli stimatori analoghi); 2. o quando la verosimiglianza è troppo difficile da calcolare (è di nuovo il caso del metodo dei momenti); 3. o quando la struttura dei dati rende utile il ricorso ad altri metodi (è il caso di metodi della minima distanza, e del minimo χ2). Poiché una trattazione esauriente dei metodi di stima va oltre i propositi di questo corso conviene fermarsi qui. In seguito si parlerà diffusamente del solo metodo dei minimi quadrati quando discuteremo del modello di regressione lineare. 50 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 51 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 6. Stima per intervallo Nelle pagine precedenti è stato considerato il problema della scelta del modo migliore per stimare uno o più parametri incogniti θ, sulla base di un campione di osservazioni. In base di quanto detto, si può presumere che se lo stimatore utilizzato possiede “buone” proprietà, la stima ottenuta θˆ sia “abbastanza vicina” al parametro incognito da stimare θ. Tuttavia un singolo numero non dà nessuna indicazione sulle probabilità che la stima θˆ assuma un valore prossimo a quello del parametro θ. Con il metodo di stima per intervallo si supera questo inconveniente. Infatti, detto in parole semplici, la stima per intervallo consiste nella ricerca di un intervallo che, con “alta probabilità”, contiene il valore vero del parametro da stimare. Definiamo ora il concetto con precisione. Sia X la solita v.c. che rappresenta il fenomeno d’interesse e supponiamo che X si distribuisca secondo la funzione di massa o di densità f(x; θ) dove θ ∈ Θ. Supponiamo poi che da X sia stato estratto un c.c.s. x = (x1, …, xn) che costituisce l’informazione a disposizione; tale campione è solo una delle possibili realizzazioni nell’universo dei campioni rappresentato dalla v.c. X = (X1, …, Xn), del quale ogni singola variabile Xi ha la stessa distribuzione di X. La procedura di stima per intervallo di θ consiste nella determinazione, sulla base delle informazioni campionarie, di due estremi L1(X) (estremo inferiore) e L2(X) (estremo superiore) in modo da soddisfare la relazione P[L1(X) ≤ θ ≤ L2(X)] = 1 – α, dove: α ∈ (0, 1), usualmente pari a 0.95, 0.99 o 0.999, è detto livello di confidenza; l’intervallo [L1(X), L2(X)] è detto stimatore per intervallo o, più comunemente, intervallo di confidenza, dove L1(X) e L2(X) sono v.c. in quanto funzioni del campione di v.c. X. Sostituendo nelle formule di L1(X) e L2(X) il campione a disposizione x = (x1, …, xn) al posto di X = (X1, …, Xn), si ottiene la stima per intervallo o intervallo di confidenza numerico [L1(x), L2(x)] utilizzato nella pratica. Si fa notare che fra l’intervallo casuale [L1(X), L2(X)] e quello numerico [L1(x), L2(x)] c’è la stessa differenza che, nell’ambito della stima puntuale, esiste fra stimatore T(X) e 52 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa stima T(x): proprio questo suggerisce di chiamare [L1(X), L2(X)] stimatore per intervallo e [L1(x), L2(x)] stima per intervallo di θ. Evidentemente nelle situazioni reali si dispone di un solo campione, e quindi di una sola determinazione [L1(x), L2(x)], dell'intervallo casuale di confidenza [L1(X), L2(X)]: pertanto [L1(x), L2(x)] potrà essere o uno degli (1 – α)% includenti θ o uno degli α% che non lo includono. Quindi non si può dire che l’intervallo [L1(x), L2(x)] ha probabilità 1 – α di contenere il vero valore del parametro incognito θ. Infatti, o lo contiene, e allora la probabilità è 1, o non lo contiene, e allora la probabilità è 0: la probabilità è riferita allo stimatore [L1(X), L2(X)] e non alla stima [L1(x), L2(x)]. Da tale constatazione deriva la dizione, per 1 – α , di livello di confidenza e non di livello di probabilità. Ogni intervallo di confidenza è caratterizzato da due elementi essenziali: 1. il livello di confidenza, che ne misura l’affidabilità o attendibilità; 2. l’ampiezza dell’intervallo, che ne misura l’informatività. Ovviamente, l’obiettivo da perseguire è individuare intervalli contemporaneamente molto affidabili e altamente informativi. Purtroppo, tra affidabilità e informatività c’è sempre una relazione inversa: all’aumentare del livello di confidenza (affidabilità) aumenta anche l’ampiezza dell’intervallo e, quindi, diminuisce la sua informatività. Non è quindi possibile, nella determinazione di un intervallo di confidenza, perseguire contemporaneamente il duplice obiettivo di massimizzare il livello di confidenza e minimizzare l’ampiezza dell’intervallo. La procedura usualmente seguita è allora quella di fissare il livello di confidenza 1 – α e individuare il conseguente intervallo di ampiezza minima. Ma come fare per determinare un intervallo di confidenza? Fra i molti metodi proposti in letteratura si considera il solo metodo del pivot (o metodo del cardine). Prima di illustrare il metodo occorre chiarire cos’è un pivot. Definizione 10: Definizione di pivot. Sia X una v.c. con funzione di massa o di densità f(x; θ), dove θ ∈ Θ, e sia X = (X1, …, Xn) un c.c.s. estratto da X. Allora 53 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa un pivot (o cardine) è una quantità che possiede le seguenti caratteristiche: 1. è funzione del campione X = (X1, …, Xn); 2. è funzione di θ (il parametro di cui si vuol trovare l’intervallo di confidenza); 3. non contiene altri parametri incogniti (oltre a θ); 4. la sua distribuzione è completamente nota; 5. è invertibile rispetto a θ. Sulla base di queste caratteristiche possiamo identificare il pivot con Q(X; θ). Il concetto di pivot e, soprattutto, la sua utilità saranno completamente chiari solo dopo aver visto alcuni esempi. Come passo iniziale si invita tuttavia lo studente a confrontare la definizione di pivot con quelle di statistica e di stimatore, appuntando analogie e differenze. Vediamo ora come avendo a disposizione un pivot è possibile trovare un intervallo di confidenza per il parametro d’interesse. Il metodo del pivot si articola nei seguenti passi: 1. si sceglie il livello di confidenza 1 – α; 2. si individua un pivot Q(X; θ) per il problema in analisi; 3. si determina l’intervallo più stretto (più informativo) [q1, q2] all’interno del quale il pivot è compreso con probabilità pari al livello di confidenza scelto, cioè P[q1 ≤ Q(X; θ) ≤ q2] = 1 – α; 4. si inverte la relazione q1 ≤ Q(X; θ) ≤ q2 rispetto a θ in modo da ricavare l’intervallo di confidenza cercato per θ, che quindi soddisferà P[L1(X) ≤ θ ≤ L2(X)] = 1 – α. La descrizione del metodo, la cui applicazione sarà definitivamente chiara solo dopo aver visto gli esempi, permette di argomentare perché un pivot deve avere le caratteristiche richieste nella definizione. Infatti: 1. deve essere funzione del campione X perché se questo non compare non è possibile sfruttarne l’informazione; 2. deve 54 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa dipendere dal parametro θ perché altrimenti è impossibile ricavare un intervallo di confidenza per θ se questo non c’è; 3. non deve dipendere da altri parametri incogniti perché altrimenti la soluzione è funzione di qualcosa che non si conosce ed è del tutto inutile; 4. la sua distribuzione deve essere completamente nota perché altrimenti non è possibile calcolare l’intervallo per il pivot, [q1, q2], di cui al punto 3; 5. deve infine essere invertibile rispetto al parametro perché altrimenti non è possibile ricavare l’intervallo per θ, [L1(X), L2(X)], di cui al punto 4. Rimane un ultimo punto da definire: come si trova un pivot? In linea di massima questo aspetto deve essere affrontato caso per caso, come vedremo negli esempi. Tuttavia, la via più facile per individuare un pivot è quella di partire da uno stimatore puntuale θ̂ , possibilmente ottimale, del parametro incognito θ e poi effettuare opportune trasformazioni in modo da ricavare il pivot. Gli esempi che seguono, che illustrano il metodo per alcuni modelli, dovrebbero chiarire definitivamente come funziona il metodo del pivot. Nei primi esempi svolgeremo tutti i passaggi logici con un certo dettaglio; successivamente, dato che molti passaggi si ripetono analoghi, ci limiteremo ai soli punti principali; si consiglia tuttavia lo studente di ripetere per tutti gli esempi l’intero ragionamento. Si evidenzia infine che nelle applicazioni pratiche non è necessario ripetere tutti i passi del metodo: basta utilizzare il pivot oppure le formule finali. Conoscere il metodo, però, serve per dare una base logica a quanto fatto operativamente e per avere chiaro il perché di quello che si fa. [Poiché faremo uso di molti concetti visti sia nel cap. 2 che nelle sezioni precedenti di questo capitolo, si raccomanda lo studente di riguardare queste parti quando necessario. Di nuovo, inoltre, si invita lo studente a ricostruire il filo logico degli argomenti presentati carta e penna alla mano.] 6.1. X ~ N(µ, σ2): intervallo per µ con σ2 nota Sia X ~ N(µ, σ2) con σ2 nota. Si vuole costruire un intervallo di confidenza per µ, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). 55 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • Il punto cruciale è l’individuazione del pivot (passo 2 del metodo). - Si parte da uno stimatore puntuale “buono” di µ (si veda sez. 5.1.4): X. Questo non è un pivot perché dipende dal campione ma non da µ, il parametro di cui si vuol trovare l’intervallo. - Ricordando che X ~ N(µ, σ2/n) (sez. 5.1.4), possiamo allora considerare come candidato a pivot X – µ. Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da altri parametri incogniti e la sua distribuzione è completamente nota, dato che X – µ ~ N(0, σ2/n). - Tuttavia, di norma si preferisce considerare come pivot X −µ σ/ n dato che questo ha una distribuzione N(0, 1) per la quale sono immediatamente disponibili le tavole. • Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della N(0, 1), la distribuzione del pivot, si ricava l’intervallo più stretto [z1, z2] all’interno del quale il pivot è compreso con probabilità (1 – α): P[z1 ≤ X −µ σ/ n ≤ z2] = 1 – α. Per la simmetria della distribuzione Normale, si dimostra che l’intervallo più stretto è quello per il quale z1 e z2 sono simmetrici rispetto a 0. Di conseguenza si ha [z1, z2] = [–z, z] e quindi P[–z ≤ X −µ σ/ n ≤ z] = 1 – α, dove z è il quantile 1 – α/2 della N(0, 1). Si fa notare che questo intervallo lascia esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra. • A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal precedente [si invita lo studente a fare i passaggi!] l’intervallo di confidenza per µ: 56 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa P( X – zσ/ n ≤ µ ≤ X + zσ/ n ) = 1 – α. L’intervallo di confidenza cercato per µ è quindi [ X – zσ/ n , X + zσ/ n ]. Importante: per quanto detto nella sez. 5.2.1, se la dimensione del campione n è sufficientemente grande si arriva ad un risultato identico anche se non si fa nessuna ipotesi sulla legge di distribuzione di X, cioè si suppone semplicemente X ~ (µ, σ2), dove σ2 è nota oppure viene stimata con uno stimatore consistente, ad esempio S2. Si evidenzia che questo risultato rappresenta il prototipo di tutti gli intervalli di confidenza che si ottengono quando la distribuzione dello stimatore è Normale. Infatti se θˆ è uno stimatore di θ con distribuzione (anche approssimativamente) Normale, diciamo θˆ ~ N[θ, σ2( θˆ )], allora gli intervalli che scaturiscono sono sempre del tipo [ θˆ – zσ( θˆ ), θˆ + zσ( θˆ )]. Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore ha una distribuzione Normale (come in molti degli esempi che seguiranno): basta sostituire a θ il parametro considerato, a θˆ lo specifico stimatore e a σ( θˆ ) la deviazione standard dello stimatore (o una sua stima se il campione è abbastanza grande). Ad esempio nell’ esempio discusso si ha θ = µ, θˆ = X e σ( θˆ ) = σ/ n . 6.2. X ~ N(µ, σ2): intervallo per µ con σ2 non nota Sia X ~ N(µ, σ2) con σ2 incognita. Si vuole costruire un intervallo di confidenza per µ, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). • Individuiamo il pivot (passo 2 del metodo). - Si parte dal pivot dell’esempio precedente, cioè X −µ σ/ n 57 . B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Purtroppo questo non è più un pivot perché dipende dal campione e da µ, ma dipende anche da σ che adesso è incognito. - Per trasformare il precedente in un pivot possiamo sostituire σ con un suo stimatore, ad esempio S. In questo modo si ottiene X −µ . S/ n Questo è un pivot perché dipende dal campione, dipende da µ, non dipende da altri parametri incogniti e la sua distribuzione è nota, dato che X −µ ~ T(n – 1) S/ n (si veda sez. 5.1.4). • Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della T(n – 1), la distribuzione del pivot, si ricava l’intervallo più stretto [t1, t2] all’interno del quale il pivot è compreso con probabilità (1 – α): P[t1 ≤ X −µ ≤ t2] = 1 – α. S/ n Per la simmetria della distribuzione T, si dimostra che l’intervallo più stretto è quello per il quale t1 e t2 sono simmetrici rispetto a 0. Di conseguenza [t1, t2] = [–t, t] e quindi P[–t ≤ X −µ ≤ t] = 1 – α, S/ n dove t è il quantile 1 – α/2 della T(n – 1). Di nuovo si fa notare che questo intervallo lascia esattamente α/2 alla sua sinistra e ancora α/2 alla sua destra. • A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal precedente l’intervallo di confidenza per µ [si invita lo studente a fare i passaggi!]: P[ X – t S/ n ≤ µ ≤ X + t S/ n ] = 1 – α. L’intervallo di confidenza cercato per µ è quindi [ X – t S/ n , X + t S/ n ]. Di nuovo, si segnala che questo risultato rappresenta il prototipo di tutti gli intervalli di confidenza che si ottengono quando la distribuzione dello stimatore è T. Infatti se θˆ è uno stimatore di θ che, una volta standardizzato, ha una distribuzione T, diciamo 58 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa θˆ − θ ~ T (n), σ θˆ () allora gli intervalli che scaturiscono sono sempre del tipo [ θˆ – tσ( θˆ ), θˆ + tσ( θˆ )]. Questo risultato può essere sfruttato, appunto, tutte le volte che lo stimatore considerato ha una distribuzione T (come in alcuni esempi che seguiranno): basta sostituire a θ il parametro considerato, a θˆ lo specifico stimatore e a σ( θˆ ) la deviazione standard dello stimatore o, più spesso, una sua stima. Ad esempio nel presente esempio si pone θ = µ, θˆ = X e σ( θˆ ) = S/ n . 6.3. X ~ N(µ, σ2): intervallo per σ2 con µ nota Sia X ~ N(µ, σ2) con µ nota. Si vuole costruire un intervallo di confidenza per σ2, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). • Individuiamo il pivot (passo 2 del metodo). - Si parte da uno stimatore puntuale “buono” di σ2 (si veda sez. 5.1.4): S *2* . Questo non è un pivot perché dipende dal campione ma non da σ2, il parametro di cui si vuol trovare l’intervallo. - Possiamo allora considerare come candidato a pivot nS *2* σ2 . Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da altri parametri incogniti e la sua distribuzione è nota, dato che nS*2* σ 2 ~ χ2(n) (si veda sez. 5.1.4). • Una volta individuato il pivot si passa al passo 3 del metodo. Dalle tavole della χ2(n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno del quale il pivot è compreso con probabilità (1 – α): 59 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa P[c1 ≤ nS *2* σ2 ≤ c2] = 1 – α. Purtroppo la distribuzione Chi-quadrato non è simmetrica e l’individuazione dell’intervallo più stretto per (1 – α) fissato può avvenire solo per via numerica. Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che lascia a sinistra α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1 – α/2 della χ2(n). In questo senso l’intervallo costruito ha una qualche analogia con quello visto negli esempi precedenti in cui il pivot aveva una distribuzione N(0, 1) o T: di nuovo l’intervallo lascia α/2 alla sua sinistra e ancora α/2 alla sua destra. • A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal precedente l’intervallo di confidenza per σ2 [si invita lo studente a fare i passaggi!]: P[n S*2* /c2 ≤ σ2 ≤ n S*2* /c1] = 1 – α. L’intervallo di confidenza cercato per σ2 è quindi [n S*2* /c2, n S*2* /c1]. Chiaramente, se invece di un intervallo per la varianza σ2 interessa costruire un intervallo per la deviazione standard σ, basta prendere la radice quadrata dei due estremi dell’intervallo precedente. L’intervallo di confidenza per σ al livello (1 – α) è quindi [ nS *2* / c 2 , nS *2* / c1 ]. 6.4. X ~ N(µ, σ2): intervallo per σ2 con µ non nota Sia X ~ N(µ, σ2) con µ incognita. Si vuole costruire un intervallo di confidenza per σ2, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α),. • Individuiamo il pivot (passo 2 del metodo). - Si parte dal pivot dell’esempio precedente, cioè nS *2* σ2 . Purtroppo questo non è più un pivot perché dipende dal campione e da σ2, ma dipende anche dal parametro incognito µ che compare nella formula di S*2* . 60 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa - Possiamo però utilizzare un come candidato a pivot una grandezza simile alla precedente, cioè (n − 1)S 2 . σ2 Questo è un pivot perché dipende dal campione, dipende da σ2, non dipende da altri parametri incogniti e la sua distribuzione è nota, dato che (n − 1)S 2 ~ χ2(n – σ2 1) (si veda sez. 5.1.4). • Una volta individuato il pivot, tutto procede in modo esattamente analogo all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle tavole della χ2(n – 1) in luogo della χ2(n). Quindi l’intervallo di confidenza per σ2 cercato è [(n – 1) S2/c2, (n – 1) S2/c1], mentre [ (n − 1)S 2 / c2 , (n − 1)S 2 / c1 ] è il corrispondente intervallo per la deviazione standard σ. 6.5. X ~ Be(p): intervallo per p Sia X ~ Be(p). Si vuole costruire un intervallo di confidenza per p, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). • Vediamo l’individuazione del pivot (passo 2 del metodo). - Si parte da uno stimatore puntuale “buono” di p (si veda sez. 5.1.2): X. Questo non è un pivot perché dipende dal campione ma non da p, il parametro di cui si vuol trovare l’intervallo. - La distribuzione esatta di X è BiRe(n, p) (si veda sez. 5.1.2), ma questa distribuzione rende assai difficile l’individuazione del pivot. Possiamo facilmente uscire da questo problema se il campione è “abbastanza grande”. In questo caso, infatti, X ≈ N(p, pq/n) per cui 61 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa X−p pq / n ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per essere un pivot. • Una volta che si è individuato il pivot, in linea di massima si può procedere nel modo consueto. Prima, dalle tavole della N(0, 1) si ricava l’intervallo più stretto all’interno del quale il pivot è compreso con probabilità (1 – α), che abbiamo detto essere [–z, z] dove z è il quantile 1 – α/2 della N(0, 1) P[–z ≤ X−p ≤ z] = 1 – α; pq / n poi, si ricava il conseguente l’intervallo di confidenza per p. La derivazione dell’intervallo di confidenza è però resa complessa dalla presenza di p, sotto radice, anche al denominatore, presenza che in definitiva impone la risoluzione di una disequazione di secondo grado in p [ (X − p )2 ≤ z2: lo studente provi a risolverla pq / n per conto proprio]. Per evitare tale complicazione, di norma si preferisce sostituire al denominatore pq / n un suo stimatore consistente X (1 − X )/ n e considerare come pivot X−p X (1 − X )/ n che ancora si distribuisce approssimativamente come una N(0, 1). • A questo punto la derivazione dell’intervallo per p (passi 3 e 4 del metodo) procede nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché l’intervallo di confidenza cercato per p è [ X – z X (1 − X )/ n , X + z X (1 − X )/ n ]. 6.6. X ~ Po(λ): intervallo per λ Sia X ~ Po(λ). Si vuole costruire un intervallo di confidenza per λ, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). 62 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Questo caso può essere risolto in maniera del tutto simile al precedente. • Vediamo prima l’individuazione del pivot (passo 2 del metodo). - Si parte da uno stimatore puntuale “buono” di λ (si veda sez. 5.1.3): X. Questo non è un pivot perché dipende dal campione ma non da λ, il parametro di cui si vuol trovare l’intervallo. - La distribuzione esatta di X è PoRe(n λ) (si veda sez. 5.1.3), ma questa distribuzione rende assai difficile l’individuazione del pivot. Possiamo facilmente uscire da questo problema se il campione è “abbastanza grande”. In questo caso, infatti, X ≈ N(λ, λ/n) per cui X −λ λ/n ha approssimativamente una distribuzione N(0, 1) e possiede tutti i requisiti per essere un pivot. - Tuttavia, analogamente al caso Bernoulli, la derivazione dell’intervallo di confidenza per λ è resa complessa dalla presenza di λ, sotto radice, anche al denominatore, presenza che impone la risoluzione di una disequazione di secondo grado in λ [lo studente provi a impostarla e risolverla per conto proprio]. Per evitare tale complicazione, di norma si preferisce sostituire al denominatore λ / n un suo stimatore consistente X / n e considerare come pivot X −λ X /n la cui distribuzione approssimata è N(0, 1). • A questo punto la derivazione dell’intervallo per λ (passi 3 e 4 del metodo) procede nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché l’intervallo di confidenza cercato per λ è [ X – z X / n , X + z X / n ]. 63 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 6.7. X ~ f(x; θ): intervallo per θ Sia X ~ f(x; θ), una generica funzione di massa o di densità caratterizzata dal parametro θ. Si vuole costruire un intervallo di confidenza per θ, sulla base del c.c.s. x = (x1, …, xn), al livello di confidenza (1 – α). Ovviamente, nel caso in cui la funzione di massa o di densità f(x; θ) sia una di quelle considerate negli esempi precedenti valgono le considerazioni già fatte. In realtà questo esempio è interessante in tutti quei casi, come nel modello Gamma, in cui la stima non può essere ottenuta analiticamente ma solo per via numerica. • Sfruttando le proprietà degli stimatori di massima verosimiglianza, se il campione è ~ ~ abbastanza grande allora θ ≈ N[θ, σ2( θ ) = 1/I(θ)]. Di conseguenza, sostituendo a ~ I(θ) una sua stima consistente I( θ ), possiamo considerare come candidato a pivot (passo 2 del metodo) ~ ( θ – θ) () ~ Iθ . Questa grandezza ha tutti i requisiti per essere un pivot, dato che ha una distribuzione approssimata N(0, 1). • A questo punto la derivazione dell’intervallo per θ (passi 3 e 4 del metodo) procede nel modo consueto per stimatori distribuiti in modo Normale (sez. 6.1), cosicché l’intervallo di confidenza cercato per θ è () () ~ ~ ~ ~ [ θ – z / I θ , θ + z / I θ ]. 6.8. X ~ N(µX, σ X2 ), Y ~ N(µY, µX − µY con σ X2 e σ Y2 note σ Y2 ) indipendenti: intervallo per Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 note. Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α). • Il pivot può essere costruito facilmente (passo 2 del metodo) sulla base dell’esempio 6.1. Infatti, poiché due buoni stimatori dei parametri incogniti sono forniti, rispettivamente, da X e Y , un buon stimatore della differenza µX − µY sarà allora 64 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa X – Y . Sulla base della distribuzione di X e Y e dell’assunzione di indipendenza di X ed Y si ottiene allora X – Y ~ N(µX − µY, σ X2 /m + σ Y2 /n) da cui si ricava che X − Y − (µ X − µ Y ) σ X2 / m + σ Y2 / n la cui distribuzione è N(0, 1), è un pivot. • A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del metodo) procede nel modo consueto per v.c. Normali (sez. 6.1) e [ X – Y – z σ X2 / m + σ Y2 / n , X – Y + z σ X2 / m + σ Y2 / n ] è l’intervallo di confidenza per µX − µY cercato. Importante: per quanto detto nella sez. 5.2.1, se le dimensioni dei campioni m ed n sono sufficientemente grandi si arriva ad un risultato identico anche se non si fa nessuna ipotesi sulle leggi di distribuzione di X ed Y, cioè si suppone semplicemente X ~ (µX, σ X2 ) e Y ~ (µY, σ Y2 ), dove σ X2 e σ Y2 sono note oppure vengono stimate con stimatori consistenti, ad esempio S X2 ed S Y2 . 6.9. X ~ N(µX, σ X2 ), Y ~ N(µY, σ Y2 ) indipendenti: intervallo per µX − µY con σ X2 e σ Y2 non note Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con σ X2 e σ Y2 incognite. Vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α), • Nella situazione di cui al presente esempio, il pivot costruito nella sezione precedente non è più un pivot in virtù del fatto che le due varianze σ X2 e σ Y2 sono non note. Si può allora pensare di stimarle, come si è fatto altre volte, ma purtroppo la v.c. 65 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa X − Y − (µ X − µ Y ) S X2 / m + SY2 / n , dove S X2 e S Y2 sono rispettivamente le varianze campionarie corrette di X e di Y utilizzate come stimatori di σ X2 e σ Y2 , non ha una distribuzione nota e quindi non è un pivot pur avendone tutte le altre caratteristiche. • Ci sono allora due modi di uscire da questa situazione. - Il primo modo è supporre σ X2 = σ Y2 . Visto che le due varianze sono uguali utilizziamo allora un unico simbolo: σ X2 = σ Y2 = σ2. In questo caso σ2 può essere stimato sfruttando l’informazione di entrambi i campioni (dato che tutti e due hanno σ2 come varianza) mediante lo stimatore S P2 = n m 1 2 ∑ (X i − X ) + ∑ Y j − Y m + n − 2 i =1 j =1 ( )2 = S X2 (m − 1) + S Y2 (n − 1) . m+n−2 Si fa notare che o stimatore S P2 costruito ha la stessa struttura di S2: media dei quadrati degli scarti dalla media. Poiché S X2 e S Y2 sono entrambi stimatori corretti di σ2 (che ricordiamo è lo stesso per X e Y sulla base dell’ipotesi iniziale), anche S P2 è stimatore corretto di σ2. Inoltre poiché (m + n − 2)S P2 σ2 = S X2 (m − 1) σ2 + SY2 (n − 1) σ2 e i due addendi a destra, oltre ad essere indipendenti, hanno rispettivamente distribuzione χ2(m – 1) e χ2(n – 1), allora, per la proprietà di additività del Chiquadrato, (m + n − 2)S P2 σ 2 ~ χ2(m + n – 2). Finalmente, sostituendo S P2 alla varianza comune σ2 nel pivot dell’esempio precedente si ottiene 66 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa X − Y − (µ X − µ Y ) S P 1/ m + 1/ n X − Y − (µ X − µ Y ) = σ 1/ m + 1/ n S P 1/ m + 1/ n X − Y − (µ X − µ Y ) = σ 1/ m + 1/ n σ 1/ m + 1/ n (m + n − 2)S P2 (m + n − 2) 2 . σ L’espressione a destra, più complicata, serve solo allo scopo di ricavare la distribuzione della v.c. considerata: è il rapporto fra una Normale standard e la radice quadrata di una chi-quadrato χ2(m + n – 2) divisa per i suoi gradi di libertà e quindi ha una distribuzione T(m + n – 2). Insieme alle altre caratteristiche, questo fa sì che X − Y − (µ X − µ Y ) S P 1/ m + 1/ n sia un pivot. A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del metodo) procede nel modo consueto per v.c. T (sez. 6.2) e [ X – Y – z Sp 1 / m + 1 / n , X – Y + z S p 1 / m + 1 / n ] è l’intervallo di confidenza per µX − µY cercato. - Il secondo modo è applicabile quando le dimensioni dei due campioni, m ed n, sono “abbastanza grandi”. In tal caso, infatti, si può dimostrare che X − Y − (µ X − µ Y ) S X2 / m + S Y2 / n , ha una distribuzione approssimata N(0, 1) dato che abbiamo stimato la varianza di X – Y , ovvero σ X2 /m + σ Y2 /n, con lo stimatore consistente S X2 /m + S Y2 /n. A questo punto la derivazione dell’intervallo per µX − µY (passi 3 e 4 del metodo) procede nel modo consueto per v.c. Normali (sez. 6.1) e [ X – Y – z S X2 / m + S Y2 / n , X – Y + z S X2 / m + S Y2 / n ] è l’intervallo di confidenza per µX − µY cercato. Poiché il risultato precedente si basa sulle proprietà asintotiche degli stimatori utilizzati, per quanto detto al termine della sez. 6.8 tale risultato rimane valido anche se non si fanno ipotesi sulla forma delle distribuzioni di X e di Y, cioè si 67 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa suppone semplicemente X ~ (µX, σ X2 ) e Y ~ (µY, σ Y2 ), purché, ripetiamo, i due campioni abbiano dimensione sufficientemente elevata. 6.10. X ~ N(µX, σ X2 ), Y ~ N(µY, σ X2 / σ Y2 con µX e µY note σ Y2 ) indipendenti: intervallo per Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY note. Vogliamo costruire un intervallo di confidenza per σ X2 / σ Y2 , sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α). Si evidenzia che il rapporto è il metodo usuale di confrontare le varianze. • Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base dell’esempio 6.3. - Poiché due buoni stimatori dei parametri incogniti sono costituiti, rispettivamente, da S *2* X e S *2*Y (le varianze campionarie per le medie note di X e di Y), un buon stimatore del rapporto σ X2 / σ Y2 è allora S *2* X / S *2*Y che però non è un pivot perché il rapporto σ X2 / σ Y2 non vi compare. - Si consideri allora, come candidato a pivot, la seguente grandezza: mS*2* X S *2* X σ Y2 S *2*Y σ X2 = σ X2 nS *2*Y σ Y2 m . n L’espressione a destra, più complicata, serve solo allo scopo di ricavare la distribuzione della v.c. considerata: è il rapporto fra due chi-quadrato indipendenti, χ2(m) a numeratore e χ2(n) a denominatore, divise per i rispettivi gradi di libertà e quindi ha una distribuzione F(m, n). Insieme alle altre caratteristiche, questo fa sì che S *2* X σ Y2 S *2*Y σ X2 68 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa sia un pivot. • Una volta individuato il pivot, si procede al passo 3 del metodo. Dalle tavole della F(m, n), la distribuzione del pivot, si ricava l’intervallo più stretto [c1, c2] all’interno del quale il pivot è compreso con probabilità (1 – α): P[c1 ≤ S *2* X σ Y2 ≤ c2] = 1 – α. S *2*Y σ X2 Purtroppo la distribuzione F, come la Chi-quadrato, non è simmetrica e l’individuazione dell’intervallo più stretto per (1 – α) fissato può avvenire solo per via numerica. Toppo complicato! Ci si accontenta allora dell’intervallo [c1, c2] che lascia a sinistra α/2 e a destra ancora α/2: quindi c1 è il quantile α/2 e c2 il quantile 1 – α/2 della F(m, n). • A questo punto si effettua il passo 4 del metodo, che consiste nel ricavare dal precedente l’intervallo di confidenza per σ X2 / σ Y2 [si invita lo studente a fare i passaggi!]: P( S *2* X S *2*Y /c2 ≤ σ X2 σ Y2 S *2* X ≤ S *2*Y /c1) = 1 – α. Di conseguenza l’intervallo per σ X2 / σ Y2 cercato è [ S *2* X S *2*Y /c2 , 6.11. X ~ N(µX, σ X2 ), Y ~ N(µY, σ X2 / σ Y2 con µX e µY non note S *2* X S *2*Y σ Y2 ) /c1]. indipendenti: intervallo per Siano X ~ N(µX, σ X2 ) e Y ~ N(µY, σ Y2 ) due v.c. indipendenti con µX e µY incognite. Vogliamo costruire un intervallo di confidenza per σ X2 / σ Y2 , sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α). • Individuiamo il pivot (passo 2 del metodo). - Si parte dal pivot dell’esempio precedente, cioè 69 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa S *2* X σ Y2 S *2*Y σ X2 . Purtroppo questo non è più un pivot perché dipende dal campione e da σ X2 / σ Y2 , ma dipende anche dai parametri incogniti µX e µY che compaiono, rispettivamente, nelle formule di S *2* X e S *2*Y . - Possiamo però utilizzare un come candidato a pivot una grandezza simile alla precedente, cioè (m − 1)S X2 S X2 σ Y2 S Y2 σ X2 σ X2 = (n − 1)SY2 σ Y2 (m − 1) , (n − 1) dove S X2 e S Y2 sono le varianze campionarie corrette rispettivamente di X e di Y. L’espressione a destra, che serve solo allo scopo di ricavarne la distribuzione, porta a concludere che tale v.c. è il rapporto fra due chi-quadrato indipendenti, χ2(m – 1) a numeratore e χ2(n – 1) a denominatore, divise per i rispettivi gradi di libertà e quindi ha una distribuzione F(m – 1, n – 1). Insieme alle altre caratteristiche, questo fa sì che S X2 σ Y2 S Y2 σ X2 sia un pivot. • Una volta individuato il pivot, tutto procede in modo esattamente analogo all’esempio precedente, con la differenza che i valori c1 e c2 sono ricavati dalle tavole della F(m – 1, n – 1) in luogo della F(m, n). Quindi l’intervallo di confidenza per σ X2 / σ Y2 cercato è [ S X2 S Y2 /c2 , S X2 S Y2 /c1]. 6.12. X ~ Be(pX), Y ~ Be(pY) indipendenti: intervallo per pX – pY Siano X ~ Be(pX), Y ~ Be(pY) due v.c. indipendenti. Si vuole costruire un intervallo di 70 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa confidenza per pX – pY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α). • Il pivot (passo 2 del metodo) può essere costruito facilmente sulla base degli esempi 6.5 e 6.11. - Poiché due buoni stimatori dei parametri incogniti sono, rispettivamente, X e Y , un buon stimatore della differenza pX − pY sarà allora X – Y che ovviamente non è un pivot. - Essendo X e Y distribuiti entrambi secondo una binomiale relativa, la distribuzione campionaria esatta della differenza X – Y è assai difficile da trovare. Se m ed n sono abbastanza grandi, però, si può sfruttare l’approssimazione Normale della distribuzione dei due stimatori, cioè X ≈ N(pX, pXqX/m) e Y ≈ N(pY, pYqY/m), in base alla quale X – Y ≈ N(pX − pY, pXqX /m + pYqY /n). Da questa si ricava il candidato a pivot X − Y − ( p X − pY ) p X q X / m + pY qY / n che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui si vuol trovare l’intervallo pX − pY. - Al solito, se i due campioni hanno dimensione sufficientemente elevata si può sostituire il denominatore consistente p X q X / m + pY qY / n con un suo stimatore X (1 − X )/ m + Y (1 − Y )/ n , ottenendo come pivot X − Y − ( p X − pY ) X (1 − X )/ m + Y (1 − Y )/ n che di nuovo ha una distribuzione approssimata N(0, 1). • A questo punto la derivazione dell’intervallo per pX − pY (passi 3 e 4 del metodo) procede nel modo consueto per v.c. distribuite in modo Normale, cosicché l’intervallo di confidenza cercato per pX − pY è [ X – Y – z X (1 − X )/ m + Y (1 − Y )/ n , X – Y + z X (1 − X )/ m + Y (1 − Y )/ n ]. 71 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 6.13. X ~ Po(λX), Y ~ Po(λY) indipendenti: intervallo per λX – λY Siano X ~ Po(λX), Y ~ Po(λX) due v.c. indipendenti. Vogliamo costruire un intervallo di confidenza per λX – λY, sulla base dei c.c.s. x = (x1, …, xm) e y = (y1, …, yn), al livello di confidenza (1 – α). • Il pivot (passo 2 del metodo) può essere costruito in modo del tutto analogo a quanto visto nell’esempio precedente. - Infatti un ragionamento del tutto simile a quello fatto sopra porta ad individuare come candidato a pivot X − Y − (λ X − λY ) λ X / m + λY / n che avendo una distribuzione approssimata N(0, 1) avrebbe tutti i requisiti per essere un pivot, tranne il fatto che non è invertibile rispetto alla grandezza di cui si vuol trovare l’intervallo λX − λY. - Al solito, se i due campioni hanno dimensione sufficientemente elevata si può sostituire il denominatore λ X / m + λY / n con un suo stimatore consistente X / m + Y / n , ottenendo come pivot X − Y − (λ X − λY ) X /m+Y /n che di nuovo ha una distribuzione approssimata N(0, 1). • A questo punto la derivazione dell’intervallo per λX – λY (passi 3 e 4 del metodo) procede nel modo consueto per v.c. distribuite in modo Normale, cosicché l’intervallo di confidenza cercato per λX – λY è [ X – Y – z X / m + Y / n , X – Y + z X / m + Y / n ]. 6.14. X ~ N(µX, σ X2 ), Y ~ N(µY, dati appaiati σ Y2 ): intervallo per µX − µY con Negli esempi precedenti, quando abbiamo considerato il confronto fra parametri di due v.c. X e Y abbiamo sempre ipotizzato che tali v.c. fossero indipendenti. Ci sono però 72 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa situazioni in cui dette v.c. non possono essere considerate indipendenti. Uno fra i casi più importati si ha per i cosiddetti dati appaiati, ovvero quando i campioni x = (x1, …, xn) e y = (y1, …, yn) sono relativi alle stesse unità (per questo la dimensione n dei due campioni è la stessa). In tale caso l’indipendenza viene meno per il fatto che le unità della popolazione sono le stesse in due situazioni diverse (X ed Y) ed è quindi lecito attendersi, per ciascuna unità i del campione, una correlazione fra le risposte da essa date nelle due situazioni. Sulla base di quanto detto, allora, supponiamo X ~ N(µX, σ X2 ), Y ~ N(µY, σ Y2 ): vogliamo costruire un intervallo di confidenza per µX − µY, sulla base dei dati appaiati x = (x1, …, xn) e y = (y1, …, yn), al livello di confidenza (1 – α). Questa situazione si risolve facilmente osservando che µX − µY è anche il valore atteso di X – Y, cioè µX − µY = E(X – Y) (banale proprietà dei valori attesi!). Di conseguenza una risposta circa la differenza µX − µY la si ottiene anche se al posto di X ed Y, separatamente, si analizza direttamente la differenza D = X – Y, il cui valore atteso è, come detto, proprio µX − µY, quello che interessa. Sulla base delle proprietà della Normale (si veda cap. 2), D = X – Y è combinazione lineare di v.c. Normali ed è quindi 2 (esiste una ancora Normale con media µD = µX − µY e con varianza incognita σ D 2 qualche relazione di σ D con σ X2 e σ Y2 , ma dato che non ha nessuna importanza ai fini del nostro esempio lasciamola perdere). In base a questo ragionamento possiamo allora considerare, come nuova variabile di analisi, 2 D ~ N(µD, σ D ), dove (ripetiamo): D = X – Y, µD = µX − µY (ed è quello che ci interessa), il campione estratto da D è rappresentato dalle differenze d = (d1, …, dn), dove ciascuna di è la differenza fra le osservazioni corrispondenti alla i-ma unità nei due campioni, ovvero di = xi – yi. A questo punto il problema in analisi è stato trasformato nella costruzione di un intervallo di confidenza per la media (µD) di una v.c. Normale con varianza incognita 2 (σ D ), per il quale vale esattamente quanto detto nella sez. 6.2. Il pivot è allora 73 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa D − µD SD / n , la cui distribuzione è T(n – 1) e nel quale S D2 è la varianza campionaria corretta di D. L’intervallo cercato per µD = µX − µY è invece [ D – tSD, D + tSD] dove t è il quantile (1 – α/2) della T(n – 1). Per concludere, due osservazioni. La prima riguarda il fatto che, per quanto detto nella sez. 5.2.1, se la dimensione del campione n è sufficientemente grande si arriva ad un risultato identico anche se non si fa nessuna ipotesi sulla legge di distribuzione di D, cioè si suppone semplicemente D ~ 2 (µD, σ D ), tranne il fatto che il quantile (1 – α/2) della distribuzione T deve essere sostituito col corrispondente quantile della distribuzione N(0, 1). La seconda riguarda il fatto che rispetto ad una situazione confrontabile in cui X e Y sono indipendenti, diciamo varianze σ X2 e σ Y2 uguali e campioni x e y con la stessa dimensione n (si veda sez. 6.9), la condizione di appaiamento fa praticamente dimezzare i gradi di libertà del pivot, dato che da (2n – 2) si passa ad (n – 1). 6.15. Determinazione della dimensione del campione La teoria degli intervalli di confidenza consente anche di affrontare in modo razionale la problematica della scelta della dimensione del campione. Nella sez. 6, abbiamo detto che un intervallo di confidenza è caratterizzato da due elementi fondamentali: il livello di confidenza, che ne misura l’affidabilità, e l’ampiezza, che ne misura l’informatività. Abbiamo anche detto che fra questi due elementi esiste un legame diretto, nel senso che all’aumentare del livello di confidenza aumenta anche l’ampiezza, e che quindi non è possibile, contemporaneamente, massimizzare il livello di confidenza e minimizzare l’ampiezza. Questo, ovviamente, vale se il campione è già stato estratto (e quindi n è ormai dato) e dobbiamo solo determinare l’intervallo. Se però il campione non è ancora stato estratto ma anzi occorre decidere di quante osservazioni farlo, allora possiamo procedere determinando la dimensione del campione 74 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa in modo da ottenere un intervallo di confidenza per il parametro d’interesse di ampiezza prefissata. In altri termini si procede nel modo seguente: 1. anzitutto si stabilisce il parametro che interessa stimare; 2. successivamente, si fissano il livello di confidenza (1 – α) e l’informatività, in termini di ampiezza A, dell’intervallo di confidenza per il parametro d’interesse; 3. infine, sulla base degli elementi precedenti si determina la dimensione n del campione. Per rendere più chiaro il procedimento vediamo adesso due esempi. Sia X ~ N(µ, σ2) e supponiamo in prima istanza che σ2 sia nota. Si vuol determinare la dimensione del campione affinché l’ampiezza dell’intervallo di confidenza per µ, al livello di confidenza (1 – α), sia pari ad A. Poiché l’intervallo di confidenza per µ nella situazione in oggetto (si veda sez. 6.1) è pari a [ X – zσ/ n , X + zσ/ n ], dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da A = X + zσ/ n – ( X – zσ/ n ) = 2 zσ/ n . Poiché σ è nota, z si determina dalle tavole in base al livello di confidenza (1 – α), A è stabilito da chi effettua l’analisi, dalla precedente relazione A = 2 zσ/ n si ricava n come incognita n = (2 zσ/A)2, che, dovendo sempre essere un intero, si raccomanda di arrotondare per eccesso. Questa formula fornisce la dimensione campionaria cercata. Si nota che tale dimensione, come è logico, aumenta all’aumentare della variabilità σ , all’aumentare del livello di confidenza (infatti all’aumentare di (1 – α) aumenta anche z) e al diminuire dell’ampiezza dell’intervallo (chiaramente: richiedere una maggiore informatività obbliga ad aumentare la dimensione del campione). Si fa notare che, sulla base del teorema del limite centrale, l’intervallo di confidenza utilizzato per ricavare la dimensione campionaria e, di conseguenza, la formula ottenuta 75 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa per n, rimangono inalterate se si omette l’ipotesi iniziale di normalità purché l’n conseguente risulti “abbastanza grande”. Purtroppo un grosso limite applicativo della formula precedente è dato dal fatto che in genere la varianza σ2 è incognita (se non è nota µ è ancora più improbabile che si conosca σ2). In questo caso, tuttavia, la formula di riferimento è ancora la precedente: l’unico possibile rimedio è sostituire a σ una sua stima (anche non eccellente) che in genere può essere ricavata basandosi su dati provenienti da: • precedenti rilevazioni simili; • statistiche ufficiali o dati amministrativi attinenti al fenomeno studiato; • indagine pilota, in cui l’indagine statistica in oggetto viene testata su un piccolo numero di unità, con l’obiettivo di mettere a punto vari aspetti della rilevazione complessiva, fra i quali il questionario della rilevazione e, appunto, la stima di σ2 per stabilire la dimensione del campione. Come altro esempio vediamo il caso X ~ Be(p). Si vuol determinare la dimensione del campione affinché l’ampiezza dell’intervallo di confidenza per p, al livello di confidenza (1 – α), sia pari ad A. Poiché l’intervallo di confidenza per p nella situazione in oggetto (si veda sez. 6.5) è pari a [ X – z X (1 − X )/ n , X + z X (1 − X )/ n ], dove z è il quantile (1 – α/2) della N(0, 1), l’ampiezza dell’intervallo per µ è data da A = X + z X (1 − X )/ n – ( X + z X (1 − X )/ n ) = 2 z X (1 − X )/ n . D’altra parte, prima di effettuare la rilevazione X non si conosce, per cui la precedente relazione A = 2 z X (1 − X )/ n , da cui deriva n = (2 z X (1 − X ) /A)2 in genere non può essere sfruttata. Ci sono allora due modi di uscire da questo problema: 76 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa • Il primo, banale, è sostituire a X il corrispondente valore calcolato sulla base di rilevazioni precedenti o di dati amministrativi. • Il secondo, assai più utilizzato nella pratica, deriva dall’osservazione che la grandezza X (1 – X ) a numeratore è massima quando X = 0.5 (per rendersene conto basta fare la derivata di X (1 – X ) rispetto a X , uguagliare a 0 e trovare il punto di massimo cercato) e che il massimo vale allora 0.5 (1 – 0.5) = 0.25. Poiché oltre questa soglia non si può andare, si può operare sostituendo prudenzialmente a X (1 – X ) il suo massimo 0.25, ottenendo come formula finale n = (z/A)2. 7. Alcuni esempi numerici Concludiamo il capitolo con alcuni esempi numerici. Esempio Dall’analisi dei bilanci relativi ad un campione di 200 imprese tessili, sono state calcolate le seguenti statistiche relativamente alla variabile d’interesse X = UTILE/FATTURATO: n Media Varianza campionaria corretta 200 0.03 0.0256 Per analizzare tale indice di bilancio è ragionevole utilizzare il modello Normale, ovvero X ~ N(µ, σ2). La stima puntuale dei parametri è facilmente fatta. Infatti: • un “buon” stimatore di µ è dato da X (si veda sez. 5.1.4), per cui possiamo stimare µ con x = 0.03; • un “buon” stimatore di σ2 è dato da S2 (si veda sez. 5.1.4), per cui possiamo stimare σ2 con s2 = 0.0256. E comunque sempre bene completare le stime puntuali fornendo una misura 77 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa dell’”accuratezza” degli stimatori utilizzati, ad esempio fornendo la loro varianza o, ancora meglio, loro deviazione standard. Poiché V( X ) = σ2/n, tale grandezza può essere stimata tramite s2/n = 0.0256/200 = 0.000128; quindi una stima di σ( X ) è data da 0.000128 = 0.0113. Analogamente V(S2) = 2σ4/(n – 1), che può essere stimato con 2s4/(n – 1) = 2×0.02562/199 = 0.000006586; quindi una stima di σ(S2) è data da 0.000006586 = 0.00257. Notiamo anche che, essendo i due stimatori corretti, la stima della loro varianza costituisce anche una stima del loro MSE. Vediamo ora la stima per intervallo dei parametri considerando un livello di confidenza 0.95. • Come pivot per costruire l’intervallo di confidenza per µ si considera X −µ S/ n , la cui distribuzione è T(n – 1) (sez. 6.2) (facciamo comunque osservare che n – 1 = 199 e quindi tale distribuzione potrebbe essere tranquillamente approssimata con la N(0, 1)). Il pivot di cui sopra porta al seguente intervallo per µ: [ X – t S/ n , X + t S/ n ]. Sostituendo i valori x = 0.03, s = 0.0256 = 0.16, n = 200, t = 1.9719 (quantile 0.975 trovato dalle tavole della T(200) invece della T(199)) si ottiene che l’intervallo di confidenza al 95% per µ è [0.0077,0.0523]. Tale intervallo viene così ampio (ampiezza pari a 0.0446) per la forte variabilità presente nella popolazione considerata, variabilità misurata dalla stima di σ2 fornita da s2. • Come pivot per costruire l’intervallo di confidenza per σ2 si considera (n − 1)S 2 , la σ2 cui distribuzione è χ2(n – 1) (sez. 6.4). Tale pivot porta al seguente intervallo per σ2: [(n – 1) S2/c2, (n – 1) S2/c1]. Sostituendo i valori s2 = 0.0256 = 0.16, n = 200, c1 = 162.73 c2 = 241.06 (dove c1 e c2 sono rispettivamente i quantili 0.025 e 0.975 della χ2(200) invece della χ2(199)), si ottiene che l’intervallo di confidenza cercato al 95% per σ2 è [0.0211,0.0313]. Il corrispondente intervallo per σ è invece [0.145,0.177] (per ottenerlo basta fare la radice quadrata degli estremi dell’intervallo per σ2). 78 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa Chiediamoci ora quante imprese avremmo dovuto includere nel campione per avere un intervallo per la media µ di ampiezza 0.03, invece di 0.0446, sempre al livello di confidenza 0.95. A tale scopo si può utilizzare il ragionamento descritto nella sez. 6.15, che ha portato alla formula n = (2 zσ/A)2. Sostituendo i valori z = 1.96 (quantile 0.975 della N(0, 1)), A = 0.03, e ponendo σ pari alla stima fatta s = 0.16 (tale valore rappresenta l’unica informazione che abbiamo di σ), si ottiene n = 437.09 da arrotondare per eccesso a 438. Per concludere, mantenendo l’ipotesi di normalità della distribuzione dell’indice UTILE/FATTURATO e “facendo finta” che le stime puntuali fornite per µ e σ corrispondano ai valori veri degli stessi parametri (cosa che, lo ripetiamo per l’ennesima volta, nella realtà non è dato di sapere!), si invita lo studente a rispondere alle seguenti domande di cui diamo solo i risultati: 1. Qual è la probabilità che un’impresa abbia un indice UTILE/FATTURATO negativo? (0.4256) 2. Qual è invece la probabilità che tale indice sia superiore a 0.1? (0.3309) 3. Quanto valgono primo quartile, mediana, terzo quartile e scarto interquartile dell’indice? (-0.0779, 0.03, 0.1379, 0.2158) 4. Entro quale intervallo, simmetrico rispetto alla media, è compreso l’indice del 90% delle imprese? (-0.2332, 0.2932) Esempio Il ministero del lavoro ha commissionato ad una società uno studio per appurare in che percentuale le piccole imprese manifatturiere senza dipendenti sarebbero disposte ad assumere dipendenti, nei prossimi tre anni, in presenza di certi sgravi contributivi e fiscali. La prima difficoltà che la società incaricata si è trovata di fronte è il dimensionamento del campione di imprese da intervistare. Tradotto in termini statistici, il ministero ha richiesto un intervallo di confidenza al 99%, per la percentuale d’interesse, di ampiezza 79 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa 0.08. Vediamo come si può operare in questa situazione. Anzitutto occorre scegliere un modello per il fenomeno in analisi. Senza incertezze possiamo scegliere il modello di Bernoulli, cioè X ~ Be(p), in cui 1 sta per “intenzione di assumere” e 0 per “non intenzione di assumere”. Relativamente al dimensionamento del campione, in una situazione di completa ignoranza del valore assunto da p si può ricorrere alla formula n = (z/A)2 illustrata in sez. 6.15. Sostituendo i valori z = 2.58 (quantile 0.995 della N(0, 1)) e A = 0.08 si ottiene n = 1040.06 da arrotondare per eccesso a 1041. Supponiamo ora che delle 1041 imprese intervistate, 431 abbiano manifestato l’intenzione di assumere personale in presenza degli sgravi indicati. La stima puntuale del parametro p è facilmente fatta. Infatti un “buon” stimatore di p è dato da X (si veda sez. 5.1.2), per cui possiamo stimare p con x = 431/1041 = 0.414, che corrisponde a circa il 41%. Per completare la stima puntuale mediante misure di ”accuratezza”, possiamo stimare la varianza o, ancora meglio, la deviazione standard. Poiché V( X ) = pq/n, tale grandezza può essere stimata tramite x (1 – x )/n = 0.414 (1 – 0.414)/1041 = 0.000233; quindi una stima di σ( X ) è data da 0.000233 = 0.0153. Notiamo anche che, essendo X uno stimatore corretto di p, la stima della varianza costituisce anche una stima del suo MSE. Vediamo ora la stima per intervallo di p considerando (1 – α) = 0.99. La dimensione campionaria è sufficientemente elevata per considerare come pivot X−p X (1 − X )/ n , la cui distribuzione approssimata è N(0, 1) (sez. 6.5). Il pivot di cui sopra porta al seguente intervallo per p: [ X – z X (1 − X )/ n , X + z X (1 − X )/ n ]. Sostituendo i valori x = 0.414, n = 1041, z = 2.58 (il quantile 0.995 della N(0, 1)) si 80 B. Chiandotto – F. Cipollini Versione 2003 – Cap. 6 Metodi statistici per le decisioni d’impresa ottiene che l’intervallo di confidenza al 99% per p è [0.375,0.453]. Si nota che l’ampiezza dell’intervallo viene 0.078, leggermente inferiore a quella prevista 0.08 per effetto del fatto che il campione è stato dimensionato sulla base di un valore x (1 – x ) = 0.5 (1 – 0.5) = 0.25, superiore a quello effettivo di 0.414 (1 – 0.414) = 0.2426 (si veda sez. 6.5). Per concludere, mantenendo l’ipotesi X ~ Be(p) e “facendo finta” che la stima puntuale fornita per p coincida col valore vero del parametro (cosa che, ripetiamo, nella realtà non è dato di sapere!), si invita lo studente a rispondere alle seguenti domande di cui diamo solo i risultati. Supponendo che il numero di piccole imprese manifatturiere senza dipendenti sia 6 milioni, si estraggano casualmente 100 imprese: 1. Come si distribuisce il numero di imprese che, fra queste 100, intendono assumere? Che valore atteso e che varianza ha? (distribuzione esatta IG(N = 6000000, K = Np = 2484000, n = 100), ben approssimabile con una Bi(n = 100, p = 0.414); valore atteso = np = 41.4; varianza = npq = 24.26). 2. Qual è la probabilità che, di queste 100, almeno 50 abbiano intenzione di assumere dipendenti? (0.0404: usare l’approssimazione Normale della Binomiale). 3. Qual è invece la probabilità che, di queste 100, meno di 30 abbiano intenzione di assumere? (0.0103: usare l’approssimazione Normale della Binomiale). 4. Quanto valgono, primo quartile, mediana, terzo quartile e scarto interquartile del numero di imprese che intendono assumere fra le 100 estratte? (38.08, 41.4, 44.72, 6.64: usare l’approssimazione Normale della Binomiale) 5. Entro quale intervallo, simmetrico rispetto alla media, si colloca al 90% il numero delle imprese che intendono assumere fra le 100 estratte? (33.3, 49.5) 81