B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni CAP. 7 – TEORIA STATISTICA delle DECISIONI Introduzione Nella premessa a queste note didattiche si è affermato che la disciplina che si occupa della raccolta e del trattamento scientifico dei dati (manifestazioni dei fenomeni collettivi di interesse) per trasformarli in informazioni è la Statistica, se poi le informazioni stesse devono essere utilizzate per risolvere uno specifico problema decisionale, cioè un problema che si risolve nella scelta ottimale di una tra diverse alternative a disposizione, allora il contesto di riferimento è la Teoria delle decisioni. Nella fusione delle due discipline si sostanzia un’altra disciplina scientifica: “La Teoria statistica delle decisioni” o “Teoria delle decisioni statistiche” che per certi versi può essere intesa come generalizzazione ed estensione della Statistica che in questo modo risulta anche meglio caratterizzata nelle sue diverse connotazioni e meglio precisata nei contenuti. In altri termini si può anche definire la statistica come il fondamento logico e metodologico per la risoluzione dei problemi decisionali. In questa prospettiva la Statistica si caratterizza come disciplina scientifica che non si limita alla sola trasformazione dei dati in informazioni ma che si occupa anche della trasformazione delle informazioni in conoscenza utilizzabile a fini operativi di intervento (fini decisionali) 1. 7.1 - Teoria delle decisioni Oggetto di studio della teoria delle decisioni è il processo decisionale. Attraverso l’analisi del comportamento degli attori (individui o gruppi) coinvolti nel processo, si procede, cioè, all’esame di come i decisori prendono o dovrebbero prendere delle decisioni. Allo sviluppo della teoria delle decisioni hanno contribuito cultori di discipline diverse: filosofi e logici, matematici e statistici, psicologi e sociologi, economisti, ecc. Gli sviluppi della teoria spaziano dalle speculazioni astratte, relative ad agenti idealmente razionali, ai suggerimenti pratici per la risoluzione ottimale di specifici problemi decisionali, all’analisi dei processi decisionali coi come si svolgono nella realtà. 1 Molti autori (Cox, 1958; Smith, 1965; Barnett, 1999) affermano che una distinzione deve essere fatta tra inferenza statistica e teoria statistica delle decisioni. Ma altri autori come Savage (1951) e Lindley (1965, 2006), e questo è anche il parere dell’autore di queste note didattiche, considerano la teoria statistica delle decisioni come una naturale e necessaria generalizzazione dell’inferenza statistica. Inoltre, l'approccio decisionale, combinando varie teorie di inferenza statistica, evita i dogmatismi che possono portare a situazioni paradossali, è esente da errori logici, è più efficace nel contesto applicativo e tratta con successo una gamma più ampia di problemi rispetto agli approcci tradizionali. L'approccio decisionale fornisce, cioè, una soluzione soddisfacente al cosiddetto problema pragmatico dell’induzione. 367 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni In questa ottica si è soliti distinguere la teoria delle decisioni in due filoni principali: teoria normativa e teoria descrittiva. Chi si occupa di teoria descrittiva cerca di scoprire come le decisioni vengono prese nei diversi contesti operativi; chi si occupa di teoria normativa analizza il modo con cui le decisioni dovrebbero essere prese facendo riferimento ad agenti idealmente razionali, procedendo, cioè, all’esame delle conseguenze logiche di differenti regole decisionali o esplorando gli aspetti logicomatematici o filosofici di diverse descrizioni di comportamento razionale. Questa distinzione è utile ma alquanto artificiosa, essendo l’informazione sul modo effettivo di prendere decisioni, certamente rilevante ai fini della fissazione di regole su come le decisioni devono essere prese; d’altro lato nessuno studio sul comportamento effettivo di agenti può consentire il conseguimento di risultati soddisfacenti se lo stesso non viene, in qualche modo, posto a confronto con una sorta di comportamento ideale (razionale). La teoria descrittiva delle decisioni non interessa in questa sede essendo oggetto di discipline specifiche quali la psicologia, la sociologia e, per alcuni aspetti, l’economia. Qui verranno presentati gli elementi essenziali della teoria normativa delle decisioni 2: ci si occuperà, cioè, di come le decisioni dovrebbero essere prese per massimizzare il proprio “benessere” e non di come le decisioni sono effettivamente prese. Ma, come già sottolineato, il riferimento alla teoria normativa non può essere assoluto, si deve, infatti, tenere conto di tutta una serie di vincoli e di condizionamenti che emergono dall’analisi dei processi reali affinché le regole di comportamento razionale possano tradursi in comportamenti effettivi utili al decisore. Per caratterizzare e distinguere questo specifico sviluppo della teoria normativa delle decisioni alcuni autori hanno suggerito la dizione teoria prescrittiva che si caratterizza, appunto, per il fatto che le regole ideali di comportamento razionale analizzate devono poter essere tradotte in comportamenti effettivi (sui quali, come già sottolineato, incide una serie innumerevole di condizionamenti sia individuali che di contesto) tali da consentire al decisore il conseguimento del beneficio massimo. I fondamenti della moderna teoria delle decisioni o si trovano nell’opera di Von Neumann e Morgenstern (1947). I due autori mostrano come, sulla base di alcuni postulati o assiomi di comportamento razionale di colui che deve prendere una decisione, sia possibile introdurre una funzione a valori reali detta, a seconda del contesto in cui si opera, di valore, o di utilità, per cui una decisione fondata unicamente sulla massimizzazione del valore atteso di tale funzione consente l’individuazione della scelta ottimale in accordo al proprio schema di preferenze. Critiche di varia natura sono state rivolte al criterio dell’utilità attesa. Esse possono essere comunque ridotte e sintetizzate nei due punti seguenti: 1. quelle rivolte all’evidenza empirica degli assiomi di comportamento razionale che sono alla base della moderna teoria dell’utilità; 2 Per un approfondimento dell’argomento si può utilmente consultare, tra gli altri, Chiandotto e Bacci (2015). 368 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni 2. quelle che sottolineano l’impossibilità pratica di derivare una funzione di valore o di utilità significativa. Alle critiche richiamate al punto 2 sono state fornite risposte che, nella generalità dei casi, risolvono il problema dell’elicitazione della funzione di utilità in modo soddisfacente3. Per quanto riguarda, invece, le critiche richiamate al punto 1 si può rispondere che esse hanno, ma non sempre, una certa rilevanza quando si considera il comportamento di un agente e si voglia poi accertare fino a che punto egli segue le linee di comportamento razionale attribuitegli. Quando però dal piano di verifica empirica di una teoria, intesa in senso unicamente descrittivo, si passa al piano normativo della stessa, tali critiche perdono, almeno in parte, di significato. Il problema della rilevanza degli assiomi sul comportamento del decisore, va visto, non nel senso di buona descrizione ma in quello di buona norma. Un tale problema risulta però estremamente delicato in quanto, come già sottolineato, le implicazioni normative degli assiomi, e quindi la bontà degli stessi, vanno giudicate in funzione dei risultati operativi cui conduce la teoria che su di essi è fondata. Qualunque decisione comporta una scelta tra più alternative, o azioni, o atti, ciascuna delle quali produrrà una tra più conseguenze che dipenderà dalle condizioni del contesto, lo stato di natura, nel quale il processo decisionale si svolge. Le decisioni, sono, pertanto, costituite da azioni, stati e conseguenze, con le ultime che dipendono, nella generalità dei casi, dallo stato di natura e dall’azione scelta. Quando si analizza un problema di decisione, l’analista, che può essere lo stesso soggetto che prende la decisione, deve individuare l’insieme rilevante delle azioni, degli stati e delle conseguenze per caratterizzare in modo adeguato il problema stesso. Attraverso l’individuazione di azioni, stati e conseguenze e costruendo, eventualmente, una tavola o un albero di decisione, si procede alla specificazione del problema decisionale. Alcune interessanti questioni sono legate alla specificazione di un problema decisionale. La prima riguarda la descrizione appropriata degli stati di natura. Ogni problema decisionale implica delle conseguenze che il soggetto della decisione considera migliori di altre, altrimenti non sussisterebbe un problema di scelta. In questo contesto assume particolare rilevanza il principio della dominanza secondo il quale devono essere escluse tutte le alternative che comportano conseguenze peggiori, qualunque sia lo stato di natura, di una qualche specifica alternativa. Se c’è un’alternativa che domina tutte le altre, il principio di dominanza porta a scegliere tale alternativa ed il problema decisionale è risolto in modo ottimale. Sfortunatamente casi del genere si riscontrano molto raramente nelle situazioni reali. Una seconda interessante questione legata alla specificazione del problema 3 Si tratta di critiche analoghe a quelle rivolte all’approccio bayesiano soggettivo. In tale approccio, come illustrato nel capitolo precedente, alla misura delle probabilità a priori si perviene attraverso una traduzione soggettiva delle proprie conoscenze, cioè al patrimonio informativo disponibile al momento in cui si procede all’analisi dei dati campionari (conoscenza oggettiva). 369 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni decisionale è quella relativa alla distinzione tra decisione giusta e decisione razionale, la decisione di chi agisce è giusta se si risolve in esiti ottimali. Se si disponesse di una conoscenza completa del futuro basterebbe, pertanto, fare riferimento al solo principio: prendi la decisione giusta. Purtroppo la maggior parte delle decisioni è basata sul ciò che si ritiene possa accadere e non su quello che accadrà realmente. Nella quasi totalità dei casi risulta quindi impossibile prendere una decisione giusta, si dovrà allora prendere una decisione razionale, valutando al meglio l’insieme parziale di informazioni a disposizione riguardo al vero stato del mondo, e non è affatto scontata l’equivalenza: decisione razionale = decisione giusta. Da quanto sopra detto emerge implicitamente una diversificazione tra situazioni decisionali. Usualmente si distinguono le decisioni a seconda del contesto informativo in cui l’agente opera in: 1. decisioni in situazioni di certezza 2. “ “ “ “ rischio 3. “ “ “ “ incertezza Se con A a1 , a2 ,..., ai ,..., am si indica l’insieme delle decisioni (azioni) alternative possibili, con 1 ,2 ,..., j ,...,n l’insieme dei possibili stati di natura e con C c11 ,c12 ,...,cij ,...,cmn l’insieme delle conseguenze, dove le conseguenze cij sono funzione dell’azione a i e dello stato j cij f ( ai , j ) per i=1, 2, ..., m ; j=1, 2, ..., n si può rappresentare il processo decisionale (dove è stato ipotizzato un numero discreto di alternative ed un numero discreto di stati di natura) in modo appropriato facendo ricorso alla tavola di decisione o all’albero di decisione: Azione Stato di natura P 1 P 2 P j P n a1 c11 c12 c1 j c1n a2 c21 c22 c2 j c2 n ai ci1 ci 2 cij cin am cm1 cm 2 cmj cmn Tab. 7.1 – Tavola di decisione 370 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni c11 1 2 c12 . . j . c1j . n . . c1n c21 a1 1 2 c22 . . j . n a2 c2j . . c2n . . . Nodo decisionale . ci1 ai . . . 1 2 ci2 . . j am Azioni . n . cij . . cin cm1 1 2 . j . Nodo aleatorio n cm2 . . cmj . . cmn Stati Conseguenze Fig. 7. 1 - Albero di decisione 7.2 - Decisioni basate sulle sole informazioni a priori Se l’agente, il decisore, conoscesse lo stato di natura, ad es.: j , il problema di scelta si ridurrebbe al confronto tra m conseguenze (nell’es. c1 j ,c2 j ,...,cij ,...,cmj ) e la scelta razionale equivarrebbe alla scelta giusta, sempre che siano note le conseguenze ed il decisore sia in grado di esprimere, in modo razionale, le sue preferenze riguardo alle conseguenze stesse. Il comportamento razionale consente, in altre parole, 371 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni l’individuazione dell’alternativa ottimale che comporta il conseguimento del massimo beneficio. Il problema di decisione introdotto può, pertanto, essere rappresentato nel modo seguente: Azioni Conseguenze c1 a1 a2 c2 : : ai : : ci : : am : : cm dove con A, ai A, si indica lo spazio o insieme delle azioni e con C, ci C, lo spazio o insieme delle conseguenze. Come già sottolineato in precedenza, le considerazioni che s’intendono svolgere riguarderanno esclusivamente la teoria normativa delle decisioni; si considererà, cioè, la teoria che si preoccupa di definire come le decisioni dovrebbero essere prese dagli individui al fine di massimizzare il proprio benessere; essa, quindi, non fa riferimento ai comportamenti effettivamente osservabili nella realtà ma fa riferimento ad un individuo “idealmente razionale” e deduce, sulla scorta di assiomi e attraverso la dimostrazione di teoremi, un insieme di regole di comportamento cui l’individuo stesso deve uniformarsi. 7.2.1 Assiomi di comportamento razionale (parte I) Dato l’insieme di conseguenze C c1, c2 ,..., cm e le relazioni di preferenza , , 4 , si possono definire i seguenti assiomi, esplicativi di un comportamento razionale: Assioma 1: Comparabilità ci , c j C, ci c j oppure c j ci oppure sono vere entrambe Assioma 2: Transitività ci , c j , ck C , se ci c j e c j ck ci ck Assioma 3: Coerenza tra indifferenza e preferenza debole ci , c j C : ci cj (ci cj e cj ci) 4 La relazione di preferenza forte (a b sta a significare che l'agente - il decisore - preferisce strettamente l'alternativa a all'alternativa. b). La relazione di preferenza debole (a b sta a significare che l'agente - il decisore - preferisce debolmente l'alternativa a all'alternativa b). La relazione di indifferenza (a b sta a significare che le due alternative forniscono all'agente - il decisore - esattamente lo stesso beneficio). 372 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Assioma 4: Coerenza tra preferenza forte e preferenza debole ci , c j C : ci c j cj ci La rilevanza degli assiomi emerge con tutta chiarezza quando se ne evidenziano le implicazioni operative. La confrontabilità implica la necessità per il decisore di operare, comunque, una scelta tra due alternative anche se questa, in base al terzo assioma, può comportare indifferenza tra le stesse. La transitività e gli assiomi di coerenza rispondono a una richiesta di non contraddittorietà tra le preferenze espresse. Se i quattro assiomi sono soddisfatti, valgono i teoremi sotto riportati5. Teorema 1 (Esistenza della funzione di valore). Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale viene introdotta una relazione che soddisfa gli assiomi 1 - 4 esiste, e può essere costruita, una funzione a valori reali espressi in scala ordinale V(.) tale da soddisfare la relazione ci cj V(ci ) V(cj ). Il teorema 1 stabilisce l'esistenza di una funzione a valori ordinali perfettamente equivalente allo schema di preferenze del decisore. Teorema 2 (Unicità della funzione di valore). Per ogni insieme finito di oggetti (conseguenze) C={c1,c2, ...,cm} sul quale viene introdotta una relazione che soddisfa gli assiomi 1 - 4, esistono due funzioni di valore V(.) e W(.) che soddisfano le relazioni ci cj V(ci ) V(cj ) e ci cj W(ci ) W(cj ) se e solo se V()=h(W(.)) dove h(.) è una funzione monotona crescente. Il teorema 2 stabilisce che la funzione a valori reali espressi in scala ordinale è unica a meno di una trasformazione monotona crescente. Per lo sviluppo successivo della trattazione risulta conveniente introdurre una nuova relazione tra oggetti, la relazione di scambio. Definizione - La relazione di scambio (a b sta ad indicare la cessione di b per avere in cambio a. Una generica relazione di scambio si indica con (ci cj) e si legge: “lo scambio di cj con ci, vale a dire la cessione di cj per ottenere ci”. Anche sulle relazioni di scambio ha senso introdurre le relazioni di preferenza forte, di preferenza debole e di indifferenza (per distinguerle dalle analoghe relazioni sugli oggetti saranno indicate con una “s” come pedice, s , s ,s). 7.2.2 Assiomi di comportamento razionale (parte II) Assioma 5: Ordinamento debole 5 La dimostrazione dei teoremi è riportata, tra gli altri, in Chiandotto e Bacci (2004 e 2015). 373 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Sia la relazione che la relazione s soddisfano gli assiomi 1 – 4 Assioma 6: Coerenza tra e s ci, cj, ck C: ci cj (ci cj ) s (ck ck ) ck C Assioma 7: Coerenza interna della relazione di scambio a) (ci cj ) s (ck cz ) (cz ck ) s (cj ci ). b) (ci cj ) s (ck cz ) e (cj cl ) s (cz cy ) (ci cl ) s (ck cy ). Assioma 8: Solvibilità a) ci, cj, ck C y C tale che: (y ci ) s (cj ck ) b) ci, cj C y C tale che: (ci y ) s (y cj ) Assioma 9: Proprietà Archimedea Ogni sequenza standard strettamente limitata è finita cn ; cn cn1 s c1 c0 , cn / y dove indica il condizionamento alle relazioni che lo seguono; nel caso particolare che si sta trattando y cn significa che la sequenza è strettamente limitata e (cn c(n-1)) s (c1 c0) implica che (c1 c0) s (c2 c1) s (c3 c2) s … s (cn c(n-1)), ossia che la sequenza è standard. Se gli assiomi fin qui elencati risultano soddisfatti valgono i seguenti teoremi. Teorema 3 (Esistenza della funzione di valore misurabile) Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale vengono introdotte le relazioni e s che soddisfano gli assiomi 5 - 9 esiste, e può essere costruita, una funzione misurabile a valori reali espressi in scala di intervallo V(.) tale da soddisfare le relazioni ci (ci cj ) cj V(ci ) V(cj ); s (ch ck ) V(ci ) - V(cj ) V(ch ) - V(ck ). Il teorema 3 stabilisce l'esistenza di una funzione di valore misurabile perfettamente equivalente allo schema di preferenze del decisore. Teorema 4 (Unicità della funzione di valore misurabile) Per ogni insieme finito di oggetti (conseguenze) C={c1,c2,...,cm} sul quale vengono introdotte le relazioni e s che soddisfano gli assiomi 5 - 9, esistono due funzioni espresse su scala di intervallo V(.) e W(.) che soddisfano le relazioni ci (ci cj ) cj V(ci) V(cj); s (ch ck ) V(ci) - V(cj) V(ch) - V(ck); ci cj W(ci) W(cj); 374 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni (ci cj ) s (ch ck ) W(ci) - W(cj) W(ch) - W(ck) se e solo se V(.)=+ W(.) per 0. Il teorema 4 stabilisce che la funzione di valore misurabile è unica a meno di una trasformazione lineare positiva. Se lo stato di natura non è noto ma si dispone di una misura della probabilità dei vari stati di natura, si parla di decisioni in situazioni di rischio. La tavola di decisione sopra riportata potrà essere riscritta nei termini seguenti Probabilità degli stati di natura P 2 ..... P n c11 c1n ..... c1n a2 c 21 c 22 c2n .... .... am ..... ..... c m1 ..... ..... cm2 ..... ..... ..... Azioni P1 a1 ..... ..... ..... c mn 7.2.3 Assiomi di comportamento razionale (parte III) Assioma 10: Ordinamento debole Ribadisce semplicemente che le preferenze del decisore sull’insieme delle lotterie L l1 , l2 ,..., lm 6 obbediscono agli assiomi 1 - 4. Assioma 11: Continuità l1, l2, l3 L, se l1 l2 l3 p (con 0 p 1) tale che l2 p l1 + (1-p) l3 . L’assioma risponde ad un’esigenza di continuità nelle preferenze. Ad esso sono state mosse varie critiche di carattere logico: alcuni affermano che esistono “premi” per cui nessun valore di p è tale, per il decisore, da consentire il rispetto della relazione di indifferenza. Ad esempio, se la lotteria l3 ha come risultato unico possibile la morte del decisore, questi preferirà sempre e comunque la lotteria l2. In realtà questa critica può essere superata riconoscendo che ognuno di noi, ogni giorno, compie tante semplici azioni che comportano pur sempre una possibilità di morire (per es., attraversare la strada). 6 Se per convenienza, e senza perdere in generalità, si assume che c1 c2 ........ cn una qualunque lotteria di riferimento è espressa nella forma c1 p cn p, c1 ; 0, c2 ; 0, c3 ;..........; (1 p), cn dove c1 è la conseguenza preferita a tutte le altre e non banale deve essere lotterie degeneri c1 cn cn è la conseguenza meno preferita; affinché il problema risulti . Si può osservare come le singole conseguenze possono essere interpretate come cij 0, ci1 ; 0, ci 2 ;.........;0, ci ( j 1) ; 1, cij ; 0, ci ( j 1) ;.........; 0, cim . 375 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Assioma 12: Monotonia Date due lotterie l1 e l2 L e tali che l1 l2 e due probabilità p e p’, allora (l1 p l2) (l1 p’ l2) p p’ In altre parole, il decisore sceglierà sempre la lotteria che gli dà la probabilità più alta di ottenere il risultato preferito. Assioma 13: Riduzione delle lotterie composte Sia data la lotteria composta l = (q1, l1; q2, l2; …..; qs, ls), avente, quindi, come premi le lotterie semplici l1, l2, …, ls e dove lj = (pj1, c1; pj2, c2;…..; pjr, cr) con j = 1, 2, …, s è la generica lotteria premio. Sia, poi, l’ la lotteria semplice (p1, c1; p2, c2; …; pr, cr), dove pi = q1p1i + q2 p2i + …..+ qs psi per i = 1, 2, …r, allora l l’. Assioma 14: Sostituzione o cancellazione Siano ci , c j C tali che ci ~ c j ; siano, poi, l ed l’ due lotterie, semplici o composte, tali che l = (……;q, ci ;……) l’ = (……; q, c j ; ……) allora l l’ Assioma 15: Indipendenza Dati ci , c j , ch C tali che ci ~ c j (ci p ch ) ~ (c j p ch ) Il rispetto degli assiomi 1-15 di comportamento razionale sopra riportati consente di dimostrare l’esistenza e l’unicità della funzione di utilità di un generico soggetto decisore. Teorema 5 (Esistenza della funzione di utilità) Se le preferenze di un individuo sull’insieme C obbediscono agli assiomi 1–15, allora esiste una funzione di utilità u definita su C tale che: a) ci cj u(ci ) u(cj ) ci, cj C (Proprietà di ordinabilità) (p1, c1; p2, c2; ….; pr, cr) (p’1, c1; p’2, c2; ….; p’r, cr) b) u(p1, c1; p2, c2; ….; pr, cr ) u(p’1, c1; p’2, c2; ….; p’r, cr ) p1u(c1) + p2 u(c2) + …..+ pr u(cr) p’1u(c1) + p’2 u(c2) + …..+ p’r u(cr) r r i 1 i 1 pi uxi pi' uxi (Proprietà di linearità). Il teorema 5 stabilisce l'esistenza di una funzione di utilità perfettamente equivalente allo schema di preferenze del decisore. Teorema 6 (Unicità della funzione di utilità) Se u è una funzione di utilità su C, allora w u con > 0 è anch’essa una funzione di utilità che rappresenta lo stesso schema di preferenze. Analogamente, se u(.) e w(.) sono due funzioni di utilità su C 376 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni che rappresentano lo stesso schema di preferenze, allora esistono un > 0 e un tali che w u . Il teorema 6 afferma, dunque, che per ogni individuo esiste una ed una sola funzione di utilità a meno di trasformazioni lineari positive. Un individuo razionale (che soddisfa cioè gli assiomi 1 - 15 per ottenere il massimo beneficio sceglierà l’azione a cui egli associa, in base al suo schema di preferenze, l’utilità attesa maggiore. Cioè l’alternativa a* che soddisfa la relazione n m a* argmax P j uij i 1 J 1 dove uij u ai , j è una funzione a valori reali detta di utilità. Pertanto, il criterio di decisione ottimale è quello della massimizzazione dell’utilità attesa. 7.3 - Decisioni in situazioni di estrema incertezza Se non si dispone di alcuna informazione sulla probabilità dei vari stati di natura, si parla di decisioni in situazioni di incertezza. Alcuni autori, quelli che si richiamano alla scuola bayesiana-soggettivista, non accettano la tripartizione sopra richiamata in quanto ritengono, non solo possibile, ma anche necessario, per una risoluzione ottimale dei problemi decisionali, procedere all’introduzione di una misura della plausibilità (probabilità soggettiva) dei vari stati di natura facendo così cadere la distinzione tra situazioni di rischio e situazioni di incertezza. Su questo punto si avrà modo di ritornare successivamente, qui si accoglie la possibilità dell’esistenza di situazioni che possono essere definite di estrema incertezza o di ignoranza assoluta, nelle quali non si può o non si vuole procedere alla misura della plausibilità dei vari stati di natura. Si supponga ora che le conseguenze siano esattamente definite, che siano espresse in termini di utilità yij cij u (ai , j ) per i=1, 2, ..., m ; j=1, 2, ..., n e che ragionevolmente, un’utilità più elevata sia preferita ad una utilità più bassa. L’azione ottima è, pertanto, quella cui corrisponde l’utilità più elevata. Quindi, nel caso in cui il decisore si trova ad operare in situazioni di certezza, cioè di conoscenza dello stato di natura, il problema decisionale è praticamente risolto: basterà, infatti, scorrere la colonna delle utilità, individuare la più elevata e scegliere l'azione corrispondente a tale valore. Molto più problematico è il caso in cui il decisore si trova ad operare in situazioni di estrema incertezza. Infatti, se si guarda alla Tab. 7.2, dove ai simboli algebrici cij sono stati sostituiti i simboli y ij , che rappresentano le utilità, si vede chiaramente come, non essendo noto lo stato di natura, non sia possibile operare il confronto tra i valori numerici riportati nella tavola a meno che non ci si riconduca ad una situazione analoga 377 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni a quella prospettata in precedenza (situazione di certezza) dove ad ogni azione diversa corrisponde un solo valore numerico; si tratta, in altre parole, di passare, in qualche modo, da n colonne ad una sola colonna. Azione Stato di natura a1 a2 ai am θ1 θ2 θj θn y11 y21 yi1 ym1 y12 y22 yi2 ym2 y1j y2j yij ymj y1n y2n yin ymn Tab. 7.2 - Tavola di decisione con conseguenze espresse in termini di utilità Il caso in cui l’agente non sia in grado o non voglia assegnare una distribuzione di probabilità agli stati di natura s’incontra frequentemente in pratica. Risulta quindi conveniente una breve rassegna dei criteri di decisione suggeriti per la risoluzione del problema di scelta in tali situazioni (di estrema incertezza). Per semplificare l’esposizione, senza perdere in generalità, ci si limiterà ad analizzare il caso discreto. Tra i criteri suggeriti per la soluzione del problema di decisione in situazioni di estrema incertezza assumono un certo rilievo: quelli che, grosso modo, fondano il criterio di decisione su elementi caratteristici (ad esempio la realizzazione più favorevole, quella meno favorevole, ecc.) della Tab. 7.2. 1. Criterio del max-min o criterio di Wald. Esso consiste nello scegliere l’azione a* che corrisponde al massimo delle utilità minime a* argmax (min yij ) i j Questo criterio è proprio del pessimista estremo il quale è convinto che, qualunque azione egli scelga, si realizzerà sempre quello stato di natura (condizioni strutturali, economiche di produzione e di mercato, di lavoro, ecc.) che gli permetterà il conseguimento del beneficio minimo. Quindi, egli si premunirà contro la natura cercando di ottenere il massimo, tra i benefici minimi, che essa è disposta a concedere. 2. Criterio del max-max. All’opposto del pessimista estremo c’è l’estremo ottimista, ed è colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto 378 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni benigna nei suoi confronti da concedere il beneficio massimo. La scelta ottimale risulta dalla relazione a* argmax (max yij ) j i 3. Criterio di Hurwicz. Considerando l’espressione a* argmax i min y (1 ) max y j ij j ij per compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti. L’ assume quindi il senso di indice di pessimismo; infatti, per = 1 si ha il criterio del max-min, per = 0 si ha il criterio del max-max. 4. Criterio di Savage o del min-max rimpianto. Per applicare il criterio di Savage, occorre sostituire agli elementi di ciascuna colonna della Tab. 2 la differenza tra l’elemento che ha valore massimo e l’elemento che occupa quella posizione rij max yij yij i scegliendo poi l’azione a* per la quale il massimo rimpianto assume valore minimo a* argmin (max rij ) j i Attraverso il criterio del min-max rimpianto l’operatore cerca di minimizzare i danni di una decisione errata. I quattro criteri di decisione presentati hanno tutti un certo carattere di accettabilità: naturalmente gli argomenti che possono essere avanzati a sostegno dell’uno o dell’altro criterio, sono di natura diversa, il che in effetti non presenta gravi inconvenienti. L’aspetto più problematico riguarda invece l’applicazione dei quattro criteri: infatti se essi vengono adottati in uno stesso problema di decisione ne può risultare una scelta di quattro azioni differenti. Da alcuni autori tale fatto è stato preso a pretesto per affermare che uno o più criteri devono essere necessariamente errati. Non sembra comunque che esistano ragioni sufficienti a sostegno di tale punto di vista; pare invece più giusta l’affermazione che tutti i criteri proposti hanno una portata applicativa limitata, e che a seconda delle circostanze dovrà essere adottato il criterio più opportuno. Un ulteriore criterio cui si fa riferimento quando si deve operare in situazioni di estrema incertezza è il cosiddetto criterio di Laplace o criterio della ragione insufficiente. Il criterio di Laplace individua quale azione migliore a* quella cui corrisponde il massimo della somma a* argmax i n y j 1 ij In base al criterio di Laplace, si attribuisce implicitamente a tutti gli stati di natura j uguale probabilità; ciò viene fatto in quanto non si hanno motivi sufficienti per ritenere 379 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni che la distribuzione delle probabilità sia diversa da quella uniforme. Evidentemente una tale giustificazione risulta del tutto insoddisfacente perché non sono chiari i motivi per i quali lo stato d’ignoranza completa debba implicare necessariamente un’uguale probabilità degli stati di natura. Pertanto, o si prende atto che si sta operando in situazioni di estrema incertezza, e cioè di ignoranza completa riguardo alla plausibilità (probabilità) dei vari stati di natura, e si agisce di conseguenza, oppure si dovrà procedere esplicitamente alla valutazione (soggettiva) 7 delle probabilità attraverso procedure adeguate. In realtà, anche negli altri criteri si opera una sorta di introduzione indiretta delle probabilità, ma si tratta comunque di una assegnazione di probabilità che dipende più dalle azioni che dagli stati di natura. Infatti, se si considera, ad esempio, il criterio del max-max, questo si risolve, in sostanza e distintamente per ciascuna azione, nell’attribuzione di una distribuzione degenere di probabilità che assegna valore 1 alla probabilità dello stato di natura cui corrisponde la conseguenza più favorevole, mentre nel criterio del max-min si assegna valore 1 alla probabilità dello stato di natura cui corrisponde la conseguenza più sfavorevole. 7.4 - Struttura del processo decisionale In questo paragrafo, e nei due paragrafi successivi, verranno presi in considerazione gli aspetti più elementari della teoria statistica delle decisioni seguendo gli schemi classici introdotti da A. Wald nel 19508. Si ricorda che nelle pagine precedenti sono stati analizzati i problemi decisionali in situazioni di estrema incertezza (nessuna informazione sugli stati di natura) e in situazioni di rischio o incertezza presupponendo la conoscenza della distribuzione delle probabilità sugli stati di natura (decisioni basate sulle sole informazioni a priori), verificando che, nel contesto della teoria dell’utilità classica, l’azione ottima per il decisore è quella che massimizza l’utilità attesa. Il decisore deve scegliere tra una gamma di azioni alternative possibili ma le conseguenze di ciascuna azione dipendono da una situazione reale detta stato di natura. Il decisore, sia in situazioni di estrema incertezza (mancanza assoluta di informazioni sulle probabilità relative allo stato di natura), sia in quelle di rischio (conoscenza della distribuzione di probabilità sugli stati di natura), può procedere nella scelta oppure decidere di rinviare la scelta definitiva dell’azione procedendo all’acquisizione di ulteriori dati (di tipo campionario). Si sottolinea in proposito che l’acquisizione di dati comporta usualmente un costo che potrebbe non risultare compensato dal guadagno informativo; ma sul valore dell’informazione campionaria si avrà modo di soffermare l’attenzione successivamente. Le diverse tipologie di problemi decisionali da affrontare e risolvere sono pertanto di: 7 8 Su queste problematiche si veda quanto è stato detto nel capitolo precedente. L'argomento viene trattato estesamente in Ferguson (1967), De Groot (1970), Berger (1985) e Piccinato (1996), 380 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni decisione in assenza assoluta di informazioni (teoria classica delle decisioni); decisione basata sulle sole informazioni a priori (teoria bayesiana delle decisioni); decisione basata sulle sole informazioni campionarie (teoria statistica classica delle decisioni); decisione basata su informazioni campionarie e informazioni a priori (teoria statistica bayesiana delle decisioni). Nel paragrafo successivo verrà affrontato il terzo problema, quello cioè della risoluzione di problemi decisionali basandosi sulle sole informazioni campionarie, ma prima di procedere nella illustrazione risulta conveniente una elencazione dei fattori che entrano in gioco e che possono caratterizzare i problemi decisionali in tutte le loro possibili articolazioni. Gli elementi che possono caratterizzare lo svolgimento di un qualunque processo decisionale, sia in termini di spazi di riferimento che di funzioni, nelle diverse strutturazioni e fattispecie operative, sono: spazio parametrico o spazio degli stati di natura; in molte situazioni tale spazio è Rh e può trattarsi sia di uno spazio discreto che di uno spazio continuo; A spazio delle azioni finali (si assume che lo spazio sia discreto); E spazio delle prove o degli esperimenti (si assume che lo spazio sia discreto); S spazio o universo dei campioni come risultato di ciascun esperimento. Generalmente i risultati campionari vengono espressi da n (dimensione campionaria) k-uple, se k sono i caratteri presi in considerazione di numeri reali X1 , X 2 ,..., X i ,..., X n dove X i , i = 1, 2, ….,n, è un vettore di dimensione k; D spazio delle decisioni. In aggiunta agli spazi appena definiti risulta conveniente introdurre esplicitamente almeno tre funzioni: la funzione di utilità U u a, , definita in precedenza, la funzione associa a ciascuna azione e stato di natura una conseguenza espressa in termini di utilità; la funzione di decisione a d x , funzione che proietta ciascun punto dello spazio campionario nello spazio delle azioni 9; 9 Una regola di decisione (funzione di decisione) si dice semplice o non aleatoria se ad ogni punto corrisponde un solo punto a A a A , mista od aleatoria se ad ogni punto x S xS corrisponde una gamma di punti cui è associata una distribuzione di probabilità. Da rilevare che le regole di decisione semplici si ottengono come caso particolare di quelle miste quando lo spazio delle probabilità è degenere. 381 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni la funzione di perdita L l a, , la funzione associa a ciascuna azione e stato di natura una conseguenza espressa in termini di perdita. Le relazioni tra i diversi elementi sopra definiti sono illustrate nella Fig. 7.2 dove è riportata la struttura completa del processo decisionale le cui diverse articolazioni saranno caratterizzate dalla presenza di specifici elementi e particolari relazioni: Ad esempio, nella teoria classica delle decisioni (decisioni in situazioni di estrema incertezza), entrano in gioco soltanto lo spazio degli stati di natura, lo spazio delle azioni e lo spazio delle conseguenze (espresse in termini di utilità o di perdite). Spazio delle decisioni D Spazio degli esperimenti Spazio dei campioni x E S d x Spazio delle azioni A a Spazio parametrico (Stato di natura) Verosimiglianza f x , Θ Utilità U a, o Perdite Probabilità a posteriori P / x Probabilità a priori La, Fig. 7.2 - Struttura del processo decisionale L’introduzione della funzione di perdita L l a, (loss) consente la trattazione della teoria statistica delle decisioni nei termini più tradizionali secondo l’impostazione originaria data da Wald e che risulta più consona al tipico ragionamento statistico. A sostegno di tale affermazione basta fare riferimento ai problemi classici di stima statistica puntuale e di test delle ipotesi. Nel primo caso si ricorda che, una delle proprietà “augurabili” per lo stimatore ˆ T X di è l’efficienza che tradizionalmente viene misurata attraverso il computo dell’errore quadrato medio qualunque sia il vero valore del parametro ˆ * T x min E T X min EQM ˆ 2 382 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni basterà interpretare EQM ˆ come funzione di perdita che si vuol minimizzare. Nella teoria del test delle ipotesi, fissata la probabilità di commettere un errore di I tipo si cerca di minimizzare la probabilità di commettere un errore di II tipo; in questo caso, la perdita che si vuol minimizzare è rappresentata dalla probabilità dell’errore di secondo tipo. Se si ragiona in termini di perdite, interpretate semplicemente come utilità negative, si può riproporre la tabella di decisione esprimendo le conseguenze cij in termini di perdite cij l ai , j lij anziché in termini di utilità cij uai , j uij . Decisioni Stato di natura 1 2 …… d1 l d1 ,1 l d1 ,2 …… d2 l d 2 ,1 l d 2 ,2 .... ..... ..... di l di ,1 l di ,2 .... ..... ..... dm l d m ,1 l d m ,2 j l d1 , j l d 2 , j l di , j l d m , j ..... n ..... l d1 ,n ..... ..... ….. ..... ..... l d 2 ,n ..... l di ,n ..... l d m ,n Tab. 7.3 - Tavola di decisione con conseguenze espresse dalla funzione di perdita Se il decisore opera in condizioni di estrema incertezza, cioè nelle situazioni nelle quali non possiede informazioni sulla distribuzione di probabilità degli stati di natura, o non vuole utilizzare quelle in suo possesso perché poco affidabili, per risolvere il problema di scelta dovrà fare ricorso ad uno dei criteri proposti per risolvere i problemi decisionali in situazioni di estrema incertezza. illustrati nel paragrafo precedente. Di seguito vengono riproposti tre dei criteri introdotti considerando le perdite lij l ai , j anziché le utilità) uij l ai , j . Criterio del min-max o criterio di Wald. Esso consiste nello scegliere l’azione a* che corrisponde al minimo della massima perdita a* argmin( max lij ) i j Come già sottolineato questo criterio è proprio del pessimista estremo il quale è convinto che, qualunque azione egli scelga, si realizzerà sempre quello stato di natura cui è collegata la perdita massima. Criterio del min-min. All’opposto del pessimista estremo c’è l’estremo ottimista, ed è colui il quale ritiene che qualunque sia l’azione prescelta, la natura sarà tanto 383 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni benigna nei suoi confronti da concedere la perdita minima. La scelta ottimale risulta dalla relazione a* argmin ( min lij ) j i Criterio di Hurwicz. a* argmin α max lij + (1 - α) min lij i j j per compreso tra zero ed uno, si deriva un criterio intermedio ai due sopra esposti. L’ assume quindi il senso di indice di pessimismo; infatti, per = 1 si ha il criterio del min-max, per = 0 si ha il criterio del min-min. Se il decisore opera in condizioni di rischio, cioè nel presupposto che sia nota la distribuzione delle probabilità sugli stati, soddisfacendo i postulati di comportamento razionale sopra illustrati, il problema decisionale ha una soluzione immediata; infatti, basterà sostituire il principio di massimizzazione dell’utilità attesa con quello della minimizzazione della perdita attesa: Pertanto l’azione ottimale a * è definita dalla relazione n a* argmin E l ai , j argmin l ai , j P j ai ai i 1 Come già sottolineato, per risolvere il problema decisionale in situazioni di estrema incertezza, degli elementi sopra definiti e riproposti in forma grafica nella Fig. 7.2, quelli da considerare sono: la funzione di perdita e il corrispondente spazio delle conseguenze; lo spazio delle azioni; lo spazio degli stati di natura; mentre, per risolvere il problema decisionale in situazioni di rischio, degli elementi sopra definiti e riproposti in forma grafica nella Fig. 7.1, quelli da considerare sono: la funzione di perdita e il corrispondente spazio delle conseguenze; lo spazio delle azioni; lo spazio degli stati di natura; la distribuzione delle probabilità (a priori) sugli stati di natura. 7.5 - Decisioni basate sulle sole informazioni campionarie Nelle due situazioni prospettate nel paragrafo precedente, l'operatore può procedere all'individuazione dell'azione a*, nell'insieme potenziale delle azioni A, ritenuta ottimale (attraverso l’impiego di uno dei criteri di decisione elencati, se si opera in condizioni di estrema incertezza, quella che minimizza la perdita attesa, se si opera in situazioni di rischio o incertezza), alternativamente, come già sottolineato, può decidere di acquisire informazioni sullo stato di natura predisponendo un particolare esperimento da scegliere 384 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni dalla famiglia E di esperimenti potenziali. Da notare che qui l'esperimento va inteso in senso ampio, includente cioè tutti i casi di acquisizione di dati quali la rilevazione mediante indagine campionaria, la predisposizione di un esperimento in senso classico, la raccolta di dati già pubblicati, lo spoglio di schede contenenti le manifestazioni di certi fenomeni, ecc.. Ovviamente, l’acquisizione di informazioni campionarie, oltre a collocare il processo decisionale nel contesto statistico (dalla teoria delle decisioni alla teoria statistica delle decisioni), può comportare un costo che potrebbe non essere compensato dalla riduzione dell’incertezza. Sorge così un nuovo problema decisionale che abbisogna di soluzione; l’interrogativo a cui dare risposta è, quindi, se procedere o meno all’acquisizione di informazioni campionarie il cui valore (e convenienza) potrà essere misurato soltanto a posteriori, cioè dopo aver realizzato l’esperimento ed acquisito le informazioni. Il tema del valore dell’informazione campionaria verrà trattato nel paragrafo 7.7, il paragrafo 7.6 sarà dedicato, invece, alla illustrazione delle problematiche connesse alla integrazione delle informazioni a priori con informazioni campionarie (teoria statistica bayesiana delle decisioni), mentre in questo paragrafo si affronterà il tema della scelta ottimale tra le diverse alternative utilizzando le sole informazioni campionarie (decisioni basate sulle sole informazioni campionarie: teoria statistica classica delle decisioni). Come già sottolineato, seguendo una tradizione ormai consolidata, la presentazione farà riferimento alle perdite e non alle utilità; in proposito, si sottolinea ancora una volta che la funzione di perdita non è altro che una particolare caratterizzazione della funzione di utilità. L’argomento verrà introdotto attraverso l’illustrazione di un problema decisionale divenuto ormai classico in letteratura perché, nonostante la sua estrema semplicità, consente una trattazione approfondita di tutti gli aspetti di interesse: si deve decidere se non procedere (azione a1 ) o procedere (azione a 2 ) alla trivellazione di un pozzo non disponendo di informazioni sulla presenza o meno del petrolio nel terreno. Se il petrolio non è presente, lo stato di natura è 1 , se invece è presente, lo stato di natura è 2 , il costo della perforazione è pari a 300mila $, gli introiti, in caso di presenza del petrolio, sono pari a 900mila $; ovviamente l’introito in caso di assenza di petrolio è 0. Il problema decisionale è proposto nella Tab. 7.4, dove si fa riferimento alle utilità, e nella Tab. 7.5, dove le conseguenze sono espresse in termini di perdite. Se il decisore conoscesse le probabilità (a priori), ad esempio P1 0.50 e P 2 0.50 , ne risulterebbe un’utilità attesa pari a 0, in corrispondenza dell’azione a1 , mentre l’utilità attesa per a 2 è pari 150mila $, quindi la scelta ottimale è a* a2 . Per contro, le perdite attese sarebbero, rispettivamente pari a 300mila $, per l’azione a1 , e pari a 150mila $ per l’azione a 2 ; ovviamente, anche se si ragiona di termini di perdita si individua a 2 come azione ottimale. L’esito peraltro risulta scontato; infatti se si ragiona in termini di lotteria, puntando 300mila $ si ha una probabilità del 50% di ricevere la 385 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni propria posta triplicata. Ovviamente questa conclusione è valida solo presupponendo una funzione di utilità lineare; un soggetto fortemente avverso al rischio potrebbe, infatti, decidere di non procedere alla trivellazione. Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 :presenza di petrolio 0 0 -300 600 Tab. 7.4 - Tavola di decisione: problema di trivellazione con utilità come conseguenze Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 :presenza di petrolio 0 600 300 0 Tab. 7.5 - Tavola di decisione: problema di trivellazione con perdite come conseguenze Gli aspetti concernenti l’influenza degli atteggiamenti individuali nei confronti delle scelte decisionali emergono anche nelle situazioni nelle quali non si possiede alcuna informazione sulle probabilità degli stati di natura. Infatti, se si fa riferimento alla Tab. 7.4 e si ricorre al criterio del max-min (pessimista) l’azione ottima risulta essere a1 , mentre il criterio del max-max (ottimista) individua a 2 come azione migliore. Nella Tab. 7.5 si riportano le soluzioni del problema decisionale fornite dal criterio di Hurwitz in corrispondenza di diversi valori assunti dal coefficiente (di pessimismo) . L’equivalenza riscontrata tra gli esiti di questo criterio e quelli che derivano dal criterio dell’utilità (perdita) attesa non è affatto generalizzabile a situazioni con stati di natura o azioni superiori a due. Osservando i dati riportati in tabella si rileva il valore dell’indice di pessimismo che induce il decisore a modificare la propria strategia, la soglia comporta la scelta dell’azione a1 (non trivellare) rispetto all’azione a 2 è 0.666 P 1 0.666 . Cioè, se si fa riferimento alla massimizzazione dell’utilità attesa, si decide di procedere alla trivellazione (azione a 2 ) se P 2 0.333 . 386 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Valori dell’indice di pessimismo 0 0,1 0,2 0,3 0,4 0,5 0,6 0,65 0,66 0,67 0,68 0,7 0,8 0,9 1 Azioni a1 : non perforare 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 a 2 : perforare 600 510 420 330 240 150 60 15 6 -3 -12 -30 -120 -210 -300 Tab. 7.6 - Problema di trivellazione con utilità come conseguenze: criterio di Hurwitz Si supponga che il decisore abbia la possibilità di acquisire, informazioni sulla presenza o meno di petrolio nel terreno utilizzando indipendenti. I possibili esiti dell’utilizzo dei sismografi sono riportati l’informazione fornita dai sismografi non è certa, le probabilità corrispondenza dei due diversi stati di natura sono riportati nella tabella. Segnalazione del sismografo Assenza di petrolio Presenza di petrolio a costo zero, due sismografi nella Tab. 7.7; di errore, in Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio 0.6 0.4 0.3 0.7 Tab. 7.7 – Probabilità dell’esito del sismografo condizionato allo stato di natura Il decisore potrà decidere se trivellare o meno sulla scorta dell’informazione campionaria acquisibile il cui esito può essere: entrambi i sismografi indicano assenza di petrolio, entrambi i sismografi indicano presenza di petrolio; un sismografo indica presenza di petrolio mentre l’altro indica assenza. 387 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Se con 0 si indica assenza di petrolio e con 1 presenza di petrolio, lo Spazio campionario S sarà costituito dai quattro punti campionari: S 0,0, 0,1, 1,0, 1,1 cui sono associate le probabilità: P0,0 / 1 P0 / 1 P0 / 1 0.36 P0,0 / 2 P0 / 2 P0 / 2 0.09 P0,1 / 1 P0 / 1 P1 / 1 0.24 P1,0 / 1 P1 / 1 P0 / 1 0.24 P0,1 / 2 P0 / 2 P1 / 2 0.21 P1,0 / 2 P1 / 1 P0 / 2 0.21 P1,1 / 1 P1 / 1 P1 / 1 0.16 P1,1 / 2 P1 / 2 P1 / 2 0.49 . I due punti campionari estremi indicano, rispettivamente, assenza di petrolio e presenza di petrolio segnalata da entrambi i sismografi; mentre, i due punti intermedi indicano che uno solo, dei due sismografi, segnala la presenza di petrolio. In sostanza si è in presenza di tre punti campionari per due diversi stati di natura, quindi il numero delle funzioni di decisione possibili è pari a 23 = 8: Si ricorda che la funzione di decisione è una funzione che fa corrispondere ad ogni punto campionario una specifica azione. Nella Tab. 7.8 è riportata l’esplicitazione delle 8 funzioni di decisione. Punti campionari 0,0 0,1 o 1,0 1,1 d1 d2 Funzioni di decisione d3 d5 d6 d4 a1 a2 a1 a1 a2 a1 a2 a1 a2 a1 a2 a2 a1 d7 d8 a1 a2 a2 a1 a2 a1 a2 a1 a2 a2 a1 Tab. 7.8 – Probabilità dell’esito del sismografo condizionato allo stato di natura Se si analizza quanto riportato nella Tab. 7.8 si rileva immediatamente la scarsa razionalità di alcune funzioni di decisione, ad es., le funzioni d 1 e d 2 individuano, rispettivamente, l’azione a1 e l’azione a 2 qualunque sia l’esito campionario, mentre la funzione d 5 individua l’azione a 2 (procedere alla trivellazioni) quando entrambi i sismografi registrano assenza di petrolio, mentre individuano l’azione a1 (non procedere alla trivellazione) quando uno o entrambi i sismografi registrano presenza di petrolio. Prescindendo per il momento dalla ragionevolezza o meno delle funzioni di decisione, si può procedere al calcolo delle perdite attese (rischi) associate a ogni funzione di decisione in corrispondenza dei due diversi stati di natura. A titolo esemplificativo si considera la funzione d 6 , la procedura di calcolo è illustrata nella Tab. 7.9. 388 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni 1 2 Stato di natura 1 Punti campionari Azione scelta 0,0 a1 0 Prob. del campione 0.36 0,1 , 1,0 o 1,1 a2 300 0.64 Perdita 1 2 Stato di natura 2 600 Prob. del campione 0.09 0 0.91 Perdita Perdita attesa (Rischio) Col. 1 x Col. 2 1 2 Perdita attesa (Rischio) 0 54 192 0 192 54 Tab. 7.9 – Calcolo delle perdite attese per la funzione di decisione d 6 Nella Tab. 7.10 sono riportate le perdite attese (rischi) per tutte le funzioni di decisione introdotte. Decisioni Stati di natura 1 : assenza di petrolio 2 :presenza di petrolio d1 0 600 d2 300 0 d3 144 348 d4 48 306 d5 108 546 d6 192 54 d7 252 294 d8 156 252 Tab. 7.10 – Tavola delle perdite attese (rischi) Se si osserva la tabella si evince immediatamente che la natura del problema che il decisore deve risolvere è sostanzialmente analoga a quella già esaminata in precedenza; si tratta, cioè, di scegliere tra le 8 decisioni possibili quella che minimizza la perdita attesa non avendo informazioni sulla probabilità degli stati di natura (situazione di 389 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni estrema incertezza) facendo però riferimento a perdite e decisioni anziché a utilità e azioni. Il primo passo da compiere è, quindi, quello della verifica della presenza di un’eventuale decisione dominante, quella cioè caratterizzata da rischio minimo qualunque sia lo stato di natura. Osservando i valori riportati nella Tab. 7.9 si verifica l’assenza di una tale eventualità. Il secondo passo consiste nell’individuazione (e successiva eliminazione) di eventuali decisioni dominate da altre, ed è questo il caso delle decisione d 3 e d 5 , che risultano dominate dalla decisione d 4 , e della decisione d 7 , che risulta dominata dalla decisione d 8 . Tornando al problema decisionale nei suoi termini più generali si può affermare che la decisone ottima per l’operatore è quella che minimizza la perdita (massimizza l’utilità) per qualunque stato di natura e risultanza campionaria, ma una tale strategia difficilmente si riesce a determinare nella pratica; qualora si riuscisse ad individuarla si parlerebbe di strategia "uniformemente migliore". Per superare le difficoltà relative alla determinazione della strategia "ottima" è stato proposto, tra l’altro di restringere la classe delle decisioni ammissibili; si tratta di un metodo che prevede l'esclusione di strategie che non soddisfano a determinati requisiti ritenuti "augurabili" dall'operatore. Un tale modo di procedere consente da un lato l'eliminazione dall'analisi delle strategie meno efficienti, dall'altro incrementa le possibilità di esistenza di strategie uniformemente migliori, facilitandone l'individuazione, nella classe ristretta. Una delle condizioni che può essere considerata per restringere la classe delle decisioni possibili è l'invarianza. A giustificazione di tale restrizione si può dire che se un problema di decisione risulta simmetrico od invariante rispetto a certe operazioni, sembra ragionevole restringere la classe delle decisioni possibili a quelle che siano simmetriche od invarianti nei confronti delle stesse operazioni. Restringere la classe delle decisioni possibili si sostanzia nella introduzione di vincoli che devono essere soddisfatti dalle decisioni stesse. Si tratta, sostanzialmente, di una procedura del tutto analoga a quella adottata nel contesto della regressione lineare: infatti, in tale contesto, imponendo il soddisfacimento dei vincoli di linearità e correttezza è stato possibile individuare lo stimatore ottimale, cioè, lo stimatore BLU . Assegnando all’errore quadratico medio la natura di funzione di perdita, è stato possibile individuare la strategia dominante. Il tema della restrizioni della classe delle decisioni non verrà qui affrontato procedendo, invece, alla generalizzazione di quanto discusso nell’esempio sopra illustrato. Si farà riferimento ad un generico numero n di stati di natura, ad un generico numero r di funzioni di decisione e ad un generico vettore casuale X X 1, X 2 ,...., X n ' associato alla rilevazione campionaria frutto della conduzione di uno specifico esperimento. 390 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni In questo contesto la generica funzione di decisione assume la forma a d x1 , x2 ,...., xn d x , dove x x1 , x2 ,...., xn ' rappresenta l’esito dell’esperimento condotto (risultato campionario), cioè, la determinazione del vettore casuale X X 1, X 2 ,...., X n . Pertanto la perdita attesa (rischio) resta definita dalla ' relazione: R d , R d x , Ex l d x , . Relazione che per un vettore campionario relativo ad una variabile discreta diventa R d , E x l d x , x l d x , P x / x 1 x2 x l d x1 , x2 ,...., xn , f x1 , f x2 , ....... f xn , n dove f xi , , per i=1,2,….,n, rappresenta la funzione di massa di probabilità della variabile casuale X i associata all’i-esima unità campionaria. Se le variabili casuali X i originano da una variabile casuale continua, l’espressione algebrica del rischio (perdita attesa) è data da: R d , E x l d x , l d x , P x / x x1 x2 ...... l d x1 , x2 ,...., xn , f x1 , f x2 , ....... f xn , dx1dx2 .....dxn xn dove f xi , , per i=1,2,….,n, rappresenta la funzione di densità di probabilità della variabile casuale X i associata all’i-esima unità campionaria. La tavola di decisione che riassume i termini del problema decisionale (cfr. Tab. 7.11) è del tutto analoga alla Tab. 7.3, anche se ora è espressa in termini di funzioni di decisioni e di rischi (perdite attese) anziché di perdite; pertanto, per risolvere il problema decisionale, basterà fare ricorso ai criteri illustrati nel paragrafo 7.4. Decisioni Stato di natura 1 2 …… d1 Rd1 ,1 Rd1 , 2 …… d2 Rd 2 ,1 Rd 2 , 2 .... ………… ………… …… …… Rd i , 2 di Rd i ,1 .... ………… ………… …… …… dr R d r ,1 R d r ,2 …… j Rd1 , j Rd 2 , j ………… Rd i , j ………… R d r , j ....... ....... n Rd1 , n Rd 2 , n ....... ....... ………… …... ....... ………… ....... R d r ,n Rd i , n Tab. 7.11 - Tavola di decisione con conseguenze espresse dai rischi (perdite attese) 391 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni 7.6 - Decisioni basate su informazioni a priori e informazioni campionarie Nei paragrafi precedenti si è visto come l'operatore possa utilizzare l'insieme delle probabilità a priori, che riflettono le sue "credenze" sulle possibilità di realizzazione dei vari stati di natura, per determinare l'utilità attesa o, alternativamente, la perdita attesa relativamente a ciascuna azione; è stato inoltre esaminato il caso in cui l'operatore, prescindendo da ogni informazione a priori, utilizza le informazioni campionarie per il computo del rischio. E' stato sottolineato anche il fatto che, generalmente, non è possibile individuare una funzione di decisione capace di minimizzare il rischio in corrispondenza di ciascuno stato di natura; cioè, nella generalità dei casi non esiste una decisione dominante. A tale proposito è stata esaminata la possibilità di ricorrere con opportuni adattamenti, ai criteri esposti nel paragrafo 7.4. Una seconda possibilità è, ovviamente, quella d'introdurre una distribuzione di probabilità sugli stati di natura, calcolando il rischio atteso, per poi procedere alla individuazione della decisione che minimizza tale rischio atteso (decisione ottimale). Evidentemente l'introduzione di una distribuzione di probabilità sugli stati di natura attribuisce al problema decisionale un carattere completamente diverso da quello discusso nel precedente paragrafo, assumendo una natura del tutto analoga ad un problema decisionale nel quale l'operatore, disponendo di certe informazioni a priori e non ritenendole sufficient i, decide di procedere all’acquisizioni di dati aggiuntivi per incrementare il suo bagaglio di conoscenze sul fenomeno in oggetto d’analisi. In questo paragrafo si vedrà come l'applicazione del criterio (paradigma) bayesiano alla tabella dei rischi conduca all’individuazione della decisione ottimale; cioè, quella che minimizza il rischio atteso ( analisi in forma normale). Si vedrà, inoltre, come l'operatore possa integrare, con le informazioni aggiuntive di tipo campionario, le informazioni a priori mediante una loro revisione attraverso l'applicazione delle formule di Bayes ( analisi in forma estensiva) pervenendo agli stessi risultati. In proposito si deve sottolineare che spesso la revisione delle probabilità a priori attraverso le formule di Bayes può risultare un'operazione estremamente complessa; e ciò è vero soprattutto se non si riesce ad individuare uno " statistic" 10 la cui distribuzione sia determinata univocamente dai dati campionari. Per contro, si deve tener presente del fatto che quando si è in presenza di un numero elevato di possibili stati di natura e di possibili risultanze campionarie risulta molto complicata, a volte anche impossibile, la definizione di tutte le possibili funzioni di decisione. 10 Si ricorda che uno statistic, statistica in italiano, è una funzione nota degli elementi campionari e che le probabilità a priori revisionate vengono dette probabilità a posteriori. 392 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Nel paragrafo precedente è stato illustrato un esempio in merito alla decisone di procedere o meno alla trivellazione di un pozzo per la ricerca del petrolio esaminando la possibilità di acquisizione di informazioni campionarie attraverso l’impiego di sismografi. Se si prende nuovamente in considerazione l’esempio partendo dalla tabella dei rischi e si osservano i dati riportati nella Tab. 7.11 si rileva immediatamente che se lo stato di natura più probabile è 1 le decisioni migliori risultano essere d 1 e d 4 , mentre se è più probabile lo stato di natura 2 le decisioni migliori sono la d 2 e la d 6 . Si supponga ora che le probabilità associate ai due stati di natura siano P1 0.2 e P 2 0.8 , sulla scorta di tali probabilità si possono calcolare i rischi attesi riportati nella Tab. 7.12. Funzioni di decisione Stati di natura 1 : assenza di petrolio 2 :presenza di petrolio Dominanza d1 0 600 - d2 300 0 - d3 144 348 Dominata d4 48 306 - d5 108 546 Dominata d6 192 54 d7 252 294 Dominata d8 156 252 - Tab. 7.11 – Tavola delle perdite attese (rischi) Per chiarezza espositiva risulta utile riproporre la tabella delle funz ioni di decisione Punti campionari 0,0 0,1 o 1,0 1,1 d1 d2 Funzioni di decisione d3 d5 d6 d4 a1 a2 a1 a1 a2 a1 a2 a2 a1 a2 a1 a2 a1 a2 a1 a2 a1 a2 a2 a1 a1 a2 a2 a1 d7 d8 Poiché la decisione che minimizza il rischio atteso è d 2 , cioè quella di procedere alla trivellazione qualunque sia l’esito della rilevazione campionaria, la conclusione cui si perviene è che l’informazione campionaria acquisita, in questo caso specifico, è del tutto irrilevante. 393 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni A prescindere dal risultato cui si è pervenuti ipotizzando l’acquisizione di informazioni campionarie con dimensione del campione pari a 2 ( n=2), il problema decisionale poteva essere affrontato e risolto in modo diverso secondo i passi di seguito indicati: 1. fissazione delle probabilità a priori sugli stati di natura; 2. esecuzione della rilevazione campionaria e registrazione dei risultati; 3. revisione, utilizzando la formula di bayes, delle probabilità a priori sugli stati di natura sulla base delle risultanze campionarie; 4. applicazione del criterio bayesiano per l’individuazione dell’azione cui corrisponde la perdita attesa minima. Se si fa ricorso a questa procedura, la tabella dei rischi non è più necessaria in quanto il criterio di decisione bayesiano può essere applicato direttamente alla tabella delle perdite utilizzando le probabilità a priori riviste; utilizzando, cioè, le probabilità a posteriori. Comunque, le due diverse procedure pervengono alla stessa conclusione. Funzioni di decisione Stati di natura 1 : assenza di petrolio 2 : presenza di petrolio P 2 0.8 P1 0.2 Rischi attesi d1 0 600 480 d2 300 0 60 d4 48 306 254 d6 192 54 82 d8 156 252 233 Tab. 7.12 – Tavola dei rischi attesi per le decisioni non dominate Se si assume che le probabilità a priori siano quelle sopra introdotte, P1 0.2 e P 2 0.8 , osservando i dati riportati nella Tab. 7.12 si individua d 2 quale decisione ottimale che, come osservato, è una decisione indipendente dal risultato campionario. Si ipotizzi ora una diversa distribuzione delle probabilità a priori, ad esempio, P1 0.55 e P2 0.45 , e si calcolano i rischi attesi si individua d 6 quale decisione ottimale (quella cui corrisponde il rischio atteso minimo). Si ricorda che la decisione d 6 prevede di non procedere alla trivellazione se entrambi i sismografi segnalano assenza di petrolio, di procedere alla trivellazione quando uno o entrambi i sismografi segnalano presenza di petrolio. Pertanto, se anziché procedere nel modo sopra indicato, cioè all’introduzione delle funzioni di decisione e al computo dei rischi attesi, si procedesse alla scelta dell’azione 394 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni ottimale basando il calcolo sulla distribuzione delle probabilità a posteriori si perviene alla stessa soluzione finale; infatti, ricordando la formula di Bayes f x / f f / x f x / f e i valori definiti nel capitolo precedente P0,0 / 1 P0 / 1 P0 / 1 0.36 P0,0 / 2 P0 / 2 P0 / 2 0.09 P0,1 / 1 P0 / 1 P1 / 1 0.24 P0,1 / 2 P0 / 2 P1 / 2 0.21 P1,0 / 1 P1 / 1 P0 / 1 0.24 P1,0 / 2 P1 / 1 P0 / 2 0.21 P1,1 / 1 P1 / 1 P1 / 1 0.16 P1,1 / 2 P1 / 2 P1 / 2 0.49 . cioè le probabilità che derivano dalla distribuzione binomiale n x n x p q x 2! 2! f 0 / 2 0.70 0.32 0.09 0.40 0.62 0.36 0!2! 0! 2! 2! 2! f 1 / 1 0.41 0.61 0.48 f 1 / 2 0.71 0.31 0.42 1!1! 1! 1! 2! 2! f 2 / 1 0.42 0.60 0.16 f 2 / 2 0.7 2 0.30 0.49 2!0! 2! 0! si deducono facilmente le probabilità a posteriori. Nel caso che si sta trattando n 2 mentre p 0.4 se 1 , p 0.7 se f 0 / 1 2 ,quindi: f 1 / 0 f 0 / 1 f 1 0.36 0.55 0.83 f 0 / 1 f 1 f 0 / 2 f 2 0.36 0.55 0.09 0.45 f 2 / 0 1 f 1 / 0 0.17 f 1 / 1 f 1/ 1 f 1 0.48 0.55 0.58 f 1/ 1 f 1 f 1/ 2 f 2 0.48 0.55 0.42 0.45 f 2 / 1 1 f 1 / 1 0.42 f 1 / 2 f 2 / 1 f 1 0.16 0.55 0.03 f 2 / 1 f 1 f 2 / 2 f 2 0.16 0.55 0.49 0.45 f 2 / 2 1 f 1 / 2 0.97 . Le tavole di decisione nei tre casi considerati sono di seguito riportate. 395 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P 2 / 0 0.17 P1 / 0 0.83 Perdita attesa 0 600 102 300 0 249 Tab. 7.13 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi segnalano assenza di petrolio Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P 2 / 1 0.42 P1 / 1 0.58 Perdita attesa 0 600 252 300 0 174 Tab. 7.14 - Tavola di decisione con probabilità a posteriori nel caso in cui un solo sismografo segnala assenza di petrolio Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : ass. di petrolio 2 : pres. di petrolio P1 / 2 0.03 P 2 / 2 0.97 Perdita attesa 0 600 582 300 0 9 Tab. 7.15 - Tavola di decisione con probabilità a posteriori nel caso in cui i due sismografi segnalano presenza di petrolio Osservando quanto riportato nelle Tabb. 7.13, 7.14 e 7.15 si perviene alla conclusione di non procedere alla trivellazione quando entrambi i sismografi segnalano assenza di petrolio (cfr. Tab. 7.13), di procedere invece alla trivellazione quando uno (cfr. Tab. 7.14) o entrambi (cfr. Tab. 7.15) i sismografi segnalano presenza di petrolio, scelte queste che corrispondono esattamente alla decisione d 6 , cioè la decisione che minimizza il rischio atteso. *** Si dimostra l’equivalenza tra la minimizzazione del rischio atteso (forma normale) e il criterio bayesiano basato sulle probabilità a posteriori (forma estensiva). 396 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Per una qualunque funzione di decisione d i è possibile procedere al computo del rischio (perdita attesa) Rdi , in corrispondenza di ogni stato di natura Θ . Se si conosce la distribuzione di probabilità sugli stati di natura sarà, inoltre, possibile procedere al calcolo del rischio atteso E Rdi , Rdi , f nel caso in cui lo stato di natura è discreto E Rdi , Rdi , f d nel caso in cui lo stato di natura è continuo. La scelta ottimale è la decisione d * argmin R di , f nel caso in cui lo stato di natura è di discreto d * argmin R d , f d i di nel caso in cui lo stato di natura è continuo. Si ricorda che: 1. la funzione di decisione è definita sullo spazio dei campioni, è cioè una funzione che fa corrispondere a ciascun punto camp ionario una specifica azione, a d x1 , x2 ,...., xn d x ; 2. il rischio corrisponde alla perdita attesa, R d , R d x , Ex l d x , , si avrà, pertanto, argmin E R d i , d i argmin E R di x , di . argmin E E x l d i x , di Considerando, senza perdere in generalità, il caso in cui sia lo spazio parametrico che lo spazio dei campioni sono discreti, si ha: argmin E R d i , d i argmin di argmin E E x l di x , di l d x , f x / x i f . Se si cambia l’ordine di sommatoria, si tiene conto della relazione a d x e dell’uguaglianza f x / f f / x f x si ha: 397 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni argmin x l di x , f x / f argmin E R d i , d i argmin di x di l d x , f / x f x x i argmin l d i x , f / x di f x x argmin l a, f / x f x . di dove, nell’ultimo passaggio, si è tenuto a d x1 , x2 ,...., xn d x . pertanto a argmin E R di , d * i conto della argmin l a, f / x d relazione . i * dove con a si è voluto indicare l’azione ottimale quando nel problema decisionale si utilizzano sia le informazioni a priori che le informazioni campionarie, si tratta cioè della perdita attesa calcolata utilizzando le probabilità a posteriori. Al riguardo si ricorda che la corrispondente azione ottimale individuata utilizzando le sole informazioni a priori è data da a* argmin a l a, f . *** Questo risultato dimostra la completa equivalenza delle due diverse procedure, forma normale e forma estensiva, che consentono la minimizzazione della perdita attesa. I diversi passaggi hanno riguardato il caso in cui sia lo spazio parametrico che lo spazio dei campioni siano discreti; procedimento del tutto analogo vale anche nel caso in cui entrambi gli spazi siano continui o uno sia discreto e l’altro continuo. Nel caso in cui entrambi gli spazi sono continui si ha: argmin E R d i , argmin d d i argmin di i x l d x , f x / d x f x i l d x , f / x d i argmin l d i x , f / x d di x f x d x a argmin * a f x d x argmin l d i x , f / x d f x d x x di cioè: l d x , f / x d argmin l a, f / x d i a 398 d B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni il che dimostra la completa equivalenza tra i due criteri. Cosa questa d'altronde ovvia in quanto le due procedure sono basate sugli stessi dati e calcoli, l'unica differenza risiede nell'ordine con cui le operazioni analitiche vengono eseguite; infatti, entrambi si avvalgono delle pro babilità a priori e delle informazioni campionarie nel computo dei valori attesi (rischi o utilità). L'operatore sceglierà, vista la completa equivalenza dei due criteri, quello che risulta più facilmente trattabile dal punto di vista algebrico ed operativo. Se si riflette sulle operazioni che devono essere effettuate per pervenire alla individuazione della decisione ottimale ci si rende immediatamente conto, però, dell’onerosità della procedura (forma normale) basata sull’introduzione delle funzioni di decisione; si è visto, infatti, nell’esempio che per un semplice problema decisionale in cui sono soltanto 2 le possibili azioni e 3 i possibili risultati campionari, il numero delle funzioni di decis ione possibili risulta pari a 8 2 3 ; anche se, al riguardo, si deve sottolineare che le funzioni di decisione “ragionevoli”, cioè quelle da prendere in considerazione, sono soltanto 2: la d 4 e la d 6 . Concettualmente più semplice, è la procedura ( forma estensiva) basata sulla minimizzazione dell’utilità attesa considerando le probabilità a posteriori; ma, come già sottolineato, anche in questo caso si possono incontrare notevoli difficoltà. Il paragrafo successivo sarà dedicato alla trattazione dei casi di aggiornamento delle probabilità a priori sulla scorta dell’evidenza campionaria, cioè di derivazione delle probabilità a posteriori, che si incontrano più frequentemente nella pratica. Mentre, a u lteriore chiarimento delle considerazioni sopra svolte, si dedica la parte conclusiva di questo paragrafo alla illustrazione di un altro caso decisionale. Esempio 7.1 Si supponga che la proporzione di pezzi difettosi presenti in un lotto possa assumere quattro diversi valori 1 0.02, 2 0.03, 3 0.04, 4 0.05 e che le probabilità (a priori) dei diversi stati di natura siano P1 0.10, P 2 0.20, P 3 0.40, P 4 0.30 , si supponga di aver estratto un campione casuale bernoulliano (estrazione con ripetizione) di 100 pezzi dal lotto e di aver riscontrato la presenza di 3 pezzi difettosi. Come si deve procedere nella revisione dell’informazioni a priori tenendo conto delle risultanze campionarie? Sostanzialmente quello che si vuol fare e passare da P j f j a P j / x f j / x , per j = 1, 2, 3 e 4. Se si indica con X il numero di pezzi difettosi riscontrabili nel lotto dei 100 pezzi esaminati, tale entità variabile potrà assumere i valori 0, 1, 2,…., x,…., 100 e la probabilità (verosimiglianza) di un qualunque risultato campionario 399 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni per uno specifico stato di natura è espressa dalla distribuzione binomiale 100 x 100 x . Pertanto, la probabilità totale è data da P X x / 1 x X x 1 X x 2 P X x P X x 3 X x 4 P X x / 1 P 1 P X x / 2 P 2 P X x / 3 P 3 P X x / 4 P 4 100 100 100 x 100 x x x 0,10 0, 20 0, 02 1 0, 02 0, 03 1 0, 03 x x 100 100 100 x 100 x x x 0, 40 0,30 0, 04 1 0, 04 0, 05 1 0, 05 x x da cui X 3 0, 02 X 3 0, 03 P X 3 P X 3 0, 04 X 3 0, 05 P X 3 / 0, 02 P 0, 02 P X 3 / 0, 03 P 0.03 P X 3 / 0, 04 P 0, 04 P X 3 / 0, 05 P 0, 05 100 100 3 97 3 97 0, 02 0,97 0,10 0, 03 0,97 0, 20 3 3 100 100 3 97 3 97 0, 04 0,96 0, 40 0, 05 0,95 0,30 3 3 0,18 0,10 0, 23 0, 20 0, 20 0, 40 0,14 0,30 0,186 Il valore 0,186 è, quindi, la probabilità che l’entità variabile X assuma la determinazione 3, cioè la probabilità di ottenere il risultato campionario ipotizzato P X 3 f 3 . Disponendo delle risultanze campionarie e delle probabilità a priori si può procedere al computo delle probabilità a posteriori. Le elaborazioni sono riassunte nella Tab. 7.16. 400 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Stato di natura Probabilità a priori Probabilità condizionata (verosimiglianza) f 3 / Probabilità congiunta f 3 / Probabilità a posteriori f / 3 f 3 / 4 f 3 / i 1 0,02 0,03 0,04 0,05 0,10 0,20 0,40 0,30 1,00 0,18 0,23 0,20 0,14 0,018 0,046 0,080 0,042 0,186 i i 0,097 0,248 0,430 0,225 1,000 Tab. 7.16 – Revisione delle probabilità a priori e computo delle probabilità a posteriori in corrispondenza di un risultato campionario pari a 3 relativo ad un campione di dimensione 100 Come si può facilmente desumere analizzando i dati riportati nella Tab. 7.16, i risultati campionari hanno prodotto delle variazioni nella distribuzione delle probabilità sugli stati di natura; a questo punto il decisore può utilizzare tali valori per procedere al calcolo delle perdite attese oppure procedere ad una ulteriore rilevazione campionaria, i cui risultati consentono una seconda revisione delle probabilità, in questo processo di revisione le probabilità a posteriori riportate nella tabella assumono la natura di probabilità a priori nel secondo passo di aggiornamento della conoscenza. Si può dimostrare senza eccessiva difficoltà che la procedura di aggiornamento delle probabilità in due passi successivi produce gli stessi risultati della procedura che congloba i risultati delle due rilevazioni in un solo campione che dovranno essere utilizzati per revisionare le probabilità a priori iniziali. I calcoli necessari per aggiornare le probabilità a priori sulla scorta dell’evidenza campionaria nell’esempio sopra illustrato sono relativamente semplici, in altri casi la soluzione non è cosi immediata. Fortunatamente, esistono situazioni, e sono abbastanza frequenti, in cui il problema dell’aggiornamento delle probabilità a priori può essere risolto in modo agevole, si tratta dei casi in cui è giustificato il ricorso alle distribuzioni a priori coniugate già considerate nei capitoli 2 e 6 di queste note. 7.7 - Il valore dell’informazione Si è detto nelle pagine precedenti come, in alcuni problemi di decisione, l'operatore possa ritenere di non avere informazioni sufficient i sia in relazione agli stat i di natura (ed è il caso speci ficamente trattato) che alle conseguenze. Si è pure visto come in tali condizioni egli possa procrast inare 401 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni il momento della scelta decidendo per l'acquisizione di ulter ior i informazioni, magari di tipo campionario. Evidentemente la decisione di procedere all'acquisizione di ulteriori elementi d'informazione deve essere presa a priori. Un tale fatto introduce nel problema decisionale un elemento aggiuntivo d'incertezza relativo alle risultanze campionarie e quindi alla bontà delle informazioni. L'operatore sa che attraverso un'indagine potrà acquisire ulteriori informazioni che ridurranno quasi certamente lo stato d'incertezza in cui è costretto ad operare, ma non conosce esattamente la misura di tale riduzione. D'altra parte l'operatore sa anche che l'effettuazione di un'indagine comporta delle spese, e che una dilazione della decisione potrebbe risultare eccessiva ed implicare quindi ulteriori cost i. Nel caso della scelt a degli investimenti pubblici, ad esempio, può risultare impossibile o estremamente costosa una dilazione nell'inizio dei lavori almeno per due ragioni, una legata a motivi di natura strettamente polit ica, l'altra di carattere prevalentemente tecnico. Infatti, basta pensare, all'urgenza di certe opere a carattere sociale, relativamente al primo caso, e al fatto che dal momento in cui le informazioni vengono acquisite al momento in cui una decisione d'investimento diviene operativa la situazione reale di riferimento può essere notevolmente mutata, relativamente al secondo caso. Riassumendo, in mer it o al problema dell'acquisizio ne di ulteriori informazioni si devono distinguere almeno tre fatti: 1. che l'indagine comporta un costo e. che non è noto con certezza fino a che punto tale costo sarà compensato dalle informazioni aggiuntive; 2. che per l'effettuazione dell'indagine, in genere, si può disporre di un arco di tempo limitato; 3. che la decisione d'acquisire ulteriori informazioni deve essere presa a priori. Da quanto scritto ai punt i 1 e 2 si capisce immediatamente come un'indagine del genere debba avere quasi necessariamente carattere campionario. Va sottolineato il fatto che le informazioni aggiuntive possono essere utilizzate, oltre che per modificare la distribuzione delle probabilità sugli stati di natura, anche per modificare l'insieme delle conseguenze o la forma della funzione di utilità. Nelle pagine successive verrà descritto sommariamente il pro blema dell'acquisizione di ulteriori informazioni attraverso indagini campionarie, discutendo alcune procedure attraverso le quali può essere stabilito un piano di campionamento ottimo in funzione di un problema decisionale, nei termini espost i nel paragrafo precedente. Poiché qui ci si limiterà, come già detto, a considerare il caso in cui i dati campionari vengono utilizzati dall'operatore per mo dificare la distribuzione 402 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni della probabilità sugli stati di natura, quando si parlerà di piano di campionamento ottimo, l'ottimalità andrà riferita a tale aspetto del problema decisionale. La bontà di un campionamento viene misurata attraverso il confronto tra l'ut ilit à/perdita attesa calcolat a facendo uso dei dat i ag giuntivi, e l'utilità/perdita attesa ottenibile senza campionamento. In altri termini, se l'utilità attesa relativa all'azione migliore, calcolata utilizzando le informazioni campionarie e detraendo il costo sopportato è superiore all'ut ilità attesa relativa alla migliore azione senza l'uso dei dat i campionari, allora ci si troverà in condizioni tali per le quali il costo del campionamento è più che compensato dalla r iduzione dello stato d'incertezza in cui si è costrett i ad operare; si procederà quindi all'effettuazione dell'indagine. Un secondo problema relativo al campionamento (il primo è quello di deciderne l'effettuazione) riguarda la dimensione campionaria. Evidentemente, più si aumenta la dimensione del campione, maggiori saranno le informazioni disponibili; d'altra parte ad una più elevata riduzione dello stato d'incertezza cor risponderà un costo più elevato. Il piano di campionamento ottimo sarà quello che massimizza l'utilità attesa alla luce di questi due effetti contrastanti. In termini marginalist ici si può affermare che la dimensione del campione va aument ata fino a quando il costo di un’unità d'informazione addizionale bilancia l'incremento/decremento nell'utilità/perdita attesa (costo marginale pari all'utilità marginale). Prima di procedere alla trattazione puntuale del problema del campionamento conviene introdurre ulteriori concetti che si riveleranno di grande utilità nel corso dell’esposizione. Si tratta essenzialmente di due concetti: il valore atteso dell’informazione perfetta ( expexted value of perfect information EVPI); il valore atteso dell’informazione campionaria ( expexted value of sample information EVSI). Il valore atteso dell’informazione perfetta viene è dato dalla differenza tra l’utilità o la perdita attesa che corrisponde all’azione ottima, cioè quella cui corrisponde la massima utilità attesa o la minima perdita attesa e l’utilità o perdita attesa calcolata ipotizzando la conoscenza perfetta dello stato di natura, Se il decisore sa che lo stato di natura è 1 lo stesso non avrà alcuna difficoltà ad individuare l’utilità/perdita corrispondente l’azione migliore, allo stesso modo può procedere in corrispondenza di tutti gli altri stati di natura 2 , 3 , ... , j , ... , n . Se si indica con l * j min l ai , j la perdita minima corrispondente a ciascun stato di natura, si i potrà procedere al computo della perdita attesa in situazione di incertezza ma sotto l’ipotesi di perfetta informazione 403 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni a*p argmin a l * f Ricordando che l’azione migliore in situazione di incertezza è data dalla relazione l a, f a argmin a il valore atteso dell’informazione perfetta è espresso da EVPI = a*p a * argmin a l * f - argmin l a, f a Nel paragrafo precedente oltre ad aver dimostrato l’equivalenza tra forma normale e forma estensiva, quando nei problemi decisionali si può disporre sia di informazioni a priori che di informazioni campionarie, è stata individuata come azione ottimale quella che risulta dalla relazione a argmin a l a, f / x , a questo punto è possibile definire il valore atteso dell’informazione campionaria (EVSI) che si ottiene, semplicemente, calcolando la differenza tra la perdita attesa basata sulle probabilità a priori e la perdita attesa basata sulle probabilità a posteriori, cioè EVSI a a argmin a l a, f argmin a l a, f / x Come già sottolineato qualunque rilevazione campionaria comporta un costo che può essere definito dalla relazione C n C f n Cv dove il costo totale del campionamento è costituito da una quota fissa più una quota variabile il cui ammontare dipende dalla dimensione campionaria. Pertanto il guadagno atteso netto associato alla rilevazione campionaria (expected net gain from sampling ENGS) è dato da ENGS EVSI C n EVSI C f Cv n EVSI C f n Cv dove l’ultimo membro dell’ultima espressione è la traduzione della funzione di costo nell’ipotesi di linearità del costo stesso. Ovviamente, la dimensione campionaria ottima è quella cui corrisponde il massimo valore ENGS 0 ; inoltre, C max EVPI . Se si riportano in un grafico alcune delle quantità sopra definite si perviene ad una figura del tipo di quella di seguito riportata (cfr. Fig. 7.3), dove, per l’ipotesi di linearità, il costo marginale del campionamento è costante, mentre la perdita attesa marginale dopo il campionamento è supposta decrescente. Un ulteriore grafico (cfr. Fig. 7.4) consente la visione e l’incidenza di altri elementi rilevanti nello svolgimento dei processi decisionali. 404 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Perdita attesa senza campionamento a min a l a, f Perdita totale attesa = a + C(n) Perdita totale attesa minima Costo del campionamento = C(n) Dimensione campionaria ottima Fig. 7.3 - Effetto del costo di campionamento e perdita attesa in corrispondenza della dimensione campionaria ottima. EVPI EVSI Costo del campionamento = C(n) ENGS Dimensione campionaria ottima Dimensione campionaria Fig. 7.4 - Valore atteso dell’informazione perfetta, valore atteso dell’informazione campionaria e guadagno netto atteso 405 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Ad illustrazione di quanto detto si riprenda in considerazione il problema decisionale di procedere o meno alla perforazione. La tabella di perdita relativa a questo problema già considerata in precedenza è quella sotto riportata dove è stata aggiunta la probabilità a priori sugli stati di natura e la perdita attesa in corrispondenza delle due azioni. Azioni a1 : non perforare a 2 : perforare Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio P 2 0, 45 P 1 0,55 Perdita attesa 0 600 270 300 0 165 Tab. 7.18 - Tavola di decisione: problema di trivellazione con perdite come conseguenze Sulla scorta delle sole informazioni a priori il decisore sceglierà l’azione a 2 cui corrisponde la perdita minore. Comunque il decisore, non completamente convinto dei valori assegnati alle probabilità a priori potrebbe decidere di acquisire ulteriori informazioni. In precedenza è stata esaminata la possibilità di acquisire informazioni sullo stato di natura impiegando dei sismografi a costo zero. Ma come più volte sottolineato qualunque rilevazione campionaria comporta un costo: nel caso specifico si ipotizza una funzione di costo lineare senza costi fissi C n n 10 , cioè l’uso di un sismografo costa 10 $, 2 sismografi (indipendenti) costano 20, ecc. ; ovviamente in questo caso la dimensione campionaria non potrà superare le 16 unità, con 17 unità si andrebbe incontro ad un costo superiore al vantaggio conseguibile. Nella tavola che segue sono riportate le probabilità che ha un sismografo di segnalare assenza o presenza di petrolio. Segnalazione del sismografo Assenza di petrolio Presenza di petrolio Stato di natura 1 : assenza di petrolio 2 : presenza di petrolio 0.6 0.4 0.3 0.7 Tab. 7.19 – Probabilità dell’esito del sismografo condizionato allo stato di natura Tenendo conto di tali probabilità il decisore che intende acquisire ulteriori informazioni può perseguire due diverse vie, la prima, che è sicuramente la più efficiente ma non di facile attuazione, consiste nel procedere all’acquisizione di una informazione campionaria per decidere sulla scorta dell’evidenza acquisita se proseguire nel campionamento o operare la scelta definitiva. La seconda via è quella della effettuazione di un’analisi completa, detta analisi a preposteriori, che consente la individuazione della dimensione campionaria ottimale. 406 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni I due possibili esiti dell’utilizzo di un sismografo sono x = 0 (assenza di petrolio) oppure x = 1 (presenza di petrolio) con le relative probabilità: P X 0 PX 0 / 1 P 1 PX 0 / 2 P 2 0,6 0,55 0,3 0,45 0,465 P X 1 PX 1 / 1 P 1 PX 1 / 2 P 2 0,4 0,55 0,7 0,45 0,535 Ricordando la formula di Bayes f x / f f / x f x / f P1 / X 0 P1 / X 1 PX 0 / 1 P 1 0,6 0,55 0,71 PX 0 / 1 P 1 PX 0 / 2 P 2 0,6 0,55 0,3 0,45 PX 1 / 1 P 1 0,4 0,55 0,41 PX 1 / 1 P 1 PX 1 / 2 P 2 0,4 0,55 0,7 0,45 P 2 / X 0 1 P1 / X 0 1 0,71 0,29 P 2 / X 1 1 P1 / X 1 1 0,41 0,59 Si può ora riproporre la tabella di decisione inserendo le probabilità a posteriori Stato di natura assenza di 2 :presenza 1 : Azioni petrolio P 1 / 0 0, 71 petrolio P 2 / 0 0, 29 P 1 /1 0, 41 P 2 /1 0,59 P X 0 0, 465 P X 1 0,535 di Perdita attesa a1 : non perforare 0 600 X =0 174 a1 : non perforare 0 600 X=1 354 a 2 : perforare 300 0 X =0 213 a 2 : perforare 300 0 X=1 123 Tab. 7.20 – Perdita attesa condizionata per un campione di dimensione 1 Come si desume dalla Tab. 7.20 se l’esito campionario è X = 0, l’azione migliore è a1 non perforare (perdita attesa 174), se invece l’esito campionario è X = 1, l’azione migliore è a 2 perforare (perdita attesa 123). L’analisi a preposteriori fornisce gli elementi per decidere se procedere all’acquisizione dell’informazione (utilizzo di un sismografo del costo di 10$). La perdita attesa non condizionata è data da a min a l a, f / x 174 0,465 123 0,535 146,72 . 407 B. Chiandotto Versione 2016 INFERENZA STATISTICA Cap. 7 – Teoria statistica delle decisioni Confrontando questa perdita con quella calcolata in corrispondenza della migliore azione in assenza di informazioni campionarie si ha EVSI a a 165 146,72 18,18 Se il decisore ritiene di dover proseguire nell’analisi a preposteriori e quindi procedere all’utilizzo di due sismografi si otterrebbero i seguenti r isultati. Si precisa che si limiterà a riportare soltanto i valori relativi alle azioni ottimali in corrispondenza dei diversi risultati campionari. Le probabilità a posteriori sono date da P1 / X 0 0,83; P1 / X 1 0,58; P1 / X 2 0,29 P 2 / X 0 0,17; P 2 / X 1 0,42; P1 / X 2 0,71 e le perdite attese condizionate corrispondenti alle azioni ottimali sono a 0 102 a 1 174 a 2 87 Tenendo presente che P X 0 0,2385 , P X 1 0,4530 , P X 2 0,308 , la perdita attesa non condizionata è pari a $ 129,99. EVSI a a 165 129,99 35,01 ENGS = EVSI-C(2) = 35,01 – 20 =15,01. La conclusione è che risulta conveniente procedere nell’utilizzo di due sismografi. Ad analoga conclusione si perviene se si prevede l’utilizzo di tre sismografi; infatti la perdita attesa ott imale non condizionata dell’esito campionario è pari a $ 116,40, quindi EVSI a a 165 116,40 55,54 ENGS = EVSI-C(3) = 55,54 – 40 =18,60. Se si procede all’analisi ipotizzando l’utilizzo di 4 sismografi si perviene ad una conclusione diversa; infatti, la perdita attesa ottimala non condizionata dell’esito campionario è pari a $ 109,46, quindi EVSI a a 165 109,46 55,54 ENGS = EVSI-C(3) = 55,54 – 40 =15,54. Come si può rilevare il guadagno che si consegue in corrispondenza di un campione di dimensione n = 4 è inferire a quello accertato per n= 3 (15,54 contro 18,60), si accerta cioè una riduzione del vantaggio marginale dato dal campionamento, il che porta a fissare la dimensione ottima in n = 3. 408