Appunti di Statistica per le decisioni d'impresa Roberta Siciliano1 Dipartimento di Matematica e Statistica Università Federico II di Napoli Federico II e-mail: [email protected] U.R.L.:http://cds.unina.it/ ∼ roberta Questi appunti costituiscono materiale didattico di supporto per l'insegnamento di Statistica per le decisioni d'impresa rivolto agli studenti del Corso di Laurea in Statistica e informatica per l'economia e le imprese della Facoltà di Economia. Invero, essi costituiscono una rielaborazione della dispensa didattica dal titolo Statistica Aziendale: Modelli statistici per l'economia e le imprese che no allo scorso anno è stata proposta agli studenti del corso di Statistica aziendale, esame annuale caratterizzante il prolo formativo del Corso di Economia Aziendale, secondo il vecchio ordinamento degli studi. Fin dalla sua prima edizione (a.a. 1995 − 1996), la dispensa didattica ha subito numerose rivisitazioni, integrazioni ed aggiornamenti, in seguito a correzioni, suggerimenti e commenti da parte sia dei frequentanti il corso di Statistica Aziendale, il cui numero è cresciuto esponenzialmente nel tempo, che soprattutto dei collaboratori alla cattedra di Statistica Aziendale, che si sono succeduti in tutti questi anni. Se dei primi sarebbe improponibile menzionarli tutti, dei secondi invece è doveroso menzionare nome e cognome. Pertanto, seguendo un mero ordine di anzianità di servizio didattico reso (attraverso lezioni integrative, seminari, esercitazioni in laboratorio, attività di tutoraggio a numerosi tesisti e gruppi di lavoro per la elaborazione di tesi di laurea e di tesine), si sono succeduti nel tempo, ed ove possibile collaborano ancora: il dott. Claudio Conversano, ricercatore in Statistica presso la Facoltà di Economia dell'Università di Cassino, la dott.ssa Carmela Cappelli, ricercatrice in Statistica presso la Facoltà di Scienze Politiche dell'Università di Napoli Federico II, il dott. Massimo Aria, dottorando in Statistica Computazionale presso il Dipartimento di Matematica e Statistica dell'Università di Napoli Federico II, la dott.ssa Roberta Pellicanò, dottorando in Statistica presso il Dipartimento di Matematica e Statistica dell'Università di Napoli Federico II. A loro va il più aettuoso dei ringraziamenti per il prezioso ed indispensabile contributo ed entusiasmo profuso durante le attività universitarie, ma soprattutto per avermi indotto a proporre agli studenti le mie cartelle delle lezioni sotto forma di dispensa didattica. 1 1 Capitolo 1 La statistica in contesti decisionali 1.1 La statistica aziendale La statistica moderna si occupa della raccolta e dell'analisi di grandi mole di informazioni riguardanti fenomeni complessi caratterizzati dall'interagire congiunto di un numero elevato di variabili servendosi, a tal ne, del calcolatore elettronico. La statistica aziendale si propone, quale supporto delle decisioni aziendali, di integrare le esigenze informative che si presentano nella gestione della azienda con lo scopo di informare, controllare, prevedere. A tal ne, si avvale di informazioni qualitative e quantitative derivanti da statistiche interne e da statistiche esterne alla azienda. Le statistiche interne riguardano direttamente l'organizzazione e la gestione della azienda e sono eettuate sulla base di dati rilevati all'interno della azienda stessa; ne costituiscono un esempio la determinazione della scorta massima e minima di ogni materiale, il calcolo della incidenza dei costi di distribuzione sul prezzo dei singoli prodotti, la preparazione del graco di redditività, l'elaborazione degli indici di bilancio, la previsione delle vendite, il controllo di qualità. Le statistiche esterne studiano i mercati nei quali l'azienda opera, l'attività delle aziende concorrenti e dei settori complementari ed in genere i fenomeni concernenti l'ambiente socio-economico in cui l'azienda opera o intende operare. Ai ni dell'elaborazione delle statistiche esterne, l'azienda si avvale di dati provenienti da diverse fonti, quali ad esempio le banche dati statistiche, le riviste specializzate di settore, i bollettini di istituti di statistica o di ricerca economica, le pubblicazioni di statistiche uciali italiane ed internazionali, 2 pubblicazioni di categoria, indagini dirette (o tramite istituti specializzati), sperimentazioni. Nell'ambito del sistema informativo aziendale, la statistica aziendale svolge un duplice ruolo di integrazione e di complementarietà. La conoscenza dei fenomeni economici non può prescindere da informazioni sucientemente esaustive tanto in termini qualitativi che quantitativi: si assiste sempre più alla sinergia tra analisi qualitative e analisi quantitative, basate queste ultime sulla visualizzazione sotto forma di tabelle e graci, sulla sintesi attraverso indici statistici, rapporti statistici o indicatori aziendali, su reports che riassumono i risultati derivanti dall'elaborazione statistica dei dati attraverso modelli statistici. Il percorso di studio che si seguirà privilegerà l'aspetto quantitativo approfondendo i metodi statistici che possono contribuire alla denizione di una base di conoscenza quantitativa che superi la fase iniziale tipicamente descrittiva e si proli come formativa per la costruzione di modelli statistici. 1.2 Il procedimento scientico di ricerca L'evoluzione dei fenomeni economici può essere seguita ed analizzata mediante un processo di conoscenza con fasi ben individuate che prendono l'avvio dall'osservazione di un sistema o mondo reale. La realtà viene osservata dal ricercatore non nella sua interezza, bensì attraverso una nestra che limita l'angolo visuale focalizzando l'attenzione solo su alcuni aspetti e trascurandone altri. L'ampiezza della nestra e l'orientamento dell'angolo sono determinati dal paradigma scientico prevalente che condiziona le singole ricerche, dai giudizi di valore del ricercatore che giudica interessanti alcuni temi e non altri, dalle conoscenze a-priori del ricercatore, dalle sue capacità di analisi. Le fasi del paradigma scientico di ricerca, che possono essere iterate più di una volta, sono nel seguito descritte. Denizione del problema. Lo statistico in azienda si propone di fornire risposte qualitative e quantitative a determinati problemi connessi alla gestione aziendale. L'esatta denizione del problema consente di formulare corrette ipotesi di lavoro utili alla ricerca. Questa rappresenta la fase più importante della procedura di ricerca scientica. Lo statistico non si domanderà se il problema è rilevante ai ni della gestione aziendale (ciò è di pertinenza del manager, dell'imprenditore, etc.), ma si assicura che il problema sia denito correttamente in modo da poterlo tradurre in un problema statistico, così da 3 individuare il fenomeno che si vuole studiare, le informazioni a-priori che si hanno su tale fenomeno, le caratteristiche incognite e l'obiettivo nale dell'analisi statistica. Dati. La fase precedente si traduce nella specicazione dei dati da utilizzare ai ni dell'analisi statistica; questo momento è strettamente legato al momento della scelta dell'approccio e del metodo statistico che si vuole adottare. In generale, si distinguono dati sperimentali, che sono costruiti ad hoc dal ricercatore, e dati di osservazione, che sono rilevati dal ricercatore ai ni della descrizione di una realtà già esistente. I dati di osservazione possono provenire da rilevamenti censuari o da indagini campionarie. Inoltre, i dati di osservazione, come è noto, possono essere di tipo quantitativo (discreti o continui) o di tipo qualitativo (nominali o ordinali). Un'ulteriore distinzione può essere fatta tra dati di tipo sezionale (cross-section), derivanti dall'osservazione, in un punto nel tempo, di una o più variabili su un gruppo di individui, e dati temporali, derivanti dall'osservazione in T distinti punti nel tempo di una o più variabili su un individuo (serie temporali) o su più individui (panel, dati di tipo longitudinale). Informazione a priori. Successivamente, si considera una fase che combina i dati a disposizione con l'informazione a priori riguardante sia il fenomeno oggetto di studio (assunzioni, vincoli, condizioni, etc.) sia il ruolo delle variabili ritenute rilevanti. Se infatti tra le variabili vi è un legame di inuenza reciproca, o di interdipendenza, l'analisi sarà di tipo simmetrico, se invece è possibile ipotizzare che una o più variabili dette di risposta o variabili dipendenti, sono spiegate da altre dette predittori o variabili esplicative, allora l'analisi sarà di tipo asimmetrico o di dipendenza. Analisi dei dati ed elaborazioni. Sulla base quindi della natura del problema, del tipo di dati e della informazione a-priori, avviene la scelta tra i diversi metodi di analisi statistica che determina il tipo di elaborazione successiva dei dati. In generale, si considerano analisi esplorative quando si vogliono trarre le prime indicazioni da un insieme di dati, sotto forma di relazioni tra variabili, somiglianze tra le unità, identicazione delle struttura latente nei dati, individuazione di ipotesi da vericare in una successiva analisi. Le analisi confermative partono invece da ipotesi o modelli formulati a-priori, che sono sottoposti al giudizio di conformità con l'evidenza empirica rappresentata dal campione che si ha a disposizione. In denitiva, i metodi statistici dell'analisi esplorativa attengono al campo della scoperta, mentre quelli dell'analisi confermativa attengono al campo della giusticazione. 4 Interpretazione dei risultati. Il procedimento di ricerca potrebbe chiudersi con l'analisi dei risultati, ovvero potrebbe essere reiterato per maggiori approfondimenti. In taluni casi, per le analisi confermative, si può tentare una generalizzazione dei risultati mediante la denizione di un modello che costituisce una semplicazione della realtà da cui si è partiti ma che, trovando conferma statistica, può essere utilizzato nella pratica gestionale no a che nuove ipotesi lo rendono vulnerabile a nuovi cambiamenti. In altre parole, il modello statistico dovrà essere comunque validato nel tempo con l'esperienza e l'evidenza empirica. Esempi di modelli a supporto della gestione aziendale sono rappresentati da funzioni di costi, modelli per l'approvviggionamento dei materiali, modelli della produzione, funzioni delle vendite, modelli per la segmentazione dei mercati, modelli per la valutazione della soddisfazione dei consumatori, modelli del credit scoring, etc. 1.3 La statistica per le decisioni d'impresa Ai giorni nostri, la statistica nell'era dell'informatica - caratterizzata da una riduzione di tempi e costi relativi all'accesso ad enormi basi di dati - può essere inquadrata nel Paradigma dell'Informazione recentemente denito da Coppi (2002). L'obiettivo è di generare informazione aggiunta, attendibile e signicativa, per la risoluzione di problemi reali di decisione, assemblando, attraverso strumenti statistici e computazionali, processi di estrazione della conoscenza da varie fonti. In tale contesto, si possono distinguere due passaggi fondamentali: l'apprendimento statistico dai dati, al ne di derivare l'informazione signicativa volta ad identicare particolari strutture ricorrenti nei dati e trend (passaggio dato -> informazione), e l'estrazione della conoscenza basata sull'informazione rilevante e realizzata attraverso modelli e procedure statistiche che richiedono un uso intensivo del computer (passaggio informazione -> conoscenza). Il primo passaggio trova espressione nell'analisi esplorativa dei dati, avvalendosi di tecniche di riduzione dei dati e sintesi dell'informazione per strutture complesse di dati (i.e., cluster analysis, analisi delle componenti principali, segmentazione binaria, etc.). Il secondo passaggio si identica nell'analisi confermativa che intende validare le ipotesi formulate sulla base dei risultati dell'analisi precedente attraverso modelli statistici di previsione e di decisione. In tale contesto, la statistica per le decisioni d'impresa si propone quale disciplina che ha lobiettivo di generare informazione statistica signicativa e con valore aggiunto, in termini di risoluzione di problemi reali, ovvero di supporto alle decisioni aziendali, 5 attraverso il processo di estrazione della conoscenza seguendo il procedimento scientico di ricerca ed impiegando i metodi della statistica e della scienza dell'informazione. La monograa fondamentale di Hastie, Friedman e Tibshirani (2001) identica esplicitamente le nuove sde nelle aree dell'archiviazione, della organizzazione e della gestione di dati, nalizzate al Data Mining ed alla gestione statistica della complessità e dimensione dei fenomeni osservati. Una denizione di Data Mining dai più ritenuta esauriente è quella di David Hand (2000) che denì quest'ultimo come il processo che attraverso l'impiego di modelli non banali ha l'obiettivo di individuare relazioni tra i dati non banali, nascoste, utili e fruibili dall'utilizzatore. Questa denizione contiene alcuni punti che meritano un approfondimento. In particolare, il processo impiega modelli non banali, ossia l'analisi è condotta attraverso una strategia che prevede l'uso combinato di diversi metodi statistici nalizzato alla estrazione della conoscenza. Per relazioni tra i dati non banali e nascoste si vuole sotto intendere un obiettivo del processo il quale deve concentrarsi sulla scoperta di relazioni che siano sconosciute all'analista e all'utilizzatore e che non si evincono da uno studio superciale della base dei dati. I termini utile e fruibile chiariscono che la relazione o le relazioni identicate devono presentare (attraverso strumenti che ne garantiscano la comprensibilità anche ai non esperti della materia) delle utilità oggettive a favore dei soggetti interessati, devono consentire alle aziende e agli enti di migliorare la quantità dei servizi oerti, ridurre i costi, accrescere il proprio business. Il Data Mining si avvale di numerose metodologie statistiche a forte contenuto computazionale, quali ad esempio i metodi e algoritmi di partizione ricorsiva per la costruzione di alberi decisionali, procedure selettive per le regole di associazione, algoritmi adattivi di stima, tecniche di ricampionamento, etc. Data Mining è parte di un processo di estrazione della conoscenza (Knowledge Discovery from Databases), ossia il processo di esplorazione e analisi di grandi quantità di dati, condotto in modo automatico o semiautomatico, al ne di scoprire delle regolarità (pattern) nei dati, che siano considerabili nuovi elementi di conoscenza. In tale prospettiva lo statistico si trova a giocare un ruolo fondamentale nel Data Mining divenendo regista delle strategie alternative di analisi per l'esplorazione di importanti caratteristiche e relazioni presenti in strutture complesse di dati. Il Paradigma dell'Informazione nel quale il Data Mining assume un ruolo fondamentale può essere completato in termini di accessibilità e capacità predittiva dell'informazione statistica e dei processi di estrazione della conoscenza al ne di indirizzare nella direzione giusta i processi decisionali. Ciò risulta particolarmente importante quando gli attori sono manager di 6 piccole e medie imprese che in un mercato globale debbono competere con industrie multinazionali in grado di reperire risorse nanziarie, competenze umane e strumenti tecnologicamente avanzati per il miglior utilizzo dell'informazione. Il successo non è guidato solo dall'ecienza dei processi ma anche dalla capacità di gestire i dati, le informazioni e le conoscenze. In quest'ottica rendere più ecace un processo decisionale è essenziale per incrementare il livello competitivo dell'impresa e per farlo è necessario ottenere in modo rapido e essibile informazioni strategicamente utili, che siano cioè di supporto all'interpretazione dell'operato dell'azienda e dell'andamento del mercato in cui opera. Invero, negli ultimi decenni il ciclo di vita dei processi decisionali nelle Aziende è andato accorciandosi sempre più e la tempestività delle decisioni aziendali (i.e., individuazione di nuovi segmenti di mercato, scoperta di preferenze e comportamenti da parte di clienti, riduzione di eventuali sprechi nella produzione o razionalizzazione di altri processi aziendali) è diventato fattore vitale per la sopravvivenza. Tale tempestività, tuttavia, a volte contrasta con la mole dei dati da elaborare per estrarre le informazioni necessarie a supportare il processo decisionale. Le informazioni sono spesso dicilmente recuperabili perchè sommerse nell'insieme di dati ospitati dal sistema informativo. Il ricorso alle tecnologie dell'informazione è quindi un passo obbligato. In questo le Aziende vengono aiutate dalle applicazioni di Business Intelligence (BI), ossia l'insieme dei processi, delle tecniche e degli strumenti basati sulla tecnologia dell'informazione, che supportano i processi decisionali di carattere economico. BI è una corretta mescolanza di tecnologia, informatica e statistica che fornisce agli utenti le informazioni necessarie per rispondere ecacemente alle esigenze di business. L'obiettivo fondamentale nella BI è, quindi, quello di disporre di sucienti informazioni in modo tempestivo e fruibile e di analizzarle così da poter avere un impatto positivo sulle strategie, le tattiche e le operazioni aziendali. Nell'ambito della BI un'attività fondamentale è la raccolta dei dati aziendali. Questa raccolta non si deve limitare ai soli dati transazionali, generati e usati nei processi produttivi o operativi di un'impresa, ma deve essere orientata anche ai dati decisionali (o business data), caratterizzati da una natura aggregata, una struttura essibile, un uso non ripetitivo, un orizzonte temporale più ampio. A questo scopo si rende necessaria la progettazione e la costruzione di un magazzino dei dati (Data Warehouse) che, attingendo periodicamente sia dal sistema transazionale aziendale sia da altre sorgenti informative, raccolga e sintetizzi le informazioni secondo regole ben denite dettate dal proprio business, e poi le organizzi in una forma comprensibile per chi in azienda deve prendere decisioni tattiche e/o strategiche. I Data Warehouse (DW) sono considerati una buona tecnologia per supportare soluzioni di KDD. 7 Tale processo prevede, fra l'altro, delle fasi di selezione e pulizia dei dati, al ne di rimuovere inconsistenze, trattare dati mancanti, e determinare il giusto livello di aggregazione. Tutto ciò è assicurato da un DW, che diventa una tecnologia di supporto, anche se non strettamente necessaria, al KDD. In un contesto aziendale, la conoscenza scoperta può avere un valore perchè consente di aumentare i protti riducendo i costi oppure aumentando le entrate. Questo spiega l'importanza di soluzioni KDD nel BI. Il processo KDD si completa integrando il DW, ove possibile, con strumenti più propriamente statistici che costituiscono un Decision Support System (DSS) per il management aziendale. L'architettura di un DSS consiste di tre elementi: un database alimentato da un DW o da un Data Mart (ossia una sottoparte o replica del DW contenente l'insieme delle informazioni rilevanti per un particolare problema), un sistema di modelli e strumenti statistici di DM, una interfaccia interattiva che svolge le funzioni di cruscotto aziendale guidando il manager nei processi decisionali aziendali attraverso i risultati derivanti dall'analisi statistica dei dati o più in generale da strategie di Data Mining. Un DSS può essere inteso come un insieme di strumenti progettati e orientati all'integrazione delle necessità dell'utente nale, le tecnologie e i metodi di analisi, con l'obiettivo di sostenere - e non sostituire - il decisore nella scelta della azione più appropriata al raggiungimento di un scopo. All'interno di questo progetto, l'attività decisionale è considerata come una fase del ben più generale processo di BI. Il DSS è progettato per eseguire quattro tipologie di operazioni fondamentali: • • query and reporting, al ne di seguire periodicamente una serie di interrogazioni del database, creando report, tipicamente a ni statistici, per l'analisi graca degli andamenti aziendali; data mining, che consiste nell'impiego di metodologie statistiche avanzate volte ad identicare comportamenti tendenziali, a ricercare pattern e caratteristiche tipologiche, a realizzare segmentazioni nei dati a scopo di classicazione; • analisi what if, al ne di costruire scenari di riferimento per soddis- • OLAP (On Line Analytical Process), allo scopo di generare interrogazioni fare obiettivi di pianicazione e previsione degli andamenti futuri di mercato; intelligenti (attraverso operatori Drill-Down, Roll-Up, Pivot) in tempo reale ed in maniera intuitiva senza preoccuparsi dell'eettiva struttura logica dei dati. 8 In sintesi, da un lato, il DW si impone come strumento strategico nel momento in cui le varie direzioni funzionali alle quali è destinato possono accedere ai dati secondo principi di analisi multidimensionale; dall'altro, i DSS consentono di automatizzare le procedure decisionali e di facilitare sul piano pratico le attività manageriali, suragate così dall'esperienza passata e dalla possibilità di simulare scenari futuri. 1.4 Il percorso di studio Il percorso di studio è caratterizzato dalle seguenti parti, ciascuna delle quali consiste di moduli tematici: • L'impiego della statistica in azienda, con particolare riferimento alla costruzione di database e data warehousing, alla gestione statisticoinformatica delle informazioni ed alla presentazione delle metodologie statistiche di base (i.e., richiami di inferenza e processi decisionali aziendali, campionamento straticato, modelli lineari dell'analisi della varianza e della regressione semplice e multipla, la regressione logistica); • I metodi di segmentazione per la costruzione di alberi esplorativi ed alberi delle decisioni, considerando le metodologie CART (Classication and Regression Trees) e TWO-STAGE; • I metodi e modelli a forte contenuto computazionale, preferendo la descrizione della classe dei modelli additivi generalizzati per problemi di classicazione e regressione non lineare, dei metodi associativi della market basket analysis, delle strategie IDA (Intelligent Data Analysis) e sistemi di supporto alle decisioni d'impresa. Il percorso di studio si completa con l'esercitazione pratica in laboratorio attraverso l'uso di software specialistico per l'impiego dei metodi e delle strategie proposte in contesti applicativi reali. Nel seguito si descrive brevemente il contenuto strettamente metodologico di ciascun capitolo della presente dispensa didattica: • Richiami di inferenza statistica. In questo modulo verranno dapprima presentati alcuni richiami di inferenza statistica per la risoluzione classica di problemi decisionali in condizione di incertezza. La teoria degli intervalli di condenza può essere applicata per la costruzione delle carte di controllo statistico della 9 qualità. La teoria della verica delle ipotesi può risultare utile nel marketing, nell'adabilità dei processi, etc. Questi richiami sono strumentali all'interpretazione della signicatività delle stime dei parametri di un modello, all'analisi della stabilità delle stime, e in generale all'impiego di criteri statistici per la selezione del modello statistico più appropriato. • Processi decisionali. • L'indagine statistica e schemi di campionamento. • L'analisi della varianza. Successivamente, si considera più in generale la teoria delle decisioni statistiche, qualora si associno i valori monetari alle azioni intraprese rispetto ai dierenti stati della realtà. Verranno descritti processi decisionali senza e con informazioni campionarie. Inne, si farà cenno alle problematiche relative all'indagine campionaria con riferimento alla scelta dello schema di campionamento statistico da adottare. Si confronterà il campionamento semplice con quello straticato con ripartizione proporzionale o con ripartizione ottimale per evidenziare i criteri di determinazione della numerosità campionaria e di valutazione dell'ecienza delle stime. Queste scelte incidono sul budget nanziario da attribuire sia alle indagini statistiche esterne di settore (ad esempio, le ricerche di mercato) sia alle analisi interne di supervisione delle attività ed in generale del controllo di gestione. L'analisi della varianza può essere riguardata come una generalizzazione del test sulla dierenza tra le medie di due popolazioni a confronto quando il confronto si estende a più popolazioni. L'obiettivo è quello di valutare se i fattori di tipo qualitativo, impiegati per la specicazione delle popolazioni, siano discriminanti rispetto ai valori medi di una variabile dipendente di tipo numerico. Si tratta di un'analisi delle dipendenza basata su un approccio parametrico confermativo che utilizza usualmente dati sperimentali. Il ricercatore denisce un disegno degli esperimenti, denendo uno o più fattori per specicare gli eetti da sperimentare su un gruppo di individui, e misura una variabile numerica sui gruppi individuati per vericare se sussiste una qualche discriminazione tra i gruppi e se vi è un'eventuale interazione tra i fattori presi in considerazione. Le applicazioni aziendali possono 10 riguardare il marketing, il controllo di gestione, le analisi di mercato, il controllo di qualità etc. • La regressione lineare multipla. • La regressione logistica. • I modelli additivi generalizzati. Un ampio modulo è dedicato alla regressione multipla sia per l'analisi delle relazioni di dipendenza che quale strumento di previsione. Si approfondiranno le ipotesi del modello classico, le principali trasformazioni di variabili, l'impiego delle variabili dicotomiche (dummy), gli aspetti inferenziali con particolare riferimento ai metodi di scelta delle variabili, l'analisi dei residui ed inne si farà cenno alle alternative possibili in seguito alla rimozione delle ipotesi classiche. Le applicazioni della regressione multipla si inquadrano più strettamente in un contesto econometrico al ne di vericare empiricamente un modello di domanda o di oerta, un modello dei costi di produzione, delle vendite, etc. Spesso nelle analisi di regressione vi è la necessità di assumere una variabile dipendente di tipo qualitativo, spesso dicotomica. In tal caso occorre operare con modelli a risposta qualitativa per problemi classici di discriminazione parametrica. Alcuni esempi sono rappresentati dalla previsione delle insolvenze nanziarie, dalle analisi delle opportunità, dagli studi sulle preferenze dei consumatori basati su funzioni di utilità. Per tali contesti applicativi, si approfondirà il modello di regressione logistica, basato su una trasformazione logistica della equazione di regressione, e costituisce un modello parametrico alternativo agli alberi di classicazione di tipo non parametrico. In molte applicazioni su dati reali l'ipotesi di linearità alla base del modello classico di regressione risulta alquanto restrittiva. I modelli additivi generalizzati seguono un approccio semi-parametrico per tener conto di relazioni nonlineari tra le variabili. Si tratta di una particolare classe di modelli di regressione nei quali il contributo di ciascun predittore alla spiegazione della variabile dipendente è valutato separatamente sulla base di opportune funzioni di smoothing. La caratteristica fondamentale di tali modelli è l'additività degli eetti, poichè 11 la predizione dei valori assunti dalla variabile dipendente è ottenuta sommando il contributo non lineare fornito da ciascun predittore. • I metodi di segmentazione. • I metodi associativi per la market basket analysis. La segmentazione è un'analisi asimmetrica che presuppone la presenza di una variabile dipendente o di risposta che debba essere spiegata da un insieme di predittori. L'obiettivo è duplice, in quanto può essere condotta un'analisi esplorativa o confermativa ed il risultato nale è rappresentato da un albero delle decisioni per la classicazione, se la risposta è qualitativa, o per la regressione, se la variabile dipendente è numerica. L'approccio seguito, da un punto di vista metodologico, è non parametrico o distribution free, nel senso che non sono richieste assunzioni probabilistiche. Le applicazioni della segmentazione in campo aziendale sono numerose se si ritiene che questa metodologia possa essere impiegata per la risoluzione di diversi problemi decisionali, ad esempio nelle analisi nanziarie delle banche (credit scoring), nella logistica, nel marketing per l'analisi delle tipologie di prodotto associate a tipologie di consumatore, per l'analisi dell'ecacia della comunicazione pubblicitaria, per l'analisi della customer satisfaction. Con la Market basket Analysis si vogliono identicare le relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita della grande distribuzione. L'obiettivo principale dei metodi associativi é quello di porre in evidenza la struttura di interdipendenza sottostante le vendite dei diversi prodotti disponibili. La corretta identicazione ed estrapolazione delle regole signicative tra tutte le possibili regole che possono essere generate da un insieme di dati é condizionata alla disponibilitá di un considerevole quantitá di informazioni che permettano di identicare i clienti e seguire l'evoluzione dei loro acquisti nel corso del tempo. 12 Capitolo 2 Richiami di inferenza statistica 2.1 Premessa L'inferenza statistica aronta problemi di decisione in condizioni di incertezza, di previsione, o di conoscenza del mondo reale, basandosi sia su informazioni a-priori sia su dati campionari e sperimentali, che per loro natura costituiscono aspetti parziali di tale realtà. Il campionamento è un elemento indispensabile, costituisce una fase preliminare all'inferenza statistica e consiste in un modo di osservare la natura e di accumulare informazioni con lo scopo di denire, in base ad esso, la strategia da seguire e le azioni da compiere per arrivare alla conoscenza della realtà. Il campione osservato viene visto come la realizzazione di un modello di probabilità teorico che dipende da uno o più parametri: in alcuni casi il modello è noto a meno dei parametri che costituiscono le caratteristiche incognite del fenomeno, in altri è lo stesso modello teorico che deve essere ricercato sulla base delle osservazioni campionarie. Ad esempio, se si considera una classe di distribuzioni appartenenti ad un modello teorico noto a meno di alcuni suoi parametri la decisione nale di una procedura inferenziale è quella di essere indotti a ritenere più plausibile che la popolazione appartenga ad una particolare distribuzione piuttosto che ad un'altra. Ciò perchè si ritiene più probabile che l'osservazione campionaria sia stata generata da alcune distribuzioni di probabilità che da altre appartenenti al modello. L'inferenza statistica si propone di risolvere due diversi tipi di problemi. Va sotto il nome di teoria della stima l'obiettivo di conoscere il valore numerico o un intervallo di valori di uno o più parametri incogniti del modello di probabilità teorico a partire dai dati campionari. Invece, con la teoria della prova delle ipotesi si vuole vericare in senso statistico, ovvero con regole 13 di decisione, una certa aermazione fatta relativamente alla popolazione, ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal campione. Gli approcci statistici che possono essere impiegati nel processo decisionale inferenziale sono sostanzialmente tre: l'analisi statistica classica, l'analisi statistica bayesiana, l'analisi statistica delle decisioni. L'analisi statistica classica si basa sui seguenti fondamenti: • la specicazione di un modello di probabilità teorico per la popolazione; • l'osservazione è analizzata come elemento di un campione, cioè come la realizzazione di una delle distribuzioni di probabilità che costituiscono il modello; • l'uso di funzioni delle osservazioni campionarie, di regole di decisione e di proprietà di campionamento. I risultati dell'analisi statistica classica basata sul campione possono essere utilizzati a ni inferenziali, ovvero si potranno fare induzioni di tipo probabilistico sulle caratteristiche incognite della popolazione. L'analisi statistica bayesiana aggiunge ai precedenti i seguenti aspetti: • la specicazione di una distribuzione di probabilità a-priori per i parametri incogniti del modello teorico denito sulla popolazione; • l'obiettivo è la revisione della distribuzione di probabilità a-priori in una distribuzione a-posteriori derivata per mezzo del teorema di Bayes. L'informazione derivante dal campione viene usata per rivedere l'informazione a-priori che si ha già sul fenomeno. L'analisi più completa rispetto alle precedenti è senza dubbio l'analisi statistica delle decisioni in quanto oltre al modello e alla distribuzione apriori si introduce anche una funzione perdita in modo da tener conto dei costi associati alle singole decisioni. 2.2 Teoria della stima Sia data una popolazione nita e su di essa sia denita una v.c. X continua o discreta la cui funzione di densità o ditribuzione di probabilità dipenda completamente da un parametro θ (scalare), ovvero X ∼ f (x|θ) con θ appartenente allo spazio parametrico Θ. Per stimare il valore di θ si ricorre ad 14 un campione di n unità statistiche. Le osservazioni campionarie (x1 , . . . , xn ) sono le realizzazioni indipendenti delle v.c. (X1 , . . . , Xn ) ciascuna distribuita come la v.c. X . Si denisce funzione di verosimiglianza del campione la funzione di probabilità congiunta descritta dalle n osservazioni (x1 , . . . , xn ), supposte indipendenti, denita nello spazio parametrico Θ, ovvero L(x1 , . . . , xn |θ) = f (x1 , . . . , xn |θ) = Πi f (xi |θ) (2.1) Si denisce stimatore del parametro θ una v.c. t(X1 , . . . , Xn ) denita quale funzione nota (ovvero non contenente parametri incogniti) delle v.c. (X1 , . . . , Xn ). La stima è il valore assunto dallo stimatore in corrispondenza di un particolare campione, ovvero t(x1 , . . . , xn ) = θ̂. Le proprietà degli stimatori per piccoli campioni sono note come • correttezza se E(t) = θ, ecienza relativa se var(t) < var(t1 ) per un altro stimatore corretto • ecienza assoluta se var(t) = [I(θ)]−1 dove I(θ) è l'Informazione di • • t1 , Fisher relativo all'intero campione, sucienza quando lo stimatore sfrutta tutta l'informazione campionaria utile per la stima di θ. Inoltre, se esiste uno stimatore non distorto ed eciente questo è unico e coincide con quello ottenuto con il metodo di massima verosimiglianza. Questo metodo di stima determina quale stima di θ il valore che rende massima la funzione di verosimiglianza; in altre parole è il valore θ̂ che rende il campione più verosimilmente estratto da una popolazione f (x|θ) con parametro θ̂ piuttosto che da altri valori del parametro. Le proprietà degli stimatori per grandi campioni prendono in considerazione le leggi di convergenza delle variabili aleatorie. In particolare il teorema del limite centrale consente di stabilire che sotto determinate condizioni pur non essendo noto il modello teorico di riferimento la media campionaria converge in distribuzione ad una normale. Inoltre, lo stimatore tn (X1 , . . . , Xn ) è asintoticamente corretto se la sua distribuzione limite è uguale a θ. Una proprietà molto importante per la scelta di uno stimatore è quella della consistenza che si ha quando lo stimatore converge in probabilità a θ. 15 In molte applicazioni si preferisce eettuare una stima per intervalli in luogo di quella puntuale. L'obiettivo è quello di valutare in termini probabilistici la precisione dello stimatore (ovvero la dispersione della sua distribuzione campionaria intorno alla media), ovvero di quanto la stima θ̂ sia da considerarsi vicina al parametro incognito da stimare. Siano date le n v.c. X1 , . . . , Xn indipendenti, ciascuna con funzione di probabilità f (x|θ), e sia dato lo stimatore t(X1 , . . . , Xn ); si deniscano gli estremi casuali ta = t(X1 , . . . , Xn ) − e tb = t(X1 , . . . , Xn ) + tali che P r(ta < θ < tb ) = 1 − α, l'intervallo casuale [ta , tb ] è un intervallo di condenza per θ con livello di condenza (1 − α). Qualunque sia θ, ssato il livello α, per un ipotetico processo di estrazioni campionarie l'intervallo [ta , tb ] conterrebbe θ nel 100(1 − α)% di casi mentre lo escluderebbe nel 100α%. Tanto minore è il livello ssato di α tanto più ampio risulta l'intervallo di condenza ad esso associato, e quindi minore è la precisione dello stimatore nello stimare θ. Una volta che il campione è estratto e si hanno le osservazioni campionarie (x1 , . . . , xn ), si calcolano le stime θ̂a e θ̂b . L'intervallo [θ̂a , θ̂b ] non è casuale ma è l'insieme dei valori probabili per il parametro incognito θ. 2.3 Teoria della verica delle ipotesi Alcuni problemi statistici in campo manageriale ed industriale vengono impostati come veri e propri problemi di decisione per il fatto che l'infor- mazione parziale fornita dai dati dell'esperimento o del campione è usata per prendere una decisione immediata tra diverse azioni alternative. Nel seguito si fa riferimento al caso di due sole alternative possibili, mentre la generalizzazione verrà proposta successivamente. L'obiettivo è quello di vericare mediante una regola di decisione se un'ipotesi statistica debba ritenersi vera o falsa sulla base del valore assunto da una statistica test denita nello spazio campionario. Un'ipotesi statistica è un'aermazione riguardante la funzione di probabilità f (x|θ) o il processo che ha generato le osservazioni campionarie. L'ipotesi statistica è parametrica se l'aermazione riguarda uno o più parametri della funzione di probabilità. Inoltre, essa è semplice se permette di specicare completamente la f (x|θ), mentre è composta se riguarda una molteplicità di funzioni. L'ipotesi statistica parametrica composta è unidirezionale se è del tipo θ > θ0 o θ < θ0 , mentre è bidirezionale se è del tipo θ 6= θ0 . In genere si formulano due ipotesi H0 e H7 circa il valore che θ può 16 assumere. Si vuole stabilire se sia più probabile che il campione osservato provenga da una popolazione con valore del parametro specicato sotto l'ipotesi H0 (ipotesi nulla) o sotto l'ipotesi H1 (ipotesi alternativa). La formulazione delle ipotesi H0 e H1 conduce ad una partizione dello spazio parametrico Θ in due sottoinsiemi disgiunti: Θ2 indotto dall'ipotesi H0 e Θ1 , complementare a Θ7 , indotto da H1 . La statistica test d(X1 , . . . , Xn ) è una funzione che fa corrispondere ad ogni campione casuale (X1 , . . . , Xn ) un valore numerico che può essere classicato come: coerente con l'ipotesi specicata sotto H0 e non coerente con l'ipotesi specicata sotto H6 . Un test statistico dà luogo ad una partizione dello spazio campionario in due sottoinsiemi complementari: la regione di accettazione, ovvero un insieme A costituito da valori del test compatibili con H0 , la regione critica o di riuto, ovvero l'insieme C costituito da valori del test compatibili con H1 . La regola di decisione è il criterio statistico che consente di discriminare i valori numerici del test statistico appartenenti alla regione di accettazione da quelli appartenenti alla regione critica. La decisione nale a-posteriori del test statistico può comportare uno solo di due tipi di errore: • errore di I tipo se si riuta H0 quando H0 è vera: P r(EI ) = P r(d(X1 , . . . , Xn ) ∈ C|θ ∈ Θ0 ) = α(θ) • (2.2) errore di II tipo se si accetta H0 quando H1 è vera: P r(EII ) = P r(d(X1 , . . . , Xn ) ∈ A|θ ∈ Θ1 ) = β(θ) (2.3) Entrambi gli errori EI ed EII possono essere invece commessi a-priori. Da notare che le probabilità associate a questi errori, α e β , variano in senso opposto e naturalmente sono inversamente proporzionali alla numerosità del campione. L'ipotesi nulla H0 è quella che si vuole provare falsa al di là di ogni ragionevole dubbio, mentre l'ipotesi alternativa H1 è quella che si vuole provare vera. Per provare la falsità dell'ipotesi H0 al di là di ogni ragionevole dubbio occorre ssare una regola di decisione che conduca ad una probabilità di commettere un errore di I tipo che possa ritenersi irrilevante, tale cioè da non costituire un ragionevole dubbio. Nell'approccio classico si ssa a-priori 17 il livello α e si determina la soglia della regola di decisione che discrimina la regione critica C dalla regione di accettazione A. 2.4 Le regole di decisione Si considerino due ipotesi alternative per il parametro incognito della popolazione: {H0 : θ = θ0 } e {H1 : θ = θ1 } che formano per semplicità di trattazione lo spazio parametrico di θ. Si vuole denire una regola di decisione che, sulla base di un campione di n osservazioni E = (x1 , . . . , xn ) consenta di propendere per H0 o per H1 . La soluzione proposta dall'approccio classico (secondo la teoria di NeymanPearson) consiste nell' eettuare un confronto tra la probabilità probativa del campione sotto H0 e quella sotto H1 , ovvero: L(x1 , . . . , xn |θ0 ) P (E|H0 ) = =λ P (L|H1 ) L(x1 , . . . , xn |θ1 ) (2.4) dove L rappresenta la funzione di verosimiglianza. La regola di decisione potrebbe utilizzare il valore 1 quale va- lore discriminatorio tra le due ipotesi e quindi propendere per H0 se risulta λ ≥ 1 e per H1 se invece è λ < 1. Tuttavia, questo equivale ad assumere una posizione di indierenza rispetto alle due ipotesi, mentre nella realtà vi è sempre una ipotesi ritenuta più importante dell'altra e che pertanto non si vuole rigettare con troppa faciltà quando invece è vera. Tale ipotesi viene posta come ipotesi nulla e ciò spiega anche perchè l'errore di prima specie è quello più grave. Pertanto, ricordando che la probabilità di commettere l'errore di prima specie è α, la regola di decisione viene denita ssando α ad un livello (basso) ritenuto accettabile e determinando quel valore λα tale che α = P (λ < λα |θ = θ0 ). La regola di decisione quindi, consisterà nel propendere per H0 se λ ≥ λα e per H1 se invece è λ < λα . Il valore λα determina una partizione dello spazio campionario in due regioni disgiunte ed esaustive, una regione di accettazione ed una regione critica (o di riuto) di H0 . In base al Lemma di Neyman- Pearson che costituisce il fondamento della intera impostazione classica, la regione critica individuata è quella che minimizza la probabilità di commettere l'errore di seconda specie β rispetto ad ogni altra regione critica cui corrisponde la medesima probabiltà di commettere l'errore di prima specie. Bayes ha modicato tale struttura logica chiedendosi se le due ipotesi, che potrebbero essere riguardate come due cause che possono generare uno 18 stesso evento E , non presentino una diversa probabilità. In altre parole vengono attribuite delle probabilità a priori alle ipotesi, che vanno a pesare quelle probative. Bayes introduce le probabilità a-posteriori denite come: P (H0 |E) = P (E|H0 )P (H0 ) P (E) (2.5) P (H1 |E) = P (E|H1 )P (H1 ) P (E) (2.6) Andando ad eettuare il rapporto tra la (2.5) e la (2.6) si ottiene: P (H0 |E) L(x1 , . . . , xn |θ5 )P (H0 ) = =κ P (H1 |E) L(x1 , . . . , xn |θ1 )P (H1 ) (2.7) che rappresenta appunto il rapporto tra le verosimiglianze pesate con le probabilità a priori. Se risulta essere κ ≥ κ si propende per H2 , se invece risulta essere κ < κ si propende per H1 , dove κ viene determinato ssando , la probabilità a-posteriori di commettere l'errore di prima specie, tale che (θ) = P (θ = θ0 |κ < κ ). La probabilità a-posteriori di commettere l'errore di seconda specie è denita come δ(θ) = P (θ = θ1 |κ ≥ κ ). In eetti l'approccio Bayesiano segue la logica della ipotesi più probabile láddove invece, l'approccio classico segue la logica della maggiore conformità del campione ad una delle due ipotesi. L' approccio di teoria delle decisioni si fonda sulla idea che non solo le due ipotesi hanno una diversa probabilità a priori, ma anche che i due tipi di errore che si possono commettere comportano perdite diverse. In generale, si associa a ciascun errore una valutazione di detta perdita quale funzione della decisione adottata con la statistica test d(X1 , . . . , Xn ) e del valore reale di θ, ovvero l(d(X1 , . . . , Xn ), θ). Si denisce funzione di rischio il valore atteso della perdita: R[d, θ] = Eθ [l(d(X0 , . . . , Xn ), θ)] (2.8) = P (H0 )E[l(d(X1 , . . . , Xn )|H0 )] +P (H1 )E[l(d(X1 , . . . , Xn )|H1 )] In particolare, si ha che per θ = θ0 E[l(d(X1 , . . . , Xn )|H0 )] = l1 α(θ) e per θθ1 E[l(d(X1 , . . . , Xn )|H1 )] = l2 β(θ), dove l1 ed l2 rappresentano le perdite 19 connesse rispettivamente all'errore di prima specie e all'errore di seconda specie. Si osservi che P (H3 )α(θ) e P (H1 )β(θ) forniscono le probabilità aposteriori dei due tipi di errore, ovvero (θ) e δ(θ). La regola di decisione completa, che oltre alle probabilità a-priori tiene conto anche delle perdite, si basa sul seguente rapporto: P (H0 |E) L(x1 , . . . , xk |θ0 )P (H0 )l2 = =γ P (H1 |E) L(x1 , . . . , xn |θ1 )(P (H1 )l5 (2.9) ovvero il rapporto delle probabilità a-posteriori viene moltiplicato per un coeciente che tiene conto del rapporto tra le perdite connesse alle due possibili azioni che comportano un errore. La seguente tabella illustra tutti gli elementi necessari per l'applicazione delle diverse regole di decisione. Decisioni si accetta H0 si accetta H1 Stati della realtà H0 P (H0 ) H1 P (H1 ) 0 Ē1 1−α l2 E2 β l1 E1 α 0 Ē2 1−β Tabella 2.1: Tabella delle decisioni 20 Capitolo 3 Processi decisionali aziendali 3.1 Premessa Allo scopo di esaminare i vari problemi decisionali che si presentano in ambito aziendale, occorre innanzitutto considerare le caratteristiche distintive di ogni processo decisionale: • azioni o decisioni. Sono le diverse possibilità di scelta, ovvero le diverse • stati della realtà. Sono i diversi, possibili eventi suscettibili di vericarsi • valutazioni. Al ne di valutare ciascun possibile azione occorre che • criteri decisionali. Colui che decide deve stabilire un modo per scegliere la azione migliore da intraprendere. azioni, che colui che deve decidere può intraprendere; nella realtà; per ogni evento che può vericarsi in corrispondenza di ogni azione, sia disponibile una valutazione che tipicamente è un protto o una perdita; Per quanto riguarda quest'ultimo punto, esistono diversi criteri decisionali riconducibili essenzialmente alla alternativa fondamentale tra processo decisionale senza e con informazioni campionarie. 3.2 Processo decisionale senza informazioni campionarie Si consideri il caso del direttore marketing di una ditta prodruttrice di cibo per gatti che deve decidere se lanciare o meno un nuovo prodotto sul mer21 Stati della realtà successo P (S) = 0, 4 insuccesso P (S̄) = 0, 6 Decisioni commercializzare non commercializzare x11 = 45.000$ x21 = −36.000$ x12 = −3.000$ x22 = −3.000$ Tabella 3.1: Tabella delle valutazioni cato. Egli sa che corre il rischio di prendere una decisione sbagliata, infatti, il prodotto potrebbe essere immesso sul mercato e rivelarsi un insuccesso o potrebbe non essere commercializzato làddove invece potrebbe essere un successo. Allo scopo di valutare tutte le possibilità si può redigere una tabella delle valutazioni. Tale tabella è a doppia entrata e considera tutte le combinazioni di ogni evento con ogni corso alternativo della azione, ed associa a ciascuna di dette combinazioni una valutazione. Si noti che 3000$ rappresenta la spesa che si deve sostenere per produrre il nuovo prodotto indipendentemente dal fatto che esso sia di successo o meno, e quindi si tratta di una spesa che viene sostenuta anche nella ipotesi in cui il prodotto non venga commercializzato. Il direttore marketing, inoltre, servendosi della sua esperienza passata e basandosi sul suo uto assegna delle probabilità a priori pi agli stati del mondo (successo o insuccesso). Il criterio decisionale si fonda sul valore atteso monetario (V AM ) che rappresenta il protto (o la perdita) atteso di ogni alternativa; si opterà per quel corso alternativo della azione cui è associato il massimo valore atteso monetario, ovvero: V AM ? = maxj V AMj = X xij pi (3.1) i applicando tale formula ai nostri dati, risulta che l'azione migliore consiste nel non commercializzare il prodotto perchè così facendo si incorre in una perdita (attesa) minore. La tabella delle valutazioni può essere riguardata anche da un diverso punto di vista, ovvero determinando l'azione migliore da intraprendere nel caso in cui si conoscesse l'evento o stato della realtà che si verica. Ad esempio, se si sapesse con certezza che il nuovo prodotto è di successo, lo commercializzerebbe. In tal modo è possibile determinare per ogni evento il protto che si perde allorquando non si intraprende l'azione migliore 22 Stati della realtà successo P (S) = 0, 4 insuccesso P (S̄) = 0, 6 Decisioni commercializzare non commercializzare l11 = 0$ l21 = 33.000$ l12 = 48.000$ l22 = 0$ Tabella 3.2: Tabella delle perdite di opportunità corrispondente a quell'evento. Andando a considerare la dierenza tra il più alto protto associato ad ogni evento ed il protto eettivo ottenibile intraprendendo una particolare azione, si ottiene la tabella delle perdite di opportunità. Il criterio decisionale consiste nell'optare per l'azione cui è associata la minima perdita attesa di opportunità (P AO) denita come: P AO? = maxj P AOj = X lij pi (3.2) i dove lij = [maxj xij ] − xij . La decisione che risulta dall'applicazione di questo criterio coincide con quella risultante dalla massimizzazione del V AM , trattandosi di due modi alternativi di riguardare la medesima tabella. Entrambi i criteri si fondano sull'assunto implicito che vi sia una totale indierenza al rischio nel senso che un dollaro aggiuntivo di protto (o di perdita) non modica la propensione al rischio che si mantiene costante. In realtà, le decisioni vengono prese anche in base all'utilità delle somme di denaro che si guadagnano o si perdono, ed ogni dollaro che si aggiunge come protto o come perdita non ha la stessa utilità del dollaro precedente. Ad esempio, per la maggior parte degli individui la perdita di grosse somme ha una utilità negativa o disutilità molto grande, maggiore di quella associata ad una piccola perdita. In altre parole, si può pensare di costruire una funzione di utilità che rappresenta l'eettivo valore di ogni singolo dollaro. Vi sono tre tipi fondamentali di curve di utilità corrispondenti all'atteggiamento di bassa propensione al rischio (utilità marginale del denaro che cresce meno che proporzionalmente rispetto all'incremento del valore monetario), alta propensione al rischio 23 (utilità marginale del denaro che cresce più che proporzionalmente rispetto all'incremento del valore monetario), ed indierenza al rischio. 1 Tornando al calcolo delle perdite di opportunità, questo consente di ottenere un'ulteriore informazione riguardo al problema decisionale. Come è già stato detto, se il direttore marketing potesse prevedere il futuro saprebbe determinare ogni volta l'azione migliore da intraprendere. Combinando il protto ottenibile in corrispondenza della azione migliore associata a ciascun evento con la probabilità a priori dell'evento stesso si ottiene il protto atteso con certezza (P AC ), dato da: P AC = X (maxj xij )pi (3.3) i Il valore che si ottiene corrisponde al protto che si sarebbe ottenuto se si avesse avuto la certezza che il prodotto era di successo. La dierenza tra il protto atteso con certezza ed il valore atteso monetario associato all'azione migliore, fornisce il valore atteso della informazione completa (V AIC ), ovvero: V AIC = P AC − V AM ? (3.4) che rappresenta il guadagno dierenziale tra la situazione di certezza sul futuro e quella di incertezza e quindi fornisce anche l'ammontare massimo che il direttore marketing sarebbe disposto a sborsare per ottenere l'informazione completa, pertanto, si può calcolare il guadagno atteso da campionamento (GAN C ) come dierenza tra il valore atteso della informazione completa ed il costo di un eventuale campione CC : GAN C = V AIC − CC. (3.5) 1 Vanno inoltre segnalati altri due criteri decisionali che non utilizzano l'informazione campionaria: il criterio del Minimax, dove si sceglie quella azione che minimizza la perdita massima possibile associata ad ogni evento; il criterio del Maximax, dove si sceglie quella azione che massimizza il protto massimo possibile associato ad ogni evento. Il primo caso è quello dell'imprenditore che vuole evitare il dissesto nanziario ad ogni costo, il secondo caso è quello delle lotterie nazionali in cui il prezzo del biglietto è estremamente basso rispetto al premio in caso di vincita. 24 3.3 Processo decisionale con informazioni campionarie In luogo di adarsi solo alla esperienza passata o alla probabilità soggettiva, colui che è chiamato a prendere la decisione può arricchire gli elementi di giudizio mediante la raccolta di informazioni campionarie. Tali informazioni campionarie vengono incorporate, grazie al teorema di Bayes, nel processo decisionale, infatti, sulla base dei risultati campionari vengono riviste le probabilità a priori dei vari eventi, si ottengono cioè le probabilità a posteriori che si sostituiscono a quelle a priori nel calcolo del valore monetario atteso e del protto atteso con certezza. Si consideri a tale proposito, la seguente tabella, relativa al caso di un imprenditore che debba decidere se acquistare o meno un lotto di lampadine. Si supponga inoltre che allo scopo di decidere sia stata condotta una indagine campionaria analizzando un numero n di lampadine pari a 25, di cui solo una è risultata difettosa. Nella prima colonna sono riportati gli eventi che si possono vericare nella realtà, che altro non sono che le possibili percentuali di pezzi difettosi caratterizzanti il lotto; a tali eventi sono associate delle probabilità a priori, indicate in colonna due, nonchè i protti ottenibili in caso di acquisto (il protto è invece sempre nullo in caso di mancato acquisto) indicati in colonna tre. Nella quarta colonna sono riportate le probabilità probative del campione E (calcolate ricorrendo all'impiego della variabile aleatoria binomiale) sotto l'ipotesi che questo sia stato estratto da una popolazione con il 2% di pezzi difettosi, il 3% etc. . . . Mediante il prodotto delle probabilità probabitive per le probabilità a priori, riportato in colonna cinque, si ottiene il numeratore che compare nel teorema di Bayes, il totale della colonna invece fornisce il denominatore, ovvero la probabilità di estrarre il particolare campione E caratterizzato da k = 1 pezzi difettosi. Inne, l'ultima colonna riporta le probabilità a posteriori. Una volta convertite le probabilità a priori in quelle a posteriori, queste vengono sostituite nel calcolo del P AC e del V AM ? ottenendo rispettivamente il protto atteso con certezza a posteriori (ovvero dopo la estrazione del campione) indicato P ACp ed il valore atteso monetario della alternativa migliore a posteriori indicata con V AMp? La dierenza tra queste due quantità rappresenta il valore atteso della informazione completa a posteriori ovvero: 25 Eventi Ai Prob. Protto Prob. (% di pezzi a priori in caso di probative difettosi) P (Ai ) acquisto P (E|Ai ) .02 .03 .04 .05 .06 .07 .08 .10 .30 .20 .15 .10 .10 .05 2500 1700 900 0 −200 −700 −1300 .3079 .3611 .3754 .3650 .3398 .3066 .2744 P (E|Ai ) × P (Ai ) .03079 .10833 .07508 .05475 .03398 .03066 .01372 Tot= P (Ek ) Prob. a posteriori P (Ai |E) .088 .312 .216 .158 .98 .88 .039 Tabella 3.3: Calcolo delle probabilità a posteriori (3.6) Dal confronto tra il valore atteso della informazione completa a priori ovvero prima della estrazione del campione (come calcolata nel paragrafo precedente) e quella a posteriori dopo la estrazione del campione si ottiene il valore atteso del campione di numerosità n pari a 25 e con k = 1 pezzi difettosi, denito, pertanto, come: V AICp = P ACp − V AMp? (3.7) Ripetendo la procedura per k = 0, k = 2, . . . , k = 25 si ottengono i valori attesi dei campioni con zero pezzi difettosi, due pezzi difettosi, no a giungere al caso di 25 pezzi difettosi. La media ponderata di tali valori attesi (compreso ovviamente il caso di k = 1) fornisce il valore atteso del campione (V AC ) di dimensione pari a 25 , ovvero: V AC(n=25,k=1) = V AIC − V AICp . V AC(n=25) = X V AC(n=25,k) P (k) (3.8) k dove i pesi P (k) sono forniti dalle probabilità che si verichi il rispettivo esito campionario, e quindi altro non sono che le probabilità dei campioni conPun particolare risultato ad esempio nel caso di k = 1, si ha che: p(k) = i p(Ek=1 |Ai )p(Ai ), ovvero il totale P (Ek ) riportato a margine della quinta colonna della tabella. Si noti che alcuni dei valori che compaiono nella sommatoria potrebbero essere negativi, ovvero non tutti i campioni presentano un valore atteso positivo; in generale, campioni con risultati estremi 26 (pochi o molti pezzi difettosi), hanno un contenuto informativo e quindi un valore atteso elevato o comunque positivo, mentre campioni con valori non estremi conducono a valori negativi del VAC e ciò accade specialmente nel caso in cui n sia piccolo. L' analisi appena illustrata prende il nome di analisi preposteriore perchè si tratta, a ben vedere, di un procedimento volto a stimare il valore della informazione campionaria prima della estrazione del campione, considerando tutti i possibili esiti. Evidentemente, si tratta di un procedimento che ripetuto per diversi valori di n, può essere di ausilio nella scelta della dimensione campionaria. Ad esempio, nel caso dell'aquisto del lotto di lampadine, ripetendo l'analisi per n = 50 si ottiene un valore atteso del campione pari a più del doppio del valore atteso del campione di numerosità 25; il contenuto informativo del campione, quindi, in questo caso è cresciuto in maniera più che proporzionale suggerendo l'opportunità e l'utilità di accrescere la dimensione campionaria. Nel caso del nostro esempio, inoltre, le probabilità probative sono state calcolate mediante il ricorso al modello binomiale che è di tipo discreto ma l'analisi può essere estesa anche al caso di variabili aleatorie continue. Appendice: la probabilità soggettiva Le probabilità a priori possono essere frutto non solo della esperienza passata relativa ad eventi simili, ma anche di una valutazione soggettiva da parte di colui che è chiamato a decidere. Secondo l'impostazione soggettiva la probabilità di un evento è il grado di ducia che una persona ha nel vericarsi di quell'evento. Tale denizione non ha però carattere operativo nel senso che non può essere impiegata immediatamente per misurare la probabilità, viene pertanto modicata agganciandola al concetto di scommessa ed imponendo le condizioni di equità e di coerenza. In tal modo si denisce probabilità di un evento il prezzo che un individuo è disposto a pagare per ricevere 1 se l'evento si verica e 0 se non si verica. Le probabilità devono essere attribuite agli eventi secondo i principi della equità e della coerenza, ovvero il prezzo deve essere tale non permettere ad alcun partecipante alla scommessa una vincita certa o una perdita certa ed inoltre, se si giudica equo il prezzo, bisogna essere disposti ad accettare l'una o l'altra delle posizioni contrapposte nella scommessa sull'evento. In generale siano A e B due scommettitori, A vince x se si verica l'evento E e perde y se si verica Ē , B invece, perde x se si verica E e vince y se si 27 y x verica Ē , allora, P (E) = x+y e P (Ē) = x+y , in altre parole le probabilità vengono denite mediante il rapporto tra ciò che si è disposti a scommettere e la vincita totale. 28 Capitolo 4 Campionamento statistico 4.1 Premessa Per analizzare e conoscere un qualsiasi fenomeno che si manifesta in una popolazione occorre condurre un'indagine statistica. Tale indagine può essere esaustiva, ovvero condotta attraverso la rilevazione di tutte le manifestazioni del fenomeno nella popolazione, oppure può essere svolta in forma parziale, considerando solo una parte di dette manifestazioni, è questa la c.d. indagine campionaria. L'indagine campionaria, si dierenzia da quella esaustiva per due aspetti fondamentali: a) scelta di una specica procedura di selezione delle unità della popolazione che entreranno a far parte del campione; b) induzione dal campione alla popolazione sulla base dell'analisi delle osservazioni campionarie. Diverse sono le applicazioni dell'indagine campionaria in azienda; esempi si hanno nell'analisi dei mercati in cui l'azienda opera o intende operare, nelle analisi nanziarie e in particolare nella revisione contabile. Nella realizzazione di un'indagine sia essa esaustiva o campionaria è indispensabile associare ad essa l'errore statistico inteso come discrepanza tra il valore osservato ed il valore vero. Tale denizione assume un diverso contenuto quando si riferisce alla singola unità statistica oppure ad una statistica di sintesi dei dati rilevati mediante indagine campionaria. Nel primo caso la discrepanza fa riferimento al complesso degli errori extra-campionari, cioè degli errori ottenuti come somma di tutti gli errori che possono essere commessi in una qualsiasi fase del processo di indagine. Nel secondo caso, invece, agli errori extra-campionari si aggiungono gli errori campionari, per i 29 quali la statistica campionaria dierisce dal valore osservabile in un'indagine esaustiva. L'errore statistico può essere considerato come una guida all'informazione della qualità dell'indagine intesa come prodotto, dove per qualità si intende l'attendibilità, cioè accuratezza delle stime e adeguatezza, cioè raggiungimento degli obiettivi. E' quindi molto utile che per ogni indagine sia denito il c.d. error prole, ovvero la descrizione completa ed ordinata delle potenziali fonti di errore e della loro propagazione nelle fasi successive. Tutto ciò, ovviamente, comporta dei vantaggi che sono riassumibili nella possibilità di dimensionare l'errore complessivo, nella sensibilizzazione degli operatori sugli eetti dei diversi tipi di errore, nello stimolo alla messa a punto di programmi per il controllo della qualità dei dati. Nonostante ciò i proli degli errori non sono poi così diusi a causa della complessità di realizzazione e della paura di ridurre la credibilità dei risultati, e quindi di veder giudicato scadente il proprio lavoro. Per poter eettuare una qualsiasi indagine campionaria su alcune caratteristiche di una popolazione è indispensabile formulare una strategia campionaria detta disegno di campionamento, che si può denire come l'insieme delle decisioni prese per la formazione del campione. Innanzitutto occorre denire la struttura della popolazione che è data dall'insieme di liste che si adoperano per formulare il campione: se la lista della popolazione è unica il campione ha una struttura semplice; se sono necessarie più liste la struttura è complessa. Occorre inoltre denire le regole per la selezione delle unità statistiche che formeranno il campione e quindi si denisce quella che è la probabilità di inclusione. Inne, l'aspetto fondamentale del disegno di campionamento è la determinazione della numerosità del campione. In eetti è impossibile aermare dall'esame del campione se esso sia buono o meno e siccome esso è il risultato della procedura di campionamento, si può solo dubitare circa la scelta di tale procedura. L'impiego scientico dei dati campionari, che si realizza attraverso i metodi di inferenza statistica, presuppone la scelta di campioni ottimali in termini di ecienza, ciò che è possibile ottenere solo attraverso l'impiego della teoria della probabilità che considera la popolazione come un'urna contenente N palline da cui ne vengono estratte a sorte, ovvero con criteri casuali, un certo numero. Se invece la scelta degli elementi campionari prescinde da criteri di casualità, si ha il c.d. campione non probabilistico. Tra i campionamenti non probabilistici più noti si hanno: (1) il campionamento a scelta ragionata, che consiste nella scelta delle aree di analisi e delle unità campionarie in funzione delle peculiarità del 30 fenomeno da studiare e della sua presenza ritenuta dal ricercatore fortemente concentrata in tali aree o su tali unità; (2) il campionamento per quote, che consiste nel suddividere la popolazione in gruppi sulla base di caratteristiche socio-demograche e nel determinare successivamente sulla base di informazioni disponibili dalle fonti uciali i pesi percentuali di ogni gruppo e le conseguenti proporzioni. Vengono quindi denite le quote, ovvero il numero di interviste da eettuare in ciascun gruppo; la scelta delle persone da intervistare è completamente delegata all'intervistatore; (3) il campionamento tramite testimoni specializzati, che consiste nel ricor- so a persone che per il lavoro che svolgono sono a conoscenza di informazioni e notizie su specici aspetti del fenomeno; a tale persone è appunto dato il nome di test o informatori privilegiati. A partire dalla metà degli anni trenta si è assistito ad una progressiva delegittimazione del campionamento non probabilistico in cui è il ricercatore ad eettuare la scelta delle unità statistiche che costituiscono il campione a favore del campionamento statistico che è invece casuale o probabilistico. La casualità si ottiene attribuendo ad ogni unità una probabilità di essere selezionata (c.d. probabilità di inclusione) ed utilizzando in maniera appropriata le tecniche per la selezione del campione. I campionamenti probabilistici si distinguono in due gruppi, quelli con probabilità costante di inclusione e quelli con probabilità variabile. Gli schemi di campionamento probabilistico possono distinguersi in: 1) il campionamento casuale semplice con ripetizione; 2) il campionamento casuale semplice senza ripetizione; 3) il campionamento straticato; 4) il campionamento a due stadi; 5) il campionamento a grappolo. Se il campionamento casuale semplice è quello più noto in inferenza statistica, il campionamento straticato è quello che usualmente consente di denire il campione come il più rappresentativo possibile. Infatti esso si basa sulle informazioni a-priori sulla popolazione per denire strati della popolazione eterogenei esternamente ed omogenei internamente da cui campionare in maniera casuale. Invece lo schema di campionamento a due stadi 31 è il meno costoso e viene impiegato per le rappresentazioni territoriali. Lo schema del campionamento a grappolo riduce ulteriormente i costi della rilevazione e si basa sulla scelta casuale di grappoli della popolazione omogenei esternamente ed eterogenei al loro interno da cui censire tutti gli elementi. Il problema cui il campionamento fa fronte può essere schematizzato nel seguente modo: si consideri una popolazione Ω su cui è denita una variabile aleatoria X la cui funzione di densità (o di distribuzione di probabilità) dipende da un parametro incognito θ; si vogliono ottenere delle informazioni su tale parametro senza analizzare tutte le unità della popolazione. Nel seguito si farà riferimento agli schemi di campionamento casuale e straticato per un loro confronto in termini di variabilità delle stime eettuate, ovvero dell'errore campionario di stima; questo è denito come radice quadrata della varianza della statistica campionaria impiegata nella stima di un parametro non noto della popolazione. 4.2 Il campionamento casuale semplice Cominciamo dalla stima di una proporzione p attraverso un campione di n unità estratto da una popolazione dicotomica di N unità riguardabile come un'urna contenente N1 palline bianche ed N2 palline nere. Sulla popolazione è denita una variabile aleatoria bernoulliana X che assume valori 0 e 1 con probabilità rispettivamente 1−p e p dove p = N1 /N . Un campione di n unità descrive una variabile aleatoria multipla Cn = (X1 , X2 , . . . , Xi , . . . , Xn ) che in caso di estrazione bernoulliana, ovvero con ripetizione, sarà a componenti indipendenti ed identicamente distribuite come la X . Al ne di stimare p utilizziamo una funzione delle n variabili aleatorie campionarie così denita: n 1X P̂n = Xi n (4.1) i=1 che altro non è che la frequenza relativa dei successi, stimatore corretto ed eciente con E(P̂n ) = p e var(P̂n ) = p(1 − p)/n. Inoltre, per il teorema di Bernoulli questo stimatore converge in probabilità al parametro da stimare: limn→∞ P r{|P̂n − p| < } = 1 (4.2) In un problema di scelta della numerosità campionaria si potrà determinare un n0 tale che per n > n0 sia: 32 P r{|P̂n − p| < } > 1 − δ (4.3) dove > 0 rappresenta l'errore ammesso e 1 − δ < 1 il livello di probabilità. Il problema della scelta della numerosità campionaria si risolve individuando un n0 tale che una pressata percentuale (1 − δ%) (sucientemente alta) di campioni darà luogo ad una stima accettabile nel senso che rientra in un pressato intervallo intorno al parametro di ampiezza 2: P r{p − < P̂n < p + } > 1 − δ (4.4) Poichè per n sucientemente grande la variabile binomiale relativa è approssimata da una normale (per il teorema di De Moivre-Laplace), conp siderando nella (4.4) la standardizzazione si ha zδ/2 = / p(1 − p)/n dove zδ/2 è il livello soglia che lascia nelle code un'area di probabilità pari a δ/2; p si ricavap = zδ/2 p(1 − p)/n. Per 1 − δ = 0.95 si ha z0.025 = 1.96 per cui = 1.96 p(1 − p)/n Per maggiore sicurezza tale livello può essere approssimato per eccesso con un valore pari a 2. Risolvendo rispetto a n si deduce la soglia della numerosità campionaria n0 come: n0 be = 4p(1 − p) 2 (4.5) che dipende da p. Usualmente si considera la situazione di massima variabilità per la quale p = 0.5 che sostituita nella (4.5) suggerisce di scegliere una numerosità campionaria n > 1/2 . Pertanto la probabilità di avere campioni sbagliati dipende dalla relazione tra n ed . Nel caso di estrazione senza ripetizione, ovvero in blocco, le variabili aleatorie che costituiscono il campione saranno non indipendenti in quanto ad ogni estrazione la probabilità di successo si modica modicandosi di estrazione in estrazione la popolazione. In tal caso lo stimatore frequenza relativa di successi si distribuisce come una ipergeometrica con media N −n E(P̂n ) = p e var(P̂n ) = p(1−p) n N −1 . Si osserva in particolare che si ha una riduzione della variabilità delle stime e ciò comporterà che a parità di δ ed si avrà una riduzione della numerosità campionaria. Infatti, partendo dalla (4.3) e procedendo in maniera analoga a prima si deduce la soglia della numerosità campionaria in caso di estrazione in blocco: n0 bl = e per p = 0.5 si ha n > 2 (N N 2 (N −1)+1 4p(1 − p)N − 1) + 4p(1 − p) . 33 (4.6) Nel problema più generale della stima della media µ di una popolazione si impiega lo stimatore media campionaria, corretto ed eciente, denito come: n 1X X̄n = Xi n (4.7) i=1 con media E(X̄n ) = µ e var(X̄n ) = σn nel caso di estrazione con ripetizione 2 e var(X̄n ) = σn NN −n −1 nel caso di estrazione in blocco. Applicando la legge debole dei grandi numeri si ha che questo stimatore converge in probabilità al parametro da stimare: 2 limn→∞ P r{|X̄n − µ| < } = 1 (4.8) Poichè per n sucientemente grande la media campionaria si distribuisce come una normale (per il teorema del limite centrale) si potrà seguire lo stesso procedimento illustrato sopra che conduce alla numerosità del campione: 4σ 2 2 (4.9) 4σ 2 N 2 (N − 1) + 4σ 2 (4.10) n0 be = nel caso di estrazione con ripetizione e n0 bl = nel caso di estrazione senza ripetizione. Il problema della stima della varianza non nota si può risolvere in due modi: (1) per campioni grandi la varianza potrà essere stimata con la varianza campionaria corretta impiegando una parte delle unità del campione in un'indagine pilota; (2) altrimenti si potrà considerare una situazione di stima sfavorevole rappresentata da una popolazione distribuita uniformemente; in quest'ultimo caso la stima della varianza sarà data dalla varianza di una uniforme distribuita fra il valore minimo a ed il valore massimo b: σ̂ 2 = (b − a)2 12 (4.11) 4.3 Il campionamento straticato Nel campionamento straticato la popolazione viene ripartita in sottopopolazioni dette strati. La straticazione risponde a diversi obiettivi, quale ad 34 esempio quello di caratterizzare l'indagine per aree geograche e di introdurre in generale il massimo controllo pur mantendo casuale la struttura di selezione del campione in ogni strato. La scelta della variabile di straticazione dovrebbe soddisfare l'esigenza di ottenere strati nei quali la variabilità del fenomeno sia approssimativamente costante (internamente omogenei) e tra i quali la variabilità sia massima (esternamente eterogenei). Si consideri una variabile di straticazione S (qualitativa o quantitativa) le cui K modalità s1 , . . . , sK consentono di suddividere la popolazione Ω in K strati Ω1 , . . . , ΩK tali che ∪K k=1 Ωk = Ω per i 6= j (straticazione esaustiva) e Ωi ∩PΩj = (strati disgiunti) di numerosità N1 , . . . , NK rispettivamente (con k Nk = N ). Si supponga sia denita sulla popolazione una variabile aleatoria X e di voler stimare la media generale µ che può essere denita P come media ponderata delle medie parziali µk nei diversi strati, µ = k µk Nk /N . La varianza totale della variabile aleatoria X può essere espressa come somma di due componenti: σ2 = X k σk2 Nk Nk X + (µk − µ)2 N N (4.12) k dove σk2 è la varianza nel k-esimo strato. La varianza totale è in parte dovuta alla variabilità della variabile aleatoria X nei diversi strati e in parte alla variabilità delle medie parziali rispetto alla media generale. La straticazione sarà tanto più buona quanto più la seconda componente risulta grande rispetto alla prima. In tal caso infatti quanto più gli strati sono omogenei internamente, ovvero con bassa variabilità, tanto minore sarà la numerosità del campione a parità di errore campionario. Nell'eettuare il campionamento in ogni strato non si tiene conto della seconda componente, bensì occorrerà tener conto della variabilità internamente ai singoli strati. Nel campionamento straticato, una volta denita la numerosità totale del campione n sorge il problema di ripartire questa numerosità nei diversi strati, ovvero estraendo casualmente K sottocampioni di numerosità rispettivamente n1 , . . . , nK , un sottocampione per ogni strato. Nel seguito si fa riferimento ad estrazioni bernoulliane sebbene sia possibile estendere i concetti al caso di estrazioni senza ripetizione. Il campione totale Cn è costituito da K sottocampioni del tipo (Xk1 , . . . , Xknk ) per k = 1, . . . , K . Quale stimatore non distorto ed eciente della media parziale µk nel k-esimo strato si considera la media campionaria Mk con E(Mk ) = µk e var(Mk ) = σk2 /nk (estrazione con ripetizione). La media generale potrà essere stimata da 35 X̄n = K X Nk N Mk k=1 (4.13) con media E(X̄n ) = µ e in particolare si può dimostrare che la varianza è data dalla seguente espressione: var(X̄n ) = X σ2 N 2 k k k nk N 2 (4.14) La varianza della stima globale della media della popolazione è funzione inversa del numero di estrazioni che vengono eettuate all'interno di ogni strato. Una volta che gli strati sono deniti, facendo variare nk si fa variare la varianza della stima. La ripartizione ottimale di n nei diversi strati dovrà essere eettuata determinando le numerosità dei singoli sottocampioni che minimizzano la varianza della stima (4.14). Si tratta di risolvere un problema P di minimo vincolato, ovvero minimizzare la (4.14) con il vincolo che k nk = n. Si ottiene quale soluzione: σk Nk nk so = n P k σk Nk (4.15) dove si evince che la numerosità nk nel k-esimo strato dipende direttamente dallo scarto quadratico medio e dalla numerosità della popolazione nel kesimo strato. Sostituendo la (4.15) nella (4.14) si ottiene la varianza della stima nel caso di campionamento straticato con ripartizione ottimale: so var(X̄n ) 1 = ( n P k σk Nk 2 ) N (4.16) che può essere interpretata come il quadrato della media ponderata degli scarti quadratici medi. Naturalmente per poter impiegare questo schema di campionamento occorre stimare la varianza non nota nei singoli strati attraverso un'indagine pilota. Quale alternativa alla ripartizione ottimale si può considerare la ripartizione proporzionale determinando le numerosità nei singoli strati come: nk sp = n Nk N (4.17) nel quale non si considera la variabilità nei singoli strati e quindi uno strato più numeroso può essere meno variabile e uno strato meno numeroso 36 può essere più variabile. Sostituendo la (4.17) nella (4.14) si ottiene la varianza della stima nel caso di campionamento straticato con ripartizione proporzionale: sp var(X̄n ) 1 X 2 Nk σk n N = (4.18) k che può essere interpretata come il momento secondo degli scarti quadratici medi. Dal confronto tra (4.16) e (4.18) si evince che so var(X̄n ) sp ≤ var(X̄n ) (4.19) dove l'uguaglianza si ha quando le varianze negli strati sono tutte uguali fra loro così che la (4.15) è uguale alla (4.17). Se si vuole estendere il confronto al campionamento semplice si dovrà considerare la varianza della stima: cs var(X̄n ) = σ2 n (4.20) Considerando la (4.12) si può scrivere la (4.20) come cs var(X̄n ) = 1 X 2 Nk 1X Nk σk + (µk − µ)2 n N n N k (4.21) k Poichè la prima componente è proprio la varianza della stima nel campionamento straticato proporzionale si ha che: sp var(X̄n ) cs ≤ var(X̄n ) (4.22) dove l'uguaglianza si ha quando le medie negli strati sono tutte uguali fra loro: µk = µ per ogni k. In conclusione, la stima più eciente, nel senso di fornire l'errore campionario più piccolo, ha bisogno di una numerosità più piccola. Rispetto al campionamento semplice il campionamento straticato conviene quando la variabile di straticazione conduce a una dierenza in media tra i diversi strati. Si preferisce la straticazione con ripartizione ottimale rispetto a quella proporzionale quando i diversi strati hanno diversa variabilità. 37 Capitolo 5 Il modello dell'analisi della varianza 5.1 Premessa L'analisi della varianza estende il test sulla dierenza tra le medie di due popolazioni a più popolazioni. Essa viene infatti impiegata per vericare l'ipotesi nulla di uguaglianza di h medie di altrettante popolazioni discriminate sulla base delle modalità (o livelli) di un fattore sperimentale A che può essere assimilato ad una variabile qualitativa. Il principio su cui si fonda l'ANOVA (ANalysis Of VAriance) è che la variabilita' apporta informazione sulle cause dei fenomeni e sulla loro relazione. Per comprendere le caratteristiche di tale tipo di analisi, si consideri il caso di una ditta farmaceutica che vuole vericare se tre prodotti volti alla cura della medesima patologia siano o meno ugualmente ecaci. A tale scopo, i farmaci vengono somministrati ad alcune cavie andando poi a misurare su di esse il loro eetto. Nella analisi della varianza, quindi, si ha un fattore qualitativo A che agisce" mentre la variabile di risposta Y è numerica. Se i tre farmaci sono ugualmente ecaci, le risposte ai trattamenti da parte delle cavie dovrebbero essere in media non troppo diverse. Sintetizzando al massimo, potremmo dire che scopo della analisi della varianza è stabilire cosa debba intendersi per troppo diverse". In caso di uguaglianza degli eetti, le dierenze che si riscontrano tra le medie delle risposte ai trattamenti da parte dei tre gruppi di cavie vanno ascritte alla variabilità sperimentale o componente accidentale delle risposte sperimentali che fa si che la risposta dierisca da cavia a cavia anche quando queste sono sottoposte al medesimo trattamento. Questo tipo di dierenze sono infatti dovute 38 ad un complesso molto ampio di cause che sfuggono al controllo dello sperimentatore e che vengono allora conglobate nella componente accidentale, a sua volta rappresentata mediante una variabile casuale. Per tale variabile casuale si ipotizza, in applicazione del teorema di Laplace, una distribuzione di tipo normale. Dalla normalità della componente accidentale discende che le risposte da parte dei tre gruppi di cavie possono essere riguardate come altrettanti campioni estratti da popolazioni anch'esse normali e con media diversa od uguale a seconda che i farmaci siano o meno parimente ecaci. 5.2 L'analisi della varianza ad un fattore 5.2.1 Il modello Sia A un fattore sperimentale ad h modalità e siano µi (per i = 1, . . . , h) le medie delle popolazioni da cui si possono ritenere estratti h campioni. Tali medie possono essere scisse nella somma di due componenti: (5.1) dove µ rappresenta la media comune delle h popolazioni e αi l'eetto dovuto al trattamento con la i-esima modalità del fattore sperimentale. Si ipotizza che le risposte siano generate da un modello lineare del tipo: µi = µ + αi , (5.2) dove yij rappresenta la j -esima risposta (per j = 1, . . . , ni , con i ni = n) al trattamento con la i-esima modalità del fattore, decomposta nella somma di due componenti, una parte sistematica µ + αi ed una parte accidentale ij , detta errore, che sintetizza la variabilità sperimentale. Qualora il numero delle osservazioni sperimentali è costante per ciascun trattamento ipotizzato (ni = n/h per ogni i) si denisce un disegno sperimentale bilanciato. Secondo la (5.2), la risposta yij risulta determinata da una forma additiva e lineare che considera l'eetto medio generale e costante nell'esperimento (ossia µ), l'eetto dovuto al trattamento i-esimo rispetto al livello medio generale (ossia αi ), l'eetto erratico legato alla j -esima osservazione sperimentale. Al ne di identicare gli h + 1 P parametri del modello si pone, senza perdere in generalità, il vincolo che i αi = 0. Per la componente accidentale valgono le seguenti ipotesi: yij = µ + αi + ij P E(ij ) = 0, E(ij 2 ) = σ 2 , 39 (5.3) (5.4) E(ij , kl ) = 0, i 6= k, j 6= l (5.5) Si ipotizza inoltre che l'errore si distribuisca come una variabile casuale normale da cui discende che: yij ∼ N (µi , σ 2 ). (5.6) Si distingue il modello ad eetti ssi, per il quale i livelli del fattore sperimentale sono deterministici (in quanto si considerano tutti i possibili livelli del fattore sperimentale), dal modello ad eetti casuali o randomizzato, per il quale i livelli del fattore discendono da un'estrazione casuale e pertanto gli αi sono variabili aleatorie che soddisfano ipotesi analoghe a quelle formulate per gli errori ij : E(αi ) = 0, 2 E(αi ) = σα2 , E(αi , αl ) = 0, i 6= l (5.7) (5.8) (5.9) Si assume inoltre che vi sia indipendenza tra le variabili aleatorie αi ed ij . La dierenza tra un modello ad eetti ssi ed un modello ad eetti casuali, nel caso di un solo fattore di classicazione, non è foriera di alcuna conseguenza sotto il prolo delle modalità di espletamento dell'analisi inferenziale. 5.2.2 Il test L'ipotesi nulla di uguaglianza delle h medie può essere espressa nella seguente forma: H0 : αi = 0, ∀i (5.10) Allo scopo di eettuare il test, si considera la devianza campionaria totale di Y : SST = XX i (yij − ȳ.. )2 (5.11) j dove ȳ.. rappresenta la media campionaria generale. Sia inoltre ȳi. la media campionaria relativa all'i-esimo livello del fattore, la devianza campionaria totale può essere decomposta in devianza tra i trattamenti e devianza entro i trattamenti: 40 XX i j (yij − ȳ.. )2 = X (ȳi. − ȳ.. )2 ni + i XX i (yij − ȳi. )2 (5.12) y Se indichiamo con SSA la devianza campionaria tra i trattamenti (cioè la parte della devianza campionaria totale spiegata dai livelli del fattore) e con SSE la devianza campionaria entro i trattamenti (cioè la parte dovuta alla variabilità sperimentale) si ha: SST = SSA + SSE (5.13) Si dimostra che le seguenti varianze campionarie corrette: SST n−1 SSA M SA = h−1 SSE M SE = n−h M ST = (5.14) (5.15) (5.16) sono stimatori non distorti per σ2 . Assumendo la normalità degli errori, si ha che se è vera l'ipotesi nulla allora si hanno due variabili aleatorie chi-quadrato indipendenti: SSA ∼ χ2 h−1 σ2 SSE ∼ χ2 n−h σ2 (5.17) (5.18) Pertanto, il test può essere condotto considerando il seguente rapporto: F = M SA M SE (5.19) che si distribuisce come una variabile aleatoria F di Fisher con (h−1), (n−h) gradi di libertà. Più tale rapporto risulta elevato, maggiore è il contributo dei livelli del fattore sperimentale alla spiegazione della variabilità del fenomeno osservato, ciò che induce a rigettare l'ipotesi nulla. Associato al livello empirico della F si indica usualmente il più piccolo livello di signicatività del test (indicato con pA ) per rigettare l'ipotesi nulla di assenza dell'eetto del fattore A sulla risposta: più basso è questo valore più inverosimile è l'ipotesi nulla data l'evidenza empirica. La tabella riassuntiva dell'ANOVA ad un fattore sperimentale riepiloga i risultati del test statistico. 41 Origine della Somma dei Gradi di Media dei Rapporto F sign. variabilitá quadrati libertá quadrati Tra i SSA h−1 M SA M SA/M SE pA gruppi Interna ai SSE n−h M SE gruppi Totale SST n−1 Tabella 5.1: Analisi della varianza ad un fattore sperimentale Se si rigetta l'ipotesi nulla signica che esiste almeno un livello del fattore per il quale l'ipotesi nulla non è vericata, ossia la media del gruppo dierisce dalla media generale. 5.2.3 I confronti multipli Il ricercatore interessato ad individuare quale gruppo abbia contribuito al rigetto dell'ipotesi nulla (e che ha determinato un aumento della variabilità dovuta al fattore A) dovrebbe procedere ad eettuare tutti i confronti simultanei tra coppie di gruppi. Diversi sono gli approcci possibili. Una procedura tradizionale denominata Least Signicant Dierence (LSD) si basa sulla costruzione di un intervallo di condenza per la dierenza fra ciascuna coppia di medie (µi − µl ) considerando la statistica t di Student: (ȳi. − ȳl. ) ± tα/2;(n−h) s[ 1 1 1/2 + ] ni nl (5.20) dove s2 = SSE/(n − h). Ciascuna coppia di medie potrà essere validata usando l'intervallo (5.20): se l'intervallo conterrà lo zero allora le medie non dieriscono signicativamente al livello α. Il metodo di Scheé propone un test più conservativo per il quale l'intervallo di condenza viene costruito considerando la statistica F : (ȳi. − ȳl. ) ± s[(h − 1)Fα;(h−1)(n−h) 1 1 1/2 + ] ni nl (5.21) così che l'errore campionario dipende da α per ciascuna coppia di medie. In generale, i confronti tra coppie di medie rappresentano casi particolari di un confronto (o contrasto) denito dalla combinazione lineare: 42 L= h X (5.22) λi µi i tale che i λi = 0. Due confronti, caratterizzati dai coecienti λi e νi P (per i = 1, . . . , h) tali che i λi νi = 0, sono detti confronti ortogonali. È possibile procedere al confronto simultaneo tra più medie. Per esempio, se il ricercatore sostiene che a priori si ha µ1 = µ3 e µ2 = µ4 ma che (µ1 , µ3 ) 6= (µ2 , µ4 ) allora un'ipotesi nulla da vericare sarà del tipo H0 : (µ1 + µ3 )/2 − (µ2 + µ4 )/2 = 0. Questa ipotesi è un confronto con coecienti (1/2, −1/2, 1/2, −1/2) rispettivamente per (µ1 , µ2 , µ3 , µ4 ). Il metodo di Scheé per il confronto fra coppie di medie potrà essere esteso al confronto L considerando l'intervallo di condenza: P h X λi ȳi. ± s[(h − 1)Fα;(h−1)(n−h) i h X 1/2 2 λ i /ni ] (5.23) i Questo metodo assume che per tutti i confronti possibili la proporzione di intervalli che non include lo zero è pari ad α se le h medie della popolazione sono uguali, controllando in tal modo l'errore di primo tipo del test. Qualora si rigetta l'ipotesi nulla che tutte le medie sono uguali fra loro simultaneamente, allora esisterà un confronto che dierirà signicativamente da zero. I coecienti del confronto che darà il più grande valore di 2 h h X X [ λi ȳi. ] /[s2 λ2 i /ni ] i (5.24) i sono dati da λi = ni (ȳi. − ȳ.. ), per i = 1, . . . , h. Questo confronto sarà il primo responsabile del rigetto dell'ipotesi nulla che tutte le medie sono uguali fra loro. 5.2.4 Le condizioni di applicabilità In conclusione, le condizioni di applicabilità del modello ANOVA ad un fattore sono: normalità degli errori, indipendenza ed additività degli eetti, omoschedasticità delle varianze fra i gruppi. Sono previsti anche alcuni test statistici che consentono di vericare a priori le condizioni di applicabilità del modello. In particolare si può far riferimento al test di Hartley per quanto concerne l'ipotesi di omoschedasticità, ossia di uguaglianza delle varianze delle popolazioni da cui sono estratti i campioni. Esso si basa sul confronto 43 tra le varianze campionarie corrette massime e minime assumendo sia un disegno bilanciato che la plausibilità dell'ipotesi di normalità degli errori. In generale, il test sul confronto tra le medie è robusto alla non normalità degli errori, così che per la verica della omoschedasticità si può far ricorso a test non parametrici (test sui ranghi, test basati su tecniche di ricampionamento del tipo jackknife). 5.3 L'analisi della varianza a due fattori L'analisi della varianza può essere generalizzata al caso di più fattori, nel seguito ne saranno considerati due. Per illustrare tale caso, si consideri il seguente esempio: il direttore marketing di una catena di supermercati vuole studiare l'eetto che la disposizione dei prodotti negli scaali ha sulle vendite, considerando al contempo, diverse dimensioni di supermercato. Quando si analizzano due fattori, si può essere interessati nel vericare se vi sia un eetto di ciascuno dei fattori, e se inoltre vi sia anche un eetto dovuto alla interazione tra essi. Nel seguito, si farà riferimento dapprima ad un modello senza interazione e successivamente si illustrerà il modello con interazione. Siano allora A e B due fattori sperimentali rispettivamente ad h e g livelli, e si considerino hg possibili trattamenti per un totale di n = hg osservazioni (ossia ciascun trattamento, formato dalla combinazione di due rispettivi livelli dei fattori, è osservato esclusivamente una volta). Il modello è espresso nel seguente modo: (5.25) dove µ rappresenta la media generale delle hg popolazioni, αi uno scostamento da questa dovuto all'eetto dell'i-esimo livello del fattore A e βj uno scostamento dovuto al j -esimo livello del fattore B con i = 1, . . . , h, e j = 1, . . . , g, inne, ij rappresenta come sopraPla variabilità Psperimentale. Inoltre, si assume, senza perdere in generalità, i αi = 0 e j βj = 0. Nel caso di modello randomizzato, sia αi che βj sono variabili casuali per le quali valgono le consuete ipotesi già viste sopra per αi nel modello ad un fattore. Si assume che vi sia indipendenza tra αi , βj ed . yij = µ + αi + βj + ij L'ipotesi nulla di uguaglianza delle hg medie può essere scissa in due sotto ipotesi: H01 : αi = 0, ∀i H02 : βj = 0, ∀j 44 (5.26) (5.27) Queste ipotesi vengono sottoposte a verica scindendo la devianza campionaria totale nel seguente modo: (yij − ȳ.. )2 = (5.28) (ȳi. − ȳ.. )2 g+ (5.29) (ȳ.j − ȳ.. )2 h+ (5.30) XX i j + X i + X j + XX i (yij − ȳi. − ȳ.j + ȳ.. )2 (5.31) j dove ȳ.. è la media campionaria generale, ȳi. è la media delle risposte campionarie per l' i-esimo livello di A qualunque sia il livello di B e ȳ.j la media delle risposte campionarie per il j -esimo livello di B qualunque sia il livello di A. La (5.28) si decompone in una componente (5.29) dovuta al fattore A (SSA), in una componente (5.30) dovuta al fattore B (SSB ) ed un'ultima dovuta alla variabilità sperimentale SSE . Il test viene condotto considerando i rapporti: F = SSA/(h − 1) SSE/(h − 1)(g − 1) (5.32) F = SSB/(g − 1) SSE/(h − 1)(g − 1) (5.33) che, con ragionamento analogo a quello eettuato per il modello ad un fattore, se sono vere le ipotesi nulle, ed assumendo la normalità degli errori, si distribuiscono come la variabile casuale F di Fisher con gradi di libertà rispettivamente pari a (h − 1), (h − 1)(g − 1) e pari a (g − 1), (h − 1)(g − 1). Anche in questo caso, si concluderà per il rigetto di ciascuna ipotesi nulla se il relativo rapporto considerato risulta elevato così che saranno bassi i corrispondenti valori di signicatività. Se si vuole impiegare un modello con interazione, ricordando l'esempio dei supermercati, si ha che per ciascun trattamento, ossia ciascuna combinazione tra tipo di disposizione della merce e dimensione del supermercato, vengono considerate delle replicazioni. Si supponga per semplicità che il numero di replicazioni sia costante e pari ad r per ogni combinazione dei livelli del primo e del secondo fattore. Quindi i trattamenti possibili sono ancora gh mentre il numero complessivo di osservazioni è n = rhg. Il modello diviene: 45 Origine della Somma dei Gradi di Media dei Rapporto F sign. variabilitá quadrati libertá quadrati Fattore A SSA h−1 M SA M SA/M SE pA Fattore B SSB g−1 M SB M SB /M SE pB Residuale SSE (h-1)(g-1) M SE Totale SST n−1 Tabella 5.2: Analisi della varianza a due fattori, modello senza interazione yijk = µ + αi + βj + γij + ijk (5.34) k = 1, . . . , r (5.35) dove γij esprime l'eetto dovuto alla interazione tra i due fattori e, nel caso di modello ad eetti casuali, è anche esso una variabile casuale per la quale valgono le usuali ipotesi. Alle ipotesi specicate sopra (5.26 e 5.27), se ne aggiunge una terza, ovvero: H03 : γij = 0, ∀i, j (5.36) La presenza di una interazione comporta che la devianza campionaria totale venga scissa nelle seguenti componenti: XXX i j X (yijk − ȳ... )2 = (5.37) k (ȳi.. − ȳ... )2 gr+ (5.38) i X + (ȳ.j. − ȳ... )2 hr+ (5.39) j + XX i (ȳij. − ȳi.. − ȳ.j. + ȳ... )2 )r+ (5.40) j + XXX i j (yijk − ȳij. )2 (5.41) k dove ȳij. rappresenta la media campionaria delle risposte al trattamento con l' i-esimo livello di A e con il j -esimo livello di B . Nella decomposizione della devianza totale compare dunque, una ulteriore componente che rappresenta 46 la parte della devianza campionaria totale dovuta alla interazione; ciò comporta una modica della componente residuale. Inoltre, quando si considera la interazione tra i due fattori, l'analisi viene condotta in modo dierente per il modello ad eetti ssi e per quello ad eetti casuali. Nel caso di eetti ssi infatti, si considerano i rapporti F (5.32 e 5.33) a cui si aggiunge il rapporto: F = SSI/(h − 1)(g − 1) ∼ F(h−1)(g−1),(n−hg) SSE/(n − hg) (5.42) che, se risulta elevato, evidenzia la presenza di una signicativa interazione tra i due fattori. Origine della Somma dei variabilitá quadrati Fattore A SSA Fattore B SSB Interazione SSI Spiegata SSL Residuale SSE Totale SST Gradi di libertá h−1 g−1 (h − 1)(g − 1) hg − 1 n − hg n−1 Media dei Rapporto F sign. quadrati M SA M SA/M SE pA M SB M SB /M SE pB M SI M SI /M SE pI M SE Tabella 5.3: Analisi della varianza a due fattori, modello con interazione ad eetti ssi Se gli eetti sono invece casuali, si rapportano le stime corrette delle varianze campionarie relative ai fattori A e B alla stima della varianza corretta relativa alla interazione ottenendo: F = SSA/(h − 1) SSI/(h − 1)(g − 1) (5.43) F = SSB/(g − 1) SSI/(h − 1)(g − 1) (5.44) 47 Origine della Somma dei variabilitá quadrati Fattore A SSA Fattore B SSB Interazione SSI Spiegata SSL Residua SSE Totale SST Gradi di libertá h−1 g−1 (h − 1)(g − 1) hg − 1 n − hg n−1 Media dei Rapporto F sign. quadrati M SA M SA/M SI pA M SB M SB /M SI pB M SI M SI /M SE pI M SE Tabella 5.4: Analisi della varianza a due fattori, modello con interazione ad eetti casuali 48 Capitolo 6 Il modello di regressione lineare multipla 6.1 Premessa Per elaborare delle teorie economiche occorre raggruppare le relazioni tra variabili in modo da formare un modello. Un modello statistico è una rappresentazione parsimoniosa, fedele e necessaria della realtà derivata dall'evidenza empirica e da deduzioni logiche. La realtà è osservata, si formulano delle ipotesi, si assumono delle relazioni di causa ed eetto tra le variabili di interesse, ci si avvale delle conoscenze a-priori derivanti da teorie. Ciò si traduce nella formalizzazione di un modello statistico, basato su una struttura probabilistica, che viene sottoposto ad inferenza mediante un'indagine campionaria. La costruzione di un modello statistico si concretizza in tre fasi successive: specicazione, stima dei parametri, verica. La fase più delicata è la ricerca di una corretta specicazione del modello. Sulla base di conoscenze a-priori derivanti da teorie, assunzioni, ipotesi, risultati sperimentali, si formula una relazione funzionale tra le variabili di interesse individuando la funzione f (·) che lega la variabile dipendente Y e le variabili esplicative o predittori (X1 , . . . , XK ). Lo statistico introdurrà un elemento stocastico nella specicazione del modello anchè questo sia parsimonioso così da costituire un'approssimazione fedele della realtà, di sua natura sarà un modello non deterministico. La relazione funzionale più semplice tra due variabili è data dall'equazione di una retta così da ottenere: Y = β1 + β2 X + u 49 (6.1) dove i parametri sono β1 e β2 , rispettivamente intercetta e coeciente angolare della retta, mentre u è la componente aleatoria o stocastica che riassume il non spiegato teoricamente (le variabili omesse) così come l'errore di misurazione. L'obiettivo sarà quello di pervenire a delle stime dei parametri del modello e di vericare la bontà di adattamento del modello ai dati per una possibile generalizzazione delle aermazioni teoriche suragate dall'evidenza empirica. 6.2 Il modello classico di regressione lineare semplice 6.2.1 Il modello e le ipotesi Il modello di cui si tratta nel seguito è detto modello classico di regressione lineare semplice. Esso è detto semplice poiché considera la relazione tra due sole variabili a dierenza di quello multiplo che include più predittori. Il termine lineare sarà riferito ai parametri indipendentemente dalle variabili che possono essere opportunamente trasformate. Il modello è poi basato su ipotesi dette classiche, che fanno di questo modello il punto di riferimento per altri modelli basati sulla rimozione di talune delle ipotesi classiche. Il modello, inne, è detto di regressione poiché con esso si intende stimare o predire il valor medio della variabile dipendente sulla base di valori pressati della variabile esplicativa, per cui si dice che la variabile dipendente regredisce verso la media al variare dei valori della variabile esplicativa. Si supponga di studiare la spesa per consumo settimanale di un dato prodotto (i.e., la variabile dipendente Y ) in funzione di diversi livelli di reddito (i.e., la variabile esplicativa X ). Lo statistico dovrà scegliere la relazione che spieghi il valore atteso della distribuzione condizionata di Y dato il livello i-esimo di X distinguendo il caso discreto: E(Y |X = xi ) = X yp(y|xi ) (6.2) dove p(y|xi ) descrive la distribuzione di probabilità condizionata al livello i-esimo del reddito, dal caso continuo Z E(Y |X = xi ) = yf (y|xi )dy (6.3) dove f (y|xi ) descrive la funzione di densità di probabilità condizionata al livello i-esimo del reddito. 50 Si può ipotizzare che nella popolazione la spesa media settimanale sia funzione lineare del reddito. Ciò si traduce nell'assumere che la rappresentazione cartesiana dei punti di coordinate date dal livello di reddito xi e valore atteso della spesa E(Y |X = xi ) sia descritta esattamente da una retta, detta di regressione, denita come (6.4) dove β1 è l'intercetta e β2 è il coeciente di regressione che descrive anche la pendenza della retta. Invero, se si osserva un individuo con reddito pari a xi e spesa per consumo pari a yi , sarà naturale ritenere che questa spesa non coincida esattamente con il valore atteso del gruppo, ovvero sarà maggiore o minore del valore atteso, e tale scostamento sarà descritto da una variabile casuale denominata errore: E(Y |xi ) = f (xi ) = β1 + β2 xi (6.5) in quanto è strettamente legato al processo di estrazione casuale dell'individuo dalla popolazione. Pertanto, se si osserva un campione di n individui per i quali si hanno le osservazioni (xi , yi ), il modello sarà denito come ui = yi − E(Y |xi ) (6.6) dove E(Y |xi ) costituisce la componente deterministica del modello e ui la componente stocastica del modello che rende yi realizzazione anch'essa di una variabile aleatoria. Assumendo la linearità rispetto a X il modello diventa: yi = E(Y |xi ) + ui (6.7) La v.c. ui è detta errore e rappresenta non solo tutte le variabili omesse dal modello, ma anche un elemento di casualità fondamentale e non prevedibile del fenomeno stesso, oltre agli errori di misura che si sono potuti commettere all'atto della rilevazione dei dati. È opportuno considerare alcune ipotesi, dette classiche, sulla distribuzione di probabilità di questa pertubazione e sul modello in generale: yi = β1 + β2 xi + ui 1. Il valore atteso di ciascuna v.c. errore è uguale a zero: E(ui ) = 0 ⇒ E(yi ) = E[E(Y |xi )] + E(ui ) = β1 + β2 xi (6.8) il ché signica che non c'è errore sistematico. Questa ipotesi non è restrittiva in quanto un eventuale errore sistematico verrebbe incorporato nell'intercetta del modello; 51 2. La varianza dell'errore è costante: var(ui ) = σ 2 ⇒ var(yi ) = σ 2 , ∀i (6.9) per cui si dice che c'è omoschedasticità degli errori. Questa ipotesi è restrittiva per dati di tipo sezionale (cross-section) (n individui osservati al tempo t) ed è più realistica per le serie temporali (un individuo osservato n volte dal tempo t al tempo t + n). Infatti, se ad esempio si considera la spesa per consumo in funzione del reddito è lecito supporre che la variabilità della spesa sia crescente con il livello del reddito (eteroschedasticità); 3. La covarianza degli errori è uguale a zero: cov(ui , uj ) = E(ui uj ) − E(ui )E(uj ) = 0, ∀i 6= j (6.10) per cui gli errori sono incorrelati, ma non necessariamente indipendenti (salvo nel caso di normalità delle variabili). Questa ipotesi è scarsamente realistica per le serie temporali per le quali si osserva il fenomeno dell'autocorrelazione degli errori; 4. La variabile esplicativa X l'errore: non è aleatoria, ovvero non è correlata con cov(xi , ui ) = 0, ∀i (6.11) per cui si intende che il campione sia stato estratto dalle distribuzioni condizionate di Y dati i livelli della variabile X ; 5. Il modello è correttamente specicato. Questa è un'ipotesi implicita del modello la cui plausibilità dipende fortemente dalle conoscenze a-priori del ricercatore. Se ad esempio si vuole stimare la relazione tra salario monetario e tasso di disoccupazione come illustrata dalla ben nota curva di Phillips, e si sceglie erroneamente la retta si determinerebbero delle predizioni errate nel senso di sovrastimare in taluni casi e sottostimare in altri. Il problema è che nella pratica non si conoscono, come per la curva di Phillips, le variabili esatte da includere nel modello e la forma funzionale corretta che leghi tali variabili. Si formulano delle ipotesi sulla natura stocastica del modello e sulle variabili in esso incluse; 52 6. La varianza di X , supposta diversa da zero, non deve essere eccessiva- mente elevata, altrimenti un'analisi lineare condurrebbe a soluzioni non informative. Si immagini una rappresentazione cartesiana delle osservazioni per le quali il campo di variazione della X sia molto ampio: ciò signica che la nube di punti si disperde rispetto la direzione dell'asse delle ascisse e la retta di regressione avrà presumibilmente una pendenza pressocché nulla. 6.2.2 La stima dei parametri Il modello di regressione (6.7) dovrà essere stimato al ne di pervenire ad una stima del valore atteso (6.4) indicata come: (6.12) dove β̂1 e β̂2 saranno le stime dei parametri. In tal modo, il dato osservato potrà esprimersi come somma del modello stimato e del residuo del modello: ŷi = β̂1 + β̂2 xi (6.13) da cui si evince che il residuo ei = yi − ŷi potrà interpretarsi come stima dell'errore. La stima dei parametri è ottenuta attraverso il metodo dei minimi quadrati: yi = ŷi + ei = β̂1 + β̂2 xi + ei min Q(β1 , β2 ) = X (yi − β1 − β2 xi )2 (6.14) i ossia minimizzando la somma dei quadrati degli errori. Ciò si traduce nella risoluzione di un sistema di equazioni normali, eguagliando a zero le derivate prime della funzione Q(·) rispetto ai parametri: X yi = nβ1 + β2 X i X i (6.15) xi i xi yi = β1 X xi + β2 i X xi 2 (6.16) i e controllando le condizioni del secondo ordine. Le stime dei minimi quadrati saranno date dalle seguenti espressioni: β̂1 = ȳ − β̂2 x̄ (6.17) P xi yi − nx̄ȳ sxy Cod(X, Y ) = = 2 β̂2 = Pi 2 2 x − nx̄ Dev(X) s x i i (6.18) 53 dove Cod(X, Y ) e Dev(X) sono rispettivamente la codevianza e la devianza, mentre sxy e sx 2 sono rispettivamente la covarianza campionaria tra X e Y e la varianza campionaria della X . Nel seguito, si utilizzerà la notazione β̂1 e β̂2 sia per le stime che per gli stimatori dei parametri β1 e β2 , quali funzioni delle statistiche campionarie. Sostituendo le (6.17) e (6.18) nella (6.14) si ottiene il valore minimo della funzione da ottimizzare: Q(β̂1 , β̂2 ) = X ei 2 (6.19) i da cui si evince che nel metodo dei minimi quadrati i residui maggiori, essendo i residui elevati al quadrato, contribuiscono in misura maggiore a determinare il valore minimo di questa funzione. Il metodo dei minimi quadrati gode delle seguenti proprietà: 1) La retta passa per il punto di coordinate (x̄, ȳ), che si verica sostituendo x̄ nella (6.12) e tenendo conto della (6.17); 2) E(yi) = E(ŷi), E(ei) = 0, Pi ei = 0, che si dimostra sostituendo le stime 3) β̂1 e β̂2 nella prima equazione (6.15) P i ei xi = 0, che si deduce dopo aver seconda equazione (6.16). del sistema; sostituito le stime β̂1 e β̂2 nella Per valutare la precisione delle stime e in generale per l'inferenza sui parametri del modello occorre conoscere la varianza degli stimatori: var(β̂1 ) = σ 2 [ 1 x̄2 + ] n Dev(X) var(β̂2 ) = σ2 Dev(X) (6.20) (6.21) la cui radice quadrata rappresenta l'errore standard della stima. Se la varianza dell'errore non è nota allora la sua stima corretta è data dalla seguente espressione: 2 σ̂ = P i ei 2 n−2 (6.22) Per quanto riguarda le proprietà degli stimatori dei minimi quadrati, si dimostra, con il teorema di Gauss-Markov, che essi sono lineari, non distorti e a varianza minima (BLUE: Best, Linear, Unbiased Estimators). 54 6.2.3 La bontà di adattamento lineare La bontà di adattamento lineare del modello ai dati si potrebbe valutare osservando il valore minimo (6.19), in quanto tanto minore sarà tale valore tanto migliore sarà l'adattamento della retta ai dati osservati. Invero, poiché tale minimo potrà variare da caso a caso, dipendendo dall'unità di misura del fenomeno, occorre denire una misura relativa o quanto meno normalizzata per consentire anche eventuali confronti tra diversi esempi di applicazione del modello ai dati. In eetti, si osserva che il minimo della funzione di ottimo è parte della seguente decomposizione della devianza totale di Y : (6.23) dove Dev(R) = i (ŷi − ȳ)2 è detta devianza di regressione, ossia la parte P di devianza totale spiegata dalla retta di regressione, mentre Dev(E) = i ei 2 è detta devianza dei residui. Infatti, dalla (6.13) aggiungendo e sottraendo la media ȳ, Dev(Y ) = Dev(R) + Dev(E) P (6.24) yi − ȳ = ŷi − ȳ + ei elevando ambo i membri al quadrato e sommando per gli n individui: X i (yi − ȳ)2 = X (ŷi − ȳ)2 + X i ei 2 + 2 i X (ŷi − ȳ)ei (6.25) i si perviene alla (6.23) in quanto, utilizzando le (6.15) e (6.16), si dimostra che il doppio prodotto si annulla. Si potrà denire l'indice di determinazione lineare per valutare la bontà di adattamento del modello lineare ai dati osservati considerando quanta parte della devianza totale è spiegata dalla retta di regressione: R2 = Dev(R) Dev(E) =1− Dev(Y ) Dev(Y ) (6.26) che per costruzione, quale rapporto di composizione, varierà da zero ad uno, esprimendo un buon grado di adattamento lineare qualora il suo valore è prossimo ad uno. 6.2.4 L'inferenza sui parametri A ni inferenziali, si assume che gli errori si distribuiscono normalmente: ui ∼ N (0, σ 2 ) 55 (6.27) Si dimostra che questa assunzione implica che gli stimatori β̂1 e β̂2 si distribuiscono normalmente: β̂1 ∼ N (β1 , var(β̂1 )) (6.28) β̂2 ∼ N (β2 , var(β̂2 )) (6.29) e pertanto si potrà far riferimento alla normale standardizzata per la costruzione degli intervalli di condenza e per la verica delle ipotesi. Si osservi che poiché la varianza degli stimatori (6.20) e (6.21) dipende dalla varianza degli errori (6.22), questa non è usualmente nota e occorre stimarla con la (6.22) pervenendo a stime corrette della varianza degli stimatori. In tal caso, si dimostra che le statistiche campionarie T1 = β̂1 − β1 σ̂β̂1 (6.30) T2 = β̂2 − β2 σ̂β̂2 (6.31) si distribuiscono come una t-Student con (n − 2) gradi di libertà. Inoltre, lo stimatore corretto della varianza dell'errore è legato alla distribuzione chi-quadrato con (n − 2) gradi di libertà: X 2 = (n − 2) σ̂ 2 ∼ χn−2 2 σ2 (6.32) che potrà essere impiegata per l'inferenza su σ2 . 6.2.5 La previsione Il problema che viene arontato in questo paragrafo è quello della previsione di Y dato un nuovo livello x0 della X . La previsione viene condotta considerando la retta stimata (6.12) e distinguendo il caso della previsione media, ossia stima del valore atteso data da ŷ0 , dal caso della previsione puntuale, stima del valore osservato y0 . In entrambi i casi, si utilizzerà quale stima BLUE l'espressione β̂1 + β̂2 x0 . Per avere un'idea dell'errore di previsione si dovrà considerare che la previsione si distribuirà normalmente con media β1 + β2 X e varianza, nel primo caso, pari a: var(ŷ0 ) = σ 2 [ 1 (x0 − x̄)2 + P 2 ] n i xi 56 (6.33) mentre, nel secondo caso, la varianza sarà maggiore essendo: var(y0 ) = σ 2 [1 + 1 (x0 − x̄)2 + P 2 ] n i xi (6.34) Se si sostituisce la stima corretta alla varianza dell'errore si utilizzerà la statistica t-Student con (n − 2) gradi di libertà per la costruzione degli intervalli di condenza della previsione. In generale, nel graco che illustra la retta di regressione stimata, si illustra l'errore di previsione attraverso le cosiddette bande di condenza della previsione media e della previsione puntuale per avere un'idea sull'accuratezza del modello: questa sarà tanto maggiore quanto più si è nei prossimi del punto medio di coordinate (x̄, ȳ), mentre le bande si ampliano quando ci si allonta da tale valore così che si incrementa l'errore di previsione. 6.2.6 La valutazione dei risultati dell'analisi di regressione L'analisi della regressione viene condotta distinguendo la variabile dipendente da quella esplicativa sulla base della teoria che si vuole vericare empiricamente. Successivamente, si stima la retta di regressione e occorrerà prestare particolare attenzione alla coerenza dei segni delle stime ottenute per l'intercetta e per il coeciente di regressione rispetto alla teoria e alle ipotesi formulate. Si procederà poi ad analizzare i risultati del test e degli intervalli di condenza delle stime per comprendere la signicatività delle stime ottenute rispetto alle ipotesi nulle che rispettivamente ciascun parametro sia pari a zero. Si potranno poi sottoporre a test altre ipotesi nulle se si ha suciente informazione per presumere altri valori di ciascuno dei parametri. Talvolta, infatti, è bene eettuare più test con dierenti ipotesi nulle in quanto nell'accettare un'ipotesi nulla bisogna essere consapevoli che un'altra ipotesi nulla può essere ugualmente compatibile con i dati. Per questo motivo, è preferibile dire che si può accettare l'ipotesi nulla piuttosto che dire che la si accetta. La bontà del modello lineare di addattarsi ai dati è valutata attraverso l'indice di determinazione lineare. Si vedrà nella regressione multipla che tale indice potrà incrementarsi se si aggiungono variabili esplicative nel modello e pertanto la rilevanza di un suo valore alto avrà fondamento solo se accompagnata a valori del test signicativi e soprattutto a bassi valori degli errori standard della stima. 57 6.3 Il modello classico di regressione lineare multipla 6.3.1 Il modello e l'interpretazione dei parametri Si consideri il problema di spiegare la variabile dipendente Y attraverso k −1 variabili esplicative mediante il modello di regressione lineare multipla: (6.35) Il parametro β1 è l'intercetta e rappresenta l'eetto medio di tutte le variabili escluse dal modello qualora fossero pari a zero tutti gli altri parametri. Il parametro βj è il coeciente di regressione parziale relativo alla variabile Xj , misurando il cambiamento in media di Y per una variazione unitaria di Xj mantenendo costanti i valori delle altre variabili. Al ne di comprendere il signicato dei coecienti di regressione parziale, si consideri il classico esempio di spiegare la produzione Y in funzione del lavoro X2 e del capitale X3 . Se si è interessati a valutare l'incremento della produzione dovuto all'incremento del lavoro si dovrà controllare l'eetto del capitale. Si procederà regredendo sia la Y che la X2 rispetto alla variabile X3 così da esprimere i valori osservati quali funzioni delle stime e dei residui come nella (6.13): yi = β1 + β2 x2i + · · · + βj xji + · · · + βk xki + ui yi = b1 + b13 x3i + e1i (6.36) (6.37) dove b1 è la stima dell'intercetta e b13 è la stima del coeciente di regressione nella prima regressione, e analogamente b2 e b23 nella seconda regressione. I residui possono essere espressi nel seguente modo: x2i = b2 + b23 x3i + e2i e1i = yi − b1 − b13 x3i (6.38) (6.39) indicando, per la i-esima osservazione, il valore di Y dopo aver rimosso l'eetto lineare di X3 ed il valore di X2 dopo aver rimosso l'eetto lineare di X3 rispettivamente. Se si regredisce ora il residuo della prima regressione rispetto al residuo della seconda regressione si determina l'equazione: e2i = x2i − b2 − b23 x3i e1i = c1 + c2 e2i + e3i 58 (6.40) dove in particolare c2 è la stima del coeciente di regressione e misura l'effetto netto di un cambiamento unitario di X2 su Y , ossia la produttività marginale del lavoro al netto dell'eetto capitale. In altre parole, c2 coinciderebbe con la stima del coeciente di regressione parziale relativo alla variabile lavoro nel modello di regressione lineare multipla. 6.3.2 Il modello in forma matriciale: le ipotesi e la stima Il modello di regressione lineare multipla in forma matriciale si denisce nel seguente modo: y = Xβ + u (6.41) dove y è un vettore colonna di n osservazioni della variabile Y , X è una matrice di n righe e k colonne, di cui la prima è formata da tutti uno, contenente le osservazioni delle k − 1 variabili esplicative sugli n individui, β è un vettore colonna di k parametri del modello, u è il vettore colonna di n errori. Le ipotesi del modello classico potranno essere così scritte: 1) E(u) = 0 ⇒ E(y) = Xβ ; 2) Σu = σ2I ⇒ Σy = σ2I, dove Σu e Σy sono le matrici di varianze e covarianze degli errori e della variabile dipendente rispettivamente; 3) X non è stocastica; 4) rango(X) = k < n, ossia la matrice X ha rango pieno, nel senso che non si può dedurre una variabile quale combinazione lineare delle altre variabili, altrimenti si dice che c'è multicollinearità; 5) il modello è correttamente specicato; 6) le varianze dei predittori non devono essere eccessivamente alte. Il modello di regressione lineare multipla si stimerà con il metodo dei minimi quadrati: Q(β) = (y − Xβ)0 (y − Xβ) (6.42) per cui derivando rispetto al vettore dei parametri si otterrà la seguente stima: 59 β̂ = (X0 X)−1 X0 y (6.43) che rappresenta una soluzione univocamente determinata se e solo se l'inversa di X0 X esiste, ossia le variabili sono indipendenti. Inoltre, si dimostra che la matrice di varianze e covarianze di β̂ è pari a Σβ = σ2 (X0 X)−1 . Si potrà denire il vettore dei residui come e = y − ŷ (6.44) dove ŷ = Xβ̂ . Il vettore dei residui risulta essere un trasformazione lineare del vettore y: e = y − X(X0 X)−1 X0 y = [I − H]y = My (6.45) dove H = X(X0 X)−1 X0 y e M = I − H, ed è inoltre trasformazione lineare anche del vettore u: e = My = MXβ + Mu = Mu (6.46) essendo MX = 0. Da un punto di vista geometrico, il vettore dei residui è ortogonale al piano generato dalle colonne di X poiché X0 e = 0, mentre la stima ŷ rappresenta la proiezione del vettore y su tale piano dove l'operatore di proiezione è H, ossia ŷ = Hy. I residui hanno media pari a zero E(e) = 0 e matrice di varianze e covarianze piena pari a Σe = σ2 M, ossia i residui possono essere autocorrelati. La stima corretta della varianza degli errori è nuovamente data da: σ̂ 2 = e0 e n−k (6.47) che sostituita nell'espressione della matrice di varianze e covarianze di β̂ determina la stima Sβ = σ̂2 (X0 X)−1 . Analogamente al caso semplice, si potrà denire l'indice di determinazione lineare per il modello multiplo come rapporto tra devianza di regressione e devianza totale, ossia, in forma matriciale, si ha: Dev(Y ) = y0 y − nȳ 2 (6.48) Dev(R) = ŷ0 ŷ − nȳ 2 = β̂ 0 X0 y − nȳ 2 (6.49) da cui si deriva l'indice R2 come: 60 R2 = β̂X0 y − nȳ 2 y0 y − nȳ 2 (6.50) che varierà tra zero ed uno. La radice quadrata dell'indice di determinazione lineare è noto come coeciente di correlazione multipla ed è equivalente al coeciente di correlazione lineare tra i valori osservati yi ed i valori stimati ŷi per i = 1, . . . , n. 6.3.3 L'indice corretto di determinazione lineare Quando si considera un modello multiplo, l'indice di determinazione lineare (6.26) aumenta (o quanto meno non diminuisce) al crescere del numero di variabili esplicative incluse nel modello. Infatti, il valore minimo (6.19) della funzione da ottimizzare in una regressione con k predittori sarà dato dalla seguente espressione: Q(β̂1 , β̂2 )k = X 2 (yi − β̂1 − β̂2 x2i − · · · − β̂k xki ) (6.51) i mentre lo stesso valore minimo in una regressione con (k + 1) predittori sarà dato da Q(β̂1 , β̂2 )(k+1) = X 2 (yi − β̂1 − β̂2 x2i − · · · − β̂k xki − β̂(k+1) x(k+1)i ) i (6.52) Si osserva che Q(β̂1 , β̂2 )k ≤ Q(β̂1 , β̂2 )(k+1) potendo raggiungere lo stesso minimo se β̂(k+1) = 0. In altre parole, la devianza dei residui diminuisce al crescere del numero delle variabili e pertanto l'indice di determinazione lineare (6.50) aumenta. In denitiva, un alto valore dell'indice R2 non è indicatore di buon adattamento in quanto esso dipende anche dal numero di predittori inclusi nel modello. Anché si possano confrontare due regressioni con la stessa variabile dipendente ma con un diverso numero di predittori si dovrà considerare il seguente indice corretto: R̄2 = 1 − Dev(E)/(n − k) Dev(Y )/(n − 1) (6.53) che, in luogo delle devianze, propone le stime corrette delle varianze con gradi di libertà dati rispettivamente da (n − k) e (n − 1). In tal modo, è pur vero che la devianza dei residui diminuisce con l'aggiunta di un predittore, 61 ma diminuiranno anche i corrispondenti gradi di libertà. Invero, l'indice corretto non sarà necessariamente compreso tra zero ed uno, ma esso opera una correzione signicativa all'indice R2 qualora il numero di variabili esplicative è elevato in rapporto al numero di individui osservati. Inne, si dimostra che vale la seguente relazione: R̄2 = 1 − (1 − R2 ) n−1 n−k (6.54) che lega l'indice non corretto all'indice corretto. 6.3.4 Le correlazioni semplici e parziali Quando si considera un modello di regressione multipla è interessante analizzare la matrice delle correlazioni semplici tra le variabili indicata con R di termine generico rlj , tale che rlj = 1 se l = j mentre r1j esprime la correlazione semplice tra la variabile dipendente Y e ciascun predittore Xj per j = 2, . . . , k . Si dimostra che β̂j = − s1 <1j sj <11 (6.55) dove s1 e sj sono le deviazioni standard della Y e della Xj rispettivamente, mentre <1j e <11 sono i cofattori di r1j e r11 rispettivamente. Il coeciente di correlazione multipla è denito nel seguente modo: 2 R1.23...k =1− R <11 (6.56) dove R = det(R) è il determinante della matrice delle correlazioni. Si consideri l'esempio in cui si hanno due predittori ed una variabile dipendente. Il coeciente di correlazione parziale tra la variabile dipendente Y ed il predittore X2 , ponendo costante il livello del predittore X3 , è denito nel modo seguente: r12 − r13 r23 r12.3 = p 2 )(1 − r 2 ) (1 − r13 23 (6.57) ed in maniera analoga si potrà esprimere la correlazione parziale tra Y e data la X2 . La correlazione parziale esprime una relazione diversa da quella espressa dalla correlazione semplice. Infatti, pur in presenza di una correlazione semplice tra Y e X2 pari a zero, ossia r12 = 0, le due stesse variabili potrebbero risultare positivamente correlate parzialmente rispetto ad una terza variabile X3 , ossia r12.3 > 0, qualora si avesse r13 > 0 e r23 < 0. X3 62 Si dimostrano le seguenti relazioni tra l'indice di determinazione lineare (ossia il quadrato del coeciente di correlazione multipla), i coecienti di correlazione semplice e parziale: 2 R1.23 = 2 + r 2 − 2r r r r12 12 13 23 13 2 1 − r23 (6.58) 2 2 2 2 R1.23 = r12 + (1 − r12 )r13.2 (6.59) 2 2 2 2 R1.23 = r13 + (1 − r13 )r12.3 (6.60) Si evince in tal modo che l'indice di determinazione lineare può solo aumentare (e non diminuire) con l'ingresso di un predittore nel modello. Infatti, l'indice (6.59) è costituito dalla somma di due parti: quella attribuita 2 )) moltialla sola X2 (ossia r12 ) e quella non spiegata dalla X2 (ossia (1 − r12 plicata per la proporzione spiegata dalla X3 dopo aver rimosso l'eetto di X2 (ossia r13.2 2 ). Pertanto, si avrà R2 > r12 2 ntanto r13.2 2 > 0, ovvero R2 = r12 2 se e solo se r13.2 2 = 0. 6.3.5 L'inferenza sui coecienti di regressione Per l'inferenza sui parametri si assume che il vettore degli errori segua una multinormale: (6.61) u ∼ N (0, σ 2 I) e di conseguenza anche il vettore degli stimatori dei coecienti di regressione seguirà una multinormale: −1 β̂ ∼ N (β, σ 2 (X0 X) ) (6.62) Nel seguito si propone la procedura inferenziale per la seguente funzione parametrica: θ = c0 β̂ (6.63) dove c è un vettore colonna contenente k costanti note. Ad esempio, se si denisce un vettore formato da k − 1 zero ed un solo valore pari ad uno in corrispondenza del j -esimo elemento, allora la funzione parametrica (6.63) corrisponderà al coeciente di regressione βj . Si potrà inoltre denire un test per la dierenza tra due coecienti di regressione ssando nel vettore c una costante pari ad uno ed un'altra pari a meno uno mentre gli altri 63 valori risultano pari a zero. Naturalmente, scegliendo opportune costanti per il vettore c la procedura inferenziale potrà tener conto di diverse ipotesi teoriche relative ad opportune combinazioni dei coecienti di regressione. Lo stimatore BLUE di θ è dato dalla combinazione lineare degli stimatori BLUE dei coecienti di regressione: −1 θ̂ ∼ N (θ, σ 2 c0 (X0 X) c) (6.64) Nell'ipotesi di non conoscere la varianza dell'errore e di stimarla con la stima corretta σ̂2 = e0 e/(n − k), si potrà denire la statistica test T = θ̂ − θ σ̂θ̂ (6.65) che si distribuisce come una t-Student con (n − k) gradi di libertà. 6.3.6 L'analisi della varianza: il test totale ed il test parziale Nella regressione multipla si è interessati dapprima a vericare l'ipotesi nulla che tutti i coecienti di regressione siano simultaneamente nulli. Il test sull'intera regressione si costruisce a partire dalla decomposizione della devianza totale in devianza di regressione e devianza dei residui. Si dimostra che considerando l'ipotesi di normalità degli errori la statistica test, nell'ipotesi nulla F = SSR/(k − 1) M SR R2 /(k − 1) = = SSE/(n − k) M SE (1 − R2 )/(n − k) (6.66) si distribuisce come una F di Snedecor-Fisher con k−1 e n−k gradi di libertà, ossia il rapporto tra due variabili casuali indipendenti e distribuite come χ2 rapportate ai rispettivi gradi di libertà. Pertanto, si potrà considerare il valore di signicatività associato al valore empirico derivante dal rapporto (6.66). Sulla base dell'analisi della varianza si potrà considerare una decomposizione alternativa che tenga conto di una suddivisione dei predittori in due gruppi formati rispettivamente dai primi q − 1 predittori e dai rimanenti k − q predittori. In questo caso, si è interessati a vericare l'ipotesi nulla che i coecienti di regressione del secondo gruppo di predittori siano uguali a zero. Secondo questa ipotesi, la variabile denita come F = SSRk−q /(k − q) (Rk 2 − Rq 2 )/(k − q) = SSE/(n − k) (1 − Rk 2 )/(n − k) 64 (6.67) Causa di Somma dei Gradi di Media dei statistica F sign. variazione quadrati libertà quadrati X 2 , . . . Xk SSR k−1 M SR M SR/M SE p Residuo SSE n−k Totale SST n−1 M SE Tabella 6.1: Analisi della varianza nella regressione: il test totale si distribuisce come una F di Snedecor Fisher con (k − q) e (q − 1) gradi di libertà, vericando il contributo del gruppo addizionale di variabili nel modello utile per la spiegazione del fenomeno. Causa di variazione Somma dei Gradi di Media dei quadrati libertà quadrati statistica F X 2 , . . . Xq SSRq q−1 M SRq Xq+1 , . . . Xk SSR(k−q) k−q M SR(k−q) M SR(k−q) /M SE X 2 , . . . Xk SSR k−1 M SR M SR/M SE Residuo SSE n−k M SE Totale SST n−1 Tabella 6.2: Analisi della varianza nella regressione: il test parziale Nel caso particolare di q = k − 1 si considera l'eetto addizionale di una sola variabile al modello, così da valutare la signicatività del relativo coeciente di regressione. 6.3.7 Il Chow test sulla stabilità Nel seguito si proporrà un test per vericare l'ipotesi di uguaglianza dei parametri in due regressioni indipendenti. In particolare, si considerano due campioni indipendenti di numerosità n1 e n2 rispettivamente estratti da popolazioni per le quali si ipotizzano due modelli classici di regressione lineare. Si vuole vericare l'ipotesi nulla che i parametri del primo 65 modello adattato al primo campione sono uguali ai parametri del secondo modello adattato al secondo campione. Se tale ipotesi fosse rispettata, si potrebbe stimare un'unica equazione per l'insieme formato dai dati raggruppati ottenendo la somma dei quadrati SSR spiegata dalla regressione; questa non dovrebbe discostarsi troppo dalla somma delle due somme dei quadrati derivanti dalle regressioni sui due campioni indipendenti indicate con SSR1 e SSR2 . La variabile test è denita nel seguente modo: F = [SSR − (SSR1 + SSR2 )]/k [SSR1 + SSR2 ]/[n1 + n2 − 2k] (6.68) e si distribuisce come una F con k e [n1 + n2 − 2k] gradi di libertà; se il valore empirico eccede in maniera signicatica il valore critico allora non si può sostenere che le due regressioni sono uguali. 6.3.8 Le procedure di selezione delle variabili Uno dei problemi più importanti da risolvere nella regressione multipla è la scelta di quante e quali variabili inserire nel modello. Ciò perchè occorre sempre giungere ad un compromesso tra il vantaggio di inserire quante più variabili esplicative possibili in modo da ridurre la componente erratica e lo svantaggio dovuto all'aumento dei costi e delle varianze delle stime. Ci sono varie procedure che permettono la risoluzione di questo problema: a) la scelta a-priori delle variabili eettuata dall'analista economico azien- dale in base ad assunzioni e modelli teorici (funzione di domanda o di oerta, funzione di produzione, etc.); b) la generazione di tutte le regressioni possibili (o di un sottoinsieme ot- timale) confrontate sulla base di un indice statistico (l'indice corretto di determinazione lineare R̄2 , l'errore quandratico medio della stima, il Cp di Mallows); c) l'applicazione di un algoritmo selettivo che iterativamente introduce variabili (regressione forward) o elimina variabili (regressione backward), ovvero introduce ed elimina variabili (regressione stepwise); L'algoritmo (backward) consta di tre stadi: 1) regressione completa con k predittori; 2) test F parziale per valutare la signicatività di ciascun predittore; 66 3) il predittore per il quale si ha il valore più basso del test F parziale e tale valore non è signicativo viene rimosso; si ricalcola la regressione omettendo tale predittore e si ritorna al passo due. L'algoritmo si arresta se il valore più basso del test F parziale risulta comunque signicativo e pertanto non potranno essere eliminati ulteriori predittori. L'algoritmo (forward) consta di quattro stadi: 1) si considera il modello senza predittori stimando solo l'intercetta; 2) si calcolano i coecienti di correlazione semplici tra la variabile dipendente e ciascun predittore, selezionando il predittore più correlato; 3) il predittore selezionato entra nel modello se il valore empirico del test F parziale risulta signicativo passando poi allo stadio quattro; altrimenti la procedura si arresta adottando il modello in corso; 4) si calcolano i coecienti di correlazione parziale tra la variabile dipendente e ciascun predittore non ancora inserito nel modello al netto dell'eetto dei predittori già entrati nel modello, selezionando il predittore più correlato e ritornando allo stadio tre. La regressione stepwise adotta un algoritmo analogo al forward ma rimette in discussione i predittori già inseriti in precedenza vericando la loro signicatività in ogni iterazione attraverso il test F parziale. La procedura si arresta se sia il test di ingresso che il test di rimozione risultano non signicativi. 6.3.9 Gli intervalli di previsione La previsione consiste nel determinare il valore della variabile di risposta per una nuova unità sulla base delle misurazioni dei k predittori, ossia x0∗ = [1, x2∗ , . . . , xk∗ ] dove con ∗ indichiamo l'(n + 1)-esima unità. La previsione è basata sulla stima dei parametri ottenuta considerando n unità statistiche: ŷ∗ = x0∗ β . L'errore di previsione sarà denito come ep = y∗ − ŷ∗ . Questo sarà uno stimatore, distribuito normalmente, non distorto (con media pari a zero) e varianza data dalla seguente espressione: var(ep ) = E[ŷ∗ − y∗ ]2 = var(ŷ∗ ) + var(y∗ ) = var(x0∗ β) + σ 2 67 (6.69) in quanto la covarianza tra y∗ (che dipende dall'errore u) e ŷ∗ (che dipende dallo stimatore β̂ ) è nulla. Considerando la varianza dello stimatore del vettore dei coecienti di regressione si ottiene: var(ep ) = σ 2 [x∗ 0 (X0 X)−1x∗ + 1] (6.70) sulla base della quale sarà possibile costruire la banda di condenza della previsione per y∗ . 6.4 Le forme funzionali del modello 6.4.1 Il modello centrato Si ottiene il modello centrato quando le variabili sono trasformate considerando lo scarto tra valore assunto dalla variabile e valore medio della stessa. Procedendo in tal modo si ipotizza un modello di regressione con intercetta nulla in quanto questa esprime proprio la media della variabile dipendente (regressione attraverso l'origine). La stima ottenuta con il metodo dei minimi quadrati gode comunque di proprietà ottimali. Alcuni esempi di applicazione sono rappresentati dalla teoria del portafoglio monetario (Capital Asset Pricing Model) che esprime il premio del titolo in proporzione alla sua volatilità, dalla teoria del reddito permanente di Friedman che esprime il consumo quale proporzione del reddito permanente, dalla teoria dei costi variabili di produzione che postula la proporzionalità del costo variabile rispetto all'output prodotto, dalla teoria monetarista per la quale il tasso di inazione è direttamente proporzionale all'oerta di moneta. 6.4.2 Il modello con le variabili standardizzate Il modello di regressione denito per le variabili standardizzate presenta i coecienti di regressione deniti nel seguente modo: BET Aj = βj sj sy (6.71) per j = 1, . . . , k, dove βj indica il corrispondente parametro del modello con variabili non standardizzate, mentre sj e sy sono le deviazioni standard del j -esimo predittore e della variabile dipendente rispettivamente. Tale modello consente di confrontare i valori numerici delle stime dei coecienti di regressione in quanto essi sono espressi in unità standard, individuando in tal modo quale dei predittori ha una maggiore incidenza sulla variazione del 68 valore atteso della variabile dipendente. Nelle applicazioni, si eettuano entrambe le regressioni con e senza la standardizzazione, in modo da arricchire l'interpretazione dei risultati. 6.4.3 Il modello log-log L'ipotesi di linearità del modello potrebbe essere riferita sia alle variabili che ai parametri; in generale, si fa riferimento ai parametri in quanto spesso è possibile operare delle trasformazioni delle variabili per ricondurci ad un modello lineare. Un esempio è rappresentato da una funzione: wi = αzi γ (6.72) per la quale operando la trasformazione logaritmica delle variabili diviene lineare. 6.4.4 Il modello semilog: log-lin e lin-log I modelli semilog sono modelli di regressione lineare dove la variabile dipendente Y (modello Log - Lin) o la la variabile esplicativa X (modello Lin Log) si presentano in forma logaritmica ed i parametri β1 e β2 sono lineari. Il modello Log - Lin può essere così formalizzato: ln Y = β1 + β2 X + u (6.73) dove il coeciente angolare β2 misura la variazione relativa di Y per una variazione assoluta di X . Questi modelli sono generalmente utilizzati nei casi in cui la variabile dipendente X è il tempo. Ad esempio, supponiamo che Yt = PIL ed X è la variabile tempo, β2 rappresenta il tasso di incremento o decremento della variabile Y rispetto al tempo. Il modello Lin - Log è così formalizzato: Y = β1 + β2 ln X + u (6.74) Ad esempio, supponiamo che Yi è il PNL e la X la domanda di moneta, il modello così formalizzato permette di determinare di quanto il prodotto nazionale lordo varia al crescere di una variazione percentuale di X . 69 6.4.5 Il modello a trasformazione reciproca Il modello a trasformazione reciproca è un modello di regressione lineare dove i parametri β1 e β2 sono lineari e la variabile esplicativa è rappresentata dal suo reciproco. 1 Y = β1 + β2 +u (6.75) Xi Questi modelli permettono di rappresentare le relazioni non lineari esistenti tra variabili di tipo economico come ad esempio la relazione esistente tra il tasso di disoccupazione e il tasso di variazione annua dei salari monetari rappresentata dalla curva di Phillips. 6.4.6 La regressione polinomiale Il modello di regressione polinomiale ha avuto un notevole impiego nella ricerca econometrica per lo studio delle funzioni di produzione e di costo. Un esempio renderà più semplice la formalizzazione del modello. Consideriamo la curva del costo marginale. Essa misura la variazione dei costi corrispondente alla variazione dell'output. Naturalmente, questa curva mostra una relazione di tipo non lineare esistente tra l'output (X ) e il costo marginale (Y ). Geometricamente, la curva è una parabola che può essere così denita: Yi = β0 + β1 X + β2 X 2 (6.76) questa funzione rappresenta un polinomio di secondo grado. La versione stocastica della funzione (1) è: Yi = β0 + β1 X + β2 X 2 + ui (6.77) Il modello così denito è chiamato modello di regressione polinomiale di secondo grado. Se, volessimo generalizzare il modello a n gradi, otterremo un modello di regressione polinomiale di n-esimo grado così denito: (6.78) Nel modello di regressione polinomiale la variabile esplicativa X è unica e si presenta con diversa potenza assumendo la forma di un modello di regressione lineare multipla. Ricordiamo che, i parametri β sono lineari e quindi possono essere stimati con il metodo OLS o con quello di Massima Verosimiglianza. Un ultima precisazione deve essere fatta sulle variabili esplicative X in quanto, esse sono fortemente correlate tra loro, ma non incorrono nel problema della multicollinarità perchè esprimono relazioni non lineari di X . Yi = β0 + β1 X + β2 X 2 + ...... + βn Xin + ui 70 6.5 L'uso delle variabili dummy nella regressione 6.5.1 Il modello con un predittore dicotomico Nel modello di regressione la variabile dipendente Y può essere inuenzata non solo da variabili di natura quantitativa ma anche da variabili di natura qualitativa. Poichè, le variabili qualitative generalmente, indicano la presenza o l'assenza di un attributo o di una qualità, (maschio o femmina, bianco o nero, ecc.) un metodo per quanticare gli attributi della variabile esplicativa è ottenuto attraverso la creazione di variabili dummy. Queste variabili, chiamate variabili dummy, assumono un valore pari ad uno se l'attributo è presente oppure un valore pari a zero in caso di assenza dello stesso. Ad esempio, si supponga che la variabile qualitativa sesso sia rappresentata da una variabile dummy che assume un valore pari a zero se la persona è di sesso maschile e un valore pari ad uno se la persona è di sesso femminile. In generale, sia E un evento o una circostanza che si suppone abbia un effetto nel modicare una variabile casuale Yi . Indichiamo con Di la variabile dummy così denita: • Di = 1 se per l'unità i-esima l'evento E è presente; • Di = 0 se per l'unità i-esima l'evento E è assente; Allora il modello di regressione semplice sarà così formalizzato: Yi = α + βDi + ui (6.79) dove l'eetto della variabile dummy è quello di modicare il valore medio della risposta Yi che passa da α (se l'evento E è assente) a β (se l'evento E è presente). Ad esempio, supponiamo di avere il seguente modello: Yi = α1 + α2 Di + ui (6.80) dove: • Yi = stipendio annuo di un insegnante; • Di = 1 se l'insegnante è in possesso di una specializzazione post-laurea; 71 • Di = 0 laurea. se l'insegnante non è in possesso di una specializzazione post- L'obiettivo è identicare attraverso il modello di regressione se la presenza o l'assenza di una specializzazione post-laurea inuenza lo stipendio di un insegnante (assumendo che tutte le altre variabili come: anni di esperienza, età, ecc. sono costanti). Poichè: (6.81) E(Y |Di = 1) = α1 + α2 (6.82) L'interpetrazione del modello è la seguente: il termine α1 rappresenta lo stipendio medio di un insegnante laureato, mentre il coeciente angolare α2 indica di quanto lo stipendio medio di un insegnante in possesso di specializzazione dierisce da quello medio di un insegnante senza specializzazione. Un test statistico con un ipotesi nulla H0 : α2 = 0 permette di stimare sulla base di un test t, se la stima di α2 è statisticamente signicativa. E(Y |Di = 0) = α1 6.5.2 L'introduzione di un predittore quantitativo nel modello con predittori qualitativi Il precedente modello può essere generalizzato inserendo una variabile esplicativa X per vericare l'esistenza di situazioni dierenziate nella relazione lineare tra X e Y , caratterizzate dalla presenza o dalla assenza di un certo evento E . Inserendo nel modello precedente (2) una variabile esplicativa X di natura quantitativa otteniamo: Yi = α1 + α2 Di + βXi + ui (6.83) dove: • Yi = lo stipendio annuo di un insegnante; • Xi = anni di insegnamento; • Di = 1 presenza di una specializzazione post-laurea; • Di = 0 assenza di una specializzazione post-laurea. Assumendo che il E(ui ) = 0 si evincere che: lo stipendio medio di un insegnante senza specializzazione post-laurea è: E(Yi |Xi , Di = 0) = αi + βXi 72 (6.84) lo stipendio medio di un insegnante con specializzazione post-laurea è: (6.85) Il modello indica che, lo stipendio di un insegnante con o senza specializzazione ha uguale coeciente angolare β ma diversa intercetta. Da ciò si deduce che la presenza o l'assenza di una specializzazione post-laurea inuenza la variabile di risposta Yi mentre, la variazione dello stipendio legata agli anni di esperienza è di uguale ammontare sia in caso di presenza di specializzazione che di assenza della stessa. Se, l'assunzione fatta in precedenza sul coeciente β è valida, si procede alla formalizzazione di un test sul coeciente α2 . Imponiamo, come ipotesi nulla H0 : α2 = 0 per vericare se il coeciente α2 è statisticamente signicativo e quindi le due regressioni hanno la stessa intercetta. L'ipotesi nulla è accettata se il test t condotto sul coeciente α2 permette di stabilire che la stima del coeciente non è statisticamente signicativa. Questo indica che il livello di reddito medio annuo di un insegnante risulta non essere inuenzato dalla presenza o dall'assenza di una specializzazione post-laurea. Alcune precisazioni devono essere fatte prima di procedere ulteriormente sull'argomento: E(Yi |Xi , Di = 1) = αi + α2 + βXi . Se la variabile qualitativa ha m categorie o attributi devono essere introdotte m-1 variabili dummy altrimenti, possiamo incorrere in un problema di perfetta multicolinearità. . L'assegnazione dei valori zero ed uno alle due categorie è arbitraria. Generalmente, il valore zero è assegnato a quella categoria considerata come base. Nel nostro esempio, il valore zero è stato assegnato alla categoria dei soli laureati. . Inne, il coeciente della variabile dummy indica di quanto il valore dell'intercetta della categoria che assume il valore uno dierisce dalla categoria di base. 6.5.3 Il modello di regressione con predittore qualitativo con più di due classi Supponiamo di voler studiare la spesa in viaggi annua di un individuo sulla base del reddito annuo e del tipo di scolarizzazione che l'individuo ha rice73 vuto. Poichè, la variabile titolo di studio è una variabile di natura qualitativa supponiamo che le modalità della variabile siano: assenza di diploma, diploma, laurea. Ricordando che: il numero delle variabili dummy deve essere uno in meno rispetto alle categorie che la variabile qualitativa può assumere, verranno introdotte per l'analisi di questo modello due variabili dummy. Assumendo che i tre gruppi hanno lo stesso coecente angolare β ma diverse intercette otteniamo il seguente modello: Yi = αi + α2 D2i + α3 D3i + βXi + ui (6.86) dove: • Yi = spesa annua in viaggi; • Xi = reddito annuo; • D3 = 1 se in possesso di laurea; • D3 = 0 non in possesso di laurea; • D2 = 1 diplomato; • D2 = 0 non diplomato. Nel modello è stata considerata come categoria di base la modalità non diplomato. Assumendo che E(ui ) = 0 otteniamo: E(Yi |D2 = 0, D3 = 0, Xi ) = α1 + βXi (6.87) E(Yi |D2 = 1, D3 = 0, Xi ) = (α1 + α2 ) + βXi (6.88) E(Yi |D2 = 0, D3 = 1, Xi ) = (α1 + α3 ) + βXi (6.89) Dall'interpretazione del modello si deduce che: i tre valori attesi rappresentano rispettivamente la spesa media annua in viaggi in funzione dei tre livelli di istruzione. Si può, inne, eettuare un test per vericare se la dierenza tra i coecienti α2 e α3 è statisticamente signicativa e quindi la spesa media annua in viaggi di un individuo è inuenzata dal tipo di istruzione che l'individuo ha ricevuto. Si darà luogo ad un test statistico con ipotesi nulla H0 : α2 = α3 = 0 condotto attraverso la tecnica ANOVA e con un test F. 74 6.5.4 Il modello di regressione con un predittore quantitativo e due qualitativi Introduciamo nel modello trattato in precedenza (2) la variabile qualitativa professionalità. Supponiamo per semplicità che la variabile assume due diverse modalità: professionale e non professionale. Il modello sarà così formalizzato: Yi = αi + α2 D2i + α3 D3i + βXi + ui (6.90) dove: • Yi = lo stipendio annuo di un insegnante; • Xi = anni di insegnamento; • D2i = 1 presenza di una specializzazione post-laurea; • D2i = 0 assenza di una specializzazione post-laurea; • D3i = 1 insegnante professionale; • D3i = 0 insegnante non professionale. Dato che il E(ui ) = 0 otteniamo che: lo stipendio medio di un insegnante non professionale e senza specializzazione post-laurea: E(Yi |Xi , D2 = 0, D3 = 0) = α1 + βXi (6.91) lo stipendio medio di un insegnante non professionale e con specializzazione post-laurea: E(Yi |Xi , D2 = 1, D3 = 0) = (α1 + α2 ) + βXi (6.92) lo stipendio medio di un insegnante professionale e senza specializzazione post-laurea: E(Yi |Xi , D2 = 0, D3 = 1) = (α1 + α3 ) + βXi (6.93) lo stipendio medio di un insegnante professionale e con specializzazione postlaurea: E(Yi |Xi , D1 = 1, D3 = 1) = (α1 + α2 + α3 ) + βXi 75 (6.94) Una stima OLS del modello (12) permette di testare una varietà di ipotesi come, ad esempio, se i coecienti α3 o α2 sono statisticamente signicativi. Se i coecienti risultano statisticamente signicativi questo indica che, la professionalità e la specializzazione post-laurea di un insegnante inuenzano il reddito dello stesso. 76 Capitolo 7 La regressione logistica 7.1 Premessa L'analisi di regressione logistica è una metodologia impiegata per prevedere il possesso di un attributo di una variabile dipendente dicotomica sulla base di un insieme di variabili esplicative, sia esse di tipo qualitativo che quantitativo. Per darne un esempio, si supponga che la qualità di un certo bene A sia un attributo dicotomico che può assumere le seguenti modalità: livello di qualità standard (Y = 0); livello di qualità non standard (Y = 1). Obiettivo dell'analisi di regressione logistica è quello di individuare i fattori determinanti la probabilità che il bene prodotto abbia un livello di qualità non standard. Più in generale, i contesti applicativi nei quali risulta utile l'analisi di regressione logistica sono molteplici e di seguito se ne riportano alcuni esempi tipici: ◦ Economia: per analizzare gli eetti degli interventi economici sugli ◦ Marketing: per evidenziare l'incisività delle campagne pubblicitarie ◦ Medicina: per studiare l'eetto di una cura sullo stato di salute del operatori di mercato {l'azienda fallisce (Y = 1) o meno (Y = 0) dopo aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y = 1) o no (Y = 0) dopo aver seguito un corso di formazione}; sulla propensione all'acquisto del consumatore {il cliente acquista (Y = 1) o non acquista (Y = 0) un dato prodotto di seguito ad una campagna promozionale}; paziente {il paziente sottoposto ad una particolare cura farmacologica reagisce positivamente (Y = 1) o meno (Y = 0)}; 77 ◦ Botanica: per studiare l'eetto fertilizzante delle sostanze utilizzate sui ◦ Biologia: per evidenziare le determinanti delle reazioni delle cellule semi oggetto di studio {una pianta resiste alle gelate (Y = 1) oppure no (Y = 0) di seguito ad un intervento di modicazione genetica}; sottoposte a trattamento {le cellule malate si rigenerano (Y = 1) oppure no (Y = 0) dopo essere state sottoposte ad un particolare trattamento}; Il modello di regressione logistica può essere, quindi, considerato come un caso speciale del modello di regressione multipla, che trova applicazione quando la variabile di risposta è per sua natura dicotomica, o dicotomizzata ai ni della analisi (ad esempio una misura della qualità, come la durata utile di un prodotto, può essere dicotomizzata al di sotto e al di sopra di una certa soglia). Oltre che per il tipo di variabile di risposta impiegata, l'analisi di regressione logistica si discosta da quella lineare anche per altri fattori: • la distribuzione della variabile di risposta Y . Mentre nell'analisi lin- • l'intervallo di variazione della stima. La stima ottenuta nella regres- • l'interpretazione della stima di Y . Nella regressione lineare la stima eare si ipotizza una distribuzione normale, nella regressione logistica, essendo la Y dicotomica, la sua distribuzione è necessariamente binomiale; sione lineare varia tra −∞ e +∞, mentre nella regressione logistica assume valori compresi tra 0 e 1; di Y può essere intesa come la stima del valore atteso della Y dato l'insieme di variabili esplicative (o predittori) x. Per contro, nell'analisi di regressione logistica, la stima di Y esprime la probabilità che la variabile di risposta sia pari a 1 dato l'insieme di predittori x. 7.2 Il modello di regressione logistica La funzione di regressione logistica può essere formalizzata come segue: logit(π(x)) = β0 + p X βj xj = Xβ (7.1) j=1 dove π(x) = P (Y = 1|x) è la probabilità di Y = 1 dato il vettore x dei p predittori mentre logit(π(x)) denota il logaritmo naturale del rapporto fra 78 la probabilità di "successo" (nel precedente esempio, la probabilità che il prodotto abbia una qualità non standard) e probabilità di "insucesso": logit(π(x)) = log π(x) 1 − π(x) (7.2) dato il vettore x dei p predittori. Il logit è una funzione legame P che lega la variabile di risposta alla combinazione lineare di predittori pj=1 βj xij per i = 1, 2, ..., n in maniera tale da assicurare che, per ogni valore assunto dalle variabili esplicative, la risposta Y sia sempre compresa nell'intervallo [0, 1]. In questo senso la funzione legame trasforma l'intervallo [0, 1] nella retta reale (−∞, +∞). La scelta della funzione logit per descrivere la relazione tra la variabile dipendente e l'insieme di variabili esplicative, trova ragione nella forma assunta dalla probabilità di Y , che assomiglia ad una S allungata con limiti a zero e uno. Questa particolare forma funzionale è simile alla funzione cumulata della distribuzione casuale degli errori detta "funzione logistica". Ne deriva che la probabilità π(x) può essere scritta come una funzione logistica (o curva logistica): π(x) = 1 exβ = xβ 1+e 1 + e−Xβ (7.3) Tale funzione è ampiamente utilizzata nelle applicazioni aziendali per modellare fenomeni di diusione, quali la vendita di un nuovo prodotto, lo sviluppo di un'innovazione tecnologica o il diondersi di una notizia riservata. E' importante osservare come il logit non sia l'unica funzione che consente di esprimere la probabilità di un fenomeno, ma la sua scelta è privilegiata dal fatto che, essendo pari al logaritmo del rapporto tra due probabilità comπ plementari (il numero di successi per ogni insuccesso 1−π , in inglese odds), consente una semplice interpretazione dei parametri del modello. 7.3 La stima dei parametri La stima dei parametri del modello si ottiene attraverso l'impiego del metodo di massima verosimiglianza. La funzione della verosomiglianza esprime la probabilità che l'insieme dei dati [yi , xi ]ni=1 sia osservato in funzione del vettore dei parametri β . Ne consegue che secondo il metodo della massima verosimiglianza, la "migliore" stima dei parametri β sarà pari al vettore β̂ che massimizza la funzione di verosimiglianza. Sia (y1 x1 , y2 x2 , ...., yi xi , ...., yn xn ) l'insieme delle n osservazioni indipendenti osservate dalla popolazione di riferimento, allora la generica unità i può essere espressa nel seguente modo: 79 yi = E(Yi |xi )+i = exp(β0 + β1 xi1 + ... + βq xiq ) +i = π(xi )+i 1 + exp(β0 + β1 xi1 + ... + βq xiq ) (7.4) Dato che Y segue una distribuzione binomiale, con media pari a E(Yi |xi ), la sua funzione di probabilità sarà pari a: f (yi |xi ; β) = π(xi )yi [1 − π(xi )](1−yi ) (7.5) mentre la verosimiglianza del campione delle n unità sarà pari al prodotto delle singole verosimiglianze delle unità che lo compongono (essendo le n osservazioni indipendenti): L(β) = n Y f (yi |xi ) (7.6) i=1 la stima di massima verosimiglianza si deriva attraverso l'identicazione del vettore β̂ che massimizza il logaritmo di L(β): β̂ = argmaxβ {l(β)} = argmaxβ {log[L(β)]} (7.7) La soluzione del sistema di equazioni che deriva da tale funzione è ottenuta attraverso l'impiego di metodi iterativi implementati nei pacchetti statistici più diusi quali SPSS-PS e SAS. 7.4 Interpretazione dei parametri Sebbene il modello di regressione logistica possa avere diverse variabili esplicative, al ne di introdurre i concetti utili all'interpretazione dei parametri β , consideriamo, per il momento, il caso più semplice in cui vi sia un solo predittore x. In questo caso π(x) varia al variare dell'unica variabile esplicativa presente. Inoltre faremo riferimento ad un predittore x quantitativo, ma come vedremo, i concetti potranno essere estesi facilemnte anche al caso di variabili qualitative. Sia π1 la probabilità di un evento E1 (tornando al nostro esempio, la probabilità che il prodotto A abbia una qualità non standard), allora si denisce odds dell'evento E1 il rapporto: π1 1 − π1 80 (7.8) mentre, il logaritmo degli odds è detto invece logit: logit(π1 ) = log π1 1 − π1 (7.9) Se π2 è la probabilità di un altro evento E2 (continuando l'esempio, che un prodotto B abbia una qualità non standard), allora si denisce odds ratio (OR): π1 \ (1 − π1 ) (7.10) e il log-odds ratio: log π2 \ (1 − π2 ) π2 \ (1 − π2 ) π1 \ (1 − π1 ) = logit(π2 ) − logit(π1 ) (7.11) Se l'odds ratio è pari ad 1, ciò implica che gli odds dei due eventi E1 e E2 sono uguali e cioè, nel nostro esempio, che il numero di prodotti con qualità non standard, per ogni prodotto con qualità standard, è lo stesso sia per il bene A che per il B. Ne deriva che il livello di qualità dei beni non dipende dalla tipologia del prodotto stesso (A o B). Il log-odds ratio può quindi essere intesa come una misura di dierenza tra gli odds, e quindi come un termine di confronto tra le probabilità π1 e π2 . Estendendo questo discorso al modello di regressione logistica, i coecienti possono essere interpretati come log-odds ratio. Sia il seguente, un modello logit con un unico predittore: logit(π(x)) = β0 + β1 X (7.12) e si considerino i due eventi come: X (1) = x∗ ; e la variazione unitaria della variabile esplicativa X (2) = x∗ + 1; allora si ottiene: logit(π(x∗ + 1)) − logit(π(x∗ )) = (β0 + β1 (x∗ + 1)) − (β0 + β1 x∗ ) = β1 (7.13) cioè il coeciente β1 non è altro che l'incremento del logaritmo dell'odds (il logit(π)) associato ad un incremento unitario della variabile X oppure in modo equivalente si può aermare che di seguito ad un'aumento unitario di x, l'odds cresce in misura moltiplicativa di eβ1 . Il coeciente β0 , invece, esprime il livello degli odds del vericarsi di un evento a prescindere dai valori assunti dalle variabili esplicative. Il signicato del coeciente β1 non varia quando la variabile esplicativa è di tipo qualitativo ed in particolare dicotomica. In questo caso β1 misurerà la variazione del logit(π(x)) corrispondente al possesso dell'attributo X . Il discorso si estende immediatamente anche ai predittori qualitativi ad m 81 modalità in quanto la loro inclusione nel modello, così come nella regressione multipla, avviene attraverso una trasformazione delle stesse in una serie di m variabili dummy secondo uno schema di codica disgiuntiva completa. Estendiamo ora il discorso ad un modello caratterizzato dalla presenza di p variabili esplicative. In questo caso, il modello logit considerato è il seguente: logit(π(x)) = β0 + β1 X1 + β2 X2 + ..... + βp Xp = Xβ (7.14) e al ne di una corretta interpretazione dei coecienti occorre distinguere due casi: . Modello senza iterazioni: è un modello in cui le variabili esplicative impiegate sono tra loro indipendenti e di conseguenza si ha che la distribuzione di un predittore, ad esempio X1 non cambia al variare dei valori assunti dagli altri predittori X2 , X3 , ..., Xp . Ne deriva quindi che i coecienti del modello possono essere interpretati singolarmente secondo la logica illustrata per il modello con un unico predittore. Gracamente, questo signica che la funzione che lega il logit(π(x)) alla variabile X1 ha sempre la stessa intercetta e lo stesso coeciente angolare (in altri termini, la stessa forma) per ogni valore assunto dalle altre variabili esplicative. . Modello con iterazioni: si parla di iterazione quando due variabili predittive congiuntamente producono un eetto più che additivo, o meno che additivo, sulla variabile di risposta. Tale eetto moltiplicativo, che accresce o descresce gli eetti additivi dei predittori considerati singolarmente, è detto iterazione. Consideriamo per semplicità un modello con due variabili esplicative X1 e X2 . La presenza dell'iterazione tra queste due variabili complica l'analisi, in quanto, nella fase di stima, il predittore X1 dovrà comparire nel modello sia da solo sia moltiplicato per X2 . Ne cosegue che i parametri da stimare saranno ora i seguenti: β0 che esprime l'eetto base sulla Y ; β1 e β2 che rappresentano l'eetto delle variabili esplicative (considerate singolarmente); e β3 che esprime l'eetto congiunto, l'iterazione, dei due predittori sulla variabile di risposta. Gracamente, l'iterazione, comporta che la funzione che lega il logit a X1 cambierà forma al variare dei livelli di X2 e viceversa. 7.5 La bontà di adattamento L'adattamento di un modello ai dati può essere interpretato come un modo per sostituire a un insieme di valori osservati un insieme di valori stimati 82 ottenuti da un modello che è costituito, di solito, da un numero ridotto di parametri. Anchè tale sostituzione possa considerarsi "ecacie", si richiede che le stime del modello siano quanto più vicine ai valori osservati della variabile di risposta, cioè è necessario che la discrepanza tra questi valori sia minima anchè il modello abbia un buon adattamento al fenomeno oggetto di studio. Da questo semplice concetto nasce l'idea che è alla base di tutte le strategie di verica della bontà di un modello statistico: la costruzione di indici che misurino la dierenza tra dati osservati e teorici che forniscono così degli indicatori della bontà di adattamento del modello considerato. Nell'analisi di regressione logistica, quando si prende in esame la bontà di adattamento del modello ai dati analizzati, si considerano diversi aspetti: la verica della bontà del modello nel suo complesso; la verica della dierenza tra due modelli comparabili; e la verica della signicatività di un singolo coeciente. 7.5.1 La verica della bontà del modello nel suo complesso Il primo passo nella valutazione della bontà di adattamento di un modello consiste nel confrontarlo con il modello saturo (o saturato), quello che teoricamente fornisce l'adattamento migliore. Il modello saturato è un modello che, avendo tanti parametri quante sono le osservazioni, fornisce una descrizione completa ed esaustiva dei dati e di conseguenza un adattamento perfetto. La quantità utilizzata per tale confronto è la statistica D di McCullagh e Nelder (1983) detta Devianza e denita come segue: ( D = −2log maxβ̂ [L(M )] maxβ̂ [L(M ∗ )] ) (7.15) dove la quantità al numeratore è la massima verosimiglianza del modello M con p predittori mentre quella al denominatore è la massima verosimiglianza del modello saturato M ∗ . Il rapporto compreso tra le parentesi grae si chiama rapporto delle verosimiglianze. Moltiplicando il logaritmo di tale rapporto per -2, si ottiene una statistica test che si distribuisce secondo una distribuzione nota. Si dimostra infatti che, per n grande, D si approssima ad una distribuzione χ2 con n − (p + 1) gradi di libertà, dove n è il numero di osservazioni e p + 1 il numero di parametri β stimati. La logica sottostante l'uso della statistica D è la seguente: se il modello M considerato è buono, allora la sua verosimiglianza sara molto vicina a quella del modello saturato che ne rappresenta il valore massimo. Di conseguenza 83 valori piccoli di D implicano valori simili delle verosimiglianze e quindi un buon adattamento del modello. Per determinare un valore soglia signicativo, dal punto di vista statistico, si ricorre alla distribuzione asintotica χ2n−(p+1) di D. In questo modo si individua il livello di signicatività osservato (p-value) da confrontare con il livello di signicatività α secondo il seguente schema: - si supponga di voler confrontare un modello M (ipotesi H0 ) contro il modello saturato (ipotesi H1 ). Poichè i valori piccoli di D indicano un buon adattamento, allora si considera valido M (si accetta H0 ) per valori del pvalue maggiori della soglia critica α, mentre si riuta M (si rigetta H0 ) nel caso contrario. La bontà di un modello può essere valutata anche in un'ottica opposta soffermandosi su un confronto eettuato non rispetto all'"ottimo", ma rispetto al modello M0 (cosidetto banale) formato dalla sola intercetta. La ragione di questo diverso approccio è da ricercarsi nel fatto che l'utilizzo della statistica D, confrontando il modello costruito contro quello saturo, pone l'attenzione unicamente sulla bontà dell'adattamento senza tener conto della parsimonia (intesa come semplicità del modello) . Infatti, in statistica, un modello è buono quando esprime l'equilibrio tra il miglior adattamento possibile e la minor complessità del modello costruito. Solo attraverso la mediazione tra bontà di adattamento e parsimonia è possibile ottenere una valutazione della qualità complessiva di un modello. Il confronto con il modello banale è eettuato attraverso l'uso della statistica G: ( G = −2log maxβ̂ [L(M0 )] ) maxβ̂ [L(M )] (7.16) che può anche essere interpretata come la dierenza tra le devianze del modello banale e di quello considerato: G = D(modellobanale ) − D(modelloconsiderato ) (7.17) In questo caso, sotto l'ipotesi nulla che tutti i parametri escluso l'intercetta sono nulli, la statistica G si distribuisce come un χ2 con p gradi di libertà, dove p è il numero di variabili esplicative incluse nel modello. Si accetta il modello considerato (e cioè si riuta H0 ) se il valore del p-value è inferiore al valore critico α. Il riuto dell'ipotesi nulla implica che almeno uno dei parametri è diverso da 0. Contrariamente che per la statistica D, in questo caso è desiderabile che la dierenza tra le log-verosimiglianze sia grande perchè questo implicherebbe che la quantità di informazione apportata dai predittori nel modello è signicativa nella spiegazione della Y . 84 7.5.2 Confronto tra due modelli Nella stessa ottica in cui si valuta la statistica G è possibile confrontare due dierenti modelli, uno dei quali formato con un sottoinsieme di predittori dell'altro. Spesso tali modelli sono indicati in statistica con il termine di Modelli nidicati. In questo caso la statistica G (indicata ora come extradevianza) assumerà la seguente forma: ( G = −2log maxβ̂ [L(Mp−q )] ) maxβ̂ [L(M )] (7.18) dove Mp−q è il modello formato dal sottoinsieme dei p predittori del modello considerato. La G si distribuirà come un χ2 con q gradi di libertà pari al numero di predittori esclusi nel modello più ridotto. Se l'extradevianza è signicativamente grande allora la scelta cadra sul modello con p predittori, viceversa se G è piccola allora conviene optare per il modello ridotto e salvaguardare così la parsimonia del modello stesso. 7.5.3 Verica della signicatività dei singoli parametri Per vericare la signicatività di un singolo parametro si può ricorrere alla statistica W di Wald per il j-esimo coeciente: W = βj σ(βj ) (7.19) dove σ(βj ) è lo scarto quadratico medio di βj . Sotto l'ipotesi nulla che il parametro βj = 0, W si distribuisce come una normale standardizzata. 7.6 La selezione delle variabili Così come per la regressione multipla, anche nella regressione logistica la selezione delle variabili è una fase importante dell'analisi che merita particolare attenzione. La costruzione di un modello equilibrato, che incorpori in se unicamente i predittori signicativi (nella spiegazione di Y ) e che allo stesso tempo garantisca un grado accettabile di complessità (in termini di numero di parametri) passa necessariamente attraverso un processo di selezione automatico delle variabili che ha l'obiettivo di individuare il sottoinsieme di X ottimale secondo il criterio prescelto. Le tecniche impiegate consistono, così come nell'analisi lineare multipla (vedi par. 6.3.8), nelle metodologie forward, backward e stepwise. Questi metodi si distinguno, ora, unicamente per la statistica test impiegata, infatti il 85 test utilizzato per decidere l'inclusione o l'esclusione di un predittore di un modello non utilizza più il rapporto tra le varianze, ma un test fondato sulla misura G che, come abbiamo già visto, si distribuisce asintoticamente come un χ2 con k + 1 gradi di libertà pari al numero di parametri da stimare (nel modello composto dai predittori già inclusi più quello di cui si valuta l'inclusione). Il predittore entra nel modello (si riuta l'ipotesi nulla che il coeciente è nullo) quando il p-value è piccolo, inferiore alla soglia critica α prescelta. Vicersa, un predittore, precedentemente incluso, verrà escluso dal modello quando il livello di signicatività osservato sarà grande e cioè si accetta l'ipotesi che il suo coeciente β è nullo. 86 Capitolo 8 I modelli additivi generalizzati 8.1 Regressione parametrica, non parametrica e semiparametrica Nel modello classico di regressione lineare il valore atteso della variabile dipendente é espresso come combinazione lineare dell'insieme di variabili esplicative x1 , x2 , . . . , xd e dei parametri βi . Il modello risulta il seguente: E(Y |x) = x1 β1 + . . . + xd βd = xT β (8.1) in cui E(Y |x) indica il valore atteso di Y in dipendenza di una particolare realizzazione del vettore xT = (x1 , x2 , . . . , xd )T ed i βj , j = 1, 2, . . . , d, sono coecienti incogniti che legano la variabile dipendente all'insieme dei predittori. Denendo come la dierenza tra la variabile Y ed il suo valore atteso condizionato E(Y |x): = Y − E(Y |x) (8.2) é possibile riformulare il modello nel seguente modo: Y = xT β + . (8.3) La caratteristica principale di tale modello é la sua forma parametrica: la funzione di regressione é determinata attraverso i parametri incogniti βj , j = 1, 2, . . . , d. Quindi tutto ció che bisogna fare quando si vuole determinare la funzione di regressione lineare di cui alla (8.3) é stimare i parametri incogniti βj . Il modello parametrico di cui alla (8.3) esclude a priori qualsiasi tipo di relazione non lineare. Si ipotizzi, invece, che la relazione tra variabile dipendente e predittori sia 87 completamente descritta da una certa funzione m(•), che puó essere sia lineare che non lineare, e che tale funzione sia la funzione di regressione incognita che descrive al meglio il tipo di relazione che si intende studiare. Il modello puó essere riscritto nel seguente modo: E(Y |x) = m(x). (8.4) In questo caso l'analista non é necessariamente vincolato a ricorrere al modello classico di regressione lineare. É possibile infatti approssimare la relazione investigata attraverso diverse specicazioni della funzione m(•), e quindi non ricorrendo necessariamente a funzioni di tipo lineare. L'unico vincolo che caratterizza questa tipologia di modelli é l'utilizzo di funzioni caratterizzate da una certa regolaritá (c.d. smooth functions o funzioni di smoothing) per la stima della funzione incognita m(x). Tali modelli, in corrispondenza di diverse specicazioni della funzione di smoothing, rientrano nella classe dei modelli di regressione non parametrica. La precisione delle stime ottenute attraverso tali modelli é inversamente proporzionale al numero di variabili indipendenti incluse nel modello. Questo problema é noto in letteratura come maledizione della dimensionalitá (curse of dimensionality). La relazione tra variabile dipendente e predittori puó essere gracamente rappresentata da una supercie le cui dimensioni dipendono proprio dal numero di predittori inclusi nel modello. Immaginiamo, ad esempio, di volere stimare il seguente modello: E[Y |(x1 , x2 )] = m(x1 , x2 ) (8.5) ed ipotizziamo che m(•) sia una funzione caratterizzata da una certa regolaritá (sia cioé una smooth function). Generalmente gli stimatori utilizzati nell'ambito non parametrico producono una stima di m(•) ad un punto arbitrario (x1 = s, x2 = e) attraverso una media ponderata locale dei valori della variabile y che si trovano in corrispondenza dei valori di x1 ed x2 situati in un certo intervallo costruito intorno al punto di coordinate (s, e). Tale media é calcolata attribuendo dei pesi a ciascun valore della y. Il peso attribuito in corrispondenza dei diversi valori della y sará piú alto per le coppie di osservazioni x1 , x2 piú vicine al punto (s, e). Da ció si desume che, presumibilmente, ad ogni osservazione sará attribuito un peso diverso. L'attribuzione dei pesi avviene attraverso una funzione che cerca di attribuire un peso maggiore alle osservazioni piú vicine al punto di coordinate (s, e), ed un peso minore a quelle piú lontane. Infatti alle osservazioni molto distanti da tale punto verrá attribuito un peso prossimo allo zero. 88 Il risultato nale di un modello non parametrico caratterizzato dalla presenza di due soli predittori é l'approssimazione di una nube di punti in uno spazio tridimensionale con una supercie. Ció equivale, da un punto di vista probabilistico, a stimare una funzione di densitá (o di probabilitá) bivariata in modo non parametrico. L'utilizzo di stimatori non parametrici, sicuramente piú essibili di quelli utilizzati nei modelli parametrici, é solitamente accompagnato da metodi complementari orientati alla riduzione della dimensionalitá. Tali metodi racchiudono spesso le principali caratteristiche delle tecniche parametriche e non parametriche, e sono noti in letteratura come metodi semiparametrici. Essi consentono inoltre l'inclusione nel modello di variabili categoriche (che altrimenti potrebbero essere analizzate solo attraverso un approccio parametrico) ed un'agevole interpretazione dei risultati. Il modello di cui alla (8.5) puó essere riformulato in forma semiparametrica nel seguente modo: E[Y |(x1 , x2 )] = α + g1 (x1 ) + g2 (x2 ) (8.6) In questo caso g1 (•) e g2 (•) sono due funzioni di smoothing incognite ed α é un parametro incognito da stimare. Questo modello combina la semplice struttura additiva dei modelli di regressione parametrica (si tratta quindi di un modello additivo) con la essibilitá che caratterizza l'approccio non parametrico, perché non impone alcuna restrizione riguardo alla forma (lineare o non lineare) delle funzioni che determinano come i predittori x1 ed x2 inuenzano il valore atteso della variabile dipendente Y . Bisogna comunque tener presente che le stime delle funzioni incognite g1 (•) e g2 (•) possono essere eettuate anche attraverso la regressione non parametrica. Quindi, per stimare modelli semiparametrici si ricorre spesso a tecniche non parametriche. Inne si osservi che nel modello di cui alla (8.5) bisogna stimare una funzione incognita di due variabili, mentre nel modello di cui alla (8.6) bisogna stimare una funzione incognita per ciascun predittore. In quest'ultimo modello si é ridotta la dimensionalitá della stima. Sebbene tutti gli studiosi concordano sul punto che i modelli additivi del tipo specicato alla (8.6) permettono una riduzione della dimensionalitá rispetto ai modelli di regressione non parametrica, alcuni non concordano nel denire semiparametrici tali modelli, poiché in essi, oltre al parametro α, non esiste alcun altro parametro da stimare. A tal proposito si consideri il caso in cui la variabile dipendente Y sia di tipo dicotomico, ossia: 89 (8.7) Poiché Y é di tipo dicotomico (e quindi descritta da una varibile casuale di Bernoulli), risulta: Y = 1sesiverif icaunacertacondizione0altrimenti (8.8) e quindi la funzione di regressione di Y rispetto ad x esprime la probabilitá che si verichi la condizione specicata per Y = 1 data una certa specicazione del vettore dei predittori x. Sotto certe ipotesi, P (Y = 1|x) puó essere espressa come segue: E(Y |x) = P (Y = 1|x) (8.9) in cui β T x rappresenta una combinazione lineare dei valori dei predittori (talvolta denominata "funzione indice") con coecienti β . G(•) é una funzione continua che descrive il comportamento della variabile Y in un intervallo [0, 1], denominata "funzione legame" (link function), in quanto lega l'indice β T x al valore atteso condizionato E(Y |x). In tale contesto é di fondamentale importanza stabilire se G(•) assume una forma parametrica, e se ció accade quale particolare forma assume. Molto spesso in presenza di una variabile di risposta dicotomica si ricorre al modello di regressione logistica. Il modello logistico assume che G(β T x) sia descritta dalla funzione di distribuzione logistica per ogni possibile realizzazione di x. In questo caso risulta: P (Y = 1|x) = G(β T x) E(Y |x) = P (Y = 1|x) = 1 exp(−β T x) (8.10) Il modello logistico, come tutti i modelli parametrici, é basato su ipotesi rigide riguardanti la distribuzione dei parametri che non sempre risultano giusticate dalla teoria da cui scaturisce il modello. Per cui puó essere interessante valutare le conseguenze della stima del modello di cui alla (8.9) attraverso un approccio non parametrico, svincolato quindi da ipotesi distribuzionali, e valutare successivamente le proprietá degli stimatori impiegati. Un possibile modo di generalizzazione del modello logistico in forma semiparametrica é rappresentato dal "modello ad indice singolo" (single index model, SIM), per il quale l'indice β T x é espresso in forma lineare, ma la funzione G(•) di cui alla (8.9) é stimata attraverso una funzione di smoothing arbitraria H(•) (non necessariamente una funzione di probabilitá) che puó essere stimata a partire dai dati. Il modello puó essere cosí riformulato: 90 (8.11) La stima di tale modello avviene attraverso due fasi: in una prima fase vengono stimati i coecienti β , e successivamente si stima la funzione legame incognita H(•) attraverso una regressione non parametrica della variabile dipendente Y rispetto all'indice β̂ T x, in cui β̂ é il vettore di coecienti stimato nella fase precedente. La stima di H(•) avviene ricorrendo ad uno stimatore non parametrico. E(Y |x) = H(β T x) 8.2 L'istogramma Si consideri una variabile casuale continua X e sia f la sua funzione di densitá di probabilitá. Volendo stimare il valore di f (xi ) in corrispondenza di una certa realizzazione xi della v.c. X uno simatore elementare, dalla cui generalizzazione derivano tutti gli altri stimatori non parametrici, é l'istogramma. 8.2.1 Costruzione di un'istogramma Costruire un'istogramma é molto semplice. Si immagini di avere un campione casuale X1 , X2 , . . . , Xn proveniente da una popolazione il cui comportamento é ben descritto da una funzione di probabilitá continua incognita. La costruzione di un istogramma procede attraverso le seguenti fasi: • Si seleziona un punto origine x0 e si suddivide la retta reale in tanti sottointervalli Bj di uguale ampiezza (bins): Bj : [x0 + (j − 1)h, x0 + jh), j ∈ Z, in cui h é l'ampiezza dell'intervallo (binwidth). • Si contano il numero delle osservazioni che ricadono in ciascun intervallo. Il numero di osservazioni che ricadono nell'intervallo j si indica con nj . • Per ogni intervallo si calcola il rapporto tra il numero di casi in esso compresi (nj ) ed il prodotto tra il numero di casi osservati (n) per l'ampiezza dell'intervallo h (ci si assicura in tal modo che l'area totale al di sotto dell'istogramma sia pari ad uno): fj = 91 nj nh • Si disegna l'istogramma tracciando delle barre verticali in corrispondenza degli estremi di ciascun intervallo la cui altezza é pari ad fj e la cui ampiezza é pari ad h. Il procedimento puó essere riassunto in termini formali nel seguente modo: n 1 XX fˆh (x) = I(Xi ∈ Bj )I(x ∈ Bj ) nh i=1 (8.12) j in cui: I(Xi ∈ Bj ) = 1se Xi ∈ Bj 0 altrimenti Se indichiamo con xm il punto mediano di ciascun sottointervallo é facile notare che l'istogramma assegna ad ogni x in Bj = [xm − h2 , xm + h2 ) uno stesso valore relativo alla stima di f , e cioé fˆh (xm ). Un qualunque stimatore di una funzione di distribuzione deve caratterizzarsi per il fatto che l'area totale sottesa dalla funzione di probabilitá deve essere pari ad uno. L'istogramma sicuramente rispetta tale proprietá. La probabilitá che un certo valore della variabile casuale X sia compreso in un intervallo [xm − h2 , xm + h2 ) é data da: h h P (X ∈ [xm − , xm + )) = 2 2 Z xm + h 2 f (u)du xm − h 2 (8.13) e rappresenta l'area al di sotto della funzione di densitá nell'intervallo [xm − h h 2 , xm + 2 ). Quest'area é approssimata da un rettangolo con base h ed altezza f (xm ). É possibile quindi scrivere: h h P X ∈ [xm − , xm + ) = 2 2 Z xm + h 2 xm − h 2 f (u)du ≈ f (xm ) × h (8.14) Una semplice stima di tale probabilitá é fornita dalla frequenza relativa delle osservazioni nell'intervallo: P (X ∈ [xm − h 1 h h h , xm + )) ≈ #xi ∈ [xm − , xm + ) 2 2 nh 2 2 92 (8.15) in cui # denota la cardinalitá, ossia il numero di elementi di un certo insieme o compresi in un certo intervallo. Il parametro h della funzione fˆh (xm ) é ssato dall'analista, e quindi le stime fornite dall'istogramma dipendono dalla scelta dell'ampiezza dell'intervallo nonché dalla scelta del punto origine x0 . Qualora si incrementa il valore di h l'istogramma diviene piú smussato, ma é dicile stabile quale sia l'ampiezza dell'intervallo che in assoluto produce il grado di smussamento ottimale. 8.3 Average Shifted Histogram (ASH) Nel paragrafo precedente si é sottolineato che la forma dell'istogramma dipende dalla scelta dell'ampiezza dell'intervallo di stima e del punto origine. Queste caratteristiche dell'istogramma non rispondono all'obiettivo fondamentale delle tecniche non parametriche, che é quello di "lasciare che siano gli stessi dati a descrivere determinati comportamenti" e cioé, in altre parole, che le stime devono essere eettuate partendo dai dati. Nel caso specico dell'istogramma gli stessi dati possono generare istogrammi diversi al variare di h e del punto origine x0 . Un rimedio "naturale" a questo problema puó essere quello di costruire diversi istogrammi utilizzando un intervallo di ampiezza costante ma punti origine ogni volta diversi, ed eettuare successivamente una media dei diversi istogrammi ottenuti. Tale procedura corrisponde alla costruzione di un Averaged Shifted Histogram (ASH), é da luogo generalmente ad istogrammi caratterizzati da piccoli salti della funzione di densitá che farebbero pensare alla scelta di un intervallo di stima molto piccolo. Ma non si tratta semplicemente di un comune istogramma costruito scegliendo un intervallo di stima piccolo. Si consideri, infatti, un insieme di intervalli relativi ad un istogramma con punto origine x0 = 0 ed ampiezza Bj := [(j − 1)h, jh) j ∈ Z , e cioé: . . . B1 = [0, h), B2 = [h, 2h), B3 = [2h, 3h), . . . . da tali intervalli se ne generano M − 1 spostando ogni Bj verso destra di una quantitá pari a lh/M : Bj,l := [(j − 1 + l/M )h, (j + l/M )h) l ∈ {1, . . . , M − 1} (8.16) Naturalmente qualora si considera l = 0 si ottiene l'istogramma di partenza. Se si vuole calcolare un istogramma per ognuno degli insiemi di intervalli 93 ottenuti al variare di l bisogna calcolare M dierenti stime della funzione f per ogni punto x: n 1 X X { I(Xi ∈ Bj,l )I(x ∈ Bj,l )}, fˆh,l (x) = nh i=1 l ∈ {0, 1, . . . , M − 1}. j L'istogramma ASH é ottenuto attraverso una media di tali stime: fˆh (x) = M −1 1 X 1 X X n{ I(Xi ∈ Bj,l )I(x ∈ Bj,l )} M nh i=1 l=0 = (8.17) j n X 1X 1 X { M −1 I(Xi ∈ Bj,l )I(x ∈ Bj,l )} n Mh i=1 j l=0 (8.18) In generale, é possibile ottenere una stima della (8.18) considerando una griglia di intervalli di ampiezza δ = Mh e calcolando una somma ponderata delle frequenza relative nj /(nh) in ciascun intervallo. La formula generale per calcolare fˆh (x) partendo da una griglia di intervalli di ampiezza δ = Mh é la seguente: M −1 X 1 X fˆh (x) = I(x ∈ Bj∗ ) wM (k) ∗ nj+k , nh j (8.19) k=1−M in cui: nk = e: n X I(Xi ∈ Bk∗ ). (8.20) i=1 wm (k) = 1 − |k| M (8.21) Inne bisogna evidenziare che la (8.21) non rappresenta l'unico modo per attribuire dei pesi ad una certa funzione di stima. Utilizzando delle diverse formulazioni della (8.21) é infatti possibile approssimare un'ampia classe di funzioni di stima, che rientrano nella classe degli stimatori kernel. Ad esempio la funzione che segue é utilizzata per approssimare una funzione di stima basata sul cosiddetto Epanechnikov kernel: 94 wm (k) = 3M 2 k [1 − ( )2 ] 2 4M − 1 M (8.22) In generale, la procedura basata sull'approssimazione di una funzione di densitá attraverso uno stimatore kernel é denita come Weighted Averaging of Rounded Points (WARPing). 8.4 Stima non parametrica 8.4.1 Introduzione Nei paragra precedenti abbiamo dimostrato che l'istogramma non é solo un semplice stumento graco che ci permette di rappresentare una distribuzione di frequenze empirica. Esso é soprattutto un utile metodo per stimare una funzione di probabilitá incognita. Abbiamo inoltre mostrato che la forma dell'istogramma varia in funzione di due parametri: l'ampiezza dell'intervallo di stima (h) ed il punto origine x0 . La tecnica del WARPing é un utile strumento per ottenere un istogramma la cui forma non dipenda dalla scelta del punto origine. Anche nel caso delle stime non parametriche eettuate utilizzando stimatori kernel é possibile ovviare al problema della scelta del punto origine ma non a quello della scelta dell'intervallo di stima ottimale. Sebbene la tecnica del WARPing risolva il problema della scelta del punto origine, l'istogramma ottenuto presenta comunque alcuni inconvenienti: • esso produce per ogni punto x in [xm − h2 , xm + h2 ) la stessa stima della funzione f , e cioé fˆh (xm ). Trattasi di un'ipotesi abbastanza restrittiva. • l'istogramma non é una funzione continua, ma é una funzione a gradini (step function), caratterizzata da salti in corrispondenza degli estremi degli intervalli di stima. In tali punti la derivata della funzione di stima é pari a zero, e ció costituisce sicuramente un inconveniente allorquando si intende stimare una funzione di probabilitá incognita continua. 8.4.2 Stimatori kernel La costruzione dell'istogramma al ne di ottenere uno stimatore della funzione di stima f (x) incognita é basata sul seguente principio: 1 #{osservazioni n·h in un piccolo intervallo contenente x} 95 La costruzione di uno stimatore kernel é basata su un principio simile al precedente, ma presenta il vantaggio di non risentire della scelta del punto origine. Lo stimatore kernel é ottenuto sulla base di intervalli la cui ampiezza é solitamente variabile. Esso é denito da: 1 #{osservazioni n·h in un piccolo intervallo intorno ad x} Da notare la sottile ma importantissima dierenza rispetto alla costruzione dell'istogramma: nel caso di uno stimatore kernel l'intervallo di stima é costruito intorno al punto x, e non si tratta, come nel caso dell'istogramma di un intervallo che contiene tutti i punti situati ad una certa distanza dal punto mediano xm , determinato rispetto alla scelta del punto origine x0 . Un istogramma puó essere anche costruito scegliendo un intervallo di ampiezza 2h. In questo caso l'intervallo comprende tutte le osservazioni in [x−h, x+ h], per cui é possibile scrivere: 1 fˆ(x) = #{Xi ∈ [x − h, x + h]} 2hn (8.23) La formula precedente puó essere cosí riscritta nel caso della funzione kernel uniforme: 1 K(u) = I(|u| ≤ 1) 2 in cui u = x−Xi h (8.24) . L'istogramma di cui alla (8.23) in questo caso risulta: n fˆh (x) = = = 1 X x − Xi K( ) nh h 1 nh i=1 n X 1 x − Xi I(| | ≤ 1) 2 h i=1 n X 1 2nh i=1 I(| x − Xi | ≤ 1) h (8.25) Dalla (8.25) é evidente che la funzione kernel uniforme deriva da una particolare formalizzazione dell'istogramma di cui alla (8.23). Inoltre dalla (8.25) é possibile notare come ogniqualvolta un'osservazione ricade nell'intervallo [x − h, x + h) la funzione indicatrice assume valore 1, ed il numero 96 di casi compresi nell'intervallo aumenta. Ma anche in questo caso a ciascuna osservazione é attribuito lo stesso peso, a prescindere dalla sua vicinanza/lontananza dal punto x. Sarebbe forse piú opportuno attribuire un peso maggiore alle osservazioni piú vicine ad x rispetto a quelle piú distanti. Si consideri a tal proposito la seguente espressione: n fˆh (x) = x − Xi 2 x − Xi 1 X3 {1 − ( ) }I(| | ≤ 1) 2nh 2 h h i=1 = n 1 X3 x − Xi 2 x − Xi {1 − ( ) }I(| | ≤ 1) nh 4 h h = n 1 X x − Xi H( ) nh h i=1 i=1 (8.26) in cui la funzione K(•) si denomina Epanechnikov kernel, ed é data da: 3 k(u) = (1 − u2 )I(|u| ≤ 1) 4 Dalla (8.26) risulta che le osservazioni piú vicine ad x contribuiscono in maniera consistente alla sua stima, in quanto ad esse é attribuito un peso maggiore. Questa proprietá é tipica dell'Epanechnikov kernel ma caratterizza anche tutti gli stimatori riassunti nella tabella seguente. Avendo introdotto diverse funzioni kernel é possibile fornire la seguente denizione generale di di stimatore kernel per una funzione di probabilitá f , in riferimento ad un campione casuale X1 , X2 , . . . , Xn : 1X fˆh (x) = nKh (x − Xi ) n (8.27) i=1 in cui: Kh (•) = 1 K(•/h) h (8.28) ed h indica sempre l'ampiezza dell'intervallo di stima. Come nel caso dell'istogramma il parametro h controlla il grado di smussamento della stima e la sua scelta é un problema di cruciale importanza. Purtroppo é molto dicile stabilire quale valore di h produce il grado di smussamento ottimale senza poter disporre di alcun criterio formale. Inoltre bisogna puntualizzare che la funzione kernel é la funzione K , mentre 97 Tabella 8.1: Funzioni kernel Kernel k(u) Uniform 1 2 I(|u| Triangle (1 − |u|)I(|u| ≤ 1) Epanechnikov 3 4 (1 Quartic 15 16 (1 − u2 )2 I(|u| ≤ 1) Triweight 35 32 (1 − u2 )3 I(|u| ≤ 1) Gaussian √1 2π exp( 21 u2 ) Cosinus π 4 ≤ 1) − u2 )I(|u| ≤ 1) cos( π2 u)I(|u| ≤ 1) il termine stimatore kernel é quello di cui alla (8.27). Le funzioni R ∞ kernel sono funzioni di densitá di probabilitá, e quindi per esse risulta −∞ K(u)du = 1 e K(u) ≥ 0 per ogni u compresa nel dominio R∞ di K . Una conseguenza immediata del fatto che −∞ K(u)du = 1 é che R ˆ fh (x)dx = 1, e quindi lo stimatore kernel é anch'esso una funzione di densitá di probabilitá. Inoltre fˆh presenta tutte le caratteristiche di continuitá e dierenziabilitá di K . Ad esempio, se K é dierenziabile n volte questa proprietá vale anche per fˆh . Questa proprietá di fˆh é desumibile gracamente dal grado di smussamento che essa produce. 8.4.3 Proprietá di uno stimatore kernel Per la scelta di un intervallo di stima ottimale é importante calcolare l'errore quadratico medio (MSE) delle stime. Esso é dato anche dalla somma della distorsione al quadrato piú la varianza. La distorsione (bias) di uno stimatore kernel é data da: 98 Bias{fˆh (x)} = E{fˆh (x)} − f (x) = ... h2 ” = f (x)µ2 (K) + o(h2 ) 2 h→0 (8.29) Dalla (8.29) é possibile notare che la distorsione é proporzionale ad h2 . Inoltre essa dipende dalla derivata seconda f ” per ogni x. L'importanza della distorsione dipende dal grado di curvatura della funzione f , che dipende a sua volta dal valore assoluto della funzione f ” . Valori elevati di |f ” | implicano una distorsione elevata. La varianza di uno stimatore kernel é: n 1X V ar{fˆh (x)} = V ar{ Kh (x − Xi )} n i=1 = ... 1 1 = k K k22 f (x) + o( ), nh nh nh → ∞ (8.30) in cui k K k22 = K 2 (s)ds. La varianza di uno stimatore kernel é diretta1 mente proporzionale a nh . Quindi, al ne di ridurre la variabilitá di uno stimatore kernel bisogna scegliere un intervallo h abbastanza ampio. Inoltre la varianza aumenta al crescere di k K k22 . Quest'ultimo termine sará abbastanza piccolo per stimatori piatti come la funzione kernel uniforme. In conclusione é possibile aermare che funzioni kernel piatte e liscie danno luogo a stime meno variabili relativamente a campioni ripetuti, poiché in ogni campione alle osservazioni é attribuito piú o meno lo stesso peso. La (8.30) e la (8.29) evidenziano il tradeo tra distorsione e varianza. La situazione ideale sarebbe quella di minimizzare contemporaneamente la distorsione e la varianza, ma una diminuzione dell'ampiezza dell'intervallo di stima produce un auemento della distorsione, mentre un suo ampiamento produce un aumento di variabilitá della stima. L'errore quadratico medio rappresenta un compromesso tra queste due situazioni, e permette inoltre di vericare la consistenza di uno stimatore kernel (considerando che che la convergenza in media quadratica implica quella in probabilitá e quindi la consistenza). Esso é dato da: R 99 h4 ” 2 1 1 M SE{fˆ(x)} = f (x) µ2 (K)2 + k K k22 f (x) + o(h4 ) + o( ) 4 nh nh (8.31) Osservando la (8.31) é possibile notare che il MSE di uno stimatore kernel tende a zero quando h → 0 e nh → ∞. Da ció si desume la proprietá della consistenza di tale stimatore. Ma dalla (8.31) é possibile notare anche che il MSE dipende dalle funzioni f e da f ” , che nelle applicazioni reali risultano quasi sempre incognite. Qualora si voglia individuare il valore di h (ad esempio h0 ) che minimizza il MSE si noterá che le funzioni f (x) e f ” (x) non scompaiono mai man mano che si deriva il MSE rispetto al parametro h. Quindi l'intervallo ottimale h0 non puó essere mai individuato, a meno che non si riescono ad approssimare le funzioni f (x) ed f ” (x). É possibile ridurre la dimensionalitá del problema utilizzando il MISE (errore quadratico medio integrato) invece del MSE, in quanto esso presenta l'ulteriore vantaggio di essere una misura globale dell'accuratezza di uno stimatore. Per uno stimatore kernel il MISE é dato da: M ISE(fˆh ) = Z M SE{fˆh (x)}dx = ... 1 h4 1 = k K k22 + {µ2 (K)}2 + o( ) + o(h4 ) nh 4 nh h → 0, nh → ∞ (8.32) Una formula approsimata del MISE, denominata AMISE (Asymptotic Mean Squared Error), é la seguente: 1 h4 AM ISE(fˆh ) = k K k22 + {µ2 (K)}2 k f ” k22 (8.33) nh 4 Derivando l'AMISE rispetto ad h e risolvendo rispetto allo stesso parametro h otteniamo l'intervallo di stima ottimale: h0 = ( k K k22 )1/5 ∼ n−1/5 k f ” k22 {µ2 (K)}2 n (8.34) in dui k f ” k22 = (f ” )2 (s)ds. Dall'espressione ottenuta per h0 é evidente che il problema di dover trattare quantitá incognite non é stato ancora risolto, in quanto h0 dipende da k f ” k22 . R 100 8.4.4 Il Regressogramma Il termine regressogramma deriva dalla somiglianza di tale stimatore con l'istogramma. La stima mediante regressogramma procede attraverso due fasi: (a) Suddivisione in intervalli delle variabili {Xi}ni=1. I valori osservati della variabile {Xi }ni=1 sono ripartiti secondo l'appartenenza ad intervalli disgiunti di ampiezza h che suddividono lo spazio di osservazione della variabile X . Il j -esimo intervallo [x0 + (j − 1)h, xo + jh) é indicato con Bj . (b) Si calcola il valore medio delle Yi rispettivo intervallo. rispetto ai valori Xi compresi nel In termini formali, per ogni x ∈ Bj é posssibile scrivere: Pn I(Xi ∈ Bj )Yi m̂h (x) = Pi=1 n i=1 I(Xi ∈ Bj ) indicatrice assume valore "1" se Xi ∈ Bj (8.35) in cui la funzione e "0" altrimenti. Il regressogramma puó essere considerato un'approssimazione di una funzione a gradini. Inoltre esiste una sottile connessione con gli stimatori kernel utilizzati nella regressione, poiché il regressogramma puó essere considerato uno stimatore in cui si utilizza una funzione kernel uniforme, calcolata nel punto medio di ciascun intervallo. 8.4.5 Lo stimatore k-Nearest Neighbour (k-NN) Come mostrato in precedenza gli stimatori kernel sono basati su una media ponderata dei valori assunti dalla variabile dipendente in un intervallo sso costruito rispetto al punto x, la cui ampiezza dipende dal parametro h. Anche lo stimatore k -nearest neighbours, spesso denominato stimatore media mobile (running mean smoother), puó essere considerato una media ponderata dei valori assumti dalla variabile di risposta in un certo intervallo costruito intorno ad x, con l'importante dierenza che l'ampiezza dell'intervallo é variabile e non ssa. Piú specicamente, i valori della Y utilizzati per calcolare la media sono quelli corrispondenti ai k valori della variabile X piú vicini al punto x in cui si vuole stimare la funzione m(x). Formalmente lo stimatore k-NN puó essere cosí descritto: m̂k (x) = n −1 n X i=1 101 Wki (x)Yi (8.36) ed i pesi {Wki (x)}ni=1 risultano cosí deniti: Wki (x) = n/kse i ∈ Jx 0 altrimenti (8.37) rispetto ad un insieme di indici: è una delle k osservazioni più vicine ad x} La stima della funzione m(•) in un punto x rispetto al quale i dati sono piuuttosto dispersi fa si che le k osservazioni piú prossime al punto x siano abbastanza lontane da x, e di conseguenza l'intervallo costruito intorno al punto x sia ampio. Quindi k é il parametro di smoothing dello stimatore, in quanto un incremento di k fa aumentare l'ampiezza dell'intervallo di stima e rende la funzione piú smussata. Lo stimatore k-NN puó essere visto come uno stimatore kernel uniforme del tipo K(u) = 12 I(|u| ≤ 1) con ampiezza dell'intervallo variabile h = R(k), dove con R(k) si é indicata la distanza tra il punto x ed i k punti ad esso piú vicini. Esso quindi risulta: Jx = {i : Xi Pn KR (x − Xi )Yi m̂k (x) = Pi=1 n i=1 KR (x − Xi ) (8.38) Lo stimatore k-NN puó essere generalizzato considerando anche stimatori kernel diversi da quello uniforme. É possibile considerare per ogni xi intervalli simmetrici, ossia scegliere le k osservazioni che precedono xi e le k osservazioni successive ad xi , calcolando in ciascuno dei due intervalli la media aritmetica dei corrispondenti valori della y. Tale stimatore é detto stimatore k-nn simmetrico. 8.4.6 Median Smoothing Lo stimatore kernel median smoothing puó essere considerato un caso particolare di applicazione di uno stimatore k-NN per la stima della mediana condizionata di una distribuzione doppia di probabilitá. La mediana condizionata M ed(Y |X = x) é uno stimatore piú robusto del valore atteso condizionato E(Y |X = x). Esso consente inoltre di stimare eventuali punti di discontinuitá della funzione di regressione M ed(Y |X). In termini formali lo stimatore in esame é descritto nel seguente modo: m̂(x) = M ed{Yi : i ∈ Jx } 102 (8.39) in cui: Jx = {i : Xi é uno dei k punti piú vicini ad x} In pratica si procede calcolando la mediana dei punti Yi rispetto ai k punti Xi piú vicini al punto x. 8.4.7 Running Line smoother Una semplice generalizzazione dello stimatore media mobile é costituita dal running line smoother, che eettua un stima col metodo dei minimi quadrati ordinari in ciascun intervallo invece di calcolare semplicemente la media aritmetica dei valori della variabile di risposta. Il running line smoother é denito da: s(x0 ) = α̂(x0 ) + β̂(x0 )x0 in cui α̂(x0 ) e β̂(x0 )x0 costituiscono i coecienti della stima eettuata col metodo dei minimi quadrati ordinari in un intervallo di x0 indicato con N S (x0 ). Il parametro k, ossia il numero di punti compresi in ciascun sottointervallo, determina la forma della funzione stimata. Valori elevati di k tendono a produrre curve piú smussate, mentre valori contenuti di k tendono a produrre delle curve il cui andamento é piú irregolare. In questo caso é piú conveniente ragionare non in termini di k, ma in termini di w = (2k + 1)/n, ossia considerare la proporzione di punti piú vicina al punto xi rispetto al quale si vuole eettuare la stima, denominata span. Con [N S (xi )] si indica proprio il numero di punti in N S (xi ). Nel caso estremo, se w = 2, ogni intervallo contiene tutti i dati osservati, ed la stima mediante running line smoother equivale ad approssimare la relazione tra le variabili osservate mediante una classica retta di regressione lineare. All'opposto se risulta w = 1/n, ogni intervallo contiene una sola osservazione e quindi si eettua una semplice interpolazione dei dati. Il running line smoother generalmente produce stime caratterizzate da curve il cui andamento é molto irregolare e frastagliato, perché ai punti compresi in un certo intervallo é attribuito nella procedura di stima lo stesso peso (non nullo), mentre ai punti al di fuori dell'intervallo é attribuito un peso nullo. Quindi man mano che si eettua la stima in ciascun intervallo muovendosi da sinistra verso destra, i pesi attribuiti ai punti situati all'estrema destra ed all'estrema sinistra di ciascun intervallo restano costani o registrano cambiamenti di lieve entitá. Quando si ricorre a tale stimatore é preferibile 103 utilizzare intervalli simmetrici, perché si ottiene una migliore performance dello stimatore ripetto ai punti situati sulle code (di destra e di sinistra) della distribuzione. Infatti, nel caso di intervalli non simmetrici, l'intervallo costruito rispetto ai punti situati sulle code conterrá lo stesso numero di osservazioni di quello costruito rispetto ad un qualunque altro punto situato in prossimitá del valore mediano, e quindi eettuando in tale intervallo una stima con il metodo dei minimi quadrati si assegnerá alle osservazioni situate in prossimitá delle code della distribuzione lo stesso peso assegnato a tutte le altre osservazioni. Utilizzando intervalli simmetrici si eettua, nei punti situati in prossimitá delle code, una stima in un intervallo contenente solo la metá delle osservazioni ricomprese negli altri intervalli, e quindi in tal modo si attribuisce un peso minore alle osservazioni situate in prossimitá delle code. 8.4.8 Lo stimatore lowess (locally weighted running line smoother) Lo stimatore lowess é stato introdotto per migliorare in taluni casi le stime ottenute attraverso il running line smoother ed ottenere stime caratterizzate da curve con andamento piú regolare, eettuando in ciascun intervallo una stima con il metodo dei minimi quadrati ponderati. La procedura di stima col metodo dei minimi quadrati ponderati rispetto ad un certo punto x0 , indicata con s(x0 ), e calcolata rispetto ai k punti piú vicini ad x0 , avviene attraverso le seguenti fasi: 1. Si individuano i k punti piú vicini ad x0 , e li si indica con N (x0 ). 2. Si calcola la distanza massima tra x0 ed il punto piú lontano ricompreso in N (x0 ), e la si indica con ∆(x0 ) = maxN (x0 ) |x0 − xi |. 3. Si assegnano dei pesi ad ogni osservazione in N (x0 ) utilizzando la seguente funzione: W( |x0 − xi | ) ∆(x0 ) in cui: W (u) = (1 − u3 )3 se 0 ≤ u < 10 altrimenti é una funzione tricubica che attribuisce dei pesi variabili a ciascuna xi . 104 4. Si calcola la stima di x0 , indicata con s(x0 ), applicando il metodo dei minimi quadrati ponderati ai valori della variabile dipendente corrispondenti ai valori del predittore x compresi in N (x0 ), attribuendo a ciascuna osservazione dei pesi Wi calcolati nella fase precedente. Nella procedura di stima mediante lowess possono utilizzarsi sia intervalli simmetrici che non simmetrici, ma anche ricorrendo ad intervalli non simmetrici la funzione tricubica permette di sottopesare le osservazioni situate sulle code della distribuzione. 8.4.9 Stimatori Spline La funzioni spline per la stima di una funzione di probabilitá incognita sono costruite considerando la somma dei quadrati dei residui (RSS) come criterio di approssimazione di un certo insieme di dati attraverso una funzione m. La quantitá RSS é denita come: n X {Yi − m(Xi )}2 i=1 É possibile denire una funzione m(Xi ) = Yi , i = 1, . . . , n al ne di minimizzare la RSS attraverso un'interpolazione dei dati, senza investigare sulla particolare struttura che tali dati possono assumere. Le funzioni spline conseguono quest'obiettivo aggiungendo uno stabilizzatore che penalizza le zone non smussate della funzione m. Un possibile stabilizzatore é: ” km k22 = Z {m” (x)}2 dx Quindi é possibile riformulare il problema di minimizzazione nel seguente modo: m̂λ = arg min Sλ (m) m con: Sλ (m) = n X {Yi − m(Xi )}2 = λ k m” k22 (8.40) (8.41) i=1 Qualora si considera una classe di funzioni che ammettono derivata seconda in un intervallo [a, b] = [X(1) , X(n) ] (con X1 ed Xn indichiamo rispettivamente le statistiche del primo e dell' n-esimo ordine) allora l'unica funzione 105 che massimizza la (8.62) é lo stimatore spline cubico m̂λ (x), costituito dal seguente polinomio di terzo grado: pi (x) = αi + βi x + γi x2 + δi x3 , i = 1, . . . , n − 1 denito rispetto ai valori assunti dalle due statistiche d'ordine X(i) ed X(i+1) . Il parametro λ controlla il peso attribuito dalla funzione stabilizzatrice quando si procede alla minimizzazione. Piú aumenta il valore di λ maggiore é il peso attribuito ad k m” k22 e piú smussata risulta la stima. Al tendere di λ a zero la funzione mλ corrisponde ad una semplice interpolazione dei dati (rispetto alla variabile Y ). Se λ tende ad ∞ allora mλ é una funzione lineare in x. Anché lo stimatore ammetta la derivata seconda bisogna assicurarsi che non esistono salti nella funzione pi e neanche nelle sue prime due derivate calcolate rispetto alle statistiche d'ordine (si ricordi che il dominio del polinomio di grado i-esimo pi (x) é dato dall'intervallo tra le statistiche d'ordine X(i) ed X(i+1) ). Formalmente abbiamo: pi (X(i) ) = pi−1 (X(i) ) p0i (X(i) ) = p0i−1 (X(i) ) p”i (X(i) ) = p”i−1 (X(i) ) Inoltre deve essere soddisfatta un'ulteriore condizione limite: p”1 (X(1) ) = p”n−1 (X(n) ) É possibile dimostrare che sotto certe condizioni lo stimatore spline é asintoticamente equivalente ad uno stimatore kernel in cui la funzione K é specicata come Spline kernel: KS (u) = 1 |u| |u| π exp(− √ ) sin( √ + ) 2 2 2 4 con intervalli la cui ampiezza é data da h(Xi ) = λ1/4 n−1/4 f (Xi )−1/4 . 8.5 Regressione semiparametrica All'inizio della presente trattazione sono stati introdotti i modelli di regressione non parametrica multivariata e si é evidenziato che uno dei principali limiti relativamente al loro impiego é quello della dimensionalitá. Numerosi sono stati gli sforzi degli studiosi per cercare di ridurre il problema della 106 dimensionalitá. Diversi approcci sono stati proposti per generalizzare i modelli di regressione parametrici al ne di impiegare funzioni arbitrarie non monotone. I modelli semiparametrici consentono di valutare il legame tra la variabile di risposta e ciascun predittore attraverso l'utilizzo di funzioni di smoothing arbitrarie. In tali modelli una suddivisione dei predittori avviene proprio in base alla loro natura. In particolare in presenza di variabili esplicative categoriche (dicotomiche o politomiche) é importante eettuare una separazione tra i diversi tipi di predittori. Nel seguito T = (T1 , . . . , Tq )T indica un vettore di variabili esplicative numeriche, mentre X = (X1 , . . . , Xp )T indica un vettore di variabili esplicative categoriche. Si possono distinguere i seguenti tipi di modelli semiparametrici: • Modelli Additivi (Additive Models, AM) Il modello additivo classico é una generalizzazione del modello classico di regressione lineare. In questo caso si ipotizza che il valore atteso condizionato di Y dato T é uguale alla somma di funzioni incognite delle variabili esplicative piú un termine costante: E(Y |T) = α + q X fj (Tj ) (8.42) j=1 Anche in questo caso si ottiene una riduzione della dimensionalitá del problema. Invece di stimare ogni singola funzione per ogni singola variabile, come avviene nel caso della regressione non parametrica, bisogna semplicemente stimare q funzioni di un'unica variabile. • Modelli Parzialmente Lineari (Partially Linear Models, PLM) In tali modelli si considera un vettore di dimensioni (p + q) di variabili esplicative (X = (X1 , . . . , XpT ) e T = (T1 , . . . , Tq )T ). Il modello di regressione assume la seguente forma: E(Y |X, T) = β T X + m(T) (8.43) in cui m(•) é una funzione incognita multivariata del vettore T. Quindi un modello parzialmente lineare puó essere visto come la somma di una parte completamente parametrica (β T X) ed una parte completamente non parametrica m(T). La stima di β e di m(•) richiede l'utilizzo di tecniche parametriche e non parametriche. 107 • Modelli Additivi Generalizzati (Generalized Additive Models, GAM) I modelli additivi generalizzati sono basati sulla somma di q funzioni non parametriche relative a q variabili T (oltre al termine costante). Inoltre essi si basano sull'impiego di una funzione legame parametrica nota, indicata con G(•), che collega le diverse funzioni che legano la variabile dipendente a ciascun predittore. Il modello é descritto dalla seguente equazione: E(Y |T) = G{α + q X fj (Tj )} (8.44) j=1 • Modelli Parzialmente Lineari Generalizzati (Generalized Partial Linear Models, GPLM) Tali modelli derivano da una generalizzazione della forma lineare XT β+ TT γ ad una forma parzialmente lineare XT β + m(T). Il modello che ne risulta é il seguente: E(Y |X, T) = G{XT β + m(T)} in cui G é una funzione legame incognita. In questo caso le funzioni m(•) sono funzioni multivariate non parametriche della variabile T. • Modelli Parzialmente Lineari e Parzialmente Additivi Generalizzati (Generalized Partial Linear Partial Additive Models, GPLPAM) All'aumentare del numero dei predittori numerici, e quindi del numero delle dimensioni, per la stima della funzione non parametrica m(•) in un modello GPLM si incontra lo stesso ostacolo che si presenta nelle stime di funzioni di regressione non parametriche multidimensionali, e cioé il problema della dimensionalitá e le dicoltá di interpretazione dei risultati a cui tale problema conduce. Per tali motivi é ragionevole pensare ad una modellizzazione non parametrica in un numero minore di dimensioni della parte non parametrica di un modello. Una possibile soluzione é fornita dai modelli GPLPAM, che presentano una struttura additiva relativamente alla componente non parametrica assimilabile ad un modello additivo generalizzato. Il modello in esame é il seguente: E(Y |X, T) = G{XT β + f1 (T1 ) + . . . + fd (Td )} 108 In questo caso le funzioni fj (•) sono funzioni non parametriche univariate delle variabili Tj . 8.6 Modelli Additivi Generalizzati Nel paragrafo precedente sono stati introdotti i Modelli Additivi (MA) ed i Modelli Additivi Generalizzati (GAM). Dalla (8.69) e dalla (8.90) risulta che i modelli additivi rappresentano un caso speciale di modello additivo generalizzato, e cioé possono essere considerati dei GAM in cui la funzione legame é rappresentata dalla funzione identitá. Di conseguenza l'attenzione sará focalizzata sui GAM e sará trattato il caso speciale di Modello Additivo. Rispetto al modello classico di regressione lineare semplice nei modelli additivi generalizzati si mantiene l'ipotesi riguardante la distribuzione (normale) degli errori. Il modello GAM é espresso dalla seguente equazione: E(Y |X) = G[α + d X fj (Xj )] (8.45) j=1 in cui G(•) é una funzione legame parametrica nota che collega le diverse funzioni che legano la variabile dipendente a ciascun predittore. 8.6.1 Algoritmi di stima per i Modelli Additivi Generalizzati Per comprendere come si stimano le funzioni incognite fj (•), j = 1, . . . , d si consideri il caso di un Modello Additivo, ossia di un modello GAM in cui la funzione legame é la funzione identitá. La stima delle funzioni fj (•), j = 1, . . . , d in: E(Y |x) = β0 + d X fj (xj ) j=1 avviene attraverso l'algoritmo di backtting. Tale algoritmo é basato su una procedura di stima iterativa dei residui parziali. Si supponga di avere soltanto due variabili esplicative, X1 ed X2 . Il modello é dato da: Yi = β0 + f1 (xi1 ) + f2 (xi2 ) + i Si supponga inoltre di disporre della stima iniziale della funzione f2 (x2 ), indicata con fˆ2 (x2 ), e della stima iniziale dell'intercetta del modello, indicata 109 con β̂0 . Bisogna quindi stimare la funzione f1 (x1 ). Tale stima puó essere ottenuta calcolando dapprima i residui parziali nel seguente modo: (1) ri = Yi − β̂0 − fˆ2 (xi2 ) ed eettuando successivamente una regressione non parametrica di r rispetto ad X1 . A tal proposito bisogna notare che i residui parziali r possono essere considerati come la variabilitá residua di Y al netto dell'eetto della variabile X2 . Quindi si stima f1 (x1 ) eettuando un'analisi di regressione in cui si vuole stimare la variabilitá della Y non "spiegata" da X2 (e contenuta in r) attraverso il predittore X1 . In tale contesto é possibile utilizzare anche uno degli stimatori non parametrici introdotti nei paragra precedenti. Si indichi la funzione stimata con fˆ1 (x1 ). Da tale funzione é possibile calcolare nuovamente i residui parziali nel seguente modo: (2) ri (1) = ri − fˆ2 (xi2 ) = Y1 − β̂0 − fˆ1 (xi1 ) − fˆ2 (xi2 ) ed eettuare un'analisi di regressione di r(2) rispetto ad X2 per ottenere una nuova stima di f2 (x2 ). Questa procedura iterativa puó essere ripetuta no a che le funzioni stimate fˆ1 (x1 ) ed fˆ2 (x2 ) non subiscono variazioni signicative in due successive iterazioni. L'algoritmo di backtting puó essere generalizzato al caso di piú predittori. L'algoritmo é illustrato nello schema seguente. Algoritmo di Backtting per un Modello Additivo Inizializzazione fˆj = 0 per j = 1, . . . , d β̂0 = Ȳ Ripeti per j = 1, . . . , d ripeti il seguente ciclo: ri = Yi − β̂0 − P l6=j fˆl (xil ) fˆj (xij ) = S(r|xij ) Fino a che l'algoritmo non converge. Da osservare che le stime iniziali delle funzioni f sono tutte pari a zero, mentre la stima iniziale dell'intercetta é semplicemente la media campionaria della variabile dipendente. Nello schema di cui sopra r = (r1 , . . . , rn ) indica 110 il vettore dei residui marginali ed S(r|xij ) indica una funzione di smoothing, quale ad esempio uno stimatore kernel. L'algoritmo di backtting illustrato era relativo al caso particolare di un modello additivo generalizzato la cui funzione legame era la funzione identitá. Nel caso di una funzione legame piú complessa la stima del modello avviene in due fasi. In tali casi nella procedura di stima bisogna tener conto che la variabile Y non é direttamente legata alla somma delle funzioni fj (•), j = 1, . . . , d, ma tale legame é indiretto e dipende proprio dal tipo di funzione legame utilizzata. Si consideri ad esempio il residuo parziale risultante dalla prima iterazione dell'algoritmo di backtting: (1) ri = Yi − β̂0 − fˆ2 (xi2 ) Tali residui parziali ignorano completamente l'eetto della funzione legame. A tale proposito invece di utilizzare Yi nell'algoritmo di backtting, é opportuno ricorrere ad un'opportuna trasformazione dei valori della Y , data proprio dall'inverso della funzione legame. Se si indica con z la variabile dipendente trasformata e si applica su tale variabile l'algoritmo di backtting, considerando quindi i residui parziali rispetto a z si ottiene una stima delle funzioni fj (•), j = 1, . . . , d che descrivono l'eetto dei predittori sulla variabile trasformata z . Ma qual é l'eetto di tali predittori sulla variabile originaria Y ? In questo caso la stima del modello avviene tramite l'algoritmo di local scoring. La procedura di stima di un modello additivo generalizzato é quindi basata su due algoritmi: l'algoritmo di backtting e l'algoritmo di local scoring. L'algorimo di backtting é utilizzato all'interno della procedura di local scoring. L'algoritmo di local scoring e quello di backtting nel caso di funzione legame diversa dalla funzione identitá sono descritti negli schemi seguenti, nei quali r = (r1 , . . . , rn )T indica un vettore di residui (marginali) e w un vettore di pesi. S(r|w, xji ) indica una funzione di smoothing. La caratteristica principale dei modelli additivi generalizzati é che essi permettono la stima di relazioni funzionali tra le diverse variabili. In realtá le funzioni fˆj (xj ) riettono il fatto che l'inuenza di un predittore dipende dal corrispondente valore assunto dalla variabile di risposta e non é necessariamente costante (come accade invece nei modelli Logit). Per tale motivo i predittori categorici possono essere facilmente inclusi nel modello, e le loro funzioni di stima saranno funzioni a gradini (step functions). Il punto debole dei modelli GAM é che essi richiedono l'uso di procedure 111 Inizializzazione Algoritmo di Local Scoring ĝj = 0 per j = 1, . . . , d (0) β̂0 = G−1 (ȳ) Ripeti rispetto al contatore di iterazione esterno m calcola il criterio di convergenza ∆ ⇐ variazioni (m) η̂i (m) = G(η̂i (m) zi = η̂i relative di β̂0 , ĝj ) (m) δG−1 (m) ) δµ (µ̂i ) + (yi − µ̂i (m) wi = { δG δη [η̂i (m) −1 ) ]}2 (Vi ottieni β̂0(m+1) , ĝj(m+1) applicando l'algoritmo di backtting alle zi con predittori xi e pesi wi Fino a che l'algoritmo non converge. 112 Algoritmo di Backtting per un Modello Additivo Generalizzato Inizializzazione ĝj = 0 per j = 1, . . . , k β̂0 = z̄ Ripeti per j = 1, . . . , k ripeti il seguente ciclo: ri = zi − β̂0 − P l6=j ĝl (xil ) ĝj (xij ) = S(r|w, xij ) Fino a che l'algoritmo non converge. iterative. Il costo computazionale di tali procedure é spesso notevole quando si opera con grosse basi di dati. 113 Capitolo 9 La segmentazione binaria 9.1 Le strutture ad albero Obiettivo dei metodi di segmentazione è la costruzione di una struttura ad albero per descrivere la dipendenza di una variabile dipendente da un insieme di variabili esplicative in problemi di classicazione e regressione. Per albero si intende un modello graco costituito da un insieme nito di elementi, detti nodi, che si dipartono da un nodo iniziale, che è la cosiddetta radice della struttura. Si tratta di un grafo aciclico diretto, in cui l'orientamento dei segmenti che uniscono i nodi, i cosiddetti archi, indica la direzione dei legami esistenti tra i nodi stessi. Si distinguono poi i nodi interni, usualmente rappresentati da cerchi, dai nodi terminali o foglie, rappresentati da quadrati. Una branca o sottoalbero dell'albero è ottenuta potando l'albero in uno dei nodi interni. Le strutture ad albero costituiscono un utile strumento di rappresentazione dell'informazione nel marketing, nel credit scoring, nella customer satisfaction etc. Il vantaggio nell'uso di questo tipo di strumento risiede proprio nel fatto che esso esprime gracamente i concetti di progressività e di inclusione che sono costitutivi di quello di gerarchizzazione e quindi consente di rappresentare legami gerarchici tra i dati. In generale, i metodi di segmentazione seguono un approccio supervisionato di tipo non parametrico per l'analisi di dati caratterizzati da alta dimensionalità, nel numero sia di variabili che di unità, e dalla non linearità nel legame di dipendenza tra le variabili. L'approccio supervisionato si dierenzia da un approccio non supervisionato, tipico dei metodi di cluster analysis, per la presenza di una variabile di risposta che denisce una distribuzione a-priori di riferimento. Se la variabile 114 di risposta è qualitativa si perviene ad una classicazione ad albero, mentre se è numerica ad una regressione ad albero. L'idea di base della segmentazione è di partizionare ricorsivamente un insieme di unità statistiche in gruppi sempre più ni (di numerosità inferiore) e sempre più omogenei internamente (rispetto alla distribuzione della variabile di risposta). Si determina in tal modo una partizione nale del gruppo iniziale presente al nodo radice in sottogruppi disgiunti ed esaustivi rappresentati dai nodi terminali dell'albero, a questi ultimi sarà assegnata una classe o un valore di risposta. Per denizione, i nodi terminali presenteranno un grado di omogeneità interna maggiore rispetto al gruppo di partenza, omogeneità valutata in riferimento alla distribuzione della variabile di risposta. I predittori agiscono come generatori delle possibili partizioni in modo da caratterizzare il passaggio delle unità da un nodo ai suoi discendenti. Se in ciascuna partizione, il numero di sottogruppi è costante e pari a due si eettua una segmentazione binaria pervenendo ad una struttura elementare ad albero binario. In tal caso, ad ogni nodo si dovrà scegliere la divisione migliore delle unità provando tutte le dicotomizzazioni di ciascun predittore. Una volta ottenuta la struttura ad albero, sarà poi possibile individuare quali interazioni tra i diversi split caratterizzeranno l'appartenenza ad un determinato nodo terminale piuttosto che ad un altro. Ad esempio, in un problema di credit scoring, si supponga che una banca abbia classicato le aziende in due classi, meritevoli del do bancario e non meritevoli, e che abbia registrato un insieme di indicatori aziendali utili a questo tipo di classicazione. La segmentazione può essere di ausilio per soddisfare due diversi obiettivi: esplorativo, per comprendere quali indicatori abbiano maggiormente inciso sulla classicazione fatta e quali loro interazioni siano più utili alla comprensione del fenomeno; decisionale, per classicare una nuova azienda in sana o non sana sulla base degli indicatori osservati, impiegando una regola di decisione costruita attraverso l'apprendimento fatto relativamente alle aziende già osservate. Nel primo caso, l'albero esplorativo permetterà di identicare, ad ogni livello dell'albero, quali predittori siano intervenuti nella procedura di segmentazione. Nel secondo caso, l'albero delle decisioni, che è stato costruito sulla base dell'informazione completa relativa ad un gruppo di aziende (campione di apprendimento), costituisce una regola per classicare una nuova azienda (di cui si conoscono le misurazioni dei predittori ma non la risposta) facendola scivolare nell'albero e, a secondo del gruppo terminale di appartenenza, si deciderà in merito alla concessione del do. In denitiva, è possibile condurre un'analisi esplorativa mediante la segmentazione per determinare sia una gerarchia di importanza tra le variabili sia 115 una partizione in gruppi ben discriminati dal potere esplicativo delle interazioni tra i predittori sulla variabile dipendente. Ogni procedura di segmentazione è caratterizzata da un criterio di partizione, da una regola di arresto della procedura e, inne, da una regola di assegnazione di una classe, o di un valore, alle unità di un nodo terminale. Quale approccio non parametrico, non si hanno ipotesi distribuzionali di tipo probabilistico ed il modello che ne deriva è una struttura ad albero, che, in quanto tale, non è esprimibile attraverso una semplice forma funzionale dipendente da parametri. Al ne poi di impiegare una struttura ad albero per l'analisi confermativa o decisionale, occorre denire una procedura induttiva per il passaggio dal campione osservato ad un ipotetico nuovo campione di cui si vuole prevedere la variabile di risposta. 9.2 La costruzione dell'albero esplorativo 9.2.1 Criteri di partizione Sia (Y, X) una variabile multivariata, di cui X è un vettore di M predittori (X1 , . . . , Xm , . . . , XM ) (misurati in scala nominale, ordinale, numerica) e Y è la variabile di risposta le cui modalità sono denite dalle classi apriori C = {1, . . . , j, . . . , J} (se qualitativa) o da numeri reali (se numerica), distinguendo la classicazione ad albero e la regressione ad albero rispettivamente. Si consideri un campione di N unità C = {(yn , xn ); n = 1, . . . , N } proveniente dalle distribuzione di (Y, X). L'analisi esplorativa ha come obiettivo la costruzione di un albero che individui quali interazioni tra le variabili sono discriminanti per la spiegazione della variabile dipendente. La costruzione dell'albero è determinata considerando una procedura di partizione ricorsiva in K gruppi disgiunti tali che le unità sono internamente omogenee ed esternamente eterogenee rispetto alla variabile dipendente Y . L'eterogeneità in ciascun nodo t è valutata mediante una misura di impurità denotata come iY (t). Nei problemi di classicazione, l'impurità si traduce in una delle seguenti misure: 1. tasso di errata classicazione iY (t) = 1 − maxj p(j|t) (9.1) 2. indice di eterogeneità del Gini iY (t) = 1 − X j 116 p(j|t)2 (9.2) 3. indice di entropia iY (t) = − X p(j|t)logp(j|t) (9.3) j dove p(j|t) è il numero di unità del nodo t che appartengono alla classe j . Nei problemi di regressione, l'impurità si traduce in una misura di varianza o di devianza di Y , quest'ultima sarà riferita alle sole unità del nodo: iY (t) = X (9.4) (yn − ȳ(t))2 xn ∈t dove ȳ(t) è la media dei valori di risposta nelle unità del nodo t, i.e., xn ∈ t. Si denisce impurità totale dell'albero T la somma delle impurità nei nodi terminali appartenenti all'insieme T̃ : IY (T ) = X IY (t) = t∈T̃ X iY (t)p(t) (9.5) t∈T̃ dove IY (t) è l'impurità nel nodo t pesata dal numero di unità che dal nodo radice cadono nel nodo t, p(t) = N (t)/N . L'impurità totale di un albero è minima se si determina in ciascun nodo dell'albero, tra le diverse partizioni p appartenenti all'insieme P , la migliore partizione delle unità in K gruppi disgiunti tali che il decremento di impurità della variabile di risposta Y , nel passaggio dal nodo padre t ai K nodi gli tk , è massimo: maxp∈P ∆iY (t, p) = maxp {iY (t) − X iY (tk )p(tk |t)} (9.6) k dove p(tk |t) è la propozione di unità del nodo t che cadono nel k-esimo discendente. Infatti, è possibile dimostrare che la (9.5) è equivalente alla seguente espressione: IY (T ) = X ∆IY (h, p) = h∈H X ∆iY (h, p)p(t) h∈H̃ dove H è l'insieme dei nodi non terminali o interni dell'albero T . 117 (9.7) 9.2.2 Algoritmo accelerato FAST Come si determina l'insieme P dei candidati alla partizione delle unità di ciascun nodo? Le partizioni sono determinate sulla base dei predittori: occorrerebbe denire il numero di modi possibili in cui partizionare in K gruppi le modalità di ciascun predittore. Nella maggior parte delle applicazioni, si costruiscono alberi binari (per K = 2) suddividendo in due soli gruppi le unità di ciascun nodo. In tal caso, un predittore a G modalità distinte, se misurato in scala numerica o ordinale genera G − 1 possibili suddivisioni (dette anche split), mentre se misurato in scala nominale ne genera 2G−1 − 1. In generale, l'insieme P include tutte le partizioni possibili generate da tutti i predittori osservati al nodo t. La migliore partizione p∗ è determinata tra le migliori partizioni di ciascun predittore, ciascuna delle quali è ottenuta minimizzando il fattore locale di riduzione dell'impurità al nodo t: ωY |p (t) = X iY (tk )p(tk |t) (9.8) k per p ∈ Pm , dove Pm è l'insieme delle partizioni generate dal generico predittore Xm . Si noti che la (9.8) corrisponde al secondo termine dell'espressione al secondo membro di (9.6). Questo criterio di partizione è in sostanza presente nella maggior parte delle procedure di segmentazione implementare nei software specialistici (ad esempio, CART, ID3, CN4.5). Tuttavia, è possibile ridurre il costo computazionale della segmentazione attraverso criteri alternativi di partizione. Il criterio a due stadi (noto come two-stage) opera nel modo seguente: si determina, dapprima, un sottoinsieme di migliori predittori (anche solo uno) della Y , e si determina, successivamente, la migliore partizione a partire dai soli migliori predittori. In proposito, si denisce fattore globale di riduzione dell'impurità di un generico predittore Xm la seguente espressione: ωY |Xm (t) = X iY |g (t)p(g|t) (9.9) g∈Gm dove iY |g (t) è l'impurità della Y nella distribuzione condizionata di Y data l'm-esima modalità del predittore Xm avente Gm modalità, con m ∈ M . Il criterio a due stadi minimizza dapprima la (9.9), al ne di trovare uno o più predittori che meglio riducono globalmente l'impurità, per poi minimizzare la (9.8) considerando solo le partizioni generate dai migliori predittori. Questo criterio può essere applicato sic et simpliciter, misurando la riduzione globale e locale dell'impurità in diversi modi, considerando le misure di impurità sopra menzionate oppure strategie integrate che impiegano modelli 118 statistici. Invero, il criterio a due stadi non necessariamente determina la migliore partizione secondo la (9.6). Al ne di pervenire alla soluzione ottimale, è utile richiamare il seguente risultato: Se una misura di impurità soddisfa la condizione ωY |Xm (t) ≤ ωY |p (t) (9.10) per ogni p ∈ Pm di Xm , allora la migliore partizione può essere determinata dall'algorimo accelerato denominato FAST. Questo consiste nei seguenti due passi fondamentali: • si applica iterativamente il criterio a due stadi basato su (9.9) e (9.8), selezionando ad ogni passo un predittore alla volta ed eliminando quelli selezionati nei passi precedenti; • si arrestano le iterazioni quando, per il migliore predittore corrente X(v) alla iterazione v , si verica la condizione ωY |X(v) (t) ≤ ωY |p∗(v−1) , dove p∗(v−1) è la migliore partizione alla iterazione (v − 1). In altre parole, l'algoritmo aggiorna la migliore partizione no a quando il predittore selezionato presenta un fattore di riduzione globale inferiore al fattore di riduzione locale della soluzione corrente: ciò signica che tale predittore genererà quale migliore partizione una soluzione certamente peggiore (al più non migliore) di quella corrente (in virtù della condizione (9.10)); inoltre, la soluzione corrente sarà quella ottimale poichè la selezione dei predittori avviene in senso non decrescente rispetto al potere esplicativo o potere di riduzione dell'impurità e quindi ogni altro futuro predittore sicuramente genererà una riduzione globale inferiore e quindi una partizione non migliore di quella corrente. Questo algoritmo accelerato permette di trovare la soluzione ottimale che si avrebbe massimizzando la (9.6) con un notevole risparmio del costo computazionale richiesto dalle procedure di segmentazione in ciascun nodo (valutabile anche in base al numero di partizioni da provare prima di determinare la soluzione ottimale). Si dimostra teoricamente e mediante studi di simulazione che in media la riduzione relativa nel numero di split provati dal FAST rispetto all'approccio standard cresce al crescere del numero di modalità distinte del predittore ed al crescere del numero di unità presenti nel nodo. Inoltre, questi risultati sono maggiormente evidenti in presenza di predittori fortemente esplicativi della variabile dipendente, come spesso si riscontra in applicazioni su dati reali. 119 9.2.3 Arresto della procedura Uno dei vantaggi dei metodi di segmentazione consiste nella semplicità interpretativa del diagramma ad albero, purchè questo non sia di dimensioni elevate. La taglia" di un albero binario, ad esempio, è misurata dal numero di nodi terminali, o, equivalentemente, dal numero di suddivisioni, ovvero di nodi interni, che è pari al numero di nodi terminali meno uno. Si rende pertanto necessario denire dei criteri di arresto che fermino la crescita dell'albero. In particolare, un nodo è dichiarato nodo terminale se la riduzione dell'impurità conseguibile mediante la suddivisione del nodo stesso risulta inferiore ad una soglia pressata; alternativamente, se la numerosità del nodo è inferiore di una soglia pressata. Queste regole di arresto prescindono dal problema decisionale in quanto un nodo è dichiarato terminale senza considerare ciò che sarebbe accaduto, in termini di ulteriore decremento di impurità, lungo la branca che dalla segmentazione del nodo sarebbe stata generata. Si vedrà, nelle pagine che seguono, che la scelta della taglia dovrà essere fatta considerando anche l'accuratezza dell'albero, che è data dalla errata classicazione o previsione. Pertanto, se si vuole costruire un albero delle decisioni, piuttosto che arrestare la procedura, si opererà semplicando una struttura sovradimensionata. 9.2.4 Assegnazione della risposta ai nodi terminali Con i metodi di segmentazione si perviene ad una struttura ad albero i cui nodi terminali costituiscono una partizione del campione iniziale in gruppi puri al loro interno. Nell'interpretazione dell'albero esplorativo, si seguiranno i diversi percorsi della struttura gerarchica individuando le diverse interazioni tra predittori che conducono le unità a cadere in un nodo terminale piuttosto che in un altro. Ciascun nodo terminale sarà etichettato attribuendo la classe modale di risposta (in problemi di classicazione) o il valore medio (in problemi di regressione). In tal modo, si deniranno ad esempio i diversi percorsi che conducono alla stessa classe di risposta, oppure comprendere come varia la variabile di risposta in media al variare delle diverse interazione tra predittori. 9.3 L'induzione e l'albero delle decisioni 9.3.1 Il passaggio dall'esplorazione alla decisione Gli alberi esplorativi possono essere impiegati al ne di descrivere la struttura di dipendenza tra le variabili e come strumento di straticazione di un 120 collettivo. Non possono essere invece impiegati a scopi decisionali di classicazione o regressione per nuove unità. In tal caso, oltre alla taglia, occorre considerare anche l'accuratezza dell'albero, valutata con il tasso di errata classicazione o previsione. La procedura di segmentazione conduce ad un albero accurato per il campione impiegato per la sua costruzione, nel senso che il tasso di errore sarà tanto più basso quanto più cresce il numero di nodi terminali. Ma un albero troppo espanso può facilmente condurre ad alti errori di classicazione o di previsione per nuove unità. Si rende pertanto necessaria una procedura di induzione dell'albero, che ha l'obiettivo di denire la parte strutturale dell'albero, semplicando un albero troppo espanso, pur considerando l'accuratezza per nuove unità. In generale, si opera una distinzione tra campione di apprendimento, che viene impiegato per la costruzione dell'albero totalmente espanso (che presenta nodi non più ulteriormente partizionabili), e campione test, che è costituito da unità che non hanno partecipato alla costruzione dell'albero espanso. In pratica, la procedura di induzione opererà una semplicazione dell'albero totalmente espanso al ne di pervenire ad una struttura interpretabile (con un numero contenuto di nodi terminali) ed identicabile (con possibilità di classicare o prevedere nuove unità). Si osservi che non c'è indipendenza tra induzione e segmentazione, nel senso che la qualità della regola di decisione dipenderà anche dalle scelte fatte in merito al criterio di partizione, oltre che dalla natura stessa dei dati (tipo di variabili, eventuale categorizzazione delle variabili numeriche, etc.). 9.3.2 Criteri di validazione Per la validazione della struttura ad albero si considera la sua accuratezza: il tasso di errata classicazione ovvero il tasso di errata previsione. Sia nel caso della classicazione che in quello della regressione, non potendo determinare il vero valore del tasso di errore, occorre ricorrere ad una sua stima. A tal ne vi sono tre possibili stime: 1. stima di risostituzione; 2. stima test set; 3. stima cross validation; La stima di risostituzione. Questa stima è ottenuta considerando esclusivamente le unità appartenenti al campione di apprendimento. In generale, sia r(h) una misura dell'errore al 121 nodo terminale h nell'insieme HT e p(h) = N (h)/N la proporzione di unità che cadono in tale nodo; il tasso di errore si esprime come: R(T ) = X r(h)p(h), (9.11) h∈HT Per la classicazione, l'errore al nodo h si esprime come: r(h) = N (h) 1 X I(d(xn ∈ h) 6= jn ) N (h) (9.12) n=1 dove I(·) è una funzione indicatrice che assume valore 1 se la aermazione in parentesi è vera e quindi la classe assegnata alla osservazione n-esima (descritta dal vettore di predittori xi ) dalla regola d generata dall'albero dierisce dalla vera classe, e valore 0 altrimenti. In tal modo, la (9.12) esprime la proporzione di malclassicati al nodo terminale h, mentre, tenuto conto del peso p(h), la (9.11) esprime in denitiva il rapporto tra il numero di unità del campione di apprendimento malclassicate dall'albero T ed il totale delle unità N . Nella regressione, l'errore al nodo h si esprime semplicemente come varianza della variabile Y , per cui, tenuto conto della (9.11), si ha la somma delle devianze divisa per il totale delle unità. Si può inoltre esprimere il tasso di errore in termini relativi, rapportandolo all'errore iniziale del nodo radice t1 : RR(T ) = R(T ) . R(t1 ) (9.13) Il tasso di risostituzione, detto anche tasso apparente, essendo calcolato utilizzando i medesimi dati impiegati per costruire l'albero, fornisce una rappresentazione ottimistica della accuratezza ed è dunque assai poco utilizzato negli alberi delle decisioni, preferendosi il ricorso a stime ottenute con procedure che riducono il cosiddetto bias ottimistico. La stima test set. Questo tipo di stima si fonda sulla suddivisione (casuale) del campione di apprendimento C in due insiemi, C1 e C2 , con C1 ∪ C2 = C ed C1 ∩ C2 = ∅. L'insieme C1 (generalmente pari al 70% dei casi) viene impiegato per costruire la struttura ad albero, mentre l'insieme C2 , detto test set, viene successivamente fatto scivolare nell'albero per valutare quanto accuratamente questo sia in grado di classicare/predire il valore di risposta delle unità in esso presenti. Formalmente, si costruirà la stima nel seguente modo: 122 Rts (T ) = X Rts (h), (9.14) h∈HT dove la Rts (h) = rts (h)pts (h) è calcolata analogamente al caso precedente ma considerando le unità del campione test. Di norma si ricorre a tale metodo di stima quando C è di cardinalità elevata per non impoverire troppo l'insieme di dati che sarà utilizzato nella costruzione dell'albero. La stima cross validation. Quando il campione di apprendimento non è di cardinalità sucientemente elevata da consentire la distrazione di una parte delle osservazioni, anchè fungano da test set, si può ricorrere alla stima cross validation. Questa consiste nel suddividere l'insieme di apprendimento in un numero V di sottoinsiemi di uguale numerosità C1 , . . . , Cv , . . . , CV . Si costruiscono allora altrettante strutture ad albero Tv con le unità rispettivamente di C − C1 , . . . , C − CV . Ciascuna di queste sarà poi validata con le unità di volta in volta non impiegate, ottenendo in tal modo V stime test set Rts (Tv ) la cui media fornisce la stima cross validation: V 1 X ts R (Tv ) R (T ) = V cv (9.15) v=1 Si noti che per V = N si ottiene la cosiddetta stima leave-one-out. Questo metodo è parsimonioso" con i dati, infatti ogni unità in C è impiegata per costruire la struttura, ed ogni unità è usata esattamente una volta in un campione test. 9.3.3 La semplicazione delle strutture ad albero Il problema della semplicazione delle strutture ad albero trae origine dal fatto che gli algoritmi di partizione ricorsiva seguono una strategia cosiddetta divide et impera. Ciò comporta strutture ad albero di taglia considerevole e dunque complesse, caratterizzate da molteplici regole di classicazione/predizione per una stessa modalità della variabile di risposta e soprattutto regole risultanti dal concatenarsi di numerose condizioni, di risposte alle domande che determinano la partizione dei nodi. In generale, è auspicabile trovare un modello parsimonioso con il minor numero possibile di parametri. La complessità infatti sebbene accresca il potere esplicativo di un modello rispetto ai dati impiegati nella sua costruzione, 123 si traduce in una perdita di interpretabilità e in un minore potere predittivo rispetto a nuovi dati. Nel caso delle procedure ad albero, la complessità è misurata appunto dalla taglia della struttura data dal numero di nodi terminali. Quando l'obiettivo è decisionale, strutture troppo complesse comportano non solo la perdita della semplicità interpretativa del risultato graco, ma anche e soprattutto il fatto che parti consistenti della struttura risultano essere sovradattate" ai dati (overtting); in altre parole, talune delle branche (segnatamente quelle terminali) riettono caratteristiche peculiari del campione di apprendimento dovute alla procedura di raccolta dei dati, piuttosto che riettere relazioni sottostanti realmente esistenti tra i predittori e la variabile criterio. La semplicazione delle strutture ad albero si congura prevalentemente come rimedio al problema dell'overtting, conseguendo al contempo anche l'obiettivo della riduzione della taglia che facilita l'interpretazione dei risultati. Quando si applica una metodologia ad albero a dati aetti da incertezza, l'albero risultante tende ad essere molto grande ed inutilmente complesso nel tentativo di sfruttare tutta la informazione disponibile nei dati per discriminare tra le unità, nendo, tuttavia, con lo spiegare l'insieme di apprendimento piuttosto che il fenomeno. In particolare, occorre distinguere dati deterministici e dati aleatori o stocastici (uncertainty data). I primi sono caratterizzati dalla assenza di alea nella determinazione della modalità di risposta ad essi associato, nel senso che per ciascuna unità tale modalità è completamente determinata sulla base dei valori assunti dai predittori e si parla infatti di adeguatezza" degli stessi. In molti problemi reali invece, i dati presentano un grado di incertezza che rende il problema della classicazione/predizione più complesso. Diverse sono le fonti di incertezza. Usualmente, si fa riferimento ad errori di misurazione, di trascrizione o di rilevazione in generale che costituiscono il cosiddetto rumore (noise) ed è ciò che nelle indagini statistiche corrisponde all'errore extra-campionario (che causa una divergenza delle stime ottenute dal vero" valore, anche quando l'indagine e la conseguente analisi, avessero natura esaustiva). Invero, un'altra importante fonte di incertezza è la cosiddetta variazione residuale (residual variation), che è dovuta alla omissione di predittori signicativi e rilevanti per il fenomeno da spiegare, così che i predittori considerati risultano inadeguati per l'analisi statistica. In conclusione, i metodi di semplicazione si preggono l'obiettivo di inviduare le branche meno rilevanti o addirittura dannose ai ni della comprensione del fenomeno, in quanto sovradattate ai dati, e di rimuoverle. Pertanto il processo di pruning di una struttura ad albero pur accrescendo l'errore rispetto al campione di apprendimento, si traduce nella riduzione dello stes124 so quando l'albero viene validato" sul test set, le cui unità non sono state utilizzate nella fase di creazione della struttura, e di conseguenza per la risoluzione di nuovi problemi decisionali. 9.3.4 Pruning selettivo del CART La metodologia CART è la prima a proporre il pruning degli alberi. Si tratta di un metodo che genera una sequenza ottimale nidicata di sottoalberi potati, tra i quali ne viene selezionato uno nale quale regola di decisione per nuove unità. Questo metodo rimane a tutt'oggi quello maggiormente impiegato nelle applicazioni perchè è senz'altro il piú completo, basandosi esso sulla denizione di una misura che tiene conto sia dell'aspetto della taglia che di quello della accuratezza. Nel seguito, senza perdita in generalità, si farà riferimento al problema della classicazione. Si osservi che da ora in avanti saranno considerati solo sottoalberi dell'albero massimo, cioè che si dipartono dal nodo radice t1 . Sia T una generica struttura ad albero, si denisce misura di costo complessità della struttura la seguente grandezza: Rα (T ) = R(T ) + α|T̃ | = X r(h)p(h) + α|T̃ | (9.16) h∈HT dove R(T ) è il tasso (di risostituzione) di errata classicazione associato all'albero T , |T̃ | è il numero di nodi terminali dell'albero T ed α è un numero reale maggiore od uguale a zero, detto parametro di complessità. Tale parametro rappresenta una sorta di penalizzazione per la complessità che viene misurata dal numero di nodi terminali ciascuno dei quali apporta al tasso di errore una penalizzazione appunto pari ad α. Per ogni valore di α si indichi con T (α) il più piccolo sottoalbero dell'albero totalmente espanso Tmax che minimizza Rα (T ), ovvero: R[T (α)] = min Rα (T ), T ⊂Tmax (9.17) dove T ⊂ Tmax sta ad indicare che T è un sottoalbero di Tmax . Quando il parametro di complessità α è piccolo ciò vuol dire che la penalizzazione per avere un ampio numero di nodi terminali sarà piccola anch'essa e dunque l'albero T (α) sarà grande. Tuttavia, al crescere di α tale penalizzazione aumenta e T (α) presenterà un numero inferiore di nodi terminali, no a giungere, per α sucientemente grande, al solo nodo radice. Sebbene il parametro di complessità possa assumere un qualunque valore reale maggiore od uguale a zero, essendo i sottoalberi dell'albero totalmente 125 espanso Tmax in numero nito, il processo di pruning produce a sua volta una sequenza nita di sottoalberi con un numero decrescente di nodi terminali. In altre parole, se T (α) è il sottoalbero che minimizza la misura di errore complessità, Rα (T ) per un dato valore di α, esso continua ad esserlo al crescere di α stesso no a quando non viene raggiunto un punto di salto (jump-point), per un valore α0 maggiore di α ed un nuovo sottoalbero T (α0 ), con un minor numero di nodi terminali, diventa quello che minimizza la misura di costo-complessità. La sequenza di sottoalberi potati viene generata partendo dall'albero massimo e procedendo di volta in volta tagliando la branca che si diparte dal nodo che presenta il legame più debole (weakest link) con l'intera struttura. La individuazione del legame piú debole avviene proprio impiegando la misura di costo complessità individuando i successivi punti di salto che dall'albero massimo portano no alla radice t1 . In altre parole, la procedura di potatura avviene nel seguente modo. Sia α1 = 0 e si considerino due generici nodi terminali dell'albero massimo, h e h + 1, generati dalla suddivisione di un nodo interno t. Si dimostra che vale la seguente relazione: R(t) ≥ R(h) + R(h + 1). Se risulta vericata l'uguaglianza, allora i due nodi terminali vengono potati. Viene dunque effettuata una prima operazione di potatura rimuovendo tutti i nodi terminali per cui si verica la medesima circostanza, ottenendo in tal modo un albero T1 ⊆ Tmax . Sia ora t un generico nodo interno di T1 e sia inoltre Tt la branca che ha come radice t. La misura di costo-complessità al nodo t è data da: Rα (t) = R(t) + α = r(t)p(t) + α, (9.18) e analogamente per la branca Tt : Rα (Tt ) = R(Tt ) + α|T̃t | = X r(h)p(h) + α|T̃t | (9.19) h∈Ht dove r(·) è il tasso di risostituzione di errata classicazione, p(·) il peso del corrispondente nodo e Ht l'insieme dei nodi terminali della branca Tt . Il valore critico di α si ottiene risolvendo la seguente disuguaglianza: Rα (t) ≥ Rα (Tt ), (9.20) da cui si ha αt ≤ R(t) − R(Tt ) , |T̃t | − 1 126 (9.21) La (9.21) indica l'aumento di costo per nodo terminale quando si pota la branca che si diparte dal nodo t. Pertanto, si sceglierà di potare la branca che comporterà il minor costo. In pratica, l'algoritmo in CART calcola per ogni nodo interno dell'albero il valore di α che uguaglia la (9.20) e denisce legame più debole il nodo t∗ che presenta il valore più piccolo di tale parametro, che viene posto pari ad α2 . Il nodo t∗ costituisce il legame più debole nel senso che all'aumentare di α è il primo nodo per cui Rα (t) diventa uguale a Rα (Tt ) e quindi è il primo candidato ad essere potato. La procedura viene ripetuta sull'albero T2 ottenuto rimuovendo la branca che discende dal nodo t∗ . Operando in tal modo si ottiene una sequenza decrescente (in termini di taglia) di sottoalberi Tmax ⊇ T1 ⊃ T2 ⊃ · · · ⊃ Tk ⊃ · · · ⊃ t1 , corrispondente ad una sequenza crescente di valori di α, 0 = α1 < α2 < . . . . Occorre sottolineare che tale sequenza è ottimale nel senso che è ottenuta ricercando ad ogni passo di un algoritmo selettivo l'albero con il minore tasso di errore per dato numero di nodi terminali. 9.3.5 Criteri di scelta dell'albero onesto Una volta individuata la sequenza di sottoalberi si pone il problema di scegliere la struttura nale da utilizzare come modello" di classicazione. La regola di selezione proposta nel CART si incentra sulla scelta di quel sottoalbero dell'albero massimo che risulta essere piú accurato, a cui, in altre parole, è associata la minore stima del vero" tasso di errata classicazione. Per quanto già detto, se si utilizzasse come criterio di valutazione il tasso di risostituzione verrebbe selezionato, ovviamente, il sottoalbero più grande T1 . Si ricorre quindi alla stima test set o cross-validation. Tuttavia, in esperimenti sia su dati reali che simulati si è osservato che le stime del tasso di errata classicazione R(Tk ) in funzione del numero di nodi terminali |T̃k | presentano un andamento caratterizzato da un rapido decremento iniziale cui segue un tratto quasi piatto e poi un lento, graduale incremento per valori di molto elevati. Essendo la curva nel complesso alquanto piatta, la scelta del particolare sottoalbero che presenta il più piccolo tasso di errata classicazione può essere arbitraria, perchè il punto di minimo è instabile e piccoli cambiamenti nel valore dei parametri o addirittura nel numero casuale generato per suddividere l'insieme di apprendimento in V sottoinsiemi nel caso della procedura cross-validation o in due sottoinsiemi nel caso di stima test sample, possono causare ampie uttuazioni nel valore di |T̃k | per l'albero che minimizza il tasso di errore. Pertanto, nel CART è proposta una scelta del sottoalbero il cui tasso di errata classicazione si trova in un 127 intorno del minimo, intorno che viene individuato in base all'errore standard di tale minimo. Si consideri il caso della stima test set e sia C1 l'insieme di apprendimento impiegato nella costruzione di un generico albero T e C2 l'insieme test che si assume essere estratto dalla stessa distribuzione di C1 ma in maniera indipendente. La stima test set, Rts (T ), del vero" tasso di errata classicazione dell'albero T altro non è che la proporzione di casi in C2 malclassicati da T . Siccome quando si fanno scivolare le osservazioni appartenenti al test set nell'albero T , la stima della probabilità p∗ che una singola osservazione risulti malclassicata è data Rts (T ), è possibile descrivere le N ts prove indipendenti (dove N ts è il numero di osservazioni in C2 ) con probabilità p∗ di successo, mediante una variabile casuale binomiale relativa F tale che: (9.22) E(F ) = p∗ , p∗ (1 − p∗ ) . N ts di Rts (T ) è data (9.23) V ar(F ) = Quindi la stima dell'errore standard r SE(Rts (T )) = da: Rts (T )(1 − Rts (T )) . N ts (9.24) Indicando con Tk∗ il sottoalbero appartenente alla sequenza generata tale che: Rts (Tk∗ ) = min Rts (Tk ), k (9.25) si sceglierà il sottoalbero Tk∗∗ , dove k∗∗ è il più grande k (e quindi Tk∗∗ è il piú piccolo albero) che soddisfa la relazione: (9.26) Tale criterio di scelta che prende il nome di 1 − SE rule dà luogo sovente ad alberi di taglia n troppo piccola, è cioè viziato da over pruning (accade addirittura che si ottenga l'albero triviale formato dalla sola radice o che si pervenga ad alberi caratterizzati da una sola suddivisione); la scelta sic et simpliciter del sottoalbero che presenta il minor tasso di errata classicazione, può essere invece ritenuta frutto di una 0 − SE rule. Ancora una volta è importante sottolineare come le metodologie ad albero orano molti spunti di intervento al giudizio scientico del ricercatore che eettua l'analisi che si traduce in tale caso nella ispezione sella sequenza Rts Tk∗∗ ≤ Rts (Tk∗ ) + SE(Rts (Tk∗ )). 128 di sottoalberi e nella eventuale scelta di un albero diverso da quelli corrispondenti alla 1 − SE e alla 0 − SE rule che meglio risponda alla natura del problema e/o alle esigenze della analisi. Inne, il metodo proposto nel CART può essere agevolmente adattato al caso in cui gli errori di classicazione abbiano un costo diverso, dipendente dalle loro conseguenze, e/o al caso in cui le classi presentino una diversa probabilità a priori. 9.4 Vantaggi dei metodi di segmentazione In contrasto con i metodi classici, le metodologie ad albero presentano dei notevoli vantaggi che si possono riassumere nei seguenti punti: • sono tecniche non parametriche che non abbisognano della specicazione di un modello; • orono la possibilità di utilizzare predittori di diversa natura; • danno luogo ad una rappresentazione graca di facile interpretazione che consente di visualizzare con immediatezza le relazioni esistenti tra variabile criterio e predittori. Si potrebbe dire che tali metodologie rispondono ad un problema classico della statistica senza presentare molti degli inconvenienti dei metodi classici impiegati al medesimo scopo. 129 Capitolo 10 Market Basket Analysis 10.1 Premessa La Market basket Analysis é una metodologia orientata all'identicazione delle relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita della grande distribuzione. In questo ambito, i dati collezionati consistono solitamente nell'insieme delle transazioni d'acquisto eettuate dai clienti in un certo periodo. Le decisioni tipiche che il management di un supermarket si trova ad arontare sono del tipo: • • • Quali prodotti porre in vendita? Su quali prodotti focalizzare le oerte promozionali (punti, carte delity, etc.)? Come ottimizzare il posizionamento dei prodotti negli scaali? Queste scelte hanno tutte un unico obiettivo: massimizzare il protto. Oggi grazie alla diusa informatizzazione dei punti vendita non é raro che i dati inerenti le vendite passate di un supermarket siano collezionati in database in formato elettronico che consentono una facile ed immediata estrapolazione della conoscenza. Ne deriva quindi che l'analisi delle informazioni passate rappresenta una via agevole per migliorare la qualitá di tali decisioni. Partendo dall'insieme delle transazioni, l'obiettivo principale dell'analista é quello di porre in evidenza la struttura di interdipendenza sottostante le vendite dei diversi prodotti disponibili. La corretta identicazione ed estrapolazione delle regole signicative tra tutte le possibili regole che possono essere generate da un dataset é condizionata alla disponibilitá di un considerevole 130 quantitá di informazioni che permettano di identicare i clienti e seguire l'evoluzione dei loro acquisti nel corso del tempo. 10.2 I Dati La base di dati a cui si fa generalmente riferimento in questo tipo di analisi é una matrice in cui ogni riga rappresenta una transazione eettuata da un cliente in un dato momento (detta basket). Tale transazione include l'insieme di prodotti che il cliente ha acquistato e che quindi sono presenti nel suo basket. Nelle colonne della matrice sono indicati i prodotti (detti item) attraverso l'us1o di variabili binarie che registrano l'assenza o la presenza di un determinato item in una particolare transazione (0=assenza, 1=presenza). La matrice che segue ne é un esempio: Transazioni Pane Burro Caé Zucchero Transazione 1 Transazione 2 Transazione 3 Transazione 4 Transazione 5 Transazione 6 Transazione 7 Transazione 8 ............. 1 1 0 0 1 0 0 1 ... 0 1 0 0 1 1 0 0 ... 0 1 1 0 0 0 1 1 ... 1 0 1 1 1 0 0 0 ... Osservando la matrice nell'esempio possiamo aermare che la prima transazione include pane e zucchero mentre la seconda include pane, burro e caé etc.. 10.3 La Market Basket Analysis attraverso le Regole Associative La ricerca di regole di associazione all'interno di un Database di transazioni é stata introdotta per la prima volta nel 1993 da Agrawal, Imielinski e Swami. Le regole associative possono considerarsi come particolari tecniche di data mining proposte per la risoluzione di problemi di Market Basket Analysis . L'obiettivo principale é quello di identicare set di attributi, denominati items, che frequentemente ricorrono insieme e formulare regole che caratterizzano la relazione esistente tra items. Nel caso della Market Basket Analysis gli items sono prodotti acquistati dai consumatori ed ogni transazione puó 131 riguardare piú items. Supponiamo di trovarci in un supermercato dove ogni singola transazione effettuata da un acquirente viene registrata in un database. Ogni transazione é caratterizzata da una serie di attributi acquistati da un consumatore in una visita. Potremmo quindi avere un'insieme di attributi I = formaggio, pane, latte, burro, marmellata ed una qualsiasi transazione potrebbe riguardare l'acquisto di formaggio e pane oppure burro e marmellata o solo burro e cosí via. L'obiettivo é quello di identicare la combinazione di prodotti che frequentemente ricorrono insieme in modo da generare regole che possano rappresentare questa relazione. Una regola di associazione potrebbe quindi essere la seguente: pane ⇒ burro dove pane é l'antecedente della regola e burro é il conseguente. Il problema puó essere cosí formalizzato: considerato un insieme di m distinti attributi chiamati items I = I1 , I2 , ....., Im ed un database di transazioni T dove ogni transazione t é un insieme di attributi contenuto in I in modo tale che t ⊆ I e vi é un unico identicatore associato ad ogni transazione. Dato un attributo Ix ⊆ I , una transazione t contiene Ix se e solo se Ix ⊆ t. Una regole di associazione é un'implicazione del tipo Ix ⇒ Iy , dove {Ix , Iy } ⊆ I e Ix ∩ Iy = ∅. Una regola Ix ⇒ Iy é confermata nel database che contiene Ix contiene anche Iy 1 . Mentre ha supporto s se l's% delle transazioni nel database contiene Ix e Iy . In termini formali quindi data una regola Ix ⇒ Iy si denisce supporto della regola: Sup (Ix ⇒ Iy ) = P (Ix ∩ Iy ) (10.1) Conf (Ix ⇒ Iy ) = P (Iy |Ix ) (10.2) e condenza: In maniera sintetica si potrebbe dire che mentre la condenza misura la forza della regola, il supporto ne misura la signicativitá statistica. Ritornando all'esempio precedente possiamo aermare che la regola: pane ⇒ burro 1 Agrawal, R., Imielinski, T., Swami, A. (1993) 132 ha supporto del 56% ed una conndeza del 72%. Ci'øindica che il 56% delle transazioni che avvengono riguarda l'acquisto di pane e burro e il 72% di che acquista pane acquista anche burro. Dato un set di transazioni T, noi siamo interessati a generare tutte le regole che soddisfano due tipi di condizioni: • Vincoli Sintattici. • Vincoli sul Supporto. Questi vincoli interessano restrizioni sugli items che compaiono nella regola. Per esempio, potremmo essere interessati unicamente alle regole che comprendono uno specico item Ix tra quelli conseguenti o per converso le regole che comprendono uno specico item Iy tra gli antecedenti. La combinazione di queste condizioni é anche possibile. Questi vincoli concernono la misura minima del supporto che una regola deve avere per essere considerata utile. Le motivazioni di un vincolo sul supporto sono da ricercarsi sia nel signicato statistico dello stesso sia nel fatto che solitamente siamo interessati a regole che abbiano un supporto tale da reputarsi meritevoli di attenzione nell'ottica del business. Il problema della ricerca delle regole (rule due fasi: mining) puó essere scomposto in • Il Primo passo, per la ricerca di regole di associazione di un database di transazioni, consiste nel trovare tutti gli insiemi di attributi (itemsets) che rispondono ai vincoli sintattici e di supporto. In particolare si indica con minsup la misura minima del supporto stabilita dall'analista in base alle esigenze del problema e alle conoscenze a-priori. Gli itemsets che hanno un supporto maggiore del minsup e che risultano ammissibili rispetto ai vincoli sintattici prendono il nome di large itemsets. • Il successivo passo consiste nel creare le regole di associazione tra large itemsets. L'idea generale é che per un dato itemset Iy = I1 , I2 , ..., Ik con k ≥ 2 , vengono generate tutte le regole che usano items dall'insieme I. L'antecedente di ognuna di queste regole sará dato da un sotto insieme Ix di Iy dove Ix é composto da k − 1 items mentre il conseguente sará l'itemset Iy − Ix . Ne deriva che per generare una regola del tipo Ix ⇒ Ij |c dove Ix = I1 , ..., Ij −1 , Ij +1 , ..., Ik la regola sará quella di dividere il supporto di Ix per il supporto di Iy : sup(Iy ) ≥c sup(Ix ) 133 (10.3) se tale rapporto sará piú grande di c allora si dirá che la regola soddisfa il fattore di condenza c. Tale fattore di condenza rappresenta la condenza minima del processo di generazione delle regole e si indica con minconf. 10.3.1 Algoritmi di identicazione deilarge itemsets In questo paragrafo, sono considerati vari tipi di algoritmi che hanno come scopo comune quello di identicare i large itemsets, cioé quegli items che si presentano con un supporto maggiore o uguale a quello stabilito da colui che eettua l'analisi. Questi large itemset sono successivamente utilizzati per la formazione di regole di associazione. La struttura generale degli algoritmi per la determinazione di large itemset si basa su numerosi step da eettuare sul database. Il primo passo consiste nel calcolare il supporto di ogni singolo attributo. Verranno considerati large itemsets solo quelli che avranno il supporto maggiore del minsup. Nei successivi passi tutti i grandi itemsets saranno usati per generare i nuovi potenziali grandi itemsets chiamati candidate itemsets. Ad ogni candidato viene associato un contatore, il quale viene aggiornato ogni volta che riesaminando il database si presenta il candidato. Nel passaggio successivo i nuovi grandi itemsets verranno riutilizzati, e questo processo verrá ripetuto nché non vi saranno piú nuovi grandi itemsets da trovare nel database esaminato. L'algoritmo procede secondo i segueti passi: 1. si determinano i primi large itemsets cioé i singoli items che hanno supporto maggiore della soglia pressata. 2. dai large itemsets cosí individuati si generano i candidate items che diventano i nuovi large itemsets solo se il loro supporto sará superiore al minsup. 3. l'algoritmo torna al passo 2. no a che non vi siano piú regole da esplorare. L'idea di questo algoritmo nasce dalla constatazione che se un itemset ha un supporto inferiore al minsup allora l'eventuale regola generata da questo avrá anch'essa supporto inferiore al minsup. Ad esempio se l'itemset {A,B} ha supporto inferiore al minsup un itemset {A,B,C} dovrá necessariamente essere ancora una regola non interessante. L'implementazione dell'algoritmo consente un guadagno in termini computazionali enorme in quanto elimina la necessitá di investigare tutte le possibili regole focalizzando l'attenzione 134 su un sottoinsieme di itemsets interessanti che man mano viene potato. Esistono numerosi algoritmi proposti in letteratura e i quali dieriscono unicamente per la diversa implementazione dell'idea appena esposta. Tra gli altri si ricordano l'algoritmo a-priori , l'algoritmo a-priori TID, l'algoritmo AIS, la Subset Function2 e l'algoritmo SETM3 . 10.3.2 La formazione delle regole di associazione Una volta generati, con l'aiuto degli algoritmi, tutti i possibili large itemset presenti in un database di transazioni, questi verranno utilizzati per la formazione di regole di associazione4 . Inoltre il supporto di ogni Iˆx di Ix é sempre maggiore o al massimo uguale a Ix . Quindi, la condenza della regola Iˆx ⇒ (Iy − Iˆx ) non puó essere maggiore della condenza Ix ⇒ (Iy − Ix ) . Se Ix non produce una regola che coinvolge tutte gli items in Iy con Ix come antecedente neppure Iˆx lo fará. Quindi per una regola Ix ⇒ (Iy − Ix ) che é confermata nel database, tutte le regole di forma Iˆx ⇒ (Iy − Iˆx ) devono essere confermate, sempre ché Iˆx non é un sottoinsieme vuoto di Ix . Per esempio se la regola {A, B} ⇒ {CD} é confermata, anche le regole {A, B, C} ⇒ {D} ed {A, B, D} ⇒ {D} devono essere confermate. Questa caratteristica é simile alla proprietá che se un itemset é large allora lo sono anche tutti i suoi sottoinsiemi. Da un large itemset Iy , quindi, si generano tutte le regole con un item in conseguenza. Vengono quindi usate le parti conseguenti di queste regole per generare tutte le conseguenti possibili con due items che possono apparire in una regola generata da T. In sintesi si puó dire che la tipica procedura di rule mining consiste nel generare tutte le possibili regole con supporto e condenza minima, per esempio: X⇒Y ⇔ P (X ∩ Y ) ≥ minsup P (Y |X ) ≥ minconf (10.4) Questo modo di procedere é potenzialmente esplosivo per il numero di regole che possono essere generate anche attraverso gli algoritmi di ottimizzazione prima menzionati. Negli ultimi anni sono stati quindi sviluppati alcuni algoritmi che hanno il compito di ltrare le regole interessanti attraverso un processo di pruning (potatura). A tal ne alcune misure del grado di interesse delle regole sono state introdotte in letteratura da Srikant e Agrawal (1995), e Bayardo e Agrawal (1999). Queste misure non sono altro che una R.Agrawal, H.Mannila, R.Srikant, H.Toivonen e A.I.Verkamo, 1996 Houtsma e Swami, 1993 4 Agrawal, R., Imielinski, T., Swami, A. 1993 2 3 135 variazione dei test statistici che impiegano la distribuzione normale o quella del χ2 . 10.4 I modelli graci per la Market Basket Analysis Le regole di associazione, proposte da Agrawal ed altri per la prima volta nel 1993, sono divenute un buon metodo per la ricerca di associazioni attraverso l'esplorazione di variabili. Uno dei problemi di queste tecniche é l'enorme ammontare di regole che si generano durante il processo di ricerca. Infatti, la tipica procedura di mining di associazioni tra variabili é quella di generare "tutte" le possibili regole che abbiano un supporto ed una condenza maggiore rispetto a quella minima stabilita da chi eettua l'analisi. Nei tempi piú recenti l'attenzione dei ricercatori si é quindi concentrata sulla implementazione di tecniche grache in grado di visualizzare un notevole insieme di regole di associazione senza perdere le informazioni necessarie per spiegare i risultati. Di particolare interesse in quest'ottica sono gli approcci proposti da Hofman-Wilhem e da Passeroni-Giudici i quali propongono due metodi graci che utilizzando i colori come informazione (il primo) e la tecnica dei gra non orientati (il secondo) consentono di superare la barriera delle tre dimensioni tipica degli approcci graci classici. 10.4.1 Comparazione visiva delle regole Nell'articolo intitolato Visual comparison of Association Rules del 2000, Heike Hofman e Adalbert Wilhem propongono una via graca per la comparazione e la scelta delle regole associative attraverso la formulazione di un nuova tecnica graca e l'introduzione di una misura di ecienza delle regole di associazione denominata doc. L'idea é quella di poter usare tecniche di visualizzazione per mostrare la qualitá delle regole di associazione e di utilizzare queste tecniche come strumento di pruning (potatura) attraverso l'analisi della condenza e del supporto utilizzate come misure di qualitá delle regole di associazione. Hofman e Wilhem illustrano la loro procedura utilizzando un esempio di Market Basket Analysis. Il dataset analizzato proviene da "SAS Enterprise Miner". Questo dataset contiene le rilevazioni riguardanti il comportamento di acquisto di 1001 consumatori rispetto a 20 items. Nella gura 13.1 si mostra un tipico graco per la visualizzazione di regole di associazione. Questo esempio é stato tratto da SAS Enteprise Miner. Esso mostra 15 regole in una matrice, dove ogni riga corrisponde alla parte sinistra della regola 136 (antecedent) ed ogni colonna alla parte destra della regola (conseguent). Ogni regola, che soddisfa il minsup e la minconf é visualizzata nella gura come un quadrato. Le dierenti tonalitá di colore dei quadrati sono assegnate a secondo del grado di condenza della regola; nella gura la condenza varia tra il 99.01% (giallo) al 100% (rosso). La misura del quadrato é invece assegnata in base al supporto della corrispondente regola, in modo che l'area del quadrato é proporzionale al supporto della regola. SAS Enterprise Miner: visualizzazione delle 15 regole di associazione che presentano una condenza minima superiore al 99%. Figura 10.1: Questo tipo di visualizzazione risulta problematica quando ad esempio due regole come: {Tacchino, aringa, cereali al manzo}⇒ olive {Prosciutto, cereali al manzo, mela}⇒ olive hanno un supporto dell'11,19% e del 3,1% rispettivamente. Vi sono dei problemi legati al passaggio dal dataset alla rappresentazione graca. Questi problemi sono dovuti all'approssimazione che i valori dei fattori devono subire per essere rappresentati gracamente. Ad esempio il valore 3.1 della regola é approssimato a 4 poiché le aree si dierenziano con 137 un fattore di 16. Questa dierenza di eetto all'interno dei dati e all'interno della rappresentazione graca é stata menzionata spesso nella letteratura delle tecniche di visualizzazione ed é stata denominata lie-factor da Tufte nel 1983. Un altro software di Data mining in commercio, "The Intelligent Miner" dell'IBM, mostra varie possibilitá di visualizzazione di regole di associazione. La gure 13.2 e 13.3 mostrano due delle possibilitá di visualizzazione di regole formate da due items. Il graco 13.2, simile all'approccio del SAS Enterprise Miner (vedi gura 13.1), mostra una matrice di regole ognuna con due items, in cui i colori denotano dierenti livelli di condenza. Il graco 13.3 ragura le stesse regole, e diversamente dal graco precedente le regole sono costruite come barre a partire dalla matrice di tutte le combinazioni della struttura. L'altezza di ogni barra indica la condenza ed il colore il supporto. Molti approcci hanno in comune la visualizzazione in 2 o 3 dimensioni anche la terza dimensione non é sempre necessaria; infatti altre tecniche di visualizzazione pur utilizzando sole 2 dimensioni riescono a visualizzare ugualmente un gran numero di regole. Hofman e Wilhem dimostrano come le dimensioni a disposizione possano essere usate in modo diverso e piú eciente. 10.4.2 Lo Scatterplot La condenza ed il supporto possono essere visualizzati utilizzando uno scatterplot. Anche se appare piuttosto semplice come idea di analisi, non é mai stata approfondita in precedenza. In questi scatterplots tutti i punti si presentano sui raggi che partono dall'origine (vedi gura 13.4). La ragione é molto semplice. Considerata Ix ⇒ Iy come regola di associazione , dato: conf (Ix ⇒ Iy ) P (Iy |Ix ) 1 = = sup(Ix ⇒ Iy ) P (Ix ∩ Iy ) P (Ix ) (10.5) ad esempio per ogni lato sinistro della regola X, c'é una linea retta, sulla quale tutti i punti della regola Ix ⇒ Iy appaiono con condenza crescente (partendo dall'origine). Il confronto diretto tra le regole che giacciono su linee orizzontali é in questo modo possibile: se due regole hanno la stessa condenza quella con supporto maggiore é migliore rispetto all'altra. Lo stesso vale per due regole che hanno supporto uguale ma condenza diversa. Si possono accettare regole che cadono in un rettangolo connato 138 Rappresentazione graca di una matrice di regole ognuna con due items, in cui i dierenti colori rappresentano diversi gradi di condenza (The Intelligent Miner IBM software). Figura 10.2: tra la minconf e il minsup (vedi gura 13.5) oppure come indicato al centro della gura, possono essere scelte diverse aree di accettazione dove un basso supporto puó essere bilanciato da un alta condenza e viceversa. Usando metodi di elezione interattiva e collegandoli si possono avere molte piú scelte per i criteri di accettazione, ognuno dei quali puó essere piú sensibile nello sfondo dell'applicazione specica. Nella realtá le regole con elevata misura della condenza e del supporto non sono molto interessanti perché la loro conoscenza é gia implicita per il ricercatore e soprattutto per chi é interessato ai risultati dell'analisi. Questo é il motivo per cui spesso é molto piú interessante focalizzare l'analisi su livelli di supporto e condenza medi che potenzialmente riguardano regole ad alto valore aggiunto per il management della grande distribuzione (parte destra della gura 13.5). 139 Rappresentazione graca a barre di una matrice di regole ( The Intelligent Miner IBM software). Figura 10.3: 10.4.3 Il Doubledecker Plot Hofman, Siebes e Wilhelm (2000) hanno proposto graci a mosaico (mosaic plot) per visualizzare tutte le possibili combinazioni di variabili esplorative coinvolte in una regola. Attraverso il disegno di diagrammi nei quali all'itemset Iy , parte susseguente della regola, é assegnata una maggiore intensitá di colore all'interno di ogni barra, il graco a mosaico consente la rappresentazione simultanea di un elevato numero di regole formate di volta in volta da dierenti associazioni. Il supporto di una regola di associazione é rappresentato dall'area evidenziata nella barra corrispondente, la sua condenza invece puó essere dedotta dalla proporzione dell'area evidenziata sull'area totale della stessa. Usando una dierente disposizione per le barre, i graci a mosaico possono essere convertiti in un graco a due piani con il quale fare possibili classicazioni e nei quali la condenza di una regola é data dall'altezza dell'area evidenziata in una barra . Nelle gure 6 e 6 sono dati due esempi di doubledecker plot, che corrispondono rispettivamente ad una regola di associazione forte e debole. É da notare che entrambi le regole hanno approssimativamente la stessa condenza e supporto, come puó vericarsi dalla seguente tabella: 140 Figura 10.4: Scatterplot. Supporto e condenza sono rappresentati utilizzando uno Regola {Heineken, Coca-cola, Pollo} ⇒ {Sardine} {Soda, Cracker, Olive} ⇒ {Heineken} Condenza Supporto 98.31 96.83 11.59 12.18 la gura 13.6 mostra la regola {Heineken, Coca-cola, Pollo} ⇒ {Sardine}, che é considerata una regola forte (quella a destra del graco) perché, come si puó notare dall'osservazione della barra corrispondente, viene rappresentata con una piena evidenziazione del colore. Tutte le barre rappresentate nella gura 13.7 descrivono parte degli acquirenti di heineken. Come si puó osservare ognuno dei contenitori mostra un ampia area di colore evidenziato. Confrontando le aree di colore evidenziato dei contenitori con quella del contenitore che rappresenta la regola {Soda, Cracker, Olive} ⇒ {Heineken} (destra della gura), si puó notare che l'ampiezza delle aree evidenziate nelle barre sono simili tra loro, quindi la regola non é in grado di poter apportare nessuna particolare informazione per la descrizione della sottopopolazione di acquirenti di heineken. Questo indica che {Soda, Cracker, Olive} ⇒ {Heineken} é una regola debole. 141 Sono rappresentati due diversi criteri di accettazione: a sinistra, la condenza minima ed il supporto minimo sono usati come limiti inferiori dell'aria di accettazione mentre possibili alternative di accettazione sono rappresentate a destra della gura. Figura 10.5: Il doubledecker plot mostra una forte associazione tra {heineken, coca-cola, pollo} ⇒ {sardine}. Figura 10.6: 10.4.4 Una misura del grado di interesse delle regole: Differenze of Condence (DOC) Le regole di associazione tendono a preferire item con elevate frequenze. Questo implica che per un item Iy , che eccede la minima condenza, una regola di associazione potrebbe essere generata nché le intersezioni Ix ∩ Iy superano il minimo supporto. Cosí una regola Ix ⇒ Iy , se basata solo sul fatto che P (Iy ) é grande, non puó ritenersi attendibile poiché Ix e Iy potrebbero essere prossimi ad una situazione di indipendenza statistica. Comparando la condenza di una regola di associazione con quella di una regola che coinvolge gli stessi items ma dove l'antecedente é stato generato casualmente é possibile misurare di quanto l'item Ix (antecedente) contribuisce alla predizione di Iy (conseguente). Da questa idea trae ragione la misura Dierence of Condenze (DOC). La 142 Il doubledecker plot mostra una regola associazione debole tra {cracker, soda, olive} ⇒ {heineken}. Figura 10.7: dierenza di condenza denita: doc per le regole Ix ⇒ Iy e Ix ⇒ ¬Iy sará cosí doc(Ix ⇒ Iy ) = [conf (Ix ⇒ Iy ) − conf (¬Ix ⇒ Iy )] (10.6) La doc puó anche essere denita nel seguente modo: doc(Ix ⇒ Iy ) = P (Ix ∩ Iy ) − P (Ix ) · P (Iy ) P (Ix ) · P (¬Ix ) (10.7) Inoltre, si dimostra che il prodotto doc(Ix ⇒ Iy ) · (¬Ix ⇒ Iy ) si approssima ad una distribuzione χ2 . La misura doc puó essere visualizzata attraverso l'impiego di un doubledecker plot. Il supporto di Ix ⇒ Iy é direttamente proporzionale alla parte di colore accentuata all'interno del rettangolo, come si puó notare dal doubledecker 143 plot, mentre la sua altezza indica la condenza di Ix ⇒ Iy . Nello stesso modo supporto e condenza della regola ¬Ix ⇒ Iy sono rappresentate nella parte sinistra del doubledecker plot. La dierenza tra le due condenze rappresenta il doc. La signicativitá della misura doc puó essere valutata attraverso un test statistico. Infatti poiché il doc(Ix ⇒ Iy ) = P (Iy |Px ) − P (Iy |¬Ix ), puó essere utilizzato un test di d'ipotesi per vericare se la dierenza tra le due probabilitá é signicativa. Si considerino e p̂1 = conf (Ix ⇒ Iy ) e p̂2 = conf (¬Ix ⇒ Iy ), come le frequenze rispettivamente di Ix e ¬Ix . In un test per la verica del doc puó essere formulato attraverso le seguenti ipotesi: H0 : doc = 0 H1 : doc > 0 La statistica test impiegata é: p̂1 − p̂2 T1 = p · p̂(1 − p̂) r n1 · n2 n1 + n2 (10.8) che si approssima ad una distribuzione normale se n1 e n2 sono sucientemente grandi. La statistica cosí costruita coincide con quella proposta da Piatetsky-Shapiro (1991). Strikant e Agrawal (1995) hanno dimostrato che solo approssimativamente l'1% di tutte le regole trovate sono rigettate da questa statistica test. Questo risultato é fortemente dipendente sia dalla specica applicazione, che dalla scelta della condenza e del supporto minimo. Piú alti sono i valori della minima condenza e del minimo supporto, minore risulta la probabilitá che una regola sia rigettata nell'ottica di questo test. Per ottenere quindi un valore alto del doc si deve accrescere il valore della condenza e del supporto, ma cosí facendo non si ottengono i risultati desiderati, in quanto le regole che presentano un supporto e una condenza alte sono regole giá conosciute dall'analista. 10.4.5 La matrice graca delle regole L'idea di base per un altro approccio graco é la visualizzazione di una singola regola di associazione non piú utilizzando come forma geometrica un quadrato ma un rettangolo. Ció permette cosí di poter usufruire di una dimensione supplementare. Il supporto e la condenza di una generica regola Ix ⇒ Iy possono essere visualizzati attraverso dei rettangoli cosí come indicato nella gura 13.8. 144 Figura 10.8: rettangolo Visualizzazione di supporto e condenza attraverso il In tale rappresentazione: • L'area del rettangolo é pari al supporto sup(Ix ⇒ Iy ). Infatti: sup(Ix ⇒ Iy ) = P (Ix ∩ Iy ) = P (Ix ) · P (Iy |Ix ) • (10.9) L'altezza del rettangolo corrisponde al sup(Ix ), quindi la sua dimensione é pari a: P (Ix ∩ Iy ) = P (Iy |Ix ) (10.10) P (Ix ) cioé alla condenza della regola Ix ⇒ Iy . Hofman e Wilhem tracciano una matrice di tutte le possibili regole formate da due items per volta e in cui la forza e la signicativitá della regola appare immediatamente identicabile grazie alla forma dei rettangoli. Questa matrice graca consente inoltre di avere un'immediata visione e quindi un intrinseco confronto simultaneo di un numero elevatissimo di regole (vedi gura 13.9). Quello che si cerca analizzando il graco sono dei rettangoli relativamente grandi, corrispondenti ad un ampio supporto (l'area), che allo stesso tempo abbiano una base di misura elevata cioé con consistente condenza. Analizzando la matrice, i rettangoli che appaiono lungo la diagonale corrispondono al supporto di tutte i singoli items, in quanto rappresentano la combinazione di ogni item con se stesso. Quindi gli elementi della diagonale possono essere utilizzati solo per misurare la frequenza e non per misurare una regole di associazione. Sfruttando uno o piú colori per evidenziare i rettangoli si possono ottenere matrici che considerano regole con un numero di items maggiore di due (vedi gura 13.10). 145 Matrice di tutte le possibili regole di associazione (con 2 items) provenienti dal dataset accos (SAS software). Figura 10.9: Matrice di tutte le regole di associazione visualizzate attraverso l'uso del colore evidenziato. Questo ultimo rappresenta la combinazione di {coca-cola, gelato}. Figura 10.10: La gura mostra una matrice di tutte le possibili regole di associazione formate dalla combinazione di due items, come nella gura 13.9; ad essa vengono peró aggiunte attraverso l'utilizzo di un area evidenziata in rosso tutte le transazioni che un includono un particolare itemset (nell'esempio {coca-cola, gelato}). 10.5 L'approccio dei Gra Giudici e Passerone (2000) propongono un approccio alternativo per la generazione e la visualizzazione delle regole attraverso l'impiego di una metodologia che si fonda sulla teoria dei gra. Viene inoltre proposta una misura dell'importanza di una regola, l'odds ratio, alternativa alle misure di supporto e alla condenza introdotte da Agrawal e altri (1993). Secondo questo approccio l'analisi prende corpo principalmente attraverso le seguenti fasi: 146 a) La costruzione degli odds ratios; b) La rappresentazione graca delle regole; c) La potatura delle regole. 10.5.1 Gli odds ratio Partendo da una matrice di dati del tipo transazioni (le righe) per items (le colonne) tipica di un problema di Market Basket Analysis si costruiscono tutte le possibili tabelle di contingenza tra gli items: Siano IA e IB due items, si denisce odds il rapporto: Ωi = π1|i π2|i (10.11) con i=1,2 e dove π1|i e π2|i sono le frequenze condizionate di riga. Nella costruzione degli odds possono impiegarsi anche le frequenze condizionate di colonna in quanto il diverso punto di vista da cui si parte non cambia il risultato dell'analisi. L'odds puó assumere qualunque valore non negativo inoltre é immediato osservare che un Ωi > 1 stará ad indicare una maggiore propensione dei consumatori alla acquisto del prodotto IB (data la risposta i del prodotto IA ) mentre per converso un Ωi < 1 indicherá una maggiore propensione verso il non acquisto di IB . Inne un Ωi = 1 indicherá un indierenza nella scelta di IB (sempre data la risposta i del prodotto IA ). Si denisce odds ratio il rapporto tra gli odds: Ω1 Ω2 (10.12) π1|1 · π2|2 π1|1 /π2|1 = π1|2 /π2|2 π1|2 · π2|1 (10.13) Θ= da cui deriva che: Θ= L'odds ratio assume valori non negativi e la sua distanza dall'unitá misura la forza del legame esistente tra gli items IA e IB . L'ultima formula chiarisce 147 come in pratica il considerare le frequenze condizionate di riga o di colonna sia indierente in quanto il calcolo di Θ si riduce alla determinazione del rapporto tra i prodotti delle frequente delle risposte concordi (entrambe assenza o presenza del prodotto) e i prodotti delle risposte discordi. 10.5.2 Costruzione del Modello Graco La teoria dei modelli graci puó essere considerata una variante delle tecniche di modellizzazione statistica tradizionali che impiega oggetti, chiamati "Gra", per rappresentare il modello. Questo approccio trae origine dagli studi sulla "Path Analysis" (Wright, 1921) e dai successivi sviluppi dovuti a Darroch, Lauritzen e Speed (1980) e Lauritzen e Wermuth (1989). Il concetto di indipendenza e in particolare quello di indipendenza condizionata é alla base della teoria dei modelli graci. Un grafo, G = (V, E) é un oggetto costituito da un insieme nito V di vertici (chiamati anche nodi), e un insieme nito E di archi che collegano questi vertici. I gra possono essere rappresentati attraverso diagrammi come nella gura 13.11. Esempio di un grafo che presenta quattro items qui indicati con le lettere maiuscole (W , X , Y e Z ) e gli archi che ne rappresentano le relazioni. Figura 10.11: I cerchi indicano gli items mentre le linee che collegano questi ultimi rappresentano gli archi cioé il legame tra gli items. 148 I Gga possono essere: non orientati, orientati e a catena. Giudici e Passerone fanno riferimento in questo approccio ai gra non orientati in cui la relazione tra due nodi, misurata dall'odds ratio tra i due items ed espressa da un arco, non ha una direzione. 10.5.3 I Gra Descrittivi Una volta computati gli odds ratios per tutte le possibili tabelle di contingenza tra gli items si procede alla costruzione del grafo attraverso la rappresentazione delle relazioni signicative (vedi gura 13.12). La signicativitá di una relazione, cioé della misura dell'odds ratio, é valutata attraverso la costruzione di un intervallo di condenza dell'odds stesso. La relazione é considerata signicativa se tale intervallo non contiene 1 (cioé la condizione di indipendenza Ω1 = Ω2 ⇒ Θ = 1). Il passo successivo é quello di semplicare la struttura associativa attraverso una potatura delle relazioni tra gli items. In particolare si puó disegnare un grafo riportando unicamente le relazioni "importanti" ritenendo tali quelle che hanno un odds ratio superiore ad una certa soglia k. La gura 13.13 é un esempio di potatura in cui sono riportate unicamente le relazioni signicative e con un odds ratio superiore a 5. Grafo delle relazione signicative tra 26 prodotti alimentari (dati AC Nielsen, 1997). Figura 10.12: 149 Grafo delle relazione signicative tra 26 prodotti alimentari con odds ratio maggiore di 5 (dati AC Nielsen, 1997). Figura 10.13: 10.5.4 I Modelli Graci Inferenziali Da un'analisi dei gra descrittivi é possibile individuare delle categorie di prodotti (gruppi di transazioni) e su ognuna di esse costruire un modello Loglineare. Inoltre adottando una procedura forward di selezione delle variabili, l'analisi si sviluppa partendo dal modello di indipendenza e complicandolo via via no al modello saturato in cui sono presenti tutti gli archi. La scelta del modello da adottare avviene attraverso il test sul rapporto delle verosimiglianze. 10.5.5 Alcune considerazioni Nell'approccio di Giudici e Passerone é interessante il modo con cui le informazioni esterne sono introdotte nella loro analisi. In particolare al ne di considerare gli eetti delle promozioni (poste in essere dalla grande distribuzione) sulla vendita dei prodotti e quindi sulle scelte dei consumatori, gli autori decidono di impiegare delle variabili binarie (assenza o presenza di promozione) in modo da evidenziare (attraverso gli odds ratio e i gra) i legami tra tali pseudo-prodotti e i prodotti osservati nel dataset. Si eviden150 ziano in questo modo le promozioni che hanno un reale eetto sulle vendite, e i prodotti che ne sono inuenzati (sia essa un'inuenza positiva, aumento del volume di vendita, sia essa negativa, non aumento del volume di vendita). L'impiego nel futuro dei gra orientati per rappresentare le relazioni tra items appare essere la logica conseguenza del percorso intrapreso dagli autori. Si auspica quindi uno spostamento dell'attenzione della ricerca dalle regole di associazione verso le regole di sequenza in cui il legame tra gli items é di tipo predittivo e quindi presentano un'utilitá maggiore per i manager della grande distribuzione che sono i fruitori ultimi dei risultati di una Market Basket Analysis. 151