Appunti di Statistica per le decisioni d`impresa

Appunti di Statistica per le decisioni d'impresa
Roberta Siciliano1
Dipartimento di Matematica e Statistica
Università Federico II di Napoli Federico II
e-mail: [email protected]
U.R.L.:http://cds.unina.it/ ∼ roberta
Questi appunti costituiscono materiale didattico di supporto per l'insegnamento di
Statistica per le decisioni d'impresa rivolto agli studenti del Corso di Laurea in Statistica
e informatica per l'economia e le imprese della Facoltà di Economia. Invero, essi costituiscono una rielaborazione della dispensa didattica dal titolo Statistica Aziendale:
Modelli statistici per l'economia e le imprese che no allo scorso anno è stata proposta agli studenti del corso di Statistica aziendale, esame annuale caratterizzante il prolo
formativo del Corso di Economia Aziendale, secondo il vecchio ordinamento degli studi.
Fin dalla sua prima edizione (a.a. 1995 − 1996), la dispensa didattica ha subito numerose
rivisitazioni, integrazioni ed aggiornamenti, in seguito a correzioni, suggerimenti e commenti da parte sia dei frequentanti il corso di Statistica Aziendale, il cui numero è cresciuto
esponenzialmente nel tempo, che soprattutto dei collaboratori alla cattedra di Statistica
Aziendale, che si sono succeduti in tutti questi anni. Se dei primi sarebbe improponibile
menzionarli tutti, dei secondi invece è doveroso menzionare nome e cognome. Pertanto,
seguendo un mero ordine di anzianità di servizio didattico reso (attraverso lezioni integrative, seminari, esercitazioni in laboratorio, attività di tutoraggio a numerosi tesisti e
gruppi di lavoro per la elaborazione di tesi di laurea e di tesine), si sono succeduti nel
tempo, ed ove possibile collaborano ancora: il dott. Claudio Conversano, ricercatore in
Statistica presso la Facoltà di Economia dell'Università di Cassino, la dott.ssa Carmela
Cappelli, ricercatrice in Statistica presso la Facoltà di Scienze Politiche dell'Università di
Napoli Federico II, il dott. Massimo Aria, dottorando in Statistica Computazionale presso
il Dipartimento di Matematica e Statistica dell'Università di Napoli Federico II, la dott.ssa
Roberta Pellicanò, dottorando in Statistica presso il Dipartimento di Matematica e Statistica dell'Università di Napoli Federico II. A loro va il più aettuoso dei ringraziamenti
per il prezioso ed indispensabile contributo ed entusiasmo profuso durante le attività universitarie, ma soprattutto per avermi indotto a proporre agli studenti le mie cartelle delle
lezioni sotto forma di dispensa didattica.
1
1
Capitolo 1
La statistica in contesti
decisionali
1.1 La statistica aziendale
La statistica moderna si occupa della raccolta e dell'analisi di grandi mole
di informazioni riguardanti fenomeni complessi caratterizzati dall'interagire
congiunto di un numero elevato di variabili servendosi, a tal ne, del calcolatore elettronico. La statistica aziendale si propone, quale supporto delle
decisioni aziendali, di integrare le esigenze informative che si presentano nella gestione della azienda con lo scopo di informare, controllare, prevedere.
A tal ne, si avvale di informazioni qualitative e quantitative derivanti da
statistiche interne e da statistiche esterne alla azienda.
Le statistiche interne riguardano direttamente l'organizzazione e la gestione
della azienda e sono eettuate sulla base di dati rilevati all'interno della
azienda stessa; ne costituiscono un esempio la determinazione della scorta
massima e minima di ogni materiale, il calcolo della incidenza dei costi di
distribuzione sul prezzo dei singoli prodotti, la preparazione del graco di
redditività, l'elaborazione degli indici di bilancio, la previsione delle vendite,
il controllo di qualità.
Le statistiche esterne studiano i mercati nei quali l'azienda opera, l'attività
delle aziende concorrenti e dei settori complementari ed in genere i fenomeni
concernenti l'ambiente socio-economico in cui l'azienda opera o intende operare. Ai ni dell'elaborazione delle statistiche esterne, l'azienda si avvale di
dati provenienti da diverse fonti, quali ad esempio le banche dati statistiche,
le riviste specializzate di settore, i bollettini di istituti di statistica o di ricerca
economica, le pubblicazioni di statistiche uciali italiane ed internazionali,
2
pubblicazioni di categoria, indagini dirette (o tramite istituti specializzati),
sperimentazioni.
Nell'ambito del sistema informativo aziendale, la statistica aziendale svolge
un duplice ruolo di integrazione e di complementarietà. La conoscenza dei
fenomeni economici non può prescindere da informazioni sucientemente
esaustive tanto in termini qualitativi che quantitativi: si assiste sempre più
alla sinergia tra analisi qualitative e analisi quantitative, basate queste ultime
sulla visualizzazione sotto forma di tabelle e graci, sulla sintesi attraverso
indici statistici, rapporti statistici o indicatori aziendali, su reports che riassumono i risultati derivanti dall'elaborazione statistica dei dati attraverso
modelli statistici.
Il percorso di studio che si seguirà privilegerà l'aspetto quantitativo approfondendo i metodi statistici che possono contribuire alla denizione di una
base di conoscenza quantitativa che superi la fase iniziale tipicamente descrittiva e si proli come formativa per la costruzione di modelli statistici.
1.2 Il procedimento scientico di ricerca
L'evoluzione dei fenomeni economici può essere seguita ed analizzata mediante un processo di conoscenza con fasi ben individuate che prendono l'avvio
dall'osservazione di un sistema o mondo reale. La realtà viene osservata dal
ricercatore non nella sua interezza, bensì attraverso una nestra che limita
l'angolo visuale focalizzando l'attenzione solo su alcuni aspetti e trascurandone altri. L'ampiezza della nestra e l'orientamento dell'angolo sono determinati dal paradigma scientico prevalente che condiziona le singole ricerche,
dai giudizi di valore del ricercatore che giudica interessanti alcuni temi e non
altri, dalle conoscenze a-priori del ricercatore, dalle sue capacità di analisi.
Le fasi del paradigma scientico di ricerca, che possono essere iterate più di
una volta, sono nel seguito descritte.
Denizione del problema.
Lo statistico in azienda si propone di fornire
risposte qualitative e quantitative a determinati problemi connessi alla gestione aziendale. L'esatta denizione del problema consente di formulare corrette ipotesi di lavoro utili alla ricerca. Questa rappresenta la fase più importante della procedura di ricerca scientica. Lo statistico non si domanderà se
il problema è rilevante ai ni della gestione aziendale (ciò è di pertinenza del
manager, dell'imprenditore, etc.), ma si assicura che il problema sia denito
correttamente in modo da poterlo tradurre in un problema statistico, così da
3
individuare il fenomeno che si vuole studiare, le informazioni a-priori che si
hanno su tale fenomeno, le caratteristiche incognite e l'obiettivo nale dell'analisi statistica.
Dati.
La fase precedente si traduce nella specicazione dei dati da utilizzare ai ni dell'analisi statistica; questo momento è strettamente legato
al momento della scelta dell'approccio e del metodo statistico che si vuole
adottare. In generale, si distinguono dati sperimentali, che sono costruiti ad
hoc dal ricercatore, e dati di osservazione, che sono rilevati dal ricercatore
ai ni della descrizione di una realtà già esistente. I dati di osservazione
possono provenire da rilevamenti censuari o da indagini campionarie. Inoltre, i dati di osservazione, come è noto, possono essere di tipo quantitativo
(discreti o continui) o di tipo qualitativo (nominali o ordinali). Un'ulteriore
distinzione può essere fatta tra dati di tipo sezionale (cross-section), derivanti
dall'osservazione, in un punto nel tempo, di una o più variabili su un gruppo
di individui, e dati temporali, derivanti dall'osservazione in T distinti punti
nel tempo di una o più variabili su un individuo (serie temporali) o su più
individui (panel, dati di tipo longitudinale).
Informazione a priori. Successivamente, si considera una fase che combina
i dati a disposizione con l'informazione a priori riguardante sia il fenomeno
oggetto di studio (assunzioni, vincoli, condizioni, etc.) sia il ruolo delle variabili ritenute rilevanti. Se infatti tra le variabili vi è un legame di inuenza
reciproca, o di interdipendenza, l'analisi sarà di tipo simmetrico, se invece è
possibile ipotizzare che una o più variabili dette di risposta o variabili dipendenti, sono spiegate da altre dette predittori o variabili esplicative, allora
l'analisi sarà di tipo asimmetrico o di dipendenza.
Analisi dei dati ed elaborazioni.
Sulla base quindi della natura del
problema, del tipo di dati e della informazione a-priori, avviene la scelta tra
i diversi metodi di analisi statistica che determina il tipo di elaborazione
successiva dei dati. In generale, si considerano analisi esplorative quando
si vogliono trarre le prime indicazioni da un insieme di dati, sotto forma di
relazioni tra variabili, somiglianze tra le unità, identicazione delle struttura latente nei dati, individuazione di ipotesi da vericare in una successiva
analisi. Le analisi confermative partono invece da ipotesi o modelli formulati
a-priori, che sono sottoposti al giudizio di conformità con l'evidenza empirica
rappresentata dal campione che si ha a disposizione. In denitiva, i metodi
statistici dell'analisi esplorativa attengono al campo della scoperta, mentre
quelli dell'analisi confermativa attengono al campo della giusticazione.
4
Interpretazione dei risultati. Il procedimento di ricerca potrebbe chiudersi con l'analisi dei risultati, ovvero potrebbe essere reiterato per maggiori
approfondimenti. In taluni casi, per le analisi confermative, si può tentare
una generalizzazione dei risultati mediante la denizione di un modello che
costituisce una semplicazione della realtà da cui si è partiti ma che, trovando conferma statistica, può essere utilizzato nella pratica gestionale no a che
nuove ipotesi lo rendono vulnerabile a nuovi cambiamenti. In altre parole, il
modello statistico dovrà essere comunque validato nel tempo con l'esperienza
e l'evidenza empirica. Esempi di modelli a supporto della gestione aziendale
sono rappresentati da funzioni di costi, modelli per l'approvviggionamento
dei materiali, modelli della produzione, funzioni delle vendite, modelli per la
segmentazione dei mercati, modelli per la valutazione della soddisfazione dei
consumatori, modelli del credit scoring, etc.
1.3 La statistica per le decisioni d'impresa
Ai giorni nostri, la statistica nell'era dell'informatica - caratterizzata da una
riduzione di tempi e costi relativi all'accesso ad enormi basi di dati - può
essere inquadrata nel Paradigma dell'Informazione recentemente denito da
Coppi (2002). L'obiettivo è di generare informazione aggiunta, attendibile e
signicativa, per la risoluzione di problemi reali di decisione, assemblando,
attraverso strumenti statistici e computazionali, processi di estrazione della
conoscenza da varie fonti. In tale contesto, si possono distinguere due passaggi fondamentali: l'apprendimento statistico dai dati, al ne di derivare
l'informazione signicativa volta ad identicare particolari strutture ricorrenti nei dati e trend (passaggio dato -> informazione), e l'estrazione della
conoscenza basata sull'informazione rilevante e realizzata attraverso modelli
e procedure statistiche che richiedono un uso intensivo del computer (passaggio informazione -> conoscenza). Il primo passaggio trova espressione
nell'analisi esplorativa dei dati, avvalendosi di tecniche di riduzione dei dati
e sintesi dell'informazione per strutture complesse di dati (i.e., cluster analysis, analisi delle componenti principali, segmentazione binaria, etc.). Il
secondo passaggio si identica nell'analisi confermativa che intende validare
le ipotesi formulate sulla base dei risultati dell'analisi precedente attraverso
modelli statistici di previsione e di decisione. In tale contesto, la statistica
per le decisioni d'impresa si propone quale disciplina che ha l’obiettivo di
generare informazione statistica signicativa e con valore aggiunto, in termini di risoluzione di problemi reali, ovvero di supporto alle decisioni aziendali,
5
attraverso il processo di estrazione della conoscenza seguendo il procedimento scientico di ricerca ed impiegando i metodi della statistica e della scienza
dell'informazione.
La monograa fondamentale di Hastie, Friedman e Tibshirani (2001)
identica esplicitamente le nuove sde nelle aree dell'archiviazione, della
organizzazione e della gestione di dati, nalizzate al Data Mining ed alla
gestione statistica della complessità e dimensione dei fenomeni osservati.
Una denizione di Data Mining dai più ritenuta esauriente è quella di
David Hand (2000) che denì quest'ultimo come il processo che attraverso
l'impiego di modelli non banali ha l'obiettivo di individuare relazioni tra i
dati non banali, nascoste, utili e fruibili dall'utilizzatore. Questa denizione
contiene alcuni punti che meritano un approfondimento. In particolare, il
processo impiega modelli non banali, ossia l'analisi è condotta attraverso
una strategia che prevede l'uso combinato di diversi metodi statistici nalizzato alla estrazione della conoscenza. Per relazioni tra i dati non banali
e nascoste si vuole sotto intendere un obiettivo del processo il quale deve
concentrarsi sulla scoperta di relazioni che siano sconosciute all'analista e
all'utilizzatore e che non si evincono da uno studio superciale della base dei
dati. I termini utile e fruibile chiariscono che la relazione o le relazioni
identicate devono presentare (attraverso strumenti che ne garantiscano la
comprensibilità anche ai non esperti della materia) delle utilità oggettive a
favore dei soggetti interessati, devono consentire alle aziende e agli enti di
migliorare la quantità dei servizi oerti, ridurre i costi, accrescere il proprio
business. Il Data Mining si avvale di numerose metodologie statistiche a
forte contenuto computazionale, quali ad esempio i metodi e algoritmi di
partizione ricorsiva per la costruzione di alberi decisionali, procedure selettive per le regole di associazione, algoritmi adattivi di stima, tecniche di
ricampionamento, etc. Data Mining è parte di un processo di estrazione
della conoscenza (Knowledge Discovery from Databases), ossia il processo
di esplorazione e analisi di grandi quantità di dati, condotto in modo automatico o semiautomatico, al ne di scoprire delle regolarità (pattern) nei
dati, che siano considerabili nuovi elementi di conoscenza. In tale prospettiva lo statistico si trova a giocare un ruolo fondamentale nel Data Mining
divenendo regista delle strategie alternative di analisi per l'esplorazione di
importanti caratteristiche e relazioni presenti in strutture complesse di dati.
Il Paradigma dell'Informazione nel quale il Data Mining assume un ruolo fondamentale può essere completato in termini di accessibilità e capacità predittiva dell'informazione statistica e dei processi di estrazione della
conoscenza al ne di indirizzare nella direzione giusta i processi decisionali.
Ciò risulta particolarmente importante quando gli attori sono manager di
6
piccole e medie imprese che in un mercato globale debbono competere con
industrie multinazionali in grado di reperire risorse nanziarie, competenze
umane e strumenti tecnologicamente avanzati per il miglior utilizzo dell'informazione. Il successo non è guidato solo dall'ecienza dei processi ma
anche dalla capacità di gestire i dati, le informazioni e le conoscenze. In
quest'ottica rendere più ecace un processo decisionale è essenziale per incrementare il livello competitivo dell'impresa e per farlo è necessario ottenere
in modo rapido e essibile informazioni strategicamente utili, che siano cioè
di supporto all'interpretazione dell'operato dell'azienda e dell'andamento del
mercato in cui opera. Invero, negli ultimi decenni il ciclo di vita dei processi
decisionali nelle Aziende è andato accorciandosi sempre più e la tempestività
delle decisioni aziendali (i.e., individuazione di nuovi segmenti di mercato,
scoperta di preferenze e comportamenti da parte di clienti, riduzione di eventuali sprechi nella produzione o razionalizzazione di altri processi aziendali)
è diventato fattore vitale per la sopravvivenza. Tale tempestività, tuttavia, a
volte contrasta con la mole dei dati da elaborare per estrarre le informazioni
necessarie a supportare il processo decisionale. Le informazioni sono spesso
dicilmente recuperabili perchè sommerse nell'insieme di dati ospitati dal
sistema informativo. Il ricorso alle tecnologie dell'informazione è quindi un
passo obbligato. In questo le Aziende vengono aiutate dalle applicazioni di
Business Intelligence (BI), ossia l'insieme dei processi, delle tecniche e degli
strumenti basati sulla tecnologia dell'informazione, che supportano i processi
decisionali di carattere economico. BI è una corretta mescolanza di tecnologia, informatica e statistica che fornisce agli utenti le informazioni necessarie
per rispondere ecacemente alle esigenze di business. L'obiettivo fondamentale nella BI è, quindi, quello di disporre di sucienti informazioni in modo
tempestivo e fruibile e di analizzarle così da poter avere un impatto positivo sulle strategie, le tattiche e le operazioni aziendali. Nell'ambito della
BI un'attività fondamentale è la raccolta dei dati aziendali. Questa raccolta
non si deve limitare ai soli dati transazionali, generati e usati nei processi
produttivi o operativi di un'impresa, ma deve essere orientata anche ai dati
decisionali (o business data), caratterizzati da una natura aggregata, una
struttura essibile, un uso non ripetitivo, un orizzonte temporale più ampio.
A questo scopo si rende necessaria la progettazione e la costruzione di un
magazzino dei dati (Data Warehouse) che, attingendo periodicamente sia
dal sistema transazionale aziendale sia da altre sorgenti informative, raccolga e sintetizzi le informazioni secondo regole ben denite dettate dal proprio
business, e poi le organizzi in una forma comprensibile per chi in azienda
deve prendere decisioni tattiche e/o strategiche. I Data Warehouse (DW)
sono considerati una buona tecnologia per supportare soluzioni di KDD.
7
Tale processo prevede, fra l'altro, delle fasi di selezione e pulizia dei dati,
al ne di rimuovere inconsistenze, trattare dati mancanti, e determinare il
giusto livello di aggregazione. Tutto ciò è assicurato da un DW, che diventa
una tecnologia di supporto, anche se non strettamente necessaria, al KDD.
In un contesto aziendale, la conoscenza scoperta può avere un valore perchè
consente di aumentare i protti riducendo i costi oppure aumentando le entrate. Questo spiega l'importanza di soluzioni KDD nel BI. Il processo KDD
si completa integrando il DW, ove possibile, con strumenti più propriamente
statistici che costituiscono un Decision Support System (DSS) per il management aziendale. L'architettura di un DSS consiste di tre elementi: un
database alimentato da un DW o da un Data Mart (ossia una sottoparte o
replica del DW contenente l'insieme delle informazioni rilevanti per un particolare problema), un sistema di modelli e strumenti statistici di DM, una
interfaccia interattiva che svolge le funzioni di cruscotto aziendale guidando il manager nei processi decisionali aziendali attraverso i risultati derivanti
dall'analisi statistica dei dati o più in generale da strategie di Data Mining.
Un DSS può essere inteso come un insieme di strumenti progettati e
orientati all'integrazione delle necessità dell'utente nale, le tecnologie e i
metodi di analisi, con l'obiettivo di sostenere - e non sostituire - il decisore
nella scelta della azione più appropriata al raggiungimento di un scopo. All'interno di questo progetto, l'attività decisionale è considerata come una
fase del ben più generale processo di BI. Il DSS è progettato per eseguire
quattro tipologie di operazioni fondamentali:
•
•
query and reporting, al ne di seguire periodicamente una serie di interrogazioni del database, creando report, tipicamente a ni statistici,
per l'analisi graca degli andamenti aziendali;
data mining, che consiste nell'impiego di metodologie statistiche avanzate volte ad identicare comportamenti tendenziali, a ricercare pattern e caratteristiche tipologiche, a realizzare segmentazioni nei dati a
scopo di classicazione;
•
analisi what if, al ne di costruire scenari di riferimento per soddis-
•
OLAP (On Line Analytical Process), allo scopo di generare interrogazioni
fare obiettivi di pianicazione e previsione degli andamenti futuri di
mercato;
intelligenti (attraverso operatori Drill-Down, Roll-Up, Pivot) in tempo reale ed in maniera intuitiva senza preoccuparsi dell'eettiva struttura logica dei dati.
8
In sintesi, da un lato, il DW si impone come strumento strategico nel
momento in cui le varie direzioni funzionali alle quali è destinato possono
accedere ai dati secondo principi di analisi multidimensionale; dall'altro, i
DSS consentono di automatizzare le procedure decisionali e di facilitare sul
piano pratico le attività manageriali, suragate così dall'esperienza passata
e dalla possibilità di simulare scenari futuri.
1.4 Il percorso di studio
Il percorso di studio è caratterizzato dalle seguenti parti, ciascuna delle quali
consiste di moduli tematici:
•
L'impiego della statistica in azienda, con particolare riferimento alla
costruzione di database e data warehousing, alla gestione statisticoinformatica delle informazioni ed alla presentazione delle metodologie statistiche di base (i.e., richiami di inferenza e processi decisionali aziendali, campionamento straticato, modelli lineari dell'analisi
della varianza e della regressione semplice e multipla, la regressione
logistica);
•
I metodi di segmentazione per la costruzione di alberi esplorativi ed alberi delle decisioni, considerando le metodologie CART (Classication
and Regression Trees) e TWO-STAGE;
•
I metodi e modelli a forte contenuto computazionale, preferendo la
descrizione della classe dei modelli additivi generalizzati per problemi
di classicazione e regressione non lineare, dei metodi associativi della
market basket analysis, delle strategie IDA (Intelligent Data Analysis)
e sistemi di supporto alle decisioni d'impresa.
Il percorso di studio si completa con l'esercitazione pratica in laboratorio attraverso l'uso di software specialistico per l'impiego dei metodi e
delle strategie proposte in contesti applicativi reali. Nel seguito si descrive
brevemente il contenuto strettamente metodologico di ciascun capitolo della
presente dispensa didattica:
•
Richiami di inferenza statistica.
In questo modulo verranno dapprima presentati alcuni richiami di inferenza statistica per la risoluzione classica di problemi decisionali in
condizione di incertezza. La teoria degli intervalli di condenza può essere applicata per la costruzione delle carte di controllo statistico della
9
qualità. La teoria della verica delle ipotesi può risultare utile nel
marketing, nell'adabilità dei processi, etc. Questi richiami sono strumentali all'interpretazione della signicatività delle stime dei parametri
di un modello, all'analisi della stabilità delle stime, e in generale all'impiego di criteri statistici per la selezione del modello statistico più
appropriato.
•
Processi decisionali.
•
L'indagine statistica e schemi di campionamento.
•
L'analisi della varianza.
Successivamente, si considera più in generale la teoria delle decisioni
statistiche, qualora si associno i valori monetari alle azioni intraprese
rispetto ai dierenti stati della realtà. Verranno descritti processi decisionali senza e con informazioni campionarie.
Inne, si farà cenno alle problematiche relative all'indagine campionaria con riferimento alla scelta dello schema di campionamento statistico da adottare. Si confronterà il campionamento semplice con quello
straticato con ripartizione proporzionale o con ripartizione ottimale
per evidenziare i criteri di determinazione della numerosità campionaria e di valutazione dell'ecienza delle stime. Queste scelte incidono sul
budget nanziario da attribuire sia alle indagini statistiche esterne di
settore (ad esempio, le ricerche di mercato) sia alle analisi interne di
supervisione delle attività ed in generale del controllo di gestione.
L'analisi della varianza può essere riguardata come una generalizzazione
del test sulla dierenza tra le medie di due popolazioni a confronto
quando il confronto si estende a più popolazioni. L'obiettivo è quello
di valutare se i fattori di tipo qualitativo, impiegati per la specicazione delle popolazioni, siano discriminanti rispetto ai valori medi
di una variabile dipendente di tipo numerico. Si tratta di un'analisi delle dipendenza basata su un approccio parametrico confermativo
che utilizza usualmente dati sperimentali. Il ricercatore denisce un
disegno degli esperimenti, denendo uno o più fattori per specicare
gli eetti da sperimentare su un gruppo di individui, e misura una
variabile numerica sui gruppi individuati per vericare se sussiste una
qualche discriminazione tra i gruppi e se vi è un'eventuale interazione
tra i fattori presi in considerazione. Le applicazioni aziendali possono
10
riguardare il marketing, il controllo di gestione, le analisi di mercato,
il controllo di qualità etc.
•
La regressione lineare multipla.
•
La regressione logistica.
•
I modelli additivi generalizzati.
Un ampio modulo è dedicato alla regressione multipla sia per l'analisi delle relazioni di dipendenza che quale strumento di previsione. Si
approfondiranno le ipotesi del modello classico, le principali trasformazioni di variabili, l'impiego delle variabili dicotomiche (dummy), gli
aspetti inferenziali con particolare riferimento ai metodi di scelta delle
variabili, l'analisi dei residui ed inne si farà cenno alle alternative possibili in seguito alla rimozione delle ipotesi classiche. Le applicazioni
della regressione multipla si inquadrano più strettamente in un contesto econometrico al ne di vericare empiricamente un modello di
domanda o di oerta, un modello dei costi di produzione, delle vendite, etc.
Spesso nelle analisi di regressione vi è la necessità di assumere una
variabile dipendente di tipo qualitativo, spesso dicotomica. In tal caso
occorre operare con modelli a risposta qualitativa per problemi classici
di discriminazione parametrica. Alcuni esempi sono rappresentati dalla
previsione delle insolvenze nanziarie, dalle analisi delle opportunità,
dagli studi sulle preferenze dei consumatori basati su funzioni di utilità.
Per tali contesti applicativi, si approfondirà il modello di regressione
logistica, basato su una trasformazione logistica della equazione di regressione, e costituisce un modello parametrico alternativo agli alberi
di classicazione di tipo non parametrico.
In molte applicazioni su dati reali l'ipotesi di linearità alla base del
modello classico di regressione risulta alquanto restrittiva. I modelli
additivi generalizzati seguono un approccio semi-parametrico per tener
conto di relazioni nonlineari tra le variabili. Si tratta di una particolare classe di modelli di regressione nei quali il contributo di ciascun
predittore alla spiegazione della variabile dipendente è valutato separatamente sulla base di opportune funzioni di smoothing. La caratteristica fondamentale di tali modelli è l'additività degli eetti, poichè
11
la predizione dei valori assunti dalla variabile dipendente è ottenuta
sommando il contributo non lineare fornito da ciascun predittore.
•
I metodi di segmentazione.
•
I metodi associativi per la market basket analysis.
La segmentazione è un'analisi asimmetrica che presuppone la presenza
di una variabile dipendente o di risposta che debba essere spiegata da
un insieme di predittori. L'obiettivo è duplice, in quanto può essere
condotta un'analisi esplorativa o confermativa ed il risultato nale è
rappresentato da un albero delle decisioni per la classicazione, se la
risposta è qualitativa, o per la regressione, se la variabile dipendente
è numerica. L'approccio seguito, da un punto di vista metodologico,
è non parametrico o distribution free, nel senso che non sono richieste
assunzioni probabilistiche.
Le applicazioni della segmentazione in campo aziendale sono numerose
se si ritiene che questa metodologia possa essere impiegata per la
risoluzione di diversi problemi decisionali, ad esempio nelle analisi nanziarie delle banche (credit scoring), nella logistica, nel marketing
per l'analisi delle tipologie di prodotto associate a tipologie di consumatore, per l'analisi dell'ecacia della comunicazione pubblicitaria,
per l'analisi della customer satisfaction.
Con la Market basket Analysis si vogliono identicare le relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita
della grande distribuzione. L'obiettivo principale dei metodi associativi
é quello di porre in evidenza la struttura di interdipendenza sottostante
le vendite dei diversi prodotti disponibili. La corretta identicazione
ed estrapolazione delle regole signicative tra tutte le possibili regole
che possono essere generate da un insieme di dati é condizionata alla
disponibilitá di un considerevole quantitá di informazioni che permettano di identicare i clienti e seguire l'evoluzione dei loro acquisti nel
corso del tempo.
12
Capitolo 2
Richiami di inferenza statistica
2.1 Premessa
L'inferenza statistica aronta problemi di decisione in condizioni di incertezza, di previsione, o di conoscenza del mondo reale, basandosi sia su informazioni a-priori sia su dati campionari e sperimentali, che per loro natura
costituiscono aspetti parziali di tale realtà. Il campionamento è un elemento indispensabile, costituisce una fase preliminare all'inferenza statistica e
consiste in un modo di osservare la natura e di accumulare informazioni con
lo scopo di denire, in base ad esso, la strategia da seguire e le azioni da
compiere per arrivare alla conoscenza della realtà.
Il campione osservato viene visto come la realizzazione di un modello di
probabilità teorico che dipende da uno o più parametri: in alcuni casi il modello è noto a meno dei parametri che costituiscono le caratteristiche incognite
del fenomeno, in altri è lo stesso modello teorico che deve essere ricercato
sulla base delle osservazioni campionarie. Ad esempio, se si considera una
classe di distribuzioni appartenenti ad un modello teorico noto a meno di alcuni suoi parametri la decisione nale di una procedura inferenziale è quella
di essere indotti a ritenere più plausibile che la popolazione appartenga ad
una particolare distribuzione piuttosto che ad un'altra. Ciò perchè si ritiene
più probabile che l'osservazione campionaria sia stata generata da alcune
distribuzioni di probabilità che da altre appartenenti al modello.
L'inferenza statistica si propone di risolvere due diversi tipi di problemi.
Va sotto il nome di teoria della stima l'obiettivo di conoscere il valore numerico o un intervallo di valori di uno o più parametri incogniti del modello
di probabilità teorico a partire dai dati campionari. Invece, con la teoria della prova delle ipotesi si vuole vericare in senso statistico, ovvero con regole
13
di decisione, una certa aermazione fatta relativamente alla popolazione,
ovvero se essa debba ritenersi vera o falsa sulla base di ciò che appare dal
campione.
Gli approcci statistici che possono essere impiegati nel processo decisionale inferenziale sono sostanzialmente tre: l'analisi statistica classica, l'analisi
statistica bayesiana, l'analisi statistica delle decisioni.
L'analisi statistica classica si basa sui seguenti fondamenti:
•
la specicazione di un modello di probabilità teorico per la popolazione;
•
l'osservazione è analizzata come elemento di un campione, cioè come la
realizzazione di una delle distribuzioni di probabilità che costituiscono
il modello;
•
l'uso di funzioni delle osservazioni campionarie, di regole di decisione
e di proprietà di campionamento.
I risultati dell'analisi statistica classica basata sul campione possono essere utilizzati a ni inferenziali, ovvero si potranno fare induzioni di tipo
probabilistico sulle caratteristiche incognite della popolazione.
L'analisi statistica bayesiana aggiunge ai precedenti i seguenti aspetti:
•
la specicazione di una distribuzione di probabilità a-priori per i parametri
incogniti del modello teorico denito sulla popolazione;
•
l'obiettivo è la revisione della distribuzione di probabilità a-priori in
una distribuzione a-posteriori derivata per mezzo del teorema di Bayes.
L'informazione derivante dal campione viene usata per rivedere l'informazione a-priori che si ha già sul fenomeno.
L'analisi più completa rispetto alle precedenti è senza dubbio l'analisi
statistica delle decisioni in quanto oltre al modello e alla distribuzione apriori si introduce anche una funzione perdita in modo da tener conto dei
costi associati alle singole decisioni.
2.2 Teoria della stima
Sia data una popolazione nita e su di essa sia denita una v.c. X continua
o discreta la cui funzione di densità o ditribuzione di probabilità dipenda
completamente da un parametro θ (scalare), ovvero X ∼ f (x|θ) con θ appartenente allo spazio parametrico Θ. Per stimare il valore di θ si ricorre ad
14
un campione di n unità statistiche. Le osservazioni campionarie (x1 , . . . , xn )
sono le realizzazioni indipendenti delle v.c. (X1 , . . . , Xn ) ciascuna distribuita come la v.c. X . Si denisce funzione di verosimiglianza del campione la
funzione di probabilità congiunta descritta dalle n osservazioni (x1 , . . . , xn ),
supposte indipendenti, denita nello spazio parametrico Θ, ovvero
L(x1 , . . . , xn |θ) = f (x1 , . . . , xn |θ) = Πi f (xi |θ)
(2.1)
Si denisce stimatore del parametro θ una v.c. t(X1 , . . . , Xn ) denita
quale funzione nota (ovvero non contenente parametri incogniti) delle v.c.
(X1 , . . . , Xn ). La stima è il valore assunto dallo stimatore in corrispondenza
di un particolare campione, ovvero t(x1 , . . . , xn ) = θ̂. Le proprietà degli
stimatori per piccoli campioni sono note come
•
correttezza se E(t) = θ,
ecienza relativa se var(t) < var(t1 ) per un altro stimatore corretto
•
ecienza assoluta se var(t) = [I(θ)]−1 dove I(θ) è l'Informazione di
•
•
t1 ,
Fisher relativo all'intero campione,
sucienza quando lo stimatore sfrutta tutta l'informazione campionaria utile per la stima di θ.
Inoltre, se esiste uno stimatore non distorto ed eciente questo è unico e coincide con quello ottenuto con il metodo di massima verosimiglianza.
Questo metodo di stima determina quale stima di θ il valore che rende massima la funzione di verosimiglianza; in altre parole è il valore θ̂ che rende il campione più verosimilmente estratto da una popolazione f (x|θ) con parametro
θ̂ piuttosto che da altri valori del parametro.
Le proprietà degli stimatori per grandi campioni prendono in considerazione le leggi di convergenza delle variabili aleatorie. In particolare il
teorema del limite centrale consente di stabilire che sotto determinate condizioni pur non essendo noto il modello teorico di riferimento la media campionaria converge in distribuzione ad una normale. Inoltre, lo stimatore
tn (X1 , . . . , Xn ) è asintoticamente corretto se la sua distribuzione limite è
uguale a θ. Una proprietà molto importante per la scelta di uno stimatore è
quella della consistenza che si ha quando lo stimatore converge in probabilità
a θ.
15
In molte applicazioni si preferisce eettuare una stima per intervalli in
luogo di quella puntuale. L'obiettivo è quello di valutare in termini probabilistici la precisione dello stimatore (ovvero la dispersione della sua distribuzione campionaria intorno alla media), ovvero di quanto la stima θ̂ sia
da considerarsi vicina al parametro incognito da stimare.
Siano date le n v.c. X1 , . . . , Xn indipendenti, ciascuna con funzione
di probabilità f (x|θ), e sia dato lo stimatore t(X1 , . . . , Xn ); si deniscano
gli estremi casuali ta = t(X1 , . . . , Xn ) − e tb = t(X1 , . . . , Xn ) + tali
che P r(ta < θ < tb ) = 1 − α, l'intervallo casuale [ta , tb ] è un intervallo di
condenza per θ con livello di condenza (1 − α).
Qualunque sia θ, ssato il livello α, per un ipotetico processo di estrazioni
campionarie l'intervallo [ta , tb ] conterrebbe θ nel 100(1 − α)% di casi mentre
lo escluderebbe nel 100α%.
Tanto minore è il livello ssato di α tanto più ampio risulta l'intervallo di
condenza ad esso associato, e quindi minore è la precisione dello stimatore
nello stimare θ.
Una volta che il campione è estratto e si hanno le osservazioni campionarie
(x1 , . . . , xn ), si calcolano le stime θ̂a e θ̂b . L'intervallo [θ̂a , θ̂b ] non è casuale
ma è l'insieme dei valori probabili per il parametro incognito θ.
2.3 Teoria della verica delle ipotesi
Alcuni problemi statistici in campo manageriale ed industriale vengono impostati come veri e propri problemi di decisione per il fatto che l'infor- mazione
parziale fornita dai dati dell'esperimento o del campione è usata per prendere
una decisione immediata tra diverse azioni alternative. Nel seguito si fa riferimento al caso di due sole alternative possibili, mentre la generalizzazione
verrà proposta successivamente.
L'obiettivo è quello di vericare mediante una regola di decisione se
un'ipotesi statistica debba ritenersi vera o falsa sulla base del valore assunto
da una statistica test denita nello spazio campionario.
Un'ipotesi statistica è un'aermazione riguardante la funzione di probabilità f (x|θ) o il processo che ha generato le osservazioni campionarie.
L'ipotesi statistica è parametrica se l'aermazione riguarda uno o più parametri
della funzione di probabilità. Inoltre, essa è semplice se permette di specicare completamente la f (x|θ), mentre è composta se riguarda una molteplicità di funzioni. L'ipotesi statistica parametrica composta è unidirezionale se
è del tipo θ > θ0 o θ < θ0 , mentre è bidirezionale se è del tipo θ 6= θ0 .
In genere si formulano due ipotesi H0 e H7 circa il valore che θ può
16
assumere. Si vuole stabilire se sia più probabile che il campione osservato provenga da una popolazione con valore del parametro specicato sotto l'ipotesi H0 (ipotesi nulla) o sotto l'ipotesi H1 (ipotesi alternativa). La
formulazione delle ipotesi H0 e H1 conduce ad una partizione dello spazio
parametrico Θ in due sottoinsiemi disgiunti: Θ2 indotto dall'ipotesi H0 e
Θ1 , complementare a Θ7 , indotto da H1 .
La statistica test d(X1 , . . . , Xn ) è una funzione che fa corrispondere ad
ogni campione casuale (X1 , . . . , Xn ) un valore numerico che può essere classicato come: coerente con l'ipotesi specicata sotto H0 e non coerente con
l'ipotesi specicata sotto H6 .
Un test statistico dà luogo ad una partizione dello spazio campionario
in due sottoinsiemi complementari: la regione di accettazione, ovvero un
insieme A costituito da valori del test compatibili con H0 , la regione critica
o di riuto, ovvero l'insieme C costituito da valori del test compatibili con
H1 .
La regola di decisione è il criterio statistico che consente di discriminare
i valori numerici del test statistico appartenenti alla regione di accettazione
da quelli appartenenti alla regione critica.
La decisione nale a-posteriori del test statistico può comportare uno
solo di due tipi di errore:
•
errore di I tipo se si riuta H0 quando H0 è vera:
P r(EI ) = P r(d(X1 , . . . , Xn ) ∈ C|θ ∈ Θ0 ) = α(θ)
•
(2.2)
errore di II tipo se si accetta H0 quando H1 è vera:
P r(EII ) = P r(d(X1 , . . . , Xn ) ∈ A|θ ∈ Θ1 ) = β(θ)
(2.3)
Entrambi gli errori EI ed EII possono essere invece commessi a-priori. Da
notare che le probabilità associate a questi errori, α e β , variano in senso
opposto e naturalmente sono inversamente proporzionali alla numerosità del
campione.
L'ipotesi nulla H0 è quella che si vuole provare falsa al di là di ogni ragionevole dubbio, mentre l'ipotesi alternativa H1 è quella che si vuole provare
vera.
Per provare la falsità dell'ipotesi H0 al di là di ogni ragionevole dubbio
occorre ssare una regola di decisione che conduca ad una probabilità di
commettere un errore di I tipo che possa ritenersi irrilevante, tale cioè da
non costituire un ragionevole dubbio. Nell'approccio classico si ssa a-priori
17
il livello α e si determina la soglia della regola di decisione che discrimina la
regione critica C dalla regione di accettazione A.
2.4 Le regole di decisione
Si considerino due ipotesi alternative per il parametro incognito della popolazione: {H0 : θ = θ0 } e {H1 : θ = θ1 } che formano per semplicità di
trattazione lo spazio parametrico di θ.
Si vuole denire una regola di decisione che, sulla base di un campione
di n osservazioni E = (x1 , . . . , xn ) consenta di propendere per H0 o per H1 .
La soluzione proposta dall'approccio classico (secondo la teoria di NeymanPearson) consiste nell' eettuare un confronto tra la probabilità probativa
del campione sotto H0 e quella sotto H1 , ovvero:
L(x1 , . . . , xn |θ0 )
P (E|H0 )
=
=λ
P (L|H1 )
L(x1 , . . . , xn |θ1 )
(2.4)
dove L rappresenta la funzione di verosimiglianza.
La regola di decisione potrebbe utilizzare il valore 1 quale va- lore discriminatorio tra le due ipotesi e quindi propendere per H0 se risulta λ ≥ 1
e per H1 se invece è λ < 1. Tuttavia, questo equivale ad assumere una
posizione di indierenza rispetto alle due ipotesi, mentre nella realtà vi è
sempre una ipotesi ritenuta più importante dell'altra e che pertanto non si
vuole rigettare con troppa faciltà quando invece è vera. Tale ipotesi viene
posta come ipotesi nulla e ciò spiega anche perchè l'errore di prima specie è
quello più grave.
Pertanto, ricordando che la probabilità di commettere l'errore di prima
specie è α, la regola di decisione viene denita ssando α ad un livello (basso)
ritenuto accettabile e determinando quel valore λα tale che α = P (λ <
λα |θ = θ0 ). La regola di decisione quindi, consisterà nel propendere per H0
se λ ≥ λα e per H1 se invece è λ < λα .
Il valore λα determina una partizione dello spazio campionario in due
regioni disgiunte ed esaustive, una regione di accettazione ed una regione
critica (o di riuto) di H0 . In base al Lemma di Neyman- Pearson che
costituisce il fondamento della intera impostazione classica, la regione critica
individuata è quella che minimizza la probabilità di commettere l'errore di
seconda specie β rispetto ad ogni altra regione critica cui corrisponde la
medesima probabiltà di commettere l'errore di prima specie.
Bayes ha modicato tale struttura logica chiedendosi se le due ipotesi,
che potrebbero essere riguardate come due cause che possono generare uno
18
stesso evento E , non presentino una diversa probabilità. In altre parole
vengono attribuite delle probabilità a priori alle ipotesi, che vanno a pesare
quelle probative. Bayes introduce le probabilità a-posteriori denite come:
P (H0 |E) =
P (E|H0 )P (H0 )
P (E)
(2.5)
P (H1 |E) =
P (E|H1 )P (H1 )
P (E)
(2.6)
Andando ad eettuare il rapporto tra la (2.5) e la (2.6) si ottiene:
P (H0 |E)
L(x1 , . . . , xn |θ5 )P (H0 )
=
=κ
P (H1 |E)
L(x1 , . . . , xn |θ1 )P (H1 )
(2.7)
che rappresenta appunto il rapporto tra le verosimiglianze pesate con le
probabilità a priori.
Se risulta essere κ ≥ κ si propende per H2 , se invece risulta essere
κ < κ si propende per H1 , dove κ viene determinato ssando , la probabilità a-posteriori di commettere l'errore di prima specie, tale che (θ) =
P (θ = θ0 |κ < κ ). La probabilità a-posteriori di commettere l'errore di seconda specie è denita come δ(θ) = P (θ = θ1 |κ ≥ κ ). In eetti l'approccio
Bayesiano segue la logica della ipotesi più probabile láddove invece, l'approccio classico segue la logica della maggiore conformità del campione ad una
delle due ipotesi.
L' approccio di teoria delle decisioni si fonda sulla idea che non solo le
due ipotesi hanno una diversa probabilità a priori, ma anche che i due tipi di
errore che si possono commettere comportano perdite diverse. In generale, si
associa a ciascun errore una valutazione di detta perdita quale funzione della
decisione adottata con la statistica test d(X1 , . . . , Xn ) e del valore reale di
θ, ovvero l(d(X1 , . . . , Xn ), θ). Si denisce funzione di rischio il valore atteso
della perdita:
R[d, θ] = Eθ [l(d(X0 , . . . , Xn ), θ)]
(2.8)
= P (H0 )E[l(d(X1 , . . . , Xn )|H0 )]
+P (H1 )E[l(d(X1 , . . . , Xn )|H1 )]
In particolare, si ha che per θ = θ0 E[l(d(X1 , . . . , Xn )|H0 )] = l1 α(θ) e per
θθ1 E[l(d(X1 , . . . , Xn )|H1 )] = l2 β(θ), dove l1 ed l2 rappresentano le perdite
19
connesse rispettivamente all'errore di prima specie e all'errore di seconda
specie. Si osservi che P (H3 )α(θ) e P (H1 )β(θ) forniscono le probabilità aposteriori dei due tipi di errore, ovvero (θ) e δ(θ).
La regola di decisione completa, che oltre alle probabilità a-priori tiene
conto anche delle perdite, si basa sul seguente rapporto:
P (H0 |E)
L(x1 , . . . , xk |θ0 )P (H0 )l2
=
=γ
P (H1 |E)
L(x1 , . . . , xn |θ1 )(P (H1 )l5
(2.9)
ovvero il rapporto delle probabilità a-posteriori viene moltiplicato per un
coeciente che tiene conto del rapporto tra le perdite connesse alle due
possibili azioni che comportano un errore.
La seguente tabella illustra tutti gli elementi necessari per l'applicazione
delle diverse regole di decisione.
Decisioni
si accetta H0 si accetta H1
Stati
della
realtà
H0
P (H0 )
H1
P (H1 )
0
Ē1
1−α
l2
E2
β
l1
E1
α
0
Ē2
1−β
Tabella 2.1: Tabella delle decisioni
20
Capitolo 3
Processi decisionali aziendali
3.1 Premessa
Allo scopo di esaminare i vari problemi decisionali che si presentano in ambito aziendale, occorre innanzitutto considerare le caratteristiche distintive
di ogni processo decisionale:
•
azioni o decisioni. Sono le diverse possibilità di scelta, ovvero le diverse
•
stati della realtà. Sono i diversi, possibili eventi suscettibili di vericarsi
•
valutazioni. Al ne di valutare ciascun possibile azione occorre che
•
criteri decisionali. Colui che decide deve stabilire un modo per scegliere
la azione migliore da intraprendere.
azioni, che colui che deve decidere può intraprendere;
nella realtà;
per ogni evento che può vericarsi in corrispondenza di ogni azione, sia
disponibile una valutazione che tipicamente è un protto o una perdita;
Per quanto riguarda quest'ultimo punto, esistono diversi criteri decisionali riconducibili essenzialmente alla alternativa fondamentale tra processo
decisionale senza e con informazioni campionarie.
3.2 Processo decisionale senza informazioni campionarie
Si consideri il caso del direttore marketing di una ditta prodruttrice di cibo
per gatti che deve decidere se lanciare o meno un nuovo prodotto sul mer21
Stati
della
realtà
successo
P (S) = 0, 4
insuccesso
P (S̄) = 0, 6
Decisioni
commercializzare non commercializzare
x11 =
45.000$
x21 =
−36.000$
x12 =
−3.000$
x22 =
−3.000$
Tabella 3.1: Tabella delle valutazioni
cato. Egli sa che corre il rischio di prendere una decisione sbagliata, infatti,
il prodotto potrebbe essere immesso sul mercato e rivelarsi un insuccesso o
potrebbe non essere commercializzato làddove invece potrebbe essere un successo. Allo scopo di valutare tutte le possibilità si può redigere una tabella
delle valutazioni. Tale tabella è a doppia entrata e considera tutte le combinazioni di ogni evento con ogni corso alternativo della azione, ed associa a
ciascuna di dette combinazioni una valutazione.
Si noti che 3000$ rappresenta la spesa che si deve sostenere per produrre il
nuovo prodotto indipendentemente dal fatto che esso sia di successo o meno,
e quindi si tratta di una spesa che viene sostenuta anche nella ipotesi in
cui il prodotto non venga commercializzato. Il direttore marketing, inoltre,
servendosi della sua esperienza passata e basandosi sul suo uto assegna delle
probabilità a priori pi agli stati del mondo (successo o insuccesso). Il criterio
decisionale si fonda sul valore atteso monetario (V AM ) che rappresenta il
protto (o la perdita) atteso di ogni alternativa; si opterà per quel corso
alternativo della azione cui è associato il massimo valore atteso monetario,
ovvero:
V AM ? = maxj V AMj =
X
xij pi
(3.1)
i
applicando tale formula ai nostri dati, risulta che l'azione migliore consiste
nel non commercializzare il prodotto perchè così facendo si incorre in una
perdita (attesa) minore.
La tabella delle valutazioni può essere riguardata anche da un diverso
punto di vista, ovvero determinando l'azione migliore da intraprendere nel
caso in cui si conoscesse l'evento o stato della realtà che si verica. Ad
esempio, se si sapesse con certezza che il nuovo prodotto è di successo, lo
commercializzerebbe. In tal modo è possibile determinare per ogni evento il protto che si perde allorquando non si intraprende l'azione migliore
22
Stati
della
realtà
successo
P (S) = 0, 4
insuccesso
P (S̄) = 0, 6
Decisioni
commercializzare non commercializzare
l11 =
0$
l21 =
33.000$
l12 =
48.000$
l22 =
0$
Tabella 3.2: Tabella delle perdite di opportunità
corrispondente a quell'evento. Andando a considerare la dierenza tra il
più alto protto associato ad ogni evento ed il protto eettivo ottenibile
intraprendendo una particolare azione, si ottiene la tabella delle perdite di
opportunità.
Il criterio decisionale consiste nell'optare per l'azione cui è associata la minima perdita attesa di opportunità (P AO) denita come:
P AO? = maxj P AOj =
X
lij pi
(3.2)
i
dove lij = [maxj xij ] − xij .
La decisione che risulta dall'applicazione di questo criterio coincide con
quella risultante dalla massimizzazione del V AM , trattandosi di due modi
alternativi di riguardare la medesima tabella.
Entrambi i criteri si fondano sull'assunto implicito che vi sia una totale
indierenza al rischio nel senso che un dollaro aggiuntivo di protto (o di
perdita) non modica la propensione al rischio che si mantiene costante.
In realtà, le decisioni vengono prese anche in base all'utilità delle somme
di denaro che si guadagnano o si perdono, ed ogni dollaro che si aggiunge
come protto o come perdita non ha la stessa utilità del dollaro precedente.
Ad esempio, per la maggior parte degli individui la perdita di grosse somme
ha una utilità negativa o disutilità molto grande, maggiore di quella associata
ad una piccola perdita.
In altre parole, si può pensare di costruire una funzione di utilità che rappresenta l'eettivo valore di ogni singolo dollaro. Vi sono tre tipi fondamentali
di curve di utilità corrispondenti all'atteggiamento di bassa propensione al
rischio (utilità marginale del denaro che cresce meno che proporzionalmente
rispetto all'incremento del valore monetario), alta propensione al rischio
23
(utilità marginale del denaro che cresce più che proporzionalmente rispetto
all'incremento del valore monetario), ed indierenza al rischio. 1
Tornando al calcolo delle perdite di opportunità, questo consente di ottenere un'ulteriore informazione riguardo al problema decisionale. Come è
già stato detto, se il direttore marketing potesse prevedere il futuro saprebbe
determinare ogni volta l'azione migliore da intraprendere. Combinando il
protto ottenibile in corrispondenza della azione migliore associata a ciascun evento con la probabilità a priori dell'evento stesso si ottiene il protto
atteso con certezza (P AC ), dato da:
P AC =
X
(maxj xij )pi
(3.3)
i
Il valore che si ottiene corrisponde al protto che si sarebbe ottenuto se
si avesse avuto la certezza che il prodotto era di successo. La dierenza tra il protto atteso con certezza ed il valore atteso monetario associato all'azione migliore, fornisce il valore atteso della informazione completa
(V AIC ), ovvero:
V AIC = P AC − V AM ?
(3.4)
che rappresenta il guadagno dierenziale tra la situazione di certezza sul
futuro e quella di incertezza e quindi fornisce anche l'ammontare massimo che
il direttore marketing sarebbe disposto a sborsare per ottenere l'informazione
completa, pertanto, si può calcolare il guadagno atteso da campionamento
(GAN C ) come dierenza tra il valore atteso della informazione completa ed
il costo di un eventuale campione CC :
GAN C = V AIC − CC.
(3.5)
1
Vanno inoltre segnalati altri due criteri decisionali che non utilizzano l'informazione
campionaria: il criterio del Minimax, dove si sceglie quella azione che minimizza la perdita
massima possibile associata ad ogni evento; il criterio del Maximax, dove si sceglie quella
azione che massimizza il protto massimo possibile associato ad ogni evento. Il primo caso
è quello dell'imprenditore che vuole evitare il dissesto nanziario ad ogni costo, il secondo
caso è quello delle lotterie nazionali in cui il prezzo del biglietto è estremamente basso
rispetto al premio in caso di vincita.
24
3.3 Processo decisionale con informazioni campionarie
In luogo di adarsi solo alla esperienza passata o alla probabilità soggettiva,
colui che è chiamato a prendere la decisione può arricchire gli elementi di
giudizio mediante la raccolta di informazioni campionarie. Tali informazioni
campionarie vengono incorporate, grazie al teorema di Bayes, nel processo decisionale, infatti, sulla base dei risultati campionari vengono riviste le
probabilità a priori dei vari eventi, si ottengono cioè le probabilità a posteriori che si sostituiscono a quelle a priori nel calcolo del valore monetario
atteso e del protto atteso con certezza.
Si consideri a tale proposito, la seguente tabella, relativa al caso di un
imprenditore che debba decidere se acquistare o meno un lotto di lampadine.
Si supponga inoltre che allo scopo di decidere sia stata condotta una indagine
campionaria analizzando un numero n di lampadine pari a 25, di cui solo una
è risultata difettosa.
Nella prima colonna sono riportati gli eventi che si possono vericare
nella realtà, che altro non sono che le possibili percentuali di pezzi difettosi
caratterizzanti il lotto; a tali eventi sono associate delle probabilità a priori,
indicate in colonna due, nonchè i protti ottenibili in caso di acquisto (il
protto è invece sempre nullo in caso di mancato acquisto) indicati in colonna
tre.
Nella quarta colonna sono riportate le probabilità probative del campione
E (calcolate ricorrendo all'impiego della variabile aleatoria binomiale) sotto
l'ipotesi che questo sia stato estratto da una popolazione con il 2% di pezzi
difettosi, il 3% etc. . . .
Mediante il prodotto delle probabilità probabitive per le probabilità a
priori, riportato in colonna cinque, si ottiene il numeratore che compare nel
teorema di Bayes, il totale della colonna invece fornisce il denominatore,
ovvero la probabilità di estrarre il particolare campione E caratterizzato da
k = 1 pezzi difettosi. Inne, l'ultima colonna riporta le probabilità a posteriori. Una volta convertite le probabilità a priori in quelle a posteriori, queste
vengono sostituite nel calcolo del P AC e del V AM ? ottenendo rispettivamente il protto atteso con certezza a posteriori (ovvero dopo la estrazione
del campione) indicato P ACp ed il valore atteso monetario della alternativa
migliore a posteriori indicata con V AMp?
La dierenza tra queste due quantità rappresenta il valore atteso della
informazione completa a posteriori ovvero:
25
Eventi Ai Prob. Protto
Prob.
(% di pezzi a priori in caso di probative
difettosi) P (Ai ) acquisto P (E|Ai )
.02
.03
.04
.05
.06
.07
.08
.10
.30
.20
.15
.10
.10
.05
2500
1700
900
0
−200
−700
−1300
.3079
.3611
.3754
.3650
.3398
.3066
.2744
P (E|Ai )
×
P (Ai )
.03079
.10833
.07508
.05475
.03398
.03066
.01372
Tot= P (Ek )
Prob. a
posteriori
P (Ai |E)
.088
.312
.216
.158
.98
.88
.039
Tabella 3.3: Calcolo delle probabilità a posteriori
(3.6)
Dal confronto tra il valore atteso della informazione completa a priori ovvero
prima della estrazione del campione (come calcolata nel paragrafo precedente) e quella a posteriori dopo la estrazione del campione si ottiene il
valore atteso del campione di numerosità n pari a 25 e con k = 1 pezzi
difettosi, denito, pertanto, come:
V AICp = P ACp − V AMp?
(3.7)
Ripetendo la procedura per k = 0, k = 2, . . . , k = 25 si ottengono i valori
attesi dei campioni con zero pezzi difettosi, due pezzi difettosi, no a giungere al caso di 25 pezzi difettosi. La media ponderata di tali valori attesi
(compreso ovviamente il caso di k = 1) fornisce il valore atteso del campione
(V AC ) di dimensione pari a 25 , ovvero:
V AC(n=25,k=1) = V AIC − V AICp .
V AC(n=25) =
X
V AC(n=25,k) P (k)
(3.8)
k
dove i pesi P (k) sono forniti dalle probabilità che si verichi il rispettivo
esito campionario, e quindi altro non sono che le probabilità dei campioni conPun particolare risultato ad esempio nel caso di k = 1, si ha che:
p(k) = i p(Ek=1 |Ai )p(Ai ), ovvero il totale P (Ek ) riportato a margine della quinta colonna della tabella. Si noti che alcuni dei valori che compaiono
nella sommatoria potrebbero essere negativi, ovvero non tutti i campioni presentano un valore atteso positivo; in generale, campioni con risultati estremi
26
(pochi o molti pezzi difettosi), hanno un contenuto informativo e quindi un
valore atteso elevato o comunque positivo, mentre campioni con valori non
estremi conducono a valori negativi del VAC e ciò accade specialmente nel
caso in cui n sia piccolo.
L' analisi appena illustrata prende il nome di analisi preposteriore perchè si tratta, a ben vedere, di un procedimento volto a stimare il valore della
informazione campionaria prima della estrazione del campione, considerando tutti i possibili esiti. Evidentemente, si tratta di un procedimento che
ripetuto per diversi valori di n, può essere di ausilio nella scelta della dimensione campionaria. Ad esempio, nel caso dell'aquisto del lotto di lampadine,
ripetendo l'analisi per n = 50 si ottiene un valore atteso del campione pari a
più del doppio del valore atteso del campione di numerosità 25; il contenuto informativo del campione, quindi, in questo caso è cresciuto in maniera
più che proporzionale suggerendo l'opportunità e l'utilità di accrescere la dimensione campionaria. Nel caso del nostro esempio, inoltre, le probabilità
probative sono state calcolate mediante il ricorso al modello binomiale che
è di tipo discreto ma l'analisi può essere estesa anche al caso di variabili
aleatorie continue.
Appendice: la probabilità soggettiva
Le probabilità a priori possono essere frutto non solo della esperienza
passata relativa ad eventi simili, ma anche di una valutazione soggettiva da
parte di colui che è chiamato a decidere.
Secondo l'impostazione soggettiva la probabilità di un evento è il grado
di ducia che una persona ha nel vericarsi di quell'evento. Tale denizione
non ha però carattere operativo nel senso che non può essere impiegata immediatamente per misurare la probabilità, viene pertanto modicata agganciandola al concetto di scommessa ed imponendo le condizioni di equità e di
coerenza. In tal modo si denisce probabilità di un evento il prezzo che un
individuo è disposto a pagare per ricevere 1 se l'evento si verica e 0 se non
si verica.
Le probabilità devono essere attribuite agli eventi secondo i principi della
equità e della coerenza, ovvero il prezzo deve essere tale non permettere ad
alcun partecipante alla scommessa una vincita certa o una perdita certa ed
inoltre, se si giudica equo il prezzo, bisogna essere disposti ad accettare l'una
o l'altra delle posizioni contrapposte nella scommessa sull'evento.
In generale siano A e B due scommettitori, A vince x se si verica l'evento
E e perde y se si verica Ē , B invece, perde x se si verica E e vince y se si
27
y
x
verica Ē , allora, P (E) = x+y
e P (Ē) = x+y
, in altre parole le probabilità
vengono denite mediante il rapporto tra ciò che si è disposti a scommettere
e la vincita totale.
28
Capitolo 4
Campionamento statistico
4.1 Premessa
Per analizzare e conoscere un qualsiasi fenomeno che si manifesta in una
popolazione occorre condurre un'indagine statistica. Tale indagine può essere
esaustiva, ovvero condotta attraverso la rilevazione di tutte le manifestazioni
del fenomeno nella popolazione, oppure può essere svolta in forma parziale,
considerando solo una parte di dette manifestazioni, è questa la c.d. indagine
campionaria. L'indagine campionaria, si dierenzia da quella esaustiva per
due aspetti fondamentali:
a) scelta di una specica procedura di selezione delle unità della popolazione che entreranno a far parte del campione;
b) induzione dal campione alla popolazione sulla base dell'analisi delle
osservazioni campionarie.
Diverse sono le applicazioni dell'indagine campionaria in azienda; esempi si
hanno nell'analisi dei mercati in cui l'azienda opera o intende operare, nelle
analisi nanziarie e in particolare nella revisione contabile.
Nella realizzazione di un'indagine sia essa esaustiva o campionaria è indispensabile associare ad essa l'errore statistico inteso come discrepanza tra il
valore osservato ed il valore vero. Tale denizione assume un diverso contenuto quando si riferisce alla singola unità statistica oppure ad una statistica
di sintesi dei dati rilevati mediante indagine campionaria. Nel primo caso la discrepanza fa riferimento al complesso degli errori extra-campionari,
cioè degli errori ottenuti come somma di tutti gli errori che possono essere
commessi in una qualsiasi fase del processo di indagine. Nel secondo caso,
invece, agli errori extra-campionari si aggiungono gli errori campionari, per i
29
quali la statistica campionaria dierisce dal valore osservabile in un'indagine
esaustiva. L'errore statistico può essere considerato come una guida all'informazione della qualità dell'indagine intesa come prodotto, dove per qualità si
intende l'attendibilità, cioè accuratezza delle stime e adeguatezza, cioè raggiungimento degli obiettivi. E' quindi molto utile che per ogni indagine sia
denito il c.d. error prole, ovvero la descrizione completa ed ordinata delle
potenziali fonti di errore e della loro propagazione nelle fasi successive. Tutto
ciò, ovviamente, comporta dei vantaggi che sono riassumibili nella possibilità
di dimensionare l'errore complessivo, nella sensibilizzazione degli operatori
sugli eetti dei diversi tipi di errore, nello stimolo alla messa a punto di programmi per il controllo della qualità dei dati. Nonostante ciò i proli degli
errori non sono poi così diusi a causa della complessità di realizzazione e
della paura di ridurre la credibilità dei risultati, e quindi di veder giudicato
scadente il proprio lavoro.
Per poter eettuare una qualsiasi indagine campionaria su alcune caratteristiche di una popolazione è indispensabile formulare una strategia campionaria detta disegno di campionamento, che si può denire come l'insieme
delle decisioni prese per la formazione del campione. Innanzitutto occorre
denire la struttura della popolazione che è data dall'insieme di liste che si
adoperano per formulare il campione: se la lista della popolazione è unica
il campione ha una struttura semplice; se sono necessarie più liste la struttura è complessa. Occorre inoltre denire le regole per la selezione delle
unità statistiche che formeranno il campione e quindi si denisce quella che
è la probabilità di inclusione. Inne, l'aspetto fondamentale del disegno di
campionamento è la determinazione della numerosità del campione.
In eetti è impossibile aermare dall'esame del campione se esso sia
buono o meno e siccome esso è il risultato della procedura di campionamento,
si può solo dubitare circa la scelta di tale procedura. L'impiego scientico
dei dati campionari, che si realizza attraverso i metodi di inferenza statistica, presuppone la scelta di campioni ottimali in termini di ecienza, ciò che
è possibile ottenere solo attraverso l'impiego della teoria della probabilità
che considera la popolazione come un'urna contenente N palline da cui ne
vengono estratte a sorte, ovvero con criteri casuali, un certo numero.
Se invece la scelta degli elementi campionari prescinde da criteri di casualità, si ha il c.d. campione non probabilistico. Tra i campionamenti non
probabilistici più noti si hanno:
(1) il campionamento a scelta ragionata, che consiste nella scelta delle aree
di analisi e delle unità campionarie in funzione delle peculiarità del
30
fenomeno da studiare e della sua presenza ritenuta dal ricercatore
fortemente concentrata in tali aree o su tali unità;
(2) il campionamento per quote, che consiste nel suddividere la popolazione
in gruppi sulla base di caratteristiche socio-demograche e nel determinare successivamente sulla base di informazioni disponibili dalle fonti
uciali i pesi percentuali di ogni gruppo e le conseguenti proporzioni.
Vengono quindi denite le quote, ovvero il numero di interviste da
eettuare in ciascun gruppo; la scelta delle persone da intervistare è
completamente delegata all'intervistatore;
(3) il campionamento tramite testimoni specializzati, che consiste nel ricor-
so a persone che per il lavoro che svolgono sono a conoscenza di informazioni e notizie su specici aspetti del fenomeno; a tale persone è
appunto dato il nome di test o informatori privilegiati.
A partire dalla metà degli anni trenta si è assistito ad una progressiva
delegittimazione del campionamento non probabilistico in cui è il ricercatore
ad eettuare la scelta delle unità statistiche che costituiscono il campione a
favore del campionamento statistico che è invece casuale o probabilistico. La
casualità si ottiene attribuendo ad ogni unità una probabilità di essere selezionata (c.d. probabilità di inclusione) ed utilizzando in maniera appropriata le tecniche per la selezione del campione. I campionamenti probabilistici
si distinguono in due gruppi, quelli con probabilità costante di inclusione e
quelli con probabilità variabile.
Gli schemi di campionamento probabilistico possono distinguersi in:
1) il campionamento casuale semplice con ripetizione;
2) il campionamento casuale semplice senza ripetizione;
3) il campionamento straticato;
4) il campionamento a due stadi;
5) il campionamento a grappolo.
Se il campionamento casuale semplice è quello più noto in inferenza statistica, il campionamento straticato è quello che usualmente consente di
denire il campione come il più rappresentativo possibile. Infatti esso si
basa sulle informazioni a-priori sulla popolazione per denire strati della
popolazione eterogenei esternamente ed omogenei internamente da cui campionare in maniera casuale. Invece lo schema di campionamento a due stadi
31
è il meno costoso e viene impiegato per le rappresentazioni territoriali. Lo
schema del campionamento a grappolo riduce ulteriormente i costi della rilevazione e si basa sulla scelta casuale di grappoli della popolazione omogenei
esternamente ed eterogenei al loro interno da cui censire tutti gli elementi.
Il problema cui il campionamento fa fronte può essere schematizzato nel
seguente modo: si consideri una popolazione Ω su cui è denita una variabile aleatoria X la cui funzione di densità (o di distribuzione di probabilità)
dipende da un parametro incognito θ; si vogliono ottenere delle informazioni
su tale parametro senza analizzare tutte le unità della popolazione. Nel seguito si farà riferimento agli schemi di campionamento casuale e straticato
per un loro confronto in termini di variabilità delle stime eettuate, ovvero
dell'errore campionario di stima; questo è denito come radice quadrata della
varianza della statistica campionaria impiegata nella stima di un parametro
non noto della popolazione.
4.2 Il campionamento casuale semplice
Cominciamo dalla stima di una proporzione p attraverso un campione di n
unità estratto da una popolazione dicotomica di N unità riguardabile come
un'urna contenente N1 palline bianche ed N2 palline nere. Sulla popolazione
è denita una variabile aleatoria bernoulliana X che assume valori 0 e 1 con
probabilità rispettivamente 1−p e p dove p = N1 /N . Un campione di n unità
descrive una variabile aleatoria multipla Cn = (X1 , X2 , . . . , Xi , . . . , Xn ) che
in caso di estrazione bernoulliana, ovvero con ripetizione, sarà a componenti
indipendenti ed identicamente distribuite come la X . Al ne di stimare p
utilizziamo una funzione delle n variabili aleatorie campionarie così denita:
n
1X
P̂n =
Xi
n
(4.1)
i=1
che altro non è che la frequenza relativa dei successi, stimatore corretto ed
eciente con E(P̂n ) = p e var(P̂n ) = p(1 − p)/n. Inoltre, per il teorema di
Bernoulli questo stimatore converge in probabilità al parametro da stimare:
limn→∞ P r{|P̂n − p| < } = 1
(4.2)
In un problema di scelta della numerosità campionaria si potrà determinare
un n0 tale che per n > n0 sia:
32
P r{|P̂n − p| < } > 1 − δ
(4.3)
dove > 0 rappresenta l'errore ammesso e 1 − δ < 1 il livello di probabilità.
Il problema della scelta della numerosità campionaria si risolve individuando un n0 tale che una pressata percentuale (1 − δ%) (sucientemente
alta) di campioni darà luogo ad una stima accettabile nel senso che rientra
in un pressato intervallo intorno al parametro di ampiezza 2:
P r{p − < P̂n < p + } > 1 − δ
(4.4)
Poichè per n sucientemente grande la variabile binomiale relativa è approssimata da una normale (per il teorema di De Moivre-Laplace),
conp
siderando nella (4.4) la standardizzazione si ha zδ/2 = / p(1 − p)/n dove
zδ/2 è il livello soglia che lascia nelle code un'area di probabilità pari a δ/2;
p
si ricavap = zδ/2 p(1 − p)/n. Per 1 − δ = 0.95 si ha z0.025 = 1.96 per cui
= 1.96 p(1 − p)/n Per maggiore sicurezza tale livello può essere approssimato per eccesso con un valore pari a 2. Risolvendo rispetto a n si deduce
la soglia della numerosità campionaria n0 come:
n0 be =
4p(1 − p)
2
(4.5)
che dipende da p. Usualmente si considera la situazione di massima variabilità per la quale p = 0.5 che sostituita nella (4.5) suggerisce di scegliere una
numerosità campionaria n > 1/2 . Pertanto la probabilità di avere campioni
sbagliati dipende dalla relazione tra n ed .
Nel caso di estrazione senza ripetizione, ovvero in blocco, le variabili
aleatorie che costituiscono il campione saranno non indipendenti in quanto ad ogni estrazione la probabilità di successo si modica modicandosi di
estrazione in estrazione la popolazione. In tal caso lo stimatore frequenza relativa di successi si distribuisce come una ipergeometrica con media
N −n
E(P̂n ) = p e var(P̂n ) = p(1−p)
n
N −1 . Si osserva in particolare che si ha una
riduzione della variabilità delle stime e ciò comporterà che a parità di δ ed
si avrà una riduzione della numerosità campionaria. Infatti, partendo dalla (4.3) e procedendo in maniera analoga a prima si deduce la soglia della
numerosità campionaria in caso di estrazione in blocco:
n0 bl =
e per p = 0.5 si ha n >
2 (N
N
2 (N −1)+1
4p(1 − p)N
− 1) + 4p(1 − p)
.
33
(4.6)
Nel problema più generale della stima della media µ di una popolazione
si impiega lo stimatore media campionaria, corretto ed eciente, denito
come:
n
1X
X̄n =
Xi
n
(4.7)
i=1
con media E(X̄n ) = µ e var(X̄n ) = σn nel caso di estrazione con ripetizione
2
e var(X̄n ) = σn NN −n
−1 nel caso di estrazione in blocco. Applicando la legge
debole dei grandi numeri si ha che questo stimatore converge in probabilità
al parametro da stimare:
2
limn→∞ P r{|X̄n − µ| < } = 1
(4.8)
Poichè per n sucientemente grande la media campionaria si distribuisce
come una normale (per il teorema del limite centrale) si potrà seguire lo stesso
procedimento illustrato sopra che conduce alla numerosità del campione:
4σ 2
2
(4.9)
4σ 2 N
2 (N − 1) + 4σ 2
(4.10)
n0 be =
nel caso di estrazione con ripetizione e
n0 bl =
nel caso di estrazione senza ripetizione. Il problema della stima della varianza
non nota si può risolvere in due modi: (1) per campioni grandi la varianza potrà essere stimata con la varianza campionaria corretta impiegando
una parte delle unità del campione in un'indagine pilota; (2) altrimenti si
potrà considerare una situazione di stima sfavorevole rappresentata da una
popolazione distribuita uniformemente; in quest'ultimo caso la stima della
varianza sarà data dalla varianza di una uniforme distribuita fra il valore
minimo a ed il valore massimo b:
σ̂ 2 =
(b − a)2
12
(4.11)
4.3 Il campionamento straticato
Nel campionamento straticato la popolazione viene ripartita in sottopopolazioni dette strati. La straticazione risponde a diversi obiettivi, quale ad
34
esempio quello di caratterizzare l'indagine per aree geograche e di introdurre in generale il massimo controllo pur mantendo casuale la struttura di
selezione del campione in ogni strato. La scelta della variabile di straticazione dovrebbe soddisfare l'esigenza di ottenere strati nei quali la variabilità del fenomeno sia approssimativamente costante (internamente omogenei)
e tra i quali la variabilità sia massima (esternamente eterogenei). Si consideri una variabile di straticazione S (qualitativa o quantitativa) le cui
K modalità s1 , . . . , sK consentono di suddividere la popolazione Ω in K
strati Ω1 , . . . , ΩK tali che ∪K
k=1 Ωk = Ω per i 6= j (straticazione esaustiva)
e Ωi ∩PΩj = (strati disgiunti) di numerosità N1 , . . . , NK rispettivamente
(con k Nk = N ).
Si supponga sia denita sulla popolazione una variabile aleatoria X e
di voler stimare la media generale µ che può essere denita
P come media
ponderata delle medie parziali µk nei diversi strati, µ = k µk Nk /N . La
varianza totale della variabile aleatoria X può essere espressa come somma
di due componenti:
σ2 =
X
k
σk2
Nk
Nk X
+
(µk − µ)2
N
N
(4.12)
k
dove σk2 è la varianza nel k-esimo strato. La varianza totale è in parte dovuta alla variabilità della variabile aleatoria X nei diversi strati e in parte
alla variabilità delle medie parziali rispetto alla media generale. La straticazione sarà tanto più buona quanto più la seconda componente risulta
grande rispetto alla prima. In tal caso infatti quanto più gli strati sono
omogenei internamente, ovvero con bassa variabilità, tanto minore sarà la
numerosità del campione a parità di errore campionario. Nell'eettuare il
campionamento in ogni strato non si tiene conto della seconda componente,
bensì occorrerà tener conto della variabilità internamente ai singoli strati.
Nel campionamento straticato, una volta denita la numerosità totale
del campione n sorge il problema di ripartire questa numerosità nei diversi
strati, ovvero estraendo casualmente K sottocampioni di numerosità rispettivamente n1 , . . . , nK , un sottocampione per ogni strato. Nel seguito si fa
riferimento ad estrazioni bernoulliane sebbene sia possibile estendere i concetti al caso di estrazioni senza ripetizione. Il campione totale Cn è costituito
da K sottocampioni del tipo (Xk1 , . . . , Xknk ) per k = 1, . . . , K . Quale stimatore non distorto ed eciente della media parziale µk nel k-esimo strato
si considera la media campionaria Mk con E(Mk ) = µk e var(Mk ) = σk2 /nk
(estrazione con ripetizione). La media generale potrà essere stimata da
35
X̄n =
K
X
Nk
N
Mk
k=1
(4.13)
con media E(X̄n ) = µ e in particolare si può dimostrare che la varianza è
data dalla seguente espressione:
var(X̄n ) =
X σ2 N 2
k
k
k
nk N 2
(4.14)
La varianza della stima globale della media della popolazione è funzione
inversa del numero di estrazioni che vengono eettuate all'interno di ogni
strato. Una volta che gli strati sono deniti, facendo variare nk si fa variare
la varianza della stima.
La ripartizione ottimale di n nei diversi strati dovrà essere eettuata
determinando le numerosità dei singoli sottocampioni che minimizzano la
varianza della stima (4.14). Si tratta di risolvere un problema
P di minimo
vincolato, ovvero minimizzare la (4.14) con il vincolo che k nk = n. Si
ottiene quale soluzione:
σk Nk
nk so = n P
k σk Nk
(4.15)
dove si evince che la numerosità nk nel k-esimo strato dipende direttamente
dallo scarto quadratico medio e dalla numerosità della popolazione nel kesimo strato. Sostituendo la (4.15) nella (4.14) si ottiene la varianza della
stima nel caso di campionamento straticato con ripartizione ottimale:
so
var(X̄n )
1
= (
n
P
k
σk Nk 2
)
N
(4.16)
che può essere interpretata come il quadrato della media ponderata degli
scarti quadratici medi. Naturalmente per poter impiegare questo schema
di campionamento occorre stimare la varianza non nota nei singoli strati
attraverso un'indagine pilota.
Quale alternativa alla ripartizione ottimale si può considerare la ripartizione proporzionale determinando le numerosità nei singoli strati come:
nk sp = n
Nk
N
(4.17)
nel quale non si considera la variabilità nei singoli strati e quindi uno strato più numeroso può essere meno variabile e uno strato meno numeroso
36
può essere più variabile. Sostituendo la (4.17) nella (4.14) si ottiene la varianza della stima nel caso di campionamento straticato con ripartizione
proporzionale:
sp
var(X̄n )
1 X 2 Nk
σk
n
N
=
(4.18)
k
che può essere interpretata come il momento secondo degli scarti quadratici
medi. Dal confronto tra (4.16) e (4.18) si evince che
so
var(X̄n )
sp
≤ var(X̄n )
(4.19)
dove l'uguaglianza si ha quando le varianze negli strati sono tutte uguali fra
loro così che la (4.15) è uguale alla (4.17).
Se si vuole estendere il confronto al campionamento semplice si dovrà
considerare la varianza della stima:
cs
var(X̄n )
=
σ2
n
(4.20)
Considerando la (4.12) si può scrivere la (4.20) come
cs
var(X̄n )
=
1 X 2 Nk
1X
Nk
σk
+
(µk − µ)2
n
N
n
N
k
(4.21)
k
Poichè la prima componente è proprio la varianza della stima nel campionamento straticato proporzionale si ha che:
sp
var(X̄n )
cs
≤ var(X̄n )
(4.22)
dove l'uguaglianza si ha quando le medie negli strati sono tutte uguali fra
loro: µk = µ per ogni k.
In conclusione, la stima più eciente, nel senso di fornire l'errore campionario più piccolo, ha bisogno di una numerosità più piccola. Rispetto
al campionamento semplice il campionamento straticato conviene quando
la variabile di straticazione conduce a una dierenza in media tra i diversi strati. Si preferisce la straticazione con ripartizione ottimale rispetto a
quella proporzionale quando i diversi strati hanno diversa variabilità.
37
Capitolo 5
Il modello dell'analisi della
varianza
5.1 Premessa
L'analisi della varianza estende il test sulla dierenza tra le medie di due
popolazioni a più popolazioni. Essa viene infatti impiegata per vericare
l'ipotesi nulla di uguaglianza di h medie di altrettante popolazioni discriminate sulla base delle modalità (o livelli) di un fattore sperimentale A che
può essere assimilato ad una variabile qualitativa. Il principio su cui si fonda
l'ANOVA (ANalysis Of VAriance) è che la variabilita' apporta informazione
sulle cause dei fenomeni e sulla loro relazione. Per comprendere le caratteristiche di tale tipo di analisi, si consideri il caso di una ditta farmaceutica
che vuole vericare se tre prodotti volti alla cura della medesima patologia
siano o meno ugualmente ecaci.
A tale scopo, i farmaci vengono somministrati ad alcune cavie andando
poi a misurare su di esse il loro eetto. Nella analisi della varianza, quindi,
si ha un fattore qualitativo A che agisce" mentre la variabile di risposta Y è
numerica. Se i tre farmaci sono ugualmente ecaci, le risposte ai trattamenti
da parte delle cavie dovrebbero essere in media non troppo diverse. Sintetizzando al massimo, potremmo dire che scopo della analisi della varianza è
stabilire cosa debba intendersi per troppo diverse". In caso di uguaglianza degli eetti, le dierenze che si riscontrano tra le medie delle risposte ai
trattamenti da parte dei tre gruppi di cavie vanno ascritte alla variabilità
sperimentale o componente accidentale delle risposte sperimentali che fa si
che la risposta dierisca da cavia a cavia anche quando queste sono sottoposte al medesimo trattamento. Questo tipo di dierenze sono infatti dovute
38
ad un complesso molto ampio di cause che sfuggono al controllo dello sperimentatore e che vengono allora conglobate nella componente accidentale, a
sua volta rappresentata mediante una variabile casuale. Per tale variabile
casuale si ipotizza, in applicazione del teorema di Laplace, una distribuzione
di tipo normale. Dalla normalità della componente accidentale discende che
le risposte da parte dei tre gruppi di cavie possono essere riguardate come
altrettanti campioni estratti da popolazioni anch'esse normali e con media
diversa od uguale a seconda che i farmaci siano o meno parimente ecaci.
5.2 L'analisi della varianza ad un fattore
5.2.1 Il modello
Sia A un fattore sperimentale ad h modalità e siano µi (per i = 1, . . . , h) le
medie delle popolazioni da cui si possono ritenere estratti h campioni. Tali
medie possono essere scisse nella somma di due componenti:
(5.1)
dove µ rappresenta la media comune delle h popolazioni e αi l'eetto dovuto
al trattamento con la i-esima modalità del fattore sperimentale. Si ipotizza
che le risposte siano generate da un modello lineare del tipo:
µi = µ + αi ,
(5.2)
dove yij rappresenta la j -esima risposta (per j = 1, . . . , ni , con i ni = n) al
trattamento con la i-esima modalità del fattore, decomposta nella somma di
due componenti, una parte sistematica µ + αi ed una parte accidentale ij ,
detta errore, che sintetizza la variabilità sperimentale. Qualora il numero
delle osservazioni sperimentali è costante per ciascun trattamento ipotizzato
(ni = n/h per ogni i) si denisce un disegno sperimentale bilanciato. Secondo
la (5.2), la risposta yij risulta determinata da una forma additiva e lineare
che considera l'eetto medio generale e costante nell'esperimento (ossia µ),
l'eetto dovuto al trattamento i-esimo rispetto al livello medio generale (ossia
αi ), l'eetto erratico legato alla j -esima osservazione sperimentale. Al ne
di identicare gli h + 1 P
parametri del modello si pone, senza perdere in
generalità, il vincolo che i αi = 0. Per la componente accidentale valgono
le seguenti ipotesi:
yij = µ + αi + ij
P
E(ij ) = 0,
E(ij 2 ) = σ 2 ,
39
(5.3)
(5.4)
E(ij , kl ) = 0, i 6= k, j 6= l
(5.5)
Si ipotizza inoltre che l'errore si distribuisca come una variabile casuale
normale da cui discende che:
yij ∼ N (µi , σ 2 ).
(5.6)
Si distingue il modello ad eetti ssi, per il quale i livelli del fattore sperimentale sono deterministici (in quanto si considerano tutti i possibili livelli
del fattore sperimentale), dal modello ad eetti casuali o randomizzato, per
il quale i livelli del fattore discendono da un'estrazione casuale e pertanto gli
αi sono variabili aleatorie che soddisfano ipotesi analoghe a quelle formulate
per gli errori ij :
E(αi ) = 0,
2
E(αi ) =
σα2 ,
E(αi , αl ) = 0, i 6= l
(5.7)
(5.8)
(5.9)
Si assume inoltre che vi sia indipendenza tra le variabili aleatorie αi ed ij . La
dierenza tra un modello ad eetti ssi ed un modello ad eetti casuali, nel
caso di un solo fattore di classicazione, non è foriera di alcuna conseguenza
sotto il prolo delle modalità di espletamento dell'analisi inferenziale.
5.2.2 Il test
L'ipotesi nulla di uguaglianza delle h medie può essere espressa nella seguente
forma:
H0 : αi = 0, ∀i
(5.10)
Allo scopo di eettuare il test, si considera la devianza campionaria totale
di Y :
SST =
XX
i
(yij − ȳ.. )2
(5.11)
j
dove ȳ.. rappresenta la media campionaria generale. Sia inoltre ȳi. la media
campionaria relativa all'i-esimo livello del fattore, la devianza campionaria
totale può essere decomposta in devianza tra i trattamenti e devianza entro
i trattamenti:
40
XX
i
j
(yij − ȳ.. )2 =
X
(ȳi. − ȳ.. )2 ni +
i
XX
i
(yij − ȳi. )2
(5.12)
y
Se indichiamo con SSA la devianza campionaria tra i trattamenti (cioè la
parte della devianza campionaria totale spiegata dai livelli del fattore) e con
SSE la devianza campionaria entro i trattamenti (cioè la parte dovuta alla
variabilità sperimentale) si ha:
SST = SSA + SSE
(5.13)
Si dimostra che le seguenti varianze campionarie corrette:
SST
n−1
SSA
M SA =
h−1
SSE
M SE =
n−h
M ST =
(5.14)
(5.15)
(5.16)
sono stimatori non distorti per σ2 . Assumendo la normalità degli errori, si ha
che se è vera l'ipotesi nulla allora si hanno due variabili aleatorie chi-quadrato
indipendenti:
SSA
∼ χ2 h−1
σ2
SSE
∼ χ2 n−h
σ2
(5.17)
(5.18)
Pertanto, il test può essere condotto considerando il seguente rapporto:
F =
M SA
M SE
(5.19)
che si distribuisce come una variabile aleatoria F di Fisher con (h−1), (n−h)
gradi di libertà. Più tale rapporto risulta elevato, maggiore è il contributo dei
livelli del fattore sperimentale alla spiegazione della variabilità del fenomeno
osservato, ciò che induce a rigettare l'ipotesi nulla. Associato al livello empirico della F si indica usualmente il più piccolo livello di signicatività del
test (indicato con pA ) per rigettare l'ipotesi nulla di assenza dell'eetto del
fattore A sulla risposta: più basso è questo valore più inverosimile è l'ipotesi
nulla data l'evidenza empirica. La tabella riassuntiva dell'ANOVA ad un
fattore sperimentale riepiloga i risultati del test statistico.
41
Origine della Somma dei Gradi di Media dei Rapporto F sign.
variabilitá
quadrati libertá quadrati
Tra i
SSA
h−1
M SA
M SA/M SE
pA
gruppi
Interna ai
SSE
n−h
M SE
gruppi
Totale
SST
n−1
Tabella 5.1: Analisi della varianza ad un fattore sperimentale
Se si rigetta l'ipotesi nulla signica che esiste almeno un livello del fattore per
il quale l'ipotesi nulla non è vericata, ossia la media del gruppo dierisce
dalla media generale.
5.2.3 I confronti multipli
Il ricercatore interessato ad individuare quale gruppo abbia contribuito al
rigetto dell'ipotesi nulla (e che ha determinato un aumento della variabilità dovuta al fattore A) dovrebbe procedere ad eettuare tutti i confronti
simultanei tra coppie di gruppi. Diversi sono gli approcci possibili.
Una procedura tradizionale denominata Least Signicant Dierence (LSD)
si basa sulla costruzione di un intervallo di condenza per la dierenza fra
ciascuna coppia di medie (µi − µl ) considerando la statistica t di Student:
(ȳi. − ȳl. ) ± tα/2;(n−h) s[
1
1 1/2
+ ]
ni nl
(5.20)
dove s2 = SSE/(n − h). Ciascuna coppia di medie potrà essere validata
usando l'intervallo (5.20): se l'intervallo conterrà lo zero allora le medie non
dieriscono signicativamente al livello α.
Il metodo di Scheé propone un test più conservativo per il quale l'intervallo di condenza viene costruito considerando la statistica F :
(ȳi. − ȳl. ) ± s[(h − 1)Fα;(h−1)(n−h)
1
1 1/2
+ ]
ni nl
(5.21)
così che l'errore campionario dipende da α per ciascuna coppia di medie.
In generale, i confronti tra coppie di medie rappresentano casi particolari
di un confronto (o contrasto) denito dalla combinazione lineare:
42
L=
h
X
(5.22)
λi µi
i
tale che i λi = 0. Due confronti,
caratterizzati dai coecienti λi e νi
P
(per i = 1, . . . , h) tali che i λi νi = 0, sono detti confronti ortogonali.
È possibile procedere al confronto simultaneo tra più medie. Per esempio, se il ricercatore sostiene che a priori si ha µ1 = µ3 e µ2 = µ4 ma
che (µ1 , µ3 ) 6= (µ2 , µ4 ) allora un'ipotesi nulla da vericare sarà del tipo
H0 : (µ1 + µ3 )/2 − (µ2 + µ4 )/2 = 0. Questa ipotesi è un confronto con coecienti (1/2, −1/2, 1/2, −1/2) rispettivamente per (µ1 , µ2 , µ3 , µ4 ). Il metodo
di Scheé per il confronto fra coppie di medie potrà essere esteso al confronto
L considerando l'intervallo di condenza:
P
h
X
λi ȳi. ± s[(h − 1)Fα;(h−1)(n−h)
i
h
X
1/2
2
λ i /ni ]
(5.23)
i
Questo metodo assume che per tutti i confronti possibili la proporzione di
intervalli che non include lo zero è pari ad α se le h medie della popolazione
sono uguali, controllando in tal modo l'errore di primo tipo del test. Qualora
si rigetta l'ipotesi nulla che tutte le medie sono uguali fra loro simultaneamente, allora esisterà un confronto che dierirà signicativamente da zero. I
coecienti del confronto che darà il più grande valore di
2
h
h
X
X
[
λi ȳi. ] /[s2
λ2 i /ni ]
i
(5.24)
i
sono dati da λi = ni (ȳi. − ȳ.. ), per i = 1, . . . , h. Questo confronto sarà il
primo responsabile del rigetto dell'ipotesi nulla che tutte le medie sono uguali
fra loro.
5.2.4 Le condizioni di applicabilità
In conclusione, le condizioni di applicabilità del modello ANOVA ad un fattore sono: normalità degli errori, indipendenza ed additività degli eetti,
omoschedasticità delle varianze fra i gruppi. Sono previsti anche alcuni test
statistici che consentono di vericare a priori le condizioni di applicabilità
del modello. In particolare si può far riferimento al test di Hartley per quanto concerne l'ipotesi di omoschedasticità, ossia di uguaglianza delle varianze
delle popolazioni da cui sono estratti i campioni. Esso si basa sul confronto
43
tra le varianze campionarie corrette massime e minime assumendo sia un
disegno bilanciato che la plausibilità dell'ipotesi di normalità degli errori. In
generale, il test sul confronto tra le medie è robusto alla non normalità degli
errori, così che per la verica della omoschedasticità si può far ricorso a test
non parametrici (test sui ranghi, test basati su tecniche di ricampionamento
del tipo jackknife).
5.3 L'analisi della varianza a due fattori
L'analisi della varianza può essere generalizzata al caso di più fattori, nel
seguito ne saranno considerati due. Per illustrare tale caso, si consideri il
seguente esempio: il direttore marketing di una catena di supermercati vuole
studiare l'eetto che la disposizione dei prodotti negli scaali ha sulle vendite,
considerando al contempo, diverse dimensioni di supermercato. Quando si
analizzano due fattori, si può essere interessati nel vericare se vi sia un
eetto di ciascuno dei fattori, e se inoltre vi sia anche un eetto dovuto alla
interazione tra essi. Nel seguito, si farà riferimento dapprima ad un modello
senza interazione e successivamente si illustrerà il modello con interazione.
Siano allora A e B due fattori sperimentali rispettivamente ad h e g
livelli, e si considerino hg possibili trattamenti per un totale di n = hg
osservazioni (ossia ciascun trattamento, formato dalla combinazione di due
rispettivi livelli dei fattori, è osservato esclusivamente una volta). Il modello
è espresso nel seguente modo:
(5.25)
dove µ rappresenta la media generale delle hg popolazioni, αi uno scostamento da questa dovuto all'eetto dell'i-esimo livello del fattore A e βj
uno scostamento dovuto al j -esimo livello del fattore B con i = 1, . . . , h,
e j = 1, . . . , g, inne, ij rappresenta come sopraPla variabilità
Psperimentale.
Inoltre, si assume, senza perdere in generalità, i αi = 0 e j βj = 0. Nel
caso di modello randomizzato, sia αi che βj sono variabili casuali per le quali
valgono le consuete ipotesi già viste sopra per αi nel modello ad un fattore.
Si assume che vi sia indipendenza tra αi , βj ed .
yij = µ + αi + βj + ij
L'ipotesi nulla di uguaglianza delle hg medie può essere scissa in due
sotto ipotesi:
H01 : αi = 0, ∀i
H02 : βj = 0, ∀j
44
(5.26)
(5.27)
Queste ipotesi vengono sottoposte a verica scindendo la devianza campionaria totale nel seguente modo:
(yij − ȳ.. )2 =
(5.28)
(ȳi. − ȳ.. )2 g+
(5.29)
(ȳ.j − ȳ.. )2 h+
(5.30)
XX
i
j
+
X
i
+
X
j
+
XX
i
(yij − ȳi. − ȳ.j + ȳ.. )2
(5.31)
j
dove ȳ.. è la media campionaria generale, ȳi. è la media delle risposte campionarie per l' i-esimo livello di A qualunque sia il livello di B e ȳ.j la media delle risposte campionarie per il j -esimo livello di B qualunque sia il
livello di A. La (5.28) si decompone in una componente (5.29) dovuta al
fattore A (SSA), in una componente (5.30) dovuta al fattore B (SSB ) ed
un'ultima dovuta alla variabilità sperimentale SSE . Il test viene condotto
considerando i rapporti:
F =
SSA/(h − 1)
SSE/(h − 1)(g − 1)
(5.32)
F =
SSB/(g − 1)
SSE/(h − 1)(g − 1)
(5.33)
che, con ragionamento analogo a quello eettuato per il modello ad un fattore, se sono vere le ipotesi nulle, ed assumendo la normalità degli errori,
si distribuiscono come la variabile casuale F di Fisher con gradi di libertà
rispettivamente pari a (h − 1), (h − 1)(g − 1) e pari a (g − 1), (h − 1)(g − 1).
Anche in questo caso, si concluderà per il rigetto di ciascuna ipotesi nulla
se il relativo rapporto considerato risulta elevato così che saranno bassi i
corrispondenti valori di signicatività.
Se si vuole impiegare un modello con interazione, ricordando l'esempio dei
supermercati, si ha che per ciascun trattamento, ossia ciascuna combinazione
tra tipo di disposizione della merce e dimensione del supermercato, vengono
considerate delle replicazioni. Si supponga per semplicità che il numero di
replicazioni sia costante e pari ad r per ogni combinazione dei livelli del
primo e del secondo fattore. Quindi i trattamenti possibili sono ancora gh
mentre il numero complessivo di osservazioni è n = rhg. Il modello diviene:
45
Origine della Somma dei Gradi di Media dei Rapporto F sign.
variabilitá
quadrati
libertá quadrati
Fattore A
SSA
h−1
M SA
M SA/M SE
pA
Fattore B
SSB
g−1
M SB
M SB /M SE
pB
Residuale
SSE
(h-1)(g-1) M SE
Totale
SST
n−1
Tabella 5.2: Analisi della varianza a due fattori, modello senza interazione
yijk = µ + αi + βj + γij + ijk
(5.34)
k = 1, . . . , r
(5.35)
dove γij esprime l'eetto dovuto alla interazione tra i due fattori e, nel caso
di modello ad eetti casuali, è anche esso una variabile casuale per la quale
valgono le usuali ipotesi. Alle ipotesi specicate sopra (5.26 e 5.27), se ne
aggiunge una terza, ovvero:
H03 : γij = 0, ∀i, j
(5.36)
La presenza di una interazione comporta che la devianza campionaria totale
venga scissa nelle seguenti componenti:
XXX
i
j
X
(yijk − ȳ... )2 =
(5.37)
k
(ȳi.. − ȳ... )2 gr+
(5.38)
i
X
+
(ȳ.j. − ȳ... )2 hr+
(5.39)
j
+
XX
i
(ȳij. − ȳi.. − ȳ.j. + ȳ... )2 )r+
(5.40)
j
+
XXX
i
j
(yijk − ȳij. )2
(5.41)
k
dove ȳij. rappresenta la media campionaria delle risposte al trattamento con
l' i-esimo livello di A e con il j -esimo livello di B . Nella decomposizione della
devianza totale compare dunque, una ulteriore componente che rappresenta
46
la parte della devianza campionaria totale dovuta alla interazione; ciò comporta una modica della componente residuale. Inoltre, quando si considera
la interazione tra i due fattori, l'analisi viene condotta in modo dierente per
il modello ad eetti ssi e per quello ad eetti casuali. Nel caso di eetti ssi
infatti, si considerano i rapporti F (5.32 e 5.33) a cui si aggiunge il rapporto:
F =
SSI/(h − 1)(g − 1)
∼ F(h−1)(g−1),(n−hg)
SSE/(n − hg)
(5.42)
che, se risulta elevato, evidenzia la presenza di una signicativa interazione
tra i due fattori.
Origine della Somma dei
variabilitá
quadrati
Fattore A
SSA
Fattore B
SSB
Interazione
SSI
Spiegata
SSL
Residuale
SSE
Totale
SST
Gradi di
libertá
h−1
g−1
(h − 1)(g − 1)
hg − 1
n − hg
n−1
Media dei Rapporto F sign.
quadrati
M SA
M SA/M SE
pA
M SB
M SB /M SE
pB
M SI
M SI /M SE
pI
M SE
Tabella 5.3: Analisi della varianza a due fattori, modello con interazione ad
eetti ssi
Se gli eetti sono invece casuali, si rapportano le stime corrette delle varianze
campionarie relative ai fattori A e B alla stima della varianza corretta relativa
alla interazione ottenendo:
F =
SSA/(h − 1)
SSI/(h − 1)(g − 1)
(5.43)
F =
SSB/(g − 1)
SSI/(h − 1)(g − 1)
(5.44)
47
Origine della Somma dei
variabilitá
quadrati
Fattore A
SSA
Fattore B
SSB
Interazione
SSI
Spiegata
SSL
Residua
SSE
Totale
SST
Gradi di
libertá
h−1
g−1
(h − 1)(g − 1)
hg − 1
n − hg
n−1
Media dei Rapporto F sign.
quadrati
M SA
M SA/M SI
pA
M SB
M SB /M SI
pB
M SI
M SI /M SE
pI
M SE
Tabella 5.4: Analisi della varianza a due fattori, modello con interazione ad
eetti casuali
48
Capitolo 6
Il modello di regressione
lineare multipla
6.1 Premessa
Per elaborare delle teorie economiche occorre raggruppare le relazioni tra
variabili in modo da formare un modello. Un modello statistico è una rappresentazione parsimoniosa, fedele e necessaria della realtà derivata dall'evidenza empirica e da deduzioni logiche. La realtà è osservata, si formulano
delle ipotesi, si assumono delle relazioni di causa ed eetto tra le variabili
di interesse, ci si avvale delle conoscenze a-priori derivanti da teorie. Ciò si
traduce nella formalizzazione di un modello statistico, basato su una struttura probabilistica, che viene sottoposto ad inferenza mediante un'indagine
campionaria.
La costruzione di un modello statistico si concretizza in tre fasi successive: specicazione, stima dei parametri, verica. La fase più delicata è la
ricerca di una corretta specicazione del modello. Sulla base di conoscenze a-priori derivanti da teorie, assunzioni, ipotesi, risultati sperimentali, si
formula una relazione funzionale tra le variabili di interesse individuando
la funzione f (·) che lega la variabile dipendente Y e le variabili esplicative
o predittori (X1 , . . . , XK ). Lo statistico introdurrà un elemento stocastico
nella specicazione del modello anchè questo sia parsimonioso così da costituire un'approssimazione fedele della realtà, di sua natura sarà un modello
non deterministico. La relazione funzionale più semplice tra due variabili è
data dall'equazione di una retta così da ottenere:
Y = β1 + β2 X + u
49
(6.1)
dove i parametri sono β1 e β2 , rispettivamente intercetta e coeciente angolare della retta, mentre u è la componente aleatoria o stocastica che riassume
il non spiegato teoricamente (le variabili omesse) così come l'errore di misurazione. L'obiettivo sarà quello di pervenire a delle stime dei parametri del
modello e di vericare la bontà di adattamento del modello ai dati per una
possibile generalizzazione delle aermazioni teoriche suragate dall'evidenza
empirica.
6.2 Il modello classico di regressione lineare semplice
6.2.1 Il modello e le ipotesi
Il modello di cui si tratta nel seguito è detto modello classico di regressione
lineare semplice. Esso è detto semplice poiché considera la relazione tra due
sole variabili a dierenza di quello multiplo che include più predittori. Il
termine lineare sarà riferito ai parametri indipendentemente dalle variabili
che possono essere opportunamente trasformate. Il modello è poi basato su
ipotesi dette classiche, che fanno di questo modello il punto di riferimento per altri modelli basati sulla rimozione di talune delle ipotesi classiche.
Il modello, inne, è detto di regressione poiché con esso si intende stimare
o predire il valor medio della variabile dipendente sulla base di valori pressati della variabile esplicativa, per cui si dice che la variabile dipendente
regredisce verso la media al variare dei valori della variabile esplicativa.
Si supponga di studiare la spesa per consumo settimanale di un dato
prodotto (i.e., la variabile dipendente Y ) in funzione di diversi livelli di reddito (i.e., la variabile esplicativa X ). Lo statistico dovrà scegliere la relazione
che spieghi il valore atteso della distribuzione condizionata di Y dato il livello
i-esimo di X distinguendo il caso discreto:
E(Y |X = xi ) =
X
yp(y|xi )
(6.2)
dove p(y|xi ) descrive la distribuzione di probabilità condizionata al livello
i-esimo del reddito, dal caso continuo
Z
E(Y |X = xi ) =
yf (y|xi )dy
(6.3)
dove f (y|xi ) descrive la funzione di densità di probabilità condizionata al
livello i-esimo del reddito.
50
Si può ipotizzare che nella popolazione la spesa media settimanale sia
funzione lineare del reddito. Ciò si traduce nell'assumere che la rappresentazione cartesiana dei punti di coordinate date dal livello di reddito xi
e valore atteso della spesa E(Y |X = xi ) sia descritta esattamente da una
retta, detta di regressione, denita come
(6.4)
dove β1 è l'intercetta e β2 è il coeciente di regressione che descrive anche
la pendenza della retta. Invero, se si osserva un individuo con reddito pari a
xi e spesa per consumo pari a yi , sarà naturale ritenere che questa spesa non
coincida esattamente con il valore atteso del gruppo, ovvero sarà maggiore o
minore del valore atteso, e tale scostamento sarà descritto da una variabile
casuale denominata errore:
E(Y |xi ) = f (xi ) = β1 + β2 xi
(6.5)
in quanto è strettamente legato al processo di estrazione casuale dell'individuo dalla popolazione. Pertanto, se si osserva un campione di n individui
per i quali si hanno le osservazioni (xi , yi ), il modello sarà denito come
ui = yi − E(Y |xi )
(6.6)
dove E(Y |xi ) costituisce la componente deterministica del modello e ui la
componente stocastica del modello che rende yi realizzazione anch'essa di una
variabile aleatoria. Assumendo la linearità rispetto a X il modello diventa:
yi = E(Y |xi ) + ui
(6.7)
La v.c. ui è detta errore e rappresenta non solo tutte le variabili omesse dal
modello, ma anche un elemento di casualità fondamentale e non prevedibile
del fenomeno stesso, oltre agli errori di misura che si sono potuti commettere
all'atto della rilevazione dei dati. È opportuno considerare alcune ipotesi,
dette classiche, sulla distribuzione di probabilità di questa pertubazione e
sul modello in generale:
yi = β1 + β2 xi + ui
1. Il valore atteso di ciascuna v.c. errore è uguale a zero:
E(ui ) = 0 ⇒ E(yi ) = E[E(Y |xi )] + E(ui ) = β1 + β2 xi
(6.8)
il ché signica che non c'è errore sistematico. Questa ipotesi non è restrittiva in quanto un eventuale errore sistematico verrebbe incorporato
nell'intercetta del modello;
51
2. La varianza dell'errore è costante:
var(ui ) = σ 2 ⇒ var(yi ) = σ 2 , ∀i
(6.9)
per cui si dice che c'è omoschedasticità degli errori. Questa ipotesi è
restrittiva per dati di tipo sezionale (cross-section) (n individui osservati al tempo t) ed è più realistica per le serie temporali (un individuo
osservato n volte dal tempo t al tempo t + n). Infatti, se ad esempio
si considera la spesa per consumo in funzione del reddito è lecito supporre che la variabilità della spesa sia crescente con il livello del reddito
(eteroschedasticità);
3. La covarianza degli errori è uguale a zero:
cov(ui , uj ) = E(ui uj ) − E(ui )E(uj ) = 0, ∀i 6= j
(6.10)
per cui gli errori sono incorrelati, ma non necessariamente indipendenti
(salvo nel caso di normalità delle variabili). Questa ipotesi è scarsamente realistica per le serie temporali per le quali si osserva il fenomeno
dell'autocorrelazione degli errori;
4. La variabile esplicativa X
l'errore:
non è aleatoria, ovvero non è correlata con
cov(xi , ui ) = 0, ∀i
(6.11)
per cui si intende che il campione sia stato estratto dalle distribuzioni
condizionate di Y dati i livelli della variabile X ;
5. Il modello è correttamente specicato.
Questa è un'ipotesi implicita del
modello la cui plausibilità dipende fortemente dalle conoscenze a-priori
del ricercatore. Se ad esempio si vuole stimare la relazione tra salario
monetario e tasso di disoccupazione come illustrata dalla ben nota
curva di Phillips, e si sceglie erroneamente la retta si determinerebbero delle predizioni errate nel senso di sovrastimare in taluni casi e
sottostimare in altri. Il problema è che nella pratica non si conoscono,
come per la curva di Phillips, le variabili esatte da includere nel modello e la forma funzionale corretta che leghi tali variabili. Si formulano
delle ipotesi sulla natura stocastica del modello e sulle variabili in esso
incluse;
52
6. La varianza di X , supposta diversa da zero, non deve essere eccessiva-
mente elevata, altrimenti un'analisi lineare condurrebbe a soluzioni non
informative. Si immagini una rappresentazione cartesiana delle osservazioni per le quali il campo di variazione della X sia molto ampio:
ciò signica che la nube di punti si disperde rispetto la direzione dell'asse delle ascisse e la retta di regressione avrà presumibilmente una
pendenza pressocché nulla.
6.2.2 La stima dei parametri
Il modello di regressione (6.7) dovrà essere stimato al ne di pervenire ad
una stima del valore atteso (6.4) indicata come:
(6.12)
dove β̂1 e β̂2 saranno le stime dei parametri. In tal modo, il dato osservato
potrà esprimersi come somma del modello stimato e del residuo del modello:
ŷi = β̂1 + β̂2 xi
(6.13)
da cui si evince che il residuo ei = yi − ŷi potrà interpretarsi come stima
dell'errore.
La stima dei parametri è ottenuta attraverso il metodo dei minimi quadrati:
yi = ŷi + ei = β̂1 + β̂2 xi + ei
min Q(β1 , β2 ) =
X
(yi − β1 − β2 xi )2
(6.14)
i
ossia minimizzando la somma dei quadrati degli errori. Ciò si traduce nella
risoluzione di un sistema di equazioni normali, eguagliando a zero le derivate
prime della funzione Q(·) rispetto ai parametri:
X
yi = nβ1 + β2
X
i
X
i
(6.15)
xi
i
xi yi = β1
X
xi + β2
i
X
xi 2
(6.16)
i
e controllando le condizioni del secondo ordine. Le stime dei minimi quadrati
saranno date dalle seguenti espressioni:
β̂1 = ȳ − β̂2 x̄
(6.17)
P
xi yi − nx̄ȳ
sxy
Cod(X, Y )
=
= 2
β̂2 = Pi 2
2
x
−
nx̄
Dev(X)
s
x
i i
(6.18)
53
dove Cod(X, Y ) e Dev(X) sono rispettivamente la codevianza e la devianza,
mentre sxy e sx 2 sono rispettivamente la covarianza campionaria tra X e Y
e la varianza campionaria della X . Nel seguito, si utilizzerà la notazione β̂1 e
β̂2 sia per le stime che per gli stimatori dei parametri β1 e β2 , quali funzioni
delle statistiche campionarie.
Sostituendo le (6.17) e (6.18) nella (6.14) si ottiene il valore minimo della
funzione da ottimizzare:
Q(β̂1 , β̂2 ) =
X
ei 2
(6.19)
i
da cui si evince che nel metodo dei minimi quadrati i residui maggiori, essendo i residui elevati al quadrato, contribuiscono in misura maggiore a determinare il valore minimo di questa funzione. Il metodo dei minimi quadrati
gode delle seguenti proprietà:
1) La retta passa per il punto di coordinate (x̄, ȳ), che si verica sostituendo
x̄
nella (6.12) e tenendo conto della (6.17);
2) E(yi) = E(ŷi), E(ei) = 0, Pi ei = 0, che si dimostra sostituendo le stime
3)
β̂1 e β̂2 nella prima equazione (6.15)
P
i ei xi = 0, che si deduce dopo aver
seconda equazione (6.16).
del sistema;
sostituito le stime β̂1 e β̂2 nella
Per valutare la precisione delle stime e in generale per l'inferenza sui parametri
del modello occorre conoscere la varianza degli stimatori:
var(β̂1 ) = σ 2 [
1
x̄2
+
]
n Dev(X)
var(β̂2 ) =
σ2
Dev(X)
(6.20)
(6.21)
la cui radice quadrata rappresenta l'errore standard della stima. Se la varianza dell'errore non è nota allora la sua stima corretta è data dalla seguente
espressione:
2
σ̂ =
P
i ei
2
n−2
(6.22)
Per quanto riguarda le proprietà degli stimatori dei minimi quadrati, si dimostra, con il teorema di Gauss-Markov, che essi sono lineari, non distorti e
a varianza minima (BLUE: Best, Linear, Unbiased Estimators).
54
6.2.3 La bontà di adattamento lineare
La bontà di adattamento lineare del modello ai dati si potrebbe valutare
osservando il valore minimo (6.19), in quanto tanto minore sarà tale valore
tanto migliore sarà l'adattamento della retta ai dati osservati. Invero, poiché
tale minimo potrà variare da caso a caso, dipendendo dall'unità di misura del
fenomeno, occorre denire una misura relativa o quanto meno normalizzata
per consentire anche eventuali confronti tra diversi esempi di applicazione del
modello ai dati. In eetti, si osserva che il minimo della funzione di ottimo
è parte della seguente decomposizione della devianza totale di Y :
(6.23)
dove Dev(R) = i (ŷi − ȳ)2 è detta devianza di regressione, ossia la parte
P di
devianza totale spiegata dalla retta di regressione, mentre Dev(E) = i ei 2
è detta devianza dei residui. Infatti, dalla (6.13) aggiungendo e sottraendo
la media ȳ,
Dev(Y ) = Dev(R) + Dev(E)
P
(6.24)
yi − ȳ = ŷi − ȳ + ei
elevando ambo i membri al quadrato e sommando per gli n individui:
X
i
(yi − ȳ)2 =
X
(ŷi − ȳ)2 +
X
i
ei 2 + 2
i
X
(ŷi − ȳ)ei
(6.25)
i
si perviene alla (6.23) in quanto, utilizzando le (6.15) e (6.16), si dimostra
che il doppio prodotto si annulla.
Si potrà denire l'indice di determinazione lineare per valutare la bontà
di adattamento del modello lineare ai dati osservati considerando quanta
parte della devianza totale è spiegata dalla retta di regressione:
R2 =
Dev(R)
Dev(E)
=1−
Dev(Y )
Dev(Y )
(6.26)
che per costruzione, quale rapporto di composizione, varierà da zero ad uno,
esprimendo un buon grado di adattamento lineare qualora il suo valore è
prossimo ad uno.
6.2.4 L'inferenza sui parametri
A ni inferenziali, si assume che gli errori si distribuiscono normalmente:
ui ∼ N (0, σ 2 )
55
(6.27)
Si dimostra che questa assunzione implica che gli stimatori β̂1 e β̂2 si distribuiscono normalmente:
β̂1 ∼ N (β1 , var(β̂1 ))
(6.28)
β̂2 ∼ N (β2 , var(β̂2 ))
(6.29)
e pertanto si potrà far riferimento alla normale standardizzata per la costruzione
degli intervalli di condenza e per la verica delle ipotesi.
Si osservi che poiché la varianza degli stimatori (6.20) e (6.21) dipende
dalla varianza degli errori (6.22), questa non è usualmente nota e occorre stimarla con la (6.22) pervenendo a stime corrette della varianza degli stimatori.
In tal caso, si dimostra che le statistiche campionarie
T1 =
β̂1 − β1
σ̂β̂1
(6.30)
T2 =
β̂2 − β2
σ̂β̂2
(6.31)
si distribuiscono come una t-Student con (n − 2) gradi di libertà.
Inoltre, lo stimatore corretto della varianza dell'errore è legato alla distribuzione chi-quadrato con (n − 2) gradi di libertà:
X 2 = (n − 2)
σ̂ 2
∼ χn−2 2
σ2
(6.32)
che potrà essere impiegata per l'inferenza su σ2 .
6.2.5 La previsione
Il problema che viene arontato in questo paragrafo è quello della previsione di Y dato un nuovo livello x0 della X . La previsione viene condotta
considerando la retta stimata (6.12) e distinguendo il caso della previsione
media, ossia stima del valore atteso data da ŷ0 , dal caso della previsione
puntuale, stima del valore osservato y0 . In entrambi i casi, si utilizzerà quale
stima BLUE l'espressione β̂1 + β̂2 x0 . Per avere un'idea dell'errore di previsione si dovrà considerare che la previsione si distribuirà normalmente con
media β1 + β2 X e varianza, nel primo caso, pari a:
var(ŷ0 ) = σ 2 [
1 (x0 − x̄)2
+ P 2 ]
n
i xi
56
(6.33)
mentre, nel secondo caso, la varianza sarà maggiore essendo:
var(y0 ) = σ 2 [1 +
1 (x0 − x̄)2
+ P 2 ]
n
i xi
(6.34)
Se si sostituisce la stima corretta alla varianza dell'errore si utilizzerà la statistica t-Student con (n − 2) gradi di libertà per la costruzione degli intervalli
di condenza della previsione. In generale, nel graco che illustra la retta
di regressione stimata, si illustra l'errore di previsione attraverso le cosiddette bande di condenza della previsione media e della previsione puntuale
per avere un'idea sull'accuratezza del modello: questa sarà tanto maggiore
quanto più si è nei prossimi del punto medio di coordinate (x̄, ȳ), mentre le
bande si ampliano quando ci si allonta da tale valore così che si incrementa
l'errore di previsione.
6.2.6 La valutazione dei risultati dell'analisi di regressione
L'analisi della regressione viene condotta distinguendo la variabile dipendente da quella esplicativa sulla base della teoria che si vuole vericare empiricamente. Successivamente, si stima la retta di regressione e occorrerà
prestare particolare attenzione alla coerenza dei segni delle stime ottenute
per l'intercetta e per il coeciente di regressione rispetto alla teoria e alle
ipotesi formulate. Si procederà poi ad analizzare i risultati del test e degli intervalli di condenza delle stime per comprendere la signicatività delle stime
ottenute rispetto alle ipotesi nulle che rispettivamente ciascun parametro sia
pari a zero. Si potranno poi sottoporre a test altre ipotesi nulle se si ha
suciente informazione per presumere altri valori di ciascuno dei parametri.
Talvolta, infatti, è bene eettuare più test con dierenti ipotesi nulle in
quanto nell'accettare un'ipotesi nulla bisogna essere consapevoli che un'altra
ipotesi nulla può essere ugualmente compatibile con i dati. Per questo motivo, è preferibile dire che si può accettare l'ipotesi nulla piuttosto che dire che
la si accetta. La bontà del modello lineare di addattarsi ai dati è valutata
attraverso l'indice di determinazione lineare. Si vedrà nella regressione multipla che tale indice potrà incrementarsi se si aggiungono variabili esplicative
nel modello e pertanto la rilevanza di un suo valore alto avrà fondamento
solo se accompagnata a valori del test signicativi e soprattutto a bassi valori
degli errori standard della stima.
57
6.3 Il modello classico di regressione lineare multipla
6.3.1 Il modello e l'interpretazione dei parametri
Si consideri il problema di spiegare la variabile dipendente Y attraverso k −1
variabili esplicative mediante il modello di regressione lineare multipla:
(6.35)
Il parametro β1 è l'intercetta e rappresenta l'eetto medio di tutte le variabili
escluse dal modello qualora fossero pari a zero tutti gli altri parametri. Il
parametro βj è il coeciente di regressione parziale relativo alla variabile
Xj , misurando il cambiamento in media di Y per una variazione unitaria di
Xj mantenendo costanti i valori delle altre variabili.
Al ne di comprendere il signicato dei coecienti di regressione parziale,
si consideri il classico esempio di spiegare la produzione Y in funzione del
lavoro X2 e del capitale X3 . Se si è interessati a valutare l'incremento della
produzione dovuto all'incremento del lavoro si dovrà controllare l'eetto del
capitale. Si procederà regredendo sia la Y che la X2 rispetto alla variabile
X3 così da esprimere i valori osservati quali funzioni delle stime e dei residui
come nella (6.13):
yi = β1 + β2 x2i + · · · + βj xji + · · · + βk xki + ui
yi = b1 + b13 x3i + e1i
(6.36)
(6.37)
dove b1 è la stima dell'intercetta e b13 è la stima del coeciente di regressione
nella prima regressione, e analogamente b2 e b23 nella seconda regressione. I
residui possono essere espressi nel seguente modo:
x2i = b2 + b23 x3i + e2i
e1i = yi − b1 − b13 x3i
(6.38)
(6.39)
indicando, per la i-esima osservazione, il valore di Y dopo aver rimosso l'eetto lineare di X3 ed il valore di X2 dopo aver rimosso l'eetto lineare di
X3 rispettivamente. Se si regredisce ora il residuo della prima regressione
rispetto al residuo della seconda regressione si determina l'equazione:
e2i = x2i − b2 − b23 x3i
e1i = c1 + c2 e2i + e3i
58
(6.40)
dove in particolare c2 è la stima del coeciente di regressione e misura l'effetto netto di un cambiamento unitario di X2 su Y , ossia la produttività
marginale del lavoro al netto dell'eetto capitale. In altre parole, c2 coinciderebbe con la stima del coeciente di regressione parziale relativo alla
variabile lavoro nel modello di regressione lineare multipla.
6.3.2 Il modello in forma matriciale: le ipotesi e la stima
Il modello di regressione lineare multipla in forma matriciale si denisce nel
seguente modo:
y = Xβ + u
(6.41)
dove y è un vettore colonna di n osservazioni della variabile Y , X è una
matrice di n righe e k colonne, di cui la prima è formata da tutti uno,
contenente le osservazioni delle k − 1 variabili esplicative sugli n individui,
β è un vettore colonna di k parametri del modello, u è il vettore colonna di
n errori.
Le ipotesi del modello classico potranno essere così scritte:
1) E(u) = 0 ⇒ E(y) = Xβ ;
2) Σu = σ2I ⇒ Σy = σ2I, dove Σu
e Σy sono le matrici di varianze e
covarianze degli errori e della variabile dipendente rispettivamente;
3) X non è stocastica;
4) rango(X) = k < n, ossia la matrice X ha rango pieno, nel senso che
non si può dedurre una variabile quale combinazione lineare delle altre
variabili, altrimenti si dice che c'è multicollinearità;
5) il modello è correttamente specicato;
6) le varianze dei predittori non devono essere eccessivamente alte.
Il modello di regressione lineare multipla si stimerà con il metodo dei minimi
quadrati:
Q(β) = (y − Xβ)0 (y − Xβ)
(6.42)
per cui derivando rispetto al vettore dei parametri si otterrà la seguente
stima:
59
β̂ = (X0 X)−1 X0 y
(6.43)
che rappresenta una soluzione univocamente determinata se e solo se l'inversa
di X0 X esiste, ossia le variabili sono indipendenti. Inoltre, si dimostra che
la matrice di varianze e covarianze di β̂ è pari a Σβ = σ2 (X0 X)−1 .
Si potrà denire il vettore dei residui come
e = y − ŷ
(6.44)
dove ŷ = Xβ̂ . Il vettore dei residui risulta essere un trasformazione lineare
del vettore y:
e = y − X(X0 X)−1 X0 y = [I − H]y = My
(6.45)
dove H = X(X0 X)−1 X0 y e M = I − H, ed è inoltre trasformazione lineare
anche del vettore u:
e = My = MXβ + Mu = Mu
(6.46)
essendo MX = 0. Da un punto di vista geometrico, il vettore dei residui è
ortogonale al piano generato dalle colonne di X poiché X0 e = 0, mentre la
stima ŷ rappresenta la proiezione del vettore y su tale piano dove l'operatore
di proiezione è H, ossia ŷ = Hy. I residui hanno media pari a zero E(e) = 0
e matrice di varianze e covarianze piena pari a Σe = σ2 M, ossia i residui
possono essere autocorrelati. La stima corretta della varianza degli errori è
nuovamente data da:
σ̂ 2 =
e0 e
n−k
(6.47)
che sostituita nell'espressione della matrice di varianze e covarianze di β̂
determina la stima Sβ = σ̂2 (X0 X)−1 .
Analogamente al caso semplice, si potrà denire l'indice di determinazione lineare per il modello multiplo come rapporto tra devianza di regressione e devianza totale, ossia, in forma matriciale, si ha:
Dev(Y ) = y0 y − nȳ 2
(6.48)
Dev(R) = ŷ0 ŷ − nȳ 2 = β̂ 0 X0 y − nȳ 2
(6.49)
da cui si deriva l'indice R2 come:
60
R2 =
β̂X0 y − nȳ 2
y0 y − nȳ 2
(6.50)
che varierà tra zero ed uno. La radice quadrata dell'indice di determinazione
lineare è noto come coeciente di correlazione multipla ed è equivalente al
coeciente di correlazione lineare tra i valori osservati yi ed i valori stimati
ŷi per i = 1, . . . , n.
6.3.3 L'indice corretto di determinazione lineare
Quando si considera un modello multiplo, l'indice di determinazione lineare
(6.26) aumenta (o quanto meno non diminuisce) al crescere del numero di
variabili esplicative incluse nel modello. Infatti, il valore minimo (6.19) della
funzione da ottimizzare in una regressione con k predittori sarà dato dalla
seguente espressione:
Q(β̂1 , β̂2 )k =
X
2
(yi − β̂1 − β̂2 x2i − · · · − β̂k xki )
(6.51)
i
mentre lo stesso valore minimo in una regressione con (k + 1) predittori sarà
dato da
Q(β̂1 , β̂2 )(k+1) =
X
2
(yi − β̂1 − β̂2 x2i − · · · − β̂k xki − β̂(k+1) x(k+1)i )
i
(6.52)
Si osserva che Q(β̂1 , β̂2 )k ≤ Q(β̂1 , β̂2 )(k+1) potendo raggiungere lo stesso
minimo se β̂(k+1) = 0. In altre parole, la devianza dei residui diminuisce
al crescere del numero delle variabili e pertanto l'indice di determinazione
lineare (6.50) aumenta. In denitiva, un alto valore dell'indice R2 non è
indicatore di buon adattamento in quanto esso dipende anche dal numero di
predittori inclusi nel modello.
Anché si possano confrontare due regressioni con la stessa variabile
dipendente ma con un diverso numero di predittori si dovrà considerare il
seguente indice corretto:
R̄2 = 1 −
Dev(E)/(n − k)
Dev(Y )/(n − 1)
(6.53)
che, in luogo delle devianze, propone le stime corrette delle varianze con
gradi di libertà dati rispettivamente da (n − k) e (n − 1). In tal modo, è pur
vero che la devianza dei residui diminuisce con l'aggiunta di un predittore,
61
ma diminuiranno anche i corrispondenti gradi di libertà. Invero, l'indice corretto non sarà necessariamente compreso tra zero ed uno, ma esso opera una
correzione signicativa all'indice R2 qualora il numero di variabili esplicative
è elevato in rapporto al numero di individui osservati. Inne, si dimostra che
vale la seguente relazione:
R̄2 = 1 − (1 − R2 )
n−1
n−k
(6.54)
che lega l'indice non corretto all'indice corretto.
6.3.4 Le correlazioni semplici e parziali
Quando si considera un modello di regressione multipla è interessante analizzare la matrice delle correlazioni semplici tra le variabili indicata con R di
termine generico rlj , tale che rlj = 1 se l = j mentre r1j esprime la correlazione semplice tra la variabile dipendente Y e ciascun predittore Xj per
j = 2, . . . , k . Si dimostra che
β̂j = −
s1 <1j
sj <11
(6.55)
dove s1 e sj sono le deviazioni standard della Y e della Xj rispettivamente,
mentre <1j e <11 sono i cofattori di r1j e r11 rispettivamente. Il coeciente
di correlazione multipla è denito nel seguente modo:
2
R1.23...k
=1−
R
<11
(6.56)
dove R = det(R) è il determinante della matrice delle correlazioni.
Si consideri l'esempio in cui si hanno due predittori ed una variabile
dipendente. Il coeciente di correlazione parziale tra la variabile dipendente
Y ed il predittore X2 , ponendo costante il livello del predittore X3 , è denito
nel modo seguente:
r12 − r13 r23
r12.3 = p
2 )(1 − r 2 )
(1 − r13
23
(6.57)
ed in maniera analoga si potrà esprimere la correlazione parziale tra Y e
data la X2 . La correlazione parziale esprime una relazione diversa da
quella espressa dalla correlazione semplice. Infatti, pur in presenza di una
correlazione semplice tra Y e X2 pari a zero, ossia r12 = 0, le due stesse
variabili potrebbero risultare positivamente correlate parzialmente rispetto
ad una terza variabile X3 , ossia r12.3 > 0, qualora si avesse r13 > 0 e r23 < 0.
X3
62
Si dimostrano le seguenti relazioni tra l'indice di determinazione lineare
(ossia il quadrato del coeciente di correlazione multipla), i coecienti di
correlazione semplice e parziale:
2
R1.23
=
2 + r 2 − 2r r r
r12
12 13 23
13
2
1 − r23
(6.58)
2
2
2
2
R1.23
= r12
+ (1 − r12
)r13.2
(6.59)
2
2
2
2
R1.23
= r13
+ (1 − r13
)r12.3
(6.60)
Si evince in tal modo che l'indice di determinazione lineare può solo aumentare (e non diminuire) con l'ingresso di un predittore nel modello. Infatti, l'indice (6.59) è costituito dalla somma di due parti: quella attribuita
2 )) moltialla sola X2 (ossia r12 ) e quella non spiegata dalla X2 (ossia (1 − r12
plicata per la proporzione spiegata dalla X3 dopo aver rimosso l'eetto di
X2 (ossia r13.2 2 ). Pertanto, si avrà R2 > r12 2 ntanto r13.2 2 > 0, ovvero
R2 = r12 2 se e solo se r13.2 2 = 0.
6.3.5 L'inferenza sui coecienti di regressione
Per l'inferenza sui parametri si assume che il vettore degli errori segua una
multinormale:
(6.61)
u ∼ N (0, σ 2 I)
e di conseguenza anche il vettore degli stimatori dei coecienti di regressione
seguirà una multinormale:
−1
β̂ ∼ N (β, σ 2 (X0 X)
)
(6.62)
Nel seguito si propone la procedura inferenziale per la seguente funzione
parametrica:
θ = c0 β̂
(6.63)
dove c è un vettore colonna contenente k costanti note. Ad esempio, se si
denisce un vettore formato da k − 1 zero ed un solo valore pari ad uno in
corrispondenza del j -esimo elemento, allora la funzione parametrica (6.63)
corrisponderà al coeciente di regressione βj . Si potrà inoltre denire un
test per la dierenza tra due coecienti di regressione ssando nel vettore
c una costante pari ad uno ed un'altra pari a meno uno mentre gli altri
63
valori risultano pari a zero. Naturalmente, scegliendo opportune costanti
per il vettore c la procedura inferenziale potrà tener conto di diverse ipotesi
teoriche relative ad opportune combinazioni dei coecienti di regressione.
Lo stimatore BLUE di θ è dato dalla combinazione lineare degli stimatori
BLUE dei coecienti di regressione:
−1
θ̂ ∼ N (θ, σ 2 c0 (X0 X)
c)
(6.64)
Nell'ipotesi di non conoscere la varianza dell'errore e di stimarla con la stima
corretta σ̂2 = e0 e/(n − k), si potrà denire la statistica test
T =
θ̂ − θ
σ̂θ̂
(6.65)
che si distribuisce come una t-Student con (n − k) gradi di libertà.
6.3.6 L'analisi della varianza: il test totale ed il test parziale
Nella regressione multipla si è interessati dapprima a vericare l'ipotesi nulla
che tutti i coecienti di regressione siano simultaneamente nulli. Il test sull'intera regressione si costruisce a partire dalla decomposizione della devianza totale in devianza di regressione e devianza dei residui. Si dimostra che
considerando l'ipotesi di normalità degli errori la statistica test, nell'ipotesi
nulla
F =
SSR/(k − 1)
M SR
R2 /(k − 1)
=
=
SSE/(n − k)
M SE
(1 − R2 )/(n − k)
(6.66)
si distribuisce come una F di Snedecor-Fisher con k−1 e n−k gradi di libertà,
ossia il rapporto tra due variabili casuali indipendenti e distribuite come χ2
rapportate ai rispettivi gradi di libertà. Pertanto, si potrà considerare il
valore di signicatività associato al valore empirico derivante dal rapporto
(6.66).
Sulla base dell'analisi della varianza si potrà considerare una decomposizione
alternativa che tenga conto di una suddivisione dei predittori in due gruppi
formati rispettivamente dai primi q − 1 predittori e dai rimanenti k − q
predittori. In questo caso, si è interessati a vericare l'ipotesi nulla che i
coecienti di regressione del secondo gruppo di predittori siano uguali a
zero. Secondo questa ipotesi, la variabile denita come
F =
SSRk−q /(k − q)
(Rk 2 − Rq 2 )/(k − q)
=
SSE/(n − k)
(1 − Rk 2 )/(n − k)
64
(6.67)
Causa di Somma dei Gradi di Media dei statistica F sign.
variazione quadrati libertà quadrati
X 2 , . . . Xk
SSR
k−1
M SR
M SR/M SE
p
Residuo
SSE
n−k
Totale
SST
n−1
M SE
Tabella 6.1: Analisi della varianza nella regressione: il test totale
si distribuisce come una F di Snedecor Fisher con (k − q) e (q − 1) gradi
di libertà, vericando il contributo del gruppo addizionale di variabili nel
modello utile per la spiegazione del fenomeno.
Causa di
variazione
Somma dei Gradi di Media dei
quadrati libertà quadrati
statistica F
X 2 , . . . Xq
SSRq
q−1
M SRq
Xq+1 , . . . Xk
SSR(k−q)
k−q
M SR(k−q)
M SR(k−q) /M SE
X 2 , . . . Xk
SSR
k−1
M SR
M SR/M SE
Residuo
SSE
n−k
M SE
Totale
SST
n−1
Tabella 6.2: Analisi della varianza nella regressione: il test parziale
Nel caso particolare di q = k − 1 si considera l'eetto addizionale di una sola
variabile al modello, così da valutare la signicatività del relativo coeciente
di regressione.
6.3.7 Il Chow test sulla stabilità
Nel seguito si proporrà un test per vericare l'ipotesi di uguaglianza dei
parametri in due regressioni indipendenti. In particolare, si considerano
due campioni indipendenti di numerosità n1 e n2 rispettivamente estratti da popolazioni per le quali si ipotizzano due modelli classici di regressione lineare. Si vuole vericare l'ipotesi nulla che i parametri del primo
65
modello adattato al primo campione sono uguali ai parametri del secondo
modello adattato al secondo campione. Se tale ipotesi fosse rispettata, si
potrebbe stimare un'unica equazione per l'insieme formato dai dati raggruppati ottenendo la somma dei quadrati SSR spiegata dalla regressione; questa
non dovrebbe discostarsi troppo dalla somma delle due somme dei quadrati
derivanti dalle regressioni sui due campioni indipendenti indicate con SSR1
e SSR2 . La variabile test è denita nel seguente modo:
F =
[SSR − (SSR1 + SSR2 )]/k
[SSR1 + SSR2 ]/[n1 + n2 − 2k]
(6.68)
e si distribuisce come una F con k e [n1 + n2 − 2k] gradi di libertà; se il
valore empirico eccede in maniera signicatica il valore critico allora non si
può sostenere che le due regressioni sono uguali.
6.3.8 Le procedure di selezione delle variabili
Uno dei problemi più importanti da risolvere nella regressione multipla è la
scelta di quante e quali variabili inserire nel modello. Ciò perchè occorre
sempre giungere ad un compromesso tra il vantaggio di inserire quante più
variabili esplicative possibili in modo da ridurre la componente erratica e lo
svantaggio dovuto all'aumento dei costi e delle varianze delle stime. Ci sono
varie procedure che permettono la risoluzione di questo problema:
a) la scelta a-priori delle variabili eettuata dall'analista economico azien-
dale in base ad assunzioni e modelli teorici (funzione di domanda o di
oerta, funzione di produzione, etc.);
b) la generazione di tutte le regressioni possibili (o di un sottoinsieme ot-
timale) confrontate sulla base di un indice statistico (l'indice corretto
di determinazione lineare R̄2 , l'errore quandratico medio della stima,
il Cp di Mallows);
c) l'applicazione di un algoritmo selettivo che iterativamente introduce variabili (regressione forward) o elimina variabili (regressione backward),
ovvero introduce ed elimina variabili (regressione stepwise);
L'algoritmo (backward) consta di tre stadi:
1) regressione completa con k predittori;
2) test F parziale per valutare la signicatività di ciascun predittore;
66
3) il predittore per il quale si ha il valore più basso del test F
parziale e
tale valore non è signicativo viene rimosso; si ricalcola la regressione
omettendo tale predittore e si ritorna al passo due.
L'algoritmo si arresta se il valore più basso del test F parziale risulta comunque signicativo e pertanto non potranno essere eliminati ulteriori predittori.
L'algoritmo (forward) consta di quattro stadi:
1) si considera il modello senza predittori stimando solo l'intercetta;
2) si calcolano i coecienti di correlazione semplici tra la variabile dipendente e ciascun predittore, selezionando il predittore più correlato;
3) il predittore selezionato entra nel modello se il valore empirico del test F
parziale risulta signicativo passando poi allo stadio quattro; altrimenti
la procedura si arresta adottando il modello in corso;
4) si calcolano i coecienti di correlazione parziale tra la variabile dipendente e ciascun predittore non ancora inserito nel modello al netto dell'eetto dei predittori già entrati nel modello, selezionando il predittore
più correlato e ritornando allo stadio tre.
La regressione stepwise adotta un algoritmo analogo al forward ma rimette in
discussione i predittori già inseriti in precedenza vericando la loro signicatività in ogni iterazione attraverso il test F parziale. La procedura si arresta
se sia il test di ingresso che il test di rimozione risultano non signicativi.
6.3.9 Gli intervalli di previsione
La previsione consiste nel determinare il valore della variabile di risposta
per una nuova unità sulla base delle misurazioni dei k predittori, ossia x0∗ =
[1, x2∗ , . . . , xk∗ ] dove con ∗ indichiamo l'(n + 1)-esima unità. La previsione è
basata sulla stima dei parametri ottenuta considerando n unità statistiche:
ŷ∗ = x0∗ β . L'errore di previsione sarà denito come ep = y∗ − ŷ∗ . Questo
sarà uno stimatore, distribuito normalmente, non distorto (con media pari a
zero) e varianza data dalla seguente espressione:
var(ep ) = E[ŷ∗ − y∗ ]2 = var(ŷ∗ ) + var(y∗ ) = var(x0∗ β) + σ 2
67
(6.69)
in quanto la covarianza tra y∗ (che dipende dall'errore u) e ŷ∗ (che dipende
dallo stimatore β̂ ) è nulla. Considerando la varianza dello stimatore del
vettore dei coecienti di regressione si ottiene:
var(ep ) = σ 2 [x∗ 0 (X0 X)−1x∗ + 1]
(6.70)
sulla base della quale sarà possibile costruire la banda di condenza della
previsione per y∗ .
6.4 Le forme funzionali del modello
6.4.1 Il modello centrato
Si ottiene il modello centrato quando le variabili sono trasformate considerando lo scarto tra valore assunto dalla variabile e valore medio della stessa.
Procedendo in tal modo si ipotizza un modello di regressione con intercetta
nulla in quanto questa esprime proprio la media della variabile dipendente
(regressione attraverso l'origine). La stima ottenuta con il metodo dei minimi
quadrati gode comunque di proprietà ottimali. Alcuni esempi di applicazione
sono rappresentati dalla teoria del portafoglio monetario (Capital Asset Pricing Model) che esprime il premio del titolo in proporzione alla sua volatilità,
dalla teoria del reddito permanente di Friedman che esprime il consumo
quale proporzione del reddito permanente, dalla teoria dei costi variabili di
produzione che postula la proporzionalità del costo variabile rispetto all'output prodotto, dalla teoria monetarista per la quale il tasso di inazione è
direttamente proporzionale all'oerta di moneta.
6.4.2 Il modello con le variabili standardizzate
Il modello di regressione denito per le variabili standardizzate presenta i
coecienti di regressione deniti nel seguente modo:
BET Aj = βj
sj
sy
(6.71)
per j = 1, . . . , k, dove βj indica il corrispondente parametro del modello con
variabili non standardizzate, mentre sj e sy sono le deviazioni standard del
j -esimo predittore e della variabile dipendente rispettivamente. Tale modello consente di confrontare i valori numerici delle stime dei coecienti di
regressione in quanto essi sono espressi in unità standard, individuando in
tal modo quale dei predittori ha una maggiore incidenza sulla variazione del
68
valore atteso della variabile dipendente. Nelle applicazioni, si eettuano entrambe le regressioni con e senza la standardizzazione, in modo da arricchire
l'interpretazione dei risultati.
6.4.3 Il modello log-log
L'ipotesi di linearità del modello potrebbe essere riferita sia alle variabili
che ai parametri; in generale, si fa riferimento ai parametri in quanto spesso
è possibile operare delle trasformazioni delle variabili per ricondurci ad un
modello lineare. Un esempio è rappresentato da una funzione:
wi = αzi γ
(6.72)
per la quale operando la trasformazione logaritmica delle variabili diviene
lineare.
6.4.4 Il modello semilog: log-lin e lin-log
I modelli semilog sono modelli di regressione lineare dove la variabile dipendente Y (modello Log - Lin) o la la variabile esplicativa X (modello Lin Log) si presentano in forma logaritmica ed i parametri β1 e β2 sono lineari.
Il modello Log - Lin può essere così formalizzato:
ln Y = β1 + β2 X + u
(6.73)
dove il coeciente angolare β2 misura la variazione relativa di Y per una
variazione assoluta di X . Questi modelli sono generalmente utilizzati nei
casi in cui la variabile dipendente X è il tempo. Ad esempio, supponiamo
che Yt = PIL ed X è la variabile tempo, β2 rappresenta il tasso di incremento
o decremento della variabile Y rispetto al tempo.
Il modello Lin - Log è così formalizzato:
Y = β1 + β2 ln X + u
(6.74)
Ad esempio, supponiamo che Yi è il PNL e la X la domanda di moneta,
il modello così formalizzato permette di determinare di quanto il prodotto
nazionale lordo varia al crescere di una variazione percentuale di X .
69
6.4.5 Il modello a trasformazione reciproca
Il modello a trasformazione reciproca è un modello di regressione lineare dove
i parametri β1 e β2 sono lineari e la variabile esplicativa è rappresentata dal
suo reciproco.
1
Y = β1 + β2
+u
(6.75)
Xi
Questi modelli permettono di rappresentare le relazioni non lineari esistenti
tra variabili di tipo economico come ad esempio la relazione esistente tra
il tasso di disoccupazione e il tasso di variazione annua dei salari monetari
rappresentata dalla curva di Phillips.
6.4.6 La regressione polinomiale
Il modello di regressione polinomiale ha avuto un notevole impiego nella
ricerca econometrica per lo studio delle funzioni di produzione e di costo.
Un esempio renderà più semplice la formalizzazione del modello.
Consideriamo la curva del costo marginale. Essa misura la variazione dei
costi corrispondente alla variazione dell'output. Naturalmente, questa curva
mostra una relazione di tipo non lineare esistente tra l'output (X ) e il costo
marginale (Y ). Geometricamente, la curva è una parabola che può essere
così denita:
Yi = β0 + β1 X + β2 X 2
(6.76)
questa funzione rappresenta un polinomio di secondo grado. La versione
stocastica della funzione (1) è:
Yi = β0 + β1 X + β2 X 2 + ui
(6.77)
Il modello così denito è chiamato modello di regressione polinomiale di
secondo grado. Se, volessimo generalizzare il modello a n gradi, otterremo
un modello di regressione polinomiale di n-esimo grado così denito:
(6.78)
Nel modello di regressione polinomiale la variabile esplicativa X è unica e si presenta con diversa potenza assumendo la forma di un modello di
regressione lineare multipla.
Ricordiamo che, i parametri β sono lineari e quindi possono essere stimati
con il metodo OLS o con quello di Massima Verosimiglianza. Un ultima
precisazione deve essere fatta sulle variabili esplicative X in quanto, esse
sono fortemente correlate tra loro, ma non incorrono nel problema della
multicollinarità perchè esprimono relazioni non lineari di X .
Yi = β0 + β1 X + β2 X 2 + ...... + βn Xin + ui
70
6.5 L'uso delle variabili dummy nella regressione
6.5.1 Il modello con un predittore dicotomico
Nel modello di regressione la variabile dipendente Y può essere inuenzata
non solo da variabili di natura quantitativa ma anche da variabili di natura
qualitativa. Poichè, le variabili qualitative generalmente, indicano la presenza o l'assenza di un attributo o di una qualità, (maschio o femmina, bianco o
nero, ecc.) un metodo per quanticare gli attributi della variabile esplicativa
è ottenuto attraverso la creazione di variabili dummy.
Queste variabili, chiamate variabili dummy, assumono un valore pari ad
uno se l'attributo è presente oppure un valore pari a zero in caso di assenza
dello stesso. Ad esempio, si supponga che la variabile qualitativa sesso sia
rappresentata da una variabile dummy che assume un valore pari a zero se
la persona è di sesso maschile e un valore pari ad uno se la persona è di sesso
femminile.
In generale, sia E un evento o una circostanza che si suppone abbia un effetto nel modicare una variabile casuale Yi . Indichiamo con Di la variabile
dummy così denita:
• Di = 1
se per l'unità i-esima l'evento E è presente;
• Di = 0
se per l'unità i-esima l'evento E è assente;
Allora il modello di regressione semplice sarà così formalizzato:
Yi = α + βDi + ui
(6.79)
dove l'eetto della variabile dummy è quello di modicare il valore medio
della risposta Yi che passa da α (se l'evento E è assente) a β (se l'evento E
è presente).
Ad esempio, supponiamo di avere il seguente modello:
Yi = α1 + α2 Di + ui
(6.80)
dove:
• Yi =
stipendio annuo di un insegnante;
• Di = 1 se l'insegnante è in possesso di una specializzazione post-laurea;
71
• Di = 0
laurea.
se l'insegnante non è in possesso di una specializzazione post-
L'obiettivo è identicare attraverso il modello di regressione se la presenza
o l'assenza di una specializzazione post-laurea inuenza lo stipendio di un
insegnante (assumendo che tutte le altre variabili come: anni di esperienza,
età, ecc. sono costanti). Poichè:
(6.81)
E(Y |Di = 1) = α1 + α2
(6.82)
L'interpetrazione del modello è la seguente: il termine α1 rappresenta lo
stipendio medio di un insegnante laureato, mentre il coeciente angolare α2
indica di quanto lo stipendio medio di un insegnante in possesso di specializzazione dierisce da quello medio di un insegnante senza specializzazione.
Un test statistico con un ipotesi nulla H0 : α2 = 0 permette di stimare sulla
base di un test t, se la stima di α2 è statisticamente signicativa.
E(Y |Di = 0) = α1
6.5.2 L'introduzione di un predittore quantitativo nel modello con predittori qualitativi
Il precedente modello può essere generalizzato inserendo una variabile esplicativa X per vericare l'esistenza di situazioni dierenziate nella relazione
lineare tra X e Y , caratterizzate dalla presenza o dalla assenza di un certo
evento E .
Inserendo nel modello precedente (2) una variabile esplicativa X di natura
quantitativa otteniamo:
Yi = α1 + α2 Di + βXi + ui
(6.83)
dove:
• Yi =
lo stipendio annuo di un insegnante;
• Xi =
anni di insegnamento;
• Di = 1
presenza di una specializzazione post-laurea;
• Di = 0
assenza di una specializzazione post-laurea.
Assumendo che il E(ui ) = 0 si evincere che:
lo stipendio medio di un insegnante senza specializzazione post-laurea è:
E(Yi |Xi , Di = 0) = αi + βXi
72
(6.84)
lo stipendio medio di un insegnante con specializzazione post-laurea è:
(6.85)
Il modello indica che, lo stipendio di un insegnante con o senza specializzazione ha uguale coeciente angolare β ma diversa intercetta. Da ciò si
deduce che la presenza o l'assenza di una specializzazione post-laurea inuenza la variabile di risposta Yi mentre, la variazione dello stipendio legata
agli anni di esperienza è di uguale ammontare sia in caso di presenza di specializzazione che di assenza della stessa.
Se, l'assunzione fatta in precedenza sul coeciente β è valida, si procede alla
formalizzazione di un test sul coeciente α2 . Imponiamo, come ipotesi nulla
H0 : α2 = 0 per vericare se il coeciente α2 è statisticamente signicativo
e quindi le due regressioni hanno la stessa intercetta.
L'ipotesi nulla è accettata se il test t condotto sul coeciente α2 permette
di stabilire che la stima del coeciente non è statisticamente signicativa.
Questo indica che il livello di reddito medio annuo di un insegnante risulta
non essere inuenzato dalla presenza o dall'assenza di una specializzazione
post-laurea.
Alcune precisazioni devono essere fatte prima di procedere ulteriormente
sull'argomento:
E(Yi |Xi , Di = 1) = αi + α2 + βXi
.
Se la variabile qualitativa ha m categorie o attributi devono essere
introdotte m-1 variabili dummy altrimenti, possiamo incorrere in un
problema di perfetta multicolinearità.
.
L'assegnazione dei valori zero ed uno alle due categorie è arbitraria.
Generalmente, il valore zero è assegnato a quella categoria considerata
come base. Nel nostro esempio, il valore zero è stato assegnato alla
categoria dei soli laureati.
.
Inne, il coeciente della variabile dummy indica di quanto il valore
dell'intercetta della categoria che assume il valore uno dierisce dalla
categoria di base.
6.5.3 Il modello di regressione con predittore qualitativo con
più di due classi
Supponiamo di voler studiare la spesa in viaggi annua di un individuo sulla
base del reddito annuo e del tipo di scolarizzazione che l'individuo ha rice73
vuto.
Poichè, la variabile titolo di studio è una variabile di natura qualitativa supponiamo che le modalità della variabile siano: assenza di diploma, diploma,
laurea.
Ricordando che: il numero delle variabili dummy deve essere uno in meno
rispetto alle categorie che la variabile qualitativa può assumere, verranno
introdotte per l'analisi di questo modello due variabili dummy.
Assumendo che i tre gruppi hanno lo stesso coecente angolare β ma
diverse intercette otteniamo il seguente modello:
Yi = αi + α2 D2i + α3 D3i + βXi + ui
(6.86)
dove:
• Yi =
spesa annua in viaggi;
• Xi =
reddito annuo;
• D3 = 1
se in possesso di laurea;
• D3 = 0
non in possesso di laurea;
• D2 = 1
diplomato;
• D2 = 0
non diplomato.
Nel modello è stata considerata come categoria di base la modalità non diplomato.
Assumendo che E(ui ) = 0 otteniamo:
E(Yi |D2 = 0, D3 = 0, Xi ) = α1 + βXi
(6.87)
E(Yi |D2 = 1, D3 = 0, Xi ) = (α1 + α2 ) + βXi
(6.88)
E(Yi |D2 = 0, D3 = 1, Xi ) = (α1 + α3 ) + βXi
(6.89)
Dall'interpretazione del modello si deduce che: i tre valori attesi rappresentano rispettivamente la spesa media annua in viaggi in funzione dei
tre livelli di istruzione. Si può, inne, eettuare un test per vericare se
la dierenza tra i coecienti α2 e α3 è statisticamente signicativa e quindi la spesa media annua in viaggi di un individuo è inuenzata dal tipo di
istruzione che l'individuo ha ricevuto. Si darà luogo ad un test statistico con
ipotesi nulla H0 : α2 = α3 = 0 condotto attraverso la tecnica ANOVA e con
un test F.
74
6.5.4 Il modello di regressione con un predittore quantitativo
e due qualitativi
Introduciamo nel modello trattato in precedenza (2) la variabile qualitativa
professionalità. Supponiamo per semplicità che la variabile assume due diverse modalità: professionale e non professionale.
Il modello sarà così formalizzato:
Yi = αi + α2 D2i + α3 D3i + βXi + ui
(6.90)
dove:
• Yi =
lo stipendio annuo di un insegnante;
• Xi =
anni di insegnamento;
• D2i = 1
presenza di una specializzazione post-laurea;
• D2i = 0
assenza di una specializzazione post-laurea;
• D3i = 1
insegnante professionale;
• D3i = 0
insegnante non professionale.
Dato che il E(ui ) = 0 otteniamo che:
lo stipendio medio di un insegnante non professionale e senza specializzazione
post-laurea:
E(Yi |Xi , D2 = 0, D3 = 0) = α1 + βXi
(6.91)
lo stipendio medio di un insegnante non professionale e con specializzazione
post-laurea:
E(Yi |Xi , D2 = 1, D3 = 0) = (α1 + α2 ) + βXi
(6.92)
lo stipendio medio di un insegnante professionale e senza specializzazione
post-laurea:
E(Yi |Xi , D2 = 0, D3 = 1) = (α1 + α3 ) + βXi
(6.93)
lo stipendio medio di un insegnante professionale e con specializzazione postlaurea:
E(Yi |Xi , D1 = 1, D3 = 1) = (α1 + α2 + α3 ) + βXi
75
(6.94)
Una stima OLS del modello (12) permette di testare una varietà di ipotesi
come, ad esempio, se i coecienti α3 o α2 sono statisticamente signicativi.
Se i coecienti risultano statisticamente signicativi questo indica che, la
professionalità e la specializzazione post-laurea di un insegnante inuenzano
il reddito dello stesso.
76
Capitolo 7
La regressione logistica
7.1 Premessa
L'analisi di regressione logistica è una metodologia impiegata per prevedere
il possesso di un attributo di una variabile dipendente dicotomica sulla base
di un insieme di variabili esplicative, sia esse di tipo qualitativo che quantitativo. Per darne un esempio, si supponga che la qualità di un certo bene
A sia un attributo dicotomico che può assumere le seguenti modalità: livello di qualità standard (Y = 0); livello di qualità non standard (Y = 1).
Obiettivo dell'analisi di regressione logistica è quello di individuare i fattori
determinanti la probabilità che il bene prodotto abbia un livello di qualità
non standard.
Più in generale, i contesti applicativi nei quali risulta utile l'analisi di regressione logistica sono molteplici e di seguito se ne riportano alcuni esempi
tipici:
◦
Economia: per analizzare gli eetti degli interventi economici sugli
◦
Marketing: per evidenziare l'incisività delle campagne pubblicitarie
◦
Medicina: per studiare l'eetto di una cura sullo stato di salute del
operatori di mercato {l'azienda fallisce (Y = 1) o meno (Y = 0) dopo
aver ricevuto una sovvenzione, il disoccupato trova lavoro (Y = 1) o
no (Y = 0) dopo aver seguito un corso di formazione};
sulla propensione all'acquisto del consumatore {il cliente acquista (Y =
1) o non acquista (Y = 0) un dato prodotto di seguito ad una campagna
promozionale};
paziente {il paziente sottoposto ad una particolare cura farmacologica
reagisce positivamente (Y = 1) o meno (Y = 0)};
77
◦
Botanica: per studiare l'eetto fertilizzante delle sostanze utilizzate sui
◦
Biologia: per evidenziare le determinanti delle reazioni delle cellule
semi oggetto di studio {una pianta resiste alle gelate (Y = 1) oppure
no (Y = 0) di seguito ad un intervento di modicazione genetica};
sottoposte a trattamento {le cellule malate si rigenerano (Y = 1)
oppure no (Y = 0) dopo essere state sottoposte ad un particolare
trattamento};
Il modello di regressione logistica può essere, quindi, considerato come un caso speciale del modello di regressione multipla, che trova applicazione quando
la variabile di risposta è per sua natura dicotomica, o dicotomizzata ai ni
della analisi (ad esempio una misura della qualità, come la durata utile di
un prodotto, può essere dicotomizzata al di sotto e al di sopra di una certa
soglia).
Oltre che per il tipo di variabile di risposta impiegata, l'analisi di regressione
logistica si discosta da quella lineare anche per altri fattori:
•
la distribuzione della variabile di risposta Y . Mentre nell'analisi lin-
•
l'intervallo di variazione della stima. La stima ottenuta nella regres-
•
l'interpretazione della stima di Y . Nella regressione lineare la stima
eare si ipotizza una distribuzione normale, nella regressione logistica, essendo la Y dicotomica, la sua distribuzione è necessariamente
binomiale;
sione lineare varia tra −∞ e +∞, mentre nella regressione logistica
assume valori compresi tra 0 e 1;
di Y può essere intesa come la stima del valore atteso della Y dato
l'insieme di variabili esplicative (o predittori) x. Per contro, nell'analisi
di regressione logistica, la stima di Y esprime la probabilità che la
variabile di risposta sia pari a 1 dato l'insieme di predittori x.
7.2 Il modello di regressione logistica
La funzione di regressione logistica può essere formalizzata come segue:
logit(π(x)) = β0 +
p
X
βj xj = Xβ
(7.1)
j=1
dove π(x) = P (Y = 1|x) è la probabilità di Y = 1 dato il vettore x dei p
predittori mentre logit(π(x)) denota il logaritmo naturale del rapporto fra
78
la probabilità di "successo" (nel precedente esempio, la probabilità che il
prodotto abbia una qualità non standard) e probabilità di "insucesso":
logit(π(x)) = log
π(x)
1 − π(x)
(7.2)
dato il vettore x dei p predittori.
Il logit è una funzione legame
P che lega la variabile di risposta alla combinazione lineare di predittori pj=1 βj xij per i = 1, 2, ..., n in maniera tale da
assicurare che, per ogni valore assunto dalle variabili esplicative, la risposta Y sia sempre compresa nell'intervallo [0, 1]. In questo senso la funzione
legame trasforma l'intervallo [0, 1] nella retta reale (−∞, +∞).
La scelta della funzione logit per descrivere la relazione tra la variabile dipendente e l'insieme di variabili esplicative, trova ragione nella forma assunta
dalla probabilità di Y , che assomiglia ad una S allungata con limiti a zero
e uno. Questa particolare forma funzionale è simile alla funzione cumulata
della distribuzione casuale degli errori detta "funzione logistica". Ne deriva che la probabilità π(x) può essere scritta come una funzione logistica (o
curva logistica):
π(x) =
1
exβ
=
xβ
1+e
1 + e−Xβ
(7.3)
Tale funzione è ampiamente utilizzata nelle applicazioni aziendali per modellare fenomeni di diusione, quali la vendita di un nuovo prodotto, lo sviluppo di un'innovazione tecnologica o il diondersi di una notizia riservata. E'
importante osservare come il logit non sia l'unica funzione che consente di
esprimere la probabilità di un fenomeno, ma la sua scelta è privilegiata dal
fatto che, essendo pari al logaritmo del rapporto tra due probabilità comπ
plementari (il numero di successi per ogni insuccesso 1−π
, in inglese odds),
consente una semplice interpretazione dei parametri del modello.
7.3 La stima dei parametri
La stima dei parametri del modello si ottiene attraverso l'impiego del metodo di massima verosimiglianza. La funzione della verosomiglianza esprime
la probabilità che l'insieme dei dati [yi , xi ]ni=1 sia osservato in funzione del
vettore dei parametri β . Ne consegue che secondo il metodo della massima
verosimiglianza, la "migliore" stima dei parametri β sarà pari al vettore β̂
che massimizza la funzione di verosimiglianza.
Sia (y1 x1 , y2 x2 , ...., yi xi , ...., yn xn ) l'insieme delle n osservazioni indipendenti osservate dalla popolazione di riferimento, allora la generica unità i può
essere espressa nel seguente modo:
79
yi = E(Yi |xi )+i =
exp(β0 + β1 xi1 + ... + βq xiq )
+i = π(xi )+i
1 + exp(β0 + β1 xi1 + ... + βq xiq )
(7.4)
Dato che Y segue una distribuzione binomiale, con media pari a E(Yi |xi ), la
sua funzione di probabilità sarà pari a:
f (yi |xi ; β) = π(xi )yi [1 − π(xi )](1−yi )
(7.5)
mentre la verosimiglianza del campione delle n unità sarà pari al prodotto
delle singole verosimiglianze delle unità che lo compongono (essendo le n
osservazioni indipendenti):
L(β) =
n
Y
f (yi |xi )
(7.6)
i=1
la stima di massima verosimiglianza si deriva attraverso l'identicazione
del vettore β̂ che massimizza il logaritmo di L(β):
β̂ = argmaxβ {l(β)} = argmaxβ {log[L(β)]}
(7.7)
La soluzione del sistema di equazioni che deriva da tale funzione è ottenuta
attraverso l'impiego di metodi iterativi implementati nei pacchetti statistici
più diusi quali SPSS-PS e SAS.
7.4 Interpretazione dei parametri
Sebbene il modello di regressione logistica possa avere diverse variabili esplicative, al ne di introdurre i concetti utili all'interpretazione dei parametri
β , consideriamo, per il momento, il caso più semplice in cui vi sia un solo
predittore x. In questo caso π(x) varia al variare dell'unica variabile esplicativa presente. Inoltre faremo riferimento ad un predittore x quantitativo, ma
come vedremo, i concetti potranno essere estesi facilemnte anche al caso di
variabili qualitative.
Sia π1 la probabilità di un evento E1 (tornando al nostro esempio, la probabilità che il prodotto A abbia una qualità non standard), allora si denisce
odds dell'evento E1 il rapporto:
π1
1 − π1
80
(7.8)
mentre, il logaritmo degli odds è detto invece logit:
logit(π1 ) = log
π1
1 − π1
(7.9)
Se π2 è la probabilità di un altro evento E2 (continuando l'esempio, che un
prodotto B abbia una qualità non standard), allora si denisce odds ratio
(OR):
π1 \ (1 − π1 )
(7.10)
e il log-odds
ratio:
log
π2 \ (1 − π2 )
π2 \ (1 − π2 )
π1 \ (1 − π1 )
= logit(π2 ) − logit(π1 )
(7.11)
Se l'odds ratio è pari ad 1, ciò implica che gli odds dei due eventi E1 e E2
sono uguali e cioè, nel nostro esempio, che il numero di prodotti con qualità
non standard, per ogni prodotto con qualità standard, è lo stesso sia per il
bene A che per il B. Ne deriva che il livello di qualità dei beni non dipende
dalla tipologia del prodotto stesso (A o B). Il log-odds ratio può quindi essere
intesa come una misura di dierenza tra gli odds, e quindi come un termine di
confronto tra le probabilità π1 e π2 . Estendendo questo discorso al modello
di regressione logistica, i coecienti possono essere interpretati come log-odds
ratio. Sia il seguente, un modello logit con un unico predittore:
logit(π(x)) = β0 + β1 X
(7.12)
e si considerino i due eventi come: X (1) = x∗ ; e la variazione unitaria della
variabile esplicativa X (2) = x∗ + 1; allora si ottiene:
logit(π(x∗ + 1)) − logit(π(x∗ )) = (β0 + β1 (x∗ + 1)) − (β0 + β1 x∗ ) = β1
(7.13)
cioè il coeciente β1 non è altro che l'incremento del logaritmo dell'odds (il
logit(π)) associato ad un incremento unitario della variabile X oppure in
modo equivalente si può aermare che di seguito ad un'aumento unitario di
x, l'odds cresce in misura moltiplicativa di eβ1 . Il coeciente β0 , invece, esprime il livello degli odds del vericarsi di un evento a prescindere dai valori
assunti dalle variabili esplicative.
Il signicato del coeciente β1 non varia quando la variabile esplicativa è
di tipo qualitativo ed in particolare dicotomica. In questo caso β1 misurerà la variazione del logit(π(x)) corrispondente al possesso dell'attributo X .
Il discorso si estende immediatamente anche ai predittori qualitativi ad m
81
modalità in quanto la loro inclusione nel modello, così come nella regressione
multipla, avviene attraverso una trasformazione delle stesse in una serie di
m variabili dummy secondo uno schema di codica disgiuntiva completa.
Estendiamo ora il discorso ad un modello caratterizzato dalla presenza di p
variabili esplicative. In questo caso, il modello logit considerato è il seguente:
logit(π(x)) = β0 + β1 X1 + β2 X2 + ..... + βp Xp = Xβ
(7.14)
e al ne di una corretta interpretazione dei coecienti occorre distinguere
due casi:
. Modello senza iterazioni: è un modello in cui le variabili esplicative
impiegate sono tra loro indipendenti e di conseguenza si ha che la
distribuzione di un predittore, ad esempio X1 non cambia al variare
dei valori assunti dagli altri predittori X2 , X3 , ..., Xp . Ne deriva quindi
che i coecienti del modello possono essere interpretati singolarmente
secondo la logica illustrata per il modello con un unico predittore.
Gracamente, questo signica che la funzione che lega il logit(π(x))
alla variabile X1 ha sempre la stessa intercetta e lo stesso coeciente
angolare (in altri termini, la stessa forma) per ogni valore assunto dalle
altre variabili esplicative.
.
Modello con iterazioni: si parla di iterazione quando due variabili predittive congiuntamente producono un eetto più che additivo, o meno
che additivo, sulla variabile di risposta. Tale eetto moltiplicativo, che
accresce o descresce gli eetti additivi dei predittori considerati singolarmente, è detto iterazione. Consideriamo per semplicità un modello
con due variabili esplicative X1 e X2 . La presenza dell'iterazione tra
queste due variabili complica l'analisi, in quanto, nella fase di stima,
il predittore X1 dovrà comparire nel modello sia da solo sia moltiplicato per X2 . Ne cosegue che i parametri da stimare saranno ora i
seguenti: β0 che esprime l'eetto base sulla Y ; β1 e β2 che rappresentano l'eetto delle variabili esplicative (considerate singolarmente); e
β3 che esprime l'eetto congiunto, l'iterazione, dei due predittori sulla
variabile di risposta. Gracamente, l'iterazione, comporta che la funzione che lega il logit a X1 cambierà forma al variare dei livelli di X2
e viceversa.
7.5 La bontà di adattamento
L'adattamento di un modello ai dati può essere interpretato come un modo
per sostituire a un insieme di valori osservati un insieme di valori stimati
82
ottenuti da un modello che è costituito, di solito, da un numero ridotto di
parametri. Anchè tale sostituzione possa considerarsi "ecacie", si richiede
che le stime del modello siano quanto più vicine ai valori osservati della
variabile di risposta, cioè è necessario che la discrepanza tra questi valori sia
minima anchè il modello abbia un buon adattamento al fenomeno oggetto
di studio. Da questo semplice concetto nasce l'idea che è alla base di tutte
le strategie di verica della bontà di un modello statistico: la costruzione
di indici che misurino la dierenza tra dati osservati e teorici che forniscono
così degli indicatori della bontà di adattamento del modello considerato.
Nell'analisi di regressione logistica, quando si prende in esame la bontà di
adattamento del modello ai dati analizzati, si considerano diversi aspetti: la
verica della bontà del modello nel suo complesso; la verica della dierenza
tra due modelli comparabili; e la verica della signicatività di un singolo
coeciente.
7.5.1 La verica della bontà del modello nel suo complesso
Il primo passo nella valutazione della bontà di adattamento di un modello
consiste nel confrontarlo con il modello saturo (o saturato), quello che teoricamente fornisce l'adattamento migliore.
Il modello saturato è un modello che, avendo tanti parametri quante sono
le osservazioni, fornisce una descrizione completa ed esaustiva dei dati e di
conseguenza un adattamento perfetto.
La quantità utilizzata per tale confronto è la statistica D di McCullagh e
Nelder (1983) detta Devianza e denita come segue:
(
D = −2log
maxβ̂ [L(M )]
maxβ̂ [L(M ∗ )]
)
(7.15)
dove la quantità al numeratore è la massima verosimiglianza del modello M
con p predittori mentre quella al denominatore è la massima verosimiglianza del modello saturato M ∗ . Il rapporto compreso tra le parentesi grae
si chiama rapporto delle verosimiglianze. Moltiplicando il logaritmo di tale
rapporto per -2, si ottiene una statistica test che si distribuisce secondo una
distribuzione nota. Si dimostra infatti che, per n grande, D si approssima
ad una distribuzione χ2 con n − (p + 1) gradi di libertà, dove n è il numero
di osservazioni e p + 1 il numero di parametri β stimati.
La logica sottostante l'uso della statistica D è la seguente: se il modello M
considerato è buono, allora la sua verosimiglianza sara molto vicina a quella
del modello saturato che ne rappresenta il valore massimo. Di conseguenza
83
valori piccoli di D implicano valori simili delle verosimiglianze e quindi un
buon adattamento del modello.
Per determinare un valore soglia signicativo, dal punto di vista statistico,
si ricorre alla distribuzione asintotica χ2n−(p+1) di D. In questo modo si individua il livello di signicatività osservato (p-value) da confrontare con il
livello di signicatività α secondo il seguente schema:
- si supponga di voler confrontare un modello M (ipotesi H0 ) contro il modello saturato (ipotesi H1 ). Poichè i valori piccoli di D indicano un buon
adattamento, allora si considera valido M (si accetta H0 ) per valori del pvalue maggiori della soglia critica α, mentre si riuta M (si rigetta H0 ) nel
caso contrario.
La bontà di un modello può essere valutata anche in un'ottica opposta soffermandosi su un confronto eettuato non rispetto all'"ottimo", ma rispetto
al modello M0 (cosidetto banale) formato dalla sola intercetta. La ragione di
questo diverso approccio è da ricercarsi nel fatto che l'utilizzo della statistica
D, confrontando il modello costruito contro quello saturo, pone l'attenzione
unicamente sulla bontà dell'adattamento senza tener conto della parsimonia
(intesa come semplicità del modello) . Infatti, in statistica, un modello è
buono quando esprime l'equilibrio tra il miglior adattamento possibile e la
minor complessità del modello costruito. Solo attraverso la mediazione tra
bontà di adattamento e parsimonia è possibile ottenere una valutazione della qualità complessiva di un modello. Il confronto con il modello banale è
eettuato attraverso l'uso della statistica G:
(
G = −2log
maxβ̂ [L(M0 )]
)
maxβ̂ [L(M )]
(7.16)
che può anche essere interpretata come la dierenza tra le devianze del
modello banale e di quello considerato:
G = D(modellobanale ) − D(modelloconsiderato )
(7.17)
In questo caso, sotto l'ipotesi nulla che tutti i parametri escluso l'intercetta
sono nulli, la statistica G si distribuisce come un χ2 con p gradi di libertà,
dove p è il numero di variabili esplicative incluse nel modello. Si accetta il
modello considerato (e cioè si riuta H0 ) se il valore del p-value è inferiore
al valore critico α. Il riuto dell'ipotesi nulla implica che almeno uno dei
parametri è diverso da 0. Contrariamente che per la statistica D, in questo
caso è desiderabile che la dierenza tra le log-verosimiglianze sia grande
perchè questo implicherebbe che la quantità di informazione apportata dai
predittori nel modello è signicativa nella spiegazione della Y .
84
7.5.2 Confronto tra due modelli
Nella stessa ottica in cui si valuta la statistica G è possibile confrontare due
dierenti modelli, uno dei quali formato con un sottoinsieme di predittori dell'altro. Spesso tali modelli sono indicati in statistica con il termine di Modelli
nidicati. In questo caso la statistica G (indicata ora come extradevianza)
assumerà la seguente forma:
(
G = −2log
maxβ̂ [L(Mp−q )]
)
maxβ̂ [L(M )]
(7.18)
dove Mp−q è il modello formato dal sottoinsieme dei p predittori del modello considerato. La G si distribuirà come un χ2 con q gradi di libertà pari
al numero di predittori esclusi nel modello più ridotto. Se l'extradevianza
è signicativamente grande allora la scelta cadra sul modello con p predittori, viceversa se G è piccola allora conviene optare per il modello ridotto e
salvaguardare così la parsimonia del modello stesso.
7.5.3 Verica della signicatività dei singoli parametri
Per vericare la signicatività di un singolo parametro si può ricorrere alla
statistica W di Wald per il j-esimo coeciente:
W =
βj
σ(βj )
(7.19)
dove σ(βj ) è lo scarto quadratico medio di βj . Sotto l'ipotesi nulla che il
parametro βj = 0, W si distribuisce come una normale standardizzata.
7.6 La selezione delle variabili
Così come per la regressione multipla, anche nella regressione logistica la
selezione delle variabili è una fase importante dell'analisi che merita particolare attenzione. La costruzione di un modello equilibrato, che incorpori in se
unicamente i predittori signicativi (nella spiegazione di Y ) e che allo stesso
tempo garantisca un grado accettabile di complessità (in termini di numero
di parametri) passa necessariamente attraverso un processo di selezione automatico delle variabili che ha l'obiettivo di individuare il sottoinsieme di X
ottimale secondo il criterio prescelto.
Le tecniche impiegate consistono, così come nell'analisi lineare multipla (vedi
par. 6.3.8), nelle metodologie forward, backward e stepwise. Questi metodi si distinguno, ora, unicamente per la statistica test impiegata, infatti il
85
test utilizzato per decidere l'inclusione o l'esclusione di un predittore di un
modello non utilizza più il rapporto tra le varianze, ma un test fondato sulla
misura G che, come abbiamo già visto, si distribuisce asintoticamente come
un χ2 con k + 1 gradi di libertà pari al numero di parametri da stimare
(nel modello composto dai predittori già inclusi più quello di cui si valuta
l'inclusione). Il predittore entra nel modello (si riuta l'ipotesi nulla che il
coeciente è nullo) quando il p-value è piccolo, inferiore alla soglia critica
α prescelta. Vicersa, un predittore, precedentemente incluso, verrà escluso
dal modello quando il livello di signicatività osservato sarà grande e cioè si
accetta l'ipotesi che il suo coeciente β è nullo.
86
Capitolo 8
I modelli additivi generalizzati
8.1 Regressione parametrica, non parametrica e semiparametrica
Nel modello classico di regressione lineare il valore atteso della variabile
dipendente é espresso come combinazione lineare dell'insieme di variabili
esplicative x1 , x2 , . . . , xd e dei parametri βi . Il modello risulta il seguente:
E(Y |x) = x1 β1 + . . . + xd βd = xT β
(8.1)
in cui E(Y |x) indica il valore atteso di Y in dipendenza di una particolare
realizzazione del vettore xT = (x1 , x2 , . . . , xd )T ed i βj , j = 1, 2, . . . , d, sono
coecienti incogniti che legano la variabile dipendente all'insieme dei predittori. Denendo come la dierenza tra la variabile Y ed il suo valore atteso
condizionato E(Y |x):
= Y − E(Y |x)
(8.2)
é possibile riformulare il modello nel seguente modo:
Y = xT β + .
(8.3)
La caratteristica principale di tale modello é la sua forma parametrica:
la funzione di regressione é determinata attraverso i parametri incogniti βj ,
j = 1, 2, . . . , d. Quindi tutto ció che bisogna fare quando si vuole determinare
la funzione di regressione lineare di cui alla (8.3) é stimare i parametri incogniti βj . Il modello parametrico di cui alla (8.3) esclude a priori qualsiasi tipo
di relazione non lineare.
Si ipotizzi, invece, che la relazione tra variabile dipendente e predittori sia
87
completamente descritta da una certa funzione m(•), che puó essere sia lineare che non lineare, e che tale funzione sia la funzione di regressione incognita che descrive al meglio il tipo di relazione che si intende studiare. Il
modello puó essere riscritto nel seguente modo:
E(Y |x) = m(x).
(8.4)
In questo caso l'analista non é necessariamente vincolato a ricorrere al
modello classico di regressione lineare. É possibile infatti approssimare la
relazione investigata attraverso diverse specicazioni della funzione m(•), e
quindi non ricorrendo necessariamente a funzioni di tipo lineare. L'unico
vincolo che caratterizza questa tipologia di modelli é l'utilizzo di funzioni
caratterizzate da una certa regolaritá (c.d. smooth functions o funzioni di
smoothing) per la stima della funzione incognita m(x). Tali modelli, in corrispondenza di diverse specicazioni della funzione di smoothing, rientrano
nella classe dei modelli di regressione non parametrica.
La precisione delle stime ottenute attraverso tali modelli é inversamente proporzionale al numero di variabili indipendenti incluse nel modello. Questo
problema é noto in letteratura come maledizione della dimensionalitá (curse
of dimensionality). La relazione tra variabile dipendente e predittori puó
essere gracamente rappresentata da una supercie le cui dimensioni dipendono proprio dal numero di predittori inclusi nel modello.
Immaginiamo, ad esempio, di volere stimare il seguente modello:
E[Y |(x1 , x2 )] = m(x1 , x2 )
(8.5)
ed ipotizziamo che m(•) sia una funzione caratterizzata da una certa regolaritá (sia cioé una smooth function). Generalmente gli stimatori utilizzati
nell'ambito non parametrico producono una stima di m(•) ad un punto arbitrario (x1 = s, x2 = e) attraverso una media ponderata locale dei valori
della variabile y che si trovano in corrispondenza dei valori di x1 ed x2 situati in un certo intervallo costruito intorno al punto di coordinate (s, e).
Tale media é calcolata attribuendo dei pesi a ciascun valore della y. Il peso
attribuito in corrispondenza dei diversi valori della y sará piú alto per le
coppie di osservazioni x1 , x2 piú vicine al punto (s, e). Da ció si desume che,
presumibilmente, ad ogni osservazione sará attribuito un peso diverso. L'attribuzione dei pesi avviene attraverso una funzione che cerca di attribuire un
peso maggiore alle osservazioni piú vicine al punto di coordinate (s, e), ed
un peso minore a quelle piú lontane. Infatti alle osservazioni molto distanti
da tale punto verrá attribuito un peso prossimo allo zero.
88
Il risultato nale di un modello non parametrico caratterizzato dalla presenza di due soli predittori é l'approssimazione di una nube di punti in uno
spazio tridimensionale con una supercie. Ció equivale, da un punto di vista
probabilistico, a stimare una funzione di densitá (o di probabilitá) bivariata
in modo non parametrico.
L'utilizzo di stimatori non parametrici, sicuramente piú essibili di quelli utilizzati nei modelli parametrici, é solitamente accompagnato da metodi
complementari orientati alla riduzione della dimensionalitá. Tali metodi racchiudono spesso le principali caratteristiche delle tecniche parametriche e non
parametriche, e sono noti in letteratura come metodi semiparametrici. Essi
consentono inoltre l'inclusione nel modello di variabili categoriche (che altrimenti potrebbero essere analizzate solo attraverso un approccio parametrico)
ed un'agevole interpretazione dei risultati.
Il modello di cui alla (8.5) puó essere riformulato in forma semiparametrica
nel seguente modo:
E[Y |(x1 , x2 )] = α + g1 (x1 ) + g2 (x2 )
(8.6)
In questo caso g1 (•) e g2 (•) sono due funzioni di smoothing incognite ed
α é un parametro incognito da stimare. Questo modello combina la semplice
struttura additiva dei modelli di regressione parametrica (si tratta quindi
di un modello additivo) con la essibilitá che caratterizza l'approccio non
parametrico, perché non impone alcuna restrizione riguardo alla forma (lineare o non lineare) delle funzioni che determinano come i predittori x1 ed x2
inuenzano il valore atteso della variabile dipendente Y .
Bisogna comunque tener presente che le stime delle funzioni incognite g1 (•) e
g2 (•) possono essere eettuate anche attraverso la regressione non parametrica. Quindi, per stimare modelli semiparametrici si ricorre spesso a tecniche
non parametriche.
Inne si osservi che nel modello di cui alla (8.5) bisogna stimare una funzione
incognita di due variabili, mentre nel modello di cui alla (8.6) bisogna stimare
una funzione incognita per ciascun predittore. In quest'ultimo modello si é
ridotta la dimensionalitá della stima. Sebbene tutti gli studiosi concordano
sul punto che i modelli additivi del tipo specicato alla (8.6) permettono una
riduzione della dimensionalitá rispetto ai modelli di regressione non parametrica, alcuni non concordano nel denire semiparametrici tali modelli, poiché
in essi, oltre al parametro α, non esiste alcun altro parametro da stimare.
A tal proposito si consideri il caso in cui la variabile dipendente Y sia di tipo
dicotomico, ossia:
89
(8.7)
Poiché Y é di tipo dicotomico (e quindi descritta da una varibile casuale
di Bernoulli), risulta:
Y = 1sesiverif icaunacertacondizione0altrimenti
(8.8)
e quindi la funzione di regressione di Y rispetto ad x esprime la probabilitá
che si verichi la condizione specicata per Y = 1 data una certa specicazione del vettore dei predittori x. Sotto certe ipotesi, P (Y = 1|x) puó
essere espressa come segue:
E(Y |x) = P (Y = 1|x)
(8.9)
in cui β T x rappresenta una combinazione lineare dei valori dei predittori (talvolta denominata "funzione indice") con coecienti β . G(•) é una funzione
continua che descrive il comportamento della variabile Y in un intervallo
[0, 1], denominata "funzione legame" (link function), in quanto lega l'indice
β T x al valore atteso condizionato E(Y |x).
In tale contesto é di fondamentale importanza stabilire se G(•) assume una
forma parametrica, e se ció accade quale particolare forma assume. Molto
spesso in presenza di una variabile di risposta dicotomica si ricorre al modello
di regressione logistica. Il modello logistico assume che G(β T x) sia descritta
dalla funzione di distribuzione logistica per ogni possibile realizzazione di x.
In questo caso risulta:
P (Y = 1|x) = G(β T x)
E(Y |x) = P (Y = 1|x) =
1
exp(−β T x)
(8.10)
Il modello logistico, come tutti i modelli parametrici, é basato su ipotesi
rigide riguardanti la distribuzione dei parametri che non sempre risultano
giusticate dalla teoria da cui scaturisce il modello. Per cui puó essere interessante valutare le conseguenze della stima del modello di cui alla (8.9)
attraverso un approccio non parametrico, svincolato quindi da ipotesi distribuzionali, e valutare successivamente le proprietá degli stimatori impiegati.
Un possibile modo di generalizzazione del modello logistico in forma semiparametrica é rappresentato dal "modello ad indice singolo" (single index
model, SIM), per il quale l'indice β T x é espresso in forma lineare, ma la funzione G(•) di cui alla (8.9) é stimata attraverso una funzione di smoothing
arbitraria H(•) (non necessariamente una funzione di probabilitá) che puó
essere stimata a partire dai dati. Il modello puó essere cosí riformulato:
90
(8.11)
La stima di tale modello avviene attraverso due fasi: in una prima fase
vengono stimati i coecienti β , e successivamente si stima la funzione legame
incognita H(•) attraverso una regressione non parametrica della variabile
dipendente Y rispetto all'indice β̂ T x, in cui β̂ é il vettore di coecienti
stimato nella fase precedente. La stima di H(•) avviene ricorrendo ad uno
stimatore non parametrico.
E(Y |x) = H(β T x)
8.2 L'istogramma
Si consideri una variabile casuale continua X e sia f la sua funzione di
densitá di probabilitá. Volendo stimare il valore di f (xi ) in corrispondenza
di una certa realizzazione xi della v.c. X uno simatore elementare, dalla cui generalizzazione derivano tutti gli altri stimatori non parametrici, é
l'istogramma.
8.2.1 Costruzione di un'istogramma
Costruire un'istogramma é molto semplice. Si immagini di avere un campione casuale X1 , X2 , . . . , Xn proveniente da una popolazione il cui comportamento é ben descritto da una funzione di probabilitá continua incognita. La
costruzione di un istogramma procede attraverso le seguenti fasi:
•
Si seleziona un punto origine x0 e si suddivide la retta reale in tanti
sottointervalli Bj di uguale ampiezza (bins):
Bj : [x0 + (j − 1)h, x0 + jh), j ∈ Z,
in cui h é l'ampiezza dell'intervallo (binwidth).
•
Si contano il numero delle osservazioni che ricadono in ciascun intervallo.
Il numero di osservazioni che ricadono nell'intervallo j si indica con nj .
•
Per ogni intervallo si calcola il rapporto tra il numero di casi in esso compresi (nj ) ed il prodotto tra il numero di casi osservati (n) per l'ampiezza dell'intervallo h (ci si assicura in tal modo che l'area totale al di sotto
dell'istogramma sia pari ad uno):
fj =
91
nj
nh
•
Si disegna l'istogramma tracciando delle barre verticali in corrispondenza
degli estremi di ciascun intervallo la cui altezza é pari ad fj e la cui
ampiezza é pari ad h.
Il procedimento puó essere riassunto in termini formali nel seguente
modo:
n
1 XX
fˆh (x) =
I(Xi ∈ Bj )I(x ∈ Bj )
nh
i=1
(8.12)
j
in cui:
I(Xi ∈ Bj ) = 1se
Xi ∈ Bj 0 altrimenti
Se indichiamo con xm il punto mediano di ciascun sottointervallo é facile
notare che l'istogramma assegna ad ogni x in Bj = [xm − h2 , xm + h2 ) uno
stesso valore relativo alla stima di f , e cioé fˆh (xm ).
Un qualunque stimatore di una funzione di distribuzione deve caratterizzarsi
per il fatto che l'area totale sottesa dalla funzione di probabilitá deve essere
pari ad uno. L'istogramma sicuramente rispetta tale proprietá.
La probabilitá che un certo valore della variabile casuale X sia compreso in
un intervallo [xm − h2 , xm + h2 ) é data da:
h
h
P (X ∈ [xm − , xm + )) =
2
2
Z
xm + h
2
f (u)du
xm − h
2
(8.13)
e rappresenta l'area al di sotto della funzione di densitá nell'intervallo [xm −
h
h
2 , xm + 2 ). Quest'area é approssimata da un rettangolo con base h ed altezza
f (xm ). É possibile quindi scrivere:
h
h P X ∈ [xm − , xm + ) =
2
2
Z
xm + h
2
xm − h
2
f (u)du ≈ f (xm ) × h
(8.14)
Una semplice stima di tale probabilitá é fornita dalla frequenza relativa
delle osservazioni nell'intervallo:
P (X ∈ [xm −
h
1
h
h
h
, xm + )) ≈
#xi ∈ [xm − , xm + )
2
2
nh
2
2
92
(8.15)
in cui # denota la cardinalitá, ossia il numero di elementi di un certo insieme
o compresi in un certo intervallo.
Il parametro h della funzione fˆh (xm ) é ssato dall'analista, e quindi le stime
fornite dall'istogramma dipendono dalla scelta dell'ampiezza dell'intervallo
nonché dalla scelta del punto origine x0 .
Qualora si incrementa il valore di h l'istogramma diviene piú smussato, ma
é dicile stabile quale sia l'ampiezza dell'intervallo che in assoluto produce
il grado di smussamento ottimale.
8.3 Average Shifted Histogram (ASH)
Nel paragrafo precedente si é sottolineato che la forma dell'istogramma dipende
dalla scelta dell'ampiezza dell'intervallo di stima e del punto origine. Queste
caratteristiche dell'istogramma non rispondono all'obiettivo fondamentale
delle tecniche non parametriche, che é quello di "lasciare che siano gli stessi
dati a descrivere determinati comportamenti" e cioé, in altre parole, che le
stime devono essere eettuate partendo dai dati. Nel caso specico dell'istogramma gli stessi dati possono generare istogrammi diversi al variare di h
e del punto origine x0 . Un rimedio "naturale" a questo problema puó essere
quello di costruire diversi istogrammi utilizzando un intervallo di ampiezza
costante ma punti origine ogni volta diversi, ed eettuare successivamente
una media dei diversi istogrammi ottenuti.
Tale procedura corrisponde alla costruzione di un Averaged Shifted Histogram
(ASH), é da luogo generalmente ad istogrammi caratterizzati da piccoli salti
della funzione di densitá che farebbero pensare alla scelta di un intervallo
di stima molto piccolo. Ma non si tratta semplicemente di un comune istogramma costruito scegliendo un intervallo di stima piccolo.
Si consideri, infatti, un insieme di intervalli relativi ad un istogramma con
punto origine x0 = 0 ed ampiezza Bj := [(j − 1)h, jh) j ∈ Z , e cioé:
. . . B1 = [0, h),
B2 = [h, 2h),
B3 = [2h, 3h), . . . .
da tali intervalli se ne generano M − 1 spostando ogni Bj verso destra di una
quantitá pari a lh/M :
Bj,l := [(j − 1 + l/M )h, (j + l/M )h)
l ∈ {1, . . . , M − 1}
(8.16)
Naturalmente qualora si considera l = 0 si ottiene l'istogramma di partenza. Se si vuole calcolare un istogramma per ognuno degli insiemi di intervalli
93
ottenuti al variare di l bisogna calcolare M dierenti stime della funzione f
per ogni punto x:
n
1 X X
{
I(Xi ∈ Bj,l )I(x ∈ Bj,l )},
fˆh,l (x) =
nh
i=1
l ∈ {0, 1, . . . , M − 1}.
j
L'istogramma ASH é ottenuto attraverso una media di tali stime:
fˆh (x) =
M −1
1 X 1 X X
n{
I(Xi ∈ Bj,l )I(x ∈ Bj,l )}
M
nh
i=1
l=0
=
(8.17)
j
n
X
1X 1 X
{
M −1
I(Xi ∈ Bj,l )I(x ∈ Bj,l )}
n
Mh
i=1
j
l=0
(8.18)
In generale, é possibile ottenere una stima della (8.18) considerando una
griglia di intervalli di ampiezza δ = Mh e calcolando una somma ponderata
delle frequenza relative nj /(nh) in ciascun intervallo. La formula generale
per calcolare fˆh (x) partendo da una griglia di intervalli di ampiezza δ = Mh
é la seguente:
M
−1
X
1 X
fˆh (x) =
I(x ∈ Bj∗ )
wM (k) ∗ nj+k ,
nh
j
(8.19)
k=1−M
in cui:
nk =
e:
n
X
I(Xi ∈ Bk∗ ).
(8.20)
i=1
wm (k) = 1 −
|k|
M
(8.21)
Inne bisogna evidenziare che la (8.21) non rappresenta l'unico modo
per attribuire dei pesi ad una certa funzione di stima. Utilizzando delle
diverse formulazioni della (8.21) é infatti possibile approssimare un'ampia
classe di funzioni di stima, che rientrano nella classe degli stimatori kernel.
Ad esempio la funzione che segue é utilizzata per approssimare una funzione
di stima basata sul cosiddetto Epanechnikov kernel:
94
wm (k) =
3M 2
k
[1 − ( )2 ]
2
4M − 1
M
(8.22)
In generale, la procedura basata sull'approssimazione di una funzione di
densitá attraverso uno stimatore kernel é denita come Weighted Averaging
of Rounded Points (WARPing).
8.4 Stima non parametrica
8.4.1 Introduzione
Nei paragra precedenti abbiamo dimostrato che l'istogramma non é solo un
semplice stumento graco che ci permette di rappresentare una distribuzione
di frequenze empirica. Esso é soprattutto un utile metodo per stimare una
funzione di probabilitá incognita.
Abbiamo inoltre mostrato che la forma dell'istogramma varia in funzione di
due parametri: l'ampiezza dell'intervallo di stima (h) ed il punto origine x0 .
La tecnica del WARPing é un utile strumento per ottenere un istogramma
la cui forma non dipenda dalla scelta del punto origine. Anche nel caso delle
stime non parametriche eettuate utilizzando stimatori kernel é possibile
ovviare al problema della scelta del punto origine ma non a quello della
scelta dell'intervallo di stima ottimale.
Sebbene la tecnica del WARPing risolva il problema della scelta del punto
origine, l'istogramma ottenuto presenta comunque alcuni inconvenienti:
•
esso produce per ogni punto x in [xm − h2 , xm + h2 ) la stessa stima della
funzione f , e cioé fˆh (xm ). Trattasi di un'ipotesi abbastanza restrittiva.
•
l'istogramma non é una funzione continua, ma é una funzione a gradini
(step function), caratterizzata da salti in corrispondenza degli estremi
degli intervalli di stima. In tali punti la derivata della funzione di stima
é pari a zero, e ció costituisce sicuramente un inconveniente allorquando
si intende stimare una funzione di probabilitá incognita continua.
8.4.2 Stimatori kernel
La costruzione dell'istogramma al ne di ottenere uno stimatore della funzione di stima f (x) incognita é basata sul seguente principio:
1
#{osservazioni
n·h
in un piccolo intervallo contenente x}
95
La costruzione di uno stimatore kernel é basata su un principio simile al
precedente, ma presenta il vantaggio di non risentire della scelta del punto
origine. Lo stimatore kernel é ottenuto sulla base di intervalli la cui ampiezza
é solitamente variabile. Esso é denito da:
1
#{osservazioni
n·h
in un piccolo intervallo intorno ad x}
Da notare la sottile ma importantissima dierenza rispetto alla costruzione
dell'istogramma: nel caso di uno stimatore kernel l'intervallo di stima é
costruito intorno al punto x, e non si tratta, come nel caso dell'istogramma
di un intervallo che contiene tutti i punti situati ad una certa distanza dal
punto mediano xm , determinato rispetto alla scelta del punto origine x0 .
Un istogramma puó essere anche costruito scegliendo un intervallo di ampiezza 2h. In questo caso l'intervallo comprende tutte le osservazioni in [x−h, x+
h], per cui é possibile scrivere:
1
fˆ(x) =
#{Xi ∈ [x − h, x + h]}
2hn
(8.23)
La formula precedente puó essere cosí riscritta nel caso della funzione
kernel uniforme:
1
K(u) = I(|u| ≤ 1)
2
in cui u =
x−Xi
h
(8.24)
. L'istogramma di cui alla (8.23) in questo caso risulta:
n
fˆh (x) =
=
=
1 X
x − Xi
K(
)
nh
h
1
nh
i=1
n
X
1 x − Xi
I(|
| ≤ 1)
2
h
i=1
n
X
1
2nh
i=1
I(|
x − Xi
| ≤ 1)
h
(8.25)
Dalla (8.25) é evidente che la funzione kernel uniforme deriva da una
particolare formalizzazione dell'istogramma di cui alla (8.23). Inoltre dalla
(8.25) é possibile notare come ogniqualvolta un'osservazione ricade nell'intervallo [x − h, x + h) la funzione indicatrice assume valore 1, ed il numero
96
di casi compresi nell'intervallo aumenta. Ma anche in questo caso a ciascuna osservazione é attribuito lo stesso peso, a prescindere dalla sua vicinanza/lontananza dal punto x. Sarebbe forse piú opportuno attribuire un peso
maggiore alle osservazioni piú vicine ad x rispetto a quelle piú distanti. Si
consideri a tal proposito la seguente espressione:
n
fˆh (x) =
x − Xi 2
x − Xi
1 X3
{1 − (
) }I(|
| ≤ 1)
2nh
2
h
h
i=1
=
n
1 X3
x − Xi 2
x − Xi
{1 − (
) }I(|
| ≤ 1)
nh
4
h
h
=
n
1 X
x − Xi
H(
)
nh
h
i=1
i=1
(8.26)
in cui la funzione K(•) si denomina Epanechnikov kernel, ed é data da:
3
k(u) = (1 − u2 )I(|u| ≤ 1)
4
Dalla (8.26) risulta che le osservazioni piú vicine ad x contribuiscono in
maniera consistente alla sua stima, in quanto ad esse é attribuito un peso
maggiore. Questa proprietá é tipica dell'Epanechnikov kernel ma caratterizza anche tutti gli stimatori riassunti nella tabella seguente.
Avendo introdotto diverse funzioni kernel é possibile fornire la seguente
denizione generale di di stimatore kernel per una funzione di probabilitá f ,
in riferimento ad un campione casuale X1 , X2 , . . . , Xn :
1X
fˆh (x) =
nKh (x − Xi )
n
(8.27)
i=1
in cui:
Kh (•) =
1
K(•/h)
h
(8.28)
ed h indica sempre l'ampiezza dell'intervallo di stima.
Come nel caso dell'istogramma il parametro h controlla il grado di smussamento della stima e la sua scelta é un problema di cruciale importanza.
Purtroppo é molto dicile stabilire quale valore di h produce il grado di
smussamento ottimale senza poter disporre di alcun criterio formale.
Inoltre bisogna puntualizzare che la funzione kernel é la funzione K , mentre
97
Tabella 8.1: Funzioni kernel
Kernel
k(u)
Uniform
1
2 I(|u|
Triangle
(1 − |u|)I(|u| ≤ 1)
Epanechnikov
3
4 (1
Quartic
15
16 (1
− u2 )2 I(|u| ≤ 1)
Triweight
35
32 (1
− u2 )3 I(|u| ≤ 1)
Gaussian
√1
2π
exp( 21 u2 )
Cosinus
π
4
≤ 1)
− u2 )I(|u| ≤ 1)
cos( π2 u)I(|u| ≤ 1)
il termine stimatore kernel é quello di cui alla (8.27).
Le funzioni
R ∞ kernel sono funzioni di densitá di probabilitá, e quindi per esse
risulta −∞
K(u)du = 1 e K(u) ≥ 0 per ogni u compresa nel dominio
R∞
di K . Una conseguenza immediata del fatto che −∞
K(u)du = 1 é che
R
ˆ
fh (x)dx = 1, e quindi lo stimatore kernel é anch'esso una funzione di densitá di probabilitá. Inoltre fˆh presenta tutte le caratteristiche di continuitá e
dierenziabilitá di K . Ad esempio, se K é dierenziabile n volte questa proprietá vale anche per fˆh . Questa proprietá di fˆh é desumibile gracamente
dal grado di smussamento che essa produce.
8.4.3 Proprietá di uno stimatore kernel
Per la scelta di un intervallo di stima ottimale é importante calcolare l'errore
quadratico medio (MSE) delle stime. Esso é dato anche dalla somma della
distorsione al quadrato piú la varianza. La distorsione (bias) di uno stimatore
kernel é data da:
98
Bias{fˆh (x)} = E{fˆh (x)} − f (x)
= ...
h2 ”
=
f (x)µ2 (K) + o(h2 )
2
h→0
(8.29)
Dalla (8.29) é possibile notare che la distorsione é proporzionale ad h2 .
Inoltre essa dipende dalla derivata seconda f ” per ogni x. L'importanza della
distorsione dipende dal grado di curvatura della funzione f , che dipende a sua
volta dal valore assoluto della funzione f ” . Valori elevati di |f ” | implicano
una distorsione elevata.
La varianza di uno stimatore kernel é:
n
1X
V ar{fˆh (x)} = V ar{
Kh (x − Xi )}
n
i=1
= ...
1
1
=
k K k22 f (x) + o( ),
nh
nh
nh → ∞
(8.30)
in cui k K k22 = K 2 (s)ds. La varianza di uno stimatore kernel é diretta1
mente proporzionale a nh
. Quindi, al ne di ridurre la variabilitá di uno
stimatore kernel bisogna scegliere un intervallo h abbastanza ampio. Inoltre
la varianza aumenta al crescere di k K k22 . Quest'ultimo termine sará abbastanza piccolo per stimatori piatti come la funzione kernel uniforme.
In conclusione é possibile aermare che funzioni kernel piatte e liscie danno
luogo a stime meno variabili relativamente a campioni ripetuti, poiché in ogni
campione alle osservazioni é attribuito piú o meno lo stesso peso. La (8.30)
e la (8.29) evidenziano il tradeo tra distorsione e varianza. La situazione
ideale sarebbe quella di minimizzare contemporaneamente la distorsione e
la varianza, ma una diminuzione dell'ampiezza dell'intervallo di stima produce un auemento della distorsione, mentre un suo ampiamento produce un
aumento di variabilitá della stima. L'errore quadratico medio rappresenta
un compromesso tra queste due situazioni, e permette inoltre di vericare la
consistenza di uno stimatore kernel (considerando che che la convergenza in
media quadratica implica quella in probabilitá e quindi la consistenza). Esso
é dato da:
R
99
h4 ” 2
1
1
M SE{fˆ(x)} =
f (x) µ2 (K)2 +
k K k22 f (x) + o(h4 ) + o( )
4
nh
nh
(8.31)
Osservando la (8.31) é possibile notare che il MSE di uno stimatore kernel tende a zero quando h → 0 e nh → ∞. Da ció si desume la proprietá
della consistenza di tale stimatore. Ma dalla (8.31) é possibile notare anche che il MSE dipende dalle funzioni f e da f ” , che nelle applicazioni reali
risultano quasi sempre incognite. Qualora si voglia individuare il valore di h
(ad esempio h0 ) che minimizza il MSE si noterá che le funzioni f (x) e f ” (x)
non scompaiono mai man mano che si deriva il MSE rispetto al parametro
h. Quindi l'intervallo ottimale h0 non puó essere mai individuato, a meno
che non si riescono ad approssimare le funzioni f (x) ed f ” (x).
É possibile ridurre la dimensionalitá del problema utilizzando il MISE (errore
quadratico medio integrato) invece del MSE, in quanto esso presenta l'ulteriore vantaggio di essere una misura globale dell'accuratezza di uno stimatore.
Per uno stimatore kernel il MISE é dato da:
M ISE(fˆh ) =
Z
M SE{fˆh (x)}dx
= ...
1
h4
1
=
k K k22 + {µ2 (K)}2 + o( ) + o(h4 )
nh
4
nh
h → 0, nh → ∞
(8.32)
Una formula approsimata del MISE, denominata AMISE (Asymptotic
Mean Squared Error), é la seguente:
1
h4
AM ISE(fˆh ) =
k K k22 + {µ2 (K)}2 k f ” k22
(8.33)
nh
4
Derivando l'AMISE rispetto ad h e risolvendo rispetto allo stesso parametro
h
otteniamo l'intervallo di stima ottimale:
h0 = (
k K k22
)1/5 ∼ n−1/5
k f ” k22 {µ2 (K)}2 n
(8.34)
in dui k f ” k22 = (f ” )2 (s)ds. Dall'espressione ottenuta per h0 é evidente che
il problema di dover trattare quantitá incognite non é stato ancora risolto,
in quanto h0 dipende da k f ” k22 .
R
100
8.4.4 Il Regressogramma
Il termine regressogramma deriva dalla somiglianza di tale stimatore con
l'istogramma. La stima mediante regressogramma procede attraverso due
fasi:
(a) Suddivisione in intervalli delle variabili {Xi}ni=1.
I valori osservati della variabile {Xi }ni=1 sono ripartiti secondo l'appartenenza ad intervalli disgiunti di ampiezza h che suddividono lo
spazio di osservazione della variabile X . Il j -esimo intervallo [x0 + (j −
1)h, xo + jh) é indicato con Bj .
(b) Si calcola il valore medio delle Yi
rispettivo intervallo.
rispetto ai valori Xi compresi nel
In termini formali, per ogni x ∈ Bj é posssibile scrivere:
Pn
I(Xi ∈ Bj )Yi
m̂h (x) = Pi=1
n
i=1 I(Xi ∈ Bj )
indicatrice assume valore "1" se Xi ∈ Bj
(8.35)
in cui la funzione
e "0" altrimenti.
Il regressogramma puó essere considerato un'approssimazione di una funzione a gradini. Inoltre esiste una sottile connessione con gli stimatori kernel
utilizzati nella regressione, poiché il regressogramma puó essere considerato
uno stimatore in cui si utilizza una funzione kernel uniforme, calcolata nel
punto medio di ciascun intervallo.
8.4.5 Lo stimatore k-Nearest Neighbour (k-NN)
Come mostrato in precedenza gli stimatori kernel sono basati su una media ponderata dei valori assunti dalla variabile dipendente in un intervallo
sso costruito rispetto al punto x, la cui ampiezza dipende dal parametro
h. Anche lo stimatore k -nearest neighbours, spesso denominato stimatore
media mobile (running mean smoother), puó essere considerato una media
ponderata dei valori assumti dalla variabile di risposta in un certo intervallo
costruito intorno ad x, con l'importante dierenza che l'ampiezza dell'intervallo é variabile e non ssa. Piú specicamente, i valori della Y utilizzati per
calcolare la media sono quelli corrispondenti ai k valori della variabile X piú
vicini al punto x in cui si vuole stimare la funzione m(x). Formalmente lo
stimatore k-NN puó essere cosí descritto:
m̂k (x) = n
−1
n
X
i=1
101
Wki (x)Yi
(8.36)
ed i pesi {Wki (x)}ni=1 risultano cosí deniti:
Wki (x) = n/kse
i ∈ Jx 0 altrimenti (8.37)
rispetto ad un insieme di indici:
è una delle k osservazioni più vicine ad x}
La stima della funzione m(•) in un punto x rispetto al quale i dati sono
piuuttosto dispersi fa si che le k osservazioni piú prossime al punto x siano
abbastanza lontane da x, e di conseguenza l'intervallo costruito intorno al
punto x sia ampio. Quindi k é il parametro di smoothing dello stimatore, in
quanto un incremento di k fa aumentare l'ampiezza dell'intervallo di stima
e rende la funzione piú smussata.
Lo stimatore k-NN puó essere visto come uno stimatore kernel uniforme del
tipo K(u) = 12 I(|u| ≤ 1) con ampiezza dell'intervallo variabile h = R(k),
dove con R(k) si é indicata la distanza tra il punto x ed i k punti ad esso
piú vicini. Esso quindi risulta:
Jx = {i : Xi
Pn
KR (x − Xi )Yi
m̂k (x) = Pi=1
n
i=1 KR (x − Xi )
(8.38)
Lo stimatore k-NN puó essere generalizzato considerando anche stimatori
kernel diversi da quello uniforme.
É possibile considerare per ogni xi intervalli simmetrici, ossia scegliere le k
osservazioni che precedono xi e le k osservazioni successive ad xi , calcolando
in ciascuno dei due intervalli la media aritmetica dei corrispondenti valori
della y. Tale stimatore é detto stimatore k-nn simmetrico.
8.4.6 Median Smoothing
Lo stimatore kernel median smoothing puó essere considerato un caso particolare di applicazione di uno stimatore k-NN per la stima della mediana
condizionata di una distribuzione doppia di probabilitá. La mediana condizionata M ed(Y |X = x) é uno stimatore piú robusto del valore atteso
condizionato E(Y |X = x). Esso consente inoltre di stimare eventuali punti
di discontinuitá della funzione di regressione M ed(Y |X). In termini formali
lo stimatore in esame é descritto nel seguente modo:
m̂(x) = M ed{Yi : i ∈ Jx }
102
(8.39)
in cui:
Jx = {i : Xi
é uno dei k punti piú vicini ad x}
In pratica si procede calcolando la mediana dei punti Yi rispetto ai k
punti Xi piú vicini al punto x.
8.4.7 Running Line smoother
Una semplice generalizzazione dello stimatore media mobile é costituita dal
running line smoother, che eettua un stima col metodo dei minimi quadrati
ordinari in ciascun intervallo invece di calcolare semplicemente la media aritmetica dei valori della variabile di risposta. Il running line smoother é
denito da:
s(x0 ) = α̂(x0 ) + β̂(x0 )x0
in cui α̂(x0 ) e β̂(x0 )x0 costituiscono i coecienti della stima eettuata col
metodo dei minimi quadrati ordinari in un intervallo di x0 indicato con
N S (x0 ).
Il parametro k, ossia il numero di punti compresi in ciascun sottointervallo,
determina la forma della funzione stimata. Valori elevati di k tendono a produrre curve piú smussate, mentre valori contenuti di k tendono a produrre
delle curve il cui andamento é piú irregolare. In questo caso é piú conveniente ragionare non in termini di k, ma in termini di w = (2k + 1)/n, ossia
considerare la proporzione di punti piú vicina al punto xi rispetto al quale si
vuole eettuare la stima, denominata span. Con [N S (xi )] si indica proprio
il numero di punti in N S (xi ). Nel caso estremo, se w = 2, ogni intervallo
contiene tutti i dati osservati, ed la stima mediante running line smoother
equivale ad approssimare la relazione tra le variabili osservate mediante una
classica retta di regressione lineare. All'opposto se risulta w = 1/n, ogni
intervallo contiene una sola osservazione e quindi si eettua una semplice
interpolazione dei dati.
Il running line smoother generalmente produce stime caratterizzate da curve
il cui andamento é molto irregolare e frastagliato, perché ai punti compresi in
un certo intervallo é attribuito nella procedura di stima lo stesso peso (non
nullo), mentre ai punti al di fuori dell'intervallo é attribuito un peso nullo.
Quindi man mano che si eettua la stima in ciascun intervallo muovendosi
da sinistra verso destra, i pesi attribuiti ai punti situati all'estrema destra
ed all'estrema sinistra di ciascun intervallo restano costani o registrano cambiamenti di lieve entitá. Quando si ricorre a tale stimatore é preferibile
103
utilizzare intervalli simmetrici, perché si ottiene una migliore performance
dello stimatore ripetto ai punti situati sulle code (di destra e di sinistra)
della distribuzione. Infatti, nel caso di intervalli non simmetrici, l'intervallo costruito rispetto ai punti situati sulle code conterrá lo stesso numero di
osservazioni di quello costruito rispetto ad un qualunque altro punto situato in prossimitá del valore mediano, e quindi eettuando in tale intervallo
una stima con il metodo dei minimi quadrati si assegnerá alle osservazioni
situate in prossimitá delle code della distribuzione lo stesso peso assegnato
a tutte le altre osservazioni. Utilizzando intervalli simmetrici si eettua, nei
punti situati in prossimitá delle code, una stima in un intervallo contenente
solo la metá delle osservazioni ricomprese negli altri intervalli, e quindi in
tal modo si attribuisce un peso minore alle osservazioni situate in prossimitá
delle code.
8.4.8 Lo stimatore lowess (locally weighted running line smoother)
Lo stimatore lowess é stato introdotto per migliorare in taluni casi le stime
ottenute attraverso il running line smoother ed ottenere stime caratterizzate
da curve con andamento piú regolare, eettuando in ciascun intervallo una
stima con il metodo dei minimi quadrati ponderati.
La procedura di stima col metodo dei minimi quadrati ponderati rispetto
ad un certo punto x0 , indicata con s(x0 ), e calcolata rispetto ai k punti piú
vicini ad x0 , avviene attraverso le seguenti fasi:
1. Si individuano i k punti piú vicini ad x0 , e li si indica con N (x0 ).
2. Si calcola la distanza massima tra x0 ed il punto piú lontano ricompreso
in N (x0 ), e la si indica con ∆(x0 ) = maxN (x0 ) |x0 − xi |.
3. Si assegnano dei pesi ad ogni osservazione in N (x0 ) utilizzando la
seguente funzione:
W(
|x0 − xi |
)
∆(x0 )
in cui:
W (u) = (1 − u3 )3 se
0 ≤ u < 10 altrimenti
é una funzione tricubica che attribuisce dei pesi variabili a ciascuna xi .
104
4. Si calcola la stima di x0 , indicata con s(x0 ), applicando il metodo
dei minimi quadrati ponderati ai valori della variabile dipendente corrispondenti ai valori del predittore x compresi in N (x0 ), attribuendo a
ciascuna osservazione dei pesi Wi calcolati nella fase precedente.
Nella procedura di stima mediante lowess possono utilizzarsi sia intervalli
simmetrici che non simmetrici, ma anche ricorrendo ad intervalli non simmetrici la funzione tricubica permette di sottopesare le osservazioni situate
sulle code della distribuzione.
8.4.9 Stimatori Spline
La funzioni spline per la stima di una funzione di probabilitá incognita sono
costruite considerando la somma dei quadrati dei residui (RSS) come criterio
di approssimazione di un certo insieme di dati attraverso una funzione m.
La quantitá RSS é denita come:
n
X
{Yi − m(Xi )}2
i=1
É possibile denire una funzione m(Xi ) = Yi , i = 1, . . . , n al ne di
minimizzare la RSS attraverso un'interpolazione dei dati, senza investigare
sulla particolare struttura che tali dati possono assumere. Le funzioni spline
conseguono quest'obiettivo aggiungendo uno stabilizzatore che penalizza le
zone non smussate della funzione m. Un possibile stabilizzatore é:
”
km
k22 =
Z
{m” (x)}2 dx
Quindi é possibile riformulare il problema di minimizzazione nel seguente
modo:
m̂λ = arg min Sλ (m)
m
con:
Sλ (m) =
n
X
{Yi − m(Xi )}2 = λ k m” k22
(8.40)
(8.41)
i=1
Qualora si considera una classe di funzioni che ammettono derivata seconda in un intervallo [a, b] = [X(1) , X(n) ] (con X1 ed Xn indichiamo rispettivamente le statistiche del primo e dell' n-esimo ordine) allora l'unica funzione
105
che massimizza la (8.62) é lo stimatore spline cubico m̂λ (x), costituito dal
seguente polinomio di terzo grado:
pi (x) = αi + βi x + γi x2 + δi x3 ,
i = 1, . . . , n − 1
denito rispetto ai valori assunti dalle due statistiche d'ordine X(i) ed X(i+1) .
Il parametro λ controlla il peso attribuito dalla funzione stabilizzatrice quando si procede alla minimizzazione. Piú aumenta il valore di λ maggiore é il
peso attribuito ad k m” k22 e piú smussata risulta la stima. Al tendere di λ
a zero la funzione mλ corrisponde ad una semplice interpolazione dei dati
(rispetto alla variabile Y ). Se λ tende ad ∞ allora mλ é una funzione lineare
in x.
Anché lo stimatore ammetta la derivata seconda bisogna assicurarsi che
non esistono salti nella funzione pi e neanche nelle sue prime due derivate
calcolate rispetto alle statistiche d'ordine (si ricordi che il dominio del polinomio di grado i-esimo pi (x) é dato dall'intervallo tra le statistiche d'ordine
X(i) ed X(i+1) ). Formalmente abbiamo:
pi (X(i) ) = pi−1 (X(i) )
p0i (X(i) ) = p0i−1 (X(i) )
p”i (X(i) ) = p”i−1 (X(i) )
Inoltre deve essere soddisfatta un'ulteriore condizione limite:
p”1 (X(1) ) = p”n−1 (X(n) )
É possibile dimostrare che sotto certe condizioni lo stimatore spline é
asintoticamente equivalente ad uno stimatore kernel in cui la funzione K é
specicata come Spline kernel:
KS (u) =
1
|u|
|u|
π
exp(− √ ) sin( √ + )
2
2
2 4
con intervalli la cui ampiezza é data da h(Xi ) = λ1/4 n−1/4 f (Xi )−1/4 .
8.5 Regressione semiparametrica
All'inizio della presente trattazione sono stati introdotti i modelli di regressione non parametrica multivariata e si é evidenziato che uno dei principali
limiti relativamente al loro impiego é quello della dimensionalitá. Numerosi
sono stati gli sforzi degli studiosi per cercare di ridurre il problema della
106
dimensionalitá.
Diversi approcci sono stati proposti per generalizzare i modelli di regressione
parametrici al ne di impiegare funzioni arbitrarie non monotone. I modelli
semiparametrici consentono di valutare il legame tra la variabile di risposta
e ciascun predittore attraverso l'utilizzo di funzioni di smoothing arbitrarie.
In tali modelli una suddivisione dei predittori avviene proprio in base alla
loro natura. In particolare in presenza di variabili esplicative categoriche
(dicotomiche o politomiche) é importante eettuare una separazione tra i
diversi tipi di predittori. Nel seguito T = (T1 , . . . , Tq )T indica un vettore di
variabili esplicative numeriche, mentre X = (X1 , . . . , Xp )T indica un vettore
di variabili esplicative categoriche. Si possono distinguere i seguenti tipi di
modelli semiparametrici:
•
Modelli Additivi (Additive Models, AM)
Il modello additivo classico é una generalizzazione del modello classico
di regressione lineare. In questo caso si ipotizza che il valore atteso
condizionato di Y dato T é uguale alla somma di funzioni incognite
delle variabili esplicative piú un termine costante:
E(Y |T) = α +
q
X
fj (Tj )
(8.42)
j=1
Anche in questo caso si ottiene una riduzione della dimensionalitá del
problema. Invece di stimare ogni singola funzione per ogni singola variabile, come avviene nel caso della regressione non parametrica, bisogna
semplicemente stimare q funzioni di un'unica variabile.
•
Modelli Parzialmente Lineari (Partially Linear Models, PLM)
In tali modelli si considera un vettore di dimensioni (p + q) di variabili
esplicative (X = (X1 , . . . , XpT ) e T = (T1 , . . . , Tq )T ). Il modello di
regressione assume la seguente forma:
E(Y |X, T) = β T X + m(T)
(8.43)
in cui m(•) é una funzione incognita multivariata del vettore T. Quindi
un modello parzialmente lineare puó essere visto come la somma di una
parte completamente parametrica (β T X) ed una parte completamente
non parametrica m(T). La stima di β e di m(•) richiede l'utilizzo di
tecniche parametriche e non parametriche.
107
•
Modelli Additivi Generalizzati (Generalized Additive Models, GAM)
I modelli additivi generalizzati sono basati sulla somma di q funzioni
non parametriche relative a q variabili T (oltre al termine costante).
Inoltre essi si basano sull'impiego di una funzione legame parametrica
nota, indicata con G(•), che collega le diverse funzioni che legano la
variabile dipendente a ciascun predittore. Il modello é descritto dalla
seguente equazione:
E(Y |T) = G{α +
q
X
fj (Tj )}
(8.44)
j=1
•
Modelli Parzialmente Lineari Generalizzati (Generalized Partial Linear
Models, GPLM)
Tali modelli derivano da una generalizzazione della forma lineare XT β+
TT γ ad una forma parzialmente lineare XT β + m(T). Il modello che
ne risulta é il seguente:
E(Y |X, T) = G{XT β + m(T)}
in cui G é una funzione legame incognita. In questo caso le funzioni
m(•) sono funzioni multivariate non parametriche della variabile T.
•
Modelli Parzialmente Lineari e Parzialmente Additivi Generalizzati (Generalized Partial Linear Partial Additive Models, GPLPAM)
All'aumentare del numero dei predittori numerici, e quindi del numero
delle dimensioni, per la stima della funzione non parametrica m(•) in
un modello GPLM si incontra lo stesso ostacolo che si presenta nelle
stime di funzioni di regressione non parametriche multidimensionali, e
cioé il problema della dimensionalitá e le dicoltá di interpretazione
dei risultati a cui tale problema conduce.
Per tali motivi é ragionevole pensare ad una modellizzazione non parametrica in un numero minore di dimensioni della parte non parametrica
di un modello. Una possibile soluzione é fornita dai modelli GPLPAM,
che presentano una struttura additiva relativamente alla componente
non parametrica assimilabile ad un modello additivo generalizzato. Il
modello in esame é il seguente:
E(Y |X, T) = G{XT β + f1 (T1 ) + . . . + fd (Td )}
108
In questo caso le funzioni fj (•) sono funzioni non parametriche univariate delle variabili Tj .
8.6 Modelli Additivi Generalizzati
Nel paragrafo precedente sono stati introdotti i Modelli Additivi (MA) ed
i Modelli Additivi Generalizzati (GAM). Dalla (8.69) e dalla (8.90) risulta
che i modelli additivi rappresentano un caso speciale di modello additivo
generalizzato, e cioé possono essere considerati dei GAM in cui la funzione
legame é rappresentata dalla funzione identitá. Di conseguenza l'attenzione
sará focalizzata sui GAM e sará trattato il caso speciale di Modello Additivo.
Rispetto al modello classico di regressione lineare semplice nei modelli additivi generalizzati si mantiene l'ipotesi riguardante la distribuzione (normale)
degli errori. Il modello GAM é espresso dalla seguente equazione:
E(Y |X) = G[α +
d
X
fj (Xj )]
(8.45)
j=1
in cui G(•) é una funzione legame parametrica nota che collega le diverse
funzioni che legano la variabile dipendente a ciascun predittore.
8.6.1 Algoritmi di stima per i Modelli Additivi Generalizzati
Per comprendere come si stimano le funzioni incognite fj (•), j = 1, . . . , d
si consideri il caso di un Modello Additivo, ossia di un modello GAM in
cui la funzione legame é la funzione identitá. La stima delle funzioni fj (•),
j = 1, . . . , d in:
E(Y |x) = β0 +
d
X
fj (xj )
j=1
avviene attraverso l'algoritmo di backtting. Tale algoritmo é basato su una
procedura di stima iterativa dei residui parziali.
Si supponga di avere soltanto due variabili esplicative, X1 ed X2 . Il modello
é dato da:
Yi = β0 + f1 (xi1 ) + f2 (xi2 ) + i
Si supponga inoltre di disporre della stima iniziale della funzione f2 (x2 ),
indicata con fˆ2 (x2 ), e della stima iniziale dell'intercetta del modello, indicata
109
con β̂0 . Bisogna quindi stimare la funzione f1 (x1 ). Tale stima puó essere
ottenuta calcolando dapprima i residui parziali nel seguente modo:
(1)
ri
= Yi − β̂0 − fˆ2 (xi2 )
ed eettuando successivamente una regressione non parametrica di r rispetto
ad X1 . A tal proposito bisogna notare che i residui parziali r possono essere
considerati come la variabilitá residua di Y al netto dell'eetto della variabile
X2 . Quindi si stima f1 (x1 ) eettuando un'analisi di regressione in cui si
vuole stimare la variabilitá della Y non "spiegata" da X2 (e contenuta in
r) attraverso il predittore X1 . In tale contesto é possibile utilizzare anche
uno degli stimatori non parametrici introdotti nei paragra precedenti. Si
indichi la funzione stimata con fˆ1 (x1 ). Da tale funzione é possibile calcolare
nuovamente i residui parziali nel seguente modo:
(2)
ri
(1)
= ri
− fˆ2 (xi2 ) = Y1 − β̂0 − fˆ1 (xi1 ) − fˆ2 (xi2 )
ed eettuare un'analisi di regressione di r(2) rispetto ad X2 per ottenere una
nuova stima di f2 (x2 ). Questa procedura iterativa puó essere ripetuta no
a che le funzioni stimate fˆ1 (x1 ) ed fˆ2 (x2 ) non subiscono variazioni signicative in due successive iterazioni. L'algoritmo di backtting puó essere
generalizzato al caso di piú predittori. L'algoritmo é illustrato nello schema
seguente.
Algoritmo di Backtting per un Modello Additivo
Inizializzazione
fˆj = 0
per j = 1, . . . , d
β̂0 = Ȳ
Ripeti
per j = 1, . . . , d ripeti il seguente ciclo:
ri = Yi − β̂0 −
P
l6=j
fˆl (xil )
fˆj (xij ) = S(r|xij )
Fino a che
l'algoritmo non converge.
Da osservare che le stime iniziali delle funzioni f sono tutte pari a zero,
mentre la stima iniziale dell'intercetta é semplicemente la media campionaria
della variabile dipendente. Nello schema di cui sopra r = (r1 , . . . , rn ) indica
110
il vettore dei residui marginali ed S(r|xij ) indica una funzione di smoothing,
quale ad esempio uno stimatore kernel.
L'algoritmo di backtting illustrato era relativo al caso particolare di un
modello additivo generalizzato la cui funzione legame era la funzione identitá.
Nel caso di una funzione legame piú complessa la stima del modello avviene
in due fasi.
In tali casi nella procedura di stima bisogna tener conto che la variabile
Y non é direttamente legata alla somma delle funzioni fj (•), j = 1, . . . , d,
ma tale legame é indiretto e dipende proprio dal tipo di funzione legame
utilizzata.
Si consideri ad esempio il residuo parziale risultante dalla prima iterazione
dell'algoritmo di backtting:
(1)
ri
= Yi − β̂0 − fˆ2 (xi2 )
Tali residui parziali ignorano completamente l'eetto della funzione legame.
A tale proposito invece di utilizzare Yi nell'algoritmo di backtting, é opportuno ricorrere ad un'opportuna trasformazione dei valori della Y , data
proprio dall'inverso della funzione legame. Se si indica con z la variabile
dipendente trasformata e si applica su tale variabile l'algoritmo di backtting, considerando quindi i residui parziali rispetto a z si ottiene una stima
delle funzioni fj (•), j = 1, . . . , d che descrivono l'eetto dei predittori sulla
variabile trasformata z . Ma qual é l'eetto di tali predittori sulla variabile
originaria Y ? In questo caso la stima del modello avviene tramite l'algoritmo
di local scoring. La procedura di stima di un modello additivo generalizzato é
quindi basata su due algoritmi: l'algoritmo di backtting e l'algoritmo di local scoring. L'algorimo di backtting é utilizzato all'interno della procedura
di local scoring. L'algoritmo di local scoring e quello di backtting nel caso
di funzione legame diversa dalla funzione identitá sono descritti negli schemi
seguenti, nei quali r = (r1 , . . . , rn )T indica un vettore di residui (marginali)
e w un vettore di pesi. S(r|w, xji ) indica una funzione di smoothing.
La caratteristica principale dei modelli additivi generalizzati é che essi
permettono la stima di relazioni funzionali tra le diverse variabili. In realtá
le funzioni fˆj (xj ) riettono il fatto che l'inuenza di un predittore dipende
dal corrispondente valore assunto dalla variabile di risposta e non é necessariamente costante (come accade invece nei modelli Logit). Per tale motivo
i predittori categorici possono essere facilmente inclusi nel modello, e le loro
funzioni di stima saranno funzioni a gradini (step functions).
Il punto debole dei modelli GAM é che essi richiedono l'uso di procedure
111
Inizializzazione
Algoritmo di Local Scoring
ĝj = 0
per j = 1, . . . , d
(0)
β̂0 = G−1 (ȳ)
Ripeti
rispetto al contatore di iterazione esterno m
calcola il criterio di convergenza
∆ ⇐ variazioni
(m)
η̂i
(m)
= G(η̂i
(m)
zi = η̂i
relative di β̂0 , ĝj
)
(m) δG−1
(m)
) δµ (µ̂i )
+ (yi − µ̂i
(m)
wi = { δG
δη [η̂i
(m) −1
)
]}2 (Vi
ottieni β̂0(m+1) , ĝj(m+1)
applicando l'algoritmo di backtting alle zi
con predittori xi e pesi wi
Fino a che
l'algoritmo non converge.
112
Algoritmo di Backtting per un Modello Additivo Generalizzato
Inizializzazione
ĝj = 0
per j = 1, . . . , k
β̂0 = z̄
Ripeti
per j = 1, . . . , k ripeti il seguente ciclo:
ri = zi − β̂0 −
P
l6=j
ĝl (xil )
ĝj (xij ) = S(r|w, xij )
Fino a che
l'algoritmo non converge.
iterative. Il costo computazionale di tali procedure é spesso notevole quando
si opera con grosse basi di dati.
113
Capitolo 9
La segmentazione binaria
9.1 Le strutture ad albero
Obiettivo dei metodi di segmentazione è la costruzione di una struttura ad
albero per descrivere la dipendenza di una variabile dipendente da un insieme di variabili esplicative in problemi di classicazione e regressione. Per
albero si intende un modello graco costituito da un insieme nito di elementi, detti nodi, che si dipartono da un nodo iniziale, che è la cosiddetta radice
della struttura. Si tratta di un grafo aciclico diretto, in cui l'orientamento
dei segmenti che uniscono i nodi, i cosiddetti archi, indica la direzione dei
legami esistenti tra i nodi stessi. Si distinguono poi i nodi interni, usualmente rappresentati da cerchi, dai nodi terminali o foglie, rappresentati da
quadrati. Una branca o sottoalbero dell'albero è ottenuta potando l'albero
in uno dei nodi interni.
Le strutture ad albero costituiscono un utile strumento di rappresentazione
dell'informazione nel marketing, nel credit scoring, nella customer satisfaction etc. Il vantaggio nell'uso di questo tipo di strumento risiede proprio nel
fatto che esso esprime gracamente i concetti di progressività e di inclusione
che sono costitutivi di quello di gerarchizzazione e quindi consente di rappresentare legami gerarchici tra i dati.
In generale, i metodi di segmentazione seguono un approccio supervisionato
di tipo non parametrico per l'analisi di dati caratterizzati da alta dimensionalità, nel numero sia di variabili che di unità, e dalla non linearità nel legame
di dipendenza tra le variabili.
L'approccio supervisionato si dierenzia da un approccio non supervisionato, tipico dei metodi di cluster analysis, per la presenza di una variabile di
risposta che denisce una distribuzione a-priori di riferimento. Se la variabile
114
di risposta è qualitativa si perviene ad una classicazione ad albero, mentre
se è numerica ad una regressione ad albero.
L'idea di base della segmentazione è di partizionare ricorsivamente un insieme di unità statistiche in gruppi sempre più ni (di numerosità inferiore)
e sempre più omogenei internamente (rispetto alla distribuzione della variabile di risposta). Si determina in tal modo una partizione nale del gruppo
iniziale presente al nodo radice in sottogruppi disgiunti ed esaustivi rappresentati dai nodi terminali dell'albero, a questi ultimi sarà assegnata una
classe o un valore di risposta. Per denizione, i nodi terminali presenteranno un grado di omogeneità interna maggiore rispetto al gruppo di partenza,
omogeneità valutata in riferimento alla distribuzione della variabile di risposta. I predittori agiscono come generatori delle possibili partizioni in modo
da caratterizzare il passaggio delle unità da un nodo ai suoi discendenti. Se
in ciascuna partizione, il numero di sottogruppi è costante e pari a due si
eettua una segmentazione binaria pervenendo ad una struttura elementare
ad albero binario. In tal caso, ad ogni nodo si dovrà scegliere la divisione
migliore delle unità provando tutte le dicotomizzazioni di ciascun predittore.
Una volta ottenuta la struttura ad albero, sarà poi possibile individuare quali
interazioni tra i diversi split caratterizzeranno l'appartenenza ad un determinato nodo terminale piuttosto che ad un altro.
Ad esempio, in un problema di credit scoring, si supponga che una banca
abbia classicato le aziende in due classi, meritevoli del do bancario e
non meritevoli, e che abbia registrato un insieme di indicatori aziendali
utili a questo tipo di classicazione. La segmentazione può essere di ausilio
per soddisfare due diversi obiettivi: esplorativo, per comprendere quali indicatori abbiano maggiormente inciso sulla classicazione fatta e quali loro
interazioni siano più utili alla comprensione del fenomeno; decisionale, per
classicare una nuova azienda in sana o non sana sulla base degli indicatori
osservati, impiegando una regola di decisione costruita attraverso l'apprendimento fatto relativamente alle aziende già osservate. Nel primo caso, l'albero
esplorativo permetterà di identicare, ad ogni livello dell'albero, quali predittori siano intervenuti nella procedura di segmentazione. Nel secondo caso,
l'albero delle decisioni, che è stato costruito sulla base dell'informazione completa relativa ad un gruppo di aziende (campione di apprendimento), costituisce una regola per classicare una nuova azienda (di cui si conoscono le
misurazioni dei predittori ma non la risposta) facendola scivolare nell'albero
e, a secondo del gruppo terminale di appartenenza, si deciderà in merito alla
concessione del do.
In denitiva, è possibile condurre un'analisi esplorativa mediante la segmentazione per determinare sia una gerarchia di importanza tra le variabili sia
115
una partizione in gruppi ben discriminati dal potere esplicativo delle interazioni tra i predittori sulla variabile dipendente. Ogni procedura di segmentazione è caratterizzata da un criterio di partizione, da una regola di arresto
della procedura e, inne, da una regola di assegnazione di una classe, o di un
valore, alle unità di un nodo terminale. Quale approccio non parametrico,
non si hanno ipotesi distribuzionali di tipo probabilistico ed il modello che
ne deriva è una struttura ad albero, che, in quanto tale, non è esprimibile attraverso una semplice forma funzionale dipendente da parametri. Al ne poi
di impiegare una struttura ad albero per l'analisi confermativa o decisionale,
occorre denire una procedura induttiva per il passaggio dal campione osservato ad un ipotetico nuovo campione di cui si vuole prevedere la variabile
di risposta.
9.2 La costruzione dell'albero esplorativo
9.2.1 Criteri di partizione
Sia (Y, X) una variabile multivariata, di cui X è un vettore di M predittori (X1 , . . . , Xm , . . . , XM ) (misurati in scala nominale, ordinale, numerica)
e Y è la variabile di risposta le cui modalità sono denite dalle classi apriori C = {1, . . . , j, . . . , J} (se qualitativa) o da numeri reali (se numerica),
distinguendo la classicazione ad albero e la regressione ad albero rispettivamente.
Si consideri un campione di N unità C = {(yn , xn ); n = 1, . . . , N } proveniente dalle distribuzione di (Y, X). L'analisi esplorativa ha come obiettivo
la costruzione di un albero che individui quali interazioni tra le variabili sono
discriminanti per la spiegazione della variabile dipendente. La costruzione
dell'albero è determinata considerando una procedura di partizione ricorsiva
in K gruppi disgiunti tali che le unità sono internamente omogenee ed esternamente eterogenee rispetto alla variabile dipendente Y . L'eterogeneità in
ciascun nodo t è valutata mediante una misura di impurità denotata come
iY (t). Nei problemi di classicazione, l'impurità si traduce in una delle
seguenti misure:
1. tasso di errata classicazione
iY (t) = 1 − maxj p(j|t)
(9.1)
2. indice di eterogeneità del Gini
iY (t) = 1 −
X
j
116
p(j|t)2
(9.2)
3. indice di entropia
iY (t) = −
X
p(j|t)logp(j|t)
(9.3)
j
dove p(j|t) è il numero di unità del nodo t che appartengono alla classe j .
Nei problemi di regressione, l'impurità si traduce in una misura di varianza
o di devianza di Y , quest'ultima sarà riferita alle sole unità del nodo:
iY (t) =
X
(9.4)
(yn − ȳ(t))2
xn ∈t
dove ȳ(t) è la media dei valori di risposta nelle unità del nodo t, i.e., xn ∈ t.
Si denisce impurità totale dell'albero T la somma delle impurità nei nodi
terminali appartenenti all'insieme T̃ :
IY (T ) =
X
IY (t) =
t∈T̃
X
iY (t)p(t)
(9.5)
t∈T̃
dove IY (t) è l'impurità nel nodo t pesata dal numero di unità che dal nodo
radice cadono nel nodo t, p(t) = N (t)/N .
L'impurità totale di un albero è minima se si determina in ciascun nodo
dell'albero, tra le diverse partizioni p appartenenti all'insieme P , la migliore
partizione delle unità in K gruppi disgiunti tali che il decremento di impurità
della variabile di risposta Y , nel passaggio dal nodo padre t ai K nodi gli
tk , è massimo:
maxp∈P ∆iY (t, p) = maxp {iY (t) −
X
iY (tk )p(tk |t)}
(9.6)
k
dove p(tk |t) è la propozione di unità del nodo t che cadono nel k-esimo
discendente. Infatti, è possibile dimostrare che la (9.5) è equivalente alla
seguente espressione:
IY (T ) =
X
∆IY (h, p) =
h∈H
X
∆iY (h, p)p(t)
h∈H̃
dove H è l'insieme dei nodi non terminali o interni dell'albero T .
117
(9.7)
9.2.2 Algoritmo accelerato FAST
Come si determina l'insieme P dei candidati alla partizione delle unità di
ciascun nodo? Le partizioni sono determinate sulla base dei predittori: occorrerebbe denire il numero di modi possibili in cui partizionare in K gruppi
le modalità di ciascun predittore. Nella maggior parte delle applicazioni, si
costruiscono alberi binari (per K = 2) suddividendo in due soli gruppi le
unità di ciascun nodo. In tal caso, un predittore a G modalità distinte, se
misurato in scala numerica o ordinale genera G − 1 possibili suddivisioni
(dette anche split), mentre se misurato in scala nominale ne genera 2G−1 − 1.
In generale, l'insieme P include tutte le partizioni possibili generate da tutti
i predittori osservati al nodo t. La migliore partizione p∗ è determinata tra
le migliori partizioni di ciascun predittore, ciascuna delle quali è ottenuta
minimizzando il fattore locale di riduzione dell'impurità al nodo t:
ωY |p (t) =
X
iY (tk )p(tk |t)
(9.8)
k
per p ∈ Pm , dove Pm è l'insieme delle partizioni generate dal generico predittore Xm . Si noti che la (9.8) corrisponde al secondo termine dell'espressione
al secondo membro di (9.6). Questo criterio di partizione è in sostanza presente nella maggior parte delle procedure di segmentazione implementare nei
software specialistici (ad esempio, CART, ID3, CN4.5).
Tuttavia, è possibile ridurre il costo computazionale della segmentazione attraverso criteri alternativi di partizione. Il criterio a due stadi (noto come
two-stage) opera nel modo seguente: si determina, dapprima, un sottoinsieme di migliori predittori (anche solo uno) della Y , e si determina, successivamente, la migliore partizione a partire dai soli migliori predittori. In
proposito, si denisce fattore globale di riduzione dell'impurità di un generico
predittore Xm la seguente espressione:
ωY |Xm (t) =
X
iY |g (t)p(g|t)
(9.9)
g∈Gm
dove iY |g (t) è l'impurità della Y nella distribuzione condizionata di Y data
l'm-esima modalità del predittore Xm avente Gm modalità, con m ∈ M . Il
criterio a due stadi minimizza dapprima la (9.9), al ne di trovare uno o più
predittori che meglio riducono globalmente l'impurità, per poi minimizzare
la (9.8) considerando solo le partizioni generate dai migliori predittori.
Questo criterio può essere applicato sic et simpliciter, misurando la riduzione
globale e locale dell'impurità in diversi modi, considerando le misure di impurità sopra menzionate oppure strategie integrate che impiegano modelli
118
statistici. Invero, il criterio a due stadi non necessariamente determina la
migliore partizione secondo la (9.6). Al ne di pervenire alla soluzione ottimale, è utile richiamare il seguente risultato: Se una misura di impurità
soddisfa la condizione
ωY |Xm (t) ≤ ωY |p (t)
(9.10)
per ogni p ∈ Pm di Xm , allora la migliore partizione può essere determinata
dall'algorimo accelerato denominato FAST. Questo consiste nei seguenti due
passi fondamentali:
•
si applica iterativamente il criterio a due stadi basato su (9.9) e (9.8),
selezionando ad ogni passo un predittore alla volta ed eliminando quelli
selezionati nei passi precedenti;
•
si arrestano le iterazioni quando, per il migliore predittore corrente
X(v) alla iterazione v , si verica la condizione ωY |X(v) (t) ≤ ωY |p∗(v−1) ,
dove p∗(v−1) è la migliore partizione alla iterazione (v − 1).
In altre parole, l'algoritmo aggiorna la migliore partizione no a quando
il predittore selezionato presenta un fattore di riduzione globale inferiore al
fattore di riduzione locale della soluzione corrente: ciò signica che tale predittore genererà quale migliore partizione una soluzione certamente peggiore
(al più non migliore) di quella corrente (in virtù della condizione (9.10)); inoltre, la soluzione corrente sarà quella ottimale poichè la selezione dei predittori avviene in senso non decrescente rispetto al potere esplicativo o potere
di riduzione dell'impurità e quindi ogni altro futuro predittore sicuramente
genererà una riduzione globale inferiore e quindi una partizione non migliore
di quella corrente.
Questo algoritmo accelerato permette di trovare la soluzione ottimale che si
avrebbe massimizzando la (9.6) con un notevole risparmio del costo computazionale richiesto dalle procedure di segmentazione in ciascun nodo (valutabile anche in base al numero di partizioni da provare prima di determinare la soluzione ottimale). Si dimostra teoricamente e mediante studi
di simulazione che in media la riduzione relativa nel numero di split provati
dal FAST rispetto all'approccio standard cresce al crescere del numero di
modalità distinte del predittore ed al crescere del numero di unità presenti
nel nodo. Inoltre, questi risultati sono maggiormente evidenti in presenza
di predittori fortemente esplicativi della variabile dipendente, come spesso si
riscontra in applicazioni su dati reali.
119
9.2.3 Arresto della procedura
Uno dei vantaggi dei metodi di segmentazione consiste nella semplicità interpretativa del diagramma ad albero, purchè questo non sia di dimensioni
elevate. La taglia" di un albero binario, ad esempio, è misurata dal numero
di nodi terminali, o, equivalentemente, dal numero di suddivisioni, ovvero di
nodi interni, che è pari al numero di nodi terminali meno uno.
Si rende pertanto necessario denire dei criteri di arresto che fermino la
crescita dell'albero. In particolare, un nodo è dichiarato nodo terminale
se la riduzione dell'impurità conseguibile mediante la suddivisione del nodo
stesso risulta inferiore ad una soglia pressata; alternativamente, se la numerosità del nodo è inferiore di una soglia pressata.
Queste regole di arresto prescindono dal problema decisionale in quanto
un nodo è dichiarato terminale senza considerare ciò che sarebbe accaduto, in termini di ulteriore decremento di impurità, lungo la branca che dalla
segmentazione del nodo sarebbe stata generata. Si vedrà, nelle pagine che
seguono, che la scelta della taglia dovrà essere fatta considerando anche l'accuratezza dell'albero, che è data dalla errata classicazione o previsione. Pertanto, se si vuole costruire un albero delle decisioni, piuttosto che arrestare
la procedura, si opererà semplicando una struttura sovradimensionata.
9.2.4 Assegnazione della risposta ai nodi terminali
Con i metodi di segmentazione si perviene ad una struttura ad albero i cui
nodi terminali costituiscono una partizione del campione iniziale in gruppi
puri al loro interno. Nell'interpretazione dell'albero esplorativo, si seguiranno i diversi percorsi della struttura gerarchica individuando le diverse interazioni tra predittori che conducono le unità a cadere in un nodo terminale
piuttosto che in un altro. Ciascun nodo terminale sarà etichettato attribuendo la classe modale di risposta (in problemi di classicazione) o il valore
medio (in problemi di regressione). In tal modo, si deniranno ad esempio
i diversi percorsi che conducono alla stessa classe di risposta, oppure comprendere come varia la variabile di risposta in media al variare delle diverse
interazione tra predittori.
9.3 L'induzione e l'albero delle decisioni
9.3.1 Il passaggio dall'esplorazione alla decisione
Gli alberi esplorativi possono essere impiegati al ne di descrivere la struttura di dipendenza tra le variabili e come strumento di straticazione di un
120
collettivo. Non possono essere invece impiegati a scopi decisionali di classicazione o regressione per nuove unità. In tal caso, oltre alla taglia, occorre
considerare anche l'accuratezza dell'albero, valutata con il tasso di errata
classicazione o previsione. La procedura di segmentazione conduce ad un
albero accurato per il campione impiegato per la sua costruzione, nel senso
che il tasso di errore sarà tanto più basso quanto più cresce il numero di
nodi terminali. Ma un albero troppo espanso può facilmente condurre ad
alti errori di classicazione o di previsione per nuove unità. Si rende pertanto necessaria una procedura di induzione dell'albero, che ha l'obiettivo
di denire la parte strutturale dell'albero, semplicando un albero troppo
espanso, pur considerando l'accuratezza per nuove unità. In generale, si
opera una distinzione tra campione di apprendimento, che viene impiegato
per la costruzione dell'albero totalmente espanso (che presenta nodi non più
ulteriormente partizionabili), e campione test, che è costituito da unità che
non hanno partecipato alla costruzione dell'albero espanso. In pratica, la
procedura di induzione opererà una semplicazione dell'albero totalmente
espanso al ne di pervenire ad una struttura interpretabile (con un numero
contenuto di nodi terminali) ed identicabile (con possibilità di classicare
o prevedere nuove unità).
Si osservi che non c'è indipendenza tra induzione e segmentazione, nel senso
che la qualità della regola di decisione dipenderà anche dalle scelte fatte in
merito al criterio di partizione, oltre che dalla natura stessa dei dati (tipo di
variabili, eventuale categorizzazione delle variabili numeriche, etc.).
9.3.2 Criteri di validazione
Per la validazione della struttura ad albero si considera la sua accuratezza: il
tasso di errata classicazione ovvero il tasso di errata previsione. Sia nel caso
della classicazione che in quello della regressione, non potendo determinare
il vero valore del tasso di errore, occorre ricorrere ad una sua stima. A tal
ne vi sono tre possibili stime:
1. stima di risostituzione;
2. stima test set;
3. stima cross validation;
La stima di risostituzione.
Questa stima è ottenuta considerando esclusivamente le unità appartenenti
al campione di apprendimento. In generale, sia r(h) una misura dell'errore al
121
nodo terminale h nell'insieme HT e p(h) = N (h)/N la proporzione di unità
che cadono in tale nodo; il tasso di errore si esprime come:
R(T ) =
X
r(h)p(h),
(9.11)
h∈HT
Per la classicazione, l'errore al nodo h si esprime come:
r(h) =
N (h)
1 X
I(d(xn ∈ h) 6= jn )
N (h)
(9.12)
n=1
dove I(·) è una funzione indicatrice che assume valore 1 se la aermazione
in parentesi è vera e quindi la classe assegnata alla osservazione n-esima
(descritta dal vettore di predittori xi ) dalla regola d generata dall'albero
dierisce dalla vera classe, e valore 0 altrimenti. In tal modo, la (9.12)
esprime la proporzione di malclassicati al nodo terminale h, mentre, tenuto
conto del peso p(h), la (9.11) esprime in denitiva il rapporto tra il numero
di unità del campione di apprendimento malclassicate dall'albero T ed il
totale delle unità N .
Nella regressione, l'errore al nodo h si esprime semplicemente come varianza della variabile Y , per cui, tenuto conto della (9.11), si ha la somma
delle devianze divisa per il totale delle unità.
Si può inoltre esprimere il tasso di errore in termini relativi, rapportandolo all'errore iniziale del nodo radice t1 :
RR(T ) =
R(T )
.
R(t1 )
(9.13)
Il tasso di risostituzione, detto anche tasso apparente, essendo calcolato utilizzando i medesimi dati impiegati per costruire l'albero, fornisce una rappresentazione ottimistica della accuratezza ed è dunque assai poco utilizzato
negli alberi delle decisioni, preferendosi il ricorso a stime ottenute con procedure che riducono il cosiddetto bias ottimistico.
La stima test set.
Questo tipo di stima si fonda sulla suddivisione (casuale) del campione di
apprendimento C in due insiemi, C1 e C2 , con C1 ∪ C2 = C ed C1 ∩ C2 = ∅.
L'insieme C1 (generalmente pari al 70% dei casi) viene impiegato per costruire la struttura ad albero, mentre l'insieme C2 , detto test set, viene successivamente fatto scivolare nell'albero per valutare quanto accuratamente
questo sia in grado di classicare/predire il valore di risposta delle unità in
esso presenti. Formalmente, si costruirà la stima nel seguente modo:
122
Rts (T ) =
X
Rts (h),
(9.14)
h∈HT
dove la Rts (h) = rts (h)pts (h) è calcolata analogamente al caso precedente
ma considerando le unità del campione test.
Di norma si ricorre a tale metodo di stima quando C è di cardinalità
elevata per non impoverire troppo l'insieme di dati che sarà utilizzato nella
costruzione dell'albero.
La stima cross validation.
Quando il campione di apprendimento non è di cardinalità sucientemente
elevata da consentire la distrazione di una parte delle osservazioni, anchè
fungano da test set, si può ricorrere alla stima cross validation. Questa consiste nel suddividere l'insieme di apprendimento in un numero V
di sottoinsiemi di uguale numerosità C1 , . . . , Cv , . . . , CV . Si costruiscono
allora altrettante strutture ad albero Tv con le unità rispettivamente di
C − C1 , . . . , C − CV . Ciascuna di queste sarà poi validata con le unità di
volta in volta non impiegate, ottenendo in tal modo V stime test set Rts (Tv )
la cui media fornisce la stima cross validation:
V
1 X ts
R (Tv )
R (T ) =
V
cv
(9.15)
v=1
Si noti che per V = N si ottiene la cosiddetta stima leave-one-out. Questo
metodo è parsimonioso" con i dati, infatti ogni unità in C è impiegata per
costruire la struttura, ed ogni unità è usata esattamente una volta in un
campione test.
9.3.3 La semplicazione delle strutture ad albero
Il problema della semplicazione delle strutture ad albero trae origine dal
fatto che gli algoritmi di partizione ricorsiva seguono una strategia cosiddetta divide et impera. Ciò comporta strutture ad albero di taglia considerevole e dunque complesse, caratterizzate da molteplici regole di classicazione/predizione per una stessa modalità della variabile di risposta
e soprattutto regole risultanti dal concatenarsi di numerose condizioni, di
risposte alle domande che determinano la partizione dei nodi.
In generale, è auspicabile trovare un modello parsimonioso con il minor
numero possibile di parametri. La complessità infatti sebbene accresca il
potere esplicativo di un modello rispetto ai dati impiegati nella sua costruzione,
123
si traduce in una perdita di interpretabilità e in un minore potere predittivo
rispetto a nuovi dati. Nel caso delle procedure ad albero, la complessità è misurata appunto dalla taglia della struttura data dal numero di nodi terminali.
Quando l'obiettivo è decisionale, strutture troppo complesse comportano non
solo la perdita della semplicità interpretativa del risultato graco, ma anche
e soprattutto il fatto che parti consistenti della struttura risultano essere
sovradattate" ai dati (overtting); in altre parole, talune delle branche (segnatamente quelle terminali) riettono caratteristiche peculiari del campione
di apprendimento dovute alla procedura di raccolta dei dati, piuttosto che
riettere relazioni sottostanti realmente esistenti tra i predittori e la variabile
criterio. La semplicazione delle strutture ad albero si congura prevalentemente come rimedio al problema dell'overtting, conseguendo al contempo
anche l'obiettivo della riduzione della taglia che facilita l'interpretazione dei
risultati.
Quando si applica una metodologia ad albero a dati aetti da incertezza,
l'albero risultante tende ad essere molto grande ed inutilmente complesso nel
tentativo di sfruttare tutta la informazione disponibile nei dati per discriminare tra le unità, nendo, tuttavia, con lo spiegare l'insieme di apprendimento piuttosto che il fenomeno.
In particolare, occorre distinguere dati deterministici e dati aleatori o stocastici (uncertainty data). I primi sono caratterizzati dalla assenza di alea
nella determinazione della modalità di risposta ad essi associato, nel senso
che per ciascuna unità tale modalità è completamente determinata sulla base
dei valori assunti dai predittori e si parla infatti di adeguatezza" degli stessi. In molti problemi reali invece, i dati presentano un grado di incertezza
che rende il problema della classicazione/predizione più complesso. Diverse sono le fonti di incertezza. Usualmente, si fa riferimento ad errori di
misurazione, di trascrizione o di rilevazione in generale che costituiscono il
cosiddetto rumore (noise) ed è ciò che nelle indagini statistiche corrisponde
all'errore extra-campionario (che causa una divergenza delle stime ottenute
dal vero" valore, anche quando l'indagine e la conseguente analisi, avessero
natura esaustiva). Invero, un'altra importante fonte di incertezza è la cosiddetta variazione residuale (residual variation), che è dovuta alla omissione
di predittori signicativi e rilevanti per il fenomeno da spiegare, così che i
predittori considerati risultano inadeguati per l'analisi statistica.
In conclusione, i metodi di semplicazione si preggono l'obiettivo di inviduare le branche meno rilevanti o addirittura dannose ai ni della comprensione del fenomeno, in quanto sovradattate ai dati, e di rimuoverle. Pertanto
il processo di pruning di una struttura ad albero pur accrescendo l'errore
rispetto al campione di apprendimento, si traduce nella riduzione dello stes124
so quando l'albero viene validato" sul test set, le cui unità non sono state
utilizzate nella fase di creazione della struttura, e di conseguenza per la
risoluzione di nuovi problemi decisionali.
9.3.4 Pruning selettivo del CART
La metodologia CART è la prima a proporre il pruning degli alberi. Si tratta
di un metodo che genera una sequenza ottimale nidicata di sottoalberi
potati, tra i quali ne viene selezionato uno nale quale regola di decisione
per nuove unità. Questo metodo rimane a tutt'oggi quello maggiormente
impiegato nelle applicazioni perchè è senz'altro il piú completo, basandosi
esso sulla denizione di una misura che tiene conto sia dell'aspetto della
taglia che di quello della accuratezza.
Nel seguito, senza perdita in generalità, si farà riferimento al problema
della classicazione. Si osservi che da ora in avanti saranno considerati solo
sottoalberi dell'albero massimo, cioè che si dipartono dal nodo radice t1 .
Sia T una generica struttura ad albero, si denisce misura di costo complessità della struttura la seguente grandezza:
Rα (T ) = R(T ) + α|T̃ | =
X
r(h)p(h) + α|T̃ |
(9.16)
h∈HT
dove R(T ) è il tasso (di risostituzione) di errata classicazione associato
all'albero T , |T̃ | è il numero di nodi terminali dell'albero T ed α è un numero reale maggiore od uguale a zero, detto parametro di complessità. Tale
parametro rappresenta una sorta di penalizzazione per la complessità che
viene misurata dal numero di nodi terminali ciascuno dei quali apporta al
tasso di errore una penalizzazione appunto pari ad α.
Per ogni valore di α si indichi con T (α) il più piccolo sottoalbero dell'albero totalmente espanso Tmax che minimizza Rα (T ), ovvero:
R[T (α)] = min Rα (T ),
T ⊂Tmax
(9.17)
dove T ⊂ Tmax sta ad indicare che T è un sottoalbero di Tmax . Quando il
parametro di complessità α è piccolo ciò vuol dire che la penalizzazione per
avere un ampio numero di nodi terminali sarà piccola anch'essa e dunque
l'albero T (α) sarà grande. Tuttavia, al crescere di α tale penalizzazione
aumenta e T (α) presenterà un numero inferiore di nodi terminali, no a
giungere, per α sucientemente grande, al solo nodo radice.
Sebbene il parametro di complessità possa assumere un qualunque valore
reale maggiore od uguale a zero, essendo i sottoalberi dell'albero totalmente
125
espanso Tmax in numero nito, il processo di pruning produce a sua volta
una sequenza nita di sottoalberi con un numero decrescente di nodi terminali. In altre parole, se T (α) è il sottoalbero che minimizza la misura
di errore complessità, Rα (T ) per un dato valore di α, esso continua ad esserlo al crescere di α stesso no a quando non viene raggiunto un punto di
salto (jump-point), per un valore α0 maggiore di α ed un nuovo sottoalbero
T (α0 ), con un minor numero di nodi terminali, diventa quello che minimizza
la misura di costo-complessità.
La sequenza di sottoalberi potati viene generata partendo dall'albero massimo e procedendo di volta in volta tagliando la branca che si diparte dal nodo
che presenta il legame più debole (weakest link) con l'intera struttura. La
individuazione del legame piú debole avviene proprio impiegando la misura
di costo complessità individuando i successivi punti di salto che dall'albero
massimo portano no alla radice t1 .
In altre parole, la procedura di potatura avviene nel seguente modo. Sia
α1 = 0 e si considerino due generici nodi terminali dell'albero massimo, h
e h + 1, generati dalla suddivisione di un nodo interno t. Si dimostra che
vale la seguente relazione: R(t) ≥ R(h) + R(h + 1). Se risulta vericata
l'uguaglianza, allora i due nodi terminali vengono potati. Viene dunque effettuata una prima operazione di potatura rimuovendo tutti i nodi terminali
per cui si verica la medesima circostanza, ottenendo in tal modo un albero
T1 ⊆ Tmax .
Sia ora t un generico nodo interno di T1 e sia inoltre Tt la branca che ha
come radice t. La misura di costo-complessità al nodo t è data da:
Rα (t) = R(t) + α = r(t)p(t) + α,
(9.18)
e analogamente per la branca Tt :
Rα (Tt ) = R(Tt ) + α|T̃t | =
X
r(h)p(h) + α|T̃t |
(9.19)
h∈Ht
dove r(·) è il tasso di risostituzione di errata classicazione, p(·) il peso del
corrispondente nodo e Ht l'insieme dei nodi terminali della branca Tt . Il
valore critico di α si ottiene risolvendo la seguente disuguaglianza:
Rα (t) ≥ Rα (Tt ),
(9.20)
da cui si ha
αt ≤
R(t) − R(Tt )
,
|T̃t | − 1
126
(9.21)
La (9.21) indica l'aumento di costo per nodo terminale quando si pota la
branca che si diparte dal nodo t. Pertanto, si sceglierà di potare la branca che
comporterà il minor costo. In pratica, l'algoritmo in CART calcola per ogni
nodo interno dell'albero il valore di α che uguaglia la (9.20) e denisce legame
più debole il nodo t∗ che presenta il valore più piccolo di tale parametro,
che viene posto pari ad α2 . Il nodo t∗ costituisce il legame più debole nel
senso che all'aumentare di α è il primo nodo per cui Rα (t) diventa uguale a
Rα (Tt ) e quindi è il primo candidato ad essere potato. La procedura viene
ripetuta sull'albero T2 ottenuto rimuovendo la branca che discende dal nodo
t∗ . Operando in tal modo si ottiene una sequenza decrescente (in termini di
taglia) di sottoalberi Tmax ⊇ T1 ⊃ T2 ⊃ · · · ⊃ Tk ⊃ · · · ⊃ t1 , corrispondente
ad una sequenza crescente di valori di α, 0 = α1 < α2 < . . . . Occorre
sottolineare che tale sequenza è ottimale nel senso che è ottenuta ricercando
ad ogni passo di un algoritmo selettivo l'albero con il minore tasso di errore
per dato numero di nodi terminali.
9.3.5 Criteri di scelta dell'albero onesto
Una volta individuata la sequenza di sottoalberi si pone il problema di
scegliere la struttura nale da utilizzare come modello" di classicazione.
La regola di selezione proposta nel CART si incentra sulla scelta di quel sottoalbero dell'albero massimo che risulta essere piú accurato, a cui, in altre
parole, è associata la minore stima del vero" tasso di errata classicazione.
Per quanto già detto, se si utilizzasse come criterio di valutazione il tasso
di risostituzione verrebbe selezionato, ovviamente, il sottoalbero più grande
T1 . Si ricorre quindi alla stima test set o cross-validation. Tuttavia, in esperimenti sia su dati reali che simulati si è osservato che le stime del tasso
di errata classicazione R(Tk ) in funzione del numero di nodi terminali |T̃k |
presentano un andamento caratterizzato da un rapido decremento iniziale
cui segue un tratto quasi piatto e poi un lento, graduale incremento per
valori di molto elevati. Essendo la curva nel complesso alquanto piatta, la
scelta del particolare sottoalbero che presenta il più piccolo tasso di errata
classicazione può essere arbitraria, perchè il punto di minimo è instabile e
piccoli cambiamenti nel valore dei parametri o addirittura nel numero casuale generato per suddividere l'insieme di apprendimento in V sottoinsiemi
nel caso della procedura cross-validation o in due sottoinsiemi nel caso di
stima test sample, possono causare ampie uttuazioni nel valore di |T̃k | per
l'albero che minimizza il tasso di errore. Pertanto, nel CART è proposta
una scelta del sottoalbero il cui tasso di errata classicazione si trova in un
127
intorno del minimo, intorno che viene individuato in base all'errore standard
di tale minimo.
Si consideri il caso della stima test set e sia C1 l'insieme di apprendimento impiegato nella costruzione di un generico albero T e C2 l'insieme test
che si assume essere estratto dalla stessa distribuzione di C1 ma in maniera
indipendente. La stima test set, Rts (T ), del vero" tasso di errata classicazione dell'albero T altro non è che la proporzione di casi in C2 malclassicati da T . Siccome quando si fanno scivolare le osservazioni appartenenti
al test set nell'albero T , la stima della probabilità p∗ che una singola osservazione risulti malclassicata è data Rts (T ), è possibile descrivere le N ts
prove indipendenti (dove N ts è il numero di osservazioni in C2 ) con probabilità p∗ di successo, mediante una variabile casuale binomiale relativa F
tale che:
(9.22)
E(F ) = p∗ ,
p∗ (1 − p∗ )
.
N ts
di Rts (T ) è data
(9.23)
V ar(F ) =
Quindi la stima dell'errore standard
r
SE(Rts (T )) =
da:
Rts (T )(1 − Rts (T ))
.
N ts
(9.24)
Indicando con Tk∗ il sottoalbero appartenente alla sequenza generata tale
che:
Rts (Tk∗ ) = min Rts (Tk ),
k
(9.25)
si sceglierà il sottoalbero Tk∗∗ , dove k∗∗ è il più grande k (e quindi Tk∗∗ è il
piú piccolo albero) che soddisfa la relazione:
(9.26)
Tale criterio di scelta che prende il nome di 1 − SE rule dà luogo sovente
ad alberi di taglia n troppo piccola, è cioè viziato da over pruning (accade
addirittura che si ottenga l'albero triviale formato dalla sola radice o che si
pervenga ad alberi caratterizzati da una sola suddivisione); la scelta sic et
simpliciter del sottoalbero che presenta il minor tasso di errata classicazione,
può essere invece ritenuta frutto di una 0 − SE rule.
Ancora una volta è importante sottolineare come le metodologie ad albero orano molti spunti di intervento al giudizio scientico del ricercatore
che eettua l'analisi che si traduce in tale caso nella ispezione sella sequenza
Rts Tk∗∗ ≤ Rts (Tk∗ ) + SE(Rts (Tk∗ )).
128
di sottoalberi e nella eventuale scelta di un albero diverso da quelli corrispondenti alla 1 − SE e alla 0 − SE rule che meglio risponda alla natura
del problema e/o alle esigenze della analisi.
Inne, il metodo proposto nel CART può essere agevolmente adattato al
caso in cui gli errori di classicazione abbiano un costo diverso, dipendente
dalle loro conseguenze, e/o al caso in cui le classi presentino una diversa
probabilità a priori.
9.4 Vantaggi dei metodi di segmentazione
In contrasto con i metodi classici, le metodologie ad albero presentano dei
notevoli vantaggi che si possono riassumere nei seguenti punti:
•
sono tecniche non parametriche che non abbisognano della specicazione di un modello;
•
orono la possibilità di utilizzare predittori di diversa natura;
•
danno luogo ad una rappresentazione graca di facile interpretazione
che consente di visualizzare con immediatezza le relazioni esistenti tra
variabile criterio e predittori.
Si potrebbe dire che tali metodologie rispondono ad un problema classico
della statistica senza presentare molti degli inconvenienti dei metodi classici
impiegati al medesimo scopo.
129
Capitolo 10
Market Basket Analysis
10.1 Premessa
La Market basket Analysis é una metodologia orientata all'identicazione
delle relazioni esistenti tra un vasto numero di prodotti acquistati da dierenti consumatori in un particolare luogo, come ad esempio un punto vendita
della grande distribuzione. In questo ambito, i dati collezionati consistono
solitamente nell'insieme delle transazioni d'acquisto eettuate dai clienti in
un certo periodo. Le decisioni tipiche che il management di un supermarket
si trova ad arontare sono del tipo:
•
•
•
Quali prodotti porre in vendita?
Su quali prodotti focalizzare le oerte promozionali (punti, carte delity, etc.)?
Come ottimizzare il posizionamento dei prodotti negli scaali?
Queste scelte hanno tutte un unico obiettivo: massimizzare il protto. Oggi
grazie alla diusa informatizzazione dei punti vendita non é raro che i dati
inerenti le vendite passate di un supermarket siano collezionati in database
in formato elettronico che consentono una facile ed immediata estrapolazione
della conoscenza. Ne deriva quindi che l'analisi delle informazioni passate
rappresenta una via agevole per migliorare la qualitá di tali decisioni. Partendo dall'insieme delle transazioni, l'obiettivo principale dell'analista é quello di porre in evidenza la struttura di interdipendenza sottostante le vendite
dei diversi prodotti disponibili. La corretta identicazione ed estrapolazione
delle regole signicative tra tutte le possibili regole che possono essere generate da un dataset é condizionata alla disponibilitá di un considerevole
130
quantitá di informazioni che permettano di identicare i clienti e seguire
l'evoluzione dei loro acquisti nel corso del tempo.
10.2 I Dati
La base di dati a cui si fa generalmente riferimento in questo tipo di analisi
é una matrice in cui ogni riga rappresenta una transazione eettuata da un
cliente in un dato momento (detta basket). Tale transazione include l'insieme di prodotti che il cliente ha acquistato e che quindi sono presenti nel
suo basket. Nelle colonne della matrice sono indicati i prodotti (detti item)
attraverso l'us1o di variabili binarie che registrano l'assenza o la presenza di
un determinato item in una particolare transazione (0=assenza, 1=presenza). La matrice che segue ne é un esempio:
Transazioni Pane Burro Caé Zucchero
Transazione 1
Transazione 2
Transazione 3
Transazione 4
Transazione 5
Transazione 6
Transazione 7
Transazione 8
.............
1
1
0
0
1
0
0
1
...
0
1
0
0
1
1
0
0
...
0
1
1
0
0
0
1
1
...
1
0
1
1
1
0
0
0
...
Osservando la matrice nell'esempio possiamo aermare che la prima transazione
include pane e zucchero mentre la seconda include pane, burro e caé etc..
10.3 La Market Basket Analysis attraverso le Regole Associative
La ricerca di regole di associazione all'interno di un Database di transazioni é
stata introdotta per la prima volta nel 1993 da Agrawal, Imielinski e Swami.
Le regole associative possono considerarsi come particolari tecniche di data
mining proposte per la risoluzione di problemi di Market Basket Analysis .
L'obiettivo principale é quello di identicare set di attributi, denominati
items, che frequentemente ricorrono insieme e formulare regole che caratterizzano la relazione esistente tra items. Nel caso della Market Basket Analysis
gli items sono prodotti acquistati dai consumatori ed ogni transazione puó
131
riguardare piú items.
Supponiamo di trovarci in un supermercato dove ogni singola transazione effettuata da un acquirente viene registrata in un database. Ogni transazione
é caratterizzata da una serie di attributi acquistati da un consumatore in una
visita. Potremmo quindi avere un'insieme di attributi I = formaggio, pane,
latte, burro, marmellata ed una qualsiasi transazione potrebbe riguardare
l'acquisto di formaggio e pane oppure burro e marmellata o solo burro e cosí
via.
L'obiettivo é quello di identicare la combinazione di prodotti che frequentemente ricorrono insieme in modo da generare regole che possano rappresentare questa relazione. Una regola di associazione potrebbe quindi essere
la seguente:
pane ⇒ burro
dove pane é l'antecedente della regola e burro é il conseguente. Il problema
puó essere cosí formalizzato: considerato un insieme di m distinti attributi
chiamati items I = I1 , I2 , ....., Im ed un database di transazioni T dove ogni
transazione t é un insieme di attributi contenuto in I in modo tale che t ⊆ I
e vi é un unico identicatore associato ad ogni transazione.
Dato un attributo Ix ⊆ I , una transazione t contiene Ix se e solo se Ix ⊆ t.
Una regole di associazione é un'implicazione del tipo Ix ⇒ Iy , dove {Ix , Iy } ⊆
I e Ix ∩ Iy = ∅. Una regola Ix ⇒ Iy é confermata nel database che contiene
Ix contiene anche Iy 1 .
Mentre ha supporto s se l's% delle transazioni nel database contiene Ix e Iy .
In termini formali quindi data una regola Ix ⇒ Iy si denisce supporto della
regola:
Sup (Ix ⇒ Iy ) = P (Ix ∩ Iy )
(10.1)
Conf (Ix ⇒ Iy ) = P (Iy |Ix )
(10.2)
e condenza:
In maniera sintetica si potrebbe dire che mentre la condenza misura la forza
della regola, il supporto ne misura la signicativitá statistica.
Ritornando all'esempio precedente possiamo aermare che la regola:
pane ⇒ burro
1
Agrawal, R., Imielinski, T., Swami, A. (1993)
132
ha supporto del 56% ed una conndeza del 72%. Ci'øindica che il 56% delle
transazioni che avvengono riguarda l'acquisto di pane e burro e il 72% di che
acquista pane acquista anche burro.
Dato un set di transazioni T, noi siamo interessati a generare tutte le regole
che soddisfano due tipi di condizioni:
•
Vincoli Sintattici.
•
Vincoli sul Supporto.
Questi vincoli interessano restrizioni sugli items che compaiono nella
regola. Per esempio, potremmo essere interessati unicamente alle regole che comprendono uno specico item Ix tra quelli conseguenti o
per converso le regole che comprendono uno specico item Iy tra gli
antecedenti. La combinazione di queste condizioni é anche possibile.
Questi vincoli concernono la misura minima del supporto che una regola deve avere per essere considerata utile. Le motivazioni di un vincolo
sul supporto sono da ricercarsi sia nel signicato statistico dello stesso sia nel fatto che solitamente siamo interessati a regole che abbiano
un supporto tale da reputarsi meritevoli di attenzione nell'ottica del
business.
Il problema della ricerca delle regole (rule
due fasi:
mining) puó essere scomposto in
•
Il Primo passo, per la ricerca di regole di associazione di un database di
transazioni, consiste nel trovare tutti gli insiemi di attributi (itemsets)
che rispondono ai vincoli sintattici e di supporto. In particolare si indica con minsup la misura minima del supporto stabilita dall'analista in
base alle esigenze del problema e alle conoscenze a-priori. Gli itemsets
che hanno un supporto maggiore del minsup e che risultano ammissibili
rispetto ai vincoli sintattici prendono il nome di large itemsets.
•
Il successivo passo consiste nel creare le regole di associazione tra large
itemsets. L'idea generale é che per un dato itemset Iy = I1 , I2 , ..., Ik
con k ≥ 2 , vengono generate tutte le regole che usano items dall'insieme I. L'antecedente di ognuna di queste regole sará dato da un
sotto insieme Ix di Iy dove Ix é composto da k − 1 items mentre il
conseguente sará l'itemset Iy − Ix . Ne deriva che per generare una regola del tipo Ix ⇒ Ij |c dove Ix = I1 , ..., Ij −1 , Ij +1 , ..., Ik la regola sará
quella di dividere il supporto di Ix per il supporto di Iy :
sup(Iy )
≥c
sup(Ix )
133
(10.3)
se tale rapporto sará piú grande di c allora si dirá che la regola soddisfa
il fattore di condenza c. Tale fattore di condenza rappresenta la
condenza minima del processo di generazione delle regole e si indica
con minconf.
10.3.1 Algoritmi di identicazione deilarge itemsets
In questo paragrafo, sono considerati vari tipi di algoritmi che hanno come
scopo comune quello di identicare i large itemsets, cioé quegli items che si
presentano con un supporto maggiore o uguale a quello stabilito da colui che
eettua l'analisi. Questi large itemset sono successivamente utilizzati per la
formazione di regole di associazione.
La struttura generale degli algoritmi per la determinazione di large itemset
si basa su numerosi step da eettuare sul database. Il primo passo consiste
nel calcolare il supporto di ogni singolo attributo. Verranno considerati large
itemsets solo quelli che avranno il supporto maggiore del minsup. Nei successivi passi tutti i grandi itemsets saranno usati per generare i nuovi potenziali
grandi itemsets chiamati candidate itemsets.
Ad ogni candidato viene associato un contatore, il quale viene aggiornato
ogni volta che riesaminando il database si presenta il candidato. Nel passaggio successivo i nuovi grandi itemsets verranno riutilizzati, e questo processo
verrá ripetuto nché non vi saranno piú nuovi grandi itemsets da trovare nel
database esaminato.
L'algoritmo procede secondo i segueti passi:
1. si determinano i primi large itemsets cioé i singoli items che hanno
supporto maggiore della soglia pressata.
2. dai large itemsets cosí individuati si generano i candidate items che
diventano i nuovi large itemsets solo se il loro supporto sará superiore
al minsup.
3. l'algoritmo torna al passo 2. no a che non vi siano piú regole da
esplorare.
L'idea di questo algoritmo nasce dalla constatazione che se un itemset ha
un supporto inferiore al minsup allora l'eventuale regola generata da questo
avrá anch'essa supporto inferiore al minsup. Ad esempio se l'itemset {A,B}
ha supporto inferiore al minsup un itemset {A,B,C} dovrá necessariamente
essere ancora una regola non interessante. L'implementazione dell'algoritmo
consente un guadagno in termini computazionali enorme in quanto elimina
la necessitá di investigare tutte le possibili regole focalizzando l'attenzione
134
su un sottoinsieme di itemsets interessanti che man mano viene potato.
Esistono numerosi algoritmi proposti in letteratura e i quali dieriscono unicamente per la diversa implementazione dell'idea appena esposta. Tra gli
altri si ricordano l'algoritmo a-priori , l'algoritmo a-priori TID, l'algoritmo
AIS, la Subset Function2 e l'algoritmo SETM3 .
10.3.2 La formazione delle regole di associazione
Una volta generati, con l'aiuto degli algoritmi, tutti i possibili large itemset
presenti in un database di transazioni, questi verranno utilizzati per la formazione di regole di associazione4 .
Inoltre il supporto di ogni Iˆx di Ix é sempre maggiore o al massimo uguale
a Ix . Quindi, la condenza della regola Iˆx ⇒ (Iy − Iˆx ) non puó essere maggiore della condenza Ix ⇒ (Iy − Ix ) . Se Ix non produce una regola che
coinvolge tutte gli items in Iy con Ix come antecedente neppure Iˆx lo fará.
Quindi per una regola Ix ⇒ (Iy − Ix ) che é confermata nel database, tutte
le regole di forma Iˆx ⇒ (Iy − Iˆx ) devono essere confermate, sempre ché Iˆx
non é un sottoinsieme vuoto di Ix .
Per esempio se la regola {A, B} ⇒ {CD} é confermata, anche le regole
{A, B, C} ⇒ {D} ed {A, B, D} ⇒ {D} devono essere confermate. Questa
caratteristica é simile alla proprietá che se un itemset é large allora lo sono
anche tutti i suoi sottoinsiemi. Da un large itemset Iy , quindi, si generano
tutte le regole con un item in conseguenza. Vengono quindi usate le parti
conseguenti di queste regole per generare tutte le conseguenti possibili con
due items che possono apparire in una regola generata da T. In sintesi si
puó dire che la tipica procedura di rule mining consiste nel generare tutte le
possibili regole con supporto e condenza minima, per esempio:
X⇒Y ⇔
P (X ∩ Y ) ≥ minsup
P (Y |X ) ≥ minconf
(10.4)
Questo modo di procedere é potenzialmente esplosivo per il numero di regole
che possono essere generate anche attraverso gli algoritmi di ottimizzazione
prima menzionati. Negli ultimi anni sono stati quindi sviluppati alcuni algoritmi che hanno il compito di ltrare le regole interessanti attraverso un
processo di pruning (potatura). A tal ne alcune misure del grado di interesse delle regole sono state introdotte in letteratura da Srikant e Agrawal
(1995), e Bayardo e Agrawal (1999). Queste misure non sono altro che una
R.Agrawal, H.Mannila, R.Srikant, H.Toivonen e A.I.Verkamo, 1996
Houtsma e Swami, 1993
4
Agrawal, R., Imielinski, T., Swami, A. 1993
2
3
135
variazione dei test statistici che impiegano la distribuzione normale o quella
del χ2 .
10.4 I modelli graci per la Market Basket Analysis
Le regole di associazione, proposte da Agrawal ed altri per la prima volta nel
1993, sono divenute un buon metodo per la ricerca di associazioni attraverso
l'esplorazione di variabili.
Uno dei problemi di queste tecniche é l'enorme ammontare di regole che si
generano durante il processo di ricerca. Infatti, la tipica procedura di mining di associazioni tra variabili é quella di generare "tutte" le possibili regole
che abbiano un supporto ed una condenza maggiore rispetto a quella minima stabilita da chi eettua l'analisi. Nei tempi piú recenti l'attenzione dei
ricercatori si é quindi concentrata sulla implementazione di tecniche grache
in grado di visualizzare un notevole insieme di regole di associazione senza
perdere le informazioni necessarie per spiegare i risultati. Di particolare interesse in quest'ottica sono gli approcci proposti da Hofman-Wilhem e da
Passeroni-Giudici i quali propongono due metodi graci che utilizzando i
colori come informazione (il primo) e la tecnica dei gra non orientati (il
secondo) consentono di superare la barriera delle tre dimensioni tipica degli
approcci graci classici.
10.4.1 Comparazione visiva delle regole
Nell'articolo intitolato Visual comparison of Association Rules del 2000,
Heike Hofman e Adalbert Wilhem propongono una via graca per la comparazione e la scelta delle regole associative attraverso la formulazione di un
nuova tecnica graca e l'introduzione di una misura di ecienza delle regole di associazione denominata doc. L'idea é quella di poter usare tecniche
di visualizzazione per mostrare la qualitá delle regole di associazione e di
utilizzare queste tecniche come strumento di pruning (potatura) attraverso
l'analisi della condenza e del supporto utilizzate come misure di qualitá
delle regole di associazione.
Hofman e Wilhem illustrano la loro procedura utilizzando un esempio di
Market Basket Analysis. Il dataset analizzato proviene da "SAS Enterprise
Miner". Questo dataset contiene le rilevazioni riguardanti il comportamento di acquisto di 1001 consumatori rispetto a 20 items. Nella gura 13.1
si mostra un tipico graco per la visualizzazione di regole di associazione.
Questo esempio é stato tratto da SAS Enteprise Miner. Esso mostra 15 regole in una matrice, dove ogni riga corrisponde alla parte sinistra della regola
136
(antecedent) ed ogni colonna alla parte destra della regola (conseguent). Ogni regola, che soddisfa il minsup e la minconf é visualizzata nella gura come
un quadrato. Le dierenti tonalitá di colore dei quadrati sono assegnate a
secondo del grado di condenza della regola; nella gura la condenza varia
tra il 99.01% (giallo) al 100% (rosso). La misura del quadrato é invece assegnata in base al supporto della corrispondente regola, in modo che l'area
del quadrato é proporzionale al supporto della regola.
SAS Enterprise Miner: visualizzazione delle 15 regole
di associazione che presentano una condenza minima superiore al
99%.
Figura 10.1:
Questo tipo di visualizzazione risulta problematica quando ad esempio
due regole come:
{Tacchino, aringa, cereali al manzo}⇒ olive
{Prosciutto, cereali al manzo, mela}⇒ olive
hanno un supporto dell'11,19% e del 3,1% rispettivamente.
Vi sono dei problemi legati al passaggio dal dataset alla rappresentazione
graca. Questi problemi sono dovuti all'approssimazione che i valori dei
fattori devono subire per essere rappresentati gracamente. Ad esempio il
valore 3.1 della regola é approssimato a 4 poiché le aree si dierenziano con
137
un fattore di 16. Questa dierenza di eetto all'interno dei dati e all'interno della rappresentazione graca é stata menzionata spesso nella letteratura
delle tecniche di visualizzazione ed é stata denominata lie-factor da Tufte
nel 1983.
Un altro software di Data mining in commercio, "The Intelligent Miner" dell'IBM, mostra varie possibilitá di visualizzazione di regole di associazione.
La gure 13.2 e 13.3 mostrano due delle possibilitá di visualizzazione di regole formate da due items.
Il graco 13.2, simile all'approccio del SAS Enterprise Miner (vedi gura
13.1), mostra una matrice di regole ognuna con due items, in cui i colori
denotano dierenti livelli di condenza.
Il graco 13.3 ragura le stesse regole, e diversamente dal graco precedente
le regole sono costruite come barre a partire dalla matrice di tutte le combinazioni della struttura. L'altezza di ogni barra indica la condenza ed il
colore il supporto. Molti approcci hanno in comune la visualizzazione in 2
o 3 dimensioni anche la terza dimensione non é sempre necessaria; infatti
altre tecniche di visualizzazione pur utilizzando sole 2 dimensioni riescono a
visualizzare ugualmente un gran numero di regole.
Hofman e Wilhem dimostrano come le dimensioni a disposizione possano
essere usate in modo diverso e piú eciente.
10.4.2 Lo Scatterplot
La condenza ed il supporto possono essere visualizzati utilizzando uno scatterplot. Anche se appare piuttosto semplice come idea di analisi, non é mai
stata approfondita in precedenza.
In questi scatterplots tutti i punti si presentano sui raggi che partono dall'origine (vedi gura 13.4).
La ragione é molto semplice. Considerata Ix ⇒ Iy come regola di
associazione , dato:
conf (Ix ⇒ Iy )
P (Iy |Ix )
1
=
=
sup(Ix ⇒ Iy )
P (Ix ∩ Iy )
P (Ix )
(10.5)
ad esempio per ogni lato sinistro della regola X, c'é una linea retta, sulla
quale tutti i punti della regola Ix ⇒ Iy appaiono con condenza crescente
(partendo dall'origine). Il confronto diretto tra le regole che giacciono su
linee orizzontali é in questo modo possibile: se due regole hanno la stessa
condenza quella con supporto maggiore é migliore rispetto all'altra.
Lo stesso vale per due regole che hanno supporto uguale ma condenza diversa. Si possono accettare regole che cadono in un rettangolo connato
138
Rappresentazione graca di una matrice di regole ognuna
con due items, in cui i dierenti colori rappresentano diversi gradi di
condenza (The Intelligent Miner IBM software).
Figura 10.2:
tra la minconf e il minsup (vedi gura 13.5) oppure come indicato al centro
della gura, possono essere scelte diverse aree di accettazione dove un basso
supporto puó essere bilanciato da un alta condenza e viceversa.
Usando metodi di elezione interattiva e collegandoli si possono avere molte
piú scelte per i criteri di accettazione, ognuno dei quali puó essere piú sensibile nello sfondo dell'applicazione specica.
Nella realtá le regole con elevata misura della condenza e del supporto non
sono molto interessanti perché la loro conoscenza é gia implicita per il ricercatore e soprattutto per chi é interessato ai risultati dell'analisi. Questo é il
motivo per cui spesso é molto piú interessante focalizzare l'analisi su livelli
di supporto e condenza medi che potenzialmente riguardano regole ad alto
valore aggiunto per il management della grande distribuzione (parte destra
della gura 13.5).
139
Rappresentazione graca a barre di una matrice di regole (
The Intelligent Miner IBM software).
Figura 10.3:
10.4.3 Il Doubledecker Plot
Hofman, Siebes e Wilhelm (2000) hanno proposto graci a mosaico (mosaic
plot) per visualizzare tutte le possibili combinazioni di variabili esplorative
coinvolte in una regola.
Attraverso il disegno di diagrammi nei quali all'itemset Iy , parte susseguente
della regola, é assegnata una maggiore intensitá di colore all'interno di ogni
barra, il graco a mosaico consente la rappresentazione simultanea di un elevato numero di regole formate di volta in volta da dierenti associazioni.
Il supporto di una regola di associazione é rappresentato dall'area evidenziata nella barra corrispondente, la sua condenza invece puó essere dedotta
dalla proporzione dell'area evidenziata sull'area totale della stessa. Usando
una dierente disposizione per le barre, i graci a mosaico possono essere
convertiti in un graco a due piani con il quale fare possibili classicazioni e
nei quali la condenza di una regola é data dall'altezza dell'area evidenziata
in una barra .
Nelle gure 6 e 6 sono dati due esempi di doubledecker plot, che corrispondono rispettivamente ad una regola di associazione forte e debole.
É da notare che entrambi le regole hanno approssimativamente la stessa
condenza e supporto, come puó vericarsi dalla seguente tabella:
140
Figura 10.4:
Scatterplot.
Supporto e condenza sono rappresentati utilizzando uno
Regola
{Heineken, Coca-cola, Pollo} ⇒ {Sardine}
{Soda, Cracker, Olive} ⇒ {Heineken}
Condenza Supporto
98.31
96.83
11.59
12.18
la gura 13.6 mostra la regola {Heineken, Coca-cola, Pollo} ⇒ {Sardine},
che é considerata una regola forte (quella a destra del graco) perché, come si
puó notare dall'osservazione della barra corrispondente, viene rappresentata
con una piena evidenziazione del colore.
Tutte le barre rappresentate nella gura 13.7 descrivono parte degli acquirenti di heineken. Come si puó osservare ognuno dei contenitori mostra un ampia
area di colore evidenziato.
Confrontando le aree di colore evidenziato dei contenitori con quella del
contenitore che rappresenta la regola {Soda, Cracker, Olive} ⇒ {Heineken}
(destra della gura), si puó notare che l'ampiezza delle aree evidenziate nelle
barre sono simili tra loro, quindi la regola non é in grado di poter apportare
nessuna particolare informazione per la descrizione della sottopopolazione di
acquirenti di heineken.
Questo indica che {Soda, Cracker, Olive} ⇒ {Heineken} é una regola debole.
141
Sono rappresentati due diversi criteri di accettazione: a
sinistra, la condenza minima ed il supporto minimo sono usati come
limiti inferiori dell'aria di accettazione mentre possibili alternative di
accettazione sono rappresentate a destra della gura.
Figura 10.5:
Il doubledecker plot mostra una forte associazione tra
{heineken, coca-cola, pollo} ⇒ {sardine}.
Figura 10.6:
10.4.4 Una misura del grado di interesse delle regole: Differenze of Condence (DOC)
Le regole di associazione tendono a preferire item con elevate frequenze.
Questo implica che per un item Iy , che eccede la minima condenza, una
regola di associazione potrebbe essere generata nché le intersezioni Ix ∩ Iy
superano il minimo supporto.
Cosí una regola Ix ⇒ Iy , se basata solo sul fatto che P (Iy ) é grande, non
puó ritenersi attendibile poiché Ix e Iy potrebbero essere prossimi ad una
situazione di indipendenza statistica. Comparando la condenza di una regola di associazione con quella di una regola che coinvolge gli stessi items ma
dove l'antecedente é stato generato casualmente é possibile misurare di quanto l'item Ix (antecedente) contribuisce alla predizione di Iy (conseguente).
Da questa idea trae ragione la misura Dierence of Condenze (DOC). La
142
Il doubledecker plot mostra una regola associazione debole tra
{cracker, soda, olive} ⇒ {heineken}.
Figura 10.7:
dierenza di condenza
denita:
doc per le regole
Ix ⇒ Iy
e Ix ⇒ ¬Iy sará cosí
doc(Ix ⇒ Iy ) = [conf (Ix ⇒ Iy ) − conf (¬Ix ⇒ Iy )]
(10.6)
La doc puó anche essere denita nel seguente modo:
doc(Ix ⇒ Iy ) =
P (Ix ∩ Iy ) − P (Ix ) · P (Iy )
P (Ix ) · P (¬Ix )
(10.7)
Inoltre, si dimostra che il prodotto doc(Ix ⇒ Iy ) · (¬Ix ⇒ Iy ) si approssima ad una distribuzione χ2 . La misura doc puó essere visualizzata attraverso
l'impiego di un doubledecker plot.
Il supporto di Ix ⇒ Iy é direttamente proporzionale alla parte di colore
accentuata all'interno del rettangolo, come si puó notare dal doubledecker
143
plot, mentre la sua altezza indica la condenza di Ix ⇒ Iy .
Nello stesso modo supporto e condenza della regola ¬Ix ⇒ Iy sono rappresentate nella parte sinistra del doubledecker plot. La dierenza tra le due
condenze rappresenta il doc.
La signicativitá della misura doc puó essere valutata attraverso un test
statistico. Infatti poiché il doc(Ix ⇒ Iy ) = P (Iy |Px ) − P (Iy |¬Ix ), puó essere
utilizzato un test di d'ipotesi per vericare se la dierenza tra le due probabilitá é signicativa.
Si considerino e p̂1 = conf (Ix ⇒ Iy ) e p̂2 = conf (¬Ix ⇒ Iy ), come le frequenze rispettivamente di Ix e ¬Ix . In un test per la verica del doc puó
essere formulato attraverso le seguenti ipotesi:
H0 : doc = 0
H1 : doc > 0
La statistica test impiegata é:
p̂1 − p̂2
T1 = p
·
p̂(1 − p̂)
r
n1 · n2
n1 + n2
(10.8)
che si approssima ad una distribuzione normale se n1 e n2 sono sucientemente grandi. La statistica cosí costruita coincide con quella proposta da
Piatetsky-Shapiro (1991). Strikant e Agrawal (1995) hanno dimostrato che
solo approssimativamente l'1% di tutte le regole trovate sono rigettate da
questa statistica test.
Questo risultato é fortemente dipendente sia dalla specica applicazione, che
dalla scelta della condenza e del supporto minimo. Piú alti sono i valori
della minima condenza e del minimo supporto, minore risulta la probabilitá
che una regola sia rigettata nell'ottica di questo test. Per ottenere quindi un
valore alto del doc si deve accrescere il valore della condenza e del supporto,
ma cosí facendo non si ottengono i risultati desiderati, in quanto le regole
che presentano un supporto e una condenza alte sono regole giá conosciute
dall'analista.
10.4.5 La matrice graca delle regole
L'idea di base per un altro approccio graco é la visualizzazione di una
singola regola di associazione non piú utilizzando come forma geometrica
un quadrato ma un rettangolo. Ció permette cosí di poter usufruire di una
dimensione supplementare.
Il supporto e la condenza di una generica regola Ix ⇒ Iy possono essere
visualizzati attraverso dei rettangoli cosí come indicato nella gura 13.8.
144
Figura 10.8:
rettangolo
Visualizzazione di supporto e condenza attraverso il
In tale rappresentazione:
•
L'area del rettangolo é pari al supporto sup(Ix ⇒ Iy ). Infatti:
sup(Ix ⇒ Iy ) = P (Ix ∩ Iy ) = P (Ix ) · P (Iy |Ix )
•
(10.9)
L'altezza del rettangolo corrisponde al sup(Ix ), quindi la sua dimensione é pari a:
P (Ix ∩ Iy )
= P (Iy |Ix )
(10.10)
P (Ix )
cioé alla condenza della regola Ix ⇒ Iy .
Hofman e Wilhem tracciano una matrice di tutte le possibili regole
formate da due items per volta e in cui la forza e la signicativitá della
regola appare immediatamente identicabile grazie alla forma dei rettangoli. Questa matrice graca consente inoltre di avere un'immediata
visione e quindi un intrinseco confronto simultaneo di un numero elevatissimo di regole (vedi gura 13.9).
Quello che si cerca analizzando il graco sono dei rettangoli relativamente grandi, corrispondenti ad un ampio supporto (l'area), che allo
stesso tempo abbiano una base di misura elevata cioé con consistente
condenza.
Analizzando la matrice, i rettangoli che appaiono lungo la diagonale corrispondono al supporto di tutte i singoli items, in quanto rappresentano la
combinazione di ogni item con se stesso. Quindi gli elementi della diagonale
possono essere utilizzati solo per misurare la frequenza e non per misurare
una regole di associazione. Sfruttando uno o piú colori per evidenziare i rettangoli si possono ottenere matrici che considerano regole con un numero di
items maggiore di due (vedi gura 13.10).
145
Matrice di tutte le possibili regole di associazione (con 2
items) provenienti dal dataset accos (SAS software).
Figura 10.9:
Matrice di tutte le regole di associazione visualizzate attraverso l'uso del colore evidenziato. Questo ultimo rappresenta la
combinazione di {coca-cola, gelato}.
Figura 10.10:
La gura mostra una matrice di tutte le possibili regole di associazione
formate dalla combinazione di due items, come nella gura 13.9; ad essa
vengono peró aggiunte attraverso l'utilizzo di un area evidenziata in rosso
tutte le transazioni che un includono un particolare itemset (nell'esempio
{coca-cola, gelato}).
10.5 L'approccio dei Gra
Giudici e Passerone (2000) propongono un approccio alternativo per la generazione e la visualizzazione delle regole attraverso l'impiego di una metodologia che si fonda sulla teoria dei gra. Viene inoltre proposta una misura
dell'importanza di una regola, l'odds ratio, alternativa alle misure di supporto e alla condenza introdotte da Agrawal e altri (1993).
Secondo questo approccio l'analisi prende corpo principalmente attraverso le
seguenti fasi:
146
a) La costruzione degli odds ratios;
b) La rappresentazione graca delle regole;
c) La potatura delle regole.
10.5.1 Gli odds ratio
Partendo da una matrice di dati del tipo transazioni (le righe) per items (le
colonne) tipica di un problema di Market Basket Analysis si costruiscono
tutte le possibili tabelle di contingenza tra gli items:
Siano IA e IB due items, si denisce odds il rapporto:
Ωi =
π1|i
π2|i
(10.11)
con i=1,2 e dove π1|i e π2|i sono le frequenze condizionate di riga. Nella
costruzione degli odds possono impiegarsi anche le frequenze condizionate
di colonna in quanto il diverso punto di vista da cui si parte non cambia il
risultato dell'analisi. L'odds puó assumere qualunque valore non negativo
inoltre é immediato osservare che un Ωi > 1 stará ad indicare una maggiore
propensione dei consumatori alla acquisto del prodotto IB (data la risposta
i del prodotto IA ) mentre per converso un Ωi < 1 indicherá una maggiore
propensione verso il non acquisto di IB . Inne un Ωi = 1 indicherá un
indierenza nella scelta di IB (sempre data la risposta i del prodotto IA ). Si
denisce odds ratio il rapporto tra gli odds:
Ω1
Ω2
(10.12)
π1|1 · π2|2
π1|1 /π2|1
=
π1|2 /π2|2
π1|2 · π2|1
(10.13)
Θ=
da cui deriva che:
Θ=
L'odds ratio assume valori non negativi e la sua distanza dall'unitá misura
la forza del legame esistente tra gli items IA e IB . L'ultima formula chiarisce
147
come in pratica il considerare le frequenze condizionate di riga o di colonna
sia indierente in quanto il calcolo di Θ si riduce alla determinazione del rapporto tra i prodotti delle frequente delle risposte concordi (entrambe assenza
o presenza del prodotto) e i prodotti delle risposte discordi.
10.5.2 Costruzione del Modello Graco
La teoria dei modelli graci puó essere considerata una variante delle tecniche di modellizzazione statistica tradizionali che impiega oggetti, chiamati
"Gra", per rappresentare il modello. Questo approccio trae origine dagli
studi sulla "Path Analysis" (Wright, 1921) e dai successivi sviluppi dovuti a
Darroch, Lauritzen e Speed (1980) e Lauritzen e Wermuth (1989). Il concetto di indipendenza e in particolare quello di indipendenza condizionata é
alla base della teoria dei modelli graci. Un grafo, G = (V, E) é un oggetto costituito da un insieme nito V di vertici (chiamati anche nodi), e un
insieme nito E di archi che collegano questi vertici. I gra possono essere
rappresentati attraverso diagrammi come nella gura 13.11.
Esempio di un grafo che presenta quattro items qui indicati
con le lettere maiuscole (W , X , Y e Z ) e gli archi che ne rappresentano
le relazioni.
Figura 10.11:
I cerchi indicano gli items mentre le linee che collegano questi ultimi rappresentano gli archi cioé il legame tra gli items.
148
I Gga possono essere: non orientati, orientati e a catena. Giudici e Passerone
fanno riferimento in questo approccio ai gra non orientati in cui la relazione
tra due nodi, misurata dall'odds ratio tra i due items ed espressa da un arco,
non ha una direzione.
10.5.3 I Gra Descrittivi
Una volta computati gli odds ratios per tutte le possibili tabelle di contingenza tra gli items si procede alla costruzione del grafo attraverso la rappresentazione delle relazioni signicative (vedi gura 13.12).
La signicativitá di una relazione, cioé della misura dell'odds ratio, é valutata attraverso la costruzione di un intervallo di condenza dell'odds stesso.
La relazione é considerata signicativa se tale intervallo non contiene 1 (cioé
la condizione di indipendenza Ω1 = Ω2 ⇒ Θ = 1). Il passo successivo é
quello di semplicare la struttura associativa attraverso una potatura delle
relazioni tra gli items. In particolare si puó disegnare un grafo riportando
unicamente le relazioni "importanti" ritenendo tali quelle che hanno un odds
ratio superiore ad una certa soglia k. La gura 13.13 é un esempio di potatura in cui sono riportate unicamente le relazioni signicative e con un odds
ratio superiore a 5.
Grafo delle relazione signicative tra 26 prodotti alimentari
(dati AC Nielsen, 1997).
Figura 10.12:
149
Grafo delle relazione signicative tra 26 prodotti alimentari
con odds ratio maggiore di 5 (dati AC Nielsen, 1997).
Figura 10.13:
10.5.4 I Modelli Graci Inferenziali
Da un'analisi dei gra descrittivi é possibile individuare delle categorie di
prodotti (gruppi di transazioni) e su ognuna di esse costruire un modello Loglineare. Inoltre adottando una procedura forward di selezione delle variabili,
l'analisi si sviluppa partendo dal modello di indipendenza e complicandolo
via via no al modello saturato in cui sono presenti tutti gli archi. La
scelta del modello da adottare avviene attraverso il test sul rapporto delle
verosimiglianze.
10.5.5 Alcune considerazioni
Nell'approccio di Giudici e Passerone é interessante il modo con cui le informazioni esterne sono introdotte nella loro analisi. In particolare al ne
di considerare gli eetti delle promozioni (poste in essere dalla grande distribuzione) sulla vendita dei prodotti e quindi sulle scelte dei consumatori,
gli autori decidono di impiegare delle variabili binarie (assenza o presenza
di promozione) in modo da evidenziare (attraverso gli odds ratio e i gra) i
legami tra tali pseudo-prodotti e i prodotti osservati nel dataset. Si eviden150
ziano in questo modo le promozioni che hanno un reale eetto sulle vendite,
e i prodotti che ne sono inuenzati (sia essa un'inuenza positiva, aumento
del volume di vendita, sia essa negativa, non aumento del volume di vendita).
L'impiego nel futuro dei gra orientati per rappresentare le relazioni tra items
appare essere la logica conseguenza del percorso intrapreso dagli autori. Si
auspica quindi uno spostamento dell'attenzione della ricerca dalle regole di
associazione verso le regole di sequenza in cui il legame tra gli items é di
tipo predittivo e quindi presentano un'utilitá maggiore per i manager della
grande distribuzione che sono i fruitori ultimi dei risultati di una Market
Basket Analysis.
151