Diapositiva 1 - Associazione di Valutazione Italiana

SEMINARIO GRUPPO TEMATICO METODI e TECNICHE
La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto
Università di Brescia
Centro di Studi e Ricerca Dati Metodi Sistemi
Scopo e agenda
Scopo: Dare uno sguardo alle problematiche principali riguardanti la previsione statistica per variabili dipendenti qualitative Agenda: ‡
‡
‡
‡
‡
Questioni statistiche fondamentali Approcci e metodi di analisi Valutazione della bontà del modello Contestualizzazione nella valutazione Alcuni problemi specifici Questioni statistiche fondamentali:
la previsione
Previsione statistica: zїǀĂƌŝĂďŝůĞĚĂƉƌĞǀĞĚĞƌĞ X1, X2͕͙͕yp їpredittori E(Y) = I(X1, X2͕͙͕Xp) qualitativa їclassificazione Y quantitativa їregressione Questioni statistiche fondamentali:
variabili dipendenti qualitative
Variabili qualitative dicotomiche (0-­‐1) E(Y) = S
їsi modella la probabilità di osservare il valore 1 S = I(X1, X2͕͙͕Xp) N.B. ϬчSчϭ La funzione I è il modello statistico Approcci e metodi di analisi
A seconda della forma scelta per la funzione I abbiamo diversi modelli statistici. In generale possiamo distinguere due approcci fondamentali alla definizione di I͗ů͛ĂƉƉƌŽĐĐŝŽ
tradizionale e quello algoritmico. Approcci e metodi di analisi
Approccio tradizionale Consiste nello scegliere per I una forma funzionale definita a priori, in genere abbastanza semplice. Esempi: regressione logistica, probit͕͙ Approcci e metodi di analisi
Esempio con due predittori X1e X2 Esempio con tre predittori X1, X2 e X3 X3 X2 X1 X1 X2 Approcci e metodi di analisi
WZK͙ ‡ Facile interpretabilità del modello ‡ Facile stima dei parametri ͙KEdZK ‡ Rigidità della funzione I
Approcci e metodi di analisi
Approccio algoritmico Consiste ŶĞůů͛ƵƚŝůŝnjnjĂƌĞ meccanismi algoritmici per approssimare I. Esempi: reti neurali artificiali, alberi di classificazione, ensemble learning, SVM, algoritmi genetici, ͙ Approcci e metodi di analisi
Esempio con due predittori X1e X2 Esempio con tre predittori X1, X2 e X3 X3 X2 X1 X1 X2 Approcci e metodi di analisi
WZK͙ ‡ Elevata flessibilità della funzione I
͙KEdZK ‡ Pesantezza computazionale ‡ Difficoltà di stima dei parametri ‡ Difficoltà di interpretazione del modello (black box) Valutazione della bontà del modello
(goodness of fit)
Si definisce una soglia s, quindi per ogni soggetto i-­‐esimo SiчƐ їprevisione 0 per il soggetto i-­‐esimo Si> s їƉƌĞǀŝƐŝŽŶĞ1 per il soggetto i-­‐esimo previsione
effettivi
1
0
1
/
0
/
-
Valutazione della bontà del modello
(goodness of fit)
previsione
effettivi
1
0
1
n11
n01
0
n10
n00
Misclassification error rate ݊଴଴ ൅ ݊ଵଵ
ͳെ
݊
Valutazione della bontà del modello
(goodness of fit)
previsione
effettivi
1
0
1
n11
n01
Sensitivity ݊ଵଵ
݊ଵଵ ൅ ݊଴ଵ
True positive rate 0
n10
n00
Misclassification error rate ݊଴଴ ൅ ݊ଵଵ
ͳെ
݊
Valutazione della bontà del modello
(goodness of fit)
previsione
effettivi
1
0
1
n11
n01
0
n10
n00
Sensitivity ݊ଵଵ
݊ଵଵ ൅ ݊଴ଵ
Specificity ݊଴଴
݊ଵ଴ ൅ ݊଴଴
True positive rate True negative rate Misclassification error rate ݊଴଴ ൅ ݊ଵଵ
ͳെ
݊
Valutazione della bontà del modello
(goodness of fit)
Sensitività e specificità variano al variare della soglia s s = 0 s = 1 effettivi
1
0
1
n11
n10
0
0
0
Sensitivity ௡భభ
௡భభ ା௡బభ
= 1 previsione
previsione
effettivi
Specificity ௡బబ
௡భబ ା௡బబ
= 0 1
0
1
0
0
0
n01
n00
Sensitivity ௡భభ
௡భభ ା௡బభ
= 0 Specificity ௡బబ
௡భబ ା௡బబ
= 1 Valutazione della bontà del modello
(goodness of fit)
Sensitivity -­‐ Specificity Sensitività e specificità variano al variare della soglia s s Valutazione della bontà del modello
(goodness of fit)
Il valore ottimale di s si può scegliere osservando la ROC curve Valori bassi di s Valori elevati di s Valutazione della bontà del modello
(goodness of fit)
Il valore ottimale di s si può scegliere osservando la ROC curve Soglia lasca Soglia moderata Soglia stretta Valutazione della bontà del modello
(goodness of fit)
La ROC curve può essere utilizzata anche per effettuare una valutazione sintetica globale di goodness of fit. In questo modo risulta possibile valutare la bontà di un predittore e confrontare predittori diversi tra loro. Valutazione della bontà del modello
(goodness of fit)
Il predittore migliore (attribuzione esatta delle categorie) Il predittore peggiore (attribuzione casuale delle categorie) Valutazione della bontà del modello
(goodness of fit)
Valutazione della bontà del modello
(goodness of fit)
Si può anche calcolare un indicatore sintetico Area Under the Curve AUC Variabili dipendenti qualitative:
contestualizzazione nella valutazione
hƚŝůŝnjnjŝŶĞůĐĂŵƉŽĚĞůůĂǀĂůƵƚĂnjŝŽŶĞĚĞůů͛ŝŵƉĂƚƚŽĚŝ
politiche economiche ‡
‡
‡
‡
Propensity Score Matching: calcola la probabilità di ƉĂƌƚĞĐŝƉĂnjŝŽŶĞĂůů͛ŝŶĐĞŶƚŝǀŽĞĐŽŶĨƌŽŶƚĂƉĂƌƚĞĐŝƉĂŶƚŝĞŶŽŶ
partecipanti aventi probabilità simili. Identificazione delle Variabili Strumentali: calcola la ƉƌŽďĂďŝůŝƚăĚŝƉĂƌƚĞĐŝƉĂnjŝŽŶĞĂůů͛ŝŶĐĞŶƚŝǀŽƵƚŝůŝnjnjĂŶĚŽ
predittori associati con il meccanismo di (auto)selezione ma ŶŽŶĐŽŶŝůƌŝƐƵůƚĂƚŽƐƵůƋƵĂůĞǀŝĞŶĞŵŝƐƵƌĂƚŽů͛ŝŵƉĂƚƚŽ͘ Treatment Effect Model: modella la probabilità di partecipare Ăůů͛ŝŶĐĞŶƚŝǀŽ͘ ͙ Alcuni problemi specifici
‡ Variable selection: Approccio tradizionale: step-­‐wise, penalized regression. Approccio algoritmico: Variable Importance measures, metodi di rule extraction ‡ Sbilanciamento tra 0 e 1: Metodi di ricampionamento Spostamento soglia su ROC curve Introduzione funzioni di costo