SEMINARIO GRUPPO TEMATICO METODI e TECNICHE La valutazione degli incentivi industriali: aspetti metodologici Università di Brescia, 17 gennaio 2012 Modelli per variabili dipendenti qualitative Paola Zuccolotto Università di Brescia Centro di Studi e Ricerca Dati Metodi Sistemi Scopo e agenda Scopo: Dare uno sguardo alle problematiche principali riguardanti la previsione statistica per variabili dipendenti qualitative Agenda: Questioni statistiche fondamentali Approcci e metodi di analisi Valutazione della bontà del modello Contestualizzazione nella valutazione Alcuni problemi specifici Questioni statistiche fondamentali: la previsione Previsione statistica: zїǀĂƌŝĂďŝůĞĚĂƉƌĞǀĞĚĞƌĞ X1, X2͕͙͕yp їpredittori E(Y) = I(X1, X2͕͙͕Xp) qualitativa їclassificazione Y quantitativa їregressione Questioni statistiche fondamentali: variabili dipendenti qualitative Variabili qualitative dicotomiche (0-­‐1) E(Y) = S їsi modella la probabilità di osservare il valore 1 S = I(X1, X2͕͙͕Xp) N.B. ϬчSчϭ La funzione I è il modello statistico Approcci e metodi di analisi A seconda della forma scelta per la funzione I abbiamo diversi modelli statistici. In generale possiamo distinguere due approcci fondamentali alla definizione di I͗ů͛ĂƉƉƌŽĐĐŝŽ tradizionale e quello algoritmico. Approcci e metodi di analisi Approccio tradizionale Consiste nello scegliere per I una forma funzionale definita a priori, in genere abbastanza semplice. Esempi: regressione logistica, probit͕͙ Approcci e metodi di analisi Esempio con due predittori X1e X2 Esempio con tre predittori X1, X2 e X3 X3 X2 X1 X1 X2 Approcci e metodi di analisi WZK͙ Facile interpretabilità del modello Facile stima dei parametri ͙KEdZK Rigidità della funzione I Approcci e metodi di analisi Approccio algoritmico Consiste ŶĞůů͛ƵƚŝůŝnjnjĂƌĞ meccanismi algoritmici per approssimare I. Esempi: reti neurali artificiali, alberi di classificazione, ensemble learning, SVM, algoritmi genetici, ͙ Approcci e metodi di analisi Esempio con due predittori X1e X2 Esempio con tre predittori X1, X2 e X3 X3 X2 X1 X1 X2 Approcci e metodi di analisi WZK͙ Elevata flessibilità della funzione I ͙KEdZK Pesantezza computazionale Difficoltà di stima dei parametri Difficoltà di interpretazione del modello (black box) Valutazione della bontà del modello (goodness of fit) Si definisce una soglia s, quindi per ogni soggetto i-­‐esimo SiчƐ їprevisione 0 per il soggetto i-­‐esimo Si> s їƉƌĞǀŝƐŝŽŶĞ1 per il soggetto i-­‐esimo previsione effettivi 1 0 1 / 0 / - Valutazione della bontà del modello (goodness of fit) previsione effettivi 1 0 1 n11 n01 0 n10 n00 Misclassification error rate ݊ ݊ଵଵ ͳെ ݊ Valutazione della bontà del modello (goodness of fit) previsione effettivi 1 0 1 n11 n01 Sensitivity ݊ଵଵ ݊ଵଵ ݊ଵ True positive rate 0 n10 n00 Misclassification error rate ݊ ݊ଵଵ ͳെ ݊ Valutazione della bontà del modello (goodness of fit) previsione effettivi 1 0 1 n11 n01 0 n10 n00 Sensitivity ݊ଵଵ ݊ଵଵ ݊ଵ Specificity ݊ ݊ଵ ݊ True positive rate True negative rate Misclassification error rate ݊ ݊ଵଵ ͳെ ݊ Valutazione della bontà del modello (goodness of fit) Sensitività e specificità variano al variare della soglia s s = 0 s = 1 effettivi 1 0 1 n11 n10 0 0 0 Sensitivity భభ భభ ାబభ = 1 previsione previsione effettivi Specificity బబ భబ ାబబ = 0 1 0 1 0 0 0 n01 n00 Sensitivity భభ భభ ାబభ = 0 Specificity బబ భబ ାబబ = 1 Valutazione della bontà del modello (goodness of fit) Sensitivity -­‐ Specificity Sensitività e specificità variano al variare della soglia s s Valutazione della bontà del modello (goodness of fit) Il valore ottimale di s si può scegliere osservando la ROC curve Valori bassi di s Valori elevati di s Valutazione della bontà del modello (goodness of fit) Il valore ottimale di s si può scegliere osservando la ROC curve Soglia lasca Soglia moderata Soglia stretta Valutazione della bontà del modello (goodness of fit) La ROC curve può essere utilizzata anche per effettuare una valutazione sintetica globale di goodness of fit. In questo modo risulta possibile valutare la bontà di un predittore e confrontare predittori diversi tra loro. Valutazione della bontà del modello (goodness of fit) Il predittore migliore (attribuzione esatta delle categorie) Il predittore peggiore (attribuzione casuale delle categorie) Valutazione della bontà del modello (goodness of fit) Valutazione della bontà del modello (goodness of fit) Si può anche calcolare un indicatore sintetico Area Under the Curve AUC Variabili dipendenti qualitative: contestualizzazione nella valutazione hƚŝůŝnjnjŝŶĞůĐĂŵƉŽĚĞůůĂǀĂůƵƚĂnjŝŽŶĞĚĞůů͛ŝŵƉĂƚƚŽĚŝ politiche economiche Propensity Score Matching: calcola la probabilità di ƉĂƌƚĞĐŝƉĂnjŝŽŶĞĂůů͛ŝŶĐĞŶƚŝǀŽĞĐŽŶĨƌŽŶƚĂƉĂƌƚĞĐŝƉĂŶƚŝĞŶŽŶ partecipanti aventi probabilità simili. Identificazione delle Variabili Strumentali: calcola la ƉƌŽďĂďŝůŝƚăĚŝƉĂƌƚĞĐŝƉĂnjŝŽŶĞĂůů͛ŝŶĐĞŶƚŝǀŽƵƚŝůŝnjnjĂŶĚŽ predittori associati con il meccanismo di (auto)selezione ma ŶŽŶĐŽŶŝůƌŝƐƵůƚĂƚŽƐƵůƋƵĂůĞǀŝĞŶĞŵŝƐƵƌĂƚŽů͛ŝŵƉĂƚƚŽ͘ Treatment Effect Model: modella la probabilità di partecipare Ăůů͛ŝŶĐĞŶƚŝǀŽ͘ ͙ Alcuni problemi specifici Variable selection: Approccio tradizionale: step-­‐wise, penalized regression. Approccio algoritmico: Variable Importance measures, metodi di rule extraction Sbilanciamento tra 0 e 1: Metodi di ricampionamento Spostamento soglia su ROC curve Introduzione funzioni di costo