Valutazione delle ipotesi Valutazione empirica delle ipotesi • Dato un valore di accuratezza di classificazione misurato su un campione, quanto questo valore è accurato nella stima di ulteriori campioni? • Se una ipotesi h risulta prevalere su un’ipotesi h’ su un campione di test, possiamo dire che h “è meglio” di h’ in generale? • Quando il campione di dati annotati (D) è limitato, quale è il metodo migliore per utilizzarlo sia in fase di apprendimento che di test? Definizioni di errore •Sia T un insieme di tuple <x,c(x)> in generale, TD •Errore sul campione (sample error) eT (h) 1 (c(x),h(x)) n xT n è il numero di tuple in T e la funzione è 1 se c(x)=h(x), 0 altrimenti eD Prc(x) h(x) •Errore reale xD dove D è la distribuzione di probabilità delle istanze • Quindi, eT è una stima, e siamo interessati a scoprire quanto questa stima si discosti dalla “realtà”, rappresentata da eD Intervalli di confidenza • Ci interessa valutare i margini di discrepanza fra errore reale ed errore stimato. • Vogliamo stimare la probabilità che LB eD (h( x)) eT (h(x)) UB dove UB e LB sono dei valori di discrepanza massimo e minimo (upper bound e lower bound) • UB e LB definiscono un intervallo di confidenza • Def: un intervallo di confidenza del N% per un parametro p è un intervallo [LB,UB]che include p con probabilità N% (ovvero: con probabilità N% si ha che LBpUB) Altre definizioni (reminder) • Distribuzione di probabilità per una variabile aleatoria Y specifica la probabilità Pr(Y=yi)yi 1 P(yi Y yi ) • Densità di probabilità p(yi ) pyi lim 0 (nel continuo) • Valore atteso o media, a volte indicato anche con Y 1 E(Y ) yi Pr(Y yi ) freq(yi ) yi Ni i • Varianza Var(Y ) E Y E(Y ) 2 1 freq(yi )(yi E(Y ))2 N caratterizza la dispersione della distribuzione attorno alla media • Deviazione standard Y Var(Y) Esempio =1,5 y 0 1 2 3 (y-)2 2,25 0,25 0,25 2,25 P(y) 0,375 0,375 0,125 0,125 2 2,25 0,125 0,25 0,375 0,25 0,375 2,25 0,125 0,75 P(y) 1 0 1 2 3 y Distribuzione binomiale P(r) r • Data una variabile aleatoria che può assumere valore 0 o 1, una binomiale fornisce la probabilità di osservare r “0” (e (n-r) “1”) in un campione di n osservazioni, quando la probabilità di ottenere “0” su un singolo lancio è p. n! P(r ) p r (1 p ) n r r!(n r )! E ( X ) np Var ( X ) r 2 np(1 p ) Stima dell’errore • La stima dell’errore eD(h) sulla base di un insieme casuale di osservazioni indipendenti equivale alla stima del parametro p della binomiale. Il numero r rappresenta il numero di errori osservabili in n classificazioni di istanze x nel test set T. • eT (h) 1 ( f (x),h(x)) r eD(h) =p n xT n • eT(h) è detto uno stimatore di p • Il pregiudizio, o bias, della stima è definito dalla E[eT(h)]-p • Una stima si dirà unbiased se il valore medio di molte stime di eT(h) (la variabile aleatoria) converge verso p r segue una r r (1 ) binomiale r 1 eT (h)(1 eT (h)) n n eT (h) np(1 p) n n n n Torniamo al problema degli intervalli di confidenza • un intervallo di confidenza del N% per un parametro p è un intervallo [LB,UB]che include p con probabilità N% • È complicato stimare questi intervalli per una distribuzione binomiale • Viceversa, e molto più facile farlo per una distribuzione Normale o Gaussiana Distribuzione Normale (Gaussiana) p(x) 1 2 2 1 ( x )2 e 2 b Pr(a X b) p(x)dx a E X Var(X) 2 X Intervalli di confidenza in una distribuzione normale o Gaussiana • Se una variabile aleatoria X obbedisce ad una distribuzione Normale con media e deviazione standard , allora una misura x della variabile X cadrà nell’intervallo zN N% delle volte • Equivalentemente, avrò per la stima di il seguente intervallo: x zN Teorema del Limite Centrale • La distribuzione Normale o Gaussiana è interessante perché consente di calcolare in modo semplice degli intervalli di confidenza (integrale) • Il Teorema del Limite Centrale stabilisce che la somma di un numero sufficientemente grande di variabili aleatorie indipendentemente distribuite segue una distribuzione che n 1 è approssimativamente normale Y Y n i1 i • La distribuzione che governa Y tende alla distribuzione Normale per n • In pratica, questo è approssimativamente vero per n>30 Graficamente Combiniamo i risultati • Se eT(h) obbedisce approssimativamente ad una Normale con media e varianza (il che è vero per un campione n>30) allora il valore misurato per eT(h) , r/n, cadrà nel seguente intervallo con probabilità N%: z N • zN definisce la (metà della) larghezza del più piccolo intervallo attorno alla media, che include l’N% della massa totale di probabilità (area zN tratteggiata) Determiniamo l’intervallo • N% dell’area giace in zN • 80% dell’area giace in 1,28 • Per una Normale con media 0 e deviazione standard 1: N% 50 68 80 90 95 98 99 zN 0,67 1.00 1.28 1.64 1.96 2.33 2.58 • Ricordando che: • Otteniamo: eT (h)(1 eT (h)) n eD (h) eT (h) z N eT (h)(1 eT (h)) n Migliorare la stima dell’errore mediante stime multiple K-fold cross validation • Suddividere i dati di apprendimento D in k sotto-insiemi di uguale taglia D1,D2,..Dk • Per i=1..K do: – Li (D-Di), Ti Di (usa Di come test set e tutto il resto come learning set) 1 eD e D – Calcola l’errore medio: k i ei t D N,k1 eD – Intervallo di confidenza N%: 2 k 1 eD eDi eD k(k 1) i1 – k-1 (indicato spesso con n) indica il numero di gradi di libertà (numero degli eventi indipendenti che concorrono nella produzione del valore della variabile aleatoria ). K-FOLD CROSS VALIDATION Verificare ipotesi alternative • Date due ipotesi h1 e h2, la differenza è: d eD (h1) eD (h2), dˆ e T (h1) e T (h2) 1 2 e T (h1)(1 e T (h1)) e T (h2)(1 e T (h2)) 2 1 2 ˆ 1 2 d n1 n2 perché la varianza di questa distribuzione è pari alla somma delle varianze delle due distribuzioni • L’intervallo di confidenza all’N% sarà: dˆ z N eT (h1)(1 eT (h1)) eT (h2)(1 eT (h2)) 1 1 2 2 n1 n2 Verificare algoritmi alternativi • Ad esempio, due architetture G e G’ di rete neurale, o due algoritmi di alberi di decisione, basati su diverse politiche • Siano LA e LB due apprendisti: – Suddividere i dati di apprendimento D in k sotto-insiemi di uguale taglia D1,D2,..Dk – Per i=1..K do: – Li (D-Di), Ti Di (usa Di come test set e tutto il resto come learning set) – hA=LA(Li), hB=LB(Li) – i=eTi(hA)- eTi(hB) 1 k • Intervallo di confidenza N%: i k i1 t N,k 1 k 1 i k(k 1) i 1 2