Ciclo di seminari in STATISTICA e APPLICAZIONI per le Scuole di Dottorato in Ingegneria Civile, Ingegneria Industriale, Ingegneria dell’Informazione Coordinatori: Prof.ri Pasquale Erto e Roberta Siciliano Novembre 2013– Gennaio 2014 Metodi di Stima e Test Statistici Antonio D’Ambrosio, Ph.D. Assistant Professor, Dept. Of Industrial Engineering, Naples University Federico II STAD Research Group http://www.stad.unina.it Outline • Statistiche campionarie e distribuzioni campionarie – Statistica, stimatore, statistica-test – Proprietà degli stimatori • Metodi di stima – – – – – Metodo dei Momenti Metodo dei Minimi Quadrati Metodo della Massima Verosimiglianza Stima puntuale per intervalli Inferenza computazionale (moderna) • Bootstrap • Jacknife • Cross-validation • Ensemble Methods • Test delle ipotesi statistiche – Logica e caratteristiche fondamentali dei test – Test Parametrici e non parametrici Sono già noti i concetti di… • Statistica descrittiva; • Probabilità; • Variabili casuali. Premessa Un’industria che produce pompe idrauliche utilizza guarnizioni in materiale plastico che vengono usate nel raccordo degli elementi meccanici. Le guarnizioni vengono fornite da un’industria chimica con un contratto di forniture periodiche di 5000 guarnizioni alla volta. L’industria acquirente ha l’esigenza di valutare la qualità dei pezzi forniti per ogni fornitura. Il tempo (e il costo) di collaudo delle guarnizioni rende inverosimile procedere all’esame di tutti i pezzi forniti, visto che le guarnizioni devono essere fatte funzionare sotto pressione elevata e per un certo periodo di tempo. Si procede, così, all’esame di un numero limitato di guarnizioni, ad esempio 50, e dall’esame di soli questi pezzi si vuol valutare la frazione di pezzi difettosi dell’intera partita ed eventualmente respingere la fornitura. Premessa (Cont’d…) Si può considerare la partita di 5000 guarnizioni come la popolazione oggetto di indagine in cui ogni pezzo rappresenta un «soggetto» (o unità statistica) del quale siamo interessati alla sua conformità o meno alle specifiche tecniche. Le 50 guarnizioni che vengono effettivamente controllate sono il campione, attraverso l’analisi del quale si vuole valutare la frazione di elementi conformi nell’intera popolazione. Ovviamente le rilevazioni sugli elementi del campione sono di interesse nella misura in cui esse forniscono informazione sulle caratteristiche della popolazione. Per poter estendere le caratteristiche del campione alla popolazione, è necessario che questo debba riprodurre, per quanto possibile, le caratteristiche della popolazione, cioè deve essere rappresentativo della stessa. Premessa (Cont’d…) Affinché un campione sia rappresentativo bisogna scegliere gli elementi che lo compongono in modo tale che l’inclusione sia indipendente dalle caratteristiche che si vogliono esaminare. Un modo che assicura l’indipendenza richiesta è quello di scegliere gli elementi del campione in modo casuale, quindi per definizione in modo indipendente dalla caratteristica oggetto di studio. Si può pensare di istituire un esperimento casuale ausiliario per selezionare i soggetti da includere nel campione, idealizzandolo (ad esempio) nella estrazione di tante palline da un’urna che contiene tanti elementi quanti sono gli elementi della popolazione. L’estrazione può avvenire con ripetizione o senza ripetizione. La probabilità di estrazione potrebbe non essere uguale per tutti se, ad esempio, si assegnano probabilità di estrazione diverse a palline diverse, oppure se si predispongono più urne… Premessa (Cont’d…) L’esempio dell’industria può essere comparato ad una situazione in cui in un’urna ci sono 5000 palline (la popolazione di guarnizioni) di cui una proporzione incognita è rappresentata da palline nere (i pezzi difettosi). Supponiamo che l’estrazione delle 50 palline dia luogo al risultato che 4 di esse siano nere. La proporzione 4/50 è un criterio ragionevole per dare un valore a , ma ad esempio, se si fossero estratte 100 palline di cui 8 difettose, la proporzione sarebbe rimasta immutata. Le domande a cui cerchiamo di dare una risposta sono: • Cosa sarebbe cambiato se avessimo scelto di estrarre 100 palline? • Ci sono altri metodi di scegliere ragionevolmente ? • Quanto è accurata la valutazione del risultato? • Che informazione abbiamo su altri plausibili valori di ? Premessa (Cont’d…) L’esperimento in questione ci consente di individuare la v.c. che ha generato il fenomeno nella popolazione 50 =4 = 1− 4 Nel grafico si è lasciata variare l’incognita nel range dei possibili valori che nella realtà può assumere. Il massimo valore che la figura assume si trova in corrispondenza di = 4/50. Se avessimo optato per un valore alternativo di pari a 6/50, quale tra le alternative sarebbe stata più verosimile? Premessa (Cont’d…) Nel grafico si è assunto di avere estratto un campione di numerosità 100. Si è poi diviso il risultato di ogni valore di ottenuto per il suo massimo, al fine di rendere sovrapponibili le due figure. Il massimo valore che la figura assume si trova in corrispondenza di = 4/50. Quale delle due situazioni fornisce maggiore informazione? Premessa (Cont’d…) Si può individuare un intervallo di valori sufficientemente plausibili per che tenga conto del fatto che vi è comunque un grado di imprecisione intrinseco nel risultato dell’estrazione campionaria? Campione Casuale Indichiamo con X la popolazione, la quale è caratterizzata dalla v.c. X. La conoscenza della popolazione X coincide strettamente con la funzione di ripartizione ; della v.c. X. Dalla popolazione X viene estratto un sottoinsieme di n unità statistiche. La procedura di selezione (assimilabile ad una prova nel senso del calcolo delle probabilità) genera una n-pla di v.c. ( , , … , )la cui determinazione numerica specifica una n-pla di numeri reali ( , , … , ) detto campione osservato. Di conseguenza, ogni è la realizzazione della v.c. che prende il nome di v.c. della i-ma estrazione. E’ da notare, inoltre, che ogni proviene dalla stessa v.c. ∼ ( ; ). Le v.c. sono quindi componenti della v.c. n-pla indipendenti e identicamente distribuite. =( , ,…, ) Campione Casuale e Campione Osservato Una successione di v.c. ( , , … , ) ottenute con una procedura di estrazione da ∼ ( ; ) è detta campione casuale se le v.c. , = 1, … , sono indipendenti e identicamente distribuite. Il campione osservato è la n-pla di numeri reali ( , costituiscono le realizzazioni del campione casuale. ,…, ) che La distribuzione congiunta del campione casuale è, pertanto, ( ; ) = ( ; ) ( ; )… ( ; )= ! ( ; ) Statistica, Stimatore, Statistica-test Si definisce statistica (campionaria) " = "( , , … , ) qualunque funzione nota e a valori reali del campione casuale indipendente da quantità incognite. Essendo funzione di variabili casuali, la statistica stessa è una variabile casuale. Il valore della statistica " calcolata sul campione casuale # = "( , … , il nome di statistica calcolata. ), prende Nell’ambito della teoria della stima, la statistica è chiamata stimatore mentre la statistica calcolata è detta stima; Nell’ambito della teoria della prova delle ipotesi, la statistica viene detta statisticatest. La distribuzione di probabilità della statistica prende il nome di distribuzione campionaria della statistica (stimatore) " . Distribuzioni campionarie (intro) Per semplicità, consideriamo lo schema di campionamento casuale semplice, che corrisponde allo schema di estrazione con reinserimento. Indichiamo con N la numerosità della popolazione, mentre indichiamo con n la numerosità campionaria. L’universo campionario (cioè l’insieme di tutti i possibili campioni di ampiezza n che possono essere estratti da una popolazione di cardinalità N) è pari a $ =% Per curiosità, nel caso di caso di campionamento senza reimmissione, esso è pari a $ = % %! = ! (% − )! Distribuzioni campionarie (esempio) Supponiamo di avere una popolazione di 4 macchinari (A, B, C, D) preposti alla misurazione del tempo di reazione di una cellula fotoelettrica allo spostamento d’aria. Supponiamo che, nel corso di una giornata, commettono errori di misurazione rispettivamente pari a 1, 2, 3 e 4 millisecondi. La media degli errori di tali macchinari è pari a 2,5, mentre la varianza è pari a 1,25. Supponiamo di essere interessati alla stima della media degli errori dei macchinari. Supponendo di estrarre un campione di n=2 macchinari, è possibile estrarre un massimo di 4 = 16 possibili campioni differenti. Distribuzioni campionarie (esempio) Si ottengono i seguenti risultati: n.b. = 2,5; )*+ = 0,625; ,- = , . = 0,625 Distribuzioni campionarie (esempio) Immaginiamo di estrarre tutti i campioni di numerosità 3 Si ottengono i seguenti risultati: n.b. = 2,5; )*+ = 0,4167; ,0 = , . 0 = 0,4167 Distribuzioni campionarie Per qualsiasi v.c. che possiede varianza finita, la statistica media campionaria ha valor medio pari al valor medio della popolazione e varianza pari alla varianza della popolazione diviso per la numerosità campionaria. Se X è una v.c. Normale, allora anche la v.c. media campionaria è una v.c. Normale. Distribuzioni campionarie notevoli: differenza tra medie Sia ( , , … , ) un campione casuale proveniente da 43 allora ∼ %(1, 5 ). Sia ( , , … , 6 ) un campione casuale proveniente da 3 ∼ %(17 , 48). 9 ∼ %(1, 2 ), ∼ %(17 , 27 ), allora Se i due campioni sono indipendenti, allora è noto che per qualunque 443 3 combinazione lineare (* + ; ) ∼ %((*1 + ;17 ), (* + ; 8)). 5 9 La v.c. differenza tra medie campionarie 3 − 3 sarà anch’essa normale, con la conseguenza che la corrispondente v.c. standardizzata si distribuisce come una v.c. normale standardizzata: 3− 3 ∼ %(0,1) < = ,- + ,86 Distribuzioni campionarie notevoli: varianza campionaria Sia ( , , … , ) un campione casuale proveniente da ∼ %(1, 2 ), (?@ AB)supponiamo che allora 1 sia nota. Sia V = ∑ ! la varianza. C =D 2 ! ?@ AB , =D ! ?@ ABE?3A?3 , =D ! ?@ A?3 , G con n gdl. Poiché F ,- + ?3AB , G con 1 gdl, poiché ?3AB , = ?3AB ,/ si decompone nella somma di 2 v.c. di cui una è una v.c. G teorema di Fisher e Cochran segue che ∑ ! J H@ IH 4 ∼G A Se Q, Q1 2 Q2 sono forme quadratiche tali che Q=Q1+Q2, e se K ∼ G L e K1 ∼ G L , allora K2 ∼ G L0 con g3=g1-g2 con q1 e q2 indipendenti. , per il Distribuzioni campionarie notevoli Questo significa che ( − 1)4M- ∼ G - A A fini inferenziali (per i test statistici) dai risultati precedenti risulta che: 3−1 < "= = ∼# A N / G A −1 3− 3 6( E6A ) ∼ # E6A "= E6 ( − 1)N + O − 1 S7 2? G A /( − 1) N? = ∼ = N7 27 G 6A /(O − 1) A ,6A Proprietà degli stimatori: introduzione La conoscenza della distribuzione campionaria dello stimatore è necessaria sia per valutare la bontà di una particolare procedura di stima, sia per confrontare tra loro stimatori alternativi. - Quali sono i criteri per stabilire se uno stimatore è un «buon» stimatore? - Proprietà per «piccoli campioni» - Proprietà per «grandi» campioni - Quali sono i metodi di costruzione degli stimatori? - Metodi «classici» (parametrici) - Metodi «moderni» (computazionali) Proprietà degli stimatori: Correttezza Uno stimatore T si dice corretto per se Q " = Evidentemente, se Q " ≠ lo stimatore si dice distorto, e la distorsione è definita dalla grandezza ; " = Q " − . La v.c. media campionaria è uno stimatore corretto poiché Q 3 = 1. La v.c. varianza campionaria è uno stimatore distorto poiché Q N = 2 (1 − ) Poiché la distorsione è nota, è agevole provvedere alla correzione della statistica calcolando la varianza campionaria corretta in questo modo 1 D −1 ! − ̅ Proprietà degli stimatori: Efficienza L’Errore Quadratico Medio di uno stimatore T si definisce come TNQ = Q " − E si decompone nella somma della varianza dello stimatore e del quadrato della sua distorsione: TNQ = Q " − Q " =Q "−Q " Varianza + Q " − + Q " − = Distorsione Se uno stimatore è corretto, l’errore quadratico medio coincide con la varianza. Proprietà degli stimatori: Efficienza Per confrontare due stimatori T1 e T2 per si può misurare l’efficienza relativa di T1 rispetto a T2 rapportando i rispettivi Errori Quadratici Medi. U TNQV "1, "2 = TNQV Se eff(T1,T2)<1, allora lo stimatore T1 è efficiente relativamente a T2 Supponiamo che uno stimatore T sia corretto: esiste un limite inferiore alla sua varianza? Si può dimostrare (Disuguaglianza di Cramér & Rao) che C*+ " ≥ X A Dove X A è l’informazione di Fisher (vedi oltre) Se esiste uno stimatore corretto per che raggiunge il limite di Cramér e Rao, allora esso è unico. Proprietà asintotiche degli stimatori Uno stimatore T si dice asintoticamente corretto se lim Q(") = →] Uno stimatore T si dice coerente (o consistente) in media quadratica se lim TNQ(") = 0 →] La coerenza in media quadratica implica la correttezza asintotica. Uno stimatore T si dice coerente (o consistente) in probabilità se, ∀_ > 0 lim →] "− <_ =1 La coerenza in media quadratica implica la coerenza in probabilità (ma non è vero il contrario). Proprietà asintotiche degli stimatori Uno stimatore T si dice coerente (o consistente) quasi certamente se ( lim " − ) = 1 →] Uno stimatore T si dice asintoticamente efficiente se lim C*+ " = X →] A Uno stimatore T si dice asintoticamente normale se lim →] " − Q(") C*+(") ≤ # = Φ(#) Metodi di costruzione degli stimatori: Metodo dei momenti I momenti di ordine r si definiscono come i valori medi delle potenze resime della v.c. X 1d = Q d = e ] A] ] D d ! d g f Metodi di costruzione degli stimatori: Metodo dei momenti Sia ∼ ; un v.c. che possieda momenti Q d = 1d , + = 1,2, … , O Se si indicano con Td i momenti campionari generati dal campione casuale , ,…, , il metodo dei momenti consiste nel risolvere rispetto a il sistema delle prime m equazioni 1d = Td , + = 1,2, … , O Il metodo dei momenti fornisce stimatori che godono di proprietà asintotiche (sono coerenti, asintoticamente corretti e asintoticamente normali). Non sempre fornisce stimatori efficienti. Metodi di costruzione degli stimatori: Metodo dei minimi quadrati Sia , ,…, un campione casuale proveniente da ∼ ; . Se ognuna delle v.c. componenti il campione casuale può essere interpretata come la somma di una componente deterministica e di una quantità stocastica +_ =h Allora si può utilizzare il metodo di stima dei minimi quadrati. La parte deterministica h è formata da funzioni note e a valori reali del parametro , mentre le v.c. _ hanno valore atteso nullo, varianza costante e sono incorrelate tra loro. Il metodo dei minimi quadrati deriva la stima del parametro (o del vettore vettore di parametri) in modo tale che i =D ! −h =O Metodi di costruzione degli stimatori: Metodo dei minimi quadrati La soluzione di minimo si ottiene derivando iN l’equazione ij =0 D ! ( −h rispetto a e risolvendo kh ) =0 k( ) Al variare dei campioni, tale soluzione genera una funzione delle v.c. campionarie che definisce lo stimatore dei minimi quadrati per . Nell’ambito di stimatori lineari (vedi seminario sulla regressione lineare), si può dimostrare che detti stimatori sono BLUE (Best Linear Unbiased Estimators). Gli stimatori dei minimi quadrati sono asintoticamente normali e coerenti. Per l’applicazione di tale metodo non è necessario conoscere la distribuzione di probabilità della v.c. che genera il campione. Metodi di costruzione degli stimatori: Metodo della massima verosimiglianza Sia , ,…, un campione casuale proveniente da ∼ ; . Abbiamo già visto che ( ; ) = ( ; ) ( ; ) … ( ; ) = ∏ ! ( ; ) è la funzione di densità congiunta del campione casuale. Essa, prima di estrarre il campione, e il parametro (o il vettore di parametri) fisso, esprime la probabilità di estrarre proprio quel campione casuale Supponendo che il campione sia stato estratto, supponendo che sia incognito, la quantità ℒ( ; ) = ( ; ) ( ; ) … ( ; ) = ∏ ! ( ; ) prende il nome di funzione di verosimiglianza, ed è funzione del solo parametro . Essa esprime la plausibilità di ottenere quel campione casuale le cui determinazioni numeriche si sono effettivamente realizzate. Se ℒ( ; ) > ℒ( ; ), allora è maggiormente verosimile che il parametro caratterizzante la v.c. nella popolazione sia e non . Metodi di costruzione degli stimatori: Metodo della massima verosimiglianza Spesso si preferisce lavorare con il logaritmo della funzione di verosimiglianza, C = nohℒ( ; ) = D ! noh ( ; ) Si definisce la funzione score la derivata della funzione di verosimiglianza rispetto al parametro knohℒ( ; ) j C = k Se valgono alcune condizioni di regolarità sulla funzione di verosimiglianza (esistenza per ogni x delle derivate fino al terzo ordine, valore atteso del quadrato della funzione score finito), allora si ha che Q C j = 0; C*+ C j = Q C j = −Q C jj = X( ) Metodi di costruzione degli stimatori: Metodo della massima verosimiglianza La grandezzaX( ) prende il nome di informazione (attesa) di Fisher. Questa grandezza può essere interpretata come un indice della rapidità di caduta della funzione di (log)verosimiglianza intorno al suo punto di massimo, e di conseguenza del grado relativo di preferenza che la verosimiglianza assegna al valore di corrispondente al suo massimo rispetto a valori alternativi. Il metodo di stima della massima verosimiglianza propone come stima per il valore #( , , … , ) per il quale la funzione di verosimiglianza è massima. La soluzione della funzione score corrisponde quindi alla stima di massima verosimiglianza. Al variare del campione essa descrive una v.c. che rappresenta lo stimatore di massima verosimiglianza. Metodo della massima verosimiglianza: proprietà Sotto le condizioni di regolarità, gli stimatori di massima verosimiglianza possiedono tutte le proprietà considerate ottimali. - Invarianza: se T è lo stimatore di massima verosimiglianza per e se p=f è una funzione biunivoca di , allora f " è lo stimatore di massima verosimiglianza per f - Coerenza: gli stimatori di massima verosimiglianza sono coerenti e asintoticamente corretti - BAN: per gli stimatori di massima verosimiglianza vale che q " → %( , X A ). Quindi sono stimatori BAN (Best Asintotically Normal) - Se esiste uno stimatore T non distorto e efficiente per , e se T* è la soluzione di massima verosimiglianza di C′( ), allora " ≡ " ∗ - Se esiste uno stimatore efficiente per , allora lo stimatore di massima verosimiglianza coincide con esso ed è quindi efficiente per ogni n finito. Se non esiste uno stimatore efficiente per , allora lo stimatore di massima verosimiglianza è comunque asintoticamente efficiente. Stima per intervalli Per quanto accurata sia la stima e per quanto sia affidabile lo stimatore, a volte è preferibile accompagnare il risultato numerico derivato dal campione con una misura di affidabilità circa la sua collocazione più probabile. Sia , ,…, un campione casuale proveniente da ∼ ; . Si definisce variabile casuale pivot una v.c. )( ; ) che è funzione sia del campione che del parametro incognito (quindi, non è una statistica), ma la cui distribuzione di probabilità è indipendente da parametri incogniti. Se esiste una v.c. pivot per , e se la funzione che definisce la stessa è invertibile, allora si può scrivere che )u ≤ ) ; ≤ Cv = () A )u , ≤ ≤ ) A )v , ) = 1 − w Si può definire allora un intervallo casuale con coefficiente di confidenza 1 − w, i cui limiti sono ) A )u , e ) A )v , Sia , Stima per intervalli: v.c. pivot ,…, un campione casuale proveniente da ∼ % 1; 2 . HIy Poiché sappiamo che Z = 4/ ∼z({, ), allora Z è una v.c. pivot perché la sua 5 distribuzione di probabilità non dipende da 1. J HIy ∼~ 5I• . Allora T è una v.c. pivot Se 2 è incognita, sappiamo che T = }/ 5 perché la sua distribuzione di probabilità non dipende da 1. J E così è vero per tutte le distribuzioni notevoli che abbiamo incontrato prima. In genere, Se esiste uno stimatore di massima verosimiglianza T per un parametro di posizione (come la media), allora la v.c. T- è una v.c. pivot. Se è un parametro di scala (come la varianza), allora la v.c. T/ è una v.c. pivot. Sia , Stima per intervalli: v.c. pivot ,…, Poiché < = ?3A€ ,/ un campione casuale proveniente da ∼ %(0,1) allora si può dire che 3− 2/ Da cui Xƒ < •(‚/ A‚ ) =1−w = 3 ∓ •(‚/ ) 2/ ∼% ;2 . Stima per intervalli Prima dell’estrazione del campione, si potrebbe parlare di probabilità che il parametro incognito nella popolazione sia incluso tra i limiti inferiore e superiore dell’intervallo casuale; Dopo che il campione è stato estratto, la probabilità che il parametro incognito ricada all’interno dei limiti inferiore e superiore vale 1 se l’affermazione è vera e 0 altrimenti. Si parla quindi di intervalli di confidenza, con grado di confidenza pari a 1 − w, perché ripetendo l’esperimento un numero elevato di volte i limiti dell’intervallo casuale conterranno il parametro incognito in una frazione pari a 1 − w %. Stima per intervalli Da una popolazione generata da una normale con media pari a 120.92 e varianza pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100 intervalli di confidenza al 95% Stima per intervalli Da una popolazione generata da una normale con media pari a 120.92 e varianza pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100 intervalli di confidenza al 99% Stima per intervalli Da una popolazione generata da una normale con media pari a 120.92 e varianza pari a 49 si sono estratti 100 campioni casuali di ampiezza 40. Si riportano 100 intervalli di confidenza al 90% Stima per intervalli La stima per intervalli in questo modo è possibile se si suppone che la v.c. che governa il fenomeno oggetto di studio nella popolazione sia Normale. Se ciò non dovesse essere verificato, e si ha conoscenza del momento secondo, si può ricorrere alla disuguaglianza di Tchebycheff 3−1 ≤ _ ≥ 1− 2 / _ Alternativamente si può ricorrere ad intervalli di confidenza non parametrici, (ad es. Bootstrap, vedi oltre). Metodi di stima computazionali Ai metodi di stima «moderni» si può far ricorso in situazioni diverse: - Le condizioni di regolarità possono non essere soddisfatte, o la condizione di massimo può essere raggiunta solo per via numerica. In questo caso si utilizzano metodi di ottimizzazione numerica, quali ad esempio: - Il metodo Newton_Raphson (molto utilizzato per problemi di stima dei parametri nei modelli lineari generalizzati); - Il metodo Tri-section (metodo molto semplice, ma anche poco efficiente); - Il metodo dello scoring (simile al metodo Newton-Raphson, ma che sfrutta le proprietà statistiche della funzione di verosimiglianza); - Algoritmi di «Majorizing», come l’algoritmo SMACOF (metodo iterativo per la minimizzazione di funzioni di perdita –come nel caso dei minimi quadrati- molto utilizzato in statistica multivariata per problemi di multidimensional scaling); - Algoritmi di Alternating Least Squares (metodi iterativi per la minimizzazione di funzioni di perdita, molto utilizzati per problemi di regressione non lineare). - …. Metodi di stima computazionali Ai metodi di stima «moderni» si può far ricorso in situazioni diverse: - Si può avere una conoscenza solo approssimata o addirittura inesistente della v.c. che ha generato il campione. - Si può avere l’esigenza di rendere maggiormente «robuste» le stime che ottengono. - Si può avere l’esigenza di pervenire a stime intervallari senza avere alcuna idea della distribuzione di probabilità nella popolazione - Bootstrap - Jacknife - Cross-validation - Ensemble methods (Bagging, Boosting, Random Forest,…) Bootstrap Tecnica che fa parte della famiglia dei metodi di ricampionamento. Dal campione osservato si estraggono B campioni casuali con ripetizione della stessa numerosità del campione osservato. Per ciascuno di tali campioni si calcolano le grandezze (stime) di interesse, ottenendone così una successione. Il bootstrap viene maggiormente utilizzato per: • Stimare la distorsione; • Stimare la varianza; • Generare intervalli di confidenza, generalmente con il metodo del percentile. Bootstrap: toy example 1 Si è generato un «campione casuale» da una v.c. normale di dimensione 100. Immaginiamo che esso sia la nostra popolazione e valutiamo la distorsione con il metodo bootstrap. Abbiamo (nella popolazione) 1 = 9,9439 e 2 = 8,3158. Generiamo 10000 campioni bootstrap e valutiamo la correttezza degli stimatori media e varianza campionaria (esempio eseguito con MatLab). Abbiamo che Q 3‰ − 1 = −0,00001, Q N‰ − 2 = −0,0831588 Lo stimatore media campionaria (come è noto) è corretto, mentre lo stimatore media campionaria è (come altrettanto noto) distorto. Sappiamo anche che la distorsione è pari a − ,- Dai dati della nostra «popolazione» abbiamo che . —,0 .— {{ = 0,083158 Bootstrap: toy example 2 Dal dataset «auto-mpg» (UCI machine learning repository) stimiamo la retta dei minimi quadrati (vedi seminario su regressione lineare). Si vuole spiegare il consumo delle automobili espresso in miglia per galloni a partire da una serie di caratteristiche delle auto. Si riportano sia gli intervalli di confidenza (95%) sui coefficienti sia gli stessi calcolati con 10000 ripetizioni boostrap (percentile CI) Beta CI_lower CI_upper intercept -17,955 -27,150 -8,759 cylinders -0,490 -1,121 0,142 displacement 0,024 0,009 0,039 horsepower -0,018 -0,045 0,009 weight -0,007 -0,008 -0,005 acceleration 0,079 -0,114 0,272 model year 0,777 0,675 0,879 origin_EU 2,630 1,516 3,744 origin_JAP 2,853 1,766 3,940 Boot_CI Boot_CI Boot_Beta lower upper intercept -17,746 -27,583 -7,859 cylinders -0,492 -1,079 0,130 displacement 0,024 0,007 0,041 horsepower -0,018 -0,047 0,009 weight -0,007 -0,008 -0,005 acceleration 0,075 -0,170 0,319 model year 0,776 0,672 0,881 origin_EU 2,631 1,338 3,906 origin_JAP 2,858 1,812 3,926 Jackknife Tecnica che fa parte della famiglia dei metodi di ricampionamento. Dal campione osservato di numerosità n si estraggono tutti i possibili n campioni di numerosità n-1 ottenuti eliminando a turno dal campione la i-ma unità. Si procede in maniera analoga al metodo bootstrap. Il metodo jackknife viene maggiormente utilizzato per la costruzione di intervalli di confidenza. Metodi Ensemble Tecniche che fanno parte della famiglia dei metodi di ricampionamento, principalmente per modelli di regressione (parametrica e non parametrica) e di classificazione supervisionata (vedi seminari su regressione non parametrica e sullo statistical learning). Un ensemble è una aggregazione di classificatori con lo scopo di combinare in qualche modo le decisioni individuali di ciascuno di questi per classificare nuove osservazioni. La particolarità del BAGGING (Bootstrap Aggregating) consiste nell’utilizzare il Bootstrap come metodo di ricampionamento; questo significa che la probabilità di essere estratto, per ciascun individuo, è costante in ogni prova e uguale per tutti. La stima finale è quindi l’aggregazione della risposta dei modelli di regressione o di classificazione attraverso la media o utilizzando «majority rules». Metodi Ensemble 0.2 test error single tree test error Bagging 0.18 0.16 0.14 test error 0.12 0.1 0.08 0.06 0.04 0.02 0 0 5 10 15 20 25 30 Bootstrap replications 35 40 45 50 Metodi Ensemble BOOSTING L’IDEA: Addestrare l’algoritmo di apprendimento (weak learner) su un data set e costringerlo ad imparare dai propri errori a classificare in modo corretto. Weak learner: Classificatore almeno moderatamente accurato (le sue previsioni devono essere almeno leggermente migliori rispetto ad una scelta totalmente casuale). Si ricampiona dal set di dati in modo che le osservazioni malclassificate (o con valori maggiori della funzione di perdita) hanno maggiore probabilità di essere estratte, forzando il weak learner ad addestrarsi sugli errori commessi per poterli correggere. La stima finale è l’aggregazione della risposta ponderata dei modelli di regressione o di classificazione attraverso medie ponderate o a utilizzando «majority rules». Metodi Ensemble Cross-Validation CROSS-VALIDATION Molto simile concettualmente al Jackknife nella sua forma più estrema (leaveone-out cross-validation). L’idea: Dividere il set di dati di numerosità n in V sottocampioni di numerosità n/ V (in genere si pone V=10). Si procede effettuando V analisi (escludendo di volta in volta il subset di dati corrispondente alla frazione n/ V), testando il modello solo sulla parte restante del modello. Metodo molto utilizzato nei metodi di regressione e classificazione non parametrici (alberi di classificazione e regressione, criterio di scelta dei parametri di penalizzazione nelle p-splines) e anche nei metodi di regressione parametrica (ridge regression, procedure di optimal scaling) Cross-Validation Albero di classificazione validato via cross-validation. Funzione di goodness: ˜? rank correlaztion coefficient. Cross-Validation Cross-validation applicata al criterio di selezione della penalità per l’utilizzo delle psplines Test delle ipotesi statistiche Si può derivare un test delle ipotesi supponendo nota la distribuzione di probabilità di una v.c. X, quindi l’inferenza si riferisce ai soli parametri che la specificano (Test Parametrici) Si può derivare un test senza fare assunzioni stringenti sulla forma analistca della distribuzione di probabilità della v.c. X (ma qualche assunzione minimale va fatta: unimodale? continua? simmetrica? Possiede momento r-mo finito?). L’inferenza riguarda quindi sia la forma che i parametri (Test non parametrici, o distribution free). Test delle ipotesi statistiche Un test è una regola istituita sullo spazio campionario mediante la quale, in funzione del campione osservato, si decide se rifiutare o meno una ipotesi ™{ riferita alla popolazione. Un’ipotesi statistica è una affermazione che specifica completamente (ipotesi semplice) o parzialmente (ipotesi composita) la distribuzione di probabilità di una v.c. X. ∼ % 10,9 ; ∼ o 0,5 ; ∼ šf 1,6 ; … ipotesi semplici. Quando sono vere la conoscenza di X è completa ∼ % 5, 2 ; ∼ o ; ∼ šf 1, % ; … ipotesi composite. Quando sono vere non consentono di pervenire alla conoscenza di un’unica v.c. ben definita. Test delle ipotesi statistiche Si intende per ipotesi nulla (™{ ) l’ipotesi preesistente rispetto all’esperimento campionario. E’ l’ipotesi che sussiste fino a prova contraria. L’ipotesi alternativa (™ ) è l’ipotesi complementare rispetto a ™{ . E’ importante precisare subito che, qualora non fosse vera ™{ , non è detto che sia vera ™ . ™{ e ™ sono esaustive e disgiunte: vale l’una o vale l’altra. Test delle ipotesi statistiche Il test è una regola basata sullo spazio campionario che si concretizza in una funzione definita sull’insieme di tutti i possibili campioni generati da X. Per alcuni valori , ,…, ∈ œ{ per cui ∉ ž{ , (ž{ ⊂ Ω ) la regola imporrà di rigettare ™{ ,mentre per altri valori , ,…, ∉ œ{ per cui ∈ ž{ la regola imporrà di non rigettare ™{ . œ{ è detta regione critica (RC) per ™{ . La regione complementare è detta regione di accettazione. Poiché se l’ipotesi riguarda il parametro le informazioni riguardo ad esso possono essere sintetizzate senza danno attraverso gli stimatori, la regola decisionale definita tramite il campione casuale su œ{ si traduce in una nuova regola fondata sullo stimatore (o statistica) " sulla base di ƒ{ , ,…, ∈ œ{ ⇔ " ∈ ƒ{ Struttura probabilistica di un test In teoria, prima di prendere una decisione, sono possibili le seguenti 4 situazioni ¦§ è vera ¦§ è falsa Si rigetta ™{ Errore 1 (di prima specie) Si rigetta ™{ Decisione Giusta 2 Non si rigetta ™{ Non si rigetta ™{ Decisione Giusta 1 Errore 2 (di seconda specie) Dopo aver deciso se rigettare o meno ™{ , si può solo aver preso la decisione giusta o aver commesso un errore. w = E1 = Pr(rigettare ™{ |™{ è vera) = Pr(" ∈ ƒ{ |™{ ) ¤ = E2 = Pr(non rigettare ™{ |™{ è falsa) = Pr(" ∉ ƒ{ |™ ) ¥ = 1 − ¤ = Pr(rigettare ™{ |™{ è falsa) = Pr " ∈ ƒ{ ™ (decisione giusta 2, nota come POTENZA DEL TEST) 1 − w = Pr(non rigettare ™{ |™{ è vera) = Pr(" ∉ ƒ{ |™{ )(decisione giusta 1) Struttura probabilistica di un test Sarebbe auspicabile richiedere che la RC sia tale che sia w che ¤ siano ragionevolmente piccole. A parità di numerosità campionaria, non è possibile far tendere a zero entrambe le probabilità di errore. ¤ 1 1 w Si potrebbe fissare w e scegliere la RC che minimizza ¤; Si potrebbe fissare ¤ e scegliere la RC che minimizza w; Si opta per la prima soluzione, poiché si ritiene più grave commettere l’errore di prima specie (è più rischioso modificare a torto la realtà piuttosto che persistere nella medesima situazione laddove non fosse più vera) Struttura probabilistica di un test Si definisce regione critica ottimale di ampiezza ¨ (RCO(w)) una RC per ™{ tale che Pr " ∈ ƒ{ ™{ = w e che, per qualsiasi altra RC ©j§ di eguale ampiezza risulti: ¤ ƒ{ = Pr " ∉ ƒ{ ™ < Pr " ∉ ƒ{j ™ = ¤ ƒ{j . E’ quindi ottimale la regione critica che, a parità di tutte quelle di ampiezza w, possiede la più elevata potenza del test ¥ ª{ > ¥(ƒ{j ) Un buon test è quello con la potenza più elevata a parità di probabilità di commettere l’errore di prima specie. Come si costruiscono le RCO(w)? Lemma di Neyman Pearson Sia X = ( , , … , ) un campione casuale generato da ∼ ( ; ). Si vuole verificare ™{ : = { contro ™ : = . Sia i( ; ) la funzione di verosimiglianza di X. La œƒ-(w) per ™{ contro ™ è quella regione ƒ{ che soddisfa: dove i = i i *) ≥ ª; ;)Pr(X ∈ ƒ{ ™{ = w i{ ; ei{ = i {; . a) Implica che ƒ{ viene costruita in modo tale che l’ipotesi alternativa deve risultare c volte più verosimile b) Implica che la costante c è determinata in modo che la probabilità di commettere l’errore di prima specie sia pari a w Test di significatività Si utilizza solo ™{ e ci si chiede se i dati sostengono tale affermazione. L’ipotesi alternativa non è mai specificata. Ci si basa sul p-value: g = Pr(" > #|™{ ), definito cioè come probabilità che, se è vera ™{ , lo stimatore " assuma un valore almeno estremo come la stima # osservata. Non è possibile calcolare la potenza del test Test uniformemente più potente La potenza del test è definita come ¥ = Pr(" ∈ ƒ{ | = ). Se si prende in considerazione qualsiasi valore di ∈ Ω( ), si definisce funzione potenza ¥ = Pr " ∈ ƒ{ , ∀ ∈ Ω , w = sup ¥( ) €∈¯° Sia ƒ{ una RC di ampiezza w. Un test si dice uniformemente più potente šT ‚ se ≥ ¥ ∗ ∀ ∉ ž{ ¥ dove ¥ ∗ è la funzione potenza di qualsiasi altro test di eguale ampiezza. Test LRT Il test del rapporto di verosimiglianza (LRT) si basa sul rapporto tra la verosimiglianza massimizzata sotto ™{ e la verosimiglianza massimizzata senza alcun vincolo. Sia X = , ,…, un campione casuale generato da ∼ ( ; ). Si vuole verificare ™{ : ∈ ž{ contro ™ : ∉ ž{ . Si costruisce il rapporto max i( ; ) €∈¯° = ± max i( ; ) €∈³(€) La RC è costruita in modo che sia Pr ± ≤ ª‚ ™{ = w. ƒ{ = { : ± ≤ ª‚ } è una RC costruita con il metodo LRT Test LRT Se è applicabile il Lemma di Neyman-Pearson, il LRT produce œƒ-(w) coincidenti. Sotto opportune condizioni di regolarità, se è vera ™{ allora −2 log ± q → G(L) dove g è il numero di dimensioni dello spazio parametrico sotto ™{ (teorema di Wilks) Test asintotici: Score test Sia X = , ,…, un campione casuale generato da ∼ ( ; ·). Si vuole verificare ™{ : · ∈ ·§ contro ™ : · ∉ ·§ . Sia C j (·) il vettore degli score rispetto ai parametri: k log i ·; j C · = k Si può dimostrare che N = Cj ·§ k log i ·; , k V X ·§ A k log i ·; ,…, k 6 Cj V q ·§ → G(6) Lo score test, rispetto al LRT, necessita solo del calcolo delle derivate della funzione di verosimiglianza per · = ·§ Asintoticamente LRT e score test sono equivalenti Test asintotici: test di Wald Sia X = , ,…, un campione casuale generato da ∼ ( ; ·). Si vuole verificare ™{ : · ∈ ·§ contro ™ : · ∉ ·§ . Si può dimostrare che ¸ = ¹º − ·§ VX q ¹º ¹º − ·§ → G(6) Asintoticamente LRT e score test e test di Wald sono equivalenti LRT, Score test e test di Wald When → ∞ the three test statistics have equivalent properties. For small the Likelihood ratio statistic is more reliable than the Wald statistic. 71 Principali test parametrici: Test sul valore medio, varianza nota: ™ : 1 > 1{ œƒ- w 3 ≥ 1{ + •‚ 2/√ ™ : 1 < 1{ œƒ- w 3 ≤ 1{ − •‚ 2/√ ™{ : 1 = 1{ 3 ≥ 1{ + •‚/ 2/√ ™ : 1 ≠ 1{ œƒ- w ½ 3 ≤ 1{ − •‚/ 2/√ Test sul valore medio, varianza ignota: ™ : 1 > 1{ œƒ- w 3 ≥ 1{ + #(‚,L) ¾/√ ™ : 1 < 1{ œƒ- w 3 ≤ 1{ − #(‚,L) ¾/√ ™{ : 1 = 1{ 3 ≥ 1{ + #(‚/ ,L) ¾/√ ™ : 1 ≠ 1{ œƒ- w ½ 3 ≤ 1{ − #(‚/ ,L) ¾/√ Principali test parametrici: Test sulla varianza, media ignota: ™{ : 2 = 2{ ™ : 2 > 2{ œƒ- w N ≥ G(‚,L) 2{ /( − 1) ™ : 2 < 2{ œƒ- w N ≤ G( A‚,L) 2{ /( N ≥ G(‚/ ™ : 2 ≠ 2{ œƒ- w ½ N ≤ G( ,L) 2{ /( A‚/ ,L) 2{ /( − 1) − 1) − 1) Test sulla differenza tra medie, varianze ignote (note), campioni indipendenti… Test sulla differenza tra medie, varianze ignote (note), campioni dipendenti (appaiati)… Test sul rapporto tra varianze… …and so on Principali test non parametrici: Test dei segni Test di Wicoxon Test di Mann e Whitney Goodness of fit tests (test chi quadrato, test di Kolmogorov-Smirnov, test di Jarque-Bera,…) And so on Letture consigliate • Azzalini, A. Inferenza statistica, Springer, 2008 • Casella, G., Berger, R. Statistical inference, Brooks/Cole Pub. Co., 1990 • Erto, P. Probabilità e statistica per le scienze e l'ingegneria, McGraw-Hill, 2008 • Hastie, T., Tibshirani, R., Friedman, J.H. The elements of statistical learning, Springer, 2009 • Landenna, G., Marasini, D., Ferrari, P. Teoria della Stima, Il Mulino 1997 • Landenna, G., Marasini, D., Ferrari, P. La verifica di ipotesi statistiche, Il Mulino 1998 • Lindgren B., W. Statistical theory, Chapman & Hall, 1993 • Piccolo, D. Statistica, Il Mulino, 1998. • Rice, J. Mathematical Statistics and Data Analysis, Duxbury, 2007 • …