Il trattamento dei dati mancanti Missing data L’errore determinato dalla mancanza d’espressione del dato rientra fra gli errori non campionari e si manifesta nella non partecipazione alla rilevazione di unità statistiche appartenenti al campione o nell’assenza di alcuni valori Si distingue fra 2 tipi d dati mancanti Mancate risposte TOTALI Mancate risposte PARZIALI Le mancate risposte “totali” (unit non response) Si parla di mancata risposta “totale” quando mancano tutte le informazioni relative ad un individuo, così che nel database ci si trova di fronte ad un record di meno, ossia di una riga di meno nella matrice dei dati La presenza delle mancate risposte totali nei dati è un problema comune a tutte le basi di dati, comunque costituite Tutti gli strumenti adottabili per la prevenzione di tale fenomeno possono ridurne l'intensità, ma non riescono ad eliminarne del tutto la presenza Il rischio è che, come spesso accade, siano degli individui con determinate caratteristiche a non partecipare, inducendo una distorsione nei dati raccolti SELECTION BIAS Che fare ? Il trattamento delle mancate risposte totali avviene a 3 livelli: 1. in fase di rilevazione: richiami, sostituzioni, … 2. in fase di editing: imputazione 3. in fase di stima: riponderazione, post-stratificazione … N. B. Nel DM, 1. è impensabile, poiché si lavora sempre su dati provenienti da fonti secondarie 2. è la tecnica maggiormente utilizzata nel caso di mancate risposte parziali Riponderazione Il metodo più diffuso di “riponderazione” delle unità. correzione consiste nella Assumendo note alcune caratteristiche della popolazione che si ritengono influenzare la non risposta totale, si partiziona il campione osservato e, con un meccanismo di post-stratificazione si ricostruiscono le proporzioni presenti nella popolazione, attraverso un opportuno sistema di pesi. L’assunzione forte che si fa è quella di un comportamento omogeneo, ai fini del fabbisogno conoscitivo, all’interno degli strati individuati Le mancate risposte “parziali” (item non response) In presenza di un record con molti campi pieni, ma non tutti, o se i valori presenti appare non corretta o non valida, si parla di mancate risposte parziali Questo causa una cella vuota nella matrice dei dati Valori non validi La localizzazione di valori non validi in un insieme di dati si basa su 3 tipi di controlli (o regole o edit) principali: controlli di consistenza: regole di incompatibilità fra campi diversi in una singola unità controlli di validità o di range controlli statistici: individuazione di valori anomali L’individuazione di valori non validi, anomali o incoerenti genera una cella vuota, assimilabile ad una mancata risposta parziale L’imputazione di dati mancanti Imputazione = sostituzione dei valori mancanti o errati di un dato record con alternative coerenti e plausibili ottenute dai dati stessi (campionari e non), da fonti esterne o dalla combinazione di entrambi, in conformità a regole e metodi prestabiliti Pro e Contro dell’imputazione Le procedure d’imputazione hanno l’obiettivo di ridurre le distorsioni introdotte dalla presenza di dati mancanti e di offrire, inoltre, maggiori garanzie sulla coerenza dei risultati derivati dalle analisi applicate, ma al contempo non confermano la generalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti Mentre i produttori ufficiali di dati (es. ISTAT) hanno la necessità “istituzionale” di imputare i valori per fornirli agli utenti, indipendentemente dall’uso che questi ne faranno, sono stati sviluppati metodi statistici che non assegnano esplicitamente valori, ma includono il dato mancante all’interno della stessa analisi Meccanismo di generazione È importante capire se i dati mancanti e i dati osservati hanno strutture comuni Si distinguono così diversi tipi di dati mancanti, ponendo come elemento cruciale da valutare, nel loro trattamento, se è possibile assumere che il meccanismo che gli ha generati sia trascurabile, oppure comporti delle distorsioni Pattern di dati mancanti È utile capire se i dati mancanti e i dati osservati seguono o meno un certo andamento, e quindi se è possibile definire pattern che descriva i meccanismi che li determinano: ciò è utile per individuare le procedure più adatte per trattare quindi i dati mancanti, richiedendo i diversi approcci un differente impegno computazionale I pattern possono dipendere tanto dalla natura delle variabili quanto dall’aspetto del fenomeno che con esse si vuole investigare; è possibile considerare tre specifici pattern di dati (Huisman, 1999) Si parla di : • unit missing quando mancano interi blocchi di risposte ad esempio, nel corso di studi di tipo longitudinale, i dati mancanti seguono questo modello quando parte dei soggetti decide di abbandonare l’indagine prematuramente, causando uno squilibrio nella matrice dei dati • pattern monotono quando in uno stesso set di dati, l’insieme delle variabili yj ha più valori registrati dell’insieme delle variabili yj +1 (queste ultime sono cioè maggiormente soggette a non risposta) • pattern di dati quando alcune caratteristiche vengono rilevate solo per un sottoinsieme di casi, si parla allora di missing by design La struttura dei dati – Il Campione Assunto che il collettivo di riferimento sia costituito da N unità statistiche e che si considerino K variabili, la matrice dei dati iniziale sarà allora costituita da NxK elementi Indicate le variabili di selezione del campione con Yc e le variabili utilizzate nell’indagine con Yq, è possibile definire una variabile Di che assuma valore 1 se l’i-ma unità è campionata e valore 0 nel caso contrario: in tale circostanza, supposto che il procedimento utilizzato per la selezione del campione sia di tipo probabilistico, si considera trascurabile (ignorable) il meccanismo che porta alla perdita di una parte delle informazioni È però possibile che il piano di campionamento scelto dai ricercatori non sia efficiente, o che sia riscontrabile un alto tasso di non rispondenti tra le unità selezionate: in questi casi è difficile tenere sotto controllo la presenza di dati mancanti e non è possibile trascurare le cause che hanno prodotto tale mancanza Indicate con Yq le variabili oggetto d’indagine, è possibile definire una variabile Rij che assuma 1 se l’unità risponde e 0 nel caso contrario: in presenza di dati mancanti è necessario considerare se il meccanismo che determina non risposta è trascurabile o no Si consideri, una variabile X non soggetta a non risposta, per la quale sia possibile registrare n determinazioni campionarie: si supponga, ad esempio, che la variabile X sia una variabile di struttura (sesso, età, titolo di studio, e così via), mentre la variabile Y rappresenti il reddito annuo dell’intervistato Missing at random ? La probabilità di risposta ad Y dipende: dalla variabile X e dalla variabile Y da X ma non da Y da X ed eventualmente anche da Y ? Missing completely at random Se la probabilità di risposta è indipendente sia da X che da Y si dice che i dati mancanti sono missing at random e che i dati osservati sono observed at random, o più semplicemente che i dati mancanti sono Missing Completely At Random (MCAR): in questo caso i valori osservati della variabile Y formano un sottocampione casuale dei valori già campionati Missing at random Se la probabilità di risposta dipende da X ma non da Y, si dice che i dati mancanti sono missing at random (MAR): il pattern che definisce il meccanismo di non risposta è ricostruibile o prevedibile dalle altre variabili coinvolte nell’indagine (piuttosto che dalla specifica variabile per la quale mancano alcune determinazioni), dette mechanism variables Es.: studio sul livello d’ansietà di alcuni individui nel tempo: i partecipanti con un basso livello di autostima saranno meno propensi ad essere coinvolti nelle successive sessioni di ricerca, così il ricercatore può utilizzare tale parametro per prevedere il modello di non risposta Missing not at random Se la probabilità di risposta dipende da entrambe le variabili il meccanismo che causa la non risposta non è trascurabile e si parla di missing not at random (NMAR) Es.:e un partecipante ad uno studio sulla perdita di peso non si presenta ad una delle verifiche periodiche, i dati relativi potrebbero mancare per fattori non trascurabili: in contrasto con il caso precedente, il meccanismo che determina la perdita di informazioni può essere spiegato soltanto dalla variabile che presenta mancanze Le principali strategie per il trattamento dei dati mancanti 1 Procedure basate sull’analisi delle unità completamente registrate non si considerano nell’analisi le unità per le quali manca, in alcuni campi, la registrazione dei valori PRO CONTRO facile piccole quantità di dati mancanti rischio di distorsione, riconducibile ad una selection bias Le principali strategie per il trattamento dei dati mancanti 2 Procedure basate sull’imputazione tecniche d’imposizione di codici plausibili in modo da creare un set di dati completo che può poi essere analizzato con le tecniche standard PRO apparentemente elimina il problema CONTRO rischio di errore ulteriore: il codice forzato è plausibile (ma è considerato “vero”) N.B. Di regola mirano a preservare l’accuratezza delle statistiche di sintesi Le principali strategie per il trattamento dei dati mancanti 3 Procedure basate su modelli questa classe generale di procedure prevede che sia generato un modello per i dati parzialmente mancanti, il procedimento inferenziale è quindi basato sulla verosimiglianza sotto quel particolare modello PRO non ha i rischi dei casi precedenti CONTRO non esplicita un valore imputato, ma lo ingloba implicitamente nell’analisi Strategia 1 Si consideri la matrice dei dati (n, k): si eliminano le unità per le quali mancano alcuni valori, e l’analisi si effettua solo sulle m < n unità complete (complete-case analysis): si riduce l’informazione, ma non si modificanoi dati rilevati per svolgere analisi standard 1. listwise deletion: si escludono le unità per cui manca anche un solo valore (è il default dai più diffusi software statistici, come SAS o SPSS) 2. la pairwise deletion, più complessa, prevede l’inclusione di un’unità solo se vengono registrati i valori relativi ad una predeterminata coppia di variabili delle quali si vuole stimare la correlazione: tale soluzione fornisce la miglior stima per ogni correlazione, e utilizza tutte le informazioni disponibili per quell’obiettivo Strategia 2 Le procedure d’imputazione possono favorire la riduzione delle distorsioni introdotte dalla presenza di dati mancanti, costruendo valori coerenti, ma al contempo non confermano l’universalità di tale riduzione, addirittura amplificando in taluni casi le distorsioni esistenti L’immissione di dati effettuata ricorrendo a codici casuali, o ottenuti formulando congetture, comporta notevoli rischi: il sistema migliore per trattare i dati mancanti, secondo alcuni studiosi, è quello di utilizzare il codice “nessuna risposta”, rimandando la valutazione del fenomeno alla fase d’interpretazione dei risultati (Es. SPAD, di default) Es.: imputazione della MEDIA imputazione della MEDIANA HOT DECK IMPUTATION Principali problemi: attenzione alla riduzione di variabilità!!! Hot Deck Imputation La ragione primaria per ricorrere a procedure hot deck è la necessità di ridurre le distorsioni prodotte dal verificarsi del fenomeno delle mancate risposte L’imputazione hot deck utilizza processi di classificazione di tutte le unità in gruppi distinti e quanto più omogenei all’interno, in base a caratteristiche precise stabilite di volta in volta in relazione al contesto dell’analisi: per ogni valore mancante si imputa un valore presente nello stesso gruppo, sotto l’assunzione che all’interno dei gruppi definiti i non rispondenti seguono la stessa distribuzione dei rispondenti Hot Deck Imputation - Varianti hot deck imputation within adjustment cells una volta costruite le celle d’aggiustamento, s’imputano i valori mancanti in ogni singola cella scegliendo tra i valori registrati nelle stesse nearest neighbor hot deck imputation prevede la definizione di una metrica per misurare la distanza tra le diverse unità, e scegliendo quindi come valori da imputare quelli relativi alle unità rispondenti più vicine a quelle che sono invece affette da incompletezza Multiple Imputation L’imputazione multipla è stata proposta da Rubin (1987) e consiste nel sostituire ogni valore mancante con un insieme di valori plausibili, così da preservare l’incertezza circa il valore “vero” che si vorrebbe ricostruire Questi valori multipli costituiscono diversi data set che vengono analizzati individualmente con le consuete misure standard per dati completi e i diversi risultati di queste analisi vengono combinati in un momento successivo Strategia 3 I metodi basati sui modelli non si pongono l’obiettivo di identificare un opportuno valore da assegnare al record con valori mancanti, ma piuttosto di utilizzare tutta l’informazione disponibile per preservare le strutture di associazione e correlazione presente nei dati Uno degli strumenti più noti è: L’algoritmo EM (Expectation-Maximization) Consente di effettuare stime di Massima Verosimiglianza dei parametri di interesse su set di dati incompleti, come se fossero completi L’algoritmo EM Dato un modello statistico, un insieme di dati osservati Yobs, un insieme di dati mancanti Ymis e un vettore di parametri ignoti q, partendo da una stima iniziale q(0) (starting guess), l’algoritmo consiste, ad ogni iterazione t di 2 passi: E-step calcolo del valore atteso H(q, q(t-1)) della verosimiglianza L(q|Yobs) rispetto alla distribuzione dei dati mancanti Ymis condizionatamente ai dati osservati e alle stime correnti dei parametri H(q , q(t-1)) ≡ L(θ | Yobs ,Ymis) f (Ymis | Yobs ,θ (t -1) )dYmis M-step massimizzazione di H(q , q(t)) rispetto a q. L’algoritmo genera una successione {q (t)}t=1,2,.. che, sotto alcune ipotesi di regolarità, si dimostra (Dempster et al., 1977) convergere alla stima di massima verosimiglianza di q.