Il trattamento dei dati mancanti

Il trattamento dei dati mancanti
Missing data
L’errore determinato dalla mancanza
d’espressione del dato rientra fra gli errori non
campionari e si manifesta nella non partecipazione
alla rilevazione di unità statistiche appartenenti al
campione o nell’assenza di alcuni valori
Si distingue fra 2 tipi d dati mancanti

Mancate risposte TOTALI

Mancate risposte PARZIALI
Le mancate risposte “totali”
(unit non response)
Si parla di mancata risposta “totale” quando mancano
tutte le informazioni relative ad un individuo, così che nel
database ci si trova di fronte ad un record di meno, ossia di
una riga di meno nella matrice dei dati
La presenza delle mancate risposte totali nei dati è un
problema comune a tutte le basi di dati, comunque costituite
Tutti gli strumenti adottabili per la prevenzione di tale
fenomeno possono ridurne l'intensità, ma non riescono ad
eliminarne del tutto la presenza
Il rischio è che, come spesso accade, siano degli individui
con determinate caratteristiche a non partecipare,
inducendo una distorsione nei dati raccolti
SELECTION BIAS
Che fare ?
Il trattamento delle mancate risposte totali avviene a 3 livelli:
1. in fase di rilevazione: richiami, sostituzioni, …
2. in fase di editing: imputazione
3. in fase di stima: riponderazione, post-stratificazione …
N. B. Nel DM, 1. è impensabile, poiché si lavora sempre su dati
provenienti da fonti secondarie
2. è la tecnica maggiormente utilizzata nel caso di mancate
risposte parziali
Riponderazione
Il metodo più diffuso di
“riponderazione” delle unità.
correzione
consiste
nella
Assumendo note alcune caratteristiche della popolazione
che si ritengono influenzare la non risposta totale, si
partiziona il campione osservato e, con un meccanismo di
post-stratificazione
si ricostruiscono le proporzioni
presenti nella popolazione, attraverso un opportuno sistema
di pesi.
L’assunzione forte che si fa è quella di un comportamento
omogeneo, ai fini del fabbisogno conoscitivo, all’interno
degli strati individuati
Le mancate risposte “parziali”
(item non response)
In presenza di un record con molti campi pieni, ma non tutti,
o se i valori presenti appare non corretta o non valida, si
parla di mancate risposte parziali
Questo causa una cella vuota nella matrice dei dati
Valori non validi
La localizzazione di valori non validi in un insieme di dati si
basa su 3 tipi di controlli (o regole o edit) principali:

controlli di consistenza: regole di incompatibilità fra
campi diversi in una singola unità

controlli di validità o di range

controlli statistici: individuazione di valori anomali
L’individuazione di valori non validi, anomali o incoerenti
genera una cella vuota, assimilabile ad una mancata
risposta parziale
L’imputazione di dati mancanti
Imputazione =
sostituzione dei valori mancanti o errati di un
dato record con alternative coerenti e plausibili
ottenute dai dati stessi (campionari e non), da
fonti esterne o dalla combinazione di entrambi, in
conformità a regole e metodi prestabiliti
Pro e Contro dell’imputazione


Le procedure d’imputazione hanno l’obiettivo di ridurre le
distorsioni introdotte dalla presenza di dati mancanti e di
offrire, inoltre, maggiori garanzie sulla coerenza dei risultati
derivati dalle analisi applicate, ma al contempo non confermano
la generalità di tale riduzione, addirittura amplificando in taluni
casi le distorsioni esistenti
Mentre i produttori ufficiali di dati (es. ISTAT) hanno la
necessità “istituzionale” di imputare i valori per fornirli agli
utenti, indipendentemente dall’uso che questi ne faranno, sono
stati sviluppati metodi statistici che non assegnano
esplicitamente valori, ma includono il dato mancante all’interno
della stessa analisi
Meccanismo di generazione
È importante capire se i dati mancanti e i dati
osservati hanno strutture comuni
Si distinguono così diversi tipi di dati mancanti,
ponendo come elemento cruciale da valutare, nel
loro trattamento, se è possibile assumere che il
meccanismo che gli ha generati sia trascurabile,
oppure comporti delle distorsioni
Pattern di dati mancanti
È utile capire se i dati mancanti e i dati osservati seguono o
meno un certo andamento, e quindi se è possibile definire
pattern che descriva i meccanismi che li determinano: ciò è
utile per individuare le procedure più adatte per trattare
quindi i dati mancanti, richiedendo i diversi approcci un
differente impegno computazionale
I pattern possono dipendere tanto dalla natura delle
variabili quanto dall’aspetto del fenomeno che con esse si
vuole investigare; è possibile considerare tre specifici
pattern di dati (Huisman, 1999)
Si parla di :
•
unit missing quando mancano interi blocchi di risposte
ad esempio, nel corso di studi di tipo longitudinale, i dati mancanti seguono
questo modello quando parte dei soggetti decide di abbandonare l’indagine
prematuramente, causando uno squilibrio nella matrice dei dati
•
pattern monotono quando in uno stesso set di dati, l’insieme
delle variabili yj ha più valori registrati dell’insieme delle
variabili yj +1 (queste ultime sono cioè maggiormente soggette a
non risposta)
•
pattern di dati quando alcune caratteristiche vengono rilevate
solo per un sottoinsieme di casi, si parla allora di missing by
design
La struttura dei dati – Il Campione
Assunto che il collettivo di riferimento sia costituito da N unità
statistiche e che si considerino K variabili, la matrice dei dati
iniziale sarà allora costituita da NxK elementi
Indicate le variabili di selezione del campione con Yc e le variabili
utilizzate nell’indagine con Yq, è possibile definire una variabile
Di che assuma valore 1 se l’i-ma unità è campionata e valore 0
nel caso contrario: in tale circostanza, supposto che il
procedimento utilizzato per la selezione del campione sia di
tipo probabilistico, si considera trascurabile (ignorable) il
meccanismo che porta alla perdita di una parte delle
informazioni
È però possibile che il piano di campionamento scelto dai ricercatori non sia
efficiente, o che sia riscontrabile un alto tasso di non rispondenti tra le
unità selezionate: in questi casi è difficile tenere sotto controllo la
presenza di dati mancanti e non è possibile trascurare le cause che
hanno prodotto tale mancanza
Indicate con Yq le variabili oggetto d’indagine, è possibile definire una
variabile Rij che assuma 1 se l’unità risponde e 0 nel caso contrario: in
presenza di dati mancanti è necessario considerare se il meccanismo
che determina non risposta è trascurabile o no
Si consideri, una variabile X non soggetta a non risposta, per la quale sia
possibile registrare n determinazioni campionarie:
si supponga, ad esempio, che la variabile X sia una variabile di struttura
(sesso, età, titolo di studio, e così via), mentre la variabile Y rappresenti il
reddito annuo dell’intervistato
Missing at random ?
La probabilità di risposta ad Y dipende:
 dalla variabile X e dalla variabile Y
 da X ma non da Y
 da X ed eventualmente anche da Y
?
Missing completely at random
Se la probabilità di risposta è indipendente sia da
X che da Y si dice che i dati mancanti sono missing
at random e che i dati osservati sono observed at
random, o più semplicemente che i dati mancanti
sono Missing Completely At Random (MCAR):
in questo caso i valori osservati della variabile Y
formano un sottocampione casuale dei valori già
campionati
Missing at random
Se la probabilità di risposta dipende da X ma non da Y, si
dice che i dati mancanti sono missing at random (MAR):
il pattern che definisce il meccanismo di non risposta è
ricostruibile o prevedibile dalle altre variabili coinvolte
nell’indagine (piuttosto che dalla specifica variabile per la
quale mancano alcune determinazioni), dette mechanism
variables
Es.: studio sul livello d’ansietà di alcuni individui nel tempo: i partecipanti con
un basso livello di autostima saranno meno propensi ad essere coinvolti nelle
successive sessioni di ricerca, così il ricercatore può utilizzare tale parametro per
prevedere il modello di non risposta
Missing not at random
Se la probabilità di risposta dipende da entrambe
le variabili il meccanismo che causa la non risposta
non è trascurabile e si parla di missing not at
random (NMAR)
Es.:e un partecipante ad uno studio sulla perdita di peso non si
presenta ad una delle verifiche periodiche, i dati relativi potrebbero
mancare per fattori non trascurabili: in contrasto con il caso
precedente, il meccanismo che determina la perdita di informazioni
può essere spiegato soltanto dalla variabile che presenta mancanze
Le principali strategie per il
trattamento dei dati mancanti 1

Procedure basate sull’analisi delle unità
completamente registrate
non si considerano nell’analisi le unità per le
quali manca, in alcuni campi, la registrazione dei
valori
PRO
CONTRO
facile
piccole quantità di dati mancanti
rischio di distorsione, riconducibile
ad una selection bias
Le principali strategie per il
trattamento dei dati mancanti 2

Procedure basate sull’imputazione
tecniche d’imposizione di codici plausibili in modo da
creare un set di dati completo che può poi essere
analizzato con le tecniche standard
PRO
apparentemente elimina il problema
CONTRO rischio di errore ulteriore: il codice forzato è
plausibile (ma è considerato “vero”)
N.B. Di regola mirano a preservare l’accuratezza delle statistiche
di sintesi
Le principali strategie per il
trattamento dei dati mancanti 3

Procedure basate su modelli
questa classe generale di procedure prevede che sia
generato un modello per i dati parzialmente mancanti, il
procedimento inferenziale è quindi basato sulla
verosimiglianza sotto quel particolare modello
PRO
non ha i rischi dei casi precedenti
CONTRO
non esplicita un valore imputato, ma lo
ingloba implicitamente nell’analisi
Strategia 1
Si consideri la matrice dei dati (n, k): si eliminano le unità per le
quali mancano alcuni valori, e l’analisi si effettua solo sulle m < n
unità complete (complete-case analysis): si riduce l’informazione,
ma non si modificanoi dati rilevati per svolgere analisi standard
1. listwise deletion: si escludono le unità per cui manca
anche un solo valore (è il default dai più diffusi software
statistici, come SAS o SPSS)
2. la pairwise deletion, più complessa, prevede l’inclusione di
un’unità solo se vengono registrati i valori relativi ad una
predeterminata coppia di variabili delle quali si vuole
stimare la correlazione: tale soluzione fornisce la miglior
stima per ogni correlazione, e utilizza tutte le
informazioni disponibili per quell’obiettivo
Strategia 2
Le procedure d’imputazione possono favorire la riduzione delle distorsioni
introdotte dalla presenza di dati mancanti, costruendo valori coerenti,
ma al contempo non confermano l’universalità di tale riduzione,
addirittura amplificando in taluni casi le distorsioni esistenti
L’immissione di dati effettuata ricorrendo a codici casuali, o ottenuti
formulando congetture, comporta notevoli rischi: il sistema migliore per
trattare i dati mancanti, secondo alcuni studiosi, è quello di utilizzare il
codice “nessuna risposta”, rimandando la valutazione del fenomeno alla
fase d’interpretazione dei risultati (Es. SPAD, di default)
Es.:
imputazione della MEDIA
imputazione della MEDIANA
HOT DECK IMPUTATION
Principali problemi: attenzione alla riduzione di variabilità!!!
Hot Deck Imputation
La ragione primaria per ricorrere a procedure hot deck è la
necessità di ridurre le distorsioni prodotte dal verificarsi
del fenomeno delle mancate risposte
L’imputazione hot deck utilizza processi di classificazione di
tutte le unità in gruppi distinti e quanto più omogenei
all’interno, in base a caratteristiche precise stabilite di
volta in volta in relazione al contesto dell’analisi:
per ogni valore mancante si imputa un valore presente nello stesso
gruppo, sotto l’assunzione che all’interno dei gruppi definiti i non
rispondenti seguono la stessa distribuzione dei rispondenti
Hot Deck Imputation - Varianti
 hot
deck imputation within adjustment
cells
una volta costruite le celle d’aggiustamento, s’imputano i
valori mancanti in ogni singola cella scegliendo tra i valori
registrati nelle stesse
 nearest
neighbor hot deck imputation
prevede la definizione di una metrica per misurare la
distanza tra le diverse unità, e scegliendo quindi come
valori da imputare quelli relativi alle unità rispondenti più
vicine a quelle che sono invece affette da incompletezza
Multiple Imputation
L’imputazione multipla è stata proposta da Rubin
(1987) e consiste nel sostituire ogni valore
mancante con un insieme di valori plausibili, così
da preservare l’incertezza circa il valore “vero”
che si vorrebbe ricostruire
Questi valori multipli costituiscono diversi data
set che vengono analizzati individualmente con le
consuete misure standard per dati completi e i
diversi risultati di queste analisi vengono
combinati in un momento successivo
Strategia 3
I metodi basati sui modelli non si pongono l’obiettivo di
identificare un opportuno valore da assegnare al record con
valori mancanti, ma piuttosto di utilizzare tutta
l’informazione disponibile per preservare le strutture di
associazione e correlazione presente nei dati
Uno degli strumenti più noti è:
L’algoritmo EM (Expectation-Maximization)
Consente di effettuare stime di Massima Verosimiglianza
dei parametri di interesse su set di dati incompleti, come se
fossero completi
L’algoritmo EM
Dato un modello statistico, un insieme di dati osservati Yobs, un insieme
di dati mancanti Ymis e un vettore di parametri ignoti q, partendo da una
stima iniziale q(0) (starting guess), l’algoritmo consiste, ad ogni
iterazione t di 2 passi:
E-step calcolo del valore atteso H(q, q(t-1)) della verosimiglianza
L(q|Yobs) rispetto alla distribuzione dei dati mancanti Ymis
condizionatamente ai dati osservati e alle stime correnti dei parametri
H(q , q(t-1)) ≡
 L(θ | Yobs ,Ymis) f (Ymis | Yobs ,θ
(t -1)
)dYmis
M-step massimizzazione di H(q , q(t)) rispetto a q.
L’algoritmo genera una successione {q (t)}t=1,2,.. che, sotto alcune
ipotesi di regolarità, si dimostra (Dempster et al., 1977) convergere alla
stima di massima verosimiglianza di q.