Imputazione dati mancanti

annuncio pubblicitario
Imputazione dati mancanti
 Una volta preparata la matrice dei dati, occorre
controllare alcuni aspetti delle variabili disponibili.




Missing Value
Range
Minimum & Maximum
Extreme Values
 Per verificare la presenza di errori particolari, dati
mancanti e valori estremi
Dati mancanti
MISSING VALUE
Missing Completely At Random
Missing At Random
Missing non ingnorabili
MCAR
MAR
NMAR
Il processo che ha
determinato la non
rilevazione è completamente
indipendente dal valore
mancante e da qualsiasi
altra variabile disponibile
Il processo che ha
determinato la non
rilevazione è completamente
indipendente dal valore
mancante ma può dipendere
da altre variabili disponibili
Il processo che ha
determinato la non
rilevazione del valore
dipende dal valore
mancante
Missing completely at random (MCAR)



La probabilità che un certo valore per una data variabile sia
missing è indipendente da qualsiasi altro valore per qualsiasi
altra variabile, missing o osservata.
Ovvero i valori missing values sono distribuiti aleatoriamente.
Esempi
 Esperimento


Sondaggi



Avviamo più prove sperimentali con un ordine casuale.
Concludiamole dopo 30 minuti.
Chiediamo un numero di domande sorteggiate casualmente
Limitiamo al 30% del campione (casuale) un certo item
Data entry


Inseriamo gli item in disordine sorteggiandoli dal mucchio
Fermiamo l’inserimento dati a intervalli aleatori.
Missing at random (MAR)
 La probabilità che un valore sia missing è collegata ai
valori osservati disponibili
 Esempi
 Le donne meno spesso indicano l’età
 I cinesi più spesso evadono le tasse
 MAR se sesso e nazionalità sono osservati
Not missing at random (NMAR)
 La probabilità che un valore sia mancante è collegata
ai valori mancanti
 Esempi
 I sovrappeso meno spesso indicano il peso
 I ricchi il reddito
 Gli appartenenti all’estrema destra il partito
 NMAR: problema grave
Cosa fare?
 Primo punto: individuare i missing utilizzando le funzioni
di calcolo per le frequenze, anche tavole doppie,
individuando così anche i dati anomali o errori di
inserimento particolari
 Quindi, in fase di codifica ed inserimento dei dati, sia
assegnato un valore univoco ai dati mancanti, in modo
da distinguerli chiaramente dai valori effettivi.
 Ne segue che, ai missing, spettano sempre valori al di
fuori dei campi di esistenza delle rispettive variabili,
magari identici per tutto il data set: ad esempio 0
se esistono variabili su scala a rapporti 0 è lecito? NO!
occorre un’alternativa? Sì un codice alfabetico NA
Strategia passiva
 i dati missing vengono ignorati; l’analisi viene effettuata
esclusivamente sui dati presenti (complete case approach)
in due diversi modi: casewise o parwise deletion
 casewise deletion (listwise deletion)
vengono analizzati solamente casi completi; in presenza di
molte variabili si ha una considerevole perdita di casi;
 Non esiste una regola per decidere quando eliminare il
record o correggerlo con un’imputazione (strategia attiva).
 Con grandi campioni e basse proporzioni di missing (5% o
meno) comunemente si procede ad una casewise/ listwise
deletion
Strategia passiva
 Nella casewise deletion o listwise deletion il
problema principale dovuto è la perdita di informazioni e
quindi di potenza “statistica”.
 Ad esempio, con l’1% di probabilità di avere un missing
per ognuna delle 100 variabili considerate risulterebbe
disponibile solo il 37% del campione.
 Con 50 variabili avremmo solo il 60%
 E con il 5% di probabilità di avere un missing, non si
avrebbe a disposizione nemmeno l’1% e l’8% del
campione, per 100 e 50 variabili complete
(come mai?)
Strategia passiva
 pairwise deletion:
vengono analizzati casi che presentano dati missing per
ciascuna coppia di variabili considerate;
 Ad esempio, il calcolo delle correlazioni può essere svolto
su un numero diverso di casi per ciascuna coppia di
variabili; l’insieme dei coefficienti di correlazione viene
allora stimato su un maggior numero di casi rispetto alla
situazione precedente.
 Questa opzione è solitamente poco preferibile, appunto
perché il calcoli sono fatti su sottocampioni diversi e la
matrice di varianza \ covarianza può generare problemi
Strategia esplorativa
 Abbiamo detto che i dati missing di una variabile sono
raccolti in un solo codice, gestito sullo stesso modo delle
altre modalità della variabile attiva.
 Tale strategia consente di verificare se i valori mancanti
si riferiscono ad osservazioni sistematicamente diverse
da quelle complete e di studiare le differenze tra unità
complete e unità incomplete.
Strategia esplorativa
Strategia esplorativa
Strategia esplorativa
Strategia esplorativa
Strategia attiva (imputazione)
 L’obiettivo in questo caso è quello di sostituire ciascun
valore mancante con uno plausibile, stimato sulla base
dei valori validi delle altre variabili completo.
 Supponiamo, ad esempio, di voler stimare il valore
mancante per la variabile “peso” conoscendo “sesso” e/o
l“età” per ogni intervistato.
 Si dovrebbe considerare in modo molto cauto l’uso
dell’imputazione, per via del suo potenziale impatto,
talora molto forte, sull’analisi dei dati.
Strategia 1 listwise
 n=20
 donne (grigio) più riservate
per le variabili
 peso (Y)
 età (X2)
caso sesso (X1 ) età-20 (X2 ) peso (Y)
1
0
28
2
1
19
218
3
1
37
235
4
0
24
150
5
1
18
6
1
176
7
1
8
0
9
0
28
10
1
46
195
11
0
23
12
0
29
13
1
44
221
14
0
15
0
21
16
1
41
204
17
0
40
18
1
37
208
19
0
20
1
43
Simulazione listwise



cancello tutti i casi con valori
missing
lavoro solo sui record completi
è il default nei software
In questo caso il campione risultante
non è selezione in funzione del
peso Y, ma del sesso X.
La cancellazione listwise è stata
selettiva per sesso, non per
peso.
Se il peso non dipende dal sesso, il
campione residuo non è distorto
per peso
caso sesso (X1) età-20 (X2) peso (Y)
1
0
28
2
1
19
218
3
1
37
235
4
0
24
150
5
1
18
6
1
176
7
1
8
0
9
0
28
10
1
46
195
11
0
23
12
0
29
13
1
44
221
14
0
15
0
21
16
1
41
204
17
0
40
18
1
37
208
19
0
20
1
43
 LD conviene, in generale, su dati MCAR
 LD non porta a distorsioni salvo la cancellazione
dipenda da Y
Strategia 2: media
 Si calcola la media dei casi
completi Y per sostituirla
nei casi mancanti
 Lo stesso per X1,
 Il modello implicito




X2…
Y=Y
X1=1
X2=2
…
 Problemi
 Si oscura la relazione
tra X e Y
 si sottostima la
varianza di Y e la
covarianza tra Xi e Y
Strategia 2: media condizionata
 Si calcola la media sui casi completi, ma condizionatamente
ai valori noti X1, X2 …
 il modello implicito
Y è missing
Y =  X1 1
 se
 Problemi
 Si ignora la componente random (manca )
 si sottostima la varianza della variabile
Y imputata
Strategia 3: media condizionata + 
 Come la media condizionata più un residuo aleatorio
 Il modello implicito
 se
Y è missing
Y = 0 X1 1  Y
 Problemi
 con Y modifico artificialmente la correlazione tra
Y e X1
 introduco un'altra sorgente di variabilità nei miei dati
Problemi con l’imputazione singola
 Si sottostima la variabilità delle variabili missing e quindi
anche la variabilità delle stime campionarie svolte anche
con i dati imputati
 Infatti si trattano i valori imputati come osservati,
mentre sono più “incerti” sono ulteriori stime!
 In altri termini, quando si considera l’aggiunta di un
residuo aleatorio () ipoteticamente dovuto al modello
aleatorio considerato, si introduce una sorta di ulteriore
campionamento quindi una aleatorietà aggiuntiva oltre a
quella primaria dovuta all'estrazione iniziale del
campione
Scarica