Metodi per l’integrazione tra la base dati Health
Search e l’indagine Istat sulle condizioni di salute
Marco Di Zio
Di Consiglio L., Falorsi S., Solari F.
Vantaggi B. (Università di Roma ‘La Sapienza’)
24 giugno 2014
Indice
1. Contesto informativo: peculiarità e opportunità per integrazione
2. Contesto metodologico: statistical matching
3. Statistical matching con variabili misclassificate
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto informativo - Elementi per integrazione
 Nelle 2 fonti non vengono osservate le stesse unità statistiche
 La fonte HS è un campione non aleatorio
 Unità rispondenti diverse:
• IS gli individui della famiglia (soggetto dell’inferenza),
• HS i medici di base.
Possono esserci degli effetti sulla risposta dovuti a questa differenza.
Per esempio nel caso degli individui si può avere un effetto
‘percezione’ della malattia che non è invece presente nel medico
che basa la sua classificazione su dati oggettivi
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Potenzialità metodi di integrazione fra IS-HS
 Valutazione e trattamento della misclassificazione derivante da
‘percezione’ della malattia
 Analisi di variabili osservate rispettivamente in due fonti informative
differenti
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Integrazione: statistical matching
 La non osservazione di unità in comune e la presenza di variabili in
comune
Statistical Matching
 Si sfruttano le informazioni delle variabili in comune per fare inferenza
sulle variabili osservate separatamente nelle due fonti di dati
- e.g., previsione del dato micro
~z
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Statistical matching sotto indipendenza condizionale
 Nelle procedure classiche di matching (per es. imputazione con media
della Y per profilo di unità dato dalle X) si sta assumendo
l’indipendenza di Y (osservata in IS) e Z (in HS) dato X
 Assumiamo che la conoscenza di X sia fortemente esplicativa del
comportamento congiunto di Y e Z
 Problema: ipotesi non testabile con i dati a disposizione
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Statistical matching sotto indipendenza condizionale
 Esempio: supponiamo che Y sia livello di educazione osservata solo in
IS, Z = spesa per farmaci, X=classe di età, sesso, ripartizione
geografica.
 Prediciamo in IS la spesa per farmaci tramite la media della spesa
osservata in una determinata X stimata su HS
 Quando andiamo ad analizzare congiuntamente Y e Z è evidente che
stiamo assumendo che ogni individuo in X (stesso sesso, età,…) abbia
la stessa spesa per ogni livello di educazione.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Un metodo per fare inferenza oltre indipendenza
condizionata (IC)
 Analisi dell'incertezza, i.e., analisi dello spazio di identificabilità del
modello
 Nel caso di variabili categoriali consiste nel calcolare gli estremi
superiori ed inferiori delle frequenze di ogni singola (Y,Z) cella
compatibili con le frequenze osservate in IS di (Y,X) e (Z,X) in HS
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
?
?
0.8
?
?
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.8
?
0.8
?
?
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.8
0
0.8
0.1
0.1
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
?
?
0.8
?
?
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.7
?
0.8
?
?
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
0.7
0.1
0.8
0.2
0
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica
[0.7, 0.8]
[0, 0.1]
0.8
[0.1, 0.2]
[0, 0.1]
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Esempio. Tab Y,Z dicotomica sotto indipendenza
0.72
0.08
0.8
0.18
0.02
0.2
0.9
0.1
1
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Un metodo per fare inferenza oltre Indipendenza
condizionata (IC)
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Analisi dell’incertezza del matching
 L’ampiezza media dell’incertezza da un indicazione sulla incertezza
insita nel processo di matching
 La distribuzione ottenuta con IC è sempre interna agli intervalli, quindi
valutazione indiretta dell’applicazione di matching basata su IC
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Peculiarità dell’integrazione tra IS e HS
 HS campione non aleatorio
 Possibile misclassificazione dovuta alla percezione dell’individuo
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Campione non probabilistico
 È stato adottato un approccio basato sul calcolo di “pseudo designbased weight”.
 Il calcolo di questo peso si basa sulla interpretazione euristica che
ogni unità rappresenti le altre unità non campionate.
 I pesi sono ottenuti tramite post-stratificazione rispetto ai totali noti
della numerosità della popolazione per classe di età, sesso,
ripartizione geografica.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Assunzioni
 La post-stratificazione elimina il bias dovuto a problemi di selezione
se, all’interno di ciascuna cella di aggiustamento, la probabilità che
ogni unità risponda è indipendente dal valore assunto dall’unità per ciò
che concerne le variabili oggetto di interesse.
 Un altro modo di spiegare questa ipotesi è che i rispondenti ed i nonrispondenti in una data cella hanno la stessa distribuzione riguardo la
variabile di interesse
 In letteratura nota come ipotesi MAR
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Matching con variabili misclassificate
Sviluppo di metodi sotto IC e analisi incertezza che tengano conto della
misclassificazione di alcune X
Si ipotizza un modello classico per trattare variabili misclassificate
Due contesti
1. Integrazione sotto IC avendo osservato (Y,X), (Z,X*)
2. Analisi dell’incertezza relativamente ai modelli compatibili con le
distribuzioni osservate (Y,X), (Z,X*)
Ipotesi: si prende come variabile X* di riferimento quella osservata in HS
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto 1 – Modello di misclassificazione
Sia X la prevalenza osservata con misclassificazione e X* quella
osservata correttamente, le ipotesi sono
1. P(X=0|X*=0)=1
2. P(X=1|X*=1,W=w) = λw
 Nel caso di variabili dicotomiche si ottiene che la probabilità di
misclassificazione
λw =P(X=1|W=w)/P(X*=1|W=w)
 La stima è stata ottenuta sostituendo le frequenze pesate
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto 1 – Statistical Matching sotto IC
 Tramite P(X*=i|X=i,W=w), i=0,1 è stato previsto in IS la prevalenza
condizionatamente al dato osservato X=i e w.
 Con questa variabile corretta è stato poi condotto il matching sotto IC
 Metodo : hot-deck per celle di imputazione.
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014
Contesto 2 - Analisi incertezza con misclassificazione
Si risolve il sistema tramite l’algoritmo sviluppato in [1]
che fornisce gli estremi di ogni singola cella
pmin<= p(Y=y,Z=z)<=pmax
per ogni y,z
[1] Capotorti Vantaggi, Locally strong coherence in inferential processes (2002) Annals of Mathematics and
Artificial Intelligence, vol. 35 pp. 125-149
Ulteriori sviluppi
 Approfondimento su metodi alternativi per utilizzo di un campione non
aleatorio (propensity score matching, inferenza da modello)
 Approfondimento su come combinare stime ottenute da un campione
probabilistico e non-probabilistico
 Analisi incertezza senza assumere alcun modello di misclassificazione
Metodi per integrazione IS-HS, Marco Di Zio – Istat, 24 giugno 2014