Strumenti di Business Intelligence per l’Attendibilità delle Stime
Campionarie
•Obiettivi
•Applicazione e risultati
L’insieme di tecnologie ed applicazioni di Business Intelligence (di
seguito BI) è il contesto operativo mediante il quale è possibile
non solo potenziare la componente digitale a supporto dei processi
di produzione statistica, ma anche sostenere il processo di
trasformazione dei “dati” in “conoscenza”, attraverso elaborazioni
che ne garantiscano la qualità e l’affidabilità, conoscenza che può
quindi essere condivisa e diventare un patrimonio comune.
L’utilizzo di strumenti e tecniche di BI (data-warehouse, Olap,
Data mining, web application) è in grado di determinare un
miglioramento per alcuni versi immediato di alcune dimensioni
della qualità come l'accessibilità e la tempestività.
In questo lavoro viene esposto l’utilizzo di questi metodi e tecniche
tipiche della BI al fine di definire strumenti generalizzati per
presidiare aspetti peculiari della qualità statistica di stime
provenienti da indagini campionarie come :
- l’accuratezza, ovvero la vicinanza del valore rilevato al
corrispondente valore vero, non osservato, del parametro di
interesse;
- l’adeguatezza, intesa come la capacità del dato o del sistema di
informazioni statistiche di soddisfare i bisogni conoscitivi
dell'utente
- l’interpretabilità, ossia la capacità dell’informazione statistica di
essere correttamente interpretata e utilizzata.
La piattaforma di BI si basa essenzialmente su un sistema di
metadati centralizzato che garantisce la consistenza delle
informazioni e consente la navigazione ipermediale.
Tali metadati “applicativi” sono stati integrati con metadati di tipo
metodologico, necessari a sviluppare le funzionalità di attendibilità
delle stime campionarie, e fanno riferimento a:
tipo di disegno;
criteri di stratificazione;
domini pianificati;
totali noti della poststratificazione;
pesi finali;
modelli regressivi dell'errore relativo campionario.
Figura 1. Struttura dei metadati Metodologici
•Metodi e strumenti
Il calcolo dell’errore campionario è un’operazione agevole solo nel
caso dei più semplici disegni campionari, le indagini campionarie
svolte nell’ambito della statistica ufficiale sono invece
generalmente caratterizzate da disegni campionari complessi, a
due o più stadi, con stratificazione delle unità statistiche in cui
vengono utilizzati stimatori non lineari dei dati campionari.
Per questi motivi si ricorre ad una presentazione sintetica degli
errori campionari che consente di determinare l’attendibilità delle
stime ricorrendo all’utilizzo di modelli regressivi, che mettono in
relazione il valore delle stime con il relativo errore campionario.
log εˆ2(Yˆ d)  a  b log (Yˆ d)
Il set di metadati comprende, inoltre, una formalizzazione generale
degli indicatori costituiti da un rapporto tra stime, dei filtri logici del
questionario dell'indagine e delle classificazioni adottate.
Figura 2. Selezione dei parametri
(1)
In questo modo è relativamente agevole valutare la precisione
delle stime ottenute, una volta stimati i modelli (1) distintamente
per ciascun dominio pianificato d definito nella fase di
progettazione dell’indagine. Fissando il livello di confidenza α, i
limiti superiore e inferiore possono essere determinati attraverso:
(Yˆ d z1 / 2 *Yˆ d*ˆ(Yˆ d);Yˆ d z1 / 2 *Yˆ d*ˆ(Yˆ d))
La metodologia descritta resta comunque valida in caso si voglia
stimare una frequenza relativa o un qualsiasi indicatore riferiti
all’intera popolazione di riferimento del dominio pianificato, o
anche a un livello di disaggregazione in cui il totale della
popolazione corrisponda ad uno dei vincoli considerati nella fase
di poststratificazione del campione.
ˆ
Y
Pˆd  d
Nd
Nel caso si voglia calcolare l’errore relativo in una
sottopopolazione diversa, ad esempio la popolazione che presenta
una certa modalità di una variabile di interesse, è necessario
ricorrere ad una approssimazione. Infatti, la stima di una
frequenza relativa o di un qualunque indicatore riferita a un
sottogruppo di persone, è ottenibile come rapporto tra due
quantità entrambe stimate:
Le procedure sono state sviluppate in linguaggio SAS macro, mentre
il sistema BI di SAS provvede alla costruzione delle interfacce,
utilizzando la tecnologia JSP. Le scelte fatte dall’utente consentono
di elaborare i dati elementari fornendo come risultato tabelle in cui
sono riportate le stime unitamente agli estremi dell’intervallo di
confidenza al 95% ed una valutazione dell’attendibilità della stima
espressa in un formato grafico (da una a cinque stelle).
Figura 3. Risultati delle elaborazioni
Nˆ d
ˆ
Rd 
Dˆ d
Una valutazione approssimata dell’errore relativo della stima si
può ottenere come:
ˆ( Rˆ d )  ˆ 2 ( Nˆ d )  ˆ 2 ( Dˆ d )
•Conclusioni
Il sistema è stato progettato e sviluppato inizialmente per la Rilevazione sulle Forze di Lavoro Istat, e quindi esteso ad altre indagini
condotte dall’Isfol. La prima indagine svolta dall’Isfol per la quale è stato esteso lo sviluppo delle procedure per il calcolo dell’attendibilità
delle stime è la rilevazione Isfol-PLUS, in seguito le procedure sono state sviluppate per l’indagine Isfol “Gli esiti occupazionali dell'alta
formazione nel Mezzogiorno”.
Successive estensioni hanno riguardato l’indagine Istat Multiscopo “Cultura, tempo libero e nuove tecnologie”, che nell’edizione del 2006
contiene il modulo armonizzato a livello europeo Adult Education Survey specifico sulla partecipazione degli adulti alla formazione.
L’impiego di tecnologie di data warehouse web based ha contribuito a fornire validi strumenti di presidio di alcune dimensioni cruciali
della qualità statistica spesso in conflitto tra loro: il miglioramento della accessibilità è stato coniugato con la necessità di garantire in
modo metodologicamente rigoroso l’attendibilità delle stime prodotte. L’utilizzo degli strumenti di BI consente di raggiungere questo
obiettivo attraverso modalità di lavoro user-friendly, fornendo così un contributo a promuovere un linguaggio comune e alla diffusione di
una cultura statistica all’interno di un istituto di ricerca caratterizzato da una notevole eterogeneità di approcci metodologici e dalla
presenza di competenze e sensibilità molto diverse.
Autori:
Alessandro Martini– [email protected]
Federico Orfei – [email protected]