Strumenti di Business Intelligence per l’Attendibilità delle Stime Campionarie •Obiettivi •Applicazione e risultati L’insieme di tecnologie ed applicazioni di Business Intelligence (di seguito BI) è il contesto operativo mediante il quale è possibile non solo potenziare la componente digitale a supporto dei processi di produzione statistica, ma anche sostenere il processo di trasformazione dei “dati” in “conoscenza”, attraverso elaborazioni che ne garantiscano la qualità e l’affidabilità, conoscenza che può quindi essere condivisa e diventare un patrimonio comune. L’utilizzo di strumenti e tecniche di BI (data-warehouse, Olap, Data mining, web application) è in grado di determinare un miglioramento per alcuni versi immediato di alcune dimensioni della qualità come l'accessibilità e la tempestività. In questo lavoro viene esposto l’utilizzo di questi metodi e tecniche tipiche della BI al fine di definire strumenti generalizzati per presidiare aspetti peculiari della qualità statistica di stime provenienti da indagini campionarie come : - l’accuratezza, ovvero la vicinanza del valore rilevato al corrispondente valore vero, non osservato, del parametro di interesse; - l’adeguatezza, intesa come la capacità del dato o del sistema di informazioni statistiche di soddisfare i bisogni conoscitivi dell'utente - l’interpretabilità, ossia la capacità dell’informazione statistica di essere correttamente interpretata e utilizzata. La piattaforma di BI si basa essenzialmente su un sistema di metadati centralizzato che garantisce la consistenza delle informazioni e consente la navigazione ipermediale. Tali metadati “applicativi” sono stati integrati con metadati di tipo metodologico, necessari a sviluppare le funzionalità di attendibilità delle stime campionarie, e fanno riferimento a: tipo di disegno; criteri di stratificazione; domini pianificati; totali noti della poststratificazione; pesi finali; modelli regressivi dell'errore relativo campionario. Figura 1. Struttura dei metadati Metodologici •Metodi e strumenti Il calcolo dell’errore campionario è un’operazione agevole solo nel caso dei più semplici disegni campionari, le indagini campionarie svolte nell’ambito della statistica ufficiale sono invece generalmente caratterizzate da disegni campionari complessi, a due o più stadi, con stratificazione delle unità statistiche in cui vengono utilizzati stimatori non lineari dei dati campionari. Per questi motivi si ricorre ad una presentazione sintetica degli errori campionari che consente di determinare l’attendibilità delle stime ricorrendo all’utilizzo di modelli regressivi, che mettono in relazione il valore delle stime con il relativo errore campionario. log εˆ2(Yˆ d) a b log (Yˆ d) Il set di metadati comprende, inoltre, una formalizzazione generale degli indicatori costituiti da un rapporto tra stime, dei filtri logici del questionario dell'indagine e delle classificazioni adottate. Figura 2. Selezione dei parametri (1) In questo modo è relativamente agevole valutare la precisione delle stime ottenute, una volta stimati i modelli (1) distintamente per ciascun dominio pianificato d definito nella fase di progettazione dell’indagine. Fissando il livello di confidenza α, i limiti superiore e inferiore possono essere determinati attraverso: (Yˆ d z1 / 2 *Yˆ d*ˆ(Yˆ d);Yˆ d z1 / 2 *Yˆ d*ˆ(Yˆ d)) La metodologia descritta resta comunque valida in caso si voglia stimare una frequenza relativa o un qualsiasi indicatore riferiti all’intera popolazione di riferimento del dominio pianificato, o anche a un livello di disaggregazione in cui il totale della popolazione corrisponda ad uno dei vincoli considerati nella fase di poststratificazione del campione. ˆ Y Pˆd d Nd Nel caso si voglia calcolare l’errore relativo in una sottopopolazione diversa, ad esempio la popolazione che presenta una certa modalità di una variabile di interesse, è necessario ricorrere ad una approssimazione. Infatti, la stima di una frequenza relativa o di un qualunque indicatore riferita a un sottogruppo di persone, è ottenibile come rapporto tra due quantità entrambe stimate: Le procedure sono state sviluppate in linguaggio SAS macro, mentre il sistema BI di SAS provvede alla costruzione delle interfacce, utilizzando la tecnologia JSP. Le scelte fatte dall’utente consentono di elaborare i dati elementari fornendo come risultato tabelle in cui sono riportate le stime unitamente agli estremi dell’intervallo di confidenza al 95% ed una valutazione dell’attendibilità della stima espressa in un formato grafico (da una a cinque stelle). Figura 3. Risultati delle elaborazioni Nˆ d ˆ Rd Dˆ d Una valutazione approssimata dell’errore relativo della stima si può ottenere come: ˆ( Rˆ d ) ˆ 2 ( Nˆ d ) ˆ 2 ( Dˆ d ) •Conclusioni Il sistema è stato progettato e sviluppato inizialmente per la Rilevazione sulle Forze di Lavoro Istat, e quindi esteso ad altre indagini condotte dall’Isfol. La prima indagine svolta dall’Isfol per la quale è stato esteso lo sviluppo delle procedure per il calcolo dell’attendibilità delle stime è la rilevazione Isfol-PLUS, in seguito le procedure sono state sviluppate per l’indagine Isfol “Gli esiti occupazionali dell'alta formazione nel Mezzogiorno”. Successive estensioni hanno riguardato l’indagine Istat Multiscopo “Cultura, tempo libero e nuove tecnologie”, che nell’edizione del 2006 contiene il modulo armonizzato a livello europeo Adult Education Survey specifico sulla partecipazione degli adulti alla formazione. L’impiego di tecnologie di data warehouse web based ha contribuito a fornire validi strumenti di presidio di alcune dimensioni cruciali della qualità statistica spesso in conflitto tra loro: il miglioramento della accessibilità è stato coniugato con la necessità di garantire in modo metodologicamente rigoroso l’attendibilità delle stime prodotte. L’utilizzo degli strumenti di BI consente di raggiungere questo obiettivo attraverso modalità di lavoro user-friendly, fornendo così un contributo a promuovere un linguaggio comune e alla diffusione di una cultura statistica all’interno di un istituto di ricerca caratterizzato da una notevole eterogeneità di approcci metodologici e dalla presenza di competenze e sensibilità molto diverse. Autori: Alessandro Martini– [email protected] Federico Orfei – [email protected]