Università degli studi Roma Tre Dipartimento di Scienze dell’Educazione Dottorato di ricerca in Innovazione e valutazione dei sistemi d’istruzione Prof. G. Bove docente Lezione attività data 09.12.2003 resoconto n. 05 argomento: Il campionamento: aspetti tecnici e problemi applicativi Il professore introduce il concetto di campionamento facendo uso di una presentazione (allegata) che viene consegnata alle dottorande e che fa parte integrante del presente resoconto. Per evitare la duplicazione, vengono qui riportate soltanto le nozioni-chiave e le precisazioni che su queste il professore ha fornito. Rispetto al contenuto complessivo della presentazione, il professore ha illustrato i primi tre punti in indice: 1. indagine statistica e qualità dei dati; 2. campione probabilistico e non probabilistico; 3. disegno semplice ed errore campionario. 1. Indagine statistica e qualità dei dati. L’indagine statistica può essere suddivisa in due tipi principali, affetti dai seguenti tipi di errore: Tipo di indagine • Censuaria Tipo di errore Errore non campionario • Errore campionario Errore non campionario Campionaria L’indagine censuaria, andando ad indagare il fenomeno presso l’intera popolazione di interesse, è particolarmente complessa e costosa. Per questo normalmente si preferisce utilizzare l’indagine campionaria, che permette un notevole risparmio nel costo contatto, risparmio che può essere reinvestito nella riduzione dell’errore campionario. La qualità dei dati si riferisce principalmente a: a) Progettazione dell’indagine; b) Accuratezza e Precisione per evitare errori di tipo rispettivamente non campionario e campionario sui dati. 1 Nella fase di progettazione è cruciale la chiarezza degli obiettivi che debbono essere specificati con cura, se possibile fino alla definizione degli incroci tra variabili, per contenere al minimo gli errori non statistici tipici di questa fase. L’accuratezza, legata all’incidenza dell’errore non campionario, dev’essere perseguita durante tutte le fasi di indagine. Questo tipo di errore può manifestarsi come: - - errore di specificazione (relativamente alla popolazione oggetto d’indagine, oppure alla lista delle unità di popolazione); errore di misura (dovuti agli strumenti di indagine, ad es. il questionario non correttamente formulato, al soggetto rilevatore, o all’intervistato che può distorcere deliberatamente un’informazione); risposte mancanti, parziali o totali, sulle quali sono possibili procedure di “recupero” dell’informazione; errori di memorizzazione informatica; errori di calcolo. La precisione si riferisce invece all’errore campionario, la cui incidenza è intesa come la differenza tra la stima di un valore ottenuta attraverso il campione (depurata dall’errore non campionario) e il dato “reale” di quel valore nella popolazione. L’errore totale somma l’errore campionario e l’errore non campionario. 2. Indagini campionarie – campione probabilistico e non probabilistico Come abbiamo visto, l’indagine campionaria permette un risparmio economico e di tempo notevoli rispetto a quella censuaria. Ma anche i vantaggi in termini di organizzazione non sono da sottovalutare: in alcune situazioni l’indagine censuaria non è praticabile affatto, mentre quella campionaria risulta maggiormente accurata e in grado di rilevare un quantità più elevata di informazioni. L’abbattimento dei costi permette inoltre l’eventuale ripetizione cadenziata, con maggiore tempestività. Dato il vasto impiego di questo tipo di indagini, è fiorito anche un intenso scambio di esperienze fra la ricerca accademica e quella applicata, rispettivamente sintetizzate nella teoria dei campioni e nella pratica del campionamento. La distinzione preliminare sul concetto di campione riguarda il campione probabilistico (più legato all’accademia) e quello non probabilistico (maggiormente utilizzato nelle indagini di mercato). Per il campione probabilistico è fondamentale disporre della lista delle unità che compongono la popolazione finita oggetto di studio. E’ sulla lista che verrà operata la selezione casuale degli elementi da sottoporre ad indagine. Tale procedura origina lo spazio campionario, ovvero l’insieme dei campioni possibili su quella popolazione. Lo spazio campionario è il parametro su cui calcolare la probabilità di estrazione di ogni campione. La coppia “spazio campionario” e “probabilità di estrazione” è detta disegno campionario. Ciò che è distintivo del campione probabilistico rispetto a quello non probabilistico è proprio la probabilità positiva che ogni unità della popolazione ha di essere inclusa nel campione, sulla base della quale è possibile calcolare il peso che ciascuna unità campionaria deve assumere nel riporto dei risultati all’universo. Ecco perché l’errore campionario è valutabile e può essere contenuto. Tutte le indagini Invalsi contengono la colonna per il calcolo del peso campionario. 2 Il caso, la casualità è spesso per gli studenti sinonimo di irrazionalità: in statistica questo concetto è invece collegato alla qualità del dato. La casualità è necessaria proprio in quanto nelle indagini socio-pedagogiche generalmente non si lavora in laboratorio, e non si possono pertanto escludere effetti distorsivi di variabili non controllabili o ignote. Tali effetti vengono ridotti con il ricorso al caso. Esistono comunque degli svantaggi nell’utilizzo di indagini campionarie, in primo luogo la lista di partenza non sempre reperibile, il suo costo o la non applicabilità. In questi casi si fa generalmente ricorso al campionamento non probabilistico. Caratteristiche principali di questo tipo di campione sono: la soggettività nel criterio di selezione delle unità campionarie, legata all’idea che il ricercatore ha di rappresentatività, e la conseguente probabilità di riselezionare lo stesso campione in un’eventuale ripetizione della procedura, con probabilità zero per le rimanenti unità della popolazione di essere estratte. Vi sono situazioni in cui tuttavia il campione non probabilistico è l’unica soluzione, e questo accade quando non si dispone della lista delle unità da campionare (ad es.: per fenomeni sommersi, quali quello dei clandestini). - precisione Per quote Bilanciato A scelta ragionata A valanga Di convenienza TIPI DI CAMPIONAMENTO NON PROBABILISTICO + Dal primo tipo (di convenienza) all’ultimo (per quote), il campionamento non probabilistico si avvicina sempre più a quello probabilistico: il campione per quote è in tutto simile a quello stratificato, mancando soltanto la casualità nel reclutamento dei soggetti. Il principale svantaggio del campionamento non probabilistico risiede nella impossibilità di valutare la distorsione dell’errore campionario, mentre il maggiore vantaggio è l’assenza di lista di partenza. 3. Disegno semplice ed errore campionario Il campionamento probabilistico di base di definisce “disegno semplice” ed è caratterizzato da due aspetti principali: • • si campiona direttamente l’intera popolazione sulla base della lista; ogni unità campione ha la stessa probabilità di essere estratta. 3 L’esempio classico è quello delle palline estratte dall’urna: si può prevedere che le palline siano reimmesse nell’urna, con o senza ordine di estrazione, ma nella pratica ciò non avviene e si segue pertanto l’ordine casuale di estrazione (campione casuale semplice in blocco). Nel disegno semplice tutte le unità campione hanno la stessa probabilità di venire estratte, e ciò definisce un “disegno autoponderante”. Data una certa popolazione, dalla quale vogliamo estrarre un campione, è possibile stimare un valore incognito sulla popolazione attraverso il campione stesso. In questo caso la media della popolazione è il parametro per tale stima. In prima istanza possiamo utilizzare per analogia la media del campione, affermando che essa è lo stimatore della media sulla popolazione. Tuttavia, essendo N i campioni potenzialmente estraibili da una popolazione, avremo una variabilità nei possibili valori dello stimatore, di cui possiamo rappresentare la distribuzione campionaria. Si parla in questo caso di distribuzione campionaria dello stimatore. L’errore di stima è dato dalla differenza fra media del campione meno media della popolazione, ed è possibile rappresentarne la distribuzione campionaria (distribuzione campionaria dell’errore). Una stima esatta della media si ottiene raramente, ed è pertanto necessario disporre di una misura dell’errore campionario. Più piccolo è l’errore campionario associato allo stimatore, migliore sarà la stima da esso effettuata. Per la scelta dello stimatore più opportuno, si può far riferimento a due criteri principali: • • la correttezza nella proprietà di distribuzione degli stimatori; l’errore medio minimo (Mean Square Error) legato alla deviazione standard. Nella pratica di ricerca normalmente si estrae un solo campione dalla popolazione, pertanto non è possibile disporre di informazioni su tutti i possibili campioni, e quindi avremo la necessità di stimare l’errore medio e l’intervallo di stima (intervallo di confidenza). Per l’errore medio esiste la possibilità di calcolare l’MSE mediante formula (allegata) in cui ciò che è importante è la dimensione del campione, inversamente proporzionale all’MSE. Per campioni con numerosità >30 unità, ci si può anche riferire alla normalità della distribuzione mediante il teorema del limite centrale. Lo stimatore, di cui possiamo rappresentarci la distribuzione normale, avrà al centro della sua distribuzione il parametro che dobbiamo stimare. Su campioni estesi la varianza tende a ridursi, quindi la stima sarà vicina alla media che dobbiamo calcolare. Per costruire un intervallo di confidenza su un campione > 30 unità (che verosimilmente conterrà il valore medio della popolazione) si può sottrarre e aggiungere una certa quantità alla media del campione, mediante un coefficiente che ci permetta con ragionevole precisione di affermare che la media della popolazione è contenuta nell’intervallo così ottenuto. Tale probabilità (che può assumere valori ad esempio del 90 o 95%) è detta “livello di confidenza” ed è rappresentabile graficamente. Più la curva della normale è leptocurtica, maggiore sarà la precisione dell’intervallo. Ciò che è importante, ai fini di ricerca, è la possibilità di accertare e misurare l’errore per ridurlo al minimo, anche se non ci si può illudere di ottenere con il campione delle stime esatte. Altra informazione importante da tener presente nella ricerca empirica è che lo stesso campione si può ottenere sia con una procedura probabilistica, sia non probabilistica, ma in quest’ultimo caso non si potrà fare affidamento sulle procedure relative agli errori. 4