Universit degli studi Roma Tre - Servizio di Hosting di Roma Tre

annuncio pubblicitario
Università degli studi Roma Tre
Dipartimento di Scienze dell’Educazione
Dottorato di ricerca in Innovazione e valutazione dei sistemi d’istruzione
Prof. G. Bove
docente
Lezione
attività
data
09.12.2003
resoconto
n. 05
argomento: Il campionamento: aspetti tecnici e problemi applicativi
Il professore introduce il concetto di campionamento facendo uso di una presentazione (allegata)
che viene consegnata alle dottorande e che fa parte integrante del presente resoconto. Per evitare la
duplicazione, vengono qui riportate soltanto le nozioni-chiave e le precisazioni che su queste il
professore ha fornito.
Rispetto al contenuto complessivo della presentazione, il professore ha illustrato i primi tre punti in
indice:
1. indagine statistica e qualità dei dati;
2. campione probabilistico e non probabilistico;
3. disegno semplice ed errore campionario.
1. Indagine statistica e qualità dei dati.
L’indagine statistica può essere suddivisa in due tipi principali, affetti dai seguenti tipi di errore:
Tipo di indagine
• Censuaria
Tipo di errore
Errore non campionario
•
Errore campionario
Errore non campionario
Campionaria
L’indagine censuaria, andando ad indagare il fenomeno presso l’intera popolazione di interesse, è
particolarmente complessa e costosa. Per questo normalmente si preferisce utilizzare l’indagine
campionaria, che permette un notevole risparmio nel costo contatto, risparmio che può essere
reinvestito nella riduzione dell’errore campionario.
La qualità dei dati si riferisce principalmente a:
a) Progettazione dell’indagine;
b) Accuratezza e Precisione per evitare errori di tipo rispettivamente non campionario e
campionario sui dati.
1
Nella fase di progettazione è cruciale la chiarezza degli obiettivi che debbono essere specificati con
cura, se possibile fino alla definizione degli incroci tra variabili, per contenere al minimo gli errori
non statistici tipici di questa fase.
L’accuratezza, legata all’incidenza dell’errore non campionario, dev’essere perseguita durante tutte
le fasi di indagine. Questo tipo di errore può manifestarsi come:
-
-
errore di specificazione (relativamente alla popolazione oggetto d’indagine, oppure alla lista
delle unità di popolazione);
errore di misura (dovuti agli strumenti di indagine, ad es. il questionario non correttamente
formulato, al soggetto rilevatore, o all’intervistato che può distorcere deliberatamente
un’informazione);
risposte mancanti, parziali o totali, sulle quali sono possibili procedure di “recupero”
dell’informazione;
errori di memorizzazione informatica;
errori di calcolo.
La precisione si riferisce invece all’errore campionario, la cui incidenza è intesa come la differenza
tra la stima di un valore ottenuta attraverso il campione (depurata dall’errore non campionario) e il
dato “reale” di quel valore nella popolazione.
L’errore totale somma l’errore campionario e l’errore non campionario.
2. Indagini campionarie – campione probabilistico e non probabilistico
Come abbiamo visto, l’indagine campionaria permette un risparmio economico e di tempo notevoli
rispetto a quella censuaria. Ma anche i vantaggi in termini di organizzazione non sono da
sottovalutare: in alcune situazioni l’indagine censuaria non è praticabile affatto, mentre quella
campionaria risulta maggiormente accurata e in grado di rilevare un quantità più elevata di
informazioni. L’abbattimento dei costi permette inoltre l’eventuale ripetizione cadenziata, con
maggiore tempestività.
Dato il vasto impiego di questo tipo di indagini, è fiorito anche un intenso scambio di esperienze fra
la ricerca accademica e quella applicata, rispettivamente sintetizzate nella teoria dei campioni e
nella pratica del campionamento.
La distinzione preliminare sul concetto di campione riguarda il campione probabilistico (più
legato all’accademia) e quello non probabilistico (maggiormente utilizzato nelle indagini di
mercato).
Per il campione probabilistico è fondamentale disporre della lista delle unità che compongono la
popolazione finita oggetto di studio. E’ sulla lista che verrà operata la selezione casuale degli
elementi da sottoporre ad indagine. Tale procedura origina lo spazio campionario, ovvero
l’insieme dei campioni possibili su quella popolazione. Lo spazio campionario è il parametro su cui
calcolare la probabilità di estrazione di ogni campione. La coppia “spazio campionario” e
“probabilità di estrazione” è detta disegno campionario. Ciò che è distintivo del campione
probabilistico rispetto a quello non probabilistico è proprio la probabilità positiva che ogni unità
della popolazione ha di essere inclusa nel campione, sulla base della quale è possibile calcolare il
peso che ciascuna unità campionaria deve assumere nel riporto dei risultati all’universo. Ecco
perché l’errore campionario è valutabile e può essere contenuto. Tutte le indagini Invalsi
contengono la colonna per il calcolo del peso campionario.
2
Il caso, la casualità è spesso per gli studenti sinonimo di irrazionalità: in statistica questo concetto è
invece collegato alla qualità del dato. La casualità è necessaria proprio in quanto nelle indagini
socio-pedagogiche generalmente non si lavora in laboratorio, e non si possono pertanto escludere
effetti distorsivi di variabili non controllabili o ignote. Tali effetti vengono ridotti con il ricorso al
caso.
Esistono comunque degli svantaggi nell’utilizzo di indagini campionarie, in primo luogo la lista di
partenza non sempre reperibile, il suo costo o la non applicabilità. In questi casi si fa generalmente
ricorso al campionamento non probabilistico.
Caratteristiche principali di questo tipo di campione sono: la soggettività nel criterio di selezione
delle unità campionarie, legata all’idea che il ricercatore ha di rappresentatività, e la conseguente
probabilità di riselezionare lo stesso campione in un’eventuale ripetizione della procedura, con
probabilità zero per le rimanenti unità della popolazione di essere estratte.
Vi sono situazioni in cui tuttavia il campione non probabilistico è l’unica soluzione, e questo accade
quando non si dispone della lista delle unità da campionare (ad es.: per fenomeni sommersi, quali
quello dei clandestini).
-
precisione
Per quote
Bilanciato
A scelta
ragionata
A valanga
Di
convenienza
TIPI DI CAMPIONAMENTO NON PROBABILISTICO
+
Dal primo tipo (di convenienza) all’ultimo (per quote), il campionamento non probabilistico si
avvicina sempre più a quello probabilistico: il campione per quote è in tutto simile a quello
stratificato, mancando soltanto la casualità nel reclutamento dei soggetti.
Il principale svantaggio del campionamento non probabilistico risiede nella impossibilità di valutare
la distorsione dell’errore campionario, mentre il maggiore vantaggio è l’assenza di lista di partenza.
3. Disegno semplice ed errore campionario
Il campionamento probabilistico di base di definisce “disegno semplice” ed è caratterizzato da due
aspetti principali:
•
•
si campiona direttamente l’intera popolazione sulla base della lista;
ogni unità campione ha la stessa probabilità di essere estratta.
3
L’esempio classico è quello delle palline estratte dall’urna: si può prevedere che le palline siano
reimmesse nell’urna, con o senza ordine di estrazione, ma nella pratica ciò non avviene e si segue
pertanto l’ordine casuale di estrazione (campione casuale semplice in blocco).
Nel disegno semplice tutte le unità campione hanno la stessa probabilità di venire estratte, e ciò
definisce un “disegno autoponderante”.
Data una certa popolazione, dalla quale vogliamo estrarre un campione, è possibile stimare un
valore incognito sulla popolazione attraverso il campione stesso. In questo caso la media della
popolazione è il parametro per tale stima. In prima istanza possiamo utilizzare per analogia la media
del campione, affermando che essa è lo stimatore della media sulla popolazione. Tuttavia, essendo
N i campioni potenzialmente estraibili da una popolazione, avremo una variabilità nei possibili
valori dello stimatore, di cui possiamo rappresentare la distribuzione campionaria. Si parla in questo
caso di distribuzione campionaria dello stimatore. L’errore di stima è dato dalla differenza fra
media del campione meno media della popolazione, ed è possibile rappresentarne la distribuzione
campionaria (distribuzione campionaria dell’errore). Una stima esatta della media si ottiene
raramente, ed è pertanto necessario disporre di una misura dell’errore campionario. Più piccolo è
l’errore campionario associato allo stimatore, migliore sarà la stima da esso effettuata. Per la scelta
dello stimatore più opportuno, si può far riferimento a due criteri principali:
•
•
la correttezza nella proprietà di distribuzione degli stimatori;
l’errore medio minimo (Mean Square Error) legato alla deviazione standard.
Nella pratica di ricerca normalmente si estrae un solo campione dalla popolazione, pertanto non è
possibile disporre di informazioni su tutti i possibili campioni, e quindi avremo la necessità di
stimare l’errore medio e l’intervallo di stima (intervallo di confidenza).
Per l’errore medio esiste la possibilità di calcolare l’MSE mediante formula (allegata) in cui ciò che
è importante è la dimensione del campione, inversamente proporzionale all’MSE.
Per campioni con numerosità >30 unità, ci si può anche riferire alla normalità della distribuzione
mediante il teorema del limite centrale. Lo stimatore, di cui possiamo rappresentarci la
distribuzione normale, avrà al centro della sua distribuzione il parametro che dobbiamo stimare. Su
campioni estesi la varianza tende a ridursi, quindi la stima sarà vicina alla media che dobbiamo
calcolare.
Per costruire un intervallo di confidenza su un campione > 30 unità (che verosimilmente conterrà il
valore medio della popolazione) si può sottrarre e aggiungere una certa quantità alla media del
campione, mediante un coefficiente che ci permetta con ragionevole precisione di affermare che la
media della popolazione è contenuta nell’intervallo così ottenuto. Tale probabilità (che può
assumere valori ad esempio del 90 o 95%) è detta “livello di confidenza” ed è rappresentabile
graficamente. Più la curva della normale è leptocurtica, maggiore sarà la precisione dell’intervallo.
Ciò che è importante, ai fini di ricerca, è la possibilità di accertare e misurare l’errore per ridurlo al
minimo, anche se non ci si può illudere di ottenere con il campione delle stime esatte.
Altra informazione importante da tener presente nella ricerca empirica è che lo stesso campione si
può ottenere sia con una procedura probabilistica, sia non probabilistica, ma in quest’ultimo caso
non si potrà fare affidamento sulle procedure relative agli errori.
4
Scarica