Il campionamento

Il campionamento
CAMPIONAMENTO
È il procedimento logico in base al quale
l’insieme delle procedure per la
costruzione del campione si salda alla
teoria della stima e della verifica delle
ipotesi.

DISEGNO DI CAMPIONAMENTO
È l’insieme delle regole seguite per la
costruzione del campione.

Struttura del campione: insieme delle liste
che si utilizzano per costruire il campione.
La lista comprende l’elenco di tutte le
unità che compongono l’universo.
Se la struttura del campione è semplice: una
lista.
Se la struttura del campione è complessa:
più liste.
La popolazione è intesa come aggregato di unità
statistiche.
Le caratteristiche e le proprietà della popolazione
che si intendono studiare sono definite variabili
o caratteri.
Possiamo ottenere le informazioni sulle variabili
attraverso due metodi:
- Rilevazione totale o censuaria (si analizzano
tutte le unità che compongono l’universo)
- Rilevazione campionaria (studio per inferenza
dell’universo)
Definizioni di base
 Popolazione o universo: ogni insieme
finito o infinito di unità (non
necessariamente esseri umani).
La numerosità si indica con N
 Campione:
insieme delle n (unità
campionarie) selezionate tra le N che
compongono la popolazione, detta
popolazione di riferimento
Statistica descrittiva: è l’insieme delle
procedure utili per organizzare i dati
raccolti in forma conveniente e
comunicabile
Statistica inferenziale:è l’insieme delle
procedure atte a raggiungere conclusioni
più ampie rispetto ai valori raccolti, tali da
poter essere messi in relazione con
l’universo.
Vogliamo studiare le variabili (proprietà) X,
Y, Z, di un certo campione.
Studiarle significa conoscere alcuni valori
caratteristici assunti dall’intera
popolazione (cioè la loro
DISTRIBUZIONE) o le relazioni fra le
variabili stesse.
Chiamiamo queste conoscenze PARAMETRI
Esempi: se l’unità è l’individuo e la variabile
X è il reddito e vogliamo conoscere il
reddito medio, il parametro della
popolazione che vogliamo conoscere è la
MEDIA
Se la variabile Y è il voto e noi vogliamo
conoscere la proporzione di persone che
hanno votato il partito A, il parametro
della popolazione che vogliamo conoscere
è una PROPORZIONE
Se vogliamo studiare la relazione fra le
variabili X e Z, il parametro che vogliamo
conoscere è un coefficiente di
CORRELAZIONE
Se conoscessimo la popolazione totale,
avremmo il valore esatto del parametro
che stiamo studiando, ma questa è
un’ipotesi che non si verifica mai (se non
nei casi di censimento)
L’indagine campionaria ci fornisce una
STIMA, un valore approssimato
È sempre presente un ERRORE nelle stime
che calcoliamo
V
=
v
Parametro della Stima del
popolazione
campione
(incognito)
±
e
Errore di
campionamento
Quindi, se effettuiamo una rilevazione totale
sul reddito degli italiani, possiamo dire:
“il reddito medio degli italiani è € 1.350”.
Se effettuiamo un rilevazione campionaria,
diciamo:
“c’è il 95% di probabilità che il reddito
medio degli italiani sia di € 1.300 ± 50”
Nel secondo caso, il ricercatore non è certo
del suo calcolo, c’è un 5% di probabilità
che il reddito sia al di fuori dei valori
indicati.
Il ricercatore calcola un intervallo di fiducia
nel quale si colloca il valore della statistica
della popolazione.
La stima del campione è sempre affetta da
un ERRORE DI CAMPIONAMENTO.
Determinazione della NUMEROSITÀ
OTTIMALE del campione:
È la numerosità che permette alle stime che
compiamo di raggiungere il livello di
attendibilità che ci attendiamo.
5%
2%
1%
N
100
n
80
N
100
n
96
N
100
n
99
300
170
300
270
300
296
500
220
500
415
500
475
1.000
285
1.000
715
1.000
910
5.000
370
5.000
1.660
5.000
3.330
>
8.000
400
>
50.000
2.500
>
10.000
200.000
Vantaggi del campionamento:
 Riduzione
dei costi
 Rapidità
 Scopi
specifici
 Accuratezza
3 concetti correlati al tema del campionamento:
1. Eterogeneità: presenza di caratteristiche e
qualità diverse nel campione, collegate alla
variabilità degli atteggiamenti e dei
comportamenti
2. Rappresentatività: si dice rappresentativo
un campione che presenta alcune
caratteristiche dell’universo in proporzioni
analoghe
3. Sufficienza: misura l’attendibilità dei dati,
ovvero la probabilità che essi siano validi
per l’universo entro certi termini
statisticamente determinabili
Regole seguite per identificare le unità da
inserire nel campione
come si seleziona ogni singolo caso?
Criterio costante: uguale per tutte le unità
della lista
Criterio variabile: se ad ogni unità viene
assegnata una probabilità di selezione
propria
Che cosa è possibile ottenere dai dati raccolti?
- Verifica delle ipotesi di contenuto (cioè le
ipotesi di rapporti tra le variabili): si rimane
nell’ambito dei risultati disponibili e tale
verifica è valida soltanto per le unità di
analisi considerate.
valido per campioni NON
PROBABILISTICI
-
Inferenze: si generalizzano i risultati dal
campione all’universo
valido per campioni PROBABILISTICI
CAMPIONI PROBABILISTICI
Campioni casuali o probabilistici: sono
regolati dalla legge del CASO, cioè della
probabilità
 Si attribuisce ad ogni unità della
popolazione una probabilità positiva di
essere selezionata
 Si utilizzano tecniche per la selezione
casuale del campione
 La
probabilità di selezionare i casi è nota
 Per costruire un campione probabilistico è
indispensabile la conoscenza dell’universo;
devono essere note e disponibili le fonti
(es. lista completa della popolazione)
 Le fonti possono anche definire universi
“settoriali”
Si possono costruire diversi tipi di
campioni probabilistici a seconda
del metodo di estrazione
1.
Campione casuale semplice/sistematico
Può essere estratto per sorteggio o per intervallo
fisso (scegliendo un nominativo ogni tot da una
lista e prevedendo eventuali sostituti), fino a
raggiungere la numerosità desiderata.
Il rapporto tra la numerosità dell’universo e quella
del campione dà la misura dell’intervallo fisso
da rispettare.
È opportuno su popolazioni relativamente piccole,
in un’area ristretta, dove si può disporre di liste
complete.
Se non abbiamo liste della popolazione N,
possiamo costruire un campione
sistematico?
Sì, in alcuni casi, ad es.: exit polls, ricerche
di mercato
Regola: tutte le unità devono avere la stessa
probabilità di essere incluse nel campione,
quindi l’estrazione deve coinvolgere tutta
la popolazione e non solo una parte.
Es. tutti i clienti di un negozio: la rilevazione
deve durare per tutto l’orario di apertura
2. Campione stratificato
La popolazione viene suddivisa in STRATI.
Si mantiene l’estrazione casuale, ma si
utilizzano una o più variabili stratificanti,
tali da controllare meglio la
rappresentatività dei casi selezionati.
Es.: per il reddito, si suddivide la
popolazione per la professione svolta
Il campione può essere proporzionale o non
proporzionale.
Il campione si dice stratificato proporzionale
se riproduce la stessa composizione degli
strati della popolazione
Es. se operai, impiegati, lav.autonomi e
professionisti sono rispettiv. il 35, 40, 15 e
10% della popolazione, costruiremo un
campione di 1000 casi composto da 350
operai, 400 impiegati, ecc…
Invece, se sovra o sotto-rappresentiamo
alcuni strati, otteniamo un campione
stratificato non proporzionale.
In questo caso, dovremo effettuare
un’operazione di ponderazione.
3. Campione a stadi
Si utilizza ad es. quando manca la lista
completa delle unità della popolazione.
Viene definito sulla base di scelte e
procedure successive, che passano per più
stadi o fasi.
Si individuano diverse unità (primarie,
secondarie…) e si procede con estrazioni
successive
Es. ricerca sui medici di medicina generale
Unità primaria: Ausl locale cui afferisce il
medico
Unità secondarie: i medici stessi
Il campionamento si effettua in due stadi,
cioè in due estrazioni successive.
Primo: si estrae un campione di unità
primarie (ad es. 100 aziende Ausl)
Secondo: si estrae casualmente un numero
di unità secondarie, cioè un numero di
medici
4. Campioni a grappolo
Si utilizza quando la popolazione è
naturalmente suddivisa in gruppi di unità
contigue
Ad es. le famiglie, le classi scolastiche, i
ricoverati in ospedale, ecc.
Campione a stadi e a grappolo si possono
combinare:
Es. Indagine multiscopo dell’Istat sulle
famiglie (a stadi: campione di comuni; a
grappolo: campione di famiglie)
CAMPIONI NON PROBABILISTICI
Seguono l’orientamento di chi li costruisce;
vengono costruiti senza conoscere la
probabilità di estrazione dei casi.
Viene a mancare la conoscenza dell’universo
L’inferenza non si può applicare
I risultati sono validi solo per il campione
Campione di convenienza
Basato su criteri di comodità
Selezione non casuale
Probabili errori sistematici
Crea un campione non rappresentativo
Si reclutano preferenzialmente unità "particolari"
rispetto alla popolazione.
Un campione così ottenuto è soggetto
a distorsione (bias) che, essendo appunto
dovuto al metodo di selezione, viene detto bias
di selezione. Ovviamente un campione di questo
tipo fornisce dati poco affidabili e pregiudica il
processo di generalizzazione dei risultati
 Campione
“a casaccio”: costruito in modo
accidentale, senza regole
 A scelta ragionata: le unità sono scelte in
modo da avvicinarsi nell’insieme alle
caratteristiche della popolazione
 Di unità tipiche: formati da unità tratte da
gruppi omogenei per caratteristiche
predefinite
 Per
quote: l’intervistatore sceglie le unità
da intervistare, ma deve rispettare le quote
di popolazione che rappresentano
determinate caratteristiche
A
palla di neve (a valanga)
Semplicità
Rapidità
Economicità
Ipotesi di
contenuto
Analisi
dell’universo
Rappresentativi
tà
Inferenza
Campioni
probabilistici
No
No
No
Sì
Campioni non
probabilistici
Sì
Sì
Sì
Sì
Sì
No
Sì
No
Sì
No