il campionamento

Il campionamento
Il campionamento
n 
n 
n 
Insieme delle operazioni che consistono nella
selezione, nelle intenzioni rappresentativa,
degli appartenenti ad una popolazione, allo
scopo di studiare una porzione della
popolazione stessa
Se il campione è scelto adeguatamente, i
risultati ottenuti sul campione sono
generalizzabili alla popolazione da cui è
stato estratto
Ulteriori vantaggi: economicità (costi e
tempi limitati)
Il campionamento: fasi
n 
n 
n 
n 
n 
n 
n 
Individuazione della popolazione di
riferimento
Specificazione dell’unità di campionamento
Definizione della lista di campionamento
Determinazione della numerosità campionaria
Scelta del metodo di campionamento
Selezione del campione
Stima dei parametri della popolazione a
partire dai dati del campione
TIPI DI CAMPIONAMENTO
n 
- 
- 
- 
- 
Probabilistici
costituiti da unità la cui
probabilità di estrazione
è nota
più soddisfacenti perché
godono di 2 proprietà:
Rappresentatività;
Stima dell’errore di
campionamento.
n 
- 
- 
- 
- 
- 
- 
Non probabilistici
costituiti da unità la cui
probabilità di estrazione
è ignota
Vantaggi:
più facili da usare
minore investimento
Svantaggi:
Non generalizzabilità
Non quantificazione
dell’errore di camp.ento.
Tipi di campionamento
Probabilistici
n 
n 
n 
n 
Casuale semplice
Sistematico
Stratificato
…
Non probabilistici
n 
n 
n 
n 
Di comodo
Per quote
A valanga
…
L’ampiezza del campione
n 
Quattro variabili da tenere in considerazione
n 
n 
n 
n 
Eterogeneità del fenomeno studiato
Grado di disaggregazione dei dati in sede di analisi
Grado di affidabilità desiderata delle stime
Risorse economiche e temporali
Campione casuale semplice
n 
n 
Senza ripetizione: quando ogni unità statistica estratta viene
esclusa dalla lista in modo che non possa essere estratta più di
una volta. In questo caso, la probabilità di estrazione di un unità
statistica in un campione di unità è n/N.
Con ripetizione: quando ogni unità statistica può essere
estratta più di una volta. Se la probabilità di selezione al primo
tentativo è 1/N, al secondo tentativo è 1/(N-1), al terzo 1/(N-2),
e così via. In un campione di numerosità n, la probabilità di
includere un’unità è sempre n/N.
La curva normale
L’ampiezza del campione (variabili
cardinali) quando si usa il C.nto casuale semplice
Per campioni <5% della popolazione:
⎛ zσ ⎞
n = ⎜ ⎟
⎝ e ⎠
2
Per campioni >5% della popolazione:
….. . 1 – n
N
n = ampiezza del campione
z = livello di fiducia riposta nella stima
(1,96 = affidabilità della stima del 95%; 2,58 = 99%)
σ  = deviazione standard del parametro nella popolazione
e = ampiezza accettata dell’errore di camp.to
L’ampiezza del campione (variabili
cardinali)
n 
Per arrivare a n bisogna:
n 
n 
Acquisire un’informazione: Qual è la variabilità che
la variabile di interesse assume nella popolazione
della ricerca (quanto è grande σ) ?
Prendere due decisioni:
n 
n 
Qual è il grado di fiducia che intendiamo riporre nelle
nostre stime (qual è i valore di z) ?
Qual è l’ampiezza dell’errore che accettiamo di
commettere (quanto è grande e) ?
ESEMPIO
Vogliamo stimare l’età media degli studenti di Tor Vergata con un
livello di fiducia del 95%, con un errore di stima di 2 anni.
Supponiamo che da una precedente indagine la deviazione
standard sia risultata pari a 6 anni.
2
2
1,96× 6)
(zσ )
(
n=
=
= 34,6
2
2
e
2
Se, invece, volessimo aumentare la fiducia al 99%, la numerosità
campionaria sarebbe pari a:
€
2
2
2,58× 6)
(zσ )
(
n=
=
= 59,9
2
2
e
2
Problemi di rappresentatività
del campione
n 
n 
n 
CAUSE
Impossibilità di
trovare la persona
scelta
Impossibilità di
rispondere (es.
durata)
Rifiuto dell’intervista
n 
n 
n 
n 
n 
RIMEDI
Costruire più liste di
camp.to e sostituire i
soggetti con criteri
stabiliti a priori
Rendere il questionario
più breve e agevole
Attenzione alle
caratteristiche degli
intervistatori
Tenere conto di un
insieme di variabili
psicosociali (segue)
Rimedi alle mancate partecipazioni:
variabili psicosociali
n 
n 
n 
n 
n 
n 
Reciprocità: sentirsi obbligati quando si riceve
gratis
Coerenza: bisogno di essere coerenti
Confronto sociale: utilizzo degli altri come
termine di paragone per valutare se stessi
Autorità: accondiscendenza alle richieste
provenienti da autorità legittime
Scarsità: valorizzazione delle risorse scarse
Gradevolezza: maggiore benevolenza verso
persone che ci piacciono o percepite simili a noi
La ponderazione del campione
n 
Serve a rendere rappresentativo un campione
che non lo è stato, per varie ragioni
n 
n 
n 
Impossibilità di trovare la persona scelta
Rifiuto dell’intervista
Impossibilità di rispondere
Ponderazione matematicostatistica dei dati rilevati
1. E’ necessario ponderare per le principali variabili
sociodemografiche (es. sesso, età..) e talvolta anche per
le caratteristiche politiche (es. comportamenti elettorali)
degli intervistati
2. Confronto tra la distribuzione delle variabili
sociodemografiche nella popolazione e nel campione
3. Verificare l’esistenza di sovra o sottorappresentazioni
4. Calcolo del fattore di ponderazione tramite programmi di
elaborazione dati
5. Riproporzionare il numero dei soggetti del campione a
quello della popolazione
ESTRAZIONE DI UN NUMERO CASUALE
CON IL SOFTWARE EXCEL
CAMPIONE CASUALE SEMPLICE CON RIPETIZIONE: Supponiamo di voler estrarre,
con modalità casuale, cinque studenti da una classe di dieci individui. Gli studenti
identificati con un nome ed un cognome, sono riportati nel registro di classe con un
numero, che simbolicamente li rappresenta
Attivazione di una funzione in Excel
Le funzioni per l’estrazione di
un campione casuale
Le funzioni che consentono di estrarre casualmente da una lista
di elementi numeri sono:
1) la funzione =CASUALE.TRA(minimo; massimo) estrae un
numero casuale un numero da una lista con modalità con
ripetizione.
2) la funzione =CASUALE() che restituisce un numero decimale
casuale compreso fra 0 e 1.
La maschera della funzione
CASUALE.TRA
Inserire il valore “1”, che
rappresenta il codice più
piccolo, in questo caso il
valore individua lo studente
Francesco Aureli
Inserire il valore “10”,
identificativo
dell’individuo che
presenta il valore
massimo della lista, ossia
Sonia Vizzarri.
La maschera della funzione
CASUALE.TRA compilata
Il campionamento
sistematico
In questo tipo di campione si estrae a sorte soltanto la prima unità da
intervistare e poi, dopo aver fissato un intervallo k, preventivamente
stabilito, si intervista un individuo ogni k. Il campionamento
sistematico si utilizza quando le unità che compongono l'universo
sono numerabili progressivamente e si possono estrarre delle unità di
campionamento distanziate da un intervallo costante. Anche in questo
caso la popolazione considerata è finita, quindi, si deve disporre di
una lista di campionamento.
ESEMPIO: N=840 HOTEL A ROMA (POPOLAZIONE) n=60
k=N/n=840/50=14
quindi, una volta selezionato il primo hotel da fare entrare nel
campione, gli altri 59 hotel saranno selezionati dalla lista, con un
passo pari a 14.
Casuale tra…
Per usare la funzione =CASUALE() e selezionare un
numero intero dalla lista, è opportuno digitare:
=1+INT(CASUALE()*(10-1), che restituisce un
numero casuale compreso fra 1 e 10.
Esempio di campionamento per quote
Totale della Popolazione residente in Italia al 1 Gennaio
2008 per sesso e per ripartizione geografica
Ripartizioni
Maschi
Femmine
Totale
Italia Nord-Occidentale
7.671.983
8.107.490
15.779.473
Italia Nord-Orientale
5.534.422
5.803.048
11.337.470
Italia Centrale
5.628.728
6.046.850
11.675.578
Italia Meridionale
6.867.019
7.264.450
14.131.469
Italia Insulare
3.247.595
3.447.705
6.695.300
TOTALE
28.949.747 30.669.543 59.619.290
Fonte: ISTAT, 2008
Supponiamo di voler effettuare 5000 interviste
Popolazione residente in Italia al 1 Gennaio 2008
per sesso e per ripartizione geografica (valori in %)
Ripartizioni
Italia Nord-Occidentale
Maschi
Femmine
Totale
12,87
13,60
26,47
Italia Nord-Orientale
9,28
9,73
19,02
Italia Centrale
9,44
10,14
19,58
11,52
12,18
23,70
5,45
5,78
11,23
48,56
51,44
100,00
Italia Meridionale
Italia Insulare
TOTALE
N=59.619.290 POPOLAZIONE
n= 5.000 CAMPIONE
Ripartizioni
Maschi Femmine Totale
Italia Nord-Occidentale
643
680
1323
Italia Nord-Orientale
464
487
951
Italia Centrale
472
507
979
Italia Meridionale
576
609
1185
Italia Insulare
272
289
562
2428
2572
5000
TOTALE
Aggiustamenti a posteriori del
campione
I metodi che consentono di intervenire a posteriori,
con strumenti correttivi per ridurre gli effetti, ad
esempio, delle mancate risposte possono dividersi in
due grandi categorie:
-  metodi di imputazione;
-  metodi di riponderazione.
Metodi di imputazione
I principali metodi di imputazione si basano sull’idea che è possibile
stimare le probabilità di risposta delle unità. Per questi metodi è, quindi,
necessario avere informazioni ausiliare che consentano di ricostruire le
unità mancati. Per ricostruire le mancate risposte, spesso vengono
utilizzate variabili strutturali, quali sesso, età, stato civile ed altro. Nel
calcolo dei coefficienti di riporto all'universo (pesi) le stime campionarie
della popolazione, in linea di massima, per sesso e classi di età, sono
vincolate a totali noti provenienti da fonti demografiche esterne
all'indagine. Il peso attribuito ad ogni individuo rispondente, è calcolato
come prodotto dell'inverso della probabilità di inclusione per un fattore di
correzione per mancata risposta e un fattore di correzione per sesso ed
età.
Alcuni metodi di imputazione
Il metodo della media: il valore della variabile di interesse viene stimato
con la media aritmetica dei valori dei rispondenti.
Il metodo della mediana: il valore della variabile di interesse viene stimato
con la mediana dei valori dei rispondenti.
Il metodo delle classi di imputazione: il campione viene suddiviso
preliminarmente in sottoinsiemi di unità, detti “classi di imputazione”. Il
valore della variabile di interesse per un non rispondente di una classe di
imputazione è stimato con la media di aritmetica per i rispondenti della
stessa classe di imputazione.
I metodi hot e cold deck: per stimare il valore della variabile di interesse
per un non rispondente si utilizza un valore relativo ad un rispondente
della stessa indagine (hot deck) o di una indagine diversa (cold deck). Il
metodo hot deck dà risultati migliori.
La post-stratificazione
SESSO
S T U D E N T I PERCENTUALE STUDENTI CAMPIONE PERCENTUALE
I S C R I T T I
ISCRITTI IN BASE AL
(n=100) CAMPIONE
(N=10.000 )
GENERE
MASCHI
5.000
FEMMINE
5.000
Totale
10.000
=(5.000/10.000)
*100=50%
=(5.000/10.000)
*100=50%
100%
60
FALSO
40
FALSO
100
SESSO
PESO
MASCHI
=50/60=0,83
FEMMINE
=50/40=1,25
Totale
CREAZIONE DI PESI PER UNA
POST-STRAFICIAZIONE IN EXCEL
FORMULE - FUNZIONE
TEST: A2=1
SE_VERO: 0,83
SE_FALSO: 1,25
FUNZIONE SE