experimental design Qualunque processo che generi risultati

CAMPIONAMENTO
• Esperimento experimental design
Qualunque processo che generi risultati – eventi che non sono
generalizzabili con certezza
Popolazione non è finita
Fenomeno è sotto controllo: stimolo sperimentazione sui farmaci)
Ripetizione è possible sotto le stesse condizioni
risposta
(p.e.
• Osservazione - indagine statistica
Qualunque processo che generi risultati – eventi che non sono
generalizzabili con certezza
- Popolazione è finita ed ogni componente è ben identificabile
(LISTA),
- La misura non è sotto controllo -: I fenomeni osservati non
possono essere modificati dal ricercatore– fenomeni reali - (p.e.
misura della disoccupazione, del reddito)
- La ripetizione è possibile ma solo sotto condizioni differenti.
IL PROBLEMA
Disponiamo solo di un sottoinsieme della popolazione totale, ma
vogliamo arrivare ad ottenere informazioni – parametri – su quella
popolazione → INFERENZA (da una conoscenza particolare ad una
generale)
Scopi del campionamento
1. Risparmio di tempo
2. risparmio di denaro
3. impossibile osservare tutti gli elementi della popolazione (in un
contesto sociale e naturale)
4. l’osservazione distrugge gli elementi osservati
Popolazione: è costituita dall’insieme delle unità elementari – individui o
unità statistiche – esistenti in un preciso istante e con una precisa
delimitazione spaziale – su cui vogliamo fare inferenza
Unità elementari: componente su cui si conduce l’osservazione o la
misura.
Unità campionaria o di rilevazione: gruppo di unità non sovrapposte
della popolazione
Rappresentatività: molti significati
-
specchio o miniature della popolazione
caso tipico o ideale
testimone priviligiato
Assenza di forze selettive
Copertura della popolazione
Campionamento Probabilistico– selezione casuale delle unità da
osservare con probabilità eguale e non nulla di essere scelte
• Inferenza da un campione alla popolazione è sempre incerta (Hume)
La connessione tra campione e popolazione è possibile solo grazie
alla selezione casuale e misurando il grado di incertezza
I campioni devono essere scelti in modo da creare delle vc che
siano trattabili con la teoria della probabilità
Selezione casuale
numeri casuali
↓
• Ciacun elemento della popolazione ha la stessa probabilità di essere
selezionato
• Non devono esserci criteri soggettivi a guidare la selzione
• La lista delle unità della popolazione deve essere nota
Campionamento casuale semplice
Campionamento stratificato
Campionamento complesso
Campionamento casuale semplice
Fasi del processo
• Identificazione della popolazione finita di N unità,
• Definizione della variabile di interesse X – anche più di una– che sarà
osservata nelle n unità campionate.
• Selezione di un campione di n unità (numeri casuali)
• Definizione dei parametri delle variabili osservate da stimare (p.e.
media campionaria, proporzione, totale).
• Identificazione della distribuzione di probabilità dei parametri di
interesse.
• Poichè il campione include n elementi abbiamo n selectioni casuali
relative ad n variabili casuali. Se X i è la variabile associate con la i
selezione, il campione consiste in una variable casuale multipla
( X 1 , X 2 ,..., X n ) .
• Nel campionamento casuale semplice le X sono variabili casuali
identicamente e indipendentemente distribuite.
• Il campione osservato ( x1 , x 2 ,..., x n ) è una specifica realizzazione della
variabile casuale multipla ( X 1 , X 2 ,..., X n ) .
• L’insieme di tutti I possibili campioni ( x1 , x 2 ,..., x n ) definisce lo spazio
dei campioni (popolazione di tutti i campioni). Sotto certe condizioni
n
la sua ampiezza è N .
• Quindi qualunque funzione Tn della variabile casuale multipla
X 1 , X 2 ,..., X n è una vc. Che Chiamiamo stima campionaria statistica - T = t ( X 1 , X 2 ,..., X n )
Esempi :
1 n
Media campionaria X = n ∑ X i
i =1
Varianza campionaria
1 n
(X i − X )2
s =
∑
n − 1 i =1
2
………..
1 n
2
NOTE: σˆ = n ∑ ( X i − μ ) non è una stima corretta della varianza della
i =1
popolazione!
2
ERRORI NON CAMPIONARI
IL PROCESSO DI MISURA IMPLICA ERRORI
•
•
•
•
•
•
•
•
•
Tecnica di indagine: Papi, Cati, Capi, ecc.
Strumenti per la rilevazione dei dati (Questionario)
Intervistatore - conditionamento
Intervistato– ricordo, disponibilità
Mancata risposta totale e parziale
Registrazione dei Dati
Revisioni ed imputazioni
Tecnica di stima – aggiustamento per la mancata risposta e rifiuti Tabulazione
L’errore non-campionario è una componente additiva della stima della
variabilità campionaria
L’errore non-campionario è possibile anche in indagini censuarie
DISTRIBUZIONE CAMPIONARIA
Dato na campione casuale X 1 , X 2 ,..., X n , e definite la statistica
t ( X 1 ,X 2,..., X n ) , la distribuzione di probabilità di t è una distribuzione
campionaria.
distribuzione della media campionaria
2
Se X è una caratteristicas popolazione con distribuzione X ~ N ( μ ,σ ) .
La distribuzione della media campionaria:
X ~ N (μ ,
σ2
n
)
se σ2 è nota è possibile calcolare la probabilità di trovare la stima della
X , dal campione selezionato, all’interno di un intervallo del
parametro vero μ usando la vc z
X −μ
σ/ n
~z
se σ2 non è nota possiamo ottenere un risulato analogo ma la
distribuzione di probabilità della X sarà
X ~ N (μ ,
s2
)
n
inoltre, anziché ricorrere alla z si dovrà fare ricorso alla distribuzione t di
Student- che tiene conto di un fattore aggiuntivo di variabilità dovuto alla
stima s2
t è una distribuzione simmetrica che si approssima alla distribuzione
N(0,1) quando n → ∞ - la sua variabilità è più alta di quella della normale
X −μ
~ t n −1
s/ n
E (t ) = 0
V (t ) =
n
n−2
… QUANDO LA DISTRIBUZIONE DELLA X NON È NOTA O NON È
NORMALE
il teorrema centrale del Limite
dice che per n → ∞ (o almeno è grande abbastanza), se la varianza è finita
la vc X sarà
ugualmente
X ~ N (μ ,
σ2
n
)
NON sono necessarie dunque assunzioni sulla forma della
distribuzone della variabile in popolazione.
Approssimazione della Binomial alla Normale.
Esempio
Il responsabile di una assicurazione oha trovato che il 40% dei clienti ha
più di na assicurazione con la sua compagnia
Si seleziona un ccs con n pari a100 clienti qual è laprob. Che proporzione
di clienti con più di una assicurazione sia compresa tra 0.4 e0.5?
1 n
La proporzione di clienti con più di un assicurazione è p̂ = X = 100 ∑ X i ,
i =1
dove le variabili Xi assumono il valore 1 se il clienti ha più di un
assicurazione ed il valore 0 se il cliente ne ha una sola.
Si dovrebbe ricorrere ad una Binomial distribution.
P (40 ≤ X ≤ 50 ) = P (0 ≤ X ≤ 50 ) − P (0 ≤ X ≤ 40 )
⎛ n ⎞ x 100 − x 50 ⎛ n ⎞ x 100 − x
= ∑ ⎜⎜ ⎟⎟ p q
− ∑ ⎜⎜ ⎟⎟ p q
x
x=0 ⎝ ⎠
x=0 ⎝ x ⎠
50
I Calcoli sono piuttosto lunghi e difficili.
Poiché n=100, grazie al teorema del limite centrale pioché n è grande ne
segue che
a
⎛ p (1 − p ) ⎞
p̂ = X ~ N ⎜ p ,
⎟
n
⎝
⎠
where
p=0.4
p( 1 − p ) / n = ( 0.4 ⋅ 0.6 ) / 100
From the tabulation of the z:
⎛ 0.4 − 0.4 p̂ − 0.4 0.5 − 0.4 ⎞
P(0.4 ≤ p̂ ≤ 0.5) ≅ P⎜
≤
≤
⎟
0.049
0.049 ⎠
⎝ 0.049
≅ P (0 ≤ Z ≤ 2.041) = 0.97932 − 0.5 = 0.479
Significa che quando la proporzione di clienti con più di una assicurazione
è 0.4 , la probabilità di trovare una proporzione di clienti con più di una
assicurazione è 0.479.