CAMPIONAMENTO • Esperimento experimental design Qualunque processo che generi risultati – eventi che non sono generalizzabili con certezza Popolazione non è finita Fenomeno è sotto controllo: stimolo sperimentazione sui farmaci) Ripetizione è possible sotto le stesse condizioni risposta (p.e. • Osservazione - indagine statistica Qualunque processo che generi risultati – eventi che non sono generalizzabili con certezza - Popolazione è finita ed ogni componente è ben identificabile (LISTA), - La misura non è sotto controllo -: I fenomeni osservati non possono essere modificati dal ricercatore– fenomeni reali - (p.e. misura della disoccupazione, del reddito) - La ripetizione è possibile ma solo sotto condizioni differenti. IL PROBLEMA Disponiamo solo di un sottoinsieme della popolazione totale, ma vogliamo arrivare ad ottenere informazioni – parametri – su quella popolazione → INFERENZA (da una conoscenza particolare ad una generale) Scopi del campionamento 1. Risparmio di tempo 2. risparmio di denaro 3. impossibile osservare tutti gli elementi della popolazione (in un contesto sociale e naturale) 4. l’osservazione distrugge gli elementi osservati Popolazione: è costituita dall’insieme delle unità elementari – individui o unità statistiche – esistenti in un preciso istante e con una precisa delimitazione spaziale – su cui vogliamo fare inferenza Unità elementari: componente su cui si conduce l’osservazione o la misura. Unità campionaria o di rilevazione: gruppo di unità non sovrapposte della popolazione Rappresentatività: molti significati - specchio o miniature della popolazione caso tipico o ideale testimone priviligiato Assenza di forze selettive Copertura della popolazione Campionamento Probabilistico– selezione casuale delle unità da osservare con probabilità eguale e non nulla di essere scelte • Inferenza da un campione alla popolazione è sempre incerta (Hume) La connessione tra campione e popolazione è possibile solo grazie alla selezione casuale e misurando il grado di incertezza I campioni devono essere scelti in modo da creare delle vc che siano trattabili con la teoria della probabilità Selezione casuale numeri casuali ↓ • Ciacun elemento della popolazione ha la stessa probabilità di essere selezionato • Non devono esserci criteri soggettivi a guidare la selzione • La lista delle unità della popolazione deve essere nota Campionamento casuale semplice Campionamento stratificato Campionamento complesso Campionamento casuale semplice Fasi del processo • Identificazione della popolazione finita di N unità, • Definizione della variabile di interesse X – anche più di una– che sarà osservata nelle n unità campionate. • Selezione di un campione di n unità (numeri casuali) • Definizione dei parametri delle variabili osservate da stimare (p.e. media campionaria, proporzione, totale). • Identificazione della distribuzione di probabilità dei parametri di interesse. • Poichè il campione include n elementi abbiamo n selectioni casuali relative ad n variabili casuali. Se X i è la variabile associate con la i selezione, il campione consiste in una variable casuale multipla ( X 1 , X 2 ,..., X n ) . • Nel campionamento casuale semplice le X sono variabili casuali identicamente e indipendentemente distribuite. • Il campione osservato ( x1 , x 2 ,..., x n ) è una specifica realizzazione della variabile casuale multipla ( X 1 , X 2 ,..., X n ) . • L’insieme di tutti I possibili campioni ( x1 , x 2 ,..., x n ) definisce lo spazio dei campioni (popolazione di tutti i campioni). Sotto certe condizioni n la sua ampiezza è N . • Quindi qualunque funzione Tn della variabile casuale multipla X 1 , X 2 ,..., X n è una vc. Che Chiamiamo stima campionaria statistica - T = t ( X 1 , X 2 ,..., X n ) Esempi : 1 n Media campionaria X = n ∑ X i i =1 Varianza campionaria 1 n (X i − X )2 s = ∑ n − 1 i =1 2 ……….. 1 n 2 NOTE: σˆ = n ∑ ( X i − μ ) non è una stima corretta della varianza della i =1 popolazione! 2 ERRORI NON CAMPIONARI IL PROCESSO DI MISURA IMPLICA ERRORI • • • • • • • • • Tecnica di indagine: Papi, Cati, Capi, ecc. Strumenti per la rilevazione dei dati (Questionario) Intervistatore - conditionamento Intervistato– ricordo, disponibilità Mancata risposta totale e parziale Registrazione dei Dati Revisioni ed imputazioni Tecnica di stima – aggiustamento per la mancata risposta e rifiuti Tabulazione L’errore non-campionario è una componente additiva della stima della variabilità campionaria L’errore non-campionario è possibile anche in indagini censuarie DISTRIBUZIONE CAMPIONARIA Dato na campione casuale X 1 , X 2 ,..., X n , e definite la statistica t ( X 1 ,X 2,..., X n ) , la distribuzione di probabilità di t è una distribuzione campionaria. distribuzione della media campionaria 2 Se X è una caratteristicas popolazione con distribuzione X ~ N ( μ ,σ ) . La distribuzione della media campionaria: X ~ N (μ , σ2 n ) se σ2 è nota è possibile calcolare la probabilità di trovare la stima della X , dal campione selezionato, all’interno di un intervallo del parametro vero μ usando la vc z X −μ σ/ n ~z se σ2 non è nota possiamo ottenere un risulato analogo ma la distribuzione di probabilità della X sarà X ~ N (μ , s2 ) n inoltre, anziché ricorrere alla z si dovrà fare ricorso alla distribuzione t di Student- che tiene conto di un fattore aggiuntivo di variabilità dovuto alla stima s2 t è una distribuzione simmetrica che si approssima alla distribuzione N(0,1) quando n → ∞ - la sua variabilità è più alta di quella della normale X −μ ~ t n −1 s/ n E (t ) = 0 V (t ) = n n−2 … QUANDO LA DISTRIBUZIONE DELLA X NON È NOTA O NON È NORMALE il teorrema centrale del Limite dice che per n → ∞ (o almeno è grande abbastanza), se la varianza è finita la vc X sarà ugualmente X ~ N (μ , σ2 n ) NON sono necessarie dunque assunzioni sulla forma della distribuzone della variabile in popolazione. Approssimazione della Binomial alla Normale. Esempio Il responsabile di una assicurazione oha trovato che il 40% dei clienti ha più di na assicurazione con la sua compagnia Si seleziona un ccs con n pari a100 clienti qual è laprob. Che proporzione di clienti con più di una assicurazione sia compresa tra 0.4 e0.5? 1 n La proporzione di clienti con più di un assicurazione è p̂ = X = 100 ∑ X i , i =1 dove le variabili Xi assumono il valore 1 se il clienti ha più di un assicurazione ed il valore 0 se il cliente ne ha una sola. Si dovrebbe ricorrere ad una Binomial distribution. P (40 ≤ X ≤ 50 ) = P (0 ≤ X ≤ 50 ) − P (0 ≤ X ≤ 40 ) ⎛ n ⎞ x 100 − x 50 ⎛ n ⎞ x 100 − x = ∑ ⎜⎜ ⎟⎟ p q − ∑ ⎜⎜ ⎟⎟ p q x x=0 ⎝ ⎠ x=0 ⎝ x ⎠ 50 I Calcoli sono piuttosto lunghi e difficili. Poiché n=100, grazie al teorema del limite centrale pioché n è grande ne segue che a ⎛ p (1 − p ) ⎞ p̂ = X ~ N ⎜ p , ⎟ n ⎝ ⎠ where p=0.4 p( 1 − p ) / n = ( 0.4 ⋅ 0.6 ) / 100 From the tabulation of the z: ⎛ 0.4 − 0.4 p̂ − 0.4 0.5 − 0.4 ⎞ P(0.4 ≤ p̂ ≤ 0.5) ≅ P⎜ ≤ ≤ ⎟ 0.049 0.049 ⎠ ⎝ 0.049 ≅ P (0 ≤ Z ≤ 2.041) = 0.97932 − 0.5 = 0.479 Significa che quando la proporzione di clienti con più di una assicurazione è 0.4 , la probabilità di trovare una proporzione di clienti con più di una assicurazione è 0.479.