IL CAMPIONAMENTO IL CAMPIONAMENTO La selezione di un campione serve per ottenere informazioni da un piccolo gruppo per poi generalizzare i risultati ad una popolazione, pertanto il campione deve essere rappresentativo della popolazione da cui viene estratto (‘non viziato’) La scelta della tecnica di campionamento, che avviene sulla base dello scopo e del disegno dello studio, determina la significatività dei risultati di una ricerca. Indipendentemente dalle tecniche di campionamento che si intende utilizzare la prima fase del campionamento consiste nel definire la popolazione, ovvero, l’insieme che raccoglie tutte le osservazioni possibili, relativamente ad una data variabile o ad un dato fenomeno. - La Popolazione può essere finita o infinita - Si distingue tra pop. Target e pop. Accessibile, la prima è quella in studio la seconda è quella dalla quale si ottiene il campione BASE DI CAMPIONAMENTO Per effettuare un campionamento è necessario disporre di una lista, non necessariamente nominativa, delle unità che compongono l’universo che si intende osservare Gli identificatori della lista devo corrispondere uno-a-uno alle unità della popolazione La lista identifica la popolazione di selezione. Purtroppo sono frequenti i casi in cui non esiste perfetta coincidenza tra popolazione di selezione e popolazione obiettivo Oltre a popolazione obiettivo e popolazione di selezione è necessario parlare anche di popolazione di indagine. Selezionato il campione, accadrà normalmente di non poterne osservare tutte le unità per impossibilità di contattarle o per un loro rifiuto di partecipazione all'indagine (non risposta). La popolazione obiettivo, differisce da quella di selezione a causa dell'incompletezza della lista. La popolazione di selezione differisce a sua volta da quella di indagine a causa della non risposta Per effettuare un campione si può usare un’unica lista o più liste. Nel primo caso si dice che il campione ha una struttura semplice, nel secondo caso complessa LE TECNICHE DI CAMPIONAMENTO PIANO DI CAMPIONAMENTO Probabilistico Non Probabilistico Campione casuale semplice Campione di Convenienza Campione Sistematico Campione Stratificato Campione Statificato Campione Propositivo Campione a Grappolo Entrambi i tipi di campionamento tendono a rappresentare al meglio la popolazione in studio, ma in maniera differente, entrambi hanno vantaggi e svantaggi CAMPIONAMENTO NON PROBABILISTICO •I campioni non casuali precedono, dal punto di vista storico, quelli probabilistici •Tali campioni riflettono nel bene e nel male l’orientamento di colui che li forma •Non consentono il calcolo dell’errore dovuto al campionamento e della bontà delle stime CAMPIONAMENTO PROBABILISTICO (1) Un campione casuale affida al caso la scelta delle unità statistiche da campionare. “A caso però non vuol dire a casaccio”. Il concetto di caso è infatti strettamente connesso a quello di probabilità : il caso è un concetto intuitivo strettamente connesso all’idea di impossibilità di previsione, di individuare un ordine, un legame. Il campionamento casuale: - garantisce le migliori proprietà statistiche degli stimatori - garantisce la possibilità di stimare la bontà dei risultati ottenuti - a parità di numerosità campionaria (e di costo) fornisce risultati più attendibili - semplifica la costruzioni di modelli statistici, che spesso assumono che i dati siano stati raccolti in modo casuale - gli intervistatori non hanno discrezionalità su quali unità statistiche intervistare - la procedura di selezione del campione è ben definita e prevede l’introduzione e l’uso pianificato del caso CAMPIONAMENTO PROBABILISTICO (2) LA PROBABILITA’ DI SELEZIONE Nel campionamento casuale la probabilità di selezione è fissata dal ricercatore e può essere: - costante, ovvero la stessa per tutte le unità della lista - variabile, ad ogni unità viene assegnata una propria probabilità La probabilità di selezione (pi) varia tra 0 ed 1 per ognuna delle N unità della lista e ammonta a 1 per il complesso delle unità listate La selezione delle unità dalla lista può essere eseguita seguendo uno dei criteri che garantiscono casualità nell’individuazione del campione (tecniche di campionamento) CAMPIONAMENTO PROBABILISTICO (3) LA DETERMINAZIONE DELLA NUMEROSITA’ CAMPIONARIA - Non è vero del tutto che più unità è possibile collezionare, con il bilancio disponibile, meglio è, infatti, a volte collezionare tante unità comporta un impegno di risorse umane e materiali che può essere spropositato per l’obiettivo della ricerca (esempio negli studi sui nuovi farmaci!!) - La numerosità campionaria determina l’attendibilità delle stime, un campione esiguo può compromettere la credibilità dei risultati dell’indagine LA NUMEROSITA’ OTTIMA DEL CAMPIONE E’ QUELLA CHE PERMETTE DI RAGGIUNGERE GLI OBIETTIVI DELL’INDAGINE AL MINIMO COSTO, E SARA’ IL PIU’ PICCOLO NUMERO IN BASE AL QUALE LE STIME RAGGIUNGERANNO IL LIVELLO DI ATTENDIBILITA’ ATTESO DAL RICERCATORE. CAMPIONAMENTO PROBABILISTICO (4) LA DETERMINAZIONE DELLA NUMEROSITA’ CAMPIONARIA DIPENDE: - dall’obiettivo dell’indagine (end-point primario) - dalla precisione delle stime che si vogliono ottenere (errori campionari) - dal disegno di campionamento GLI ERRORI DI UN’INDAGINE (1) DI CAMPIONAMENTO ERRORI DI RILEVAZIONE Errore di campionamento: Il campione di n unità usato nell’indagine è solo uno dei tanti possibili campioni che si possono formare con le n unità della popolazione. Estraendo campioni diversi si possono ottenere stime diverse. L’errore di campionamento diminuisce all’aumentare della dimensione del campione e scompare per n=N Errori di rilevazione: si realizzano quando il valore osservato presso un’u.s. differisce dal suo valore vero Questo tipo di errori sono idealmente indipendenti dal tipo di campionamento perché possono manifestarsi anche in indagini esaustive GLI ERRORI DI UN’INDAGINE (2) ERRORI SISTEMATICI NON SISTEMATICI Le distorsioni sistematiche possono verificarsi sia per le indagini campionarie che censuarie, generalmente dovute a - quesiti presentati male, che orientano verso una risposta - comportamento non neutrale del rilevatore - comportamento non sincero degli intervistati per argomenti scabrosi Le distorsioni non sistematiche sono dovute ad errori in fase di compilazione, codifica, ed elaborazione dei risultati. DISEGNI DI CAMPIONAMENTO PROBABILISTICI Campione Casuale Semplice Campione Sistematico Campione Statificato Campione a Grappolo CAMPIONAMENTO CASUALE SEMPLICE • Nel campionamento casuale semplice tutti gli individui nella popolazione hanno uguale probabilità di essere inclusi nel campione. • Data una popolazione di N individui ed un campione di dimensione n la probabilità che l’i-esimo individuo entri nel campione è “n/N” FRAZIONE DI CAMPIONAMENTO= n/N • Il numero di possibili campioni di dimensione n estraibili da una popolazione (dimensione N) è dato dal numero delle combinazioni di N elementi n a n CnN = (N!/[n!(N-n)!]) •La probabilità di un campione specifico è 1/ CnN Supponiamo di avere a che fare con 6 pazienti affetti da una rara malattia e chiediamoci in quanti modi potremmo sceglierne un campione di 2. Indicando ciascun paziente con una lettera da A a F, i possibili campioni (senza ripetizione) sono dati dalle coppie: AB AC AD AE AF BC BD BE BF CD CE CF DE DF EF I campioni possibili sono dunque 15 (6!/2!*4!=6*5*4*3*2*1/(2*1)*4*3*2*1=720/48 Ognuno con una probabilità di 1/15 di essere estratto Il campionamento casuale semplice implica inoltre che anche ciascun individuo abbia la stessa probabilità di essere estratto. In questo caso la probabilità che un soggetto sia estratto è 2/6=1/3 (ogni individuo entra in 5 diversi campioni su 15) probabilità pari alla frazione di campionamento TAVOLA DEI NUMERI CASUALI Metodo consigliato per l’estrazione di piccoli campioni da gruppi non troppo numerosi 1. Le osservazioni che compongono la popolazione (anche detta base di campionamento) vengono numerate in ordine progressivo da 1 a N; 2. Viene scelto un punto di partenza sulla tavola dei numeri casuali (es. a occhi chiusi si segna un punto); 3. Viene letto (estratto), a partire dal punto così individuato, un numero di M cifre, dove M è pari al numero di cifre del numero totale di osservazioni nella popolazione (es. se la popolazione è di 300 persone useremo numeri di 3 cifre, se di 4500 persone useremo numeri di 4 cifre); 4. Viene inclusa nel campione l’osservazione con numero progressivo pari al numero estratto; se il numero estratto è superiore a N si estrae un altro numero. 5. Si ripete la procedura leggendo i numeri successivi dalla tavola, fino a che non è stato estratto il numero richiesto di osservazioni. Esempio di estrazione di un campione di 2 soggetti da una base di 10. - Devo scegliere numeri di 2 cifre. - Decido che procederò progressivamente per colonna,dall’alto in basso. - In modo casuale individuo il punto evidenziato come punto di partenza. - I successivi valori inferiori a 10 sono annotati nei “cerchietti” (05 e 01) e corrispondono ai soggetti da campionare. CAMPIONAMENTO CASUALE SISTEMATICO Da un elenco numerato degli individui che formano la popolazione, dopo l’estrazione casale della prima unità (utilizzo di una tavola di numeri casuali) si estraggono gli individui ad distanza costante (PASSO DI CAMPIONAMENTO). ES: supponiamo di disporre di una lista di 100 soggetti (!!!LISTA DI CAMPIONAMENTO NON SEMPRE = POPOLAZIONE!!!) da cui estrarre 10 soggetti 001 002 003 004 005 006 007 008 009 010 011 012 013 014 015 016 017 018 019 020 021 022 023 024 025 026 027 028 029 030 031 032 033 034 035 036 037 038 039 040 041 042 043 044 045 046 047 048 049 050 051 052 053 054 055 056 057 058 059 060 061 062 063 064 065 066 067 068 069 070 071 072 073 074 075 076 077 078 079 081 081 082 083 084 085 086 087 088 089 090 091 092 093 094 095 096 097 098 099 100 PROCEDURA: scelgo a caso un individuo dalla prima riga e poi prendo sistematicamente gli individui distanti 10 numeri l’uno dall’altro. Supponendo di aver scelto come primo individuo lo 005 il campione estratto sarebbe composto da: 005, 015, 025, 035, 045, 055, 065, 075, 085, 095 CAMPIONAMENTO CASUALE SISTEMATICO VANTAGGI: E’ FACILE DA APPLICARE E FORNISCE STIME PIU’ ACCURATE SVANTAGGI: NON COGLIE EVENTUALI VARIAZIONI PERIODICHE O CICLICHE NEI DATI E NON SI PUO’ CALCOLARE UN INDICE DI VARIABILITA’ (Errore Standar) PER LE STIME CAMPIONARIE CAMPIONAMENTO CASUALE STRATIFICATO Popolazione riunita in gruppi tra loro omogenei , per aumentare l’efficienza del campione l’estrazione casuale non è esercitata sull’intera popolazione ma all’interno dei gruppi, come se si trattasse di tanti campioni casuali. VANTAGGI E’ VANTAGGIOSO QUANDO LA POPOLAZIONE E’ MOLTO ETEROGENEA E PUO’ ESSERE SUDDIVISA IN PARTI OMOGENEE. SVANTAGGI (?) PRESUPPONE LA CONOSCENZA DELLE CARATTERISTICHE DELLA POPOLAZIONE CAMPIONAMENTO CASUALE STRATIFICATO OBIETTIVI: 1. Tutti gli strati siano rappresentati nel campione con numerosità sufficiente -Frazione di campionamento costante (CRITERIO PROPORZIONALE) negli strati ,il campione ha la stessa composizione % per strati della popolazione -Frazione di campionamento variabile (CRITERIO NON PROPORZIONALE) tra strato e strato. Gli strati di particolare interesse sono evidenziati e tutti i sotto campioni sono di uguali dimensioni 2. voglio controllare la proporzione dei soggetti nei diversi strati, non lasciandola esposta alla variabilità casuale Esempio Supponiamo di voler estrarre un campione, nel quale maschi e femmine siano rappresentati con la stessa numerosità (100 uomini e 100 donne), dall’insieme dei casi inclusi in uno studio epidemiologico su tumore polmonare nella popolazione di Torino negli anni 1993-98 La frequenza relativa nella popolazione dei casi di tumore polmonare è di 4 uomini : 1 donna. Con un campione casuale semplice mi aspetto di trovare solo il 25% di donne. Procedo quindi ad un campionamento stratificato FRAZIONE DI CAMPIONAMENTO VARIABILE CAMPIONAMENTO CASUALE A GRAPPOLI E’ utilizzato quando gli individui sono suddivisi in modo naturale od artificiale, in gruppi legati da vincoli di contiguità Caratteristica distintiva del metodo è che le unità non sono scelte in modo diretto, ma estratte in quanto appartenenti ad un certo gruppo. - Spesso il motivo principale di tale procedimento è la mancanza di un censimento completo delle unità da rilevare. - Il metodo ha lo svantaggio di contenere un numero variabile di unità dentro ogni gruppo e in genere di essere meno efficiente del campionamento casuale semplice Esempio: voglio verificare l’efficacia di due diversi trattamenti per la disassuefazione dal fumo. Entrambi i trattamenti devono essere proposto dal medico di base. Procedo in due fasi: 1. campione dei medici (10 medici tra tutti i medici di base) 2. campione degli assistiti dei medici campionati nella fase 1 (20 assistiti per ciascun medico) Totale del campione : 10 medici x 20 assistiti = 200 assistiti. AFFIDABILITA’ DELLE STIME CAMPIONARIE Il campionamento serve per STIMARE alcuni parametri (misure di sintesi) di certe popolazioni che non possono essere esplorate totalmente La “misura” del fenomeno che si ottiene dal campione non riproduce esattamente quella che si otterrebbe a livello di popolazione (anche quando il campione è rappresentativo della popolazione) Errore di campionamento A parità di numerosità campionaria, campioni diversi (ottenuti con lo stesso metodo o con metodi diversi) producono “misure” del fenomeno diverse Variabilità campionaria DA COSA DIPENDE LA VARIABILITA’ CAMPIONARIA? La variabilità campionaria dipende: 1. 2. dalla dimensione del campione (decresce all’aumentare della dimensione campionaria) dalla variabilità del fenomeno nella popolazione (aumenta all’aumentare della varianza nella popolazione)