Il campionamento y CAMPIONAMENTO È il procedimento logico in base al quale l’insieme delle procedure per la costruzione del campione si salda alla teoria della stima e d ll verifica della f ddelle ll ipotesi. y DISEGNO DI CAMPIONAMENTO È l’insieme delle regole g seguite g pper la costruzione del campione. p Il piano di campionamento E’ L’INSIEME DI OPERAZIONI CHE PORTANO A: 1. DEFINIRE LA POPOLAZIONE OBIETTIVO NELLA RILEVAZIONE STATISTICA; 2. DEFINIRE LE UNITA’ CAMPIONARIE; CAMPIONARIE 3. SCEGLERE IL O I CAMPIONI SUI QUALI AVVERRA’ LA RILEVAZIONE STATISTICA; 4. CALCOLARE LA DIMENSIONE DEL CAMPIONE 5 DEFINIRE IL METODO O PROCEDIMENTO DI CAMPIONAMENTO; 5. 6. FORMULARE, CAMPIONE. CAMPIONE INFINE, UN GIUDIZIO SULLA “BONTA’” DEL Struttura St tt d dell campione: i i i insieme ddelle ll liliste che h sii utilizzano ili per costruire il campione. L lista La li comprende d l’ l’elenco l di tutte lle unità i à che h compongono l’universo. Se la struttura del campione è semplice: una lista. Se la struttura del campione è complessa: più liste. L popolazione La l i è iintesa t come aggregato t di unità ità statistiche. t ti ti h Le caratteristiche h e le l proprietàà della d ll popolazione l che h si intendono studiare sono definite variabili o caratteri. Possiamo ottenere le informazioni sulle variabili attraverso due metodi: di - Rilevazione totale o censuaria (si analizzano tutte le unità che h compongono l’universo) l’ i ) - Rilevazione campionaria (studio per inferenza dell’universo) Definizioni di base Popolazione o universo: ogni insieme finito o infinito di unità (non necessariamente esseri umani). ) La numerosità si indica con N Campione: insieme delle n (unità campionarie) selezionate tra le N che compongono la popolazione, detta popolazione di riferimento Statistica descrittiva: è l’insieme delle procedure utili per organizzare i dati raccolti in forma conveniente e comunicabile Statistica inferenziale: è l’insieme delle procedure atte a raggiungere conclusioni ppiù ampie p rispetto p ai valori raccolti,, tali da ppoter essere messi in relazione con l’universo. Vogliamo V li studiare di le l variabili i bili ((proprietà) i à) X X,Y Y, Z Z, di un certo campione. Studiarle significa conoscere alcuni valori caratteristici assunti d ll’ dall’intera popolazione l ((cioèè lla lloro DISTRIBUZIONE) o lle relazioni fra le variabili stesse. Chiamiamo queste conoscenze PARAMETRI PARAMETRO (grandezza relativa ad una popolazione): è una grandezza “vera” che assume un certo valore (noto o meno) ESEMPIO: Proporzione di studenti del master con gli occhi verdi Esempi: Esempi S l’unità Se l’ ità è l’i l’individuo di id e la l variabile i bil X è il reddito ddit e vogliamo li conoscere il reddito medio, il parametro della popolazione che vogliamo g conoscere è la MEDIA Se la variabile Y è il voto e noi vogliamo conoscere la proporzione di persone che hanno votato il partito A, il parametro della popolazione che vogliamo conoscere è una PROPORZIONE Se vogliamo studiare la relazione fra le variabili X e Z, il parametro che vogliamo conoscere è un coefficiente di CORRELAZIONE Stimatore y Grandezza relativa a un campione. campione Stima il relativo parametro della popolazione da cui è estratto il campione y ESEMPIO: Proporzione di studenti con gli occhi verdi presenti a questo corso y Lo STIMATORE è diverso dal PARAMETRO e dipende dal campione estratto. y Lo stimatore è una misura “affetta da errore” (errore di campionamento). y Le misure affette ff da d errore di d campionamento sono chiamate h variabili aleatorie o casuali Se conoscessimo la popolazione totale, avremmo il valore esatto del parametro che stiamo studiando, ma questa è un’ipotesi che non sii verifica ifi maii (se ( non neii casii di censimento) i ) L’indagine campionaria ci fornisce una STIMA, un valore approssimato Se indichiamo con V il valore (sconosciuto) del parametro della ppopolazione p (che ( ppuò essere una media,, una pproporzione, p , un coefficiente di correlazione, ecc.), con v il valore trovato nel campione (cioè la sua stima) e con e l'errore di campionamento, possiamo scrivere: V = v Parametro della Stima del campione popolazione p p p (incognito) ± e Errore di campionamento p Mentre non cii sono difficoltà M diffi l à per calcolare l l la l stima i v, che h è di direttamente fornita dai dati del campione, il vero problema consiste nel calcolare l'errore di campionamento. Si tratta di un problema assai rilevante. Intuitivamente, i f tti per d infatti, determinare t i l'l'entità tità d dell'errore ll' d dovremmo conoscere anche h qualche l h cosa della popolazione: ma come facciamo se su di essa non sappiamo nulla? Tuttavia, se il campione è stato scelto secondo una procedure rigorosamente casuale Tuttavia casuale, cioè si tratta di un campione probabilistico, allora la statistica ci permette di calcolare l'entità di tale errore. Q Quindi, , se effettuiamo una rilevazione totale sul reddito degli g italiani,, ppossiamo dire: “il reddito medio degli italiani è € 1.350”. Se effettuiamo un rilevazione campionaria, diciamo: “c’è il 95% di probabilità che il reddito medio degli italiani sia di € 1.300 ± 50” Nel secondo caso, caso il ricercatore non è certo del suo calcolo, calcolo cc’èè un 5% di probabilità che il reddito sia al di fuori dei valori indicati. Il ricercatore calcola un intervallo di fiducia nel quale si colloca il valore della statistica della popolazione. La stima del campione è sempre affetta da un ERRORE DI CAMPIONAMENTO. L'errore di campionamento è direttamente proporzionale al livello di fiducia che vogliamo avere nella stima e alla variabilità del fenomeno studiato, mentre è inversamente proporzionale all'ampiezza del campione. Errore totale della stima Componenti principali Errore di campionamento Casuale Errore non campionario Errore dovuto all'intrinseca variabilità del processo di campionamento probabilistico Errore di selezione dovuto all'adozione all adozione di un disegno di Sistematico campionamento non probabilistico Errore di copertura Errore di non risposta totale Errore di non risposta parziale Errore di misurazione Errore di elaborazione (varianza campionaria) Errore di campionamento L’errore di campionamento si verifica per VARIAZIONE CASUALE deriva da un elemento naturale i li i bil il CASO ineliminabile: questo è un BUON CAMPIONE perché l’errore l errore dovuto alla variazione casuale può essere STIMATO SELEZIONE VIZIATA fatta su un settore non rappresentativo d ll popolazione. della l i Il campione i sii dice di DISTORTO Questo è un CATTIVO CAMPIONE perché é l’errore non può ò essere stimato! Variazione casuale y La variazione casuale è dovuta al caso, caso cioè a quell'«insieme di fattori o cause, piccole o grandi, che agiscono su un fenomeno senza che noi possiamo o vogliamo controllarli esattamente e prevederne quindi l'azione» (Cavalli-Sforza). y La L variazione i i casuale l fa f sìì che h una misura i effettuata ff su un campione non fornisca un valore identico alla misura effettuata sulla popolazione: ci potrebbe essere - ed in effetti c'è sempre - un certo errore, che viene detto errore campionario. L'errore campionario deriva semplicemente dal fatto che stiamo osservando soltanto una parte della popolazione. Esempio y Supponiamo pp di avere a disposizione p due farmaci,, A e B,, ugualmente g efficaci, nel senso che guariscono il 50% dei pazienti trattati. Supponiamo di fare un esperimento per studiare l'effetto dei due farmaci; supponiamo che, che in questo esperimento, esperimento non sia presente alcun bias e quindi che i dati ottenuti siano assolutamente affidabili. Tuttavia, se l'esperimento prevede di esaminare un numero limitato di soggetti per ciascuno dei due trattamenti, trattamenti facilmente osserveremo che il farmaco A induce guarigione con maggior frequenza rispetto al farmaco B (o viceversa). Questo effetto è dovuto, appunto, alla variazione casuale. y Ovviamente, l'errore di campionamento è condizionato dall'esistenza di variabilità tra gli individui che compongono la popolazione di partenza; se tutti - pper assurdo - avessero lo stesso carattere in egual g misura,, l'esame di qualsiasi numero di individui fornirebbe lo stesso valore, e quindi l'errore di campionamento sarebbe nullo. Selezione viziata y La selezione viziata è quella che viene effettuata su un segmento non rappresentativo della popolazione. Questo avviene quando la scelta delle unità che costituiranno il campione viene effettuata ff tt t con regole l non rigorosamente i t causali. li Talvolta, T l lt è lo l stesso sperimentatore che, definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - ggli effetti del caso e ad ottenere un campione più aderente alla popolazione, commette un errore che rende i dati inutilizzabili. y Un U campione i che h non è stato ottenuto correttamente fornisce f i misurazioni e risultati per i quali è impossibile calcolare il p La selezione viziata fa sì cosiddetto «errore di campionamento». che all'errore campionario si sommi un altro tipo di errore, detto errore non campionario o bias. La selezione viziata fornisce un campione i non rappresentativo i ( (distorto) ) y ESEMPIO 1. Vogliamo accertare la proporzione di persone che si curano con ppreparati p omeopatici p in una determinata città. Non ppotendo esaminare tutti gli individui della città considerata, decidiamo di esaminare un campione di persone. Per comodità, scegliamo le persone che si servono ppresso le farmacie pprovviste anche di pprodotti omeopatici. p Il campione p così ottenuto sarà sicuramente composto proprio da molte di quelle persone che assumono preparati omeopatici. Il nostro campione sarà viziato perché (1) ha selezionato persone che preferiscono la medicina omeopatica, e (2) ha selezionato persone che si servono in farmacie omeopatiche. Presumibilmente, una maggior quantità di individui del nostro campione risulterà privilegiare il trattamento omeopatico e dunque potremmo erroneamente concludere che "moltissime persone non ricorrono alle terapie tradizionali". La selezione viziata fornisce un campione i non rappresentativo i ( (distorto) ) y ESEMPIO 2. Il frammento prelevato con una biopsia epatica rappresenta circa 1/50000 dell'organo. Essendo il campione così piccolo rispetto all'intero organo, esiste la possibilità di ampie variazioni i i i da d un campione i all'altro. ll' lt Inoltre, I lt poiché i hé il frammento f t viene esaminato, in genere, allo scopo di diagnosticare una malattia dell dell'intero intero fegato, fegato esiste la possibilità che il processo di inferenza sia viziato. Ad esempio, si preleva un campione di tessuto sano in un organo ammalato. In conclusione … y Si può affermare che soltanto quando la scelta degli individui che compongono il campione è stata dettata dal puro e semplice se p ce caso (campionamento (ca p o a e to pprobabilistico o a st co o randomizzato), è possibile prevedere e calcolare l'entità della differenza tra campione p e ppopolazione. p In caso contrario, il campione si dice «distorto»». Con un campione distorto, non è possibile calcolare l'errore di campionamento e i dati ottenuti saranno difficilmente utilizzabili. bias o distorsione: differenza, causata da un errore sistematico tra la stima ottenuta da un campione e sistematico, la vera caratteristica della popolazione y Per «bias» si intende "un processo, effettuato in qualsiasi stadio della inferenza, f , che tende a fornire risultati che si discostano sistematicamente dai valori veri". bias (o distorsione o errore sistematico) i t ti ) bias Se la moneta è bilanciata: 1000 lanci -> in circa il 50% dei casi ci aspettiamo che venga testa (o croce) Se ripetiamo l’esperimento più volte, escludendo i casi in cui si ha il 50%,, in media metà delle volte la % sarà superiore e metà della volte sarà inferiore al 50%. Se la moneta fosse sbilanciata nel peso: Allora ci aspetteremmo due percentuali diverse, diverse di entità proporzionale allo sbilanciamento. bias (o distorsione o errore sistematico) i t ti ) • BIAS DI SELEZIONE distorsione nella scelta del campione (es. usare pazienti ospedalizzati per infarto miocardico acuto come campione per valutare l’efficacia di un intervento per smettere di fumare; utilizzare come campione controllo broncopatici in uno studio caso-controllo per trovare l’associazione fra fumo e cancro del polmone etc.) polmone, etc ) Esempio: il rapporto tra massa corporea e pressione arteriosa è E i i i influenzato dall'età; se il campione è stato ricavato in una comunità con età media inferiore alla media nazionale le conclusioni tratte da questo campione i non possono essere applicate li t alla ll comunità ità nazionale i l Errori non campionari y Nelle indagini infermieristiche possono essere più grandi dell’errore di campionamento: p - errata definizione della popolazione - errori nella lista (sottocopertura, sovracopertura, duplicazioni) - errori nello strumento di rilevazione - effetto intervistato - eventuale effetto intervistatore - mancata risposte ( non trovati, rifiuti, ecc) - errori nelle fasi di codifica, imputazione, elaborazione dei dati Altre forme di bias/distorsione y BIAS DI MISURAZIONE - Distorsione nella raccolta dei dati. Bias di misurazione (che si verifica se i metodi di misurazione non sono ben tarati, o validi, oppure se sono imprecisi o diversi tra i pazienti studiati). Esempio: misurare la pressione con uno sfigmomanometro difettoso, confrontare rilevazioni del peso corporeo pesando o chiedendo il peso con dei questionari questionari, etc etc. y BIAS DI CONFONDIMENTO: Bias di confondimento (che si verifica quando è presente t un ffattore tt estraneo t - di confondimento f di t appunto t - che h è associato, i t anche h se iin modo non causale, sia alla esposizione-trattamento, sia all'esito. Errore dovuto alla presenza di una variabile di confondimento (fattore che confonde l’associazione fra due fenomeni generando una associazione statistica che non è una relazione causale, definita relazione l i spuria) i) Esempio: in uno studio caso-controllo condotto per valutare l’associazione tra cancro del colon e un’attività lavorativa sedentaria sarebbe inappropriato controllare per la bassa attività fisica ggiacché essa rappresenta pp una conseguenza g di quell’attività q lavorativa. Determinazione D i i campione: d ll della NUMEROSITÀ OTTIMALE d l del È la numerosità che permette alle stime che compiamo di raggiungere ill livello l ll di d attendibilità d b l à che h ci attendiamo. d 5% 5 2% 1% N 100 n 80 N 100 n 96 N 100 n 99 300 170 300 270 300 296 500 220 500 415 500 475 1 000 1.000 285 1 000 1.000 715 1 000 1.000 910 5 000 5.000 370 5 000 5.000 1 660 1.660 5 000 5.000 3 330 3.330 > 8.000 400 > 2.500 50.000 > 10.00 200.000 0 Numerosità à campionaria y Dipende dalla variabilità insita nella variabile di studio y Dipende dall dall’errore errore che si accetta di commettere y Dipende dal grado di fiducia che si vuole attribuire alla stima y Non è importante la frazione di campionamento ma la numerosità del campione y Es. Caso Literary Digest 1936 USA Landon-Roosvelt V t id Vantaggi dell campionamento: i t Riduzione dei costi Rapidità Scopi specifici Accuratezza Criteri di inclusione e di esclusione Nel leggere un rapporto di ricerca è necessario verificare se il ricercatore ha identificato i descrittori della popolazione che costituiscono le basi per: i criteri di inclusione ((eleggibilità) gg )e i criteri di esclusione (delimitazione) che sono i criteri utilizzati per selezionare il campione dall’insieme di tutte le unità. I criteri di definizione della popolazione stabiliscono quella che sarà l popolazione la popola ione target. target 3 concetti correlati al tema del campionamento: 1. Eterogeneità: presenza di caratteristiche e qualità diverse nel campione, collegate alla variabilità degli atteggiamenti e dei comportamenti 2. Rappresentatività: si dice rappresentativo un campione che presenta alcune caratteristiche dell’universo in proporzioni analoghe 3. Sufficienza: misura l’attendibilità dei dati, ovvero la probabilità che essi siano validi per l’universo entro certi termini statisticamente determinabili Regole R l seguite it per identificare id tifi lle unità ità d da inserire i i nell campione : come si seleziona ogni singolo caso? Criterio costante: uguale per tutte le unità della lista Criterio variabile: se ad ogni unità viene assegnata una probabilità di selezione propria Che cosa è possibile Ch ibil ottenere ddaii ddatii raccolti? l i? - Verifica delle ipotesi di contenuto (cioè le ipotesi di rapporti tra le variabili): si rimane nell’ambito dei risultati disponibili p e tale verifica è valida soltanto pper le unità di analisi considerate. valido per campioni NON PROBABILISTICI - Inferenze: si generalizzano i risultati dal campione all’universo valido per campioni PROBABILISTICI Campionamento - metodi Campionamento probabilistico (remind) y In statistica, si parla di campionamento probabilistico quando ogni soggetto o oggetto di cui è composta la popolazione ha una probabilità nota di essere incluso nel campione. campione y Questo tipo di campione garantisce la rappresentabilità mentre dei campioni p non pprobabilistici non si ppossono ggeneralizzare i risultati di indagine. Infatti il campione probabilistico è quel campione i cui risultati possono essere estesi con un certo livello di fiducia (detto anche livello di confidenza) confiden a) alla popolazione. popola ione y In statistica il campionamento casuale corrisponde ad un'estrazione da una ppopolazione p distribuita secondo la sua legge gg ((funzione di densità)) di un determinato numero di individui/oggetti. Campioni probabilistici Campioni casuali o probabilistici: sono regolati dalla legge del CASO,, cioè della pprobabilità Si attribuisce ad ogni g unità della ppopolazione p una determinata probabilità positiva di essere selezionata Si utilizzano tecniche per la selezione casuale del campione Il campionamento p pprobabilistico consente al ricercatore di stimare la probabilità che ogni elemento della popolazione ha di essere selezionato Campioni probabilistici La probabilità di selezionare i casi è nota Per costruire un campione probabilistico è indispensabile la conoscenza dell’universo; devono essere note e disponibili p le fonti (es. lista completa della popolazione) Le fonti possono anche definire universi “settoriali” Si possono costruire diversi tipi di campioni probabilistici a seconda del metodo di estrazione Campionamento casuale semplice e Campionamento casuale sistematico Può essere estratto per sorteggio o per intervallo fisso (scegliendo un nominativo ogni tot da una lista e prevedendo eventuali sostituti), fino a raggiungere la numerosità desiderata. Il rapporto tra la numerosità dell’universo e quella del campione p dà la misura dell’intervallo fisso da rispettare. È opportuno su popolazioni relativamente piccole, in un’area ristretta, dove si può disporre di liste complete. Campionamento p casuale semplice p y E’ la più semplice tecnica di selezione di un campione; il procedimento è sostanzialmente simile allo schema di estrazione da un un’urna urna. y Un campione casuale semplice è un campione in cui è già nota la probabilità che ogni individuo della popolazione ha di essere scelto. y Nel campionamento casuale semplice si indica con n la dimensione del campione, campione ossia il numero di elementi del campione, e con N la dimensione della popolazione, ossia il numero di elementi della popolazione. y La probabilità che ogni individuo della popolazione ha di essere scelto alla prima estrazione è 1/N . y La selezione del campione può essere fatta in due modi: − con reimmissione; − senza reimmissione. y Nel campionamento con reimmissione ciascun elemento della popolazione è disponibile ad ogni estrazione, quindi ad ogni estrazione ogni individuo ha sempre probabilità 1/N di essere estratto. t tt In I questo t modo d un individuo i di id puòò essere nuovamente t estratto t tt in i una successiva estrazione. y Nel campionamento senza reimmissione un individuo, una volta selezionato, non viene rimesso nella popolazione e non può più essere scelto di nuovo. nuovo Campionamento sistematico y Un altro tipo di campionamento è il campionamento sistematico. In questo caso si procede nel modo seguente. seguente Data la popolazione di N individui e fissata la dimensione n del campione, campione si calcola il quoziente intero R /n = N . y Si sceglie un numero k a caso (ad esempio da un’urna) compreso fra 1 e R; si includono nel campione gli individui della lista che occupano p i pposti k,, k + R,, k +2R,, ... y Esempio Da una popolazione di 1000 individui si vuole formare un campione di 50 individui; in questo caso N = 1000 n = 50 20 R R= 1000/50 Si sceglie un numero k a caso fra 1 e 20, sia ad esempio k = 15. Il campione sarà formato dagli elementi della lista che portano il numero 15, 35, 55, 75, .... Se l’ l’elenco l d tutti glil individui di d d della d ll popolazione l è fatto f in modo d casuale, l anche h ill campione saràà casuale. Se invece l’elenco non è casuale rispetto alla variabile che si vuole studiare, il campione estratto può essere distorto. Il campionamento i t sistematico i t ti è più iù facile f il da d eseguire, i ma il suo uso acritico iti puòò portare t con facilità f ilità a campioni affetti da errori sistematici; questo rischio non c’è con il campionamento casuale semplice. In generale i risultati di un campionamento sistematico dipendono in larga misura dalle caratteristiche dell’indagine che si vuole fare e dalla popolazione da cui si campiona. Campionamento sistematico - esempio y Volendo effettuare un’indagine sulle abitudini alimentari di una ppopolazione p di 100.000 studenti,, scegliendone g un campione di 3000, possiamo prendere i nati in un dato ggiorno del mese di un anno fissato. y Se però si volesse usare lo stesso campione per studiare il quoziente di intelligenza, intelligenza questo campione sarebbe distorto, perché il quoziente di intelligenza, come il campione, è influenzato dall dall’età. età. Se non abbiamo liste della popolazione N, N possiamo costruire un campione sistematico? Sì,, in alcuni casi,, ad es.: exit ppolls,, ricerche di mercato Regola: g : tutte le unità devono avere la stessa pprobabilità di essere incluse nel campione, quindi l’estrazione deve coinvolgere tutta la popolazione e non solo una parte. Es. tutti i clienti del CUP : la rilevazione deve durare per tutto l’orario di apertura Campionamento randomizzato stratificato (1) y Un altro tipo di campionamento è il campionamento stratificato. E’ una delle tecniche di campionamento più famose e usate; consiste nel dividere gli N individui della popolazione in sottopopolazioni, sottopopolazioni o strati, strati sulla base di una caratteristica comune; nell’estrarre poi un campione casuale semplice da ogni strato in modo indipendente, e nel riunire insieme i risultati dei singoli campionamenti per formare un unico campione dell’ampiezza richiesta. y Si mantiene ll’estra estrazione ione casuale, casuale ma si utilizzano utili ano una o più variabili ariabili stratificanti, tali da controllare meglio la rappresentatività dei casi selezionati. y Questo metodo è più efficace perché assicura che gli individui della popolazione siano rappresentati adeguatamente nel campione; questo garantisce i una maggior i precisione ii nelle ll stime i d i parametrii della dei d ll popolazione. Campionamento stratificato (2) y Il ricorso alla stratificazione presuppone che si abbiano delle conoscenze sulla popolazione, in modo da poterla suddividere in strati, ad esempio classi di età, classi di reddito, ecc. y La stratificazione consente di aumentare la precisione delle stime, senza comportare un aumento del numero totale di elementi del campione. campione y Infatti la bontà dei risultati di un’indagine campionaria dipende essenzialmente da due fattori: − dimensione del campione; − variabilità del fenomeno in esame. y Quindi per aumentare la precisione dei risultati si può agire aumentando la dimensione del campione con conseguente aumento dei costi; se si pone il vincolo sul numero di elementi del campione, l’unica possibilità per aumentare la significatività dei risultati della rilevazione è utilizzare un campionamento stratificato. Il campione può proporzionale. essere proporzionale o non Il campione si dice stratificato proporzionale se riproduce la stessa composizione degli strati della popolazione E se operai, Es. i impiegati, i i ti lavoratori l t i autonomi t i e professionisti f i i ti sono rispettivamente il 35, 40, 15 e 10% della popolazione, costruiremo un campione di 1000 casi composto da 350 operai, 400 impiegati, ecc… IInvece, se sovra o sotto-rappresentiamo i alcuni l i strati, i otteniamo i un campione stratificato non proporzionale. In questo caso, dovremo effettuare un’operazione di ponderazione. Campionamento stratificato - esempio y Studio dell’incidenza di una data p patologia, g che è influenzata dall’età, in un gruppo di N individui. y Con un campionamento semplice può accadere che il campione sia composto prevalentemente l d giovani o da da d anziani. y Se anziché applicare il campionamento casuale semplice all’intera popolazione si procede prima a una stratificazione degli individui popolazione, secondo tre grandi classi di età (giovani, adulti, anziani) e poi si attua un campionamento semplice nell’ambito di ciascuna classe, si ha la certezza che tutte e tre le categorie entrino a far parte del campione in modo equilibrato. y L L’ampiezza ampiezza del campione in ogni strato (non tutti gli strati hanno la stessa numerosità) può essere stabilità in vari modi diversi. Campionamento a grappolo o a più stadi o cluster y Nel campionamento a grappolo, gli N individui nella popolazione sono suddivisi in molti gruppi, detti grappoli (sottopopolazioni), in modo tale che ogni grappolo sia rappresentativo dell’intera popolazione. y Si estrae p poi un campione p casuale di ggrappoli pp e tutti ggli individui di ciascuno dei ggrappoli pp selezionati sono inclusi nel campione. I grappoli possono essere definiti sulla base di raggruppamenti naturali, come quelli determinati dalle regioni, dalle città, o dalle famiglie. y Il campionamento a grappolo può essere meno costoso del campionamento casuale semplice, soprattutto quando la popolazione sottostante è disseminata su una vasta area g g geografica. y Comunque, il campionamento a grappolo tende a essere meno efficiente sia del campionamento casuale semplice, che del campionamento stratificato, e si rende necessaria una dimensione complessiva p del campione p ppiù ggrande pper ottenere risultati precisi come quelli che si ottengono con altri procedimenti. Campionamento a grappolo Si utilizza ad es. quando manca la lista completa delle unità della popolazione. popolazione Viene ddefinito Vi fi it sulla ll bbase di scelte lt e procedure d successive, i che h passano per più stadi o fasi. Si individuano diverse unità (primarie, secondarie…) e si procede con estrazioni i i successive i Campionamento a stadi o a grappoli o cluster y popolazione composta da un numero elevato di soggetti y •1°stadio: suddivisione dell’intera p popolazione p in ggruppi pp omogenei (es. per comune di residenza) da cui si estraggono casualmente delle unità(es. un gruppo di comuni) y A Stadi: al 2°stadio si estrae un campione di popolazione dalle unità estratte nel 1°stadio y A Grappoli: al 2°stadio ° si estraggono tutte le unità del 1°stadio/grappolo Es. ricerca sui medici di medicina generale g Unità primaria: Ausl locale cui afferisce il medico Unità secondarie: i medici stessi Il campionamento p si effettua in due stadi,, cioè in due estrazioni successive. p di unità pprimarie (ad es. 100 aziende Primo: si estrae un campione Ausl) Secondo: si estrae casualmente un numero di unità secondarie, cioè un numero di medici Campione a grappolo S utilizza Si l quando d lla popolazione l è naturalmente l suddivisa dd in gruppi di unità contigue Ad es. es le famiglie, famiglie le classi scolastiche, scolastiche i ricoverati rico erati in ospedale, ospedale ecc. Campione a stadi e a grappolo si possono combinare: Es Indagine multiscopo dell Es. dell’Istat Istat sulle famiglie (a stadi: campione di comuni; a grappolo: campione di famiglie) Campioni non probabilistici Seguono l’orientamento di chi li costruisce; vengono costruiti senza conoscere la probabilità di estrazione dei casi Vi a mancare la Viene l conoscenza dell’universo d ll’ i L’inferenza non si può applicare I risultati sono validi solo per il campione Campioni non probabilistici Gli schemi di campionamento non probabilistico prescindono dal principio di casualità e si basano su criteri soggettivi oppure oggettivi di scelta delle unità. La sezione delle unità della popolazione avviene esclusivamente in base alla capacità del ricercatore di interpretare le caratteristiche della popolazione e nel fare in modo che esse siano rispettate nel campione. Non è possibile applicare la teoria della probabilità per calcolare l’ l’errore campionario néé quella ll dell’inferenza d ll’ f per estendere d i risultati campionari all’intera popolazione. Tipi di campione non probabilistico Di convenienza Propositivo o a scelta ragionata Per quote (anche detto stratificato non probabilistico) A p palla di neve (a valanga) g Campionamento di convenienza E’ costruito in modo accidentale senza nessun criterio di base. Consiste nell’utilizzo delle persone/oggetti più facilmente accessibili come soggetti di studio. E’ anche detto accidentale o a casaccio. y Esempio 1: sondaggio elettorale telefonico. y Si intervistano le prime 100 persone che rispondono al telefono (considerare orario ecc). ecc) y Esempio 2: in un sondaggio di opinioni all'interno di una piccola azienda con 200 impiegati si vuole studiare la valutazione attribuita alla qualità d ll mensa. A questo della t scopo sii decide d id di esaminare i un campione i composto t da 20 persone. Per motivi di convenienza, si intervistano le prime 20 persone che si presentano in sala mensa. Questo criterio é molto pratico, in quanto non bisogna attendere ll'arrivo arrivo di tutti i dipendenti; tuttavia, tuttavia si esamineranno impiegati di livello più basso: i dipendenti più impegnati o comunque meno "affamati" non entreranno a far parte del campione. Questo campione, è dunque viziato da un errore sistematico. Campionamento di convenienza y Esempio 3: Tutti gli studenti iscritti al secondo anno o i primi 25 pazienti con una determinata diagnosi che si ppresentano ese ta o aallaa Casa della e a sa salute ute di Palombara a o a a Sa Sabinaa E’ anche detto volontario. E volontario y Esempio E i 4: 4 Si vuole l valutare l l’ ffi i di un nuovo vaccino l’efficacia i contro l’AIDS. Tutti i soggetti a rischio che volontariamente si presentano ai centri sieroprofilattici e che risultano sieronegativi vengono sottoposti alla vaccinazione. Campionamento a scelta ragionata Le unità campionarie vengono scelte in modo razionale sulla base di alcune l l loro caratteristiche, h e si utilizza l quando d l’ampiezza l’ d l del campione è limitata. Il ricercatore seleziona gli elementi sulla base della propria esperienza, esperienza facendo in modo di ottenere un campione rappresentativo della popolazione. Consiste nella scelta delle aree di analisi o delle unità campionarie in funzione della peculiarità del fenomeno da studiare e della sua presenza ritenuta dal ricercatore fortemente concentrata in tali aree o su tali unità. Esempio: in uno studio finalizzato a esaminare l’esperienza di trapianto di midollo osseo, il campione propositivo è costituito da pazienti con cancro che h hanno h subito bi un intervento i di trapianto i autologo l di midollo osseo a seguito di diagnosi di tumore Campione di esperti Consiste nel ricorso a persone che, per la particolare attività che svolgono, l sono a conoscenza di informazioni i f i i e notizie ti i su specifici ifi i fenomeni; pertanto il loro coinvolgimento risulta indispensabile per stimare la dimensione e le caratteristiche del fenomeno stesso. Appare evidente quali e quante problematiche di natura statistica sono connesse ad indagini effettuate tramite testimoni privilegiati senza i quali, tuttavia, risulterebbe quasi impossibile dimensionare alcuni fenomeni e o e pecu peculiari. a . E’ utilizzato nelle ricerche di tipo p qqualitativo ((focus ggroup). p) Si distinguono: Opinion leader (figure socialmente influenti). Testimoni privilegiati (figure non socialmente importanti ma detentori di informazioni). Campionamento p p per q quote La procedura di selezione prevede i seguenti passi: la popolazione da campionare viene suddivisa in gruppi sulla base di determinate caratteristiche (ad es. anagrafiche), dai dati censuari o da altre fonti si ricava il peso percentuale di ciascuna classe. Il totale della numerosità del campione viene suddiviso tra le classi in modo da rispecchiare le proporzioni esistenti nella popolazione. La scelta delle unità da intervistare è demandata all’intervistatore nell’ambito nell ambito delle quote assegnategli assegnategli. Di fatto il campionamento p pper qquote è simile al campionamento p stratificato,, ma la scelta delle unità, in ciascuno strato non è probabilistica è ciò comporta l’assenza di stime corrette e causa una sottostima della varianza complessiva. l i D D’altro lt canto t riduce id l mancate le t risposte i t e ha h costi ti molto lt più contenuti. Campionamento p p per q quote Ha la stessa logica del campionamento stratificato, stratificato ma le quote all all’interno interno di ciascuno strato sono selezionate dai ricercatori con criteri non probabilistici. Si ottiene definendo un dato numero di soggetti da campionare secondo certe variabili, o in base ad una quota fissa (100 infermieri, 100 medici, ecc) o mantenendo una certa proporzione tra universo e campione ( se in un ospedale ci sono 30% di medici e 70% di infermieri si cerca di mantenere la stesa quota nel campione ma la scelta nei singoli strati non rispetta le l regole l della d ll probabilità). b bl à Non essendo la scelta delle unità in ciascuno strato probabilistica, ciò comporta ll’assenza assenza di stime corrette e causa una sottostima della varianza complessiva. Riduce però le mancate risposte e ha costi molto più contenuti. Campionamento per quote Vantaggi non è richiesta una lista delle unità, non è necessario i ricontattare i t tt un’unità ’ ità non rispondente, i d t l’intervistatore gode di ampia flessibilità e libertà nella scelta delle unità. Svantaggi gg la scelta delle persone da intervistare dipende totalmente dall’intervistatore, l’esigenza di raggiungere la quota può accrescere la durata media dell’indagine. Campionamento a valanga Anche detto a catena o a palla di neve y E’ utilizzato nel caso la popolazione sia costituita da soggetti che tendono ad occultare la loro identità (omosessuali, prostitute ecc.) o sono di difficile reperibilità (clandestini ecc). y Consiste nel selezionare i casi utilizzando le reti relazionali (sociali culturali, (sociali, culturali politiche) di un gruppo di persone inizialmente contattate. Es. Indagine sugli immigrati senza permesso di soggiorno g lo si sottopone p ad intervista e ppoi ggli si Si contatta un immigrato, chiede di indicare un altro immigrato di sua conoscenza disposto a rilasciare l’intervista. Campioni probabilistici No Campioni non probabilistici Sì Rapidità Economicità No No Sì Sì p di Ipotesi contenuto Analisi dell’universo pp Rappresentatività Sì Sì Sì No Sì No Inferenza Sì No Semplicità Considerazioni conclusive Note di uso p per la pianificazione p un disegno g campionario p y Adottare una strategia di campionamento testata, monitorata e validata. y Considerare più disegni di campionamento alternativi e valutarli alla luce di p qquali censimenti,, indagini g pprecedenti,, dati informazioni disponibili amministrativi o appositi studi pilota. y Prevedere una certa flessibilità nel disegno in maniera da far fronte a necessità gg delle probabilità di selezione o una riduzione della quali l’aggiornamento dimensione campionaria. y Prevedere una rotazione del campione qualora si desideri fornire stime di variazioni efficienti e si voglia limitare il carico della rilevazione sulle unità statistiche. i i h y Prevedere metodi per trattare il caso in cui alcune delle unità indagate si scoprano non appartenere allo stato loro assegnato o non rientrare nella classificazione loro attribuita. attribuita y Considerare nella fase di disegno del campione anche problemi connessi agli errori di campionamento quali l’impossibilità di contattare qualche unità, il contatto di unità non appartenenti alla popolazione (ad esempio un OSS dove ci si aspetta un infermiere) o il rifiuto a partecipare all’indagine.