Il campionamento Il campionamento n n n Insieme delle operazioni che consistono nella selezione, nelle intenzioni rappresentativa, degli appartenenti ad una popolazione, allo scopo di studiare una porzione della popolazione stessa Se il campione è scelto adeguatamente, i risultati ottenuti sul campione sono generalizzabili alla popolazione da cui è stato estratto Ulteriori vantaggi: economicità (costi e tempi limitati) Il campionamento: fasi n n n n n n n Individuazione della popolazione di riferimento Specificazione dell’unità di campionamento Definizione della lista di campionamento Determinazione della numerosità campionaria Scelta del metodo di campionamento Selezione del campione Stima dei parametri della popolazione a partire dai dati del campione TIPI DI CAMPIONAMENTO n - - - - Probabilistici costituiti da unità la cui probabilità di estrazione è nota più soddisfacenti perché godono di 2 proprietà: Rappresentatività; Stima dell’errore di campionamento. n - - - - - - Non probabilistici costituiti da unità la cui probabilità di estrazione è ignota Vantaggi: più facili da usare minore investimento Svantaggi: Non generalizzabilità Non quantificazione dell’errore di camp.ento. Tipi di campionamento Probabilistici n n n n Casuale semplice Sistematico Stratificato … Non probabilistici n n n n Di comodo Per quote A valanga … L’ampiezza del campione n Quattro variabili da tenere in considerazione n n n n Eterogeneità del fenomeno studiato Grado di disaggregazione dei dati in sede di analisi Grado di affidabilità desiderata delle stime Risorse economiche e temporali Campione casuale semplice n n Senza ripetizione: quando ogni unità statistica estratta viene esclusa dalla lista in modo che non possa essere estratta più di una volta. In questo caso, la probabilità di estrazione di un unità statistica in un campione di unità è n/N. Con ripetizione: quando ogni unità statistica può essere estratta più di una volta. Se la probabilità di selezione al primo tentativo è 1/N, al secondo tentativo è 1/(N-1), al terzo 1/(N-2), e così via. In un campione di numerosità n, la probabilità di includere un’unità è sempre n/N. La curva normale L’ampiezza del campione (variabili cardinali) quando si usa il C.nto casuale semplice Per campioni <5% della popolazione: ⎛ zσ ⎞ n = ⎜ ⎟ ⎝ e ⎠ 2 Per campioni >5% della popolazione: ….. . 1 – n N n = ampiezza del campione z = livello di fiducia riposta nella stima (1,96 = affidabilità della stima del 95%; 2,58 = 99%) σ = deviazione standard del parametro nella popolazione e = ampiezza accettata dell’errore di camp.to L’ampiezza del campione (variabili cardinali) n Per arrivare a n bisogna: n n Acquisire un’informazione: Qual è la variabilità che la variabile di interesse assume nella popolazione della ricerca (quanto è grande σ) ? Prendere due decisioni: n n Qual è il grado di fiducia che intendiamo riporre nelle nostre stime (qual è i valore di z) ? Qual è l’ampiezza dell’errore che accettiamo di commettere (quanto è grande e) ? ESEMPIO Vogliamo stimare l’età media degli studenti di Tor Vergata con un livello di fiducia del 95%, con un errore di stima di 2 anni. Supponiamo che da una precedente indagine la deviazione standard sia risultata pari a 6 anni. 2 2 1,96× 6) (zσ ) ( n= = = 34,6 2 2 e 2 Se, invece, volessimo aumentare la fiducia al 99%, la numerosità campionaria sarebbe pari a: € 2 2 2,58× 6) (zσ ) ( n= = = 59,9 2 2 e 2 Problemi di rappresentatività del campione n n n CAUSE Impossibilità di trovare la persona scelta Impossibilità di rispondere (es. durata) Rifiuto dell’intervista n n n n n RIMEDI Costruire più liste di camp.to e sostituire i soggetti con criteri stabiliti a priori Rendere il questionario più breve e agevole Attenzione alle caratteristiche degli intervistatori Tenere conto di un insieme di variabili psicosociali (segue) Rimedi alle mancate partecipazioni: variabili psicosociali n n n n n n Reciprocità: sentirsi obbligati quando si riceve gratis Coerenza: bisogno di essere coerenti Confronto sociale: utilizzo degli altri come termine di paragone per valutare se stessi Autorità: accondiscendenza alle richieste provenienti da autorità legittime Scarsità: valorizzazione delle risorse scarse Gradevolezza: maggiore benevolenza verso persone che ci piacciono o percepite simili a noi La ponderazione del campione n Serve a rendere rappresentativo un campione che non lo è stato, per varie ragioni n n n Impossibilità di trovare la persona scelta Rifiuto dell’intervista Impossibilità di rispondere Ponderazione matematicostatistica dei dati rilevati 1. E’ necessario ponderare per le principali variabili sociodemografiche (es. sesso, età..) e talvolta anche per le caratteristiche politiche (es. comportamenti elettorali) degli intervistati 2. Confronto tra la distribuzione delle variabili sociodemografiche nella popolazione e nel campione 3. Verificare l’esistenza di sovra o sottorappresentazioni 4. Calcolo del fattore di ponderazione tramite programmi di elaborazione dati 5. Riproporzionare il numero dei soggetti del campione a quello della popolazione ESTRAZIONE DI UN NUMERO CASUALE CON IL SOFTWARE EXCEL CAMPIONE CASUALE SEMPLICE CON RIPETIZIONE: Supponiamo di voler estrarre, con modalità casuale, cinque studenti da una classe di dieci individui. Gli studenti identificati con un nome ed un cognome, sono riportati nel registro di classe con un numero, che simbolicamente li rappresenta Attivazione di una funzione in Excel Le funzioni per l’estrazione di un campione casuale Le funzioni che consentono di estrarre casualmente da una lista di elementi numeri sono: 1) la funzione =CASUALE.TRA(minimo; massimo) estrae un numero casuale un numero da una lista con modalità con ripetizione. 2) la funzione =CASUALE() che restituisce un numero decimale casuale compreso fra 0 e 1. La maschera della funzione CASUALE.TRA Inserire il valore “1”, che rappresenta il codice più piccolo, in questo caso il valore individua lo studente Francesco Aureli Inserire il valore “10”, identificativo dell’individuo che presenta il valore massimo della lista, ossia Sonia Vizzarri. La maschera della funzione CASUALE.TRA compilata Il campionamento sistematico In questo tipo di campione si estrae a sorte soltanto la prima unità da intervistare e poi, dopo aver fissato un intervallo k, preventivamente stabilito, si intervista un individuo ogni k. Il campionamento sistematico si utilizza quando le unità che compongono l'universo sono numerabili progressivamente e si possono estrarre delle unità di campionamento distanziate da un intervallo costante. Anche in questo caso la popolazione considerata è finita, quindi, si deve disporre di una lista di campionamento. ESEMPIO: N=840 HOTEL A ROMA (POPOLAZIONE) n=60 k=N/n=840/50=14 quindi, una volta selezionato il primo hotel da fare entrare nel campione, gli altri 59 hotel saranno selezionati dalla lista, con un passo pari a 14. Casuale tra… Per usare la funzione =CASUALE() e selezionare un numero intero dalla lista, è opportuno digitare: =1+INT(CASUALE()*(10-1), che restituisce un numero casuale compreso fra 1 e 10. Esempio di campionamento per quote Totale della Popolazione residente in Italia al 1 Gennaio 2008 per sesso e per ripartizione geografica Ripartizioni Maschi Femmine Totale Italia Nord-Occidentale 7.671.983 8.107.490 15.779.473 Italia Nord-Orientale 5.534.422 5.803.048 11.337.470 Italia Centrale 5.628.728 6.046.850 11.675.578 Italia Meridionale 6.867.019 7.264.450 14.131.469 Italia Insulare 3.247.595 3.447.705 6.695.300 TOTALE 28.949.747 30.669.543 59.619.290 Fonte: ISTAT, 2008 Supponiamo di voler effettuare 5000 interviste Popolazione residente in Italia al 1 Gennaio 2008 per sesso e per ripartizione geografica (valori in %) Ripartizioni Italia Nord-Occidentale Maschi Femmine Totale 12,87 13,60 26,47 Italia Nord-Orientale 9,28 9,73 19,02 Italia Centrale 9,44 10,14 19,58 11,52 12,18 23,70 5,45 5,78 11,23 48,56 51,44 100,00 Italia Meridionale Italia Insulare TOTALE N=59.619.290 POPOLAZIONE n= 5.000 CAMPIONE Ripartizioni Maschi Femmine Totale Italia Nord-Occidentale 643 680 1323 Italia Nord-Orientale 464 487 951 Italia Centrale 472 507 979 Italia Meridionale 576 609 1185 Italia Insulare 272 289 562 2428 2572 5000 TOTALE Aggiustamenti a posteriori del campione I metodi che consentono di intervenire a posteriori, con strumenti correttivi per ridurre gli effetti, ad esempio, delle mancate risposte possono dividersi in due grandi categorie: - metodi di imputazione; - metodi di riponderazione. Metodi di imputazione I principali metodi di imputazione si basano sull’idea che è possibile stimare le probabilità di risposta delle unità. Per questi metodi è, quindi, necessario avere informazioni ausiliare che consentano di ricostruire le unità mancati. Per ricostruire le mancate risposte, spesso vengono utilizzate variabili strutturali, quali sesso, età, stato civile ed altro. Nel calcolo dei coefficienti di riporto all'universo (pesi) le stime campionarie della popolazione, in linea di massima, per sesso e classi di età, sono vincolate a totali noti provenienti da fonti demografiche esterne all'indagine. Il peso attribuito ad ogni individuo rispondente, è calcolato come prodotto dell'inverso della probabilità di inclusione per un fattore di correzione per mancata risposta e un fattore di correzione per sesso ed età. Alcuni metodi di imputazione Il metodo della media: il valore della variabile di interesse viene stimato con la media aritmetica dei valori dei rispondenti. Il metodo della mediana: il valore della variabile di interesse viene stimato con la mediana dei valori dei rispondenti. Il metodo delle classi di imputazione: il campione viene suddiviso preliminarmente in sottoinsiemi di unità, detti “classi di imputazione”. Il valore della variabile di interesse per un non rispondente di una classe di imputazione è stimato con la media di aritmetica per i rispondenti della stessa classe di imputazione. I metodi hot e cold deck: per stimare il valore della variabile di interesse per un non rispondente si utilizza un valore relativo ad un rispondente della stessa indagine (hot deck) o di una indagine diversa (cold deck). Il metodo hot deck dà risultati migliori. La post-stratificazione SESSO S T U D E N T I PERCENTUALE STUDENTI CAMPIONE PERCENTUALE I S C R I T T I ISCRITTI IN BASE AL (n=100) CAMPIONE (N=10.000 ) GENERE MASCHI 5.000 FEMMINE 5.000 Totale 10.000 =(5.000/10.000) *100=50% =(5.000/10.000) *100=50% 100% 60 FALSO 40 FALSO 100 SESSO PESO MASCHI =50/60=0,83 FEMMINE =50/40=1,25 Totale CREAZIONE DI PESI PER UNA POST-STRAFICIAZIONE IN EXCEL FORMULE - FUNZIONE TEST: A2=1 SE_VERO: 0,83 SE_FALSO: 1,25 FUNZIONE SE