I SONDAGGI DI OPINIONE La necessità di una teoria dei campioni 1. Le credenziali del campione Le molte, a volte moltissime, informazioni che solitamente provengono da una indagine campionaria, anche di piccola dimensione, inducono spesso ad essere poco attenti alle caratteristiche o credenziali del campione stesso. Tuttavia le credenziali di un campione,cioè il modo in cui è stato costruito, non solo sono importanti per l'interpretazione dei risultati ma, in via di principio, sono le sole informazioni che possiamo assegnargli per qualificarlo. L'idea di campionamento Tutti, nella vita quotidiana, abbiamo familiarità con questo concetto: al mercato, si campiona a colpo d'occhio la qualità della frutta che intende acquistare è considerando il comportamento di coloro che abbiamo conosciuto in passato, che scegliamo quali altre persone preferiamo conoscere. Il concetto di distorsione Assenza di distorsione e presenza di affidabilità sono le credenziali che richiediamo ai campioni di tutti i giorni e, in termini più specifici, anche al campionamento statistico Quindi occorre definire le credenziali del campione in modo scientifico e per questo ci serve una teoria dei campioni Quando estraiamo un campione Il problema sta tutto nel decidere come selezionare il campione da una data popolazione. se non facciamo attenzione alla scelta del metodo di campionamento, non v'è alcuna speranza di fare affermazioni sulla popolazione, attraverso i risultati del campione, con un reale fondamento scientifico. 2. La distorsione campionaria Se volessi campionare 10 studenti nella mia aula, la via più rapida forse consisterebbe nello scegliere 10 studenti nella prima fila. Se, ad esempio, fossi interessato alla loro statura media, questo procedimento risulterebbe opinabile. Conoscendo altre caratteristiche della popolazione, potremmo fare tutti in necessari confronti per verificare quanto il nostro procedimento di estrazione sia distorto, ma non potremo mai sapere tutto sulla popolazione: in tal caso perché campionare? Quindi con qualsiasi procedimento di estrazione "ragionato" rischiamo di estrarre sistematicamente campioni distorti in relazione a tutti i caratteri non noti in popolazione e, in particolare, per quelli che stiamo investigando. In pratica, non conosciamo quale distorsione (diretta o recondita) possa introdursi nella procedura campionaria Infatti nel campionamento non è mai sufficiente aver individuato una fonte di distorsione Dobbiamo assicurarci che col nostro metodo non possa sorgere alcuna possibilità di distorsione o almeno per le variabili di nostro interesse. Inoltre, lo stesso campione non può mai dirci se il procedimento che lo ha determinato era libero da distorsione: anche un metodo distorto potrebbe dare esiti corretti. Dobbiamo controllare il procedimento di selezione se vogliamo eliminare il sospetto di una distorsione da selezione. Per ,assicurarci di tutto questo impieghiamo un meccanismo casuale per selezionare il campione. Ogni campione scelto con un meccanismo casuale con probabilità note di selezione viene detto un campione casuale. Le probabilità di selezione non devono essere uguali per tutti i campioni, ma devono essere note. Per definizione un campione casuale è scevro da errore di selezione, cioè dagli errori dovuti ad scelta sistematicamente errata del campione di cui appunto stiamo ora discutendo. 3. Il campione casuale semplice È un campione scelto per mezzo di una “lotteria” che assegna ad ogni unità della popolazione la stessa probabilità far parte del campione. Il CCS è privo di distorsione da selezione: Non v'è alcuna ragione in base alla quale un particolare campione (gli studenti in prima fila) debba venir scelta piuttosto che un altro 3. Il campione casuale semplice Quando si delega la scelta ad un meccanismo aleatorio, non si sfugge al problema di una scelta campionaria senza alcuna distorsione. Si fa esattamente quello che occorre, cioè assicurare che a nessuna umana inclinazione o pregiudizio (conscio o inconscio) venga permesso di inquinare la scelta del campione, scelta che quindi diventa libera da ogni fonte di interesse e distorsione Il parodosso centrale Esiste un curioso e apparente paradosso nella teoria dei campionamento, secondo cui è impossibile conoscere, dall'esame del campione stesso, se esso sia o meno un «buon» campione, nel senso d'essere scevro da distorsioni di selezione Allo stesso modo di come non si possono dedurre le credenziali di un testimone dal suo aspetto Il paradosso centrale comporta che lo stesso campione vada considerato differentemente a seconda che sia stato o meno selezionato con un procedimento libero da distorsioni «Ogni campione di 10 studenti ha la stessa probabilità di venire estratto come qualsiasi altro se selezioniamo sulla base di un procedimento casuale. Si selezionino, allora, 10 studenti nella prima fila. Non sono un campione tanto verosimile quanto qualsiasi altro? Quale possibile obiezione si può fare a un simile procedimento?». Un campione casuale semplice può essere sospetto solo se il procedimento di campionamento è sospetto: dopo tutto esso non è che il semplice prodotto del procedimento. Ciascuna caratteristica di distorsione che possiamo indicare per il campione in realtà non è altro che una caratteristica del procedimento che lo ha generato. La virtù del campionamento casuale sta più nella sua promessa (di imparzialità fra le unità estratte e quindi fra i campioni) e meno nel suo risultato occasionale (l'effettivo campione che si produce in una particolare situazione) 4. Un esempio di CCSSR La popolazione è composta da 6 individui: A, B, C, D, E, F a cui rileviamo la statura YA, YB, YC, YD, YE, YF Si vuole stimare la statura media con un campione di 2 elementi: y1 e y2, NB: per quanto poco reali possano apparire questi numeri, nessun punto viene a perdere di validità rispetto ad esempi con valori reali A, B, C, D, E, F Y*=1,72; 1,76; 1,78; 1,80; 1,80; 1,82 Y=Y*-170 YA=2, YB=6, YC=8, YD=10, YE=10, YF=12 La loro media, che stiamo cercando di stimare, vale esattamente 8 (vale a dire l'altezza media nella popolazione è 1,70+8). Ora, qualunque tipo di selezione impiegato, ci sono soltanto 15 campioni possibili di 2 valori Ogni procedura di selezione che dà ad ogni possibile campione da 1 a 15 la stessa probabilità di venir scelto, come il CCSSR, è corretta La selezione campionaria distorta consiste nel favorire, in modo occulto, uno o più di questi possibili campioni. Ciò nonostante, esiste sempre la possibilità che anche un campionamento casuale produca un campione estremo. Vediamo che nell’universo dei 15 campioni possibili la media più frequente è 9, non 8. Inoltre esistono almeno tre campioni con media assai diversa dalla media di popolazione (4,11,11 contro 8) La media campionara si definisce “statistica” quella in popolazione “parametro” Appurato che il CCSSR non produce una “selezione campionaria”, ovvero non è un sistema di estrazione distorto, è possibile che la statistica “media campionaria” introduca una successiva forma di distorsione rispetto al paramentro “media di popolazione”? Definizione di valore atteso e distorsione dello stimatore Verifichiamo empiricamente la correttezza dello stimatore “media campionaria” Il valore atteso e affidabilità dello stimatore Calcoliamo empiricamente la varianza della variabile aleatoria “media campionaria” Con il CCSSR ciascuno dei 15 campioni ha la stessa probabilità di presentarsi, avremo quindi: 2 possibilità su 15 (13%) di avere distanza nulla tra la media nel campione e la media effettiva (8) in popolazione 7 su 15 (47%) di avere la distanza 0 oppure 1, cioè entro la distanza 1 11 su 15 (73%) di essere entro la distanza 2 14 possibilità su 15 (93%) essere entro la distanza 3 Conclusione Quanto più chiediamo di avvicinarci al vero valore da stimare, tanto minore diventa la possibilità che questa richiesta sia soddisfatta, persino con il migliore piano di campionamento possibile Nella stima campionaria precisione e certezza sono antagoniste. Quanto più desideriamo essere sicuri delle nostre affermazioni tanto meno dobbiamo chiedere: siamo sicuri quando siamo poco precisi … Suggerimento Ricordate un sondaggio in cui si sia parlato di precisione e certezza dei risultati?