Casualità e Rappresentatività Casuale e rappresentativo: ma cosa vuole dire? di Alberto Marradi in: Paolo Ceri (editore), La politica e i sondaggi. Torino: Rosenberg & Sellier 1997, pp. 9-52. Casualità Ovvero estrazione casuale… il concetto di casualità è facile da illustrare, anche ai non addetti ai lavori, perché si può ricorrere all’immagine di un’urna dalla quale vengono estratte delle palline. Si può aggiungere, come solitamente succede a lezione, l’immagine dell’estrazione dei numeri del lotto, per sottolineare come le palline non siano riconoscibili da parte di chi le estrae nel momento in cui le estrae … Esempio Casualità Ovvero estrazione casuale … senza privilegi Immagini così immediate e familiari rendono evidente il requisito che tutti i membri della popolazione campionata dovrebbero avere: la stessa probabilità di essere estratti, come le palline dell’urna e i numeri del lotto. (sottinteso: ad ogni ciclo di estrazione) In realtà il campione casuale impone che la probabilità di estrazione sia nota e non nulla, non impone che sia identica ad ogni ciclo di estrazione Casualità La teoria statistica fa notare che, se si scelgono i membri di un campione mediante una tavola dei numeri casuali (il che equivale a estrarre le palline da un’urna) non solo ogni elemento ma anche ogni combinazione di elementi (di uguale numerosità) ha la stessa probabilità di essere scelta. Questo è appunto il ben noto campionamento casuale semplice: CCS Casualità Con /Senza Reintroduzione Un’ulteriore aspetto riguarda il fatto che il campione sia con o senza reintroduzione. Si parla appunto di: 1 2 3 4 5 CCSCR CCSSR 6 1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6) 2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6) 3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6) 4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6) 5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6) 6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6) Casualità Con Reintroduzione: CCSCR L’insieme di TUTTI i possibili campioni è detto spazio campionario e si indica (spesso) con Nel caso specifico = N2 =36 campioni L’accezione più ampia del CCSCR, implica = Nn Casualità: CCSSR Senza Reintroduzione: CCSSR Se n è generato da un CCSSR di n elementi, due campioni si ritengono distinti se differiscono per almeno un’unita (senza considerare l’ordine di estrazione). I campioni sono allora in numero pari alle combinazioni di N elementi in gruppi di n Perché? Casualità: CCSSR Casualità Ma è meglio campionare con Reintroduzione o senza ? Casualità: CCSSR Per definizione, ciascuno di questi campioni ha identica probabilità di essere estratto, pari a: Il Gioco del Lotto è basato sull'estrazione di 5 numeri entro l’intervallo 1 - 90, svolta su dieci ruote associate a dieci città. Calcoliamo la probabilità di un terno su una singola ruota : PS: se il gioco fosse equo puntando 1 euro ne vinceremmo 1/0,0000851209=11.748 ma, in realtà, ne vinciamo solo 450, con trattenuta fiscale del 6%, cioè 423 Casualità E’ il caso di aggiungere un rilievo peraltro ovvio: le combinazioni hanno uguale probabilità di essere estratte solo se hanno lo stesso numero di elementi: tutte le combinazioni di n elementi hanno la stessa probabilità di essere estratte ciascuna combinazione di n elementi ha probabilità di essere estratta maggiore rispetto ad un campione di n+1 elementi: 1/Ωn > 1/Ωn+1 infatti Ωn < Ωn+1 ciascuna combinazione di n elementi ha probabilità minore rispetto ad un campione di n-1 elementi : 1/Ωn-1 > 1/Ωn infatti Ωn-1 < Ωn Controlliamo… Casualità Dove sta l’errore? Casualità Nessun errore… Casualità: CCSSR Come accennato, nel CCSSR ciascun campione ha identica probabilità di essere estratto Dato un campione qualsiasi {y1, y2, y2 …yn} che assume valori, poniamo {Y5, Y3, Y1 …Y9} Che probabilità aveva questa particolare sequenza {Y5, Y3, Y1 … Y9} di essere estratta? Più in generale, quale è la probabilità di estrazione di una singola sequenza tra tutte le possibili? Casualità: CCSSR Fissiamo un qualsiasi campione ovvero una sequenza: {Y5, Y3, Y1 … Y9} = {7, 12 , 9 … 37} Quanto vale la sua probabilità? Pr{y1 (7, 12 , 9 … 37)}=n/N Pr{y2 (7, 12 … 37)| 9}=(n-1)/(N-1) Pr{y3 (12 … 37)| 9,7}=(n-2)/(N-2) 1°estrazione alla 2° alla 3° …. dopo n-1 elementi, posto sia rimasto escluso Y9 =37 Pr{yn=Y9|Y5, Y3 …}=1/(N-(n-1)) alla n-esima La probabilità composta da tutto il campione vale: n/N·(n-1)/(N-1)·(n-2)/(N-2)· … · 1/(N-(n-1)) Casualità: CCSSR {Y5, Y3 , Y1 … Y9} è uno dei tanti campioni possibili Casualità: CCSSR La probabilità di inclusione (del primo ordine) è cosa diversa, e sottintende la situazione in cui si considera l’eventualità che UNA certa unità della popolazione Yj entri nel campione Pr{Yj y1, y2 … …yn}= j = n / N= f Come è intuibile nel CCSCR e meno nel CCSSR f è il tasso di sondaggio ed inoltre j è costante, nel senso che non dipende dal particolare valore di Yj Casualità: CCSSR La spiegazione del numeratore è questa: togliendo Yj dalla popolazione possiamo calcolare tutte le possibili combinazioni o campioni diversi di numerosità n-1 estratti da N-1 elementi, cioè estratti dalla popolazione meno l’elemento che ci interessa. Aggiungendovi l’elemento Yj avremo tutti i possibili campioni distinti di numerosità n, contenenti Yj , estratti da N elementi. Al denominatore, vi sono tutti i possibili campioni n da N. Casualità: CCSSR Procedendo in modo analogo a quanto visto per la probabilità di inclusione di primo ordine, si può calcolare quella del secondo ordine. Cioè che DUE unità della popolazione Yj ,Yk entrino nel campione Pr{Yj ,Yk ( y1, y2 … …yn )}= n (n-1) / N (N-1) del terzo ordine... Pr{Yj , Yk , Yl , (y1, y2 … …yn)}= n(n-1)(n-2) / N(N-1)(N-2) Casualità: CCSSR Gioco tre numeri (44, 55, 66) e "spero che escano su una ruota« Come calcolare la probabilità di un terno qualsiasi come questo? Attraverso le probabilità di inclusione del terzo ordine: tutte le cinquine potenzialmente sorteggiabili contenenti 44, 55 e 66 diviso tutte le cinquine possibili Casualità: CCSSR Quanto vale la probabilità di inclusione di ordine n ? 1) nel CCSSR, la probabilità d’inclusione (del primo ordine) indica la probabilità che un’unità generica Yj , appartenente ad una popolazione di numerosità N, sia estratta, ovvero entri nel campione composto da n elementi 2) Altra questione è la probabilità che l’unità generica entri nel campione alla posizione i-esima, cioè yi coincide con Yj DOMANDA: Se yi è una variabile aleatoria che può assumere qualsiasi valori in popolazione Yj quanto vale la sua speranza matematica? Ovvero, qual è il valore atteso di un qualunque i-esimo elemento del campione ? Quanto vale E[yi] ? Casualità mentre nel CCS, con o senza reintroduzione, ad ogni ciclo di estrazione tutte le palline dell’urna hanno la stessa probabilità di essere estratte (e quindi sono una popolazione dalla quale si effettua un campionamento casuale) … ad ogni ciclo di estrazione nella realtà attorno a noi, non si può immaginare alcuna popolazione definita i cui membri abbiano la stessa probabilità di imbattersi in un intervistatore per poi essere intervistati Casualità In realtà… Spesso si ricorre a campioni sistematici che non sempre equiprobabili Neppure i campioni basati su elenchi telefonici E che dire poi sulla casualità dell’estrazione quando si considera la diversa propensione degli individui a rispondere? Casualità Che cosa sono i campioni sistematici ? (spesso assimilati a campioni casuali) Se la popolazione da campionare è una lista, diciamo di N = 100 elementi, il metodo consiste nel dividere la lista in n sottoliste, n è l'ampiezza campionaria, e numerare successivamente i casi di ciascuna sottolista da 1 a N/n N/n è infatti il numero dei casi in ogni sottolista (si assume sempre intero). Viene scelto con un procedimento casuale un numero r compreso fra 1 - N/n, estremi inclusi. Ciascun individuo nella posizione r della sottolista viene incluso nel campione. Casualità Dove si usano i campioni sistematici N = 1000 pezzi al giorno n=20 casi campionati cioè 20 sottoliste di numerosità 1000/20=50 Scelgo r =1-50 viene esaminato l’r-esimo pezzo di ognuna delle 20 sottoliste consecutive Casualità Dove si usano i campioni sistematici N = 100.000 numeri telefoni n=500 casi campionati cioè 500 sottoliste di numerosità N/ n =200 Scelgo r =1-200 viene chiamato l’r-esimo numero telefonico di ogni sottolista consecutiva Casualità Per il momento accontentiamoci di queste prime indicazioni, che poi riprenderemo, e passiamo ad un altro termine-feticcio Rappresentatività solitamente indica l’esistenza di un rapporto proporzionale fra le distribuzioni di uno o di alcuni carattere (oggetto d’interesse) nel campione e nella popolazione un campione è rappresentativo dell’universo di cui fa parte se ne riproduce, in piccolo, le caratteristiche, con scarti «non significativi» imputabili al «caso» Rappresentatività Primo corollario: visto che (almeno per certe caratteristiche) la popolazione deve essere nota, si può parlare di rappresentatività solo rispetto a una ben definita popolazione (non rispetto a un universo generico e indefinito). Es: la popolazione ai censimenti Da Fisher (1922) in poi la statistica distingue correttamente fra universo (infinito, e puramente ipotetico) e popolazione (finita e concreta). Il concetto di universo è a stretto rigore rilevante solo per la casualità dell’estrazione: infatti alcuni fondamentali principi statistici (legge dei grandi numeri, teorema del limite centrale, etc.) valgono per l’universo, cioè per un numero infinito di estrazioni. Rappresentatività Secondo corollario: visto che il campione deve essere noto, dovrei parlare di rappresentatività dopo che il campione è stato estratto. Diversamente dalla casualità, che è proprietà del procedimento di estrazione, la rappresentatività è una proprietà dell’esito di tale procedimento. Il giudizio sul grado di rappresentatività di un campione rispetto a una popolazione dipende solo da tale confronto di distribuzioni ed è pertanto completamente indipendente da ogni informazione sulla procedura di estrazione. Una data distribuzione potrà quindi esser giudicata rappresentativa (o meno) qualunque sia la procedura con cui è stata ottenuta. Rappresentatività Terzo corollario: un campione rappresentativo può essere estratto con una procedura NON casuale Rappresentatività Quarto corollario: un campione casuale può NON essere rappresentativo Rappresentatività Che criterio conviene usare come riferimento? Casuale NON Casuale Rappresentativo R/C R/NC Non Rappresentativo NR/C NR/NC Rappresentatività Torniamo alla definizione di rappresentatività intesa come equivalenza delle distribuzioni del carattere Y oggetto d’interesse, ammettendo sia solo uno naturalmente una corrispondenza esatta è un requisito troppo restrittivo. ma, in pratica, quale scostamento siamo disposti a tollerare per distinguere i campioni rappresentativi da quelli non rappresentativi? quanti punti di percentuale in più o in meno? come si fissa il punto di “confine”? Rappresentatività E ancora… quando si parla di rappresentatività, il riferimento è alla sola variabile d’interesse Y1 o anche altre: Y1 , Y2 , Y3... ? e allora, se le variabili d’interesse sono più d’una, al limite, tutte le variabili incluse nel questionario, come ci si comporta? potrebbe infatti accadere che il campione sia , al tempo stesso rappresentativo per y1 ma non per y2 e nemmeno y3 In realtà NESSUNO ha mai dato risposta scientificamente chiara ed esauriente a queste domande … Rappresentatività Torniamo comunque alla distanza tra distribuzioni nel campione e in popolazione sembra ridicolo dare un taglio netto chiamando rappresentativo tutto ciò che si trova appena al di qua di un certo confine e non rappresentativo tutto ciò che si trova appena al di là. Dopo aver osservato, per inciso, che proprio su tagli netti come questo si fonda tutto quel settore portante della statistica classica detto test delle ipotesi, anche Marradi ammette che la soluzione del taglio netto è, in effetti, ridicola. Rappresentatività Allora, più correttamente, la “rappresentatività” è un concetto che assume innumerevoli stati intermedi fra l’assenza e la presenza totali. Invece il termine è usato quasi sempre in forma dicotoma, come se si riferisse a qualcosa che o c’è o non c’è, senza punti di mezzo. Nelle autovalutazioni delle agenzie di sondaggi c’è sempre! Rappresentatività Nel Bollettino della Doxa, da un’analisi sistematica di 42 annate (Siboni e Marradi 1989), è risultato che: nella maggior parte dei casi la Doxa afferma che i suoi campioni sono rappresentativi senza alcuna prova o indizio in alcuni casi, essa basa tale affermazione sulla procedura di estrazione più raramente su di un confronto (non sempre ben documentato) delle distribuzioni campionari di alcune proprietà elementari con quelle rilevate nell’universo al precedente censimento ancor più di rado combina queste ultime due giustificazioni. Rappresentatività Ma il punto più grave è un altro: le ricerche e i sondaggi sono quasi sempre multivariati mentre il concetto di rappresentatività (distributiva) al massimo potrebbe essere riferito a una o al massimo poche altre variabili in pratica, l’analisi delle informazioni è quasi sempre estesa a tutte le variabili del questionario, rappresentative o meno oltretutto, le variabili di maggiore interesse non sono quelle sui cui si postula la rappresentatività, ma altre, per le quali si poco o niente (altrimenti perché fare la rilevazione?) inoltre quasi sempre si ignora il legame reale tra la variabile d’interesse e quelle usate per controllare la “rappresentatività” Rappresentatività In pratica, quando le agenzie di sondaggi estraggono un campione, lo confrontano con la distribuzione delle variabili socio-economiche o socio-demografiche all’ultimo censimento, oppure, più spesso, lo vincolano a priori con una struttura analoga Ma Gini e Galvani hanno dimostrato da tempo l’insufficienza di una simile struttura logica per scegliere campioni rappresentativi come “validi” anche per offrire indicazione su altre variabili non rappresentative … Rappresentatività quindi ben poco si può affermare sulla eventuale rappresentatività, che sembra passare per “osmosi” da variabili strutturali, peraltro non sempre ben note (età, sesso, stato civile, area geografica…), verso opinioni, valori, idee, atteggiamenti, preferenze… usualmente rilevati e commentati nei sondaggi correnti a meno di voler dare per scontata un’influenza determinante della “struttura” socio-economica / socio-demografica sulla “sovrastruttura” incognita che si s’intende valutare attraverso il campione. Teoria questa, ben lontana da una giustificazione plausibile e comunque applicata indiscriminatamente per ogni situazione, senza alcuna o ragionevole prova Rappresentatività Il paradosso: Si può sicuramente affermare che esiste rappresentatività nel campione quando abbiamo anche le necessarie informazioni relative alla popolazione, e in tal caso le informazioni campionarie sono inutili, perché rappresentano un duplicato Rappresentatività Il paradosso: Non possiamo affermare che esiste rappresentatività quando le informazioni sul campione non sono un duplicato. Praticamente sempre, quando cioè non abbiamo la possibilità di verificarle nella popolazione e appunto per questo facciamo un’indagine Rappresentatività Sinora non abbiamo considerato la questione dei legami tra variabili e modelli in un campione “rappresentativo” Nulla si è detto circa la questione delle scelta delle variabili su cui si basa il dimensionamento del campione Tutto questo e altro ancora rendono il termine “rappresentativo” abbastanza vago, ampiamente soggettivo e altrettanto ampiamente discutibile