Casualità e Rappresentatività
Casuale e rappresentativo: ma cosa vuole dire?
di Alberto Marradi in: Paolo Ceri (editore), La politica e i
sondaggi. Torino: Rosenberg & Sellier 1997, pp. 9-52.
Casualità
Ovvero estrazione casuale…
 il concetto di casualità è facile da illustrare,
anche ai non addetti ai lavori, perché si può
ricorrere all’immagine di un’urna dalla quale
vengono estratte delle palline.
 Si può aggiungere, come solitamente succede
a lezione, l’immagine dell’estrazione dei numeri
del lotto, per sottolineare come le palline non
siano riconoscibili da parte di chi le estrae nel
momento in cui le estrae …
Esempio
Casualità
Ovvero estrazione casuale … senza privilegi
Immagini così immediate e familiari rendono evidente il
requisito che tutti i membri della popolazione campionata
dovrebbero avere: la stessa probabilità di essere estratti,
come le palline dell’urna e i numeri del lotto.
(sottinteso: ad ogni ciclo di estrazione)
In realtà il campione casuale impone che la probabilità di
estrazione sia nota e non nulla, non impone che sia
identica ad ogni ciclo di estrazione
Casualità
 La teoria statistica fa notare che, se si scelgono
i membri di un campione mediante una tavola
dei numeri casuali (il che equivale a estrarre le
palline da un’urna) non solo ogni elemento ma
anche ogni combinazione
di elementi (di
uguale numerosità) ha la stessa probabilità di
essere scelta.
 Questo è appunto il ben noto campionamento
casuale semplice: CCS
Casualità
Con /Senza Reintroduzione
Un’ulteriore aspetto riguarda il fatto che il
campione sia con o senza reintroduzione.
Si parla appunto di:
1
2
3
4
5
 CCSCR
 CCSSR
6
1
(1, 1)
(1, 2)
(1, 3)
(1, 4)
(1, 5)
(1, 6)
2
(2, 1)
(2, 2)
(2, 3)
(2, 4)
(2, 5)
(2, 6)
3
(3, 1)
(3, 2)
(3, 3)
(3, 4)
(3, 5)
(3, 6)
4
(4, 1)
(4, 2)
(4, 3)
(4, 4)
(4, 5)
(4, 6)
5
(5, 1)
(5, 2)
(5, 3)
(5, 4)
(5, 5)
(5, 6)
6
(6, 1)
(6, 2)
(6, 3)
(6, 4)
(6, 5)
(6, 6)
Casualità
Con Reintroduzione: CCSCR
 L’insieme di TUTTI i possibili campioni è detto
spazio campionario e si indica (spesso) con 
 Nel caso specifico  = N2 =36 campioni
 L’accezione più ampia del CCSCR, implica  = Nn
Casualità: CCSSR
Senza Reintroduzione: CCSSR
Se n è generato da un CCSSR di n elementi, due
campioni si ritengono distinti se differiscono
per almeno un’unita (senza considerare l’ordine
di estrazione). I campioni sono allora in
numero pari alle combinazioni di N elementi in
gruppi di n
Perché?
Casualità: CCSSR
Casualità
Ma è meglio campionare
con Reintroduzione o senza ?
Casualità: CCSSR
Per definizione, ciascuno di questi campioni ha
identica probabilità di essere estratto, pari a:
Il Gioco del Lotto è basato sull'estrazione di 5 numeri entro
l’intervallo 1 - 90, svolta su dieci ruote associate a dieci città.
Calcoliamo la probabilità di un terno su una singola ruota :
PS: se il gioco fosse equo puntando 1 euro ne vinceremmo 1/0,0000851209=11.748 ma, in realtà, ne
vinciamo solo 450, con trattenuta fiscale del 6%, cioè 423
Casualità
E’ il caso di aggiungere un rilievo peraltro ovvio:
 le combinazioni hanno uguale probabilità di essere
estratte solo se hanno lo stesso numero di elementi:
tutte le combinazioni di n elementi hanno la stessa
probabilità di essere estratte
 ciascuna combinazione di n elementi ha probabilità di
essere estratta maggiore rispetto ad un campione di n+1
elementi: 1/Ωn > 1/Ωn+1 infatti Ωn < Ωn+1
 ciascuna combinazione di n elementi ha probabilità
minore rispetto ad un campione di n-1 elementi :
1/Ωn-1 > 1/Ωn infatti Ωn-1 < Ωn
 Controlliamo…
Casualità
Dove sta l’errore?
Casualità
Nessun errore…
Casualità: CCSSR
Come accennato, nel CCSSR ciascun campione ha
identica probabilità di essere estratto
Dato un campione qualsiasi {y1, y2, y2 …yn}
che assume valori, poniamo {Y5, Y3, Y1 …Y9}
Che probabilità aveva questa particolare sequenza
{Y5, Y3, Y1 … Y9} di essere estratta?
Più in generale, quale è la probabilità di estrazione
di una singola sequenza tra tutte le possibili?
Casualità: CCSSR
Fissiamo un qualsiasi campione ovvero una sequenza:
{Y5, Y3, Y1 … Y9} = {7, 12 , 9 … 37} Quanto vale la sua
probabilità?
Pr{y1  (7, 12 , 9 … 37)}=n/N
Pr{y2 (7, 12 … 37)| 9}=(n-1)/(N-1)
Pr{y3 (12 … 37)| 9,7}=(n-2)/(N-2)
1°estrazione
alla 2°
alla 3°
….
dopo n-1 elementi, posto sia rimasto escluso Y9 =37
Pr{yn=Y9|Y5, Y3 …}=1/(N-(n-1)) alla n-esima
La probabilità composta da tutto il campione vale:
n/N·(n-1)/(N-1)·(n-2)/(N-2)· … · 1/(N-(n-1))
Casualità: CCSSR
{Y5, Y3 , Y1 … Y9}
è uno dei tanti campioni possibili
Casualità: CCSSR
La probabilità di inclusione (del primo ordine) è
cosa diversa, e sottintende la situazione in cui
si considera l’eventualità che UNA certa unità
della popolazione Yj entri nel campione
Pr{Yj  y1, y2 … …yn}= j = n / N= f
Come è intuibile nel CCSCR e meno nel CCSSR
f è il tasso di sondaggio ed inoltre j è costante,
nel senso che non dipende dal particolare
valore di Yj
Casualità: CCSSR
La spiegazione del numeratore è
questa: togliendo Yj dalla popolazione
possiamo calcolare tutte le possibili
combinazioni o campioni diversi di
numerosità n-1 estratti da N-1 elementi,
cioè estratti dalla popolazione meno
l’elemento che ci interessa.
Aggiungendovi l’elemento Yj avremo
tutti i possibili campioni distinti di
numerosità n, contenenti Yj , estratti da
N elementi. Al denominatore, vi sono
tutti i possibili campioni n da N.
Casualità: CCSSR
Procedendo in modo analogo a quanto visto per la
probabilità di inclusione di primo ordine, si può
calcolare quella del secondo ordine.
Cioè che DUE unità della popolazione Yj ,Yk entrino
nel campione
Pr{Yj ,Yk ( y1, y2 … …yn )}= n (n-1) / N (N-1)
del terzo ordine...
Pr{Yj , Yk , Yl , (y1, y2 … …yn)}= n(n-1)(n-2) / N(N-1)(N-2)
Casualità: CCSSR
Gioco tre numeri (44, 55, 66) e "spero che
escano su una ruota« Come calcolare la
probabilità di un terno qualsiasi come questo?
Attraverso le probabilità di inclusione del terzo
ordine: tutte le cinquine potenzialmente
sorteggiabili contenenti 44, 55 e 66 diviso tutte
le cinquine possibili
Casualità: CCSSR
Quanto vale la probabilità di inclusione di
ordine n ?
1) nel CCSSR, la probabilità d’inclusione (del primo ordine)
indica la probabilità che un’unità generica Yj , appartenente
ad una popolazione di numerosità N, sia estratta, ovvero
entri nel campione composto da n elementi
2) Altra questione è la probabilità che l’unità generica entri nel
campione alla posizione i-esima, cioè yi coincide con Yj
DOMANDA:
Se yi è una variabile aleatoria che può
assumere qualsiasi valori in popolazione Yj
quanto vale la sua speranza matematica?
Ovvero, qual è il valore atteso di un qualunque
i-esimo elemento del campione ?
Quanto vale E[yi] ?
Casualità
mentre nel CCS, con o senza reintroduzione, ad
ogni ciclo di estrazione tutte le palline dell’urna
hanno la stessa probabilità di essere estratte
(e quindi sono una popolazione dalla quale si
effettua un campionamento casuale) … ad ogni
ciclo di estrazione
nella realtà attorno a noi, non si può immaginare
alcuna popolazione definita i cui membri
abbiano la stessa probabilità di imbattersi in un
intervistatore per poi essere intervistati
Casualità
In realtà…
 Spesso si ricorre a campioni sistematici che
non sempre equiprobabili
 Neppure i campioni basati su elenchi telefonici
 E che dire poi sulla casualità dell’estrazione
quando si considera la diversa propensione
degli individui a rispondere?
Casualità
Che cosa sono i campioni sistematici ?
(spesso assimilati a campioni casuali)
 Se la popolazione da campionare è una lista, diciamo di
N = 100 elementi, il metodo consiste nel dividere la lista
in n sottoliste, n è l'ampiezza campionaria, e numerare
successivamente i casi di ciascuna sottolista da 1 a N/n
 N/n è infatti il numero dei casi in ogni sottolista (si
assume sempre intero).
 Viene scelto con un procedimento casuale un numero r
compreso fra 1 - N/n, estremi inclusi. Ciascun individuo
nella posizione r della sottolista viene incluso nel
campione.
Casualità
Dove si usano i campioni sistematici
 N = 1000 pezzi al
giorno
 n=20 casi campionati
cioè 20 sottoliste
di numerosità
1000/20=50
 Scelgo r =1-50
 viene esaminato
l’r-esimo pezzo di
ognuna delle 20
sottoliste consecutive
Casualità
Dove si usano i campioni sistematici
 N = 100.000 numeri
telefoni
 n=500 casi campionati
cioè 500 sottoliste
di numerosità
N/ n =200
 Scelgo r =1-200
 viene chiamato l’r-esimo
numero telefonico di ogni
sottolista consecutiva
Casualità
Per il momento accontentiamoci di queste
prime indicazioni, che poi riprenderemo, e
passiamo ad un altro termine-feticcio
Rappresentatività
solitamente indica l’esistenza di un rapporto
proporzionale fra le distribuzioni di uno o di
alcuni carattere (oggetto d’interesse) nel
campione e nella popolazione
un campione è rappresentativo dell’universo di
cui fa parte se ne riproduce, in piccolo, le
caratteristiche, con scarti «non significativi»
imputabili al «caso»
Rappresentatività
 Primo corollario:
visto che (almeno per certe caratteristiche) la
popolazione deve essere nota, si può parlare di
rappresentatività solo rispetto a una ben definita
popolazione (non rispetto a un universo
generico e indefinito). Es: la popolazione ai
censimenti
Da Fisher (1922) in poi la statistica distingue
correttamente fra universo (infinito, e puramente
ipotetico) e popolazione (finita e concreta).
Il concetto di universo è a stretto rigore rilevante solo per
la casualità dell’estrazione: infatti alcuni fondamentali
principi statistici (legge dei grandi numeri, teorema del
limite centrale, etc.) valgono per l’universo, cioè per un
numero infinito di estrazioni.
Rappresentatività
 Secondo corollario:
visto che il campione deve essere noto, dovrei parlare di
rappresentatività dopo che il campione è stato estratto.
Diversamente dalla casualità, che è proprietà del
procedimento di estrazione, la rappresentatività è una
proprietà dell’esito di tale procedimento.
Il giudizio sul grado di rappresentatività di un campione rispetto a
una popolazione dipende solo da tale confronto di distribuzioni ed
è pertanto completamente indipendente da ogni informazione sulla
procedura di estrazione.
Una data distribuzione potrà quindi esser giudicata rappresentativa
(o meno) qualunque sia la procedura con cui è stata ottenuta.
Rappresentatività
 Terzo corollario:
un campione rappresentativo può essere estratto
con una procedura NON casuale
Rappresentatività
 Quarto corollario:
un campione casuale può NON essere
rappresentativo
Rappresentatività
Che criterio conviene usare come riferimento?
Casuale
NON Casuale
Rappresentativo
R/C
R/NC
Non
Rappresentativo
NR/C
NR/NC
Rappresentatività




Torniamo alla definizione di rappresentatività
intesa come equivalenza delle distribuzioni del
carattere Y oggetto d’interesse, ammettendo sia
solo uno
naturalmente una corrispondenza esatta è un
requisito troppo restrittivo.
ma, in pratica, quale scostamento siamo disposti a
tollerare per distinguere i campioni rappresentativi
da quelli non rappresentativi?
quanti punti di percentuale in più o in meno?
come si fissa il punto di “confine”?
Rappresentatività
E ancora…
 quando si parla di rappresentatività, il riferimento è alla sola
variabile d’interesse Y1 o anche altre: Y1 , Y2 , Y3... ?
 e allora, se le variabili d’interesse sono più d’una, al limite,
tutte le variabili incluse nel questionario, come ci si
comporta?
potrebbe infatti accadere che il campione sia , al tempo stesso
rappresentativo per y1 ma non per y2 e nemmeno y3
In realtà NESSUNO ha mai dato risposta scientificamente
chiara ed esauriente a queste domande …
Rappresentatività
Torniamo comunque alla distanza tra distribuzioni
nel campione e in popolazione
 sembra ridicolo dare un taglio netto chiamando
rappresentativo tutto ciò che si trova appena al
di qua di un certo confine e non rappresentativo
tutto ciò che si trova appena al di là.
 Dopo aver osservato, per inciso, che proprio su
tagli netti come questo si fonda tutto quel settore
portante della statistica classica detto test delle
ipotesi, anche Marradi ammette che la soluzione
del taglio netto è, in effetti, ridicola.
Rappresentatività
Allora, più correttamente, la “rappresentatività”
è un concetto che assume innumerevoli stati
intermedi fra l’assenza e la presenza totali.
Invece il termine è usato quasi sempre in
forma dicotoma, come se si riferisse a
qualcosa che o c’è o non c’è, senza punti di
mezzo.
Nelle autovalutazioni delle agenzie di sondaggi
c’è sempre!
Rappresentatività
Nel Bollettino della Doxa, da un’analisi sistematica di 42 annate
(Siboni e Marradi 1989), è risultato che:
 nella maggior parte dei casi la Doxa afferma che i suoi
campioni sono rappresentativi senza alcuna prova o
indizio
 in alcuni casi, essa basa tale affermazione sulla
procedura di estrazione
 più raramente su di un confronto (non sempre ben
documentato) delle distribuzioni campionari di alcune
proprietà elementari con quelle rilevate nell’universo al
precedente censimento
 ancor più di rado combina queste ultime due
giustificazioni.
Rappresentatività
Ma il punto più grave è un altro:
 le ricerche e i sondaggi sono quasi sempre multivariati
mentre il concetto di rappresentatività (distributiva) al
massimo potrebbe essere riferito a una o al massimo poche
altre variabili
 in pratica, l’analisi delle informazioni è quasi sempre estesa
a tutte le variabili del questionario, rappresentative o meno
 oltretutto, le variabili di maggiore interesse non sono quelle
sui cui si postula la rappresentatività, ma altre, per le quali
si poco o niente (altrimenti perché fare la rilevazione?)
 inoltre quasi sempre si ignora il legame reale tra la variabile
d’interesse e quelle usate per controllare la
“rappresentatività”
Rappresentatività
 In pratica, quando le agenzie di sondaggi
estraggono un campione, lo confrontano con la
distribuzione delle variabili socio-economiche o
socio-demografiche all’ultimo censimento,
oppure, più spesso, lo vincolano a priori con
una struttura analoga
 Ma Gini e Galvani hanno dimostrato da tempo
l’insufficienza di una simile struttura logica per
scegliere campioni rappresentativi come
“validi” anche per offrire indicazione su altre
variabili non rappresentative …
Rappresentatività
 quindi ben poco si può affermare sulla eventuale
rappresentatività, che sembra passare per “osmosi”
da variabili strutturali, peraltro non sempre ben note
(età, sesso, stato civile, area geografica…), verso
opinioni, valori, idee, atteggiamenti, preferenze…
usualmente rilevati e commentati nei sondaggi
correnti
 a meno di voler dare per scontata un’influenza
determinante della “struttura” socio-economica /
socio-demografica sulla “sovrastruttura” incognita che
si s’intende valutare attraverso il campione. Teoria
questa, ben lontana da una giustificazione plausibile e
comunque applicata indiscriminatamente per ogni
situazione, senza alcuna o ragionevole prova
Rappresentatività
Il paradosso:
 Si può sicuramente affermare che esiste
rappresentatività nel campione quando
abbiamo anche le necessarie informazioni
relative alla popolazione, e in tal caso le
informazioni campionarie sono inutili, perché
rappresentano un duplicato
Rappresentatività
Il paradosso:
 Non possiamo affermare che esiste
rappresentatività quando le informazioni sul
campione non sono un duplicato.
Praticamente sempre, quando cioè non
abbiamo la possibilità di verificarle nella
popolazione e appunto per questo facciamo
un’indagine
Rappresentatività
Sinora non abbiamo considerato la questione dei legami tra
variabili e modelli in un campione “rappresentativo”
Nulla si è detto circa la questione delle scelta delle variabili
su cui si basa il dimensionamento del campione
Tutto questo e altro ancora rendono il termine
“rappresentativo” abbastanza vago, ampiamente soggettivo
e altrettanto ampiamente discutibile