Il problema del campionamento

Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
CAPITOLO 3
IL PROBLEMA DEL CAMPIONAMENTO
L'esame di un campione, ossia di un numero ridotto di osservazioni, invece
dell'intera popolazione consente di superare i problemi accennati in precedenza. Un
campione non è altro che un insieme di elementi tratti da una popolazione (o
"universo"). Un universo consiste della totalità degli elementi che hanno certe
caratteristiche. Il campione è soltanto una parte del tutto.
Il campione è una parte del tutto
Scegliere un campione da una popolazione significa effettuare un
«campionamento». Esaminare ogni singolo individuo della popolazione significa
effettuare un censimento; esaminare gli elementi di un campione significa effettuare
una indagine (o inchiesta o sondaggio, in inglese «survey»).
Il principale obiettivo di un campionamento è quello di raccogliere dati che
consentiranno di generalizzare, con un certo grado di certezza, all'intera popolazione le
conclusioni ottenute dal campione (una parte del fenomeno). Questo processo di
generalizzazione è detto «inferenza».
Quando si effettua uno studio per mezzo di un campione, è necessario tener presente
che non si otterranno mai risultati del tutto affidabili. Come si vedrà in seguito, per
valutare la "bontà" di uno studio campionario è indispensabile tener conto di vari
fattori, fra i quali i più importanti sono: i criteri di scelta della popolazione in studio, il
metodo con cui si è selezionato il campione, il periodo di osservazione, le tecniche di
analisi, la precisione delle misure effettuate.
Politecnico di Bari. - Riservato alla circolazione interna.
35
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Immaginiamo di aver effettuato una indagine esaminando ciascuna unità che
componeva il campione. A questo punto, analizzando al fine di trarne delle conclusioni i
dati forniti dal campione, si pongono due domande fondamentali:
(1) le conclusioni sono corrette per gli individui che compongono il campione?
(2) se sì, il campione rappresenta bene la popolazione da cui è stato estratto?
La risposta a queste due domande deriva dai concetti di validità interna e di
validità esterna di uno studio.
La validità interna misura quanto i risultati di uno studio sono corretti per il
campione di individui che sono stati studiati. Essa viene detta «interna» perché si
applica alle condizioni del particolare gruppo di individui studiati, e non
necessariamente agli altri. Nel caso di dati ottenuti attraverso questionari, un fattore che
contribuisce ad abbassare la validità interna è rappresentato dalla propensione degli
intervistati a mentire sistematicamente su determinate domande.
La validità interna viene diminuita sia dalla variazione casuale che da ogni elemento
di bias (distorsione). La validità interna è condizione necessaria ma non sufficiente
perché uno studio sia utile.
La validità esterna è il grado di «generalizzabilità» delle conclusioni tratte da
uno studio. In altre parole, la validità esterna misura il grado di verità dell'assunto
secondo cui gli individui studiati sono "uguali" ad altri individui affetti dalla stessa
condizione.
La situazione è riassunta nello schema seguente.
Per semplicità, assumiamo ora che lo studio sia provvisto di ottima validità
interna; ciò significa che conosciamo con esattezza le caratteristiche del campione che
abbiamo esaminato. Le conclusioni che ne abbiamo tratto sono certamente valide per gli
individui del campione, ma non possiamo dire se e quanto tali conclusioni siano
generalizzabili alla popolazione da cui il campione è stato estratto. La soluzione a
questo problema verrà accennata nel seguito (metodi di campionamento, limiti
fiduciari, ecc.).
Politecnico di Bari. - Riservato alla circolazione interna.
36
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Per ora bastano due considerazioni intuitive:
1. attraverso lo studio di un campione, si può soltanto stimare (cioè
determinare con un certo margine di errore) il carattere della
popolazione da cui il campione deriva; tuttavia, tale carattere non
potrà mai essere determinato con esattezza;
2. la accuratezza della stima è direttamente correlata al numero di
osservazioni che si compiono sul fenomeno in studio.
In sostanza, con qualunque metodo si effettui il campionamento, si otterranno
dal campione dei risultati che quasi certamente si discostano (poco o tanto) dalla «vera»
misura della popolazione. È ben vero che il campione dovrebbe rappresentare una
immagine della popolazione ridotta dal punto di vista numerico ma fedele dal punto di
vista qualitativo. Tuttavia, non possiamo mai essere sicuri che il campione rappresenti
una copia perfetta della popolazione da cui esso è stato estratto, a meno di non
esaminare... l'intera popolazione!
Infatti, posto [n = numero di individui che compongono una popolazione], supponiamo
di analizzare il più ampio campione possibile costituito da [n-1] individui. Ebbene, è
intuitivo che, anche in questo caso, il campione non sarà perfettamente
rappresentativo della popolazione, in quanto l'unico individuo non esaminato
potrebbe possedere caratteri molto diversi da quelli di tutti gli altri [n-1] individui.
L'errore di campionamento è rappresentato dalla differenza tra i risultati
ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare.
L'errore di campionamento non può mai essere determinato con esattezza, in
quanto la «vera» caratteristica della popolazione è (e resterà!) ignota. Esso tuttavia può
essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di
campionamento. Inoltre, esso può essere stimato; ciò significa che, con adatti metodi
statistici, si possono determinare i limiti probabili della sua entità.
Politecnico di Bari. - Riservato alla circolazione interna.
37
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Fattori che contribuiscono all'errore di campionamento
In sostanza, i fattori responsabili della generazione di un errore di
campionamento sono riconducibili a
(1) variazione casuale
(2) selezione viziata
La variazione casuale è dovuta al caso, cioè a quell'«insieme di fattori o cause,
piccole o grandi, che agiscono su un fenomeno senza che noi possiamo o vogliamo
controllarli esattamente e prevederne quindi l'azione». La variazione casuale ha portato
alla nostra osservazione gli individui che costituiscono il campione, nei quali la misura
che vogliamo studiare assume un valore più alto o più basso, senza una regola precisa.
La variazione casuale fa sì che una misura effettuata su un campione non fornisca un
valore identico alla misura effettuata sulla popolazione: ci potrebbe essere - ed in effetti
c'è sempre - un certo errore, che viene detto errore campionario. L'errore campionario
deriva semplicemente dal fatto che stiamo osservando soltanto una parte della
popolazione.
L'EFFETTO DEL CASO.
Tutti noi ricorriamo al "caso" per giustificare, ad esempio, il motivo per cui su 100
lanci di una stessa moneta non sempre esce per 50 volte 'testa' e per le restanti 50
'croce'. Questo stesso motivo (la variazione casuale) vale a giustificare altre situazioni.
Ovviamente, l'errore di campionamento è condizionato dall'esistenza di
variabilità tra gli individui che compongono la popolazione di partenza; se tutti - per
assurdo - avessero lo stesso carattere in eguale misura, l'esame di qualsiasi numero di
individui fornirebbe lo stesso valore, e quindi l'errore di campionamento sarebbe nullo.
La selezione viziata è quella che viene effettuata su un segmento non
rappresentativo della popolazione. Questo avviene quando la scelta delle unità che
costituiranno il campione viene effettuata con regole non rigorosamente casuali.
Talvolta, è lo stesso sperimentatore che, definendo delle regole estemporanee volte a
neutralizzare - nelle intenzioni - gli effetti del caso e di ottenere un campione più
aderente alla popolazione, commette un errore che rende i dati inutilizzabili.
Infatti, un campione che non è stato ottenuto correttamente fornisce misurazioni e
risultati per i quali è impossibile calcolare il cosiddetto «errore di campionamento». La
selezione viziata fa sì che all'errore campionario si sommi un altro tipo di errore, detto
errore non campionario o bias.
Politecnico di Bari. - Riservato alla circolazione interna.
38
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
La selezione viziata fornisce un campione non
rappresentativo (distorto)
In conclusione, si può affermare che soltanto quando la scelta degli individui che
compongono il campione è stata dettata dal puro e semplice caso, è possibile prevedere
e
calcolare
l'entità
della
differenza
tra
campione
e
popolazione.
In caso contrario, il campione si dice «distorto». Con un campione distorto, non è
possibile calcolare l'errore di campionamento ed i dati ottenuti saranno difficilmente
utilizzabili.
Bias o distorsione: differenza, causata da un errore sistematico,
tra la stima ottenuta da un campione e la vera caratteristica
della popolazione
Più precisamente, per «bias» si intende "un processo, effettuato in qualsiasi
stadio della inferenza, che tende a fornire risultati che si discostano sistematicamente
dai valori veri".
A differenza del bias (che influenza i dati sistematicamente in una direzione o
nell'altra), la variazione casuale fornisce dati che possono essere parimenti al di sopra o
al di sotto del valore vero. Di conseguenza, la media di molte osservazioni non distorte
si avvicina al valore vero della popolazione, anche se i singoli dati utilizzati per
ottenere la media possono discostarsi di molto dal valore vero.
ESEMPIO. Nello schema A dell'immagine
a lato sono raffigurati due bersagli. Quello a
sinistra (A1) è il risultato di 17 tiri
effettuati da un buon tiratore che ha sparato
con un buon fucile. L'insieme dei fori si
può considerare come un campione delle
infinite possibili combinazioni di 17 tiri
che quel tiratore può ottenere sparando
con quel fucile. Come si vede, i fori
hanno una disposizione casuale, ma
tendono a disporsi attorno al centro del
bersaglio.
Il bersaglio di destra (A2) è stato utilizzato
dallo stesso tiratore, ma con un fucile con il
mirino disassato. Anche in questo caso, i
fori hanno una disposizione casuale, ma
tendono a disporsi attorno ad un punto che
NON corrisponde al centro del bersaglio.
Supponi (schema B) di non conoscere la
vera posizione del centro bersaglio (che,
fuor di metafora, equivale alla VERA
caratteristica della popolazione in studio,
la quale in effetti non è mai nota).
Supponi anche di estrarre a caso un
campione di 17 colpi dagli infiniti campioni
possibili. Con un buon campionamento
(che equivale ad un buon fucile) otterrai il
campione raffigurato a sinistra (B1); se, invece, il campione sarà affetto da bias, otterrai un campione come
quello a destra (B2). Ora, sempre in base ai dati dello schema B, prova ad "inferire" (ossia ad
indovinare) la posizione del bersaglio nel momento in cui sono stati sparati i colpi.
Politecnico di Bari. - Riservato alla circolazione interna.
39
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Ragionevolmente collocherai i bersagli come indicato nello schema C: con il campio-ne di colpi di sinistra
(C1) (cioé quello del fucile preciso) l'inferenza sarà attendibile, come dimostra la corretta collocazione del
centro del bersaglio rispetto alla realtà (così come raffigurato in (A1). Al contrario, utilizzando il campione
distorto (C2), sarai in-dotto a ritenere che il centro del bersaglio sia spostato rispetto al reale e non riuscirai a
posizionarlo correttamente. In quest'ultimo caso, fuor di metafora, non sarai in grado di stimare correttamente
la vera caratteristica della popolazione.
Il principio informatore generale di un buon campionamento prevede di utilizzare lo stesso principio dell'estrazione a sorte, ossia quello della casualità assoluta, in
modo tale che ciascun membro della popolazione abbia la stessa probabilità di
entrare a far parte del campione. In tal caso il campione viene detto «randomizzato»
o «casuale».
Affidandosi al caso si ottiene, in una qualche misura, la garanzia che il campione sarà
rappresentativo della popolazione stessa, ossia ne rifletterà le caratteristiche con una
certa approssimazione.
Un buon campionamento offre a ciascun membro della
popolazione la stessa probabilità di essere scelto
Supponi di ripetere molte volte il lancio di una moneta. L'evento "testa" o "croce" è
condizionato soltanto dal caso: le prime volte potrà uscire sempre "testa" (oppure
sempre "croce"), ma alla lunga la proporzione di teste e croci nella "popolazione" di
lanci tenderà ad equilibrarsi.
Un campionamento randomizzato offre il vantaggio di fornire un campione
privo di errori sistematici (bias) e consente di accertare l'attendibilità dei risultati o, per
meglio dire, i rapporti fra i risultati forniti dal campione e la vera caratteristica della
popolazione.
Fra i tanti metodi esistenti, verrà brevemente accennato a cinque di essi:
• campionamento non probabilistico (o campionamento "di convenienza")
• campionamento per randomizzazione semplice (o campionamento
casuale semplice)
• campionamento per randomizzazione sistematica (o campionamento sistematico)
• campionamento per randomizzazione stratificata (o campionamento
stratificato)
Politecnico di Bari. - Riservato alla circolazione interna.
40
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
•
campionamento a grappolo ("cluster")
Il campionamento non probabilistico è quello che non fornisce a tutte le unità
della popolazione la stessa possibilità di essere scelte a far parte del campione. In
pratica, alcuni gruppi o individui hanno maggiore probabilità di essere scelti rispetto
agli altri. Il campionamento non probabilistico è considerare un cattivo metodo di
campionamento.
Esso prevede la selezione del campione in base a criteri di comodo o di praticità,
per esempio perché certi dati sono più facilmente accessibili, o per ragioni di costo, o
perché in una certa zona sono disponibili volontari ecc.
Anche una scelta soggettivamente ritenuta "casuale" dall'operatore non assicura l'ottenimento di un buon campione, perché l'intervento umano è sempre portatore di distorsioni
derivanti da pregiudizi o scelte più o meno inconsapevoli.
In tal modo, c'è la possibilità di "reclutare" preferenzialmente individui "particolari"
rispetto alla popolazione, ad esempio individui provvisti di un carattere capace di influenzare il carattere che vogliamo studiare.
Un siffatto campione è soggetto ad un forte bias (distorsione) che, essendo appunto dovuto al metodo di selezione, viene detto bias di selezione. Ovviamente un campione di
questo tipo fornisce dati poco affidabili.
Il campionamento per randomizzazione semplice (o campionamento casuale
semplice) si effettua estraendo una certa quota di unità dalla popolazione attraverso un
metodo che garantisce la casualità delle estrazioni. La casualità viene ottenuta, ad
esempio, con il classico sistema dell'estrazione di un numero, un pò come avviene nel
gioco della "tombola", a partire da un elenco (detto "lista di campionamento") in cui
sono presenti tutti gli individui della popolazione da studiare. Più verosimilmente, nella
pratica si utilizza un computer provvisto di apposito software oppure le cosiddette
«tavole generatrici di numeri casuali» (vedi oltre).
Politecnico di Bari. - Riservato alla circolazione interna.
41
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
La randomizzazione semplice (come, d'altra parte, altri metodi di
campionamento) è un metodo valido per il campionamento in vari settori; essa offre due
vantaggi.
• Il primo vantaggio è quello di rispondere ai caratteri di un buon
campionamento, vale a dire che ogni individuo deve avere la stessa
probabilità di essere scelto.
• Il secondo vantaggio è quello di consentire la valutazione dell'attendibilità dei risultati ottenuti.
Tuttavia, bisogna osservare che vi sono situazioni in cui questo metodo risulta poco
pratico se non addirittura inapplicabile. Il principale svantaggio è quello di richiedere la
preventiva numerazione di tutti gli individui; successivamente è necessario individuare
nella popolazione quelli corrispondenti ai numeri estratti. La scarsa applicabilità di
questo metodo può essere bene illustrata con un esempio.
Nel campionamento per randomizzazione sistematica (o campionamento sistematico) le n unità che costituiranno il campione sono scelte dalla popolazione ad intervalli regolari.
Questo metodo è più pratico rispetto alla randomizzazione semplice, ed assicura anche
che le singole unità del campione siano distribuite uniformemente all'interno della popolazione.
Politecnico di Bari. - Riservato alla circolazione interna.
42
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Occorre tuttavia porre attenzione che l'intervallo di campionamento prescelto
non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del
campionamento, cosa abbastanza improbabile ma pur sempre possibile.
Nota che il campionamento sistematico non può essere considerato una forma di
randomizzazione "a pieno titolo", in quanto garantisce una casualità di selezione molto
più
limitata
rispetto
al
campionamento
casuale
semplice.
Ad esempio, da una popolazione di 100 individui si possono estrarre, con la
randomizzazione semplice, oltre 1013 campioni diversi di 10 individui ciascuno.
Invece, il campionamento sistematico consente di ottenere soltanto 10 differenti
campioni.
Il campionamento per randomizzazione stratificata viene effettuato quando si
studia un carattere che, presumibilmente o notoriamente, è influenzato da un certo fattore presente nella popolazione.
In pratica, prima di effettuare l'estrazione del campione la popolazione viene suddivisa
in strati basati sul fattore che influenza il carattere da studiare. Quindi, all'interno di
ciascuno strato si sceglie un campione con un metodo che garantisca la casualità come,
ad esempio, il metodo della randomizzazione semplice o sistematica.
Politecnico di Bari. - Riservato alla circolazione interna.
43
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Un campione ottenuto per stratificazione ha il vantaggio di rappresentare
meglio la popolazione da cui è stato estratto; tuttavia, la ridotta numerosità dei vari
strati può rendere poco attendibili le stime riferite ai singoli strati.
Il campionamento per randomizzazione stratificata è più flessibile di quello eseguito
con randomizzazione semplice in quanto nei diversi strati può essere scelta una percentuale differente (es. 2% in uno strato, 5% in un altro ecc.).
La stratificazione può apportare un altro vantaggio, ossia quello di ottenere, all'interno
di ogni strato, una varianza (e, di conseguenza, un errore standard) inferiore rispetto alla
varianza complessiva della popolazione. Questo vantaggio, che a prima vista potrebbe
sembrare poco importante, è invece essenziale per aumentare la precisione della stima
che si otterrà dallo studio del campione.
Una limitazione del campionamento stratificato è che lo stato di tutte le unità di
campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto
prima di scegliere il campione.
Non è indispensabile che il numero di individui che compongono il campione
all'interno di ciascuno strato sia proporzionale alla dimensione dello strato nella
popolazione. Cioè, in altre parole, si può effettuare un campionamento "non
proporzionale". Naturalmente, con un campionamento non proporzionale, le inferenze
sulla popolazione andranno debitamente aggiustate.
Campionamento a grappolo o "a cluster" (cluster
sampling)
Nel campionamento a grappolo non si procede alla selezione delle unità di
interesse, bensì di gruppi (grappoli o cluster) composti dalle unità medesime. I cluster
possono essere già preformati naturalmente (es. quartieri) oppure possono essere
individuati artificialmente (ad esempio su base geografica).
Rispetto alla randomizzazione semplice, sistematica o stratificata, il
campionamento a grappolo offre il vantaggio di facilitare notevolmente il reclutamento
dei soggetti; di conseguenza si abbassano costi e tempi dell'indagine. Tuttavia, l'errore
di campionamento può essere più elevato rispetto ai suddetti metodi di
randomizzazione.
ESEMPIO. Deve essere esaminata una caratteristica della popolazione di un solo
isolato di una città che ospita complessivamente 6000 persone alloggiate in 1500
Politecnico di Bari. - Riservato alla circolazione interna.
44
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
appartamenti contenenti 4 soggetti ciascuno. E' necessario intervistare un campione di
di 300 individui. Effettuiamo un campionamento a grappolo: l'unità di studio non è più
l’individuo bensì l’appartamento. Si procede perciò a selezionare, ad esempio per
randomizzazione sistematica, 75 appartamenti e si intervistano i 4 soggetti presenti in
ciascuno di essi.
Rapporti fra campione e popolazione da cui esso proviene
Dopo aver estratto un campione di unità da una popolazione, si procede alla
misurazione del parametro che interessa su tutti gli individui (o le unità di interesse) che
compongono il campione. Alla fine della nostra indagine, noi conosciamo esattamente
lo stato degli individui che compongono il campione, ma possiamo soltanto stimare lo
stato degli individui della popolazione da cui essi provengono.
Il passaggio dal particolare al generale, ossia dal campione alla popolazione, è un
processo di generalizzazione, detto inferenza. Esso porta sempre con sé una certa
quota di errore, in quanto il campione non potrà mai essere perfettamente rappresentativo della popolazione da cui proviene. Pertanto, attraverso la misura ottenuta dal
campione potremo soltanto ottenere una stima della «vera» misura della popolazione.
E' intuitivo che il numero di individui che compongono il campione (cioè la dimensio-
Politecnico di Bari. - Riservato alla circolazione interna.
45
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
ne del campione) è uno dei fattori più importanti che influisce sulla precisione della
stima: infatti, campioni di grandi dimensioni permettono stime più precise.
ESEMPIO. Continuando l'esempio precedente, se avessimo selezionato un campione di
2000 individui anzichè di 20, avremmo ottenuto una stima sicuramente più precisa.
D'altra parte, se avessimo effettuato l'indagine su un campione composto soltanto da 4
individui, avremmo ottenuto una stima meno precisa.
«Stima» significa «valutazione approssimativa». La stima, per sua stessa natura,
non può essere esatta ma, se il campione è stato selezionato con una metodica corretta
(randomizzazione), ne potremo stabilire la variabilità, ossia i limiti probabili di
oscillazione.
Studiando un BUON CAMPIONE possiamo ottenere
una BUONA STIMA della "vera" misura della popolazione
Supponiamo di voler accertare, attraverso l'impiego di un test, il numero di individui soggetti ad un certo
difetto in una produzione ove sono presenti 500 individui, sistemati in 20 casse da 25 pezzi ciascuna. Per
semplicità, supponiamo di utilizzare un test ideale assolutamente attendibile, ossia infallibile.
Poiché non abbiamo risorse sufficienti per esaminare tutti i 500 individui (che rappresentano la "popolazione di interesse"), decidiamo di saggiare un campione costituito da 40 pezzi. Procediamo ad effettuare
un campionamento a grappolo, sottoponendo al test 2 pezzi (scelti a caso) per ogni box. In questo modo
otteniamo un campione randomizzato di 40 individui.
Il test dimostra che la caratteristica è presente in 14 individui. È evidente che, nel campione, la proporzione di difettosi è pari a 14/40 (p=0.35, ossia 35%). Poiché il campione è randomizzato, si suppone che non
siano presenti fonti di distorsione (bias) e, quindi, che esso sia rappresentativo della popolazione di interesse (cioè i 500 pezzi). Allora sarà ragionevole assumere che anche nella popolazione la positività sia pari a 0.35. La situazione viene riassunta nello schema che segue:
La composizione del campione è influenzata soltanto dal caso (non ci sono errori sistematici); pertanto, la
statistica calcolata sul campione è influenzata dall' errore campionario, di cui possiamo stimare i limiti.
A tale scopo, si calcola la varianza e, da questa, l'errore standard. Quest'ultimo rappresenta un indice
della variabilità della nostra misura:
Politecnico di Bari. - Riservato alla circolazione interna.
46
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Contrariamente a quanto si pensa comunemente, la variabilità della misura non dipende dalla numerosità
della popolazione da cui il campione è stato estratto (a patto che il campione sia "abbastanza" piccolo diciamo almeno 10 volte più piccolo - rispetto alla popolazione). Nell'esempio ora concluso, l'errore standard assume lo stesso valore nel caso in cui il campione di 40 individui provenga da una popolazione di
500 o, per esempio, di 5000 o di 50000 ecc. Infatti, come si può verificare dando un'occhiata ai calcoli, la
numerosità della popolazione non compare nel procedimento di calcolo dell'errore standard.
Un caso particolare: un campione grande rispetto alla popolazione
Se la numerosità del campione è superiore a 1/10 della numerosità della popolazione, allora nel calcolo
dell'errore standard occorre introdurre un fattore di correzione detto "correzione per una popolazione
finita". Definiamo:
N la numerosità della popolazione;
n la numerosità del campione.
Il fattore di correzione si calcola come: (N-n)/(N-1). Esso si utilizza come nell'esempio che segue.
Supponiamo di aver estratto, dalla stessa popolazione di 500 individui dell'esempio
precedente, un campione di 100 individui, e di aver ottenuto la stessa proporzione di
positivi (35%). Si tratta di un campione relativamente grande, pari a 1/5 della
popolazione, e quindi nel calcolo dell'errore standard è necessario considerare il fattore
di correzione per una popolazione finita. Perciò, il calcolo dell'errore standard diventa:
p *(1 − p ) ( N − n)
*
=
n
( N − 1)
0.2275 400
*
= 0, 043
100
499
A rigore, il fattore di correzione dovrebbe essere utilizzato anche nel caso di campioni
piccoli rispetto alla popolazione. Tuttavia quando il campione è piccolo il valore del
fattore di correzione si approssima ad 1, e quindi diviene ininfluente nel calcolo
dell'errore standard. Per questo motivo esso viene generalmente omesso.
La relazione tra l'errore standard di una popolazione divisa in due classi (proprio come
nell'esempio appena visto: classe dei positivi e classe dei negativi al test) varia in
funzione di p, ossia della proporzione di individui appartenenti ad una delle due classi.
Politecnico di Bari. - Riservato alla circolazione interna.
47
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
In particolare: se tutti i
soggetti si trovano in una
classe oppure nell'altra,
allora p=0 oppure p=1, e
quindi l'errore standard è
uguale a zero (vedi grafico
a lato). Ciò è ragionevole,
in quanto l'errore standard
è una misura di variabilità,
ed ovviamente se tutti gli
individui della popolazione
appartengono alla stessa
classe la variabilità è
uguale a zero. Al contrario, la massima variabilità si ha quando ogni elemento della
popolazione ha uguale probabilità di appartenere ad una classe o all'altra (ossia: p=0.5
ed errore standard= 0.5).
A questo punto è necessario rispondere ad una legittima domanda:
A che cosa serve, in pratica, conoscere l'errore standard?
La risposta si trova nel seguito, dove viene illustrato l'utilizzo dell'errore standard per il
calcolo degli «intervalli fiduciali».
Concetto di «limiti fiduciali». Utilizzazione dell'errore
standard per il calcolo dei limiti fiduciali
Come la variabilità di una serie di misure è indicata dalla deviazione standard, così la
variabilità di un valore statistico (es. una percentuale, una media ecc.) calcolato su un
campione è indicata dall'errore standard.
Attenzione a non confondere l'errore standard con la deviazione standard: come già
detto, l'errore standard descrive l'incertezza nella stima di una media (o di una proporzione), mentre la deviazione standard descrive la variabilità di misure effettuate sulla
popolazione.
ESEMPIO. Sono stati pesati singolarmente 100 scocche. Il peso medio è risultato pari
a 95.2 kg. Sui 100 valori del peso di ciascuna scocca si può calcolare la deviazione
standard. Sulla media ottenuta si può invece calcolare l'errore standard.
L'errore standard è un valore che è direttamente correlato alla variabilità della
misura ottenuta: tanto più piccolo è l'errore standard, tanto minore è la variabilità della
misura e quindi tanto più attendibile è la statistica.
Politecnico di Bari. - Riservato alla circolazione interna.
48
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Quanto più piccolo è l'errore standard, tanto più
attendibile è il valore statistico calcolato
L'errore standard rappresenta un parametro fondamentale, che viene
comunemente impiegato per il calcolo dei limiti fiduciali o intervalli fiduciali o
intervalli di confidenza. Il limite fiduciale è molto utile per avere un'idea della vera
caratteristica della popolazione che stimiamo attraverso lo studio di un campione. Per
campioni ragionevolmente ampi (almeno 50-60 osservazioni), valgono le seguenti
relazioni fondamentali:
L'intervallo fiduciale può essere collocato al livello di probabilità da noi desiderato; comunemente si utilizza un intervallo fiduciale con probabilità pari a 0.95 o 0.99.
Ci si può esprimere anche in probabilità percentuale, ed allora si dirà «intervallo fiduciale 95%» o «intervallo fiduciale 99%».
Che cosa significa l'espressione «confidenza 95%» o «intervallo fiduciale 95%» o
«intervallo di confidenza 95%»? In parole povere, anche se non del tutto esatte, si può
dire che «confidenza 95%» indica che che vi è una probabilità del 95% che l'intervallo
trovato includa la vera caratteristica della popolazione.
Questa definizione non è del tutto corretta, e certamente uno statistico «puro» potrebbe
storcere il naso... ma in questa sede è giustificata dal «Teorema di Saki» che recita: una
piccola inesattezza a volte risparmia tonnellate di spiegazioni! :-))
Ecco una definizione migliore (ma anche un pò più difficile da assimilare):
«confidenza 95%» significa che se ripetessimo la stessa indagine per 100 volte con gli
stessi metodi (ma su 100 campioni diversi), probabilmente otterremmo ogni volta una
stima diversa; tuttavia, il vero valore della popolazione sarebbe all'interno del nostro
intervallo di confidenza 95 volte su 100. In altre parole, l'intervallo di confidenza è stato
ottenuto con un metodo che fornisce un risultato corretto nel 95% dei casi.
Abbiamo già visto un esempio in cui, in un campione di individui, è stata
calcolata la variabilità della proporzione di individui aventi una certa caratteristica. In
quell'esempio, il valore statistico ottenuto era pari a 0.35 (aveva quella caratteristica il
35% degli individui) e l'errore standard di questa proporzione era pari a 0.0754 (7.54%).
Pertanto, conoscendo l'errore standard possiamo stimare che la proporzione di individui
con quella caratteristica nella popolazione sia compresa fra i seguenti limiti:
limite inferiore: 0.35 - 0.0754 = 0.2746 = 27.5%
limite superiore: 0.35 + 0.0754 = 0.4254 = 42.5%
Politecnico di Bari. - Riservato alla circolazione interna.
49
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
L'intervallo fiduciale così calcolato (valore statistico +/- 1 volta l'errore
standard) fornisce una «confidenza» del 68% circa, troppo bassa per essere di una
qualche utilità pratica. Possiamo invece calcolare come segue l'intervallo fiduciale 95%:
limite inferiore: 0.35 - (2 * 0.0754) = 0.199 = 19.9%
limite superiore: 0.35 + (2 * 0.0754) = 0.508 = 50.1%
In conclusione, possiamo affermare che abbiamo una «confidenza 95%» che la
percentuale di positività nella popolazione sia compresa fra 20% e 50% (notare che il
campione era composto soltanto da 40 individui, e quindi questa stima può non essere
del tutto attendibile).
Riassumendo, il limite fiduciale 95% di una proporzione può essere facilmente stimato
con la seguente formula, in cui p è la proporzione osservata e N è il numero di unità del
campione (per una maggior precisione, moltiplicare per 1.96 anziché per 2).
Nell'esempio:
0.35(1 − 0.35)
0.35 ± 2
= 0.35 ± 0.0056875 = 0.35 ± 0.150831031
40
Abbiamo visto come si calcola l'errore standard di una proporzione (o percentuale).
Ma come si fa a calcolare l'errore standard di una media?
Il calcolo è molto semplice: basta dividere la deviazione standard s per la radice
quadrata della numerosità del campione:
Notare che - anche in questo caso - l'errore standard è influenzato dalla numerosità
della popolazione studiata: piú grande è la dimensione dello studio, piú grande sarà
l'attendibilità della media.
ESEMPIO. Abbiamo misurato il peso di un campione di 80 scocche prodotte per la
500 dalla fabbrica FIAT di Melfi. La media è risultata pari a 82.5 kg, con una
deviazione standard di 3.5 kg. L'errore standard della media sarà:
Criteri che regolano la scelta del numero di unità che
compongono il campione da studiare ("numerosità
del campione")
Politecnico di Bari. - Riservato alla circolazione interna.
50
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Secondo l'opinione comune, la bontà dei risultati ottenibili da un campione (ad esempio
i risultati di un sondaggio) dipende unicamente dal numero degli individui che
compongono il campione stesso e non dal modo con cui essi sono stati selezionati. La
debolezza di questo assunto è già stata dimostrata nelle unità precedenti.
Un’altra opinione comune prevede che la dimensione del campione debba essere
proporzionata alla dimensione della popolazione in studio. Le leggi della statistica
dimostrano invece che questo assunto è completamente falso.
Ad esempio, il fatto di voler fare un sondaggio sugli abitanti di una piccola
cittadina di provincia, su quelli di una grande città o addirittura su tutta la popolazione italiana non ha nessuna influenza sul numero di persone necessario per ottenere un campione rappresentativo. Insomma, contrariamente a quello che l'intuito
potrebbe suggerire, un campione di 1000 persone può, se scelto con un metodo appropriato, rappresentare con la stessa attendibilità e gli stessi limiti la popolazione
diBari, oppure quella della Puglia, oppure quella dell'intera Italia, nel senso che il margine di errore dovuto al campionamento sarà sempre inferiore al 3% circa.
D'altra parte, a questa stessa conclusione si può giungere in base a quanto
contenuto nelle pagine precedenti, in cui si spiega che l'errore standard di una
proporzione è in relazione inversa con la dimensione del campione, ma non dipende
affatto dalla numerosità della popolazione in studio:
Verifichiamo l'affermazione secondo la quale il margine di errore con un campione di
1000 unità è <3% applicando la soprastante formula. Supponiamo che p=0.5, ossia che
la proporzione di individui immuni nel campione sia del 50%. Applicando la
formula, otteniamo p = 0.5 ± 0.031, ossia 50% ± 3.1%.
Ciò nel caso in cui la varianza nella popolazione sia massima (p=0.5); negli altri casi, il
margine di errore risulta ancora più basso.
E' abbastanza naturale che, prima di intraprendere un'indagine statistica, ci si
interroghi su quante «unità di interesse» (pezzi o casse ecc.) dovranno essere esaminate per raggiungere con sufficiente attendibilità l'obiettivo desiderato.
Questa è una delle parti più delicate nella pianificazione di una indagine. Ovviamente,
più grande sarà il campione e più precisi e attendibili saranno i risultati, a patto che il
campione sia stato selezionato con un metodo corretto. Tuttavia, indagini su campioni di
Politecnico di Bari. - Riservato alla circolazione interna.
51
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
grandi dimensioni sono costose e richiedono più tempo. Quindi, bisogna accettare un
compromesso.
Il calcolo della dimensione del campione, più propriamente detta numerosità, è
abbastanza complicato e, soprattutto, richiede la conoscenza di informazioni diverse. I
principali fattori da considerare nell'individuazione della numerosità del campione sono:
la varianza e l'intervallo di confidenza desiderato.
La varianza è una misura del grado di variazioni o oscillazioni presenti, relativamente al parametro che vogliamo stimare, nella popolazione. L'entità di queste variazioni può essere derivata, almeno approssimativamente, dai risultati di altre analoghe
indagini effettuate in precedenza o dalla conoscenza della storia naturale del fenomeno che si sta analizzando, o da altri fattori.
Una popolazione in cui il parametro da misurare presenta ampie oscillazioni ha una
varianza elevata; una popolazione in cui le oscillazioni sono scarse ha una varianza
bassa. È intuitivo che la precisione di un campione è maggiore quando la popolazione
da cui è stato estratto è tendenzialmente omogenea, mentre è minore quando la popolazione è eterogenea.
ESEMPIO. Consideriamo due diverse popolazioni. La popolazione A è costituita da
tondini di acciaio FeB44k prodotti dalle ferriere di Brescia che è la più grossa ferriera
italiana. La popolazione B è rappresentata da tondini di acciaio FeB44k prodotti dalle
ferriere di Giovinazzo che è la più piccola ferriera italiana. Se siamo interessati al
calcolo della produzione nelle due popolazioni, sarà evidente che la varianza della
popolazione A sarà minore rispetto alla varianza della popolazione B.
La varianza è un fattore importante nel calcolo della numerosità del campione.
In popolazioni a bassa varianza, lo studio di pochi individui fornisce comunque un buon
quadro della «vera» caratteristica di popolazione.
In una popolazione teorica composta da n individui tutti identici fra loro, lo studio di 1
solo individuo è sufficiente per ottenere una indicazione precisa riguardo alla intera
popolazione.
Al contrario, se la varianza è alta, sono necessari molti individui, poiché
ciascuno degli individui prescelti può essere molto diverso dalla media della
popolazione.
L'intervallo di confidenza rappresenta una misura della bontà di una stima.
Un intervallo di confidenza molto ampio suggerisce che non siamo molto sicuri del
punto in cui si trova il «vero» valore. Viceversa, un intervallo ristretto indica che siamo
abbastanza sicuri che il valore trovato è piuttosto vicino al valore vero della popolazione; in questo caso la stima sarà, quindi, più precisa.
Il livello di confidenza è una misura della sicurezza della stima: ad esempio, con un livello di confidenza 95% siamo sicuri al 95% che il valore vero cade nell'intervallo trovato. Cioè, se ripetessimo lo studio 20 volte, in media sbaglieremmo 1 volta ma saremmo nel giusto 19 volte.
Politecnico di Bari. - Riservato alla circolazione interna.
52
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Per convenzione si utilizza generalmente il livello di confidenza 95%; talvolta si
impiegano anche i livelli 90% o 99% o 99.9%. La scelta del livello di confidenza è
spesso dettata da considerazioni pratiche (quantità di risorse e di tempo disponibili ecc.)
più che dalla teoria.
Anche la performance del test che verrà utilizzato gioca un ruolo importante nel
calcolo della numerosità del campione. Se il test è poco affidabile (cioè a bassa
sensibilità e/o specificità), allora la numerosità del campione dovrà essere alta. È anche
da considerare che purtroppo, in molti casi, non sono disponibili stime precise sulla
performance dei test.
Metodo per calcolare la dimensione del campione al fine di escludere/confermare
la presenza di una caratteristica in una popolazione
In alcuni casi, lo scopo del campionamento non è quello di stimare un parametro
quantitativo della popolazione o di valutare la frequenza di un fenomeno, bensì, più
semplicemente, quello di stabilire qualitativamente se una caratteristica è presente
(o no) in una determinata popolazione.
Il problema principale è legato al fatto che è molto difficile - se non impossibile
- dimostrare con certezza matematica che una popolazione è esente da una
determinata caratteristica. Le difficoltà derivano da 2 fattori principali:
1.
Il primo fattore è legato al fatto che, per dichiarare indenne la popolazione, -si deve saggiare ogni individuo che fa parte della popolazione stessa. Ciò comporta, soprattutto nel caso di popolazioni costituite da un ingente numero di individui, l'impiego di risorse ingenti (e non sempre disponibili).
2.
Il secondo fattore è legato al test che si utilizza per il rilevamento
della caratteristica su cui si vuole indagare. Nessun test è perfetto;
molti test possono fornire, anche se in piccola percentuale, risultati
falsi-negativi. Ossia, il test può classificare come «posseduta » una
caratteristica che in realtà «non è posseduta ».
ESEMPIO. Abbiamo una esposizione di piastrelle in ceramica costituito da circa
4.000 produttori. Dobbiamo dimostrare che gli individui prodotti sono indenni da
difetti di planarità. Per ottenere una dimostrazione «certa» dovremo esaminare tutti le
4.000 produzioni. Infatti, è possibile (anche se improbabile) che l'imperfezione sia
localizzata ad un solo o a pochissimi individui. Esaminando un campione, si corre il
rischio di non includere nel campione i pochi individui positivi.
Decidiamo quindi di sottoporre al test diagnostico tutte le produzioni; supponiamo che
i risultati siano tutti negativi. A questo punto, siamo CERTI che la caratteristica non è
presente nella popolazione? Ovviamente no, perché il test potrebbe aver fornito
qualche esito falso-negativo.
Quindi, concludiamo che:
É impossibile provare con CERTEZZA che una popolazione
è esente da una caratteristica
Politecnico di Bari. - Riservato alla circolazione interna.
53
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
Tenuto conto delle difficoltà ora esposte, si può aggirare il problema
considerando che molte caratteristiche, se presenti in una popolazione, con buona
probabilità caratterizzeranno non 1 solo individuo, ma una certa quota della popolazione
medesima.
ESEMPIO. Possiamo prevedere che il difetto di non planarità difficilmente colpirà
meno del 5% dei soggetti appartenenti ad un gruppo. Su questa base, possiamo
calcolare qual è la dimensione del campione da esaminare in modo che si possa
identificare con una certa sicurezza la presenza della caratteristica (ossia in modo da
avere nel campione almeno 1 soggetto positivo).
La formula riportata nella figura che segue fornisce un metodo statisticamente
corretto per affrontare il problema ora esposto impegnando il minimo di risorse ed
ottenendo un risultato la cui validità è quantificabile attraverso il livello di confidenza.
Il livello di confidenza è una probabilità (e quindi si indica con un numero compreso
fra 0 e 1, oppure in valore percentuale). Di solito si adotta un livello di confidenza
0.95 (=95%) o 0.99 (=99%); esso esprime la probabilità che la popolazione sia esente
da una determinata caratteristica se tutti gli n individui del campione esaminato risultano esenti.
Nel caso in cui la popolazione oggetto dell'indagine sia di numerosità «infinita»
(o composta da un numero elevato di unità), si può adottare la seguente formula, più
semplice, che fornisce all'incirca gli stessi risultati della precedente a patto che la
prevalenza presunta sia >5% circa:
Numerosità del campione per il rilevamento della presenza (o assenza)
Di una determinata caratteristica in una popolazione infinita.
In conclusione, anche se non possiamo provare con certezza che una
popolazione è esente da una caratteristica, possiamo però ottenere una stima con
precisione a nostra scelta saggiando un numero adeguato di individui. Si vedrà
Politecnico di Bari. - Riservato alla circolazione interna.
54
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
successivamente che sarà necessario tenere in considerazione anche la performance
(sensibilità e specificità) del test utilizzato. In conclusione, potremo dimostrare con un
certo grado di probabilità che la caratteristica non è presente nella popolazione.
É da sottolineare che per l'applicazione della formula è richiesta la conoscenza
presuntiva di D, cioè del numero di individui «positivi» nella popolazione
(prevalenza). Questa stima presuntiva può essere effettuata in base alla conoscenza dei
caratteri generali della caratteristica in studio, della sua storia naturale, della situazione
ambientale e geografica e di altri fattori contingenti.
Verificare, tramite un esempio, l'utilizzo della formula che
fornisce la numerosità del campione qualora si voglia
rilevare la presenza di una caratteristica.
Nel seguente riquadro viene riportato il calcolo della numerosità del campione al
fine di rilevare nell’aria la presenza di polveri dannose per il lavoratore (che provoca col
tempo gravi complicanze polmonari). La popolazione in studio è rappresentata da un
gruppo di 1000 individui fra i quali si suppone che la frequenza della caratteristica
(prevalenza) sia piuttosto bassa ma non inferiore a 0.01 (1%).
Nella prossima Tabella sono riportati alcuni esempi di numerosità del campione
(n) in funzione della dimensione della dimensione della popolazione (N), della
frequenza di malattia nella popolazione stessa e del livello di confidenza prescelto (95 o
99%).
Supponiamo, ad esempio, di dover esaminare una popolazione composta da 300
individui al fine di escludere la presenza di una determinata malattia. Supponiamo
anche di presumere che il numero di individui "positivi" in questa popolazione non sia
Politecnico di Bari. - Riservato alla circolazione interna.
55
Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica –
Il Problema del campionamento.
inferiore a 15, ossia che la prevalenza non sia inferiore a 0.05.
Nella tabella ci collochiamo sulla riga [pop=300] e nella cella di intersezione con la
colonna [prevalenza=0.05] leggiamo i valori 53 e 77. Ciò significa, che esaminando un
campione randomizzato di 53 individui senza trovarne nessuno positivo, potremo dire
«con confidenza 95%» che quella popolazione è esente dalla caratteristica.
Analogamente, se risultasse negativo un campione di 77 individui potremo dire «con
confidenza 99%» la popolazione è esente dalla caratteristica.
Una affermazione valida con «con confidenza 95%» significa che a tale affermazione
si è giunti con un metodo che fornisce un risultato corretto nel 95% dei casi.
In altre occasioni, può essere utile rispondere ad un quesito concettualmente
simile al precedente, ma che richiede un diverso calcolo. Il quesito è il seguente: «sono
stati esaminati con esito negativo n individui tratti da una popolazione di N; quale è la
prevalenza massima della caratteristica nella popolazione?» Alla domanda si risponde
con la formula riportata nello schema seguente
Politecnico di Bari. - Riservato alla circolazione interna.
56