Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. CAPITOLO 3 IL PROBLEMA DEL CAMPIONAMENTO L'esame di un campione, ossia di un numero ridotto di osservazioni, invece dell'intera popolazione consente di superare i problemi accennati in precedenza. Un campione non è altro che un insieme di elementi tratti da una popolazione (o "universo"). Un universo consiste della totalità degli elementi che hanno certe caratteristiche. Il campione è soltanto una parte del tutto. Il campione è una parte del tutto Scegliere un campione da una popolazione significa effettuare un «campionamento». Esaminare ogni singolo individuo della popolazione significa effettuare un censimento; esaminare gli elementi di un campione significa effettuare una indagine (o inchiesta o sondaggio, in inglese «survey»). Il principale obiettivo di un campionamento è quello di raccogliere dati che consentiranno di generalizzare, con un certo grado di certezza, all'intera popolazione le conclusioni ottenute dal campione (una parte del fenomeno). Questo processo di generalizzazione è detto «inferenza». Quando si effettua uno studio per mezzo di un campione, è necessario tener presente che non si otterranno mai risultati del tutto affidabili. Come si vedrà in seguito, per valutare la "bontà" di uno studio campionario è indispensabile tener conto di vari fattori, fra i quali i più importanti sono: i criteri di scelta della popolazione in studio, il metodo con cui si è selezionato il campione, il periodo di osservazione, le tecniche di analisi, la precisione delle misure effettuate. Politecnico di Bari. - Riservato alla circolazione interna. 35 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Immaginiamo di aver effettuato una indagine esaminando ciascuna unità che componeva il campione. A questo punto, analizzando al fine di trarne delle conclusioni i dati forniti dal campione, si pongono due domande fondamentali: (1) le conclusioni sono corrette per gli individui che compongono il campione? (2) se sì, il campione rappresenta bene la popolazione da cui è stato estratto? La risposta a queste due domande deriva dai concetti di validità interna e di validità esterna di uno studio. La validità interna misura quanto i risultati di uno studio sono corretti per il campione di individui che sono stati studiati. Essa viene detta «interna» perché si applica alle condizioni del particolare gruppo di individui studiati, e non necessariamente agli altri. Nel caso di dati ottenuti attraverso questionari, un fattore che contribuisce ad abbassare la validità interna è rappresentato dalla propensione degli intervistati a mentire sistematicamente su determinate domande. La validità interna viene diminuita sia dalla variazione casuale che da ogni elemento di bias (distorsione). La validità interna è condizione necessaria ma non sufficiente perché uno studio sia utile. La validità esterna è il grado di «generalizzabilità» delle conclusioni tratte da uno studio. In altre parole, la validità esterna misura il grado di verità dell'assunto secondo cui gli individui studiati sono "uguali" ad altri individui affetti dalla stessa condizione. La situazione è riassunta nello schema seguente. Per semplicità, assumiamo ora che lo studio sia provvisto di ottima validità interna; ciò significa che conosciamo con esattezza le caratteristiche del campione che abbiamo esaminato. Le conclusioni che ne abbiamo tratto sono certamente valide per gli individui del campione, ma non possiamo dire se e quanto tali conclusioni siano generalizzabili alla popolazione da cui il campione è stato estratto. La soluzione a questo problema verrà accennata nel seguito (metodi di campionamento, limiti fiduciari, ecc.). Politecnico di Bari. - Riservato alla circolazione interna. 36 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Per ora bastano due considerazioni intuitive: 1. attraverso lo studio di un campione, si può soltanto stimare (cioè determinare con un certo margine di errore) il carattere della popolazione da cui il campione deriva; tuttavia, tale carattere non potrà mai essere determinato con esattezza; 2. la accuratezza della stima è direttamente correlata al numero di osservazioni che si compiono sul fenomeno in studio. In sostanza, con qualunque metodo si effettui il campionamento, si otterranno dal campione dei risultati che quasi certamente si discostano (poco o tanto) dalla «vera» misura della popolazione. È ben vero che il campione dovrebbe rappresentare una immagine della popolazione ridotta dal punto di vista numerico ma fedele dal punto di vista qualitativo. Tuttavia, non possiamo mai essere sicuri che il campione rappresenti una copia perfetta della popolazione da cui esso è stato estratto, a meno di non esaminare... l'intera popolazione! Infatti, posto [n = numero di individui che compongono una popolazione], supponiamo di analizzare il più ampio campione possibile costituito da [n-1] individui. Ebbene, è intuitivo che, anche in questo caso, il campione non sarà perfettamente rappresentativo della popolazione, in quanto l'unico individuo non esaminato potrebbe possedere caratteri molto diversi da quelli di tutti gli altri [n-1] individui. L'errore di campionamento è rappresentato dalla differenza tra i risultati ottenuti dal campione e la vera caratteristica della popolazione che vogliamo stimare. L'errore di campionamento non può mai essere determinato con esattezza, in quanto la «vera» caratteristica della popolazione è (e resterà!) ignota. Esso tuttavia può essere contenuto entro limiti più o meno ristretti adottando appropriati metodi di campionamento. Inoltre, esso può essere stimato; ciò significa che, con adatti metodi statistici, si possono determinare i limiti probabili della sua entità. Politecnico di Bari. - Riservato alla circolazione interna. 37 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Fattori che contribuiscono all'errore di campionamento In sostanza, i fattori responsabili della generazione di un errore di campionamento sono riconducibili a (1) variazione casuale (2) selezione viziata La variazione casuale è dovuta al caso, cioè a quell'«insieme di fattori o cause, piccole o grandi, che agiscono su un fenomeno senza che noi possiamo o vogliamo controllarli esattamente e prevederne quindi l'azione». La variazione casuale ha portato alla nostra osservazione gli individui che costituiscono il campione, nei quali la misura che vogliamo studiare assume un valore più alto o più basso, senza una regola precisa. La variazione casuale fa sì che una misura effettuata su un campione non fornisca un valore identico alla misura effettuata sulla popolazione: ci potrebbe essere - ed in effetti c'è sempre - un certo errore, che viene detto errore campionario. L'errore campionario deriva semplicemente dal fatto che stiamo osservando soltanto una parte della popolazione. L'EFFETTO DEL CASO. Tutti noi ricorriamo al "caso" per giustificare, ad esempio, il motivo per cui su 100 lanci di una stessa moneta non sempre esce per 50 volte 'testa' e per le restanti 50 'croce'. Questo stesso motivo (la variazione casuale) vale a giustificare altre situazioni. Ovviamente, l'errore di campionamento è condizionato dall'esistenza di variabilità tra gli individui che compongono la popolazione di partenza; se tutti - per assurdo - avessero lo stesso carattere in eguale misura, l'esame di qualsiasi numero di individui fornirebbe lo stesso valore, e quindi l'errore di campionamento sarebbe nullo. La selezione viziata è quella che viene effettuata su un segmento non rappresentativo della popolazione. Questo avviene quando la scelta delle unità che costituiranno il campione viene effettuata con regole non rigorosamente casuali. Talvolta, è lo stesso sperimentatore che, definendo delle regole estemporanee volte a neutralizzare - nelle intenzioni - gli effetti del caso e di ottenere un campione più aderente alla popolazione, commette un errore che rende i dati inutilizzabili. Infatti, un campione che non è stato ottenuto correttamente fornisce misurazioni e risultati per i quali è impossibile calcolare il cosiddetto «errore di campionamento». La selezione viziata fa sì che all'errore campionario si sommi un altro tipo di errore, detto errore non campionario o bias. Politecnico di Bari. - Riservato alla circolazione interna. 38 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. La selezione viziata fornisce un campione non rappresentativo (distorto) In conclusione, si può affermare che soltanto quando la scelta degli individui che compongono il campione è stata dettata dal puro e semplice caso, è possibile prevedere e calcolare l'entità della differenza tra campione e popolazione. In caso contrario, il campione si dice «distorto». Con un campione distorto, non è possibile calcolare l'errore di campionamento ed i dati ottenuti saranno difficilmente utilizzabili. Bias o distorsione: differenza, causata da un errore sistematico, tra la stima ottenuta da un campione e la vera caratteristica della popolazione Più precisamente, per «bias» si intende "un processo, effettuato in qualsiasi stadio della inferenza, che tende a fornire risultati che si discostano sistematicamente dai valori veri". A differenza del bias (che influenza i dati sistematicamente in una direzione o nell'altra), la variazione casuale fornisce dati che possono essere parimenti al di sopra o al di sotto del valore vero. Di conseguenza, la media di molte osservazioni non distorte si avvicina al valore vero della popolazione, anche se i singoli dati utilizzati per ottenere la media possono discostarsi di molto dal valore vero. ESEMPIO. Nello schema A dell'immagine a lato sono raffigurati due bersagli. Quello a sinistra (A1) è il risultato di 17 tiri effettuati da un buon tiratore che ha sparato con un buon fucile. L'insieme dei fori si può considerare come un campione delle infinite possibili combinazioni di 17 tiri che quel tiratore può ottenere sparando con quel fucile. Come si vede, i fori hanno una disposizione casuale, ma tendono a disporsi attorno al centro del bersaglio. Il bersaglio di destra (A2) è stato utilizzato dallo stesso tiratore, ma con un fucile con il mirino disassato. Anche in questo caso, i fori hanno una disposizione casuale, ma tendono a disporsi attorno ad un punto che NON corrisponde al centro del bersaglio. Supponi (schema B) di non conoscere la vera posizione del centro bersaglio (che, fuor di metafora, equivale alla VERA caratteristica della popolazione in studio, la quale in effetti non è mai nota). Supponi anche di estrarre a caso un campione di 17 colpi dagli infiniti campioni possibili. Con un buon campionamento (che equivale ad un buon fucile) otterrai il campione raffigurato a sinistra (B1); se, invece, il campione sarà affetto da bias, otterrai un campione come quello a destra (B2). Ora, sempre in base ai dati dello schema B, prova ad "inferire" (ossia ad indovinare) la posizione del bersaglio nel momento in cui sono stati sparati i colpi. Politecnico di Bari. - Riservato alla circolazione interna. 39 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Ragionevolmente collocherai i bersagli come indicato nello schema C: con il campio-ne di colpi di sinistra (C1) (cioé quello del fucile preciso) l'inferenza sarà attendibile, come dimostra la corretta collocazione del centro del bersaglio rispetto alla realtà (così come raffigurato in (A1). Al contrario, utilizzando il campione distorto (C2), sarai in-dotto a ritenere che il centro del bersaglio sia spostato rispetto al reale e non riuscirai a posizionarlo correttamente. In quest'ultimo caso, fuor di metafora, non sarai in grado di stimare correttamente la vera caratteristica della popolazione. Il principio informatore generale di un buon campionamento prevede di utilizzare lo stesso principio dell'estrazione a sorte, ossia quello della casualità assoluta, in modo tale che ciascun membro della popolazione abbia la stessa probabilità di entrare a far parte del campione. In tal caso il campione viene detto «randomizzato» o «casuale». Affidandosi al caso si ottiene, in una qualche misura, la garanzia che il campione sarà rappresentativo della popolazione stessa, ossia ne rifletterà le caratteristiche con una certa approssimazione. Un buon campionamento offre a ciascun membro della popolazione la stessa probabilità di essere scelto Supponi di ripetere molte volte il lancio di una moneta. L'evento "testa" o "croce" è condizionato soltanto dal caso: le prime volte potrà uscire sempre "testa" (oppure sempre "croce"), ma alla lunga la proporzione di teste e croci nella "popolazione" di lanci tenderà ad equilibrarsi. Un campionamento randomizzato offre il vantaggio di fornire un campione privo di errori sistematici (bias) e consente di accertare l'attendibilità dei risultati o, per meglio dire, i rapporti fra i risultati forniti dal campione e la vera caratteristica della popolazione. Fra i tanti metodi esistenti, verrà brevemente accennato a cinque di essi: • campionamento non probabilistico (o campionamento "di convenienza") • campionamento per randomizzazione semplice (o campionamento casuale semplice) • campionamento per randomizzazione sistematica (o campionamento sistematico) • campionamento per randomizzazione stratificata (o campionamento stratificato) Politecnico di Bari. - Riservato alla circolazione interna. 40 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. • campionamento a grappolo ("cluster") Il campionamento non probabilistico è quello che non fornisce a tutte le unità della popolazione la stessa possibilità di essere scelte a far parte del campione. In pratica, alcuni gruppi o individui hanno maggiore probabilità di essere scelti rispetto agli altri. Il campionamento non probabilistico è considerare un cattivo metodo di campionamento. Esso prevede la selezione del campione in base a criteri di comodo o di praticità, per esempio perché certi dati sono più facilmente accessibili, o per ragioni di costo, o perché in una certa zona sono disponibili volontari ecc. Anche una scelta soggettivamente ritenuta "casuale" dall'operatore non assicura l'ottenimento di un buon campione, perché l'intervento umano è sempre portatore di distorsioni derivanti da pregiudizi o scelte più o meno inconsapevoli. In tal modo, c'è la possibilità di "reclutare" preferenzialmente individui "particolari" rispetto alla popolazione, ad esempio individui provvisti di un carattere capace di influenzare il carattere che vogliamo studiare. Un siffatto campione è soggetto ad un forte bias (distorsione) che, essendo appunto dovuto al metodo di selezione, viene detto bias di selezione. Ovviamente un campione di questo tipo fornisce dati poco affidabili. Il campionamento per randomizzazione semplice (o campionamento casuale semplice) si effettua estraendo una certa quota di unità dalla popolazione attraverso un metodo che garantisce la casualità delle estrazioni. La casualità viene ottenuta, ad esempio, con il classico sistema dell'estrazione di un numero, un pò come avviene nel gioco della "tombola", a partire da un elenco (detto "lista di campionamento") in cui sono presenti tutti gli individui della popolazione da studiare. Più verosimilmente, nella pratica si utilizza un computer provvisto di apposito software oppure le cosiddette «tavole generatrici di numeri casuali» (vedi oltre). Politecnico di Bari. - Riservato alla circolazione interna. 41 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. La randomizzazione semplice (come, d'altra parte, altri metodi di campionamento) è un metodo valido per il campionamento in vari settori; essa offre due vantaggi. • Il primo vantaggio è quello di rispondere ai caratteri di un buon campionamento, vale a dire che ogni individuo deve avere la stessa probabilità di essere scelto. • Il secondo vantaggio è quello di consentire la valutazione dell'attendibilità dei risultati ottenuti. Tuttavia, bisogna osservare che vi sono situazioni in cui questo metodo risulta poco pratico se non addirittura inapplicabile. Il principale svantaggio è quello di richiedere la preventiva numerazione di tutti gli individui; successivamente è necessario individuare nella popolazione quelli corrispondenti ai numeri estratti. La scarsa applicabilità di questo metodo può essere bene illustrata con un esempio. Nel campionamento per randomizzazione sistematica (o campionamento sistematico) le n unità che costituiranno il campione sono scelte dalla popolazione ad intervalli regolari. Questo metodo è più pratico rispetto alla randomizzazione semplice, ed assicura anche che le singole unità del campione siano distribuite uniformemente all'interno della popolazione. Politecnico di Bari. - Riservato alla circolazione interna. 42 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Occorre tuttavia porre attenzione che l'intervallo di campionamento prescelto non sia influenzato da qualche variabile esterna che agisce con la stessa ciclicità del campionamento, cosa abbastanza improbabile ma pur sempre possibile. Nota che il campionamento sistematico non può essere considerato una forma di randomizzazione "a pieno titolo", in quanto garantisce una casualità di selezione molto più limitata rispetto al campionamento casuale semplice. Ad esempio, da una popolazione di 100 individui si possono estrarre, con la randomizzazione semplice, oltre 1013 campioni diversi di 10 individui ciascuno. Invece, il campionamento sistematico consente di ottenere soltanto 10 differenti campioni. Il campionamento per randomizzazione stratificata viene effettuato quando si studia un carattere che, presumibilmente o notoriamente, è influenzato da un certo fattore presente nella popolazione. In pratica, prima di effettuare l'estrazione del campione la popolazione viene suddivisa in strati basati sul fattore che influenza il carattere da studiare. Quindi, all'interno di ciascuno strato si sceglie un campione con un metodo che garantisca la casualità come, ad esempio, il metodo della randomizzazione semplice o sistematica. Politecnico di Bari. - Riservato alla circolazione interna. 43 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Un campione ottenuto per stratificazione ha il vantaggio di rappresentare meglio la popolazione da cui è stato estratto; tuttavia, la ridotta numerosità dei vari strati può rendere poco attendibili le stime riferite ai singoli strati. Il campionamento per randomizzazione stratificata è più flessibile di quello eseguito con randomizzazione semplice in quanto nei diversi strati può essere scelta una percentuale differente (es. 2% in uno strato, 5% in un altro ecc.). La stratificazione può apportare un altro vantaggio, ossia quello di ottenere, all'interno di ogni strato, una varianza (e, di conseguenza, un errore standard) inferiore rispetto alla varianza complessiva della popolazione. Questo vantaggio, che a prima vista potrebbe sembrare poco importante, è invece essenziale per aumentare la precisione della stima che si otterrà dallo studio del campione. Una limitazione del campionamento stratificato è che lo stato di tutte le unità di campionamento, rispetto ai fattori su cui è basata la stratificazione, deve essere noto prima di scegliere il campione. Non è indispensabile che il numero di individui che compongono il campione all'interno di ciascuno strato sia proporzionale alla dimensione dello strato nella popolazione. Cioè, in altre parole, si può effettuare un campionamento "non proporzionale". Naturalmente, con un campionamento non proporzionale, le inferenze sulla popolazione andranno debitamente aggiustate. Campionamento a grappolo o "a cluster" (cluster sampling) Nel campionamento a grappolo non si procede alla selezione delle unità di interesse, bensì di gruppi (grappoli o cluster) composti dalle unità medesime. I cluster possono essere già preformati naturalmente (es. quartieri) oppure possono essere individuati artificialmente (ad esempio su base geografica). Rispetto alla randomizzazione semplice, sistematica o stratificata, il campionamento a grappolo offre il vantaggio di facilitare notevolmente il reclutamento dei soggetti; di conseguenza si abbassano costi e tempi dell'indagine. Tuttavia, l'errore di campionamento può essere più elevato rispetto ai suddetti metodi di randomizzazione. ESEMPIO. Deve essere esaminata una caratteristica della popolazione di un solo isolato di una città che ospita complessivamente 6000 persone alloggiate in 1500 Politecnico di Bari. - Riservato alla circolazione interna. 44 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. appartamenti contenenti 4 soggetti ciascuno. E' necessario intervistare un campione di di 300 individui. Effettuiamo un campionamento a grappolo: l'unità di studio non è più l’individuo bensì l’appartamento. Si procede perciò a selezionare, ad esempio per randomizzazione sistematica, 75 appartamenti e si intervistano i 4 soggetti presenti in ciascuno di essi. Rapporti fra campione e popolazione da cui esso proviene Dopo aver estratto un campione di unità da una popolazione, si procede alla misurazione del parametro che interessa su tutti gli individui (o le unità di interesse) che compongono il campione. Alla fine della nostra indagine, noi conosciamo esattamente lo stato degli individui che compongono il campione, ma possiamo soltanto stimare lo stato degli individui della popolazione da cui essi provengono. Il passaggio dal particolare al generale, ossia dal campione alla popolazione, è un processo di generalizzazione, detto inferenza. Esso porta sempre con sé una certa quota di errore, in quanto il campione non potrà mai essere perfettamente rappresentativo della popolazione da cui proviene. Pertanto, attraverso la misura ottenuta dal campione potremo soltanto ottenere una stima della «vera» misura della popolazione. E' intuitivo che il numero di individui che compongono il campione (cioè la dimensio- Politecnico di Bari. - Riservato alla circolazione interna. 45 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. ne del campione) è uno dei fattori più importanti che influisce sulla precisione della stima: infatti, campioni di grandi dimensioni permettono stime più precise. ESEMPIO. Continuando l'esempio precedente, se avessimo selezionato un campione di 2000 individui anzichè di 20, avremmo ottenuto una stima sicuramente più precisa. D'altra parte, se avessimo effettuato l'indagine su un campione composto soltanto da 4 individui, avremmo ottenuto una stima meno precisa. «Stima» significa «valutazione approssimativa». La stima, per sua stessa natura, non può essere esatta ma, se il campione è stato selezionato con una metodica corretta (randomizzazione), ne potremo stabilire la variabilità, ossia i limiti probabili di oscillazione. Studiando un BUON CAMPIONE possiamo ottenere una BUONA STIMA della "vera" misura della popolazione Supponiamo di voler accertare, attraverso l'impiego di un test, il numero di individui soggetti ad un certo difetto in una produzione ove sono presenti 500 individui, sistemati in 20 casse da 25 pezzi ciascuna. Per semplicità, supponiamo di utilizzare un test ideale assolutamente attendibile, ossia infallibile. Poiché non abbiamo risorse sufficienti per esaminare tutti i 500 individui (che rappresentano la "popolazione di interesse"), decidiamo di saggiare un campione costituito da 40 pezzi. Procediamo ad effettuare un campionamento a grappolo, sottoponendo al test 2 pezzi (scelti a caso) per ogni box. In questo modo otteniamo un campione randomizzato di 40 individui. Il test dimostra che la caratteristica è presente in 14 individui. È evidente che, nel campione, la proporzione di difettosi è pari a 14/40 (p=0.35, ossia 35%). Poiché il campione è randomizzato, si suppone che non siano presenti fonti di distorsione (bias) e, quindi, che esso sia rappresentativo della popolazione di interesse (cioè i 500 pezzi). Allora sarà ragionevole assumere che anche nella popolazione la positività sia pari a 0.35. La situazione viene riassunta nello schema che segue: La composizione del campione è influenzata soltanto dal caso (non ci sono errori sistematici); pertanto, la statistica calcolata sul campione è influenzata dall' errore campionario, di cui possiamo stimare i limiti. A tale scopo, si calcola la varianza e, da questa, l'errore standard. Quest'ultimo rappresenta un indice della variabilità della nostra misura: Politecnico di Bari. - Riservato alla circolazione interna. 46 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Contrariamente a quanto si pensa comunemente, la variabilità della misura non dipende dalla numerosità della popolazione da cui il campione è stato estratto (a patto che il campione sia "abbastanza" piccolo diciamo almeno 10 volte più piccolo - rispetto alla popolazione). Nell'esempio ora concluso, l'errore standard assume lo stesso valore nel caso in cui il campione di 40 individui provenga da una popolazione di 500 o, per esempio, di 5000 o di 50000 ecc. Infatti, come si può verificare dando un'occhiata ai calcoli, la numerosità della popolazione non compare nel procedimento di calcolo dell'errore standard. Un caso particolare: un campione grande rispetto alla popolazione Se la numerosità del campione è superiore a 1/10 della numerosità della popolazione, allora nel calcolo dell'errore standard occorre introdurre un fattore di correzione detto "correzione per una popolazione finita". Definiamo: N la numerosità della popolazione; n la numerosità del campione. Il fattore di correzione si calcola come: (N-n)/(N-1). Esso si utilizza come nell'esempio che segue. Supponiamo di aver estratto, dalla stessa popolazione di 500 individui dell'esempio precedente, un campione di 100 individui, e di aver ottenuto la stessa proporzione di positivi (35%). Si tratta di un campione relativamente grande, pari a 1/5 della popolazione, e quindi nel calcolo dell'errore standard è necessario considerare il fattore di correzione per una popolazione finita. Perciò, il calcolo dell'errore standard diventa: p *(1 − p ) ( N − n) * = n ( N − 1) 0.2275 400 * = 0, 043 100 499 A rigore, il fattore di correzione dovrebbe essere utilizzato anche nel caso di campioni piccoli rispetto alla popolazione. Tuttavia quando il campione è piccolo il valore del fattore di correzione si approssima ad 1, e quindi diviene ininfluente nel calcolo dell'errore standard. Per questo motivo esso viene generalmente omesso. La relazione tra l'errore standard di una popolazione divisa in due classi (proprio come nell'esempio appena visto: classe dei positivi e classe dei negativi al test) varia in funzione di p, ossia della proporzione di individui appartenenti ad una delle due classi. Politecnico di Bari. - Riservato alla circolazione interna. 47 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. In particolare: se tutti i soggetti si trovano in una classe oppure nell'altra, allora p=0 oppure p=1, e quindi l'errore standard è uguale a zero (vedi grafico a lato). Ciò è ragionevole, in quanto l'errore standard è una misura di variabilità, ed ovviamente se tutti gli individui della popolazione appartengono alla stessa classe la variabilità è uguale a zero. Al contrario, la massima variabilità si ha quando ogni elemento della popolazione ha uguale probabilità di appartenere ad una classe o all'altra (ossia: p=0.5 ed errore standard= 0.5). A questo punto è necessario rispondere ad una legittima domanda: A che cosa serve, in pratica, conoscere l'errore standard? La risposta si trova nel seguito, dove viene illustrato l'utilizzo dell'errore standard per il calcolo degli «intervalli fiduciali». Concetto di «limiti fiduciali». Utilizzazione dell'errore standard per il calcolo dei limiti fiduciali Come la variabilità di una serie di misure è indicata dalla deviazione standard, così la variabilità di un valore statistico (es. una percentuale, una media ecc.) calcolato su un campione è indicata dall'errore standard. Attenzione a non confondere l'errore standard con la deviazione standard: come già detto, l'errore standard descrive l'incertezza nella stima di una media (o di una proporzione), mentre la deviazione standard descrive la variabilità di misure effettuate sulla popolazione. ESEMPIO. Sono stati pesati singolarmente 100 scocche. Il peso medio è risultato pari a 95.2 kg. Sui 100 valori del peso di ciascuna scocca si può calcolare la deviazione standard. Sulla media ottenuta si può invece calcolare l'errore standard. L'errore standard è un valore che è direttamente correlato alla variabilità della misura ottenuta: tanto più piccolo è l'errore standard, tanto minore è la variabilità della misura e quindi tanto più attendibile è la statistica. Politecnico di Bari. - Riservato alla circolazione interna. 48 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Quanto più piccolo è l'errore standard, tanto più attendibile è il valore statistico calcolato L'errore standard rappresenta un parametro fondamentale, che viene comunemente impiegato per il calcolo dei limiti fiduciali o intervalli fiduciali o intervalli di confidenza. Il limite fiduciale è molto utile per avere un'idea della vera caratteristica della popolazione che stimiamo attraverso lo studio di un campione. Per campioni ragionevolmente ampi (almeno 50-60 osservazioni), valgono le seguenti relazioni fondamentali: L'intervallo fiduciale può essere collocato al livello di probabilità da noi desiderato; comunemente si utilizza un intervallo fiduciale con probabilità pari a 0.95 o 0.99. Ci si può esprimere anche in probabilità percentuale, ed allora si dirà «intervallo fiduciale 95%» o «intervallo fiduciale 99%». Che cosa significa l'espressione «confidenza 95%» o «intervallo fiduciale 95%» o «intervallo di confidenza 95%»? In parole povere, anche se non del tutto esatte, si può dire che «confidenza 95%» indica che che vi è una probabilità del 95% che l'intervallo trovato includa la vera caratteristica della popolazione. Questa definizione non è del tutto corretta, e certamente uno statistico «puro» potrebbe storcere il naso... ma in questa sede è giustificata dal «Teorema di Saki» che recita: una piccola inesattezza a volte risparmia tonnellate di spiegazioni! :-)) Ecco una definizione migliore (ma anche un pò più difficile da assimilare): «confidenza 95%» significa che se ripetessimo la stessa indagine per 100 volte con gli stessi metodi (ma su 100 campioni diversi), probabilmente otterremmo ogni volta una stima diversa; tuttavia, il vero valore della popolazione sarebbe all'interno del nostro intervallo di confidenza 95 volte su 100. In altre parole, l'intervallo di confidenza è stato ottenuto con un metodo che fornisce un risultato corretto nel 95% dei casi. Abbiamo già visto un esempio in cui, in un campione di individui, è stata calcolata la variabilità della proporzione di individui aventi una certa caratteristica. In quell'esempio, il valore statistico ottenuto era pari a 0.35 (aveva quella caratteristica il 35% degli individui) e l'errore standard di questa proporzione era pari a 0.0754 (7.54%). Pertanto, conoscendo l'errore standard possiamo stimare che la proporzione di individui con quella caratteristica nella popolazione sia compresa fra i seguenti limiti: limite inferiore: 0.35 - 0.0754 = 0.2746 = 27.5% limite superiore: 0.35 + 0.0754 = 0.4254 = 42.5% Politecnico di Bari. - Riservato alla circolazione interna. 49 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. L'intervallo fiduciale così calcolato (valore statistico +/- 1 volta l'errore standard) fornisce una «confidenza» del 68% circa, troppo bassa per essere di una qualche utilità pratica. Possiamo invece calcolare come segue l'intervallo fiduciale 95%: limite inferiore: 0.35 - (2 * 0.0754) = 0.199 = 19.9% limite superiore: 0.35 + (2 * 0.0754) = 0.508 = 50.1% In conclusione, possiamo affermare che abbiamo una «confidenza 95%» che la percentuale di positività nella popolazione sia compresa fra 20% e 50% (notare che il campione era composto soltanto da 40 individui, e quindi questa stima può non essere del tutto attendibile). Riassumendo, il limite fiduciale 95% di una proporzione può essere facilmente stimato con la seguente formula, in cui p è la proporzione osservata e N è il numero di unità del campione (per una maggior precisione, moltiplicare per 1.96 anziché per 2). Nell'esempio: 0.35(1 − 0.35) 0.35 ± 2 = 0.35 ± 0.0056875 = 0.35 ± 0.150831031 40 Abbiamo visto come si calcola l'errore standard di una proporzione (o percentuale). Ma come si fa a calcolare l'errore standard di una media? Il calcolo è molto semplice: basta dividere la deviazione standard s per la radice quadrata della numerosità del campione: Notare che - anche in questo caso - l'errore standard è influenzato dalla numerosità della popolazione studiata: piú grande è la dimensione dello studio, piú grande sarà l'attendibilità della media. ESEMPIO. Abbiamo misurato il peso di un campione di 80 scocche prodotte per la 500 dalla fabbrica FIAT di Melfi. La media è risultata pari a 82.5 kg, con una deviazione standard di 3.5 kg. L'errore standard della media sarà: Criteri che regolano la scelta del numero di unità che compongono il campione da studiare ("numerosità del campione") Politecnico di Bari. - Riservato alla circolazione interna. 50 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Secondo l'opinione comune, la bontà dei risultati ottenibili da un campione (ad esempio i risultati di un sondaggio) dipende unicamente dal numero degli individui che compongono il campione stesso e non dal modo con cui essi sono stati selezionati. La debolezza di questo assunto è già stata dimostrata nelle unità precedenti. Un’altra opinione comune prevede che la dimensione del campione debba essere proporzionata alla dimensione della popolazione in studio. Le leggi della statistica dimostrano invece che questo assunto è completamente falso. Ad esempio, il fatto di voler fare un sondaggio sugli abitanti di una piccola cittadina di provincia, su quelli di una grande città o addirittura su tutta la popolazione italiana non ha nessuna influenza sul numero di persone necessario per ottenere un campione rappresentativo. Insomma, contrariamente a quello che l'intuito potrebbe suggerire, un campione di 1000 persone può, se scelto con un metodo appropriato, rappresentare con la stessa attendibilità e gli stessi limiti la popolazione diBari, oppure quella della Puglia, oppure quella dell'intera Italia, nel senso che il margine di errore dovuto al campionamento sarà sempre inferiore al 3% circa. D'altra parte, a questa stessa conclusione si può giungere in base a quanto contenuto nelle pagine precedenti, in cui si spiega che l'errore standard di una proporzione è in relazione inversa con la dimensione del campione, ma non dipende affatto dalla numerosità della popolazione in studio: Verifichiamo l'affermazione secondo la quale il margine di errore con un campione di 1000 unità è <3% applicando la soprastante formula. Supponiamo che p=0.5, ossia che la proporzione di individui immuni nel campione sia del 50%. Applicando la formula, otteniamo p = 0.5 ± 0.031, ossia 50% ± 3.1%. Ciò nel caso in cui la varianza nella popolazione sia massima (p=0.5); negli altri casi, il margine di errore risulta ancora più basso. E' abbastanza naturale che, prima di intraprendere un'indagine statistica, ci si interroghi su quante «unità di interesse» (pezzi o casse ecc.) dovranno essere esaminate per raggiungere con sufficiente attendibilità l'obiettivo desiderato. Questa è una delle parti più delicate nella pianificazione di una indagine. Ovviamente, più grande sarà il campione e più precisi e attendibili saranno i risultati, a patto che il campione sia stato selezionato con un metodo corretto. Tuttavia, indagini su campioni di Politecnico di Bari. - Riservato alla circolazione interna. 51 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. grandi dimensioni sono costose e richiedono più tempo. Quindi, bisogna accettare un compromesso. Il calcolo della dimensione del campione, più propriamente detta numerosità, è abbastanza complicato e, soprattutto, richiede la conoscenza di informazioni diverse. I principali fattori da considerare nell'individuazione della numerosità del campione sono: la varianza e l'intervallo di confidenza desiderato. La varianza è una misura del grado di variazioni o oscillazioni presenti, relativamente al parametro che vogliamo stimare, nella popolazione. L'entità di queste variazioni può essere derivata, almeno approssimativamente, dai risultati di altre analoghe indagini effettuate in precedenza o dalla conoscenza della storia naturale del fenomeno che si sta analizzando, o da altri fattori. Una popolazione in cui il parametro da misurare presenta ampie oscillazioni ha una varianza elevata; una popolazione in cui le oscillazioni sono scarse ha una varianza bassa. È intuitivo che la precisione di un campione è maggiore quando la popolazione da cui è stato estratto è tendenzialmente omogenea, mentre è minore quando la popolazione è eterogenea. ESEMPIO. Consideriamo due diverse popolazioni. La popolazione A è costituita da tondini di acciaio FeB44k prodotti dalle ferriere di Brescia che è la più grossa ferriera italiana. La popolazione B è rappresentata da tondini di acciaio FeB44k prodotti dalle ferriere di Giovinazzo che è la più piccola ferriera italiana. Se siamo interessati al calcolo della produzione nelle due popolazioni, sarà evidente che la varianza della popolazione A sarà minore rispetto alla varianza della popolazione B. La varianza è un fattore importante nel calcolo della numerosità del campione. In popolazioni a bassa varianza, lo studio di pochi individui fornisce comunque un buon quadro della «vera» caratteristica di popolazione. In una popolazione teorica composta da n individui tutti identici fra loro, lo studio di 1 solo individuo è sufficiente per ottenere una indicazione precisa riguardo alla intera popolazione. Al contrario, se la varianza è alta, sono necessari molti individui, poiché ciascuno degli individui prescelti può essere molto diverso dalla media della popolazione. L'intervallo di confidenza rappresenta una misura della bontà di una stima. Un intervallo di confidenza molto ampio suggerisce che non siamo molto sicuri del punto in cui si trova il «vero» valore. Viceversa, un intervallo ristretto indica che siamo abbastanza sicuri che il valore trovato è piuttosto vicino al valore vero della popolazione; in questo caso la stima sarà, quindi, più precisa. Il livello di confidenza è una misura della sicurezza della stima: ad esempio, con un livello di confidenza 95% siamo sicuri al 95% che il valore vero cade nell'intervallo trovato. Cioè, se ripetessimo lo studio 20 volte, in media sbaglieremmo 1 volta ma saremmo nel giusto 19 volte. Politecnico di Bari. - Riservato alla circolazione interna. 52 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Per convenzione si utilizza generalmente il livello di confidenza 95%; talvolta si impiegano anche i livelli 90% o 99% o 99.9%. La scelta del livello di confidenza è spesso dettata da considerazioni pratiche (quantità di risorse e di tempo disponibili ecc.) più che dalla teoria. Anche la performance del test che verrà utilizzato gioca un ruolo importante nel calcolo della numerosità del campione. Se il test è poco affidabile (cioè a bassa sensibilità e/o specificità), allora la numerosità del campione dovrà essere alta. È anche da considerare che purtroppo, in molti casi, non sono disponibili stime precise sulla performance dei test. Metodo per calcolare la dimensione del campione al fine di escludere/confermare la presenza di una caratteristica in una popolazione In alcuni casi, lo scopo del campionamento non è quello di stimare un parametro quantitativo della popolazione o di valutare la frequenza di un fenomeno, bensì, più semplicemente, quello di stabilire qualitativamente se una caratteristica è presente (o no) in una determinata popolazione. Il problema principale è legato al fatto che è molto difficile - se non impossibile - dimostrare con certezza matematica che una popolazione è esente da una determinata caratteristica. Le difficoltà derivano da 2 fattori principali: 1. Il primo fattore è legato al fatto che, per dichiarare indenne la popolazione, -si deve saggiare ogni individuo che fa parte della popolazione stessa. Ciò comporta, soprattutto nel caso di popolazioni costituite da un ingente numero di individui, l'impiego di risorse ingenti (e non sempre disponibili). 2. Il secondo fattore è legato al test che si utilizza per il rilevamento della caratteristica su cui si vuole indagare. Nessun test è perfetto; molti test possono fornire, anche se in piccola percentuale, risultati falsi-negativi. Ossia, il test può classificare come «posseduta » una caratteristica che in realtà «non è posseduta ». ESEMPIO. Abbiamo una esposizione di piastrelle in ceramica costituito da circa 4.000 produttori. Dobbiamo dimostrare che gli individui prodotti sono indenni da difetti di planarità. Per ottenere una dimostrazione «certa» dovremo esaminare tutti le 4.000 produzioni. Infatti, è possibile (anche se improbabile) che l'imperfezione sia localizzata ad un solo o a pochissimi individui. Esaminando un campione, si corre il rischio di non includere nel campione i pochi individui positivi. Decidiamo quindi di sottoporre al test diagnostico tutte le produzioni; supponiamo che i risultati siano tutti negativi. A questo punto, siamo CERTI che la caratteristica non è presente nella popolazione? Ovviamente no, perché il test potrebbe aver fornito qualche esito falso-negativo. Quindi, concludiamo che: É impossibile provare con CERTEZZA che una popolazione è esente da una caratteristica Politecnico di Bari. - Riservato alla circolazione interna. 53 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. Tenuto conto delle difficoltà ora esposte, si può aggirare il problema considerando che molte caratteristiche, se presenti in una popolazione, con buona probabilità caratterizzeranno non 1 solo individuo, ma una certa quota della popolazione medesima. ESEMPIO. Possiamo prevedere che il difetto di non planarità difficilmente colpirà meno del 5% dei soggetti appartenenti ad un gruppo. Su questa base, possiamo calcolare qual è la dimensione del campione da esaminare in modo che si possa identificare con una certa sicurezza la presenza della caratteristica (ossia in modo da avere nel campione almeno 1 soggetto positivo). La formula riportata nella figura che segue fornisce un metodo statisticamente corretto per affrontare il problema ora esposto impegnando il minimo di risorse ed ottenendo un risultato la cui validità è quantificabile attraverso il livello di confidenza. Il livello di confidenza è una probabilità (e quindi si indica con un numero compreso fra 0 e 1, oppure in valore percentuale). Di solito si adotta un livello di confidenza 0.95 (=95%) o 0.99 (=99%); esso esprime la probabilità che la popolazione sia esente da una determinata caratteristica se tutti gli n individui del campione esaminato risultano esenti. Nel caso in cui la popolazione oggetto dell'indagine sia di numerosità «infinita» (o composta da un numero elevato di unità), si può adottare la seguente formula, più semplice, che fornisce all'incirca gli stessi risultati della precedente a patto che la prevalenza presunta sia >5% circa: Numerosità del campione per il rilevamento della presenza (o assenza) Di una determinata caratteristica in una popolazione infinita. In conclusione, anche se non possiamo provare con certezza che una popolazione è esente da una caratteristica, possiamo però ottenere una stima con precisione a nostra scelta saggiando un numero adeguato di individui. Si vedrà Politecnico di Bari. - Riservato alla circolazione interna. 54 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. successivamente che sarà necessario tenere in considerazione anche la performance (sensibilità e specificità) del test utilizzato. In conclusione, potremo dimostrare con un certo grado di probabilità che la caratteristica non è presente nella popolazione. É da sottolineare che per l'applicazione della formula è richiesta la conoscenza presuntiva di D, cioè del numero di individui «positivi» nella popolazione (prevalenza). Questa stima presuntiva può essere effettuata in base alla conoscenza dei caratteri generali della caratteristica in studio, della sua storia naturale, della situazione ambientale e geografica e di altri fattori contingenti. Verificare, tramite un esempio, l'utilizzo della formula che fornisce la numerosità del campione qualora si voglia rilevare la presenza di una caratteristica. Nel seguente riquadro viene riportato il calcolo della numerosità del campione al fine di rilevare nell’aria la presenza di polveri dannose per il lavoratore (che provoca col tempo gravi complicanze polmonari). La popolazione in studio è rappresentata da un gruppo di 1000 individui fra i quali si suppone che la frequenza della caratteristica (prevalenza) sia piuttosto bassa ma non inferiore a 0.01 (1%). Nella prossima Tabella sono riportati alcuni esempi di numerosità del campione (n) in funzione della dimensione della dimensione della popolazione (N), della frequenza di malattia nella popolazione stessa e del livello di confidenza prescelto (95 o 99%). Supponiamo, ad esempio, di dover esaminare una popolazione composta da 300 individui al fine di escludere la presenza di una determinata malattia. Supponiamo anche di presumere che il numero di individui "positivi" in questa popolazione non sia Politecnico di Bari. - Riservato alla circolazione interna. 55 Prof. Ing. Michele Marra – Appunti del Corso di Calcolo delle Probabilità e statistica – Il Problema del campionamento. inferiore a 15, ossia che la prevalenza non sia inferiore a 0.05. Nella tabella ci collochiamo sulla riga [pop=300] e nella cella di intersezione con la colonna [prevalenza=0.05] leggiamo i valori 53 e 77. Ciò significa, che esaminando un campione randomizzato di 53 individui senza trovarne nessuno positivo, potremo dire «con confidenza 95%» che quella popolazione è esente dalla caratteristica. Analogamente, se risultasse negativo un campione di 77 individui potremo dire «con confidenza 99%» la popolazione è esente dalla caratteristica. Una affermazione valida con «con confidenza 95%» significa che a tale affermazione si è giunti con un metodo che fornisce un risultato corretto nel 95% dei casi. In altre occasioni, può essere utile rispondere ad un quesito concettualmente simile al precedente, ma che richiede un diverso calcolo. Il quesito è il seguente: «sono stati esaminati con esito negativo n individui tratti da una popolazione di N; quale è la prevalenza massima della caratteristica nella popolazione?» Alla domanda si risponde con la formula riportata nello schema seguente Politecnico di Bari. - Riservato alla circolazione interna. 56