OTTAVA UNITA’ Stime e inferenze Come già accennato, nella statistica inferenziale la differenza tra popolazione e campione di una popolazione gioca un ruolo essenziale. Ciò è sottolineato anche dalla nomenclatura usata. Le elaborazioni proprie di un campione (media, moda, mediana, varianza, deviazione standard, differenza interquartile, ecc.) sono denominate statistiche, mentre la vera media, moda, mediana, varianza, deviazione standard, ecc., della popolazione, che spesso non conosciamo direttamente, sono chiamate parametri. In più, per sottolineare questa differenza, si usano le lettere latine per le statistiche, mentre si usano quelle greche per la popolazione. Anche per il numero delle unità statistiche prese in considerazione si usa in genere la N (la N maiuscola) per indicare il numero presente nella popolazione intera e n (la n minuscola) per indicare la dimensione o ampiezza del campione. Le statistiche che si possono elaborare a partire da un campione sono usate per stimare i parametri di una popolazione. Conoscendo la media di un campione, possiamo stimare la media di una popolazione; la deviazione standard di un campione fornisce un’idea della possibile deviazione standard della popolazione. E così via. Questo processo è chiamato inferenza statistica. Vediamo come funziona. 1) Se incontriamo per la prima volta un animaletto esotico la cui altezza è di 10 cm, è difficile generalizzare la cosa dicendo: “dunque tutti questi animali sono alti 10 cm”. Tuttavia, ci si fa un’idea ipotetica dell’altezza di altri esseri di questo tipo. Possiamo, un po’ avventurosamente, pensare che la loro altezza media sia 10 cm, e l’altezza di altri esemplari di questo tipo di animali sia distribuita in maniera normale. Ciò sta a dire che ce ne saranno di più alti e di più bassi, ma che un certo addensamento delle altezze si può collocare intorno ai 10 cm. Questi pensieri derivano dall’ipotesi che abbiamo circa la maggiore probabilità di incontrare alcune distribuzioni rispetto ad altre meno comuni. Già in queste condizioni possiamo confrontare tre possibili distribuzioni delle altezze proprie di questo tipo di animali: A, B e C. Fig.1 - Possibili forme di distribuzione delle altezze degli animali. 79 Le distribuzioni A e B sono certamente le meno probabili. Infatti la curva A suggerisce che l’animaletto che stiamo vedendo sia più di 3 deviazioni standard sopra la media (cioè uno del gruppo dei più alti che costituisce solo lo 0,15 % della popolazione). La curva B, d’altra parte, implica che esso si trovi a meno due deviazioni standard sotto la media (cioè, uno del gruppo dei più bassi che costituisce il 2,5 % della popolazione). Certo B è un po’ più probabile di A, ma tutte e due sono assai meno probabili di C1, C2, C3. Tutte queste distribuzioni hanno media 10 cm, anche se la dispersione nei tre casi è assai diversa: C1 indica una dispersione piccola, C2 media, C3 alta. Fig.2 - Altre possibili forme di distribuzione delle altezze degli animali. Anche se, a esempio, spostassimo un poco la curva C2 come in figura, le cose cambierebbero assai modestamente. Rimarrebbe la tendenza a considerare più probabile una distribuzione che si avvicina a quella normale. 2) All’improvviso il nostro animaletto esotico è raggiunto da altri quattro suoi simili, e la loro altezza è 9,2, 9,6, 10,3 e 10,5 cm. A questo punto possiamo avanzare una nuova stima dei parametri della popolazione. La media del nuovo campione, ora formato da cinque elementi, è 9,9 cm. Una statistica non molto diversa dalla precedente, ma possiamo stimare su questa base la dispersione della popolazione. La deviazione standard del nostro campione è di 0,5 cm. Ciò suggerisce il fatto che solo pochi animali di questo tipo siano più bassi di 8,5 cm e più alti di 11,5 cm (cioè di più o meno 3 deviazioni standard). La curva C2 appare ora assai più verosimilmente una buona rappresentazione della distribuzione della popolazione costituita dai nostri animaletti esotici. Cosa possiamo concludere da questo esempio? Che le nostre previsioni possono migliorare sulla base delle nuove informazioni che possiamo raccogliere. Tuttavia, finché ci basiamo su campioni della popolazione non potremo mai essere del tutto certi delle nostre affermazioni. Possiamo però giungere a conclusioni che sono sempre più vicine alla situazione reale. Non solo, ma anche indicare i margini di errore che le nostre previsioni hanno. • • • • Riferendoci al nostro esempio, sulla base delle informazioni ora possedute, che probabilità abbiamo di incontrare uno di questi animali che sia alto 12 cm? E di incontrarne uno che sia alto 10,5 cm? E uno che sia alto 8 cm? In termini di probabilità soggettiva: qual è il nostro grado di fiducia nel verificarsi dell’evento futuro di incontrare uno di questi animali alto 12, 10,5, 8 cm? 1. La logica della campionatura: la distribuzione delle medie campionarie Supponiamo di aver misurato il ritmo delle pulsazioni cardiache di 50 studenti, che costituiscono la nostra popolazione di riferimento e di aver trovato questi risultati. 80 89 85 82 77 82 68 64 81 90 88 92 79 86 83 79 74 77 71 81 79 76 96 90 73 94 65 80 87 80 82 77 70 71 78 66 83 85 72 81 78 75 80 62 81 74 87 80 78 75 72 Tab.1 - Pulsazioni cardiache registrate a 50 studenti. L’ampiezza della distribuzione è compresa tra 62 e 96 battiti al minuto: 96 – 62 = 34. Riassumiamo la statistica descrittiva di questa serie di dati, ottenuta mediante l’uso del programma Excel. Media 79,1 Intervallo 34 Mediana 79,5 Minimo 62 Moda 80,81 Massimo 96 7,6698 Somma 3955 Deviazione standard Varianza 58,8265 Conteggio 50 Prendiamo ora 10 risultati a caso. E’ un campione della popolazione. La sua media è 78,6 battiti al minuto. Che cos’è un campione di una popolazione? E’ una parte, o sottoinsieme, degli elementi statistici che costituiscono la popolazione. Esistono molti modi per scegliere un campione. In primo luogo occorre deciderne l’ampiezza n, cioè il numero di elementi da selezionare. Tale scelta può essere fatta soltanto a caso, nel senso di selezionarli in modo che la probabilità di essere selezionati è uguale per tutte le unità statistiche della popolazione: in questo caso il campione viene denominato casuale. Oppure può essere usato un metodo più sistematico. A esempio, si possono dividere le unità della popolazione in gruppi di uguale dimensione (magari presi da una lista, come l’elenco telefonico) e scegliere a caso un elemento per ogni gruppo. Oppure si può tener conto di alcune caratteristiche della popolazione (età, residenza, livello di studi, ecc.) e garantire che il campione sia rappresentativo in maniera proporzionale delle articolazioni, o strati, della popolazione che corrispondono a queste caratteristiche. Si tratta allora di un campione cosiddetto stratificato. Se consideriamo altri quattro campioni della stessa dimensione presi a caso, ci si può aspettare che si ottenga la stessa media per ognuno di essi? Se lo pensiamo, saremo certamente frustrati. I quattro campioni aggiuntivi forniranno quattro medie differenti. Consideriamo cinque campioni di dieci unità prese a caso dai dati precedenti. Possono anche essere le cinque righe della serie di dati della tabella 1. Le medie dei cinque campioni sono: 78,6; 79,6; 78,0; 79,9; 79,4. Otteniamo così una nuova serie di dati: sono le medie dei campioni, che hanno una loro variabilità e per le quali possiamo calcolare le differenti statistiche. La variabilità tra le medie dei campioni è detta distribuzione campionaria delle medie. 81 Si può fare anche il conto di quanti campioni è possibile estrarre da una popolazione di N unità statistiche. Nel nostro caso abbiamo 50 unità statistiche, i campioni di 10 unità estraibili possono essere di due tipi: senza reinserimento e con reinserimento. Nel primo caso, se estraggo dieci unità queste non possono essere più conteggiate; nel secondo caso le unità estratte possono essere riconsiderate in una seconda estrazione. Nel primo caso (estrazione casuale senza reinserimento o reimbussolamento) si ha comunque un numero altissimo di possibili campioni. La formula che consente di conteggiare tutti i possibili campioni estraibili da una popolazione di N entità statistiche è quella che fornisce il numero di combinazioni semplici di N elementi presi a n a n. Il numero delle combinazioni possibili di N elementi presi in quantità n ogni volta in modo da non conteggiarli più nel seguito è dato dalla formula N! N(N-1)(N-2)(N-3)…..1 ----------- = -----------------------------------------------------n! (N-n)! n(n-1)(n-2)….1x(N-n)(N-n-1)(N-n-2)….1 Nel secondo caso (estrazione casuale con reinserimento o reimbussolamento) si ha intuitivamente un numero ancora più grande di possibili casi. Il numero delle combinazioni possibili di N elementi presi in quantità n ogni volta in modo da poter conteggiare di nuovo un elemento già considerato (combinazioni con ripetizione) è dato dalla formula (N +n-1)! (N + n - 1)(N + n -1 - 1)…..1 ----------- = ---------------------------------------------n! (N-1)! n(n-1)(n-2)….1x(N-1-1)(N-1- 2)….1 Normalmente si usa scegliere campioni come combinazioni semplici (senza ripetizione). In pratica, come vedremo, ci si limita a scegliere casualmente n entità statistiche tra le N che costituiscono la popolazione. Da un punto di vista teorico è possibile pensare a tutti i campioni che possiamo estrarre da una certa popolazione. Di tutti questi campioni possiamo calcolare le loro medie. Otteniamo così le cosiddette medie campionarie. In formula si scrive: X . La distribuzione di queste medie che forma assumerà? Essa assumerà approssimativamente la forma di una curva normale. Come mai? Nella popolazione considerata i valori tendono a diventare sempre più scarsi a mano a mano che sono più grandi o più piccoli della media. Così in un campione tratto da quella popolazione è più probabile trovare valori simili in dimensione a quelli della media della popolazione che sono molto differenti da essa. Così i campioni che includono valori vicini a quelli della media della popolazione tendono a essere più numerosi di quelli che hanno valori distanti da essa. Viceversa, campioni la cui media è simile a quella della popolazione sono probabilmente più frequenti di quelli la cui media è assai differente da essa. 82 E’ assai facile verificare empiricamente mediante l’uso di un calcolatore (e di un programma di calcolo statistico) che la media della distribuzione delle medie dei campioni tende a coincidere con la media della popolazione, se i campioni sono di dimensione o ampiezza abbastanza elevata. La deviazione standard della distribuzione delle medie campionarie viene chiamata errore standard. Questa deviazione dalla media delle medie dei diversi campioni tende a diminuire all’aumento della loro dimensione, fino a coincidere esattamente con la media della popolazione quando il campione stesso coincide con la popolazione stessa. Invece, quando la dimensione dei campioni è costante e uguale a n, mentre varia l’ampiezza della popolazione, all’aumento della deviazione standard della popolazione corrisponde l’aumento della deviazione standard della media delle medie campionarie (l’errore standard). Inoltre, sia che la popolazione (e di conseguenza i suoi campioni) sia distribuita normalmente, sia che non lo sia, le medie che calcoliamo per i campioni si distribuiscono approssimativamente secondo la distribuzione normale; cioè, più sono grandi i campioni, più essa sarà vicina alla curva normale. Più aumenterà l’ampiezza del campione (il numero di unità statistiche considerate per ogni campione) più aumenterà tale approssimazione. Queste considerazioni tendono a giustificare intuitivamente il teorema del limite centrale. Esso afferma in primo luogo quanto segue. Data una qualunque popolazione, la cui distribuzione assume una forma non specificata, al crescere di n, cioè dell’ampiezza del campione, la distribuzione delle medie campionarie tende alla distribuzione normale e la media delle medie tende alla media della popolazione. Fig. 3 - Distribuzione delle medie campionarie con campioni di ampiezza 2, 4 e 30 di tre tipi di popolazione. 83 Si può fare a questo proposito una osservazione. In genere non si scelgono molti campioni per condurre indagini sui parametri di una popolazione. Anzi, molto spesso si tratta di uno solo. Che fiducia possiamo avere sui risultati che otteniamo? L’errore che possiamo fare è in genere abbastanza piccolo. Vedremo in seguito come possiamo calcolarlo con precisione. Diversa è la situazione per quanto riguarda la deviazione standard. Questa in genere sarà più piccola di quella della popolazione. In altre parole la distribuzione delle medie campionarie sarà in generale meno dispersa di quella della popolazione e anche di un singolo campione. La rappresentazione di questa situazione è illustrata dalla figura seguente. La curva A rappresenta la distribuzione della popolazione, la curva C rappresenta la distribuzione del campione, la cui media è un po’ differente da quella della popolazione, la curva B rappresenta la distribuzione delle medie campionarie. Fig. 4 - Differenza tra la distribuzione della popolazione e quella delle medie campionarie. Per questo motivo e per distinguere la deviazione standard di un singolo campione o di una intera popolazione da quella della distribuzione campionaria, è stata introdotta la denominazione di errore standard per la deviazione standard della distribuzione delle medie campionarie. Anche nel caso della varianza e dell’errore standard esistono precise indicazioni contenute nell’enunciato del teorema del limite centrale, che però non è possibile giustificare in queste dispense1. La varianza delle medie campionarie è uguale alla varianza della popolazione divisa per n (ampiezza del campione) e l’errore standard della media campionaria è uguale alla deviazione standard della popolazione diviso per la radice quadrata di n. Ecco le formule relative al teorema del limite centrale, che verranno utilizzate nel seguito delle dispense. Spesso si usa la seguente formula per stimare s ? partendo dalla varianza del campione. Quando il campione ha ampiezza 1, l’errore standard è uguale alla deviazione standard della popolazione, poiché ogni punteggio grezzo coincide con un valore medio. Quando n diventa molto 1 Chi fosse interessato può consultare G. Dall’Aglio, Calcolo delle probabilità, Bologna, Zanichelli, 1988. 84 grande e tende all’infinito, l’errore standard tende a zero e la media del campione coincide con la media della popolazione, cioè non c’è errore. Fig. 5 - Aumentando l’ampiezza del campione diminuisce l’errore standard delle medie campionarie. La distribuzione campionaria è uno dei concetti più importanti di tutta la statistica inferenziale. Si tratta di un concetto teorico. Mentre la distribuzione delle frequenze è ottenuta empiricamente, osservando o misurando direttamente le differenti unità statistiche e ottenendo così i dati grezzi, la distribuzione campionaria è derivata teoricamente a partire da una infinita serie di campioni della stessa dimensione scelti nella popolazione studiata. E’ possibile d’altronde elaborare distribuzioni campionarie per tutti i tipi di statistiche come medie e deviazioni standard. 2. Applicazioni della distribuzione campionaria Sulla base del teorema del limite centrale possiamo affermare che la distribuzione normale rappresenta abbastanza bene la distribuzione campionaria quando l’ampiezza n del campione è superiore a 30. Il grande vantaggio di questa conoscenza sta nel fatto che possiamo utilizzare quello che già sappiamo circa la deviazione standard, i punteggi z, i percentili, le aree sotto la curva normale, ecc. Iniziamo con l’introdurre il concetto di errore campionario. Esso esprime la differenza che possiamo riscontrare tra la media del campione X e la media della popolazione µ: X – µ. Questi errori in genere sono dovuti a fattori casuali e la distribuzione di questi errori tende ad assumere un andamento assimilabile a quello della curva normale e di conseguenza la loro somma tende a zero: S ( X – µ) = 0. Ciò ci consente di stimare l’ampiezza dei valori che la media campionaria può assumere. Immaginiamo di scegliere un campione di 100 soggetti tra una popolazione. La media del campione è 45 e la deviazione standard è 3,5. Se scegliamo un altro campione, quale differenza ci aspettiamo tra le medie dei due campioni? Se escludiamo errori sistematici, la differenza è abbastanza limitata ed è dovuta al caso. Se continuiamo a scegliere altri campioni, la distribuzione campionaria delle medie trovate avrà una sua media e una sua deviazione standard. Queste si possono trovare con le formule precedentemente introdotte. 85 Tuttavia, quando intendiamo stimare la deviazione standard della popolazione, si riscontra il fatto che la varianza della distribuzione campionaria delle medie fornisce un valore distorto della varianza della popolazione, in quanto la sottostima. Si è trovato che un valore non distorto della varianza della popolazione si può stimare, utilizzando la seguente formula: La stima dell’errore standard della media nel nostro esempio sarà dunque: N = 100 s = 3,5 Quanto alle medie che troviamo possiamo stimare quello che si chiama l’intervallo di confidenza per la media, che indica la probabile ampiezza dell’intervallo numerico entro il quale si collocheranno le medie via via trovate. Dal momento che la distribuzione delle medie dei campioni tende a distribuirsi normalmente e i nostri campioni sono abbastanza ampi, possiamo usare le conoscenze che abbiamo circa i punteggi standard: in particolare che approssimativamente il 68% dei punteggi si colloca a una deviazione standard sopra e sotto la media. Un intervallo di confidenza del 68 % è dato dunque dalla media più o meno la deviazione standard. Utilizzando i valori sopra indicati si ha un intervallo compreso tra: X = 45 45 – 0,35 = 44,65 sx = 0,35 e 45 + 0,35 = 45,35 Possiamo anche determinare il grado di probabilità che intendiamo utilizzare nella nostra stima. Normalmente si usano gradi di probabilità del 95% e del 99%, ciò è possibile ricordando che in questi casi basta considerare la media più o meno due volte o tre volte la deviazione standard: un punteggio z di più o meno 1,96 rappresenta il 95% dei punteggi intorno alla media; mentre un punteggio z di più o meno 2,58 rappresenta il 99 % dei punteggi. Occorre comunque ricordare che si tratta di campioni che hanno un’ampiezza n uguale o maggiore di 100. Per quelli di ampiezza inferiore verrà ripreso il discorso in seguito, introducendo il concetto di distribuzione di t di Student. Inoltre, occorre fare attenzione al significato esatto di intervallo di confidenza. Esso si riferisce soltanto alla probabilità che in esso si collochino le medie dei campioni di una data ampiezza, nulla dice sulla probabilità che la media di 45 sia quella corretta. 86 Tab. 2 - Esempi di intervalli di confidenza del 68%, 95% e 99%, quando la media è 45, la deviazione standard 3,5 e l’ampiezza del campione è 100. Fig. 6 - Illustrazione della distribuzione normale con tre comuni intervalli di confidenza. Nello stimare i parametri di una popolazione a partire da un suo campione viene sempre usato il concetto di probabilità. A questo proposito è necessario aggiungere alcune precisazioni. Parlando di differenze tra valore reale e valore stimato, a esempio, noi possiamo non tener conto della direzione di questa differenza, cioè non considerare i due casi possibili: che la nostra stima sia inferiore alla media reale, oppure che essa sia superiore a essa. In altri casi, invece, è necessario o opportuno tener conto anche della direzione che assume questa differenza. Evidentemente la probabilità del verificarsi di un evento di questo tipo dipende anche dalle sue caratteristiche. 87 Primo caso: valore di probabilità a una coda. Consideriamo una popolazione la cui media sia µ = 50 e la cui deviazione standard si s = 10. Qual è la probabilità di ottenere un punteggio uguale o maggiore di 60? Possiamo trasformare il punteggio grezzo 60 in punteggio z (o punteggio standard): Quello che ora cerchiamo è la probabilità di ottenere un punteggio uguale o superiore al punteggio z = 1. Nell’apposita tabella troviamo che la probabilità di trovare un punteggio uguale o superiore a z = 1, cioè come punteggio grezzo 60, è di circa il 16 %. Secondo caso: valore di probabilità a due code. Consideriamo sempre una popolazione la cui media sia µ = 50 e la cui deviazione standard sia s = 10. Qual è la probabilità di ottenere un punteggio uguale o maggiore di 60 oppure uguale o inferiore a 40? I due punteggi trasformati in punteggi standard danno z = +1 e z = -1. Ambedue i punteggi stanno a una deviazione standard di distanza dalla media. Ciò che cerchiamo è la probabilità di ottenere un punteggio uguale o superiore al punteggio z = +1, oppure uguale o inferiore a z = -1. Data la simmetria della situazione è abbastanza evidente che la probabilità debba essere raddoppiata, in quanto è di circa il 16% la probabilità di ottenere un punteggio uguale o superiore a z = +1 (o 60 in punteggio grezzo) e di circa il 16% è la probabilità di ottenere un punteggio uguale o inferiore a z = -1 (o 40 in punteggio grezzo). Naturalmente è possibile partire dalla probabilità desiderata per trovare il punteggio corrispondente. Il percorso è inverso a quello descritto e utilizza la formula inversa di quella per trovare i punti z. Dalle tavole si individua il valore di z corrispondente alla probabilità richiesta, poi si usa la formula seguente per trovare il punteggio X: 88