ELEMENTI DI STATISTICA INFERENZIALE Legge gaussiana Popolazione Media campionaria media µ = 13/4 = 3.25 Media m = 52/16 = 3.25 2 varianza = 45/4 – (13/4)2 scarto n 11 0.829 16 11 0.586 32 2 varianza (m) = 174.5/16 – (13/4)2 scarto s(m) = 11 = 0.586… 32 -2- ELEMENTI DI STATISTICA INFERENZIALE La statistica inferenziale si occupa di acquisire conoscenze in condizioni di incertezza. Un problema tipico è quello di ricavare conoscenze circa una o più caratteristiche di un insieme di soggetti, a partire dai valori che tali caratteristiche hanno su una parte di essi. La totalità dei soggetti viene detta popolazione. Sui soggetti di una data popolazione vengono definite le caratterictiche sulle quali si ha interesse ad avere conoscenze: possono essere variabili qualitative e quantitative. Ad esempio, la tabella di pag. 1 del fascicolo di Statistica Descrittiva presenta la scelta di 9 caratteristiche: “SESSO, ALTEZZA, PESO, CORSO DI LAUREA, NUMERO DI SCARPA, COLORE DEGLI OCCHI, COLORE DEI CAPELLI, ATTIVITÀ SPORTIVA, TIPO DI DIPLOMA CONSEGUITO” rilevate su una popolazione costituita da 20 studenti. In generale una popolazione è costituita da un numero ben più elevato di soggetti: - da alcune migliaia, a milioni o miliardi per popolazioni umane; - possono raggiungere anche numeri più elevati per: = prodotti industriali o dell’agricoltura; = piante, animali, cellule, batteri, … L’osservazione dei valori delle caratteristiche che interessano per tutti i soggetti della popolazione (il censimento) presenta delle difficoltà: può non essere conveniente dal punto di vista economico, ma anche dell’organizzazione, tecnico, … e persino legale (una ditta che produca un certo bene può non essere autorizzata a rilevare i dati di reddito dei suoi potenziali clienti); può non essere materialmente possibile: come si fa a rilevare la durata della vita, a partire da un preciso istante, di tutte le zanzare che vivono in un grande acquitrino? come si fa a misurare il tempo di funzionamento di lampadine prodotte senza causare la loro distruzione? La situazione più comune è quella nella quale non si conoscono i valori che le caratteristiche assumono per tutti i soggetti della popolazione. -3- Variabili della popolazione Tutti gli elementi di statistica descrittiva che abbiamo visto per variabili qualitative o quantitative vengono applicati alle caratteristiche della popolazione; tali valori spesso non sono noti: compito della statistica inferenziale è quello di avere delle conoscenze che li riguardino. Ad esempio, si vorrà sapere: – se il numero di abitanti della terra che hanno meno di 21 anni è maggiore o minore della metà dell’intera popolazione mondiale (cioè se la mediana della caratteristica “età” è minore o maggiore di 21 anni); – se un farmaco ha effetti migliori di un altro, nella popolazione italiana; – quanto vale l’altezza media degli italiani. Campioni Usualmente si cerca di dare delle risposte rilevando il valore che le caratteristiche hanno di una parte ridotta, opportunamente scelta, della popolazione, detta campione. Non ci occupiamo delle raffinate tecniche che portano a campioni rappresentativi della popolazione cioè effettivamente simili ad essa. Ci limitiamo a quel tipo di campionamento che è alla base di esse: quello costituito dalla scelta casuale di una dato numero n di soggetti della popolazione; occorre fare in modo che ogni volta si fa una scelta ciascun soggetto della popolazione abbia possibilità di essere scelto pari a quella di ogni altro. Per darsi una rappresentazione mentale di cosa sia un campione casuale si immagini di doverne realizzare uno di 100 elementi da una data popolazione. Si etichettano tutti i soggetti della popolazione con un numero progressivo; si imbussolano tutti i numeri in un’urna, e da essa si fanno 100 estrazioni, rimettendo ogni volta il numero estratto nell’urna (così lo stesso numero può uscire più volte). Esempio 1 Popolazione: 4 appartamenti A, B, C, D. Caratteristica oggetto di studio: il numero di vani. Appartamento numero vani A 2 B 3 C 4 D 4 -4- Rappresentare in un istogramma la distribuzione del numero di vani della popolazione La caratteristica X “numero dei vani” è quantitativa: ha media e scarto (ed altri indicatori statistici: Q1, Q2, Q3, ...). In tal senso di parla di: media, scarto, … della popolazione. Verrano indicate con: : media 2 : varianza : scarto la media, la varianza e lo scarto della caratteristica X della popolazione. Quando non vi sono possibili confusioni fra variabili si parla semplicemente di 2 media µ varianza e scarto della popolazione. Analoghe nomenclature si hanno per altri indicatori: si parla di Q1, Q2 e Q3 della popolazione. Per due caratteristiche X e Y della popolazione si parla di covarianza cov(X,Y) oppure Γ(X, Y) o di coefficiente di correlazione ρ(X, Y), … Calcolare media, varianza e scarto della popolazione. xi ni xi ni 2 1 2 3 1 3 4 2 8 Totali 4 13 Valori della popolazione: media µ = varianza 2 = xi2 xi2ni scarto = -5- Variabili campionarie La presente tabella riporta i 16 possibili campioni di due elementi estratti dalla popolazione dell’esempio 1. Per ogni campione (x1, x2), riportare: – – gli appartamenti che lo formano; x x2 la media 1 ; 2 la varianza – lo scarto Appartamenti x1 - x2 2 ; 4 x1 - x2 2 4 . Campione x1, x2 media camp. x1 x 2 2 var. camp. x1 - x2 2 4 scarto camp. x1 - x2 2 4 A A 2, 2 2.0 0.00 0.0 A A A B C D 2, 3 2.5 0.25 0.5 B B B B A B C D 3, 3, 2 3 2.5 3.0 0.25 0.00 0.5 0.0 C C A B C C C D D D D D A B C D -6- Variabile media campionaria m Tracciare l’istogramma della media campionaria. 2 Valore medio m , varianza (m) e scarto (m) della media campionaria: Valori mi frequenze fi 2.0 1 2.5 2 3.0 5 3.5 4 4.0 4 Totali 16 mifi 2 2 mi m i fi 1 5 Media della media campionaria m mf i i = n k 1 1 5 2 Varianza della media campionaria s (m) = mi2fi n k 1 Scarto della media campionaria s(m) = 1 5 2 m fi n k 1 i 2 m = 2 m = -7- Variabile scarto campionario Tracciare l’istogramma dello scarto campionario. 2 Valore medio s , varianza (s) e scarto (s) dello scarto campionario: Valori si frequenze fi 0.0 6 0.5 6 1.0 4 Totali 16 sifi Media dello scarto campionario s = 2 Varianza dello scarto campionario (s) = Scarto dello scarto campionario (s) = 2 si 2 s i fi -8- Confronti popolazione-campioni (di numerosità n = 2) Popolazione Media campionaria media µ = 13/4 = 3.25 Media m = 52/16 = 3.25 varianza = 45/4 – (13/4) = 11/16 varianza (m) = 174.5/16 – (13/4) = 5.5/16 = 11/32 2 scarto n 2 2 11 0.829 16 scarto s(m) = 11 0.586 32 11 32 2 11 = 0.586… 32 Non si tratta di una coincidenza; con metodi matematici si può dimostrare che: se µ e sono rispettivamente la media e lo scarto di una popolazione, la variabile media campionaria, per campioni di numerosità n, ha media e scarto eguali rispettivamente a: s(m) = m 11 32 Se avessimo fatto campioni con molto più di due elementi? Un importante teorema di statistica matematica (Teorema del limite centrale: TLC) dimostra che la forma dell’istogramma che avremmo ottenuto sarebbe “molto vicino” al grafico di una ben determinata funzione: n n -9- Tale funzione è detta normale (o gaussiana) di media µ e scarto . n Il TLC afferma che l’istogramma della media campionaria ha forma normale solo per “grandi valori” della numerosità campionaria n : in teoria per n che tende ad infinito. in pratica e’ sufficiente n ≥ 40, o meglio n ≥ 50. È nota una formula che espliciti la funzione normale, al variare dei parametri che la caratterizzano µ e ; ma poiché gli aspetti di calcolo ad essa n relativi sono complessi sono state compilate delle tavole numeriche che consentono di fare i calcoli ad essa relativi. Le tavole sono riportate nell’allegato 1; illustriamo dapprima il loro uso, poi torniamo alle applicazioni del TLC. Le tavole riportano i dati di una particolare curva normale (corrispondente a determinati valori di media e scarto): ogni calcolo relativo ad altre curve normali può essere effettuato con quella tabulata, come vedremo fra un attimo. Se z è l’ascissa di un punto, indichiamo con Φ(z) l’area che nell’intestazione delle tavole è annerita. Le tavole consentono di calcolare Φ(z) nel modo che esemplifichiamo: z = 1.37 : riga “1.3” z = –1.03 : riga “–1.0” colonna “7” si legge Φ(1.37) = 0.9147 = 91.47% colonna “3” si legge Φ (–1.03) = 0.1515 = 15.15% - 10 - La curva normale è sempre strettamente positiva; l’area che essa sottende su tutto l’asse reale vale 1. Per ogni z è Φ(z) > 0, tuttavia per z > 3.9 , Φ(z) è un valore così prossimo a 0 che, con la precisione delle quattro cifre decimali delle tavole, non si distingue da esso; quindi nell’uso di queste tavole si assume se z < –3.9 allora Φ(z) = 0; Per ogni z è Φ(z) < 1; tuttavia per alcuni di z , Φ(z) è un valore così prossimo a 1 che, con la precisione delle quattro cifre decimali delle tavole, non si distingue da esso; quindi nell’uso di queste tavole si assume se z > 3.9 allora Φ(z) = 1. Un altro uso delle tavole ci sarà particolarmente utile è il seguente: dato un valore p (0 < p < 1) trovare z tale che l’area sottesa dalla curva nomale nelle due “code” che formano la parte esterna all’intervallo (–z, z) abbia valore p. Un esempio numerico chiarirà il procedimento: se p = 5% (= 0.05), l’area sottesa nell’intervallo (–z, z) deve valere 95% (perché l’area complessiva = 100%) ; quella di ciascuno coda 5/2 = 2.5%; quindi l’area sottesa nell’intervallo (–∞, z) deve valere 2.5+ 95 = 97.5% = 0.9750, ovvero Φ(z) = 0.975. Dalle tavole, z = 1.96. - 11 - Teorema del limite centrale La probabilità P(m ≤ x) che un campione di n elementi tratto da una popolazione di media µ e scarto , abbia valore medio minore o uguale ad un valore x è: x - µ P(m ≤ x) = Φ ( ) / n Applicazioni del TLC Esempio 2 La popolazione dei quattro appartamenti dell’esempio 1 ha media µ = 3.25 e scarto = 11/32 = 0.586… La probabilità che un campione di 100 elementi abbia media compresa fra 3.1 e 3.4 vale: P(3.1 ≤ m ≤ 3.4) = P(m ≤ 3.4) – P(m ≤ 3.1) = 3.4 3.25 3.1 3.25 = = Φ(2.56) – Φ(–2.56) 11/3200 11/3200 consultando le tavole ricaviamo: P(3.1 ≤ m ≤ 3.4) = 0.9948 – 0.0052 = 0.9896 NOTA La media campionaria ha potere “accentrante”: ben il 98.96% dei campioni (di numerosità 100) hanno valore medio appartenente ad un intervallo di lunghezza molto ridotta: 3.4 – 3.1 = 0.3. Tale risultato non dipende dal numero di appartamenti di cui è formata la popolazione, ma solo dalla sua media e dal suo scarto (oltreché dalla numerosità campionaria). Esempio3 Una popolazione ha media 3.25 e scarto 11/32 = 0.586… Quale deve essere la (minima) numerosità campionaria per cui la media campionaria abbia probabilità 90% di essere compresa nell’intervallo (3.2, 3.3)? Ciascuna coda esterna all’intervallo cumula una probabilità (pari all’area da essa sottesa) del 5%, ciò impone alla media campionaria che P(m ≤ 3.3) = 95%. - 12 - Per il TLC: 3.3 3.25 32n P(m ≤ 3.3) = = 95% 0.05 11 11/32n Dalle tavole risulta: 0.05 32n 1.65 11 (dei due valori sulle tavole, 1.64 corrispondete a 0.9495, e 1.65 che corrisponde a 0.9505 si sceglie il più grande perché evidentemente si vuole che la probabilità che la media campionaria sia nell’intervallo (3.2, 3.3) sia del 90% o, se non è possbile questo valore esatto “sulle tavole”, semmai un poco maggiore). Elevando al quadrato e facendo i conti si ha 2 32n 2 0.05 1.65 11 da cui n = 374.34 dovendo essere n intero si prenderà n = 375. Problema centrale dell’inferenza statistica Si vuole sapere se per una data popolazione è da ritenersi valida o meno una data ipotesi H. Si considerano: l’ipotesi H i risultati sperimentali E (consistenti o no in un campione) la probabilità P(E | H) che avrebbe E di verificarsi se H fosse vera. Si applica il “principio della piccola probabilità”: se P(E | H) ha un valore “piccolo” si rifiuta che H valga in quanto la piccola probabilità P(E | H) indica che o H è falsa, oppure si è verificato un esito sperimentale E che sarebbe raro se H fosse vera. Di fronte all’alternativa che H sia falsa oppure che si sia relizzato un evento raro, si sceglie la prima possibilità e si rigetta l’ipotesi H. - 13 - Se P(E | H) ha un valore non “piccolo” non si rifiuta H. Nella pratica per decidere se P(E | H) è “piccola” la si confronta con un valore di probabilità a: se P(E | H) SI RIGETTA H; se P(E | H) NON SI RIGETTA H. Il valore viene detto livello. Nella pratica sono molto usati tre livelli: = 5% = 1% = 1‰ La scelta di dipende dallo specifico problema che si vuole affrontare e coinvolge aspetti che in questa sede non è possibile sviluppare. Significato di . Il criterio di rigetto dell’ipotesi H sopra indicato non garantisce la correttezza del risultato, ma si limita a controllarne la probabilità di errore; un errore possibile consiste nel rifiutare H quando questa in realtà è vera; ebbene, la sua probabilità vale proprio : se si opera al livello , P(rigettare H | H è in realtà vera) = La probabilità dell’altro possibile errore: P(non rigettare H | H è in realtà falsa) = coinvolge nozioni più complesse; il problema non viene qui affrontato. Tuttavia esso è ampiamente sviluppato in molti problemi di statistica inferenziale e talvolta è possibile operare in modo tale che sia che abbiano un valore limitato. Test sulla media sconosciuta di una popolazione con scarto noto. Una popolazione abbia media sconosciuta e scarto noto. Sia data l’ipotesi H : la media della popolazione ha valore µ Con un campione di numerosità n, di media m, si deve decidere se rigettare o accogliere H, ad un livello dato . - 14 - Si calcola un intervallo I = (µ – x, µ + x) di centro µ ed ampiezza x che contenga la media campionaria con probabilità 1 – a; cosicche’ la probabilita’ che m non appartenga ad I vale . La regola del test e’ : se la media campionaria APPARTIENE ad I allora NON si rigetta H; se la media campionaria NON APPARTIENE ad I allora SI RIGETTA H. Il calcolo degli estremi dell’intervallo I è facile: se si vuole che: P(µ – x ≤ m ≤ µ + x) = 1 – basta imporre, per un ragionamento esposto poco sopra (circa i rapporti fra le probabilità delle “code” e quella dell’intervallo centrale in una normale) che x - x P (m x ) 1 - /2 / n / n detto z il corrispondente punto sulle tavole (z > 0) è x z / n Ne segue: x z n In conclusione, il test è il seguente: se la media campionaria -z NON appartiene all’intervallo - z APPARTIENE all’intervallo , z n , z n n n allora NON si rigetta H; allora SI RIGETTA H. - 15 - Esempio 4 Prima dell’esplosione di una centrale nucleare, i terreni di una certa regione producevano quantità di grano (per una data unità di superficie) il cui valore medio era 200 quintali con uno scarto 15. Ipotizziamo che l’effetto dell’esplosione sia tale da non modificare il valore dello scarto. Non sappiamo se, oltre a cambiamenti nella qualità del prodotto, vi siano stati cambiamenti anche nella quantità. Vengono scelte (a caso) 100 unità di superificie di terreno di quella zona e di ciascuna si osservano le quantità prodotte. Le 100 osservazioni campionarie della produzione unitaria hanno media 196.3. Si può ritenere, al livello del 5%, che la quantità media prodotta sia rimasta invariata? Si tratta di testare, al livello del 5%, l’ipotesi H : µ = 200 Il valore z fornito dalle tavole è quello che corrisponde alla probabilità 95% + 2.5% = 97.5% = 0.9750. tale valore e’ z = 1.96. In corrispondenza a tale valore di z si ha: , z I = -z = (200 – 1.96 n n 15 , 200 + 1.96 100 15 ) = (197.06, 202.94). 100 Poiché la media campionaria osservata 196.3 non appartiene all’intervallo (197.06, 202.94), l’esito del test è che si rigetta l’ipotesi che la media sia rimasta invariata. Si noti come, in forza della potenza del TLC, si può giungere a questa conclusione con poche conoscenze sia sulla popolazione che sul campione: della popolazione basta conoscere lo scarto; ogni altra sua proprietà non influenza il risultato; del campione basta conoscere il valore medio e la numerosità; gli specifici dati campionari, così come altre sue proprietà, non influenzano il risultato. - 16 - Il p-value (p-valore) Illustriamo un metodo alternativo per effettuare lo stesso test che fornisce maggiori informazioni : il metodo del p–valore (p–value, in inglese). Dato un campione di numerosità n e di media m, si pone x = |m – µ|. x x P (m ' x ) / n / n rappresenta la probabilità sottesa dalla sola “coda sinistra” individuata dal valore medio del campione eseguito; se la si moltiplica per 2 si ottiene la probabilità p che un generico campione, di pari numerosità, abbia media m' che dista dalla media µ ipotizzata più di quanto non lo faccia m: x p valore 2 / n Per concludere il test a livello si confronta p-valore con : se p–valore allora NON si rigetta H; se p–valore allora SI RIGETTA H. La conclusione di questo metodo per eseguire il test è, ovviamente, la stessa del metodo precedente, però il p–valore dà delle maggiori informazioni: il p-valore corrisponde a quale sarebbe il livello minimo del test che ci porterebbe a respingere l’ipotesi H. Esempio 5 Con i dati dell’esempio 4 si ha: media ipotizzata µ = 200, = 15, n = 100, m = 196.3, = 5%. m 3.7 p-valore = 2 2 2(2.47) 2 0.0068 1.36% 15/ 100 / n Poiche p–valore 5% si rigetta l’ipotesi che la media sia rimasta invariata. Ma tale valore mostra che siamo abbondantemente sotto il 5% e molto vicini all’1%: i dati campionari da noi ottenuti avrebbero una “rarità” dell’1.36% se l’ipotesi µ = 200 fosse valida. Ciò ci può portare ad una maggiore “convinzione” nel rigettare l’ipotesi. - 17 - Se, ad esempio, la media riscontrata nel campione fosse stata m = 192.1, certamente saremmo nella zona di rifiuto di H al 5%; ma il p–valore 7.9 p-valore = 2 2( 5.27) 0 15/ 100 avrebbe valore così piccolo da essere nullo, con l’approssimazione a quattro cifre delle tavole. Ciò ci darebbe una convinzione molto maggiore di rigettare l’ipotesi di quanto ne avremmo eseguendo il test col primo metodo (fatto questo che equivale semplicemente a sapere che p–valore < 5%, senza conoscerne però il valore numerico). Esercizio 1. Una popolazione ha media sconosciuta e scarto 2.03. 1) Verificare l’ipotesi che la media sia 80, ad un livello del 5%, mediante un campione di 280 elementi, di media 80.2. 2) Quanto vale il p-valore in questa situazione? Esercizio 2. Una popolazione ha media sconosciuta e scarto 4.11. Si vuole che l’intervallo in cui non viene rigettata l’ipotesi H : µ = 80 al livello dell’1%, abbia lunghezza pari a 1.5. 1) Qual è la minima numerosità campionaria n per cui ciò accade? 2) Il valore di n dipende dal valore ipotizzato 80 della media µ della popolazione? - 18 - Indipendenza di due variabili In molti casi sorge il problema di sapere se due variabili sono indipendenti oppure no. Ad esempio si vorrà sapere se è vero o no che: – chi fuma ha un rischio di tumori (polmonari e non solo) maggiore (o molto maggiore) di chi non fuma; – chi usa il casco nei mezzi a due ruote ha un rischio di traumi cranici minore (molto minore) di chi non lo mette; – chi usa precauzioni igieniche ha rischi minori (o molto minori) di insorgenza di certe malattie di chi non le usa; – vi sia dipendenza fra la presenza di una data sostanza in un certo ambiente e le possibilità di vita di certe piante o di certi animali in esso viventi. Per lo studio dell’effetto combinato di due variabili X e Y su una popolazione, si dovrà prendere in considerazione per ogni suo soggetto la coppia “bivariata” di valori (x, y) che esse hanno su di lui (così come nella tabella di pag. 2 ogni soggetto individua i nove valori che le variabili ivi definite assumono su di lui). Se si potesse fare il censimento dei valori della coppia (X, Y) allora il problema della indipendenza delle variabili X e Y non sarebbe di inferenza statistica (non ci sarebbero problemi di problemi di conoscenza in condizione di incertezza) ma si tratterebbe di trovare un “buon indice” capace di misurare l’indipendenza delle variabili (ad esempio, per variabili quantitative potrebbe venire in mente di utilizzare il coefficiente ρ(X, Y), calcolato per tutti i soggetti della popolazione, o altri indici). Il problema inferenziale nasce, anche in questo caso, dal poter disporre di sole osservazioni campionarie. - 19 - Il test 2 d i i n d i p e n d e n z a A rigore si può applicare solo per due variabili qualitative. Il suo principio di funzionamento è ancora quello della “piccola probabilità”; schematicamente: – si fa l’ipotesi H – si sceglie un livello – si fanno le osservazioni E; – si la probabilità P(E | H) che esse avrebbero se H fosse vera; – si confronta tale probabilità con il livello se P(E | H) se P(E | H) : le variabili X e Y sono indipendenti del test (comunemente uno dei valori 5%, 1%, 5‰); : SI RIGETTA H; NON SI RIGETTA H. Si vuole valutare se vi sia o meno indipenenza fra le due variabili X settore lavorativo, ripartita nei 4 settori: X1 : X2 : e Y tipo di lavoro, ripartita in Agricoltura Industria X3 : X4 : Servizi commerciali Y1 : Dipendenti Y2 : Indipendenti Servizi non commerciabili I dati di un campione di 23˙132 osservazioni sono riportati in tabella: X Settore lavorativo\Y lavoro Indipendenti Totale 751 1˙545 2˙296 X2: Industria 5˙544 1˙319 6˙863 X3: Servizi commerciali 5˙255 4˙503 9˙758 X4: Servizi non commerciabili 4˙215 0 4˙215 15˙765 7˙367 23˙132 X1: Agricoltura Totale Dipendenti - 20 - Il lettore cerchi ora di pronunciarsi, ad un livello percettivo, sui quesiti seguenti: – i dati riportati segnalano, a suo giudizio, dipendenza o indipenenza fra X e Y? – se dipendenti, si ritiene che sia una dipendenza molto forte o piuttosto debole? esprimetela con una misura percentuale (0: indipendenza, 100: dipendenza massima) – quale grado di convinzione avete sulla validità delle due affermazioni precedenti? esprimetelo con una misura percentuale (0: totale incertezza, 100: sicurezza assoluta). Proseguiamo nella esposizione del test 2 di indipendenza. L’indipendenza o la dipendenza delle variabili è un fatto che è collegato solo ai valori “interni” della tabella, quelli che sono stati omessi nella tabella seguente: X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale X1: Agricoltura 2˙296 X2: Industria 6˙863 X3: Servizi commerciali 9˙758 X4: Servizi non commerciabili 4˙215 Totale 15˙765 7˙367 23˙132 Per ciascuna delle caselle bianche della tabella, siamo in grado di determinare un valore attorno al quale dovrebbero avvicinarsi le frequenze osservate se effettivamente le variabili fossero indipendenti: se due variabili sono indipendenti i profili riga sono tutti uguali, lo stesso i profili colonna. Detto in altre parole i 2˙296 lavoratori del settore “Agricoltura” si dovrebbero ripartire in “Dipendenti” e “Indipendenti” nelle stesse proporzioni con cui si ripartiscono tutti i 23˙132 soggetti osservati nel campione. Questa proporzionalità dà luogo alla tabella delle così dette “frequenze teoriche” (“teoriche”: nell’ipotesi che la variabili siano effetivamente indipendenti); essa è così strutturata: si fa una tabella che abbia la stessa riga e colonna marginali della precedente, poi si calcolano le frequenze teoriche ti previste in ogni casella in modo da rendere tutte le righe (e, necessariamente, anche tutte le colonne) proporzionali fra loro. - 21 - X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale X1: Agricoltura t1 t2 2˙296 X2: Industria t2 t3 6˙863 X3: Servizi commerciali t4 t5 9˙758 X4: Servizi non commerciabili t6 t7 4˙215 15˙765 7˙367 23˙132 Totale Ovviamente le frequenze teoriche sono tante quanto è il numero k delle caselle interne della tabella; nel nostro caso è k = 8. Le frequenze teoriche ti sono calcolabili con proporzioni del tipo: t1 : 2˙296 = 15˙765 : 23˙132 t1 = 2 296 15 765 = 1 564.8 23 132 t4 : 6˙863 = 7˙367 : 23˙132 t4 = 6 863 7 367 = 2 185.7 23 132 Le frequenze teoriche non sono, in generale, numeri interi. Soprattutto quando siano valori non troppo grandi è consigliabile di approssimarle con più di un decimale. Nel caso presente, in cui hanno valore elevato, assumiamo un decimale. La regola per il calcolo delle frequenze teoriche è molto semplice: Il valore della frequenza teorica da riportare in una data casella si ottiene moltiplicando fra loro i due totali della riga e della colonna cui la casella appartiene, poi dividendo per il totale generale delle tabella. In tal modo si ottiene la tabella delle frequenze teoriche X Settore lavorativo\Y lavoro Dipendenti Indipendenti Totale X1: Agricoltura 1˙564.8 731.2 2˙296 X2: Industria 4˙677.3 2˙185.7 6˙863 X3: Servizi commerciali 6˙650.3 3˙107.7 9˙758 X4: Servizi non commerciabili 2˙872.6 1˙342.4 4˙215 Totale 15˙765 7˙367 23˙132 - 22 - Le frequenze dei dati osservati vengono chiamate frequenze osservate; vengono indicate con fi indiciandole con lo stesso ordine, in modo che le frequenze osservate fi e quelle teoriche ti si corrispondano nelle rispettive tabelle. Il test procede misurando la discrepanza fra le frequenze osservate e quelle teoriche, prima casella per casella, poi quella complessiva. La discrepanza fra fi e ti di una data casella è misurata in due fasi: dapprima, con le stesse motivazioni che abbiamo già utilizzato nella definizione di varianza e di scarto, si considera la differenza quadratica “assoluta” 2 (fi – ti) ; poi si tiene conto che tale valore ha maggiore o minore importanza a seconda del valore che ci aspettiamo in quella casella (così come l’errore assoluto di 1 cm nella misura di una lunghezza ha un peso in relazione alla lunghezza di 1 metro, ma ha peso molto minore in relazione ad una lunghezza di vari chilometri, e quindi si considera l’errore relativo: (1 cm) /(vari chilometri) assumendo questo come “precisione della misura) esprimendo la discrepanza fra fi e ti di una data casella con la differenza quadratica “relativa”: 2 ( f t ) i2 i i ti Si noti che al denominatore è posta la frequenza teorica! La discrepanza complessiva fra le frequenze osservate e quelle teoriche è misurata dall’indice: (fi ti )2 ti i 1 2 k dove k il numero delle caselle “interne” alla tabella. - 23 - Nel caso esemplificato si ha: (751-1564.8)2 (1545-731.2)2 (5544-4677.3)2 = + + + 1564.8 731.2 4677.3 (1319-2185.7)2 (5255-6650.3)2 (4503-3107.7)2 + + + 2185.7 6650.3 3107.7 (4215-2872.6)2 (0-1342.4)2 4722.17 2872.6 1342.4 2 Se si fanno i calcoli con il valore esatto (frazionario) delle ti si ottiene 2 = 4855.94 2 assume valori prossimi a 0 quando le frequenze osservate sono “vicine” a quelle teoriche (in effeti, 2 = 0 se e solo se fi = ti per ogni i). Viceversa elevati valori di 2 indicano che vi è discrepanza fra frequene osservate e le corrispondenti teoriche. Se 2 è troppo grande (o meglio, se è così grande da rendere inferiore al L’indice livello prescelto la probabilità dei dati osservati) si rigetterà l’ipotesi. Ne segue che le zone di rifiuto dell’ipotesi (di indipendenza delle variabili) di questo test sono del tipo: 2 > c per una opportuna costante c. Ciò corrisponde a dire (si guardino le tavole della distribuzione 2) che le zone di rifiuto sono delle “code destre”, cioè corrispondono alle ascisse dei punti appartenenti alla regione annerita nella figura allegata alle tavole. Ora illustriamo come calcolare c in modo da tener conto degli aspetti probabilistici legati al livello del test. Come per la media campionaria col TLC, vi è un teorema di statistica matematica che ci consente di valutare le probabilità che 2 assuma determinati valori. Anche in questo caso: – le formule relative, troppo complesse per essere trattate in questa sede, possono essere evitate ricorrendo ad opportune tavole che danno la distribuzione di 2; le tavole sono riportate nell’allegato 2; – la distribuzione fornita dalle tavole ha bisogno, in teoria, che n ; in - 24 - pratica essa è buona quando TUTTE le frequenze TEORICHE (teoriche! non quelle osservate) hanno valore ti ≥ 5 o meglio ancora ti ≥ 10 per cui si sconsiglia di utilizzare questo test se anche solo per qualcuna delle frequenze teorica avviene che ti < 5. La distribuzione di 2 fornita dalle tavole dipende da un parametro chiamato numero dei gradi di libertà. Questo viene indicato con . Il suo valore dipende dal numero di righe e di colonne della “parte interna” della tabella (quella comprendente le caselle in corrispondenza delle quali sono calcolate le frequenze teoriche). Ad esempio, nella tabella da noi esemplificata la “parte interna” ha 4 righe (corrispondendi ai 4 settori di lavoro) e 2 colonne (corrispondenti alla classificazione della variabile Y in “Dipendenti” e “Indipendenti”). Il numero dei gradi di libertà è definito da: = (numero di righe – 1) (numero di colonne – 1). Nel caso indicato, = (4 – 1) (2 – 1) = 3 · 1 = 3. Nelle tavole, la prima colonna corrisponde al numero dei gradi di libertà. Si considera la riga individuata da e la colonna individuata dal livello all’intersezione di esse si trova il valore “critico” c, si confronta se se , 2 con c: 2 ≥ c SI RIGETTA H; 2 < c NON SI RIGETTA H. Nel caso da noi illustrato, si ha: a = 5% Poiché 2 = 4˙855.94… =3 dalle tavole: c = 7.815 2 = 4˙855.94… > c = 7.815, si rigetta H (al livello del 5%). Si noti che, in questo caso, il valore di 2 è così elevato da superare i valori critici riportati nella tabella corrispondenti ai livelli dell’1% e del 5‰. Esercizio. 762 animaletti di una data specie, che vivono nelle acque di un lago, sono stati classificati a seconda del sesso e della profondità (moderata, media o elevata) a cui sono stati prelevati. I risultati sono riportati nella seguente tabella: - 25 - Maschi Femmine Totale Valutare, col test Profondità Profondità Profondità moderata media elevata 220 112 56 202 130 42 422 242 98 Totale 388 374 762 2 al livello del 5%, se si possa ritenere che vi sia indipendenza fra il sesso e la profondità. Esercizio 3. I mille individui di un campione sono stati classificati secondo il sesso e secondo il fatto di essere o meno daltonici: Normali Daltonici Totali Maschio 442 38 480 Femmina 514 6 520 Totali 956 44 1˙000 Valutare, mediante il test 2, ad un livello del 5%, se si può ritenere che l’essere o meno daltonici sia un fenomeno indipendente dal sesso. Esercizio 4. Un vaccino è stato somministrato ad alcune persone scelte a caso fra un folto gruppo di volontari. Le successive osservazioni hanno fornito i seguenti risultati: Vaccinati Non vaccinati Totali Infettati 56 272 328 Non infettati 6˙759 11˙396 18˙155 Totali 6˙815 11˙668 18˙483 Questi dati sono compatibili con l'ipotesi che il vaccino non abbia effetto, ovvero che l'essere o meno vaccinati (con quel vaccino) non influenzi il fatto di essere o meno infettati? - 26 - ALLEGATO 1 : TAVOLE NORMALE STANDARDIZZATA - 27 - ALLEGATO 2 : TAVOLE CHI QUADRO (2)