Analisi di proporzioni e distribuzioni con la distribuzione binomiale Nell’analisi delle proporzioni avevamo accennato alla distribuzione binomiale o …la distribuzione teorica di probabilità della statistica p (proporzione di una certa caratteristica osservata in un campione estratto da una popolazione in cui la proporzione è pari π) è la distribuzione binomiale… Nei test z e Chi-quadrato che abbiamo visto finora per analizzare proporzioni o numerosità avevamo anche detto però che è possibile, se alcune condizioni sono soddisfatte, utilizzare l’approssimazione normale (gaussiana) della binomiale o Solo se verificate queste condizioni [nπ e n(1-π) maggiori o uguali a 5 per il test z, non meno di 5 osservazioni attese in non più del 20% di categorie e nessuna categoria con meno di una osservazione attesA per test del chi-quadrato] o allora l’approssimazione della binomiale con la gaussiana è valida e i test z e chi quadrato si possono applicare Vediamo ora cosa fare in alcuni casi semplici quando queste assunzioni non sono vere ed è necessario ricorrere alla distribuzione binomiale o Prima di tutto, cos’è la distruzione binomiale? La distribuzione binomiale Supponiamo di compiere un esperimento con due soli risultati possibili o Lancio una moneta: ottengo testa o croce? o Faccio un figlio: sarà maschio o femmina? o Provo un esame: viene superato oppure no? o Misuro la temperatura: e’ < 36.5 oppure ≥36.5 ? o Estraggo a caso un individuo dalla popolazione: è sposato oppure no? o Estraggo a caso un individuo dalla popolazione: fuma oppure no? o Campiono un lupo e analizzo il tratto di DNA che codifica per la catena beta dell’emoglobina: è presente oppure no in almeno uno dei due cromosomi (materno o paterno) la mutazione da adenina a citosina nella base nucleotidica in posizione 56 rispetto ad una sequenza di riferimento? Un esperimento di questo tipo è detto esperimento bernoulliano Chiamiamo uno dei due eventi successo (S) e l’altro (l’evento complementare) insuccesso (I) o Non importa quale dei due viene chiamato successo e quale insucceso, è una scelta arbitraria; per esempio testa = successo; croce = insuccesso fumatore = successo; non fumatore = insuccesso la mutazione AC in posizione 56 nel gene per l’emoglobina è presente = successo; la mutazione AC in posizione 56 nel gene per l’emoglobina è assente = insuccesso Chiamiamo ora o π = probabilità dell’evento S (successo) o (1-π) = probabilità dell’evento I (insuccesso) Se quindi per esempio studio un singolo lupo (analogo ad un esperimento bernoullinano) e so che π = 0.1, posso dire che la probabilità di ottenere una sequenza con la mutazione AC in posizione 56 nel gene per l’emoglobina è pari a 0.1 o Questa probabilità, come al solito, mi dice che se avessi a disposizione un numero elevatissimo di lupi, il 10% di questi sarebbero portatori di questa specifica mutazione Supponiamo ora invece di ripetere l’esperimento bernoulliano 2 volte o Il numero di ripetizioni, e estrazioni, dette anche numero di prove, di indica con n o In questo caso n = 2 Esempi o Lancio due monete (o due volte la stessa moneta) e registro il numero di teste o Estraggo due individui a caso da una popolazione, chiedo se fumano, e registro il numero di fumatori o Campiono e tipizzo geneticamente due lupi e registro quanti di loro hanno la la mutazione AC in posizione 56 nel gene per l’emoglobina Chiara l’analogia con un campione di dimensione n e l’analisi delle proporzioni o numerosità! Vediamo ora nel caso di due prove (n=2) quali sono tutti i risultati possibili e con che probabilità si può verificare ciascuno di essi o Queste probabilità vengono calcolate, e saranno quindi corrette, se (assumendo che) il risultato della prima prova non influenza il risultato della seconda prova, e le probabilità di successo/insuccesso [π e (1-π)] nella singola prova restano costanti Intanto, quali sono i risultati possibili? o SS (prima prova = successo; seconda prova = successo) o SI (prima prova = successo; seconda prova = insuccesso) o IS (prima prova = insuccesso; seconda prova = successo) o II (prima prova = insuccesso; seconda prova = insuccesso) Abbiamo detto che le prove sono indipendenti e le probabilità di successo/insuccesso non cambiano da prova a prova. Quindi possiamo applicare la regola del prodotto per trovare le probabilità di ciascuno dei 4 risultati possibili. Attenzione! o Questi eventi sono tutti diversi se consideriamo l’ordine, ma ci sono solo tre eventi diversi se consideriamo il numero di volte che si ottiene un successo. Infatti ci possono essere 0, 1 o 2 successi in due estrazioni o A noi interessa la probabilità di avere per esempio 1 testa in due lanci, o un lupo con la mutazione in un campione di due lupi, non l’ordine con il quale gli eventi si verificano! o Quindi dobbiamo sommare qualche termine Chiamiamo X la variabile che ci interessa, cioè il numero di successi in n prove E’ facilissimo vedere che nel caso di n= 2, le probabilità di ottenere X successi in n prove si ottengono dalle probabilità precedenti o Per X= 0 e X=2, le probabilità sono quelle di avere II e SS o Per X=1, bisogna sommare i due termini (ovviamente uguali) che corrispondono ad avere prima un successo e poi un insuccesso e prima un insuccesso e poi un successo Se chiamiamo π = p e (1-π) = q o [cosa che si trova su molti libri, ma attenzione a non confondere parametri con statistiche!] allora le probabilità dei tre possibili risultati sono date dai termini che si ottengono dall’espansione del binomio (p+q)2 = p2 +2pq + q2 Attenzione, nella descrizione e nell’uso della binomiale π e p vengono spesso usati in maniera interscambiabile! Anche in questi appunti Due esempi con n=2 e due diversi valori di π E’ la prima distribuzione teorica che siamo in grado di ricostruire con semplici calcoli! Aumentando il numero di prove, e ragionando quindi per dimensioni campionarie maggiori, i calcoli non si complicano molto Vediamo per n = 3 Per n maggiori, si può ricorrere al triangolo di Tartaglia, o meglio, a triangolo di Chu Shin-Chieh, per trovare i coefficienti dei diversi termini, ma per fortuna c’e’ anche la funzione matematica della distribuzione binomiale Due esempi con n=3 e due diversi valori di π Da ricordare (questo termine si chiama coefficiente binomiale) Perché è ragionevole che per x = 0 o x = n il coefficiente binomiale sia pari a 1? Un esempio con n=20 e π = 0.3 - Siete capaci di fare la stessa cosa utilizzando la funzione binomiale per n=23 e π = 0.25? - Inizia a sembrare una gaussiana…(infatti, n cresce, ci sono tanti fattori, e nπ e n(1-π) sono entrambi maggiori di 5 La distribuzione teorica di una proporzione è binomiale perché lo è la distribuzione teorica del numero di successi in n prove Esercizio: i laureandi in medicina fumano come tutti? L’ipotesi nulla e quella alternativa che sto testando sono le seguenti Non posso utilizzare z o chi-quadrato perché nπ0 = 16x0.25 < 5 Testare le ipotesi sulle proporzioni equivale a testare le ipotesi nulle numerosità o Se il numero di fumatori nel campione ha una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla, allora anche la proporzione di fumatori nel campione avrà una probabilità di verificarsi molto bassa (<α) assumendo vera l’ipotesi nulla La distribuzione nulla delle numerosità (la distribuzione che mi interessa per testare l’ipotesi nulla), ovvero la distribuzione del numero di fumatori in campioni con n = 16 se la probabilità di essere un fumatore è pari a 0.25 (valore specificato dall’ipotesi nulla) è interamente specificata dalla distribuzione binomiale o Non ho bisogno di tabelle per fare un test binomiale! Ricostruire interamente la distribuzione nulla significa quindi, in questo caso, calcolare 17 valori di probabilità, ovvero 16 0 16 16 P(x=0) = 0 0.25 0.75 = 0.75 = 0.010023 16 1 15 1 15 P(x=1) = 1 0.25 0.75 = (16)0.25 0.75 = 0.053454 .. .. 16! 16x15x14x13x12 16 5 11 5 11 0.255 0.7511 = 0.180159 0 . 25 0 . 75 0 . 25 0 . 75 P(x=5) = 5 = 5! 11! = 5x4x3x2 .. .. 16 15 1 15 1 P(x=15) = 15 0.25 0.75 = (16)0.25 0.75 = 1.12x10-8 16 16 0 P(x=16) = 16 0.25 0.75 = 0.2516 = 2.33x10-10 Con questa distribuzione nulla posso definire le regioni di accettazione e rifiuto e/o calcolare il P-value, ovvero fare un test di ipotesi come abbiamo visto precedentemente per le statistiche test z, t e χ2 o Attenzione, non è necessario ricostruire tutta la distribuzione nulla per fare un test di ipotesi con la binomiale! Probabilità di avere x fumatori in un campione di 16 individui se π = 0.25 In questa spiegazione consideriamo però la distribuzione nulla completa, riportata qui sotto in tabella e graficamente 0,25 0,2 0,15 0,1 0,05 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Numero x di fumatori se n = 16 Identificazione delle regioni di accettazione e di rifiuto Scelto un α = 0.05, determino le regioni di accettazione e rifiuto direttamente sommando le probabilità ai due lati della distribuzione fino a raggiungere il valore appena precedente al superamento della probabilità cumulativa pari a 0.025 (se si utilizza un test a due code) x = numero di fumatori in un campione di 16 individui 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 P(x) = Probabilità di osservare x Area cumulativa sinistra fumatori in un campione di 16 (Somma progressiva delle P(x) individui se p = 0.25 a partire dai valori piccoli di x) 0,010023 0,053454 0,133635 0,207876 0,225199 0,180159 0,110097 0,052427 0,01966 0,005825 0,001359 0,000247 3,43E-05 3,52E-06 2,51E-07 1,12E-08 2,33E-10 Area cumulativa destra (Somma progressiva delle P(x) a partire dai valori grandi di x) 0,010023 0,063476 0,197111 0,404987 0,630186 0,810345 0,920443 0,97287 0,99253 0,998356 0,999715 0,999962 0,999996 1 1 1 1 In arancione, le regioni di rifiuto per un test bilaterale con α = 0.05. 1 0,989977 0,936524 0,802889 0,595013 0,369814 0,189655 0,079557 0,02713 0,00747 0,001644 0,000285 3,81E-05 3,78E-06 2,63E-07 1,14E-08 2,33E-10 La regione di accettazione va quindi da x = 1 (compreso) a x = 8 (compreso) Il valore osservato (x = 2) cade quindi nella regione di accettazione, e l’ipotesi nulla non può essere rifiutata I dati sono compatibili con l’ipotesi nulla. Non ci sono forti evidenze che i laureandi in medicina fumino di più, o di meno, rispetto alla popolazione generale o Cosa avremmo concluso de avessi fatto un test a una coda, ipotizzando per l’ipotesi alternativa che gli studenti di medicina fumano meno rispetto alla popolazione generale? Calcolo del P-value Il P-value, come sempre, è dato dalla probabilità di osservare, se fosse vera l’ipotesi nulla, un campione ugualmente estremo, o più estremo (ossia ugualmente probabile, o meno probabile) di quello osservato realmente o Se questa probabilità risulta inferiore al livello di a prescelto, rifiutiamo l’ipotesi nulla perché riteniamo i risultati osservati “troppo” improbabili (ovviamente non dimenticando che esiste, se rifiutiamo l’ipotesi nulla, l’errore di primo tipo!) Il P-value nel test binomiale appena visto è quindi la probabilità complessiva di osservare un campione con un valore x uguale al valore osservato nei dati (2 nell’esempio) o con valori di x più estremi (cioè meno probabili di quello osservato) o Queste probabilità sono ovviamente (riguardate se necessario cos’è il P-value in un test) calcolate assumendo vera l’ipotesi nulla, in questo caso che π= π0 = 0.25 In tabella, dobbiamo sommare tutti i valori di P≤0.133635, ossia della probabilità di osservare il campione realmente osservato (x =2) (da entrambe i lati della distribuzione, visto che stiamo facendo un test a due code). x = numero di fumatori P(x) = Probabilità di osservare x fumatori in un campione di 16 in un campione di 16 individui se p = 0.25 individui 0 0,010023 1 0,053454 2 0,133635 3 0,207876 4 0,225199 5 0,180159 0,110097 6 7 0,052427 8 0,01966 9 0,005825 10 0,001359 0,000247 11 12 3,43E-05 13 3,52E-06 2,51E-07 14 15 1,12E-08 16 2,33E-10 Il verde sono indicati tutti i valori di probabilità da sommare per ottenere il P-value. In rosso il valore di x osservato nei dati. Il P-value risulta quindi pari a 0.387. Essendo minore di α = 0.05, rifiutiamo l’ipotesi nulla o Ovviamente le conclusioni ottenute calcando il P-value sono le stesse di quelle viste con l’approccio delle regioni di accettazione rifiuto Un modo più semplice anche se le meno preciso per calcolare il P-value consiste nel calcolare la probabilità che il valore di x sia più estremo del valore osservato nella coda della distribuzione, e moltiplicare questo valore per 2 o Nel nostro caso, questo significa sommare le prime tre probabilità nella tabella precedente e moltiplicare per 2: P-value = 2x(0.010023+0.053454+0.133635) = 0.394 Questo valore è leggermente superiore al valore calcolato nella forma più precisa. L’approssimazione è quindi conservativa Esercizio: i geni per la spermatogenesi si trovano soprattutto sul cromosoma X? Esercizio: la scelta dei maschi nel topo dipende dalla posizione fetale delle femmine? Test di adattamento di una distribuzione di frequenza osservata alla distribuzione binomiale (è un test di goodness-of-fit) Ulteriori esempi sulla bontà di adattamento di una distribuzione osservata alla binomiale Esempio 1 La mortalità in pesci in acquario dipende soprattutto dal caso (la scelta casuale di che pesce finisce in quale acquario, e altri eventi che agiscono con uguale probabilità su ciascun pesce) o forse dalla diffusione di malattie contagiose? In 60 acquari vengono inseriti 6 pesci di una certa specie, scelti a caso da una vasca grande. Da quel momento in poi, non si interviene più sugli acquari e dopo un mese si contano i pesci sopravvissuti per ogni vasca. I risultati, come numero di vasche con 0,1,2,3,4,5,6 pesci sopravvissuti, è il seguente: 6,6,12,15,8,7,6. Esempio 2 Il rapporto tra i due sessi nelle famiglie è casuale?