Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera TRACCIA DI STUDIO Raramente un evento si verifica con certezza o è impossibile: in genere, esiste un’incertezza sul risultato in quanto legato anche all’effetto del caso. Lo strumento idoneo allo studio e alla previsione dei fenomeni casuali o aleatori è rappresentato dalla teoria della probabilità. Insiemistica. Operazioni tra insiemi Il formalismo delle probabilità si richiama al concetto di insieme inteso come una collezione di elementi aventi in comune una o più caratteristiche. Un insieme può essere finito, infinito o vuoto a seconda del numero di elementi che racchiude e si rappresenta graficamente con figure geometriche mediante un diagramma di Venn. Ogni insieme può contemplare sottoinsiemi e tutti appartengono a un insieme generale che è l’insieme universo o spazio campione. Con più insiemi, attraverso diverse operazioni, si possono formare particolari insiemi: • unione (costituito da tutti gli elementi che appartengono ad almeno uno degli insiemi di partenza); • intersezione (gli elementi devono appartenere contemporaneamente a tutti gli insiemi coinvolti nell’operazione); • sottrazione (comprende tutti gli elementi di un insieme con l’esclusione di quelli che appartengono agli insiemi da sottrarre); • prodotto (contempla le coppie di elementi derivate da tutte le possibili associazioni di ciascun elemento di un insieme con ciascun elemento dell’altro). Teoria e calcolo delle probabilità La probabilità rappresenta il tentativo di quantificare la capacità di manifestarsi di un fenomeno o evento (intesa come risultato favorevole o successo dell’evento). Il verificarsi di un evento semplice esclude qualsiasi altro risultato di uno stesso spazio campione: gli eventi semplici sono quindi tra loro incompatibili, o mutuamente esclusivi, ed esaustivi perché esauriscono tutto lo spazio campione. La teoria della probabilità si basa sulla frequenza relativa di successi dell’evento considerato e quindi viene espressa in valori relativi o percentuali: la probabilità zero si riferisce all’evento impossibile e la probabilità uno (o cento) all’evento certo. Associando a ciascun evento la probabilità di successo, la somma delle probabilità di tutti gli eventi di uno spazio campione corrisponde a uno. Gli eventi composti contemplano l’associazione di più eventi semplici; il calcolo delle loro probabilità segue due regole fondamentali: • principio della somma: la probabilità di più eventi mutuamente esclusivi si ricava come somma delle singole probabilità (si basa sul concetto di unione di insiemi); • principio del prodotto: la probabilità di eventi che si devono verificare tutti (in contemporaneità o in successione) si ottiene come prodotto delle singole probabilità (si basa sul concetto di intersezione di insiemi). Occorre inoltre distinguere tra: • probabilità indipendenti: il risultato di un evento non coinvolge il risultato di un altro evento (gli eventi sono tra loro indipendenti); • probabilità condizionate: il risultato di un evento modifica lo spazio campione dei risultati e quindi la probabilità di successo di altri eventi (gli eventi sono tra loro dipendenti). Il principio del prodotto permette anche di verificare se due eventi siano tra loro indipendenti. Distribuzioni di probabilità L’insieme delle probabilità di tutti i possibili risultati di un evento composto, basato sulle ripetizioni (o prove) indipendenti di un evento semplice, rappresenta una distribuzione di probabilità. Le principali distribuzioni sono: • per variabili casuali discrete: – distribuzione binomiale. In questo caso, un singolo evento può avere solo due risposte (successo/insuccesso, sì/no, sano/malato). Tale distribuzione è definita dalla probabilità di successo del singolo evento semplice e dal numero di prove effettuate; essa tende a diventare simmetrica all’aumentare del numero delle prove; – distribuzione di Poisson. Consiste in una semplificazione della binomiale quando la probabilità di successo dell’evento semplice è molto bassa e il numero di prove elevato. È sufficiente la media per definirla; Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera • per variabili casuali continue: – distribuzione gaussiana. Si tratta di un caso limite della binomiale, che per un numero teoricamente infinito di prove diventa continua. Di elezione per molte variabili biologiche quantitative, è definita da media e deviazione standard (o varianza); la distribuzione presenta una forma a campana simmetrica intorno alla media con media, moda e mediana coincidenti. Permette di stabilire la probabilità di riscontrare valori entro un determinato intervallo, ma i calcoli risultano complessi; – distribuzione z (gaussiana standardizzata). Qualsiasi gaussiana può essere convertita, mediante una semplice trasformazione di variabile, in un’unica distribuzione adimensionale con media zero e deviazione standard (e varianza) uno. Di questa distribuzione esistono tabelle predisposte che permettono, con semplici calcoli, di stabilire la probabilità di osservare casualmente valori entro un intervallo prescelto. In particolare, si considerano due intervalli importanti sotto l’aspetto statistico: il 95% dei valori della distribuzione sono compresi tra 1.96z e 1.96z, e il 99% tra 2,58z e 2,58z. ESERCIZI 1. Sotto l’aspetto probabilistico, come si possono definire gli eventi “sano” e “malato”? 2. Due eventi sono indipendenti quando si escludono a vicenda. Vero? 3. Gli eventi “sesso” e “gruppo sanguigno 0” sono eventi indipendenti. Vero o falso? 4. In un’indagine tra il personale sanitario, i dipendenti di sesso femminile sono stati classificati secondo lo stato civile (C coniugata e N non coniugata, separata, vedova) e il titolo di studio (0 licenza media inferiore, 1 licenza media superiore, 2 diploma professionale, 3 laurea, 4 laurea e specializzazione). Definire lo spazio campione per la scelta a caso di una dipendente tra: a) tutti i soggetti di sesso femminile; b) tutte le dipendenti non coniugate; c) tutte le dipendenti almeno laureate. 5. In un reparto ospedaliero, sono ricoverati 39 pazienti (R): 19 con la patologia M1, 23 con la patologia M2 e 8 con entrambe. Quanti sono i ricoverati per altre patologie e qual è la probabilità di selezionarne casualmente uno? 6. Una scatola contiene 2 palline bianche e 5 palline gialle. Si estrae a caso una pallina e, al suo posto, viene messa nella scatola una pallina dell’altro colore. Le palline vengono rimescolate e un’altra pallina viene estratta a caso. Calcolare la probabilità che essa sia bianca. 7. In una classe formata da 15 maschi e 9 femmine vengono scelti a caso 4 studenti per essere interrogati. Qual è la probabilità che i primi tre siano maschi e il quarto femmina? 8. Un’urna contiene 3 palline bianche, 4 nere e 13 gialle. Estraendone a caso 2 simultaneamente, calcolare la probabilità che siano entrambe dello stesso colore. 9. In tabella sono stati organizzati i dati riferiti a quante volte in un anno sono state ricoverate 6570 persone. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera N. ricoveri N. individui % 1 2 3 4 5 6 7 8 ≥9 1490 2170 1025 1150 500 160 58 10 7 22.7 33.0 15.6 17.5 7.6 2.4 0.9 0.2 0.1 Totale 6570 100 Calcolare la probabilità che un individuo scelto a caso sia stato ricoverato: a) 2 o 3 volte; b) un numero pari di volte; c) meno di 3 o almeno 7. 10. Dimostrare che i possibili risultati della somma ottenuta dal lancio di due dadi non sono equiprobabili. 11. Si lancia quattro volte di seguito una moneta. a) Qual è la probabilità di ottenere “testa” solamente al primo lancio? b) Qual è la probabilità di ottenere almeno tre “teste”? c) Come possiamo definire l’insieme delle probabilità dei possibili risultati del lancio? d) Quante “teste” ci possiamo aspettare? 12. Qual è la probabilità che un individuo, estratto a caso da una popolazione con peso medio 72 kg e deviazione standard 25 kg, pesi tra 60 e 80 kg ? 13. Per quali valori una distribuzione gaussiana raggiunge l’asse delle ascisse? 14. Usando la tabella della distribuzione gaussiana standardizzata, calcolare l’area inferiore a 2, superiore a 1 e compresa tra 3 e 3. Quale significato è possibile attribuire ai valori trovati? RISPOSTE 1. “Sano” e “malato” sono modalità della mutabile qualitativa “stato di salute”. Si tratta di eventi semplici, mutuamente esclusivi ed esaustivi perché insieme esauriscono lo spazio campione. 2. È falso. Non si deve confondere il concetto di “indipendenza” con quello di “mutua esclusività”. Due eventi sono “indipendenti” quando il verificarsi di uno non influenza la probabilità di verificarsi dell’altro: il risultato di un test diagnostico di un paziente non può influenzare il risultato del test di un altro paziente; sono “mutuamente esclusivi” quando un evento esclude la possibilità che si verifichi l’altro: il risultato positivo di un test esclude il risultato negativo (indipendentemente dalla correttezza della refertazione). 3. Vero. Si presume che il sesso non influenzi il gruppo sanguigno di un soggetto. Sesso e gruppo sanguigno 0 danno luogo a eventi composti con le intersezioni (M 0) e (F 0), mutuamente esclusive, come spazio campione. L’indipendenza tra le due variabili è verificata se P(0) P(M 0) e di conseguenza P (0) P (F |0), cioè se la percentuale generale di soggetti con gruppo 0 è la stessa di quella presentata dai soli maschi e dalle sole femmine. Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 4. La soluzione più semplice si ottiene facendo riferimento al prodotto degli insiemi “stato civile” e “titolo di studio” riferito alle sole femmine. Nel quadro che si ottiene, vengono evidenziati gli spazi campione da utilizzare per le scelte. Da notare che si tratta di situazioni condizionate che riducono lo spazio campione: infatti, a) è condizionata dal sesso, b) dallo stato civile e c) dal titolo di studio. a C C0 C1 Stato civile C2 C3 C4 N3 N4 2 3 Titolo di studio 4 c b N N0 N1 0 1 N2 5. Problemi di questo tipo sono in genere semplificati utilizzando una soluzione grafica (diagramma di Venn). Dopo aver definito nel diagramma tutti i possibili sottoinsiemi, si inseriscono i valori numerici corrispondenti, seguendo una successione logica determinata dalle informazioni che di volta in volta diventano attribuibili senza ambiguità. In questo caso, un dato iniziale sicuro è rappresentato dal sottoinsieme dei pazienti con entrambe le patologie M1 M2 8, un secondo si ricava dal fatto che gli individui affetti “solo” dalla patologia M1 devono essere M1\M2 19 8 11 e, analogamente, gli affetti solo da M2 risultano M2\M1 23 8 15. La rappresentazione completa del diagramma di Venn è: Ω = R = 39 M1 = 19 M1\ M2 = 11 M2 = 23 M2 \ M1 = 15 M 1 ∩ M2 = 8 M1 ∪ M2 = 5 Si perviene alla risposta al primo quesito: M1 M 2 R(M1 M2) 39 (11 8 15) 5. Dal momento che una probabilità è assimilabile al successo, al verificarsi cioè dell’evento considerato, rispetto a tutti i risultati possibili: M1 M 2 5 P M M 2 0.128 → 12.8% 1 39 Il procedimento di calcolo appare utile soprattutto in riferimento a situazioni più complesse. 2 5 6. Alla prima estrazione, le probabilità di scelta sono P(B1) e P(G1) . Per la seconda estrazione, 7 7 viene modificato lo spazio campione, quindi la seconda è condizionata dalla prima: se la prima volta è stata estratta una pallina bianca, lo spazio campione sarà diventato di una bianca e sei gialle, quindi: 1 P(B2 B1) . Nel caso di una prima estrazione gialla, il nuovo spazio campione sarà composto da tre 7 Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 3 bianche e quattro gialle, e di conseguenza P(B2 G1) . Poiché estrarre alla prima una bianca o una 7 gialla sono eventi mutuamente esclusivi e interessa la loro unione, si applica il principio della somma. La probabilità complessiva di estrarre una pallina bianca alla seconda estrazione sarà quindi: P(B2) P(B1 B2) P(G1 B2) P(B1) · P(B2 B1) P(G1) · P(B2 G1) 2 1 5 3 2 15 17 · · 0.3469 → 34.7%. 7 7 7 7 49 49 49 15 3 9 7. Le probabilità di partenza sono: P(M) e P(F) ; le successive sono invece condizio24 8 24 nate dal fatto che uno studente già interrogato non lo sarà una seconda volta nella stessa giornata, quindi viene modificato lo spazio campione. La successione obbligata delle scelte prevede una intersezione di risultati, per cui occorre applicare il principio del prodotto: P(M1 M2 M3 F4) P(M1) · P(M2 M1) · P(M3 M2 M1) · P(F4 M3 M2 M1) 15 14 13 9 · · · 9.6% 24 23 22 21 3 4 8. Lo spazio campione è costituito da 20 palline e le probabilità iniziali sono P(B) , P(N) , 20 20 13 P (G) . 20 L’estrazione di una seconda pallina determina una variazione dello spazio campione (simultaneità non significa che viene rimessa nell’urna la prima pallina). P(2 B 2N 2G) P(2B) P(2N) P(2G) P(B1) · P(B2 B1) P (N1) · P(N2 N1) P(G1) · P(G2 G1) 3 2 4 3 13 12 174 · · · 0.4579 → 45.8%. 20 19 20 19 20 19 380 9. Le percentuali della tabella vengono assimilate a probabilità: a) P(2 3) P(2) P (3) 0.330 0.156 0.486 → 48.6% b) P(2 4 6 8) P(2) P (4) P (6) P(8) 0.330 0.175 0.024 0.002 0.531 → 53.1% c) P(< 3 7) P(1)P(2)P(7) P(8) P(9) 0.2270.3300.0090.002 0.001 0.569 → 56.9% Per non introdurre errori di arrotondamento, i calcoli si potevano fare partendo dalle frequenze assolute. Per la risposta c) il valore infatti risulta, più correttamente: 1490 2170 58 10 7 P(< 3 7) P(1) P(2) P (7) P(8) P(9) → 56.8%. 6570 Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera 1° dado 10. Per definire lo spazio campione dei risultati, si può ricorrere a un prodotto di insiemi: 6 7 8 9 10 11 12 5 6 7 8 9 10 11 4 5 6 7 8 9 10 3 4 5 6 7 8 9 2 3 4 5 6 7 8 1 2 3 4 5 6 7 1 2 3 4 2° dado 5 6 1 2 6 1 Da cui risulta che: P(2) , P (3) , …, P(7) , …, P(12) . I risultati sono mutuamente 36 36 36 36 esclusivi ed esaustivi, ma non equiprobabili. 1 11. a) P(T) P(T) , 2 1 1 1 1 1 quindi P (T1 T 2T 3T 4) P(T1 T2 T 3 T 4) P(T1 ) · P(T2) · P(T 3) · P(T 4) · · · . 2 2 2 2 16 b) P (almeno 3T) P(3T o 4T) P(3T 4T) P(3T ) P(4T ). Si può verificare empiricamente (non avendo conoscenze del calcolo combinatorio) che, nei quattro lanci, tre “teste” si possono ottenere in quattro modi diversi (T1T2T3 T, TT T T 4 T1T2 3 4, T1T 2 3T4 eT 1 2T3T4) e quattro “teste” in 1 1 5 un modo solo, per cui P(3T 4T) P(3T ) P(4T ) 4 · → 31.25%. 16 16 16 c) Si tratta di una distribuzione di probabilità per dati qualitativi dicotomici: è una distribuzione binomiale. 1 d) Il risultato atteso di “teste” è la media della distribuzione x Np 4 · 2, alla quale si associa una 2 variabilità s N p q 1 1 4 · · 1. 2 2 12. La variabile è quantitativa e continua, per cui si fa riferimento alla distribuzione gaussiana standardizzata. Occorre calcolare la porzione di area compresa tra 60 e 80 kg ai cui valori corrispondono rispettivamen(60 72) kg (80 72) kg ti i valori z60 0.48 e z80 0.32. Un grafico della gaussiana con evi25 kg 25 kg denziata la porzione di area che interessa favorisce i calcoli successivi, evitando errori. Facendo riferimento alla tabella della distribuzione z, si rileva che la probabilità esterna a z 0.48 (nell’uso della ta- Copyright © 2007 - The McGraw-Hill Companies s.r.l. Elementi di Statistica medica - Pasquale Bruno Lantieri, Domenico Risso, Giambattista Ravera bella si considera il valore assoluto) nelle due code è 0.631. L’area di interesse tra 0.48 e 0 risulta quin0.631 di 0.5 . Con analogo procedimento, si calcola la porzione di area tra 0 e 0.32 e, con la somma 2 delle due aree, si perviene alla probabilità richiesta: P(60 kg < peso < 80 kg) P(z60 < z < z80) P (0.48 < z < 0) P(0 < z < 0.32) 0.631 0.749 0.5 0.5 2 2 1 0.3155 0.3745 0.310 → 31.0%. Si poteva pervenire allo stesso risultato considerando P(z60 < z < z80) P(z >0.48) P(z >0.32) o, in alternativa, P(z60 < z < z80) P(z <0.32) P(z <0.48). 0.4 0.3 25 0.2 0.1 –28 –3 22 47 72 60 –4 –3 –2 –1 0 –0.48 97 122 147 172 kg 1 2 3 4 z 80 0.32 13. Non lo raggiunge mai. Allontanandosi dalla media, tende asintoticamente all’asse (si avvicina sempre di più senza arrivare a toccarlo). In questo modo, la curva comprende qualsiasi valore, anche infinitamente piccolo o grande, e quindi il 100% delle misure teoriche. 14. Per z 2, l’area nelle due code è 0.046; interessa solo la coda di sinistra, per cui si dimezza e diventa 0.023. Con analogo ragionamento, l’area superiore a 1 risulta 0.1585. L’area esterna a z 3 (in valore assoluto e quindi nelle due code) è 0.003; la porzione di area interna risulta 1 0.003 0.997. I valori trovati corrispondono alle probabilità di riscontrare casualmente una misura entro o oltre gli intervalli desiderati. Si possono riferire a misure espresse con qualsiasi scala quantitativa purché seguano una distribuzione gaussiana. Possiamo dire che la probabilità di osservare una misura inferiore a µ 2σ è il 2.3%, superiore a µ σ è circa il 16%, compresa tra µ 3σ e µ 3σ risulta il 99.7%. Copyright © 2007 - The McGraw-Hill Companies s.r.l.