ORDINALI E NOMINALI Statistica5 – 5/10/15 E LA PROBABILITÀ Le “misure” vengono “descritte” dalla distribuzione normale I dati ordinali e quelli nominali come possono essere descritti? Possiamo raggrupparli così che si approssimino alla distribuzione normale oppure come possiamo rappresentarli? Per rappresentarli è necessario ragionare in questo modo: Un campo può essere di grano o non essere di grano e, analogamente, in una corsa un corridore può arrivare primo o non arrivare primo. La distribuzione di tale tipo di dati come può essere rappresentata? N.B. Anche per le “misure” possiamo ragionare in termini di un animale che pesa X e quindi non pesa Y! Semplicemente in questo modo perdiamo le maggiori informazioni che sono contenute nella misura 1 (il peso del singolo animale) per cui tale modo di ragionare non si applica alle misure perché meno efficiente dell'utilizzo della distribuzione normale. LA PROBABILITÀ La probabilità di un evento è la frequenza relativa con cui l’evento si verifica in una lunga serie di prove (infinite) in condizioni simili. 3 ESAMINIAMO ORA DEI DATI NON CONTINUI Cioè Variabili che hanno solo due possibili risultati Se si realizza A non si realizza B o meglio Se si realizza A non si realizza non A N.B.: A e non A si escludono a vicenda. Es. La classica moneta lanciata e ripresa “testa o croce” 4 La PROBABILITÀ MATEMATICA di un evento è il rapporto fra il numero dei casi favorevoli al suo verificarsi ed il numero dei casi possibili. testa 1 osservazioni di un evento P= -------------- = -P= ----------------------------------------testa + croce 2 numero totale di osservazioni La probabilità di un evento coincide con la frequenza relativa con cui si verifica quell’evento. Le frequenze possono essere: • Assolute fi = numero di volte in cui si ripete lo stesso evento (il numeratore della precedente formula); •Relative fi/n = proporzione della frequenza assoluta rispetto al totale (assume lo stesso valore di P ). 5 Il NUMERO ATTESO è la previsione del numero delle volte in cui si verificherà quel dato evento su N osservazioni. E = P*N Es. esaminando 500 cani di razza Labrador Retriver si rileva che 200 presentano 2 capezzoli soprannumerari (12 invece di 10). Assumendo che questa sia la mia popolazione di Labrador: • La frequenza assoluta dei miei Labrador con capezzoli soprannumerari è: f = 200 • La frequenza relativa (probabilità che, sorteggiando un labrador a caso nella mia popolazione, questo presenti i capezzoli soprannumerari) è: P(f/n) = 200/500 = 0,4 (= 40%). • Se prendo 5 Labrador da una popolazione infinita con P(f/n) = 0,4mi aspetto di trovarne E = (0,4*5) = 2 con capezzoli soprannumerari. 6 Eventi mutuamente esclusivi: quando il manifestarsi dell’uno annulla la probabilità che si verifichino gli altri (si escludono, cioè, reciprocamente). La probabilità che si verifichino due o più eventi mutuamente esclusivi è data dalla somma delle probabilità dei singoli eventi: N.B. la probabilità può essere diversa per ciascun evento P(A o B o C) = P(A) + P(B) + P(C) La somma di tutti i possibili eventi mutuamente esclusivi è pari a 1. esempio della statistica il lancio di un dado: ciascuna faccia P = 1/6 Es. nei bovini di razza Shorthorn la probabilità di estrarre: • un soggetto rosso è pari a 0,64; • un soggetto roano è pari a 0,32; 1-0,32=0,68 • un soggetto bianco è pari a 0,04. La probabilità di estrarre un soggetto che non sia roano (cioè sia rosso o bianco) è: 0,64+0,04=0,68 7 Eventi indipendenti: quando il verificarsi dell’uno non influisce sulle probabilità del verificarsi degli altri. La probabilità che si verifichino simultaneamente N eventi indipendenti è data dal prodotto delle probabilità dei singoli eventi: P(A e B) = P(A) x P(B) L’esempio della statistica classica è il lancio di 2 dadi Es. Ammesso che nello Shorthorn il colore del mantello sia indipendente dal sesso e che la probabilità che nasca un maschio o una femmina è: P(m) = 0,5 e P(f) = 0,5 La probabilità che una vacca partorisca un vitello maschio e rosso è: P(m)*P(RR)=0,5*0,64=0,32 Ricordando: P (RR) = soggetto rosso è pari a 0,64 8 la funzione di frequenza di Bernoulli o la distribuzione binomiale Se: • la probabilità dell’evento A è p • la probabilità dell’evento non A è q (p+q=1) • la probabilità che in n osservazioni l’evento A si verifichi s volte e l’evento non A si verifichi r volte (s + r = n) è: n! P(s di A e r di non A )= --------- * ps * qr r!*s! N.B.: A e non A sono eventi mutuamente esclusivi. La parte n!/r! * s! indica le possibili combinazioni con identica probabilità; la parte ps x qr indica la probabilità di una di queste. 9 Es. Nella razza bovina Angus il colore del mantello nero domina sul rosso, supponiamo che: f(B) = f(b) = 0,5; “mettendo insieme B e b” quindi le possibilità sono 4: BB, Bb, bB, bb Definendo p di f(neri) = f(BB) + f(Bb) = 1/4 + 2/4 = 0,25 + 0,50 (0,25+0,25) = 0,75 = p E definendo q di f(rossi) = f(bb) = 1/4 = 0,25 = q. La probabilità che, presi 3 bovini Angus, 1 sia nero e 2 siano rossi è: p*qq Se n=3 tutte le possibili combinazioni sono: (p+q) x (p+q) x (p+q) = (p+q)3 = = ppp + ppq + pqp + qpp + pqq + qpq + qqp + qqq = p3 + 3p2q +3pq2 + q3 10 Calcolo delle frequenze: Le frequenze definite dalla distribuzione binomiale in un campione di n osservazioni possono essere calcolate effettuando l’espansione del binomio: (p+q) n Se n=3 tutte le possibili combinazioni sono: (p+q) x (p+q) x (p+q) = (p+q)3 = = ppp + ppq + pqp + qpp + pqq + qpq + qqp + qqq = p3 + n! 3p2q + s r P= --------p q * * 3pq2 + r!*s! 3 q rivedi diapositiva 8 per significato simbologia 11 Se n=3 La probabilità che, presi 3 bovini Angus, 1 (=s) sia nero (p=0,75) e 2 (=r) siano rossi (q=0,25) sarà quindi: p 0.75 P= q 0.25 pqq x n = 0.046875 3 0.140625 n! --------- x ps x qr r!*s! 12 n! P(s di A e r di non A )= --------- x ps x qr r!*s! 3 bovini Angus p(neri)=0,75 3! --------- x 0,75 1 2! x 1! 1 sia x q(rossi)= 0,25 0,25 2 = nero 2 siano rossi = 3*2*1 --------- x 0,75 x 0,0625 = 0,140625 2*1 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 13 1 1 2 6 24 120 720 5.040 40.320 362.880 3.628.800 39.916.800 479.001.600 6.227.020.800 87.178.291.200 1.307.674.368.000 Es. Nel caso dei 3 bovini Angus (p = 0,75; q = 0,25) le possibili combinazioni e le relative probabilità sono: p3 p 2q pq 2 q3 p s*q r 0,75 3 0,75 2*0,25 0,75*0,25 2 0,25 3 n!/s!*r! 1 3 3 1 P 0,421875 0,421875 0,140625 0,015625 1,000000 Ricorda! 0! = 1 In questo caso il numero delle combinazioni può essere facilmente calcolato utilizzando il: 14 0 1 1 1 1 2 1 2 1 3 1 3 3 1 4 1 4 6 4 1 5 1 5 10 10 5 1 6 1 6 15 20 15 6 1 7 1 7 21 35 35 21 7 1 8 1 8 28 56 70 56 28 8 1 9 1 9 36 84 126 126 84 36 9 1 10 1 10 45 120 210 252 210 120 45 10 1 11 1 11 55 165 330 462 462 330 165 55 11 1 12 1 12 66 220 495 792 924 792 495 220 66 12 1 13 1 13 78 286 715 1287 1716 1716 1287 715 286 78 13 1 14 1 14 91 364 1001 2002 3003 3432 3003 2002 1001 364 91 14 1 15 1 15 105 455 1365 3003 5005 6435 6435 5005 3003 1365 455 105 15 1 16 1 16 120 560 1820 4368 8008 11440 12870 11440 8008 4368 1820 560 120 16 1 N 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 15 Es. Se un cane partorisce 4 cuccioli il loro sesso sarà definito dalle seguenti probabilità (p = 0,5; q = 0,5): Combinazione 4 maschi 3 maschi 1 femmina 2 maschi 2 femmine 1 maschio 3 femmine 4 femmine p4 p 3q p2q 2 q3p q4 p s*q r 0,5 4 0,5 3*0,5 0,5 2*0,5 2 0,5*0,5 3 0,5 4 n!/s!*r! 1 4 6 4 1 P 0,0625 0,2500 0,3750 0,2500 0,0625 1,0000 Es. qual’è la probabilità di avere almeno un maschio? p = 0,0625+ 0,2500+0,3750+0,2500 = 1-0,0625=0,9375 16 La distribuzione binomiale è tanto più asimmetrica quanto più i valori di p e q sono lontani da p=q=0,5. nell’esempio del colore con: p=0,75 e q=0,25 0,5000 0,4000 0,3000 0,2000 0,1000 0,0000 3 neri 2 neri 1 rosso 1 nero 2 rossi 3 rossi 17 Nel caso del sesso dei cani p=q=0,5 la distribuzione è simmetrica 0,4000 0,3500 0,3000 0,2500 0,2000 0,1500 0,1000 0,0500 0,0000 4 maschi 3 maschi 1 femmina 2 maschi 2 femmine 1 maschio 3 femmine 4 femmine 18 0,5000 0,4000 0,3500 0,3000 0,2500 0,2000 0,1500 0,1000 0,0500 0,0000 0,4000 0,3000 0,2000 0,1000 0,0000 4 maschi 3 maschi 1 femmina 2 maschi 2 femmine 1 maschio 3 femmine 4 femmine Qual è l’evento che si verifica maggiormente (cioè quale è la media in una distribuzione binomiale)? maschi 4 3 2 1 0 Somma = P 0,0625 0,25 0,375 0,25 0,0625 1 P*n.maschi 0,25 0,75 0,75 0,25 0 2 3 neri 2 neri 1 rosso 1 nero 2 rossi 3 rossi Qual è la dispersione dei dati (cioè quale è la deviazione standard in una distribuzione binomiale)? neri 3 2 1 0 P 0,421875 0,421875 0,140625 0,015625 P*n.neri 1,265625 0,84375 0,140625 0 Somma = 1 2,25 19 In una distribuzione binomiale la media si calcola come In una distribuzione binomiale la varianza si calcola come In una distribuzione binomiale la deviazione standard si calcola come µ = np σ = npq 2 σ = npq Dove: n = dimensione campione; p = proporzione attesa dell’evento; q = proporzione attesa del “non evento”. 20 0,4000 0,3500 0,3000 0,2500 0,2000 0,1500 0,1000 0,0500 0,0000 4 cuccioli 4 maschi p = 0,5 3 maschi 1 femmina 2 maschi 2 femmine q = 0,5 1 maschio 3 femmine 4 femmine µ = np = 4*0,5 = 2 2 σ = npq = 4*0,45*0,45 = 1 σ = npq = 4*0,5*0,5 = 1 21 0,5000 0,75 = p 0,25 = q 3 bovini 0,4000 0,3000 0,2000 0,1000 0,0000 3 neri 2 neri 1 rosso 1 nero 2 rossi 3 rossi µ = np = 3*0,75 = 2,25 2 σ = npq = 3*0,75*0,25 = 0,5625 σ = npq = 3*0,75*0,5 = 0,75 22 Es. Nel caso dei bovini Angus il colore del mantello nero ha una p = 0,75; il colore del mantello rosso ha una q = 0,25 supponiamo che: osserviamo 15 vitelli neri ed 1 rosso, La differenza riscontrata rispetto al valore atteso di 12 neri e 4 rossi (media) media che probabilità aveva di verificarsi? Combinazione nero rosso s r p *q 0,75 n!/(s!*r!) 0,25 P 23 Calcola la probabilità di tutti gli eventi oltre quella cercata 24 probabilità cercata di 15 neri e 1 rosso le probabilità di tutti gli eventi sono state calcolate ai fini di esercizio 25 In statistica il limite del 5% viene considerato come la soglia al di sotto della quale l’ipotesi deve essere rifiutata, pertanto, se il valore trovato è al di sotto le differenze rilevate non sono più da ritenere casuali, ma dovute ad un’ipotesi non casuale, sono cioè SIGNIFICATIVE il limite del 1% viene considerato un’ipotesi non casuale ALTAMENTE SIGNIFICATIVA. 26 Nel caso specifico, pertanto, la combinazione osservata, pur essendo piuttosto rara (5,35%), non consente di rifiutare l’ipotesi che era: Nei nostri bovini Angus il colore del mantello nero ha p = 0,75 ed il colore del mantello rosso ha una q = 0,25 Per dimostrare che il valore trovato differisce da quello atteso dovrei aumentare il numero di osservazioni. Cioè dovrei esaminare più dei 16 vitelli! NON E’ POSSIBILE COMUNQUE DIMOSTRARE CHE IL VALORE TROVATO E’ “UGUALE” A QUELLO ATTESO TEORICO MA SOLO CHE TALE VALORE RICADE, O MENO, NEL RANGE ATTESO (ACCETTATO) DI VARIAZIONE (ERRORE BIOLOGICO). 27 Es. Se un cane partorisce 8 cuccioli, tutti maschi, posso ipotizzare scientificamente l’esistenza di un ipotetico fattore letale che causa la morte degli embrioni femminili o si tratta semplicemente di una causa (che si poteva verificare) probabile? il sesso era definito dalle seguenti probabilità: p = 0,5; q = 0,5: Tradotto in termini statistici l’ipotesi scientifica da testare è se è vero che i maschi avevano una p = 0,5 e le femmine una q = 0,5. Combinazione maschio femmina s p *q s r 0,5 x 0,5 n!/(s!*r!) P r 28 Calcola (come esercizio) la probabilità di tutti gli eventi oltre quella cercata 29 Ricorda 0! = 1 Nel caso specifico la combinazione osservata è di 0,39%, cioè ALTAMENTE SIGNIFICATIVA perché si realizza in meno di 4 parti su 1.000! È lecito (e doveroso) ipotizzare un fattore che ha fatto variare la probabilità attesa (oltre l’accettabile) 0,30 0,25 0,20 0,15 0,10 0,05 0,00 0 8 1 7 2 6 3 5 4 4 5 3 6 2 30 7 1 8 0 Un test statistico non consente quindi di provare una ipotesi come fatto assolutamente certo, ma verifica semplicemente, su base probabilistica, in che modo i dati si accordano all’ipotesi biologica iniziale. Sono i ricercatori che hanno definito dei limiti UNIVERSALI ma ARBITRARI (P= 0,05 e 0,01, cioè 5% e 1%) oltre i quali i fenomeni osservati non possono più essere accettati come semplicemente casuali! 31 DATI NON CONTINUI SCONNESSE NOMINALE ORDINALE Dati di misura distribuzione binomiale Problema fattoriali con “n” grandi Distribuzione normale QUANTITATIVE CONTINUE NUMERICHE 32 Es. Se un cane partorisce 8 cuccioli, tutti maschi, posso ipotizzare scientificamente l’esistenza di un ipotetico fattore che causa la morte degli embrioni femminili o si tratta semplicemente di una causa probabile? il sesso era definito dalle seguenti probabilità: p = 0,5; q = 0,5: il calcolo corretto (vedi dia precedente) è quindi: Combinazione ps*qr n!/(s!*r!) P maschi 8 femmine 0,5 0,5 0 0,00390625 1 0,003906 µ = np = 8*0,5 = 4 σ = npq = 8*0,5*0,5 = 2 = 1,41 0 -0,5 1 0,5 2 1,5 3 2,5 4 3,5 Per usare la distribuzione normale i dati devono essere continui quindi Pensiamo di “connettere” i cuccioli 5 4,5 6 5,5 6,5 DATI NON CONTINUI SCONNESSI Testiamo su 8 cuccioli, 0 femmine Consideriamo il valore discreto 0 cuccioli come un intervallo cioè 0= -0,5 e +0,5. In tal modo il numero dei cuccioli risulta artificialmente “connesso e continuo”. Testiamo anche su 8 cuccioli, 3 femmine (o 3 maschi)* Consideriamo il valore discreto 3 cuccioli come un intervallo cioè 3= 2,5-3,5. In tal modo il numero dei cuccioli risulta artificialmente “connesso e continuo”. * Poiché probabilità identica distribuzione simmetrica la è la 34è da Sapendo che ( X− μ) z= σ µ=4 (2.5−4 ) =1, 064 1, 41 (3,5−4 ) =0, 355 1, 41 σ = 1,41 Vogliamo conoscere l’area compresa tra le ordinate corrispondenti a z= 1,06 e z= 0,36 0,3554 0,1406 = 0,2148 Da tabella Z Da conteggio corretto: Combinazione ps*qr maschi femmine 0,5 0,5 5 3 0.00390625 n!/(s!*r!) P 56 0.218750 35 z= 0,36 z= 1,06 36 da Sapendo che ( X− μ) z= σ µ=4 (−0,5−4 ) =2, 48 1, 41 (0,5−4 ) =3, 19 1, 41 σ = 1,41 Vogliamo conoscere l’area compresa tra le ordinate corrispondenti a z= 3,19 e z= 2,48 Da tabella Z 0,4993 0,4934 = 0,0059 Da conteggio corretto: s r Combinazione p *q maschi femmine 0,5 0,5 8 0 0,0039063 n!/(s!*r!) P 1 0,003906 37 Z= 2,48 Z= 3,19 38 Testiamo anche su 8 cuccioli, 6 femmine (o 6 maschi)* da ( X− μ) z= σ Vogliamo conoscere l’area compresa tra le ordinate corrispondenti a z= 1,77 e z= 1,06 Da tabella Z (6.5−4) =1,773 1, 41 (5,5−4 ) =1,064 1, 41 0,4616 0,3554 0,1062 39 Z= 1,06 Z= 1,77 40 Molte distribuzioni non normali possono essere “adattate” (approssimate) con una distribuzione normale I “fattoriali con Numerosità minima del n > 20 diventano campione di solito più di 20-30 ingestibili! 8 cuccioli I valori trovati sono vicini ai valori esatti ma la differenza è ancora eccessiva e non ancora accettabile 8 >20-30 41 Quando “n” è maggiore di 20 la distribuzione binomiale (non normale) può e deve essere analizzata come se fosse una distribuzione normale. I risultati che si ottengono non sono esatti ma l'approssimazione dei risultati che si ottengono è, ai fini biologici, accettabile e comunque paragonabile alla approssimazione dovuta agli strumenti di calcolo utilizzati per operare su fattoriali maggiori di 20.