ORDINALI E NOMINALI Statistica5 – 5/10/15
E
LA PROBABILITÀ
Le “misure” vengono “descritte” dalla distribuzione normale
I dati ordinali e quelli nominali
come possono essere descritti?
Possiamo raggrupparli così che si approssimino alla
distribuzione normale oppure come possiamo rappresentarli?
Per rappresentarli è necessario ragionare in questo
modo: Un campo può essere di grano o non essere di
grano e, analogamente, in una corsa un corridore può
arrivare primo o non arrivare primo.
La distribuzione di tale tipo di dati come può essere
rappresentata?
N.B. Anche per le “misure” possiamo ragionare in termini di un animale che pesa X e quindi non pesa
Y! Semplicemente in questo modo perdiamo le maggiori informazioni che sono contenute nella misura
1
(il peso del singolo animale) per cui tale modo di ragionare non si applica alle misure perché
meno
efficiente dell'utilizzo della distribuzione normale.
LA PROBABILITÀ
La probabilità di un
evento è la frequenza
relativa con cui l’evento
si verifica in una lunga
serie di prove (infinite) in
condizioni simili.
3
ESAMINIAMO ORA DEI DATI NON CONTINUI
Cioè
Variabili che hanno solo due possibili risultati
Se si realizza A non si realizza B
o meglio
Se si realizza A non si realizza non A
N.B.:
A e non A si escludono a vicenda.
Es. La classica moneta lanciata e ripresa “testa o croce”
4
La PROBABILITÀ MATEMATICA di un evento è il rapporto
fra il numero dei casi favorevoli al suo verificarsi ed il
numero dei casi possibili.
testa
1
osservazioni di un evento
P=
-------------- = -P=
----------------------------------------testa + croce 2
numero totale di osservazioni
La probabilità di un evento coincide con la
frequenza relativa con cui si verifica quell’evento.
Le frequenze possono essere:
• Assolute fi = numero di volte in cui si ripete lo stesso
evento (il numeratore della precedente formula);
•Relative fi/n = proporzione della frequenza assoluta
rispetto al totale (assume lo stesso valore di P ).
5
Il NUMERO ATTESO è la previsione del numero delle
volte in cui si verificherà quel dato evento su N
osservazioni.
E = P*N
Es.
esaminando 500 cani di razza Labrador Retriver si rileva che 200
presentano 2 capezzoli soprannumerari (12 invece di 10).
Assumendo che questa sia la mia popolazione di Labrador:
• La frequenza assoluta dei miei Labrador con capezzoli
soprannumerari è: f = 200
• La frequenza relativa (probabilità che, sorteggiando un labrador
a caso nella mia popolazione, questo presenti i capezzoli
soprannumerari) è: P(f/n) = 200/500 = 0,4 (= 40%).
• Se prendo 5 Labrador da una popolazione infinita con P(f/n) =
0,4mi aspetto di trovarne E = (0,4*5) = 2 con capezzoli
soprannumerari.
6
Eventi mutuamente esclusivi: quando il manifestarsi
dell’uno annulla la probabilità che si verifichino gli altri (si
escludono, cioè, reciprocamente).
La probabilità che si verifichino due o più eventi
mutuamente esclusivi è data dalla somma delle probabilità
dei singoli eventi:
N.B.
la
probabilità
può essere
diversa per
ciascun
evento
P(A o B o C) = P(A) + P(B) + P(C)
La somma di tutti i possibili eventi
mutuamente esclusivi è pari a 1.
esempio
della
statistica
il lancio di un dado: ciascuna faccia P = 1/6
Es.
nei bovini di razza Shorthorn la probabilità di estrarre:
• un soggetto rosso è pari a 0,64;
• un soggetto roano è pari a 0,32;
1-0,32=0,68
• un soggetto bianco è pari a 0,04.
La probabilità di estrarre un soggetto che non sia roano
(cioè sia rosso o bianco) è:
0,64+0,04=0,68 7
Eventi indipendenti: quando il verificarsi dell’uno non
influisce sulle probabilità del verificarsi degli altri.
La probabilità che si verifichino simultaneamente N
eventi indipendenti è data dal prodotto delle probabilità
dei singoli eventi:
P(A e B) = P(A) x P(B)
L’esempio della statistica classica è il lancio di 2 dadi
Es.
Ammesso che nello Shorthorn il colore del mantello sia
indipendente dal sesso e che la probabilità che nasca un
maschio o una femmina è: P(m) = 0,5 e
P(f) = 0,5
La probabilità che una vacca partorisca un vitello maschio
e rosso è:
P(m)*P(RR)=0,5*0,64=0,32
Ricordando:
P (RR) = soggetto rosso è pari a 0,64
8
la funzione di frequenza di Bernoulli o
la distribuzione binomiale
Se:
• la probabilità dell’evento A è p
• la probabilità dell’evento non A è q (p+q=1)
• la probabilità che in n osservazioni l’evento A si verifichi s
volte e l’evento non A si verifichi r volte (s + r = n) è:
n!
P(s di A e r di non A )=
--------- * ps * qr
r!*s!
N.B.: A e non A sono eventi mutuamente esclusivi.
La parte n!/r! * s! indica le possibili combinazioni con
identica probabilità;
la parte ps x qr indica la probabilità di una di queste.
9
Es.
Nella razza bovina Angus il colore del mantello nero
domina sul rosso, supponiamo che:
f(B) = f(b) = 0,5; “mettendo insieme B e b”
quindi le possibilità sono 4: BB, Bb, bB, bb
Definendo p di f(neri) = f(BB) + f(Bb) = 1/4 + 2/4 = 0,25 +
0,50 (0,25+0,25) = 0,75 = p
E definendo q di f(rossi) = f(bb) = 1/4 = 0,25 = q.
La probabilità che, presi 3 bovini Angus, 1 sia nero e
2 siano rossi è: p*qq
Se n=3 tutte le possibili combinazioni sono:
(p+q) x (p+q) x (p+q) =
(p+q)3 =
= ppp + ppq + pqp + qpp + pqq + qpq + qqp + qqq
= p3 + 3p2q +3pq2 + q3
10
Calcolo delle frequenze: Le frequenze definite dalla distribuzione
binomiale in un campione di n osservazioni possono essere
calcolate effettuando l’espansione del binomio:
(p+q)
n
Se n=3 tutte le possibili combinazioni sono:
(p+q) x (p+q) x (p+q) =
(p+q)3 =
= ppp + ppq + pqp + qpp + pqq + qpq + qqp + qqq
= p3 +
n!
3p2q +
s
r
P=
--------p
q
*
*
3pq2 +
r!*s!
3
q
rivedi diapositiva 8 per significato simbologia
11
Se n=3 La probabilità che, presi 3 bovini Angus, 1
(=s) sia nero (p=0,75) e 2 (=r) siano rossi (q=0,25)
sarà quindi:
p
0.75
P=
q
0.25
pqq x n =
0.046875 3
0.140625
n!
--------- x ps x qr
r!*s!
12
n!
P(s di A e r di non A )= --------- x ps x qr
r!*s!
3 bovini Angus
p(neri)=0,75
3!
--------- x 0,75 1
2! x 1! 1 sia
x
q(rossi)= 0,25
0,25 2 =
nero
2 siano
rossi
=
3*2*1
--------- x 0,75 x 0,0625 = 0,140625
2*1
0 1 2 3 4 5 6 7
8
9
10
11
12
13
14
15
13
1 1 2 6 24 120 720 5.040 40.320 362.880 3.628.800 39.916.800 479.001.600 6.227.020.800 87.178.291.200 1.307.674.368.000
Es. Nel caso dei 3 bovini Angus (p = 0,75; q = 0,25) le possibili
combinazioni e le relative probabilità sono:
p3
p 2q
pq 2
q3
p s*q r
0,75 3
0,75 2*0,25
0,75*0,25 2
0,25 3
n!/s!*r!
1
3
3
1
P
0,421875
0,421875
0,140625
0,015625
1,000000
Ricorda!
0! = 1
In questo caso il numero
delle combinazioni può
essere facilmente calcolato
utilizzando il:
14
0
1
1
1
1
2
1
2
1
3
1
3
3
1
4
1
4
6
4
1
5
1
5
10
10
5
1
6
1
6
15
20
15
6
1
7
1
7
21
35
35
21
7
1
8
1
8
28
56
70
56
28
8
1
9
1
9
36
84
126
126
84
36
9
1
10
1
10
45
120
210
252
210
120
45
10
1
11
1
11
55
165
330
462
462
330
165
55
11
1
12
1
12
66
220
495
792
924
792
495
220
66
12
1
13
1
13
78
286
715
1287
1716
1716
1287
715
286
78
13
1
14
1
14
91
364
1001
2002
3003
3432
3003
2002
1001
364
91
14
1
15
1
15
105
455
1365
3003
5005
6435
6435
5005
3003
1365
455
105
15
1
16
1
16
120
560
1820
4368
8008
11440
12870
11440
8008
4368
1820
560
120
16
1
N
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
15
Es. Se un cane partorisce 4 cuccioli il loro sesso sarà
definito dalle seguenti probabilità (p = 0,5; q = 0,5):
Combinazione
4 maschi
3 maschi 1 femmina
2 maschi 2 femmine
1 maschio 3 femmine
4 femmine
p4
p 3q
p2q 2
q3p
q4
p s*q r
0,5 4
0,5 3*0,5
0,5 2*0,5 2
0,5*0,5 3
0,5 4
n!/s!*r!
1
4
6
4
1
P
0,0625
0,2500
0,3750
0,2500
0,0625
1,0000
Es.
qual’è la probabilità di avere almeno un maschio?
p = 0,0625+ 0,2500+0,3750+0,2500 = 1-0,0625=0,9375
16
La distribuzione binomiale è tanto più
asimmetrica quanto più i valori di p e q
sono lontani da p=q=0,5.
nell’esempio del colore con: p=0,75 e q=0,25
0,5000
0,4000
0,3000
0,2000
0,1000
0,0000
3 neri
2 neri 1
rosso
1 nero 2
rossi
3 rossi
17
Nel caso del sesso dei cani
p=q=0,5
la distribuzione è simmetrica
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
4 maschi
3 maschi 1
femmina
2 maschi 2
femmine
1 maschio 3
femmine
4 femmine
18
0,5000
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
0,4000
0,3000
0,2000
0,1000
0,0000
4 maschi
3 maschi 1
femmina
2 maschi 2
femmine
1 maschio 3
femmine
4 femmine
Qual è l’evento che si
verifica
maggiormente
(cioè quale è la media in
una
distribuzione
binomiale)?
maschi
4
3
2
1
0
Somma =
P
0,0625
0,25
0,375
0,25
0,0625
1
P*n.maschi
0,25
0,75
0,75
0,25
0
2
3 neri
2 neri 1
rosso
1 nero 2
rossi
3 rossi
Qual è la dispersione dei
dati (cioè quale è la
deviazione standard in una
distribuzione binomiale)?
neri
3
2
1
0
P
0,421875
0,421875
0,140625
0,015625
P*n.neri
1,265625
0,84375
0,140625
0
Somma =
1
2,25
19
In
una
distribuzione
binomiale la media si
calcola come
In una distribuzione
binomiale la varianza si
calcola come
In una distribuzione
binomiale la deviazione
standard si calcola come
µ = np
σ = npq
2
σ = npq
Dove: n = dimensione campione;
p = proporzione attesa dell’evento;
q = proporzione attesa del “non evento”.
20
0,4000
0,3500
0,3000
0,2500
0,2000
0,1500
0,1000
0,0500
0,0000
4 cuccioli
4 maschi
p = 0,5
3 maschi 1
femmina
2 maschi 2
femmine
q = 0,5
1 maschio 3
femmine
4 femmine
µ = np = 4*0,5 = 2
2
σ = npq = 4*0,45*0,45 = 1
σ = npq =  4*0,5*0,5 = 1
21
0,5000
0,75 = p
0,25 = q
3 bovini
0,4000
0,3000
0,2000
0,1000
0,0000
3 neri
2 neri 1
rosso
1 nero 2
rossi
3 rossi
µ = np = 3*0,75 = 2,25
2
σ = npq = 3*0,75*0,25 = 0,5625
σ = npq =  3*0,75*0,5 = 0,75
22
Es. Nel caso dei bovini Angus il colore del mantello nero ha
una p = 0,75; il colore del mantello rosso ha una q = 0,25
supponiamo che:
osserviamo 15 vitelli neri ed 1 rosso,
La differenza riscontrata rispetto al valore atteso di 12
neri e 4 rossi (media)
media che probabilità aveva di verificarsi?
Combinazione
nero rosso
s
r
p *q
0,75
n!/(s!*r!)
0,25
P
23
Calcola
la
probabilità di
tutti gli eventi
oltre
quella
cercata
24
probabilità
cercata di 15
neri e 1 rosso
le probabilità di
tutti gli eventi
sono
state
calcolate ai fini
di esercizio
25
In statistica il limite del 5% viene
considerato come la soglia al di sotto
della quale l’ipotesi deve essere rifiutata,
pertanto, se il valore trovato è al di sotto
le differenze rilevate non sono più da
ritenere casuali, ma dovute ad un’ipotesi
non casuale, sono cioè SIGNIFICATIVE
il limite del 1% viene considerato
un’ipotesi non casuale ALTAMENTE
SIGNIFICATIVA.
26
Nel caso specifico, pertanto, la combinazione
osservata, pur essendo piuttosto rara (5,35%), non
consente di rifiutare l’ipotesi che era:
Nei nostri bovini Angus il colore del mantello nero ha p
= 0,75 ed il colore del mantello rosso ha una q = 0,25
Per dimostrare che il valore trovato differisce da quello
atteso dovrei aumentare il numero di osservazioni.
Cioè dovrei esaminare più dei 16 vitelli!
NON E’ POSSIBILE COMUNQUE DIMOSTRARE CHE IL
VALORE TROVATO E’ “UGUALE” A QUELLO ATTESO
TEORICO MA SOLO CHE TALE VALORE RICADE, O
MENO, NEL RANGE ATTESO (ACCETTATO) DI
VARIAZIONE (ERRORE BIOLOGICO).
27
Es. Se un cane partorisce 8 cuccioli, tutti maschi, posso
ipotizzare scientificamente l’esistenza di un ipotetico fattore
letale che causa la morte degli embrioni femminili o si tratta
semplicemente di una causa (che si poteva verificare)
probabile?
il sesso era definito dalle seguenti probabilità:
p = 0,5;
q = 0,5:
Tradotto in termini statistici l’ipotesi scientifica da testare è se è
vero che i maschi avevano una p = 0,5 e le femmine una q = 0,5.
Combinazione
maschio femmina
s
p *q
s
r
0,5 x 0,5
n!/(s!*r!)
P
r
28
Calcola (come
esercizio) la
probabilità di
tutti gli eventi
oltre
quella
cercata
29
Ricorda
0! = 1
Nel caso specifico la combinazione
osservata è di 0,39%, cioè ALTAMENTE
SIGNIFICATIVA perché si realizza in
meno di 4 parti su 1.000!
È lecito (e doveroso) ipotizzare un
fattore che ha fatto variare la
probabilità attesa (oltre l’accettabile)
0,30
0,25
0,20
0,15
0,10
0,05
0,00
0
8
1
7
2
6
3
5
4
4
5
3
6
2
30
7
1
8
0
Un test statistico non consente quindi di
provare
una
ipotesi
come
fatto
assolutamente
certo,
ma
verifica
semplicemente, su base probabilistica, in
che modo i dati si accordano all’ipotesi
biologica iniziale.
Sono i ricercatori che hanno definito dei
limiti UNIVERSALI ma ARBITRARI (P= 0,05
e 0,01, cioè 5% e 1%) oltre i quali i
fenomeni osservati non possono più
essere accettati come semplicemente
casuali!
31
DATI NON CONTINUI
SCONNESSE
NOMINALE
ORDINALE
Dati di misura
distribuzione
binomiale
Problema fattoriali
con “n” grandi
Distribuzione
normale
QUANTITATIVE
CONTINUE
NUMERICHE
32
Es. Se un cane partorisce 8 cuccioli, tutti maschi, posso ipotizzare
scientificamente l’esistenza di un ipotetico fattore che causa la
morte degli embrioni femminili o si tratta semplicemente di una
causa probabile?
il sesso era definito dalle seguenti probabilità:
p = 0,5;
q = 0,5: il calcolo corretto (vedi dia precedente) è
quindi: Combinazione
ps*qr
n!/(s!*r!)
P
maschi
8
femmine 0,5
0,5
0
0,00390625
1
0,003906
µ = np = 8*0,5 = 4
σ = npq = 8*0,5*0,5 =  2 = 1,41
0
-0,5
1
0,5
2
1,5
3
2,5
4
3,5
Per usare la distribuzione normale i
dati devono essere continui quindi
Pensiamo di “connettere” i cuccioli
5
4,5
6
5,5
6,5
DATI NON CONTINUI
SCONNESSI
Testiamo su 8 cuccioli, 0 femmine
Consideriamo il valore discreto 0 cuccioli come un
intervallo cioè 0= -0,5 e +0,5. In tal modo il numero dei
cuccioli risulta artificialmente “connesso e continuo”.
Testiamo anche su 8 cuccioli, 3 femmine (o 3 maschi)*
Consideriamo il valore discreto 3 cuccioli come un
intervallo cioè 3= 2,5-3,5. In tal modo il numero dei
cuccioli risulta artificialmente “connesso e continuo”.
*
Poiché
probabilità
identica
distribuzione
simmetrica
la
è
la
34è
da
Sapendo che
( X− μ)
z=
σ
µ=4
(2.5−4 )
=1, 064
1, 41
(3,5−4 )
=0, 355
1, 41
σ = 1,41
Vogliamo
conoscere
l’area compresa tra le
ordinate corrispondenti a
z= 1,06 e z= 0,36
0,3554 0,1406 =
0,2148
Da tabella Z
Da conteggio corretto:
Combinazione
ps*qr
maschi femmine 0,5
0,5
5
3
0.00390625
n!/(s!*r!)
P
56
0.218750
35
z= 0,36
z= 1,06
36
da
Sapendo che
( X− μ)
z=
σ
µ=4
(−0,5−4 )
=2, 48
1, 41
(0,5−4 )
=3, 19
1, 41
σ = 1,41
Vogliamo
conoscere
l’area compresa tra le
ordinate corrispondenti
a z= 3,19 e z= 2,48
Da tabella Z
0,4993 0,4934 =
0,0059
Da conteggio corretto:
s
r
Combinazione
p *q
maschi femmine 0,5
0,5
8
0
0,0039063
n!/(s!*r!)
P
1
0,003906
37
Z= 2,48
Z= 3,19
38
Testiamo anche su 8 cuccioli, 6 femmine (o 6 maschi)*
da
( X− μ)
z=
σ
Vogliamo
conoscere
l’area compresa tra le
ordinate corrispondenti a
z= 1,77 e z= 1,06
Da tabella Z
(6.5−4)
=1,773
1, 41
(5,5−4 )
=1,064
1, 41
0,4616
0,3554
0,1062
39
Z= 1,06
Z= 1,77
40
Molte distribuzioni non normali possono essere “adattate”
(approssimate) con una distribuzione normale
I “fattoriali con Numerosità
minima
del
n > 20 diventano campione di solito più di 20-30
ingestibili!
8 cuccioli
I valori trovati sono vicini ai valori esatti ma la
differenza è ancora eccessiva e non ancora accettabile
8
>20-30
41
Quando “n” è maggiore di 20 la distribuzione
binomiale (non normale) può e deve essere
analizzata come se fosse una distribuzione
normale.
I risultati che si ottengono non sono esatti ma
l'approssimazione dei risultati che si ottengono è, ai
fini biologici, accettabile e comunque paragonabile
alla approssimazione dovuta agli strumenti di
calcolo utilizzati per operare su fattoriali maggiori
di 20.