1 - Virgilio

DISTRIBUZIONI DI PROBABILITA’
liberamente modificato rispetto a: www.dti.unimi.it/pizzi/probppt/stat3.ppt
• DISTRIBUZIONE BINOMIALE (cenni)
• DISTRIBUZIONE NORMALE
• DISTRIBUZIONE DI POISSON (cenni)
PROBLEMA DELLE PROVE RIPETUTE
Vogliamo conoscere la probabilità di
ottenere una sequenza di eventi favorevoli
A e contrari B, contenente k volte A e n-k
volte B, comunque disposti.
• La probabilità dell’evento A è p, quella di B
è q = 1-p.
• La probabilità di una specifica sequenza è
la probabilità composta dei k eventi A e
degli n-k eventi B:
PROBLEMA DELLE PROVE RIPETUTE
p · p · p….(k volte) · q · q · q….(n-k volte)
ossia
P = pk q n-k
Calcolando su tutte le possibili sequenze ,
Si ottiene:
PROBLEMA DELLE PROVE RIPETUTE
• Quindi la probabilità di avere una qualsiasi
sequenza con k eventi A e n-k eventi B
sarà
n k nk

P
kpq
 
n
n!
dove :   =
 k  k!(n  k)!
dove P è la probabilità di ottenere k eventi, di
probabilità costante p, su n prove indipendenti.
DISTRIBUZIONE BINOMIALE
• I lanci successivi devono essere
indipendenti dai precedenti
• Le uscite devono essere completamente
casuali
• La probabilità di una uscita deve essere
costante nel tempo.
• Se poniamo in ascissa i valori di k e in
ordinata le probabilità P(k), rappresentiamo
graficamente la formula vista.
• Ad esempio assumiamo che la probabilità
singola p sia 0.3, e il numero di prove n sia
10.
DISTRIBUZIONE BINOMIALE
• Distribuzione delle probabilità P(k) relative ai
vari k considerati, quando p=0.3 e n=10.
DISTRIBUZIONE BINOMIALE
• La distribuzione binomiale permette di
calcolare, per numeri n piccoli (n < 30-35),
le probabilità di avere un certo numero k di
successi nelle n prove.
• Se abbiamo molte prove, n diventa molto
grande e trovare le probabilità dei k
successi diventa difficile.
• Per alti n il problema non è di trovare la
probabilità connessa ad uno specifico
numero k di successi, ma di trovare ad
esempio la probabilità di trovare più o
meno di k successi.
DISTRIBUZIONE NORMALE
• Si ricorre allora alle distribuzioni
NORMALE ( GAUSSIANA) o di POISSON,
che valgono per n molto grande (n> 30-50)
• In questo caso lo scaloide della
distribuzione di probabilità binomiale,
ossia l’insieme dei rettangoli che
rappresentano le probabilità dei singoli
k successi, tende a diventare un’area
sottostante ad una linea continua.
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
• La forma della curva cui tende la distribuzione al
tendere di n all’infinito è differente secondo il valore che
p (e quindi q) assume.
• Si danno due casi:
• Nel primo caso p e q non sono molto differenti fra loro e
quindi nessuno dei due valori si scosta molto dal valore
di probabilità ½, né è troppo vicino ai valori estremi 0
ed 1. In questo caso al tendere di n all’infinito la
distribuzione tende alla curva teorica che si chiama
gaussiana o curva normale.
• Si intende di solito che una distribuzione di probabilità
normale approssima bene una binomiale quando i
prodotti n•p ed n•q sono entrambi maggiori (=) di 5.
• Esempi: n = 500 p = 1/5 q = 4/5 n•p = 100 n•q = 400
n = 60 p = 1/4 q = 3/4 n•p = 15 n•q = 45
n = 30 p = 1/3 q = 2/3 n•p = 10 n•q = 20
DISTRIBUZIONE di POISSON
Nel secondo caso p è molto maggiore o molto minore di
q, in modo che ambedue si discostano molto dalla
probabilità ½ e si avvicinano molto ai valori estremi 0
ed 1.
• Se al tendere di n all’infinito il prodotto n•p rimane
costante, la distribuzione tende alla cosiddetta curva
di Poisson.
• Si parla di poissoniana quando il valor medio =,
rappresentato dal prodotto n•p è:
=n•p << n , n•p <= 10 , n>50, 
Esempi:
n = 500
p = 0,003
=n•p = 1,5
n = 200000 p = 0,00001 =n•p = 2
n = 800
p = 0,001
=n•p = 0,8
 << 500=22,36
 << 200000=447
 << 800=28,28
DISTRIBUZIONI DI PROBABILITA’
• Una distribuzione binomiale è di solito
asimmetrica ed è simmetrica solo se
q=p=1/2; anche una distribuzione
normale è in generale asimmetrica,
però diventano sempre più simmetriche
al crescere di n (sempre con n<=30).
• Per n = infinito la distribuzione normale
è perfettamente simmetrica.
CLASSI DI FREQUENZA
• E’ sbagliato suddividere l’intervallo di
variazione in un numero piccolo di intervalli:
il diagramma risulta scarsamente informativo
e si discosta molto dalla normale.
• E’ anche sbagliato suddividerlo in troppi
intervalli. In questo caso l’informazione è
troppo dispersa e si possono trovare dei
buchi, ossia intervalli in cui la frequenza è
molto minore che in quelli adiacenti.
• Un numero ragionevole di classi di frequenza
può andare da un minimo di 16 ad un
massimo di 30.
DISTRIBUZIONE NORMALE
• Molte distribuzioni empiriche (ossia distribuzioni di frequenza) sono approssimativamente
normali.
• Quando effettuiamo un campionamento e ne
diagrammiamo la distribuzione di frequenza,
se il numero di elementi del campione è
sufficientemente elevato e il numero di classi
non è troppo piccolo (almeno 10-15),
troveremo quasi sempre un campione
distribuito normalmente.
DISTRIBUZIONE NORMALE
• Se il campione è distribuito normalmente si
possono applicare le proprietà della curva
teorica gaussiana al campione rimanendo
entro un intervallo accettabile di errore (il
campione essendo finito non sarà mai
perfettamente normale).
• Data una grandezza x distribuita
normalmente con media  e deviazione
standard , l’equazione della curva normale
è:
DISTRIBUZIONE NORMALE
x
-2

1/2()
1
f(x)

e
2


• f(x) non dà la probabilità associata ad x,
bensì la densità di probabilità. Per ottenere la
probabilità associata ad un evento relativo ad
una distribuzione normale occorre integrare
su un intervallo appropriato.
DISTRIBUZIONE NORMALE
• Ad esempio la probabilità che x sia
minore di x0 sarà
x
0
x
0
2
2
1
1/2(x

μ)
/
σ
P
(
x

x
)

f(x)


e
d
0


σ
2
π




DISTRIBUZIONE NORMALE
• Ad esempio la probabilità che x sia
compreso fra due valori x1 e x2 sarà
x
2
x
2
2
2
1

1/2(x

μ)
/
σ
P
(
x

x

x
)

f(x)


e
d
1
2


σ
2
π
x
x
1
1
DISTRIBUZIONE NORMALE
• Sappiamo che l’area delimitata dalla curva e
dall’asse x vale 1. Quindi l’area sotto la curva
compresa fra le due ordinate x=a e x=b ,
dove a<b, rappresenta la probabilità che x
sia compreso fra a e b.
• Quando la variabile x viene espressa in unità
standard,
z = (x - )/ 
L’equazione precedente viene sostituita dalla
sua FORMA STANDARDIZZATA
DISTRIBUZIONE NORMALE
2
1 
1/2
z
f(z)

e
2

e in tal caso diciamo che z è distribuita
normalmente con media =0 e varianza =1.
Il grafico sarà simmetrico intorno allo zero.
DISTRIBUZIONE NORMALE
L’uso delle tavole ci risparmierà la fatica di risolvere gli
integrali.
• Nel caso di approssimazione della distribuzio-ne
binomiale a quella normale si avrà
 = n•p
 = n•p•q
x = k numero di successi su n prove
dove media, moda e mediana coincidono.
Esempio: Data la variabile Normale N(50, 82), qual è la probabilità
che essa sia compresa tra 30 e 60?
L’altezza media di un gruppo di 20.000 persone(), è di 170 cm ,
con varianza di 100. Qual è la probabilità che essa sia
compresa tra
155 e 180 cm? Quante persone sono alte almeno 180 cm?
DISTRIBUZIONE NORMALE
• E quindi
k
np
2

1/2(
)
npq
1
f(k)

e
2
npq
DISTRIBUZIONE NORMALE
• Rappresentando graficamente questa funzione
otteniamo la caratteristica curva a campana
simmetrica intorno alla media:
DISTRIBUZIONE NORMALE
• In corrispondenza di + e – la curva
presenta i suoi punti di flesso.
• Tracciando diversi diagrammi per diversi
valori di  ci accorgiamo che la curva è tanto
più appiattita quanto maggiore è la
deviazione standard.
DISTRIBUZIONE NORMALE
• Una proprietà fondamentale della gaussiana
è la seguente:
• La probabilità che uno scarto dalla media sia
maggiore di un certo valore è inversamente
proporzionale al rapporto fra questo valore e
la deviazione standard.
• Quindi esiste una probabilità definita e uguale
per tutte le curve normali che un certo scarto
sia inferiore a una (2, 3) deviazione standard.
• Tale probabilità è equivalente all’area
tratteggiata in figura:
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
• Probabilità che un valore cada casualmente entro
alcune deviazioni standard () rispetto alla media ():
• Entro 1.0 dev.st. dalla media = 68.26% (<x<)
• Entro 2.0 dev.st. dalla media = 95.44% (<x<)
• Entro 3.0 dev.st. dalla media = 99.73% (<x<)
Ossia il 68,26% delle osservazioni cade entro , il
95,44% delle osservazioni cade entro 2, ed entro 3
sono comprese pressoché tutte le osservazioni
DISTRIBUZIONE DI POISSON
• La distribuzione binomiale tende alla
poissoniana quando la probabilità dell’evento
p è molto piccola con n (prove) molto grande.
• La poissoniana è una distribuzione discreta,
con la caratteristica che la media teorica
(valore atteso ) è uguale alla varianza:
 =  =  = n p
DISTRIBUZIONE DI POISSON
• Quindi la funzione che rappresenta questa
distribuzione è

k
P
k!
e
• dove P è la probabilità che il valor medio si
presenti k volte in n prove (con n molto
grande).
DISTRIBUZIONE DI POISSON
o Legge degli Eventi Rari
• Questo tipo di distribuzione di frequenze (eventi che
si verificano con frequenza molto bassa in uno spazio
o in un tempo molto grande) si presenta in natura in
alcuni casi, ad es.:
• Numero di microorganismi in una certa superficie o
per unità di volume di un liquido
• Decadimento di sostanze radioattive(RutherfordPolonio) (numero di particelle emesse per unità di
tempo)
• Insorgenza di antibiotico-resistenza in una
popolazione batterica
Esempi di applicazione della
Distribuzione di Poisson
• Numero di morti per una malattia non frequente in
una grande popolazione.
• Studio delle file di attesa (numero di chiamate
telefoniche ad un centralino; numero di arrivi di
clienti ad un certo servizio: sportelli bancari o postali,
distributori di carburante, etc..;
• Numero di difetti dei prodotti lavorati
Una madre da il permesso alla figlia di andare a comprare una maglietta .
Il commesso prepara una file di 15 bellissime magliette
e la figlia le prova 1 ad 1 e con una probabilità 0.7 le
scarta perche non le piacciono, altrimenti le compra.
Qual e la probabilità che torni a casa con 6 magliette?
DISTRIBUZIONE DI POISSON
• Es. numero di morti dovute a calcio di cavallo
nei reggimenti di cavalleria prussiani (studio
statistico di Von Bortkiewicz):
N. morti /reggimento/anno
0
1
2
3
1
n. regg/anno
109
65
22
3
1
Nel 1898 Bortkiewicz pubblicò un libro sulla distribuzione di Poisson, intitolato La
Legge dei Piccoli Numeri. In questo libro per prima cosa egli osservò come gli eventi
con bassa frequenza in una grande popolazione tendano a seguire una distribuzione di
Poisson anche quando le probabilità degli eventi è variata. I dati da lui analizzati sono
relativi al numero di soldati uccisi accidentalmente a causa del calcio di un cavallo ogni
anno in 14 corpi di cavalleria su un periodo di 20 anni. Bortkiewicz ha illustrato come
tali numeri seguano una distribuzione di Poisson. Alcuni storici della matematica hanno
proposto che la distribuzione di Poisson dovesse chiamarsi in realtà Distribuzione di
Bortkiewicz. […]