STATISTICA
a.a. 2002-2003
– DISTRIBUZIONE BINOMIALE (cenni)
– DISTRIBUZIONE NORMALE
– DISTRIBUZIONE DI POISSON (cenni)
PROBLEMA DELLE PROVE
RIPETUTE
– Vogliamo conoscere la probabilità di
ottenere una sequenza di eventi favorevoli
A e contrari B, contenente k volte A e n-k
volte B, comunque disposti.
– La probabilità dell’evento A è p, quella di B
è q = 1-p.
– La probabilità di una specifica sequenza è
la probabilità composta dei k eventi A e
degli n-k eventi B:
PROBLEMA DELLE PROVE
RIPETUTE
p · p · p….(k volte) · q · q · q….(n-k volte)
ossia
P = pk q n-k
Calcolando su tutte le possibili sequenze ,
 n  k nk
P    p q
k 
PROBLEMA DELLE PROVE
RIPETUTE
– Quindi la probabilità di avere una qualsiasi
sequenza con k eventi A e n-k eventi B
sarà
 n  k nk
P    p q
k 
P probabilità di ottenere k eventi di
probabilità costante p su n prove
indipendenti.
DISTRIBUZIONE BINOMIALE
– I lanci successivi devono essere
indipendenti dai precedenti
– Le uscite devono essere completamente
casuali
– La probabilità di una uscita deve essere
costante nel tempo.
– Se poniamo in ascissa i valori di k e in
ordinata le probabilità P(k), rappresentiamo
graficamente la formula vista.
– Ad esempio assumiamo che la probabilità
singola p sia 0.3, e il numero di prove n sia
10.
DISTRIBUZIONE BINOMIALE
– Distribuzione delle probabilità P(k) relative
ai vari k considerati, quando p=0.3 e n=10.
DISTRIBUZIONE BINOMIALE
– La distribuzione binomiale permette di
calcolare, per numeri n piccoli, le
probabilità di avere un certo numero k di
successi nelle n prove.
– Se abbiamo molte prove, n diventa molto
grande.
– Trovare le probabilità dei successi k
diventa difficile.
– Per alti n il problema non è di trovare la
probabilità connessa ad uno specifico
numero k di successi, ma di trovare ad
esempio la probabilità di trovare più o
meno di k successi.
DISTRIBUZIONE NORMALE
– Si ricorre allora alle distribuzioni
NORMALE ( GAUSSIANA) o di
Poisson, che valgono per n molto
grande.
– In questo caso lo scaloide della
distribuzione di probabilità binomiale,
ossia l’insieme dei rettangoli che
rappresentano le probabilità dei
singoli k, tende a diventare un’area
sottostante ad una linea continua.
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
• La forma della curva cui tende la
distribuzione al tendere di n all’infinito è
differente secondo il valore che p (e quindi q)
assume.
• Si danno due casi:
• Nel primo caso p e q non sono molto
differenti fra loro e quindi nessuno dei due
valori si scosta molto dal valore di probabilità
½. In questo caso al tendere di n all’infinito la
distribuzione tende alla curva teorica che si
chiama gaussiana.
DISTRIBUZIONE NORMALE
• Si intende di solito che una distribuzione di
probabilità è normale quando il prodotto n p è
maggiore di 5 (nel caso p>q).
• Nel secondo caso p è molto maggiore o
molto minore di q, in modo che ambedue si
discostano molto da probabilità ½.
• Se al tendere di n all’infinito il prodotto p n
rimane costante, la distribuzione tende alla
cosiddetta curva di Poisson.
DISTRIBUZIONE NORMALE
• Si parla di poissoniana quando il prodotto
n p << n.
• Una distribuzione binomiale è simmetrica
solo se n=p=1/2.
• Anche una distribuzione normale è in
generale asimmetrica, ma diventa simmetrica
al crescere di n. Per n infinito è perfettamente
simmetrica.
DISTRIBUZIONE NORMALE
• E’ sbagliato suddividere l’intervallo di
variazione in un numero piccolo di intervalli:
il diagramma risulta scarsamente informativo
e si discosta molto dalla normale.
• E’ anche sbagliato suddividerlo in troppi
intervalli. In questo caso l’informazione è
troppo dispersa e si possono trovare dei
buchi, ossia intervalli in cui la frequenza è
molto minore che in quelli adiacenti.
• Un numero ragionevole di classi di frequenza
può andare da un minimo di 16 ad un
massimo di 30.
DISTRIBUZIONE NORMALE
• Molte distribuzioni empiriche (ossia
distribuzioni di frequenza) sono
approssimativamente normali.
• Quando effettuiamo un campionamento e ne
diagrammiamo la distribuzione di frequenza,
se il numero di elementi del campione è
sufficientemente elevato e il numero di classi
non è troppo piccolo (almeno 10-15),
troveremo quasi sempre un campione
distribuito normalmente.
DISTRIBUZIONE NORMALE
• Se il campione è distribuito normalmente si
possono applicare le proprietà della curva
teorica gaussiana al campione rimanendo
entro un intervallo accettabile di errore (il
campione essendo finito non sarà mai
perfettamente normale).
• Data una grandezza x distribuita
normalmente con media m e deviazione
standard s, l’equazione della curva normale
è
DISTRIBUZIONE NORMALE
1
f(x) 
e
s 2
1/2(
x -m
s
)2
• f(x) non dà la probabilità associata ad x,
bensì la densità di probabilità. Per ottenere la
probabilità associata ad un evento relativo ad
una distribuzione normale occorre integrare
su un intervallo appropriato.
DISTRIBUZIONE NORMALE
• Ad esempio la probabilità che x sia
minore di x0 sarà
P( x  x0 ) 
x0


f(x) 
x0


1
1/2(xμ) 2 /σ 2
e
dx
σ 2π
DISTRIBUZIONE NORMALE
• Ad esempio la probabilità che x sia
compreso fra due valori x1 e x2 sarà
P( x1  x  x2 ) 
x2

x1
f(x) 
x2

x1
1
1/2(xμ) 2 /σ 2
e
dx
σ 2π
DISTRIBUZIONE NORMALE
• Sappiamo che l’area delimitata dalla curva e
dall’asse x vale 1. Quindi l’area sotto la curva
compresa fra le due ordinate x=a e x=b ,
dove a<b, rappresenta la probabilità che x
sia compreso fra a e b.
• Quando la variabile x viene espressa in unità
standard,
z= (x - m)/ s
L’equazione precedente viene sostituita dalla
sua FORMA STANDARDIZZATA
DISTRIBUZIONE NORMALE
2
1
1/2 z
f(z) 
e
2
e in tal caso diciamo che z è distribuita
normalmente con media zero e varianza uno.
Il grafico sarà simmetrico intorno allo zero.
DISTRIBUZIONE NORMALE
• L’uso delle tavole ci risparmierà la fatica di
risolvere gli integrali.
• Nel caso di approssimazione della
distribuzione binomiale a quella normale si
avrà
m=np
s=npq
x=k numero di successi su n prove
DISTRIBUZIONE NORMALE
• E quindi
f(k) 
1
2 npq
e
1/2(
k - np 2
)
npq
DISTRIBUZIONE NORMALE
• Rappresentando graficamente questa funzione
otteniamo la caratteristica curva a campana
simmetrica intorno alla media:
DISTRIBUZIONE NORMALE
• In corrispondenza di +s e –s la curva
presenta i suoi punti di flesso.
• Tracciando diversi diagrammi per diversi
valori di s ci accorgiamo che la curva è tanto
più appiattita quanto maggiore è la
deviazione standard.
DISTRIBUZIONE NORMALE
• Una proprietà fondamentale della gaussiana
è la seguente:
• La probabilità che uno scarto dalla media sia
maggiore di un certo valore è inversamente
proporzionale al rapporto fra questo valore e
la deviazione standard.
• Quindi esiste una probabilità definita e uguale
per tutte le curve normali che un certo scarto
sia inferiore a una (2, 3) deviazione standard.
• Tale probabilità è equivalente all’area
tratteggiata in figura:
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
DISTRIBUZIONE NORMALE
• Probabilità che un valore cada casualmente
entro alcune deviazioni standard:
•
•
•
•
•
•
Entro 1.0 d.s. dalla media = 68.26%
Entro 1.96 d.s. dalla media = 95.00%
Entro 2.0 d.s. dalla media = 95.44%
Entro 2.575 d.s. dalla media = 99.00%
Entro 3.0 d.s. dalla media = 99.73%
Entro 3.29 d.s. dalla media = 99.90%
DISTRIBUZIONE NORMALE
• Ossia il 95% delle osservazioni cade entro
1.96 d.s., ed entro 3 d.s. sono comprese
pressochè tutte le osservazioni.
DISTRIBUZIONE DI
POISSON
• La distribuzione binomiale tende alla
poissoniana quando la probabilità dell’evento
p è molto piccola con n (prove) molto grande.
• La poissoniana è una distribuzione discreta,
con la caratteristica che la media teorica
(valore atteso) è uguale alla varianza:
m = s2 = n p
DISTRIBUZIONE DI
POISSON
• Quindi la funzione che rappresenta questa
distribuzione è
μ
μ
P
e
k!
k
• dove P è la probabilità che il valor medio si
presenti k volte in n prove (con n molto
grande).
DISTRIBUZIONE DI
POISSON
• Questo tipo di distribuzione di frequenze
(eventi che si verificano con frequenza molto
bassa in uno spazio o in un tempo molto
grande) si presenta in natura in alcuni casi,
ad es.:
• Numero di microorganismi in una certa
superficie o volume
• Decadimento di sostanze radioattive
• Insorgenza di antibioticoresistenza in una
popolazione batterica
• Numero di morti per una malattia non
frequente in una grande popolazione.
DISTRIBUZIONE DI
POISSON
• Es. numero di morti dovute a calcio di cavallo
nei reggimenti di cavalleria prussiani (studio
statistico di Von Bortkiewicz):
N. morti /reggimento/anno
0
1
2
3
1
n. regg/anno
109
65
22
3
1