Statistica, distribuzioni

CAPITOLO 3: MODELLI TEORICI DI DISTRIBUZIONI.
Si è già visto come da una distribuzione di frequenze si possa ottenere il. corrispondente diagramma
che si presenta con caratteristiche diverse secondo che il carattere sia discreto o continuo. Quando il
carattere è discreto si ha una successione di segmenti le cui altezze variano con una certa legge,
mentre se è continuo si ha una curva continua. Studiando molte distribuzioni di tipo discreto o
continuo, otteniamo andamenti diversi secondo il fenomeno considerato, ma se si tenta una
classificazione secondo il tipo di curva, si vede che è possibile individuare alcuni andamenti che si
verificano più di frequente. Quando inoltre si considera il diagramma relativo ad un
comportamento reale, si nota che spesso si avvicina al diagramma di una curva matematica
nota; è perciò molto utile assimilare
il comportamento reale a quello della
curva nota in modo da sfruttare le
proprietà della curva stessa.
curva teorica
---------- andamento osservato
_______
Dunque col nome di "modello teorico di una distribuzione di frequente" intendiamo una curva
matematica la quale goda della 'proprietà di adattarsi in modo soddisfacente alla distribuzione
osservata.
Presentiamo allora le principali distribuzioni di variabili casuali, indicando per ciascuna la funzione
di densità, la media, la varianza; distinguiamo i modelli relativi a caratteri discreti da quelli relativi
a caratteri continui, poiché presentano aspetti matematici di tipo diverso.
DISTRIBUZIONI DISCRETE.
Distribuzione uniforme.
Il caso più semplice di distribuzione discreta è quello della .distribuzione uniforme che si ottiene
quando la variabile xi assume gli n valori xi = 1,2, ..... ,n con frequenze relative date da: f i = 1/n con
i=1,2, ..... ,n.
'
Ovviamente è: f i  0 per ogni i e ∑i fi = 1
La media e la varianza sono:
n 1
n2 1

e 2 
2
12
E il diagramma corrispondente a questa distribuzione è:
Si osservi che la distribuzione risulta banalmente simmetrica.
Vediamo un esempio di distribuzioni di frequenze osservate che possono essere studiate con questo
modello teorico.
In una scuola, in un anno, si sono verificate 300 assenze così suddivise secondo il giorno della
settimana:
giorni
ni
L
56
Ma
47
Me
46
V
52
G
44
S
55
300
II modello teorico in questo caso può essere quello uniforme:
giorni
ni
L
50
Ma
50
Me
50
V
50
G
50
S
50
300
Scegliendo questo modello si fa l'ipotesi che le assenze si ripartiscano in modo uniforme nell'arco
della settimana, supponendo cioè che le variazioni siano dovute al caso.
Distribuzione binomiale o di Bernoulli.
Consideriamo una variabile discreta xi che assuma i valori 0,1,2, ..... ,k,...,n con distribuzione di
n
frequenza data da: f k     p k  q n k
con 0  p  1 e q  1  p .
k 
Si può verificare che f k  0 per ogni k e  f k  1 .
(1)
i
2
La media e la varianza sono:   n  p e   n  p  q .
1
La distribuzione è simmetrica solo se p  q  .
2
Il diagramma è:
Il fatto che risulti   n  p si può dimostrare per induzione. Se la prova da eseguirsi è una sola, la
v.c. X può assumere il valore 1 oppure il valore 0 a seconda che si verifichi l'evento A oppure il suo
contrario B; il .valore medio è allora: 1  p  0  q  p . Se le prove da eseguirsi sono n, la variabile
casuale X può essere riguardata come la somma di n variabili casuali uguali e indipendenti e quindi
si può concludere che: M  p  p  ...  p  n  p .
II valore medio n  p rappresenta il valore della variabile casuale X che corrisponde (se è intero)
o si approssima (se non è intero) all'esito che ha la massima probabilità di verificarsi.
La più tipica applicazione della binomiale si ha nell'ambito dello schema delle prove ripetute; dato un
evento E con probabilità p ed eseguite n prove indipendenti, la probabilità che E si verifichi k volte è
data dalla (1).
Esempio.
Un fenomeno che può essere studiato utilizzando una distribuzione di Bern oulli è quello
dell'analisi della produzione corretta o difettosa di un pezzo di serie, Facciamo l'ipotesi che la
probabilità dei pezzi difettosi (attribuibili a circostanze casuali connesse al funzionamento dei
macchinari) rimanga costante; ad esempio sia p = 0.01 e di conseguenza q = 0.99. Allora la
probabilità che su cento pezzi prodotti se ne abbiano k difettosi è data da:
100 
  0,01k  0,99100k
p k  
k


La probabilità calcolata è determinata dall'ipotesi che p sia costante per tutti i pezzi di una stessa
partita e dall'ipotesi dell'indipendenza dei singoli pezzi prodotti. Il valore di p, generalmente
sconosciuto, è a sua volta determinato con lo studio di diversi campioni.
Distribuzione di Poisson.
In molte applicazioni, relative a prove bernoulliane, il numero n degli esperimenti eseguiti è
grande e la probabilità dei successi molto piccola. In questo caso la distribuzione binomiale può
essere approssimata con la distribuzione di Poisson detta "legge degli eventi rari". La distribuzione
di Poisson è data da:
fk 
k  e  
k!
k  0,1,2,... e   0
Per la quale è    e  2  
Ed il relativo diagramma è:
Nelle applicazioni pratiche l'approssimazione della binomiale con una poissoniana è
accettabile per n  p  5 ed n  50 .
Esempio.
Il numero di incidenti stradali che avvengono giornalmente su una certa autostrada segue una
legge di Poisson con parametro   1 . Trovare la probabilità che in un giorno accadano almeno due
incidenti.
P(almeno 2) = P2 + P3 + P4 + … = 1 – P0 - P1 =
= 1
1  e 1 1  e 1

 1  2  0,3679  0,2642
0!
1!
Esempio.
Una partita di componenti elettronici contiene una percentuale dell'1 % di pezzi difettosi.
Trovare la probabilità che, estraendone a caso 100, se ne trovino 2 difettosi.
Si ha: n=100 e p=0,01; la probabilità esatta, calcolata con lo schema di Bernoulli. è:
2
100 
100  99  1 
1
98
99
  0,012  0,9998 
P2  

  0,99   0,99  0,1848
2
2
 100 
 2 
Poiché siamo nelle ipotesi richieste, possiamo anche utilizzare il modello di Poisson: infatti
n  p  1  5 ed n  50 ; posto   n  p  1 si ha:
P2 
12  e 1 1 1
  e  0,1839
2!
2
In questo modo abbiamo ottenuto con calcoli più semplici una buona approssimazione
probabilità richiesta.
DISTRIBUZIONI CONTINUE.
Distribuzione normale o di Gauss.
Questa distribuzione fu proposta da Gauss nel 1809 e da Laplace nel 1812 per la teoria degli errori.
Per un certo periodo di tempo si è ritenuto che essa potesse applicarsi a quasi tutti i fenomeni
naturali, fisici e biologici. Più recentemente si è riscontrato che questo non è possibile e la
stessa distribuzione normale è stata sottoposta ad un più attento esame; ad esempio è stata
ottenuta per la teoria degli errori una distribuzione più precisa, la "distribuzione
logaritmica-normale", della quale comunque noi non ci occuperemo. La distribuzione normale
gode dell'importante proprietà di essere l'analoga della binomiale nel caso continuo.
La funzione di densità della gaussiana è:
f x  
1
 2
e

 x   2
2 2
Si può dimostrare che f x   0 per ogni x e che

 f x dx  1

Questo integrale non è calcolabile direttamente, ma richiede il ricorso ad alcuni artifici.
Studiando la (1), si conclude che:
a) la curva è simmetrica rispetto alla retta di equazione x   ;
b)
ha un massimo per x   e tale massimo vale f   
1
 2
ed è perciò inversamente
proporzionale a  ;
e) mano a mano che x si allontana da  u la funzione decresce ed è: lim f  x   0
x  
d) studiando le derivate prime e seconde si ottiene che la normale presenta due flessi nei punti
di ascissa x     e x     ;
e) la media e la varianza della distribuzione sono date dai valori  e  2 ( questo giustifica l'uso
dei simboli  e  per indicare le costanti presenti nella f x  );
f) il parametro  oltre che la media è anche la mediana e la moda della distribuzione;
Supponendo fissati  e  , il diagramma della gaussiana è perciò:
Osserviamo ancora che l'equazione (1) al variare di  e  rappresenta una famiglia di curve che, se
varia solo il valore  , hanno la stessa forma e varia la posizione dell'asse di simmetria; se varia
solo  , le curve hanno lo stesso asse, ma sono più o meno appuntite.
La curva diventa tanto più appuntita quanto più il valore di  diminuisce. Se variano sia  . che  ,
la curva sposta il suo asse di simmetria e inoltre si fa più o meno appuntita.
La distribuzione normale è scomoda da usare in quanto contiene due parametri  e  che la
rendono difficile da tabulare. Questo inconveniente si elimina ricorrendo all'artificio della
standardizzazione ponendo z 
x

o ridotta" la cui funzione di densità è:
. Si ottiene così la "distribuzione normale standardizzata
f z  
1
2
e

z2
2
La distribuzione normale standardizzata ha naturalmente la stessa forma della normale completa, ma
non contenendo nessun parametro è data da una sola curva. Questa curva è caratterizzata dal fatto di
avere il massimo in corrispondenza all'origine degli assi (z=0 con valore 0.3989) e i due punti di flesso
nei punti di ascissa -1 e +1. Nelle applicazioni bisogna conoscere l'area sottesa alla curva e
compresa fra le ordinate innalzate in corrispondenza a due qualunque valori z1 e z 2 . Come già
detto, il calcolo dell'integrale è alquanto laborioso e per questo motivo è stata approntata una tavola
che dà direttamente l'area; questa tavola si riferisce alla normale standardizzata che, non
contenendo parametri, è molto facile da tabulare.