Appunti

SCHEDA RIASSUNTIVA SU PARTICOLARI DISTRIBUZIONI DI PROBABILITA’
E LORO POTENZIALE UTILIZZO NELLA STATISTICA INFERENZIALE
Con riferimento a VARIABILI CASUALI DISCRETE, una particolare distribuzione di probabilità
nel discreto è la distribuzione BINOMIALE, che consente di risolvere problemi del tipo:
 qual è la probabilità di ottenere un certo numero x di palline rosse in n estrazioni (con
reimmissione) da un’urna contenete complessivamente palline rosse e gialle in proporzione
nota (quindi è nota la probabilità di estrazione di pallina rossa);
 qual è la probabilità di ottenere un certo numero x di teste in n lanci di una moneta (due i
possibili esiti di ciascun lancio Testa o Croce, con probabilità nota pari a 0.5);
 qual è la probabilità di estrarre un campione di n individui con x fumatori e (n-x) non
fumatori, supponendo nota la frequenza relativa di fumatori nel collettivo (che corrisponde
alla probabilità di estrarre casualmente un individuo fumatore);
 qual è la probabilità di trovare x pezzi difettosi in un lotto di n pezzi, supponendo di
conoscere la probabilità che, con riferimento ad un determinato processo produttivo, un
certo macchinario produca un pezzo difettoso.
La probabilità cercata risulta dalla seguente espressione
n
P( X  x)    p x (1  p) n  x
 x
dove X (variabile casuale numero di successi, vale a dire palline rosse, teste, individui fumatori o
pezzi difettosi) può assumere come possibili realizzazioni i valori 0, 1, 2, …, n. La distribuzione
di probabilità ottenibile (al variare dei valori di X) ha valore atteso e varianza dati da:
k
E ( X )   xi pi  np
i 1
k
Var ( X )  E ( X  E ( X )) 2   ( xi  np) 2 pi  np(1  p)
i 1
(si osservi che k, numero delle possibili realizzazioni, nel caso della binomiale è pari a n+1)
Elementi necessari per utilizzare la distribuzione binomiale:
1) nota la dimensione del campione (o il numero di prove o estrazioni da un’ urna) n;
2) nota la probabilità p del verificarsi della caratteristica di interesse (pallina rossa, testa,
abitudine al fumo, produzione di un pezzo difettoso);
3) indipendenza tra estrazioni o prove successive.
OSSERVAZIONE: in modo approssimato può essere utilizzata anche nel caso di prove (estrazioni)
non indipendenti, qualora n sia sufficientemente piccolo rispetto alla dimensione del collettivo N. In
questo caso l’errore che si compie è abbastanza piccolo (estrazione con reimmissione o senza
reimmissione tendono ad equivalersi).
Con riferimento a VARIABILI CASUALI CONTINUE, la principale distribuzione di probabilità
nel continuo è la distribuzione NORMALE (o di GAUSS), che consente di risolvere problemi del
tipo:
 qual è la probabilità di attendere ad uno sportello bancario un tempo compreso tra 5 e 7
minuti, supponendo di conoscere valore medio e variabilità del tempo di attesa;
 qual è la probabilità di selezionare da un collettivo statistico un individuo con un reddito
mensile compreso tra 1500 e 1600 euro, supponendo di conoscere valore medio e variabilità
del reddito nella collettività;

qual è la probabilità di trovare meno di 20 pezzi difettosi in un lotto di 1000 pezzi,
supponendo di conoscere la probabilità che, con riferimento ad un determinato processo
produttivo, un certo macchinario produca un pezzo difettoso (approssimazione normale
della variabile casuale binomiale, si veda OSSERVAZIONE seguente).
La probabilità cercata può essere calcolata nel seguente modo, riconducendosi mediante
operazione di standardizzazione ad una distribuzione normale con media e varianza fissate
rispettivamente a 0 e 1, parametri che caratterizzano la cosiddetta distribuzione normale standard
per la quale disponiamo di apposite tavole statistiche:
esempio 1: la probabilità di attendere ad uno sportello bancario un tempo compreso tra 5 e 7
minuti, supponendo che il tempo di attesa medio sia pari a 4 minuti (e con varianza 25) può essere
calcolata come
54 X 4 74
P(5  X  7)  P


  P(0.2  Z  0.6) 
25
25 
 25
 P(0  Z  0.6)  P(0  Z  0.2)  0.2257  0.0793  0.1467
esempio 2: la probabilità di selezionare da un collettivo statistico un individuo con un reddito
mensile compreso tra 1500 e 1550 euro, supponendo che il reddito medio sia pari a 1300 euro (e
con varianza 10000) può essere calcolata come
 1500  1300 X  1300 1600  1300 
P(1500  X  1600)  P


  P(2  Z  2.5) 
10000
10000
10000 

 P(0  Z  2.5)  P(0  Z  2)  0.4938  0.4772  0.0166
esempio 3: la probabilità di trovare meno di 20 pezzi difettosi in un lotto di 1000 pezzi,
supponendo che la probabilità di produrre un pezzo difettoso sia pari al 3%
 X  np
 X  30 20  30 
20  np 
P( X  20)  P

 P

  P( Z  1.85) 
 np(1  p)

np
(
1

p
)
29
.
1
29
.
1




 0.5  P(0  Z  1.85)  0.5  0.4678  0.0322
OSSERVAZIONE: la distribuzione normale può essere utilizzata ogniqualvolta l’istogramma della
distribuzione di frequenza del carattere (continuo) nella popolazione abbia una forma ben
approssimabile da una curva campanulate simmetrica con le caratteristiche proprie della curva
normale (o di Gauss). In modo approssimato può essere utilizzata anche nel caso di variabile
casuale discreta per la quale ricorrano le ipotesi della distribuzione binomiale, qualora n sia
sufficientemente grande (in generale n>30). In questo caso l’errore che si compie si riduce al
tendere di n ad infinito. Altri casi saranno considerati successivamente.
Possiamo utilizzare questi risultati per:
A) valutare la bontà del procedimento di selezione di un campione (probabilistico) sulla base
dei potenziali risultati ottenibili per particolari statistiche campionarie. Ad esempio,
possiamo chiederci quali siano (e con quale probabilità) i valori potenzialmente assumibili
dalla media campionaria (media aritmetica calcolata sui dati campionari) sui possibili
diversi campioni estraibili con un certo procedimento (ad esempio campionamento casuale
semplice con ripetizione o senza ripetizione);
B) noto il comportamento di particolari statistiche campionarie a livello di universo di campioni
possibili, valutare l’attendibilità del dato campionario come stima di parametri incogniti di
interesse per la popolazione statistica nel complesso.