prove - Dipartimento di Informatica

Distribuzioni di probabilità
Distribuzioni di probabilità
L’analisi statistica spesso studia i fenomeni
collettivi confrontandoli con modelli teorici
di riferimento.
Tra di essi, vedremo: la distribuzione binomiale,
la distribuzione normale o Gaussiana, e altre.
Scopo:
 Molti fenomeni sono approssimabili con esse
 Inferenza statistica: dai dati di un campione
verificare ipotesi sull’intera popolazione
Distribuzione binomiale (cap. 7.2)
E’ la distribuzione di probabilità usata quando:
 le prove ripetute sono indipendenti
 i risultati di ciascuna prova sono due
 la probabilità p di successo è costante
Esempi: un sondaggio in cui ogni persona può
esprimere SI o NO; un test di qualità sul
funzionamento di un elettrodomestico
(funziona, non funziona)
Densità di probabilità
Se X è la variabile che indica il numero di successi in n
prove
 p la probabilità di successo in ciascuna prova (costante)
 q=1-p la probabilità di insuccesso in ciascuna prova

La densità di probabilità di X è:
Per calcolare la densità di probabilità (ossia la probabilità che una
variabile assuma un certo valore) di una distribuzione
binomiale, in Excel si usa la funzione
DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo)
Dove
◦ Num_successi = numero di successi in prove (x nella formula)
◦ Prove= numero di prove indipendenti (n nella formula)
◦ Probabilità_s= probabilità di successo per ciascuna prova (p nella
formula)
◦ Cumulativo= valore logico che determina la forma assunta dalla
funzione.
Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa,
ovvero la probabilità che venga restituito un numero massimo di successi
pari al valore di num_successi:
Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la
probabilità che venga restituito un numero massimo di successi pari al
valore di num_successi che è corrispondente alla densità di probabilità
Inoltre
DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo)
num_successi e prove sono arrotondati a interi
Se num_successi, prove o probabilità_s non sono valori numerici, la
funzione restituisce errore #VALORE!
Se num_successi è < 0 oppure > prove, la funzione restituisce errore
#NUM!
Se probabilità_s è < 0 oppure > 1, la funzione restituisce errore #NUM!
Esempio 7.1
In una officina sono installate 5 macchine uguali.
Ciascuna ha la probabilità del 20% di guastarsi.
Studiare la variabile X = n° di macchine guaste
contemporaneamente
Risulta che:
 Num_successi = da 0 a 5
 Prove = 5
 Probabilità_s = 0,2
 Cumulativo = falso
Esempio 7.1
PROVIAMO
In una officina sono installate 5 macchine uguali.
Ciascuna ha la probabilità del 20% di guastarsi.
 Studiare la variabile X = n° di macchine guaste
contemporaneamente

Inserire 5, e 0,2 nella tabella
Poi inserire 0,1,2,3,4,5
Usare il trascinamento
Inserire anche un istogramma della densità di
probabilità (selezionando come ascissa la
colonna X)
Esempio 7.2
In una ditta lavorano 12 operai che usano apparecchiature
collegate alla stessa rete elettrica. Ogni operaio dispone
di un’apparecchiatura che assorbe 1 kilowatt e la usa, in
modo indipendente dagli altri, per 10 minuti ogni ora.
Se la potenza della rete è di 5 kilowatt, qual è la
probabilità che non ci sia sovraccarico?
Esempio 7.2
PROVIAMO
In una ditta lavorano 12 operai che usano apparecchiature
collegate alla stessa rete elettrica. Ogni operaio dispone
di un’apparecchiatura che assorbe 1 kilowatt e la usa, in
modo indipendente dagli altri, per 10 minuti ogni ora.
Se la potenza della rete è di 5 kilowatt, qual è la
probabilità che non ci sia sovraccarico?
La rete non è in sovraccarico se 5 o meno operai usano le loro apparecchiature
Num_successi = 5
prove =12
probabilità_s = 10/60 =1/6 (probabilità che un operaio usi un’apparecchiatura in un
istante dato)
cumulativo = vero
Esempio 7.3
Determinare la distribuzione di probabilità del numero X
di pezzi difettosi, se si sono provati 20 pezzi di un lotto,
dove normalmente quelli difettosi sono il 10%.
Rappresentare graficamente la distribuzione ottenuta.
Determinare
◦ Il numero medio di pezzi difettosi (=20*0,1)
◦ La probabilità che al più 6 pezzi siano difettosi
Esempio 7.3
PROVIAMO
Determinare la distribuzione di probabilità del numero X
di pezzi difettosi, se si sono provati 20 pezzi di un lotto,
dove normalmente quelli difettosi sono il 10%.
Rappresentare graficamente la distribuzione ottenuta.
Determinare
◦ Il numero medio di pezzi difettosi (=20*0,1)
◦ La probabilità che al più 6 pezzi siano difettosi
Dal problema risulta che
n=20
p=10/100=0,1
Occorre calcolare P(X) con 0<=X<=20
(cumulativo=falso) Formattare le celle relative a P(X) come numero
DISTRIBUZIONE BINOMIALE
◦ La distribuzione binomiale permette di
calcolare, per numeri n piccoli, le probabilità
di avere un certo numero k di successi nelle
n prove.
◦ Se abbiamo molte prove, n diventa molto
grande.
◦ Trovare le probabilità dei successi k diventa
difficile.
◦ Per alti n il problema non è di trovare la
probabilità connessa ad uno specifico
numero k di successi, ma di trovare ad
esempio la probabilità di trovare più o meno
di k successi.
DISTRIBUZIONE NORMALE
◦ Si ricorre allora alle distribuzioni
NORMALE (GAUSSIANA) o di
Poisson, che valgono per n molto
grande.
◦ In questo caso lo scaloide della
distribuzione di probabilità binomiale,
ossia l’insieme dei rettangoli che
rappresentano le probabilità dei singoli
k, tende a diventare un’area
sottostante ad una linea continua.
Distribuzione normale
(o Gaussiana o degli errori accidentali; cap. 7.5)
Rappresenta la distribuzione più usata ed è quella alla quale
tendono quasi tutte le altre.
La funzione di probabilità della distribuzione normale risulta:
f(x) 

1
2
e
1/2(
x-

)2
Per il calcolo della funzione di probabilità normale, in Excel si
usa
DISTRIB.NORM.N(x;media;dev_standard;cumulativo)
Dove:
x0 = valore per il quale si desidera la distribuzione
media=media aritmetica della distribuzione (μ nella formula)
dev_standard=deviazione standard della distribuzione ( nella formula)
Cumulativo=valore logico. Se è VERO, restituisce la funzione di
distribuzione cumulativa
P( x  x0 ) 
x0


f(x) 
x0


1
1/2(xμ)2 /σ 2
e
dx
σ 2π
se è FALSO, restituisce la funzione massa di probabilità P(X= x0)
Esempio 7.7
Una macchina produce tondini metallici il cui diametro è
una variabile normalmente distribuita con media 6 cm e
deviazione standard 0,2 cm. Si vuole determinare la
probabilità che il diametro di un tondino differisca dal
valore medio, in più o in meno, di almeno 0,5 cm.
Esempio 7.7
Una macchina produce tondini metallici il cui diametro è
una variabile normalmente distribuita con media 6 cm e
deviazione standard 0,2 cm. Si vuole determinare la
probabilità che il diametro di un tondino differisca dal
valore medio, in più o in meno, di almeno 0,5 cm.
…quello che quindi si vuole calcolare è
P(X≤5,5; X>6,5)=
P(X≤5,5)+P(X>6,5)=
= P(X≤5,5)+[1-P(X ≤ 6,5)]
Esempio 7.7
In Excel occorre usare 2 volte la funzione, prima su 5,5 e
poi su 6,5
DISTRIB.NORM.N(5,5; 6;0,2;vero)
 DISTRIB.NORM.N(6,5; 6;0,2;vero)
 E poi alla prima aggiungere il risultato di 1- la seconda

PROVIAMO
Esempio 7.8
Una macchina produce un tipo di catene per bicicletta con lunghezza
normalmente distribuita, con media pari a 150 cm e deviazione standard
pari a 3 cm. Per alcuni tipi di biciclette si richiede che le catene abbiano
lunghezza compresa tra 154 ±2cm. In caso contrario la catena deve essere
modificata.
Qual è la percentuale di catene prodotte dalla macchina che vengono
utilizzate senza essere modificate?
Se la macchina viene regolata in modo che la lunghezza delle catene abbia
media pari a 154 cm, qual è la percentuale di catene che possono essere
usate senza modifiche?
E’ conveniente la modifica?
Esempio 7.8
…quello che quindi si vuole calcolare è
P(152≤X≤156) = P(X≤156) - P(X ≤152)
Si ripete poi lo stesso conto, usando l’altra media…
PROVIAMO
Altre distribuzioni continue
(par. 7.6)
Distribuzione 2
 Distribuzione t di Student
 Distribuzione F di Fisher (per la
regressione)

Distribuzione 2 (a n gradi di libertà)

E’ una distribuzione di probabilità continua, ottenuta come
somma dei quadrati di n variabili casuali indipendenti, con
media 0 e varianza 1

Caratteristiche:
◦ L’asimmetria
◦ La dipendenza dal parametro n
◦ La non negatività della funzione
◦ Al variare di n esistono infinite distribuzioni

In Excel si usa la funzione
DISTRIB.CHI(x;gradi_libertà)
gdl=n
Distribuzione t di Student


E’ una distribuzione di probabilità continua.
Consideriamo due variabili indipendenti Z, Q, dove
◦ Z è distribuita normalmente con media 0 e varianza 1
◦ Q è distribuita secondo un 2 con n gradi di libertà

Si può dimostrare che la variabile casuale continua
segue una distribuzione t di Student con n gradi di libertà
Distribuzione t di Student

Caratteristiche:
◦ Simmetrica rispetto al valor
medio
◦ Dipende da n
◦ All’aumentare di n tende alla
distribuzione normale
◦ Per ogni valore di n si ha una
diversa distribuzione
In Excel si usa la funzione
DISTRIB.T(x;gradi_libertà;coda)
Se coda=1 (risp. 2), viene restituita una
distribuzione a 1 coda (risp. 2 code).
Distribuzione F di Fisher


E’ una distribuzione usata per confrontare il grado di
variabilità di due insiemi di dati ed è usata nello studio
dell’analisi della varianza (ANOVA)
Consideriamo due variabili casuali X1 e X2
◦ distribuite secondo un 2 con n1 e n2 gradi di libertà, risp.

Si può dimostrare che la variabile
F= (X1/n1) / (X2/n2)
segue una distribuzione F con n1 e n2 gradi di libertà
Distribuzione F di Fisher
In Excel si usa la funzione
DISTRIB.F(x;gradi_libertà1; gradi_libertà2)