UNIVERSITÀ DI BOLOGNA
FACOLTÀ DI MEDICINA VETERINARIA
LAUREA IN SANITA’ E QUALITA’ DEI PRODOTTI
DI ORIGINE ANIMALE
Introduzione alla probabilità
Probabilità = metodologia per lo studio di fenomeni aleatori (fenomeni per i
quali vi è incertezza sul risultato)
Esempi:
1) presenza/assenza di residui di sostanze chimiche nocive nei prodotti
derivati dagli animali allevati in terreni sottoposti a trattamenti chimici
2) numero di piccoli nati vivi da una scrofa
3) intervallo di tempo tra la conclusione della somministrazione di un
farmaco per la cura di una certa malattia nelle vacche da latte e il
termine della tossicità del latte
Perché è importante studiare la probabilità in statistica?
Lezioni di Statistica – Prof. Gabriele Soffritti
1
UNIVERSITÀ DI BOLOGNA
FACOLTÀ DI MEDICINA VETERINARIA
LAUREA IN SANITA’ E QUALITA’ DEI PRODOTTI
DI ORIGINE ANIMALE
Definizioni di probabilità
1) definizione classica (a priori)
P(E) =
numero di casi favorevoli ad E
numero di casi possibili
- formulata rispetto a fenomeni aleatori che ammettono un numero finito di
risultati (esempi: lancio di una moneta, lancio di un dado)
- formulata nell’assunto che i possibili risultati siano tutti ugualmente probabili
(la moneta/ il dado devono essere regolari)
E= {il risultato di un lancio della moneta è testa}
⇒ P(E) = 1/2
E = {il risultato di un lancio del dado è un numero pari} = {2, 4, 6}
⇒ P(E) = 3/6.
⇒ non è utilizzabile rispetto ad esperimenti casuali i cui risultati non sono
tutti ugualmente probabili (esempio: lancio di 2 dadi e registrazione della
somma dei risultati)
Lezioni di Statistica – Prof. Gabriele Soffritti
2
2) definizione frequentista
n(E)
P(E) = lim
n→ ∞
n
n = numero di repliche di un esperimento aleatorio, condotte nelle medesime
condizioni sperimentali (esempio: n lanci di una moneta regolare)
n(E) = numero di repliche in cui un evento E si è verificato (“testa”)
n(E)
= proporzione di repliche in cui l’evento E si è verificato
n
⇒ non è utilizzabile rispetto ad esperimenti casuali non replicabili nelle
medesime condizioni sperimentali.
3) definizione soggettiva
P(E) = grado di fiducia che un individuo ha sull’avverarsi di E
Osservazioni
1. Legame tra definizioni classica e frequentista
Esempio: se lancio 3 volte una moneta regolare non mi stupisco
particolarmente se esce 3 volte testa. Se la lancio 1000 volte mi aspetto che
testa esca 500 volte
Lezioni di Statistica – Prof. Gabriele Soffritti
3
2. Legame tra definizioni frequentista e soggettiva
Il grado di fiducia espresso da un individuo circa l’avverarsi di E è legato alle
sue esperienze, dipendenti dalle manifestazioni dell’evento E sperimentate
dall’individuo nel corso della sua vita.
Proprietà fondamentali della probabilità
1.
0 ≤ P(E) ≤ 1
qualunque sia E
2.
P(E) = 0 ⇒ E è un evento impossibile
3.
P(E) = 1 ⇒ E è un evento certo
4.
Complementare dell’evento E
E = {un gattino contrae la rinotracheite virale felina dopo la vaccinazione a 9 e
13 settimane di vita}
Ec = {un gattino NON contrae la rinotracheite virale felina dopo la
vaccinazione a 9 e 13 settimane di vita}
P(Ec) = 1 − P(E)
P(E) = 0,04 ⇒ P(Ec) = 0,96.
Lezioni di Statistica – Prof. Gabriele Soffritti
4
Regole fondamentali della probabilità
1. Regola della somma
Esempio: una scatola di biscotti per cani contiene biscotti di 5 forme differenti,
nel medesimo numero. Estraggo a caso un biscotto dalla scatola.
E = il biscotto è di forma rotonda
⇒P(E) = 1/5
F = il biscotto è di forma quadrata
⇒ P(F) = 1/5
E ∪ F = il biscotto è di forma rotonda, oppure quadrata, oppure di entrambe
le forme
E, F eventi mutuamente esclusivi
⇒
P(E ∪ F) = P(E) + P(F)
Nell'esempio: P(E ∪ F) = 1/5 + 1/5 = 2/5
2. Regola del prodotto
Esempio: due scatole di biscotti per cani contengono biscotti di 5 forme
differenti, nel medesimo numero.
Estraggo a caso un biscotto dalla prima scatola ed uno dalla seconda.
E = il biscotto della prima scatola è di forma rotonda
⇒ P(E) = 1/5
F = il biscotto della seconda scatola è di forma rotonda
⇒ P(F) = 1/5
E ∩ F = i due biscotti estratti sono entrambi di forma rotonda
E, F eventi indipendenti
⇒
P(E ∩ F) = P(E) × P(F)
Nell'esempio: P(E ∩ F) = 1/5 × 1/5 = 1/25
Lezioni di Statistica – Prof. Gabriele Soffritti
5
Variabile casuale (aleatoria)
Esempio 1: lancio un dado regolare
Possibili risultati: {T, C}
Risultati
P(T) = P(C) = ½
X
P(X)
T
1
(successo)
½
C
0
(insuccesso)
½
E' possibile calcolare alcuni indicatori sintetici della distribuzione di
probabilità di X, in particolare la media e la varianza dei valori di X.
Nell'esempio 1: M(X) = 1/2
V(X) = 1/4
Lezioni di Statistica – Prof. Gabriele Soffritti
6
Esempio 2: una vacca da latte è sottoposta ad un controllo medico
Possibili risultati: {gravida, non gravida}
La probabilità che la mucca sia gravida, π, non è nota
Risultati
X
P(X)
gravida
1
(successo)
non gravida
0
(insuccesso)
π
(1 − π)
Qual è la media e la varianza di X?
Variabile casuale di Bernoulli
- X è una variabile casuale BINARIA
- la distribuzione di probabilità di X è caratterizzata da una costante
(parametro): la probabilità dell’evento “successo” π
π
= 0,1
⇒ X ≈ Ber(π)
π
Lezioni di Statistica – Prof. Gabriele Soffritti
= 0,9
7
Esempio 3: tre vacche da latte sono sottoposte ad un controllo medico
Per ognuna si ha una variabile casuale binaria di Bernoulli di parametro π:
(X1, X2, X3)
Possibili risultati:
Ei
P(Ei) (nell’ipotesi di indipendenza)
(π = 0.7)
(0, 0, 0)
(1 − π) × (1 − π) × (1 − π)
= 0,027
(1, 0, 0)
π × (1 − π) × (1 − π)
= 0,063
(0, 1, 0)
(1 − π) × π × (1 − π)
= 0,063
(0, 0, 1)
(1 − π) × (1 − π) × π
= 0,063
(1, 1, 0)
π × π × (1 − π)
= 0,147
(1, 0, 1)
π × (1 − π) × π
= 0,147
(0, 1, 1)
(1 − π) × π × π
= 0,147
(1, 1, 1)
π×π×π
= 0,343
Y = numero di mucche risultate gravide al controllo sanitario
Possibili risultati
P(Y) (π = 0.7) (per la regola della somma)
0
0,027
1
0,189
2
0,441
3
0,343
Media e varianza di X (π = 0.7):
M(X) = 2,1
V(X) = 0,63
Lezioni di Statistica – Prof. Gabriele Soffritti
8
Variabile casuale binomiale
- Y è una variabile casuale DISCRETA
- la distribuzione di probabilità di Y è caratterizzata da due costanti
(parametri): n (numero di mucche) e π (la probabilità dell’evento “successo”)
Y ≈ Bin(n, π)
La media e la varianza di una variabile casuale binomiale sono
rispettivamente pari a nπ, nπ(1-π)
Funzione Excel per il calcolo delle probabilità associate ai valori di una
variabile casuale Y binomiale: DISTRIB.BINOM
Lezioni di Statistica – Prof. Gabriele Soffritti
9
Sintassi
DISTRIB.BINOM(Numero successi; Prove; Probabilità succcesso; Cumulativo)
Numero successi (y) è il numero dei successi in n prove.
Prove è il numero delle prove (n).
Probabilità successo è la probabilità di osservare un successo in una singola prova (π).
Cumulativo = 0 calcola la probabilità associata all'evento Y=y, cumulativo = 1 quella
associata all'evento Y≤y.
Uso della funzione per il calcolo delle probabilità della distribuzione di Y =
numero di mucche gravide su 3 mucche sottoposte a controllo sanitario ≈
Bin(n=3, π = 0,7)
Valori possibili di Y
Funzione
Risultato della funzione
0
DISTRIB.BINOM(0; 3; 0,7; 0)
0,027
1
DISTRIB.BINOM(1; 3; 0,7; 0)
0,189
2
DISTRIB.BINOM(2; 3; 0,7; 0)
0,441
3
DISTRIB.BINOM(3; 3; 0,7; 0)
0,343
Uso della funzione per il calcolo della distribuzione di probabilità cumulata
di Y
Valori possibili di Y
Funzione
Risultato della funzione
0
DISTRIB.BINOM(0; 3; 0,7; 1)
0,027
1
DISTRIB.BINOM(1; 3; 0,7; 1)
0,216
2
DISTRIB.BINOM(2; 3; 0,7; 1)
0,657
3
DISTRIB.BINOM(3; 3; 0,7; 1)
1,000
Lezioni di Statistica – Prof. Gabriele Soffritti
10
n = 5, π = 0,50
n = 5, π = 0,90
n = 10, π = 0,50
n = 10, π = 0,90
n = 50, π = 0,50
n = 50, π = 0,90
Lezioni di Statistica – Prof. Gabriele Soffritti
11
La distribuzione di probabilità binomiale è molto utilizzata nell’inferenza
statistica per lo studio di proporzioni (es.: proporzione di animali di una
popolazione affetti da una determinata patologia).
Ulteriori esempi di distribuzioni di probabilità:
a) colore del mantello di capi di bestiame
b) dimensione della figliata dell’orso lavatore
Lezioni di Statistica – Prof. Gabriele Soffritti
12
c) altezza al garrese (in cm) di un asino
Caratteristiche di una funzione di densità di probabilità f(x)
1. Descrive la distribuzione di probabilità di una variabile casuale continua
2. L’area complessiva al di sotto della funzione è pari a 1
3. P(x0 < X < x1)
Lezioni di Statistica – Prof. Gabriele Soffritti
13
4. P(X < x0)
5. P(X > x1)
Lezioni di Statistica – Prof. Gabriele Soffritti
14
La distribuzione normale o gaussiana
- fondamentale nello sviluppo di molti metodi per l’inferenza statistica
- rappresenta un modello teorico che può fornire una buona approssimazione
della distribuzione empirica di variabili osservate nell’ambito dello studio di
fenomeni naturali
- è una variabile casuale CONTINUA
- la sua distribuzione di probabilità dipende da due costanti caratteristiche
(parametri): µ e σ ⇒ X ≈ Ν(µ, σ)
1 x− µ  2

σ 
− 
1
- f(x) =
e 2
σ 2π
Caratteristiche della f(x):
unimodale
simmetrica rispetto a x = µ
la media aritmetica, la mediana e la moda di X sono uguali e pari a µ
la varianza di X è pari a σ2
Lezioni di Statistica – Prof. Gabriele Soffritti
15
Esempi di distribuzioni gaussiane con particolari valori dei parametri
σ2 = 1
µ=0 µ=1 µ=2
µ=0
σ2 = 0,5
σ2 = 1
σ2 = 2
Lezioni di Statistica – Prof. Gabriele Soffritti
16
- aree tipiche al di sotto della f(x):
P(µ − σ < X < µ + σ) = 0,6827
P(µ − 1,96 σ < X < µ + 1,96 σ) = 0,95
P(µ − 2,58 σ < X < µ + 2,58 σ) = 0,99
- Caso notevole: la normale standardizzata Z ≈ Ν(0, 1)
- Standardizzazione: Z =
X− µ
σ
≈ Ν(0, 1)
Lezioni di Statistica – Prof. Gabriele Soffritti
17
Esempio 1
X = tempo (in secondi) impiegato da un cavallo da corsa nelle gare da 6
furlong negli ippodromi della Louisiana: X ≈ Ν(µ = 75,2 s; σ = 2,2 s)
P(X < 72,0) = ?
Appendice A, Tavola A1, pagina 248
Lezioni di Statistica – Prof. Gabriele Soffritti
18
Lezioni di Statistica – Prof. Gabriele Soffritti
19
Funzione Excel per il calcolo delle probabilità associate a intervalli di valori
per una variabile casuale Z normale standard, del tipo (‒∞, z):
DISTRIB.NORM.ST
Sintassi
DISTRIB.NORM.ST(Valore)
Valore è un numero (z) che determina l'estremo superiore di un intervallo non limitato
inferiormente, relativamente al quale si cerca il corrispondente valore di probabilità per
una variabile casuale normale standard Z.
Esempi
=DISTRIB.NORM.ST(0) restituisce il risultato ...???
=DISTRIB.NORM.ST(‒1,96) restituisce il risultato ...???
=DISTRIB.NORM.ST(‒1,45) restituisce il risultato 0,0735
Funzione Excel per il calcolo delle probabilità associate a intervalli di valori
per una variabile casuale X normale, del tipo (‒∞, x): DISTRIB.NORM
Sintassi
DISTRIB.NORM(valore; Media; Deviazione standard; Cumulativo)
Valore è un numero (x) della distribuzione per il quale si desidera la distribuzione
normale.
Media è la media aritmetica di X.
Deviazione standard è la deviazione standard di X.
Cumulativo = 0 calcola il valore della funzione di densità di probabilità, cumulativo = 1 il
valore della probabilità che X sia compresa nell'intervallo (‒∞, x).
Esempi
=DISTRIB.NORM(0; 0; 1; 1) restituisce il risultato ...???
=DISTRIB.NORM(72; 75,2; 2,2; 1) restituisce il risultato 0,073
Lezioni di Statistica – Prof. Gabriele Soffritti
20
Esempio 2
Quale tempo dovrebbe essere realizzato da un cavallo da corsa in una gara
per avere una probabilità pari al 5% di essere battuto?
P(X<x0,05) = 0,05
dove x0,05 = 5° percentile della distribuzione di X
Funzione Excel per il calcolo del valore z di una variabile casuale normale
standard Z che delimita un intervallo di valori (‒∞, z) di probabilità prefissata
pari a p: INV.NORM.ST
Sintassi
INV.NORM.ST(Probabilità)
Probabilità è il valore p di probabilità prefissato a partire dal quale si cerca il valore di z.
Esempi
=INV.NORM.ST(0,5) restituisce il risultato ...???
=INV.NORM.ST(0,0735) restituisce il risultato ...???
=INV.NORM.ST(0,05) restituisce il risultato ‒1,6449
Funzione Excel per il calcolo del valore x di una variabile casuale normale X
che delimita un intervallo di valori (‒∞, x) di probabilità prefissata pari a p:
INV.NORM
Sintassi
INV.NORM(Probabilità; Media; Deviazione standard)
Probabilità è il valore p di probabilità prefissato a partire dal quale si cerca il valore di x.
Media è la media aritmetica di X.
Deviazione standard è la deviazione standard di X.
Esempio
=INV.NORM(0,05;75,2;2,2) restituisce il risultato 71,58
Lezioni di Statistica – Prof. Gabriele Soffritti
21
Esempio 3
Entro quali estremi dovrebbe trovarsi il tempo di un cavallo da corsa per
poter essere considerato un tempo “nella norma” (non troppo basso né
troppo alto)?
P(x0,025<X<x0,975) = 0,95
Equivalenza tra analisi descrittiva e calcolo delle probabilità
variabile statistica
variabile casuale
distribuzione di frequenza empirica
distribuzione di probabilità (teorica)
Se vi è conformità tra la distribuzione di frequenza empirica di una variabile
statistica X e la distribuzione di probabilità di una variabile casuale possiamo
avvalerci delle proprietà teoriche di quest’ultima per cogliere meglio le
caratteristiche più importanti della distribuzione di X.
⇒ metodi per valutare la conformità tra una distribuzione di frequenza
empirica e la distribuzione normale
1) Metodo grafico # 1: basato sull’istogramma di frequenza
- soggettivo
- non adeguato se n < 20
Lezioni di Statistica – Prof. Gabriele Soffritti
22
2) Metodo grafico # 2: basato sul normal plot
- soggettivo
3) Metodi numerici basati sul calcolo di misure specifiche (test di normalità di
Shapiro-Wilk e di Kolmogorov-Smirnov)
Altre variabili casuali continue
1) Log-normale
2) t di Student
3) Chi quadrato
4) F di Fisher
1. La distribuzione log-normale
X variabile con distribuzione asimmetrica a destra Y = log10X
Lezioni di Statistica – Prof. Gabriele Soffritti
23
Y≈Ν
⇒
X ≈ lognormale
Le proprietà descritte in precedenza possono essere utilizzate per studiare la
distribuzione di Y = log10X.
Esempio: X = soglia di risposta (in Newton) ad uno stimolo meccanico
applicato ad un arto inferiore per 470 pecore
x = 5,296 Newton
Y = log10X
sx = 2,420 Newton
y = 0,6778 log Newton
sy = 0,1927 log Newton
Y = log10X ≈ Ν(µ,σ) ⇒ P(µ − 1,96 σ < Y < µ + 1,96 σ) = 0,95
Ci aspettiamo che il 95% dei valori di log10X sia compreso tra 0,3001 (= 0,6778
− 1,96 × 0,1927) e 1,0555 (= 0,6778 + 1,96 × 0,1927) log Newton
ovvero, che il 95% dei valori di X sia compreso tra 1,996 (= 100,3001) e 11,363 (=
101,0555) Newton
Lezioni di Statistica – Prof. Gabriele Soffritti
24
2. La distribuzione t di Student

dipende da una costante caratteristica: df detta gradi di libertà della
distribuzione (numero intero maggiore di 0)

è simmetrica rispetto al valore 0

è unimodale

ha forma campanulare

per valori bassi di df attribuisce ai valori più lontani da 0 una probabilità
maggiore di quanto non avvenga con la normale standard

per valori elevati di df tende a coincidere con la normale standard

viene utilizzata nella definizione di test statistici per il controllo di ipotesi
su una media o la differenza tra due medie
X ≈ t(df)
df = 1, df = 15 e gaussiana standardizzata
Lezioni di Statistica – Prof. Gabriele Soffritti
25
3. La distribuzione chi quadrato


i valori possibili per tale variabile casuale sono i numeri reali positivi
dipende da una costante caratteristica: df detta gradi di libertà della
distribuzione (numero intero maggiore di 0)

è asimmetrica a destra (asimmetria decrescente al crescere di df)

per valori elevati di df tende a coincidere con la distribuzione normale

viene utilizzata particolarmente nell’analisi di dati qualitativi
X ≈ χ2(df)
df = 1, 5, 10, 15
Lezioni di Statistica – Prof. Gabriele Soffritti
26
4. La distribuzione F di Fisher

è il risultato del rapporto tra due variabili casuali chi quadrato
indipendenti. I valori possibili per tale variabile casuale sono i numeri reali
positivi.

dipende da due costanti caratteristiche: df1 e df2 detti gradi di libertà della
distribuzione (numeri interi maggiori di 0)

è asimmetrica a destra

viene utilizzata nella definizione di test statistici per il controllo di ipotesi
su due varianze (calcolate a partire da dati la cui distribuzione è normale) e
per il confronto tra più medie (analisi della varianza)
X ≈ F(df1, df2)
df1 = 1, df2 =1
df1 = 3, df2 =5
df1 = 3, df2 =15
Lezioni di Statistica – Prof. Gabriele Soffritti
27
Relazione tra distribuzione binomiale e normale
Se X ≈ Bin(n, π), dove np > 5
n(1−p) > 5
p = proporzione di successi in n prove (proporzione di mucche gravide su n
mucche sottoposte a controllo medico)
allora è possibile approssimare la distribuzione di probabilità di X con la
normale N(µ, σ),
stimando i parametri µ, σ con np e np(1−p).
Lezioni di Statistica – Prof. Gabriele Soffritti
28