Principi di Statistica
a.a. 2014-2015
Dr. Luca Secondi
1. Introduzione al corso
1.01Variabili casuali
Distribuzioni di probabilità
1
• Corso di laurea in Biotecnologie
– Matematica e PRINCIPI DI STATISTICA (1 CFU)
– Inizio lezioni modulo Principi di Statistica (1 CFU):
» mercoledì 26 novembre 2014: 9-11 (Aula Magna D)
– Docente: dr. Luca Secondi
– Programma:
Variabili casuali e distribuzioni di probabilità. Variabili casuali
discrete e continue. Funzione di massa di probabilità, funzione di
densità e funzione di ripartizione. La variabile casuale Normale.
Le variabili casuali di Bernoulli, Binomiale e di Poisson.
Popolazione e campione. Introduzione all’inferenza statistica.
Verifica di ipotesi: costruzione di un test di ipotesi, statistica test,
errore di I e di II tipo, p-valore. Test per il valore medio.
– Esame: prova scritta (ed eventuale prova orale)
PRINCIPI DI STATISTICA (1 CFU)
• Materiale per la preparazione dell’esame:
– Slides (dispense e esercizi), disponibili al termine
delle lezioni
– Libri di testo:
• Villani Gentili (2012): volume utilizzato per il corso di
matematica
• Whitlock M.C., Schluter D. (2010). Analisi statistica dei
dati biologici (edizione italiana a cura di Giorgio
Bertorelle). Zanichelli.
3
4
5
6
7
8
Statistica descrittiva e statistica inferenziale
9
Un campione di gatti caduti dagli edifici di New York
20 geni umani
Un campione di individui maggiorenni residenti in Australia
Un campione di 50 bambini asmatici residenti a Milano
10
Estrazione del campione
11
Fonte: Whitlock, Schluter, 2010
12
13
14
15
16
17
Teoria della probabilità
e variabili casuali
18
Un breve richiamo alla teoria
della probabilità
• Nell’ambito della teoria della probabilità sono stati introdotti gli
EVENTI come possibili risultati di una PROVA.
• A ogni evento è stata associata una probabilità del verificarsi
• E’ scomodo trattare direttamente gli eventi e la trattazione
diventa più semplice ed efficace se associamo delle quantità
numeriche agli eventi
• Per tenere conto di questa esigenza si introduce il concetto di
variabile casuale (o variabile aleatoria)
• Una variabile casuale è completamente definita dalla sua
distribuzione e molti fenomeni naturale seguono un andamento
noto e già studiato in letteratura.
19
VARIABILI CASUALI O ALEATORIE
Una variabile casuale è simile a una variabile statistica
E’ definita da un insieme di modalità cui è associata una
probabilità
Variabili casuali o aleatorie
variabili aleatorie discrete
variabili aleatorie continue
P(x)
0,36
0,16
0,06
0,04
0,02
0
1
2
3
4
5
x
20
21
Definizione di variabile casuale
Una variabile casuale (v.c.) X è una funzione
definita sullo spazio campionario Ω che
associa ad ogni evento elementare ωi un
unico numero reale
X:Ω →R
V.c. discreta assume un insieme finito (al più
numerabile) di valori
V.c. continua assume tutti i valori compresi in un
22
intervallo reale
Definizione di variabile casuale
• Lancio di un dado:
– Nella prova «lancio di un dado», la variabile
casuale associa a ogni faccia del dado
(evento elementare) il numero impresso sulla
faccia (ossia un valore intero compreso tra 1
e 6)
23
Definizione di variabile casuale
• Se si considera una prova consistente nel
misurare l’altezza di un individuo:
– Lo spazio Ω è continuo poiché contiene
un’infinità non numerabile di eventi (tutte le
possibili altezze)
– La variabile casuale «altezza» è una
variabile casuale continua in quanto può
assumere, almeno in teoria, qualsiasi valore
nell’intervallo [30,270] cm
24
Variabile casuale discreta
È definita da un insieme finito o numerabile di modalità cui è
associata una probabilità
Esempio
Lancio due monete bilanciate. Definisco la variabile
casuale X = numero di teste
X può assumere i valori 0, 1, 2
Infatti i possibili risultati sono
CC
X=0
P(X = 0) = 1/4
CT
TC
X=1
P(X = 1) = 2/4
TT
X=2
P(X = 2) = 1/4
25
Variabile casuale discreta
Si supponga di fare 3 puntate successive alla roulette.
Ogni volta si puntano 10 euro sul rosso.
Per comodità, si ipotizza che la roulette non abbia lo zero.
Ω
RNR
NRN
NNN
-30
-20
RNN
-10
NNR
0
RRN NRR
10
20
30
RRR
X
P(X=x)
variabile
3/8
casuale
“vincita”
1/8
X
-30
-20
-10
0
10
20
30
26
Variabile casuale discreta
V.C. NUMERO DI TESTE
X
0
P(X)
P(X=x)
1/4
1
2/4
2
1/4
V.C. “VINCITA”
X
-30
P(X)
P(X=x)
1/8
-10
3/8
10
3/8
30
1/8
27
Variabile casuale discreta
Ulteriori esempi di v.c. discreta
Alla prova “lancio di due dadi” la funzione che
associa ad ogni risultato la somma dei punteggi
è una v.c. (da 2 a 12)
Anche associando ad ogni risultato il prodotto
dei punteggi (o la loro differenza) si generano
v.c.
28
Funzione di probabilità
La f. di probabilità di una v.c. X mette in
relazione i valori assunti da X con le
corrispondenti probabilità
La f. di probabilità P associa ad ogni valore xi la
probabilità P(X=xi)
Valori della v.c. X
P(x)
x1
x 2 ........ x i ....
P(x1 ) P(x 2 ) ........ P(x i ) ....
Proprietà:
P(X = xi ) ≥ 0
∑ P(X = x ) = 1
i
i
29
Funzione di probabilità
La funzione di probabilità può essere rappresentata graficamente
In relazione agli esempi precedenti si ha:
V.C. “VINCITA”
V.C. NUMERO DI TESTE
P(X=x)
3/8
1/8
X
-30
-20
-10
0
10
20
In corrispondenza di ogni valore, la barra verticale ha
un’altezza proporzionale alla probabilità.
30
30
Funzione di ripartizione
E’ utile calcolare le probabilità cumulate, ossia la probabilità che
la v.c. X assuma un valore minore o uguale a un dato valore xi
P( X ≤ xi )
La f. di ripartizione di una v.c. X mette in relazione i
valori assunti da X con le corrispondenti probabilità
cumulate
La f. di ripartizione F associa ad ogni valore x le
probabilità cumulate:
F(x) = P(X ≤ x) =
∑ P(X = w)
w≤ x
31
Funzione di ripartizione
V.C. “VINCITA”
V.C. NUMERO DI TESTE
X
0
1
2
P(x)
1/4
2/4
1/4
F(x)
1/4
3/4
4/4
X
P(x)
F(x)
-30
1/8
1/8
-10
3/8
4/8
10
3/8
7/8
30
1/8
8/8
Rappresentazione grafica della Funzione di ripartizione
•Ha l’aspetto di una funzione a gradini.
•In corrispondenza di ogni valore c’è un salto proporzionale alla
probabilità associata a quel valore
32
Si consideri ad esempio la seguente distribuzione di probabilità di una v.c.
discreta:
X
-3
P(x) 0,1
-1
0,3
0
0,1
2
0,2
4
0,1
5
0,2
P(x)
0,4
distribuzione di probabilità
0,3
0,2
0,1
0
F(x)
-3
-2
-1
0
1,0
1
3
4
5
0,2
0,8
0,6
0,3
0,4
funzione di ripartizione
0,2
0
2
X
-3
-2
-1
0
1
2
3
4
5
33
X
Proprietà della funzione di
ripartizione
• F(x) è non decrescente ossia:
x1 < x2 ⇒ F ( x1 ) < F ( x2 )
•
lim F(x) = 0;
x → −∞
lim F(x) = 1
x →∞
• F(x) è continua a destra, ossia:
lim F ( x) = F ( x0 )
x → x0+
34
Misure sintetiche della distribuzione di probabilità
di una v.c. discreta
Sebbene le proprietà di una variabile casuale possano essere descritte dalla sua distribuzione di
probabilità spesso è necessaria una distribuzione più sintetica che, attraverso pochi valori ci
permetta di cogliere le caratteristiche essenziali della v.c.
Valore medio o atteso (Expected Value)
E(X) = ∑ xiP(xi )
i
Varianza
V(X) =
∑ (x
2
i
− E(X)) P(xi )
i
Deviazione standard
SD(X) =
V(X)
35
Calcolo dei valori caratteristici di una
distribuzione di probabilità
V.C. NUMERO DI TESTE nel lancio di due monete
X
P(x)
0
1/4
1
2/4
2
1/4
E ( X ) = ∑ xi P ( xi )
i
= 0 ⋅ 0,25 + 1⋅ 0,5 + 2 ⋅ 0,25 = 1
2
V ( X ) = ∑ ( xi − E ( X )) P ( xi )
i
2
2
2
= ( 0 − 1) ⋅ 0,25 + (1 − 1) ⋅ 0,5 + ( 2 − 1) ⋅ 0,25 = 0,5
SD( X ) = V ( X ) = 0,5 = 0,7
36
V.c. continua
Una v.c. si dice continua se può assumere tutti i valori di un
determinato intervallo di numeri reali.
Una v.c. continua estende l’idea di variabile statistica continua
Misure di altezza, peso, durata, consumo, reddito, ecc.
Esempi di v.c. continua
Dall’insieme dei debiti verso i fornitori di un’azienda, il revisore
estrae casualmente un valore. Questo importo è una v.c.
continua.
Dall’elenco dei dipendenti di una ditta, l’Ufficio Stipendi ne
estrae casualmente uno e legge il suo salario. Il salario di un
dipendente estratto a caso è una v.c. continua.
37
V.c. continua
Consideriamo la v.c. altezza di un collettivo di
ragazzi. La v.c. assume valori tra 156 e 177. Si
suddivide l’intervallo in N piccoli intervalli
Probabilità che X assuma valori nell’intervallo
166,0 e 166,5
Area complessiva degli N rettangoli è uguale a 1
Istogramma di probabilità
Funzione di densità
Se si aumenta N (o si diminuisce
l’ampiezza degli intervalli) il profilo
del grafico tende a una curva
continua.
Modello descrittivo di una v.c.
continua che prende il nome di
funzione di densità.
La probabilità è una area sotto la curva
ab
P(a<X<b)
38
Funzione di densità
La variabile aleatoria continua è definita dalla funzione di densità f(x)
1) La funzione deve essere positiva
2) L’area totale sotto la funzione deve essere uguale a 1
f(x) funzione di densità − ∞ < X < +∞
b
f(x)
P(a ≤ X ≤ b) = ∫ f(x)dx
a
è l’area colorata
al di sotto della
curva compresa
tra i valori a e b
Proprietà:
f(x) ≥ 0
+∞
∫ f(x)dx = 1
−∞
P(X = a) = 0
X
39
Proprietà della funzione di densità
• Una funzione di densità non può mai assumere valori negativi, ossia
f ( x) ≥ 0
ciò assicura che la probabilità che X cada in un qualsiasi intervallo sia nonnegativa.
• L’area sottesa alla funzione è uguale a 1, ossia
∫
+∞
−∞
•
f ( x ) dx = 1
La probabilità che la v.c. X assuma un particolare valore dell’intervallo è zero. Ciò è
dovuto al fatto che un singolo valore corrisponde a un intervallo di ampiezza zero,
quindi la corrispondente area è anch’essa zero. Questo implica per esempio che non
ha influenza l’inclusione, nel calcolo delle probabilità, degli estremi dell’intervallo,
ossia.
P ( a ≤ X ≤ b) = P ( a < X < b)
40
Funzione di ripartizione
x
Per ogni valore x posso calcolare la probabilità di non superarlo
F (x ) = P ( X ≤ x )
Si definisce in tal modo la funzione di ripartizione come
area sottesa a sinistra del valore x
41
Funzione di ripartizione
x
F(x) = P(X ≤ x) =
∫ f(w)dw
−∞
Proprietà:
F(x) è non decrescente
lim F(x) = 0; lim F(x) = 1
x → −∞
F(x)
x →∞
1
Rappresentazione grafica
di una Funzione di
ripartizione continua
F(x1 )
P(x1 ≤ x ≤ x 2 )
F(x1 )
0
x1 x 2
x
42
Misure sintetiche della distribuzione di
probabilità di una v.c. continua
Valore medio o atteso (Expected Value)
+∞
E(X ) =
∫ xf (x)dx
−∞
Varianza
+∞
V(X) =
2
(
x
−
E
(
x
)
)
f(x)dx
∫
Confronta con la
formula del valore
medio di una v.c.
discreta
V(X) =
E(X) = ∑ xiP(xi )
i
2
(
x
−
E
(
X
)
)
P(xi )
∑ i
i
−∞
Deviazione standard
SD(X) =
V(X)
Standard Deviation (SD)
Confronta con la
formula della
varianza di una v.c.
discreta
43
VARIABILI STANDARDIZZATE E TEOREMA DI CHEBYSHEV
Se X è una v.c. con valore E(X) e SD(X) allora:
X − E( X )
Y =
SD( X )
È una v.c. standardizzata con E(Y)=0 e V(Y)=1
Sia X una variabile casuale e k un valore reale positivo, allora
vale la seguente disuguaglianza:
1
P ( X − E ( X ) ≥ k ⋅ SD( X )) ≤ 2
k
Indipendentemente dalla distribuzione della v.c. , la probabilità
che X assuma valori distanti dalla media più di k deviazioni
standard è al più 1/k2
44
Principali distribuzioni di
probabilità di v.c.
V.c. discrete
Bernoulli
Binomiale
Poisson
V.c. continue
Normale
Chi-quadrato
T di Student
F di Fisher
45