Obiettivi lezione 4
CAPIRE:
– distribuzione della popolazione campionata
– distribuzione di quantità che dipendono dal campione (distribuzioni
campionarie)
CONOSCERE:
– Le distribuzioni della media campionaria, delle proporzioni
campionarie, della varianza campionaria
– Le distribuzioni della differenza tra due medie, tra due proporzioni
DECIDERE:
– se si può utilizzare l’ipotesi normale
– se la varianza è conosciuta o incognita (nei casi in cui valga l’ipotesi
normale
ELABORARE:
– tramite esercizi di interesse applicativo
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
1
Distribuzione del Campione
Distribuzione della POPOLAZIONE su cui facciamo le
nostre osservazioni
Per capire quale sia la distribuzione
del campione devo considerare le
caratteristiche del fenomeno in esame.
Una raccolta di osservazioni può
aiutarmi in tale decisione: guardo
l’istogramma!.
Tutta la popolazione: non solo la parte che osservo!
Esempi:
• Misuro il tempo mutazioni genetiche successive di una specie di grano sottoposta a
un certo trattamento. Ripeto l’osservazione 10 volte, collezionando 10 valori. Ogni
osservazione può venir vista come il valore assunto da una variabile casuale distribuita
ESPONENZIALMENTE. Se ho campionato bene le 10 osservazioni possono venir
considerate come i valori assunti da 10 variabili casuali esponenziali
INDIPENDENTI. Cosa vuol dire campionare bene in questo caso?
• Misuro la lunghezza del cranio di 5 individui di un certo gruppo etnico. Ogni misura
può venir vista come il valore assunto da una variabile casuale con distribuzione
NORMALE con µ=30 cm, σ 2 = 4 cm 2. Se ho scelto in modo casuale i 5 individui le 5
osservazioni possono venir considerate come i valori assunti da 5 variabili casuali
normali INDIPENDENTI. Cosa vuol dire campionare bene in questo caso?
2
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Quantità che dipendono dal campione
Prima
dell’esperimento
Media campionaria:
Sono variabili casuali
Varianza campionaria:
Posso studiarne la
distribuzione
,
Dopo
l’esperimento
Media campionaria:
Sono numeri
Varianza campionaria:
Sono i valori assunti da una
variabile casuale con
distribuzione
3e
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stimatori e stime
P
R
I
M
A
D
E
L
L
’
E
S
P
E
R
I
M
E
N
T
O
Campione:
X1, X2,…, Xn
Campione:
x1, x2,…, xn
v. casuali
indipendenti
numeri
STIMATORE
v. casuale
Es. X=Σ Xi
n
Probabilità che lo
stimatore assuma
valori in un certo
intervallo:
P(a < X < b)
Es. x=Σ xi
n
STIMA
numero
?
D
O
P
O
L
’
E
S
P
E
R
I
M
E
N
T
O
Un numero è vero
o falso
4
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Distribuzione della media campionaria X
PROMEMORIA: La media campionaria è definita da
=
Sn
n
OSSERVAZIONE: La media campionaria ha un’espressione della forma
a
Possiamo utilizzare il teorema del limite centrale. Se n è
sufficientemente grande
√
√
dove
=
Questo è equivalente a dire che
e varianza
=
è distribuito normalmente con media
5
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Esempio: Consideriamo la proporzione di libro di testo letta da ogni studente che si presenta a un
esame. Intervistiamo 50 studenti compiliamo l’istogramma 1 e valutiamo la media su tale gruppo;
intervistiamone altri 50 e ricaviamo un nuovo valor medio e il nuovo istogramma 2; procediamo in
modo analogo per 50 gruppi di studenti. Collezioniamo man mano le medie di ciascun campione
con le quali tracciamo l’ultimo istogramma: i primi 50 istogrammi corrispondono a delle
distribuzioni uniformi l’ultimo si avvicina a una normale!
PRIMO CAMPIONE
SECONDO CAMPIONE
TERZO CAMPIONE
20
16
16
18
14
14
16
12
12
14
10
10
8
6
No of obs
No of obs
12
10
8
8
6
6
4
4
4
2
2
2
0
0.0
0.2
0.4
0.6
0.8
1.0
0
0.0
0
0.0
0.2
0.4
0.6
QUARTO CAMPIONE
0.2
1.0
0.4
0.6
0.8
1.0
Upper Boundaries (x <= boundary)
Istogramma delle medie campionarie
50 campioni di 50 dati estratti da una popolazione uniforme
16
14
30
12
25
10
20
8
…….
6
No of obs
No of obs
0.8
15
10
4
5
2
0
0
0.0
0.2
0.4
0.6
0.8
0.40
0.45
0.50
0.55
0.60
0.65
Expected
Normal
1.0
DOMANDA: potrei scegliere un numero diverso di gruppi di studenti?
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
6
Distribuzione della media campionaria
GRANDI CAMPIONI
Data una popolazione con una QUALUNQUE distribuzione con media µ e
varianza σ2 la distribuzione della media campionaria X, calcolata da un
campione di taglia n, è APPROSSIMATIVAMENTE distribuita come una
NORMALE con media µ e varianza σ2/n.
In pratica: l’approssimazione normale
è ragionevole se n
≥ 30
La media campionaria è ancora
distribuita normalmente con media µ
però ora la normale ha varianza
Come faccio: ho un campione da
una popolazione di dimensione
finita N senza reinserimento?
7
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stima della media di una popolazione con σ noto
tramite X
• Se la popolazione da cui campioniamo è N(µ,σ2 ) la v.a. X
è ancora Gaussiana con media µ e varianza σ2/n.
• Se campioniamo da una popolazione QUALUNQUE e la
taglia del campione è GRANDE la v.a. X è, con buona
approssimazione, Gaussiana con media µ e varianza σ2/n.
X ; n = 20
X; n=5
Popolazione
8
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stima della media di una popolazione con σ
SCONOSCIUTO tramite X
PROMEMORIA
Se non conosciamo σ possiamo utilizzare la stima s per valutare σ,
però
non è più distribuita normalmente. Si dimostra che in
questo caso
Aiuto! Qui le cose si diventano
troppo complicate!
Niente paura: esistono della tavole
per valutare la probabilità di una
variabile di Student!
Inoltre se n >30 si comporta come una
normale standard.
Dipende da n
9
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Tavole della t di Student
df\p
0.005
0.0005
1
0.324920
0.40
1.000000
0.25
3.077684
0.10
6.313752
0.05
12.70620
0.025
31.82052
0.01
63.65674
636.6192
2
0.288675
0.816497
1.885618
2.919986
4.30265
6.96456
9.92484
31.5991
3
0.276671
0.764892
1.637744
2.353363
3.18245
4.54070
5.84091
12.9240
4
0.270722
0.740697
1.533206
2.131847
2.77645
3.74695
4.60409
8.6103
5
0.267181
0.726687
1.475884
2.015048
2.57058
3.36493
4.03214
6.8688
6
0.264835
0.717558
1.439756
1.943180
2.44691
3.14267
3.70743
5.9588
7
0.263167
0.711142
1.414924
1.894579
2.36462
2.99795
3.49948
5.4079
8
0.261921
0.706387
1.396815
1.859548
2.30600
2.89646
3.35539
5.0413
9
0.260955
0.702722
1.383029
1.833113
2.26216
2.82144
3.24984
4.7809
10
0.260185
0.699812
1.372184
1.812461
2.22814
2.76377
3.16927
4.5869
11
0.259556
0.697445
1.363430
1.795885
2.20099
2.71808
3.10581
4.4370
12
0.259033
0.695483
1.356217
1.782288
2.17881
2.68100
3.05454
4.3178
13
0.258591
0.693829
1.350171
1.770933
2.16037
2.65031
3.01228
4.2208
14
0.258213
0.692417
1.345030
1.761310
2.14479
2.62449
2.97684
4.1405
15
0.257885
0.691197
1.340606
1.753050
2.13145
2.60248
2.94671
4.0728
16
0.257599
0.690132
1.336757
1.745884
2.11991
2.58349
2.92078
4.0150
17
0.257347
0.689195
1.333379
1.739607
2.10982
2.56693
2.89823
3.9651
18
0.257123
0.688364
1.330391
1.734064
2.10092
2.55238
2.87844
3.9216
19
0.256923
0.687621
1.327728
1.729133
2.09302
2.53948
2.86093
3.8834
20
0.256743
0.686954
1.325341
1.724718
2.08596
2.52798
2.84534
3.8495
21
0.256580
0.686352
1.323188
1.720743
2.07961
2.51765
2.83136
3.8193
22
0.256432
0.685805
1.321237
1.717144
2.07387
2.50832
2.81876
3.7921
23
0.256297
0.685306
1.319460
1.713872
2.06866
2.49987
2.80734
3.7676
24
0.256173
0.684850
1.317836
1.710882
2.06390
2.49216
2.79694
3.7454
25
0.256060
0.684430
1.316345
1.708141
2.05954
2.48511
2.78744
3.7251
26
0.255955
0.684043
1.314972
1.705618
2.05553
2.47863
2.77871
3.7066
27
0.255858
0.683685
1.313703
1.703288
2.05183
2.47266
2.77068
3.6896
28
0.255768
0.683353
1.312527
1.701131
2.04841
2.46714
2.76326
3.6739
29
0.255684
0.683044
1.311434
1.699127
2.04523
2.46202
2.75639
3.6594
30
0.255605
0.682756
1.310415
1.697261
2.04227
2.45726
2.75000
3.6460
inf
0.253347
0.674490
1.281552
1.644854
1.95996
2.32635
2.57583
3.2905
Probability Density Function
y=student(x;5)
0.500
0.375
0.250
0.125
0.000
-3.50
-1.75
0.00
1.75
3.50
Gradi di libertà : n-1
taglia del campione-1
Anche
se la varianza è
incognita conosco la
distribuzione della
media campionaria!
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
10
Distribuzione della differenza tra due medie campionarie
Se entrambi i campioni sono di taglia
sufficientemente grande la differenza
delle medie campionarie è ancora
normale con MEDIA DIFFERENZA
TRA LE MEDIE E VARIANZA
SOMMA DELLE SINGOLE
VARIANZE
Esempio : si considerino gli individui di due popolazioni. Nella prima popolazione gli individui hanno avuto
delle esperienze che si ritiene possano aver dato luogo a un ritardo mentale mentre nella seconda queste
esperienze non si sono verificate. 15 individui di ciascuna popolazione vengono sottoposti a dei test
d’intelligenza e si valuta il punteggio medio dei test per gli individui di ciascuna popolazione, ottenendo 92 e
105, rispettivamente. La distribuzione dei punteggi di tali test viene supposta approssimativamente normale
con varianza σ2=400. Se l’esperienza negativa non ha conseguenze sul livello intellettivo qual è la probabilità
di osservare una differenza pari a quella tra i campioni considerati ( cioè di 13 punti)?
Soluzione
La probabilità di avere una differenza di punteggi pari a -13 se le due popolazioni hanno la
stessa media è molto piccola: 0.0375
Cosa possiamo concludere in questo caso?
11
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stime di proporzioni p
PROMEMORIA: la legge dei grandi numeri ci garantisce che
per n grande la frequenza relativa dei successi tende alla
probabilità di successo. Possiamo usare
, con
per stimare p.
12
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Distribuzione della proporzione campionaria
= Frequenza con cui si è osservato il risultato desiderato
• Tende al valore della probabilità del risultato desiderato per la legge dei grandi numeri
• E’ la somma di n variabili di Bernoulli di parametro p divisa per n
• Per n grande possiamo applicare il teorema del limite
centrale per variabili binomiali:
Esempio: In una certa popolazione la probabilità di non vedere i colori è 0.08. Si selezionano a
caso 150 individui, con quale probabilità la proporzione di individui incapaci di vedere i colori
nel campione considerato è maggiore o uguale di 0.15?
Soluzione:
(risultato migliorabile con la
correzione di continuità)
13
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Distribuzione della differenza tra due proporzioni
∼ N(0,1)
Se entrambi i campioni sono
sufficientemente grandi
Esempio In una certa popolazione di liceali si sa che il 10% dei ragazzi è obesa. Se la stessa proporzione
vale per le ragazze, con quale probabilità in un campione di 250 ragazzi e 200 ragazze si osserva
> 0.06?
Soluzione:
14
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stime della varianza
PROMEMORIA: una stima della varianza può venir
effettuata utilizzando lo stimatore
Problema: com’è distribuita questa variabile intorno a σ2 ?
Se la popolazione da cui stiamo campionando è distribuita
normalmente e il campione è di taglia n la variabile
È distribuita secondo la distribuzione del Chi Quadro (tabulata)
con (n-1) gradi di libertà.
15
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Tavole del Chi Quadro
Probability Density Function
y=chi2(x;8)
0.175
0.131
0.087
0.044
0.000
0.00
6.25
12.50
18.75
25.00
Esempio: abbiamo un campione di taglia
11 estratto da una popolazione normale.
Utilizzando la tavola abbiamo:
Attenzione: questa distribuzione ci
servirà anche in altre occasioni!
16
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Stimatori
Sembra facile
adattare i dati
a una distribuzione
teorica!
17
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Metodi per determinare uno stimatore
• Metodo dei momenti
• Metodo della massima verosimiglianza
• …….
Metodi diversi possono fornire stimatori diversi
Occorreranno dei criteri per confrontare i diversi stimatori
18
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Metodo dei momenti
Criterio:
1. i momenti della distribuzione da cui campioniamo possono venir
espressi in funzione dei parametri incogniti di tale distribuzione
2. I momenti possono venir stimati utilizzando il campione
Uguagliamo i momenti campionari ai momenti teorici scrivendo un
numero di equazioni uguale al numero di parametri che vogliamo
stimare
Momenti teorici
Momenti empirici
Ho un problema:
in questo modo gli stimatori non sono
univocamente definiti!
Attenzione: talvolta i sistemi risultanti sono instabili
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
19
Esempi
Cosa capita se invece del momento
primo usiamo il momento secondo?
Se invece dei momenti assoluti usassi i momenti centrali otterrei gli
stessi stimatori?
Come si trasformerebbe il metodo dei momenti se invece d’essere
interessati alla stima di θ fossimo interessati alla stima di τ(θ)?
Abbiamo 2 alternative:
20
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Metodo della massima verosimiglianza
CRITERIO: se abbiamo raccolto un determinato campione ci aspettiamo
che il suo verificarsi corrisponda a una situazione molto probabile.
E’ la quarta volta consecutiva
che Mario ha una scala reale:
non mi piace sospettare
della gente ma temo proprio
che stia barando!
Questa mano mi conviene
perdere:diversamente
capiranno che sto
imbrogliando
Siamo molto poco propensi a credere che l’evento che stiamo osservando sia UN
evento molto raro che si è verificato eccezionalmente!
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
21
Esempio
In un’urna ci sono palline nere e palline bianche, il rapporto tra il numero di
palline dei due colori è 3/1, non sappiamo però se a favore delle bianche o delle
rosse. Estraiamo 3 palline, con reimbussolamento, per decidere se ci sono più
palline nere o bianche (cioè se p=0.25 o 0.75)
Stimatore di massima verosimiglianza:
22
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
Esercizi 1
•
Un’estesa analisi rivela che le altezze degli uomini di un certo paese
sono distribuite normalmente con media h=1.75 m. e deviazione
standard σ =0.05 m.
– In un campione casuale di 1000 uomini con quale probabilità ci sono più
di 100 uomini alti tra 1.75 e 1.80 m?
– In un campione casuale di 1000 uomini quanti uomini vi attendete con
un’altezza tra 1.80 e 1.90 m.?
•
Si supponga che i pesi di 5000 studenti maschi di una università ci
siano distribuiti normalmente con media 68 Kg e deviazione standard
3 Kg. Se si estrae un campione di 200 studenti come è distribuita la
media campionaria?
23
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
•
Un ascensore ha una portata massima di 1000 Kg e una capacità
massima di 10 persone. Se i pesi di tutte le persone che usano
l’ascensore sono distribuiti normalmente con una media 90 Kg e
deviazione standard di 15 Kg, qual è la probabilità che un gruppo di 10
persone ecceda il limite di portata dell’ascensore?
•
Qual è la probabilità che dei primi 1000 bambini nati nel nuovo anno
più di 400 siano maschi? (si supponga che sia equiprobabile la nascita
di un maschio o di una femmina)
•
In un campione di 16 osservazioni da una popolazione normale con
media 150 e varianza 256 determinare
– P(X < 160)
– P(X > 140)
24
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino
•
In una ricerca sullo stato di salute di due popolazioni rivela che nella
popolazione A il 55% dei soggetti non hanno malattie cardiovascolari,
tale percentuale per la popolazione B scende al 35%. Si sceglie un
campione casuale di 120 individui dalla prima popolazione e di 130
individui dalla seconda.Con quale probabilità la differenza tra le
proporzioni osservate risulta compresa tra 0.3 e 0.4?
•
Si siano misurate 10 lunghezze del femore di un neonato ottenendo
x=10 cm con deviazione standard campionaria s = 2 cm. Si determini
il valore t per cui
•
Si ripeta l’esercizio precedente supponendo di sapere che la deviazione
standard della popolazione in esame è σ=2 cm.
25
Statistica per la biologia 1 a.a. 2004-2005 Lauree specialistiche in biologia, Univ. Torino