X` = X − Media(X) DS(X) - Sito dei docenti di Unife

La variabile standardizzata
Utilizzando la terminologia generica di prima, la variabile standardizzata X’ si calcola quindi
X − Media(X )
X' =
DS(X )
Visto l’ampio uso in statistica di questa procedura, la variabile standardizzata si è meritata un
nome nuovo, Z.
X − Media(X )
Z=
DS(X )
Questa standardizzazione riduce ogni variabile ad una nuova variabile Z che ha l’importante
proprietà di avere sempre media uguale a 0 e varianza uguale a 1
X
c=14200
X’ = X - c
c=10000
X’ = X/c
Z = (XMedia)/DS
15250
15900
14330
14250
15750
14770
14200
15050
14700
15100
15120
15700
14800
1050
1700
130
50
1550
570
0
850
500
900
920
1500
600
1,525
1,590
1,433
1,425
1,575
1,477
1,420
1,505
1,470
1,510
1,512
1,570
1,480
0,456
1,613
-1,182
-1,324
1,346
-0,399
-1,413
0,100
-0,523
0,189
0,225
1,257
-0,345
Media 14993,846
793,846 1,49938462
Varianza 315475,641 315475,641 0,00315476
Dev. St. 561.672
561.672
0.056
0
1
1
BASI DI PROBABILITÀ
La teoria della probabilità è molto complessa, ma il concetto di probabilità è molto intuitivo
Abbiamo una scatola (urna) con 3 palline rosse e 7 palline nere. Qual è la probabilità P di
estrarre una pallina rossa?
P = 0.3 (30%)
Ma cosa significa esattamente che la probabilità è uguale a 0.3?
Se ripetessi questa estrazione un numero elevatissimo di volte….
La probabilità, quindi, è la rappresentazione teorica della frequenza, o il valore a cui tende la
frequenza quando il numero di ripetizioni dell'evento è molto grande
Questa definizione implica anche che una tabella di frequenza tende ad una tabella di
probabilità se il campione è molto grande (le due cose coincidono se ho campionato tutta la
popolazione). Se per esempio analizzo un campione molto grande di donne e trovo che il 41.3
% di loro ha avuto un solo figlio, posso dire che se chiedo ad una donna scelta a caso quanti
figli ha, la probabilità di avere come risposta 1 è pari a 0.413.
Come le frequenze relative, la probabilità non può mai essere inferiore a 0 o superiore a 1, e la
somma delle probabilità associate a tutti i risultati (eventi) diversi possibili disgiunti (ovvero che
non si possono verificare insieme) è per forza di cose pari a 1.
DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI PROBABILITA’
Distribuzione di frequenza: ricostruita a partire dai dati campionati
Distribuzione di probabilità: ricostruita a partire dai dati di tutta la popolazione
Distribuzione teorica di probabilità: è definita da una funzione matematica di cui
conosco le caratteristiche e che mi permette di calcolare una probabilità associata a ciascun
valore o intervallo di valori
DISTRIBUZIONI TEORICHE DISCRETE DI PROBABILITA’
Per variabili di tipo discreto
La funzione specifica la probabilità che il valore assume uno specifico valore
1.
f (x ) = P ( X = x )
2.
f (x ) ≥ 0
3.
∑ f (x ) = 1
x
per tutti i valori che può assumere x
Per esempio: distribuzione uniforme discreta
1
f (x ) =
n
Lancio di una moneta equilibrata
Lancio di un dado equilibrato
Frequenza attesa di cattura in 4 tipi trappole ugualmente efficienti
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1
2
3
4
5
6
Distribuzione teorica di probabilità dei valori possibili che si possono ottenere nel
lancio di un dado equilibrato: è discreta e uniforme
0.25
0.2
0.15
0.1
0.05
30
28
26
24
22
20
18
16
14
12
10
8
6
4
2
0
0
Distribuzione teorica di probabilità discreta ma non uniforme
DISTRIBUZIONI TEORICHE CONTINUE DI PROBABILITA’
Per variabili di tipo continuo
Sono distribuzioni di densità, perché l'altezza della curva non è una probabilità, ma una
densità di probabilità (una probabilità divisa per un intervallo)
Non conta l’altezza della curva, ma l’integrale tra due valori
1. P ( x1 ≤ X ≤ x 2 ) =
2.
f (x ) ≥ 0
x2
∫ f (x )dx
x1
per tutti i valori che può assumere x
+∞
3.
∫ f (x )dx = 1
−∞
Vediamo una delle distribuzioni continue più utilizzate: la distribuzione normale
LA DISTRIBUZIONE NORMALE O GAUSSIANA
Molto importante nella teoria degli errori
Molto importante in biologia: approssima distribuzione di frequenza di molte variabili
Molto importante in statistica: teorema del limite centrale
1
f ( x; µ , σ ) =
e
σ 2π
− ( x − µ )2
2σ 2
− ∞ < x < +∞
Caratteristiche della distribuzione normale
Definita interamente da due parametri, media (µ) e varianza (σ2)
La media ne definisce la posizione, la varianza la forma
(a) Changing
(b) Increasing
shifts the curve along the axis
increases the spread and flattens the curve
1
1
=
2=
=6
6
2=
140
160
1
= 160
180
2 =174
200
140
160
180
1
=
2 =170
12
200
Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono)
Figure 6.2.2
50% 50%
M ean
L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità)
Esiste tra –infinito e + infinito
(c) Probabilities and numbers of standard deviations
Shaded area = 0.683
−
+
68% chance of falling
between − and
+
Shaded area = 0.954
−2
+2
95% chance of falling
between − 2 and
+2
Media +- 1 deviazione standard = 68.3 %
Media +- 2 deviazioni standard = 95.4 %
Media +- 3 deviazioni standard = 99.7 %
Media +- 1.96 deviazioni standard = 95 %
Shaded area = 0.997
−3
+3
99.7% chance of falling
between − 3 and
+3
VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE
VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE
Molte variabili biologiche si distribuiscono in modo normale (come gli errori in fisica, per
esempio)
Sono dovute alla combinazione di un numero molto alto di fattori
Cosa dice il teorema del limite centrale (TLC)?
Lancio 1000 volte un dado. La distribuzione della variabile punteggio nel lancio di un singolo
dado, che varia tra 1 e 6, è uniforme. Il dado è il singolo fattore, ed esiste una singola variabile.
Ora lancio 1000 volte due dadi insieme, e ogni lancio della coppia di dadi faccio la somma dei
punteggi. Ora la nuova variabile è il punteggio totale nel lancio di due dadi, che varia tra 2 e 12,
e può essere vista come costituita dalla combinazione (somma) di due fattori (i due dadi)
ciascuno dei quali ha una distribuzione uniforme. Ma la nuova variabile non ha una
distribuzione uniforme! Perché?
Ora lancio 1000 volte 5 dadi, e ogni volta faccio la somma dei 5 punteggi. Ora la nuova
variabile è il punteggio totale nel lancio di cinque dadi, e varia tra 5 e 30. Cosa ricorda?
E se la distribuzione di partenza non è uniforme?
450
400
350
300
250
200
150
100
50
0
0
1
2
3
4
5
Distribuzione di probabilità di una variabile
350
300
250
200
150
100
50
0
0
1
2
3
4
5
6
7
8
9
10
Distribuzione di probabilità della variabile ottenuta sommando
due valori (ciascuno con distribuzione come sopra)
180
160
140
120
100
80
60
40
20
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16
Distribuzione di probabilità della variabile ottenuta sommando
sei valori (ciascuno con distribuzione come sopra)
Pensiamo alla statura, o agli errori…sono combinazioni di tanti fattori
LA DISTRIBUZIONE GAUSSIANA PER CALCOLARE LE PROBABILITA’ A
PARTIRE DA UNA MEDIA E UNA VARIANZA IN UN CAMPIONE
30 persone obese affette da una malattia cardiovascolare vengono sottoposte a cura
dimagrante. La variazione di peso in chilogrammi ha una media pari a –0,59 con varianza
pari a 0.11
Vogliamo stimare, per esempio, la
P (x > 0)
ovvero, la frazione di persone (obese affette da una malattia cardiovascolare ) che seguendo
questa dieta ingrassano.
Assumiamo che il campione sia rappresentativo della popolazione e che la distribuzione
della variabile sia gaussiana con media e varianza uguali a quelle stimate attraverso il
campione
Ricorro alla distribuzione normale standardizzata e alla tabella relativa
-4
-3
-2
-1
0
1
2
3
4
Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono)
L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità)
Esiste tra –infinito e + infinito
0 +- 1 = 68.3 %
0 +- 2 = 95.4 %
0 +- 3 = 99.7 %
0 +- 1.96 = 95 %
Distribuzione normale
standardizzata
(µ= 0 e σ = 1)
-6
-4
-2
0
2
4
Zx=120 = (0+0.59)/0.33 = 1.79
P(X>0) = P(Z>1.79)
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
Distribuzione normale con
µ= -0.59 e σ = 0.33
TABELLA (SOLO PER ALCUNI VALORI DI Z) DELLA
DISTRIBUZIONE NORMALE STANDARDIZZATA
P(Z>1.96) = 2.5%
P(Z>1.79) = 3.7%
ESEMPIO
La NASA esclude dai corsi per diventare astronauti chiunque sia più alto di 193.0 cm o
più basso di 148.6 cm.
Negli uomini (popolazione USA), l’altezza media è 175.6 cm, con s = 7.1 cm.
Nelle donne (popolazione USA), l’altezza media è 162.6 cm, con s = 6.4.
Calcolare le frazioni di popolazione, separatamente per maschi e femmine, esclusi dai
programmi NASA. Discutere i risultati.