La variabile standardizzata Utilizzando la terminologia generica di prima, la variabile standardizzata X’ si calcola quindi X − Media(X ) X' = DS(X ) Visto l’ampio uso in statistica di questa procedura, la variabile standardizzata si è meritata un nome nuovo, Z. X − Media(X ) Z= DS(X ) Questa standardizzazione riduce ogni variabile ad una nuova variabile Z che ha l’importante proprietà di avere sempre media uguale a 0 e varianza uguale a 1 X c=14200 X’ = X - c c=10000 X’ = X/c Z = (XMedia)/DS 15250 15900 14330 14250 15750 14770 14200 15050 14700 15100 15120 15700 14800 1050 1700 130 50 1550 570 0 850 500 900 920 1500 600 1,525 1,590 1,433 1,425 1,575 1,477 1,420 1,505 1,470 1,510 1,512 1,570 1,480 0,456 1,613 -1,182 -1,324 1,346 -0,399 -1,413 0,100 -0,523 0,189 0,225 1,257 -0,345 Media 14993,846 793,846 1,49938462 Varianza 315475,641 315475,641 0,00315476 Dev. St. 561.672 561.672 0.056 0 1 1 BASI DI PROBABILITÀ La teoria della probabilità è molto complessa, ma il concetto di probabilità è molto intuitivo Abbiamo una scatola (urna) con 3 palline rosse e 7 palline nere. Qual è la probabilità P di estrarre una pallina rossa? P = 0.3 (30%) Ma cosa significa esattamente che la probabilità è uguale a 0.3? Se ripetessi questa estrazione un numero elevatissimo di volte…. La probabilità, quindi, è la rappresentazione teorica della frequenza, o il valore a cui tende la frequenza quando il numero di ripetizioni dell'evento è molto grande Questa definizione implica anche che una tabella di frequenza tende ad una tabella di probabilità se il campione è molto grande (le due cose coincidono se ho campionato tutta la popolazione). Se per esempio analizzo un campione molto grande di donne e trovo che il 41.3 % di loro ha avuto un solo figlio, posso dire che se chiedo ad una donna scelta a caso quanti figli ha, la probabilità di avere come risposta 1 è pari a 0.413. Come le frequenze relative, la probabilità non può mai essere inferiore a 0 o superiore a 1, e la somma delle probabilità associate a tutti i risultati (eventi) diversi possibili disgiunti (ovvero che non si possono verificare insieme) è per forza di cose pari a 1. DISTRIBUZIONI DI FREQUENZA E DISTRIBUZIONI DI PROBABILITA’ Distribuzione di frequenza: ricostruita a partire dai dati campionati Distribuzione di probabilità: ricostruita a partire dai dati di tutta la popolazione Distribuzione teorica di probabilità: è definita da una funzione matematica di cui conosco le caratteristiche e che mi permette di calcolare una probabilità associata a ciascun valore o intervallo di valori DISTRIBUZIONI TEORICHE DISCRETE DI PROBABILITA’ Per variabili di tipo discreto La funzione specifica la probabilità che il valore assume uno specifico valore 1. f (x ) = P ( X = x ) 2. f (x ) ≥ 0 3. ∑ f (x ) = 1 x per tutti i valori che può assumere x Per esempio: distribuzione uniforme discreta 1 f (x ) = n Lancio di una moneta equilibrata Lancio di un dado equilibrato Frequenza attesa di cattura in 4 tipi trappole ugualmente efficienti 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 Distribuzione teorica di probabilità dei valori possibili che si possono ottenere nel lancio di un dado equilibrato: è discreta e uniforme 0.25 0.2 0.15 0.1 0.05 30 28 26 24 22 20 18 16 14 12 10 8 6 4 2 0 0 Distribuzione teorica di probabilità discreta ma non uniforme DISTRIBUZIONI TEORICHE CONTINUE DI PROBABILITA’ Per variabili di tipo continuo Sono distribuzioni di densità, perché l'altezza della curva non è una probabilità, ma una densità di probabilità (una probabilità divisa per un intervallo) Non conta l’altezza della curva, ma l’integrale tra due valori 1. P ( x1 ≤ X ≤ x 2 ) = 2. f (x ) ≥ 0 x2 ∫ f (x )dx x1 per tutti i valori che può assumere x +∞ 3. ∫ f (x )dx = 1 −∞ Vediamo una delle distribuzioni continue più utilizzate: la distribuzione normale LA DISTRIBUZIONE NORMALE O GAUSSIANA Molto importante nella teoria degli errori Molto importante in biologia: approssima distribuzione di frequenza di molte variabili Molto importante in statistica: teorema del limite centrale 1 f ( x; µ , σ ) = e σ 2π − ( x − µ )2 2σ 2 − ∞ < x < +∞ Caratteristiche della distribuzione normale Definita interamente da due parametri, media (µ) e varianza (σ2) La media ne definisce la posizione, la varianza la forma (a) Changing (b) Increasing shifts the curve along the axis increases the spread and flattens the curve 1 1 = 2= =6 6 2= 140 160 1 = 160 180 2 =174 200 140 160 180 1 = 2 =170 12 200 Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) Figure 6.2.2 50% 50% M ean L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra –infinito e + infinito (c) Probabilities and numbers of standard deviations Shaded area = 0.683 − + 68% chance of falling between − and + Shaded area = 0.954 −2 +2 95% chance of falling between − 2 and +2 Media +- 1 deviazione standard = 68.3 % Media +- 2 deviazioni standard = 95.4 % Media +- 3 deviazioni standard = 99.7 % Media +- 1.96 deviazioni standard = 95 % Shaded area = 0.997 −3 +3 99.7% chance of falling between − 3 and +3 VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE VARIABILI BIOLOGICHE E DISTRIBUZIONE NORMALE Molte variabili biologiche si distribuiscono in modo normale (come gli errori in fisica, per esempio) Sono dovute alla combinazione di un numero molto alto di fattori Cosa dice il teorema del limite centrale (TLC)? Lancio 1000 volte un dado. La distribuzione della variabile punteggio nel lancio di un singolo dado, che varia tra 1 e 6, è uniforme. Il dado è il singolo fattore, ed esiste una singola variabile. Ora lancio 1000 volte due dadi insieme, e ogni lancio della coppia di dadi faccio la somma dei punteggi. Ora la nuova variabile è il punteggio totale nel lancio di due dadi, che varia tra 2 e 12, e può essere vista come costituita dalla combinazione (somma) di due fattori (i due dadi) ciascuno dei quali ha una distribuzione uniforme. Ma la nuova variabile non ha una distribuzione uniforme! Perché? Ora lancio 1000 volte 5 dadi, e ogni volta faccio la somma dei 5 punteggi. Ora la nuova variabile è il punteggio totale nel lancio di cinque dadi, e varia tra 5 e 30. Cosa ricorda? E se la distribuzione di partenza non è uniforme? 450 400 350 300 250 200 150 100 50 0 0 1 2 3 4 5 Distribuzione di probabilità di una variabile 350 300 250 200 150 100 50 0 0 1 2 3 4 5 6 7 8 9 10 Distribuzione di probabilità della variabile ottenuta sommando due valori (ciascuno con distribuzione come sopra) 180 160 140 120 100 80 60 40 20 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Distribuzione di probabilità della variabile ottenuta sommando sei valori (ciascuno con distribuzione come sopra) Pensiamo alla statura, o agli errori…sono combinazioni di tanti fattori LA DISTRIBUZIONE GAUSSIANA PER CALCOLARE LE PROBABILITA’ A PARTIRE DA UNA MEDIA E UNA VARIANZA IN UN CAMPIONE 30 persone obese affette da una malattia cardiovascolare vengono sottoposte a cura dimagrante. La variazione di peso in chilogrammi ha una media pari a –0,59 con varianza pari a 0.11 Vogliamo stimare, per esempio, la P (x > 0) ovvero, la frazione di persone (obese affette da una malattia cardiovascolare ) che seguendo questa dieta ingrassano. Assumiamo che il campione sia rappresentativo della popolazione e che la distribuzione della variabile sia gaussiana con media e varianza uguali a quelle stimate attraverso il campione Ricorro alla distribuzione normale standardizzata e alla tabella relativa -4 -3 -2 -1 0 1 2 3 4 Unimodale simmetrica, centrata sulla media (media, moda e mediana coincidono) L'area sottostante somma a 1 (come tutte le distribuzioni di probabilità) Esiste tra –infinito e + infinito 0 +- 1 = 68.3 % 0 +- 2 = 95.4 % 0 +- 3 = 99.7 % 0 +- 1.96 = 95 % Distribuzione normale standardizzata (µ= 0 e σ = 1) -6 -4 -2 0 2 4 Zx=120 = (0+0.59)/0.33 = 1.79 P(X>0) = P(Z>1.79) -2.5 -2 -1.5 -1 -0.5 0 0.5 1 Distribuzione normale con µ= -0.59 e σ = 0.33 TABELLA (SOLO PER ALCUNI VALORI DI Z) DELLA DISTRIBUZIONE NORMALE STANDARDIZZATA P(Z>1.96) = 2.5% P(Z>1.79) = 3.7% ESEMPIO La NASA esclude dai corsi per diventare astronauti chiunque sia più alto di 193.0 cm o più basso di 148.6 cm. Negli uomini (popolazione USA), l’altezza media è 175.6 cm, con s = 7.1 cm. Nelle donne (popolazione USA), l’altezza media è 162.6 cm, con s = 6.4. Calcolare le frazioni di popolazione, separatamente per maschi e femmine, esclusi dai programmi NASA. Discutere i risultati.