Principi di Statistica a.a. 2014-2015 Dr. Luca Secondi 1. Introduzione al corso 1.01Variabili casuali Distribuzioni di probabilità 1 • Corso di laurea in Biotecnologie – Matematica e PRINCIPI DI STATISTICA (1 CFU) – Inizio lezioni modulo Principi di Statistica (1 CFU): » mercoledì 26 novembre 2014: 9-11 (Aula Magna D) – Docente: dr. Luca Secondi – Programma: Variabili casuali e distribuzioni di probabilità. Variabili casuali discrete e continue. Funzione di massa di probabilità, funzione di densità e funzione di ripartizione. La variabile casuale Normale. Le variabili casuali di Bernoulli, Binomiale e di Poisson. Popolazione e campione. Introduzione all’inferenza statistica. Verifica di ipotesi: costruzione di un test di ipotesi, statistica test, errore di I e di II tipo, p-valore. Test per il valore medio. – Esame: prova scritta (ed eventuale prova orale) PRINCIPI DI STATISTICA (1 CFU) • Materiale per la preparazione dell’esame: – Slides (dispense e esercizi), disponibili al termine delle lezioni – Libri di testo: • Villani Gentili (2012): volume utilizzato per il corso di matematica • Whitlock M.C., Schluter D. (2010). Analisi statistica dei dati biologici (edizione italiana a cura di Giorgio Bertorelle). Zanichelli. 3 4 5 6 7 8 Statistica descrittiva e statistica inferenziale 9 Un campione di gatti caduti dagli edifici di New York 20 geni umani Un campione di individui maggiorenni residenti in Australia Un campione di 50 bambini asmatici residenti a Milano 10 Estrazione del campione 11 Fonte: Whitlock, Schluter, 2010 12 13 14 15 16 17 Teoria della probabilità e variabili casuali 18 Un breve richiamo alla teoria della probabilità • Nell’ambito della teoria della probabilità sono stati introdotti gli EVENTI come possibili risultati di una PROVA. • A ogni evento è stata associata una probabilità del verificarsi • E’ scomodo trattare direttamente gli eventi e la trattazione diventa più semplice ed efficace se associamo delle quantità numeriche agli eventi • Per tenere conto di questa esigenza si introduce il concetto di variabile casuale (o variabile aleatoria) • Una variabile casuale è completamente definita dalla sua distribuzione e molti fenomeni naturale seguono un andamento noto e già studiato in letteratura. 19 VARIABILI CASUALI O ALEATORIE Una variabile casuale è simile a una variabile statistica E’ definita da un insieme di modalità cui è associata una probabilità Variabili casuali o aleatorie variabili aleatorie discrete variabili aleatorie continue P(x) 0,36 0,16 0,06 0,04 0,02 0 1 2 3 4 5 x 20 21 Definizione di variabile casuale Una variabile casuale (v.c.) X è una funzione definita sullo spazio campionario Ω che associa ad ogni evento elementare ωi un unico numero reale X:Ω →R V.c. discreta assume un insieme finito (al più numerabile) di valori V.c. continua assume tutti i valori compresi in un 22 intervallo reale Definizione di variabile casuale • Lancio di un dado: – Nella prova «lancio di un dado», la variabile casuale associa a ogni faccia del dado (evento elementare) il numero impresso sulla faccia (ossia un valore intero compreso tra 1 e 6) 23 Definizione di variabile casuale • Se si considera una prova consistente nel misurare l’altezza di un individuo: – Lo spazio Ω è continuo poiché contiene un’infinità non numerabile di eventi (tutte le possibili altezze) – La variabile casuale «altezza» è una variabile casuale continua in quanto può assumere, almeno in teoria, qualsiasi valore nell’intervallo [30,270] cm 24 Variabile casuale discreta È definita da un insieme finito o numerabile di modalità cui è associata una probabilità Esempio Lancio due monete bilanciate. Definisco la variabile casuale X = numero di teste X può assumere i valori 0, 1, 2 Infatti i possibili risultati sono CC X=0 P(X = 0) = 1/4 CT TC X=1 P(X = 1) = 2/4 TT X=2 P(X = 2) = 1/4 25 Variabile casuale discreta Si supponga di fare 3 puntate successive alla roulette. Ogni volta si puntano 10 euro sul rosso. Per comodità, si ipotizza che la roulette non abbia lo zero. Ω RNR NRN NNN -30 -20 RNN -10 NNR 0 RRN NRR 10 20 30 RRR X P(X=x) variabile 3/8 casuale “vincita” 1/8 X -30 -20 -10 0 10 20 30 26 Variabile casuale discreta V.C. NUMERO DI TESTE X 0 P(X) P(X=x) 1/4 1 2/4 2 1/4 V.C. “VINCITA” X -30 P(X) P(X=x) 1/8 -10 3/8 10 3/8 30 1/8 27 Variabile casuale discreta Ulteriori esempi di v.c. discreta Alla prova “lancio di due dadi” la funzione che associa ad ogni risultato la somma dei punteggi è una v.c. (da 2 a 12) Anche associando ad ogni risultato il prodotto dei punteggi (o la loro differenza) si generano v.c. 28 Funzione di probabilità La f. di probabilità di una v.c. X mette in relazione i valori assunti da X con le corrispondenti probabilità La f. di probabilità P associa ad ogni valore xi la probabilità P(X=xi) Valori della v.c. X P(x) x1 x 2 ........ x i .... P(x1 ) P(x 2 ) ........ P(x i ) .... Proprietà: P(X = xi ) ≥ 0 ∑ P(X = x ) = 1 i i 29 Funzione di probabilità La funzione di probabilità può essere rappresentata graficamente In relazione agli esempi precedenti si ha: V.C. “VINCITA” V.C. NUMERO DI TESTE P(X=x) 3/8 1/8 X -30 -20 -10 0 10 20 In corrispondenza di ogni valore, la barra verticale ha un’altezza proporzionale alla probabilità. 30 30 Funzione di ripartizione E’ utile calcolare le probabilità cumulate, ossia la probabilità che la v.c. X assuma un valore minore o uguale a un dato valore xi P( X ≤ xi ) La f. di ripartizione di una v.c. X mette in relazione i valori assunti da X con le corrispondenti probabilità cumulate La f. di ripartizione F associa ad ogni valore x le probabilità cumulate: F(x) = P(X ≤ x) = ∑ P(X = w) w≤ x 31 Funzione di ripartizione V.C. “VINCITA” V.C. NUMERO DI TESTE X 0 1 2 P(x) 1/4 2/4 1/4 F(x) 1/4 3/4 4/4 X P(x) F(x) -30 1/8 1/8 -10 3/8 4/8 10 3/8 7/8 30 1/8 8/8 Rappresentazione grafica della Funzione di ripartizione •Ha l’aspetto di una funzione a gradini. •In corrispondenza di ogni valore c’è un salto proporzionale alla probabilità associata a quel valore 32 Si consideri ad esempio la seguente distribuzione di probabilità di una v.c. discreta: X -3 P(x) 0,1 -1 0,3 0 0,1 2 0,2 4 0,1 5 0,2 P(x) 0,4 distribuzione di probabilità 0,3 0,2 0,1 0 F(x) -3 -2 -1 0 1,0 1 3 4 5 0,2 0,8 0,6 0,3 0,4 funzione di ripartizione 0,2 0 2 X -3 -2 -1 0 1 2 3 4 5 33 X Proprietà della funzione di ripartizione • F(x) è non decrescente ossia: x1 < x2 ⇒ F ( x1 ) < F ( x2 ) • lim F(x) = 0; x → −∞ lim F(x) = 1 x →∞ • F(x) è continua a destra, ossia: lim F ( x) = F ( x0 ) x → x0+ 34 Misure sintetiche della distribuzione di probabilità di una v.c. discreta Sebbene le proprietà di una variabile casuale possano essere descritte dalla sua distribuzione di probabilità spesso è necessaria una distribuzione più sintetica che, attraverso pochi valori ci permetta di cogliere le caratteristiche essenziali della v.c. Valore medio o atteso (Expected Value) E(X) = ∑ xiP(xi ) i Varianza V(X) = ∑ (x 2 i − E(X)) P(xi ) i Deviazione standard SD(X) = V(X) 35 Calcolo dei valori caratteristici di una distribuzione di probabilità V.C. NUMERO DI TESTE nel lancio di due monete X P(x) 0 1/4 1 2/4 2 1/4 E ( X ) = ∑ xi P ( xi ) i = 0 ⋅ 0,25 + 1⋅ 0,5 + 2 ⋅ 0,25 = 1 2 V ( X ) = ∑ ( xi − E ( X )) P ( xi ) i 2 2 2 = ( 0 − 1) ⋅ 0,25 + (1 − 1) ⋅ 0,5 + ( 2 − 1) ⋅ 0,25 = 0,5 SD( X ) = V ( X ) = 0,5 = 0,7 36 V.c. continua Una v.c. si dice continua se può assumere tutti i valori di un determinato intervallo di numeri reali. Una v.c. continua estende l’idea di variabile statistica continua Misure di altezza, peso, durata, consumo, reddito, ecc. Esempi di v.c. continua Dall’insieme dei debiti verso i fornitori di un’azienda, il revisore estrae casualmente un valore. Questo importo è una v.c. continua. Dall’elenco dei dipendenti di una ditta, l’Ufficio Stipendi ne estrae casualmente uno e legge il suo salario. Il salario di un dipendente estratto a caso è una v.c. continua. 37 V.c. continua Consideriamo la v.c. altezza di un collettivo di ragazzi. La v.c. assume valori tra 156 e 177. Si suddivide l’intervallo in N piccoli intervalli Probabilità che X assuma valori nell’intervallo 166,0 e 166,5 Area complessiva degli N rettangoli è uguale a 1 Istogramma di probabilità Funzione di densità Se si aumenta N (o si diminuisce l’ampiezza degli intervalli) il profilo del grafico tende a una curva continua. Modello descrittivo di una v.c. continua che prende il nome di funzione di densità. La probabilità è una area sotto la curva ab P(a<X<b) 38 Funzione di densità La variabile aleatoria continua è definita dalla funzione di densità f(x) 1) La funzione deve essere positiva 2) L’area totale sotto la funzione deve essere uguale a 1 f(x) funzione di densità − ∞ < X < +∞ b f(x) P(a ≤ X ≤ b) = ∫ f(x)dx a è l’area colorata al di sotto della curva compresa tra i valori a e b Proprietà: f(x) ≥ 0 +∞ ∫ f(x)dx = 1 −∞ P(X = a) = 0 X 39 Proprietà della funzione di densità • Una funzione di densità non può mai assumere valori negativi, ossia f ( x) ≥ 0 ciò assicura che la probabilità che X cada in un qualsiasi intervallo sia nonnegativa. • L’area sottesa alla funzione è uguale a 1, ossia ∫ +∞ −∞ • f ( x ) dx = 1 La probabilità che la v.c. X assuma un particolare valore dell’intervallo è zero. Ciò è dovuto al fatto che un singolo valore corrisponde a un intervallo di ampiezza zero, quindi la corrispondente area è anch’essa zero. Questo implica per esempio che non ha influenza l’inclusione, nel calcolo delle probabilità, degli estremi dell’intervallo, ossia. P ( a ≤ X ≤ b) = P ( a < X < b) 40 Funzione di ripartizione x Per ogni valore x posso calcolare la probabilità di non superarlo F (x ) = P ( X ≤ x ) Si definisce in tal modo la funzione di ripartizione come area sottesa a sinistra del valore x 41 Funzione di ripartizione x F(x) = P(X ≤ x) = ∫ f(w)dw −∞ Proprietà: F(x) è non decrescente lim F(x) = 0; lim F(x) = 1 x → −∞ F(x) x →∞ 1 Rappresentazione grafica di una Funzione di ripartizione continua F(x1 ) P(x1 ≤ x ≤ x 2 ) F(x1 ) 0 x1 x 2 x 42 Misure sintetiche della distribuzione di probabilità di una v.c. continua Valore medio o atteso (Expected Value) +∞ E(X ) = ∫ xf (x)dx −∞ Varianza +∞ V(X) = 2 ( x − E ( x ) ) f(x)dx ∫ Confronta con la formula del valore medio di una v.c. discreta V(X) = E(X) = ∑ xiP(xi ) i 2 ( x − E ( X ) ) P(xi ) ∑ i i −∞ Deviazione standard SD(X) = V(X) Standard Deviation (SD) Confronta con la formula della varianza di una v.c. discreta 43 VARIABILI STANDARDIZZATE E TEOREMA DI CHEBYSHEV Se X è una v.c. con valore E(X) e SD(X) allora: X − E( X ) Y = SD( X ) È una v.c. standardizzata con E(Y)=0 e V(Y)=1 Sia X una variabile casuale e k un valore reale positivo, allora vale la seguente disuguaglianza: 1 P ( X − E ( X ) ≥ k ⋅ SD( X )) ≤ 2 k Indipendentemente dalla distribuzione della v.c. , la probabilità che X assuma valori distanti dalla media più di k deviazioni standard è al più 1/k2 44 Principali distribuzioni di probabilità di v.c. V.c. discrete Bernoulli Binomiale Poisson V.c. continue Normale Chi-quadrato T di Student F di Fisher 45