Statistica economica a.a. 2013/14 00B. Richiami di teoria della probabilità e variabili casuali Introduzione al concetto di probabilità nelle strategie aziendali L’azienda che vende articoli di abbigliamento per giovani può essere interessata a conoscere le decisioni di consumo dei giovani per la prossima stagione autunnoinverno. In particolare la direzione marketing vuole studiare le intenzioni di acquisto da parte dei consumatori di un nuovo giaccone di pelle e verificare se il giaccone viene poi effettivamente acquistato nel corso della stagione invernale Qual è la probabilità che un consumatore programmi l’acquisto di un giaccone di pelle nella stagione autunno/inverno 2010/2011? Qual è la probabilità che un consumatore acquisti effettivamente il giaccone? Qual è la probabilità che un consumatore pianifichi l’acquisto del giaccone e lo acquisti effettivamente? 2 Probabilità Grado di incertezza connesso al risultato scaturito da una prova Concetti primitivi di probabilità Per prova si intende ogni esperimento soggetto ad incertezza Per evento si intende uno dei possibili risultati della prova; Per probabilità si intende un numero compreso tra 0 a 1 associato al verificarsi di un evento Legame tra esperimento, evento e probabilità: L’esperimento genera l’evento con una certa probabilità; 3 Alcune nozioni di Probabilità • Esperimento, spazio campionario, evento Esperimento casuale: operazione (attività) la cui manifestazione o il cui risultato non può essere previsto con certezza; L’esempio classico che si fa per comprendere tale nozione è quella del lancio di un dado. Si tratta infatti di una operazione la cui esecuzione può dar luogo ad uno dei seguenti risultati {1,2,3,4,5,6} ma non si è in grado di prevedere con certezza il risultato che si avrà in un determinato lancio; Evento elementare: uno dei possibili risultati di un esperimento aleatorio; Spazio campionario Ω: insieme di che un esperimento casuale può generare; tutti i possibili eventi elementari Lo spazio campionario ha pertanto le caratteristiche di esaustività (nel senso che comprende tutti i possibili eventi elementari) e di mutua escludibilità dei risultati (il verificarsi di un dato evento elementare esclude il verificarsi di tutti gli altri). Nell’esempio del lancio di un dado lo spazio campionario Ω è costituito dagli eventi elementari Ω={1,2,3,4,5,6} ; 4 Impostazione assiomatica della probabilità (Kolmogorov, 1933) Nella definizione assiomatica di probabilità si fissano delle regole (assiomi o postulati) che devono essere rispettate perché si possa parlare di probabilità. Quantificarla, caso per caso, è un problema distinto. •Postulati del calcolo delle probabilità: Siano Ei,, i=1,2,…,n eventi di Ω. La probabilità di un evento E è definita come una funzione a valori reali P(E) definita sulla classe degli eventi dello spazio campionario che soddisfa le seguenti proprietà: i) P ( Ei ) ≥ 0 ∀Ei ⊂ Ω; ii) P (Ω) = 1; iii) P( Ei ∪ E j ) = P ( Ei ) + P ( E j ) se Ei ∩ E j = ∅ , ∀i ≠ j Il valore della probabilità P(E) sarà quindi sempre compreso tra 0 e 1 5 Proprietà della probabilità fornite dai 3 postulati A. Per ogni evento A ∈ Ω: P(A) = 1 − P(A) B. La probabilità dell’evento impossibile ∅ (insieme vuoto) è nulla: P(∅) = 0 C. Per ogni evento A ∈ Ω : 0 ≤ P(A) ≤ 1 D. Se A1 e A 2 sono due eventi di Ω: P(A1 ∪ A 2 ) = P(A1 ) + P(A 2 ) − P(A1 ∩ A 2 ) A1 ∩ A 2 A1 A2 6 Variabile casuale (o aleatoria) Una variabile casuale (o variabile aleatoria) X è una funzione definita sullo spazio campionario Ω che associa ad ogni evento elementare ωi ⊂ Ω un numero reale Variabile casuale discreta: una v.c. X si dice discreta se può assumere un numero finito o una infinità numerabile di valori. Lo spazio campionario Ω su cui è definita la v.c. sarà quindi discreto. Ad esempio nella prova “lancio simultaneo di due dadi” possiamo definire la v.c. X come la somma dei punteggi ottenuti in ciascun dado. La variabile casuale può assumere 11 possibili valori interi (la somma dei punteggi di due dadi può assumere valori compresi tra 2 e 12). Variabile casuale continua: una v.c. X si dice continua se può assumere tutti i valori compresi in un determinato intervallo di numeri reali. Lo spazio campionario Ω su cui è definita la v.c. sarà quindi continuo. Consideriamo la prova consistente nel rilevare il peso di una persona adulta. Lo spazio campionario di questa prova è continuo poiché contiene una infinità non numerabile di eventi. La variabile casuale Y “peso” può assumere infatti tutti i valori reali compresi, supponiamo tra 40 e 200 Kg. Ancora, l’altezza in cm di uno studente universitario può essere un numero reale compreso tra 140 e 210; 7 Variabili casuali discrete La funzione di probabilità di una v.c. X mette in relazione i valori assunti da X con le corrispondenti probabilità Valori della v.c. X P(x) x1 x 2 ........ x i .... P(x1 ) P(x 2 ) ........ P(x i ) .... La f. di probabilità P associa ad ogni valore xi la probabilità P(X=xi) Proprietà: P(X = xi ) ≥ 0 ∑ P(X = x ) = 1 i i Esempio: costruzione della variabile casuale discreta “somma dei punteggi ottenuti dal lancio di due dadi” 8 Funzione di ripartizione La f. di ripartizione di una v.c. X mette in relazione i valori assunti da X con le corrispondenti probabilità cumulate ∑ P(X = w) F(x) = P(X ≤ x) = w≤ x La f. di ripartizione F associa ad ogni valore x la probabilità P(X ≤ x) Proprietà: F(x) è non decrescente lim F(x) = 0; x → −∞ lim F(x) = 1 x →∞ F(x) è continua a destra 9 Misure sintetiche della distribuzione di probabilità di una v.c. discreta Valore medio o atteso (Expected Value) E(X) = ∑ xiP(xi ) Confronta con la formula della media di una distr. di freq. rel. i Varianza V(X) = 2 ∑ (x 2 i − E(X)) P(xi ) σ = K x= x j fj ∑ j=1 K ∑ (x − x ) fj 2 j j=1 i Deviazione standard SD(X) = V(X) Confronta con la formula della varianza di una distr. di freq. rel. 10 Funzione di probabilità come distribuzione delle freq. relative (1/2) Nei primi 50 giorni dell’anno 2009, il direttore di una concessionaria ha registrato il numero di auto vendute giornalmente. Il risultato di questa operazione di conteggio dà origine alla seguente distribuzione di frequenza Valori (numero di auto vendute) Frequenze assolute Frequenze relative (numero di giorni) 0 18 0,36 1 18 0,36 2 8 0,16 3 3 0,06 4 2 0,04 5 1 0,02 50 1,00 11 Funzione di probabilità come distribuzione delle freq. relative (2/2) Esperimento casuale: scelta casuale di uno dei 50 giorni (campione di ampiezza 1) Il numero di auto vendute nel giorno scelto è una v.c. La sua f. di probabilità coincide con la distribuzione delle frequenze relative xi (numero di auto vendute) Frequenze assolute (numero di giorni) P(x) 0,36 0,16 Probabilità P(X=xi) 0 18 0,36 1 18 0,36 2 8 0,16 3 3 0,06 4 2 0,04 5 1 0,02 50 1,00 0,06 0,04 0,02 0 1 2 3 4 5 In corrispondenza di ogni valore, la barra verticale ha un’altezza proporzionale alla probabilità. La somma di tutte le barre è pari a 1 x 12 Funzione di ripartizione Calcolo dei valori caratteristici Probabilità P(x) Probabilità cumulate F(x) xiP(xi) (xi-E(X))2 P(xi) 0 0,36 0,36 0 0,45 1 0,36 0,72 0,36 0,01 2 0,16 0,88 0,32 0,12 3 0,06 0,94 0,18 0,21 4 0,04 0,98 0,16 0,33 5 0,02 1,00 0,10 0,30 1,12 1,42 x (numero di auto vendute) 1,00 F(2)=0,88 La probabilità di vendere al massimo 2 auto in un giorno qualsiasi è pari a 0,88 ∑ x P(x ) = 1,12 V(X) = ∑ (x − E(X)) P(x ) = 1,42 E(X) = i i i 2 i i i SD(X) = V(X) = 1,19 13 Modelli per variabili casuali discrete • Variabile casuale di Bernoulli La v.c. di Bernoulli trae origine da una prova nella quale ha interesse esclusivamente verificare se un certo evento si è o meno verificato. La v.c. generata assume, convenzionalmente, valore 1 se l’evento si è verificato (successo) e valore 0 se invece l’evento non si è verificato (insuccesso). Tutte le prove che producono solo due possibili risultati generano v.c. di Bernoulli: il lancio di una moneta, il sesso di un nascituro, il superamento o meno di un certo livello di inflazione, il superamento di un esame universitario, la decisione di acquistare (o meno) un determinato prodotto 14 V.c. di Bernoulli Evento A A Valore della v.c. 1 0 Probabilità π 1- π La sua funzione di probabilità può essere espressa come P ( X = x ) = π x (1 − π)1− x per x = 0,1 Valori sintetici E(X) = ∑ x ⋅ f (x) = 1 ⋅ π + 0 ⋅ (1 − π) = π x V(X) = ∑ (x − E(X)) 2 ⋅ f (x) = (1 − π) 2 ⋅ π + (0 − π) 2 ⋅ (1 − π) = x = π(1 − π) 15 • Variabile casuale Binomiale La v.c. Binomiale può essere ottenuta come la somma di v.c. di Bernoulli indipendenti e identicamente distribuite. Pertanto se per n volte si ripete nelle medesime condizioni lo schema successo-insuccesso si genera una sequenza di n sottoprove indipendenti a ciascuna delle quali si può associare una v.c. di Bernoulli. Lo schema binomiale può essere assimilato all’estrazione con ripetizione di n palline da un’urna che ne contiene H di cui b bianche e H-b nere dove p=b/H indica la probabilità (costante) di estrarre una pallina bianca in ciascuna estrazione. 16 Variabile casuale binomiale Si effettuano n prove. In ognuna si può presentare l’evento A o “successo” con probabilità p oppure l’evento A o “insuccesso” con probabilità 1- p. Il risultato di ogni prova non è influenzato dalle prove precedenti né influisce su quelle successive. La v.c. binomiale esprime il numero di successi in n prove, a prescindere dall’ordine con cui si presentano. La sua funzione di probabilità è n x P ( X ) = ⋅ π (1 − π )n − x x X~Bin(n,p), X=0,1,2,…n 0<π<1 x! = 1 ⋅ 2 ⋅ 3 ⋅ ... ⋅ (x − 1) ⋅ x n n! = Si assume che: 0! = 1 x ! ( n − x ) ! coefficiente binomiale x ovvero, considerando l’espressione del coefficiente binomiale: n! P( X ) = ⋅ π x (1 − π )n − x x! n − x! 17 Quindi la v.c. binomiale : è una variabile casuale discreta, che può assumere tutti i valori interi compresi tra 0 (nessun successo) e n (tutte le prove hanno avuto successo); è caratterizzata da due parametri: π (la probabilità di un successo in una singola prova) e n (il numero totale di prove); può essere vista come la somma di n v.c. bernoulliane simili (stesso parametro π) e indipendenti. VALORE ATTESO E ( X ) = E ( X1 + X 2 + K + X n ) = π + π + ........ + π = nπ VARIANZA V ( X ) = V ( X1 + X 2 + K + X n ) = π(1 − π) + π(1 − π) + ..... + π(1 − π ) = nπ(1 − π ) 18 Esempio distribuzione Binomiale Gli ordini di un’azienda sono classificati come corretti o non corretti Estrazione di un campione di 5 ordini (assimilabile a 5 estrazioni indipendenti con reimmissione) π=0,8 prob. che un ordine sia corretto (nota dal comportamento passato) Qual è la probabilità di avere 3 ordini corretti? X~Binomiale(0,8;5) x = 0,1,2,...,5 5 P(X = 3) = 0,83 (1 − 0,8)5−3 = 0,20 3 19 Esempio distribuzione Binomiale Qual è la probabilità di avere almeno 3 ordini corretti? X~Binomiale(0,8;5) x = 0,1,2,...,5 P(X ≥ 3) = P(X = 3) + P(X = 4) + P(X = 5) = 5 3 5 5 5 5 −3 4 5− 4 = 0,8 (1 − 0,8) + 0,8 (1 − 0,8) + 0,8 (1 − 0,8)5−5 = 3 4 5 = 0,20 + 0,41 + 0,33 = 0,94 Qual è la probabilità di avere al massimo 2 ordini corretti? P(X ≤ 2) = 1 − P(X ≥ 3) = 1 − 0,94 = 0,06 20 La v.c. Binomiale in Excel La funzione DISTRIB.BINOM(x;n;π;cumul) calcola le probabilità della distribuzione binomiale x è il numero di successi n è il numero delle prove π è la prob. di successo in una singola prova cumul={0;1} Se cumul=0, si ottiene la f. di probabilità P(X=x) Se cumul=1, si ottiene la f. di probabilità cumulata P(X ≤ x) 21 Variabile casuale continua Variabile casuale continua: una v.c. X si dice continua se può assumere tutti i valori compresi in un determinato intervallo di numeri reali. Lo spazio campionario Ω su cui è definita la v.c. sarà quindi continua. Le variabili casuali continue presentano una maggiore complessità poiché per esse non è possibile elencare tutti i valori che la v.c. assume, essendo una infinità non numerabile; Occorre quindi assegnare la probabilità ad intervalli sull’asse reale e derivare poi le probabilità degli eventi che interessano; Esempi di v.c. continua Dall’insieme dei debiti verso i fornitori di un’azienda, il revisore estrae casualmente un valore. Questo importo è una v.c. continua Dall’elenco dei dipendenti di una ditta, l’Ufficio Stipendi ne estrae casualmente uno e legge il suo salario. Il salario di un dipendente estratto a caso è una v.c. continua 22 Variabile casuale continua Nell’ambito delle v.c. continue piuttosto che assegnare una misura di probabilità ai singoli valori, ha senso pertanto assegnare una misura di probabilità a tutti i possibili intervalli sull’asse reale; Definiamo funzione di densità della v.c. continua X la funzione f(x) per cui l’area sottesa alla funzione, corrispondente ad un certo intervallo, è proporzionale alla probabilità che X assuma un valore in quell’intervallo. Si definisce funzione di ripartizione di una v.c. continua X la funzione F(x) che fa corrispondere ai valori x le probabilità cumulate P(X≤x). 23 Funzione di densità f(x) funzione di densità − ∞ < X < +∞ b f(x) P(a ≤ X ≤ b) = ∫ f(x)dx a è l’area colorata al di sotto della curva compresa tra i valori a e b Proprietà: f(x) ≥ 0 +∞ ∫ f(x)dx = 1 −∞ P(X = a) = 0 X 24 Funzione di ripartizione x F(x) = P(X ≤ x) = ∫ f(w)dw −∞ Proprietà: F(x) è non decrescente lim F(x) = 0; lim F(x) = 1 x → −∞ F(x) x →∞ 1 F(x1 ) P(x1 ≤ x ≤ x 2 ) F(x1 ) 0 x1 x 2 x 25 Misure sintetiche della distribuzione di probabilità di una v.c. continua Valore medio o atteso (Expected Value) +∞ E(X ) = ∫ xf (x)dx −∞ Varianza +∞ V(X) = 2 ( x − E ( x ) ) f(x)dx ∫ Confronta con la formula del valore medio di una v.c. discreta V(X) = E(X) = ∑ xiP(xi ) i 2 ( x − E ( X ) ) P(xi ) ∑ i i −∞ Deviazione standard SD(X) = V(X) Confronta con la formula della varianza di una v.c. discreta 26 Modelli per variabili casuali continue • Variabile casuale normale (o di Gauss) La variabile casuale normale (o di Gauss) occupa un ruolo centrale nel calcolo delle probabilità e nella statistica. La v.c. Normale approssima la distribuzione empirica di moltissimi fenomeni reali, come il peso e l’altezza di una popolazione; Le vendite totali o la produzione complessiva spesso seguono una distribuzione Normale, e questo conduce a molte applicazioni di questa v.c. nel marketing e nella gestione della produzione. La v.c. Normale è anche punto di riferimento per stabilire confronti, dedurre risultati e controllare allontanamenti da tale distribuzione. 27 Modelli per variabili casuali continue • Variabile casuale normale (o di Gauss) Una v.c. X si dice Normale (oppure v.c. di Gauss) con parametri µ (valore atteso) e σ2 (varianza) e viene indicata con X~N(µ; σ2) se è definita su tutto l’asse reale con funzione di densità: f ( x) = 1 2πσ 2 e 1 x−µ − 2 σ 2 , -∞ < x < +∞ Momenti della distribuzione normale: E( X ) = µ Var ( X ) = σ 2 Asym( X ) = 0 Kurt ( X ) = 3 28 Distribuzione Normale 29 Principali caratteristiche della v.c. Normale: La funzione di densità di una v.c. Normale ha una forma campanulare simmetrica rispetto al suo valore medio (che è anche mediana e moda) in corrispondenza del quale si presenta il massimo della funzione di densità; La maggior parte delle osservazioni si addensano intorno alla media; ve ne sono poche molto più grandi o molto più piccole della media; Descrive la distribuzione degli errori casuali (o accidentali); 30 Proprietà della v.c. Normale: 1. 2. 3. 4. 5. 6. La curva è simmetrica, con asse di simmetria x = µ Media, moda e mediana coincidono: µ = M e = M d E’ crescente nell’intervallo ( −∞, µ) e decrescente nell’intervallo (µ, ∞) Ha due punti di flesso in x = µ − σ e x = µ + σ E’ concava nell’intervallo (µ − σ, µ + σ) e convessa altrove Ha come asintoto l’asse delle x µ 7. ∞ ∫ f (x)dx = ∫ f (x)dx = 0,5 −∞ µ La v.c. Normale approssima la distribuzione moltissimi fenomeni reali, come il peso e l’altezza di una empirica di popolazione 31 Distribuzione Normale 32 Distribuzione Normale Standardizzata Partendo da una X ~ N(µ;σ2) qualunque, con la trasformazione di standardizzazione Z= X − E(X) X − µ = SD(X) σ si ottiene la distribuzione Normale Standardizzata Z ~ N(0;1), che ha la seguente funzione di densità f (z ) = 1 − z 1 e 2 2π 2 33 34 F. di ripartizione della Normale Standardizzata Proprietà di Φ(z) Φ(z) = P(Z ≤ z) corrisponde all’area colorata al di sotto della f. di densità compresa tra -∞ e z Φ(0) = P(z ≤ 0) = 0,5 35 Proprietà di Φ(z) Area totale=1 Φ(z) = P(Z ≤ z) 36 Proprietà di Φ(z) Per la simmetria di Z intorno allo 0, le due aree colorate sono equivalenti Φ(−z) = 1 − Φ(z) Φ(−z) 1 − Φ(z) 37 Proprietà di Φ(z) La differenza 1 − Φ(z) = P(Z > z) La differenza 1 − Φ(z) = P(Z > z) 38 Tavola di Φ(z) z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441 (continua) Valori di z>0 sulla prima colonna (fino alla prima cifra decimale) e sulla prima riga (seconda cifra decimale). All’incrocio, all’interno della tabella si legge il valore della f. di ripartizione Φ(0,43) = 0,6664 Per z<0 Φ(−0,27) = 1 − Φ(0,27) = ? 39 La v.c. Normale Stand. in Excel La funzione DISTRIB.NORM.ST(z) per ogni z calcola il valore della f. di ripartizione Φ(z) La funzione INV.NORM.ST(prob) per ogni valore della f. di ripartizione Φ(z) calcola lo z corrispondente 40 Calcolo di P(z1<Z<z2) P(z1 < Z < z2 ) P(z1<Z<z2) come differenza di aree 41 Esempio di calcolo di P(x1<X<x2) Il tasso di rendimento X di un insieme di titoli segue una distribuzione Normale con µ=4,5% e σ=2% X ~ N(4.5;22) Calcolare P(0,5 < X < 8,5) Le probabilità sono tabulate per Z Che relazione c’è tra X e Z? Z= X−µ = X − 4,5 2 σ 8,5 − 4,5 0,5 − 4,5 P (0,5 < X < 8,5 ) = P <Z < = 2 2 = P (− 2 < Z < 2 ) = 0,9544 42 Curtosi ipernormale Normale iponormale 1 γ = Indice di curtosi di Pearson nσ 4 n 4 ( x − x ) ∑ i i=1 Indice di curtosi di Fisher = γ − 3 43