Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Lezione del 16 Novembre Esercitazioni del corso ufficiale di Statistica Maurizio Mondello Corso di Laurea in Economia Aziendale Ottobre - Novembre 2006 orario esercitazioni e link ove scaricare i file Lezione del 16 Novembre Maurizio Mondello orario orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Lez Lez Lez Lez Lez Lez 1 2 3 4 5 6 Data 19 ottobre 26 ottobre 09 Novembre 16 Novembre 18 Novembre 23 Novembre ore 3 ore (15-18) 3 ore (15-18) 2 ore (15-17) 4 ore (14-18) 4 ore (9-13) 4 ore (14-18) Totale 20 ore sito in cui è possibile scaricare le slide: http : //ww 2.unime.it/dott_stat_ris_amb/down/mondello Cenni introduttivi e prime definizioni Lezione del 16 Novembre Maurizio Mondello orario Probabilità L’impostazione classica definisce il concetto di probabilità da assegnare ad un certo evento come: la proporzione di volte che l’evento si verifica in una serie di osservazioni (prove) analoghe. es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Es.: Se supponiamo di lanciare un dado per 100 volte e di registrare i risultati di ogni lancio possiamo definire la probabilità dell’evento E valore 6 nel lancio di un dado, come: adattamento P(E ) = numero di volte in cui si osserva il valore 6 numero totale di lanci Questa definizione è molto simile a quella di frequenza relativa; per tale motivo tale approccio viene detto frequentista La probabilità di un evento è esattamente la frequenza relativa con cui tale evento si verifica Def. Probabilità oggettiva o a priori Lezione del 16 Novembre Maurizio Mondello orario Probabilità La probabilità, P(A), di un evento A è il rapporto tra il numero N(A) di casi favorevoli (cioè il manifestarsi di A) ed il numero totale N di risultati ugualmente possibili e mutuamente escludenti: es. prob distribuzioni es.binom es.poisson es.norm. P(A) = N(A) N Indici di forma adattamento Es.: Nel caso di un dado regolare si sa che la probabilità di avere un numero qualsiasi dei sei presenti sulle facce è 16 , infatti, nel caso dell’uscita di un 3 si ha: P(3) = 1 6 Esempio Lezione del 16 Novembre Maurizio Mondello Si supponga di osservare la seguente distribuzione di frequenze relative alla misurazione dell’altezza di alcuni soggetti e le probabilità relative ad ogni modalità orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento xi (altezze) 155 160 165 170 175 180 185 190 ni 5 8 10 15 9 7 3 1 58 P = nNi P(155) = P(160) = P(165) = P(170) = P(175) = P(180) = P(185) = P(190) = 5 58 8 58 10 58 15 58 9 58 7 58 3 58 1 58 P 0.09 0.14 0.17 0.26 0.16 0.12 0.05 0.02 1 La somma delle probabilità di eventi esaustivi (tutti i possibili risultati di una variabile) è =1 Spazio Campionario ed Eventi Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Lo spazio campionario Ω è l’insieme di tutti i possibili esiti di un esperimento. Gli elementi di tale insieme, indicati con ω, sono chiamati eventi elementari. Un evento quindi, è un sottoinsieme dello spazio campionario. Es.: Definire lo spazio campionario derivante dall’esperimento lancio di un dado. Lo spazio campionario sarà costituito dai sei possibili risultati:Ω = {1, 2, 3, 4, 5, 6} N.B. Lo spazio campionario contiene altri due sottoinsiemi l’insieme vuoto, o evento impossibile, e se stesso,evento certo Dati i risultati dello spoglio di un questionario riportati nella seguente tavola di associazione Lezione del 16 Novembre Maurizio Mondello Ricordiamo che una tavola di associazione serve a mettere in evidenza la relazione tra due caratteri qualitativi ciascuno dei quali può assumere due sole modalità alternative orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Risposta Si No Totale M 233 317 550 F 86 124 210 Totale 319 441 760 adattamento Indichiamo con A l’insieme di coloro che hanno risposto SI alla domanda e con B l’insieme di coloro che sono di sesso maschile Dalla tabella è possibile desumere che:gli intervistati che hanno risposto si alla prima domanda sono dati da: P(A)= 319 760 = 0.42 cioè il 42%; e tra di essi i soggetti di sesso maschile sono stati il 73% in 233 quanto P(B|A) = n(AeB) n(A) cioè P(B|A) = 319 Principio delle probabilità totali Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob Dati n eventi E1 , E2 , . . . , En , tra di loro incompatibili (il verificarsi dell’uno esclude quello dei rimanenti), la probabilità che si verifichi uno qualsiasi di questi eventi (unione) è data dalla somma delle probabilità dei singoli eventi: P(E1 ∪ E2 ∪ . . . ∪ En ) = P(E1 ) + P(E2 ) + . . . + P(En ) distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento esempio: si consideri il lancio di un dado a 6 facce: Ω : {E1 , E2 , E3 , E4 , E5 , E6 }. Supponiamo di voler calcolare la probabilità di A(E1 ∪ E2 ) Ogni faccia ha la stessa probabilità pertanto: P(E1 ) = P(E2 ) = 61 da cui la probabilità di P(A) sarà data da: P(A) = E1 ∪ E2 = 16 + 16 1 6 e Principio delle probabilità composte: La probabilità che n eventi compatibili ed indipendenti si verifichino tutti insieme (intersezione) è data dal prodotto delle probabilità dei singoli eventi Si dice che A e B sono indipendenti Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob se e solo se distribuzioni P(A ∩ B) = P(A)P(B) es.binom es.poisson es.norm. si dice che A1 , A2 , . . . , An sono a due a due indipendenti se e solo se: Indici di forma adattamento P(Ai ∩ Aj ) = P(Ai )P(Aj ) Probabilità condizionate Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Una popolazione si compone per il 40% di fumatori (F) e per il 60% di non fumatori (N). Si sa che il 25% dei fumatori ed il 7% dei non sono affetti da una determinata patologia respiratoria cronica (M). Qual è la probablità che un individuo scelto a caso sia affetto dalla malattia? Da quanto sopra possiamo scrivere che la P(F)=0.4 e P(N)=0.6; mentre la P(M|F)=0.25 e la P(M|N)=0.07 Indici di forma adattamento pertanto è possibile calcolare la probabilità che un individuo scelto a caso sia affetto da malattia come: P(M) = P(M ∩ F ) + P(M ∪ F ) = P(F )P(M|F ) + P(N)P(M|N) = (0.4 × 0.25) + (0.6 × 0.07) = 0.142 Esempio 1: Tre mobili tra di loro indistinguibili contengono ciascuno due cassetti. Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Il primo contiene una moneta da 1 euro in ciascuno dei due cassetti, il secondo una moneta da 2 euro nel primo cassetto e da 1 euro nel secondo, il terzo mobile ha una moneta da 2 euro in ciascuno dei due cassetti. Si apre un acssetto a caso e si trova una moneta da 1 euro Qual è la probabilità che anche l’altro cassetto dello stesso mobile contenga una moneta da 1 euro? Indici di forma adattamento Consideriammo gli eventi: A1 : A2 : A3 : B: il il il il cassetto cassetto cassetto cassetto scelto appartiene al primo mobile; appartiene al secondo mobile; appartiene al terzo mobile; contiene una moneta da 1 euro; E’ chiaro che la probabilità richiesta è:P(A1 |B) e che Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob P(A1 ) = P(A2 ) = P(A3 ) = 1\3 P(B) = 1\2 P(B|A1 ) =1 distribuzioni es.binom es.poisson es.norm. Per il teorema di Bayes avremo: Indici di forma adattamento P(A1 |B) = = P(A1 )P(B|A1 ) P(B) 1 3 ×1 1 2 = 2 3 Esempio 2 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Da un urna contenente b palline bianche e r palline rosse ne viene estratta una che viene messa da parte senza guardarla. Qual è la probabilità che la seconda estratta sia bianca? consideriamo gli eventi: R1 la prima pallina estratta è rossa B1 la prima pallina estratta è bianca B2 la seconda pallina estratta è bianca Indici di forma adattamento posto n=b+r avremo che la P(R1 ) = r n e la P(B1 ) = b n mentre la probabilità che la seconda pallina estratta dato che la prima era anch’essa bianca sarà: P(B2 |B1 ) = b−1 n−1 in quanto dopo la prima estrazione nell’urna sono rimaste n-1 palline da cui b-1 palline bianche. Esempio Lezione del 16 Novembre Maurizio Mondello In modo analogo si defisce la probabilità che la seconda pallina sia bianca dopo che la prima era rossa: orario Probabilità P(B2 |R1 ) es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma = b n−1 Da cui la probabilità di estrarre una pallina bianca alla seconda estrazione sarà data da: adattamento P(B2 ) = = P(B1 )P(B2 |B1 ) + P(R1 )P(B2 |R1 ) bb−1 r b b + = nn−1 nn−1 n cioè la stessa probabilità di estrarre una pallina bianca alla prima estrazione Esempio 3 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Determinare la probabilità che un individuo positivo al test sia effettivamente malato P(A1 |B1 ) dato che: P(A1 ) =0.1 prob. di estrarre un individuo malato P(A2 ) =0.9 prob. di estrarre un individuo sano P(B1 |A2 ) =0.2 prob. che il test dia un falso-positivo P(B2 |A1 ) =0.1 prob. che il test dia un falso-negativo Indici di forma adattamento P(A1 |B1 ) = P(A1 )P(B1 |A1 ) P(A1 )P(B1 |A1 ) + P(A2 )P(B1 |A2 ) dato che P(B1 |A1 ) = 1 − P(B2 |A1 ) = 0.9 allora: P(A1 |B1 ) = 0.1 × 0.9 = 0.33 0.1 × 0.9 + 0.9 × 0.2 vediamo la rappresentazione ad albero Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Esempio 4 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Una classe ha 12 maschi e 4 femmine. Vengono scelti a caso tre dei 16 studenti: qual è la probabilità p che siano tutti i maschi La probabilità che il primo studente scelto sia a caso è 12\16. Se il primo studente è maschio, allora la probabilità che il secondo sia maschio è di 11\15. Infine se i primi due studenti erano maschi allora la probabilità che anche il terzo studente sia maschio è di 10\14. Pertanto la probabilità che tutti e tre siano maschi è: 12 10 11 P = 16 × 11 15 × 14 = 28 secondo metodo ¡ ¢ ¡12¢ Vi sono 16 3 = 560 modi di scegliere 3 dei 16 studenti, e 3 = 220 220 modi di scegliere 3 dei 12maschi, quindi p = 560 = 11 28 terzo metodo Se gli studenti vengono scelti uno dopo l’altro, allora vi sono 16 × 15 × 14 modi di scgliere gli studenti e 12 × 11 × 10 modi di 11 scegliere i tre maschi; pertanto P = 16×15×14 12×11×10 = 28 Esempio 5 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Gli studenti di una classe sono scelti a caso, uno dopo l’altro, per sostenere un esame. Determinare la probabilità p che i maschi e le femmine della classe si alternino se: 1 la classe consta di 4 maschi e 3 femmine 2 la classe consta di 3 maschi e 3 femmine Nel primo caso se i maschi e le femmine devono alternarsi, allora il primo studente esaminato deve essere un maschio. La probabilità che il primo sia un maschio è 74 . adattamento Se il primo è un maschio, allora la probabiltà che il secondo sia femmina sarà: 36 Così procedendo si avrà la probabilità che il terzo sia un maschio ( 35 ), che il quarto sia femmina:( 24 ) e che il quinto sia maschio ( 23 ), che il sesto sia femmina ( 12 ) e che l’ultimo sia maschio ( 11 ). Pertanto:p = 4332211 7654321 = 1 35 secondo quesito Lezione del 16 Novembre Maurizio Mondello orario Probabilità vi sono due casi incompatibili: il primo alunno è un maschio, e il primo alunno è una femmina. Se il primo è un maschio, allora la probabilità (P1 ) che gli studenti si alternino sarà data da: es. prob p= distribuzioni es.binom es.poisson es.norm. 332211 1 = . 654321 20 Indici di forma adattamento Se il primo studente è una femmina, la probabilità (P2 ) che gli studenti si alternino sarà data da: p= Pertanto P = P1 + P2 = 1 20 + 1 20 = 332211 1 = . 654321 20 1 10 Esempio 6 (Prob. condizionata) Lezione del 16 Novembre Maurizio Mondello In un collegio, il 25% degli studenti è stato bocciato in matematica, il 15% in chimica ed il 10% è stato bocciato in entrambe le materie. Si sceglie a caso uno studente orario Probabilità 1 es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento 2 3 Se egli è stato bocciato in chimica, qual è la probabilità che sia stato bocciato in matematica? Se egli è stato bocciato in matematica, qual è la probabilità che sia stato bocciato in chimica? Qual è la probabilità che sia stato bocciato in una delle due? Soluzione 1: Sia P(M)=0.25 la probabilità che uno studente sia bocciato in matematica, P(C)=0.15 la probabilità di essere bocciato in chimica e P(M ∩ C ) = 0.10, allora: P(M|C ) = P(M ∩ C ) 0.10 2 = = P(C ) 0.15 3 .....continua Lezione del 16 Novembre Maurizio Mondello orario Probabilità soluzione 2 La probabilità che uno studente sia stato bocciato in chimica, se si sa che è stato bocciato in matematica é: es. prob distribuzioni P(C |M) = es.binom es.poisson es.norm. 0.10 2 P(C ∩ M) = = P(M 0.25 5 Indici di forma adattamento terza soluzione P(M ∪ C ) = = P(M) + P(C ) − P(M ∩ C ) 0.25 + 0.15 − 0.10 = 0.30 Esempio 7 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Tre macchine (A,B,C), producono rispettivamente il 60%, il 30% ed 10% del numero totale dei prezzi prodotti da una fabbrica. Le percentuali di produzione difettosa di queste macchine sono rispettivamente del 2%, 3% e 4%. Viene estratto a caso un pezzo che risulta difettoso. Determinare la probabilità che sia prodotto dalla macchina C Posto X= pezzi difettosi, vogliamo determinare la probabilità P(C|X) che il pezzo difettoso sia prodotto dalla macchina C P(C |X ) = = P(C )P(X |C ) P(A)P(X |A) + P(B)P(X |B) + P(C )P(X |C ) 4 0.10 × 0.04 = (0.6 × 0.02) + (0.3 × 0.03) + (0.1 × 0.04) 25 Esempio 8 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. In una certa classe il 60% è composto da femmine ed il 4% dei maschi e l’1% delle femmine sono più alti di 1.83. Si sceglie a caso uno studente ed è più alto di 1.83, qual è la probabilità che sia femmina Sia A=(studenti più alti di 1.83).Vogliamo determinare P(F|A), la probabilità che uno studente sia più alto di 1.83. Applichiamo il Th di Bayes: Indici di forma adattamento P(F |A) = = P(F )P(A|F ) P(F )P(A|F ) + P(M)P(A|M) 0.6 × 0.01 3 = (0.6 × 0.01) + (0.4 × 0.04) 11 Distribuzione Binomiale Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Ciascuna osservazione può essere classificata in due categorie incompatibili ed esaustive, chiamate per convenzione successo e insuccesso. La probabilità di ottenere un successo, p, è costante per ogni osservazione, così come la probabilità che si verifichi un insuccesso, (1 − p). Indici di forma adattamento Il risultato di un’osservazione, successo o insuccesso, è indipendente dal risultato di qualsiasi altra. La distribuzione binomiale è la legge della variabile aleatoria che rappresenta il numero di successi della variabile X = numero di successi quando i due parametri sono pari a n = numero di osservazioni e p = probabilità di successo in ciascuna osservazione. Distribuzione Binomiale Lezione del 16 Novembre Maurizio Mondello in generale per un campione di dimensione n la probabilità che x volte su n la prova sia favorevole è data dalla funzione: orario Probabilità es. prob P(X ) distribuzioni es.binom es.poisson es.norm. = µ ¶ n x n−x p q x Indici di forma adattamento con: P(X) n p 1−p X probabilità di ottenere X successi dati n e p numerosità probabilità di successo probabilità di insuccesso numero di successi nel campione (X = 0, 1, 2, 3, . . . , n) Distribuzione Binomiale Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento p x q n−x rappresenta la probabilità di ottenere una particolare sequenza di X successi su n osservazioni ¡n ¢ n! x = X !(n−X )! rappresenta invece il numero di possibili sequenze di X successi su n osservazioni continue (eventi misurati su scala continua). Esempio Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma In un’azienda si stima pari a 0.1 la probabilità che un ordine venga giudicato scorretto da parte del sistema informativo. Sulla base di questa informazione la società vuole calcolare la probabilità che si abbia un certo numero di segnalazioni in un dato campione di ordini di vendita. Calcolo di P(X = 3) =, dato n=4 e p=0.1; Qual è la probabilità di avere tre ordini scorretti in un campione di 4 ordini? adattamento P(X = 3) = = = = 4! (0.1)3 × (1 − 0.1)4−3 3!(4 − 3)! 4! (0.1)3 × (0.9)1 3!1! 4 × (0.1)3 × (0.9)1 = 0.0036 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Qual è la probabilità di avere almeno tre ordini scorretti in un campione di 4 ordini? Calcolo di P(X ≥ 3) =, dato n=4 e p=0.1; P(X ≥ 3) = P(X = 3) + P(X = 4) adattamento dai risultati precedenti si avrà: 0.0036 + 0.0001 = 0.0037 Formula di De Moivre Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Pn,np = √ 1 2πnpq se q − p è piccola e Pn,np+² = ²2 √ 1 e − 2npq 2πnpq Un Urna contiene 100 palline di cui 20 rosse, 30 bianche e 50 nere. Si effettuino 30 estrazioni di una pallina con reimmissione.Calcolare la probabilità che esca 4 volte la pallina rossa La probabilità che esca la pallina rossa é: P(R) = 20 100 pertanto applicando la binomiale avremo: µ ¶ 30 P30,4 = (0.2)4 (0.8)36 = 27405 × 0.0016 × 0.0003 = 0.0142 4 applichiamo adesso la formula di De Moivre: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento posto ² = x − np ricaviamo np = 30 × 0.2 = 6; √ npq = √ 30 × 0.2 × 0.8 = 2.19 √ verifichiamo se ² < 3 npq che in questo caso è uguale a: 6.57 ² = x − np = 4 − 6 = −2 che è minore di 6.57 pertanto si applica la seconda formula: P30,4 = √ −22 1 e − 2×4.8 = 0.119 2π4.8 Distribuzione poisson Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob Si ha un processo di Poisson quando è possibile osservare eventi discreti in un’area di opportunità : un intervallo continuo quale il tempo, una lunghezza, una superficie ecc; in modo tale che, diminuendo sufficientemente l’area di opportunità o intervallo: distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento la probabilità di osservare esattamente un successo nell’intervallo è costante; la probabilità di osservare più di un successo nell’intervallo è pari a zero; il verificarsi di un successo in ciascun intervallo è statisticamente indipendente dal verificarsi del successo in ogni altro intervallo P(X ) = λx e −λ con x ∈ [0, +∞] e λ > 0 x! (3.1) Distribuzione poisson Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento in questo caso: P(X) probabilità di X successi dato λ λ numero atteso di successi nell’intervallo di tempo e costante matematica pari a 2.71828 X numero di successi per intervallo di tempo Esempio Distribuzione poisson Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Supponiamo di esaminare il numero di clienti che raggiungono una banca in un’ora. Ciascun arrivo è un evento discreto che si verifica in un particolare istante di tempo nell’intervallo continuo di un’ora. Supponiamo che ci siano in media 180 arrivi in un’ora. Ora suddividiamo l’intervallo di un’ora in 3600 intervalli di un secondo. Il valore atteso del numero di arrivi in un intervallo di un secondo sarà pari a (180\3600) = 0.05. La probabilità che in un intervallo di un secondo arrivi più di un cliente si avvicina a zero. L’arrivo di un cliente in un intervallo non dipende dall’arrivo di qualsiasi altro cliente in qualsiasi altro intervallo. Il numero di arrivi in un’ora può essere inteso come il numero di successi che si verificano nell’intervallo temporale considerato. Evidentemente, il numero di arrivi varia da 0 a infinito per numeri interi, e dipenderà dal numero medio di arrivi nell’intervallo. Esempio 2 Calcolo di probabilità da una distribuzione di Poisson Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Se in un minuto arrivano circa tre autovetture ai caselli autostradali di Catania, qual è la probabilità che nello stesso intervallo di tempo arrivino esattamente due autovetture? qual è la probabilità che arrivino più di due autovetture data la distribuzione di Poisson: Indici di forma adattamento f (x, λ) = = λx e −λ x! 9 32 e −3 = = 0.2240 2! 2.718283 2 ....secondo quesito Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob P(X > 2) = P(X = 3) + P(X = 4) + P(X = 5) + ... + P(X = ∞) E’ evidente che è molto più semplice calcolare il complementare diP(X > 2) cioè calcolare P(X ≤ 2). distribuzioni es.binom es.poisson es.norm. pertanto poiche P(A)=1-P(A)’ Indici di forma adattamento P(X > 2) = 1 − P(X ≤ 2) = 1 − [P(X = 0) + P(X = 1) + P(X = 2)] La probabilità che in un minuto arrivino al casello più di due auto è pari a 0.423 e la probabilità che ne arrivino più di due è pari a 1 − 0.423 = 0.577 Distribuzione Normale Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento È una variabile casuale continua che assume valori tra ∞ e -∞ Inoltre è funzione di due parametri che indicheremo con µ e σ 2 che variano rispettivamente in ( −∞, +∞) e ( 0, +∞) La Normale è anche conosciuta con i nomi di v.c. degli errori accidentali perché storicamente la sua distribuzione è stata ricavata dagli errori di misurazione accidentali, o variabile casuale di Gauss, che fu il primo ad approfondirne le proprietà analitiche. La notazione con cui si indica la distribuzione normale è: N(µ, σ 2 ). Una v.c. X è definita Normale con parametri µ e σ 2 se è continua in −∞e + ∞) e la sua funzione di densità è : f (x) = √ (xi −µ)2 1 e − 2σ2 σ2π Proprietà Lezione del 16 Novembre Maurizio Mondello orario È simmetrica attorno alla media; Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Media, mediana e moda coincidono; L’area sottesa alla curva è unitaria (in quanto è una distribuzione di probabilità); adattamento La superficie compresa tra le due ordinate che distano σ (punto di flesso della curva) da µ, comprende circa il 68% del totale, per 2σ da µ l’area è circa il 95% e per 3σ è il 99.7%. Distribuzione Normale Standardizzata Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob È una particolare distribuzione che ha media nulla e varianza unitaria. Per fare riferimento a tale distribuzione occorre standardizzare la variabile oggetto di studio. Ciò si ottiene utilizzando gli scarti della variabile originale dalla media, riferiti a σ La nuova variabile è uguale a: distribuzioni es.binom es.poisson es.norm. Z= X −µ σ Indici di forma adattamento Ogni variabile di questo tipo gode delle seguenti proprietà: la somma di variabili normali standardizzate è nulla, la media di variabili n.s. è nulla; la somma dei quadrati di v. n.s. è pari ad n; la varianza è unitaria. 1 1 f (z) = √ exp(− z) 2 2π Probabilità di un intervallo fra valori della normale standardizzata Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento La relazione: f (z) = √1 exp(− 1 z) 2 2π Rappresenta una distribuzione di probabilità per cui l’area sottesa è uguale a 1. Invece la probabilità che la variabile z assuma tutti i valori compresi fra due limiti qualunque z1 e z2 è espressa da: Z z2 1 1 √ exp(− z) dz P(−z1 , z2 ) = 2 2π −z1 Tav. della distribuzione della normale standardizzata Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma Le tavole che si incontrano nello studio della distribuzione normale standardizzata sono due e precisamente: Quella relativa alle probabilità dei singoli valori z (che corrisponde alle altezze della curva) Quella relativa alla probabilità totale compresa tra due limiti qualunque z1 e z2 (corrispondente alle aree). adattamento Maggiore interesse riveste la tavola relativa alle probabilità totali comprese tra due valori di z. In generale, poiché la distribuzione è simmetrica, la tavola contiene solo i valori delle probabilità comprese tra zero e z. Tav. della distribuzione della normale standardizzata Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Con questa tavola è possibile calcolare le probabilità corrispondenti a qualunque intervallo di z. Tavola - distribuzione normale standardizzata Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento x 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 0 0 0.0398 0.0793 0.1179 0.1555 0.1915 0.2257 0.258 0.2882 0.3159 0.3414 0.3643 0.3849 0.4032 0.4192 0.4332 0.01 0.004 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2612 0.291 0.3186 0.3438 0.3665 0.3888 0.4049 0.4207 0.4345 0.02 0.008 0.0478 0.0871 0.1255 0.1627 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.03 0.012 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3906 0.4082 0.4236 0.437 0.04 0.016 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2996 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.05 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.329 0.3531 0.3749 0.3943 0.4115 0.4265 0.4394 0.06 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.377 0.3962 0.4131 0.4278 0.4406 Esempio 1: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma All’esame finale di stato, la media dei voti è stata 72 e lo scarto quadratico medio 15. Determinare i valori standard (cioè i voti con unità di misura data dallo scarto quadratico medio) dei voti (a) =60 (b) =93 (c) =72 Soluzione (a): adattamento (a) ⇒ (b) ⇒ (c) ⇒ X − X̄ 60 − 72 = = −0.8 s 15 93 − 72 X − X̄ = = 1.4 z= s 15 72 − 72 X − X̄ = =0 z= s 15 z= Esempio 2: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Calcolare l’area sotto la curva normale dato che Z=0; e Z=1.2 P(0 ≤ z ≤ 1.2) dalle tavole della distribuzione normale e verificando in corrispondenza colonna 0 e riga 1.2 incrociando avremo il valore 0.3849, che rappresenta l’area richiesta Esempio 3: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Calcolare l’area sotto la curva normale dato che Z=-0.68; e Z=0 P(−0.68 ≤ z ≤ 0) dalle tavole della distribuzione normale e verificando nella colonna z in corrispondenza del valore 0.6 e da qui procedere sulla riga fino alla colonna 8 incrociando avremo il valore 0.2517, che rappresenta l’area richiesta. Esempio 4: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Calcolare l’area sotto la curva normale dato che Z=-0.46; e Z=2.21 L’area richiesta è quella compresa tra z=-0.46 e z=0 più quella compresa tra 0 e 2.21. Dalle tavole si evince che l’area compresa tra 0 e 0.46 è pari a 0.1772, mentre l’area compresa tra 0 e 2.21 è pari a 0.4864; per cui l’area richiesta sarà data da: 0.1772+0.4864=0.6636 Esempio 5: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Calcolare l’area sotto la curva normale dato che Z=0.81; e Z=1.94 L’area richiesta è quella compresa tra z=0 e z=1.94 alla quale va sottratta l’area compresa tra z=0 e z=0.81. Dalle tavole della normale si evince che l’area compresa tra 0 e 1.94 è pari a 0.4738; l’area compresa tra 0 e 0.81 è pari a 0.2910. Pertanto l’area richiesta sarà pari a: 0.4738-0.2910=0.1828. Esempio 6: Lezione del 16 Novembre Maurizio Mondello orario La lunghezza media di 500 foglie di lauro di un certo cespuglio è di 15.1 cm e lo scarto quadratico medio è pari a 1.5 cm. Assumendo che le lunghezze siano distribuite normalmente,determinare: 1 quante lunghezze sono comprese tra 12 cm e 15.5 cm Probabilità es. prob 2 quante sono maggiori di 18.5 cm distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento considerata l’approssimazione è lecito assumere che le lunghezze comprese tra 12 e 15.5cm possano assumere un valore compreso tra 11.95 cm e 15.55cm. Occorre per prima cosa determinare le unità standard (i valori di z): Z= X − X̄ s = = 11.95 − 15.1 = −2.1 z11.95 = −2.1 1.5 15.5 − 15.1 = 0.3 z15.5 = 0.3 1.5 Esempio 6: Lezione del 16 Novembre Maurizio Mondello orario la proporzione di foglie richiesta sarà data dall’area compresa tra z = −2.10 e z = 0.30. Tale area è uguale all’area compresa tra -2.10 e 0 più l’area compresa tra 0 e 0.3 cioè 0.4821 + 0.1179 = 0.60 Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Pertanto il numero di foglie di lunghezza compresa tra 12 e 15.5 cm è dato da: 500 × (0.6) = 300 Esempio 6.b: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob Le foglie più lunghe di 18.5cm devono misurare almeno 18.5cm; determiniamo il valore di z18.5 : Z= X − X̄ 18.5 − 15.1 = = 2.3 z18.5 = 2.3 s 1.5 distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento la proporzione richiesta sarà data dall’area maggiore di Z=0 meno l’area compresa tra 0 e 2.3; cioè 0.5 − 0.4893 = 0.0107 per cui le foglie più lunghe di 18.5cm saranno: 500 × (0.0107) = 5 Esempio 7 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento I voti in questionario di statistica II andavano dall’1 al 10, secondo il numero di risposte date a 10 domande. Il voto medio è stato 6.7 e lo scarto quadratico medio è stato di 1.2. Supponendo che i voti siano distribuiti normalmente, determinate: 1 la percentuale di studenti che ha ottenuto il voto 6; 2 il voto massimo del peggior 10% della classe; 3 il voto minimo del miglior 10% della classe. determiniamo per prima cosa i valori di z5.5 e z6.5 Lezione del 16 Novembre Maurizio Mondello i dati sono discreti ed occorre trattarli come se fossero continui, per cui non si considera il voto 6 bensì il voto compresi tra 5.5 e 6.5 orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Z= X − X̄ s = = 5.5 − 6.7 = −1 z5.5 = 1.0 1.2 6.5 − 6.7 = −0.17 z5.5 = −0.17 1.2 Indici di forma adattamento La proporzione richiesta è l’area compresa tra Z=-1 e Z=-0.17, cioè l’area -1 e 0 meno l’area compresa tra -0.17 e 0 pertanto sarà uguale a 0.3413-0.0675=0.2738 (il 27%) soluzione Si ponga X1 uguale al voto massimo richiesto e z1 il corrispondente valore di Z. Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento dato che l’area a sinistra di z1 vale il 10% essa è uguale a 0.1. L’area compresa tra z1 e 0 è uguale a 0.40, e z1 dalle tavole è approssimativamente uguale a -1.28 −6.7 Ricordando che z1 = X11.2 = −1.28 ricaviamo che X1 = 5.2 che approssimando per difetto è pari a 5 cioè il voto massimo del peggior 10%.Analogamente si pone X2 il voto minimo richiesto e z2 per la simmetria sarà uguale a 1.28, da cui X2 = 8.2 ed il voto richiesto è 8. Esempio 1: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Data una distribuzione normale standardizzata calcolare le probabilità comprese tra z = 0 e z1 = 0.31 Soluzione: Dalla tavola si ricava immediatamente che: Z 0.31 1 2 1 √ e − 2 z dz = 0.1217 P(0, +0.31) = 2π 0 Esempio 2: Lezione del 16 Novembre Maurizio Mondello Data una distribuzione normale standardizzata calcolare le probabilità comprese tra z = −2 e z1 = 1.55 orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Soluzione:La probabilità cercata si può scrivere:P(−2; 1.55) = P(−2; 0) + P(0; 1.55) e dalla tavola si ricava che la P(−2; 0) = 0.4773 e la P(0; 1.55) = 0.439 da cui: R 1.55 1 2 P(0, +0.31) = −2 √12π e − 2 z dz = 0.473 + 0.439 = 0.9167 Esempio 3: Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob Il peso unitario di una partita di mele è distribuito in modo normale con media m = 2.10gr e s.q.m.s = 0.15gr . Qual è la percentuale di quella partita di mele che pesano più di 2.55 gr? Per determinare la probabilità che X sia > 2.55 si ricorre alla trasformata: distribuzioni es.binom es.poisson es.norm. 2.55−2.10 = 3e quindi P(X > 2.55) = P(z > 3) e dalla Z = X −µ σ = 0.15 tavola si ricava: Indici di forma adattamento P(0;3) = 0.4986 P(z > 3) = 0.5 − 0.4986 = 0.0014 Quindi la percentuale di mele di peso > 2.55gr . è lo 0.14%. Indici di forma Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Gli indici di forma descrivono le caratteristiche relative alla forma di una distribuzione. Sono indici espressi da numeri puri, indipendenti dalle unità di misura e riguardano la simmetria e l’appiattimento (o kurtosi) di una distribuzione. Simmetria:Una distribuzione si dice simmetrica quando esiste un valore di m, tale che, se si considerano due qualsiasi valori equidistanti da m, si trova che hanno la stessa frequenza: Indici di forma adattamento f (m + x) = f (m − x) Una distribuzione che non gode di questa proprietà è detta asimmetrica Per valutare l’asimmetria di una distribuzione, si possono usare misure dell’asimmetria assoluta e misure di asimmetria relativa. Gli indici di asimmetria assoluta si esprimono con le distanze tra la media e la moda o la mediana. Una misura assoluta, usata frequentemente, è la differenza (d) tra la media e la moda Lezione del 16 Novembre Maurizio Mondello d = media - moda d = 0 se la curva è simmetrica; orario d > 0 se la curva ha asimmetria positiva; d < 0 se la curva ha asimmetria negativa. Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento √ per il calcolo dell’indice √ di simmetria si ricorre all’indice β1 di 3 Pearson che è uguale a β1 = m σ 3 ove con m3 si indica il momento terzo di origine media aritmetica e con σ 3 lo scarto quadratico medio al cubo Questo indice è indipendente dall’unità di misura del fenomeno e quindi permette di fare confronti. l’indice √ β1 è nullo quando la distribuzione è simmetrica Kurtosi Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Quando si descrive la forma delle curve unimodali simmetriche, con il termine Kurtosi si intende il grado di appiattimento della distribuzione, rispetto ad una distribuzione normale. Nella valutazione della kurtosi, una distribuzione unimodale simmetrica è detta: mesocurtica quando ha forma uguale alla distribuzione normale; leptocurtica quando ha un eccesso di frequenza delle classi centrali, una frequenza minore delle classi intermedie ed una presenza maggiore delle classi estreme; è quindi una distribuzione più alta al centro ed agli estremi, è più bassa ai fianchi; platicurtica quando rispetto alla normale presenta una frequenza minore delle classi centrali e di quelle estreme, con una frequenza maggiore di quelle intermedie; è quindi una distribuzione più bassa al centro ed agli estremi mentre è più alta ai fianchi. L’indice di kurtosi più utilizzato è l’indice β2 = Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma m4 σ4 ove con m4 si indica il momento quarto di origine media aritmetica e con σ 4 lo scarto quadratico medio alla quarta, si ricorda che è analogo al (m2 )2 L’indice β2 sarà uguale a 3 per distribuzioni mesocurtiche, maggiore o minore di 3, rispettivamente, per distribuzioni leptocurtiche o platicurtiche. esempio adattamento xi ni (xi − x̄)2 ni (xi − x̄)3 (xi − x̄)3 ni (xi − x̄)4 (xi − x̄)4 ni 2 1 23.04 -110.59 -110.59 530.84 530.84 4 3 23.52 -21.95 -65.86 61.47 184.4 6 6 3.84 -0.51 -3.07 0.41 8 7 10.08 1.73 12.1 2.07 30.72 32.77 98.3 104.86 10 3 Tot 20 91.2 -69.12 2.46 14.52 314.57 1046.79 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob 2 si ricava x̄ = 136 20 = 6.8, la Moda Mo = 8; σ = 4.56; σ = 2.13; −69.12 1046.76 m3 = 20 = −3.46;m4 = 20 = 52.34 L’indice di asimmetria assoluta d è dato da: d = x̄ − Mo ⇒ 6.8 − 8 = −1.2 cioè la curva presenta asimmetria negativa distribuzioni es.binom es.poisson es.norm. L’indice di asimmetria √ β1 è uguale a: Indici di forma adattamento p β1 = m3 −3.46 = = −0.36 la curva ha asimmetria negativa 3 σ 2.133 L’indice di Kurtosi β2 β2 = m4 52.34 = = 2.52 platicurtica poichè β2 < 3 4 σ 2.134 Adattamento alla normale Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Classi d’età <1 1−2 2−3 3−4 4−5 5−6 6−7 7 − 10 tot intervalli 0 <= X 1 <= X 2 <= X 3 <= X 4 <= X 5 <= X 6 <= X 7 <= X <1 <2 <3 <4 <5 <6 <7 <10 yi xc yrel est. Sup xiyi 0.93 3.82 4.86 5.09 13.3 30.1 24.78 17.12 100 0.5 1.5 2.5 3.5 4.5 5.5 6.5 8.5 0.0093 0.0382 0.0486 0.0509 0.133 0.301 0.2478 0.1712 1 1 2 3 4 5 6 7 10 0.465 5.73 12.15 17.815 59.85 165.55 161.07 145.52 568.15 5.6815 x̄= Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento (x − x̄)2 yi Z 24.97 66.79 49.19 24.22 18.57 0.99 16.60 -2.548 0.5-0.4946= 0.0057 -2.004 0.5-0.4772= 0.0228 -1.459 0.5-0.4279= 0.0721 -0.915 0.5-0.3212= 0.1788 -0.371 0.5-0.1443= 0.3557 0.173 0.5+0.0675= 0.5675 0.717 0.5+0.2642= 0.7642 2.351 0.5+0.4906= 0.9946 m √3 = β1 3.8331 0.6186 sim 136.001 s= 1.836 P(Z < z) fˆ 0.005 0.018 0.052 0.109 0.172 0.212 0.19 0.229 (x − x̄)3 yi (x − x̄)4 yi -129.37 -279.29 -156.50 -52.84 -21.93 -0.17 13.58 670.35 383.31 1080.37 m4 = β2 10.803 0.949 kurt 1167.86 497.92 115.27 25.91 0.032 11.12 Si rammenta che la P(Z < z) può essere più semplicemente calcolata utilizzando le apposite tavole pag 163 del libro di testo, applicando le formule:P(Z ≤ k) = 0.5 + 0.5 × P(Z ≤ k) per k > 0 e P(Z < −k) = 0.5 − 0.5 × P(Z ≤ k) Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob In un esperimento viene misurato il diametro del fusto di una pianta. La misura viene effettuata tenendo il cavalletto in posizione perpendicolare al fusto ad una altezza dal terreno di 1,30m con una precisione non superiore al cm. Nell’autunno del 1999 sono stati misurati i diametri (D) di 1887 Abeti rossi (Picea Abiens) presenti in una zona di bosco a San Vito di Cadore. Le misure sono le seguenti: distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento D 18 19 20 21 22 23 24 25 26 27 yi 21 47 34 69 74 52 46 28 49 40 D 28 29 30 31 32 33 34 35 36 37 yi 43 48 51 65 76 64 72 33 32 59 D 38 39 40 41 42 43 44 45 46 47 yi 45 41 43 49 45 42 39 40 47 35 D 48 49 50 51 52 53 54 55 56 57 yi 38 26 31 46 48 23 39 30 29 16 D 58 59 60 61 62 63 64 65 66 67 yi 17 23 12 14 10 11 4 3 0 4 D 68 69 70 71 72 73 74 75 76 77 yi 7 1 5 0 6 9 0 4 0 2 Quesiti Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento Si svolga un’analisi preliminare dei dati in modo da sintetizzare l’informazione raccolta. Di solito, per dati riferiti al diametro del fusto, l’informazione disponibile è già parzialmente sintetizzata attraverso l’uso di classi (chiamate classi diametriche) di ampiezza 5cm centrate nei valori: 20, 25, 30, ..., 65, 70, 75. Si costruisca questo nuovo insieme di dati e si svolga l’analisi come al punto precedente. Quali sono le differenze riscontrate nell’analisi tra i due insiemi di dati (originale e parzialmente sintetizzato). Si cerchi di spiegarne i motivi. Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento classe 18-22 23-27 28-32 33-37 38-42 43-47 48-52 53-57 58-62 63-67 68-72 73-77 xc 20 25 30 35 40 45 50 55 60 65 70 75 yi 245 215 283 260 223 203 189 137 76 22 19 15 p 0.13 0.114 0.15 0.138 0.118 0.107 0.1 0.073 0.04 0.012 0.01 0.008 Lezione del 16 Novembre Maurizio Mondello orario Probabilità es. prob distribuzioni es.binom es.poisson es.norm. Indici di forma adattamento fcum 245 460 743 1003 1226 1429 1618 1755 1831 1853 1872 1887 (x − x̄) -17.811 -12.811 -7.811 -2.811 2.189 7.189 12.189 17.189 22.189 27.189 32.189 37.189 (x − x̄)2 317.244 164.130 61.017 7.904 4.790 51.677 148.563 295.450 492.337 739.223 1.036.110 1.382.996 (x − x̄)2 yi 77724.746 35288.047 17267.824 2054.946 1068.221 10490.395 28078.485 40476.651 37417.582 16262.910 19686.086 20744.946