STATISTICA (2) – ESERCITAZIONE 3 12.02.2014 Dott.ssa Antonella Costanzo Esercizio 1. Distribuzioni doppie di probabilità: applicazioni E’ stata svolta un’indagine per studiare la relazione tra abitudine a praticare uno sport e spesa per tabacchi tra giovani studenti. La seguente tabella a doppia entrata riporta la distribuzione congiunta relativa ai caratteri Y=spese mensili per tabacchi (valori centrali delle classi in centinaia di euro) e X= abitudine a praticare uno sport (Si=1, No=0): 2 2.75 3.25 4 0 0.12 0.15 0.15 0.19 0.61 1 0.16 0.09 0.08 0.06 0.39 0.28 0.24 0.23 0.25 1 X=Sport| Y=Spesa Calcolare: a) Calcolare i valori attesi condizionati della Y , per X = 0 e X = 1, e confrontarli con il valore atteso marginale (verificare la proprietà di associatività); b) calcolare le varianze condizionate della Y e verificare la proprietà di scomposizione della varianza; c) Valutare se le variabili casuali X e Y sono indipendenti. Soluzione a) Valore atteso della distribuzione marginale di Y = = = . = 20.28 + 2.750.24 + 3.250.23 + 40.25 = . 1 Distribuzione condizionata di Y per X=0,1 2 2.75 3.25 4 0 0.197 0.246 0.246 0.311 1 1 0.410 0.231 0.205 0.154 1 X=Sport| Y=Spesa Valore atteso condizionato di Y per X=0,1 |! = 0 = = "! = 0 |! = 0 = 0.197 ∗ 2 + 0.246 ∗ 2.75 + 0.246 ∗ 3.25 + 0.311 ∗ 4 = 3.114 |! = 1 = = "! = 1 |! = 1 = 0.410 ∗ 2 + 0.231 ∗ 2.75 + 0.205 ∗ 3.25 + 0.154 ∗ 4 = 2.7375 Verifica della proprietà del valore atteso reiterato (Equivalente della proprietà di associatività della media aritmetica) |! = ! = 0|! = 0 + ! = 1|! = 1 = 0.61 ∗ 3.114 + 0.39 ∗ 2.7375 = . b) Le varianze condizionate risultano le seguenti: - '()|! = 0 = * − |! = 0, = |! = 0 '()|! = 0 = 2 − 3.114- ∙ 0.197 + 2.75 − 3.114- ∙ 0.246 + 3.25 − 3.114- ∙ 0.246 +4 − 3.114- ∙ 0.311 = 0.53 2 - '()|! = 1 = * − |! = 1, = |! = 1 '()|! = 1 = 2 − 2.7375- ∙ 0.410 + 2.75 − 2.7375- ∙ 0.231 + +3.25 − 2.7375- ∙ 0.205 + 4 − 2.7375- ∙ 0.154 = 0.52 Nota: in analogia al caso non condizionato, la varianza condizionata può essere espressa come la seguente differenza: '()| = / = 0 - |! = /1 − 0|! = /1- Verifica della proprietà di scomposizione della varianza: '() = '()2 + '()3 dove: '() = - − 01- = 4. 56 - '()2 = '()|! = /7 ∗ ! = / = 0.53 ∗ 0.61 + 0.52 ∗ 0.39 = 0.5261 7 - '()3 = 0|! = /7 − 1- ! = / 7 Verificare che: = 3.114 − 2.9675- ∗ 0.61 + 2.7375 − 2.9675- ∗ 0.39 = 0.033 0.5261 + 0.033 = 4. 56 = '() c) In caso di indipendenza tra X e Y dovrebbe verificarsi che: = "! = 0 e = "! = 1 sono uguali alla distribuzione marginale P(Y). Nel nostro caso non vale la relazione, per cui X e Y non sono indipendenti. Nota: Alternativamente è possibile verificare l’indipendenza tra X e Y sfruttando l’interpretazione probabilistica dell’indice 8 - . 3 Esercizio 2. TLC: Approssimazione della v.c. binomiale relativa alla normale Una fabbrica di scatole di cartone evade il 96% degli ordini entro un mese. Estraendo 300 campioni casuali di 300 consegne, in quale proporzione di campioni la percentuale di ordini evasi entro questo termine: a) E’ compresa fra il 96% e il 99% b) È superiore al 99% Soluzione a) La proporzione di ordini evasi segue una distribuzione binomiale (relativa) 9: = ~=>;;, ; con Y=numero di ordini evasi e parametri n=300 e = 0.96 Occorre determinare: 0.96 ≤ 9: ≤ 0.99 essendo n sufficientemente grande, per il TLC, è possibile sfruttare un’approssimazione normale, per cui: 9: DEF G, ABC 0.96 ≤ 9: ≤ 0.99 = I H 1 − ; 0.96 − 0.96 J0.961 − 096 300 ≤K≤ 0.99 − 0.96 M= J0.961 − 096 L 300 = 0 ≤ K ≤ 2.65 = K ≤ 2.65 − K ≤ 0 = 0.9960 − 0.5 = 0.4960 b) IK ≥ H 0.99 − 0.96 M = 1 − K ≤ 2.65 = 1 − 0.9960 = 0.0040 J0.961 − 096 L 300 4 Esercizio 3 (Scozzafava). Applicazioni del T.L.C. Una ferrovia metropolitana è servita da treni costituiti da 5 carrozze non comunicanti. Alla partenza 150 passeggeri scelgono a caso una delle carrozze. Determinare il numero (minimo) di posti a sedere che devono essere disponibili su ciascuna carrozza affinché la probabilità che restino viaggiatori in piedi sia minore di 0.01. Soluzione Si indichi con C una qualunque delle 5 carrozze e sia 7 l’evento il passeggero >-esimo sale sulla carrozza C > = 1,2, … ,5. La scelta a caso corrisponde a supporre indipendenti ed equiprobabili, con probabilità = P questi 150 eventi. Il numero di successi, cioè il numero di passeggeri che sale su C è dato da: QPR = + - + ⋯ + PR Indichiamo con x il numero di posti a sedere. Quindi restano viaggiatori in piedi se per il numero x di posti a sedere, si ha / < QPR . Si richiede quindi che: QPR > / < 0.01 Equivalentemente: QPR ≤ / ≥ 0.99 Le variabili 7 sono indipendenti e identicamente distribuite come Bernoulli con i momenti: 7 = = P e '()7 = 1 − = -P per cui: QPR = 7 ~=>;;, 7 infatti la somma di n v.c. i.i.d. bernoulliane con lo stesso parametro p è una v.c. binomiale di parametri n e p. 5 Tuttavia, essendo n sufficientemente grande, per il T.L.C. è ulteriormente possibile approssimare QPR ad una Normale: QPR DEEF G V = ;, W - = ;1 − A.B.C. QPR DEEF G30, 24 A.B.C. Risolvere QPR ≤ / ≥ 0.99 equivale a determinare, dalle tavole della Normale standardizzata, il percentile della distribuzione che lascia a destra una probabilità di 0.01. Sfruttando la proprietà di simmetria della v.c. Normale dalle tavole risulta che il valore z che si lascia a destra una probabilità 0.01 è, approssimando: XR.YY = 2.335 Infine si ricava il valore di x: / = V + XR.YY W = 30 + 2.335 ∙ √24 ≅ 42 Su ogni carrozza devono essere disponibili almeno 42 posti a sedere. 6