STATISTICA E CALCOLO DELLE PROB. Martedì 15 novembre 2011 1a P.I. AA 2011/2012 Aula VS.9 ore 13.00 Prof. Cesare Svelto Tempo a disposizione 1 ora 50 min (40+25+25+20) Cognome e nome: ___________________________________ _____________________ Matricola e firma __ __ __ __ __ __ (stampatello) _____________________(firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 (10+8+8+7 = 33p) (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. SOLUZIONI Esercizio 1 (tempo stimato 40 minuti) (svolgere su questo foglio e sul retro) 1) La notte del 31 dicembre in una clinica ospedaliera nascono 7 bambini maschi con peso (massa): m = X (g) = 3230, 3210, 3160, 3470, 2990, 3210, 3130 1a) Si calcolino media, mediana, moda, e quartili del campione considerato. 1b) Si ricavi la dinamica interquartile e si disegni il box-plot dai dati. 1c) Dopo avere ricavato le corrispondenti tabelle di frequenza (sia assoluta che relativa), si disegnino gli istogrammi della frequenza relativa (sia come frequenza normale che come frequenza cumulativa) per i dati. 1d) Si riporti la formula e si calcoli la varianza campionaria dei dati. Si spieghi che cosa rappresenta questa statistica/stimatore. 1e) Si ricavi la tabella della frequenza cumulativa osservata F*(xj) per i dati considerati e il corrispondente grafico di probabilità cumulativa, F*(xj) vs xj, su semplici scale lineari. Cosa si può osservare dal grafico? Si standardizzi l’asse delle ascisse ottenendo xjx*j e si ri-scali l’asse delle ordinate in valori zj ricavati dalla cumulativa della gaussiana standard: si riporti la nuova tabella e si disegni il nuovo grafico. Cosa si può osservare da quest’ultimo grafico? 1f) Si ricavi la retta di regressione ai minimi quadrati dell’ultimo grafico rappresentato e la si aggiunga al disegno precedente. Se non si riesce a completare questo punto, si spieghi che cosa si intendeva fare e con quale scopo. 1g) Dai diversi grafici ottenuti, cosa (e come? e perché?) si può dedurre sulla gaussianità dei dati? 1f-BIS) In alternativa alla prima parte del punto 1f), si ricavi la retta di regressione ai minimi quadrati per il seguente traffico dati nel tempo: tempo (settimane);traffico (GB) 1;1.5, 3;5, 4;7.5, 8;14,5, 10;18, 15;26.5. Si disegni il grafico dei punti osservati e della retta di regressione. Dalla pendenza della retta si ricavi il tasso di incremento del traffico su base giornaliera e si spieghi il significato del termine noto. NOTA: Si ricorda che il coefficiente angolare ed il termine noto della retta di regressione ai minimi quadrati si calcolano come: m n xi yi xi y i n x xi 2 2 i b x y x x y y m x n n x x 2 i i 2 i i i i i i 2 i 1a) media campionaria = x 1 n xi 3200 g n i 1 la mediana è il valore che divide in due parti uguali il campione (50% dei dati sotto e 50% dei dati sopra); essendo in numero di dati n=7 un numero dispari, la mediana, o 50-esimo percentile, coinciderà con un dato nel campione e in particolare il dato centrale del campione ordinato: Xordin (g) = 2990, 3130, 3160, 3210, 3210, 3230, 3470 l’indice di posizione della mediana è I50% = (7+1)50/100 = 4, quindi il 50-esimo percentile coincide con il 4° dato del campione ordinato ed è mediana = Q2 = 3210 g _______ Pag. 1/10 la moda è il dato che compare più di frequente e dunque: moda = 3210 g Il primo quartile è il 25-esimo percentile, con I1Q = (7+1)25/100 = 2, quindi il primo quartile, ovvero il 25-esimo percentile, coincide con il 2° dato del campione ordinato ed è Q1 = 3130 g Il terzo quartile è il 75-esimo percentile, con I3Q = (7+1)75 /100 = 6, quindi il terzo quartile, ovvero il 75-esimo percentile, coincide con il 6° dato del campione ordinato ed è Q3 = 3230 g 1b) Per disegnare il box-plot, ricaviamo prima la dinamica interquartile: DIQ=Q3-Q1=100 g I baffi si possono estendere fino a 1.5DIQ = 150 s dal quartile basso (quindi fino 2980 g verso il basso, sotto il 25-esimo percentile) e così pure dal quartile alto (quindi fino a 3380 g in alto, sopra il 75-esimo percentile) Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il loro limite di posizione: in questo caso sino al dato 1 (baffo inferiore) pari a 2990 g, e sino al dato 6 (baffo superiore) pari a 3230 g. Minimo dato=2990 g. Massimo dato=3470 s In figura sono riportati anche i punti osservati nel campione; c’è un outlier. 1c) Possiamo dividere i dati in 5 classi di peso, larghe 100 g ciascuna. Così si ottengono le seguenti tabelle di frequenza: (g) (1) m freq.ass. 2900-2999 1 3000-3199 2 3200-3299 3 3300-3399 0 3400-3499 1 (1) freq.rel. 14.3% 28.6% 42.9% 0.0% 14.3% (g) (1) m cum.ass. 2900-2999 1 3000-3199 3 3200-3299 6 3300-3399 6 3400-3499 7 (1) cum.rel. 14.3% 42.9% 85.7% 85.7% 100.0% _______ Pag. 2/10 1d) La varianza campionaria è definita e si calcola come: n ( xi x ) 2 varianza campionaria = s2 i 1 = 20 766.7 g2 n 1 La varianza campionaria è uno stimatore non polarizzato della varianza della popolazione. È una misura/indicatore del grado di dispersione della popolazione attorno alla media. 1e) Cominciamo col rappresentare i dati ordinati in una tabella con un indice i progressivo da 1 a n (Tabella a sinistra). Subito dopo, raggruppiamo in un unica elemento/cella i valori che occorrono più volte e rappresentiamo la tabella con i valori xj, la loro frequenza di occorrenza F(xj) e la corrispondente frequenza cumulativa osservata F*(xj)=[F(xj)-0.5]/n (Tabella al centro). (1) i 1 2 3 4 5 6 7 (g) xj 2990 3130 3160 3210 3230 3470 (g) m 2990 3130 3160 3210 3210 3230 3470 (1) j =F (x j ) 1 2 3 5 6 7 (1) F * (x j ) 0.07 0.21 0.36 0.64 0.79 0.93 (1) x *j -1.46 -0.49 -0.28 0.07 0.21 1.87 (1) zj -1.47 -0.80 -0.36 0.74 0.81 1.48 (j -0.5)/7 (x j -m )/s da f (z j )=f (x j )=F *(x j ) Il grafico di probabilità corrispondente (su semplici scale lineari) è: 1.00 0.90 0.80 0.70 0.50 * F (xj ) 0.60 0.40 0.30 0.20 0.10 0.00 2900 3000 3100 3200 3300 3400 3500 x *j Con un po’ di impegno e fantasia, avendo aggiunto ai punti anche la curva punteggiata in grigio, il grafico con la cumulativa dei dati (frequenza cumulativa osservata F*(xj) per i dati in funzione dei dati xj) ricorda la cumulativa di una gaussiana. Come passo successivo standardizziamo le ascisse mediante l’operazione x*j=(xj-m)/s, dove utilizzeremo m= x =3200 g e s=s=144 g. Quindi ricostruiamo le ordinate prendendo i valori zj dalla Tabella dei valori f(zj)=f(xj)=F*(xj).dopo, raggruppiamo in un unica elemento/cella i valori che occorrono più volte e rappresentiamo la tabella con i valori xj, la loro frequenza di occorrenza F(xj) e la corrispondente frequenza cumulativa osservata F*(xj)=[F(xj)-0.5]/n (Tabella al centro). _______ Pag. 3/10 (1) i 1 2 3 4 5 6 7 (g) xj 2990 3130 3160 3210 3230 3470 (g) m 2990 3130 3160 3210 3210 3230 3470 (1) j =F (x j ) 1 2 3 5 6 7 (1) F * (x j ) 0.07 0.21 0.36 0.64 0.79 0.93 (1) x *j -1.46 -0.49 -0.28 0.07 0.21 1.87 (1) zj -1.47 -0.80 -0.36 0.74 0.81 1.48 (j -0.5)/7 (x j -m )/s da f (z j )=f (x j )=F *(x j ) Il grafico di probabilità sulle nuove scale normalizzate o ri-scalate è: 2.00 1.50 1.00 zj 0.50 0.00 -0.50 -1.00 -1.50 -2.00 -2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00 x *j Aggiungendo ai punti la retta a 45° (bisettrice 1°-3° quadrante) si osserva un buon allineamento, come dovrebbe essere se i punti provenissero da dati distribuiti in maniera gaussiana. 1f) Utilizzando le formule della regressione lineare ai minimi quadrati, dai dati (x*j,zj) dell’ultima Tabella(e anche dell’ultimo grafico) si ottiene: n xi yi xi y i yi m xi m= =0.93890.941 e b= =0.07750.10 2 2 n n xi xi 2.00 1.50 1.00 zj 0.50 0.00 -0.50 -1.00 -1.50 -2.00 -2.00 -1.50 -1.00 -0.50 0.00 0.50 1.00 1.50 2.00 x *j _______ Pag. 4/10 Lo scopo di disegnare un grafico di probabilità gaussiana su scale normalizzate e ri-scalate è di valutare se in tale diagramma i punti risultano, o meno, bene allineati con la bisettrice del 1°-3° quadrante (m=1 e b=0). Per dati perfettamente gaussiani i punti starebbero esattamente su tale retta. Se invece i punti sono lontani da tale andamento rettilineo, la gaussianità dei dati non è verificata. 1g) Dal grafico della frequenza cumulativa osservata F*(xj) per i dati in funzione dei dati xj, che assomiglia molto alla cumulativa della gaussiana, si può dedurre che i dati sono distribuiti in maniera normale (gaussiana) con buona approssimazione. Dal grafico di probabilità gaussiana, normalizzato e ri-scalato con zj in funzione di x*j, si osserva un buon allineamento dei punti, il che è indice di buona gaussianità dei dati di origine. Dal grafico della retta di regressione ai minimi quadrati sui punti zj in funzione di x*j, si ricava che tale retta ha una pendenza circa unitaria e offset circa zero, come previsto dalla teoria per dei dati di origine distribuiti in maniera gaussiana. Questi grafici aiutano a verificare, molto meglio di quanto si riesce a fare con le tabelle di frequenza e i relativi istogrammi, la gaussianità dei dati. 1f-BIS) Utilizzando le formule della regressione lineare ai minimi quadrati, dai dati del consumo in funzione del tempo si ottiene: n xi yi xi y i yi m xi m= =1.788631.79 GB/sett. e b= =-0.0556-0.56 GB 2 2 n n xi xi Il grafico è: 30 Traffico (GB) 25 20 15 10 5 0 0 5 10 15 20 Tempo (settimane) I punti risultano molto bene allineati (a indicare che il traffico cresce in maniera circa costante nel tempo) Dalla pendenza della retta di regressione si ricava che l’incremento medio giornaliero del traffico è di +1.79GB/sett./7giorni/sett.=+0.26 GB/giorno. Il termine noto della retta starebbe a significare il consumo al tempo zero (e naturalmente dovrebbe essere uguale a zero). Il fatto che tale parametro risulti negativo ma molto prossimo a zero non deve preoccupare in quanto il modello della retta è ben verificato dall’allineamento dei punti e l’intercetta per t=0, in particolare essendo quasi di valore nullo, in questo caso non ha un vero significato fisico. _______ Pag. 5/10 Esercizio 2 (25 minuti) (svolgere su questo foglio e sul retro) 2a) 2b) 2c) 2d) Sapendo che la potenza consumata da una lampada al neon segue una distribuzione normale, con valor medio pari a 50 W e varianza di 16 W2, si calcoli la probabilità che l’illuminazione di un’aula, che utilizza 25 di questi neon, richieda più di 1260 W. Questi neon sono abbastanza difettosi, mediamente 1 su 20 non funziona. Quanto vale la probabilità che, appena installati, nel locale ci siano 2 neon non funzionanti? Considerando tutte le aule di una sede universitaria, mediamente si brucia un neon ogni settimana. Giustificando la risposta, si valuti la probabilità che in 4 settimane si bruci più di 1 neon. Dobbiamo prevedere una stima di spesa su 10 anni, per il costo delle sostituzioni dei neon. Supponendo che le condizioni restino inalterate nel tempo, si stimi la probabilità di dover sostituire non più di 530 neon in 10 anni. 2a) Dato che i 16 neon hanno potenze che possiamo considerare statisticamente indipendenti, la variabile (sempre gaussiana) “potenza consumata da 16 neon” avrà valor medio e varianza pari rispettivamente a m =2550 W= 1250 W e s 2 = 2516 W2 =400 W2 (si vedano gli appunti sulla combinazione lineare di variabili statisticamente indipendenti). Per calcolare la probabilità standardizziamo la variabile casuale gaussiana, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una variabile xm normale standard (VNS). Ricordiamo che z è la VNS ricavata da x. s 1260 m 1260 1250 P( x 1260) P z P z P( z 0.5) 1 P( z 0.5) 30.85% s 20 2b) Dato che ogni prova è un processo di Bernoulli (o è guasto oppure non lo è, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x termosifoni guasti (“successo”) su n segue la distribuzione binomiale, con probabilità di successo p =0.05: n 25 2 P(2 successi su 20 prove ) p x (1 p) n x 0.05 (0.95) 25 2 23 % x 2 n 25 25! 25 24 n! avendo ricordato che e dunque =300 2 1 x x!(n x)! 2 23!2! 2c) In prima approssimazione possiamo utilizzare una statistica poissoniana, in quanto i neon sono molti, ognuno con una probabilità di rottura in un determinato istante molto bassa. Inoltre in prima approssimazione il singolo evento di rottura si può considerare scorrelato dagli altri. e x , x 0,1,2... La funzione di probabilità di una variabile poissoniana X vale f ( x) x! con valor medio m = e varianza s2 = . Nel caso considerato, il valor medio vale = 1 neon/settimana 4 settimane = 4 neon. La probabilità che si bruci più di 1 neon in 4 settimane vale: e 4 4 0 e 4 41 P( x 1) 1 P( x 0) P( x 1) 1 1 0.018 0.073 90.9% 0! 1! 2d) Data la complessità del calcolo tramite la formula della poissoniana (che richiederebbe di calcolare e sommare più di 500 probabilità elementari), decidiamo di sfruttare l’approssimazione gaussiana. Valor medio e varianza valgono m =s2 = = 5210 = 520 (le settimane in un anno sono 52). L’approssimazione è valida in quanto >>5. Calcoliamo quindi la probabilità tramite standardizzazione, considerando che l’approssimazione è più precisa se si sceglie come estremo dell’intervallo di integrazione il valor medio tra l’ultimo valore escluso ed il primo accettato: _______ Pag. 6/10 530.5 m 530.5 520 P( z 0.46) 67.7 % P( x 530.5) P z P z s 520 In effetti il calcolo esatto tramite la distribuzione poissoniana (effettuato a calcolatore) fornisce una probabilità pari a 67.9%, in ottimo accordo con l’approssimazione effettuata. _______ Pag. 7/10 Esercizio 3 (25 minuti) (svolgere su questo foglio e sul retro) 3) Intendiamo verificare la durata della batteria di un telefono cellulare. La ditta produttrice dichiara un valore medio di 160 ore. Effettuiamo misure su un campione di 20 cellulari, ottenendo un valor medio di 150 ore e una deviazione standard campionaria pari a 25 ore. 3a) Si effettui un test statistico, con livello di significatività pari all’1 %, con lo scopo di verificare se la durata della batteria è inferiore a quella dichiarata dalla casa produttrice. 3b) Se la deviazione standard fosse stata ricavata da uno studio statistico su centinaia di cellulari di quel tipo, ottenendo un valore di 18 ore, che cosa sarebbe cambiato? Si ripeta il test. 3a) Effettuiamo un test t (verifica del valor medio con varianza non nota, perché da “soli” 20 dati utilizzare la varianza campionaria per stimare la varianza della popolazione non è attendibile). 1. Il parametro di interesse è la durata media m 2. H0: m = 160 ore 3. H1: m < 160 ore (il test è a un lato solo, in quanto vogliamo dimostrare che la durata media è inferiore a quella dichiarata) 4. livello di significatività richiesto = 0.01 (attenzione, su un solo lato) 5. La statistica di test è ora la statistica t: t 0 X m X m sX s/ n 6. Rifiutiamo H0 se t0 < -t,19 = -2.539 (questo risultato si ricava dalla tabella dei punti percentuale della distribuzione t, con = 19 e = 0.01) 7. Calcoliamo quindi t0, t 0 X m X m 150 160 1.789 sX s/ n 25 / 20 8. Conclusione: dato che t0 = -1.789 > -2.539 non possiamo rifiutare l’ipotesi nulla con livello di significatività 0.01. 3b) In questo caso la varianza sarebbe stata molto più attendibile, per cui avremmo effettuato un test Z, considerando s = s. 1. Il parametro di interesse è la durata media m 2. H0: m = 160 ore 3. H1: m < 160 ore 4. livello di significatività richiesto = 0.01 5. La statistica di test è la statistica Z: z0 X m sX X m s/ n 6. Rifiutiamo H0 se Z < Z -2.326. Questo risultato si ricava dalla tabella della funzione cumulativa (z) in corrispondenza di un valore di probabilità = 0.01. 7. Calcoliamo quindi z0, z 0 X m sX X m s/ n 150 160 2.484 18 / 20 8. Conclusione: dato che z0=-2.484 < Z -2.326 rifiutiamo l’ipotesi nulla con livello di significatività 0.01: c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Come si può notare il procedimento è identico a prima, cambiano solo la deviazione standard e il valore critico, in quanto la distribuzione di probabilità normale decade più velocemente della t di Student. _______ Pag. 8/10 Esercizio 4 (20 minuti) (svolgere su questo foglio e sul retro) 4) Come mostrato in figura, un generatore di corrente eroga una corrente continua, I=20 mA con incertezza U(I)=2 mA per k=2, su un carico resistivo con resistenza R=200 e incertezza tipo del 10 %. 4a) Si ricavi la misura indiretta (valore, incertezza e anche incertezza relativa) della potenza P sviluppata sulla resistenza. 4b) In una misura indipendente della medesima potenza sul resistore indicato in figura, effettuata con un wattmetro digitale con risoluzione 25 mW, si ottiene PW=100 mW. Si discuta la compatibilità tra le due misure indipendenti. 4c) Si ricavi la miglior stima della potenza sul resistore e la sua incertezza tipo (assoluta e relativa). 4a) La potenza elettrica si ricava dalla relazione indiretta P=RI2=(200 )(200×10-3 A)2=8×10-2 W=80 mW. L’incertezza sulla corrente è u(I)=U(I)/k=1 mA con una corrispondente incertezza relativa ur(I)=u(I)/I=(1 mA)/(20 mA)=5×10-2=5 % mentre ur(R)=10 %. Data la relazione funzionale a produttoria semplice, l’incertezza relativa composta sulla potenza è ur(P)=[u2r(R)+4u2r(I)]1/2=14 % ed infine l’incertezza assoluta è u(P)=ur(P)P110 mW. La misura indiretta della potenza è P=8011 mW=80(11) mW. 4b) Nella misura con wattmetro la risoluzione è PW=25 mW con una incertezza di quantizzazione u(PW)=PW/ 12 7.2 mW e dunque Pw=100.07.2 mW=100.0(72) mW. La compatibilità tra le due misure di potenza, assunte indipendenti, viene valutata con il criterio di compatibilità standard: P Pw k u 2 ( P) u 2 ( Pw ) che, esprimendo i valori in milliwatt, si può scrivere come 20k 112 7.22 k×13.4 da cui si ricava k1.49 le due misure sono compatibili per k=2 e, a maggior ragione, anche per k=3 mentre non risultano compatibili per k=1. 4c) La miglior stima della misura si ottiene dalla media pesata delle misure compatibili: _______ Pag. 9/10 P P 2 w u ( P) u ( Pw ) Pstima=PMP= =94.2 mW 1 1 u 2 ( P) u 2 ( Pw ) 2 con una incertezza (tipo) della media pesata: 1 u(PMP)= =6.1 mW 1 1 u 2 ( P) u 2 ( Pw ) mentre la corrispondente incertezza relativa è: ur(PMP)=u(PMP)/PMP=6.5×10-2=6.5 %. _______ Pag. 10/10