STATISTICA E MISURAZIONE martedì 11 novembre 2003 Prof. Cesare Svelto Tempo a disposizione 2 ore e 30 minuti Prima prova in itinere AA 2003/2004 Aula V.S.8 ore 9.15 Cognome e nome: __________________________ _____________________ (stampatello) Matricola e firma __ __ __ __ __ __ _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 6 (crocettare) N.B. gli esercizi non crocettati non saranno corretti; quelli crocettati ma neanche iniziati comporteranno una penalità. Esercizio 1 (svolgere su questo foglio e sul retro) 1) a. Definire la media e la varianza campionaria e spiegare a che cosa servono queste statistiche. b. Dimostrare che sono stimatori non polarizzati del valor medio e della varianza di una popolazione. Soluzione: 1a) Se n osservazioni in un campione sono x1, x2, …, xn, la media campionaria è definita come 1 n x x ... xn x xi 1 2 n i 1 n n (x x) mentre la varianza campionaria è definita come s 2 2 i i 1 n 1 Queste statistiche servono a stimare il valor medio e la varianza della popolazione campionata. 1 n X X 2 ... X n 1 n 1b) E X E 1 EX i n n i 1 n i 1 n 2 (Xi X ) 1 1 n n E s 2 E i 1 E ( X i X ) 2 E X i2 nX 2 n 1 n 1 i 1 n 1 i 1 2 2 1 n 1 n 2 2 2 2 E ( X ) nE ( X ) n i n 1 n 1 i 1 n i 1 1 n 2 n 2 n 2 2 2 n 1 X n ricordando che i 1 X X i2 nX 2 , n i i 1 EX EX e infine E X n e inoltre E X 2 2 i i 2E X i E 2 2 2 2 i 2 2 2 _______ Pag. 1/6 Esercizio 2 (svolgere su questo foglio e sul retro) 2) Per valutare l’affidabilità di una CPU viene misurata la temperatura del microprocessore una volta al minuto per un quarto d’ora. Sono stati registrati i seguenti valori: Temperatura del microprocessore (°C): 43, 36, 39, 46, 70, 63, 58, 55, 59, 72, 29, 49, 51, 38, 49, 60. a. Calcolare la media e la varianza campionaria. b. Riportare i dati in un diagramma rami-e-foglie e da questo disegnare l’istogramma corrispondente. Dotplot for temperatura b. Rappresentare il box-plot della misura. Soluzione: Diagramma a punti (non richiesto) 30 40 50 60 70 temperatura media campionaria = x 1 n xi 51.06 °C n i 1 n varianza campionaria = s 2 (x x) i 1 i n 1 2 151.66 °C2 Diagramma rami e foglie, con N = 16 Foglie 9 689 3699 1589 03 02 4 Frequenza 1 3 4 4 2 2 3 Frequency Rami 2 3 4 5 6 7 ISTOGRAMMA 2 1 0 25 35 45 55 65 75 BOX PLOT: minimo=29 primo quartile= 40 mediana= 50 terzo quartile= 59.75 massimo=72 I baffi comprendono tutti i punti rimanenti, in quanto contenuti all’interno di 1.5 volte la dinamica interquartile. temperatura di un transistor temperatura di un transistor 70 60 50 40 30 _______ Pag. 2/6 Esercizio 3 (svolgere su questo foglio e sul retro) 3) Distribuzione di probabilità Poissoniana. a. Descrivere le proprietà della distribuzione di probabilità Poissoniana, indicando inoltre quale casistica di eventi tipicamente è descritta da questo tipo di distribuzione. b. Sapendo che il flusso di dati in una connessione IP segue una statistica poissoniana con valor medio di 400 kbyte al secondo, quanto vale la probabilità che in 1 s arrivi almeno 1 byte? c. Quanto vale invece la probabilità che in 10 s arrivino esattamente 4 byte? Soluzione: 2) La funzione di probabilità di una variabile poissoniana X vale f ( x) e x , x! x 0,1,2... il suo valor medio vale = e la sua varianza vale 2 = . Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in un dato intervallo di tempo. È possibile dimostrare che f(x) si ottiene matematicamente dalla distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo p è molto bassa, con = np. 3a) 3b) Il valor medio vale = 400'000 byte/s ∙ 10-6 s = 0.4 byte. La probabilità che arrivi almeno 1 byte è uguale a 1 meno la probabilità che non ne sia arrivato nessuno e 0 P( x 1) 1 P( x 0) 1 1 e 1 e 0.4 0.3297 32.97 % 0! Il valor medio in questo caso vale = 400'000 byte/s ∙ 10∙10-6 s = 4 byte. La probabilità che arrivino esattamente 4 byte è pari a e 4 e4 44 P( x 4) 0.1954 19.54 % 4! 4! _______ Pag. 3/6 Esercizio 4 (svolgere su questo foglio e sul retro) 4) Un fascio laser viene utilizzato per tagliare delle lamiere. La larghezza del solco (materiale asportato) è una variabile casuale a statistica gaussiana, con valor medio pari a 2.3 mm e scarto quadratico medio di 0.25 mm. a. Quanto vale la probabilità che il solco sia più largo di 3 mm? c. Quanto vale invece la probabilità che sia compreso tra 2 mm e 2.5 mm? c. (facoltativo) Rispetto alla posizione programmata, il sistema di taglio commette un errore di posizionamento (che si può considerare gaussiano e a media nulla) con deviazione standard di 0.2 mm. Ciascuna lamiera tagliata dovrebbe essere lunga 1 m (valore atteso che tiene conto della larghezza media del taglio). i. Quanto vale la probabilità che una lamiera sia lunga meno di 999.9 mm? ii. Se la tolleranza sulla lunghezza delle lamiere è pari a 0.5 mm, mediamente, quante lamiere su 1000 verranno scartate (in quanto fuori tolleranza)? Soluzione: 4a) 4b) 4c) Per calcolare la probabilità standardizziamo la variabile casuale gaussiana, sapendo che = 2.3 mm e = 0.25 mm, e ricorriamo quindi alla tabella dei valori della distribuzione cumulativa (z) per una x variabile normale standard (VNS). Ricordiamo che z è la VNS ricavata da x. 3 3 2.3 P( x 3) P z P z P( z 2.8) 1 P( z 2.8) 0.25 1 (2.8) 1 0.9974 0.26% Effettuiamo il calcolo ripetendo la standardizzazione: 2.5 2.5 2.3 2 2 2.3 P(2 x 2.5) P z z P 0.25 0.25 P( z 0.8) P( z 1.2) (0.8) (1.2) 0.78814 0.11507 67.31% La nuova variabile casuale è la larghezza della lamiera L, che si può ottenere come combinazione lineare delle due variabili X=“posizionamento” e W=“larghezza del solco”: L=X–W/2 Infatti, fissata la posizione centrale del taglio X, la larghezza della lamiera viene diminuita rispetto a X di metà della larghezza del solco (W / 2). Sia X che W hanno distribuzione gaussiana, per cui anche la variabile L sarà gaussiana. Il suo valor medio ci viene dato per ipotesi L = 1 m, dato che la posizione di puntamento tiene già in conto la larghezza del taglio, mentre la sua varianza è pari a: L2 = X2 + W2 /4 = 0.0556 mm2 da cui L = 0.236 mm i. Calcoliamo la probabilità tramite standardizzazione: 999.9 L 999.9 1000 P z P( L 999.9) P z P( z 0.4237) (0.4237) 33.6% 0 . 236 L ii. La probabilità di uscire dalla tolleranza vale: 999.5 L P( L 999.5) P( L 1000.5) 2 P( L 999.5) 2 P z L 999.5 1000 2 P z 2 P( z 2.12) 2(2.12) 2 0.0170 3.4% 0.236 Quindi mediamente verranno scartate 34 lamiere su 1000. _______ Pag. 4/6 Esercizio 5 (svolgere su questo foglio e sul retro) 5) In Piemonte piove mediamente due giorni a settimana. Consideriamo per semplicità che la probabilità di pioggia sia costante e indipendente da un giorno all’altro. a. Quanto vale la probabilità che in un mese di 30 giorni ci siano esattamente 8 giornate di pioggia? b. Quanto vale invece la probabilità che in un anno di 365 giorni piova per più di 100 giorni? Soluzione: 5a) Dato che ogni prova è un processo di Bernoulli (o piove o non piove, ovvero successo o insuccesso), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x giorni di pioggia su n segue la distribuzione binomiale, con probabilità di successo p =2/70.2857 (2 giorni piovosi su 7 giorni di settimana): n 30 8 P(8 successi su 30 prove ) p x (1 p) n x 2 / 7 (5 / 7)308 0.1585 15.85 % x 8 n n! avendo ricordato che e dunque x x!(n x)! 30 30! 30 29 28 27 26 25 24 23 =5852925 8 7 6 5 4 3 2 1 8 8!22! 5b) Data la complessità del calcolo tramite la formula della binomiale (che richiederebbe di calcolare e sommare 100 probabilità, con fattoriali dal valore molto alto), decidiamo di sfruttare l’approssimazione gaussiana della binomiale, con valor medio np104.286 e varianza np(1-p)74.5. L’approssimazione è valida in quanto sia np che n(1-p) sono molto maggiori di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5). Calcoliamo quindi la probabilità tramite standardizzazione: 100 np 100 104.286 P( x 100) P z z P( z 0.4966) 8.63 np(1 p) 1 P( z 0.4966) 1 (0.4966) 1 0.31 69 % Se si volesse un’approssimazione più precisa, bisognerebbe considerare l’intervallo di integrazione a partire da 100.5, in quanto si scarta il valore 100 e si accetta il valore 101, quindi: 100.5 np 100.5 104.286 P( x 100.5) P z z P( z 0.4386) 8 . 63 np ( 1 p ) 1 P( z 0.4386) 1 (0.4386) 1 0.33 67% In effetti il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità del 66.7%, veramente in ottimo accordo con l’approssimazione effettuata. _______ Pag. 5/6 Esercizio 6 (svolgere su questo foglio e sul retro) 6) Una popolazione ha valor medio =143 e deviazione standard =5. a. Se acquisiamo un campione di n = 100 dati, quanto vale la probabilità che la sua media campionaria sia maggiore di 144? Soluzione: 6) Non ci viene detto nulla sul tipo di distribuzione della popolazione originaria, però il teorema del limite centrale ci assicura che, all’aumentare di n, la media campionaria tende a diventare distribuita in maniera gaussiana, con lo stesso valor medio x = 143 della popolazione e una deviazione standard pari a x / n = 5/10 = 0.5. Possiamo quindi calcolare la probabilità richiesta mediante standardizzazione: 144 144 143 P z P( x 144) P z P( z 2) 1 P( z 2) x 0.5 1 ( z ) 1 0.9772 2.28% _______ Pag. 6/6