STATISTICA E MISURAZIONE martedì 5 febbraio 2008 Prof. Cesare Svelto Tempo a disposizione 2 ore e 10 minuti Primo appello AA 2007/2008 Aule V.S.8 ore 12.30 Cognome: __________________________ Nome: _____________________ (stampatello) Matricola: __ __ __ __ __ __ Firma: _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (7+7+7+8+4=33pt) (crocettare) N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”. SOLUZIONI Esercizio 1 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 1) Intendiamo effettuare uno studio statistico del numero x di tiri in porta effettuati in una partita di calcio. Si analizzano 13 partite, ottenendo i seguenti numeri : x = 16, 8, 17, 19, 31, 15, 21, 17, 14, 9, 17, 20, 13. Si calcolino la moda, la media e la varianza campionaria del numero di tiri in porta. Si riportino i dati in un diagramma rami e foglie ordinato. Si definisca il k-esimo percentile, indicandone l’espressione generale di calcolo. La stampa specializzata definisce “spettacolare” solo il 20% delle partite. Se l’unico criterio fosse il numero di tiri in porta, quale sarebbe il numero minimo x per definire una partita “spettacolare”? Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i valori significativi. 1a) 1b) 1c) 1d) 1a) moda= valore più probabile (che si è ripetuto più volte) = 17 1 n media campionaria = x xi 16.6923 n i 1 n varianza campionaria = s 2 (x x) i i 1 n 1 2 33.2308 1b) Riportiamo i dati ordinati: x = 8, 9, 13, 14, 15, 16, 17, 17, 17, 19, 20, 21, 31. Con 13 dati un numero sensato di rami è 4 o 5 (ricordiamo la legge 1+log2(n), o anche n ), in questo caso possiamo scegliere le decine come rami e le unità come foglie, individuando 4 classi/rami: rami 0 1 2 3 foglie 8 9 3 4 5 6 7 7 7 9 0 1 1 1c) k-esimo percentile: valore superiore al k% delle osservazioni, ed inferiore al (100-k)%. La formula generale per ricavare l’indice di un generico k-esimo percentile è: Ik = (n+1)k /100 Dall’indice ottenuto, se Ik non è intero, si ricava quindi il valore esatto con un’interpolazione lineare tra i due dati (con indici uguali all’intero prima e dopo di Ik ). Pag.1/8 Una partita è definita “spettacolare” se ha più tiri in porta dell’80% delle partite, quindi la soglia di “spettacolarità” non è altro che l’80-esimo percentile. L’80-esimo percentile ha indice I80% = (13+1)80 /100 = 11.2, quindi l’80-esimo percentile è pari a 80-esimo percentile = 20+(21-20)0.2 = 20.2 Concludendo: una partita è giudicata “spettacolare” se vengono effettuati più di 20 tiri in porta. 1d) Per disegnare il box-plot dei dati dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 13 dati ordinati sono x = 8, 9, 13, 14, 15, 16, 17, 17, 17, 19, 20, 21, 31. La mediana è il 50-esimo percentile, per cui Imediana = (13+1)50 /100 = 7, quindi la mediana è pari al settimo dato. Mediana= 17. Il primo quartile è il 25-esimo percentile, per cui I1Q = (13+1)25 /100 = 3.5, quindi il primo quartile è dato dalla media tra il terzo e il quarto dato: primo quartile= (13+14)/2 = 13.5 = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (13+1)75 /100 = 10.5, quindi il terzo quartile è dato dalla media tra il decimo e l’undicesimo dato: terzo quartile= (19+20)/2 = 19.5 = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 6. I baffi si possono estendere fino a 1.5DIQ = 9 al di là del primo e del terzo quartile, quindi fino a 4.5 e 28.5. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in questo caso sino al dato 1 (baffo inferiore) pari a 8, e sino al dato 13 (baffo superiore) pari a 21. In figura è riportato anche il diagramma a punti (dot-plot). 1 5 10 15 20 Numero di tiri in porta 25 30 Pag.2/8 Esercizio 2 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 2a) 2b) 2c) 2d) Un tecnico informatico gestisce un piccolo server di posta elettronica, con 10 utenti. Tra le 14 e le 15 del pomeriggio la probabilità che uno dei singoli utente si sia connesso è pari al 20%. Quanto vale la probabilità che meno di due utenti si siano connessi durante quell’ora? Nel pomeriggio il server riceve mediamente 20 messaggi mail all’ora. In prima approssimazione quale distribuzione di probabilità segue il numero di messaggi in un tempo prefissato? Si calcoli la probabilità che in 12 minuti arrivino 5 messaggi. Se invece di limitarci al pomeriggio considerassimo un’intera giornata di 24 ore, potremmo utilizzare la stessa distribuzione di probabilità? Si giustifichi la risposta. Il tecnico informatico passa quindi a gestire un server con 10 000 utenti, sempre con il 20% di probabilità di connessione tra le 14 e le 15 del pomeriggio. Quanto vale la probabilità che non più di 1950 utenti si siano connessi durante quell’ora? 2a) Dato che ogni prova è un processo di Bernoulli (ogni utente si è connesso oppure no), le prove sono indipendenti e la probabilità di successo in ogni prova è costante, la probabilità di x connessioni su n utenti segue la distribuzione binomiale, con probabilità di successo p =0.2 : n n P(meno di 2 successi su 10 prove ) P( x 0) P( x 1) p x (1 p) n x p x (1 p) n x x x x 0 x 1 10 10 0 1 0.2 (0.8)100 0.2 (0.8)101 10.74% 26.84 37.58 % 0 1 n n! avendo ricordato che x x!(n x)! 2b) Questo fenomeno segue una distribuzione di probabilità poissoniana. Infatti il singolo evento “ricezione di un messaggio” è un processo di Bernoulli, che si può ritenere scorrelato (anche per l’ipotesi che il valor medio resta costante), con un numero altissimo di messaggi possibili ed una probabilità istantanea di ricezione molto bassa. e x La funzione di probabilità di una variabile poissoniana X vale f ( x) , x 0,1,2... x! il suo valor medio vale = e la sua varianza vale 2 = . Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in un dato intervallo di tempo. Il valor medio in questo caso vale = 20 messaggi/ora × 1/5 ora = 4 messaggi La probabilità che in 12 minuti si ricevano esattamente 5 messaggi vale quindi e x e 4 4 5 P( x 5) 15.63 % x! 5! 2c) Se consideriamo un’intera giornata di 24 ore, viene a cadere l’ipotesi che la probabilità di ogni singolo evento resti costante: sicuramente di notte la probabilità di ricevere messaggi sarà inferiore. In questo caso l’approssimazione poissoniana del fenomeno non sarebbe corretta. 2d) Data la complessità del calcolo tramite la formula della binomiale, decidiamo di sfruttare l’approssimazione gaussiana. Il valor medio vale np = 2 000 utenti. La varianza vale invece np(1-p)=1600. L’approssimazione è valida in quanto np e n(1-p) sono entrambi molto maggiori di 1 (tipicamente si considera attendibile l’approssimazione per valori superiori a 5): in questo caso sicuramente l’approssimazione è molto buona. Calcoliamo quindi la probabilità tramite standardizzazione: 1950.5 np 1950.5 2000 P( x 1950.5) P z z P( z 1.2375) 10.8% 40 np(1 p) Pag.3/8 Il calcolo esatto tramite la distribuzione binomiale (effettuato a calcolatore) fornisce una probabilità pari a 10.77%, praticamente identica al valore ottenuto con l’approssimazione effettuata. Pag.4/8 Esercizio 3 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 3) Siamo interessati a controllare il corretto funzionamento di un sistema meccanico di taglio di piastrelle. La deviazione standard del processo di taglio correttamente funzionante vale 0.5 mm. Viene misurata la dimensione di 81 piastrelle, ottenendo un valor medio di 39.950 cm. 3a) Si definisca il significato di “intervallo di confidenza” di una misura. 3b) Si determini l’intervallo di confidenza al 90% per il valor medio della dimensione di una piastrella. 3c) Sulle 81 piastrelle misurate si è ottenuta una varianza campionaria s2=0.5 mm2. Si effettui un test statistico con livello significatività pari al 5 %, per verificare se la varianza di taglio è peggiorata rispetto al corretto funzionamento. 3a) L’intervallo di confidenza a una data percentuale p% è l’intervallo che presenta la probabilità p% di contenere la variabile casuale in questione. 3b) Per il teorema del limite centrale, il valor medio della dimensione di una piastrella, calcolato su 81 piastrelle, segue in buona approssimazione una distribuzione gaussiana, con valor medio = 39.950 cm e 0.5 mm 55.6 μm . deviazione standard X X 9 n Per calcolare l’intervallo di confidenza al 90% ritroviamo sulla tabella dei valori integrali, Φ(z), di una distribuzione normale il valore Zα corrispondente ad α = 5% (90% all’interno dell’intervallo implica 5% a sinistra e 5% a destra): Zα 1.645. I due estremi dell’intervallo di confidenza sono quindi distanti 1.645 X dal valor medio, per cui l’intervallo di confidenza al 90% ricavato è: X Z X ; X Z X 39.950 1.645 0.00556;39.950 1.645 0.00556 cm [39.941 ; 39.959] cm 3c) Intendiamo valutare se la varianza di corretto funzionamento non sia più attendibile. Effettuiamo quindi un test 2, seguendo gli 8 passi descritti nel libro di testo: 1. Il parametro di interesse è la varianza del taglio 2. H0: 2 =02 = (0.5 mm)2=0.25 mm 2 3. H1: 2 > 02 (il test è a un solo lato perché ci interessa dimostrare che la dispersione dei valori è aumentata) 4. livello di significatività richiesto = 0.05 5. La statistica di test è la statistica X 02 (n 1) s 2 02 6. Rifiutiamo H0 se X02 > 02.05,80 101.88 (questo valore si ricava dalla tabella della distribuzione 2, con 80 gradi di libertà, in corrispondenza del 5 %) 7. Calcoliamo quindi X 02 (n 1) s 2 02 80 0.5 mm 2 160 0.25 mm 2 8. Conclusione: dato che X02 =160 > 02.05,80 101.88 possiamo rifiutare l’ipotesi nulla con livello di significatività 0.05: c’è forte evidenza che la varianza del processo di taglio sia maggiore di 0.25 mm2 Pag.5/8 Esercizio 4 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 4a) La misura della velocità di un’automobile viene ricavata con un misuratore ottico a correlazione che fornisce 7 valori ripetuti v0,i=131,135,136,129,131,128,134 km/h. Si ricavi il valore della velocità v0 e la sua incertezza tipo. 4b) La velocità viene inoltre misurata con altri due strumenti: 1. il tachimetro della vettura, a display digitale con risoluzione 2 km/h, che mostra un valore v1=140 km/h; 2. un autovelox a fotocellule, distanziate d=80 cm2 mm, che ha misurato un tempo di attraversamento T=21.4 ms, contato con un orologio al quarzo (fc=10 kHz), da cui ha calcolato la velocità v2. Si ricavino le ulteriori due misure di velocità e le loro incertezze. 4c) Si discuta la compatibilità tra le tre misure indipendenti, commentando il risultato ottenuto. N.B. In tutto l’esercizio, si richiede di esprimere le diverse velocità in km/h. 4a) Il valore di v4 si ottiene come media campionaria delle 7 misure ripetute: v0= v 0 1 n v 0 ,i =132.0 km/h n i 1 L’incertezza tipo, di categoria A, si ottiene come: u(v0)=uA(v0)= n 1 v 0 ,i v 0 2 =1.2 km/h nn 1 i 1 4b) Nella prima misurazione, la risoluzione finita è v1=2 km/h, per cui la corrispondente incertezza di quantizzazione è v1/ 12 0.58 km/h. La prima misura è dunque v1=140.000.58 km/h. Nella seconda misurazione, la velocità è v2=d/T=37.38 m/s = 134.58 km/h. Inoltre ur(d)=u(d)/d=0.2/80=0.25 % ur(T)=u(T)/T=29/21400=0.14 %. e, essendo u(T)=T/ 12 =(1/fc)/ 12 =29 µs, si ha Quindi ur(v2)= ur2 d ur2 T =0.29 % e infine si ottiene u(v2)=v2×ur(v2)=0.39 km/h. La seconda misura è dunque v2=134.580.39 km/h. 4c) Siamo in presenza di tre misure indipendenti della stessa grandezza che hanno fornito valori di misura diversi tra loro. Valutiamo la compatibilità tra le misure, a due a due, secondo il criterio di compatibilità standard che prevede di confrontare la distanza tra i due valori con una combinazione delle due incertezze standard, attraverso la relazione: vi v j kcomp u 2 ( vi ) u 2 ( v j ) . Sostituendo i valori del caso, si ottiene kcomp(0,1) ≥ 7.5, kcomp(0,2) ≥ 2.044, kcomp(1,2) ≥ 7.8. Pertanto solo due misure sono compatibili con kcomp = 2 mentre la misura del tachimetro non è compatibile con le altre neppure per kcomp=3. Si deduce che la misura 1 è incompatibile con le altre due, che risultano invece compatibili tra loro. Commento: molto probabilmente l’incertezza del tachimetro non è data solo dalla sua quantizzazione. Infatti normalmente i tachimetri hanno un fattore di scala tarato in eccesso, con errore dell’ordine di qualche percento. Pag.6/8 Pag.7/8 Esercizio 5 (tempo stimato 10 m) (svolgere su questo foglio e sul retro) 5a) 5b) 5c) Si espliciti con un esempio la differenza tra risoluzione e sensibilità di un sensore. Dopo avere indicato l’espressione analitica da utilizzare, si trasformino in dBm i seguenti valori di potenza elettrica: P1=4 W; P2=200 nW; P3=5 mW. Un’onda acustica ha una potenza pressoria, misurata in dBA rispetto alla soglia dell’udibile (0 dBA). Se una televisione accesa a basso volume ha un livello sonoro di +24 dBA e un aereo al decollo è a +90 dBA, si esprima in unità lineari il rapporto tra queste due potenze sonore. 5a) Vedi Libro e Appunti del Corso. 5b) P(dBm)=10log10[(P(W)/(1 mW)] e quindi P1=4 W=+36 dBm; P2=200 nW=-37 dBm; P3=5 mW=+7 dBm.. 5c) Il rapporto cercato è R=90 dBA-24 dBA=+66 dB=4106 e dunque il rumore dell’aereo al decollo è quattro milioni di volte più intenso di quello della televisione. Pag.8/8