STATISTICA E MISURAZIONE lunedì 5 febbraio 2007 Prof. Cesare Svelto Tempo a disposizione 2 ore e 15 minuti Prova in itinere AA 2006/2007 Aula V.S.9 ore 13.00 Cognome: __________________________ Nome: _____________________ (stampatello) Matricola: __ __ __ __ __ __ Firma: _____________________ (firma leggibile) Esercizi svolti (almeno parzialmente): 1 2 3 4 5 (8+6+6+7+6=33pt) (crocettare) N.B. Gli esercizi non crocettati non saranno corretti; quelli crocettati ma neppure iniziati comporteranno una penalità. Sarà anche penalizzato chi consegna un compito “gravemente insufficiente”. SOLUZIONI Esercizio 1 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 1) 1a) 1b) 1c) 1d) I neonati di un ospedale vengono pesati alla nascita, ottenendo i seguenti valori: x [kg] = 3.1 2.5 3.4 4.3 1.9 2.7 3.1 2.9 3.6 3.0 3.1 4.6 2.7 2.8 3.4 3.7 2.2 3.0. Si descriva che cosa rappresentano la media campionaria, la mediana e la moda di un insieme di dati. In che situazione questi 3 valori coincidono? Se ne calcolino i valori per il campione in esame. Si disegni un istogramma della frequenza relativa dei dati. Si rappresenti il diagramma a punti ed il box-plot dei dati, riportando tutti i calcoli fatti per ottenerne i valori significativi. Se il peso di un neonato seguisse una distribuzione normale, con valor medio 3 kg e deviazione standard 0.5 kg, quanto varrebbe il decimo percentile? 1a) Riportiamo i 18 dati ordinati: x [kg] = 1.9 2.2 2.5 2.7 2.7 2.8 2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4 3.6 3.7 4.3 4.6 La media campionaria è uno stimatore del valore atteso della popolazione, rappresenta il “baricentro” della distribuzione di probabilità: 1 n x xi 3.11 kg n i 1 La mediana è il valore che divide in due parti uguali la popolazione (quindi è il valore corrispondente al 50% dei dati). In questo caso di 18 dati, corrisponde alla media tra il nono e il decimo dato: M=(3.0+3.1)/2=3.05 kg La moda è il valore più probabile (in questo caso il valore con maggior numero di apparizioni): Moda=3.1 kg. La mediana è uguale alla media campionaria nel caso di distribuzioni di probabilità simmetriche. Il loro valore coincide con la moda quando il centro di simmetria è anche il massimo della PDF (tipicamente per PDF “a campana”, come ad esempio la distribuzione gaussiana). 1b) Con 18 dati un numero sensato di classi è 5 (ricordiamo la legge 1+log2(n), o anche n ), in questo caso possiamo scegliere un intervallo di 0.6 kg, ad esempio suddiviso nelle seguenti classi: classi 1.7-2.2 2.3-2.8 2.9-3.4 3.5-4.0 4.1-4.6 dati 1.9 2.2 2.5 2.7 2.7 2.8 2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4 3.6 3.7 4.3 4.6 frequenza 2 4 8 2 2 freq. relativa 0.111 0.222 0.444 0.111 0.111 Pag.1/7 0.45 0.4 0.35 Frequenza relativa Per il grafico si sarebbero potute scegliere anche solo 4 classi, spaziate di 1 kg, ottenendo un istogramma meno dettagliato, ma forse più facilmente leggibile. 0.3 0.25 0.2 0.15 0.1 0.05 0 1.5 2 2.5 3 3.5 4 Valori di peso [kg] 4.5 3 3.5 4 4.5 5 1c) Per disegnare il box-plot dei dati Peso del neonato [kg] dobbiamo innanzitutto calcolare la mediana e il primo e terzo quartile. I 18 dati ordinati sono x [kg] = 1.9 2.2 2.5 2.7 2.7 2.8 2.9 3.0 3.0 3.1 3.1 3.1 3.4 3.4 3.6 3.7 4.3 4.6 La mediana, pari al 50-esimo percentile, per cui Imediana = (18+1)50 /100 = 9.5, quindi la mediana è pari alla media tra il nono e il decimo dato. Mediana= 3.05 kg. Il primo quartile è il 25-esimo percentile, per cui I1Q = (18+1)25 /100 = 4.75, quindi: primo quartile= 2.7+(2.7-2.7) 0.75 = 2.7 kg = Q1 Il terzo quartile è il 75-esimo percentile, per cui I3Q = (18+1)75 /100 = 14.25, quindi: terzo quartile= 3.4+(3.6-3.4) 0.25 = 3.45 kg = Q3 La dinamica interquartile vale DIQ= Q3-Q1= 0.75 kg. I baffi si possono estendere fino a 1.5DIQ = 1.125 kg al di là del primo e del terzo quartile, quindi fino a 1.575 kg e 4.575 kg. Ricordiamo comunque che i baffi si fermano all’ultimo dato contenuto entro il limite calcolato: in questo caso sino al dato 1 (baffo inferiore) pari a 1.9 kg, e sino al dato 17 (baffo superiore) pari a 4.3 kg. L’ultimo dato (4.6 kg) è un outlier. In figura è riportato anche il diagramma a punti (dot-plot). 1 1 1.5 2 2.5 5 5.5 6 1d) Partendo dall’ipotesi che il peso di un neonato segua una distribuzione normale, con valor medio = 3 kg e deviazione standard = 0.5 kg, il decimo percentile si ricava dalla tabella dei valori della funzione cumulativa di una variabile casuale standard. Per il 10%=0.1 di probabilità si legge il valore standardizzato z -1.28. Per cui il decimo percentile x vale: x z 1.28 0.5 3 2.36 kg Pag.2/7 Esercizio 2 (tempo stimato 25 m) (svolgere su questo foglio e sul retro) 2a) Si descrivano le proprietà della distribuzione di probabilità Poissoniana, indicando inoltre quale casistica di eventi tipicamente è descritta da questo tipo di distribuzione. 2b) Sapendo che il flusso di dati in una connessione IP segue una statistica poissoniana con valor medio di 8 kbyte al secondo, quanto vale la probabilità che in 0.1 ms arrivino almeno 2 byte? 2c) Se il numero di utenti connessi a un server segue una statistica normale con valor medio 17 000 e deviazione standard 2 500, quanto vale la probabilità che ci siano più di 20 000 utenti connessi? 2d) Un PC non riesce ad avviarsi una volta su 4, a causa di un settore della memoria RAM danneggiato. Per quante volte almeno occorre provare ad accenderlo per avere una probabilità superiore al 95% di averlo visto partire? 2a) La funzione di probabilità di una variabile poissoniana X vale f ( x) e x , x! x 0,1,2... il suo valor medio vale = e la sua varianza vale 2 = . Tipicamente questa distribuzione di probabilità descrive il numero di eventi che avvengono casualmente in un dato intervallo di tempo, in maniera indipendente (devono essere scorrelati). È possibile dimostrare che f(x) si ottiene matematicamente dalla distribuzione binomiale quando il numero di estrazioni n è molto alto e la probabilità di successo p è molto bassa, utilizzando un valor medio = np. 2b) La velocità di trasmissione e V=81024 byte/s=8192 byte/s. In un tempo di 0.1 ms il valor medio di byte ricevuti è = 8192 byte/s ∙ 10-4 s 0.82 byte. La probabilità che arrivino almeno 2 byte è uguale a 1 meno la probabilità che non ne sia arrivato nessuno meno la probabilità che ne sia arrivato uno solo: e 0 e 1 P(x2)= 1 P( x 0) P( x 1) 1 1 e e 1 e 0.82 0.82e 0.82 0.1984 =19.84 % 0! 1! Quindi P(x2)20 % 2c) Calcoliamo la probabilità tramite standardizzazione: 20000 20000 17000 P( x 20000) P z z P( z 1.2) 11.5% 2500 2d) La probabilità che il PC si sia acceso almeno una volta si ricava dalla statistica binomiale: dato che ogni prova è un processo di Bernoulli (il PC parte o non parte), le prove sono indipendenti e la probabilità di successo in ogni prova è costante. La probabilità di x accensioni su n tentativi segue la distribuzione binomiale, con probabilità di successo p =3/4=0.75 : n n P(almeno 1 successo su n prove ) 1 P( x 0) 1 p x (1 p) n x 1 0.750 (0.25) n0 1 0.25 n x 0 x 0 Questa probabilità deve essere maggiore del 95%, per cui P(almeno 1 successo su n prove ) 1 0.25 n 0.95 Da cui 0.25n < 0.05, che è verificata già per n=3. Occorre dunque accendere il PC almeno 3 volte. Pag.3/7 Esercizio 3 (tempo stimato 20 m) (svolgere su questo foglio e sul retro) 3) Una ditta produttrice di PC assemblati vuole controllare l’affidabilità di un modello di scheda madre. La casa produttrice garantisce una probabilità di malfunzionamento inferiore all’1%. Su 300 PC assemblati, 5 ritornano al costruttore perché la scheda madre non funziona correttamente. 3a) Si effettui un test statistico, con livello di significatività pari al 5 %, con lo scopo di verificare se la probabilità di rottura della scheda madre è superiore a quella dichiarata dalla casa produttrice. 3b) Quanto vale il valore P del test effettuato? 3c) Che cosa si intende per stimatore non polarizzato? Si faccia un esempio. 3a) Effettuiamo il test statistico richiesto (test di proporzioni). Seguiamo gli 8 passi descritti nel libro di testo. 1. Il parametro di interesse è la probabilità di malfunzionamento p 2. H0: p = 0.01 3. H1: p > 0.01 (il test è a un solo lato, in quanto vogliamo dimostrare che la probabilità di malfunzionamento è maggiore dell’1 %) 4. livello di significatività richiesto = 0.05 X np0 X 5. La statistica di test è la statistica Z: Z 0 dove X = 5, n = 300 e p0 = 0.01. np0 (1 p 0 ) 6. Rifiutiamo H0 se Z0 > Z0.05 = 1.645 (vedi tabella) X np 0 7. Calcoliamo quindi Z 0 1.16 np 0 (1 p 0 ) 8. Conclusione: dato che Z0 = 1.645 < Z0.05 = 1.16 non rifiutiamo l’ipotesi nulla con livello di significatività 0.05: non c’è abbastanza evidenza che l’ipotesi nulla sia falsa. Dunque non si può sostenere, con significatività del 5 %, che quanto dichiarato dalla casa costruttrice non sia attendibile 3b) Il valore P, che corrisponde al livello di significatività di soglia tra l’accettazione ed il rifiuto di H0, si può ricavare direttamente dalla tabella: ZP = Z0 = 1.16, per cui il valore P 0.123. L’interpretazione di questo valore è che l’ipotesi nulla sarebbe stata dichiarata falsa per qualsiasi livello di significatività maggiore del 12.3 %. In questo caso con = 5 % non si è potuto rifiutare H0. 3c) Uno stimatore puntuale A di un parametro di una generica popolazione è non polarizzato se il suo valore atteso coincide con : E(A)= . Un esempio può essere la media campionaria, stimatore non polarizzato del valor medio della popolazione, infatti E (x ) . Pag.4/7 Esercizio 4 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 4) Un obice spara un proiettile alla velocità v=55(2) m/s. Il proiettile è costituito da una sfera in piombo (densità =11.34 kg/dm3 con U()=1080 g/dm3 per k=3). Il diametro, D=32 cm, della sfera è stato misurato con un metro da sarta che ha risoluzione 1 cm. 4a) Dai dati del problema, si ricavi il risultato della misurazione indiretta dell’energia cinetica E1 del proiettile. 4b) Immaginando di essere costretti a non trascurare la correlazione tra densità, diametro, e velocità del proiettile (ipotesi invece assunta al punto a)), si scriva e si commenti l’espressione analitica per l’incertezza composta uc(E1). Può questa incertezza essere inferiore a quella ottenuta al punto a)? Perché? 4c) Se una seconda misura dell’energia cinetica del proiettile, del tutto indipendente dalla misura del punto a), ha fornito un risultato E2=(3003) kJ, si discuta la compatibilità tra la seconda e la prima misura. 4a) La massa del proiettile è M=V con V volume della sfera dato da 4 3 4 D3 3 V R D 3 3 6 L’energia cinetica ricavata in maniera indiretta è 1 E1= Mv 2 D 3 v 2 =294.28 kJ 2 12 Essendo l’equazione della misura una produttoria generalizzata delle variabili d’ingresso e assumendo che queste siano incorrelate tra loro, l’incertezza relativa dell’uscita è legata molto semplicemente alle incertezze relative degli ingressi: ur2 ( E1 ) ur2 ( ) 9ur2 ( D) 4ur2 ( v) ur()=u()/=U()/(3=(0.36 kg/dm3)/(11.34 kg/dm3)=3.2×10-2 u(D)=D/ 12 = 0.29 cm ur(D)=u(D)/D=(0.29 cm)/(32 cm) = 9.1×10-3 ur(v)=u(v)/v=(2 m/s)/(55 m/s) 3.6×10-2 ur2 ( E1 ) =1.0×10-3+7.5×10-4+5.2×10-3 7.0×10-3 (i tre contributi sono dello stesso ordine di grandezza) Da cui u r ( E1 ) 8.4 % e pertanto u(E1)=E1ur(E1) 25 kJ con un risultato della misurazione indiretta E1=294 kJ25 kJ. 4b) Tenendo in conto anche la correlazione tra gli ingressi, ad esempio con coefficienti di correlazione rij tra ingresso i e ingresso j, l’incertezza composta dell’energia cinetica misurata indirettamente è uc(E1) = 2 2 2 E1 E1 E1 E1 E1 E1 E1 2 E1 2 E1 2 u ( ) D u (D) v u ( v) 2rD D u ( )u ( D) 2rv v u ( )u ( v) 2rDv D v u ( D)u ( v) Essendo rij[-1, +1], l’incertezza ottenuta in presenza delle correlazioni può anche essere inferiore (in particolare per coefficienti di correlazione negativi) a quella ottenuta per ingressi correlati, anche se tutte le derivate parziali sono positive. 4c) Siamo in presenza di due misure indipendenti della stessa grandezza che hanno fornito valori di misura diversi tra loro. Valutiamo la compatibilità tra le due misure secondo il criterio di compatibilità standard che prevede di confrontare la distanza tra i due valori con una combinazione delle due incertezze standard, secondo la relazione: E1 E2 kcomp u 2 (E1 ) u 2 (E2 ) kcomp u(E1 ) , essendo u2(E1)>>u2(E2). Sostituendo i valori del caso, si ottiene (6 kJ) ≤ kcomp(25.2 kJ) che è verificata già con kcomp=1 e dunque a maggior ragione per kcomp=2 e kcomp=3. Le due misure sono tra loro compatibili, con qualsiasi fattore di copertura (kcomp=1, 2 ,3). Pag.5/7 Esercizio 5 (tempo stimato 30 m) (svolgere su questo foglio e sul retro) 5) Una software house ha avuto i seguenti fatturati nell’ultimo triennio: 1° sem. 2004 420 k€ 2° sem. 2004 650 k€ 1° sem. 2005 350 k€ 2° sem. 2005 740 k€ 1° sem. 2006 490 k€ 2° sem. 2006 810 k€ 5a) Si rappresenti il diagramma cartesiano della serie temporale con i fatturati F in funzione del tempo t. Quali indicazioni si possono dedurre dall’andamento nel tempo? 5b) Quanto valgono la media F e la deviazione standard campionaria s(F) per il fatturato? 5c) Da un modello di regressione lineare ai minimi quadrati, su tutti i punti del grafico, si deduca se dai dati raccolti emerge un trend positivo o negativo del fatturato nel tempo. In particolare quanto vale l’aumento/riduzione del fatturato su base mensile? 5d) Si aggiunga al grafico precedente la retta di regressione ai minimi quadrati. 5e) Nel corso di una giornata la potenza elettrica consumata dalla software house, rapportata al numero di dipendenti, è stata osservata su quattro intervalli di tempo: P1(notte)=20 µW; P2(mattina)=50 W; P3(mezzogiorno)=400 mW; P4(pomeriggio)=8 W. Si convertano tali valori di potenza in dBm. Si valuti il rapporto in dB e in unità lineari tra il consumo pomeridiano e quello mattutino. Nota: Si ricorda che il coefficiente angolare ed il termine noto della retta di regressione lineare valgono m n xi yi xi y i b n x xi 2 2 i x y x x y y m x n n x x 2 i i 2 i i i i i i 2 i 5a) Il diagramma cartesiano della serie temporale è: 1000 y o F (k€) 800 600 400 200 0 0 0.5 1 1.5 2 2.5 3 x o t (anni) Dai punti sperimentali riportati in forma grafica, si osserva un ciclico aumento/decremento del fatturato nel corso di ciascun anno (il fatturato è più alto al 1° semestre e più basso al 2° semestre). Dal grafico dei 6 punti osservati si può già evidenziare una tendenza alla crescita nel tempo del fatturato (trend positivo) ma non è immediato stimare visivamente la pendenza di questa crescita. 1 6 5b) La media campionaria è F Fi 576.7 k€ 6 i 1 La deviazione standard campionaria è s( F ) 1 6 1 6 2 2 F F Fi nF 2 184.4 k€ i 6 1 i 1 5 i 1 5c) Valutando il coefficiente angolare e il termine noto della retta di regressione ai minimi quadrati, si ottiene: m=106.3 k€/anno=8.86 k€/mese e b=390.7 k€ (non chiesto). Pag.6/7 Emerge dunque un trend positivo (m>0) del fatturato nel tempo e in particolare si osserva una aumento medio mensile del fatturato pari a 9 k€/mese. 5d) Con l’aggiunta della retta di regressione, il grafico diventa: 1000 y o F (k€) 800 600 400 200 0 0 0.5 1 1.5 2 2.5 3 x o t (anni) 5e) Ricordando che P(dBm)=10log10(P/1mW), si ottiene: P1=20 µW=2×10-2 mW=-17 dBm P2=50 W=5×104 mW=+47 dBm 2 P3=400 mW=4×10 mW=+26 dBm P4=8 W=8×103 mW=+39 dBm Il rapporto tra il consumo pomeridiano e quello mattutino R=(P4/P2)(dB)=+39 dBm-47 dBm=-8 dB=1.6×10-1 o anche R=(P4/P2)=(8 W)/(50 W)=1.6×10-1=-8 dB. Pag.7/7 è