Metodi di Osservazione e Misura A.A. 2013-2014 (II sem.) Materiale di supporto Modulo 5: Teoria dei campioni e v.a. inferenziali Docente: Dr. Luciano L. Pappalardo ([email protected]) Lezione 15 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 2 Proposizione 1 La statistica é normalmente interessata ad ottenere informazioni su un insieme completo di oggetti, detto popolazione. Esso é peró spesso troppo grande perché sia possibile un esame esaustivo. In questo caso si cerca di imparare qualcosa (fare inferenza) sulla popolazione studiandone dei sottoinsiemi detti campioni. Osservazione 1 In generale solo campioni scelti completamente a caso sono rappresentativi della popolazione, infatti ogni criterio di selezione non casuale finisce per produrre campioni caratterizzati da v.a. sbilanciate verso valori particolari, e quindi non attendibili. Proposizione 2 Si suppone che vi sia una distribuzione di probabilitá intrinseca della popolazione (per es. si suppone che una data v.a. sia distribuita in modo Gaussiano). Pertanto, se dalla popolazione si estraggono dei campioni in maniera casuale, le quantitá numeriche loro associate possono essere pensate come v.a. s-indipendenti, tutte con tale distribuzione (per es. Gaussiana). Proposizione 3 Valutare da un campione qualcosa riguardante la popolazione costituisce un processo induttivo noto come inferenza statistica. Come tutti i processi logici, anche l’inferenza statistica non conduce a conclusioni certe. Tali conslusioni possono pertanto essere oggetto di valutazioni probabilistiche. Definizione 1 L’inferenza é detta parametrica se la distribuzione di probabilitá della popolazione é nota a meno di parametri incogniti (per es. si potrebbe sapere che é Gaussiana ma non conoscerne media e varianza). L’inferenza é detta non-parametrica se non si conosce la distribuzione di probabilitá della popolazione, tranne poter assumere che sia continua o discreta. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 3 Definizione 2 Sia X una v.a. associata ad una data popolazione, e π1 , π2 , … , ππ le v.a. associate agli n elementi di un campione estratto dalla popolazione. Il set di n v.a. ππ , π (n-upla) é detto campione della v.a. X e costituisce una v.a. n-dimensionale. I corrispondenti valori π₯1 , π₯2 , … , π₯π costituiscono n determinazioni della v.a. X. Osservazione 2 Per poter estrarre informazioni sulla popolazione (ossia sulla v.a. X di nostro interesse) a partire dallo studio del campione dobbiamo conoscere le leggi che legano le caratteristiche del campione a quelle della popolazione, quali per es. la funzioni media e varianza della v.a. n-dimensionale πΏπ , π associata al campione: π = π = π ππ , π π 2 = π 2 = π ππ , π che forniscono le stime (indicate col simbolo “^”) della media π e della varianza π 2 della v.a. X della popolazione. Definizione 3 Il campione ππ , π di una v.a. X é detto casuale se le n v.a. ππ che lo costituiscono sono s-indipendenti e hanno la stessa funzione di ripartizione πΉπ (π₯) di X (e quindi stessa media e varianza della popolazione): πΉπ1 π₯ = πΉπ2 π₯ = β― = πΉππ π₯ = πΉπ π₯ Osservazione 3 Se si estraggono senza rimessa π elementi di una popolazione finita di π ≥ π elementi, la funzione di ripartizione della popolazione é modificata in seguito ad ogni estrazione. In questo caso si ottiene un campione non-casuale in quanto le n v.a. non sono tra loro sindipendenti (si dimostra che la covarianza é non nulla). Un esempio di tale popolazione é quello di un’urna contenente N sfere contrassegnate dai numeri da 1 a N. E’ evidente che se la popolazione ha un numero N molto grande di elementi il fatto che l’estrazione avvenga senza rimessa é irrilevante e le v.a. possono essere considerate s-indipendenti (e il campione casuale). Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 4 Definizione 4 Data una popolazione di N elementi, con il concetto di campione aleatorio di numerositá π < π΅ ππ , π si intende la scelta di un sottoinsieme di n elementi fatta in modo tale che tutti le π combinazioni di sottoinsiemi di π < π elementi candidati abbiano le stesse π probabilitá di essere selezionati. Definizione 5 Sia ππ , π un campione della v.a. X. E’ detta statistica campionaria una qualunque funzione del campione che non coinvolge parametri incogniti della v.a. X. Media campionaria e varianza campionaria sono esempi di statistiche campionarie e costituiscono esse stesse delle v.a. Definizione 6 Si definisce media campionaria la statistica campionaria data dalla legge: π1 + π2 + β― + ππ 1 π= = π π π ππ π=1 Osservazione 4 Essendo π una funzione di v.a. é essa stessa una v.a., e quindi ha senso calcolarne il valore atteso e la sua varianza. Proposizione 4 Il valore atteso della media campionaria coincide con la media della popolazione π, e la sua varianza con quella della popolazione ridotta di un fattore n π 2 π . Si deduce che π é centrata attorno a π e la sua variabilitá si riduce sempre piú all’aumentare di n. Infatti, aumentando n aumenta il numero di informazioni a disposizione e di conseguenza si riduce la dispersione (incertezza) rispetto al valore medio. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 5 Definizione 7 Si definisce varianza campionaria la statistica campionaria data dalla legge: 1 π2 = π−1 π ππ − π 2 π=1 La sua radice quadrata fornsce la deviazione standard campionaria. Teorema 1 Sia dato un campione aleatorio ππ , π e sia π la sua media campionaria, allora vale l’uguagliaza: π π ππ − π π=1 2 ππ 2 − ππ 2 = π=1 Proposizione 5 Il valore atteso della varianza campionaria coincide con la varianza della popolazione π 2 . Osservazione 5 Questo importante risultato é conseguenza del fatto che la definizione di varianza campionaria incorpora il contributo di π − 1 elementi indipendenti (e non di π). Infatti l’n-esimo elemento non é indipendente dagli altri in quanto puó essere ottenuto dagli altri π − 1 tramite la π +π +β―+ππ formula della media campionaria π = 1 2 . Si dice che i gradi di libertá sono π − π. π Ovviamente, per n sufficientemente grande vale: π − 1 ≈ π. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 6 Definizione 8 Sia dato un campione di una v.a. X discreta formato da n osservazioni sperimentali di π ≤ π diversi valori π₯π . Il numero di volte ππ che lo stesso valore π₯π compare nel campione é detto frequenza assoluta di ππ . Il rapporto π tra ππ e π é detto frequenza relativa di ππ : π ππ ππ = π π ππ = π ππ = 1 π=1 π=1 Osservazione 6 Pertanto la media campionaria puó essere scritta come: 1 π= π π π=1 1 π₯π = π π π ππ π₯π = π=1 ππ π₯π π=1 Definizione 9 La moda campionaria di un insieme di dati é, se esiste, l’unico valore che ha la frequenza massima. Se vi é piú di un valore con frequenza massima, ciascuno di essi é detto valore modale. Definizione 10 La mediana campionaria di un campione ordinato costituito da n valori con numero d’ordine crescente π , π₯(1) , π₯(2) , … , π₯(π) , é data da: π₯ π₯0.5 = π π π πππ ππππ π+1 /2 π₯ π/2 + π₯ π 2 2+1 Esempio 1 La seguente tabella riporta la frequenza di uscita delle 6 facce di un dado su 40 lanci. Calcolare: media, mediana e moda campionarie. π π π ππππ Valore 1 2 3 4 5 6 Frequenza 9 8 5 5 6 7 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 7 Definizione 11 Sia π un numero intero compreso tra 0 e 100. Dato un campione di dati numerici, ne esiste sempre uno che é contemporaneamente ≥ di almeno il π% dei dati e ≤ di almeno il 100 − π % dei dati. Se il dato con queste caratteristiche é unico esso é detto k-esimo percentile del campione. Se invece non é unico, allora sono esattamente 2 e in questo caso il k-esimo percentile é dato dalla loro media aritmetica. Regola: Per determinare il k-esimo percentile di un campione di numerositá n occorre: 1. Disporre i dati in ordine crescente; 2. Trovare quel dato (o quei dati) tale che, detto π = π/100: - almeno ππ dati sono minori o uguali ad esso; - almeno π(1 − π) dati sono maggiori o uguali ad esso. 3. Se ππ é intero il k-esimo percentile é dato dalla media aritmentica dei dati corrispondenti alle posizioni ππ e (π + 1)π. (es. se ππ = 5 il k-esimo percentile é dato dalla media aritmetica dei dati che occupano la 5π e la 6π posizione). 4. Se ππ non é intero l’unico dato che soddisfa questi criteri é quello che occupa la posizione data dall’intero successivo a ππ (es. se ππ = 13.7 il k-esimo percentile é il dato che occupa la 14π posizione) Esempio 2 Dererminare l’80-esimo percentile del seguente campione di π = 22 dati: 5.5 8.2 2.5 12.0 6.7 4.0 10.3 1.0 4.2 7.5 10.7 7.0 9.5 8.6 1.5 9.1 4.9 2.5 9.8 5.3 7.9 6.4 5.8 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 8 Esempio 3 La tabella seguente riporta le popolazioni delle 30 maggiori cittá degli Stati Uniti. Detrminare il 10π , il 95π , il 50π percentile e la mediana campionaria. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 9 Osservazione 7 Il 50-esimo percentile π₯50 coincide con la mediana campionaria, e assieme al 25esimo (π₯25 ) e al 75-esimo percentile (π₯75 ) forma i quartili campionari. Definizione 12 Il 25-esimo percentile é detto primo quartile, il 50-esimo percentile é detto secondo quartile o mediana campionaria e il 75-esimo percentile é detto terzo quartile. I quartili dividono il campione in quattro parti: i dati minori del primo quartile, quelli maggiori del terzo e quelli compresi tra primo e secondo, e tra secondo e terzo. Definizione 13 Si definisce range la differenza tra il piú grande e il piú piccolo dei dati del campione: π = π₯πππ₯ − π₯πππ . Esempio 4 Determinare i quartili campionari e il range dei seguenti valori, relativi ai livelli di rumore in dB (decibel) misurati in 36 differenti occasioni in prossimitá della stazione centrale di Manhattan (per un essere umano la soglia di tollerabilitá é di 120 dB, mentre quella di udibilitá é di 1dB per persone con ottimo udito). Rappresentare il corrispondente box plot. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 10 Osservazione 8 Nei casi di v.a. riproducibili, la media campionaria π ha distribuzione nota. Se infatti la v.a. X della popolazione é Gaussiana di parametri π e π 2 (o Binomiale di parametri π π π), anche la π sará Gaussiana di media π e varianza π 2 /π (o Binomiale di media ππ e varianza ππ(1 − π)/π ). π +π +β―+π π Osservazione 9 La media campionaria π = 1 2 é di fatto la somma di n v.a. Sπ indipendenti ed equidistribuite. Se n é sufficientemente grande, sono quindi soddisfatte le ipotesi del teorema del limite centrale: La somma di una successione di π v.a. ππ s-indipendenti ed equidistribuite con media π e varianza π 2 converge in distribuzione alla v.a. Gaussiana di media π = ππ e varianza π 2 = ππ 2 , qualunque sia la funzione di ripartizione delle ππ . Proposizione 6 Per n sufficientemente grande, la funzione di ripartizione della media campionaria π converge a quella di una Gaussiana di media π e varianza π 2 π (convergenza in distribuzione). Indicando con ππ la corrispondente v.a. standardizzata, si ha dunque: ππ = π−π π π π π = π(0,1) Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 11 Osservazione 10 Generalmente le v.a. studiate sperimentalmente sono soltanto gli elementi (variabili d’ingresso) da inserire in formule matematiche (trasformazioni di v.a.) per ottenere valutazioni di un parametro (variabile d’uscita) che costituisce il vero obiettivo dello studio. Per esempio, in alcune valutazioni cliniche non sono il peso P (in Kg) e l’altezza H (in cm) di un paziente le variabili di interesse, bensí la trasformata πΌ = π/π» 2 (indice di massa corporea). Osservazione 11 Spesso tuttavia la pdf congiunta non é nota oppure non é analiticamente trattabile. In questi casi puó essere sufficiente valutare con buona approssimazione anche solo la media e la varianza della v.a. d’uscita a partire dalla stima sperimentale dei momenti delle v.a. d’ingresso. Proposizione 7 Siano π1 , π2 , … , ππ delle v.a. continue (variabili d’ingresso) di cui si suppongono note le medie ππ e le varianze ππ 2 , e sia π β una funzione reale continua e derivabile. La media ππ e la varianza ππ 2 della v.a. d’uscita π = π π1 , π2 , … , ππ possono essere ottenute in modo approssimato mediante uno sviluppo in serie di Taylor della funzione π π1 , π2 , … , ππ di punto iniziale π = π1 , π2 , … , ππ . Questo approccio é noto come Metodo Delta. Osservazione 12 Se la π β é lineare, il metodo é esatto in quanto risultano identicamente nulli tutti i termini di ordine superiore al primo: π ππ = π π1 , π2 , … , ππ ± π=1 ππ πππ 2 β π π 2 π Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 12 Lezione 16 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 13 Osservazione 13 La misura di una grandezza fisica é sempre affetta da un errore, generalmente imprevedibile. Questo errore puó essere ridotto utilizzando strumenti e metodi di misura piu precisi, ma non puó mai essere eliminato del tutto. Pertanto, ripetendo piú volte la stessa misura si otterranno sempre risultati leggermente diversi. Ci si pone quindi il problema di stabilire quale valore sia plausibile assumere come misura della grandezza in studio, e quale sia il livello di incertezza ad esso associato. Proposizione 8 Esistono tre diverse categorie di errore: 1. Contributo identificabile ed estemporaneo (es. disattenzione dell’operatore); 2. Contributo identificabile e sistematico (es. taratura dello strumento) 3. Contributo casuale (di natura aleatoria) Le prime due categorie, una volta identificate possone essere ridotte o addirittura, in certi casi, eliminate, rimuovendone la causa. La terza non potrá mai essere eliminata, ma puó essere trattata con i metodi della statistica. Proposizione 9 L’errore casuale (aleatorio) é originato dagli effetti di molti fattori non identificabili e che agiscono secondo meccanissmi non noti. La somma di molti effetti di segno ed entitá differenti produce un effetto complessivo mediamente nullo ma assolutamente imprevedibile (se il suo valore medio non fosse nullo si potrebbe, in linea di principio, identificarlo, valutarlo e rimuoverlo). Definizione 14 Si definisce errore aleatorio la v.a. Z di media nulla ottenuta dalla differenza π = π − π tra l’osservazione X (supposta immune da errore sistematico) della grandezza e il valore π incognito della stessa (“valore vero”). L’ esperienza mostra che l’errore aleatorio Z segue la distribuzione Gaussiana di media nulla (centrata sullo zero). Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 14 Osservazione 14 Un insieme π1 , π2 , … , ππ di valutazioni s-indipendenti del valore incognito π di una grandezza fisica (massa, lunghezza, pressione, temperatura, etc) ottenuto con una procedura che garantisca alle ππ la stessa varianza π 2 , costituisce un campione casuale ππ , π di n valutazioni di uguale precisione. Proposizione 10 Per un tale campione si assume come stima π΄πΏ del valore vero π della grandezza X il valore fornito dalla media aritmetica: 1 ππ = π = π π ππ π=1 che gode della proprietá di avere il minimo errore quadratico medio rispetto al valore vero (incognito) π. Un qualsiasi altro valore π ′ = π + β , con β≠ 0 sarebbe affetto da un errore quadratico medio incrementato di β2 . Proposizione 11 La stima della Deviazione Standard (o scarto tipo) e la Deviazione Standard della media sono date rispettivamente da: π= π π=1 ππ − π π−1 2 e ππ = π π Il risultato della misura sará quindi: 1 ππ = π π π=1 1 ππ ± π π π=1 ππ − π π−1 2 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 15 Osservazione 15 Un insieme π1 , π2 , … , ππ di valutazioni s-indipendenti del valore incognito π ottenute con procedure (es. apparecchiature o operatori) diverse che determinano per ciasuna ππ una differente varianza ππ 2 (supposte note a priori), costituisce un campione casuale ππ , π di n valutazioni di diversa precisione. Osservazione 16 I differenti gradi di incertezza indicati dalle rispettive deviazioni standard ππ conferiscono attendibilitá (o pesi) differenti alle varie valutazioni delle ππ . E’ evidente che in questo caso per formulare la miglior stima di π bisogna conferire un maggior peso alle valutazioni piú precise (ππ minore) rispetto a quelle meno precise (ππ maggiore). Proposizione 12 Per un tale campione si assume come stima π΄πΏ del valore vero π della grandezza X il valore fornito dalla media pesata: ππ = ππ = avendo definito i pesi: π€π = 1 ππ 2 1 ππ 2 = 1 π π=1 π 2 π π π=1 ππ π π=1 ππ π€π π π=1 π€π Osservazione 17 Poiché i pesi scalano con l’inverso del quadrato dell’incertezza (deviazione standard), é evidente che una misura che sia affetta da un’incertezza molto maggiore delle altre contribuisce molto poco al risultato finale. Osservazione 18 Se i pesi sono tutti uguali, la media pesata coincide con la media aritmetica. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 16 Proposizione 13 La stima della deviazione standard associata alla media pesata (miglior stima) e’: ππ = 1 π π=1 1 ππ 2 = 1 π π=1 π€π Il risultato della misura sará quindi: ππ = π π=1 ππ π€π π π=1 π€π ± 1 π π=1 π€π Proposizione 14 Siano π1 , π2 , … , ππ i valori veri (incogniti) di n grandezze misurabili direttamente, e π β una funzione reale continua e derivabile. Supponiamo di essere interessati a misurare la grandezza fisica Y, non osservabile direttamente, il cui valore incognito ππ é tuttavia desumibile mediante la relazione: ππ = π π1 , π2 , … , ππ . La misura di Y é detta indiretta. Osservazione 19 In generale le v.a. s-indipendenti π1 , π2 , … , ππ non sono singole valutazioni delle grandezze ππ , ma il risultato delle medie (aritmetiche o pesate) di diverse misure ripetute. Ciascuna ππ inoltre avrá una sua incertezza caratterizzata da una specifica deviazione standard ππ . Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 17 Proposizione 15 In tali ipotesi possiamo assumere come misura della grandezza Y e stima della sua incertezza i valori forniti dal Metodo Delta (effettuando uno sviluppo in serie di Taylor di Y= π π1 , π2 , … , ππ attorno al punto π = π1 , π2 , … , ππ ). ππ ± ππ ≅ π π1 , π2 , … , ππ 1 + 2 π π=1 π π2π πππ 2 π π 2 ± π π=1 ππ πππ 2 β π π 2 π con ππ le determinazioni della i-esima misura ππ ed π π le determinazioni del relativo scarto tipo ππ . L’espressione di ππ fornisce la formula per la propagazione degli errori nelle misure indirette. Esempio 5 La misura diretta della densitá πΏ di una soluzione puó essere ottenuta calcolando il rapporto tra la massa M di soluzione contenuta in un recipiente cubico di lato π e il volume π3 del recipiente. Ricavare l’espressione della misura indiretta di πΏ e il suo errore supponendo noti gli scarti tipo π π e π π associati rispettivamente alla misura della massa e a quella della lunghezza. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 18 Organizzazione e rappresentazione dei dati I risultati di una ricerca dovrebbero sempre essere presentati in maniera chiara concisa e in modo che il lettore possa farsi rapidamente un’idea generale delle caratteristiche globali. Per questa ragione per si utilizzano, a seconda dei casi, diverse tipologie di tabelle e grafici. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 19 Esempio 6 Analizzare (senza effettuare calcoli) e rappresentare graficamente i dati riportati in tabella, relativi al reddito annuale iniziale di 42 ingegneri elettrici neolaureati negli USA Stipendio iniziale (K$) Frequenza 27 4 28 1 29 3 30 5 31 8 32 10 34 5 36 2 37 3 40 1 Grafico a bastoncini ο Stipendio minimo: 27000 $, toccato a 4 ο Stipendio massimo: 40000 $, toccato solo a 1 ο Stipendio piú comune: 32000 $, toccato a 10 Gli stessi grafici possono essere realizzati mostrando le frequenze relative invece delle frequenze assolute Grafico a barre Grafico a poligonale Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 20 Osservazione 20 Un tipo di grafico molto comune é il grafico a torta. Risulta particolarmente conveniente quando i dati non son numerici, ma rappresentano categorie. Si costruisce tracciando un cerchio e suddividendolo in settori circolari (spicchi) in numero pari alle categorie distinte di dati, ogni settore con un angolo al centro proporzionale alla frequenza (assoluta o relativa) della categoria corrispondente. Esempio 7 Tumori riscontrati in 200 pazienti Osservazione 21 Le metodologie mostrate sinora vanno bene se i dati da analizzare hanno un numero di valori distinti non troppo elevato. In caso contrario é utile dividere i dati in gruppi di valori contigui (classi o bin) e poi presentare con grafici e tabelle il numero di dati che cadono nell’intervallo di valori assegnato a ciascuna classe. Osservazione 22 La scelta del numero di classi da adottare é un fattore molto importante. Infatti se si suddividono i dati in un numero troppo piccolo di classi si perde troppa informazione sulla forma della distribuizione; se invece si suddividono i dati in troppe classi, si rischia di avere delle classi vuote. Proposizione 16 Il numero ottimale di classi per un campione di numerositá n si ottiene arrotondando all’intero piú vicino il risultato della formula di Sturges: ππΆπππ π π = 1 + 3.3 log10 (π) Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 21 Esempio 8 Tempi di vita (in ore) di 200 lampadine ad incandescenza Istogramma Grafico delle frequenze relative cumulative Il 40% dei dati ha valore minore di 900 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 22 Osservazione 23 Una maniera efficiente di organizzare un numero non troppo grande di dati é il diagramma “stem and leaf”. Per costruirlo occorre dividere le cifre di ogni dato numerico in due parti: una piú significativa (lo stem o ramo) e una meno significativa (la leaf o foglia). Ad esempio, se tutti i dati fossero numeri di due cifre, sarebbe naturale scegliere le decine come stem e le unitá come leaf: Es: 62, 67 ππ‘πππ π πΏπππ π, π Esempio 9 Media mensile e annuale delle temperature minime giornaliere in 35 cittá americane Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 23 Diagramma Stem & Leaf delle Medie annuali: Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 24 Problemi Problema 1 Calcolare media e varianza della v.a. discreta X caratterizzata dalla seguente funzione di massa di probabilitá: π₯π = 4,6,7,8,9,10 πππ ππ (π₯π ) = 0.0833, 0.167, 0.167, 0.250, 0.250, 0.0833 costituita dalle frequenze relative del seguente campione casuale di 12 determinazioni π₯π di X 6, 9, 9, 8, 6, 7, 6, 4, 8, 9, 7, 10 Si calcolino media e varianza delle π₯π e si confrontino i risultati con i valori ottenuti in precedenza. Problema 2 Calcolare le mediane dei seguenti due campioni di mm di piovositá mensile nelle cittá di Napoli e Milano: 1 2 3 4 5 6 7 8 9 NA 94.2 71.7 72.1 66.0 49.6 35.6 16.4 27.1 72.8 MI 61.1 58.1 71.6 89.0 101.2 82.0 72.8 80.6 Problema 3 Una certa malattia é stata riscontrata in 10 soggetti di etá compresa tra i 40 e i 50 anni, in 15 di etá compresa tra i 50 e i 60 anni e in 8 di etá compresa tra i 60 e i 70 anni. Si valutino le frequenze relative ad ogni intervallo di etá, si rappresenti l’istogramma di tali frequenze e si calcoli l’etá media in cui la malattia si manifesta. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 25 Problema 4 Il numero annuale di volte che il livello di guardia di un fiume é stato superato negli ultimi 20 anni é: 1, 4, 2, 1, 4, 0, 2, 2, 3, 1, 2, 2, 2, 3, 4, 2, 0, 1, 0, 1 Si calcolino frequenze assolute, media, deviazione standard, mediana e moda del campione. Problema 5 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente campione casuale di 25 determinazioni della v.a. discreta X: 14, 22, 9, 2, 23, 0, 19, 4, 16, 61,4, 30, 15, 36,16, 43, 123, 23, 65, 41,24, 62, 28, 39, 5 Problema 6 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente campione di dati: 38.6, 48.9, 44.1, 43.1, 41.0, 48.2, 35.4, 42.8, 44.7, 41.2, 34.1, 39.8, 41.1, 34.7, 42.2 quindi calcolare le densitá di frequenza e rappresentarle mediante un istogramma. Problema 7 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente campione di dati: 21.2,26.5, 31.4, 17.4, 20.8, 27.5, 14.3, 18.0, 19.4, 22.5,19.2, 31.2, 20.6, 21.2, 21.8 quindi calcolare le densitá di frequenza e rappresentarle in un istogramma. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 26 Lezione 17 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 27 Osservazione 24 Alcuni modelli di v.a. piú che essere impiegati per interpretare o descrivere fenomeni, sono utilizzati per effettuare delle inferenze, ossia per ottenere informazioni riguardanti la natura o i valori di altre v.a. sulla base di alcune osservazioni sperimentali. Esempio 10 Il peso delle scatole di zucchero (popolazione), confezionate automaticamente in una linea di produzione, é una v.a. X Gaussiana di media π = 1 πΎπ e varianza π 2 = 0.09 πΎπ2 . Supponiamo di programmare per domani una visita alla linea di produzione finalizzata a misurare i pesi ππ di 10 scatole di zucchero prese a caso (campione casuale) e di calcolarne poi il valor medio π (media campionaria). Valutare la probabilitá che il peso medio π risulti inferiore a 0.93 Kg. Osservazione 25 In generale i modelli di v.a. Inferenziali giocano lo stesso ruolo assunto dal modello U (Gaussiana Standard) nell’esempio precedente, cioé consentono, mediante l’uso dei valori tabulati delle relative funzioni di ripartizione, di risolvere in modo semplice problemi inferenziali altrimenti molto complessi da risolvere. Proposizione 17 I modelli di v.a. inferenziali piú utilizzati sono tre: 1. Distribuzione Chi-quadro (ππ ) 2. Distribuzione di Student 3. Distribuzione di Fisher Definizione 15 E’ detta Chi-quadro a n gradi di libertá la v.a. K data dalla somma dei quadrati di n v.a. Normali Standard ππ s-indipendenti: π ππ 2 = π1 2 + π2 2 + β― + ππ 2 πΎ ~ ππ 2 = π=1 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 28 Proposizione 18 In generale il numero di gradi di libertá (g.d.l.) di n v.a. é pari a n meno il numero di relazioni indipendenti che le legano. Nel caso della distribuzione Chi-quadro, n indica proprio il numero di v.a. s-indipendenti utilizzate nella sua formulazione. Proposizione 19 La distribuzione Chi-quadro é riproducibile, nel senso che se πΎ1 e πΎ2 sono due v.a. Chi-quadro s-indipendenti rispettivamente con π1 e π2 gradi di libertá, la loro somma πΎ = πΎ1 + πΎ2 é una v.a. Chi-quadro di π1 + π2 gradi di libertá. 1 π Proposizione 20 La v.a. Chi-quadro coincide con la v.a. Gamma di parametri π = e πΌ = , 2 2 (definizione 9, Modulo 3) pertanto la sua pdf é data da: π π₯ 2 −1 −π₯2 π 2 ππΎ π₯ = π 2Γ 2 ππΎ π₯ Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 29 Osservazione 26 Talvolta é necessario conoscere la speranza matematica di una potenza negativa della v.a. π 2 (es: πΈ πΎ −1 , πΈ πΎ −2 , ππ‘π). Sfruttando la proprietá Γ π₯ + 1 = π₯Γ(π₯) della funzione Gamma (formula ricorrente) si ottiene (indicando con π i gradi di libertá): Proposizione 21 Se πΎ~ππ 2 é una v.a. Chi-quadro a n g.d.l. e πΌ é un numero reale compreso tra 0 2 e 1, si definisce (in analogia alla Gaussiana Standard) la quantitá (percentile) ππΌ,π tale che: ∞ 2 πΌ = ππ πΎ > ππΌ,π = ∞ ππΎ π₯ ππ₯ = 2 ππΌ,π 2 ππΌ,π 1 2Γ π 2 π₯ 2 π −1 2 π₯ 2 π −2 ππ₯ = 1 − πΉπΎ ππΌ,π 2 2 2 I valori di ππΌ,π sono tabulati per numerose combinazioni di πΌ e π (es: ππΌ,π = π0.05,15 = 24.996). Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 30 Tabella Distribuzione Chi-quadro Esempio 10 Determinare il valore della v.a. π 2 a 5 g.d.l. corrispondente al valore 0.90 della funzione di ripartizione. Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 31 Teorema 2 Se π1 , π2 , … , ππ é un campione estratto da una popolazione distribuita secondo un modello Normale di media π e varianza π 2 , allora la statistica campionaria π − 1 π 2 π 2 é una v.a. Chi-quadro con ν = π − 1 g.d.l.: 2 π − 1 π 2 π 2 ~ ππ−1 (la dimostrazione si basa sull’uso del Teorema 1, della definizioni 7 e delle proposizioni 6 e 19) Esempio 11 Il tempo impiegato da un microprocessore ad eseguire alcuni processi é una v.a. Normale con media π = 30π e varianza π 2 = 7.1 π . Se si osserva l’esecuzione di un campione di 15 processi, qual’é la probabilitá che la varianza campionaria risultante sia maggiore di 12? Teorema 3 Se X é una v.a. di tipo Gamma di parametri πΌ, π e π = 2ππ é la corrispondente v.a. Gamma ridotta (definizione 9, Modulo 3) di parametro n e pdf: 1 −π§ ππ π§ = π 2 2 π§ π−1 2 π−1 ! 2 allora Z coincide con la v.a. Chi-quadro a 2π g.d.l. (π2π ). (Proposizione 12 Modulo 3) Se π1 , … , ππ sono variabili Esponenziali s-indipendenti tutte di parametro π, allora Z = ππ=1 ππ é una v.a. di tipo Gamma di parametri π, π . Corollario Se π é la media di un campione casuale ππ , π estratto da una popolazione Esponenziale di parametro π, allora la quantitá 2πππ coincide con la v.a. Chi-quadro a 2π g.d.l., vale cioé la relazione: 2 2πππ ~ π2π Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 32 Definizione 16 Il rapporto tra una v.a. Gaussiana Standard U e la radice quadrata di una v.a. K di tipo Chi-quadro a n g.d.l., s-indipendente dalla prima, divisa per π é detta T di Student con n g.d.l. π= π πΎ/π Osservazione 27 La funzione generatrice dei momenti della v.a. di Student non esiste. I vari momenti posso comunque essere calcolati mediante l’operatore di speranza matematica. Proposizione 22 Si dimostra che la pdf della v.a. T di Student é: π+1 2 ππ π‘ = π ππ Γ 2 Γ π π‘2 + π π+1 2 − ∞ < π‘ < +∞ , π>0 La Distribuzione di Student ha le “code piú pesanti” Proposizione 23 Sfruttando la legge debole dei grandi numeri é possibile dimostrare che per n molto grande la v.a. T di Student converge in probabilitá alla v.a. Normale Standard: π Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo π π. 33 Proposizione 24 Se ππ é una v.a. di Student a n g.d.l. e πΌ é un numero reale compreso tra 0 e 1, si definisce (in analogia alla v.a. Gaussiana Standard e alla v.a. Chi-quadro) la quantitá (percentile) π‘πΌ,π tale che: ∞ πΌ = ππ π > π‘πΌ,π = ππ π‘ ππ₯ = 1 − πΉπ π‘πΌ,π π‘πΌ,π I valori di π‘πΌ,π sono tabulati per numerose combinazioni di πΌ e π (es: π‘πΌ,π = π‘0.05,15 = 1.753). Osservazione 28 Dalla simmetria rispetto a zero della ππ (π‘) segue che −π ha la stessa distribuzione di π per cui: πΌ = ππ −π ≥ π‘πΌ,π = ππ π ≤ −π‘πΌ,π = 1 − ππ π > −π‘πΌ,π ππ π > π‘πΌ,π = α ⇒ ππ π < −π‘πΌ,π = α ππ π > −π‘πΌ,π = 1 − α −π‘πΌ,π = π‘1−πΌ,π Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 34 Tabella Distribuzione T-Student Esempio 12 Determinare: a) π‘0.025,9 ; b) ππ π12 ≤ 1.356 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 35 Proposizione 25 Costruendo una T di Student mediante le seguenti particolari v.a. s-indipendenti: π−π π= π π π π2 πΎ = π − 1 2 ~ ππ2 π (π = π − 1) si ottiene una v.a. di Student con π − 1 g.d.l. , della forma: π π= πΎ/π = π−π π π Questa formulazione della T di Student risulta molto utile nell’inferenza statistica. Definizione 17 Il rapporto tra due v.a. Chi-quadro s-indipendenti, πΎ1 e πΎ2 , ciascuna divisa per i propri gradi di libertá π1 e π2 , é detta v.a. Z di Fisher: π= πΎ1 /π1 πΎ2 /π2 Proposizione 26 Costruendo una Z di Fisher mediante le seguenti particolari v.a. π 2 s-indipend. π1 2 πΎ1 = π1 − 1 ~ ππ21 −1 2 π1 π π2 2 πΎ2 = π2 − 1 ~ ππ22 −1 2 π2 si ottiene una v.a. di Fisher con π1 − 1 π π2 − 1 g.d.l. , della forma: π1 2 π2 2 π= 2β 2 π2 π1 Essendo π1 e π2 le varianze campionarie di due campioni casuali s-indipendenti estratti rispettivamente da due popolazioni Gaussiane di varianze π1 2 e π2 2 . Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 36 Osservazione 29 Come per la v.a. T di Student, la funzione generatrice dei momenti della v.a. di Fisher non esiste. I vari momenti posso comunque essere calcolati mediante l’operatore di speranza matematica. Proposizione 27 Si dimostra che la pdf della v.a. Z di Fisher é: π1 + π2 ππ π§ = π 2 π Γ 1 Γ 2 2 2 Γ π1 π2 π1 2 π1 π§+1 π2 π1 −2 π§ 2 π +π − 1 2 2 Questa espressione non é simmetrica rispetto a π1 e π2 , ma dipende dall’ordine dei g.d.l. della v.a. Chi-quadro del numeratore π1 e da quelli della v.a. Chi-quadro del denominatore π2 . Proposizione 28 Se ππ1 ,π2 é una v.a. di Fisher a π1 e π2 g.d.l. e πΌ é un numero reale compreso tra 0 e 1, si definisce (in analogia alle altre v.a. inferenziali) la quantitá (percentile) π§πΌ,π1 ,π2 tale che: ∞ πΌ = ππ π > π§πΌ,π1 ,π2 = ππ π§ ππ§ = 1 − πΉπ π§πΌ,π1 ,π2 π§πΌ,π1 ,π2 I valori di π§πΌ,π1 ,π2 sono tabulati tipicamente per π = 0.10, 0.05, 0.01 e per numerose combinazioni di π1 e π2 . Proposizione 29 Vale la relazione: 1 = π§1−πΌ,π2 ,π1 π§πΌ,π1 ,π2 ππ : π§0.9,5,7 = 1 π§0.1,7,5 ≈ 1 = 0.297 3.37 Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 37 Tabella Distribuzione di Fisher per πΆ = π. ππ Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 38 Tabella Distribuzione di Fisher per πΆ = π. ππ Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 39 Tabella Distribuzione di Fisher per πΆ = π. ππ Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo 40