Metodi di Osservazione e Misura
A.A. 2013-2014 (II sem.)
Materiale di supporto
Modulo 5: Teoria dei campioni e v.a. inferenziali
Docente: Dr. Luciano L. Pappalardo ([email protected])
Lezione 15
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
2
Proposizione 1 La statistica é normalmente interessata ad ottenere informazioni su un insieme
completo di oggetti, detto popolazione. Esso é peró spesso troppo grande perché sia possibile un
esame esaustivo. In questo caso si cerca di imparare qualcosa (fare inferenza) sulla popolazione
studiandone dei sottoinsiemi detti campioni.
Osservazione 1 In generale solo campioni scelti completamente a caso sono rappresentativi della
popolazione, infatti ogni criterio di selezione non casuale finisce per produrre campioni
caratterizzati da v.a. sbilanciate verso valori particolari, e quindi non attendibili.
Proposizione 2 Si suppone che vi sia una distribuzione di probabilitá intrinseca della popolazione
(per es. si suppone che una data v.a. sia distribuita in modo Gaussiano). Pertanto, se dalla
popolazione si estraggono dei campioni in maniera casuale, le quantitá numeriche loro associate
possono essere pensate come v.a. s-indipendenti, tutte con tale distribuzione (per es. Gaussiana).
Proposizione 3 Valutare da un campione qualcosa riguardante la popolazione costituisce un
processo induttivo noto come inferenza statistica. Come tutti i processi logici, anche l’inferenza
statistica non conduce a conclusioni certe. Tali conslusioni possono pertanto essere oggetto di
valutazioni probabilistiche.
Definizione 1 L’inferenza é detta parametrica se la distribuzione di probabilitá della popolazione é
nota a meno di parametri incogniti (per es. si potrebbe sapere che é Gaussiana ma non
conoscerne media e varianza). L’inferenza é detta non-parametrica se non si conosce la
distribuzione di probabilitá della popolazione, tranne poter assumere che sia continua o discreta.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
3
Definizione 2 Sia X una v.a. associata ad una data popolazione, e 𝑋1 , 𝑋2 , … , 𝑋𝑛 le v.a. associate agli
n elementi di un campione estratto dalla popolazione. Il set di n v.a. 𝑋𝑖 , 𝑛 (n-upla) é detto
campione della v.a. X e costituisce una v.a. n-dimensionale. I corrispondenti valori
π‘₯1 , π‘₯2 , … , π‘₯𝑛 costituiscono n determinazioni della v.a. X.
Osservazione 2 Per poter estrarre informazioni sulla popolazione (ossia sulla v.a. X di nostro
interesse) a partire dallo studio del campione dobbiamo conoscere le leggi che legano le
caratteristiche del campione a quelle della popolazione, quali per es. la funzioni media e varianza
della v.a. n-dimensionale π‘Ώπ’Š , 𝒏 associata al campione:
πœ‡ = 𝑋 = πœ‰ 𝑋𝑖 , 𝑛
𝜎 2 = 𝑆 2 = 𝜁 𝑋𝑖 , 𝑛
che forniscono le stime (indicate col simbolo “^”) della media πœ‡ e della varianza 𝜎 2 della v.a. X
della popolazione.
Definizione 3 Il campione 𝑋𝑖 , 𝑛 di una v.a. X é detto casuale se le n v.a. 𝑋𝑖 che lo costituiscono
sono s-indipendenti e hanno la stessa funzione di ripartizione 𝐹𝑋 (π‘₯) di X (e quindi stessa media e
varianza della popolazione):
𝐹𝑋1 π‘₯ = 𝐹𝑋2 π‘₯ = β‹― = 𝐹𝑋𝑛 π‘₯ = 𝐹𝑋 π‘₯
Osservazione 3 Se si estraggono senza rimessa 𝑛 elementi di una popolazione finita di 𝑁 ≥ 𝑛
elementi, la funzione di ripartizione della popolazione é modificata in seguito ad ogni estrazione.
In questo caso si ottiene un campione non-casuale in quanto le n v.a. non sono tra loro sindipendenti (si dimostra che la covarianza é non nulla). Un esempio di tale popolazione é quello
di un’urna contenente N sfere contrassegnate dai numeri da 1 a N. E’ evidente che se la
popolazione ha un numero N molto grande di elementi il fatto che l’estrazione avvenga senza
rimessa é irrilevante e le v.a. possono essere considerate s-indipendenti (e il campione casuale).
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
4
Definizione 4 Data una popolazione di N elementi, con il concetto di campione aleatorio di
numerositá 𝒏 < 𝑡 𝑋𝑖 , 𝑛 si intende la scelta di un sottoinsieme di n elementi fatta in modo tale
che tutti le 𝑁
combinazioni di sottoinsiemi di 𝑛 < 𝑁 elementi candidati abbiano le stesse
𝑛
probabilitá di essere selezionati.
Definizione 5 Sia 𝑋𝑖 , 𝑛 un campione della v.a. X. E’ detta statistica campionaria una qualunque
funzione del campione che non coinvolge parametri incogniti della v.a. X. Media campionaria e
varianza campionaria sono esempi di statistiche campionarie e costituiscono esse stesse delle v.a.
Definizione 6 Si definisce media campionaria la statistica campionaria data dalla legge:
𝑋1 + 𝑋2 + β‹― + 𝑋𝑛 1
𝑋=
=
𝑛
𝑛
𝑛
𝑋𝑖
𝑖=1
Osservazione 4 Essendo 𝑋 una funzione di v.a. é essa stessa una v.a., e quindi ha senso calcolarne
il valore atteso e la sua varianza.
Proposizione 4 Il valore atteso della media campionaria coincide con la media della popolazione
πœ‡, e la sua varianza con quella della popolazione ridotta di un fattore n 𝜎 2 𝑛 . Si deduce che 𝑋 é
centrata attorno a πœ‡ e la sua variabilitá si riduce sempre piú all’aumentare di n. Infatti,
aumentando n aumenta il numero di informazioni a disposizione e di conseguenza si riduce la
dispersione (incertezza) rispetto al valore medio.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
5
Definizione 7 Si definisce varianza campionaria la statistica campionaria data dalla legge:
1
𝑆2 =
𝑛−1
𝑛
𝑋𝑖 − 𝑋
2
𝑖=1
La sua radice quadrata fornsce la deviazione standard campionaria.
Teorema 1 Sia dato un campione aleatorio 𝑋𝑖 , 𝑛 e sia 𝑋 la sua media campionaria, allora vale
l’uguagliaza:
𝑛
𝑛
𝑋𝑖 − 𝑋
𝑖=1
2
𝑋𝑖 2 − 𝑛𝑋 2
=
𝑖=1
Proposizione 5 Il valore atteso della varianza campionaria coincide con la varianza della
popolazione 𝜎 2 .
Osservazione 5 Questo importante risultato é conseguenza del fatto che la definizione di varianza
campionaria incorpora il contributo di 𝑛 − 1 elementi indipendenti (e non di 𝑛). Infatti l’n-esimo
elemento non é indipendente dagli altri in quanto puó essere ottenuto dagli altri 𝑛 − 1 tramite la
𝑋 +𝑋 +β‹―+𝑋𝑛
formula della media campionaria 𝑋 = 1 2
. Si dice che i gradi di libertá sono 𝒏 − 𝟏.
𝑛
Ovviamente, per n sufficientemente grande vale: 𝑛 − 1 ≈ 𝑛.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
6
Definizione 8 Sia dato un campione di una v.a. X discreta formato da n osservazioni sperimentali di
π‘˜ ≤ 𝑛 diversi valori π‘₯𝑖 . Il numero di volte 𝑛𝑖 che lo stesso valore π‘₯𝑖 compare nel campione é detto
frequenza assoluta di π’™π’Š . Il rapporto 𝑓 tra 𝑛𝑖 e 𝑛 é detto frequenza relativa di π’™π’Š :
π‘˜
𝑛𝑖
𝑓𝑖 =
𝑛
π‘˜
𝑛𝑖 = 𝑛
𝑓𝑖 = 1
𝑖=1
𝑖=1
Osservazione 6 Pertanto la media campionaria puó essere scritta come:
1
𝑋=
𝑛
𝑛
𝑗=1
1
π‘₯𝑗 =
𝑛
π‘˜
π‘˜
𝑛𝑖 π‘₯𝑖 =
𝑖=1
𝑓𝑖 π‘₯𝑖
𝑖=1
Definizione 9 La moda campionaria di un insieme di dati é, se esiste, l’unico valore che ha la
frequenza massima. Se vi é piú di un valore con frequenza massima, ciascuno di essi é detto valore
modale.
Definizione 10 La mediana campionaria di un campione ordinato costituito da n valori con
numero d’ordine crescente 𝑖 , π‘₯(1) , π‘₯(2) , … , π‘₯(𝑛) , é data da:
π‘₯
π‘₯0.5 =
𝑠𝑒 𝑛 π‘‘π‘–π‘ π‘π‘Žπ‘Ÿπ‘–
𝑛+1 /2
π‘₯ 𝑛/2 + π‘₯ 𝑛
2
2+1
Esempio 1 La seguente tabella riporta la frequenza di
uscita delle 6 facce di un dado su 40 lanci. Calcolare:
media, mediana e moda campionarie.
𝑠𝑒 𝑛 π‘π‘Žπ‘Ÿπ‘–
Valore
1 2 3 4 5 6
Frequenza 9 8 5 5 6 7
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
7
Definizione 11 Sia π‘˜ un numero intero compreso tra 0 e 100. Dato un campione di dati numerici,
ne esiste sempre uno che é contemporaneamente ≥ di almeno il π‘˜% dei dati e ≤ di almeno il
100 − π‘˜ % dei dati. Se il dato con queste caratteristiche é unico esso é detto k-esimo percentile
del campione. Se invece non é unico, allora sono esattamente 2 e in questo caso il k-esimo
percentile é dato dalla loro media aritmetica.
Regola: Per determinare il k-esimo percentile di un campione di numerositá n occorre:
1. Disporre i dati in ordine crescente;
2. Trovare quel dato (o quei dati) tale che, detto 𝑝 = π‘˜/100:
- almeno 𝑛𝑝 dati sono minori o uguali ad esso;
- almeno 𝑛(1 − 𝑝) dati sono maggiori o uguali ad esso.
3. Se 𝑛𝑝 é intero il k-esimo percentile é dato dalla media aritmentica dei dati corrispondenti alle
posizioni 𝑛𝑝 e (𝑛 + 1)𝑝. (es. se 𝑛𝑝 = 5 il k-esimo percentile é dato dalla media aritmetica
dei dati che occupano la 5π‘Ž e la 6π‘Ž posizione).
4. Se 𝑛𝑝 non é intero l’unico dato che soddisfa questi criteri é quello che occupa la posizione
data dall’intero successivo a 𝑛𝑝 (es. se 𝑛𝑝 = 13.7 il k-esimo percentile é il dato che occupa la
14π‘Ž posizione)
Esempio 2 Dererminare l’80-esimo percentile del seguente campione di 𝑛 = 22 dati:
5.5 8.2 2.5 12.0 6.7 4.0 10.3 1.0 4.2 7.5 10.7 7.0 9.5 8.6 1.5 9.1 4.9 2.5 9.8 5.3 7.9 6.4 5.8
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
8
Esempio 3 La tabella seguente riporta le popolazioni delle 30 maggiori cittá degli Stati Uniti.
Detrminare il 10π‘œ , il 95π‘œ , il 50π‘œ percentile e la mediana campionaria.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
9
Osservazione 7 Il 50-esimo percentile π‘₯50 coincide con la mediana campionaria, e assieme al 25esimo (π‘₯25 ) e al 75-esimo percentile (π‘₯75 ) forma i quartili campionari.
Definizione 12 Il 25-esimo percentile é detto primo quartile, il 50-esimo percentile é detto
secondo quartile o mediana campionaria e il 75-esimo percentile é detto terzo quartile. I quartili
dividono il campione in quattro parti: i dati minori del primo quartile, quelli maggiori del terzo e
quelli compresi tra primo e secondo, e tra secondo e terzo.
Definizione 13 Si definisce range la differenza tra il piú grande e il piú piccolo dei dati del
campione: 𝑅 = π‘₯π‘šπ‘Žπ‘₯ − π‘₯π‘šπ‘–π‘› .
Esempio 4 Determinare i quartili campionari e il range dei seguenti valori, relativi ai livelli di
rumore in dB (decibel) misurati in 36 differenti occasioni in prossimitá della stazione centrale di
Manhattan (per un essere umano la soglia di tollerabilitá é di 120 dB, mentre quella di udibilitá é
di 1dB per persone con ottimo udito). Rappresentare il corrispondente box plot.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
10
Osservazione 8 Nei casi di v.a. riproducibili, la media campionaria 𝑋 ha distribuzione nota. Se
infatti la v.a. X della popolazione é Gaussiana di parametri πœ‡ e 𝜎 2 (o Binomiale di parametri
π‘š 𝑒 𝑝), anche la 𝑋 sará Gaussiana di media πœ‡ e varianza 𝜎 2 /𝑛 (o Binomiale di media π‘šπ‘ e
varianza π‘šπ‘(1 − 𝑝)/𝑛 ).
𝑋 +𝑋 +β‹―+𝑋
𝑛
Osservazione 9 La media campionaria 𝑋 = 1 2
é di fatto la somma di n v.a. S𝑛
indipendenti ed equidistribuite. Se n é sufficientemente grande, sono quindi soddisfatte le ipotesi
del teorema del limite centrale: La somma di una successione di 𝑛 v.a. 𝑋𝑖 s-indipendenti ed
equidistribuite con media πœ‡ e varianza 𝜎 2 converge in distribuzione alla v.a. Gaussiana di media
πœ‡ = π‘›πœ‡ e varianza 𝜎 2 = π‘›πœŽ 2 , qualunque sia la funzione di ripartizione delle 𝑋𝑖 .
Proposizione 6 Per n sufficientemente grande, la funzione di ripartizione della media campionaria
𝑋 converge a quella di una Gaussiana di media πœ‡ e varianza 𝜎 2 𝑛 (convergenza in distribuzione).
Indicando con π‘ˆπ‘› la corrispondente v.a. standardizzata, si ha dunque:
π‘ˆπ‘› =
𝑋−πœ‡
𝜎 𝑛
𝑑
π‘ˆ = 𝑁(0,1)
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
11
Osservazione 10 Generalmente le v.a. studiate sperimentalmente sono soltanto gli elementi
(variabili d’ingresso) da inserire in formule matematiche (trasformazioni di v.a.) per ottenere
valutazioni di un parametro (variabile d’uscita) che costituisce il vero obiettivo dello studio. Per
esempio, in alcune valutazioni cliniche non sono il peso P (in Kg) e l’altezza H (in cm) di un paziente
le variabili di interesse, bensí la trasformata 𝐼 = 𝑃/𝐻 2 (indice di massa corporea).
Osservazione 11 Spesso tuttavia la pdf congiunta non é nota oppure non é analiticamente
trattabile. In questi casi puó essere sufficiente valutare con buona approssimazione anche solo la
media e la varianza della v.a. d’uscita a partire dalla stima sperimentale dei momenti delle v.a.
d’ingresso.
Proposizione 7 Siano 𝑋1 , 𝑋2 , … , 𝑋𝑛 delle v.a. continue (variabili d’ingresso) di cui si suppongono
note le medie π‘šπ‘– e le varianze 𝑆𝑖 2 , e sia πœ‘ βˆ™ una funzione reale continua e derivabile. La media
π‘šπ‘Œ e la varianza π‘†π‘Œ 2 della v.a. d’uscita π‘Œ = πœ‘ 𝑋1 , 𝑋2 , … , 𝑋𝑛 possono essere ottenute in modo
approssimato mediante uno sviluppo in serie di Taylor della funzione πœ‘ 𝑋1 , 𝑋2 , … , 𝑋𝑛 di punto
iniziale π‘š = π‘š1 , π‘š2 , … , π‘šπ‘› . Questo approccio é noto come Metodo Delta.
Osservazione 12 Se la πœ‘ βˆ™ é lineare, il metodo é esatto in quanto risultano identicamente nulli
tutti i termini di ordine superiore al primo:
𝑛
π‘šπ‘Œ = πœ‘ π‘š1 , π‘š2 , … , π‘šπ‘› ±
𝑖=1
πœ•πœ‘
πœ•π‘‹π‘–
2
βˆ™ 𝑠𝑖 2
π‘š
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
12
Lezione 16
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
13
Osservazione 13 La misura di una grandezza fisica é sempre affetta da un errore, generalmente
imprevedibile. Questo errore puó essere ridotto utilizzando strumenti e metodi di misura piu
precisi, ma non puó mai essere eliminato del tutto. Pertanto, ripetendo piú volte la stessa misura
si otterranno sempre risultati leggermente diversi. Ci si pone quindi il problema di stabilire quale
valore sia plausibile assumere come misura della grandezza in studio, e quale sia il livello di
incertezza ad esso associato.
Proposizione 8 Esistono tre diverse categorie di errore:
1. Contributo identificabile ed estemporaneo (es. disattenzione dell’operatore);
2. Contributo identificabile e sistematico (es. taratura dello strumento)
3. Contributo casuale (di natura aleatoria)
Le prime due categorie, una volta identificate possone essere ridotte o addirittura, in certi casi,
eliminate, rimuovendone la causa. La terza non potrá mai essere eliminata, ma puó essere trattata
con i metodi della statistica.
Proposizione 9 L’errore casuale (aleatorio) é originato dagli effetti di molti fattori non
identificabili e che agiscono secondo meccanissmi non noti. La somma di molti effetti di segno ed
entitá differenti produce un effetto complessivo mediamente nullo ma assolutamente
imprevedibile (se il suo valore medio non fosse nullo si potrebbe, in linea di principio, identificarlo,
valutarlo e rimuoverlo).
Definizione 14 Si definisce errore aleatorio la v.a. Z di media nulla ottenuta dalla differenza
𝑍 = 𝑋 − πœ‡ tra l’osservazione X (supposta immune da errore sistematico) della grandezza e il
valore πœ‡ incognito della stessa (“valore vero”). L’ esperienza mostra che l’errore aleatorio Z segue
la distribuzione Gaussiana di media nulla (centrata sullo zero).
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
14
Osservazione 14 Un insieme 𝑋1 , 𝑋2 , … , 𝑋𝑛 di valutazioni s-indipendenti del valore incognito πœ‡ di
una grandezza fisica (massa, lunghezza, pressione, temperatura, etc) ottenuto con una procedura
che garantisca alle 𝑋𝑖 la stessa varianza 𝜎 2 , costituisce un campione casuale 𝑋𝑖 , 𝑛 di n
valutazioni di uguale precisione.
Proposizione 10 Per un tale campione si assume come stima 𝑴𝑿 del valore vero 𝝁 della
grandezza X il valore fornito dalla media aritmetica:
1
𝑀𝑋 = 𝑋 =
𝑛
𝑛
𝑋𝑖
𝑖=1
che gode della proprietá di avere il minimo errore quadratico medio rispetto al valore vero
(incognito) πœ‡. Un qualsiasi altro valore 𝑋 ′ = 𝑋 + βˆ† , con βˆ†≠ 0 sarebbe affetto da un errore
quadratico medio incrementato di βˆ†2 .
Proposizione 11 La stima della Deviazione Standard (o scarto tipo) e la Deviazione Standard della
media sono date rispettivamente da:
𝑆=
𝑛
𝑖=1
𝑋𝑖 − 𝑋
𝑛−1
2
e
𝑆𝑀 =
𝑆
𝑛
Il risultato della misura sará quindi:
1
𝑀𝑋 =
𝑛
𝑛
𝑖=1
1
𝑋𝑖 ±
𝑛
𝑛
𝑖=1
𝑋𝑖 − 𝑋
𝑛−1
2
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
15
Osservazione 15 Un insieme 𝑋1 , 𝑋2 , … , 𝑋𝑛 di valutazioni s-indipendenti del valore incognito πœ‡
ottenute con procedure (es. apparecchiature o operatori) diverse che determinano per ciasuna 𝑋𝑖
una differente varianza πœŽπ‘– 2 (supposte note a priori), costituisce un campione casuale 𝑋𝑖 , 𝑛 di n
valutazioni di diversa precisione.
Osservazione 16 I differenti gradi di incertezza indicati dalle rispettive deviazioni standard πœŽπ‘–
conferiscono attendibilitá (o pesi) differenti alle varie valutazioni delle 𝑋𝑖 . E’ evidente che in
questo caso per formulare la miglior stima di πœ‡ bisogna conferire un maggior peso alle valutazioni
piú precise (πœŽπ‘– minore) rispetto a quelle meno precise (πœŽπ‘– maggiore).
Proposizione 12 Per un tale campione si assume come stima 𝑴𝑿 del valore vero 𝝁 della
grandezza X il valore fornito dalla media pesata:
𝑀𝑋 = 𝑋𝑃 =
avendo definito i pesi: 𝑀𝑖 = 1 πœŽπ‘– 2
1
πœŽπ‘– 2
=
1
𝑛
𝑖=1 𝜎 2
𝑖
𝑛
𝑖=1 𝑋𝑖
𝑛
𝑖=1 𝑋𝑖 𝑀𝑖
𝑛
𝑖=1 𝑀𝑖
Osservazione 17 Poiché i pesi scalano con l’inverso del quadrato dell’incertezza (deviazione
standard), é evidente che una misura che sia affetta da un’incertezza molto maggiore delle altre
contribuisce molto poco al risultato finale.
Osservazione 18 Se i pesi sono tutti uguali, la media pesata coincide con la media aritmetica.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
16
Proposizione 13 La stima della deviazione standard associata alla media pesata (miglior stima) e’:
𝑆𝑀 =
1
𝑛
𝑖=1 1
πœŽπ‘– 2
=
1
𝑛
𝑖=1 𝑀𝑖
Il risultato della misura sará quindi:
𝑀𝑋 =
𝑛
𝑖=1 𝑋𝑖 𝑀𝑖
𝑛
𝑖=1 𝑀𝑖
±
1
𝑛
𝑖=1 𝑀𝑖
Proposizione 14 Siano πœ‡1 , πœ‡2 , … , πœ‡π‘› i valori veri (incogniti) di n grandezze misurabili direttamente,
e πœ‘ βˆ™ una funzione reale continua e derivabile. Supponiamo di essere interessati a misurare la
grandezza fisica Y, non osservabile direttamente, il cui valore incognito πœ‡π‘Œ é tuttavia desumibile
mediante la relazione: πœ‡π‘Œ = πœ‘ πœ‡1 , πœ‡2 , … , πœ‡π‘› . La misura di Y é detta indiretta.
Osservazione 19 In generale le v.a. s-indipendenti 𝑋1 , 𝑋2 , … , 𝑋𝑛 non sono singole valutazioni delle
grandezze πœ‡π‘– , ma il risultato delle medie (aritmetiche o pesate) di diverse misure ripetute.
Ciascuna 𝑋𝑖 inoltre avrá una sua incertezza caratterizzata da una specifica deviazione standard 𝑆𝑖 .
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
17
Proposizione 15 In tali ipotesi possiamo assumere come misura della grandezza Y e stima della
sua incertezza i valori forniti dal Metodo Delta (effettuando uno sviluppo in serie di Taylor di
Y= πœ‘ 𝑋1 , 𝑋2 , … , 𝑋𝑛 attorno al punto π‘š = π‘š1 , π‘š2 , … , π‘šπ‘› ).
π‘€π‘Œ ± π‘†π‘Œ ≅ πœ‘ π‘š1 , π‘š2 , … , π‘šπ‘›
1
+
2
𝑛
𝑖=1
𝑛
πœ•2πœ‘
πœ•π‘‹π‘–
2
𝑠𝑖 2 ±
π‘š
𝑖=1
πœ•πœ‘
πœ•π‘‹π‘–
2
βˆ™ 𝑠𝑖 2
π‘š
con π‘šπ‘– le determinazioni della i-esima misura 𝑋𝑖 ed 𝑠𝑖 le determinazioni del relativo scarto tipo 𝑆𝑖 .
L’espressione di π‘†π‘Œ fornisce la formula per la propagazione degli errori nelle misure indirette.
Esempio 5 La misura diretta della densitá 𝛿 di una soluzione puó essere ottenuta calcolando il
rapporto tra la massa M di soluzione contenuta in un recipiente cubico di lato 𝑙 e il volume 𝑙3 del
recipiente. Ricavare l’espressione della misura indiretta di 𝛿 e il suo errore supponendo noti gli
scarti tipo 𝑠𝑀 e 𝑠𝑙 associati rispettivamente alla misura della massa e a quella della lunghezza.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
18
Organizzazione e rappresentazione dei dati
I risultati di una ricerca dovrebbero sempre essere presentati in maniera chiara concisa e in modo
che il lettore possa farsi rapidamente un’idea generale delle caratteristiche globali. Per questa
ragione per si utilizzano, a seconda dei casi, diverse tipologie di tabelle e grafici.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
19
Esempio 6 Analizzare (senza effettuare calcoli) e rappresentare graficamente i dati riportati in
tabella, relativi al reddito annuale iniziale di 42 ingegneri elettrici neolaureati negli USA
Stipendio iniziale (K$)
Frequenza
27
4
28
1
29
3
30
5
31
8
32
10
34
5
36
2
37
3
40
1
Grafico a bastoncini
οƒ˜ Stipendio minimo: 27000 $, toccato a 4
οƒ˜ Stipendio massimo: 40000 $, toccato solo a 1
οƒ˜ Stipendio piú comune: 32000 $, toccato a 10
Gli stessi grafici possono essere realizzati mostrando
le frequenze relative invece delle frequenze assolute
Grafico a barre
Grafico a poligonale
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
20
Osservazione 20 Un tipo di grafico molto comune é il grafico
a torta. Risulta particolarmente conveniente quando i dati
non son numerici, ma rappresentano categorie. Si costruisce
tracciando un cerchio e suddividendolo in settori circolari
(spicchi) in numero pari alle categorie distinte di dati, ogni
settore con un angolo al centro proporzionale alla frequenza
(assoluta o relativa) della categoria corrispondente.
Esempio 7 Tumori riscontrati in 200 pazienti
Osservazione 21 Le metodologie mostrate sinora vanno bene se i dati da analizzare hanno un
numero di valori distinti non troppo elevato. In caso contrario é utile dividere i dati in gruppi di
valori contigui (classi o bin) e poi presentare con grafici e tabelle il numero di dati che cadono
nell’intervallo di valori assegnato a ciascuna classe.
Osservazione 22 La scelta del numero di classi da adottare é un fattore molto importante. Infatti
se si suddividono i dati in un numero troppo piccolo di classi si perde troppa informazione sulla
forma della distribuizione; se invece si suddividono i dati in troppe classi, si rischia di avere delle
classi vuote.
Proposizione 16 Il numero ottimale di classi per un campione di numerositá n si ottiene
arrotondando all’intero piú vicino il risultato della formula di Sturges: π‘πΆπ‘™π‘Žπ‘ π‘ π‘– = 1 + 3.3 log10 (𝑛)
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
21
Esempio 8 Tempi di vita (in ore) di 200 lampadine ad incandescenza
Istogramma
Grafico delle frequenze
relative cumulative
Il 40% dei dati
ha valore
minore di 900
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
22
Osservazione 23 Una maniera efficiente di organizzare un numero non troppo grande di dati é il
diagramma “stem and leaf”. Per costruirlo occorre dividere le cifre di ogni dato numerico in due
parti: una piú significativa (lo stem o ramo) e una meno significativa (la leaf o foglia). Ad esempio,
se tutti i dati fossero numeri di due cifre, sarebbe naturale scegliere le decine come stem e le
unitá come leaf:
Es:
62, 67
π‘†π‘‘π‘’π‘Žπ‘š
πŸ”
πΏπ‘’π‘Žπ‘“
𝟐, πŸ•
Esempio 9 Media mensile e annuale delle temperature minime giornaliere in 35 cittá americane
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
23
Diagramma Stem & Leaf
delle
Medie annuali:
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
24
Problemi
Problema 1 Calcolare media e varianza della v.a. discreta X caratterizzata dalla seguente funzione
di massa di probabilitá:
π‘₯𝑖 = 4,6,7,8,9,10
π‘π‘œπ‘› 𝑃𝑋 (π‘₯𝑖 ) = 0.0833, 0.167, 0.167, 0.250, 0.250, 0.0833
costituita dalle frequenze relative del seguente campione casuale di 12 determinazioni π‘₯𝑖 di X
6, 9, 9, 8, 6, 7, 6, 4, 8, 9, 7, 10
Si calcolino media e varianza delle π‘₯𝑖 e si confrontino i risultati con i valori ottenuti in precedenza.
Problema 2 Calcolare le mediane dei seguenti due campioni di mm di piovositá mensile nelle cittá
di Napoli e Milano:
1
2
3
4
5
6
7
8
9
NA
94.2
71.7
72.1
66.0
49.6
35.6
16.4
27.1
72.8
MI
61.1
58.1
71.6
89.0
101.2
82.0
72.8
80.6
Problema 3 Una certa malattia é stata riscontrata in 10 soggetti di etá compresa tra i 40 e i 50
anni, in 15 di etá compresa tra i 50 e i 60 anni e in 8 di etá compresa tra i 60 e i 70 anni. Si valutino
le frequenze relative ad ogni intervallo di etá, si rappresenti l’istogramma di tali frequenze e si
calcoli l’etá media in cui la malattia si manifesta.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
25
Problema 4 Il numero annuale di volte che il livello di guardia di un fiume é stato superato negli
ultimi 20 anni é:
1, 4, 2, 1, 4, 0, 2, 2, 3, 1, 2, 2, 2, 3, 4, 2, 0, 1, 0, 1
Si calcolino frequenze assolute, media, deviazione standard, mediana e moda del campione.
Problema 5 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente
campione casuale di 25 determinazioni della v.a. discreta X:
14, 22, 9, 2, 23, 0, 19, 4, 16, 61,4, 30, 15, 36,16, 43, 123, 23, 65, 41,24, 62, 28, 39, 5
Problema 6 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente
campione di dati:
38.6, 48.9, 44.1, 43.1, 41.0, 48.2, 35.4, 42.8, 44.7, 41.2, 34.1, 39.8, 41.1, 34.7, 42.2
quindi calcolare le densitá di frequenza e rappresentarle mediante un istogramma.
Problema 7 Calcolare media, mediana, varianza, deviazione standard, quartili e range del seguente
campione di dati:
21.2,26.5, 31.4, 17.4, 20.8, 27.5, 14.3, 18.0, 19.4, 22.5,19.2, 31.2, 20.6, 21.2, 21.8
quindi calcolare le densitá di frequenza e rappresentarle in un istogramma.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
26
Lezione 17
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
27
Osservazione 24 Alcuni modelli di v.a. piú che essere impiegati per interpretare o descrivere
fenomeni, sono utilizzati per effettuare delle inferenze, ossia per ottenere informazioni riguardanti
la natura o i valori di altre v.a. sulla base di alcune osservazioni sperimentali.
Esempio 10 Il peso delle scatole di zucchero (popolazione), confezionate automaticamente in una
linea di produzione, é una v.a. X Gaussiana di media πœ‡ = 1 𝐾𝑔 e varianza 𝜎 2 = 0.09 𝐾𝑔2 .
Supponiamo di programmare per domani una visita alla linea di produzione finalizzata a misurare i
pesi 𝑋𝑖 di 10 scatole di zucchero prese a caso (campione casuale) e di calcolarne poi il valor medio
𝑋 (media campionaria). Valutare la probabilitá che il peso medio 𝑋 risulti inferiore a 0.93 Kg.
Osservazione 25 In generale i modelli di v.a. Inferenziali giocano lo stesso ruolo assunto dal
modello U (Gaussiana Standard) nell’esempio precedente, cioé consentono, mediante l’uso dei
valori tabulati delle relative funzioni di ripartizione, di risolvere in modo semplice problemi
inferenziali altrimenti molto complessi da risolvere.
Proposizione 17 I modelli di v.a. inferenziali piú utilizzati sono tre:
1. Distribuzione Chi-quadro (𝝌𝟐 )
2. Distribuzione di Student
3. Distribuzione di Fisher
Definizione 15 E’ detta Chi-quadro a n gradi di libertá la v.a. K data dalla somma dei quadrati di n
v.a. Normali Standard π‘ˆπ‘– s-indipendenti:
𝑛
π‘ˆπ‘– 2 = π‘ˆ1 2 + π‘ˆ2 2 + β‹― + π‘ˆπ‘› 2
𝐾 ~ πœ’π‘› 2 =
𝑖=1
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
28
Proposizione 18 In generale il numero di gradi di libertá (g.d.l.) di n v.a. é pari a n meno il
numero di relazioni indipendenti che le legano. Nel caso della distribuzione Chi-quadro, n indica
proprio il numero di v.a. s-indipendenti utilizzate nella sua formulazione.
Proposizione 19 La distribuzione Chi-quadro é riproducibile, nel senso che se 𝐾1 e 𝐾2 sono due
v.a. Chi-quadro s-indipendenti rispettivamente con 𝑛1 e 𝑛2 gradi di libertá, la loro somma
𝐾 = 𝐾1 + 𝐾2 é una v.a. Chi-quadro di 𝑛1 + 𝑛2 gradi di libertá.
1
𝑛
Proposizione 20 La v.a. Chi-quadro coincide con la v.a. Gamma di parametri πœ† = e 𝛼 = ,
2
2
(definizione 9, Modulo 3) pertanto la sua pdf é data da:
𝑛
π‘₯ 2 −1 −π‘₯2
𝑒
2
𝑓𝐾 π‘₯ =
𝑛
2Γ
2
𝑓𝐾 π‘₯
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
29
Osservazione 26 Talvolta é necessario conoscere la speranza matematica di una potenza negativa
della v.a. πœ’ 2 (es: 𝐸 𝐾 −1 , 𝐸 𝐾 −2 , 𝑒𝑑𝑐). Sfruttando la proprietá Γ π‘₯ + 1 = π‘₯Γ(π‘₯) della funzione
Gamma (formula ricorrente) si ottiene (indicando con 𝜈 i gradi di libertá):
Proposizione 21 Se 𝐾~πœ’π‘› 2 é una v.a. Chi-quadro a n g.d.l. e 𝛼 é un numero reale compreso tra 0
2
e 1, si definisce (in analogia alla Gaussiana Standard) la quantitá (percentile) πœ’π›Ό,𝑛
tale che:
∞
2
𝛼 = π‘ƒπ‘Ÿ 𝐾 > πœ’π›Ό,𝑛
=
∞
𝑓𝐾 π‘₯ 𝑑π‘₯ =
2
πœ’π›Ό,𝑛
2
πœ’π›Ό,𝑛
1
2Γ
𝑛
2
π‘₯
2
𝑛
−1
2
π‘₯
2
𝑒 −2 𝑑π‘₯ = 1 − 𝐹𝐾 πœ’π›Ό,𝑛
2
2
2
I valori di πœ’π›Ό,𝑛
sono tabulati per numerose combinazioni di 𝛼 e 𝑛 (es: πœ’π›Ό,𝑛
= πœ’0.05,15
= 24.996).
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
30
Tabella Distribuzione Chi-quadro
Esempio 10 Determinare il valore della v.a. πœ’ 2 a 5 g.d.l. corrispondente al valore 0.90 della funzione
di ripartizione.
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
31
Teorema 2 Se 𝑋1 , 𝑋2 , … , 𝑋𝑛 é un campione estratto da una popolazione distribuita secondo un
modello Normale di media πœ‡ e varianza 𝜎 2 , allora la statistica campionaria 𝑛 − 1 𝑆 2 𝜎 2 é una
v.a. Chi-quadro con ν = 𝑛 − 1 g.d.l.:
2
𝑛 − 1 𝑆 2 𝜎 2 ~ πœ’π‘›−1
(la dimostrazione si basa sull’uso del Teorema 1, della definizioni 7 e delle proposizioni 6 e 19)
Esempio 11 Il tempo impiegato da un microprocessore ad eseguire alcuni processi é una v.a.
Normale con media πœ‡ = 30𝑠 e varianza 𝜎 2 = 7.1 𝑠. Se si osserva l’esecuzione di un campione di
15 processi, qual’é la probabilitá che la varianza campionaria risultante sia maggiore di 12?
Teorema 3 Se X é una v.a. di tipo Gamma di parametri 𝛼, πœ† e 𝑍 = 2πœ†π‘‹ é la corrispondente v.a.
Gamma ridotta (definizione 9, Modulo 3) di parametro n e pdf:
1 −𝑧
𝑓𝑍 𝑧 = 𝑒 2
2
𝑧 𝑛−1
2
𝑛−1 !
2
allora Z coincide con la v.a. Chi-quadro a 2𝑛 g.d.l. (πœ’2𝑛
).
(Proposizione 12 Modulo 3) Se 𝑋1 , … , 𝑋𝑛 sono variabili Esponenziali s-indipendenti tutte di
parametro πœ†, allora Z = 𝑛𝑖=1 𝑋𝑖 é una v.a. di tipo Gamma di parametri 𝑛, πœ† .
Corollario Se 𝑋 é la media di un campione casuale 𝑋𝑖 , 𝑛 estratto da una popolazione
Esponenziale di parametro πœ†, allora la quantitá 2πœ†π‘›π‘‹ coincide con la v.a. Chi-quadro a 2𝑛 g.d.l.,
vale cioé la relazione:
2
2πœ†π‘›π‘‹ ~ πœ’2𝑛
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
32
Definizione 16 Il rapporto tra una v.a. Gaussiana Standard U e la radice quadrata di una v.a. K di
tipo Chi-quadro a n g.d.l., s-indipendente dalla prima, divisa per 𝑛 é detta T di Student con n g.d.l.
𝑇=
π‘ˆ
𝐾/𝑛
Osservazione 27 La funzione generatrice dei momenti della v.a. di Student non esiste. I vari
momenti posso comunque essere calcolati mediante l’operatore di speranza matematica.
Proposizione 22 Si dimostra che la pdf della v.a. T di Student é:
𝑛+1
2
𝑓𝑇 𝑑 =
𝑛
π‘›πœ‹ Γ
2
Γ
𝑛
𝑑2 + 𝑛
𝑛+1
2
− ∞ < 𝑑 < +∞ ,
𝑛>0
La Distribuzione
di Student ha le
“code piú
pesanti”
Proposizione 23 Sfruttando la legge debole dei grandi numeri é possibile dimostrare che per n
molto grande la v.a. T di Student converge in probabilitá alla v.a. Normale Standard: 𝑇
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
𝑝
π‘ˆ.
33
Proposizione 24 Se 𝑇𝑛 é una v.a. di Student a n g.d.l. e 𝛼 é un numero reale compreso tra 0 e 1, si
definisce (in analogia alla v.a. Gaussiana Standard e alla v.a. Chi-quadro) la quantitá (percentile)
𝑑𝛼,𝑛 tale che:
∞
𝛼 = π‘ƒπ‘Ÿ 𝑇 > 𝑑𝛼,𝑛 =
𝑓𝑇 𝑑 𝑑π‘₯ = 1 − 𝐹𝑇 𝑑𝛼,𝑛
𝑑𝛼,𝑛
I valori di 𝑑𝛼,𝑛 sono tabulati per numerose combinazioni di 𝛼 e 𝑛 (es: 𝑑𝛼,𝑛 = 𝑑0.05,15 = 1.753).
Osservazione 28 Dalla simmetria rispetto a zero della 𝑓𝑇 (𝑑) segue che −𝑇 ha la stessa
distribuzione di 𝑇 per cui:
𝛼 = π‘ƒπ‘Ÿ −𝑇 ≥ 𝑑𝛼,𝑛 = π‘ƒπ‘Ÿ 𝑇 ≤ −𝑑𝛼,𝑛 = 1 − π‘ƒπ‘Ÿ 𝑇 > −𝑑𝛼,𝑛
π‘ƒπ‘Ÿ 𝑇 > 𝑑𝛼,𝑛 = α
⇒
π‘ƒπ‘Ÿ 𝑇 < −𝑑𝛼,𝑛 = α
π‘ƒπ‘Ÿ 𝑇 > −𝑑𝛼,𝑛 = 1 − α
−𝑑𝛼,𝑛 = 𝑑1−𝛼,𝑛
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
34
Tabella Distribuzione T-Student
Esempio 12 Determinare: a) 𝑑0.025,9 ; b) π‘ƒπ‘Ÿ 𝑇12 ≤ 1.356
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
35
Proposizione 25 Costruendo una T di Student mediante le seguenti particolari v.a. s-indipendenti:
𝑋−πœ‡
π‘ˆ=
𝜎 𝑛
𝑒
𝑆2
𝐾 = 𝑛 − 1 2 ~ πœ’πœˆ2
𝜎
(𝜈 = 𝑛 − 1)
si ottiene una v.a. di Student con 𝑛 − 1 g.d.l. , della forma:
π‘ˆ
𝑇=
𝐾/𝜈
=
𝑋−πœ‡
𝑆 𝑛
Questa formulazione della T di Student risulta molto utile nell’inferenza statistica.
Definizione 17 Il rapporto tra due v.a. Chi-quadro s-indipendenti, 𝐾1 e 𝐾2 , ciascuna divisa per i
propri gradi di libertá 𝑛1 e 𝑛2 , é detta v.a. Z di Fisher:
𝑍=
𝐾1 /𝑛1
𝐾2 /𝑛2
Proposizione 26 Costruendo una Z di Fisher mediante le seguenti particolari v.a. πœ’ 2 s-indipend.
𝑆1 2
𝐾1 = 𝑛1 − 1
~ πœ’π‘›21 −1
2
𝜎1
𝑒
𝑆2 2
𝐾2 = 𝑛2 − 1
~ πœ’π‘›22 −1
2
𝜎2
si ottiene una v.a. di Fisher con 𝑛1 − 1 𝑒 𝑛2 − 1 g.d.l. , della forma:
𝑆1 2 𝜎2 2
𝑍= 2βˆ™ 2
𝑆2 𝜎1
Essendo 𝑆1 e 𝑆2 le varianze campionarie di due campioni casuali s-indipendenti estratti
rispettivamente da due popolazioni Gaussiane di varianze 𝜎1 2 e 𝜎2 2 .
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
36
Osservazione 29 Come per la v.a. T di Student, la funzione generatrice dei momenti della v.a. di
Fisher non esiste. I vari momenti posso comunque essere calcolati mediante l’operatore di
speranza matematica.
Proposizione 27 Si dimostra che la pdf della v.a. Z di Fisher é:
𝑛1 + 𝑛2
𝑓𝑍 𝑧 = 𝑛 2 𝑛
Γ 1 Γ 2
2
2
Γ
𝑛1
𝑛2
𝑛1
2
𝑛1
𝑧+1
𝑛2
𝑛1 −2
𝑧 2
𝑛 +𝑛
− 1 2
2
Questa espressione non é simmetrica rispetto a 𝑛1 e 𝑛2 , ma dipende dall’ordine dei g.d.l. della v.a.
Chi-quadro del numeratore 𝑛1 e da quelli della v.a. Chi-quadro del denominatore 𝑛2 .
Proposizione 28 Se 𝑍𝑛1 ,𝑛2 é una v.a. di Fisher a 𝑛1 e 𝑛2 g.d.l. e 𝛼 é un numero reale compreso tra
0 e 1, si definisce (in analogia alle altre v.a. inferenziali) la quantitá (percentile) 𝑧𝛼,𝑛1 ,𝑛2 tale che:
∞
𝛼 = π‘ƒπ‘Ÿ 𝑍 > 𝑧𝛼,𝑛1 ,𝑛2 =
𝑓𝑍 𝑧 𝑑𝑧 = 1 − 𝐹𝑍 𝑧𝛼,𝑛1 ,𝑛2
𝑧𝛼,𝑛1 ,𝑛2
I valori di 𝑧𝛼,𝑛1 ,𝑛2 sono tabulati tipicamente per 𝜎 = 0.10, 0.05, 0.01 e per numerose
combinazioni di 𝑛1 e 𝑛2 .
Proposizione 29 Vale la relazione:
1
= 𝑧1−𝛼,𝑛2 ,𝑛1
𝑧𝛼,𝑛1 ,𝑛2
𝑒𝑠: 𝑧0.9,5,7 =
1
𝑧0.1,7,5
≈
1
= 0.297
3.37
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
37
Tabella Distribuzione di Fisher per 𝜢 = 𝟎. 𝟏𝟎
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
38
Tabella Distribuzione di Fisher per 𝜢 = 𝟎. πŸŽπŸ“
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
39
Tabella Distribuzione di Fisher per 𝜢 = 𝟎. 𝟎𝟏
Metodi di Osservazione e Misura – Ingegneria Civile e Ambientale - Dr. L.L. Pappalardo
40