3-Trattamento Trattamento delle Misure topografiche Copyright : Licenza Creative Commons 3.0 by-nc-nd 1 Premessa Tutto il nostro Trattamento era in passato chiamato “Teoria delle Misure” ed era basato sulla gestione di quelli che si chiamavano “errori errori accidentali” accidentali (adesso “fluttuazioni accidentali”) e per essi effettivamente serve. Serve anche per i cosi detti “errori “ grossolani” ma meglio ricorrere per questi al metodo delle reiterazioni dei pesi per eliminarli o ridurli o ad altri test e processi. Serve poco o nulla per gli “errori sistematici”: ”: ma purtroppo anche questi intervengono quando si misura, così come gli altri errori e sotto certi aspetti sono anche più pericolosi ( possono avere anche valori più elevati). Occorrerebbe trovare un modo per tenere conto di tutto e non solamente di una parte. La Statistica quindi sotto questo punto di vista non serve o serve a poco. Si dovrebbe agire logicamente in questo modo: 1. Vedere se le misure possono essere affette da errori sistematici 2. Se sì, vedere come fare per eliminare la sistematicità nell’organo di misura (ma l’errore sistematico di taratura di un campione non può essere eliminato; si deve ricorrere alla ripetizione con campioni diversi, indipendenti) 3. Se no, applicare la teoria statistica che viene qui descritta per eliminare gli errori (fluttuazioni) accidentali. Occorre fare anche attenzione a pensare che le distribuzioni di errore siano solamente quelle gaussiane e fare attenzione ai casi di variabili tra loro dipendenti. Si vedrà nel dettaglio: • • • • • • Il concetto di grandezza e della sua misura diretta Si introducono i concetti di: variabile statistica ad una o più dimensioni e della rappresentazione sintetica; di eventi aleatori o stocastici, di variabili casuali e di alcune distribuzioni importanti Si affronta il problema della stima dei parametri, o dell’inferenza dell’i statistica, in una popolazione composta da un numero limitato di estrazioni a caso, con il principio di massima verisimiglianza che porta al principio dei minimi quadrati,, per ottenere media e varianza empiriche. Si esamina il concetto di media ponderata,, con un esempio Si passa quindi alle misure indirette,, distinguendo i tre casi classici (con l’importante caso della sovrabbondanza, il 3 °)) , nei sottocasi lineari e non . Si approfondisce il calcolo della varianza dell’unità di peso e si fornisce la risoluzione, con il pratico metodo reiterativo, di un piccolo sistema (3 equazioni in 3 incognite) 2 3 -INDICE TRATTAMENTO delle MISURE 1. Schemi introduttivi 2. Grandezze fisiche e geometriche 3. Misure e fluttuazioni accidentali 4. Fenomeni collettivi 5. Grafici 6. Variabile statistica ad una dimensione 7. Rappresentazione sintetica di variabile statistica 8. Valori centrali 9. Disuguaglianza di Tchebyceff 10. Funzione cumulativa di frequenza 11. Evento aleatorio o stocastico 12. Legge empirica del caso 13. Variabili casuali 14. Evento aleatorio composto da più variabili 15. Distribuzione binomiale iale o di Bernoulli 16. Distribuzione di Poisson 17. Distribuzione normale o di Gauss 18. Variabile statistica doppia 19. Problema della stima dei parametri di una distribuzione distribuz 20. Principio di massima verosimiglianza 21. Principio dei minimi quadrati 22. Media e varianza empiriche 23. Esempio di calcolo 24. Media ponderata 25. Esempio di media ponderata 26. Misure indirette 27. 1° caso –sottocaso sottocaso lineare 28. 1° caso –sottocaso non lineare 29. 2° caso –sottocaso sottocaso lineare 30. 2° caso –sottocaso so non lineare 31. 3° caso –sottocaso sottocaso lineare 32. 3° caso –sottocaso non lineare 33. Valutazione di σo 34. Risoluzione di un piccolo iccolo sistema (metodo reiterativo) 4 7 9 10 12 1 16 18 23 24 26 27 28 29 33 40 44 46 53 77 79 81 8 83 89 9 94 99 103 10 104 10 105 1 108 11 111 11 114 1 122 128 12 129 3 Introduzione Individuare le LEGGI della NATURA Analisi del FENOMENO REALE Schematizzazione di alcune sue caratteristiche Nasce il FENOMENO ASTRATTO Fare esempio dall’OTTICA: definizione delle ABERRAZIONI Affinità procedurale 4 LE GRANDEZZE NON esiste un’unica misura vera di una GRANDEZZA Cos’è una GRANDEZZA (secondo Euclide, secondo Russell, ecc.) Introduzione del concetto di QUANTITA’ Le grandezze si riuniscono in CLASSI Classi di grandezza di DIVISIBILITA’ Classi di grandezza di DISTANZA Ad es. 1 km, 1 m, ecc. sono grandezze della Classe delle Lunghezze Possibilità di stabilire CONFRONTI tra grandezze della stessa classe, ecc. Corrispondenza tra rapporti di grandezze e numeri reali positivi 5 Introduzione MISURARE Misurare una Grandezza = ottenere una CORRISPONDENZA con dei numeri Operazione di MISURA estranea alla Grandezza. E’ un mezzo umano di rappresentare la grandezza Come si fa una MISURA DIRETTA Definire le unità campioni u.c. Si sommano le u.c., si confrontano con la grandezza e si fa un’operazione di conteggio Sperimentalmente le misure cambiano nel tempo Distinguere tra ERRORI GROSSOLANI, SISTEMATICI, ACCIDENTALI 6 GRANDEZZE • Euclide (V libro degli “Elementi”): 1. 2. 3. le grandezze vengono ripartite in CLASSI, formate ciascuna di ENTI; si stabiliscono opportuni procedimenti di “confronto” tra due grandezze della stessa classe; il rapporto tra due grandezze è sempre un numero reale positivo (misura ( ); 4. il rapporto è 1 se le due grandezze sono uguali. • 1. Eudosso da Cnido (membro dell’Accademia platonica) La grandezza non è concepita come un numero, ma come un’ entità geometrica che può variare in modo continuo Definisce il concetto di rapporto tra grandezze e quello di uguaglianza o proporzione tra due rapporti di grandezze (sia razionali che irrazionali) . 2. • Russell (“I principi della matematica”): 1. 2. le grandezze sono concetti astratti che comprendono una molteplicità di termini; se una grandezza si “particolarizza”, diventa una QUANTITA’ di grandezza. Le “quantità” non possono essere maggiori o minori (relazioni valide solo per grandezze della stessa classe). Hanno solamente la proprietà dell’uguaglianza. 7 GRANDEZZE secondo Russell CLASSI di GRANDEZZE di DIVISIBILITA’: un Tutto (o un Insieme finito o limitato) si correla con il numero di parti semplici che lo compongono. Ha significato la “somma”. DISTANZA: sono quelle grandezze che devono avere un punto o un evento di riferimento (ad es. il tempo). Non ha significato l’operazione di “somma”. 8 COME SI FA UNA MISURA DIRETTA: DIRETTA 1. Definire le unità campione (u.c.); 2. Si sommano le u.c. e si confrontano con la grandezza da misurare; 3. Si fa un operazione di conteggio delle u.c. FLUTTUAZIONI ACCIDENTALI Introduzione del concetto di FLUTTUAZIONE ACCIDENTALE: Tutte misure vere della stessa grandezza Popolazioni di MISURE POSSIBILI Estrarre un unico valore rappresentativo: la MEDIA Accoppiare la valutazione numerica della variabilità dei dati: la VARIANZA 9 Non è facile dare la definizione di scienza STATISTICA. Ma così è anche per altre scienze. Ogni scienza è in continuo progresso, quindi non la si può circoscrivere e quindi definire perfettamente. Senza dubbio la STATISTICA richiede “conteggi”. Permette di dare un valore quantitativo (=misura) ai fenomeni collettivi. FENOMENO COLLETTIVO: • relativo ad una collettività di casi singoli (popolazione di individui) • relativo ad un caso singolo, su cui si effettua una collettività di osservazioni Quasi tutte le scienze fanno ricorso alla STATISTICA: STATISTICA ad esempio • scienze che hanno per oggetto una collettività di enti, della quale studiano un aspetto • scienze sperimentali, ecc. 10 Occorre dire ancora qualcosa sulle “corrispondenze numeriche” o “tabelle”, in generale. Esse possono essere relative a: • distribuzioni • non distribuzioni Le distribuzioni possono essere: • di frequenza • di quantità Le non distribuzioni si distinguono in: • serie storiche - di stato - di movimento • serie territoriali Esempio di distribuzione di quantità: quantità La Banca XY ha conteggiato che nel 2005 si sono avuti: • cambiali ordinarie € 3.284.500 • tratte € 5.242.825 • assegni bancari € 2.854.300 11 GRAFICI GRAFICI di DISTRIBUZIONI SEMPLICI di DISTRIBUZIONI DOPPIE di NON DISTRIBUZIONI 12 GRAFICI DISTRIBUZIONI SEMPLICI • Secondo un carattere di qualsiasi tipo: - diagrammi simbolici o pictogrammi - grafici: a segmenti a nastri a colonne - areogrammi • Secondo un carattere ordinato: - rettilineo → ISTOGRAMMi - ciclico: grafico a raggi grafico a settori circolari di uguale ampiezza • Secondo un carattere quantitativo rettilineo discreto 13 GRAFICI di DISTRIBUZIONI DOPPIE • A colonne suddivise • A cerchi suddivisi • Cartodiagrammi a rappresentazioni suddivise: - lineare - areale • Stereogrammi GRAFICI di NON DISTRIBUZIONI • Delle serie territoriali • Cartogrammi: - a tratteggio - a colonne - a cerchi - misto (colonne e cerchi) • Delle serie storiche 14 Vari tipi di diagrammi: alcuni esempi 1-a torta 2-ad anello FIG.1 09/01 /2002 05/01 /2002 40 20 08/01 /2002 3-a bolle 0 06/01 /2002 Serie 1 Serie 2 07/01 /2002 4-radar 15 VARIABILE STATISTICA AD UNA DIMENSIONE Si prenda in esame un insieme ben determinato di individui (popolazione), ), caratterizzati da un attributo X che può assumere valori argomentali x1 , x2 ,....., xn diversi. Classificare la popolazione secondo l’attributo X vuole dire esaminare tutti gli individui della popolazione e determinare,per ognuno di essi, il valore argomentale xi ; quindi si procede ad un raggruppamento di valori argomentali (e quindi di individui), definendo un intervallo di raggruppamento ∆x: x: si assume che tutti i valori argomentali compresi in questo intervallo, assumano il valore argomentale xi intermedio. xi ∆x 16 Si potrà allora scrivere una corrispondenza numerica: X { x 1 x 2 ..... x n F 1 F 2 ..... F n dove gli xi sono ordinati in senso crescente e gli Fi rappresentano il numero di individui che hanno il valore argomentale xi (frequenza ( assoluta). ). E’ evidente che (essendo N= numero totale individui): n ∑ Fi = N F Si possono introdurre le frequenze relative: f = N n x 1 x 2 ..... x n ∑f =1 X f 1 f 2 ..... f n i=1 i i =1 { i i Questa corrispondenza numerica si chiama variabile statistica ad 1 dimensione (ma si possono definire, in maniera analoga, anche se più complessa, variabili a 2 o più dimensioni). 17 Rappresentazione grafica della v.s. ad 1 dimensione: ISTOGRAMMA y Si divida l’asse x secondo l’intervallo di raggruppamento ∆xi; la mezzeria di ogni intervallo sia in corrispondenza del valore xi della variabile. Per ogni intervallo costruiamo un rettangolo di altezza yi tale che: yi yi * ∆x = fi FIG.2 xi x ∆x L’area racchiusa da ogni rettangolo rappresenta la frequenza relativa fi , corrispondente al valore argomentale xi. L’istogramma dà una rappresentazione visiva di come i valori argomentali siano distribuiti tra gli individui della popolazione. 18 x Per un numero N di individui molto elevato, con valori i che si susseguono ad intervalli molto ristretti, se non esistono discontinuità nelle frequenze di gruppi vicini, l’istogramma può essere rappresentato con una curva continua y = ϕ (x ) chiamata curva di frequenza (sempre che non si introducano elementi estranei o incongruenti con il tipo di variabile esaminato). y y=ϕ(x) b ∫ϕ(x) ⋅ dx = 1 a a b FIG.3 x 19 RAPPRESENTAZIONE SINTETICA di una Variabile Statistica Occorre introdurre il concetto di MOMENTO, che dà informazioni quantitative globali sulla distribuzione. Si chiama momento del K mo grado della variabile: n Fi 1 N k mk (x) = ∑ xi ⋅ f i = ∑ x ≅ ∑ xr N N r =1 i =1 k i Per variabile continua: m k (x ) = b k x ∫ ⋅ ϕ (x )dx a Esaminiamo alcuni momenti rappresentativi: • Momento di 1°grado: n m1 ( x) = ∑ xi ⋅ fi i =1 MEDIA Indica genericamente quale è la posizione della variabile sull’asse delle x, perché i valori argomentali x i si distribuiscono intorno al valore della media. 20 • Momento di 2°grado: n m2 ( x ) = ∑ xi2 ⋅ f i VALORE QUADRATICO MEDIO i =1 (questo valore ha, per noi, poco significato pratico). • Si consideri una nuova variabile statistica, così definita: vi = xi − M Variabile SCARTO Questa variabile ha la stessa distribuzione della variabile X: v 1 v 2 .... v n v f 1 f 2 .... f n n ∑ fi = 1 i =1 n n i =1 i =1 - momento di 1°grado: m1 (v ) = ∑ vi f i = ∑ ( xi − M ) f i = 0 n - momento di 2°grado: 2 n m2(v) = ∑fi (xi −M) = ∑fivi2 i=1 i=1 VARIANZA σ2 21 La varianza indica come la variabile è distribuita intorno alla media: è, cioè, un indice di dispersione. Per quanto riguarda il calcolo della media: n n xF 1 M = m1 ( x ) = ∑ xi f i = ∑ i i = N i =1 i =1 N Per quanto riguarda la varianza σ2: m2 (v ) = σ n 2 ∑ (xi − M ) 2 i =1 n (xi − M )2 Fi i =1 N ⋅ fi = ∑ n 2 i =1 = ∑ x fi + M i =1 2 i n 2 ∑ i =1 r =1 r i =1 devianza della distribuzione n i =1 n ∑x 2 ( x − M ) ⋅ Fi = ∑ i σ = ∑ ( xi − M ) ⋅ f i = ∑ (xi2 + M 2 − 2 xi M )⋅ f i = n 2 N n f i − 2 M ∑ xi f i = m2 ( x ) − M 2 Devianza σ= standard o s.q.m. i =1 22 VALORI CENTRALI In statistica, oltre la media, si definiscono altri valori centrali nella distribuzione: • MEDIANA: è quel valore dell’argomento in corrispondenza del quale l’ordinata ha la caratteristica di dividere la curva di frequenza in due parti di aree equivalenti; • MODA o NORMA: è quel valore dell’argomento per il quale si ha il massimo di frequenza (ordinata) fi. Si possono avere più mode: - unimodale - bimodale - trimodale - ecc. FIG.4 23 DISUGUAGLIANZA di TCHEBYCHEFF (o teorema di BYENAYME’-TCHEBYCHEFF) BYENAYME’ La varianza σ2 è un indice di dispersione abbastanza significativo: si può infatti dimostrare che la maggior parte dei valori argomentali xi è contenuta entro i limiti M±3σ, M qualunque sia la distribuzione. Infatti, scriviamo: n σ = ∑ vi2 f i = v12 f1 + v22 f 2 + .... + vm2 f m + .... + vn2−1 f n−1 + vn2 f n 2 i =1 (le vi2 siano ordinate in ordine crescente). Si prenda un valore intermedio vm2 e ad esso diamo il valore c2. Si azzerino tutti i valori vi2 minori di c2. Si pongano uguali a c2 tutti quelli maggiori. Sarà allora: σ 2 ≥ c 2 ( f m + f m +1 + .... + f n ) * 2 2 f + f + .... + f = f σ ≥ c (1 − f* ) . m +1 n Si pone m da cui Si ricavi f* ( frequenza relativa degli scarti inferiori a c): 1 Imponendo c=λσ si ottiene: f* ≥ 1− − 2 λ 24 La disuguaglianza di Tchebycheff: f* ≥ 1 − 1 λ2 è significativa per λ>1. In particolare: • per λ=2 • per λ=3 1 = 0,75 4 1 f* ≥ 1 − = 0,89 9 f* ≥ 1 − cioè: per qualsiasi variabile statistica, almeno il 75% degli scarti ha un valore inferiore o uguale a ±2σ,, e almeno l’89% ha un valore inferiore o uguale a ±3σ. Si può dire anche che la frequenza relativa dei termini che sono non interni ad un intorno della media, non può superare un certo limite ( è un caso particolare del più generale teorema di Markov). 25 FUNZIONE CUMULATIVA DI FREQUENZA E’ la variabile originaria: X { x1 x2 … xn f1 f2 … fn Si definisce funzione cumulativa di frequenza la seguente: Y t { x1 x2 … xn t1 t2 … tn con: t1 = f1 FIG.5 t2 = f1 + f2 tn = f1 + f2 + … + fn = Σfi = 1 x Il valore ti rappresenta la frequenza relativa di tutti gli individui che hanno un valore argomentale inferiore od uguale a xi. Le curve cumulative di frequenza sono assai utili per trovare rapidamente il numero di individui che hanno valori argomentali compresi in un intervallo qualsiasi. 26 EVENTO ALEATORIO O STOCASTICO E’ un evento del quale non si può prevedere la modalità di uscita. Ad esempio. pensare ad una moneta che viene lanciata: lanciata non è mai possibile prevedere se, a lancio effettuato, si verificherà l’evento “testa” o l’evento “croce”. ESTRAZIONE a CASO Un particolare evento aleatorio è l’estrazione a caso. caso Si pensi ad un’urna con un certo numero N1 di palline, tutte uguali tra loro, ma con scritto un numero distintivo su ogni pallina. All’atto dell’estrazione tutte le palline sono identiche e chi effettua l’estrazione non deve poter scegliere e cioè non deve esserci ragione di estrazioni preferenziali. Si estrae una pallina, si legge il numero sopra scritto e la si rigetta all’interno dell’urna. Si continua in queste estrazioni un numero di volte N2, grande a piacere (N2>>N1). Si ottiene la corrispondenza: X che si chiama VARIABILE { x1 x2 … xn f’1 f’2 … f’n STATISTICA CAMPIONE. 27 LEGGE EMPIRICA del CASO Se incrementiamo il numero N2 di estrazioni a caso, sino a valori molto grandi, ci si accorge che: • i valori argomentali xi della variabile campione assumeranno tutti i valori propri della popolazione assoggettata alle estrazioni a caso; caso • le frequenze fi corrispondenti ad ogni valore argomentale tendono a stabilizzarsi ed a convergere verso il valore proprio della frequenza di quell’argomento nella popolazione, quale si sarebbe ottenuto facendo un’indagine di tipo statistico. Da questa “legge” si possono trarre due conclusioni: conclusioni 1) non si può mai prevedere l’estrazione di un determinato individuo o di un valore argomentale. E’ prevedibile, invece, la distribuzione, distribuzione e cioè: dopo un certo numero N2 di estrazioni a caso, si può prevedere la distribuzione dei valori argomentali (ovvero le frequenze) della variabile campione; 2) Esiste la possibilità di postulare l’esistenza di una popolazione. Cioè tutte le volte che l’indagine su un fenomeno aleatorio mostra una “stabilità statistica”, si può essere autorizzati ad immaginare una popolazione “ignota”, ma “determinata”, che fa da sfondo al fenomeno aleatorio. Questa popolazione si chiama POPOLAZIONE POSSIBILE. 28 VARIABILI CASUALI Se si effettua una serie sempre crescente di estrazioni a caso da popolazione di composizione nota, o da popolazione possibile, si ottiene una specie di VARIABILE LIMITE, caratterizzata ancora da una serie di valori argomentali, in corrispondenza dei quali si definiscono delle “frequenze limite”: solo che, essendo il numero di estrazioni a caso infinito, la variabile che così si definisce non ha il carattere di un’operazione già eseguita e cristallizzata, ma di una VARIABILE TEORICA in divenire, definibile cioè dopo un numero di estrazioni infinito. A questa variabile si da’ il nome di VARIABILE CASUALE ed alle frequenze limite, relative ai valori argomentali, si da’ il nome di PROBABILITA’: PROBABILITA’ Xc { x1 x2 … xn Σ pi = 1 p1 p2 … pn 29 PROBABILITÀ • definizione a posteriori:: è il limite a cui tende la frequenza di un dato valore argomentale della variabile campione, quando il numero di prove tende all’infinito • definizione a priori : è il rapporto tra = numero casi favorevoli al presentarsi dell’evento numero di casi possibili Noi scegliamo la “definizione a posteriori” che presuppone che siano effettivamente state fatte delle prove e che da queste si giunga alla definizione della variabile casuale. Per variabile casuale continua si definisce: dp = f ( x ) ⋅ dx essendo f(x) = densità di probabilità x F ( x ) = ∫ f (x ) ⋅ dx essendo F(x) = funzione di distribuzione 0 E per i MOMENTI : b mk (x) = ∫ xik f (x)dx a 30 Proprietà delle probabilità composte: se un evento aleatorio A risulta dal concorso di due eventi aleatori indipendenti B e C di probabilità pb e pc, la probabilità dell’evento A è data dal prodotto delle probabilità di B e C: p a = pb ⋅ p c Se l’ordine di uscita degli eventi C e B non ha importanza, si ha: p'a = 2 ⋅ pb ⋅ pc In generale: p 'a = n!⋅ pb ⋅ pc ⋅ ... essendo n! in numero delle disposizioni possibili degli n eventi attesi. Proprietà delle probabilità totali: se un evento aleatorio A può presentarsi con modalità diverse B e C ognuna delle quali ha probabilità pb e pc, la probabilità di A è data dalla somma delle probabilità: pa = pb + pc 31 Alcuni esempi 1°caso:: ci sono 4 palline colorate in modo diverso: come possono essere sistemate in fila? La 1° posizione può essere occupata da una pallina qualsiasi (4 diversi modi di occupare la 1° 1 posizione); ci sono 3 modi di occupare la 2° posizione, 2 modi di occupare la 3° 3 posizione, 1 modo di occupare la 4 posizione. Quindi 4x3x2x1= 24 R.: Ci sono 24 modi di sistemare le palline. 2°caso:: si vogliono sistemare 7 persone attorno ad un tavolo rotondo a) ognuno può sedere in un posto qualsiasi; la 1° 1 persona può sedere in un posto qualsiasi, le restanti 6 persone in 6! = 720 modi diversi b) due persone non devono essere vicine: le 2 persone possono essere sistemate in 2 ! modi diversi e le altre 5 in 5! modi diversi. Quindi 2! 5! =240 modi diversi di sistemare le 7 persone, con due che siedono vicini. R.:si dovrà quindi fare 720-240 240 = 480 modi di sistemare le persone, tenendo conto della restrizione imposta. 3°caso : scegliere tra un totale di 9 persone, un comitato composto da sole 5 persone. R.: 9 5 = 9!/5! =9x8x7x6x5/ 5! = 126 modi di scegliere il comitato 4° caso : in n un dado che probabilità ha l’uscita del 3 o del 5 ? R.: 1/6 + 1/6 = 1/3 (probabilità più vantaggiosa, totale) . 5° caso : qual è la probabilità di uscita del 3 e del 5 ? R.: .: 1/6 x 1/6 = 1/ 36 ( probabilità composta). 32 EVENTO ALEATORIO COMPOSTO con 2 o più eventi aleatori. OPERAZIONI con VARIABILI CASUALI Se un fenomeno aleatorio risulta dalla concomitanza di due o più fenomeni aleatori, il problema è quello di definire la variabile casuale relativa al fenomeno aleatorio composto. Devono essere note: • le variabili casuali componenti • la modalità matematica con cui si ottiene il risultato Si abbia la variabile casuale: e la variabile casuale x 1 x 2 ... x n X p 1 p 2 ... p n y 1 y 2 ... y m Y g 1 g 2 ... g m n ∑ j=1 n ∑ k =1 pj =1 gk = 1 Vogliamo ottenere la variabile casuale “somma” delle due: cioè, riconducendoci allo schema dell’estrazione a caso, supponiamo di estrarre a caso un individuo della popolazione possibile definito dalla variabile X e di estrarre a caso un individuo dalla variabile Y. 33 Nell’eseguire un numero molto grande di doppie estrazioni, tutti i valori xi si combineranno con i valori yi e daranno luogo ad una serie di t valori della “somma” ( con modalità matematica definita). si = x j + y k e quindi si avrà la variabile composta s1 s2 ... st S f1 f 2 ... ft n ∑f i =1 i =1 La deduzione della distribuzione della variabile composta può alle volte essere molto complessa e spesso occorre ricorrere a soluzioni approssimate. 34 Cerchiamo le relazioni che permettono, noti i momenti di 1° 1 e 2° grado della X e della Y, di ricavare i momenti di 1° e 2° grado della variabile casuale composta S: m 1 (s ) = = t ∑ i =1 n ∑ j =1 ∑ ∑ (x n si fi = xjp j j =1 k =1 m j ± y k )f m ∑ k =1 gk ± p m j ∑ k =1 jk = ∑ ∑ (x n m j j =1 k =1 yk g k = ± y k )p j g k = n ∑ xjp j =1 j n m ∑ ± p j =1 j ∑ k =1 yk g k Modalità Si = xj + yk REGOLA N.1: il valore medio di una variabile casuale somma (o differenza) di due variabili casuali è pari alla somma (o differenza) dei valori medi delle variabili casuali componenti: m1(s) = m( x) ±m( y) m 2 (s ) = t ∑ i =1 = n s 2 i ∑ ∑ (x j =1 k =1 k1 x 2j p j g 2 m m ∑ ∑ j =1 fi = n k + n j ± yk ) f = jk j =1 k =1 m j =1 k =1 m ∑ ∑ ∑ ∑ (x n n y k2 p j g k + 2∑ j ± yk ) 2 p jg k = m ∑ j =1 k =1 x j yk p jg k REGOLA N.2: il valore quadratico medio di una variabile somma (o differenza) di due variabili casuali è la somma di valori quadratici medi delle variabili componenti aumentata (o diminuita) del doppio prodotto delle due medie. m2( s ) = m2( x ) + m2( y ) ± 2m1( x ) ⋅ m1( y ) 35 σ (2s ) = m 2 (v ) = σ x2 + σ y2 REGOLA N.3: la VARIANZA di una variabile casuale somma (o differenza) di due variabili casuali è la somma delle varianze casuali componenti. In generale, data la funzione: W = aX ±bY±cZ si ha (REGOLA N.4): m1(W ) = am1( X ) ± bm1(Y ) ± cm1( Z ) σ 2 (W ) =a σ 2 2 (X ) +b σ 2 2 (Y ) +c σ 2 2 (Z ) 36 Riepilogo • Popolazioni di individui definibili con esattezza, essendo gli individui osservabili uno per uno: tipico della variabile statistica: risultato di esperimenti ( concreta, finita, discreta ). • Popolazioni definite e nelle quali si fanno estrazioni a caso molto numerose: variabile statistica campione. • Popolazione ben definita, ma non si possono osservare tutti gli individui per motivi economici, di tempo, ecc : si crea una variabile campione. • Caso delle “popolazioni possibili ”, definibili facendo un numero infinito di prove. Si costruisce una variabile casuale,, che possa rappresentare questa popolazione, basata su certe ipotesi: sono modelli interpretativi ( quindi astratti, illimitati, continui ). • Postulazione di una identità formale tra VARIABILE STATISTICA e VARIABILE CASUALE, che discende dalla loro completa (formale) indistinguibilità. 37 PRODOTTO di DUE VARIABILI CASUALI Il valore medio del prodotto di due variabili casuali è il prodotto dei valori medi delle variabili casuali componenti: m1( P) = m1( X ) ⋅ m1(Y ) Il valore quadratico medio del prodotto di due variabili casuali è uguale al prodotto dei valori quadratici medi delle variabili componenti: m2( P ) = m2( X ) ⋅ m2(Y ) La varianza del prodotto di due variabili casuali vale: σ (2P) = m2( P) − m12( P) = m2( X ) ⋅ m2(Y ) − m12( X ) ⋅ m12(Y ) = σ (2X ) ⋅σ (2Y ) + m12(Y ) ⋅σ (2X ) + m12( X ) ⋅σ (2Y ) essendo: m 2 ( X ) = σ (2X ) ⋅ m12( X ) m 2 (Y ) = σ (2Y ) ⋅ m12(Y ) 38 QUADRO SINOTTICO (come variabili limiti-teoriche) limiti PROBABILITA’ = Limite cui tende la frequenza per N→∞ Analoga definizione dei momenti Variabili casuali = combinazione di variabili statistiche Operazioni sulle variabili casuali 1° regola: Ms 2° regola: qs 3° regola: σs2 4°regola Probabilità Totali: pt = pa + pb + pc Composte: pt = pa x pb x pc 39 DISTRIBUZIONE BINOMIALE o di BERNOULLI Pensiamo ad una popolazione di cui un attributo è caratterizzato da due soli valori argomentali. Si ha allora una variabile casuale del tipo x1 x2 X = q p q + p =1 che si può scrivere X 0 = q 1 p La si combini n volte, sommando i valori argomentali: argomentali 0 1 X = q p 0 1 X = q p 0 + 0 X '= 2 q 0 +1=1 1+ 0 =1 qp + qp 1+1= 2 p 2 si ottiene cioè 0 1 2 X '= 2 2 q 2 qp p 40 Se si combina la nuova variabile X’ con la variabile originaria X si avrà: 0 X ''= 3 q 1 2 3 3 pq 2 3qp 2 p3 Se si continua per n combinazioni, la variabile Y così definita prende il nome di DISTRIBUZIONE BINOMIALE: Y = 0 1 2 ... n −1 n qn npqn−1 n 2 n −2 p q 2 ... n n−1 p q n − 1 pn Note la media e la varianza della variabile X, si ottengono la media e la varianza della Y: m1 = 0 ⋅ q +1⋅ p = p ( X ) X = m2( X ) = 02 ⋅ q +12 ⋅ p = p 2 2 2 σ = m − m = p − p = p(1− p) = p ⋅ q ( X ) 2( X ) 1( X ) m1( Y ) = n ⋅ p Y = 2 σ ( Y ) = n ⋅ p ⋅ q 41 Si è visto che (distribuzione di Bernoulli) la probabilità i-esima i è: n i n−i P(i) = p ⋅ q i n molto grande Ponendo v = i-np e supponendo v molto piccolo, dopo parecchie manipolazioni, si ricava: 2 v − 1 P(v) = ⋅ e 2npq 2πnpq e ponendo: h= si ottiene: 1 1 = 2npq 2 ⋅σ P(v) = h π −h2v2 ⋅e espressione approssimata della probabilità associata al valore argomentale v 42 Rappresentazione grafica della distribuzione di Bernoulli: Pi n=4 n = 10 n = 50 n = 100 0.7 0.6 p = 0.1 q = 0.9 0.5 0.4 0.3 FIG.6 0.2 0.1 0 2 4 6 8 10 12 i 43 Cenni sulla DISTRIBUZIONE di POISSON E’ detta anche “degli eventi rari”” e viene costruita sull’ipotesi che la probabilità p dell’evento x2 non sia costante, ma vari al variare del numero n di combinazioni che si effettuano (p=l/n). n = numero delle combinazioni molto alto p = probabilità dell’evento favorevole molto piccola q = 1-p, prossima ad 1 Pi λ = 0.5 0.6 Λ= cost.positiva assegnata I = valori argom. 0,1,2,.. λ=1 0.5 λ=2 0.4 λ=3 PROBABILITA’ DELL’EVENTO i: λi ⋅ e − λ λ=6 0.3 i! 0.2 0.1 FIG.7 0 Media = varianza = λ 2 4 6 8 10 12 i 44 In generale però le distribuzioni non sono simmetriche rispetto al loro massimo, ma hanno una delle loro “code” più lunga dell’altra e cioè: grande curtosi σ² piccola σ² grande Asimmetrica a sin. Asimmetrica a dx FIG.8 Il coefficiente di simmetria α3 =µ3 /σ³ permette di dire se la distribuzione è simmetrica a destra (positiva) o a sinistra (negativa). Se α3=0 la distribuzione è simmetrica. Il coefficiente di curtosi α4 = µ4 /σ4 misura il grado di ripidezza della distribuzione. Nella curva “normale” il coefficiente è pari a 3 ed il coefficiente di simmetria è “zero”. 45 Verso la distribuzionale normale 46 DISTRIBUZIONE NORMALE o di GAUSS Considerata continua la variabile casuale così determinata, definiamo la probabilità infinitesima dp che lo scarto sia compreso tra v e (v+dv): dp = h π m ⋅e − h2 v 2 1 e = lim 1 + = 2, 718281828459045... m →∞ m dv P ( x) Una distribuzione di questo tipo si chiama NORMALE. vi = x i − M Sappiamo in generale che: h = 1 2 E quindi: dp 2σ 2 h π −( xi −M ) 2 y(v) = 1 2π ⋅σ e 2σ 2 FIG.9 v v + dv M V 2 σ (definizione di funzione NORMALE definita soltanto dai parametri M e ) 47 Alcune proprietà: ∫ +∞ −∞ ∫ +∞ −∞ +∞ h −∞ π dp =∫ −h2v2 ⋅e +∞ h −∞ π v ⋅ dp =m(v) = ∫ v dv =1 −h2v2 ⋅e dv =0 Cioè la media della variabile scarto è nulla. nulla La curva delle fluttuazioni accidentali deve essere simmetrica, rispetto alla retta x=a, essendo a l’ascissa del massimo. massimo Si ipotizza inoltre che la curva abbia come campo di definizione tutto l’asse reale e che questo sia un asintoto della curva. La curva normale y=f(x) deve avere equazione: equazione dy − y ( x − a) = dx b2 per y non negativa 48 Calcoliamo l’integrale dell’equazione differenziale; per prima cosa si separano le variabili: dy x − a = 2 dx y b 2 ( x − a ) dy x − a E quindi log y = − +c =− dx o anche ∫ Posto ∫ y 2b 2 b2 b2 si ha log y = − ( x − a)2 + c 2 c = log y0 2b 2 Ossia log y − log y = − ( x − a) 0 2b2 y = y0e O anche y= (x−a) 1 2π ⋅ σ ( x − a )2 2b2 y 2b2 1 con 2π ⋅ b Si determina y0 = E quindi − 2 y =e e cioè y0 − a = m b2 = σ 2 − ( x − m )2 e 2σ 2 FIG.10 m −σ x m m +σ 49 Si sono già viste alcune proprietà: +∞ +∞ h 1) ( cioè l’ area compresa sotto la funzione vale 1) − h2v2 ∫ −∞ 2) m= dp = ∫ −∞ +∞ ∫ −∞ π ⋅e dv =1 +∞ h −∞ π v⋅ dp =m(v) = ∫ v −h2v2 ⋅e dv =0 (Cioè la media della variabile scarto è nulla). 3) varianza= ∫ +∞ −∞ 2 v h π −h2v2 e 1 dv = 2 = σ 2 2h 2h h si chiama misura di precisione. precisione 50 Si introduce la VARIABILE SCARTO STANDARDIZZATA: STANDARDIZZATA z= xi −M σ (il rapporto è un numero puro: ciò rende possibile fare confronti tra distribuzioni secondo caratteri o parametri − z2 diversi). L’espressione della nuova funzione diventa: g (z) = 1 e 2π 2 Questa nuova variabile ha media nulla e varianza uguale a 1. La distribuzione normale è interessante perché si trova tabulata e fornisce la probabilità che un valore argomentale z generico sia compreso tra due limiti a e b. Dal valore di z si passa quindi al valore di x e di v. In particolare, per il valore dello scarto v: per λ = 1 si trova il valore di probabilità 0,683 λ = 2 si trova il valore di probabilità 0,954 λ = 3 si trova il valore di probabilità 0,997 Ciò vuol dire che nelle distribuzioni normali, la popolazione di misure possibili ha: il 68,3% degli scarti compresi tra ±σ FIG.11 il 95,4% degli scarti compresi tra ±2σ il 99,7% degli scarti compresi tra ±3σ Nel caso delle popolazioni di misure possibili, σ 2σ 3σ −3σ −2σ −σ a distribuzione normale, si pone lo scarto pari a ±3σ come 68,27% TOLLERANZA limite praticamente invalicabile (concetto di TOLLERANZA) 95,45% 99,73% 51 Alcune distribuzioni teoriche continue Si riportano alcune distribuzioni utili in casi particolari : Distribuzione Chi Quadro χ² È la distribuzione della somma di n variabili casuali VC normali indipendenti χ² = N s²/ σ² =[ (x1-x)² + (x2-x)² +… (xn- X)² ] / σ² assume valori in [ 0 , + Il valore medio vale “zero” La varianza vale n/(n-2) .Tende a una normale per n ∞ ∞] Il valore medio della distribuzione vale il numero vale il numero di gradi di libertà n e la varianza vale 2n. Per n Distribuzione t di Student Distribuzione F di Fisher ∞ la distribuzione tende alla normale. Per n ∞ la distribuzione tende alla normale. 52 VARIABILE STATISTICA DOPPIA (o a due dimensioni) x X1 X2 X3 … … Xi … Xm Y1 F11 F21 F31 … … Fi1 … Fm1 Q1 Y2 F12 F22 F32 … … Fi2 … Fm2 Q2 Y3 … … … … … … … … … … … … … … … … … … … Yj F1j F2j F3j … … Fjj … Fmj Qj … … … … … … … … … … F1n F2n F3n … … Fmn Qn P1 P2 P3 … … Pm N y Yn i =1÷ m Pi = n ∑ 1 Fij j = 1÷ n Qj = Fin Pi Fij = F req u en ze asso lu te m ∑ 1 m Fij ∑ i =1 Pi = n ∑Q j =1 j … … Essendo: = N Per avere invece le frequenze relative occorre fare: F ij F ij Pi Q j 53 • Si definiscono le VARIAZIONI STATICHE MARGINALI x1 x2 ........xm X p1 p2 ........ pm y1 y2 ........ ym Y Q1Q2 ........Qm ed i rispettivi momenti (media e varianza) m M ( x) P = ∑ xi i N i =1 n Qj j =1 N M (Y ) = ∑ y j σ = ∑ ( y j − M (Y ) ) ⋅ n P σ x2 = ∑ (xi − M ( x ) )2 ⋅ i N i =1 m 2 Y 2 Qj j =1 N Si possono ottenere altre VARIABILI STATISTICHE SEMPLICI, del tipo: y1 y2 ... y j ... yn Yi fi1 fi 2 ... fij ... fin Per i = 1 ÷ m 54 La scrittura precedente equivale a scrivere m variabili del tipo : y 1 y 2 ... y i Y1 f 1 1 f 1 2 ... f 1 n fino a Ym y 1 y 2 ... y i Y2 di P2 individui … f 2 1 f 2 2 ... f 2 n di P1 individui y 1 y 2 ... y i Ym1 f m 1 f m 2 ... f m n di Pm individui In base alle relazioni scritte prima, per ogni colonna sarà: • media parziale • varianza parziale M [ y (i ) ] = M yi σ [Y( ) ] = σ 2 i 2 = n ∑ j =1 Yi yi ⋅ ( f ij Pi ) = ∑ yi − M yi ⋅ 2 fij Pi 55 Tabella a 4 colonne ed m righe X X1 Myi My1 σ2yi σ2y1 Pi P1 My1 ± 2σy1 X2 My2 σ2y2 P2 My2±2σy2 … Xi … Myi … σ2yi … Pi … Myi±2σyi … Xm … Mym … σ2ym … Pm … Mym±2σym 56 Curva di regressione Se si riportano i dati relativi alla media su un grafico, si può costruire la curva di regressione: Myi Myi In caso di perfetta indipendenza tra la varabile xi e la yi My2 My3 FIG.12 Mym Xmi Myi My1 X1 X2 X3 Xi Xm Xmi 57 Curva di variabilità Se si riportano i dati relativi alla varianza su un grafico, si può costruire la curva di variabilità: σ2yi σ2yi In caso di perfetta indipendenza tra la variabile xi e le yi σ2y3 si ha σ2y1 Xmi σ2y2 FIG.13 X1 X2 X3 Xmi 58 Myi FASCIA DI REGRESSIONE My2+2σy2 My2 My2-2σy2 In questa fascia è compreso almeno il 75% degli individui della popolazione My3+2σy3 My3 My3-2σy3 My1+2σy1 My1 My1-2σy1 Xi FIG.14 59 Si prenda un caso qualsiasi di fascia di regressione. regressione Si possono presentare 3 casi: a) R / F = 1 Perfetta dipendenza Myi b) Rapporto intermedio tra 0e1 c) R / F = 0 FF perfetta indipendenza R FIG.15 Xi 60 VARIABILE STATISTICA DOPPIA o a due dimensioni Volendo tradurre in termini analitici le considerazioni svolte in precedenza, si consideri una nuova variabile statistica doppia così costruita: X y* X1 X2 … Xi … Xm My1 P1 0 … 0 … 0 P1 My2 0 P2 … 0 … 0 P2 … … … … … … … … Myi 0 0 … Pi … 0 Pi … … … … … … … … Mym 0 0 … 0 … Pm Pm P1 P2 … Pi … Pm N Si definisce varianza della tabella derivata della perfetta dipendenza: σ m 2 y* =∑ i =1 ( ) Pi M yi − M y ⋅ = σ y2PD N 61 σ y2 = η x2 PD Il rapporto σ 2 ym si chiama INDICE di PEARSON, PEARSON e sostituisce l’analogo rapporto R/F Ricordando il significato di varianza si può ancora scrivere: ∑ (M m η x2 = σ 2 y PD σ y2 m = i =1 n ∑ (y j =1 ) η x2 = 0 Si ha perfetta INDIPENDENZA − M y ) ⋅Qj η x2 = 1 Si ha perfetta DIPENDENZA 2 2 j F ⋅ Pi yi −My FIG.16 R L’indice di PEARSON non dà però informazioni circa la FORMA della CORRELAZIONE tra X e Y. 62 Lo studio della forma della correlazione presenta diverse difficoltà. Se si fa l’ipotesi che questa forma sia lineare, si può prendere in esame il coefficiente di correlazione lineare m ∑ rxy = i =1 ∑ rxy = ±1 rxy = 0 fij j =1 N ∑ vxi vx j ⋅ σx σy m = n i =1 n fij j =1 N ∑ xi yi σ xσ y m ∑ = i =1 rxy, così definito: ∑ ( xi − M x ) ( y j − M y ) ⋅ n fij j =1 N σ xσ y m ∑ − M xM y = i =1 n ∑ xi M x j =1 Pi − M xM y N σ xσ y = σ xy = σ xσ y Caso di PERFETTA DIPENDENZA LINEARE Caso di PERFETTA INDIPENDENZA (la correlazione è nulla o non facilmente interpretabile. In questo caso si studia il coefficiente η x2 ) TEOREMA di BONFERRONI : 0 ≤ rxy2 ≤1 63 È stato introdotto, implicitamente, il concetto di MOMENTO MISTO: m n mxy = ∑∑ xi y j i =1 j =1 fij N Il momento misto calcolato rispetto alle medie prende il nome di COVARIANZA: σ xy = ∑∑ ( xi − M y ) ⋅ ( yi − M y ) ⋅ m n i =1 j =1 fij N = mxy − M x M y Quindi la covarianza è uguale al momento misto diminuito del prodotto tra le medie delle variabili statistiche marginali (abbr: v.s.m.) 64 L’espressione della funzione densità di probabilità, nel caso in cui le due variabili X e Y siano indipendenti e distribuite con la legge normale è: 2 −1 y−My 2 σ y 2 f ( x, y) = −1 x−Mx 2 σx 1 2πσx 2 e ⋅ 1 2πσ y 2 e = 1 2πσxσ y 2 2 −1 x−Mx y−My + 2 σx σ y e Se invece le due variabili X e Y sono correlate, l’espressione diventa: f ( x, y) = 1 2πσ xσ y 1− ρ 2 e 2 2 y − M y − M x−Mx −1 x−Mx y y −2ρ⋅ ⋅ + 2 σ σx σ y σ y 2⋅ 1−ρ x ( ) ρ è il COEFFICIENTE di CORRELAZIONE e può assumere valori compresi tra -1 e 1. 65 Funzione DENSITA’di PROBABILITA’ Z FIG. 17 X Y Nel piano z=cost, la funzione densità di probabilità assume la seguente forma x − M 2 x − Mx y − M y y − M y 1 x − 2 ρ ⋅ ⋅ + σ σx σy 2 (1 − ρ 2 ) σ x y 2 =K Questa curva è sempre un ellisse. Ponendo K=1 si ottiene l’ellisse STANDARD. Ponendo K=4 si ottiene l’ellisse di UGUALE CONCENTRAZIONE 66 ESEMPIO di VARIABILE STATISTICA DOPPIA X1=1.70 X2=1.75 X3=1.80 X4=1.85 M(x)=1.78 Y1=65 2 0 1 0 Q1=3 Y2=70 1 1 1 0 Q2=3 Y3=75 2 2 2 1 Q3=7 Y4=80 0 3 3 2 Q4=8 Y5=85 0 0 1 3 Q5=4 M(y)=76.4 P1=5 P2=6 P3=8 P4=6 N=25 VARIABILI STATISTICHE MARGINALI 1.70 1.75 1.80 1.85 X 5 6 8 6 0.2 0.24 0.32 0.24 70 75 80 85 65 Y 3 3 7 8 4 0.12 0.12 0.28 0.32 0.16 67 Sviluppando i calcoli per ricavare media e varianza rispetto a X si ottiene: M(x) =1.70⋅0.2+1.75⋅0.24+1.80⋅0.32+1.85⋅0.24 =1.78 σ(2x) =(1.70−1.78)2 ⋅0.2+(1.75−1.78)2 ⋅0.24+(1.80−1.78)2 ⋅0.32 0.3 +(1.85−1.78)2 ⋅0.24 σ(2x) =0.0236 σ(2x) =±0.15 E rispetto a Y sarà: M ( y ) = 76.4 σ (2x ) = 37.05 σ (2x ) = ±6.08 68 Si hanno le seguenti variabili statistiche semplici: 65 70 75 80 85 Yi = fi1 fi2 fi3 fi4 fi5 i =1+4 M ( y1) = 65 ⋅ 0, 4 + 70 ⋅ 0, 2 + 75 ⋅ 0, 4 = 70 2 2 2 σ ( y1) = (65 − 70) ⋅ 0, 4 + (75 − 70) ⋅ 0, 4 = 20 M ( y 2) = 70 ⋅ 0,16 + 75 ⋅ 0,333 + 80 ⋅ 0,5 = 76, 2 2 2 2 2 σ ( y 2) = (70 − 76, 2) ⋅ 0,16 + (75 − 76, 2) ⋅ 0,33 + (80 − 76, 2) ⋅ 0,5 = 13,86 M ( y 3) = 65 ⋅ 0,125 + 70 ⋅ 0,125 + 75 ⋅ 0, 25 + 80 ⋅ 0,375 + 85 ⋅ 0,125 = 76, 25 2 2 2 2 2 + (80 − 76, 25)2 ⋅ 0,375 + (85 − 76, 25)2 ⋅ 0.125 = 35,93 σ ( y 3) = (65 − 76, 25) ⋅ 0,125 + (70 − 76, 25) ⋅ 0,125 + (75 − 76, 25) ⋅ 0, 25 M ( y 4) = 75 ⋅ 0,16 + 80 ⋅ 0,33 + 85⋅,5 = 80,9 2 2 2 2 σ ( y 4) = (75 − 80,9) ⋅ 0,16 + (80 − 80,9) ⋅ 0,33 + (85 − 80,9) ⋅ 0,5 = 11,36 69 Si possono raccogliere i risultati in una tabella a 4 colonne e m righe: X M(yi) s2(yi) Pi s(yi) 2ss(yi) 3ss(yi) 1,7 70 20 5 4,47 8,9 13,4 1,75 76,2 13,86 6 3,72 7,4 11,2 1,8 76,25 35,93 8 5,99 11,9 17,9 1,85 80,9 6 3,37 6,7 10,1 11,36 Vediamo ora la curva di regressione, la curva di variabilità e la fascia di regressione 70 Curva di Regressione Curva di Variabilità 80 40 30 20 75 10 0 70 1,70 1,70 1,75 1,80 FIG.18 1,75 1,80 1,85 1,85 FIG.19 71 80 F 75 Fascia di regressione R 70 0< 1.70 1.75 1.80 R <1 F 1.85 FIG.20 72 Si costruisce la tabella derivata della perfetta dipendenza: dipendenza X 1,7 1,75 1,8 1,85 70 5 0 0 0 5 76,2 0 6 0 0 6 76,25 0 0 8 0 8 80,9 0 0 0 6 6 Myi=76,1 5 6 8 6 25 Myi M(y*) = Myi = 76,1 σy2* = (70 −76,1)2 ⋅ 0,2 + (76,2 −76,1)2 ⋅ 0,24 + (76,25−76,1)2 ⋅ 0,32 + (80,9 −76,1)2 ⋅ 0,24 =13,06 =σy2 pd 73 Da cui si può ricavare l’indice di Pearson: σy2 13,06 η= 2= =0,35 σy 37,05 2 x X y Vy Vx 1,70 1,75 1,80 1,85 -0,08 -0,03 0,02 0,07 65 -11,4 2\25 0,08 70 -6,4 1\25 0,04 75 -1,4 2\25 0,08 80 3,6 0 85 8,6 0 76,4 pd 5\25 0,20 σ xy = 0, 283 σ xy rxy = σ x ⋅σ y 0 1,78 1\25 0,04 0 3\25 0,12 1\25 0,04 1\25 0,04 0 3\25 0,12 2\25 0,08 2\25 0,08 1\25 0,04 7\25 0,28 3\25 0,12 3\25 0,12 2\25 0,08 8\25 0,32 1\25 0,04 3\25 0,12 4\25 0,16 8\25 0,32 6\25 0,25 0 5\25 0,24 Covarianza Coefficiente di correlazione lineare 74 DIAGRAMMA a DISPERSIONE Riportando i risultati dell’esempio precedente su un grafico, si avrà: Y 85 80 75 70 FIG.21 65 1,70 1,75 1,80 1,85 X Si hanno diversi tipi di curva interpolatrice: ? Relazione Lineare y = a + bx Relazione non Lineare y = a + bx + cx 2 75 Esiste più di una sola curva di un certo tipo che interpola l’insieme dei dati. Per evitare valutazioni personali, è necessario definire quale può essere la “migliore curva interpolatrice”: se, ad esempio, si utilizza il metodo dei minimi quadrati, quadrati la migliore curva interpolatrice è quella che ha la proprietà di rendere minima la quantità: d + d + ... + d = min 2 1 2 2 2 n (x,y) Y n n dn (x,y) 1 1 FIG.22 d1 (x,y) 2 2 X 76 PROBLEMA delle STIME dei PARAMETRI di UNA DISTRIBUZIONE Un problema rilevante della statistica matematica è quello dell’”inferenza statistica” cioè il problema di come si possono trovare informazioni sulla costituzione di una popolazione basandosi su un numero limitato di estrazioni, costituenti dei campioni, estratti a caso dalla popolazione stessa. Il problema si può scindere in due: • Stabilire come i parametri della popolazione si possono ricavare dal campione. • Stabilire che precisione hanno questi parametri ( qui si tralascia questa trattazione ) Si abbia un fenomeno aleatorio X definito da una distribuzione avente densità di probabilità f(x), con valori argomentali definiti in un intervallo a-b. b. Da questa popolazione possibile, che ha media m e varianza σ ² (valori teorici), sono stati estratti a caso n valori x x 1 . . . 2 x n dai quali si vogliono dedurre, nella migliore delle maniere, le stime dei parametri teorici m e σ ²Queste stime (o valori empirici) saranno una funzione degli n valori estratti ed in generale si potrà porre : = m σ 2 h ( x = 1 g ( x , x 1 2 , x , ..., x 2 n , ..., x ) n ) 77 dove h e g sono chiamate funzioni “estimatori”. Vediamo quali criteri si possono usare per scelta degli estimatori: 1. Una stima è consistente se al tendere all’infinito del numero n di campioni estratti, essa tende al valore teorico 2. Una stima è affetta da errore sistematico se la media della popolazione delle stime non coincide con la media della distribuzione da cui è estratto il campione (BIASED) 3. Un stima è efficiente se fra tutte le stime confrontabili è quella che ha varianza minima 4. Una stima è più plausibile quando la si ottiene utilizzando il principio di massima verisimiglianza 78 Principio della Massima Verisimiglianza Ricordiamo che la funzione f(x) che rappresenta una distribuzione di probabilità, dipende dai momenti della distribuzione. distribuzione Con riferimento al campione χ1 χ2 … χn estratto a caso, si può osservare che per ogni valore dx è definita la probabilità infinitesima dp = f ( x)dx Si osserva inoltre che la probabilità composta dagli n valori indipendenti χ1 χ2 …χn vale dP= dp1. dp2…….dpn e cioè: dP = f ( x1 ) ⋅ f ( x2 ) ⋅ ... f ( xn ) ⋅ d ( x)n 79 Se in questa espressione potessimo mettere i valori teorici (incogniti) della media e della varianza, otterremmo un certo valore per dP; se invece introduciamo le stime ( che si considerano note) di questi valori, avremo ovviamente dei valori diversi di dP ! Fra tutti i valori delle stime, sarà “plausibile” assumere quelli che rendono massima dP. Il massimo di dP si ottiene quando è massima la funzione: V = f ( x1 ) ⋅ f ( x2 ) ⋅ ... f ( xn ) detta “funzione di VERISIMIGLIANZA” E cioè basta fare ∂V =0 ∂m ∂V =0 2 ∂ (σ ) Queste equazioni consentono di ricavare m e σ2 80 Principio dei Minimi Quadrati Data una grandezza X da misurare, giacchè non si può effettuare un numero troppo grande di osservazioni, si estrae un campione limitato x1 x2 ... xn 2 Si vuole vedere come da questo campione si possano dedurre le stime m e σ : si ricorre al principio di MASSIMA VERISIMIGLIANZA. VERISIMIGLIANZA Per ogni x i si ha la seguente funzione densità di probabilità ( ipotesi di distribuzione normale) : 2 f ( xi ) = 1 2πσ 2 ⋅e − ( xi − m ) 2σ 2 81 mentre la funzione di VERISIMIGLIANZA è V ( x1 , x2 ...xn , σ ) = 2 −1 1 n 2 2 ⋅ e 2σ 2 n ∑ ( xi −m )2 i =1 (2πσ ) Questa funzione diventa massima quando è minimo l’esponente dell’esponenziale e cioè 1 2σ n n 2 ( x − m ) = min i 2 ∑ i =1 2 v ∑ i = min ovvero ovvero: i =1 Questo esprime il principio dei minimi quadrati: cioè nel caso di una distribuzione gaussiana, hanno massima verisimiglianza quelle stime che soddisfano alla condizione che la sommatoria dei quadrati degli scarti sia minima. 82 MEDIA e VARIANZA EMPIRICHE n 2 v ∑ i = min 1) Dal principio dei minimi quadrati derivando rispetto ad m si ha ii= =1 n δ n 2 ( xi − m) = −2∑ xi − m = 0 ∑ δ m i=1 i=1 ( ) n ed uguagliando a zero si ottiene ∑ x − nm = 0 i =1 i x x +x +...+x ∑ m= = i n 1 2 n n questa stima della media è consistente e non è affetta da errore sistematico, infatti ha una media: M m = 1 m M [ x1 ] + M [ x2 ] + ... + M [ xn ]) = n ⋅ = m ( n n ed ha come varianza: ( ) σ2 m = σ 2 σ 2 + σ 2 + ... +σ 2 n = n2 nσ 2 = 2 n 83 2) Per la stima della σ 2 consideriamo invece la V V = f ( x1 ) ⋅ f ( x2 ) ⋅ ...... ⋅ f ( xn ) = −1 1 n 2 2 ( 2Πσ ) ⋅ e 2σ 2 n ∑( xi −m) 2 i =1 Operiamo una trasformazione con il seguente algoritmo per semplificare il calcolo delle derivate n n 1 n 2 2 ln V = − ln 2Π − ln σ − 2 ⋅ ∑ ( xi − m ) 2 2 2σ i =1 2 Anche adesso avrà massima verisimiglianza per quel valore della stima che rende max lnV: ∂ ln V σ ∂σ 2 =0 ∂lnlnV V = − n 2σˆ + 1 ⋅ 2 σˆ ⋅ n x − m =0 2 σˆ 2 2 σˆ 4 ∑ i 2 i =1 ( ∂σ Da cui n ( σˆ = ∑ 2 i =1 ) ) n 2 1 xi − m ⋅ n 2 = 0 ( ) 2 −nσˆ + ∑ xi − m = 0 2 i =1 questa stima della varianza è però affetta da errore sistematico 84 Infatti ( ( 1 n ( xi − m ) + m − m ∑ n i =1 )) 2 ( ) ( ) ( 2 1 n 1 n 2 n 2 = ∑ ( xi − m ) + ∑ m − m + ∑ ( xi − m ) ⋅ m − m n i =1 n i =1 n i =1 ) Prendiamo in esame il termine: ( ) ( 2 n 2 ( xi − m ) ⋅ m − m = m − m ∑ n i =1 n ) ( 2 n ( xi − m ) = m − m ∑ x1 − nm = −2 m − m ∑ n i =1 i =1 n ) 2 E quindi ( ) ( ) n 2 2 1 n 2 1 ( xi − m) + ∑ m− m − 2 m− m = ∑ n i=1 n i=1 ( ) ( ) 2 2 1 n 2 1 ( xi − m) + n m− m − 2 m− m = ∑ n i=1 n 2 1 n 2 2 σˆ = ∑( xi − m) − m− m n i=1 ( ) 85 Calcoliamo la media della popolazione σˆ 2 2 n 1 σ 2 2 2 2 n −1 M σˆ = M ∑ ( xi − m ) − M ( m − m ) = σ − =σ ⋅ n i =1 n n 2 Cioè la stima della σˆ 2 è affetta da errore sistematico (la media di σˆ 2 non coincide con σ 2 ) Invece non è affetta da errore sistematico la seguente stima: n 1 2 2 (xi − m ) σ = ∑ n − 1 i =1 86 Concludendo, per determinare la misura di una grandezza X si eseguono n misure X1 X2 ... Xn Si assume come stima della media della popolazione delle misure possibili la m = n Si calcola la varianza stimata: σ 2 = ∑ i =1 v i2 x 1 + x 2 + ... + x n n n −1 E lo scarto quadratico medio (s.q.m.): n σ = ∑ i =1 v i2 n −1 n Si calcola lo s.q.m. della popolazione delle medie aritmetiche: E quindi si scrive σm = σ n = ∑v i =1 2 i n ⋅ ( n − 1) X = m ±σm 87 − 3σ m m FIG.23 + 3σ m Alle volte, si conosce la varianza della distribuzione delle misure possibili caratteristica dello 2 (fornita dal costruttore) “strumento - metodo - ambiente” s Si può scrivere allora che: σ X =m± σs n σ σ Si dovrebbe verificare (all’aumentare del numero di osservazioni) che s somigli a : notare che l’uso di s non consente nessun controllo circa la precisione effettivamente ottenuta nelle misure fatte. σ 88 ESEMPIO di CALCOLO della MEDIA e VARIANZA, EMPIRICHE o STIMATE La grandezza X, un angolo, è stato misurato 18 volte, con uguale precisione: calcolare la media, l’errore medio di una osservazione e l’errore medio delle media 89 Valori osservati xi Scarti - + +0”.5 Vi 2 48°21’ 18” 48°21’ 15” 48°21’ 20” 48°21’ 17” 48°21’ 18” +0”.5 0.25 48°21’ 21” +3”.5 12.25 48°21’ 17” 48°21’ 19” 48°21’ 14” 3”.5 -3”.5 12.25 48°21’ 16” 1”.5 2.25 -2”.5 2”.5 0.25 6.25 +2”.5 -0”.5 0”.5 6.25 0.25 0”.5 -0”.5 0.25 +1”.5 2.25 90 Valori osservati xi Scarti - Vi 2 + 48°21’ 15” 48°21’ 19” 48°21’ 16” 48°21’ 20” +2”.5 6.25 48°21’ 18” +0”.5 0.25 48°21’ 17” 48°21’ 19” 48°21’ 16” xm = ∑ xi = 48 ° 21'17 ''.5 n -2”.5 2”.5 6.25 +1”.5 2.25 -1”.5 1”.5 2.25 -0”.5 0”.5 0.25 +1”.5 2.25 -1”.5 1”.5 ∑v 2.25 i ≅0 ∑v 2 i = 64, 50 91 S.q.m. di una singola osservazione: σ =± S.q.m. della media ∑v 2 i n −1 σm = ± =± σ n 64.50 = ± 3.794 = 1''.95 17 =± 1''.95 = 0''.46 18 Il valore attendibile dell’angolo X è: X = xm ± σ m = 48°21'7 ''.5 ± 0''.46 0 ''.5 92 Grafico di σ e σ m . σm FIG.24 σ − 6' ' − 1' '.5 m + 1' '.5 + 6' ' 93 Media Ponderata Una grandezza X viene misurata con strumenti, metodi, condizioni ambientali diverse: ...mn ± σ n m ±σ 1 m2 ± σ 2 1 Si vuole determinare la media comune alle varie distribuzioni, utilizzando il principio di massima 2 verisimiglianza: −( mi − m) ( ) f mi = 1 2πσ i2 ⋅e 2σ i2 (funzione densità di probabilità dell’evento pi = che si può scrivere introducendo il concetto di peso ( ) f mi = 1 2πσ 02 − pi ⋅ pi ⋅ e m − m) 2( i 2σ mi ) σ 02 σ i2 2 0 94 σ 02 = varianza dell’unità di peso. Quindi: p1 , p2 ,..., pn ) ( V = ( m1 , m2 ,..., mn , m, σ ) = n 2 0 ∑ p ( m − m) n Il massimo della V si ottiene quando i =1 i i n n i =1 i i p 2 2 2 πσ ( 0) = min ∑ p m −m ∑ p Da cui La Media ponderata vale 2 i =1 i 1 2 −1 e n ∑ ( 2σ 02 pi mi − m i =1 =0 pi mi + p2 m2 + ... + pn mn mp = p1 + p2 + ... + pn Si dimostra che la media ponderata è una buona stima ( si tralascia la dimostrazione ); Invece per la varianza, a, così come visto in precedenza per σˆ 2 , che la stima è affetta da errore sistematico ed anche qui conviene assumere : σo 2 p (m ∑ = i i − mp ) 2 n −1 95 ) 2 Osservazioni 2 σ La varianza dell’unità di peso o A priori (arbitraria) A posteriori calcolata con: ∑ p (m − m ) 2 n σ = 2 o i =1 i i p n −1 Il “peso” è adimensionale. E’ un fattore che permette in qualche modo di comparare tra loro le misure fatte, assegnando a ciascuna un valore arbitrario, arb che ne indica l’affidabilità o il peso: valori di peso o bassi fanno contare meno, mentre valori di peso alti,permettono di fare contare di più le misure stimate migliori. 96 La varianza della media ponderata σ Ricavata dal σ 0 a priori = teoricamente dipendente dalle varianze 2 σ 12 , σ 22 ,...., σ n2 2 mp Ricavata dal σ o a posteriori = dà l’idea della congruenza nelle varie determinazioni 2 m 1 , m 2 ,.... m n 97 Procedura di calcolo 2 • Si fissa a piacere σ o • Si calcolano i pesi σ o2 pi = 2 σi • Si calcola la media ponderata ∑ ( n 2 • Si calcola σ o = • Si calcola σ 2 mp = i =1 pi m i − m p p1 m1 + p2 m2 + .... + pn mn p1 + p2 + ... + pn ) 2 n −1 σ 02 ∑p mp = i X = m p ± σ mp 98 ESEMPIO DI MEDIA PONDERATA Sia la grandezza X (ad esempio un angolo): si sono effettuate delle osservazioni con strumentazioni diverse, ottenendo le tre seguenti serie o popolazioni: popolazioni m3 ± σ 3 m2 ± σ 2 48°24’10’’ ± 5’’ 48°24’25’’ ± 10’’ 48°24’20’’ ± 15’’ m1 ± σ 1 Calcolo i pesi: σ 02 k p1 = 2 = =9 25 σ1 k σ 02 p2 = 2 = = 2,25 100 σ2 k σ 02 p3 = 2 = =1 225 σ3 Ponendo k= σ 0 =225 (a priori) 2 99 mi pi 10’’ 25’’ 20’’ 9 2,25 1 ∑p i mi ⋅ pi vi = mi − pi 90 56,2 20 = 12,2 -3,6 3,6 +11,4 +6,4 ∑ mi ⋅ pi = 166,2 vi2 pi ⋅ vi2 12,96 112,9 40,9 117 276 41 2 p ⋅ v ∑ i i = 434 n 1. mp ∑ p ⋅m = ∑p i =1 i i = i 116,2 = 13' '.6 12,2 m p = 48°°24'13' '.6 100 2.A posteriori 2 ( − ) p m m n 432 i i p 2 σ 0 = ∑i =1 = = 217 2 n −1 3. σ 4. 2 mp σ 2 0 217 = = = 17,8 ∑ pi 12,2 σ m = ±4' '.2 p In definitiva: X = m p + σ m p = 48°24'13' '.6 ± 4' '.2 101 Alcune brevi considerazioni sul trattamento delle misure. Le misure di grandezze a rigore non sono proprio delle estrazioni a caso da popolazioni possibili. Occorre precisare infatti che le estrazioni intanto non sono a caso (aleatorie) ma sono operazioni fatte di solito con attenzione ed inoltre che la popolazione possibile da cui si estrae deve essere pensata come una popolazione coesa, con individui molto simili. La si potrebbe però pensare ( è una popolazione virtuale !) come si vuole, anche con individui molto diversi tra loro: ma non è il caso che interessa le misure topografiche . Quindi la si deve pensare come una popolazione possibile ma coesa. Ma coesa quanto? Dipende dalla strumentazione di misura, dalle condizioni ambientali in cui si opera, dall’operatore e dalla sua abilità e capacità nell’usare la strumentazione. strumentazione Tutte informazioni che ci vengono fornite dalle stesse misure fatte, con i valori significativi ricavati (utilizzando la statistica) della media e della varianza. Alcuni studiosi rifiutano o sono molto critici su questo uso della Statistica: rifiutano infatti il concetto di popolazione possibile accoppiato al concetto di una grandezza: una grandezza ha per loro un unico valore di misura ( non è pensabile che sia paragonata ad un qualcosa che pulsa e/o sia variabile). La fluttuazione accidentale è una manifestazione dell’incapacità dell’uomo e delle sue strumentazioni, di determinare quest’unico valore. Quindi non c’è una popolazione di individui della grandezza ma una popolazione di individui che nascono dalla misura della grandezza, fornita da strumentazioni incapaci di determinarne il vero valore. In definitiva, la popolazione si sposta dalla grandezza alla misura della grandezza, ma si ha sempre a che fare con una popolazione di individui (valori o singole osservazioni) che bisogna sapere trattare. Né si può pensare che questa popolazione strumentale sia sempre la stessa e quindi individuabile una volta per tutte perché cambierà per effetto degli altri parametri (ambiente ed operatore). Si parla in effetti, e ne abbiamo accennato, di un σs fornito dai costruttori degli strumenti, però non significativo per le operazioni di misura 102 praticamente effettuate. MISURE INDIRETTE Abbiamo finora trattato le MISURE DIRETTE di grandezze, anche con peso diverso.Esiste però un ampio campo che è quello delle MISURE INDIRETTE di grandezze. Si possono verificare i seguenti tre casi: 1. la grandezza incognita X da misurare indirettamente i è funzione di n grandezze X 1 , X 2 ,..., X n misurate direttamente: X = f ( X 1 , X 2 ,..., X n ) 2. le grandezze incognite X 1 , X 2 ,..., X n sono tante quante le grandezze Li , M i ,..., N i misurate direttamente:(caso dell’equilibrio) f i ( X 1 , X 2 ,..., X m / Li , M i ,..., N i ) = 0 con i =1,2,…,m 3. le grandezze misurate direttamente Li , M i ,..., Ni sono in numero maggiore delle grandezze incognite X 1 , X 2 ,..., X m :(caso della sovrabbondanza) f i ( X 1 , X 2 ,..., X m / Li , M i ,..., N i ) = 0 con i =1,2,…,n n > m 103 1°CASO: sottocaso lineare X = aX 1 + bX 2 + cX 3 Le grandezze X1, X2,X3 sono state misurate direttamente, cioè conosciamo la loro media stimata e la loro varianza stimata. Vogliamo determinare la popolazione di misure possibili che definisce la X, cioè c determinare media stimata e la varianza ( ipotesi di distribuzione normale ): il sottocaso si risolve facilmente, con le regole viste nel caso di combinazioni di variabili casuali: X m = a X 1m + b X 2 m + c X 3 m σ 2 x 2 = a σ 2 x1 + b 2σ 2 x2 + c 2σ 2 x3 (Grandezze tra loro indipendenti ) 104 1°CASO: sottocaso non lineare X = f ( X 1 , X 2 ... X n ) Siano O1,O2…On delle stime delle medie teoriche X1m , X2m… Xnm. Si può allora scrivere O1 = X1m + ν1 O2 = X2m + ν2 …………….. On = Xnm + νn essendo gli scarti νi sufficientemente piccoli. ∂f f (O1 , O 2 ...O n ) = f ( X 1m + ν 1 , X 2 m + ν 2 ,... X nm + ν n ) = f ( X 1m , X 2 m ... X nm ) + ∂x 1 ∂f ⋅ν 1 + ∂x m 2 ∂f ⋅ ν 2 + ... + ∂x m n ⋅ν n m (sviluppo in serie di Taylor). 105 Si può, quindi, scrivere che: ∂f ∂f ⋅ν 1 + f (O1 , O2 ...On ) − f ( X 1m , X 2 m ... X nm ) = ∂x1 m ∂x 2 ∂f ⋅ν 2 + ... + m ∂x n ⋅ν n m cioè la differenza delle due funzioni è una combinazione lineare degli scarti νi . Possiamo calcolarci la media della differenza delle due funzioni : ∂f ∂f ⋅ M [ν 1 ] + M [ f (O1 , O2 ...On ) − f ( X 1m , X 2 m ... X nm )] = ∂x1 m ∂x 2 ⋅ M [ν 2 ] + ... = 0 m e cioè f (O1 , O 2 ...O n ) ≅ f ( X 1m , X 2 m ... X nm ) = X m dal che si vede che la media teorica di X si otterrebbe introducendo le medie teoriche delle Xi e che questa equivale anche ad introdurre le stime di Oi. 106 Quindi: X m = f (O1 , O2 ...On ) ≅ f ( X 1 , X 2 ... X n ) Per la varianza si ha: 2 2 2 ∂f ∂f ∂f ⋅ σ 2 xn ⋅ σ 2 x1 + ⋅ σ 2 x2 + ... + σ x2 = ∂x1 m ∂x2 m ∂xn m e se si utilizzano le varianze stimate: 2 2 2 2 2 ∂f 2 ∂f ∂f ⋅ σ xn ⋅ σ x1 + ⋅ σ x2 + ... + σ = ∂x1 m ∂x2 m ∂xn m 2 x ( legge della propagazione degli s.q.m. ) nel caso in cui le grandezze X1, X2,…Xn siano indipendenti. 107 2°CASO: sottocaso lineare m m a1 X 1 + b1 X 2 + ...u1 X m = T1 a X + b X + ...u X = T 2 1 2 2 2 m 2 .......... .......... .......... ....... a m X 1 + bm X 2 + ...u m X m = Tm Si è supposto che nel sistema ogni equazione contenga una sola misura diretta (Ti): ciò non lede la generalità della trattazione. Si consideri la matrice dei coefficienti e la sua inversa C= ... u1 a1 b1 a b ... u 2 2 2 ..... ..... ..... .... a b ... u m m m C-1 = α 11 α 12 a 21 α 22 ..... ..... α m1 α m 2 ... ... α 1m α 2m ..... .... ... α mm Essendo α ij = ( − 1) i + j ⋅ A ji D A ji = complemento algebrico del termine di posto ji D=determinante della matrice C La matrice inversa è chiamata “soluzione soluzione indeterminata” del sistema. 108 Le soluzioni del sistema sono, per la regola di Cramer: x1 = α 11 ⋅ t1 + α 12 ⋅ t 2 + .... + α 1m ⋅ t m x = α ⋅ t + α ⋅ t + .... + α ⋅ t 2 21 1 22 2 2m m .......... .......... .......... .......... ........ xm = α m1 ⋅ t1 + α m 2 ⋅ t 2 + .... + α mm ⋅ t m E quindi per le medie stimate: x1m = α 11 ⋅ T1m + α 12 ⋅ T2 m + .... + α 1m ⋅ Tmm x = α ⋅ T + α ⋅ T + .... + α ⋅ T 2m 21 1m 22 2m 2m mm .......... .......... .......... .......... ........ xmm = α m1 ⋅ T1m + α m 2 ⋅ T2 m + .... + α mm ⋅ Tmm 109 E per le varianze stimate 2 σ x21 = α 112 ⋅ σ T21 + α 122 ⋅ σ T2 2 + .... + α 12m ⋅ σ Tm 2 2 2 2 2 2 2 σ x 2 = α 21 ⋅ σ T 1 + α 22 ⋅ σ T 2 + .... + α 2 m ⋅ σ Tm .......... .......... .......... .......... .......... ........ σ 2 = α 2 ⋅ σ 2 + α 2 ⋅ σ 2 + .... + α 2 ⋅ σ 2 m1 T1 m2 T2 mm Tm xm Ed il primo sottocaso è così risolto. 110 2°CASO: °CASO: sottocaso non lineare f i ( X 1 , X 2 ... X m \ Li , M i ,..., N i ) = 0 i = 1,2,..m Occorre effettuare la linearizzazione del sistema. Supponiamo noti dei valori approssimati delle incognite 0 X 1m , X 20m ,... Si può porre: X 1m = X 10m + x1 0 X mm = X mm + xm X 2 m = X 20m + x 2 ……… essendo le correzioni X incognite,ma piccole, tali che i quadrati e le potenze superiori siano trascurabili. Si ha pertanto: i ( ) 0 f i X 10m + x1 , X 20m + x 2 ,... X mm + x m / Li , M i ,..., N i = 0 i = 1, 2,...m 111 E sviluppando in serie con sviluppo arrestato ai termini lineari: ( 0 1m fi X , X 0 2m ... X 0 mm / L i , M i ,..., N i ) ∂f i ∂f i ⋅ x + + x 1 x ∂ 1 0 ∂ 2 ( ∂f ⋅ x 2 + ... + i 0 ∂x m ⋅ x m = 0 0 ) 0 0 0 f X , X ... X e ponendo i 1m 2 m mm / L i , M i ,..., N i = Ti ∂f i = ai ∂ x 1 ∂f i ∂x2 ∂f = bi ..... i 0 ∂xm = u i 0 Si ottiene: a1 x1 + b1 x2 + ... + u1 xm = T1 a x + b x + ... + u x = T 2 1 2 2 2 m 2 .......... .......... .......... .......... .. a m x1 + bm x2 + ... + u m xm = Tm 112 Cioè si ha il sistema visto nel 1° sottocaso e già trattato. In questo caso però le Ti non sono delle misure dirette, ma sono funzioni funz di misure dirette e quindi vale: σ Ti2 ∂f = i ∂Li 2 ∂f ⋅ σ Li2 + i m ∂M i 2 ∂f 2 ⋅ σ Mi + ... + i ∂N i 2 ⋅ σ Ni2 Anche qui si ipotizza che Li, Mi, ….,Ni siano tra loro indipendenti in e che tra loro indipendenti siano anche i vari Ti. 113 3° caso : Osservazione indiretta di m grandezze mediante un numero esuberante di misure dirette. 1° sottocaso lineare m a1 X 1 + b1 X 2 + ... + u 1 X m = T1 a X + b X + ... + u X = T 2 1 2 2 m 2 2 .......... .......... .......... .......... n a m X 1 + b m X 2 + ... + u m X m = T m .......... .......... .......... ........ a n X 1 + b n X 2 + ... + u n X m = T n Se introduciamo i valori stimati delle Ti , si ottiene un sistema incompatibile ed occorre introdurre degli scarti vi incogniti: a i X 1 m + b i X 2 m + ... u i X mm − T im = v i 114 Ma il sistema da incompatibile diventa indeterminato (m + n incognite in n equazioni). Osserviamo però che le medie Xim possono essere trovate applicando il criterio di stima del “principio principio di massima verosimiglianza” verosimiglianza ( infatti il campione disponibile dei Ti è esuberante, essendo essi funzioni dei valori delle Xim). Ricordiamo che la funzione densità di probabilità del dato ϕ (Tim , X 1m , X 2 m ,... X mm , Tim ,σ 2 Ti )= Tim è: − (Tim − Tim ) 2 1 2πσ 2 Ti ⋅e 2σ Ti2 Ed introducendo il concetto di peso σ 02 pi = 2 σ Ti pi ϕ = 2 πσ 1 2 2 0 ⋅ e − p i ( T im − T im ) 2 2σ 2 0 115 La funzione di verosimiglianza V vale: ( V = 2πσ ) ⋅ ( p p ..... p ) n 2 −2 0 1 2 n 1 2 ⋅e − 1 n ∑ p i (Tim −Tim ) 2 2σ 02 i =1 Sarà verosimile assumere quei valori dei parametri X1m, X2m … che rendano massima la V: questo massimo si ha quando ∑ pi (Tim − Tim ) = min n i =1 n 2 o anche Il minimo si ha per quei particolari valori 2 p ⋅ v ∑ i i = min i =1 Tim* 116 (essendo T*im=ai X*1m+bi X*2m+…ui X*mm) Che soddisfano il sistema 2 ∂ n * p T − T =0 ∑ i im im * ∂ X 1m i =1 2 n ∂ * p T − T =0 i im im m ∂X * ∑ 2 m i =1 .... .......... .......... .......... .......... 2 ∂ n * p T − T =0 im ∂X * ∑ i im i = 1 mm ( ) ( ) ( ) Queste m equazioni aggiunte alle n equazioni del sistema generato risolvono completamente il problema. 117 Sviluppando il sistema prima scritto: − m− − ed essendo ∂T =ai ∂X * im * 1m ∂ T im* 2 ∑ p i T im − T = 0 * ∂ X i =1 1m 2 n ∂ T im* * 2 ∑ p i T im − T im = 0 * ∂ X i =1 2m .......... .......... .......... ........ 2 n ∂ T im* * 2 ∑ p i T im − T im = 0 * ∂ X mm i =1 n ( ) 2 * im ( ) ( ) ∂ T im* = b i ......... * ∂X 2m ∂Tim* = ui * ∂X mm 118 Si ottiene: ( ( ) ) ( ( ) ) ( ) ( ) * p1 T1m − T1*m ⋅ a1 + p 2 T2 m − T2*m ⋅ a 2 + ... + p n (Tnm − Tnm ) ⋅ an = 0 * * * p1 T1m − T1m ⋅ b1 + p 2 T2 m − T2 m ⋅ b2 + ... + p n (Tnm − Tnm ) ⋅ bn = 0 m .......... .......... .......... .......... .......... .......... .......... .......... .......... ....... * p1 T1m − T1*m ⋅ u1 + p 2 T2 m − T2*m ⋅ u 2 + ... + p n (Tnm − Tnm ) ⋅ un = 0 Prendiamo in esame ad esempio la prima equazione e sviluppiamola: sviluppiamo * p1T1m a1 − p1T1*m a1 + p 2T2 m a 2 − p 2T2*m a 2 + ... + p nTnm a n − p nTnm an = 0 ( ) ( ) * * − p1a1 a1 X 1*m + b1 X 2*m + ...u1 X mm − p2 a 2 a2 X 1*m + b2 X 2*m + ...u 2 X mm + ... ( ) * ... − p n an a n X 1*m + bn X 2*m + ...u n X mm + p1T1m a1 + p2T2 m a 2 + ... pnTnm a n = 0 119 Che può essere così scritta in forma sintetica: * [ pi ai ai ]X 1*m + [ pi aibi ]X 2*m + ... + [ pi ai ui ]X mm = [ pi aiTim ] E così per le altre equazioni: si ottiene in definitiva il SISTEMA NORMALE * [ pi ai ai ]X 1*m + [ pi ai bi ]X 2*m + ... + [ pi ai ui ]X mm = [ pi aiTim ] * * * [ pi bi ai ]X 1m + [ pi bi bi ]X 2 m + ... + [ pi bi ui ]X mm = [ pi biTim ] m .......... .......... .......... .......... .......... .......... .......... .......... ...... * [ pi ui ai ]X 1*m + [ pi ui bi ]X 2*m + ... + [ pi ui u i ]X mm = [ pi uiTim ] Questo sistema fornisce valori più plausibili delle X*im. 120 Introducendo i valori sopra ottenuti nel sistema delle equazioni generate, genera si possono calcolare gli scarti v * i * ai X 1*m + bi X 2*m + ...ui X mm − Tim = vi* * * Che risultano quindi anche come: vi = Tim − Tim È facile constatare le seguenti tendenze [a v ] = 0 * i i [b v ] = 0 * i i [u v ] = 0 * i i (utili per il i controllo dei calcoli) In seguito verrà trattato il calcolo delle varianze. varianze 121 3° Caso: sottocaso non lineare f i ( X 1 , X 2 ,... X m / Li , M i ,... N i ) = 0 0 Si trovano i valori approssimati X 10m , X 20m ,... X mm X 1m = X 10m + xi X 2 m = X 20m + x 2 ... ( i = 1, 2,... n n>m delle incognite e si pone: 0 X mm = X mm + xm ) 0 f i X 10m + xi , X 20m + x2 ,... X mm + xm / Li , M i ,... N i = 0 si sviluppa in serie: ( ) ∂f ∂f ∂f 0 f i X 10m , X 20m ,... X mm / L i , M i ,... N i + i ⋅ xi + i ⋅ x2 + ... + i ∂x 2 0 ∂ xi 0 ∂xm ai xi + bi x2 + ... + ui xm + Ti = 0 da cui ai xi + bi x2 + ... + ui xm + T im = vi ovvero essendo ( 0 0 Tim = fi Xim , X20m,...Xmm /Li , Mi ,...,Ni ⋅ xm = 0 0 ) cioè ci siamo così ridotti al caso lineare già esaminato. 122 Si deve calcolare la varianza del termine noto di ogni equazione ∂f = i ⋅σ ∂ L i m 2 σ 2 Ti ∂f + i ⋅σ ∂ M i m 2 2 Li 2 ∂f i + ... + ⋅ σ Ni ∂ N i m 2 2 Mi -Vediamo Vediamo la trattazione in NOTAZIONE MATRICIALE: Sia A la matrice dei coefficienti e T il vettore termini noti ai bi a2 b2 A= ... ... a b n n ... ... ... ... ui u2 ... un T 1m T= T 2m M T nm Si calcola il peso del termine noto generico σ02 pi = 2 σT i Si moltiplica ogni riga della matrice A per il peso che compete al termine noto e si esegue il prodotto di matrici. 123 ai b1 ... u i ... an pi ai ... bn p 2 a2 ⋅ ... ... ... ... u n p n an a2 b2 ... u2 pi bi p 2b2 ... ... ... p n bn ... ... p1ui p 2u 2 ... p n u n Questo prodotto permette il calcolo dei coefficienti del sistema normale. I termini noti invece si ottengono effettuando il prodotto ai a2 b1 b2 ... ... u u 2 i ... an p1T 1m ... bn p2 T 2 m ⋅ =T ⋅N ... ... ........ ... un pn T nm Il sistema normale può sintetizzarsi in da cui ( AT ⋅ A ⋅ X * − T ⋅ N = 0 ) −1 X = A ⋅ A ⋅ TN * T 124 Calcolo delle varianze delle ( ] ] ] [ [ [ ] ] ] [ [ [ [ ] [ ] [ x1* = α 11 pi ai T im + α 12 pi bi T im + ... + α 1m pi ui T im * x2 = α 21 pi ai T im + α 22 pi bi T im + ... + α 2 m pi ui T im xk* = α k 1 pi ai T im + α k 2 pi bi T im + ... + α km pi ui T im xm* = α m1 pi ai T im + α m 2 pi bi T im + ... + α mm pi ui T im Si è visto che: sviluppiamo la [ [ [ * X im X kgenerica: ) ] ] ] ] ( ) xk* = α k 1 p1ai T 1m + p2 a2 T 2 m + ... + pn an T nm + α k 2 p1b1T 1m + p2b2 T 2 m + ... + pn bn T nm + ... ( ) ... + α km p1b1T 1m + p2b2 T 2 m + ... + pnbn T nm = = T 1m p1 (α k 1a1 + α k 2b1 + ... + α km u1 ) + T 2 m p2 (α k 1a2 + α k 2b2 + ... + α km u 2 ) + ... ... + T nm p1 (α k 1an + α k 2bn + ... + α km u n ) e quindi con le solite leggi: 125 σ X2 = σ T2 p12 (α k 1 a1 + α k 2 b1 + ... + α km u1 )2 + ... k 1m ... + σ T22 m p 22 (α k 1 a 2 + α k 2 b2 + ... + α km u 2 ) + ... 2 ... + σ T2nm p n2 (α k 1 a n + α k 2 bn + ... + α km u n ) = 2 ed essendo σ 02 = σT2 pi2 im = σ p1 (α k 1 a 1 + α k 2 b1 + ... + α km u 1 ) + ... 2 ... + σ 02 p 1 (α k 1 a 2 + α k 2 b 2 + ... + α km u 2 ) + ... 2 2 0 ... + σ 02 p n (α k 1 a n + α k 2 b n + ... + α km u n ) + ... 2 [ σ X2 = σ 02 p1 (α k 1ai + α k 2bi + ... + α km ui )2 k [p (α a +α b +...+α u ) ] =α 2 Ma si dimostra che 1 e quindi σ essendo 2 X n 2 0 σ = ] ∑ i =1 k k1 i = α k2 i kk ⋅σ km i kk 2 0 2 pi ⋅ v i n−m (calcolo a posteriori della varianza dell’unità di peso) 126 OSSERVAZIONI INDIRETTE Scrivere SISTEMA EQUAZIONI GENERATE LINEARIZZATO Scrivere SOLUZIONI SISTEMA NORMALE Esplicitare la 1°mettendo mettendo in evidenza i termini noti Considerare la formazione di una nuova variabile casuale e calcolarne la σ 2 farne lo sviluppo nel caso di tre sole incognite Si ottieneσ 2 Xk =αkk ⋅σ 2 0 127 VALUTAZIONE di σ 0 SISTEMA delle EQUAZIONI GENERATE Considerare le medie teoriche sia delle incognite che delle grandezze misurate scrivere sistema equazioni generate linearizzate contenente le correzioni per avere medie teoriche Sottrarre questo sistema dal sistema equazione generato di tipo tradizionale Considerare il caso di n=3 equazioni m=2 incognite Elevare al quadrato e sommare Considerare la (Ii=If) una nuova variabile casuale Calcolarne il valore MEDIO nσ in generale e quindi e per un valore stimato si pone σ σ 2 0 2 0 { } M {v } = M v i2 + m σ = 2 0 2 i n − m 0 128 RISOLUZIONE di UN PICCOLO SISTEMA CON IL METODO REITERATIVO DELLE ELIMINAZIONI SUCCESSIVE Si abbia ad esempio il seguente sistema di 3 equazioni in 3 incognite: 8 x1 − x2 + 2 x3 + 3 = 0 − x1 + 6 x2 − 2 x3 + 4 = 0 2 x − 2 x + 4 x + 1 = 0 2 3 1 129 1°riga x1 x2 x3 T.N. 8 -1 2 3 1 - 2 - 3 8 × -1 × + × × 2°riga 8 + 6 × 4 × - 7 8 2 + -2 47 3°riga 8 + - -2 - -7 35 4 + 4 7 4 8 + 1 1 2 4 130 1. Si dividono i coefficienti di x 2 , x 3 e T.N. per il coefficiente di x1 e si cambia di segno (nella 1° equazione) 2. Si moltiplica il coefficiente di x della 2° 2 1 equazione per il coefficiente di x 2 modificato (1° equaz.) e si somma al coeff. di x 2 della 2° equaz. Si moltiplica ancora il coeff. di x1 della 2° 2 equazione per il coefficiente di x 3 modificato (1° equaz.) e si somma al coeff. di x 3 della 2°° equaz e così di seguito. 131 Quindi si moltiplica il coefficiente di x1 della 3°equazione 3 per il coefficiente di x 2 modificato (1°equazione) (1 e si somma al coefficiente di x della 3° equazione e così di seguito. 2 3. Si ottiene il sistema ridotto: 7 35 47 8 x 2 − 4 x 3 + 8 = 0 − 7 x + 7 x + 1 = 0 3 4 2 2 4 che può essere facilmente risolto. 132 SISTEMA NORMALE RISOLUZIONE LINEARE Algoritmi esatti: A. di Gauss A. di CHOLESKY A. di HOUSEHOLDER,ecc NON LINEARE procedimenti operativi per la ricerca di valori appross. delle incognite Algoritmi iterativi Metodo del GRADIENTE CONIUGATO (CG) Metodo di CHOLESKY incompleto gradiente coniugato (IGCG) 133