La Probabilità Il concetto e la definizione In natura esistono diversi fenomeni cui è possibile attribuire un valore non determinato, potremmo addirittura dire che per qualunque evento esiste sempre un’alea d’incertezza che ci consiglia di esprimerci più opportunamente in termini di priorità. Tanto per fissare una realtà riferiamoci a due tipi di evento: 1) Lancio di una moneta 2) Misura di un tratto di retta con doppio decimetro Consideriamo l’evento (1) e cominciamo con il dire che se il lancio fosse eseguito in maniera meccanica e sotto vuoto, potremmo tarare la macchina in modo da avere sempre testa o sempre croce. Viceversa se il lancio avviene “a mano” il risultato sarà la somma di fattori diversi (spinta della mano, posizione alla partenza, temperatura e densità dell’aria) che tramutano l’evento in un fatto aleatorio. Analogamente se dovessimo passare all’evento (2) e dovessimo misurare 20 volte un tratto di circa 1.00 m con un doppio decimetro e con la precisione di un millimetro avremmo certamente risultati dispersi e comunque non identici. In questo contesto si pone il concetto di Probabilità che la nostra mente utilizza in maniera istintiva applicandolo a quei fenomeni per i quali una risposta determinata è impossibile mentre è ipotizzabile un ordine di priorità; questo ordine di priorità, esprimibile con numero da a 1, prende proprio il nome di probabilità. Definizioni I tentativi per definire questo ente sono stati numerosi e tra questi vale la pena di ricordare quello di: a) Laplace Si individuano le classi di simmetria dell’evento, ad esempio: Evento Lancio di due monete uguali Simmetrie cc, tt, ct, tc Le classi sono distinguibili a priori e ad ognuna di esse si assegna il valore 0.25. 1 b) Von Mises NA Probabilità evento A = lim N dove N N sono i casi possibili, ed NA i casi che manifestano la proprietà A. Ad esempio: Evento uscita del n.2 nel lancio di un dado Probabilità evento lim N NA = 1/6 N Entrambe queste definizioni presentano dei limiti; infatti la prima cade in difetto perché non è sempre possibile conoscere le classi di simmetria, la seconda perché non è detto che se si effettuano 1000 lanci non esca mai il 2. Definizione Assiomatica della Probabilità La definizione si basa sul soddisfacimento degli assioni che la probabilità deve rispettare e, considerato che essa è la misura della priorità con cui si può verificare un evento aleatorio attraverso l’attribuzione di un numero tra e 1, avremo: - Non esistono valori negativi perché sarà sempre P(A) - Se un evento è impossibile sarà P(A) = (misura insieme vuoto) - Per due eventi mutuamente esclusivi, sarà P(A B) = P(A) + P(B) Ai primi tre assioni che sono assioni di misura si aggiunge il quarto - Certezza dell’evento P(A) = 1 2 Applichiamo la definizione assiomatica nell’evento “Lancio di una moneta”: - L’insieme è definito da: S = T C T(testa) C(croce) i sottoinsiemi sono: non c' è lancio T risultato " testa" C risultato " croce" [T , C ] o si verifica testa o si verifica croce P() = P(T) = 0.5 P(C) = 0.5 P(T,C) = 1 Se volessimo rappresentare graficamente quello che abbiamo detto, avremo: ½ ½ T(testa) C(croce) In coerenza con la definizione assiomatica della Probabilità è possibile associare ad essa altri due concetti importanti : - La densità di probabilità - La funzione di distribuzione Con riferimento alla fig. n. 1 in cui è rappresentata una funzione y=x (a < x < b), se l’area contenuta tra la curva e l’intervallo è pari ad 1 la y=x sarà una curva di densità, infatti: P f 3 x dx - non esiste possibilità che si verifichi un evento al di fuori di a,b: P() = - è certo che si possa verificare un evento in (a,b) P(S) = 1 - i valori di dP = fx dx sono positivi sempre: fx - eventi mutuamente esclusivi determinano dP(x1+x2) = dP(x1) +d P(x2) = f1dx1 + f2dx2 Fig. 2 Se integro la y= fx in un intervallo (a,) ottengo F= a f x d x La F prende il nome di distribuzione di probabilità e risponde alla domanda “Qual è la probabilità che si verifichi un evento tra a ed ” (fig. n.2) Questa probabilità è rappresentata dall’area tratteggiata E’ evidente che fd b F(x) = x x 1 a fuori dall’intervallo sarà F(x) = Pertanto, mentre la densità di probabilità è riferita ad un punto sull’asse reale x, la funzione distribuzione presume un intervallo. 4 Teoremi sulla probabilità Teorema della probabilità totale: 1) Dati due eventi A e B (Sottoinsiemi di S) disgiunti avremo che: P(A B) = P(A) + P(B) 2) Per insiemi connessi avremo: P(A B) = P(A) + P(B)- P(A B) infatti P(A B) = P(A-B) + P(B) A = (A-B) + (A B) P(A) = P(A-B)+ P(A B) P(A-B) = P(A)-P(A B) e quindi P(A B) = P(A)+P(B) -P(A B) Esempio: Si vuole calcolare la probabilità di estrarre da un mazzo di 40 carte o una carta di cuori o una figura. A = carte di cuori (1 10) P(A) = 10 =0.25 40 5 (3 x 4) P(B) = B = figure 12 =0.3 40 (A B) = figure di cuori P(A B) = 3 =0.075 40 P(A B) = 0.25 + 0.3 – 0.075 = 0.475 La probabilità condizionata In alcuni casi i valori argomentali possono essere classificati con due distribuzioni di probabilità diverse ed in questi casi è importante vedere se tra le due distribuzioni c’è o meno una correlazione. Vediamo di spiegarci con un esempio. Supponiamo di aver tenuto sotto osservazione 100 punti di un fabbricato che si è instabilizzato nella tabella seguente sono riportati i segni di spostamenti e rotazioni : + - P() 20 10 0.3 - 40 30 0.7 P() 0.6 0.4 1 + Analizzando il set di misure si può osservare: 1) La priorità con cui si presenta P(+ +) = 0.20 P(+) = 0.3 P(+ -) = 0.10 P(-) = 0.7 P(- +) = 0.4 P(+) = 0.6 P(- -) = 0.3 P(-) = 0.4 e si può anche affermare che se si è verificata una + , la priorità con cui si presenta + = 20/60 = 1/3 = 0.333 - = 40/60= 2/3 = 0.666 6 Queste due valutazioni sono condizionate dal fatto che si è ristretta la priorità di a quella di , già verificatasi come positiva. In coerenza all’esempio potremo scrivere P (+ . +) P ( / ) = -----------P(+ ) + + vale a dire “La priorità con cui si può verificare uno spostamento (+) una volta che si è verificata una rotazione (+) è data dalla priorità dell’insieme intersezione (+ , +) divisa per la priorità che si verifichi una + nell’intera popolazione”. Infatti: 20/100 P ( / ) = ------------ = 20/60 = 1/3 60/100 + + Domandiamoci ora se tra gli eventi riportati in tabella vi sia un legame. Notiamo infatti che correlando la qualità di uno spostamento alla qualità di una rotazione il valore cambia rispetto a quelli presi in assoluto. Se però P (A/B) = P (A), vale a dire se la probabilità condizionata di A rispetto a B fosse sempre uguale a P (A), gli eventi A e B sarebbero indipendenti. Supponiamo che la tabella precedente assuma i valori seguenti: + - P() + 20 20 0.4 - 30 30 0.6 P() 0.5 0.5 1 Avremo che P(+ ) = 40/100 = 0.4 7 P(+ / +) ma anche P (+ / +) = ------------ = 0.2/0.5 = 0.4 P(+) quindi il fatto che si sia verificata una + non condiziona il risultato di + il che significa che + è indipendente da + La probabilità composta Si definisce probabilità composta quella dell’evento che contemporaneamente appartiene a due insiemi: + + probabilità composta P(+ +) Nel caso in cui gli eventi sono indipendenti Sarà P(+ +) = P(+) x P(+) Come è facile dimostrare, infatti se: P(+ +) P(+ / +) = --------------- = P(+) P(+) P (+ +) = P(+) x P(+) 8 La variabile casuale e la variabile statistica Il concetto Le due entità matematiche che stiamo per introdurre sono aspetti diversi della stessa realtà operativa, nel senso che mentre la prima (v.c.) propone una ipotesi di realtà, la seconda (v.s.) registra gli effetti accaduti. Riferendoci alle misure, potremo dire che con la (v.c.) è possibile eseguire un progetto della misura stessa, mentre con la (v.s.) ne collauderemo il risultato. La prima propone un modello, la seconda ne verifica la bontà ed il nesso che le unisce non potrà che essere di tipo stocastico. Data la diversa natura sul piano operativo, diversa sarà anche la definizione matematica; infatti, mentre la v.c. altro non è che una funzione di distribuzione di probabilità, la v.s. è invece il rapporto tra gli eventi verificatisi e quelli possibili. Sia la v.c. che le v.s. possono essere n dimensionali, le definizioni che seguono si riferiscono a variabili monodimensionali, ma questo non ne limita la generalità. La definizione matematica Riferendoci al caso monodimensionale diremo che la v.c. è una distribuzione di probabilità sulla retta reale, e pertanto si definisce con F( x o ) P[ x I ( x ) ] o (a) x2 xo Ixo La funzione distribuzione gode delle seguenti proprietà: 1) F(xo) è definita per ogni xo reale 0 F(xo) 1 2) Lim F(xo) = xo - 3) Lim F(xo) = 1 9 x1 1 xo + 4) F(x2) F(x1) x2 x1 Una v.c. può essere discreta: 1 2 3 4 può essere continua la v.s. è invece definita da una tabella a due righe di valori numerici x1 x2……………….xn N1 N2……………….Nn Nella prima riga si riportano i valori argomentali, mentre nella seconda si scrivono i numeri che rappresentano il verificarsi di un certo valore argomentale. n Il numero Ni rappresenta la numerosità della popolazione i 1 Si definisce frequenza i il termine i = Ni / N e rappresenta il numero di volte che si presenta il valore argomentale xi. 10 Confronto tra v.s. e v.c. Il confronto tra v.c. e v.s. costituisce la base del trattamento dei dati. Questo confronto potrebbe avvenire attraverso una sovrapposizione degli istogrammi che descrivono la v.s. con le curve che definiscono la v.c. (vedi fig.) In effetti si preferisce ricorrere però al confronto attraverso i parametri statistici, che nel caso delle misure si limitano ad essere la media e la varianza. Infatti per le nostre applicazioni quello che conta sapere è dove si concentra la distribuzione e quale sia la dispersione attorno al punto di massima concentrazione. Variabile casuale funzione di un’altra Supponiamo che tra due v.c. esista il seguente legame funzionale y y=g(x) x e che si conosca la funzione densità della x x x 11 si vuole determinare la funzione densità y Si pone per definizione che P( y Ay) P( x Ax) Vale a dire che P(c < y < d) = P (a < x < b, e < x < f, g < x < h) e passando ai differenziali P( y dy) P( x dxi ) i ricordando che P( y dy) fy dy e P( x dx) fx dx passando alle funzioni densità avremo fy P( x dx i ) P( x dx i ) 1 P( y dy) i dy dy dyi dx i dxi pertanto fy i i fx fx g ' ( xi ) dy dxi 12 Esempio n.1: x2 Sia f x 1 e 2 2 e sia y ax b fy fx g ' ( x) dove x è la distribuzione della x = g-1 (y) pertanto si ha: fy 1 exp 2 a ( y b ) 2 2a2 Esempio n.2: x2 1 2 exp 2 fx il legame funzionale sia y = x2 x1 y x2 y g ' ( x1 ) 2 x1 2 y g ' ( x2 ) 2 x2 2 y fy i f x i g ( xi ) f x ( y ) 2 y fx ( y) 2 y f x ( y ) f x ( y ) 2 y 13 1 1 y y e 2 e 2 2 2 2 y -y e 2 2 y La Media Questo parametro fornisce il valore attorno a cui si concentra la distribuzione della popolazione. Traslando il concetto in termini meccanici potremo dire che la media è il baricentro della popolazione e conseguentemente la sua espressione è data da: M[x] = x (x) dx (caso continuo) M[x] = 1/n xi (caso discreto) Volendo differenziare il simbolo nel caso in cui si tratta di v.c. o v.s., scriveremo - (x) che indica una media per v.c. - m (x) che indica una media per v.s. - M[.] è l’operatore di media. Esempio n.1 Sia data la distribuzione in fig. fx c 1 x 1 2 1 fx 2 x o x2 altrimenti a) Vogliamo verificare se x è una distribuzione probabilità, se è vero, dovrà essere 2 f x dx 1 0 sostituendo il valore di x avremo 2 1 2 x dx [ 1 4 x 2 ]02 1 0 14 quindi x è una funzione densità di probabilità b) Calcoliamo la media 2 2 x x f x dx x 1 2 x dx 0 0 1 2 x 2 dx [x 3 / 6]02 4 / 3 In effetti se ci riferiamo alla media come valore baricentrico di un triangolo si ha che su x risulterà x = 2/3 2 = 4/3 Possiamo fare ancora un’altra verifica, considerando la mediana C1 che ha equazione x–1 y- -------- = ---------2–1 1- y=x-1 Se intersechiamo la C1 con la retta x =4/3 avremo: y = 4/3 – 1 = 1/3 che è proprio l’ordinata del baricentro, del triangolo. Proprietà della media Cosa ci interessa sapere sulla media? 1) Se la distribuzione è simmetrica attorno ad un valore c la media vale proprio c, infatti essendo f ( c h ) f ( c h ) si ha 15 sarà - x (c h) f ch dh c f ch dh h f ch dh c 2) Se tra le due v.c. y ed x esiste un legame lineare, la media lo rispetta infatti y = a x + b M[y] = a M[x] + M[b] = a M[x] + b = a x b Consideriamo la variabile scarto definita da = x - x la media sarà M[] = M[x] – M[x] = x - x = Esempio n.1 fx La distribuzione della x è quella in figura con x=1/2 e x = 1 1/2 0 2 x Tra y e x esiste la seguente relazione y=x+5 (5 y 7) 16 pertanto, applicando la relazione precedente, 1 f f y x 2 1/ 2 g '( x) 1 Avremo così fy 1/2 5 7 y y y 2 49 25 y dy 6 4 4 5 2 7 come del resto era prevedibile essendo la media un operatore lineare y = x + b = 1 + 5 = 6 Esempio n.2 fx 1 2 x y=x+5 fx 1 x 2 x fx 2 fy 2 x 2 x3 4 x 1,33 6 0 3 0 2 2 fx x y 5 ; g ' ( x) 2 2 (5 y 7) 7 y 5 y2 5y y y dy ( ) dy 6,33 2 2 2 5 5 7 Esempio n.3 17 fx 2/ /2 0 x y = sen x y’ = cos x cos x 1 sen 2 x 1- y2 fx = 2/ x = /4 2 fx | g' x | fy (0 y 1) 1 - y2 fy 2/ 0 (y) 1 Vediamo intanto se y è una funzione densità: 1 1 f y dy 0 2 0 2 2 1 [ arc seny ] [ 0] 1 0 2 1 y2 1 Calcoliamo la media di y: 1 y 2 y 0 y 2 1 1 y2 [ 1] Se calcoliamo la media di y come 18 2 2 [ 1 y 2 ]10 0.636 y = g (x) avremo y = sen(/4) = 0.707 che è diversa da quella corretta precedentemente calcolata. La diversità dei valori dipende dal fatto che la Variabile x non è concentrata in un intervallo in cui g(x) è regolare. Se supponiamo di stringere l’intervallo e cambiare densità per la x, avremo: fx 4/ /4 0 x fy 4 (0 y 0.707) 1 - y2 x = 8 22,5 0.707 y 4 0 y 1 y 2 4 [ 1 y 2 ]00.707 4 (0.707 1) 0.373 y = g(x) = sen (22°,5) = 0.382 y x Esempio n.4 fx 4/ y = sen x y’ = cos x fx 0 x /2 x =2/3 /2 = 60° x 4 fx x 2 fx 19 8 2 x 8 2 fy x g ' ( x) 8 2 arc seny 1 y2 Vediamo se la y è una funzione di densità: 1 1 f y dy 0 in quanto arc seny 1- y2 8 2 arc seny 1 - y2 0 dy dy u dv u v - v du è del tipo 1 è il differenziale di arc sen y, si ha così 1 y2 arc seny 1- y 2 dy arc seny arc seny - arc seny 1- y2 dy da cui si ottiene che 2 arc seny 1- y 2 (arc seny) 2 arc seny 1- y 2 1 (arc seny) 2 2 Pertanto 1 f x dy 0 8 2 1 4 2 [( arcseny) 2 ]10 2 [ ] 1 2 4 La y è una funzione densità. Calcoliamo la media di y: 1 y essendo y 1 y2 8 2 y 0 d ( 1 y 2 ) avremo 20 arcseny 1 y2 dy u dv u v - v du pertanto 1 0 1 y arcseny 1 y2 dy [arcseny ( 1 y )] 2 1 0 ( 1 y 2 ) 0 y 8 2 8 2 1 y2 dy [ 1 y 2 arcseny y ]10 [ 1 1 ] 8 2 0.811 Dimostriamo ora l’importante teorema della media: Se due variabili casuali x e y sono legate dalla relazione y =g(x) e la v.c. x è molto concentrata ed in un intorno è possibile che g(x) = g(x) + (x - x) g’(x) potremo scrivere y = [g(x) + (x - x) g’(x)] x dx y = g(x) x dx + = g(x) (x - x) g’(x) x dx = x dx + g’(x) (x - x) x dx = g(x) in quanto il secondo termine è una media di scarti. L’ipotesi di concentrazione della variabile è fondamentale, in quanto diversamente y g (x) 21 Facciamo un esempio semplice, considerando che sull’asse x la variabile possa assumere i valori riportati in figura 1 2 3 4 5 6 7 8 9 10 e che sia y = x2 il legame funzionale; la media dei valori sull’asse x vale x = 5.5 e se fosse vero che (y) = g(x) avremo (y) = 5.52 = 30.25 Se facciamo la media dei quadrati riportati sull’asse otterremo (y) = 38.5 che è diversa da g(x) proprio perché la distribuzione non è concentrata Viceversa consideriamo la distribuzione 1 1.1 1.2 1.3 1.4 1.5 che è una distribuzione abbastanza concentrata la cui media vale x = 1.25 Se il legame è sempre del tipo y = x 2 avremo: 1 1.21 1.44 1.69 la cui media vale y = 1.59; 1.96 2.25 M[2x] = M[1.252] = 1.56 Esempio n.5 fx 2 / x /2 x x /2 Abbiamo già visto che se y= senx la y = 2/. 22 Calcoliamo questa media utilizzando il teorema della media /2 y x M [ gx] g ( x) f /2 x senx dx 2 dx 2 [ cos x] / 2 2 La Varianza Se consideriamo le due popolazioni in figura, ci rendiamo conto che pur avendo la stessa media x, sono distribuite in maniera diversa ed in particolare la distribuzione (1) è molto più concentrata della (2). Come la variabile si concentri attorno alla media è un dato importante ed in particolare, nel caso della distribuzione di misure, segnala maggiore o minore incertezza. Il parametro statistico con cui si caratterizza la concentrazione dei valori attorno alla media è definito da x2 M ( x x ) 2 e prevede in nome di Varianza Nel caso di una distribuzione continua scriveremo x2 ( x x ) 2 f x dx che per una distribuzione discreta diventa 1 n 2 x ( x ) n i i 1 23 x 2 La radice quadrata della Varianza x si chiama scarto quadratico medio (s.q.m.) e, come abbiamo già detto, nel caso di distribuzione di misure prende il nome di incertezza. Dalla espressione x2 M ( x x ) 2 discende x2 M ( x 2 2 x x x2 ) M [ x 2 ] 2M [ x] x x2 e quindi x2 M x 2 x2 espressione con cui si può calcolare la varianza se non si vogliono eseguire i quadrati degli scarti. Se tra la v.c. x ed y esiste la relazione y = g(x) avremo: y2 M ( y y ) 2 M [ y 2 ] x2 M [ g 2 ( x)] M 2 [ g ( x)] espressione certamente non agevole da calcolare. Pertanto se la y = g(x) è una funzione regolare e la x è ben concentrata attorno alla media in modo che è possibile scrivere g ( x) g ( x ) ( x x ) g ' ( x ) avremo y2 M ( y y ) 2 M [( g ( x) y ) 2 ] M [( g ( x ) ( x x ) g ' ( x ) y ) 2 ] M [ g ' ( x ) 2 ( x x ) 2 ] e quindi y2 g ' ( x ) 2 x2 In generale potremo dire se tra la v.c. y ed n v.c., tra esse non correlate, esiste la relazione 24 y = (a1…….a2………an) sarà f 2 f 2 f 2 n 1 2 ........ y2 a a a 1 2 n in cui le derivate sono calcolate nelle medie di a1, a2, an Errore medio della media Con si è definito lo scarto mediamente attribuibile ad ogni misura, vogliamo ora calcolare lo scarto mediante attribuibile alla media aritmetica Considerando che la media è 1 mx n n i 1 mx applicando la y2 g ' ( x) 2 x2 xi 1 ( x1 x2 ...... xn ) n 1 1 1 x1 x2 xn n n n avremo 2 ed essendo 2 (m) 1 1 1 x2 x2 ........ x2 n n n 1 2 n x2 x2 ......... x2 x2 , in quanto provenienti dalla stessa distribuzione, 1 2 n avremo m2 1 1 2 2 n x x n2 n da cui m 25 x n Definizione di una variabile standardizzata Si definisce standardizzata una variabile del tipo z x x e per essa sarà z2 = 1 M (z) = Infatti (x x ) M [x x ] M [ z] M (x x )2 2 M 2 1 2 2 z Media Ponderata Supponiamo di aver misurato la grandezza A con n diversi sistemi di misura, caratterizzati ognuno da una varianza i2: Misura di A X1 X2 X3 … Xn 12 22 32 …… n2 Potremo pensare che ciascun sistema sia un’estrazione di misure da popolazioni diverse la cui media è e che questa tende ad A che è il valore vero. La tendenza ad A si esplica con varianze i2 diverse. Se scrivessimo x = 1/n Xi 26 troveremmo un valore medio che non tiene conto di i2, dobbiamo quindi trovare un indice i tale che x = i Xi tenuto conto che x = e 2 = min ciò comporta intanto che i = 1 infatti (x) = M [ i xi] = i M[xi] = x i i = 1 deve essere inoltre 2 = (i2 i2 )= min Quindi si deve cercare il minimo di i2 i2 con la condizione i = 1 utilizzando la funzione = i2 i2 - ( i - 1) avremo ------ = 2 i i2 - = i Posto 1/i2 = Pi sarà Pi i = -----2 i = ----2i2 dove Pi è il peso dell’osservazione iesima dovendo essere i = /2 Pi = 1 /2 = 1 / Pi i = Pi / Pi pertanto avremo x Pi xi Pi la cui varianza sarà 27 2 x Pi2 i2 ( Pi) 2 Esempio Si è misurato un angolo con due strumenti diversi 1) 1 = 37°,2711 3” i2 = 9 2) 2 = 37°,2725 5” i2 = 25 P1 = 1/9 P2 = 1/25 Posto P1 = 1 e ragguagliando i pesi si ha P2 = 0.36 0.2711 x 1 + 0.2725 x 0.36 = 37° + -------------------------------- = 37°,2715 1.36 9 + 25 x 0.13 2 () =------------------- = 5.86 1.84 () = 2.42 Teorema di Tchebycheff Quale che sia la forma di una distribuzione di una v.c., la quasi totalità dei suoi valori argomentali cade tra - 3 x x 3 x consideriamo l’espressione della varianza 2 ( xi x ) 2 fi i2 f i 2 12 f1 22 f 2 32 f 3 ....... n2 f n in cui i è lo scarto iesimo e supponiamo di fissare un valore quale gli scarti siano nulli e al di sopra siano tutti uguali a m. 28 m dello scarto, al di sotto del 1 2 3 m ........ m n m m sarà 2 i2 f i m2 ( f m f m1 ..... f n è la somma delle frequenze degli scarti superiori a m, pertanto la somma delle frequenze * degli scarti inferiori a m sarà: * = 1 - = 1 - * (1 f *) 2 2 m 2 m 2 1- f * 2 m e quindi f * 1 2 m2 il che significa che la frequenza degli scarti inferiori a m è maggiore di 1 Poniamo ora m = avremo 2 1 f 1 2 2 1 2 che è la disuguaglianza di Tchebycheff (valida per >1) 29 2 m2 se poniamo m = 2 avremo f 1 e per 1 0.75 4 m = 3 x avremo f 1 1 90% 9 c.v.d. 30