CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica VARIABILI ALEATORIE VARIABILE ALEATORIA DISCRETA E SUA LEGGE DI PROBABILITA’ Nella teoria classica della probabilità si aveva a che fare con gli eventi, quella moderna preferisce , dove è possibile, operare con variabili aleatorie. Nei diversi campi della scienza e della tecnica intervengono grandezze che descrivono i fenomeni in esame. Ognuna di queste grandezze può assumere valori diversi, e non si può stabilire a priori quale valore la grandezza assumerà, perché essa varia in modo casuale da prova in prova; sarà possibile solo, a volte, conoscere con che probabilità essa assume ciascuno dei valori possibili. Consideriamo ad esempio un’urna contenente tre palline numerate da 1 a 3. Estraiamo successivamente due palline, rimettendo ogni volta la pallina estratta nell’urna: registriamo i numeri che appaiono sulle due palline; l’insieme dei risultati sarà rappresentato da uno spazio contenente 9 elementi. Quindi l’intero spazio Ω dei risultati del lancio è rappresentato dalle coppie ordinate (1,1) somma punti 2 (1,2) (2,1) 3 (1,3) (3,1) (2,2) 4 (2,3) (3,2) 5 (3,3) 6 Supponiamo di considerare una legge che ad ogni coppia associ la somma dei punti realizzati: questa legge associa ad ogni elemento di Ω un e un solo elemento dell’insieme numerico X = {2,3,4,5,6) Ovvero tale legge è una funzione di Ω in X, X : Ω → R La legge definita è detta variabile aleatoria o casuale Le variabili aleatorie più usate sono di due tipi: discrete e continue Una variabile aleatoria si dice discreta se può assumere un numero finito o una infinità numerabile di valori, si dice invece continua se può assumere tutti i valori di un intervallo (o più intervalli) Le variabili aleatorie si indicano spesso con le ultime lettere maiuscole dell’alfabeto latino X, Y, Z: i valori assunti dalle variabili casuali si indicano con le corrispondenti lettere minuscole x, y, z. Probabilità_Appunti_2 1/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica In generale dunque si può dare la DEFINIZIONE Variabile casuale (o aleatoria) discreta Una variabile aleatoria (o casuale) discreta X è una variabile che può assumere i valori x1 , x 2, ...x n corrispondenti a eventi aleatori E1 , E 2, ...E n non impossibili, che si escludono a vicenda e tali che sicuramente uno di essi si verifichi. Ad ogni valore xi che una variabile casuale può assumere si può associare la probabilità p i dell’evento corrispondente E i . Diciamo quindi che p i è la probabilità che la variabile X assuma il valore xi e la indichiamo con P ( X = xi ) U E1 E2 …. En X x1 x2 …. xn P(X) p1 p2 …. pn Nell’esempio considerato P( X = 2 ) è la probabilità che la somma dei numeri risulti 1 , 9 poiché solo la coppia (1,1) fornisce tale risultato, P( X = 3) è la probabilità che la somma 2 risulti 3 che vale , in quanto la somma 3 si ottiene con le due coppie (1,2) e (2,1); ….; ecc. 9 In generale si ha la DEFINIZIONE Distribuzione di Probabilità Sia X una variabile aleatoria discreta che assume i valori x1 , x 2 ,...x n rispettivamente con probabilità p1 , p 2 ,... p n , Chiamiamo legge di distribuzione di probabilità o semplicemente legge di probabilità la funzione f che associa a ciascun valore xi la rispettiva probabilità p i . La legge di probabilità può anche essere data sotto forma analitica con una espressione del tipo pi = f ( xi ) i = 1,2,3,.... oppure del tipo P ( X = xi ) i = 1,2,3,.... La funzione di probabilità f soddisfa le condizioni: f ( xi ) ≥ 0 e n n ∑ f (x ) = ∑ p i 1 i =1 1 Probabilità_Appunti_2 2/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Con riferimento all’esempio precedente dell’estrazione delle due palline dall’urna, la funzione distribuzione di probabilità della variabile aleatoria “somma dei numeri estratti” è rappresentata dalla tabella X P(X) 2 1 9 3 2 9 4 1 3 5 2 9 6 1 9 La funzione distribuzione di probabilità si può rappresentare tramite un diagramma cartesiano o un istogramma Probabilità_Appunti_2 3/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica FUNZIONE DI RIPARTIZIONE Spesso nello studio di un fenomeno si è interessati alla ricerca della probabilità in un dato intervallo di valori che può assumere la variabile casuale. Dato un numero reale x, indichiamo con P( X ≤ x ) la probabilità che la variabile casuale X assuma un valore minore o uguale a x Fissato il valore di x, siano x1 , x 2 ,..., x h in ordine crescente i valori assunti da X minori o uguali a x, e p1 , p 2 ,..., p h le rispettive probabilità. La probabilità P( X ≤ x ) è la somma delle probabilità che X assuma i valori x1 , x 2 ,..., x h , cioè P ( X ≤ x ) = p1 + p 2 + .... + p h Si giunge così alla DEFINIZIONE Funzione di ripartizione Sia x ∈ R e X una variabile casuale discreta. La funzione F ( x ) = P( X ≤ x ) si dice funzione di ripartizione della variabile casuale X o funzione cumulativa delle frequenze. Raccogliamo in una tabella le grandezze definite X P(X) F(X) x1 p1 p1 x1 p2 p1 + p2 x… p… p1 + p2 + …. xn pn p1 + p2 + ….+pn Il dominio di F è l’intero asse reale, il codominio è l’intervallo [0,1] Si ha x < x1 0 x1 ≤ x < x 2 p1 p1 + p 2 x 2 ≤ x < x3 F (x ) = per ... ... p + p + ... p x h ≤ x < x h+1 2 h 1 ... ... x ≥ xn 1 Probabilità_Appunti_2 4/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Pertanto la funzione di ripartizione ha un grafico “a gradini”, del tipo di quello in figura In diverse applicazioni è necessario calcolare la probabilità che X assuma valori compreso in un dato intervallo , cioè P(a < X ≤ b ) , in cui, per comodità è stato incluso l’estremo superiore b. La probabilità P(a < X ≤ b ) si esprime in modo agevole per mezzo della funzione di ripartizione P(a < X ≤ b ) = P( x ≤ b) − P( X ≤ a ) = F (b ) − F (a ) La formula afferma che P(a < X < b ) è uguale all’incremento della funzione di ripartizione nell’intervallo [a, b] . Riferendoci all’esempio precedente, otteniamo la tabella della distribuzione di probabilità X P(X) F(X) 2 3 4 5 6 1 9 1 9 2 9 1 3 1 3 2 3 2 9 8 9 1 9 1 Probabilità_Appunti_2 5/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica La funzione di ripartizione è definita 0 1 9 1 F(x) = 3 2 3 8 9 1 x<2 2≤ x<3 per 3≤ x < 4 4≤ x<5 5≤ x<6 x≥6 ed ha l’andamento “a gradini” F(x) 1 8 9 2 3 1 3 1 9 0 2 3 4 5 6 x Probabilità_Appunti_2 6/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica CARATTERISTICHE NUMERICHE DELLE VARIABILI ALEATORIE Spesso è sufficiente (o non è possibile altro che) indicare soltanto alcuni parametri numerici che caratterizzano, in una certa misura, i tratti essenziali di una variabile aleatoria. Sono valori caratteristici della distribuzione che ne forniscono un’immagine riassuntiva, sufficiente per gli scopi prefissi. Due di queste caratteristiche sono quelle di speranza matematica (o valor medio) e di varianza di una variabile aleatoria. VALORE MEDIO DEFINIZIONE Sia X una variabile aleatoria che assume un numero finito di valori x1 , x 2 ,..., x n con le probabilità p1 , p 2 ,..., p n . Si dice valor medio o speranza matematica M ( X ) la somma dei prodotti dei valori di X per le rispettive probabilità n M ( X ) = p1 ⋅ x1 + p 2 ⋅ x 2 + ... + p n ⋅ x n = ∑ pi ⋅ xi i =1 Se i valori x1 , x 2 ,..., x n sono equiprobabili, cioè se p1 = p 2 = ... = p n = 1 , il valor medio si n scrive x1 + x 2 + ... + x n n non è altro che la media aritmetica dei valori assunti da X. Se invece le probabilità sono differenti, ogni valore xi va pesato con la propria probabilità M (X ) = p i . Infatti ricordando che p1 + p 2 + ... + p n = 1 è possibile esprimere M ( X ) come p1 ⋅ x1 + x 2 ⋅ p 2 + ... + x n ⋅ p n p1 + p 2 + ... + p n Dalla quale risulta che M ( X ) è la media pesata dei valori x1 , x 2 ,..., x n . Calcoliamo il valor medio della variabile aleatoria dell’esempio precedente la cui distribuzione di probabilità era espressa dalla tabella M (X ) = X P(X) 2 1 9 3 2 9 4 1 3 5 2 9 6 1 9 Otteniamo 1 2 1 2 1 36 M (X ) = ⋅ 2 + ⋅ 3 + ⋅ 4 + ⋅ 5 + ⋅ 6 = =4 9 9 3 9 9 9 Probabilità_Appunti_2 7/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica VARIANZA E SCARTO QUADRATICO MEDIO Due variabili casuali che hanno lo stesso valor medio possono avere distribuzioni di probabilità molto differenti. Ad esempio, i voti di matematica in due classi possono avere lo stesso valore medio, diciamo 6 , ma una distribuzione molto differente all’interno delle classi. In una gli studenti potrebbero avere tutti l media del 6 mentre nell’altra potrebbero esserci diversi 9 e 3 . Diventa allora necessario definire altri valori caratteristici della distribuzione che tengano conto di queste situazioni DEFINIZIONE Varianza Sia X una variabile aleatoria che assume un numero finito di valori x1 , x 2 ,..., x n con le probabilità p1 , p 2 ,..., p n . Si dice varianza della variabile casuale X, e si indica con V ( X ) , la somma dei prodotti dei delle probabilità p i per i quadrati delle differenze tra x i e il valor medio n V ( X ) = ∑ pi ⋅ ( xi − M ) 2 i =1 dove M è il valor medio di X. Sia X 2 la variabile casuale che assume i valori x12 , x 22 ,..., x n2 con le probabilità p1 , p 2 ,..., p n . La varianza di una variabile casuale si calcola più facilmente utilizzando la seguente formula notevole 2 V (X ) = M X 2 − M (X ) ( ) in cui M (X ) è il valor medio della variabile 2 X 2 e M ( X ) è il quadrato del valor medio di X 2 La varianza misura la deviazione dei valori di X rispetto al valor medio. Se la varianza è piccola , i valore di X non sono molto lontani dal valor medio, se è grande la deviazione è importante. Nei calcoli la varianza non si può confrontare con il valor medio poiché sono fra loro grandezze non omogenee. Per renderle tali è stato introdotto un nuovo parametro strettamente legato alla varianza. DEFINIZIONE Scarto quadratico medio Si dice scarto quadratico medio o deviazione standard σ ( X ) della variabile casuale X la radice quadrata della varianza σ (X ) = V (X ) Lo scarto quadratico medio σ permette di stimare la probabilità che la variabile aleatoria X assuma valori in un intervallo centrato nel valor medio M. Probabilità_Appunti_2 8/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Consideriamo la variabile casuale definita dalla tabella dell’esempio precedente X P(X) 2 1 9 3 2 9 4 1 3 5 2 9 6 1 9 Il valor medio era risultato 1 2 1 2 1 36 M (X ) = ⋅ 2 + ⋅ 3 + ⋅ 4 + ⋅ 5 + ⋅ 6 = =4 9 9 3 9 9 9 Calcoliamo la varianza con la formula della definizione 1 2 1 2 1 12 4 2 2 2 2 2 V ( X ) = ⋅ (4 − 2 ) + ⋅ (4 − 3) + (4 − 4 ) + ⋅ (4 − 5) + ⋅ (4 − 6 ) = = 9 9 3 9 9 9 3 Allo stesso risultato si perviene applicando la formula notevole 2 V (X ) = M X 2 − M (X ) Infatti poiché 1 2 1 2 1 156 52 M X 2 = ⋅ 2 2 + ⋅ 32 + ⋅ 4 2 + ⋅ 52 + ⋅ 6 2 = = e 9 9 3 9 9 9 3 2 M ( X ) = 4 2 = 16 otteniamo 52 4 2 V (X ) = M X 2 − M (X ) = − 16 = 3 3 Lo scarto quadratico medio risulta 4 σ (X ) = V (X ) = 3 ( ) ( ) ( ) VARIABILE ALEATORIA STANDARDIZZATA DEFINIZIONE Data una variabile casuale X avente valor medio M e scarto quadratico medio σ , la variabile x −M x − M x2 − M X −M X* = che assume i valori 1 , ,…, n si dice σ σ σ σ variabile aleatoria standardizzata La variabile definita gode delle proprietà: - è adimensionale in quanto quoziente di X − M e σ che hanno le stesse dimensioni; pertanto la variabile standardizzata è utile per il confronto di variabili casuali differenti per dimensioni, valor medio e scarto quadratico medio - qualunque sia X il valor medio di X* è 0: Infatti n n x −M 1 n 1 M ( X *) = ∑ pi ⋅ i = ⋅ ∑ p i ⋅ xi − M ∑ p i = (M − M ) = 0 σ σ i =1 i =1 i =1 σ - si dimostra inoltre che V (X ) = 1 Probabilità_Appunti_2 9/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica OPERAZIONI SULLE VARIABILI CASUALI Per poter operare con le variabili casuali è necessario introdurre il concetto di variabili indipendenti DEFINIZIONE Variabili indipendenti Siano X e Y due variabili casuali definite dalle tabelle X x1 x2 … xn P p1 p2 … pn Y y1 y2 … yn P p1 p2 … pn X e Y si dicono indipendenti se, per ogni valore di i e k, sono indipendenti gli eventi “X assume il valore di xi ” e “Y assume il valore di y k ”. DEFINIZIONE Addizione e sottrazione Chiamiamo somma di X e Y la variabile casuale X + Y che assume i valori xi + y k ; differenza di X e Y la variabile casuale X − Y che assume i valori xi − y k . Se X e Y assumono rispettivamente n e m valori, la somma X + Y e la differenza X − Y assumono tutti gli n ⋅ m valori che si possono costruire addizionando o sottraendo xi e y k . Se X e Y sono variabili indipendenti la somma X + Y e la differenza X − Y assumono rispettivamente i valori xi + y k e xi − y k con probabilità pi ⋅ p k . Valgono le proprietà: • M ( X ± Y ) = M ( X ) ± M (Y ) • Se X e Y sono variabili indipendenti V ( X ± Y ) = V ( X ) + V (Y ) DEFINIZIONE Moltiplicazione Chiamiamo prodotto di X e Y la variabile casuale XY che assume i valori xi ⋅ y k Se X e Y assumono rispettivamente n e m valori, il loro prodotto assume tutti gli n ⋅ m valori che si possono costruire moltiplicando xi e y k . Se X e Y sono variabili indipendenti, il prodotto XY assume i valori xi ⋅ y k con probabilità pi ⋅ p k . Probabilità_Appunti_2 10/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Valgono le proprietà: • Se X e Y son sue variabili indipendenti M ( XY ) = M ( X ) ⋅ M (Y ) • Per calcolare la varianza del prodotto XY conviene utilizzare la formula 2 2 2 V ( XY ) = M ( XY ) − [M ( XY )] , dove M ( XY ) è il valor medio della variabile casuale ( XY ) [ 2 ] [ ] , che assume i valori ( xi ⋅ y k ) con probabilità pi ⋅ p k , se X e Y sono indipendenti. 2 Probabilità_Appunti_2 11/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica DISTRIBUZIONI DI PROBABILITA’ CLASSICHE Si è visto che le probabilità associate ai valori che può assumere una variabile aleatoria X costituiscono la distribuzione di probabilità di X. Nel caso di variabile aleatoria discreta si possono elencare in una tabella i valori della variabile e le relative probabilità, ma a volte è anche possibile formulare una legge matematica che, al variare di dei valori della X, determini i relativi valori di probabilità. Nel caso di una variabile aleatoria continua invece, non essendo possibile l’elencazione dei valori, risulta necessario descriverne la distribuzione attraverso modelli matematici Analizzeremo le principali distribuzioni teoriche di probabilità. LA DISTRIBUZIONE BINOMIALE O DI BERNOULLI Sia p la probabilità che in una prova si verifichi un certo evento, che chiamiamo successo, e q = 1 − p la probabilità che si realizzi l’evento contrario, che chiamiamo insuccesso. Una prova di tale tipo si dice bernoulliana. Ripetiamo la prova n volte, nelle stesse condizioni, ciascuna delle quali (indipendentemente dalle altre) può condurre all’evento successo oppure all’evento contrario insuccesso e sia X la variabile casuale “numero di successi che si presentano in n prove”. I valori assunti da X sono 0,1,2,3,…., poiché in n prove si possono ottenere da 0 a n. Pertanto X è una variabile aleatoria discreta che assume un numero finito di valori. Si perviene alla DEFINIZIONE Distribuzione binomiale (o di Bernoulli) Si dice che una variabile casuale discreta X, con valori x = 0,1,2,…n, ha una distribuzione di probabilità binomiale di parametri n e p se: n P ( X = x ) = p x q n − x x Una variabile casuale con distribuzione binomiale descrive il numero di volte che si può verificare un evento aleatorio di probabilità p un n prove. La tabella di distribuzione binomiale è: X 0 1 2 … x … P(X=x) p0q n n n −1 pq 1 n 2 n−2 p q 2 … n x n−1 p q x … n-1 n n−1 p q n − 1 n n n 0 p q n Probabilità_Appunti_2 12/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Il seguente teorema fornisce il valore medio e lo scarto quadratico medio della variabile X TEOREMA Se X è una variabile aleatoria bernoulliana di ordine n e parametro p: - il suo valor medio è dato da M ( X ) = np ; - la sua varianza è data da V ( X ) = npq ; - il suo scarto quadratico medio è dato da σ = npq = np(1 − p ) Vediamo un esempio. Si lancia un dado 5 volte e si considera un successo il verificarsi dell’evento “esce il numero 1 5 2“ che ha probabilità di verificarsi e di non verificarsi. Consideriamo la variabile casuale 6 6 X: “numero di successi in 5 prove”. Per quanto detto X è una variabile bernoulliana. La sua tabella di distribuzione di probabilità è X 0 1 0 P(X=x) 1 5 6 6 2 1 6 1 5 6 6 5 2 3 1 5 6 6 4 3 1 5 6 6 4 3 4 1 5 6 6 5 2 5 1 5 6 6 6 1 1 5 6 6 Calcoliamo il valor medio, la varianza e lo scarto quadratico medio della variabile X: 1 5 M (X ) = 5 ⋅ = 6 6 1 5 25 V (X ) = 5 ⋅ ⋅ = 6 6 36 25 5 σ (X ) = = 36 6 Se k è il numero dei successi, determiniamo la probabilità che a) k ≤ 2 significa che si possono avere 0, 1, 2 successi: la probabilità è quindi 1 5 2 4 1 5 1 5 P(k ≤ 2) = 1 5 + + 6 6 6 6 6 6 b) k ≥ 3 significa che si possono avere 3, 4, 5, 6 successi la probabilità è quindi 3 3 5 1 5 1 4 2 1 5 1 5 1 5 1 5 P(k ≥ 3) = + + + 6 6 6 6 6 6 6 6 c) 2 ≤ x ≤ 4 significa che si possono avere 2, 3, 4 successi: la probabilità è quindi 3 3 2 4 4 2 1 5 1 5 1 5 P(2 ≤ k ≥ 4) = + + 6 6 6 6 6 6 0 6 5 Probabilità_Appunti_2 13/28 1 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA DISTRIBUZIONE DI POISSON Si ha la DEFINIZIONE Sia X una variabile aleatoria discreta che può assumere i valori 0, 1, 2, …, n in modo tale che la funzione di probabilità di X sia: λ x e −λ P( X = x) = x! In cui λ è una costante positiva assegnata. La distribuzione determinata dalla probabilità di cui sopra è detta distribuzione di Poisson di parametro λ e la variabile aleatoria, rappresentata nella tabella X P( X = x) 0 e −λ 1 λ 1! e −λ 2 λ 2 2! e −λ … … λ x x! x … e −λ … Si chiama variabile aleatoria di Poisson di parametro λ . Si dimostra che: • M (X ) = λ • V (X ) = λ • σ (X ) = λ La distribuzione di Poisson può essere considerata come limite della distribuzione di Bernoulli n P ( X = x ) = p x q n − x x quando il numero delle prove tende all’infinito. Infatti si ha il TEOREMA. Il limite per x → ∞ di una distribuzione bernoulliana , di parametro p è una distribuzione di Poisson di parametro λ = np Possiamo quindi affermare che è approssimativamente vero, per valori elevati di n, che: n x n− x λx e −λ p q = x! x L’approssimazione in pratica si usa per p ≤ 0,1 Per esempio se il numero delle prove supera 50 ed np è minore di 5. Probabilità_Appunti_2 14/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Ad esempio per n = 10 se p = 0,1 e q = 1 − p = 0,9 la distribuzione di Bernoulli ha probabilità, per x = 2 10 2 8 P ( X = 2 ) = ⋅ (0,1) ⋅ (0,9 ) ≅ 0,19 2 Essendo λ = np = 10 ⋅ (0,1) = 1 , la formula di Poisson da: 12 −1 P ( X = 2 ) = e ≅ 0,18 2! Probabilità_Appunti_2 15/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica VARIABILI ALEATORIE CONTINUE Si presentano delle questioni in cui i casi possibili si susseguono con continuità; sorge spontanea la necessità di estendere a questi casi il significato del termine probabilità. Per esempio consideriamo un cronometro che possiamo fermare premendo un pulsante. Vogliamo determinare la probabilità che si fermi, per esempio, esattamente dopo 8 secondi. La grandezza legata al fenomeno aleatorio è il tempo, che varia con continuità a seconda della sensibilità del cronometro DEFINIZIONE Una variabile aleatoria X si dice continua se i valori che può assumere occupano interamente un intervallo, limitato o illimitato, (a, b ) dell’asse numerico reale x. Come a ciascun valore x n di una variabile casuale discreta corrisponde una determinata probabilità p n , così a ciascun intervallo (a, b ) appartenente al dominio dei valori di una variabile continua, corrisponde una determinata probabilità, che si indica P(a < x < b ) caratterizzante il fatto che il valore assunto dalla variabile casuale cada in questo intervallo. Per il calcolo della probabilità definita si utilizza una funzione f ( x ) ≥ 0 , definita in R, chiamata funzione densità di probabilità di X e il valore della probabilità P( x1 ≤ x ≤ x 2 ) è uguale all’area compresa fra il grafico di f ( x ) e l’asse delle ascisse nell’intervallo [x1 , x2 ] DEFINIZIONE Si chiama funzione densità di probabilità di una variabile casuale continua X la funzione f ( x ) tale che f ( x ) ≥ 0 ∀x ∈ R e +∞ ∫ f (x )dx = 1 −∞ Dalla definizione osserviamo che quando l’intervallo I in cui varia la X ha estremi finiti a e b, la funzione densità ha valore f ( x ) = 0 per x < a e per x > b Probabilità_Appunti_2 16/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Vediamo la giustificazione dell’introduzione della funzione densità per la variabile continua con un esempio. Esempio. In un controllo della qualità vengono rilevate le durate di 5400 componenti elettrici; i dati raccolti nella tabella Dai dati elaborati si ottiene la seguente tabella classi t ≤ 500 500 − 700 700 − 1000 1000 − 1200 1200 − 1500 1500 − 1700 1700 − 2000 totale densità = ampiezza frequenza frequenza classi classi relativa frequenza relativa ampiezza classi 500 0 0,0000% 0,0000% 200 1200 2,2018% 0,0110% 300 12000 22,0183% 0,0734% 200 16000 29,3578% 0,1468% 300 21500 39,4496% 0,1315% 200 3000 5,5046% 0,0275% 300 800 1,4679% 0,0049% 54500 100 In analogia a quanto fatto in Statistica per la rappresentazione dei dati rilevati per classi di ampiezza diversa tramite gli istogrammi, poiché le classi non hanno uguale ampiezza, sull’asse delle ordinate si riporta la densità di frequenza, cioè il rapporto fra la frequenza relativa e l’ampiezza della classe di = fi Λx i 0,1468 fi = Λxi ⋅ di = 29,3578 Λx i Probabilità_Appunti_2 17/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Aumentando il numero n delle classi diminuisce la base dei rettangoli, ossia l’ampiezza delle classi, ma l’area totale dell’istogramma si mantiene pari a 1 che è la somma di tutte le frequenze relative. Passando al limite per n che tende all’infinito, la spezzata si riduce ad una curva continua che chiamiamo f ( x ) : densità di probabilità F (x ) = x2 ∫ f (x )dx x1 F (x ) La probabilità P(a < x < b ) è dunque l’area sottesa dalla curva densità di probabilità f ( x ) . Il modello matematico che serve per descrivere le probabilità associate a una variabile casuale continua X che varia entro un intervallo I = [a, b] , dove I ⊂ R , non si basa quindi sulle probabilità di singoli valori di X, bensì sulla probabilità che X assuma valori compresi fra due estremi x1 , x 2 ∈ I Probabilità_Appunti_2 18/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Analogamente al caso delle variabili aleatorie discrete, possiamo introdurre il concetto di funzione di ripartizione DEFINIZIONE Funzione di ripartizione Si chiama funzione di ripartizione di una variabile casuale continua X la funzione F ( x ) che fornisce la probabilità che la variabile X non superi un determinato valore x: F (x ) = P( X ≤ x ) = x ∫ f (t )dt −∞ Ad esempio F (c ) rappresenta la probabilità che la variabile aleatoria X assuma valori minori o uguali a c Valgono per la funzione di ripartizione proprietà molto simili a quelle viste nel caso delle variabili discrete. • il dominio della F è l’intero asse reale, il codominio [0,1] • F è una funzione monotona non decrescente • come nel caso delle funzioni discrete, la probabilità che X sia compresa nell’intervallo [x1 , x2 ] , P(x1 < x < x 2 ) , è data, in termini di ripartizione dalla relazione: P( x1 < x ≤ x 2 ) = P( X ≤ x 2 ) − P( X ≤ x1 ) = F ( x 2 ) − F ( x1 ) dF ( x ) • F ( x ) è primitiva della funzione densità f ( x ) ; infatti F ' ( x ) = = f (x ) dx I grafici che seguono illustrano rispettivamente l’andamento della funzione densità di probabilità f ( x ) e della funzione di ripartizione F ( x ) +∞ ∫ f (x )dx −∞ Probabilità_Appunti_2 19/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Anche per le variabili aleatorie continue si parla di valor medio,varianza e scarto quadratico medio, Le formule sono l’estensione nel continuo di quelle delle variabili aleatorie discrete: l’integrale sostituisce la somma dei prodotti M (X ) = valor medio +∞ ∫ x ⋅ f (x )dx −∞ +∞ var( X ) = varianza ∫ (x − M (x )) f (x )dx 2 −∞ σ ( X ) = var( x ) scarto quadratico medio Per il calcolo della varianza vale formula, vista in Statistica: var( X ) = M (X 2 ) − [M ( X )] 2 Probabilità_Appunti_2 20/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA DISTRIBUZIONE NORMALE O GAUSSIANA Nella teoria della probabilità fra le leggi di distribuzione di importanza fondamentale vi è la legge di distribuzione (detta spesso di Gauss). La particolarità fondamentale della legge normale sta nel fatto che è una legge limite a cui tendono altre leggi di distribuzione sotto condizioni frequenti nella pratica e del tutto generali. Storicamente ha avuto origine come approssimazione della distribuzione binomiale. Successivamente è stata individuata come modo con il quale si distribuiscono le misure ripetute, che differiscono fra loro per motivi accidentali (casuali), di una stessa grandezza. Si dimostra che la somma di un numero sufficientemente grande di variabili aleatorie indipendenti (o debolmente dipendenti) che obbediscono a leggi di distribuzione diverse, approssima la distribuzione effettiva con una legge normale, tanto più precisa quanto maggiore è il numero di variabili. DEFINIZIONE Distribuzione normale (o di Gauss) Una funzione densità di probabilità f ( x ) si dice normale se è definita in R ed ha espressione ( x−µ ) − f (x ) = 1 σ 2π e 2σ 2 dove i parametri µ (m) e σ sono costanti reali positive. ( ) Si indica con N µ , σ la variabile casuale continua con una funzione densità di probabilità normale e si chiama variabile casuale normale. I parametri µ e σ coincidono rispettivamente con il valor medio e lo scarto quadratico medio della variabile casuale. 2 La curva che rappresenta la funzione gaussiana è detta curva degli errori accidentali o, dalla sua forma dovuta alla simmetria, curva a campana. Notiamo alcune caratteristiche della curva: - è simmetrica rispetto all’asse x = µ 1 - ha un massimo in µ , σ 2π - è simmetrica rispetto l’asse delle ascisse - presenta dei punti di flesso in µ − σ e µ + σ Se consideriamo più variabili casuali normali con uguale valor medio µ ma diverso valore di σ la curva si appiattisce all’aumentare dello scarto quadratico medio. . Probabilità_Appunti_2 21/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Soffermiamoci sul significato fisico dei parametri µ (m) e σ . Dalla formula della definizione − 1 f (x ) = e σ 2π ( x − m )2 2σ 2 si osserva che facendo cambiare il centro di dispersione µ , centro di simmetria della distribuzione, la curva si sposta lungo l’asse delle ascisse, senza cambiare forma. Il centro di dispersione caratterizza la posizione di distribuzione sull’asse delle ascisse. La dimensione di m è quella della variabile aleatoria. Si dimostra che TEOREMA L’area della regione piana limitata dalla curva e dall’asse x è uguale a 1. Se si pone nella formula µ = 0 si ottiene x2 − 2 1 f (x ) = e 2σ σ 2π la curva corrispondente è simmetrica rispetto l’asse y Si osservato che più piccolo è il valore di σ , più grande è il massimo della f ( x ) e più ripida è la pendenza. Questo implica innanzitutto che la probabilità con la quale si cade nell’intervallo (− a, a ) è maggiore per la variabile aleatoria distribuita normalmente, (con µ = 0 ), per la quale la grandezza σ è più piccola. Inoltre per m ≠ 0 le curve densità hanno lo stesso andamento, ma sono spostate a destra (se m > 0) o a sinistra (se m < 0) . Per questo motivo considereremo in seguito le funzioni densità di probabilità con µ = 0 . Probabilità_Appunti_2 22/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica DISTRIBUZIONE NORMALE STANDARDIZZATA Risulta utile nell’eseguire i calcoli introdurre la variabile normale standardizzata. Allo scopo trasformiamo la variabile X nella variabile T (o Z) ponendo x−m T= σ allora il valore medio di T è 0 e la varianza è 1. In questo caso la funzione densità di densità T può essere ottenuta dalla − 1 f (x ) = e σ 2π ( x − m )2 2σ 2 ponendo m = 0 e σ = 1 ; si ha t2 1 −2 f (x ) = e 2π Introdurre la variabile standardizzata significa assumere come centro di dispersione l’origine degli assi, e come unità di misura lo scarto quadratico medio σ . Quindi la variabile casuale standardizzata di una variabile casuale normale è N (0,1) Esempio. Calcoliamo la probabilità che la variabile casuale normale X = N (9,4) assuma valori compresi nell’intervallo [10,12] . Il calcolo si effettua più semplicemente standardizzando la funzione densità. Il calcolo della probabilità che la variabile N (9,4) assuma un valore compreso fra [10,12] si riconduce calcolo della probabilità che la variabile casuale standardizzata Z = N (0,1) assuma un valore compreso tra 0,5 e 1,5 essendo questi i due valori di Z corrispondenti ai precedenti. Infatti applicando la relazione Z= x−m σ si ha 10 − 9 = 0,5 2 12 − 9 x 2 = 12 da cui z 2 = = 1,5 2 x1 = 10 da cui z1 = Probabilità_Appunti_2 23/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Si dimostra il TEOREMA La probabilità che la variabile T assuma un valore appartenente all’intervallo (a, b ) è l’area A della regione di piano racchiusa dalla curva normale, dall’asse x e dalle rette t = a e t = b Cioè P(a < T < b ) = A Il calcolo di queste aree di probabilità per la variabile normale standardizzata è stato fatto e riportate sulla tavola (tavola di Sheppard) come quella riportata in appendice. Tale tabella fornisce l’area al di sotto della curva normale standardizzata f ( z ) tra le ordinate di t = 0 e qualunque valore positivo di t e cioè F ( z ) = (0 < Z < z ) Da questa tavola si possono ricavare mediante l’uso della simmetria attorno alla retta t = 0 le aree di due ordinate qualunque. In questa tavola le righe sono in corrispondenza alla parte decimale del valore di z e le colonne corrispondono ai centesimi. Per esempio per trovare il valore di F (1,35) occorre individuare la riga in cui compare il numero 1,3 e scorrerla fino alla colonna corrispondente al numero 0,05; la casella individuata contiene il valore cercato. Applichiamo la tavola per risolvere il problema dell’esempio precedente P(0,5 < Z < 1,5) P(0 < Z < 1,5) = F (1,5) = 0,4332 e P(0 < Z < 0,5) = F (0,5) = 0,1915 Quindi P(0,5 < Z < 1,5) = P(0 < Z < 1,5) − P(0 < Z < 0,5) = = 0,4332 − 0,1915 = 0,2417 La simmetria della curva gaussiana rispetto l’asse della y comporta che la stessa tavola possa essere utilizzata anche per valori negativi della variabile Z: P(− z < Z < 0 ) = P(0 < Z < z ) , P(− ∞ < Z < − z ) = P( z < Z < +∞ ) = = P(0 < Z < +∞ ) − P(0 < Z < z ) = 0,5 − P(0 < Z < z ) Probabilità_Appunti_2 24/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica LA LEGGE DEI TRE SIGMA Riportiamo alcune uguaglianze di notevole utilità nei calcoli. 1) P(− 1 < T < 1) = 0,6826 = 68,28% Cioè: nella distribuzione normale c’è la probabilità del 68,28% che la variabile normale standardizzata abbia uno scarto dal valore medio (che vale 0) inferiore a 1 (che l’ascissa del punto di flesso). Ossia il 68,28% dei valori della distribuzione sono compresi tra -1 e 1 2) P(− 2 < T < 2) = 0,95,44 = 95,44% Ossia il 98,44% dei valori della distribuzione sono compresi tra -2 e 2. 3) P(− 3 < T < 3) = 0,99,73 = 99,73% Poiché il valore T = 3 è il valore standardizzato di X = 3σ , quest’ultima relazione si chiama legge dei tre sigma e afferma che il 99,73% dei valori della distribuzione è contenuta nell’intervallo di estremi -3 e 3 (oppure - − 3σ e 3σ ) e solo lo 0,27% è distribuita nelle code della distribuzione. In generale quindi risulta inutile spingere l’esame della distribuzione della variabile T al di fuori di tale intervallo. In generale dunque vi sono aree di probabilità che rivestono importanza in quanto sono frequentemente usate. Sono quelle che in una distribuzione normale corrispondo ai seguenti intervalli µ −σ < X < µ +σ µ − 2σ < X < µ + 2σ µ − 3σ < X < µ + 3σ … µ − nσ < X < µ + nσ Le relative probabilità si determinano considerando i corrispondenti intervalli della variabile standardizzata Z e poi applicando la tavola dei valori di P( z ) : P(− 1 < Z < 1) = P(− 1 < Z < 0) + P(0 < Z < 1) = 2 ⋅ F (1) = 0,6826 P(− 2 < Z < 2) = P(− 2 < Z < 0) + P(0 < Z < 2) = 2 ⋅ F (2) = 0,9544 P(− 3 < Z < 3) = P(− 3 < Z < 0) + P(0 < Z < 3) = 2 ⋅ F (3) = 0,9974 … P(− n < Z < n ) = P(− n < Z < 0) + P(0 < Z < n ) = 2 ⋅ F (n ) Probabilità_Appunti_2 25/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica DISTRIBUZIONE NORMALE COME APPROSSIMAZIONE DELLA BINOMIALE Se si effettuano n prove e se in ciascuna di queste prove la probabilità di realizzazione di un evento A è p, allora il numero x dei successi di questo evento rappresenta una variabile aleatoria X, fornita dalla nota legge n Px = P ( X = x ) = p x q n − x x con p + q = 1 , x ≤ n e con valore medio np, scarto quadratico medio npq . Per il calcolo della Px nella pratica si presentano due problemi. 1) Quando n e x sono numeri abbastanza grandi, il calcolo di P x può risultare laborioso. Ad esempio se si deve calcolare la probabilità di 135 successi su 300 prove di un evento di probabilità p = 0,4 si deve far fronte al difficoltoso calcolo 300 ⋅ (0,4 )135 ⋅ (0,6 )165 P135 = 135 2) Inoltre , sempre nell’ipotesi di n e x abbastanza grandi, ancor più complicato risulta il calcolo della probabilità (totale) che la frequenza dei successi sia compresa fra due valori determinati. Come esempio pensiamo alla probabilità che nelle 300 prove, con p = 0,4 , l’evento abbia non meno di 100 e non più di 140 successi. La probabilità totale (teorema della somma), indicata con P(100 ≤ X ≤ 140) , è 140 300 x 300 − x ⋅ (0,4 ) ⋅ (0,6 ) P (100 ≤ x ≤ 140 ) = ∑ x =100 x Il cui calcolo comporta la somma di ben 41 addendi tutti complicati quanto P135 sopra riportato. Per risolvere, sia pure in via approssimativa, questi due problemi di calcolo effettivo di probabilità relative alla distribuzione binomiale si fa ricorso alla curva normale ad essa legata. Sussiste infatti il TEOREMA Se il numero n delle prove diviene abbastanza grande e se nessuno dei due valori di p e q è troppo vicino allo zero, la distribuzione binomiale che regge la variabile X (che indica il numero dei successi in n prove) può essere approssimata da una distribuzione normale con x−m variabile aleatoria standardizzata T = e risulta σ Px ≅ 1 σ f (t ) = 1 σ 2π e − 2 t 2 Probabilità_Appunti_2 26/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica Vediamo di dare una giustificazione intuitiva al teorema, peraltro di dimostrazione impegnativa. Esso è suggerito dal fatto che se rappresentiamo graficamente delle distribuzioni binomiali caratterizzate da uno stesso valore di p, si vede che al crescere di n, esse tendono ad assumere una forma molto simile a quella della distribuzione normale. Sotto sono riportate tre rappresentazioni della distribuzione binomiale calcolate per p = 0,2 e q = 0,8 con tre valori di n: 10, 20, 40. In pratica si osserva che approssimazione è molto buona se entrambi i numeri np e nq sono maggiori di 5. Inoltre la formula Px ≅ 1 σ f (t ) = 1 σ 2π e − t2 2 consente di calcolare, sia pure approssimativamente, la probabilità Px avendo a disposizione una tavola dei valori di e − x 2 Probabilità_Appunti_2 27/28 CENTRO SALESIANO DON BOSCO – TREVIGLIO Corso di Informatica APPENDICE z z2 1 −2 ( ) F z = e dz Tavola dei valori della funzione 2π ∫0 Probabilità_Appunti_2 28/28