Distribuzione di Gauss - "G. Ferraris"

FUNZIONE DI GAUSS
Studiamo l’integrale improprio
+∞
2
𝑒 −𝑥 𝑑𝑥
0
che si può scrivere come:
+∞ −𝑥 2
𝑒
0
𝑑𝑥 =
1 −𝑥 2
𝑒 𝑑𝑥
0
+
+∞ −𝑥 2
𝑒
1
(1)
dove il primo integrale a destra certamente esiste perché la funzione è continua e limitata in 0; 1 .
Per quanto riguarda il secondo integrale di destra, osserviamo che per 𝑥 > 1 vale 𝑥 2 > 𝑥 e dunque
2
𝑒 −𝑥 < 𝑒 −𝑥 ; d’altra parte:
+∞ −𝑥
𝑒
1
𝑑𝑥 = lim𝑎→+∞
𝑎
1
𝑒 −𝑥 𝑑𝑥 = lim − 𝑒 −𝑥 ( tra 0 ed a ) = lim − 𝑒 −𝑥 + 𝑒 −1 = 0 +
𝑎→+∞
𝑎→+∞
dunque per il teorema del confronto, esiste anche
+∞
𝑒
1
−𝑥 2
1
𝑒
e
. In conclusione tutto l’integrale (1) esiste
anche se non sappiamo calcolarlo.
L’integrale (1) costituisce la base per la costruzione della funzione di densità che rappresenta la
DISTRIBUZIONE NORMALE STANDARDIZZATA DI PROBABILITA’. Tale funzione è detta anche “ funzione degli
errori”perché essa descrive bene la probabilità che un pezzo risulti difettoso al fine del processo produttivo
che lo ha generato. Tale funzione è stata studiata da Gauss ed è così definita:
𝑓 𝑥 =
1
2𝜋
.𝑒
−𝑥 2
2
( 2)
che è palesemente una variante della funzione integranda della (1). Le costanti moltiplicative che
compaiono
1
2𝜋
1
e - 2 servono a far sì l’integrale improprio iniziale abbia valore 1, affinchè (2) rappresenti
effettivamente una distribuzione di probabilità :
(3)
+∞ 1
−∞ 2𝜋
.𝑒
−𝑥 2
2
𝑑𝑥 = 1
1
Con gli strumenti a nostra disposizione non siamo in grado di calcolare l’integrale (3) ma da quanto detto
precedentemente sappiamo che esiste. La funzione integranda di (3) è un caso particolare della seguente :
(4)
𝑓 𝑥 =
1
𝜎 2𝜋
. 𝑒−
𝑥−𝜇 2
2
infatti µ = 0 e σ = 1 ed è detta funzione standardizzata, mentre la (4) è detta funzione di Gauss.
ESAME DI STATO 2006- 2007 (ITEM 4 QUESTIONARIO)
Si consideri la funzione:
 x   2

1
2
f ( x) 
 e 2
 2
Se ne spieghi l’importanza nelle applicazioni della matematica illustrando il significato di , ,2 , e
come tali parametri influenzino il grafico di f (x).
RISOLUZIONE:
Se X è una variabile casuale continua, la probabilità che X assuma un valore compreso in un
dato intervallo x1, x2  è uguale all’integrale della sua funzione di densità in tale intervallo:
x2
P( x1  X  x2 )   f ( x)dx
x1
dove la funzione f(x), non negativa, è la funzione densità di probabilità di X nell’intervallo x1, x2  .
Si dice che una variabile casuale continua ha distribuzione gaussiana o normale se la sua funzione
di densità è:
 x   2

1
2
f ( x) 
 e 2
 2
Tale funzione fu studiata da Gauss nel 1809 e rappresenta il modo con il quale si distribuiscono le
misure ripetute, che differiscono tra loro per motivi accidentali, e vengono descritte dalla variabile
X. I parametri  e  e 2 sono costanti reali positive e rappresentano, rispettivamente, la media dei
dati della distribuzione, lo scarto quadratico medio e la varianza. Le variabili casuali a distribuzione
2
gaussiana sono importanti per la molteplicità di applicazioni che esse trovano in svariati campi
quali, ad esempio, la teoria degli errori di misura e la statistica inferenziale. Sono usate anche
come modelli descrittivi dei fenomeni sociali e della distribuzione di caratteri antropometrici
(statura, peso, ecc. di un gruppo di individui), nei fenomeni biologici.
La curva normale ossia il grafico della funzione gaussiana, è il seguente :
1
 2
ed ha le seguenti caratteristiche:
- è simmetrica rispetto alla retta x  
- ha come asintoto orizzontale l’asse delle ascisse
- il punto   ;

1
 è un punto di massimo assoluto

 2 
- ha due flessi a tangente obliqua nei punti di ascissa x   e x  
- l’area sottesa dalla curva e delimitata dall’asse x ha valore 1
L’aspetto della curva è sempre quello di una “campana” ma i valori dei parametri  e  ne
caratterizzano la posizione () e la forma():
- , valore medio, è l’ascissa del punto di massimo. A tale valore della variabile casuale X
corrisponde la massima densità di probabilità; esso è anche il valore modale e la mediana della
variabile casuale.
Se  aumenta, la curva risulta traslata verso destra, se  diminuisce , la curva trasla verso sinistra.
3
- lo scarto quadratico medio  rappresenta la variabilità della variabile casuale X . Da esso dipende
l’ordinata
1
del punto di massimo e le ascisse    dei punti di flesso.
 2
Al diminuire di  il punto di massimo si innalza e i flessi si avvicinano ad esso, all’aumentare di  il
massimo si abbassa e i flessi si allontanano.
A valori più piccoli di  corrispondono “campane” più “strette”, a valori più grandi “campane” più
“ampie”.
La probabilità che la variabile aleatoria assuma un valore x che è
compreso fra due particolari valori a e b è data dall’area della regione di
piano racchiusa dalla curva, dall’asse delle ascisse e dalle rette di
equazioni
xae xb
Poiché non si riesce a calcolare una primitiva di f(x), per calcolare un
valore di probabilità si fa ricorso a tecniche di approssimazione. Poiché è
impensabile di compilare tavole con i valori approssimati delle aree che
rappresentano le varie probabilità per ogni valore dei parametri
 e
si
ricorre ad una particolare trasformazione che consente di ricondurre
qualsiasi distribuzione normale di media

e di deviazione standard

ad una distribuzione normale di media 0 e deviazione 1
4
z
x

2
1  z2
f ( z) 
e
2
Nella tabella 1 è riportata la tavola (in cui la v.c. standardizzata è indicata
con Z) delle aree sotto la curva normale standardizzata comprese tra le
ascisse 0 e qualsiasi valore positivo fino a 3,99.
Servendosi di questa tavola è possibile trovare la aree (e quindi
probabilità) comprese tra due ascisse qualsiasi, ricordando la simmetria
della curva intorno alla media che coincide con il valore z=0.
Come si procede per calcolare le probabilità nel caso di una v.c. Normale
con l’ausilio della v.c. standardizzata?
• Si definiscono la v.c. X, i valori di μ e σ e l’evento di interesse
• Si calcola il valore standardizzato z
• Si disegna la curva normale individuando sul grafico l’area di interesse
5
• Si usano tavole, simmetria e probabilità dell’evento complementare (1…) per calcolare il valore della probabilità (area) che si desidera.
Se ho un valore di z < 0 ? Si osserva che: FZ(-z)= FZ(z)
Esempio 1. Calcolare, servendosi della Tavola, le aree sottese dalla curva
normale standardizzata relative ai seguenti intervalli:
a) [0; 2]
b) [0; 1,24]
c) [–1,4; 1,4]
d) [1,5; 2,75] e) [–0,75; 1,37] f) [–2,1; –0,5]
a) Il valore dell’area, indicato con N(2), è riportato direttamente sulla
tavola:
N(2) = 0,4772
b ) Anche in questo caso il valore si legge direttamente sulla tavola (la
prima cifra decimale è nella colonna verticale a sinistra, mentre la
6
seconda cifra decimale va cercata nella prima riga orizzontale): N(1,24) =
0,3925.
c)
Data la simmetria della curva, l’area richiesta è evidentemente:
2N(1,4) = 2. 0,4192 = 0,8384.
d) L’area richiesta si ottiene facilmente per differenza:
N(2,75) – N(1,5) = 0,4970 – 0,4332 = 0,0638
7
e) In questo caso occorre sommare l’area a destra, che vale N(1,37), con
l’area a sinistra
che, per la simmetria della curva, vale N(0,75). Si ha:
N(1,37) + N(0,75) = 0,4147 + 0,2734 = 0,6881
f) L’area richiesta, sempre per la simmetria della curva, vale:
N(2,1) – N(0,5) = 0,4821 – 0,1915 = 0,2906
queste aree rappresentano altrettante
8
probabilità; per la variabile casuale standard distribuita normalmente:
a) p(0 ≤X ≤2) = 0,4772 b) p(0 ≤X ≤1,24) = 0,3925
c) p(–1,4 ≤X ≤1,4) = 0,8384 d) p(1,5 ≤X ≤2,75) = 0,0638
e) p(–0,75 ≤X 1≤,37) = 0,6881 f) p(–2,1 ≤X ≤–0,5) = 0,2906
DALLA DISUGUAGLIANZA DI TCHEBYCHEFF ALL’USO
DELLA DISTRIBUZIONE NORMALE
Nella pratica statistica, le proprietà più utili della distribuzione normale
non sono i rapporti tra ascissa ed ordinata, presentati in precedenza, ma
le relazioni tra la distanza dalla media e la densità di probabilità sottesa
dalla curva. In modo più semplice, è possibile definire quanti sono i
dati compresi tra la media ed un determinato valore, misurando la
distanza dalla media μ in unità di deviazioni standard σ.
La frazione dei casi compresi
9
- fra μ+σ e μ-σ è uguale al 68,27% (in cifra tonda o in valore approssimato
i 2/3),
- quella fra μ+2σ e μ-2σ è uguale 95,45% (in cifra tonda 95%),
- quella fra μ+3σ e μ-3σ è esattamente uguale al 99,73% (circa il 99,9%).
In pratica, nella curva normale la quasi totalità dei dati è compresa
nell'intorno della media di ampiezza 3 σ.
Si propongono i seguenti esercizi
10
1. Nella popolazione, la quantità della proteina A ha una media di 35
microgrammi deviazione standard ( σ ) uguale 5. Quale è la
probabilità di trovare:
 individui con valori superiori a 40;
 individui con valori inferiori a 40;
 individui con valori inferiori a 25;
 individui con valori compresi tra 40 e 50;
 individui con valori tra 30 e 40.
2. Un anestetico totale, somministrato prima di una operazione, ha
una media di milligrammi 60 per Kg di peso, con una deviazione
standard pari a 10. A dose superiori, con media uguale a 120 e
deviazione standard 20, esso determina conseguenze gravi sulla
salute del paziente. Se un individuo vuole il 90% di probabilità di
dormire, di quanto anestetico ha bisogno? Ma con quella quantità
di anestetico con quale probabilità può avere conseguenze gravi?
3. In una classe di 30 studenti viene svolto l’ultimo compito di
matematica, alla fine dell’anno scolastico. L’insegnante ha calcolato
dai precedenti compiti che il voto medio degli studenti è 6.2 con σ =
2.5. Con quale probabilità in questo ultimo compito in classe il voto
medio sarà maggiore di 6 ma non superiore a 6,5 ?
11
4. In una popolazione di studenti è stato rilevato che il quoziente di
intelligenza è una v. a. distribuita normalmente con media pari a
100 e varianza uguale a 121.
Determinare :
 la probabilità che uno studente scelto a caso abbia quoziente
superiore a 110;
 quale quoziente di intelligenza è superato dal 15% degli studenti;
 quale quoziente di intelligenza è superato dal 90% degli studentiù
5. Una macchina riempie con vino piccole damigiane di vetro da 5 litri,
con scarto quadratico medio di 0,015 litri. La quantità imbottigliata
è una variabile gaussiana
e inoltre non vengono immesse in
commercio confezioni con meno di 4,99 litri. Determinare :
 la percentuale delle damigiane che non vengono accettate.
 Qual è il minimo contenuto del 10% delle damigiane?
6. Sia X la variabile “Reddito annuo di una persona fisica”. Ipotizzando
che X sia una variabile normale con media 9.000,00€ e che il 15%
delle persone abbia un reddito inferiore a 2.500,00€ annui, calcolare
il reddito minimo del 10% delle persone.
12
7. La produzione di un bene economico ha un tasso di difettosità
dell’1%. In un lotto di 5.000 pezzi calcolare, utilizzando
l’approssimazione alla distribuzione normale, la probabilità che il
numero di pezzi difettosi sia al massimo di 65.
8. Una macchina produce barre d’acciaio a sezione circolare la cui
lunghezza ottimale dovrebbe essere di 5 m e il diametro della
sezione di 4 cm. Le barre effettivamente prodotte, che si
suppongono tra loro indipendenti, hanno una lunghezza aleatoria
con distribuzione normale di media μ 1 = 5 m e σ1 = 4 cm. Il diametro
della sezione è una variabile aleatoria normale, indipendente dalla
prima e con μ 2 = 4 m e σ2 = 0.8cm. Una generica barra prodotta può
essere direttamente venduta senza modifiche se la sua lunghezza è
compresa tra 4,95 m e 5,05 m e la sua sezione tra 2,8 cm e 5,2 cm. Si
verifichi se la probabilità p di mettere in vendita senza modifiche una
generica barra prodotta è p = 0,68.
13
14
15
16