cap. 2 – calcolo delle probabilita - UniFI

B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
CAP. 2 – CALCOLO DELLE PROBABILITA’
2.1 Alcuni concetti base
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo, si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei fenomeni collettivi
diventando presupposto essenziale della teoria delle decisioni e della statistica. La teoria delle
probabilità è una disciplina matematica astratta e altamente formalizzata pur conservando il suo
originale e rilevante contenuto empirico; per questa sua particolare natura l’esposizione,
necessariamente sommaria, dei suoi contenuti risulta facilitata dall’introduzione di definizioni
esplicite relative agli aspetti e concetti che ne costituiscono il corpo.
Definizione 1: Si dice esperimento casuale, ogni operazione o attività (fenomeno) il cui risultato
(la cui manifestazione) non può essere previsto con certezza.
Risulta chiaro che il termine esperimento va qui inteso in senso lato, comprendendo in esso,
sia il caso del lancio di un dado, sia il caso dell'estrazione di una pallina da un'urna, sia il caso della
rilevazione dei pesi dei coscritti alla leva, sia quello dell’esito di una operazione chirurgica, sia il
caso della sperimentazione di un nuovo farmaco, sia quello del controllo dei pezzi prodotti da un
certo macchinario ecc.
Definizione 2: Si dice spazio campionario di un esperimento casuale, l'insieme Ω di tutti i
possibili risultati, esaustivi e mutualmente escludentesi, dell'esperimento stesso.
Se l'esperimento casuale consiste nel lancio di una moneta a due facce, lo spazio campionario
è dato da
Ω = {T, C} = {ω1 , ω 2 }
dove T = ω1 è il punto campionario testa e C = ω 2 è il punto campionario croce.
In questo esempio si è assunto (come si fa di solito) che gli unici risultati possibili siano T e
C, e che quindi la moneta non possa rimanere in equilibrio sul bordo. Se invece si ipotizza che
anche questo risultato sia possibile, allora lo spazio campionario di questo esperimento casuale è
Ω = {T, C, B}= {ω1 , ω 2 , ω 3 }
1
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
dove B è il punto campionario “moneta in equilibrio sul bordo”.
Una situazione analoga al lancio della moneta si ha nel caso in cui l'esperimento casuale sia
l’esito di una operazione di finanziamento di una banca ad una impresa cliente, i cui risultati
possibili sono la restituzione o meno del finanziamento concesso da parte dell’impresa. In tal caso
infatti lo spazio campionario Ω è dato da
Ω = {R, NR}= {ω1 , ω 2 }
dove R è il punto campionario finanziamento restituito e NR il punto campionario finanziamento
non restituito.
Se l'esperimento si svolge attraverso il controllo dei pezzi prodotti da un certo macchinario
avendo come finalità l'accertamento della bontà o difettosità del pezzo prodotto, lo spazio
campionario Ω sarà composto dai soli due elementi (punti campionari) ω 1 e ω 2 , dove ω 1
rappresenta il pezzo difettoso ed ω 2 il pezzo non difettoso.
Se l'esperimento casuale consiste nell'estrazione di un numero al lotto, lo spazio campionario
è dato da
Ω = {1, 2, …, 90}= {ω1 , ω 2 ,....., ω 90 }
costituito, come è ovvio, da tutti i numeri interi da 1 a 90.
Se l'esperimento consiste nell'estrazione di una pallina da un'urna che ne contiene n identiche
a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio campionario resta definito da
Ω =(ω1 ,ω2 ,...,ωi ,...,ωn )
dove ω i (i=1, 2,...,n) sta ad indicare il punto campionario costituito dalla estrazione della pallina
contrassegnata con il numero i .
Se l’esperimento casuale consiste nel contare il numero di accessi ad un certo sito internet i
oppure nel contare il numero massimo di battiti cardiaci durante un test di sforzo, lo spazio
campionario è dato da
Ω = {0, 1, 2, …}= {ω1 , ω 2 ,.....}.
cioè da tutti i numeri interi non negativi, dato che il numero di difetti è un numero intero e non è
possibile stabilire a priori il numero massimo.
Se l'esperimento casuale consiste nel test di durata di un pneumatico, lo spazio campionario è
costituito da
Ω = {0 - +∞},
2
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
cioè da numeri reali non negativi, dato che la durata è un numero che non può essere negativo (il
tempo, come segnalato nel primo capitolo, viene espresso con una scala di rapporto); si segnala in
proposito che l’estremo superiore pari a +∞ sta ad indicare che non è possibile stabilire la durata
massima che, ovviamente, non potrà essere infinita.
Riepilogando, allora, lo spazio campionario è l’insieme dei risultati possibili dell’esperimento
campionario considerato.
Dagli esempi riportati risulta che lo spazio campionario può essere costituito da un numero
finito di punti campionari (come nel caso del lancio della moneta, dei pezzi buoni/difettosi, delle
palline estratte da un’urna), oppure da un’infinità numerabile di punti campionari (come nel caso
del numero di accessi ad un sito internet), o infine da un’infinità non numerabile di punti
campionari (come nel caso del test di durata di un pneumatico).
Definizione 3: Se lo spazio campionario è costituito da un numero finito o da un’infinità
numerabile di punti campionari, si dice evento ogni sottoinsieme E dello spazio
campionario Ω. Se lo spazio campionario è costituito da un’infinità non numerabile
di punti, non tutti i possibili sottoinsiemi di Ω sono eventi; in questa sede verranno,
comunque, considerati soltanto i cosidetti sottoinsiemi ammissibili di Ω, cioè i
sottoinsiemi che hanno natura di eventi.
Ogni evento sarà pertanto costituito da un insieme di punti campionari. Se, ad esempio, si fa
riferimento al caso dell'estrazione di una pallina da un'urna che ne contiene n, si può pensare di
suddividere l'intero spazio campionario in due sottospazi Ω1 ed Ω2 contenenti, rispettivamente, i
punti campionari: a) presentarsi di una pallina contrassegnata da un numero dispari; b) presentarsi
di una pallina contrassegnata con un numero pari.
L'evento
E = ( ω : ωi per i pari o dispari) = (ω1 , ω 2 ,...,ω i ,..., ω n ) = Ω
coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si realizzerà
in quanto effettuando l'estrazione è certo che si presenterà una pallina o contrassegnata con un
numero dispari o contrassegnata con un numero pari.
L'evento
E = ( ω : ω i per i pari e dispari)
3
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da un
numero dispari o da un numero pari e non esiste pallina contrassegnata da un numero che è dispari e
pari allo stesso tempo.
L'evento così definito viene detto evento impossibile (si tratta dell'evento che non si potrà
mai realizzare) e denotato con il simbolo φ .
Gli eventi
Ei = (ωi) , per i = 1,2,…,n, vengono detti eventi elementari in quanto costituiti
da un solo punto campionario.
Sugli eventi si può introdurre un'algebra, cioè un insieme di operazioni che soddisfano certe
proprietà e che generano, come risultato delle operazioni stesse, ancora degli eventi, cioè elementi
che appartengono all’insieme B sui quali è stata introdotta l’algebra e si parla di sistema chiuso
rispetto alle operazioni introdotte. Se il sistema è chiuso rispetto ad un numero finito di operazioni,
si parla di algebra di Boole o, più semplicemente, di algebra o campo, se il sistema è chiuso rispetto
ad un’infità numerabile di operazioni, si parla di algebra di Boole completa o, più semplicemente, di
σ-algebra o σ-campo.
L’insieme B, che può anche essere definito come spazio degli eventi, è un insieme chiuso
rispetto alle operazioni di negazione e di intersezione (e quindi anche rispetto all’unione e alla
differenza che possono essere derivate dalle precedenti).
Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto esposto in
queste note, riguardo agli eventi, non rappresenta alcunché di nuovo o di diverso rispetto al già
conosciuto; in effetti gli eventi possono essere interpretati come insiemi, o meglio, come
sottoinsiemi di un insieme dato rappresentato dallo spazio campionario Ω. Si ha così che l'evento
certo Ω (coincidente con l'intero spazio campionario) non rappresenta altro che l'insieme universale,
mentre l'evento impossibile ø corrisponderà all'insieme vuoto.
4
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.2 Algebra degli eventi
Le operazioni proprie della teoria degli insiemi sono quella di prodotto o intersezione (∩),
quella di somma o unione (∪), quella di complementazione o negazione E e quella di differenza
(-); si tratta delle stesse operazioni che, oltre al concetto di inclusione, verranno qui considerate in
quanto costituenti parte essenziale dell'algebra degli eventi.
Si dice che un evento E1 è incluso nell'evento E2, e si scrive E1 ⊆ E2 se ogni punto
campionario appartenente ad E1 appartiene anche ad E2. Due eventi E1 ed E2 sono, quindi, uguali se
e solo se (sse) contemporaneamente
E1 ⊆ E2
E1 ⊇ E2
ed
in questo caso i due eventi saranno costituiti dagli stessi punti campionari.
Si definisce come negazione (complementazione nella teoria degli insiemi) di un evento E, e
si scrive E , l'evento che si realizza quando non si realizza E. L'evento E sarà pertanto, costituito
da tutti i punti campionari di Ω che non appartengono ad E.
Nella figura sottostante vengono proposti graficamente (facendo ricorso ai cosidetti
diagrammi di Venn) il concetto di evento incluso e di evento negato.
Ω
E1
E2
E2
Fig. 4 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta l’intero
spazio campionario Ω e E1 ⊂ E2 .
L'intersezione tra due eventi E1 ed E2 è l'evento E3 = E1 ∩ E2 che si realizza quando si
realizzano entrambi gli eventi E1 ed E2 e che resta definito dai punti campionari che appartengono
sia ad E1 sia ad E2.
5
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
L'unione tra due eventi E1 ed E2 è l'evento E4 = E1 ∪ E2 che resta definito da tutti i punti
campionari che appartengono ad E1 o ad E2 o ad entrambi gli eventi E1 ed E2 .
La rappresentazione grafica tramite i diagrammi di Venn delle due operazioni (intersezione ed
unione) è riportata nella figura sottostante
Ω
Ω
E3
E1
E2
E1
E2
E4
Fig. 5 - Diagrammi di Venn per l’intersezione e l’unione dove il tratteggio vuole evidenziare
rispettivamente, l’evento E3 , nella prima figura e l’evento E4 nella seconda figura.
La differenza fra due eventi E1 ed E2 l'evento E5 = E1- E2 che risulta costituito dai punti
campionari che appartengono ad E1 ma non a E2.
Si noti che una volta introdotte le operazioni di negazione ed intersezione (operazioni base
dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori operazioni di unione e di
differenza non essendo queste ultime operazioni concettualmente nuove; infatti:
E1 ∪ E 2 = (E1 ∩ E 2 )
E1 − E 2 = (E1 ∩ E 2 )
La relazione E1 ∪ E 2 = (E1 ∩ E 2 ) e la relazione duale E1 ∩ E 2 = (E1 ∪ E 2 ) non sono altro che
la formulazione tramite la simbologia relativa alla teoria degli insiemi delle leggi di de Morgan, già
incontrate nel precedente capitolo.
L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione, sia formale
sia operativa, che esse comportano.
Due eventi E1 e E2 si dicono incompatibili se la loro intersezione dà luogo all'evento
impossibile
6
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
E1 ∩ E2 = φ
si tratta di eventi che non hanno elementi (punti campionari) comuni.
A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo ⇒ rappresenta la
relazione di implicazione (dalla prima relazione deriva necessariamente - è implicata - la seconda
relazione):
E1 ⊂ E2 => E1 ∩ E2 = E1
E1 ⊂ E2 => E1 ∪ E2 = E2
φ =Ω
Ω= φ
φ ⊂E⊂Ω
E∩ φ = φ
E∩Ω=E
E∪ φ =E
E∪Ω=Ω
E∩ E =φ
E∪ E =Ω
E1 ⊂ (E1 ∪ E2)
(E1 ∩ E2) ⊂ E1
E2 ⊂ (E1 ∪ E2)
(E1 ∩ E2) ⊂ E2
Un ulteriore e rilevante concetto è quello di condizionamento degli eventi. L'evento E1/E2 (e
si legge l'evento E1 condizionato dall'evento E2 o, più semplicemente, l'evento E1 dato E2) va
analizzato presupponendo già verificato l'evento condizionante E2. Il condizionamento degli eventi
si risolve, praticamente, in una sorta di ridefinizione dello spazio campionario che da Ω si
trasforma nell'evento condizionante, o, ancora meglio, è l'evento condizionante che assume la
natura di spazio campionario di riferimento.
7
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Ω
E1
E2
Fig. 6 - Ridefinizione degli spazi per eventi condizionati
Se si considera l'evento condizionato E1/E2 non solo E2 si trasforma in Ω ma anche l'evento
E1 si trasforma nell'evento E1 ∩ E2, in quanto, sapendo che l'evento E2 si è verificato perdono di
rilevanza tutti i punti campionari che pur appartenendo ad E1 non appartengono ad E2.
Le operazioni di unione e di intersezione possono, naturalmente, essere applicate anche a k
(>2) eventi. L'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato l'evento E
k
E = E 1 ∩ E 2 ∩ ... ∩ E k = ∩ E i
i =1
che contiene tutti i punti campionari ω i comuni ai k eventi E1,E2,….,Ek; mentre, l'unione tra gli
stessi k eventi dà come risultato l'evento E
E = E1 ∪ E2 ∪ ... Ek =
k
∪ Ei
i=1
che contiene tutti i punti campionari ωi che appartengono ad almeno uno degli eventi Ei.
Le operazioni di unione e di intersezione soddisfano la proprietà associativa e quella
distributiva
E1 ∩ E2 ∩ E3 = (E1 ∩ E2) ∩ E3 = E1 ∩ (E2 ∩ E3)
E1 ∪ E2 ∪ E3 = (E1 ∪ E2) ∪ E3 = E1 ∪ (E2 ∪ E3)
E1 ∩ (E2 ∪ E3) = (E1 ∩ E2) ∪ (E1 ∩ E3)
E1 ∪ (E2 ∩ E3) = (E1 ∪ E2) ∩ (E1 ∪ E3)
Le due ultime proprietà (distributive) per k eventi danno
8
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
k
E ∩ (E1 ∪ E2 ∪...∪ Ek) = E ∩ ( ∪ Ei) =
i=1
k
k
∪ (E ∩ Ei)
i=1
E ∪ (E1 ∩ E2 ∩...∩ Ek) = E ∪ ( ∩ Ei ) =
i=1
k
∩
i=1
(E ∪ Ei)
Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente, difficoltà
nell'individuazione e nella successiva enumerazione dei punti campionari che ne costituiscono i
possibili risultati. In esperimenti più complessi possono risultare di notevole ausilio alcune formule
combinatorie (richiamate sinteticamente nell’Appendice 1 al capitolo) che facilitano notevolmente
l'enumerazione dei punti campionari, cioè l'esatta definizione dello spazio campionario.
9
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.3 Concetto di Probabilità
Definizione 4: Si dice probabilità di un evento, la funzione a valori reali P(E), definita sulla
classe dei sottoinsiemi ammissibili (eventi) dello spazio campionario che soddisfa
specifiche proprietà.
I concetti (primitivi) prova o esperimento casuale, evento e probabilità introdotti sono legati
fra loro dalla seguente frase: "l'esperimento genera l'evento con una certa probabilità". Dove,
naturalmente, la probabilità va intesa come misura applicata agli eventi quando viene condotto un
esperimento casuale.
I tre concetti primitivi sono posti a base della definizione assiomatica di probabilità. Si
tratta di una definizione che non ha sollevato obiezioni sostanziali da parte degli studiosi dopo la
sua formulazione da parte di Kolmogorov. Si tratta infatti di una definizione che si preoccupa di
precisare e chiarire soltanto i contenuti sintattici sui quali è più facile trovare l'accordo. Ma se da un
lato il cosiddetto approccio assiomatico-formale alla probabilità presenta indubbi vantaggi, sia in
termini di accettabilità che di sviluppo della teoria, dall'altro lato il considerare i soli aspetti formali
esclude ogni operatività della definizione stessa in quanto non consente la derivazione numerica
della probabilità nei singoli casi concreti.
Quando si vuol far ricorso alla probabilità per risolvere problemi reali si dovrà, quindi, fare
necessariamente ricorso ad altre definizioni nelle quali l'aspetto semantico viene privilegiato.
Prima di trattare della definizione assiomatica di probabilità conviene, pertanto, introdurre
altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in questa sede se ne
presentano soltanto tre: la definizione classica, quella frequentista o statistica e la definizione
soggettiva. Si tratta delle tre definizioni non assiomatiche della probabilità più note ed alle quali si
fa più spesso riferimento in pratica; tutte e tre le definizioni soddisfano ai postulati posti a base della
definizione assiomatica di probabilità.
2.3.1 Definizione classica (a priori) della probabilità
La probabilità P(E) di un evento E è data dal rapporto tra il numero n E dei casi favorevoli al
verificarsi dell'evento e il numero n dei casi possibili, purché tutti i casi siano egualmente possibili
10
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
P( E ) =
n E numerodeicasi favorevoli
=
n
numerodeicasi possibili
Esempio 2.1
L’azienda Lance Clothiers produce un’ampia varietà di vestiti da uomo, tra cui camicie. Una
volta prodotte, le camicie vengono ripiegate e impacchettate automaticamente da 10 macchine
designate appositamente a tale scopo e, una volta raccolto il risultato di ciascuna macchina in
cartoni, vengono spedite cliente. A seguito di un’ispezione di routine si scopre che una di queste 10
macchine non è messa a punto adeguatamente e, conseguentemente, crea degli strappi in ogni
camicia sottoposta al processo di ripiegatura e impacchettamento. Appena prima di questa
ispezione, è stata inviata, a 100 clienti diversi, una spedizione di 100 pacchi di camicie tra cui 10
provenienti dal macchinario difettoso. Qual è la probabilità
che un cliente riceva il pacco
contenente le camicie difettose?
Poiché ciascun cliente riceverà uno dei 100 pacchi di camicie spediti, lo spazio campionario
dell’esperimento è costituito da 100 elementi (n=100); inoltre, poiché 10 di questi pacchi
contengono le camicie difettose (nE), allora, per la definizione classica di probabilità:
P( E ) =
nE
10
=
= 0,10 ,
n 100
dove con E si indica l’evento “pacco contenente camicie difettose”.
Alla definizione classica di probabilità sono state rivolte critiche di varia natura. La prima
critica è di ordine logico e riguarda la circolarità della definizione: affermare che tutti i casi sono
ugualmente possibili significa dire che sono ugualmente probabili (non si può definire un concetto
utilizzando lo stesso concetto).
Altre due critiche riguardano l’operatività della definizione; una volta superato lo scoglio
logico, non sono affatto rare le situazioni reali nelle quali non è possibile procedere
all’enumerazione dei casi favorevoli e dei casi possibili, inoltre, anche nelle situazioni in cui si può
effettuare una tale enumerazione, non è infrequente la circostanza in cui non tutti i casi sono
ugualmente possibili.
Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far ricorso alla
definizione classica di probabilità quando le situazioni non lo consentono, è stata introdotta una
diversa definizione di probabilità.
11
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.3.2 Definizione frequentista o statistica (a posteriori) della probabilità
La probabilità di un evento ripetibile E è data dal rapporto tra il numero n E delle volte in cui
l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse condizioni) quando il
numero delle prove stesse tende ad infinito
nE
n→∞ n
P(E) = lim
La probabilità secondo questa definizione può essere, pertanto, intesa come una sorta di
idealizzazione della frequenza relativa. Taluni autori ritengono, infatti, che probabilità e frequenza
relativa non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed interpretano
la frequenza relativa di un evento come misura approssimata (per n finito) della probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura quale quella
relativa al limite irraggiungibile (+∞) imposto al numero delle prove, ma ad una tale critica si
risponde accettando la frequenza relativa di un numero finito (ma sufficientemente elevato) di prove
come misura approssimata della probabilità. Molto più problematica è la risposta alla critica relativa
alla ripetibilità delle prove (esperimento) in situazioni invariate e, soprattutto, quella che fa
riferimento alle situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere
all’effettuazione di alcuna prova.
Esempio 2.2
La Metric Systems produce circuiti elettronici integrati. Occasionalmente, il processo
produce un circuito difettoso e, saltuariamente, il responsabile per il controllo della qualità
seleziona casualmente 500 circuiti dalla linea di produzione e li ispeziona attentamente.
Nell’ultima ispezione sono stati riscontrati 15 circuiti difettosi (su un totale di 500 ispezionati).
Qual è la probabilità che il processo produca un circuito difettoso?
La selezione casuale di un circuito dalla linea di produzione corrisponde ad una singola
prova di un esperimento, quindi, 500 selezioni rappresentano 500 prove, cioè n = 500. Si Indichi
con E l’evento “produzione di un circuito difettoso”. Poiché E si è manifestato 15 volte, la
probabilità che il processo produca un circuito difettoso, sulla base della definizione frequentista, è
approssimata dalla frequenza relativa di E nelle 500 prove:
P( E ) =
nE
15
=
= 0,03
500
n
12
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte alla
definizione classica e alla definizione frequentista di probabilità è la definizione sotto riportata.
2.3.3 Definizione soggettiva della probabilità
La probabilità P(E) di un evento E viene definita come il grado di fiducia che un individuo
razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di probabilità si deriva
ponendo l'individuo (razionale) di fronte ad un'operazione di scommessa chiedendo quanto è
disposto a puntare per ricevere 1 nel caso in cui l'evento in questione si realizzi. Si deve sottolineare
che questa affermazione vale solo nel caso di individui con funzione di utilità lineare; ma sulla
funzione di utilità si avrà modo di tornare nel capitolo sucessivo.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La prima riguarda
proprio la soggettività insita nella stessa definizione, la seconda è relativa alla difficoltà di
traduzione in un valore numerico significativo del grado di fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere intesa in
senso condizionato, cioè condizionatamente allo stato di informazione dell’individuo (razionale);
pertanto, anche se apparentemente due individui diversi attribuiscono una diversa misura di
probabilità ad uno stesso evento, gli stessi individui si riferiscono a due diversi eventi essendo
diverso lo stato di informazione su cui basano l’esplicitazione del proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla misura di
probabilità si perviene, come già sottolineato, attraverso l’attivazione di un processo relativamente
semplice (almeno sul piano concettuale) che è quello di porre l’individuo di fronte ad una
operazione di scommessa.
Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una valutazione numerica
della probabilità, non sono necessarie per lo sviluppo del calcolo delle probabilità bastando a tal
fine la definizione assiomatica, ed a questa definizione si farà riferimento negli sviluppi teorici che
seguono. Alle tre definizioni non assiomatiche si farà, di volta in volta, riferimento nelle
esemplificazioni delle argomentazioni teoriche.
2.3.4 Definizione assiomatica di probabilità
Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo riguarda il
concetto primitivo di evento, gli altri cinque il concetto primitivo di probabilità.
13
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Assioma 1 -
Gli eventi formano un’algebra di Boole completa.
Assioma 2 -
La misura di probabilità di un evento P(E) è unica.
Assioma 3 -
La misura della probabilità di un evento è sempre non negativa
P(E) ≥ 0
Assioma 4 -
La probabilità dell’evento certo è uguale a 1
P(Ω) = 1
Assioma 5 -
Se due eventi E1 ed E2 sono incompatibili, cioè se la loro intersezione è
l’evento impossibile, allora la probabilità della loro unione è uguale alla somma delle probabilità dei
singoli eventi (principio delle probabilità totali per eventi incompatibili)
P(E1 ∪ E2) = P(E1) + P(E2)
Assioma 6 -
per E1 ∩ E2 = φ
La probabilità dell’evento condizionato E1/E2 è pari alla probabilità
dell’intersezione dei due eventi rapportata alla probabilità dell’evento condizionante supposta
maggiore di 0
P(E1/E2) =
P(E 1 ∩ E 2 )
P(E 2 )
per P(E2) > 0
L’ultima relazione può essere riscritta (principio delle probabilità composte) come:
P(E1 ∩ E2) = P(E2) • P(E1/E2) = P(E2∩E1) = P(E1) • P(E2/E1)
In realtà, sapendo che si è realizzato un certo evento E1, non è detto che questo modifichi
necessariamente la probabilità di realizzarsi di un altro evento E2, può accadere cioè che
P(E1 / E2) = P(E1)
in tal caso si avrà anche (principio delle probabilità composte per eventi indipendenti)
P(E1 ∩ E2) = P(E1) P(E2)
ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti stocasticamente,
o indipendenti in probabilità).
Più in generale, k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o
probabilisticamente) indipendenti se
14
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
P(E i1 ∩ E i2 ∩...∩ E ik ) = P(Ei1 ) ⋅ P(Ei2 ) ⋅ ...⋅ P(Eik )
per ogni sottoinsieme di eventi Ei1 ,Ei2 ,
,Eis per s = 2, 3, 4, ... ,k . Ad esempio i tre eventi E1, E2 ed
E3 sono statisticamente indipendenti se valgono le relazioni
P(E1 ∩ E2) = P(E1) • P(E2)
P(E1∩ E3) = P(E1) • P(E3)
P(E2∩ E3) = P(E2) • P(E3)
P(E1∩ E2∩ E3) = P(E1) • P(E2) • P(E3)
Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie) non
implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica le prime tre.
Avendo definito la probabilità come funzione da applicare agli eventi dove, come precisato,
l'evento è un qualunque sottoinsieme dello spazio campionario Ω, cioè un elemento dell’insieme B
(Algebra di Boole completa costruita su Ω), risulta facile dimostrare le relazioni (teoremi)
seguenti:
P(E) ≤ 1
P( E ) = 1 − P(E)
P( φ ) = 0
E1 ⊂ E2 => P(E1) < P(E2)
P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2)
L'ultima relazione, detta anche (impropriamente) principio delle probabilità totali, per k
eventi diventa
k
⎞
⎛ k
k +1
P⎜⎜ ∪ E i ⎟⎟ = Σ P(Ei ) − Σ i Σ j P (Ei ∩ E j ) + Σ i Σ j Σ h P (Ei ∩ E j ∩ E h ) + … + (− 1) ∩ Ei
i =1
⎝ i =1 ⎠
e si riduce al postulato delle probabilità totali (Assioma 5)
⎞
⎛ k
P⎜⎜ ∪ Ei ⎟⎟ =
⎝ i =1 ⎠
quando i k eventi Ei sono tra loro incompatibili.
15
k
∑ P(E )
i =1
i
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
La probabilità per eventi condizionati o, più semplicemente, la probabilità condizionata
P(E1/E2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati formano un’algebra di
Boole, inoltre
P(E1/E) ≥ 0
P(E/E) = 1
P(E1 ∪ E2 ∪ .../E) = P(E1/E) + P(E2/E) +....
se gli eventi E1, E2,... sono incompatibili.
Inoltre
E1 ⊂ E2 => P(E1/E) ≤ P(E2/E)
P( E1 /E) = 1 - P(E1/E)
P(E1 ∪ E2/E) = P(E1/E) + P(E2/E) - P(E1 ∩ E2/E)
Il principio delle probabilità composte può riguardare anche un numero qualsiasi di eventi
E1, E2, E3,..., si avrà allora
P(E1 ∩ E2 ∩ E3 ∩...) = P(E1).P(E2/E1).P(E3/E1 ∩ E2) ...
Esempio 2.3
La società IMA produce componenti meccaniche in grande quantità per un cliente. Siccome i
limiti di tolleranza specificati dal cliente sono piuttosto severi, la produzione di queste componenti
è stata affidata a due macchinisti esperti, A e B. Al termine di ogni giornata tutte le parti prodotte
sono ispezionate e classificate come “buone” (G - good) o “difettose” (D).
La seguente tabella riporta i dati relativi alla produzione di ieri:
Macchinista
Condizioni
A
B
Totale
G
80
88
168
D
20
12
32
Totale
100
100
200
16
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Quindi le parti sono state classificate in base alla condizione (buona / difettosa) e in base al
macchinista preposto al processo produttivo.
I)
Si determinino le seguenti probabilità: P(A), dove A è l’evento “parte prodotta dal
macchinista A”; P(B), dove B è l’evento “parte prodotta dal macchinista B”; P(G),
dove G è l’evento “parte prodotta secondo le specifiche di tolleranza del cliente”;
P(D), dove D è l’evento “parte difettosa”.
P ( A) = 100 / 200 = 0,50
P(B) = 100 / 200 = 0 ,50
P(G) = 168 / 200 = 0 ,84
P(D) = 32 / 200 = 0 ,16
II)
Si determinino le probabilità congiunte dei vari eventi:
P ( A ∩ G ) = 80 / 200 = 0,40
P ( A ∩ D) = 20 / 200 = 0,10
P ( B ∩ G ) = 88 / 200 = 0,44
P ( B ∩ D) = 12 / 200 = 0,06
III)
Si determinino le probabilità condizionate dei vari eventi:
P (G A) =
P ( A ∩ G ) 0,40
=
= 0,80
P( A)
0,50
P (A D ) =
P ( A ∩ D ) 0,10
=
= 0,625
P( D )
0,16
P (D A) =
P( A ∩ D ) 0,10
=
= 0,20
P( A)
0,50
P (B G ) =
P (B ∩ G ) 0,44
=
= 0,524
P (G )
0,84
P (G B ) =
P (B ∩ G ) 0,44
=
= 0,88
P( B )
0,50
P (G D ) =
P(D ∩ G ) 0,00
=
= 0,00
P( D)
0,16
IV)
Infine, si cerchi di capire se la condizione (buona / difettosa) di una parte prodotta è
indipendente dal macchinista che la produce.
Se esiste indipendenza tra queste categorie, allora gli eventi “la parte è buona” e “la parte è
stata prodotta da A” sono statisticamente indipendenti. E’, dunque, necessario valutare la
relazione che sussiste tra P (G ∩ A) e P(G ) ⋅ P( A) .
17
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Dai precedenti calcoli risulta
P (G ∩ A) = 80 / 200 = 0,40
P (G ) = 168 / 200 = 0,84
P ( A) = 100 / 200 = 0,50
P (G ) ⋅ P( A) = 0,84 ⋅ 0,50 = 0,42
Siccome P (G ∩ A) ≠ P(G ) ⋅ P( A) ⇒ A e G non sono statisticamente indipendenti, quindi il
macchinista preposto al processo di produzione influenza la condizione buona o difettosa della
parte prodotta.
Alla stessa conclusione si perviene considerando le relazioni tra P ( A G ) e P( A) , dal
momento che
P( A G ) = 80 / 100 = 0,80 e
P( A) = 100 / 200 = 0,50
⇒ P( A G ) ≠ P ( A)
Dai dati riportati in tabella e dai precedenti calcoli possono essere verificate anche le
seguenti ulteriori relazioni:
P ( A D ) ≠ P ( A)
P( B G ) ≠ P( B)
P( D B) ≠ P( B)
che confermano la dipendenza statistica tra operatore preposto al processo produttivo e risultato
dello stesso.
Esempio 2.4
L’azienda Sigma fornisce materiali per la costruzione di case e attualmente ha un contratto
con uno dei suoi clienti per evadere un ordine entro il 31 luglio. Al momento sussiste una certa
incertezza in merito al fatto che l’azienda riesca a rispettare il termine imposto dal contratto,
poiché non sa se riceverà le materie prime necessarie dal suo fornitore entro la metà di luglio.
Considerando che adesso siamo al 1° luglio, come può essere stimata l’incertezza in questa
situazione?
Sia A l’evento che la Sigma riesca a rispettare la scadenza contrattuale del 31 luglio e B
l’evento che riceva le materie prime entro il 15 luglio dal fornitore. All’inizio di luglio l’azienda
stima che la probabilità di ottenere le materie prime in tempo è pari a P(B) = 2/3; inoltre, se le
materie prime sono consegnate per tempo, allora la probabilità di terminare i lavori per la fine del
mese è stimata in P(A/B) = ¾. Quindi, applicando il principio delle probabilità composte, si ottiene
18
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
P ( A ∩ B) = P( A B) P( B) = 3 / 4 ⋅ 2 / 3 = 0,50
Esiste, quindi, una probabilità del 50% che l’azienda Sigma ottenga le materie prime in
tempo e riesca a consegnare il materiale al cliente per la fine di luglio.
Può essere interessante procedere al calcolo di ulteriori probabilità. Indichiamo con
B l’evento che le materie prime non arrivino in tempo; quindi, P( B ) = 1-2/3 =1/3. Supponendo
che la probabilità di terminare i lavori entro il 31 luglio, dato che i fornitori non hanno consegnato
entro il 15 le materie prime necessarie sia stimata in P(A/ B ) = 1/5. Di conseguenza, applicando di
nuovo il principio delle probabilità composte, si ottiene
P ( A ∩ B ) = P( A B ) P( B ) = 1 / 5 ⋅ 1 / 3 = 0,0667 ,
cioè la probabilità che il materiale non arrivi in tempo, ma i lavori siano ugualmente ultimati per
la scadenza contrattuale è pari al 6,67%.
A questo punto, al management dell’azienda può essere utile conoscere la probabilità di
terminare i lavori entro il 31 luglio, indipendentemente dal fatto che le materie prime siano
consegnate entro la metà del mese. Poiché B e B sono due eventi incompatibili (o si verifica l’uno o
si verifica l’altro), allora per il principio delle probabilità totali per eventi incompatibili, otteniamo
P( A) = P( A ∩ B ) + P( A ∩ B ) = 0,50 + 0,0667 = 0,5667
Quindi, c’è una probabilità del 56,67% che la società Sigma riesca a rispettare i termini di
esecuzione del contratto.
19
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.4 Teorema di Bayes
Il teorema di Bayes rappresenta, come già accennato nel primo capitolo, un elemento teorico
fondamentale per la Teoria statistica delle decisioni. Esso consente, infatti, al soggetto decisore di
revisionare le informazioni a priori che lo stesso possiede sul fenomeno oggetto di studio attraverso
le ulteriori informazioni acquisite tramite esperimenti campionari, in modo da ottenere informazioni
(a posteriori) più complete e, quindi, più utili per il processo decisionale.
Si consideri una partizione dello spazio campionario Ω in k eventi E1, E2, ... , Ei, ... , Ek; i
k
eventi sono necessari ed incompatibili, tali cioè da rispettare le condizioni Ei ∩ Ej = φ per i ≠ j = 1,
k
2, ...,k e
∪E
i
= Ω. Se E è un evento appartenente ad Ω si ha
i =1
k
k
E = E ∩ Ω = E ∩ ( ∪ Ei ) =
∪
i =1
(E ∩ Ei)
i =1
e, per l'incompatibilità degli eventi Ei, anche
k
P(E) = P [ ∪ (E ∩ Ei)] =
i =1
k
∑
P(E ∩ Ei).
i =1
Inoltre, valendo le relazioni
P(E ∩ Ej) = P(Ej)P(E/ Ej) = P(Ej ∩ E) = P(E) P(Ej /E)
si avrà
P(Ej /E) =
P(E j )P(E/E j )
P(E)
=
P( E j ) ⋅ P( E / E j )
k
∑ P( E ) ⋅ P( E / E )
i =1
i
i
che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi Ei possono
essere interpretati come possibili “cause” dell'evento E. In tale contesto, P(Ej /E) viene detta
probabilità a posteriori della causa Ej; mentre, P(Ej) rappresenta la probabilità a priori della
stessa causa e P(E/ Ej) è detta probabilità probativa o verosimiglianza dell'evento E.
20
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
E1
E3
Ω
E4
E2
E
E5
Fig. 7 - Partizione dello spazio campionario Ω in cinque eventi E1, E2, E3, E4 ed E5
La formula di Bayes esprime in maniera molto semplice il processo di apprendimento
dall'esperienza in contesti non deterministici.
Della realtà si possiede una conoscenza probabilistica, che viene espressa in termini di
probabilità (a priori) P(Ej), queste probabilità si trasformano, al verificarsi dell'evento E
(acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(Ej /E).
Le probabilità condizionate si usano, quindi, per riassegnare le probabilità agli eventi una
volta che siano state acquisite ulteriori informazioni relative ad una realizzazione parziale di un
esperimento casuale.
Si consideri il caso in cui un soggetto debba assumere una decisione d’investimento di breve
periodo; si supponga, inoltre, che gli eventi E1, E2,…., Ek rappresentino tutti i possibili stati tra loro
incompatibili che il mercato finanziario può assumere nell’arco di una settimana. Si supponga,
infine, che il soggetto decisore non conosca la quotazione odierna X del MIB30. Se il soggetto è
impossibilitato a procurarsi il valore odierno del MIB30, allora egli sceglierà l’investimento più
opportuno sulla base delle sole informazioni a priori che possiede relativamente agli eventi E1,
E2,…., Ek, vale a dire le probabilità soggettive P(E1), P(E2), …, P(Ek), che dipenderanno
dall’andamento degli ultimi giorni del MIB30, nonché da altre considerazioni soggettive
sull’andamento economico e sociale del sistema.
Se, invece, il decisore ha la possibilità di procurarsi ulteriori informazioni su X (ad esempio
collegandosi via Internet con la Borsa Valori di Milano), può sfruttare questa informazione
aggiuntiva per riaggiornare, sulla base della formula di Bayes, le probabilità a priori che egli aveva
attribuito agli eventi E1, E2,…., Ek, ottenendo così le probabilità a posteriori P( Ei X ) .
Esempio 2.5
Da un controllo di qualità effettuato sul processo produttivo dell’azienda Alfa risulta che il
40% delle parti difettose prodotte è dovuto a errori meccanici, mentre il restante 60% è dovuto ad
21
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
errori umani. Si sa, inoltre, che i difetti causati da errori meccanici possono essere rilevati, in
occasione di un’ispezione di qualità, con un tasso di accuratezza del 90%, tasso che scende al 50%
per i difetti risultanti da errori umani. Si supponga che a seguito di un’ispezione di qualità sia stato
trovato un pezzo difettoso. Qual è la probabilità che tale difetto sia stato causato da un errore
meccanico?
Se si assume che:
P(Em) = 0,40 è la probabilità (a priori) che una parte difettosa sia causata da un errore
meccanico;
P(Eu) = 0,60 è la probabilità (a priori) che una parte difettosa sia causata da errore umano;
P(D/Em) = 0,90 è la probabilità di presenza di una parte difettosa causata da errore
meccanico;
P(D/Eu) = 0,50 è la probabilità di presenza di una parte difettosa causata da errore umano;
P(Em/D) = ? la probabilità che la parte difettosa rilevata al controllo sia stata provocata da
errore meccanico.
Applicando il Teorema di Bayes si ha:
P (E m D ) =
P( E m ) ⋅ P( D E m )
P( E m ∩ D)
0,40 ⋅ 0,90
=
=
= 0,55
P( D)
P(E m ) ⋅ P (D E m ) + P(Eu ) ⋅ P (D Eu ) 0,40 ⋅ 0,90 + 0,60 ⋅ 0,50
Quindi, la probabilità che il pezzo difettoso sia stato causato da errore meccanico è pari al
55%. Di conseguenza, la probabilità che un pezzo difettoso sia stato causato da errore umano è
pari al 45% (=1- 0,55).
La seguente tabella mostra le fasi dell’applicazione del Teorema di Bayes:
Causa
Ei
Prob. a priori
P(Ei)
Prob.
Prob. congiunte
Prob.a
condizionate
P(Ei) (D/Ei)
posteriori
P(D/Ei)
P(Ei/D)
Meccanica m
0,40
0,90
0,36
0,55
Umana u
0,60
0,50
0,30
0,45
Totale
1,00
0,66*
1,00
* Probabilità marginale
Esempio 2.6
Attualmente un’azienda che produce parti elettroniche dispone di 4 macchinari: A1, A2, A3,
A4, ognuno con una capacità produttiva di 10.000 pezzi a settimana. In linea generale, si può
ritenere che quanto più un macchinario è nuovo tanto più basso è il numero di parti difettose che lo
22
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
stesso produce. Un controllo effettuato dall’azienda rivela i seguenti tassi di parti difettose prodotte
da ciascuna macchina: 0% per A1 poiché è nuova; 1% per A2 che è stata acquistata un anno fa; 5%
per A3 che è stata acquistata due anni fa; 10% per A4 che è operativa già da tre anni. Al termine
del quarto anno di attività ogni macchinario viene rimpiazzato con uno nuovo. Per effettuare un
controllo aggiuntivo, il responsabile della produzione seleziona casualmente un pezzo già pronto
per la spedizione al cliente. Tale pezzo risulta difettoso: qual è la probabilità che il pezzo estratto
casualmente sia stato prodotto dalla macchina A2, dato che risulta essere difettoso?
Si ponga:
P(D) = probabilità che sia osservata una parte difettosa
P(Ai) = probabilità che una parte sia prodotta dal macchinario i-esimo
P(D/Ai) = probabilità condizionata che sia selezionata casualmente una parte difettosa, dato
che è stata prodotta dal macchinario i-esimo.
In base ai dati del problema risulta:
P(D/A1) =0,00
P(D/A2) = 0,01
P(D/A3) = 0,05
P(D/A4) = 0,10
Inoltre, poiché ciascuna macchina produce lo stesso numero di parti elettroniche, la
probabilità a priori che il campione estratto provenga da una delle 4 macchine è sempre uguale al
25%, cioè:
P(A1) = P(A2) = P(A3) = P(A4) = 0,25
Quindi,
P( D ) = P ( A1 ) ⋅ P( D A1 ) + P( A2 ) ⋅ P (D A2 ) + P ( A3 ) ⋅ P (D A3 ) + P ( A4 ) ⋅ P (D A4 ) =
= 0,25 ⋅ 0,00 + 0,25 ⋅ 0,01 + 0,25 ⋅ 0,05 + 0,25 ⋅ 0,10 = 0,040
A questo punto si può applicare il Teorema di Bayes per determinare la probabilità a
posteriori che il campione estratto provenga dal macchinario A2, essendo noto che è difettoso:
P (A2 D ) =
P( A2 )P(D A2 )
P (D )
=
0,25 ⋅ 0,01
= 0,0625 = 6,25%
0,04
La seguente tabella mostra il dettaglio dei passaggi svolti:
23
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Causa
Prob.a priori
Prob.condizionate
Prob.congiunte
Prob.a posteriori
Ai
P(Ai)
P(D/Ai)
P(Ai) P(D/Ai)
P(Ai/D)
A1
0,25
0,00
0,0000
0,0000
A2
0,25
0,01
0,0025
0,0625
A3
0,25
0,05
0,0125
0,3125
A4
0,25
0,10
0,0250
0,6250
Totali
1,00
0,0400*
1,0000
* Probabilità marginale
E’ interessante confrontare l’elenco delle probabilità a priori con quello delle probabilità a
posteriori, per valutare l’effetto provocato dall’impiego dell’informazione aggiuntiva (dato
campionario) sul risultato del problema. Effettivamente si possono notare delle differenze notevoli:
dopo che la probabilità a priori è stata modificata dall’informazione campionaria, la probabilità
che una parte difettosa venga prodotta dalla macchina A4 cresce notevolmente dal 25% al 62,5%,
mentre la probabilità che una parte difettosa provenga dalla macchina A1 scende dal 25% allo 0%.
Fatto questo del tutto ragionevole se si tiene conto della circostanzac che il numero di difetti
dipende dall’età del macchinario.
Dopo la sommaria indicazione delle operazioni proprie del calcolo delle probabilità e dopo
aver precisato che la tripletta (Ω, B, P(.)) [dove: Ω è lo spazio campionario (cioè l’insieme di tutti i
punti campionari ω1 , ω 2 ,... possibili risultati di un esperimento casuale), B è l’algebra di Boole
completa costruita su Ω e P(.) è una funzione definita su B che gode di particolari proprietà], viene
detta spazio di probabilità o spazio probabilistico, si può procedere all'introduzione di due
ulteriori concetti che possono essere ritenuti fondamentali nello sviluppo sia del calcolo delle
probabilità sia della statistica. Il primo concetto è quello di "variabile casuale", il secondo è quello
di "funzione di distribuzione".
24
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.5 Variabili casuali
Definizione 5: Si dice variabile casuale, una funzione X (.) a valori reali definita sullo spazio
campionario Ω; cioè ogni funzione che, soddisfacendo ad opportune condizioni
(tali da preservare la struttura di B), associa ad ogni punto dello spazio campionario
un numero reale.
In termini più rigorosi, la funzione univoca X( ω ) definita su Ω è una variabile casuale (o
variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la relazione A =
{ω ∈ Ω / X(ω ) ≤ x}∈ B
cioè se l’insieme A, costituito da tutti gli eventi elementari ω per i quali il
valore assunto dalla funzione X( ω ) è minore od uguale ad un numero reale qualsiasi x, è un
elemento di B, cioè un evento appartenente all’algebra.
Le variabili casuali si distinguono in:
a) discrete, se il rango della funzione è costituito da un numero finito o da un'infinità
numerabile di numeri reali;
b) continue, se il rango della funzione è costituito da un insieme continuo (e quindi non
numerabile) di numeri reali.
Definizione 6: Si dice funzione di distribuzione (o funzione di ripartizione, o funzione delle
probabilità cumulate) della variabile casuale X, la funzione F(x) definita dalla
relazione
F(x) = P (X ≤ x)
dove: x rappresenta un numero reale qualunque; P (X ≤ x) misura la probabilità con
cui la variabile casuale X può assumere un valore inferiore od uguale al numero
reale x.
La funzione di distribuzione non rappresenta altro che la probabilità dell’evento A definito in
precedenza; infatti:
P(A) = P[ω ∈ Ω / X (ω ) ≤ x ] = P[X (ω ) ≤ x ] = P( X ≤ x ) .
Se con x1, x2,...,xk, si indicano le possibili determinazioni distinte, ordinate in modo crescente,
di una certa variabile casuale discreta X e con p1, p2,...,pk, le probabilità rispettive, si avrà
25
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
F(xi) = P(X ≤ xi) =
dove
i
∑
i
P(X = xj) =
j=1
∑
j=1
pj
pj = P(X = xj).
La funzione f(xi) che deriva dalla relazione f(xi) = F(xi) - F(xi-1) viene detta funzione di
massa di probabilità e, ovviamente, fornisce la probabilità che l’entità variabile X ha di assumere
la specifica determinazione xi ; infatti
F(xi) - F(xi-1) = P (X ≤ xi) - P (X ≤ xi-1) = P(X = xi)
per i = 1, 2, ... , k .
Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione assolutamente continua
(si supporrà, da ora in poi e per tutte le F(x) che tale condizione sia soddisfatta), esisterà la derivata
f(x) =
d F ( x)
dx
Si ricorda in proposito che le funzioni assolutamente continue sono funzioni continue e
derivabili (quasi ovunque).
La funzione f(x) così definita viene detta funzione di densità di probabilità o più
semplicemente funzione di densità. Si avrà quindi anche
∫
X
−∞
f(y) dy = F(x); inoltre
f(x) dx = dF(x)= P{x ≤ X ≤ x + dx}
rappresenta la probabilità con cui una variabile casuale continua X assume valori all'interno
dell'intervallino infinitesimo x − x+dx.
Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti (corrispondenza
biunivoca) funzioni di massa di probabilità, nel discreto, di densità di probabilità, nel continuo, che
identificano completamente le variabili casuali cui si riferiscono, sono caratterizzate da specifici
valori (entità di riferimento) dette parametri. Per evidenziare tale fatto, si usa la notazione
F(x; θ1;θ2,...,θµ) ; f(x; θ1;θ2,...,θµ)
dove i simboli θ1;θ2,...,θµ indicano i parametri caratteristici della funzione (modello probabilistico).
Ripercorrendo il processo che ha portato alla definizione della funzione di distribuzione, della
funzione di massa e di densità di probabilità, risulta immediata l’individuazione delle proprietà che
tali funzioni soddisfano.
26
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Si supponga che la variabile casuale discreta X possa assumere le determinazioni x1, x2,..., xi,
... , xk, (dove: xi< xi+1 e k può anche tendere al valore +∞) e che la variabile casuale continua X
risulti definita nell’intervallo dell’asse reale a⎯b (dove: a < b, a può tendere al valore -∞ e b
tendere al valore +∞), allora la funzione di distribuzione F(x):
1.
assume valori nell’intervallo unitario
0 ≤ F(x) ≤ 1
2.
il limite sinistro assume valore zero
lim F(x) = 0
x →−∞
3.
il limite destro assume valore uno
lim F(x) = 1
x →+∞
4.
è monotona non decrescente
5.
è continua a destra nel caso discreto (i punti di discontinuità si collocano in
corrispondenza dei valori x1, x2,..., assunti dalla variabile) ed è assolutamente continua (continua e
derivabile quasi ovunque) nel caso continuo.
La funzione di massa di probabilità f(xi) , essendo una probabilità gode delle proprietà già
considerate relativamente a tale entità, inoltre
k
∑ f(x ) = 1.
i =1
i
La funzione di densità f(x) soddisfa le condizioni
f(x) ≥ 0
∫
b
a
f ( x)dx = 1
Da quanto è stato detto, risulta che una variabile casuale rimane individuata completamente
dalla sua funzione di distribuzione (o di massa o di densità di probabilità) e che essa rappresenta
una formalizzazione astratta (modello) dell'insieme delle possibili manifestazioni di un certo
fenomeno avente natura aleatoria.
27
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.6 Valore atteso e momenti di variabili casuali
Per particolari esigenze scientifiche ed operative si può essere interessati all’effettuazione di
una rappresentazione sintetica delle manifestazioni di un certo fenomeno mediante indici
caratteristici. Può, cioè, risultare conveniente, o sufficiente, descrivere una variabile casuale con
degli indici caratteristici, anziché procedere ad una sua rappresentazione completa mediante la
funzione di distribuzione, la funzione di massa o la funzione di densità di probabilità.
Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere al calcolo
del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile casuale stessa. In questa
sede si considerano solo le trasformazioni che portano alla definizione di una nuova variabile
casuale Y; se, ad es., X è una v.c. continua con funzione di densità f(x), anche Y =g(X) è una
variabile casuale, discreta o continua, la cui funzione di densità f(y) o di massa di probabilità f(yi)
potrà essere derivata attraverso appropriate trasformazioni della funzione di densità f(x).
Definizione 7: Si definisce valore atteso di una trasformazione g(X) di una variabile casuale X ,
con funzione di distribuzione F(x) , la quantità definita dalla relazione
k
E [g ( X )] = ∑ g ( xi ) f ( xi )
nel discreto
E [g ( X )] = ∫ g ( x ) f (x )dx
nel continuo
i =1
dove f ( xi ) è la funzione di massa di probabilità della variabile casuale discreta X che assume il
valore xi con probabilità f ( xi ) , per i = 1, 2, ..., k ; mentre f ( x ) è la funzione di densità di
probabilità della variabile casuale continua X , definita nell’intervallo a⎯b.
Si può osservare come l’operatore valore atteso non richieda la derivazione della funzione di
densità o di massa di probabilità della variabile casuale trasformata Y = g(X) e goda della proprietà
di linearità; infatti, per qualunque variabile X, con funzione f(xi) nel discreto, f(x) nel continuo, date
due costanti a , b e due trasformazioni g1 (X) e g2(X) ancora variabili casuali
E{ag1 ( X ) + bg 2 ( X )} = a E [g1 ( X )] + b E [g 2 ( X )]
come si può verificare facilmente osservando le relazioni sotto riportate
28
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
k
E{ag1 ( X ) + bg 2 ( X )} = ∑ [ag1 ( xi ) + bg 2 ( xi )] f ( xi ) =
i =1
k
k
i =1
i =1
= a ∑ g1 ( xi ) f ( xi ) + b∑ g 2 ( xi ) f ( xi ) = a E [g1 ( X )] + b E [g 2 ( X )]
nel discreto e
b
E [ag1 ( X ) + bg 2 ( X )] = ∫ [ag 1 ( x) + bg 2 ( x)] f ( x)dx =
a
= a ∫ g1 ( x) f ( x)dx + b ∫ g 2 ( x) f ( x)dx = a E [g1 ( X )] + b E [g 2 ( X )]
b
b
a
a
nel continuo.
Esempio 2.7
Una compagnia d’investimenti sta considerando se investire in un progetto di estrazione
mineraria in Canada oppure in una spedizione di trivellazione del petrolio in Alaska. Un’analisi
preliminare mostra che l’investimento nel progetto di estrazione mineraria genererà un profitto
netto di 1.000.000$, nell’ipotesi in cui venga trovato l’oro; altrimenti la compagnia perderà
800.000$. D’altra parte, la compagnia otterrà un profitto netto di 1.500.000$ o una perdita di
1.000.000$ nell’affare petrolifero, a seconda che venga scoperto o meno il petrolio. Supponendo
che un geologo abbia stimato una probabilità del 70% che sia scoperto l’oro e una probabilità del
50% che sia scoperto il petrolio e assumendo che entrambi i progetti richiedono lo stesso
ammontare di capitale iniziale e che solo uno dei due progetti può essere intrapreso, qual è
l’investimento più conveniente per la compagnia?
In questo caso si assume che il criterio di scelta della compagnia sia il maggior valore atteso
in termini monetari, cioè la compagnia troverà più conveniente l’investimento che presenta il più
alto valore atteso.
Il valore atteso dei due progetti è dato, in base alla precedente definizione, da:
-
Progetto di estrazione mineraria X:
1
E ( X ) = ∑ xi ⋅ p( xi ) = x0 p( x0 ) + x1 p ( x1 ) = 1.000.000 ⋅ 0,70 − 800.000 ⋅ 0,30 = 460.000$ ,
i =0
dove con xi si indica il risultato dell’evento “successo” (x0) o “insuccesso” (x1) del progetto e con
p(xi) le rispettive probabilità. La seguente tabella riassume quanto detto:
29
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
-
Versione 2006
Evento
Probabilità P(xi)
Risultato xi
Valore Atteso
Successo
0,70
1.000.000
700.000
Insuccesso
0,30
-800.000
-240.000
Valore Atteso del progetto “estrazione mineraria”
460.000
Progettazione di trivellazione petrolifera Y:
1
E (Y ) = ∑ y i ⋅ p( yi ) = y 0 p( y 0 ) + y1 p ( y1 ) = 1.500.000 ⋅ 0,50 − 1.000.000 ⋅ 0,50 = 250.000$ ,
i =0
dove con yi si indica il risultato dell’evento “successo” (y0) e “insuccesso” (y1) del progetto e con
p(yi) le relative probabilità. La seguente tabella riassume quanto detto:
Evento
Probabilità P(yi)
Risultato yi
Valore Atteso
Successo
0,50
1.500.000
750.000
Insuccesso
0,50
-1.000.000
-500.000
Valore Atteso del progetto “trivellazione petrolifera”
250.000
In conclusione, poiché il progetto relativo all’estrazione mineraria presenta un profitto atteso
maggiore, la decisione ottima per la compagnia d’investimento è investire in tale affare piuttosto
che in quello relativo alla trivellazione petrolifera.
Esempio 2.8
L’azienda Gamma sta pensando di acquistare un nuovo macchinario, che dovrebbe
consentire una notevole riduzione dei costi di produzione rispetto al macchinario attualmente
impiegato. La nuova macchina costa 10.000 euro e ci si attende un risparmio di circa 0,50
euro/ora; quindi. Il risparmio complessivo R è dato da R = −10.000 + 0,50 X , dove X indica il
numero di ore-macchina impiegate. Il management non conosce ancora l’ammontare esatto di ore
durante le quali il macchinario sarà in funzione, dunque esprime la sua incertezza in termini della
seguente distribuzione di probabilità
30
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Ore d’uso
Probabilità
10.000
0,10
20.000
0,30
30.000
0,50
40.000
0,10
In base ai dati a disposizione, è conveniente per l’azienda acquistare il macchinario?
Il management dovrebbe decidere per l’acquisto del nuovo macchinario nell’ipotesi in cui il
risparmio atteso dello stesso sia positivo:
E ( R) = E (−10.000 + 0,50 X ) = E (−10.000) + E (0,50 X )
= −10.000 + 0,50 E ( X )
[
= −10.000 + 0,50 ∑ P( X i ) X i
]
= −10.000 + 0,50(0,10 ⋅ 10.000 + 0,30 ⋅ 20.000 + 0,50 ⋅ 30.000 + 0,10 ⋅ 40.000)
= −10.000 + 13.000 = 3.000
Poiché il risparmio atteso assume un valore positivo di 3.000 euro, l’azienda dovrebbe
acquistare il nuovo macchinario.
Finora abbiamo considerato il caso più semplice in cui g(X) = X: in questo caso particolare,
come sarà puntualizzato in seguito, il valore atteso viene anche detto momento primo rispetto
all’origine o media aritmetica della v.c. X.
Momenti rispetto all’origine
Ponendo g(X) = Xr per r = 0, 1, 2 , ... si ha
⎧ k r
⎪ ∑ x i f ( xi ) nel discreto
µ r = E [g ( X )] = E ( X r ) = ⎨ i =1
b
⎪ x r f ( x)dx nel continuo
∫
⎩a
che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto all’origine.
Da rilevare che il momento di ordine 0
⎧ k
⎪ ∑ f ( xi )= 1 nel discreto
µ 0 = E ( X 0 ) = ⎨ i =1
b
⎪ f ( x)dx = 1 nel continuo
∫
⎩a
31
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
è assolutamente non significativo risultando, almeno nelle condizioni qui prefigurate, sempre
uguale ad uno per qualunque variabile casuale.
Particolare rilevanza assume il momento di ordine uno.
⎧k
⎪∑ xi f ( xi )
µ = µ1 = E [g ( X )] = E ( X ) = ⎨ i =1
b
⎪ xf ( x)dx
∫
⎩a
che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico (indice
caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella variabile casuale. Altri
momenti di un certo rilievo sono il momento secondo µ 2 , il momento terzo µ 3 ed il momento
quarto µ 4 che evidenziano, come si avrà modo di sottolineare nelle righe successive, la loro
rilevanza in contesti diversi di sintesi delle variabili casuali.
Esempio 2.9
Indicando con X la domanda per una particolare marca di detersivo in un supermercato e
con f(x) la rispettiva probabilità secondo il seguente schema
X
0
1
2
3
4
5
6
7
f(x)
0,05
0,10
0,15
0,25
0,20
0,10
0,10
0,05
Si determini la domanda media.
E ( X ) = ∑ x ⋅ f ( x ) = 0 + 1 ⋅ 0,10 + 2 ⋅ 0,15 + 3 ⋅ 0,25 + 4 ⋅ 0,20 + 5 ⋅ 0,10 + 6 ⋅ 0,10 + 7 ⋅ 0,05 = 3,40
x
Momenti rispetto alla media o momenti centrali
Ponendo g(X) = ( X − µ ) r , per r = 0, 1, ... , dove µ = µ1 = E ( X ) è il momento primo
rispetto all’origine (media aritmetica) della variabile casuale X , si avrà
⎧ k
r
⎪ ∑ ( xi − µ ) f ( xi )
r
µ r = E [g ( X )] = E ( X − µ ) = ⎨ i =1
b
⎪ ( x − µ ) r f ( x)dx
∫
⎩a
[
]
nel discreto
nel continuo
che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media (aritmetica).
Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento di ordine
uno; infatti
32
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
µ 1 = E [g ( X )] = E [( X − µ )] = E ( X ) − E ( µ ) = µ − µ = 0
dove non si è più proceduto, essendo fatto ormai acquisito, alla esplicitazione del valore atteso in
termini di sommatoria o di integrale.
La trasformazione g(X) = ( X − µ ) si risolve con una traslazione dell’origine nel punto medio.
La variabile casuale trasformata si indica usualmente con il simbolo S x = ( X − µ ) e viene detta
variabile casuale scarto. Qualunque variabile casuale scarto ha, pertanto, il momento primo
sempre uguale a zero; cioè la media aritmetica di una qualunque variabile casuale scarto è uguale a
zero.
Il momento centrale di ordine due
µ 2 = E [g ( X )] = E [( X − µ ) 2 ] =
= E ( X 2 + µ 2 − 2µX ) = E ( X 2 ) + E ( µ 2 ) − 2µE ( X ) =
= µ 2 + µ 2 − 2µ 2 = µ 2 − µ 2 = σ 2
viene denominato varianza ed assume una rilevanza tutta particolare in quanto è l’indice più
utilizzato per sintetizzare la variabilità di una variabile casuale. Da sottolineare che il momento
centrale di ordine due µ 2 , cioè la varianza σ 2 , è uguale al momento secondo rispetto all’origine
(µ 2 ) meno il quadrato del momento primo rispetto all’origine (µ 2 )
σ 2 = µ 2 − µ12
Essendo la media
(aritmetica) e la varianza gli indici caratteristici più utilizzati per
sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una variabile casuale, si
incontrano spesso situazioni in cui interessa valutare l’effetto sulla media e sulla varianza di
particolari trasformazioni di variabili casuali. Interessa, ad esempio, in molti contesti di ricerca
procedere ad una trasformazione lineare (cambiamento del sistema di riferimento che si risolve
nella traslazione dell’origine e nel cambiamento dell’unità di misura con cui è espressa la variabile)
della variabile X
Y = a + bX
Se con µ x e σ x2 si indicano rispettivamente la media e la varianza della variabile casuale X ,
la media e la varianza della variabile casuale trasformata Y risultano dalla relazione
33
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
µ y = E (Y ) = E (a + bX ) = a + bµ x
cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla trasformazione
lineare della media della variabile casuale originaria.
σ y2 = E [(Y − µ y ) 2 ] = E [(a + bX − a − bµ x ) 2 ] =
[
]
[
]
= E (bX − bµ x ) 2 = b 2 E ( X − µ x ) 2 = b 2σ x2
cioè, la varianza di una trasformazione lineare di una variabile casuale è pari alla varianza della
variabile casuale originaria moltiplicata per il quadrato del coefficiente angolare della
trasformazione.
Momenti standardizzati
⎛X −µ⎞
Ponendo g(X) = ⎜
⎟
⎝ σ ⎠
r
dove: µ è il momento primo (media aritmetica) della variabile casuale X e σ la radice quadrata
positiva della sua varianza σ 2 , si ha
⎧ k ⎛ xi − µ ⎞ r
⎜
⎟ f ( xi ) nel discreto
⎡⎛ X − µ ⎞ r ⎤ ⎪⎪∑
σ ⎠
i =1 ⎝
per r = 1, 2, ...
=
µ r = E [g ( X )] = E ⎢⎜
⎟ ⎥ ⎨
r
σ
b
⎝
⎠
−
x
µ
⎛
⎞
⎣⎢
⎦⎥ ⎪ ⎜
f ( x)dx nel continuo
⎪⎩∫a ⎝ σ ⎟⎠
che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r .
La trasformazione (lineare), standardizzazione
Zx =
X −µ
σ
=−
µ 1
+ X
σ σ
è particolarmente rilevante in quanto, oltre a procedere alla traslazione nel punto medio, si utilizza
come nuova unità di misura il valore assunto dall’indice caratteristico di variabilità σ che prende il
nome di scostamento quadratico medio.
(
)
(
)
Oltre ai momenti standardizzati di ordine zero µ 0 = 1 e di ordine uno µ 1 = 0 anche il
momento standardizzato di ordine due è del tutto irrilevante; infatti
34
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
[
]
⎡⎛ X − µ ⎞ 2 ⎤
1
1
2
2
⎟ ⎥ = 2 E (X − µ ) = 2 ⋅σ = 1
σ
⎢⎣⎝ σ ⎠ ⎥⎦ σ
µ 2 = E ⎢⎜
cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a uno.
Particolare rilevanza assumono, invece, il momento terzo standardizzato
[
]
⎡⎛ X − µ ⎞ 3 ⎤ E ( X − µ )3
µ
µ 3 = E ⎢⎜
= 33 = γ 1
⎟ ⎥=
3
σ
σ
⎣⎢⎝ σ ⎠ ⎦⎥
che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento quarto
standardizzato
[
]
⎡⎛ X − µ ⎞ 4 ⎤ E ( X − µ )4
µ
µ 4 = E ⎢⎜
= 44 = γ 2
⎟ ⎥=
4
σ
σ
⎣⎢⎝ σ ⎠ ⎦⎥
che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà analizzata nelle
pagine successive) della distribuzione.
Sui due indici di simmetria ( γ 1 ) e di curtosi (γ 2 ) si avrà modo di tornare successivamente,
dopo aver parlato della variabile casuale normale, mentre risulta conveniente definire altri due
indici caratteristici molto usati per sintetizzare gli aspetti di tipicità delle variabili casuali.
Il primo indice caratteristico che si considera è la moda di una variabile casuale. Si definisce
come moda ( M o ) di una distribuzione il valore della modalità cui corrisponde la probabilità (nel
caso discreto) o la densità di probabilità (nel caso continuo) più elevata.
Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto questo che può
essere esteso anche a situazioni in cui si considerano non solo il massimo assoluto (della probabilità
o della densità di probabilità) ma anche i massimi relativi (massimi locali).
Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili casuali è la
mediana. Si definisce come mediana ( M e ) di una variabile casuale continua il valore centrale della
distribuzione stessa; cioè il valore della modalità rispetto al quale si registra una probabilità pari a
0,50 di valori inferiori e pari a 0,50 di valori superiori.
Si può aver interesse alla individuazione di altri valori (segnaletici) particolari. Se la variabile
casuale è continua, il valore che è preceduto dal 25% dei casi e seguito dal 75% dei casi (Q1 ) e
quello preceduto dal 75% dei casi e seguito dal 25% dei casi (Q3 ) . I valori Q 1 e Q 3 vengono detti,
35
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
rispettivamente, primo e terzo quartile; ovviamente il secondo quartile Q2 è uguale alla Mediana.
In generale il p-esimo quantile, con 0 < p < 1 , è il valore, usualmente indicato con Qx(p), che
soddisfa la relazione P[ X ≤ Qx(p) ] = p.
Per le variabili casuali continue è possibile operare la suddivisione con una proporzione esatta
p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra di Qx(p), mentre ciò non è
sempre possibile per le variabili casuali discrete. Infatti, per le variabili casuali discrete la massa di
probabilità del punto x = Qx(p) può essere diversa da zero, pertanto, la proporzione di valori a
sinistra di Qx(p) può essere ≤ p e la proporzione di valori a destra di Qx(p) può essere ≤ (1-p) .
Può accadere, cioè, che non esista alcun valore x per il quale F(x) = p, il quantile viene comunque
facilmente individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della
funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ). Inoltre, sempre
per le variabili casuali discrete può accadere che la relazione F(x) = p valga per un intervallo di
valori di x, in questo caso il quantile si ottiene calcolando la semisomma degli estremi
dell’intervallo.
Momenti standardizzati
Ponendo
g ( X ) = X ( X − 1)( X − 2 ) ⋅ ⋅ ⋅ ⋅( X − r + 1)
si ottengono i momenti fattoriali di ordine r:
µ (r ) = E [g ( X )] = E [ X ( X − 1) (X - 2) ⋅ ⋅ ⋅ ⋅( X − r + 1)] .
Tra i momenti fattoriali ed i momenti rispetto all’origine valgono le relazioni sotto riportate;
relazioni che consentono di derivare i momenti rispetto all’origine (in qualche caso di difficile
computo) dai momenti fattoriali.
µ ( ) = µ1
1
µ ( 2 ) = µ 2 − µ1
µ (3 ) = µ 3 − 3 µ 2 + 2 µ1
⋅⋅⋅⋅⋅⋅⋅
Funzione Generatrice dei Momenti
Ponendo g(X) = etX , per ogni valore di t compreso nell’intervallo –h<t<h con h>0, si ha
( )
k
m( x ) (t ) = E e tx = ∑ e txi ⋅ f ( xi ) , se X è una v.c. discreta;
i =1
36
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
+∞
( )= ∫e
m x (t ) = E e
tx
tx
⋅ f ( x)dx , se X è una v.c. continua.
−∞
che viene detta funzione generatrice dei momenti (trasformata di Laplace) della v.c. X.
La funzione generatrice dei momenti, quando esiste, gode di importanti proprietà, tra questa
una delle più rilevanti è quella di consentire il computo immediato dei momenti rispetto all’origine;
infatti, se si sviluppa in serie etX
e tX = 1 + Xt +
X 2 t 2 X 3t 3
+
+ ⋅⋅⋅⋅
2!
3!
si ha:
( )
1
1
1
1
⎡
⎤
m x (t ) = E e tX = E ⎢1 + Xt + ( Xt ) 2 + ( Xt ) 3 + ......⎥ = 1 + µ1t + µ 2 t 2 + µ 3 .t 3 + ......
2!
3!
2!
3!
⎣
⎦
da cui
µr =
dr
m x (t )
dt r
t =0
per r = 1,2,….
Cioè, se si calcola la derivata r-esima della funzione generatrice dei momenti nel punto t = 0
si ottiene il momento r-esimo rispetto all’origine.
Ragionando in modo analogo, si possono definire la funzione generatrice dei momenti centrali
e la funzione generatrice dei momenti standardizzati.
La proprietà più rilevante della funzione generatrice dei momenti è l’univocità; cioè, essendo
in corrispondenza biunivoca con la funzione di distribuzione (e quindi con la funzione di massa o di
densità di probabilità) quella di identificare in modo univoco la v.c. di riferimento.
Una ulteriore importante proprietà è quella della conservazione del limite. Sia, X1, X2,…., Xn
una successione di v.c. con funzione di distribuzione F(xn) e funzione generatrice dei momenti
m xn (t ) ; allora, se
lim F ( x n ) = F ( x *)
n → +∞
si dimostra che
lim m xn (t ) = m x* (t )
n → +∞
Inoltre se m x (t ) è la funzione generatrice dei momenti della v.c. X, allora m y (bt ) è la
funzione generatrice dei momenti della v.c. Y = a + b X .
37
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Esempio 2.10
Sia X una variabile casuale continua definita nell’intervallo con funzione di densità di
probabilità f ( x ) = λe − λx ( v.c. di tipo esponenziale1) si ha:
∞
λ
m(t ) = E ( e tX ) = ∫ e tx λe −λx dx =
λ −t
0
per t<λ
I momenti rispetto all’origine sono dati da:
m' (t ) =
m' ' (t ) =
λ
1
dm(t )
, quindi m' (0) = E ( X ) =
=
2
λ
dt
(λ − t )
2λ
2
dm' (t )
, quindi m' ' (0) = E ( X ) 2 = 2
=
3
λ
dt
(λ − t )
Mentre il secondo momento centrale (varianza) è data da
σ 2 = µ 2 − µ12 =
2
λ
2
−
1
λ
2
=
1
λ2
Funzione Generatrice dei Momenti Fattoriali
Ponendo g(X) = tX , dove t assume valori in un intorno di 1, si ha
( )
k
m( x ) (t ) = E t X = ∑ t xi ⋅ f ( xi ) , se X è una v.c. discreta;
i =1
+∞
( )= ∫t
m( x ) (t ) = E t
X
x
⋅ f ( x)dx , se X è una v.c. continua.
−∞
che viene detta funzione generatrice dei momenti fattoriali della v.c. X.
La derivata r-esima di questa funzione, quando esiste, nel punto t = 1 genera il momento
fattoriale di ordine r .
µ (r ) =
dr
m( x ) (t ) / t =1 = E [X (X - 1)(X - 2) ⋅ ⋅ ⋅ ⋅ ⋅ ( X − r + 1)]
dt r
Funzione Caratteristica
Trattando della funzione generatrice dei momenti è stata a più riprese aggiunta la
precisazione: “se esiste”; in effetti tale funzione potrebbe non esistere sia per v.c. discrete che
possono assumere una infinità numerabile di valori diversi sia per v.c. continue non essendo
convergente la somma di infiniti termini o l’integrale.
1
Una trattazione più puntuale della distribuzione esponenziale verrà proposta nelle pagine successive.
38
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Se si pone g(X) = eitX , per ogni valore di t compreso nell’intervallo –h< t <h con h > 0 e
i = − 1 è l’unità immaginaria, la funzione sotto definita esiste sempre
( )
∞
m x (i t ) = E e itX = ∑ e itx f ( xi ) nel caso discreto
i =1
+∞
( ) ∫ e f (x ) dx
m x (i t ) = E e itX =
itx
nel caso continuo
−∞
infatti, se si considera, ad esempio il caso continuo si ha
∞
∞
−∞
-∞
( ) = E (cos t x + i sen t x ) = ∫ cos t x f (x ) dx + i ∫
m x (i t) = E e
itX
sen t x f ( x ) dx
essendo cos t x e sen t x assolutamente limitate, l’integrale sopra scritto è assolutamente
convergente (si può quindi calcolare) per qualunque valore di t compreso tra − ∞ e + ∞ .
La funzione sopra introdotta viene detta funzione caratteristica (trasformata di Fourier) della
v.c. X e gode di tutte le proprietà della funzione generatrice dei momenti ma, rispetto a quest’ultima
funzione, ha l’ulteriore proprietà di esistere sempre.
39
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.7 Variabili casuali discrete
Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati
particolarmente utili in vari campi della ricerca applicata. Tra questi, ne vengono presentati alcuni,
tra quelli più comunemente usati, facendo riferimento al tipo di distribuzione ad essi associata.
2.7.1 Distribuzione Binomiale
La distribuzione Binomiale si usa quando si è interessati al numero delle volte con cui un
certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale. Essa può, quindi,
essere considerata un'eccellente modello probabilistico per molte situazioni sperimentali. Infatti,
tale distribuzione può servire per studiare ad es. l'atteggiamento dei cittadini nei confronti di un
determinato provvedimento legislativo (favorevoli o contrari alla elezione diretta del presidente
della repubblica), per analizzare la produzione di un determinato macchinario (pezzi regolari e pezzi
difettosi) ecc. Serve cioè, in generale, nello studio di tutti quei fenomeni che possono essere
caratterizzati da un evento che può realizzarsi o meno: "successo" o "insuccesso"; dove, successo
vuol dire estrazione di pallina bianca, essere favorevole alla elezione diretta del presidente, pezzo
regolare, ecc., mentre insuccesso vuol dire estrazione di pallina nera, essere contrari alla elezione
diretta, pezzo difettoso, ecc.
Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una singola prova,
1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non verificarsi dell'evento.
Si consideri ora la variabile casuale X (ω ) = X ( = numero delle volte in cui l'evento E si
presenta in n prove indipendenti). Per n = 1 si avrà che la variabile casuale X (ω ) = X , detta
variabile casuale di Bernoulli, potrà assumere unicamente i due valori 0 e 1, con probabilità
rispettive
P (X = 0) = q = 1 - p ; P (X = 1) = p
La corrispondente funzione di massa assume i valori f(0) = q e f(1) = p, e può essere espressa
dalla formula
f(x) = f(x;p) = px q1-x
40
per x = 0, 1
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Per n qualsiasi, si avrà che la variabile casuale X
(numero di successi in
n
prove
indipendenti) potrà assumere i valori 0, 1, 2,...,n, si tratta cioè di una funzione che associa ad ogni
possibile sequenza di successi ed insuccessi in n prove indipendenti, il numero x di successi che
nelle n prove si sono verificati. La probabilità di x successi P(X = x) = f(x), cioè la funzione di
massa di probabilità è data da
⎛n⎞
f(x) = f(x;n,p) = ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠
⎛ n⎞
dove ⎜⎜ ⎟⎟ rappresenta il numero di permutazioni con ripetizione di n oggetti di cui x e (n-x)
⎝ x⎠
sono uguali tra loro che coincide con il numero delle combinazioni di n oggetti x a x, cioè
⎛n⎞
n!
⎜⎜ ⎟⎟ =
⎝ x ⎠ x!(n − x)!
L'interpretazione della formula della funzione di massa di probabilità della variabile casuale
binomiale è immediata: la probabilità di una specifica successione di x successi e (n-x) insuccessi
indipendenti è pari a (principio delle probabilità composte per eventi indipendenti)
p ⋅ p p … p q ⋅ q … q = p x q n− x ;
( n − x ) volte
x volte
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero, tali
probabilità dovranno essere sommate (principio delle probabilità totali per eventi incompatibili)
tante volte quante sono le permutazioni di n oggetti di cui x ed (n-x) sono uguali tra loro.
Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione f(x)
rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la somma delle
probabilità relative a tutti i possibili valori assunti dalla variabile casuale binomiale (come per
qualunque variabile discreta) è uguale ad uno; infatti
n
⎛n⎞
x =0
⎝ ⎠
∑ ⎜⎜ x ⎟⎟ p
x
q n − x = ( p + q ) n = 1n = 1
41
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
La media e
Versione 2006
la varianza della distribuzione binomiale sono date rispettivamente dalle
uguaglianze
n
n
x =0
x =0
⎛n⎞
⎝ x⎠
µ = ∑ x f ( x; n, p) = ∑ x⎜⎜ ⎟⎟ p x q n − x = np
n
n
x =0
x =0
⎛n⎞
⎝ x⎠
σ 2 = ∑ ( x − µ ) 2 f ( x; n, p) = ∑ ( x − np) 2 ⎜⎜ ⎟⎟ p x q n − x = npq
Dimostrazione: µ = n p
n
n
x =0
x =0
⎛n⎞
⎝ x⎠
n
µ = E ( X ) = ∑ x f ( x; n, p ) = ∑ x⎜⎜ ⎟⎟ p x q n − x = ∑ x ⋅
x =1
n( n − 1)!
⋅ p ⋅ p x −1q [n −1−( x −1) ]
x ( x − 1)! [n − 1 − ( x − 1)]!
Posto n-1 = m e x-1 = y, allora
m
µ = np ∑
y =0
m!
p y q m − y = np( p + q) m = np ⋅ 1 = np
y! ( m − y )!
Bin om io di
Newton
C.V.D.
Dimostrazione: σ2 = n p q
σ 2 = µ2 − µ 2 = µ2 − n 2 p 2
n
n
⎛n⎞
⎛ n ⎞ x n− x
⎛ n ⎞ x n− x
µ 2 = E ( X ) = ∑ x ⎜⎜ ⎟⎟ p q = ∑ x ( x − 1)⎜⎜ ⎟⎟ p q + ∑ x⎜⎜ ⎟⎟ p x q n − x =
x =0
x =0
x =0 ⎝ x ⎠
⎝ x⎠
⎝ x⎠
2
n
2
n⋅ p
n
= ∑ [x ( x − 1 + 1)]
x=2
m
= n ( n − 1) ∑
y =0
n ( n − 1)( n − 2)!
p x q n− x =
x ( x − 1)( x − 2)![n − 2 − ( x − 2 )]!
m
m!
m!
p 2 p x − 2 q m − y + np = n ( n − 1) p 2 ∑
p y q m − y + np =
y!( m − y )!
y = 0 y! ( m − y )!
Binomio
di
Newton
= n ( n − 1) p 2 + np = n 2 p 2 − np 2 + np = n 2 p 2 + n p (1 − p ) = n 2 p 2 + npq
dove y = x-2 e m = n-2.
da cui:
σ 2 = µ 2 − µ 2 = µ 2 − n 2 p 2 = n 2 p 2 + npq − n 2 p 2 = npq
La funzione generatrice dei momenti della v.c. binomiale è data da
42
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
( )
m x (t ) = E e
Xt
Versione 2006
⎛ n ⎞ x n− x n
= ∑ e ⎜⎜ ⎟⎟ p q = ∑
x =0
x =0
⎝ x⎠
n
xt
⎛ n ⎞ e x n− x
⎜⎜ ⎟⎟ e p q = p e t + q
⎝ x⎠
( )
(
)
n
Dalla quale si deducono facilmente i momenti
(
)
n −1
d
m x (t )/ t =0 = n p e t p e t + q / t =0 = n p
dt
n −1
d2
µ 2 = 2 m x (t )/ t =0 = n p e t p e t + q
+ n (n-1 ) p e t p e t + q
dt
2
2
n p + n p (1-p ) = n 2 p 2 + n p q
µ1 =
[
(
)
(
)
n−2
]
p e t / t =0 = n p + n (n-1) p 2 =
Var(X) = σ 2 = µ 2 − µ12 = n 2 p 2 + n p q - n 2 p 2 = n p q
Esempio 2.11
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale, cioè p = 1p = 0,5, si vuol determinare la probabilità che in una famiglia con quattro figli vi sia: a) Almeno un
maschio, b) almeno un maschio ed una femmina.
- Poichè si ha
⎛ 4⎞
1
P (0 maschi) = ⎜⎜ ⎟⎟ 0,5 0 0,5 4 =
16
⎝0⎠
⎛ 4⎞
1
P (1 maschio) = ⎜⎜ ⎟⎟ 0,51 0,5 3 =
4
⎝1⎠
3
⎛ 4⎞
P (2 maschi) = ⎜ ⎟ 0,5 2 0,5 2 =
8
⎝ 2⎠
1
⎛ 4⎞
P (3 maschi) = ⎜ ⎟ 0,5 3 0,51 =
4
⎝ 3⎠
1
⎛ 4⎞
P (4 maschi) = ⎜ ⎟ 0,5 4 0,5 0 =
16
⎝ 4⎠
la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione
P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) =
1 3 1 1 15
+ + +
=
4 8 4 16 16
43
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a
quello che interessa (almeno un maschio), si determina poi la probabilità del suo verificarsi che
sottratta alla unità fornisce il risultato; si avrà
P ( almeno un maschio ) = 1 - P ( nessun maschio) =
⎛ 4⎞
1 15
= 1 − ⎜⎜ ⎟⎟ 0,5 0 0,5 4 = 1 −
=
16 16
⎝0⎠
b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà
P ( almeno un maschio ed una femmina ) =
= 1 - P ( nessun maschio ) - P (nessuna femmina) =
1−
1
1 14 7
−
=
=
16 16 16 8
Esempio 2.12
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%. Volendo
predisporre un ulteriore esperimento in modo tale che, con una probabilità superiore all'80%,
almeno due animali sopravvivano, si chiede quale dovrà essere il numero minimo di cavie da
sottoporre ad esperimento. In altri termini si dovrà ricercare il più piccolo n (numero di cavie da
sottoporre ad esperimento) capace di soddisfare la disuguaglianza.
P (X ≥ 2) > 0,80
dove X sta per il numero di cavie che sopravvivono all'esperimento.
Nella distribuzione binomiale per p = 0,4 (probabilità di successo e nel caso specifico
successo significa cavia sopravvissuta) ed n = 7, si ha
⎛7⎞
⎛7⎞
P( X ≥ 2) = 1 − P( X = 0) − P( X = 1) = 1 − ⎜⎜ ⎟⎟ 0,40 0 0,60 7 − ⎜⎜ ⎟⎟ 0,401 0,60 6 = 0,84
⎝ 0⎠
⎝1⎠
Per p = 0,4 ed n = 6, si ha
44
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
⎛6⎞
⎛6⎞
P( X ≥ 2) = 1 − P( X = 0) − P ( X = 1) = 1 − ⎜⎜ ⎟⎟ 0,400 0,60 6 − ⎜⎜ ⎟⎟ 0,401 0,60 = 0,77
⎝0⎠
⎝1⎠
Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7.
Esempio 2.13
Un’azienda che produce batterie per riflettori afferma che i suoi prodotti nell’80% dei casi
sono in grado di funzionare adeguatamente a temperature inferiori ai -10°C. Le registrazioni
meteorologiche mostrano che durante il mese di gennaio di un anno ci sono stati 18 giorni in cui le
temperature sono scese al di sotto dei -10°C in un campione di città del Nord Europa. Qual è la
probabilità che le batterie vendute dall’azienda abbiano funzionato adeguatamente per meno di 11
giorni durante il mese di gennaio?
Essendo X = n° di giorni durante i quali le batterie hanno funzionato adeguatamente
(successo), n = 18 e p = 0.80 si ha:
⎛18 ⎞
10
P ( X ≤ 10) = P( X = 0) + P( X = 1) + ... + P ( X = 10) = ∑ x = 0 ⎜⎜ ⎟⎟0.8 x ⋅ 0.218−x = 0.90
⎝x⎠
Esempio 2.14
Le borse prodotte dall’azienda Alfa, soltanto nel 15% dei casi rispettano i requisiti base di
soddisfazione del cliente. Qual è la probabilità che, considerato un campione di 20 borse
selezionate casualmente, almeno 11, ma non più di 15, rispettino i requisiti di minima
soddisfazione?
Essendo X= l’evento “numero di borse le cui caratteristiche soddisfano i requisiti di qualità”
(successo), n = 20 e p = 0.15 (probabilità di un successo), allora si ha:
15 ⎛ 20 ⎞
P(11 ≤ X ≤ 15) = P ( X = 11) + P( X = 12) + ... + P( X = 15) = ∑x =11 ⎜⎜ ⎟⎟0.15 x ⋅ 0.8520− x = 0.17
⎝x⎠
Quindi, la probabilità che una quantità compresa tra 11 e 15 borse su un totale di 20 rispetti i
requisiti di soddisfazione minima del cliente è del 17%.
Esempio 2.15
Le compagnie aeree sanno per esperienza che una certa percentuale di passeggeri, pur
avendo già prenotato il biglietto, cancellerà il volo all’ultimo minuto. Perciò, per evitare posti
vuoti, esse vendono più biglietti rispetto alla capienza massima dell’aereo, sperando che alla fine il
45
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
numero di passeggeri che si presenta all’imbarco sia quello “giusto” (cioè tale da riempire tutti i
posti disponibili senza eccedenze). In base a delle stime risulta che la probabilità che un
passeggero cancelli il volo all’ultimo minuto è del 5%. In termini binomiali, si sta affermando che
ciascun potenziale passeggero, indipendentemente dagli altri, si presenterà all’imbarco con una
probabilità del 95%, mentre cancellerà il volo con una probabilità del 5%.
Si supponga che per un volo da 200 posti siano stati venduti 215 biglietti. La compagnia
aerea vuole conoscere I) la probabilità che più di 205 passeggeri si presenteranno per l’imbarco;
II) la probabilità che se ne presenteranno più di 200; III) la probabilità che risultino occupati
almeno 195 posti; IV) la probabilità che siano occupati almeno 190 posti.
Posto X = presentarsi di un passeggero per l’imbarco, n = 215, p = 0.95, si ha:
I)
215 ⎛ 215 ⎞
P ( X > 205) = P( X = 206) + P( X = 207) + ... + P( X = 215) = ∑x =206 ⎜⎜
⎟⎟0.95 x ⋅ 0.05215− x = 0.001
⎝ x ⎠
II)
215 ⎛ 215 ⎞
P( X > 200) = P ( X = 201) + P( X = 202) + ... + P( X = 215) = ∑x =200 ⎜⎜
⎟⎟0.95 x ⋅ 0.05215− x = 0.050
⎝ x ⎠
III)
200 ⎛ 215 ⎞
P ( X ≥ 195) = P( X = 195) + P( X = 196) + ... + P( X = 200) = ∑x =195 ⎜⎜
⎟⎟0.95 x ⋅ 0.05215− x = 0.421
x
⎝
⎠
IV)
200 ⎛ 215 ⎞
P ( X ≥ 190) = P( X = 190) + P( X = 191) + ... + P( X = 200) = ∑x =190 ⎜⎜
⎟⎟0.95 x ⋅ 0.05215− x = 0.820
x
⎝
⎠
Se X è una v.c. binomiale, la v.c. Y =
X
, che viene detta v.c. binomiale relativa assumerà i
n
1 2
n −1
⎛X⎞
valori 0, , ,⋅ ⋅ ⋅⋅,
, 1 , ha media e varianza rispettivamente pari a E (Y ) = E ⎜ ⎟ = p e
n n
n
⎝n⎠
⎛X ⎞ pq
.
Var (Y ) = Var ⎜ ⎟ =
n
⎝n⎠
2.7.2 Distribuzione ipergeometrica
Per introdurre la distribuzione ipergeometrica conviene riprendere in considerazione la
distribuzione binomiale proponendo un'interpretazione che si rifà al linguaggio dell'estrazione
46
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
casuale da un'urna. Infatti, la distribuzione ipergeometrica ha lo stesso campo di applicabilità della
distribuzione binomiale e dovrà essere ad essa sostituita tutte le volte che gli eventi relativi alle
singole prove non possono essere considerati indipendenti.
Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La probabilità
di estrarre pallina bianca in una prova sarà p =
K .
N
Se si effettuano n estrazioni con ripetizione (cioè con reinserimento della pallina nell’urna) la
probabilità di ottenere esattamente x palline bianche, nelle n prove, è data da
x
⎛ n ⎞⎛ K ⎞ ⎛ K ⎞
P ( X = x) = f ( x) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟
⎝ x ⎠⎝ N ⎠ ⎝ N ⎠
n− x
⎛n⎞
= ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠
Quanto detto mostra come l'estrazione con ripetizione (campionamento bernoulliano) conduce
alla distribuzione binomiale. Si ammetta ora di effettuare le n estrazioni, senza rimettere ogni volta
la pallina estratta nell'urna (campionamento esaustivo o campionamento senza ripetizione); in
questa situazione la probabilità di estrarre esattamente x palline bianche è data da
⎛ K ⎞⎛ N − K ⎞
⎜⎜ ⎟⎟⎜⎜
⎟⎟
x
n
x
−
⎠
f ( x) = f ( x; n, K , N ) = ⎝ ⎠⎝
N
⎛ ⎞
⎜⎜ ⎟⎟
⎝n⎠
Infatti,
se
n
>
K,
X
potrà
per max [ 0,n - (N - K) ] ≤ x ≤ min [n, K]
assumere
al
massimo
il
valore
K,
inoltre
se
n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K).
Naturalmente
n
∑
x =0
⎛ K ⎞⎛ N − K ⎞
⎜ ⎟⎜
⎟
n ⎜ x ⎟⎜ n − x ⎟
⎝
⎠
⎝
⎠ =1
f ( x; n, K , N ) = ∑
⎛N⎞
x =0
⎜⎜ ⎟⎟
⎝n⎠
Per dimostrare la relazione sopra riportata, occorre tenere presente che ogni successione di n
palline di cui x bianche e n-x nere costituisce una partizione dello spazio campionario in eventi
elementari equiprobabili, per cui è sufficiente fare il rapporto tra il numero di eventi favorevoli
47
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
(cioè il numero delle sequenze contenenti esattamente x palline bianche) e il numero complessivo di
eventi elementari (cioè il numero di tutte le possibili sequenze di N palline ad n ad n).
Gli eventi favorevoli affinché si verifichi X =x sono quelli che contengono x palline bianche
⎛K ⎞
scelte tra le K esistenti e sono in numero di ⎜⎜ ⎟⎟ , moltiplicati per tutti quelli che contengono le
⎝x⎠
⎛N − K⎞
⎟⎟ . Quindi,
rimanenti (n-x) palline nere scelte tra le (N – K) possibili, che sono in numero di ⎜⎜
⎝ n−x ⎠
⎛K⎞
i casi favorevoli sono ⎜⎜ ⎟⎟
⎝x⎠
⎛N − K⎞
⎜⎜
⎟⎟ , mentre i casi possibili sono tutte le combinazioni di N palline
n
−
x
⎝
⎠
⎛N ⎞
prese ad n ad n, cioè ⎜⎜ ⎟⎟ . Da ciò deriva la formula precedente che definisce la distribuzione di
⎝n⎠
probabilità di una v.c. ipergeometrica. L’espressione può essere interpretata più facilmente se, dopo
aver opportunamente sviluppato i simboli combinatori presenti, essa viene espressa nel seguente
modo:
⎛ K ⎞⎛ N − K ⎞
K!
( N − K )!
⎜⎜ ⎟⎟⎜⎜
⎟⎟
x n − x ⎠ x! ( K − x )! ( n − x )! ( N − K − n + x )!
f ( x ) = ⎝ ⎠⎝
=
=
N!
⎛N ⎞
⎜⎜ ⎟⎟
n! ( N − n )!
⎝n⎠
⎛n⎞ K K −1
N − K − n + x +1
K − x +1 N − K N − K −1
......
= ⎜⎜ ⎟⎟
........
N − n +1
N − x +1 N − x N − x −1
⎝ x⎠ N N −1
A meno del coefficiente binomiale l‘ultima espressione esprime il prodotto delle probabilità
che la prima pallina estratta sia bianca, per la probabilità che la seconda sia bianca dato che la prima
è bianca, …., per la probabilità che la x-esima pallina sia bianca dato che le precedenti sono state
bianche, per la probabilità che (x+1)-esima pallina sia nera dato che si sono verificate x palline
bianche, …., per la probabilità che l‘n-esima sia nera dato che in precedenza si sono verificate x
bianche e (n-x+1) nere. Tale probabilità, cioè quella della seqenza ordinata di x palline bianchee (nx) nere, va ripetuta per tutti i modi possibili in cui le n palline si possono disporre preservando però
⎛n⎞
sempre x palline bianche e (n-x) palline nere. Tali modi sono appunto ⎜⎜ ⎟⎟ .
⎝ x⎠
La media e la varianza della distribuzione che ha la funzione di massa sopra indicata e che
viene detta ipergeometrica, sono date rispettivamente da
48
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
⎛ K ⎞⎛ N − K ⎞
⎜⎜ ⎟⎟⎜⎜
⎟
n
n
x ⎠⎝ n − x ⎟⎠
K
⎝
µ = ∑ x f ( x; b, K , N ) = ∑ x
= n ⋅ = np
N
⎛N⎞
x =0
x =0
⎜⎜ ⎟⎟
⎝n⎠
⎛ K ⎞⎛ N − K ⎞
⎜⎜ ⎟⎟⎜⎜
⎟⎟
n
n
nK ⎞ ⎝ x ⎠⎝ n − x ⎠ N − n K ⎛
K⎞
N −n
⎛
2
2
=
n ⋅ ⎜1 − ⎟ = npq
σ = ∑ ( x − µ ) f ( x; n, K , N ) = ∑ ⎜ x −
⎟
N ⎠
N −1 N ⎝
N⎠
N −1
⎛N⎞
x =0
x =0 ⎝
⎜⎜ ⎟⎟
⎝n⎠
2
Il fattore
N −n
(≤ 1) viene usualmente detto fattore di correzione per il campionamento
N −1
senza ripetizione. Si osservi che, se n = 1, allora la varianza della v.c. ipergeometrica coincide
esattamente con quella della binomiale: infatti, estraendo una sola pallina è del tutto irrilevante il
fatto che essa venga reimmessa o meno nell’urna. Inoltre, le due varianze coincidono anche nel caso
in cui N tende ad infinito (il fattore di correzione tende ad 1): essendo la popolazione molto
numerosa, il fatto che ogni pallina estratta non venga reimmessa nell’urna non influenza
sensibilmente la probabilità di estrazione rispetto al caso di reimmissione.
Esempio 2.16
Una compagnia di assicurazioni sa per esperienza che tra le persone che rispondono a
pubblicità su giornali e riviste per polizze assicurative sulla salute, circa il 40% finisce poi per
acquistarne una. Un assicuratore della compagnia riceve 10 risposte e ne seleziona casualmente
tre, fissando degli appuntamenti per un incontro con i potenziali futuri clienti. Qual è la probabilità
che l’assicuratore venda una polizza ad una delle tre persone che incontrerà?
La popolazione complessiva è costituita dalle 10 persone che rispondono all’annuncio, quindi
N = 10. La caratteristica posseduta da 4 di queste persone è la loro tendenza ad acquistare una
polizza sulla salute, quindi K = 4. Infine, se l’assicuratore seleziona casualmente tre risposte, si ha
n = 3.
Dunque, la probabilità che una persona (x =1) acquisti una polizza è data da:
⎛K⎞ ⎛N − K⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜
⎟
x ⎠ ⎝ n − x ⎟⎠
⎝
P ( x = 1) =
=
⎛N ⎞
⎜⎜ ⎟⎟
⎝n⎠
49
⎛ 4⎞ ⎛ 6⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
⎝ 1 ⎠ ⎝ 2 ⎠ = 60 = 0.50
120
⎛10 ⎞
⎜⎜ ⎟⎟
⎝3⎠
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Esempio 2.17
Si supponga che in un processo produttivo il 30% dei pezzi prodotti risulti difettoso. Il
manager responsabile del controllo di qualità seleziona casualmente 5 pezzi da un totale di 20
prodotti e ispeziona ciascuna parte del campione. Qual è la probabilità che ciascun campione
contenga I) esattamente 2 parti difettose? II) oppure che contenga al massimo due parti difettose?
La popolazione è rappresentata da 20 pezzi prodotti, quindi N =20. Poiché il 30% si sa
essere difettosi, allora ciascun lotto contiene 6 pezzi difettosi, cioè K = 6. Infine, ciascun campione
estratto consiste di 5 pezzi, quindi n = 5.
Ricapitolando:
N = 20
K=6
n=5
I)
⎛K⎞ ⎛N − K⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜
⎟
x ⎠ ⎝ n − x ⎟⎠
⎝
P(x = 2) =
=
⎛N ⎞
⎜⎜ ⎟⎟
⎝n⎠
⎛ 6 ⎞ ⎛14 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
⎝ 2 ⎠ ⎝ 3 ⎠ = 0.352 = 35.2%
⎛ 20 ⎞
⎜⎜ ⎟⎟
⎝5⎠
II)
P ( x ≤ 2 ) = P( x = 2) + P( x = 1) + P( x = 0) = f ( 2) + f (1) + f (0)
f(2) =0.352
⎛ 6 ⎞ ⎛14 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
1
4
f (1) = ⎝ ⎠ ⎝ ⎠ = 0.387
⎛ 20 ⎞
⎜⎜ ⎟⎟
⎝5⎠
⎛ 6 ⎞ ⎛14 ⎞
⎜⎜ ⎟⎟ ⋅ ⎜⎜ ⎟⎟
0
5
f (0) = ⎝ ⎠ ⎝ ⎠ = 0.129
⎛ 20 ⎞
⎜⎜ ⎟⎟
⎝5⎠
⇒ P ( x ≤ 2 ) = f ( 2) + f (1) + f (0) = 0.352 + 0.387 + 0.129 = 0.868 = 86.8%
50
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.7.3 Distribuzione di Poisson (o dei piccoli numeri o degli eventi rari)
A differenza delle precedenti, la v.c. di Poisson
non è direttamente generata da una
successione di prove Bernoulliane (se non come processo limite) ma riguarda il numero di eventi
registrati in un ambito circoscritto di tipo temporale, spaziale, concettuale. Quindi, si parla di
variabile casuale di Poisson quando interessa conoscere il numero X di eventi (accadimenti,
successi,…) che si verificano in uno specifico intervallo di tempo o di spazio o di circostanze. Per
es., si distribuiscono secondo una v.c. di Poisson il numero di clienti che arriva allo sportello
bancario ogni giorno, il numero di chiamate che arriva ad un centralino ogni 10 minuti, il numero di
auto in attesa al casello autostradale ogni minuto, il numero di incidenti mortali tra gli operai addetti
ad un certo processo chimico pericoloso per ogni impianto funzionante, il numero di pezzi difettosi
prodotti da ciascun macchinario di un’azienda ecc.
La funzione di massa di probabilità della v.c. di Poisson è data da
f ( x) = f ( x; λ ) =
λx e −λ
per x = 0, 1, 2 ...
x!
(dove e è la costante di Nepero e λ un numero reale positivo). Naturalmente la somma delle
probabilità, per questa particolare variabile casuale discreta che può assumere l'infinità (numerabile)
di valori diversi 0, 1, 2,... , è pari ad 1
∞
∑
x =0
∞
λx e −λ
x =0
x!
f ( x; λ ) = ∑
=1
Si dimostra che
∞
∞
λx e −λ
x =0
x =0
x!
µ = ∑ xf ( x; λ ) = ∑ x
=λ
∞
∞
λx e −λ
x =0
x =0
x!
σ 2 = ∑ ( x − µ ) 2 f ( x; λ ) = ∑ ( x − λ ) 2
51
=λ
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Dalle uguaglianze sopra riportate risulta che il parametro caratterizzante la distribuzione di
Poisson coincide con la media e la varianza della variabile casuale ad esso associata.
I momenti sopra riportati possono essre facilmente ottenuti se si considera la funzione
generatrice dei momenti della v.c. di Poisson:
( )
x
∞
t
t
e tx e − λx λ x
λe t
m x (t ) = E (e ) = ∑
= e −λ ∑
= e − λ e λe = e λ (e −1)
x!
x!
x =0
x =0
t
d
µ1 = m x (t ) / t =0 = e λ (e −1)λ e t / t =0 = λ
dt
t
t
t
d2
µ 2 = 2 m x (t ) / t =0 = λ 2 e λ (e −1) / t =0 = e λ (e −1)λ e t λ λ e t + e λ (e −1) λ e t / t = 0 = λ 2 + λ
dt
Var ( X ) = σ 2 = µ 2 − µ12 = λ 2 + λ − λ 2 = λ
tX
∞
Esempio 2.18
Il dipartimento per il controllo di qualità della Staypress Shirt Manufacturing Company
rileva che per ciascuna spedizione di 10.000 magliette circa 5 vengono rimandate indietro in
quanto presentano delle imperfezioni nelle cuciture. L’azienda ha in programma due spedizioni ad
un cliente di New York. Qual è la probabilità che più di 10 magliette siano restituite per la
sostituzione?
p = probabilità di trovare una maglietta difettosa = 5/10.000 = 0,0005
n = numero totale di magliette prese in considerazione = 2 ⋅ 10000 = 20.000
λ = numero medio di magliette difettose = n ⋅ p = 20000 ⋅ 0.0005 = 10
x = numero di magliette difettose > 10
Quindi:
10
P( x > 10) = P( x = 11) + P( x = 12) + ... = 1 − P( x ≤ 10) = ∑
x =0
λx e − λ
x!
10 x e −10
= 0.417 = 41.7%
x!
x =0
10
=∑
Esempio 2.19
Un grande centro commerciale vende diverse marche di apparecchi televisivi. Uno dei
principali problemi del responsabile degli acquisti consiste nel definire la quantità di televisori di
ciascuna marca da tenere come scorta di magazzino. Da una parte, infatti, egli vuole avere a
disposizione una quantità di scorte tale da soddisfare prontamente le richieste dei clienti, dall’altra
egli vuole evitare di immobilizzare troppo denaro in scorte di magazzino eccessive che, se non
vendute in tempi relativamente rapidi, rischiano di diventare obsolete. La principale difficoltà nel
risolvere tale problema consiste nell’ampia variabilità della domanda da un mese all’altro. Tutto
52
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
ciò di cui il manager è a conoscenza è il fatto che, sulla base dei dati storici, la domanda media
mensile (λ) è approssimativamente 17 unità.
Il manager si chiede, dunque, qual è la probabilità che la domanda il prossimo mese sia I)
inferiore alle 20 unità e II) sia compresa tra le 10 e le 15 unità.
20
P( x ≤ 20) = ∑
λx e − λ
x =0
P (10 ≤ x ≤ 15) =
x!
17 x e −17
=∑
= 0.806 = 80.6%
x!
x =0
20
15
λx e −λ
x =10
x!
∑
=
17 x e −17
∑ x! = 0.345 = 34.5%
x =10
15
La distribuzione di Poisson ha importanti applicazioni anche perché essa rappresenta una
conveniente approssimazione della distribuzione binomiale nel caso in cui il numero delle prove n
sia abbastanza elevato (in genere si assume n ≥ 100 ) e la probabilità che l'evento si presenti in una
singola prova sia sufficientemente prossima allo 0 (in altri termini la differenza tra la probabilità p
di ottenere un successo e la probabilità q = 1-p di ottenere l’evento contrario è sostanzialmente
ampia). Questa approssimazione è resa possibile dal fatto che la legge di distribuzione di Poisson
può essere derivata come limite della distribuzione Binomiale nel caso in cui n tenda ad infinito e p
tenda a 0, mentre il prodotto λ = n p rimane costante.
La formula generale per la probabilità di esattamente x successi in n prove Bernoulliane (v.c.
Binomiale) è
⎛n⎞
f ( x) = ⎜⎜ ⎟⎟ p x (1 − p) n − x
⎝ x⎠
Si consideri la famiglia per cui il prodotto n p sia una costante λ. Se si pone λ = n p, allora p
= λ/n. Sostituendo p = λ/n nella precedente equazione si ha
x
⎛ n ⎞⎛ λ ⎞ ⎛ λ ⎞
f ( x) = ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟
⎝ x ⎠⎝ n ⎠ ⎝ n ⎠
n− x
x
n! ⎛ λ ⎞ ⎛ λ ⎞
=
⎜ ⎟ ⎜1 − ⎟
x!(n − x )! ⎝ n ⎠ ⎝ n ⎠
⎤⎛ λ ⎞
n!
1 ⎡
= λx ⎢
1− ⎟
x ⎥⎜
x! ⎣ (n − x )!n ⎦⎝ n ⎠
n− x
=
n− x
=
1 ⎡ n(n − 1)(n − 2).....(n − x + 1)(n − x)!⎤⎛ λ ⎞
= λx ⎢
⎥ ⎜1 − n ⎟
x! ⎣
(n − x)!n ⋅ n ⋅ n......n
⎠
⎦⎝
=
n − x + 1⎤⎛ λ ⎞
1 x ⎡n n −1
λ ⎢
......
⎜1 − ⎟
x! ⎣ n n
n ⎥⎦⎝ n ⎠
n− x
=
n− x
Il termine in parentesi quadra è il prodotto di x fattori, ciascuno della forma (n-k)/n. Quando n
cresce un’espressione di tale forma si avvicina all’unità se k rimane costante, poiché n diventa
53
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
grande relativamente a k e, così, (n-k)/n è quasi uguale ad 1. Essendo ciascun fattore in parentesi
quadra di tale forma, l’intera espressione si approssima ad 1.
Consideriamo ora l’espressione (1-λ/n)n-x. Quando n tende ad infinito e x rimane costante,
l’espressione è approssimativamente uguale a (1-λ/n)n per lo stesso motivo dato poco fa. Ma il
limite di (1-λ/n)n per n che tende ad infinito è e-λ, quindi
x
⎛ n ⎞⎛ λ ⎞ ⎛ λ ⎞
⎛n⎞
lim ⎜⎜ ⎟⎟ p x (1 − p ) n − x = lim ⎜⎜ ⎟⎟⎜ ⎟ ⎜1 − ⎟
n→∞ x
n →∞ x
⎝ ⎠⎝ n ⎠ ⎝ n ⎠
⎝ ⎠
n− x
=
λx e −λ
x!
e questa non è altro che l’equazione della funzione di massa di probabilità della v.c. di Poisson.
Ad un risultato analogo ma in modo decisamente più rapido si perviene se si considerano le
funzioni generatrici dei momenti delle due v.c.; infatti
(
lim p e + q
n→∞
t
)
n
⎛λ
⎛ λ
= lim⎜⎜ e t + ⎜1 −
n →∞ n
⎝ n
⎝
n
(
) ⎞⎟
⎛ λ et − 1
⎞⎞
⎜1 +
⎟ ⎟⎟ = lim
n →∞⎜
n
⎠⎠
⎝
n
λ (e −1)
⎟ =e
⎠
t
Esempio 2.20
E’ noto che il 3% delle lampadine prodotte dalla Edison Light Company è difettoso. Un lotto
che ne contiene 1000 sta per essere inviato al cliente. Si calcoli la media e la varianza delle
lampadine difettose usando I) una funzione di distribuzione di Poisson e II) una funzione di
distribuzione Binomiale.
I)
Funzione di distribuzione di Poisson:
Media = µ = n ⋅ p = 1000 ⋅ 0.03 = 30
Varianza = σ 2 = µ = n ⋅ p = 30
II)
Funzione di distribuzione Binomiale:
Media = µ = n ⋅ p = 1000 ⋅ 0.03 = 30
Varianza = σ 2 = µ = n ⋅ p ⋅ q = 1000 ⋅ 0.03 ⋅ 0.97 = 29.1
Come si può osservare le due medie coincidono e le due varianze sono molto simili. Questo si
spiega con il fatto che se in una Binomiale p è molto vicina a zero ed n è abbastanza grande ne
risulta una accettabile approssimazione con la distribuzione di Poisson.
σ 2 = n ⋅ p ⋅ q ≈ n ⋅ p ⋅1 ≈ n ⋅ p ≈ λ
Esempio 2.21
Si supponga che la probabilità di ottenere una parte difettosa da un certo processo produttivo
sia pari a 0.02. Qual è la probabilità che un lotto di 200 pezzi prodotti ne contenga almeno 5
54
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
difettosi? Si calcoli tale probabilità ricorrendo sia alla distribuzione Binomiale che alla
distribuzione di Poisson.
-
Distribuzione Binomiale:
5
⎛ 200 ⎞
P( x ≤ 5) = ∑ ⎜⎜
⎟⎟0.02 x ⋅ 0.98200− x = 0.788 = 78.8%
x
x =0 ⎝
⎠
-
Distribuzione di Poisson:
λ = n ⋅ p = 200 ⋅ 0.02 = 4
4 x e −4
P( x ≤ 5) = ∑
= 0.785 = 78.5% ≈ 78.8%
x!
x =0
5
2.7.4 Distribuzione Binomiale Negativa
La distribuzione Binomiale Negativa si usa quando si è interessati al numero di ripetizioni
(prove) indipendenti necessario per ottenere k volte un certo evento d’interesse (successo). Essa può
essere derivata direttamente dalla distribuzione Binomiale. Nella Binomiale il numero di prove n
viene fissato in anticipo e la variabile casuale è il numero di successi che si ottengono nelle n prove.
Viceversa, la Binomiale Negativa specifica in anticipo il numero k di successi che si vuole
osservare, mentre la variabile casuale diventa il numero di prove necessario per osservare il numero
k di successi prefissato. Quindi il fenomeno sotto osservazione è lo stesso per entrambe le
distribuzioni, ciò che cambia è l’evento d’interesse.
Indicando con X la v.c. “numero di prove necessario per ottenere k successi”2 e con p la
probabilità di ottenere un successo in una singola prova dell’esperimento, una possibile sequenza ω
che potrebbe realizzarsi è la seguente (S indica un successo e I un insuccesso):
ω: I ∩I ∩ I ∩ I ∩ ..... ∩ I ∩ S ∩ S ∩ S .... ∩ S
(x – k) insuccessi
k successi
Essendo questi eventi tra loro incompatibili, la probabilità di ω è data da:
P(ω) = P(I ∩I ∩ I ∩ I ∩ ..... ∩ I ∩ S ∩ S ∩ S .... ∩ S) =
= (1 − p ) ⋅ (1 − p )..... ⋅ (1 − p ) ⋅ p ⋅ p.... ⋅ p = (1 − p )
(x – k) volte
x −k
⋅ pk
k volte
2
X : x = k, k+1, k+2 .... se, rispettivamente, nelle prime k, k+1, k+2 ecc. prove si ottengono k successi. Come si può
notare tale variabile casuale può assumere un’infinità di valori.
55
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Qualunque permutazione venga fatta tra i vari eventi in modo da avere sempre un totale di x
prove affinché si manifestino k successi, la probabilità dell’evento ω rimane invariata e pari a pk(1–
p)x-k3.
Per ricavare la funzione di massa di probabilità della distribuzione Binomiale Negativa basta
conoscere il numero di possibili permutazioni che possono essere effettuate in modo da ottenere k
successi in x prove. Se sono richieste x prove per ottenere k successi, allora devono verificarsi (k –
1) successi nelle prime (x – 1) prove; inoltre, il k-esimo successo deve verificarsi all’x-esima prova
(cioè l’ultima). Questo equivale a dire che, con riferimento all’evento ω sopra riportato, il numero
delle possibili permutazioni si ottiene cambiando, in ogni modo possibile, l’ordine di tutti gli eventi
tranne l’ultimo4. Così facendo si ottiene:
⎛ x − 1⎞
( x − 1)!
⎜⎜
⎟⎟ =
⎝ k − 1⎠ ( k − 1)!⋅( x − k )!
Quindi, la funzione di massa di probabilità della variabile casuale Binomiale negativa è data
da:
⎛ x − 1⎞ k
⎟⎟ p ⋅ (1 − p) ( x −k ) , con x = k, k+1, k+2, k+3, ....
P ( X = x) = f ( x) = ⎜⎜
k
1
−
⎠
⎝
Infine, si può dimostrare che la media e la varianza della distribuzione Binomiale Negativa
sono date da:
E( X ) = k
1− p k q
1
; σ 2 (X ) = k 2 = 2
p
p
p
Si osservi la ragionevolezza del risultato per cui il valore medio di tale variabile casuale è
l’inverso della probabilità che si verifichi l’evento “successo” nella singola prova. Infatti, se
l’evento è raro, p è molto basso ed occorrerà attendere mediamente un numero piuttosto elevato di
prove prima che si verifichi per k volte. Viceversa, se l’evento in questione possiede una probabilità
p elevata, allora il numero di prove necessarie perché si verifichi per k volte sarà mediamente più
basso.
Una delle tante applicazioni della distribuzione Binomiale Negativa è relativa a certi problemi
di attesa. Supponiamo, per esempio, che in un processo di produzione automatico sia prodotta una
parte al secondo, testata automaticamente e, quindi, gettata in un recipiente in caso risulti difettosa.
Essendo p la probabilità di ottenere una parte difettosa (successo) e k il numero di parti difettose che
Il motivo è semplice: trattandosi di eventi indipendenti, la probabilità dell’evento ω sarà sempre data dal prodotto
delle singole probabilità, che, per la proprietà commutativa, rimane invariato al variare dell’ordine dei fattori.
3
56
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
il recipiente è in grado di contenere, allora la lunghezza di tempo (in secondi) prima che il
recipiente sia riempito e debba essere sostituito con uno vuoto è x, dove x segue la distribuzione
Binomiale negativa con parametri k e p e rappresenta il numero totale di pezzi difettosi e accettabili
(cioè, il numero totale di prove) necessari per ottenere il k-esimo pezzo difettoso.
Esempio 2.22
Si supponga che, in base ai dati storici, risulti che un istituto di credito concede in media un
prestito ogni cinque richieste che gli pervengono (p = 0,20). Il credit manager della banca
vorrebbe conoscere qual è la probabilità che, in una tipica giornata, egli debba valutare 5 richieste
di finanziamento (quindi x = 5) e, tra queste, 2 risultino idonee (k =2). E’ implicito che la seconda
approvazione avvenga per la quinta ed ultima richiesta di finanziamento analizzata, altrimenti il
manager non dovrebbe valutare 5 richieste. Indicando con A le richieste di finanziamento
approvate e con R quelle rifiutate si ottengono le seguenti possibili sequenze con le rispettive
probabilità:
Sequenze
Probabilità
A∩R∩R∩R∩A
0,2 ⋅ 0,8 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 = 0,02048
R∩A∩R∩R∩A
0,8 ⋅ 0,2 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 = 0,02048
R∩R∩A∩R∩A
0,8 ⋅ 0,8 ⋅ 0,2 ⋅ 0,8 ⋅ 0,2 = 0,02048
R∩R∩R∩A∩A
0,8 ⋅ 0,8 ⋅ 0,8 ⋅ 0,2 ⋅ 0,2 = 0,02048
Totale
0,08192 = 8,192%
Allo stesso risultato si giunge applicando direttamente la funzione di probabilità della
distribuzione Binomiale Negativa. Infatti, posto x= 5, k = 2 e p = 0,20 si ottiene:
⎛ 5 − 1⎞
4!
⎟⎟0,20 2 ⋅ 0,8 5−2 =
P ( X = 5) = ⎜⎜
0,04 ⋅ 0,512 = 0,08192 ≈ 8,20%
3!1!
⎝ 2 − 1⎠
Esempio 2.23
Dalla precedente esperienza si sa che un’azienda è in grado di produrre il 90% dei suoi
prodotti (lamine di acciaio) entro i limiti di accettabilità dell’ampiezza del diametro. In vista del
controllo periodico il responsabile della qualità decide di fermare il processo produttivo ed
effettuare un’ispezione completa di tutti i macchinari nell’ipotesi in cui da un campione di 7 lamine
4
In altre parole, l’ultimo evento che si verifica deve essere sempre il k-esimo successo: se questo si verificasse prima
dell’x-esima prova vorrebbe dire che il numero di prove necessario per ottenere k successi non è più x bensì un valore
57
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
ne risultino 3 difettose prima che ne siano prodotte 4 accettabili. Qual è la probabilità che il
processo produttivo venga interrotto?
Sia x = 7, k = 4 e p = 0,90, allora:
⎛ 7 − 1⎞ 4 7 − 4 ⎛ 6 ⎞
⎟⎟0,9 0,1 = ⎜⎜ ⎟⎟0,6561 ⋅ 0,001 = 0,0131 = 13,1%
P ( x = 7) = ⎜⎜
⎝ 3⎠
⎝ 4 − 1⎠
Esempio 2.24
Un’azienda che svolge servizi di soccorso stradale sa, sulla base dei dati storici, che circa il
45% di tutte le chiamate di soccorso che le pervengono richiedono l’intervento di un carro attrezzi.
Al momento l’azienda ha 9 carri attrezzi disponibili e 18 chiamate di soccorso in attesa. Qual è la
probabilità che le 18 chiamate siano tutte completate prima che tutti i 18 carri attrezzi siano
utilizzati?
x = 18
k=9
p = 0,45
⎛18 − 1⎞
⎟⎟0,45 9 ⋅ 0,5518−9 = 0,0846 = 8,46%
P ( x = 18) = ⎜⎜
⎝ 9 −1 ⎠
La funzione X (ω ) sopra definita fa corrispondere a ciascun punto campionario il numero
delle prove necessarie per ottenere k successi, dal che risulta che la v.c. X così definita potrà
assumere i valori k, k+1, k+2, ……Una diversa definizione è quella di non considerare il numero
delle prove necessarie per ottenere k successi ma il numero delle prove necessarie prima di
ottenere k , in tal caso la v.c. X cosi definita potrà assumere i valori 1, 2, 3, ………
Una ulteriore possibile definizione della v.c. binomiale negativa è quella di definire X (ω )
come il numero di insuccessi necessari prima di ottenere k successi. In questo caso la v.c.
risultante potrà assumere i valori 0, 1, 2,…….., cioè tutti i numeri naturali da zero a + infinito ed
avrà funzione di massa di probabilità pari a :
⎛ k + x − 1⎞ k x ⎛ − k ⎞ k
⎛ k + x − 1⎞ k
⎟⎟ p ⋅ q = ⎜⎜ ⎟⎟ p ⋅ (− q )x
⎟⎟ p ⋅ (1 − p) x = ⎜⎜
P ( X = x) = f ( x) = ⎜⎜
x ⎠
x ⎠
⎝ x ⎠
⎝
⎝
Espressione questa che da ragione anche della denominazione di distribuzione binomiale negativa.
La funzione generatrice dei momenti della v.c. binomiale negativa in questa formulazione è
inferiore.
58
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
( )
m x (t ) = E e
Xt
Versione 2006
∞
⎛− k ⎞
x
= ∑ e ⎜⎜ ⎟⎟ p k (− q ) = ∑
x =0
x =0
⎝ x ⎠
∞
xt
⎛− k ⎞ k
⎜⎜ ⎟⎟ p − e t q
⎝ x ⎠
(
)
x
(
= p 1− q e
k
)
t −r
⎛ p
= ⎜⎜
t
⎝1− q e
⎞
⎟⎟
⎠
−k
da cui
µ1 =
d
kq
m x (t )/ t =0 =
dt
p
µ2 =
d2
k 2 q2 k q
(
)
=
+ 2
m
t
/
x
t =0
dt 2
p2
p
Var(X) = σ 2 = µ 2 − µ12 =
k 2 q2 k q k 2 q2 k q
+ 2 −
= 2
p2
p
p2
p
2.7.5 Distribuzione Geometrica o di Pascal
Nell’ipotesi in cui, nella distribuzione Binomiale negativa, il numero k di successi desiderato
sia pari ad 1, si parla più propriamente di distribuzione Geometrica. Quindi, quest’ultima non è altro
che un caso particolare della Binomiale negativa quando k = 1 ed indica il numero di prove
necessario (o numero di prove necessarie prima di ottenere un successo, o numero di insuccessi
prima di ottenere un successo).
La distribuzione di probabilità Geometrica risulta utile in diverse situazioni. Per esempio, per
certi tipi di macchinari è noto che la probabilità p di rottura (successo) è la stessa ogni volta che il
macchinario viene impiegato e non aumenta all’aumentare del numero di volte in cui il macchinario
è stato utilizzato in precedenza. La qualità di un macchinario così fatto è, dunque, determinata da p:
quanto più p è basso tanto più il macchinario è affidabile. Un metodo per testare un macchinario di
questo tipo è utilizzarlo finché si manifesta la prima rottura, cioè calcolare la probabilità che la
rottura avvenga alla x-esima prova, dato un livello di probabilità pari a p.
Un altro esempio di applicabilità della distribuzione Geometrica si può rilevare nel settore
creditizio. Il responsabile per la concessione di prestiti di una banca deve tenere conto del fatto che
non può permettersi di concedere troppi prestiti che poi non andranno a buon fine (per i quali, cioè,
il cliente non sarà in grado di pagare gli interessi e/o di restituire il capitale ottenuto a prestito).
D’altra parte è altresì vero che è praticamente impossibile concedere prestiti del tutto esenti da
rischio. Indicando semplicemente con positivo/negativo l’esito che un qualsiasi prestito può avere e
59
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
con p5 la probabilità che venga concesso un prestito che avrà esito negativo, il responsabile per
l’erogazione dei finanziamenti è in grado di determinare per ogni cliente la probabilità che il
prossimo prestito che gli sarà concesso avrà esito negativo, avendo egli già onorato con esito
positivo i precedenti 10, 100, 1000 ... prestiti concessigli in passato.
2.7.6 Variabili Casuali Discrete: riepilogo
Prima di procedere con l’esposizione delle principali variabili casuali continue, si
riepilogano i punti salienti che caratterizzano e distinguono tra loro le variabili casuali discrete
considerate.
V.c. di Bernoulli
-
Descrizione: numero di successi in una sola prova
-
Parametro caratteristico: p = probabilità di ottenere un successo
-
Supporto della v.c. X: x∈ {0, 1}
-
La prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
-
Il numero di prove è fisso, pari ad 1.
V.c. Binomiale
-
Descrizione: numero di successi in n prove (campionamento con ripetizione)
-
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova;
n, numero delle prove
-
Supporto della v.c. X: x∈ {0, 1, 2, …., n}
-
Ogni prova è indipendente dalle altre
-
Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
-
La probabilità dell’evento “successo” è costante in tutte le prove
-
Il numero di prove è fisso, pari ad n.
V.c. Ipergeometrica
-
Descrizione: numero di successi in n prove (campionamento senza ripetizione)
-
Parametri caratteristici: n, numero delle prove; K, numero di eventi “successo” possibili;
N, numero totale di eventi (successi e insuccessi) possibili
-
Supporto della v.c. X: x∈ {max(0, n – N + K), min (n, K)}
5
La probabilità p non deve essere né troppo alta né troppo bassa: nel primo caso la banca rischierebbe di perdere troppo
denaro, nel secondo caso, invece, si comporterebbe in maniera eccessivamente conservativa e non avrebbe la possibilità
di spuntare margini di guadagno elevati.
60
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
-
Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
-
Il risultato di una prova modifica la probabilità (condizionata) di successo nelle prove
successive
-
Il numero di prove è fisso, pari ad n.
V.c. di Poisson
-
Descrizione: numero di successi in un ambito predefinito (di tempo o di spazio)
-
Parametro caratteristico: λ, che indica sia la media che la varianza della variabile
casuale
-
Supporto della v.c. X: x∈ {0, 1, 2, ….}
-
Il tasso medio λ di occorrenza dell’evento E è costante
-
La manifestazione di ciascun evento è indipendente in ambiti che non si sovrappongono
-
La probabilità di due o più manifestazioni degli eventi in ambiti che si sovrappongono
tende a zero.
V.c. Binomiale Negativa (prima definizione)
-
Descrizione: numero di prove occorrenti perché si verifichino k successi
-
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova; k,
numero prefissato di successi che si desidera di ottenere
-
Supporto della v.c. X: x∈ {k, k+1, k+2, … }
-
Ogni prova è indipendente dalle altre
-
Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
-
Il numero di prove non è fisso, ma coincide con la v.c. X
-
L’esperimento termina al verificarsi del k-esimo successo
V.c. Geometrica
-
Descrizione: numero di prove occorrenti perché si verifichi il primo successo
-
Parametri caratteristici: p, la probabilità di ottenere un successo in ogni singola prova
-
Supporto della v.c. X: x∈ {0, 1, 2, … }
-
Ogni prova è indipendente dalle altre
-
Ogni prova può generare solo due eventi: successo (x = 1) o insuccesso (x = 0)
-
Il numero di prove non è fisso, ma coincide con la v.c. X
-
L’esperimento termina al verificarsi del primo successo
61
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.8 Variabili casuali continue
2.8.1 Distribuzione normale
La distribuzione normale, o gaussiana, o degli errori accidentali, può essere considerata la più
importante tra le distribuzioni continue, soprattutto per le seguenti ragioni:
a) una vasta serie di esperimenti casuali ha associata una variabile casuale la cui distribuzione
è approssimativamente normale;
b) alcune variabili casuali che non sono distribuite normalmente, possono essere rese tali
mediante trasformazioni relativamente semplici;
c)
alcune
distribuzioni
relativamente
complicate,
possono
essere
approssimate
sufficientemente bene dalla distribuzione normale;
d) alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi statistiche
o per la determinazione di intervalli di stima, o sono distribuite normalmente o derivano da tale
distribuzione.
Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure
notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo
fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e che ha spinto
diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i fenomeni naturali. In
realtà, la giustificazione teorica del ruolo importantissimo che svolge la distribuzione normale nella
ricerca scientifica risiede soprattutto nel “teorema del limite centrale” o “teorema centrale del
limite”; di questo teorema si tratterà in seguito.
La funzione di densità di probabilità della distribuzione normale è
f ( x ) = f ( x; µ ,σ ) =
2
1
2πσ 2
e
1 ⎛ x−µ ⎞
− ⎜
⎟
2⎝ σ ⎠
2
per -∞ ≤ x ≤ +∞
Ovviamente
∫
+∞
−∞
f (x; µ ; σ 2 )dx = 1
Si controlla facilmente che la distribuzione normale è simmetrica e che ha il massimo nel
punto x =µ. Si dimostra inoltre che i due parametri caratteristici µ e σ2 corrispondono proprio
62
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
alla media (momento primo rispetto all’origine) e alla varianza (momento secondo rispetto alla
media) della distribuzione.
÷∞
µ = ∫ x f ( x; µ , σ 2 )dx
−∞
+∞
σ 2 = ∫ ( x − µ ) 2 f ( x; µ , σ 2 )dx
−∞
Per dimostrare che il valor medio (momento primo rispetto all’origine) della v.c. Normale è
proprio uguale al parametro µ e la varianza al parametro σ 2 risulta conveniente introdurre la
funzione generatrice dei momenti della quale si farà anche largo uso nelle pagine successive.
[
( )
]
m x (t ) = E e tX = e tµ E e t ( X − µ ) = ∫
1
2π σ
∫
+∞
−∞
e
−
1
2σ 2
[( x − µ ) − 2σ
2
2
1
+∞
2π σ
−∞
t ( x − µ )+σ 4t 2 −σ 4t 2
2
2
e t ( x − µ )e − (1 / 2σ )( x − µ ) dx =
]
dx = e tµ +σ
2 2
t /2
⋅
1
2π σ
∫
+∞
−∞
2 2
2
e −(x − µ −σ t ) / 2σ dx
ma
1
∫
2π σ
+∞
−∞
2 2
2
e − (x − µ −σ t ) / 2σ dx = 1
quindi
m x (t ) = e tµ +σ
2 2
t /2
da cui
(
)
2 2
2 2
d
d
m x (t )/ t =0 = e tµ +σ t / 2 / t =0 = e tµ +σ t / 2 µ + σ 2 t / t =0 = µ
dt
dt
2
2 2
2 2
2
d
µ 2 = 2 m x (t )/ t =0 = e tµ +σ t / 2 µ + σ 2 t + e tµ +σ t / 2 σ 2 / t =0 = µ 2 + σ 2
dt
µ1 =
[
(
)
]
Var(X) = σ 2 = µ 2 − µ12 = µ 2 + σ 2 − µ 2 = σ 2
Il momento terzo ed il momento quarto standardizzati (indice di simmetria e indice di curtosi)
sono dati rispettivamente, da:
3
⎛x−µ⎞
2
γ1 = µ3 = ∫ ⎜
⎟ f ( x; µ , σ ) dx = 0
−∞
σ
⎝
⎠
+∞
63
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
4
⎛x−µ⎞
2
⎟ f ( x; µ , σ ) dx = 3
⎝ σ ⎠
+∞
γ2 = µ4 = ∫ ⎜
−∞
Ovviamente, essendo la distribuzione normale simmetrica, l’indice γ1 assume valore zero.
L’indice assume, invece, valore negativo in caso di asimmetria a sinistra, valore positivo in caso di
asimmetria a destra, della distribuzione (cfr. Fig. 9).
Mentre l’asimmetria è definita in termini assoluti, la curtosi è un concetto relativo; infatti, si
può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa riferimento alla
distribuzione normale. Essendo per quest’ultima distribuzione il valore assunto dall’indice di
curtosi pari a tre, si dirà platicurtica la distribuzione con valore dell’indice γ2 inferiore a tre,
leptocurtica la distribuzione con valore dell’indice γ2 maggiore di tre (cfr. Fig. 9).
Asimmetria positiva
γ1 > 0
Asimmetria negativa
γ1 < 0
µ Me Mo
Mo Me µ
Distribuzione leptocurtica
γ2 > 3
Distribuzione normale
γ2 = 3
Distribuzione platicurtica
γ2 < 3
Fig. 9 - Forma delle distribuzioni
La funzione di distribuzione della variabile casuale normale è:
F(x) = P(X ≤ x) = ∫
x
−∞
1
2πσ 2
Ricorrendo alla variabile casuale standardizzata Z =
64
e
−
1
2σ 2
x−µ
σ
(y − µ)2
si ha
dy
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
F(z) = P(Z ≤ z) =
1
2π
∫
z
−∞
e
1
− y2
2
dy
i cui valori sono stati tabulati.
Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno valore medio
nullo e varianza pari ad uno.
Tenendo presente che
b−µ⎞
⎛a−µ
⎛a−µ X −µ b−µ⎞
F (b) − F (a) = P(a < X ≤ b) = P⎜
<Z≤
<
≤
⎟
⎟ = P⎜
σ
σ ⎠
σ ⎠
⎝ σ
⎝ σ
Se si pone a = µ - σ e b = µ + σ si avrà, utilizzando le tavole della distribuzione normale
standardizzata, che
P (µ - σ< X ≤ µ + σ) = P(-1 < Z ≤ 1) ≈ 0,68
per a = µ - 2σ e b = µ + 2σ si ha
P (µ - 2σ < X ≤ µ + 2σ) = P(-2 < Z ≤ 2) ≈ 0,955
Per a = µ - 3σ e b = µ + 3σ si ha
P (µ - 3σ < X ≤ µ + 3σ) = P(-3 < Z ≤ 3) ≈ 0,997
Le relazioni sopra scritte portano a concludere che per qualunque variabile casuale normale:
•
circa i due terzi dei valori sono contenuti nell'intervallo (µ - σ)⎯(µ + σ);
•
circa il 95% dei valori sono contenuti nell'intervallo (µ - 2σ)⎯(µ + 2σ);
•
circa il 99,7% dei valori (praticamente tutti) sono contenuti nell'intervallo
(µ - 3σ)⎯(µ + 3σ).
Ragionando in termini analoghi si ottiene
P (µ - 1,96σ < X ≤ µ + 1,96σ) = 0,95
P (µ - 2,58σ < X ≤ µ + 2,58 σ) = 0,99
P (µ - 3,29σ < X ≤ µ + 3,29σ) = 0,999
65
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Esempio 2.25
Sia X una variabile casuale normale di media µ = -2 e varianza σ2 = 0,25; si vuol
determinare il valore della costante c in modo da soddisfare le relazioni:
a)
P (X ≥ c) = 0,2;
c)
P (-c ≤ X ≤ c) = 0,95;
b)
P (-c ≤ X ≤ -1) = 0,5;
P (-2-c ≤ X ≤ -2+c) = 0,9.
d)
Utilizzando la tavola, in cui sono riportati i valori della funzione di distribuzione della
variabile casuale normale standardizzata, si ottengono i seguenti risultati:
c + 2⎞
c + 2⎞
⎛c + 2⎞
⎛
⎛
⎛X −µ c−µ⎞
≥
a ) − P ( X ≥ c ) = P⎜
⎟ = 0,2 ⇔
⎟ =1 − F⎜
⎟ = 1 − P⎜ Z <
⎟ = P⎜ Z ≥
σ ⎠
0,5 ⎠
0,5 ⎠
⎝ σ
⎝ 0,5 ⎠
⎝
⎝
c + 2⎞
c+2
⎛
⇔ P⎜ Z ≤
= 0,842 ⇔ c = 1,579
⎟ = 0,8 ⇔
0,5 ⎠
0,5
⎝
− c + 2⎞
⎛
⎞
⎛−c+2
⎛ − c + 2 X − µ −1+ 2⎞
≤ Z ≤ 2 ⎟ = P (Z ≤ 2 ) − P ⎜ Z <
≤
≤
b) − P (−c ≤ X ≤ −1) = P⎜
⎟=
⎟ = P⎜
σ
0,5 ⎠
0
,
5
0
,
5
0
,
5
⎝
⎠
⎝
⎠
⎝
2−c
⎛2−c⎞
⎛2−c⎞
= F ( 2) − F ⎜
= − 0,057 ⇒ c = 2,0285
⎟ = 0 ,5 ⇔ F ⎜
⎟ = 0, 4772 ⇒
0
,
5
0
,
5
0 ,5
⎝
⎠
⎝
⎠
⎡ ⎛
⎤
− c + 2⎞
c + 2⎞
⎛−c+2
⎛− c + 2 X − µ c + 2⎞
≤Z≤
c ) − P ( −c ≤ X ≤ c ) = P ⎜
≤
≤
⎟ − 0,5⎥ =
⎟ = 2 ⎢ P⎜ Z <
⎟ = P⎜
σ
0,5 ⎠
0,5 ⎠
0,5 ⎠
⎝ 0,5
⎝ 0,5
⎣ ⎝
⎦
c+2
⎛c+ 2⎞
⎛2+c⎞
= 2F ⎜
= 1,96 ⇒ c = − 1,02
⎟ − 1 = 0,95 ⇔ F ⎜
⎟ = 0,975 ⇒
0 ,5
⎝ 0 ,5 ⎠
⎝ 0 ,5 ⎠
c ⎞
c ⎞
⎛−c
⎛−c X −µ
≤Z≤
d ) − P ( −2 − c ≤ X ≤ −2 + c ) = P ⎜
≤
≤
⎟ = P ( Z ≤ 2c ) − P ( Z < 2c ) =
⎟ = P⎜
σ
0
,
5
0
,
5
0
,
5
0
,5 ⎠
⎝
⎠
⎝
= F ( 2 c ) − F ( − 2 c ) = 0,9 ⇒ 2 c = 1,645 ⇒ c = 0,823
Esempio 2.26
Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere un
determinato spessore e che la produzione subisca delle piccole variazioni (in termini di spessore)
aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio prodotte, può essere
convenientemente rappresentato mediante un modello probabilistico di tipo normale. Sia X la
variabile casuale normale che interessa e si ammetta di conoscere la sua media µ = 10 mm. e la
sua varianza σ2 = 0,0004. Si vuol determinare la percentuale attesa di lamine difettose supposto
che:
66
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
a) siano difettose le lamine con spessore inferiore a 9,97 mm.;
b) siano difettose le lamine con spessore superiore a 10,05 mm.;
c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm.
Si chiede inoltre:
d) Quale valore dovrebbe assumere la costante c affinché la percentuale attesa di lamine che
si discosta da 10 mm. per una quantità non superiore a c sia pari a 0,05;
e) come varierebbe la percentuale attesa di cui al punto d) e, relativamente al valore della
costante |c| trovato, nel caso in cui si avesse µ = 10,01.
Usando la tavola della distribuzione normale si ottengono i seguenti risultati:
⎛ 9,97 − 10 ⎞
⎟ = F (−1,5) ≈ 0,067
a) - P ( X < 9,97) = F ⎜
⎝ 0,02 ⎠
⎛ 10,05 − 10 ⎞
⎟ ≈ 0,006
b) - P ( X > 10,05) = 1 − p( X ≤ 10,05) = 1 − F ⎜
⎝ 0,02 ⎠
c) - P (X < 9,97) + P (X > 10,03) = 1 - P (9,97 ≤ X ≤ 10,03) = 1 - P (X ≤ 10,03)
⎛ 10,03 − 10 ⎞
⎛ 9,97 − 10 ⎞
⎟ + F⎜
⎟ = 0,13
+ P (X < 9,97) = 1 - F ⎜
⎝ 0,02 ⎠
⎝ 0,02 ⎠
d) - Per quanto detto nel testo e visto nell'esempio precedente, si ottiene immediatamente
c = 1,96; σ = 1,96 . 0,02 = 0,039
e) - P (X < 10-0,039) + P (X > 10 + 0,039) = 1 - P (9,961 ≤ X ≤ 10,039) =
⎛ 10,039 − 10,01 ⎞
⎛ 9,961 − 10,01 ⎞
⎟ + F⎜
⎟ = 0,08
=1-F ⎜
0,02
0,02
⎝
⎠
⎝
⎠
Esempio 2.27
La Goodstone Tire Company produce 2 milioni di pneumatici l’anno. Basandosi sui risultati
di precedenti esperimenti, i manager dell’azienda hanno accertato che ciascun pneumatico è in
grado di percorrere una media µ di 40.000 km con una deviazione standard σ di 10.000 km. E’
politica dell’azienda sostituire gratuitamente ogni pneumatico che duri meno di 28.000 km,
67
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
riconoscendo inoltre un risarcimento di 5,00 € al cliente. Assumendo che il pneumatico medio
abbia una distribuzione normale:
I)
Qual è la probabilità che venga prodotto un pneumatico che duri almeno 55.000 km?
Quanti pneumatici di questo tipo saranno prodotti ogni anno?
II)
Quanti pneumatici aventi una vita media compresa tra 25.000 km e 35.000 km
saranno prodotti in un anno?
III)
Qual è il costo annuo atteso per i risarcimenti?
IV)
Assumendo che un cliente acquisti un pneumatico che si colloca nel miglior 5% a
livello di qualità, quanti km ci si può aspettare che faccia?
Utilizzando le tavole della distribuzione Normale standardizzata otteniamo i seguenti
risultati:
I)
55000 − 40000 ⎞
⎛
P ( X ≥ 55000) = P⎜ Z ≥
⎟ = P (Z ≥ 1,5) = 1 − P (Z ≤ 1,5) = 1 − 0,9332 = 0,0668
10000
⎝
⎠
Quindi, la probabilità che un pneumatico sia in grado di percorrere almeno 55.000 km è pari
al 6,68%. In un anno saranno prodotti 2.000.000 ⋅ 0,0668 = 133.600 pneumatici di questo tipo.
II)
Per X = 35.000 ⇒ Z = (35.000-40.000)/10.000 = - 0,5
Per X = 25.000 ⇒ Z = (25.000 – 40.000)/10.000 = - 1,5
Quindi,
P (25.000 ≤ X ≤ 35.000 ) = P( −1,5 ≤ Z ≤ −0,5) = F ( −0,5) − F ( −1,5) = 0,3085 − 0,0668 = 0,2417
Di conseguenza, saranno prodotti 2.000.000 ⋅ 0,2417 = 483.400 pneumatici l’anno con una
capacità di uso compresa tra i 25.000 e i 35.000 km.
III)
La probabilità che un pneumatico abbia una durata di vita inferiore ai 28.000 km è data,
analogamente ai casi appena visti, da:
28.000 − 40.000 ⎞
⎛
P ( X ≤ 28.000) = P⎜ Z ≤
⎟ = P( Z ≤ −1,2) = 0,1151
10.000
⎝
⎠
Perciò il costo totale che l’azienda dovrà sostenere per il risarcimento è pari a:
2.000.000 ⋅ 0,1151 ⋅ 5,00 = 1.151.000 €
IV)
P( X ≥ x ) = P( Z ≥ z ) = 1 − P( Z ≤ z ) = 0,05 ⇒ P( Z ≤ z ) = 1 − 0,05 = 0,95 ⇔ z = 1,65
68
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
z=
Versione 2006
x − 40.000
= 1,65 ⇒ x = 10.000 ⋅ 1,65 + 40.000 = 56.500km
10.000
Quindi, ci si può aspettare che un pneumatico che si colloca nel miglior 5% percorra
perlomeno 56.500 km.
Esempio 2.28
L’Ufficio del Personale dell’azienda Beta sta riconsiderando la sua politica di assunzione.
Ciascun candidato per un certo lavoro deve superare un esame tecnico e psico-attitudinale iniziale.
Da un’analisi svolta si è rilevato che i punteggi conseguiti dai vari candidati si distribuiscono
normalmente con media pari a 525 e deviazione standard pari a 55.
L’attuale politica di assunzione si solge in due fasi. Durante la prima fase i candidati
vengono separati in tre categorie: candidati automaticamente accettati, candidati automaticamente
rifiutati, candidati incerti. L’accettazione automatica si ha quando il punteggio conseguito è
perlomeno pari a 600; il rifiuto automatico si ha quando il punteggio conseguito non supera 425.
In merito agli incerti, il responsabile del personale procede alla seconda fase della selezione,
basando la sua scelta su vari elementi, quali eventuali precedenti esperienze di lavoro, attitudini e
conoscenze particolari ecc.
Il responsabile del personale dell’azienda Beta vuole conoscere, in primo luogo, I) la
percentuale di candidati che automaticamente vengono accettati o rifiutati; in secondo luogo, II)
vuole conoscere come varierebbero i punteggi di discriminazione, nel caso in cui si decida di
accettare automaticamente il 15% dei migliori candidati e di rifiutare automaticamente il 10% dei
peggiori.
Indicando con X la v.c. punteggio conseguito e rifacendosi alle tavole della distribuzione
Normale standardizzata, si ottengono le seguenti soluzioni:
I)
425 − 525 ⎞
⎛
P( X ≤ 425) = P⎜ Z ≤
⎟ = P( Z ≤ −1,82) = 3,45%
55
⎝
⎠
600 − 525 ⎞
⎛
P ( X ≥ 600) = P⎜ Z ≥
⎟ = P( Z ≥ 1,36) = 1 − P( Z ≤ 1,36) = 8,63%
55
⎝
⎠
Quindi, il 3,45% circa dei candidati sarà automaticamente rifiutato, mentre l’8,63% sarà
automaticamente accettato.
II)
x − 525 ⎞
⎛
P( X ≤ x ) = P⎜ Z ≤
⎟ = P( Z ≤ z ) = 0,10 ⇒ z = −1,27 ⇒ x = −1,27 ⋅ 55 + 525 = 455
55 ⎠
⎝
69
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
x − 525 ⎞
⎛
P( X ≥ x ) = P⎜ Z ≥
⎟ = P( Z ≥ z ) = 0,15 = 1 − P( Z ≤ z ) ⇒ P( Z ≤ z ) = 0,85
55 ⎠
⎝
⇒ z = 1,04 ⇒ x = 1,04 ⋅ 55 + 525 = 582
Quindi, se l’azienda Beta vuole incrementare sia il numero di candidati accettati
automaticamente (dall’8,63% al 15%) che quello dei candidati rifiutati automaticamente (dal
3,45% al 10%) dovrà restringere l’intervallo degli “incerti” innalzando il punteggio limite del
rifiuto automatico da 425 a 455 e abbassando il punteggio dell'accettazione automatica da 600 a
582.
Si dimostra che, per n sufficientemente grande, la distribuzione binomiale, la cui funzione di
massa di probabilità è, come già detto pari a
⎛n⎞
f ( x; n, p) = ⎜⎜ ⎟⎟ p x q n − x
⎝ x⎠
può essere approssimata abbastanza bene dalla distribuzione normale con valore medio µ = np e
con varianza σ2 = npq; cioè, dalla distribuzione normale con funzione di densità di probabilità
f ( x) =
1
2πnpq
e
−
1
( x − np ) 2
2 npq
Come regola generale l’approssimazione della Binomiale con la Normale può essere utilizzata
quando sia np che np(1-p) sono maggiori di 5; inoltre, l’approssimazione è tanto più buona quanto
più p è prossimo a 0,5.
Esempio 2.29
Da un’indagine di mercato risulta che circa il 70% dei clienti adulti che entrano in un grande
magazzino effettua un acquisto. Per verificare questo dato, il management di un certo centro
commerciale seleziona casualmente 200 adulti e, mentre escono dal negozio, gli chiede se hanno
effettuato almeno un acquisto. Se la ricerca di mercato è corretta, qual è la probabilità che almeno
150 soggetti del campione selezionato abbiano effettuato un acquisto?
Indicando con X la v.c. numero di clienti che hanno effettuato almeno un acquisto, allora X
ha una distribuzione Binomiale con parametri n = 200 e p = 0,70. Per trovare la probabilità esatta,
è necessario risolvere la seguente equazione:
70
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
P( X ≥ 150) =
Versione 2006
⎛ 200 ⎞
⎟⎟0,70 x ⋅ 0,30 200− x
x =150 ⎝ x ⎠
200
∑ ⎜⎜
In mancanza di un computer è piuttosto difficile e lungo risolvere tale equazione; in
alternativa si può, dunque, ricorrere all’approssimazione tramite la v.c Normale di media
µ = np = 200 ⋅ 0,70 = 140 e deviazione standard σ = np(1 − p ) = 200 ⋅ 0,7 ⋅ 0,3 = 6,5 :
z=
150 − 140
= 1,54
6,5
P( z ≥ 1,54) = 1 − P ( Z ≤ 1,54) = 1 − 0,9382 = 6,18%
Quindi, la probabilità che almeno 150 clienti tra i 200 selezionati casualmente abbiano
effettuato almeno un acquisto all’interno del centro commerciale è pari al 6,18%.
2.8.2 Distribuzione Gamma
Una distribuzione di probabilità molto importante nell’ambito della Teoria delle Decisioni è la
distribuzione Gamma. Questa distribuzione viene utilizzata come modello per fenomeni dipendenti
dal tempo o, in termini più generali, per fenomeni di cui interessa la durata (di vita, di resistenza, di
funzionamento ecc.). Essa può essere più facilmente compresa se messa in relazione con la
distribuzione discreta di Poisson. Nella distribuzione di Poisson la variabile casuale X rappresenta
il numero di successi, mentre lo spazio campionario è fissato; in questo tipo di distribuzione l’unico
parametro coinvolto è il numero λ di successi nell’unità di tempo (o di spazio o di volume).
Viceversa, nella distribuzione continua Gamma la variabile casuale diventa lo spazio campionario,
mentre il numero di successi è fissato. In altri termini, mentre la Poisson fornisce la probabilità che
x successi si manifestino in un certo intervallo di tempo (o di spazio o di volume), noto il numero
medio di successi per unità di tempo (o di spazio o di volume); la distribuzione Gamma fornisce la
probabilità che un tempo X = x sia necessario affinché si manifesti un certo numero prefissato k di
successi, noto il tasso di manifestazione λ di successi per unità di tempo. I parametri della
distribuzione Gamma sono, quindi, due: il numero k di successi che si desidera ottenere e il tasso di
manifestazione medio λ di successi per unità di tempo.
La funzione di densità di probabilità della v.c. Gamma è data da:
x
−
1
α −1
β
P ( X = x) = f ( x; α , β ) =
x
e
Γ(α ) β α
71
per 0 ≤ x ≤ +∞, α > 0 e β > 0
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
m x (t ) = E (e ) = ∫
tX
∞
0
−
1
Γ(k ) β α
da cui
=
∫
∞
0
x α −1e
x
−
1
tx α −1
β
e
x
e
dx =
Γ(k ) β α
x
⎛ 1− βt ⎞
⎜⎜ β ⎟⎟
⎝
⎠
dx = (1 − β t )
−α
d
−α −1
m x (t ) / t =0 = −α (1 − β t ) (− β ) / t =0 = α β
dt
d2
µ 2 = 2 m x (t ) / t =0 = α β 2 (α + 1)
dt
var( X ) = µ 2 − µ12 = α β 2
µ=
2.8.3 Distribuzione Esponenziale Negativa
Per k = 1 la distribuzione Gamma prende nome di distribuzione Esponenziale negativa( a
ragione della forma assunta, che è appunto quella di una funzione esponenziale negativa). Di
conseguenza, se la distribuzione Gamma è utilizzata come modello per determinare la probabilità
che sia necessario un intervallo di tempo X = x affinché si ottenga la k-esima manifestazione
dell’evento d’interesse, a sua volta la distribuzione Esponenziale può essere utilizzata per
determinare la probabilità che sia necessario un intervallo di tempo X = x affinché si abbia la prima
manifestazione dell’evento d’interesse.
La funzione di densità di probabilità dell’Esponenziale si ottiene ponendo α = 1 nella funzione
di densità di probabilità Gamma:
P ( X = x) = f ( x; β ) =
1
β
e
−
x
β
per 0 ≤ x ≤ +∞, β > 0
Da cui
m x (t ) = E (e tX ) = (1 − β t )
da cui
µ=β
var( X ) = β 2
72
−1
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Esempio 2.33
La funzione delle probabilità cumulate dell’esponenziale negativa assume particolare
significato quando l’evento d’interesse è il guasto di un macchinario o di una sua parte. In tal caso,
ponendo λ =
1
β
, λ diventa il tasso di rottura di quel macchinario per unità di tempo e la funzione
delle probabilità cumulate fornisce la probabilità che il macchinario si guasti prima del tempo X =
x. In realtà, è di maggiore interesse conoscere la probabilità che il macchinario non si guasti prima
di un certo tempo x: tale probabilità è semplicemente 1 − F ( x ) = e − λx . Tale funzione è spesso
chiamata “funzione di attendibilità” ed è usata per determinare l’attendibilità o, analogamente, la
probabilità che non si verifichi nessun guasto entro certi tempi per certi tipi di macchinario.
Affinché la funzione di attendibilità sia un buon modello è, però, necessario che il macchinario
d’interesse abbia un tasso di rottura λ costante nel tempo; in caso contrario l’Esponenziale non
fornisce un buon modello per verificare l’affidabilità del macchinario.
Un utile aspetto della funzione di attendibilità è che tramite essa è possibile conoscere
l’affidabilità di un intero sistema produttivo costituito da una serie di macchinari M1, M2, .... Mn,
aventi, rispettivamente, tassi di fallimento λ1, λ2, ..., λn costanti, così da valutare oggettivamente la
possibilità di ultimare una certa produzione entro il termine di consegna x. Infatti, l’affidabilità A
dell’intero sistema è data da:
n
⎛
⎞
A = exp⎜ − x ∑ λi ⎟
i =1
⎝
⎠
e il tasso di fallimento dell’intero sistema è semplicemente la somma dei tassi di fallimento delle
singole componenti.
Si consideri, ad esempio, un’azienda produttrice di computer che sta per lanciare sul mercato
un nuovo tipo di stampante: uno dei principali fattori critici per il successo di questo nuovo
prodotto è stato individuato dai manager dell’azienda nel suo effettivo corretto funzionamento.
Infatti, se la stampante dovesse rompersi, ne risentirebbero negativamente la soddisfazione del
consumatore e, quindi, il livello delle vendite future di tutti i prodotti dell’azienda. Prima del lancio
sul mercato, il management dell’azienda vorrebbe, dunque, avere maggiori informazioni sul grado
di affidabilità del nuovo prodotto, in termini di guasti che lo stesso potrebbe presentare nel termine
di un anno dall’acquisto da parte del cliente. A tal proposito il responsabile tecnico della
produzione sa che tutte le componenti la stampante sono già state ampiamente usate e testate da
anni su altri prodotti dell’azienda e sono altamente affidabili; l’unica eccezione è rappresentata da
un sensore elettrico che entra in funzione ogni volta che la stampante viene predisposta per un tipo
73
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
di carta più grande del classico A4. Egli stima che il dispositivo venga attivato in media 10 volte
all’anno. Il modello esponenziale fornisce, in questo caso, la probabilità di “sopravvivenza” del
singolo prodotto, tramite l’espressione P( X ≥ x ) = e − λx , dove x rappresenta una misura del
tempo di sopravvivenza. Poiché il tempo è misurato in termini di numero di volte in cui il
dispositivo elettrico viene attivato, cioè 10, allora si può porre
x = 10. L’unico parametro
sconosciuto, a questo punto, rimane λ, il tasso di fallimento. A questo proposito il responsabile
tecnico acquista un certo numero di dispositivi elettrici e li sottopone a 10.000 cicli di
accendimento e spengimento: il numero di guasti osservati è di 7 sul totale di 10.000 cicli. Dunque,
il responsabile tecnico stima il tasso di fallimento del sensore pari a λ = 7 / 10.000 = 0,0007 . Di
conseguenza, P( X ≥ x ) = e − λx = e −0,0007⋅10 = e −0,007 = 0,993 = 99,3% , cioè la probabilità che una
stampante funzioni adeguatamente per almeno un anno senza presentare guasti è pari al 99,3%.
2.8.4 Distribuzione χ2 (di Pizzetti-Pearson)
Se nella distribuzione Gamma si pone α =
n
(n intero positivo) e
2
β = 2 si ottiene una
importante v.c generalmente indicata con il simbolo χ n2 (v.c. chi quadro) la cui funzione di densità
è:
f ( x) = f ( x; n) =
2
n/2
1
x ( n / 2) −1e − x / 2
Γ(n / 2)
per x ≥ 0
Dove il parametro n rappresenta i gradi di libertà della distribuzione χ2.
La curva della distribuzione χ2 è monotona per n = 1 e n = 2; per n > 2 ha un massimo nel
punto x = n - 2.
La funzione generatrice dei momenti media è la varianza sono di seguito riportati
m x (t ) = E (e tX ) = (1 − 2 t )
−
n
2
e
µ=n
var( X ) = 2 n
Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale normale con
media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2 ,definita nell’intervallo
0⎯+∞ , è una variabile del tipo χ2 (chi quadro) con un grado di libertà. In generale, se X1,
74
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
X2,...,Xn sono variabili casuali normali standardizzate (cioè con valor medio nullo e varianza
unitaria) indipendenti (in probabilità o stocasticamente indipendenti), la somma dei loro quadrati X
= X12 + X22 + ...+Xn2 dà luogo ad una variabile casuale,
Si dimostra che la variabile casuale χ n2 standardizzata tende, al crescere di
n, alla
distribuzione normale standardizzata, ne deriva quindi una possibilità di approssimazione della v.c.
χ2 mediante la v.c. normale per n sufficientemente elevato. Si dimostra inoltre che la somma di k
variabili casuali del tipo χ2, stocasticamente indipendenti e con gradi di libertà rispettivamente pari
k
a n1, n2, ...,nk, è ancora una variabile casuale χ2 con g = ∑ ni gradi di libertà (proprietà additiva
i =1
o riproduttiva del χ2).
Esempio 2.30
Sia X una variabile casuale del tipo χ2 con 5 gradi di libertà. Si vogliono determinare le
costanti c, c1 e c2 in modo che sia:
a) P (X ≤ c) = 0,10
b) P (X > c) = 0,05
c) P (c1 < X ≤ c2) = 0,95 per c1 < c2
Utilizzando le tavole della distribuzione χ2 si avrà
a) - P (X ≤ c) = F(c) = 0,10 => c = 1,61
b) - P (X > c) = 1 - p (X ≤ c) = 1 - F(c) = 0,05 => c = 11,1
c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c2) capaci
di soddisfare la condizione posta, si potrebbe ad esempio suddividere la probabilità 0,05 in modo da
avere un livello pari a 0,01 alla sinistra di c1 ed un intervallo 0,04 alla destra di c2, oppure 0,02 a
sinistra di c1 e 0,03 a destra di c2 ecc.; usualmente, a meno che non vi siano particolari ragioni per
specificare altrimenti, si suddivide la probabilità in parti uguali, così facendo si avrà
P (X ≤ c1) = F(c1) = 0,025 => c1 = 0,831
P (X > c2) = 1 - P (X ≤ c2) = 0,025 => c2 = 12,8
75
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
da cui
P (c1 < X ≤ c2) = P (0,831 < X ≤ 12,8) = 0,95
2.8.5 Distribuzione Beta
La distribuzione Beta è considerata la distribuzione base per le variabili casuali limitate
inferiormente e superiormente ed è particolarmente rilevante in quanto utilizzata come modello per
descrivere la distribuzione dello stimatore del parametro p della v.c. Binomiale.
La v.c. Beta, definita su un intervallo finito [a,b], dipende da quattro parametri (a, b, m, n) e
possiede la seguente funzione di densità di probabilità:
1
( x − a ) m −1 (b − x) m −1
f ( x) =
B(m, n)
(b − a) m + n −1
per a ≤ x ≤ b, m > 0 e n > 0 .
La funzione matematica B(m,n) è in relazione la funzione gamma Γ, già introdotta quando si
è trattata la variabile casuale χ 2 . La relazione è:
B(m, n ) =
Γ(m)Γ(n) (m − 1)!(n − 1)!
=
(m + n − 1)!
Γ(m + n )
la cui espressione analitica è
B(m, n ) = ∫ x m −1 (1 − x )
1
0
n −1
dx
per m > 0 e n > 0
Nella generalità dei casi, la variabile casuale Beta viene definita sull’intervallo unitario [0,1]
e, quindi, la funzione di densità diventa:
f ( x) =
1
(m + n − 1)! (m −1)
( n −1)
(1 − x )(n−1) con 0 ≤ x ≤ 1
x (m −1) (1 − x )
=
x
B(m, n)
(m − 1)!(n − 1)!
La media e la varianza della distribuzione Beta sono date da:
µ=
mn
m
e σ2 =
2
m+n
(m + n ) (m + n + 1)
Al variare del valore dei parametri m ed n, la funzione di densità Beta può assumere un gran
numero di forme diverse: per questo viene utilizzata come modello per esperimenti per i quali una
di tali forme risulti adeguata.
76
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.8.6 Distribuzione Uniforme Continua
La distribuzione Uniforme Continua si configura come caso particolare della distribuzione
Beta ponendo m = n = 1. Tale distribuzione, che ha scarse applicazioni pratiche, viene impiegata
per descrivere situazioni in cui la variabile X è distribuita uniformemente in un certo intervallo.
Questo comporta che sottointervalli di pari ampiezza hanno tutti la stessa probabilità, così che la
funzione di densità di probabilità assume una forma rettangolare, esplicitata dalla seguente
relazione.
f ( x) =
1
con − ∞ < a < x < b < +∞
b−a
La funzione di ripartizione F(x) è pari a:
F ( x) =
x−a
con a < x < b
b−a
(b − a ) .
a+b
; σ 2(X ) =
2
12
2
e la media e la varianza: E ( X ) =
2.8.7 Distribuzione t (di Student)
La c.d. distribuzione
t
è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo
pseudonimo di "Student".
La distribuzione t è relativa alla variabile casuale
X =
Z
Y /n
dove:
•
Z è una variabile casuale normale standardizzata;
•
Y è una variabile casuale χ2 con n gradi di libertà;
•
Z e Y sono variabili stocasticamente indipendenti.
La distribuzione t ha funzione di densità di probabilità
77
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
⎛ n + 1⎞
Γ⎜
⎟
1
2 ⎠
⎝
f ( x) = f ( x; n) =
n +1
⎛n⎞
Γ⎜ ⎟ nπ ⎛
x2 ⎞ 2
⎜⎜1 + ⎟⎟
⎝2⎠
n ⎠
⎝
per − ∞ ≤ x ≤ +∞
è simmetrica ed ha un massimo nel punto t = 0. La media è µ = 0 per n ≥2 , mentre non esiste per
n = 1; la varianza non esiste per n = 1, 2 mentre per n ≥ 3 la varianza è data da σ 2 =
n
n−2
Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata; un buona
approssimazione si ottiene anche per n relativamente piccolo ( n > 30 ).
Esempio 2.31
Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono
determinare i valori della costante c che soddisfano le relazioni: a) P(X > c) = 0,05; b) P(X < c) =
0,05; c)P(-k < X ≤ k) = 0,99; d) P(0 < X ≤ c) = 0,475.
Utilizzando le tavole della distribuzione t e ricordando la simmetria di tale distribuzione, si
ottiene
a)- P (X > c) = 1 - P (X ≤ c) = 1 - F(c) = 0,05 => c = 1,83
b)- P (X ≤ c) = F(c) = 0,05 => c = -1,83
c)- P (-c < X ≤ c) = P (X < c) - P (X ≤ c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] =
0,99 => c = 3,25
d)- P (0 < X ≤ c) = P (X ≤ c) - P (X ≤ 0) = F(c) - 0,5 = 0,475 => c = 2,26
2.8.8 Distribuzione F (di Fisher- Snedecor)
La distribuzione F è relativa alla variabile
X =
V / n1
Y / n2
dove V e Y sono due variabili casuali del tipo χ2, con gradi di libertà rispettivamente pari a n1 e n2,
distribuite indipendentemente. Si noti che l'ordine dei gradi di libertà n1 e n2 è fondamentale,
infatti si verifica facilmente che le due variabili casuali Fn1 ,n2 e Fn−21,n1 hanno la stessa distribuzione.
78
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
La funzione di densità di probabilità di una variabile casuale X di tipo F, con n1 e n2 gradi
di libertà, risulta essere
⎛ n + n2 ⎞ n1 / 2 n2 / 2
Γ⎜ 1
⎟n1 n 2
2 ⎠
x ( n1 / 2) −1
⎝
f ( x) = f ( x; n1 , n2 ) =
(n1 x + n 2 ) ( n1 + n2 ) / 2
⎛n ⎞ ⎛n ⎞
Γ⎜ 1 ⎟Γ⎜ 2 ⎟
⎝2⎠ ⎝ 2⎠
per 0 ≤ x ≤ +∞
La media e la varianza sono date da.
2n 22 (n1 + n − 2)
n2
2
;σ =
µ=
n2 − 1
n1 (n 2 − 2) 2 (n 2 − 4)
Esempio 2.32
Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si vogliono
determinare i valori della costante c che soddisfano le relazioni:
a) P (X ≤ c) = 0,95 ; b) P (X ≤ c) = 0,01.
Utilizzando la tavola della distribuzione F si ottiene
a) P (X ≤ c) = F7,10(c) = 0,95 => c = 3,14
b) - Per quanto detto nel testo risulta l'uguaglianza
F7,10(c) = 1 - F10,7(1/c), per cui
P (X ≤ c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 =>
1
= 3,64 => c = 0,27.
c
2.8.9 Variabili casuali continue: riepilogo
Di seguito è riportato riepilogo delle variabili casuali continue considerate.
V.c. Normale
-
E’ la distribuzione su cui è basata principalmente tutta l’inferenza statistica; grazie al
teorema del limite centrale (esposto più avanti) è adatta a numerose applicazioni
79
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
-
Versione 2006
Parametri caratteristici: la media µ e la varianza σ2
- Forma della funzione di densità: campanulare simmetrica con indice di curtosi pari a 3
V.c. Gamma
-
Fornisce la distribuzione del tempo necessario affinché si realizzino k eventi indipendenti
quando il tasso di realizzazione è costante
-
Parametri caratteristici: k, il numero di successi desiderati; λ, il tasso di realizzazione di un
successo per unità di tempo
-
Forma della funzione di densità: asimmetrica positiva con una moda, quando k ≥ 1;
altrimenti decresce monotonicamente a partire dall’origine.
V.c. Esponenziale negativa
-
Deriva dalla v.c. Gamma quando k = 1. Fornisce la probabilità dell’intervallo di tempo
necessario affinché si realizzino due eventi indipendenti con tasso di realizzazione
costante
-
Parametri caratteristici: λ, il tasso di realizzazione di un successo per unità di tempo
-
Forma della funzione di densità: esponenziale
V.c. Chi – quadro di Pizzetti-Pearson
-
Deriva dalla somma di n variabili casuali normali standardizzate
-
Parametri caratteristici: n, il numero di gradi di libertà
-
Forma della funzione di densità: asimmetrica positiva con indice di curtosi maggiore di 3.
Per n tendente ad ∞, assume una forma sempre più vicina alla Normale
V.c. Beta
-
Distribuzione base per le variabili casuali limitate inferiormente e superiormente. E’
impiegata come modello per descrivere la distribuzione degli stimatori dei parametri di
alcune variabili casuali
-
Parametri caratteristici: m ed n, che definiscono la forma e i momenti caratteristici della
funzione
-
Forma della funzione di densità: varia notevolmente al variare di m ed n. Per es., se m = n,
la funzione è simmetrica rispetto ad x = ½; altrimenti è asimmetrica. Scambiando m con n
si riflette la forma della distribuzione rispetto al suo asse di simmetria. Se sia m che n
sono entrambi maggiori di 1, allora la funzione mostra una moda, altrimenti, se sono
entrambi minori di 1, presenta una forma ad U e, quindi, una “antimoda”. Quando (m-1)
(n-1) ≤ 0, la funzione presenta una forma a “J”.
80
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
V.c. Uniforme (rettangolare)
-
E’ un caso particolare della v.c. Beta. Fornisce la probabilità del realizzarsi di eventi
all’interno di un certo intervallo, quando la probabilità di realizzazione è proporzionale
all’ampiezza dell’intervallo.
-
Parametri caratteristici: a e b, che delimitano l’intervallo di variabilità di x
-
Forma della funzione di densità: è un segmento parallelo all’asse delle ascisse
nell’intervallo (a, b).
V.c. t di Student
-
Deriva dal rapporto tra una Normale standardizzata e la radice quadrata di una v.c. Chi –
quadrato divisa per i suoi gradi di libertà
-
Parametri caratteristici: n, il numero di gradi di libertà
-
Forma della funzione di densità: simmetrica con media nel punto 0 (se n = 1 però la media
non esiste). Per n tendente ad ∞, assume una forma sempre più vicina alla Normale.
V.c. F di Fisher-Snedecor
-
Deriva dal rapporto di due v. c. Chi – quadrato, ciascuna divisa per i rispettivi gradi di
libertà (n1 ed n2)
-
Parametri caratteristici: n1 ed n2, i gradi di libertà
-
Forma della funzione di densità: asimmetrica positiva.
81
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
2.9 Variabili casuali multidimensionali
Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè delle funzioni
che soddisfano a certe condizioni e che associano a ciascun evento elementare (punto dello spazio
campionario) ω∈Ω un numero reale.
L’estensione al caso multidimensionale o multivariato non presenta difficoltà di ordine logico,
si tratta, infatti, di definire un’analoga funzione che associa a ciascun evento elementare non più un
numero ma una k-upla (k ≥ 2) ordinata di numeri reali.
Definizione 8 - Si dice variabile casuale (vettore casuale) a k dimensioni una funzione
X(ω)
[X (ω ) = ( x1 , x2 ,..., xk ) = x] a valori reali in Rk (spazio euclideo a k dimensioni) definita su Ω
per la quale vale la relazione
A=[ω∈Ω / X (ω )≤ x ]∈B per ogni x ∈ Rk ;
Quindi la variabile casuale a
dove x = (x1,x2,...,xk).
k dimensioni è una funzione a
k componenti che fa
corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre, essendo A ∈
B elemento dell’algebra di Boole costruita sugli eventi (ω ∈ Ω) è possibile determinare la sua
misura di probabilità
P( A) = P[ω ∈ Ω / X (ω ) ≤ x ]= P[X (ω ) ≤ x ]=
= P( X ≤ x )= P[( X 1 ≤ x1 )∩( X 2 ≤ x2 )∩…∩( X k ≤ xk )] =
= F(x1,x2, ..., xk) = F(x)
che definisce la funzione di distribuzione o funzione di ripartizione
o funzione delle
probabilità cumulate della variabile casuale a k dimensioni (vettore casuale) X = (X1,X2, ..., Xk).
La variabile casuale multipla X = (X1, X2, ..., Xk) è discreta se tutte le componenti possono
assumere soltanto un numero finito o un’infinità numerabile di valori reali distinti, è invece
continua se tutte le componenti possono assumere un’infinità non numerabile di valori (tutti i
valori in intervalli dell’asse reale); si parla di variabili casuali miste, quando alcune componenti
sono discrete, altre continue.
La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a proposito
della funzione di distribuzione per variabili casuali semplici
F(x) . Infatti, la funzione di
distribuzione F(x) = F(x1,x2, ..., xk):
i)
è monotona non decrescente rispetto a tutti gli argomenti;
82
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
ii)
Versione 2006
valgono i limiti
lim F ( x1 , x 2 ,..., x k ) =1
x1 → +∞
x2 → +∞
xk → +∞
lim F ( x1 , x2 ,..., xi ,..., xk ) = 0
xi →−∞
per i = 1,2,...,k
lim F( x 1 , x 2 ,..., x i ,..., x k ) =
x i →+∞
= F ( x1 , x2 ,..., xi −1 , xi +1 ,..., xk )
per i = 1,2,...,k
dove F ( x1 , x 2 ,..., xi −1 , xi +1 ,..., x k ) è la funzione di distribuzione
della variabile
casuale a k-1
dimensioni (X1, X2, ..., Xi-1, Xi+1 ,..., Xk).
iii)
è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente
continua rispetto a tutti gli argomenti nel caso continuo.
Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione di
distribuzione possono essere ricavate in modo univoco, rispettivamente, nel caso discreto e nel
caso continuo, la funzione di massa di probabilità
[
]
f ( x1i , x2 j ,..., xks ) = P ( X 1 = x1i )∩ (X 2 = x2 j )∩…∩( X k = xks )
e la funzione di densità di probabilità
f ( x1 , x 2 ,..., x k ) =
∂k
F ( x1 , x 2 ,..., x k )
∂ x1 ⋅∂ x 2 ⋅…⋅∂ x k
Per la funzione di massa di probabilità valgono le proprietà:
0 ≤ f(x1i, x2j, ... , xks) ≤ 1
,
∑∑
i
j
...
∑ f (x
s
1i
, x 2 j ,..., x ks ) = 1
mentre per la funzione di densità valgono le proprietà
f(x1, x2, ... , xk) ≥ 0 ;
+∞ +∞
∫ ∫
−∞ − ∞
83
+∞
... ∫ f ( x1 , x2 ,..., xk ) dx1 dx2 ...dxk =1
−∞
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso discreto, di
densità di probabilità, nel caso continuo, esiste una corrispondenza biunivoca e le funzioni stesse
identificano completamente la variabile casuale multipla X = (X1, X2, ..., Xk).
Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile casuale multipla
(X1, X2, ..., Xi, ..., Xk), si dicono indipendenti in probabilità o statisticamente indipendenti se
vale la relazione
F(x1, x2, ..., xk) = F(x1) ⋅ F(x2) ⋅ ... ⋅ F(xk)
od anche
f(x1i, x2j, ..., xks) = f(x1i) ⋅ f(x2j) ⋅ ... ⋅ f(xks)
f(x1, x2, ..., xk) = f(x1) ⋅ f(x2) ⋅ ... ⋅ f(xk)
nel discreto
nel continuo
Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale a due
dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è posto X1 = X e X2
=Y.
La variabile casuale doppia (X, Y) è completamente individuata dalla sua funzione di
distribuzione
F ( x, y )= P[( X ≤ x)∩(Y ≤ y )]
od anche:
i)
dalla sua funzione di massa di probabilità nel caso discreto
f ( xi , y j ) = F ( xi , y j )− F ( xi , y j −1 )− F ( xi −1 , y j )+ F ( xi −1 , y j −1 )=
[
]
= P ( X = xi ) ∩ (Y = y j ) = p ij = f ij
per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +∞);
ii)
dalla sua funzione di densità di probabilità nel caso continuo
f ( x, y ) =
∂2
F ( x, y )
∂x ⋅ ∂y
84
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
per a ≤ x ≤ b e c ≤ y ≤ d (a e/o c possono tendere al valore -∞, b e/o d possono tendere al
valore +∞).
Valgono, ovviamente, le relazioni
h
k
∑∑ f ( x , y
0 ≤ f(xi , yj) ≤ 1 ,
i =1 j =1
f(x , y) ≥ 0
,
b
d
a
c
i
j
) =1
∫ ∫ f ( x, y) dx dy =1
inoltre
h
∑ f (x , y ) =
i =1
f (y j )
per j = 1,2,..., k
f (x i )
per i = 1,2,..., h
f ( x , y) dx = f ( y)
per c ≤ y ≤ d
f ( x , y) dy = f ( x)
per a ≤ x ≤ b
i
j
k
∑ f (x , y ) =
j =1
i
j
b
∫
a
d
∫
c
che forniscono le funzioni di massa e di densità di probabilità delle variabili casuali semplici
componenti la variabile casuale doppia (variabili casuali marginali).
Una variabile casuale doppia discreta viene usualmente rappresentata in una tabella a doppia
entrata del tipo
85
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Y
y1
y2
...
yj
...
yk
x1
p11
p12
...
p1j
...
p1k
p1.
x2
p21
p22
...
p2j
...
p2k
p2.
xi
pi1
pi2
...
pij
...
pik
pi.
xh
ph1
ph2
...
phj
...
phk
ph.
p.1
p.2
...
p.j
...
p.k
1
X
Tab. 1 - Schema di tabella a doppia entrata per la variabile casuale doppia
discreta (Xi,Yj)
dove
[
pij = f ij = f ( xi , y j ) = P ( X = xi )∩(Y = y j )
k
pi. =∑ pij
]
per i = 1,2,...,h
j =1
h
p. j =∑ pij
per j = 1,2,...,k
i =1
h
k
p.. =∑∑ p ij =1
i =1 j =1
Le due variabili casuali semplici X ed Y, componenti la variabile casuale doppia (X, Y), sono
indipendenti statisticamente, o indipendenti in probabilità se
[
]
pij = pi. ⋅ p. j = P ( X = xi )∩(Y = y j ) = P( X = xi )⋅ P(Y = y j ) = f ( xi , y j ) = f ( xi )⋅ f ( y j )
Se le due componenti, come avviene nella generalità dei casi, non sono indipendenti,
interesserà, per un verso, la misura dell’eventuale relazione, per altro verso, l’analisi delle
cosiddette variabili casuali condizionate che, riferendosi per semplicità sempre al caso discreto,
sono definite dalle relazioni:
i)
variabili casuali condizionate X/⋅
(X/Y = yj) = X/yj
per j = 1,2,...,k
con funzioni di massa condizionata
86
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
f(xi/yj) =
ii)
f ( xi , y j )
f (y j )
per i = 1,2,...,h ; j = 1,2,...,k
variabili casuali condizionate Y/⋅
(Y/X = xi) = Y/ xi
per i = 1,2,...,h
con funzioni di massa condizionata
f(yj/xi) =
f ( xi , y j )
f ( xi )
per i = 1,2,...,h ; j = 1,2,...,k
Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità della
variabile condizionante Y) e h variabili condizionate Y/xi (tante quante sono le modalità della
variabile condizionante X).
Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y e (Y/X = x)
= Y/x saranno in numero infinito.
La funzione di distribuzione o le funzioni di massa o di densità di probabilità descrivono in
modo completo sia la variabile casuale doppia che le variabili casuali semplici (variabili casuali
marginali) componenti la variabile casuale doppia e le variabili casuali condizionate. Come già
evidenziato a proposito delle variabili casuali semplici può risultare comunque conveniente una
descrizione sintetica (e quindi parziale) delle variabili casuali doppie. Un modo per procedere nella
sintesi, analogamente a quanto si è fatto per le variabili casuali semplici, è quello di calcolare il
valore atteso di opportune trasformazioni delle variabili casuali doppie; ovviamente, le
trasformazioni devono essere tali da rendere significativo (finito) il computo del valore atteso.
Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito da
E [g ( X )] = ∑∑ g (xi , y j ) ⋅ f (xi , y j ) = ∑∑ g (xi , y j ) ⋅ pij nel discreto
h
h
k
i =1 j =1
E [g ( X )] = ∫
b
a
k
i =1 j =1
∫ g (x, y ) ⋅ f (x, y ) nel continuo
d
c
Ponendo g(X , Y) = Xr ⋅ Ys , per r,s = 0,1,2,..., si ha
87
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
µ rs = E (X r ⋅ Y s ) = ∑∑ xir y sj ⋅ pij
h
k
nel discreto
i =1 j =1
µ rs = E (X r ⋅ Y s ) = ∫
b
a
∫
d
c
x r y s ⋅ f ( x,y ) dx dy
nel continuo
che viene detto momento misto di ordine r⋅s rispetto all’origine.
Risulta facile verificare che i momenti misti µ10 e µ01 sono i momenti primi (cioè le medie
aritmetiche) delle variabili casuali semplici X ed Y ; infatti, si ha, ad es.:
µ10 = E (X 1 ⋅ Y 0 ) = ∑∑ x ⋅ pij = ∑ x i p i.
h
k
h
i =1 j =1
µ10 = E (X 1 ⋅ Y 0 ) = ∫
b
a
∫
d
c
nel discreto
i =1
x r ⋅ f ( x, y ) dx dy = ∫ x r ⋅ f ( x ) dx
b
a
nel continuo
Analoghe considerazioni possono essere fatte nei confronti dei momenti µ01, µ20, µ02, µ30,
µ03, ecc.
Il momento misto più significativo ed interessante è quello del primo ordine o momento misto
rispetto all’origine di ordine 1⋅1 (µ11 = µxy) che può essere inteso come una sorta di media
aritmetica della variabile casuale doppia (X , Y).
Ponendo
g(X ⋅ Y) = ( X − µ x ) r (Y − µ y ) s per r, s = 0,1,2,…
si ha
µ rs = E [( X − µ x ) r (Y − µ y ) s ]
che viene detto momento misto centrale, o momento misto rispetto alla media, di ordine r⋅s .
I momenti misti di ordine 0⋅0, 0⋅1 e 1⋅0, non sono significativi essendo sempre uguali a
uno e zero, mentre risulta particolarmente interessante il momento misto di ordine 1⋅1 :
µ 11 = E [( X − µ x ) (Y − µ y )] = σ xy = σ yx = µ11 − µ10 ⋅ µ 01
che viene detto covarianza.
88
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
La covarianza è un indice assoluto di concordanza tra le due componenti. Si tratta, cioè, di
un indice che misura l’associazione tra le due componenti X ed Y e potrà assumere valore
positivo, negativo o nullo. Assumerà un valore positivo quando le due componenti la variabile
casuale doppia variano tendenzialmente nella stessa direzione, al crescere dei valori assunti dalla X
crescono i valori assunti dalla Y , ed anche, al diminuire dei valori assunti dalla X diminuiscono i
valori assunti dalla Y. In questo caso si avrà che a scarti positivi (negativi) (X-µx) corrisponderanno,
usualmente, scarti positivi (negativi) (Y-µy) ed il prodotto degli scarti risulterà, usualmente, positivo.
La covarianza assume invece valore negativo quando le due variabili variano in direzione
opposta, cioè quando al crescere dei valori assunti da una variabile i valori assunti all’altra variabile
diminuiscono e viceversa. In questo caso nella formula per il computo della varianza si troveranno,
usualmente, prodotti tra uno scarto positivo di una variabile ed uno scarto negativo dell’altra
variabile e viceversa.
Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo ordine delle due
variabili casuali marginali, cioè le due varianze:
µ 20 = E [( X − µ x ) 2 (Y − µ y ) 0 ] = E [( X − µ x ) 2 ] = σ x2
µ 02 = E [( X − µ x ) 0 (Y − µ y ) 2 ] = E [(Y − µ y ) 2 ] = σ y2
Se si pone
⎛ X − µx
g(X,Y) = ⎜⎜
⎝ σx
⎞
⎟⎟
⎠
r
⎛Y − µy
⎜
⎜ σ
y
⎝
⎞
⎟
⎟
⎠
s
per r,s = 0,1,2,…
si ha
µ rs
⎡⎛ X − µ
x
= E ⎢⎜⎜
⎢⎝ σ x
⎣
⎞
⎟⎟
⎠
r
⎛Y − µy
⎜
⎜ σ
y
⎝
⎞
⎟
⎟
⎠
s
⎤
⎥
⎥
⎦
che viene detto momento misto standardizzato di ordine r⋅s .
Il momento misto più significativo è il momento mista standardizzato di ordine 1⋅1
89
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
⎡⎛ X − µ
x
µ 11 = E ⎢⎜⎜
⎢⎝ σ x
⎣
⎞
⎟⎟
⎠
⎛Y − µy
⎜
⎜ σ
y
⎝
⎞⎤
σ xy
⎟⎥ =
= ρ xy = ρ yx = ρ
⎟⎥ σ ⋅ σ
x
y
⎠⎦
usualmente detto coefficiente di correlazione (di Bravais-Pearson).
Il coefficiente di correlazione è un indice relativo di concordanza, si dimostra, infatti, la
relazione
⏐ σxy ⏐ ≤ σx σy
dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y sono
linearmente dipendenti cioè quando Y = a+b X . In questo caso ρxy = ρyx = ±1 ed il segno
dipenderà dal segno del coefficiente angolare della retta.
Quindi, il coefficiente di correlazione varia tra -1 e +1 ; quando ρxy = ρyx = 0 (cioè quando
σxy = σyx = 0) le due componenti X ed Y sono linearmente indipendenti. Questa forma di
indipendenza è una forma molto particolare di mancanza di associazione tra variabili e non esclude
affatto la presenza di un possibile legame di natura diversa tra le due componenti X ed Y della
variabile casuale doppia
(X,Y). Infatti potrebbe sussistere tra le due componenti un legame
funzionale molto stretto, ad es. Y = a+bX2 , e risultare ρxy = 0.
Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo di
concordanza) è un indice di dipendenza o meglio interdipendenza (essendo ρxy = ρyx) lineare.
Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi altra forma di
indipendenza). Infatti, se le due componenti X ed Y sono statisticamente indipendenti f(x,y) =
f(x)⋅f(y) e quindi (senza perdere in generalità si considera il caso continuo)
b
µ 11 = σ xy = E [( X − µ x ) (Y − µ y )] = ∫
a
d
∫ (x − µ
x
)( y −µ y ) f ( x, y ) dx dy
c
a rgione dell' indipendenza tra x e y si ha
b
=∫
a
d
∫ (x − µ
x
)( y −µ y ) f ( x) ⋅ f ( y ) dx dy =
c
b
d
a
c
= ∫ ( x − µ x ) f ( x) dx ⋅ ∫ ( y − µ y ) f ( y ) dy = µ 10 ⋅ µ 01 = 0
90
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
L’indipendenza lineare, come già sottolineato, non implica l’indipendenza statistica a meno di
casi particolari; su uno di questi casi si avrà modo di soffermare l’attenzione nelle righe seguenti ed
è quello particolarmente rilevante della variabile casuale normale doppia.
Oltre alla variabile casuale normale verrà esaminato un solo altro caso di variabile doppia: la
variabile casuale binomiale doppia (detta usualmente variabile casuale trinomiale) di cui verrà
proposta anche l’estensione al caso k >2 (variabile casuale multinomiale).
2.9.1 Distribuzione normale doppia
La funzione di densità della variabile casuale normale doppia o variabile casuale normale
bivariata è data da
f ( x, y; µ x , µ y , σ x , σ y , ρ xy ) =
−
1
2 π σ xσ y 1 − ρ xy2
e
1
2
2 (1− ρ xy
)
⎡⎛
⎢⎜ x−µ x
⎢ ⎜⎝ σ x
⎣⎢
2
⎞
⎛ x−µx
⎟ − 2 ρ xy ⎜
⎟
⎜ σ
x
⎠
⎝
⎞ ⎛⎜ y − µ y
⎟
⎟⎜ σ
y
⎠⎝
⎞ ⎛ y−µ y
⎟ +⎜
⎟ ⎜ σy
⎠ ⎝
⎞
⎟
⎟
⎠
2
⎤
⎥
⎥
⎦⎥
per -∞ ≤ x ≤ +∞ e -∞ ≤ y ≤ +∞ e dove i parametri che caratterizzano la distribuzione coincidono
con gli indici caratteristici più significativi della distribuzione stessa
µ10 = E ( X ) = µ x , µ 01 = E (Y ) = µ y
µ 20 = E [( X − µ x ) 2 ] = σ x2 , µ 02 = E [(Y − µ y ) 2 ] = σ y2
⎡⎛ X − µ x
µ 11 = E ⎢⎜⎜
⎢⎣⎝ σ x
⎞⎛ Y − µy
⎟⎟ ⎜
⎜
⎠⎝ σ y
⎞⎤
σ xy
⎟⎥ = µ11 − µ10 ⋅ µ 01 =
= ρ xy = ρ yx
⎟⎥
σxσy
σx σy
⎠⎦
E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti
+∞
f ( x) =
∫ f ( x, y)dy =
−∞
91
1
2π σ x2
e
−
1
2 σ x2
( x − µ x )2
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
+∞
f ( y )=
∫
f ( x , y )dx =
−∞
f ( x, y )
=
f ( x / y) =
f ( y)
f ( x, y )
f ( y / x) =
=
f ( x)
−
1
2π σ y2
1
2π σ x2 (1 − ρ xy2 )
1
2π σ y2 (1 − ρ xy2 )
( y − µ y )2
−
⎤
⎡
σ
1
⎢ y − µ x − ρ xy x ( y − µ y ) ⎥
2
σy
2 σ x2 (1− ρ xy
) ⎢⎣
⎥⎦
−
σy
⎡
⎤
1
( x−µx )⎥
⎢ y − µ y − ρ xy
2
σx
2 σ y2 (1− ρ xy
) ⎣
⎦
e
e
e
1
2 σ y2
che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle distribuzioni
condizionate che dipendono da medie e varianze delle distribuzioni marginali e dal coefficiente di
correlazione. Se ρxy = ρyx = 0, le due variabili casuali componenti sono statisticamente indipendenti
[ f ( x, y ) =
f ( x) ⋅ f ( y )] e le distribuzioni condizionate, per l’indipendenza, non risentono più del
condizionamento e risultano uguali alle distribuzioni marginali.
Nella Fig. 10 è riportata la forma della funzione di densità e le sezioni orizzontali e verticali
della variabile casuale normale doppia le cui componenti sono incorrelate (indipendenti) ed hanno
uguale varianza.
Fig. 10 – Funzione di densità di una variabile casuale normale bivariata con ρxy = ρyx = 0 e
σ 2x = σ 2y = σ .2
Nella Fig. 11 sono riportate le sezioni orizzontali di variabili casuali normali doppie
incorrelate (ρxy = 0) con relazione diversa tra le varianze delle due distribuzioni marginali
92
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Fig. 11 - Sezioni orizzontali di una variabile casuale normale doppia con ρxy = ρyx = 0
Fig. 12 – Sezioni orizzontali di una variabile casuale normale bivariata con σ x2 = σ y2 = 1
93
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Fig. 13 - Sezioni orizzontali di una variabile casuale normale bivariata con σ x2 = 4 e σ y2 = 1
Nella Fig. 12 sono riportate le sezioni orizzontali di una variabile casuale normale doppia, le
cui componenti hanno stessa varianza σ x2 = σ y2 = 1 , per diversi livelli di correlazione; mentre nella
Fig. 13 le sezioni sono relative a diversi livelli di correlazione e diversa varianza
( σ x2 = 4 e σ y2 = 1) .
Osservando le Figg. 11, 12 e 13 si rileva l’incidenza del valore assunto da parametri
caratteristici sulla forma della funzione di densità. La forma campanulare perfetta si ha solo quando
ρxy = ρyx = 0 e σ x2 = σ y2 . Se ρxy = ρyx = ±1 , cioè se esiste un legame lineare tra le due
componenti, si avrà un completo schiacciamento della distribuzione doppia che degenera in una
distribuzione semplice. Cosa questa peraltro desumibile immediatamente anche per via analitica e
dal punto di vista logico; non ha più senso, infatti, parlare di variabilità su due componenti essendo
la variabilità dell’una (ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la
relazione Y = a + b X).
Come esempio di variabile casuale doppia discreta è stato detto che verrà considerata la sola
variabile casuale trinomiale.
2.9.2 Distribuzione trinomiale (distribuzione binomiale doppia)
Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna prova sia
ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in ciascuna prova, uno dei
94
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
tre deve necessariamente presentarsi ed il presentarsi di un risultato esclude la possibilità del
presentarsi dell’altro. Si supponga che le probabilità associate ai tre possibili risultati siano,
rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).
Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di numeri reali in cui
la prima componente X rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle
n prove, mentre Y rappresenta il numero delle volte in cui si è presentato il risultato ω2.
Ovviamente, il numero delle volte in cui si presenta il risultato ω3 non può essere inserito come
terza variabile essendo lo stesso numero univocamente determinato per differenza (n – x – y).
Se, per semplicità di notazione, si pone
p1 = P(ω1 ) = P( X = 1) = p x
p 2 = P(ω 2 ) = P(Y = 1) = p y
p3 = P(ω 3 ) = P[( X = 0) ∩ (Y = 0)]= 1 − p x − p y = q
si avrà
f ( x, y ) = P[( X = x) ∩ (Y = y )]=
n!
p xx p yy q n − x − y
x! y!(n − x − y )!
dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n prove ed y
il numero delle volte in cui si è presentato il risultato ω2 ; x potrà, pertanto, assumere i valori 0, 1,
2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n-x , ed anche x,y = 0, 1, 2, …, n con il
vincolo x+y ≤ n .
Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono variabili
casuali binomiali, così come risulta facile verificare le uguaglianze sotto riportate relative ad alcuni
momenti misti
µ10 = µx = n px , µ01 = µy = n py
µ 20 = σ x2 = n p x (1 − p x ) , µ 02 = σ y2 = n p y (1 − p y )
95
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
µ 11 = σ xy = σ yx = − n p x p y , µ 11 = ρ xy = ρ yx = −
E (Y / x) = (n − x)
py
1 − px
px ⋅ p y
(1 − p x ) (1 − p y )
, E ( X / y ) = (n − y )
px
1− py
L’espressione analitica delle due distribuzioni condizionate è
(n − x)! ⎛ p y
⎜
f ( y / x) =
y!(n − x − y )! ⎜⎝ 1 − p x
⎞
⎟⎟
⎠
y
⎛ q
⎜⎜
⎝1 − px
⎞
⎟⎟
⎠
n− x− y
(n − y )! ⎛⎜ p x
f ( x / y) =
x!(n − x − y )! ⎜⎝ 1 − p y
⎞
⎟
⎟
⎠
x
⎛ q
⎜
⎜1− p
y
⎝
⎞
⎟
⎟
⎠
n− x− y
Esempio 2.34
Si supponga che il diametro dei tubi prodotti da un certo processo produttivo possa essere
classificato come accettabile se x1 ≤ X ≤ x2 ), sovradimensionato
se X > x2 oppure
sottodimensionato se X < x1. Le probabilità per ciascun tipo di classificazione sono,
rispettivamente, 0.7, 0.2 e 0.1. Qual è la probabilità che, da una sequenza di 10 prove
statisticamente indipendenti, si ottengano come risultato 6 pezzi accettabili, 1 sovradimensionato e
3 sottodimensionati?
Tale probabilità può essere calcolata come il prodotto delle probabilità di due eventi,
ciascuno dei quali segue una distribuzione binomiale.
Il primo evento è dato dall’estrazione di 6 pezzi accettabili (e quindi 4 difettosi), dato un
campione di 10 unità:
⎛10 ⎞
P ( X = 6) = ⎜⎜ ⎟⎟0.7 6 ⋅ 0.3 4 = 0.2001 = 20.01% c
⎝6⎠
Tale evento non fa alcuna distinzione tra pezzi sottodimensionati e pezzi sovradimensionati.
Il secondo evento, invece, è relativo all’estrazione di un pezzo sovradimensionato e 3 pezzi
sottodimensionati, dati 4 pezzi al di fuori dei limiti di accettabilità. La probabilità di tale evento è
data da:
96
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
1
3
⎛ 4 ⎞ ⎛ 0 .2 ⎞ ⎛ 0 .1 ⎞
P(Y = 1) = ⎜⎜ ⎟⎟⎜
⎟ = 0.099 = 9.90% ,
⎟ ⋅⎜
⎝ 1 ⎠ ⎝ 0 .3 ⎠ ⎝ 0 .3 ⎠
laddove la probabilità che un pezzo sia sovradimensionato dato che è difettoso è pari, in base al
principio delle probabilità condizionate, al rapporto tra la probabilità di ottenere un pezzo
sovradimensionato, cioè 0.2, e la probabilità di ottenere un pezzo che sia difettoso, quindi o
sovradimensionato o sottodimensionato, che è data da (0.2+0.1) = 0.3.
La manifestazione congiunta dell’evento X “6 pezzi accettabili in 10 prove” e dell’evento Y
“1 pezzo sovradimensionato in 4 prove” è proprio l’evento di cui stiamo cercando la probabilità.
Tale probabilità è data dal prodotto della probabilità di X = 6 per la probabilità condizionata di Y
= 1 dato X = 6, quindi:
1
3
10!
4! ⎛ 0.2 ⎞ ⎛ 0.1 ⎞
P( X = 6 ∩ Y = 1) =
⋅ 0.7 6 ⋅ 0.34 ⋅
⋅⎜
⎟ ,
⎟ ⋅⎜
6!⋅4!
1!⋅3! ⎝ 0.3 ⎠ ⎝ 0.3 ⎠
semplificando si ottiene:
P ( X = 6 ∩ Y = 1) =
10 !
⋅ 0 . 7 6 ⋅ 0 . 2 1 ⋅ 0 . 1 3 = 0 . 2001 ⋅ 0 . 0990 = 19 . 8 %
6!⋅ 1!⋅ 3!
L’estensione al caso k>2 è immediata: infatti basterà considerare n prove indipendenti ed
ipotizzare che in ciascuna prova si possa presentare uno dei
k+1
risultati necessari ed
incompatibili ω1, ω2, …, ωk, ωk+1 . Si potrà introdurre la variabile casuale multinomiale a k
dimensioni (X1, X2, …, Xk) , dove le componenti rappresentano il numero delle volte in cui, nelle n
prove, si è presentato, rispettivamente il risultato ω1, ω2, …, ωk . Il numero delle volte in cui si
k
presenta il risultato ωk+1 non viene considerato risultando il suo valore per differenza n − ∑ xi .
i =1
2.9.3 Distribuzione multinomiale e ipergeometrica multipla
Se con
k
p1 , p 2 , ... , p k
e
q =1 − ∑ pi
i =1
si indicano le probabilità dei risultati (punti campionari) ω1, ω2, …, ωk+1 , la funzione di massa di
probabilità della variabile casuale multinomiale è
97
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
k
n − ∑ xi
n!
xk
x1
x2
i =1
⋅
f ( x1 , x 2 , ..., x k ) =
p
p
...
p
q
k
1
2
k
⎛
⎞
x1! x 2 ! ... x k !⎜ n − ∑ xi ⎟ !
i =1
⎝
⎠
k
dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo
∑x ≤ n.
i =1
i
Se nella situazione sopra considerata si fa riferimento ad n prove non indipendenti che,
rifacendosi allo schema di estrazione da un’urna, significa effettuare n estrazioni senza ripetizione,
si deriva la versione a k dimensioni della variabile casuale ipergeometrica (X1, X2, …, Xk) che
ha funzione di massa di probabilità
k
⎛
⎞
⎜ N − ∑ Ni ⎟
⎛ N1 ⎞ ⎛ N 2 ⎞ ⎛ N k ⎞ ⎜
i =1
⎟
⎜⎜ ⎟⎟ ⎜⎜ ⎟⎟ ... ⎜⎜ ⎟⎟
k
⎜
x
x
x
⎝ 1 ⎠ ⎝ 2 ⎠ ⎝ k ⎠ n− x ⎟
∑
i ⎟
⎜
i =1
⎝
⎠
f ( x1 , x 2 , ..., x k ) =
N
⎛ ⎞
⎜⎜ ⎟⎟
⎝n⎠
k
dove N1, N2, …, Nk, Nk+1 ( N k +1 = N − ∑ N i ) rappresentano le palline, rispettivamente, del colore
i =1
1,2,…,k e k+1 presenti nell’urna. Ovviamente, in questo caso, il valore numerico assumibile dalle
k
varie componenti sarà condizionato, oltre che dal vincolo
∑x ≤ n
i =1
i
anche dai valori N1, N2, …,
Nk.
2.10 Alcuni teoremi fondamentali del calcolo delle probabilità
Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati di carattere
generale con notevoli implicazioni operative; forniscono, cioè, tipologie informative che si
collocano ad un livello intermedio tra la conoscenza completa, seppure spesso approssimata, della
realtà espressa dal modello e la conoscenza sintetica espressa dagli indici caratteristici (momenti).
Tra questi teoremi uno dei più noti e significativi è quello usualmente noto come disuguaglianza di
Bienaymé-Cebiçev a cui si perviene facilmente attraverso una opportuna specificazione di un
teorema più generale.
98
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Teorema di Markov – Sia X una variabile casuale con funzione di distribuzione F(x), g(X) una
funzione a valori reali non negativa (in modo tale che Y = g(X) sia essa stessa variabile
casuale) e c una costante positiva, allora
P[g ( X ) ≥ c ] ≤
E [g ( X )]
c
Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema con relativa
facilità.
Dimostrazione
+∞
E [g ( X )] =
∫ g ( x)
f ( x) dx =
−∞
∫ g (]x) f ( x) dx + [ ∫ g ( x] ) f ( x) dx ≥
=
[x / g ( x )≥c
≥
x / 0≤ g ( x ) < c
∫c
∫
= c
∫0
f ( x) dx +
[x / g ( x )≥c ]
f ( x) dx =
[ x / 0≤ g ( x )< c ]
f ( x) dx = c P[g ( x) ≥ c ] ⇔
[x / g ( x )≥c ]
⇔ P[g ( x ) ≥ c] ≤
E[g( x )]
c
C.V.D.
Di particolare interesse risulta una specificazione (corollario) del teorema:
Disuguaglianza di Bienaymé-Cebiçev: Se X è una variabile casuale con varianza σ2 finita,
allora
P [ X − µ ≤ kσ ] ≥ 1 −
1
.
k2
Dimostrazione 1
Ponendo g(X) = ⏐X - µ⏐
dove: µ = E(X) e
e c = k σ per k > 0
σ2 = var(X) , si avrà, dal Teorema di Markov,
[
]
P[ X − µ ≥ k σ ] = P ( X − µ ) 2 ≥ k 2 σ 2 ≤
≤
[
]
σ2
E ( X − µ)2
1
=
= 2 ⇔
2
2
2
2
k σ
k σ
k
99
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
⇔ P[ X − µ ≥ kσ ] ≤
Versione 2006
1
k2
ed anche
[
]
P X − µ < k σ ≥ 1−
1
k2
C.V.D.
Alla stessa conclusione si giunge partendo dalla definizione di varianza di una variabile
casuale:
Dimostrazione 2
Var(X) = σ 2 = ∫
+∞
−∞
(x − µ )2 f ( x)dx
L’integrale può essere diviso nella somma di tre integrali:
σ2 =∫
µ − kσ
−∞
µ + kσ
+∞
(x − µ )2 f ( x)dx + ∫µ −kσ (x − µ )2 f ( x)dx + ∫µ + kσ (x − µ )2 f ( x)dx
Sottraendo il secondo integrale soltanto dal membro di destra dell’equazione, si ottiene la
seguente disuguaglianza:
σ2 ≥∫
µ − kσ
−∞
+∞
(x − µ )2 f ( x)dx + ∫µ + kσ (x − µ )2 f ( x)dx
Si consideri
∫
µ − kσ
−∞
µ − kσ
µ − kσ
(x − µ )2 f ( x)dx ≥ ∫−∞ (kσ )2 f ( x)dx = k 2σ 2 ∫−∞
f ( x)dx ,
poiché se x è almeno kσ volte il valore atteso di X, allora la differenza al quadrato tra x e il suo
valore atteso, cioè (x - µ)2, deve essere maggiore di k2σ2.6 Analogamente
+∞
+∞
2
2 2
∫µ +kσ (x − µ ) f ( x )dx ≥ k σ ∫µ +kσ
f ( x )dx
Quindi, sostituendo, si ottiene:
σ 2 ≥ k 2σ 2 (
∫
µ − kσ
−∞
f ( x )dx + ∫
+∞
µ + kσ
f ( x )dx
)
La quantità in parentesi è uguale a
P ( x ≤ µ − kσ ) + P ( x ≥ µ + kσ ) = P ( x − µ ≥ kσ ) = 1 − P ( x − µ ≤ kσ ) , quindi
6
Per es., se x= µ - kσ - h, allora x - µ = µ - kσ - h - µ = - (kσ + h). Di conseguenza, il quadrato di questa quantità sarà
più grande di k2σ2.
100
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
σ 2 ≥ k 2σ 2 [1 − P ( x − µ ≤ kσ )]
1
≥ 1 − P ( x − µ ≤ kσ )
k2
⇒ P ( x − µ ≤ kσ ) ≥ 1 −
1
k2
La disuguaglianza di Bienaymé-Cebiçev sta ad indicare che, per qualunque variabile casuale,
la probabilità dei valori che si collocano in un intorno della media di ampiezza ± k σ è sempre
superiore ad 1 −
1
. Ad es., per k = 2, si ottiene P[µ − 2σ ≤ X ≤ µ + 2σ ] ≥ 3 / 4 , cioè per ogni
k2
variabile casuale avente varianza finita almeno ¾ dei valori (della massa) distano dalla sua media
meno del doppio della deviazione standard.
Ovviamente la disuguaglianza assume significato solo per k > 1, in quanto per k = 1 oppure
per k < 1, risulta che la probabilità è ≥ 0 : ma questo è sempre vero per la definizione stessa di
probabilità.
Se si fa riferimento ad una particolare distribuzione e si considera una specifica funzione g(X)
si perviene ad un altro interessante risultato.
Teorema di Bernoulli - Si consideri la variabile casuale binomiale caratterizzata dai
parametri p ed n e la trasformazione
Y=
X
, usualmente nota come variabile casuale
n
⎛X
binomiale relativa, la cui media e varianza sono, rispettivamente, E ⎜
⎝n
⎛X
⎞
⎟ = p e var ⎜
⎝n
⎠
Applicando la disuguaglianza per
⎛X⎞ X
g (Y ) = g ⎜ ⎟ =
−p
n
⎝n⎠
si avrà
2
⎡⎛ X
⎞ ⎤
E ⎢⎜ − p ⎟ ⎥
2
⎤
⎡⎛ X
⎠ ⎥⎦
⎢⎝ n
pq
⎡X
⎤
⎞
P ⎢ − p ≥ c ⎥ = P ⎢⎜ − p ⎟ ≥ c 2 ⎥ ≤ ⎣
=
2
c
nc2
⎠
⎣ n
⎦
⎥⎦
⎢⎣⎝ n
da cui
pq
⎡X
⎤
lim P ⎢ − p ≥ c ⎥ ≤ lim
=0
2
n → +∞
⎣ n
⎦ n→+∞ n c
101
⎞ pq
.
⎟=
⎠ n
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
ed anche (probabilità dell’evento contrario)
⎤
⎡X
lim P ⎢ − p < c ⎥ = 1
n → +∞
⎦
⎣ n
Siccome c può essere scelto piccolo a piacere, si può anche concludere che al crescere del
numero delle prove (se le prove sono indipendenti e ripetute in condizioni analoghe) la frequenza
relativa di un evento converge, in probabilità, alla probabilità dell’evento stesso.
Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la variabile casuale
binomiale relativa interpretabile come media aritmetica di
n
variabili casuali di Bernoulli
indipendenti e identicamente distribuite.
Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione più
interessante è quella che estende il risultato ad una successione qualsiasi di variabili casuali X1, X2,
…, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media E(Xi) = µ.
Teorema di Kolmogorov (legge forte dei grandi numeri) – Sia X1, X2, …, Xn, … una
successione di variabili casuali indipendenti e identicamente distribuite, di media µ finita, allora
per la variabile casuale X n =
1
n
n
∑X
i =1
i
, di media E ( X n ) = µ , vale la relazione
(
)= 1
P lim X n = µ
n → +∞
Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano varianza σ2
> 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev, dimostrare facilmente la
cosiddetta legge debole dei grandi numeri espressa dalla relazione
[
(
]
)
lim P X n − µ < c = 1 ⇔ P X n − µ < c ≥ 1 − δ ,
n → +∞
dove 0 < δ < 1.
Dimostrazione
Ponendo g ( X ) = X n − µ e applicando il Teorema di Markov, si ottiene
102
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
) [(
(
P Xn − µ < c = P X n − µ
)
2
[(
]
E Xn − µ
< c ≥ 1−
c2
2
) ] = 1− σ
2
2
n c2
da cui
(
)
⎛
σ2
⎜
lim P X n − µ < c ≥ lim ⎜1 −
2
n → +∞
n → +∞
⎝ nc
⎞
⎟⎟ = 1
⎠
Le leggi (forte e debole) dei grandi numeri sono estremamente utili a fini pratici, in quanto
consentono di fare inferenze attendibili sulla media di una popolazione quando si dispone soltanto
di un campione. Tali leggi, infatti, stabiliscono che è possibile determinare un intero positivo n
(ampiezza campionaria) tale che, se si prende un campione casuale di ampiezza maggiore o uguale
ad n da una popolazione con media µ, allora la probabilità che la differenza tra la media
campionaria
Xn
e la media della popolazione µ sia minore di una quantità fissata piccola a
piacere è vicina ad 1 quanto si vuole.
Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della probabilità e
della statistica ma ancora più rilevante è, come si avrà modo di approfondire anche
successivamente, il ruolo svolto dal teorema del limite centrale (teorema centrale del limite), qui
se ne propone una versione particolare, quella usualmente attribuita a Lindberg-Levy.
Teorema del limite centrale – Sia X1, X2, …, Xn, … una successione di variabili casuali
indipendenti ed identicamente distribuite (i.i.d.) di media µ e varianza σ2 > 0 finita; si consideri
la variabile casuale (media aritmetica dei primi n elementi della successione)
Xn =
1
n
n
∑X
i =1
i
che avrà valore medio e varianza, rispettivamente, E ( X n ) = µ e Var ( X n ) =
casuale standardizzata
Zn =
Xn −µ
σ/ n
per n → +∞ tende alla distribuzione normale (standardizzata).
Dimostrazione
103
σ2
n
, allora la variabile
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
Indichiamo con m(t ) = e
1 2
t
2
la funzione generatrice dei momenti della v.c. Normale
standardizzata e con mz(t) la funzione generatrice dei momenti di Zn. Vogliamo mostrare che mZ(t)
tende a m(t) al crescere di n, l’ampiezza del campione. Per l’indipendenza delle v.c. Xi, vale
⎡ ⎛ X − µ ⎞⎤
⎡ n
⎡ ⎛t
X − µ ⎞⎤
⎛ t X i − µ ⎞⎤
⎟⎟⎥ = E ⎢exp⎜ ∑ i
mZ (t ) = E ( e tZ n ) = E ⎢exp⎜⎜ t
⎟⎥ =
⎟⎥ = E ⎢∏ exp⎜
σ / n ⎠⎦
⎝ n σ / n ⎠⎦
⎣ i =1
⎣ ⎝n
⎣ ⎝ σ / n ⎠⎦
n
⎡
i =1
⎣
⎛ t X i − µ ⎞⎤
⎟⎥
n σ ⎠⎦
∏ E ⎢exp⎜⎝
Se ora poniamo Yi = (Xi - µ)/σ , la funzione generatrice dei momenti di Yi, cioè mY(t), è
indipendente da i poiché tutti gli Yi hanno la stessa distribuzione. Quindi
⎡ ⎛ t
⎡ ⎛ t X i − µ ⎞⎤
⎛ t ⎞ ⎡ ⎛ t ⎞⎤
⎞⎤
mZ (t ) = ∏ E ⎢exp⎜
Yi ⎟⎥ = ∏ mY ⎜
⎟⎥
⎟ = ⎢mY ⎜
⎟⎥ = ∏ E ⎢exp⎜
⎝ n ⎠ ⎣ ⎝ n ⎠⎦
i =1
⎣ ⎝ n ⎠⎦
⎣ ⎝ n σ ⎠⎦
n
n
La derivata r-esima di mY (t / n ) calcolata per t = 0 ci dà il momento r-esimo rispetto alla
media della densità f(.) divisa per (σ n ) r , così che
3
2
µ1 t
1 µ2 ⎛ t ⎞
1 µ3 ⎛ t ⎞
+
⎟ +
⎜
⎟ + .... =
2 ⎜
σ n 2! σ ⎝ n ⎠ 3! σ 3 ⎝ n ⎠
1⎛1
1 µ3 3
⎞
= 1 + ⎜ t2 +
t + ..... ⎟
3
n⎝2
3! n σ
⎠
mY (t / n ) = 1 +
Indicando con u l’espressione in parentesi si ottiene che
1 2
t
lim
lim
n
(1 + u / n ) = e 2 =
mZ (t )
n→∞
n→∞
Quindi, la v.c. Zn , per n → +∞ ha la stessa funzione generatrice dei momenti della Normale
standardizzata e, per il
secondo teorema riportato nel par. 2.6 relativamente alle funzioni
generatrici dei momenti, la stessa distribuzione.
In altre parole, il teorema del Limite Centrale afferma che, se si dispone delle variabili casuali
indipendenti X1, X2, …, Xn, …, ognuna con la stessa distribuzione dotata di media e varianza, allora
la
variabile
casuale
Xn =
1
∑ Xi
n i
approssimativamente normale con media
ha,
per
n
abbastanza
µ e varianza
σ2
n
grande,
una
distribuzione
. La bontà dell’approssimazione
dipende dal tipo di distribuzione comune. L’elemento essenziale da osservare è che non importa
quale distribuzione comune abbiano le v.c. X1, X2, …, Xn, …, purché esse abbiano una media ed una
104
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
varianza e siano indipendenti. Quindi, ogni volta che un fenomeno reale può essere interpretato
come la somma oppure la media di un gran numero di cause indipendenti, nessuna delle quali ha la
prevalenza sulle altre, è ragionevole attendersi che la distribuzione di probabilità di quel fenomeno
sia approssimabile mediante la distribuzione della v.c. Normale. Per es., il punteggio che si riceve
sottoponendosi ad una serie numerosa di test a risposta multipla è la risultante di numerose cause,
tra cui: la preparazione generale del soggetto, la conoscenza degli argomenti specifici selezionati
dall’esaminatore, l’attitudine verso la materia, i fattori psicologici ecc. Anche se difficili da
quantificare, questi effetti determinano con pesi differenti l’esito e il voto finali che si distribuisce
approssimativamente come una v.c. Normale.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio, quella in cui
non si richiede più che le variabili casuali della successione abbiano identica distribuzione, si
mantiene l’ipotesi di indipendenza, si inseriscono alcune ipotesi generali di regolarità delle
distribuzioni tra le quali la condizione che le medie E(Xi) = µ(i) e le varianze Var ( X i ) = σ i2 > 0
siano finite. In questo caso, naturalmente, la variabile che tende alla variabile casuale normale
standardizzata è
Xn −µ
σ /n
Zn =
dove: X n =
1
n
n
∑ Xi , µ =
i =1
1
n
n
n
i =1
i =1
∑ µ (i ) e σ 2 = ∑ σ i2 .
Esempio 2.35
Si supponga che il responsabile marketing stia pianificando di estendere la distribuzione di
uno dei prodotti della sua compagnia in una nuova area geografica. Il suo scopo è quello di
assumere 40 venditori in questa nuova zona.
Basandosi sull’esperienza passata egli stima che soltanto il 20% dei dettaglianti contattati si
renderà disponibile a vendere il nuovo prodotto. In base ad un’analisi di mercato, egli sa che può
contattare 220 dettaglianti. Vorrebbe, dunque, conoscere qual è la probabilità di assumere meno di
40 venditori, nell’ipotesi in cui vengano contattati 220 dettaglianti.
Assumendo che la decisione di ogni dettagliante sia statisticamente indipendente dalla
decisione degli altri, la distribuzione di probabilità che consente di determinare esattamente la
probabilità cercata è la Binomiale con parametri n = 220 e p = 0,20. Quindi, la probabilità
richiesta è data dal risultato della seguente formula:
105
B. Chiandotto
Statistica per le decisioni
Calcolo delle Probabilità
Versione 2006
39
P( X < 40) = ∑
x =0
220!
0,20 x ⋅ 0,80 220− x
x! ( 220 − x )!
Poiché i calcoli richiesti per risolvere l’equazione sono piuttosto complessi e lunghi senza il
supporto di un computer e poiché le tavole della distribuzione Binomiale non includono n pari a
220, il responsabile marketing può ritenersi soddisfatto ottenendo una risposta approssimata. Il
teorema del limite centrale suggerisce che, essendo n grande, un’approssimazione tramite la v.c.
Normale può essere appropriata.
Per applicare tale teorema, pensiamo a X come la somma di 220 prove Bernoulliane
statisticamente indipendenti, ciascuna delle quali ha valore atteso di 0,20 e varianza di
0,20 ⋅ 0,80 = 0,16 . Il teorema del limite centrale afferma che X è distribuita in modo
approssimativamente
Normale
con
media
µ = 220 ⋅ 0,20 = 44
e
varianza
uguale
a
σ 2 = 220 ⋅ 0,16 = 35,2 . Così il manager può approssimare la risposta “vera” al suo problema
trovando la probabilità dell’evento X: x < 40, dove x ha una distribuzione Normale con media 44 e
varianza 35,2:
⎛
40 − 44 ⎞
−4⎞
⎟ = P⎛⎜ z <
P( x < 40) = P⎜⎜ z <
⎟ = P (z < −0,68) = 0,25
⎟
5,9 ⎠
35,2 ⎠
⎝
⎝
In conclusione, se il responsabile marketing contatta solamente 220 dettaglianti, c’è una
possibilità del 25% che vengano assunti meno di 40 venditori.
106