2 CALCOLO DELLE PROBABILITA`

CORSO DI LAUREA IN ECONOMIA AZIENDALE
Metodi Statistici per le decisioni d’impresa (Note didattiche)
Bruno Chiandotto
2
CALCOLO DELLE PROBABILITA’
Il calcolo delle probabilità, nato nel contesto dei giochi d’azzardo si è sviluppato
teoricamente fino ad assumere un ruolo particolarmente rilevante nell’analisi dei
fenomeni collettivi diventando, come già sottolineato in precedenza, presupposto
essenziale della teoria delle decisioni e della statistica. La teoria delle probabilità è una
disciplina matematica astratta e altamente formalizzata pur conservando il suo originale
e rilevante contenuto empirico; per questa sua particolare natura l’esposizione,
necessariamente sommaria, dei suoi contenuti risulta facilitata dall’introduzione di
definizioni esplicite relative agli aspetti e concetti che ne costituiscono il corpo.
Definizione 1: Si dice esperimento casuale, ogni operazione o attività (fenomeno) il
cui risultato (la cui manifestazione) non può essere previsto con certezza.
Risulta chiaro che il termine esperimento va qui inteso in senso lato,
comprendendo in esso, sia il caso del lancio di un dado, sia il caso dell'estrazione di una
pallina da un'urna, sia il caso della rilevazione dei pesi dei coscritti alla leva, sia quello
dell’esito di una operazione chirurgica, sia il caso della sperimentazione di un nuovo
farmaco, sia quello del controllo dei pezzi prodotti da un certo macchinario ecc.
Definizione 2: Si dice spazio campionario di un esperimento casuale, l'insieme Ω di
tutti i possibili risultati, esaustivi e mutualmente escludentesi,
dell'esperimento stesso.
Se l'esperimento consiste nell'estrazione di una pallina da un'urna che ne contiene
n identiche a meno del numero progressivo, da 1 a n, sopra impresso, lo spazio
campionario resta definito da
Ω = (ω 1 , ω 2 ,..., ω i ,..., ω n )
dove ω i (i=1, 2,...,n) sta ad indicare il punto camponario costituito dalla estrazione della
1
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
pallina contrassegnata con il numero i .
Se l'esperimento si svolge attraverso il controllo dei pezzi prodotti da un certo
macchinario avendo come finalità l'accertamento della bontà o difettosità del pezzo
prodotto, lo spazio campionario Ω sarà composto dai soli due elementi (punti
campionari) ω 1 e ω 2 , dove ω 1 rappresenta il pezzo difettoso ed ω 2 il pezzo non
difettoso.
Definizione 3:
Se lo spazio campionario è costituito da un numero finito o da
un’infinità numerabile di punti campionari, si dice evento ogni
sottoinsieme E dello spazio campionario Ω. Se lo spazio campionario
è costituito d un’infinità non numerabile di punti, non tutti i possibili
sottoinsiemi di Ω sono eventi; in questa sede verranno, comunque,
considerati soltanto i cosidetti sottoinsiemi ammissibili di Ω, cioè i
sottoinsiemi che hanno natura di eventi.
Ogni evento sarà pertanto costituito da un insieme di punti campionari. Se, ad
esempio, si fa riferimento al caso dell'estrazione di una pallina da un'urna che ne
contiene n, si può pensare di suddividere l'intero spazio campionario in due sottospazi
Ω 1 ed Ω 2 contenenti, rispettivamente, i punti campionari: a) presentarsi di una pallina
contrassegnata da un numero dispari; b) presentarsi di una pallina contrassegnata con un
numero pari.
L'evento
E = ( ω : ω i per i pari o dispari) =
(ω , ω
1
2
,..., ω i ,..., ω n ) = Ω
coincide con l'intero spazio e rappresenta l'evento certo; l'evento cioè che certamente si
realizzerà in quanto effettuando l'estrazione è certo che si presenterà una pallina o
contrassegnata con un numero dispari o contrassegnata con un numero pari.
L'evento
E = ( ω : ω i per i pari e dispari)
2
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
è un evento che non contiene punti campionari; infatti ogni pallina è contrassegnata o da
un numero dispari o da un numero pari e non esiste pallina contrassegnata da un
numero che è dispari e pari allo stesso tempo.
L'evento così definito viene detto evento impossibile (si tratta dell'evento che non
si potrà mai realizzare) e denotato con il simbolo ø.
Gli eventi
Ei = (ωi) , per i = 1,2,…,n, vengono detti eventi elementari in
quanto costituiti da un solo punto campionario.
Sugli eventi si può introdurre un'algebra, cioè un insieme di operazioni che
soddisfano certe proprietà e che generano, come risultato delle operazioni stesse, ancora
degli eventi, cioè elementi che appartengono all’insieme B sui quali è stata introdotta
l’algebra e si parla di sistema chiuso rispetto alle operazioni introdotte. Se il sistema è
chiuso rispetto ad un numero finito di operazioni, si parla di algebra di Boole o, più
semplicemente, di algebra o campo, se il sistema è chiuso rispetto ad un’infità
numerabile di operazioni, si parla di algebra di Boole completa o, più semplicemente, di
σ-algebra o σ-campo.
Il lettore a conoscenza dei rudimenti della teoria degli insiemi noterà come quanto
esposto in queste note, riguardo agli eventi, non rappresenta alcunchè di nuovo o di
diverso rispetto al già conosciuto; in effetti gli eventi possono essere interpretati come
insiemi, o meglio, come sottoinsiemi di un insieme dato rappresentato dallo spazio
campionario Ω. Si ha così che l'evento certo Ω (coincidente con l'intero spazio
campionario) non rappresenta altro che l'insieme universale, mentre l'evento impossibile
ø corrisponderà all'insieme vuoto.
Le operazioni proprie della teoria degli insiemi sono quella di prodotto o
intersezione (∩), quella di somma o unione (∪), quella di complementazione o
negazione E e quella di differenza (-); si tratta delle stesse operazioni che, oltre al
concetto di inclusione, verranno qui considerate in quanto costituenti parte essenziale
dell'algebra degli eventi.
3
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Si dice che un evento E1 è incluso nell'evento E2, e si scrive E1 ⊆ E2 se ogni
punto campionario appartenente ad E1 appartiene anche ad E2. Due eventi E1 ed E2
sono, quindi, uguali se e solo se (sse) contemporaneamente
E1 ⊆ E2
ed
E1 ⊇ E2
in questo caso i due eventi saranno costituiti dagli stessi punti campionari.
Si definisce come negazione (complementazione nella teoria degli insiemi) di un
evento E, e si scrive E , l'evento che si realizza quando non si realizza E. L'evento E
sarà pertanto, costituito da tutti i punti campionari di Ω che non appartengono ad E.
Nella figura sottostante vengono proposti graficamente (facendo ricorso ai
cosidetti diagrammi di Venn) il concetto di evento incluso e di evento negato.
Ω
E1
E2
E2
Fig. 4 - Diagrammi di Venn per l’inclusione e la negazione dove il quadrato rappresenta
l’intero spazio campionario Ω e E1 ⊂ E2 .
Sugli eventi vengono definite le due ulteriori operazioni di intersezione (o
prodotto) tra eventi e quello di unione (o somma) di eventi.
L'intersezione tra due eventi E1 ed E2 è l'evento E3 = E 1 ∩ E2, che resta definito
dai punti campionari che appartengono sia ad E1 sia ad E2.
L'unione tra due eventi E1 ed E2 è l'evento E4 = E1 ∪ E2 che resta definito da
tutti i punti campionari che appartengono ad E1 o ad E2 o ad entrambi gli eventi E1 ed
E2 .
4
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
La rappresentazione grafica tramite i diagrammi di Venn delle due operazioni
(intersezione ed unione) è riportata nella figura sottostante
Ω
Ω
E3
E1
E2
E4
Fig. 5 - Diagrammi di Venn per l’intersezione e l’unione dove il tratteggio vuole
evidenziare rispettivamente, l’evento E3 , nella prima figura e l’evento E4
nella seconda figura.
Si definisce, infine, come differenza fra due eventi E1 ed E1 l'evento
E5 = E1- E2 che risulta costituito dai punti campionari che appartengono ad E1 ma non a
E2.
Si noti che una volta introdotte le operazioni di negazione ed intersezione
(operazioni base dell’algebra di Boole) si potrebbe fare a meno d'introdurre le due ulteriori operazioni di unione e di differenza non essendo queste ultime operazioni
concettualmente nuove; infatti:
E 1 ∪ E 2 = (E1 ∩ E 2 )
E1 − E 2 = (E1 ∩ E 2 )
La relazione E1 ∪ E 2 = (E1 ∩ E 2 ) e la relazione duale E 1 ∩ E 2 = (E1 ∪ E 2 )
vengono usualmente dette leggi di de Morgan.
L'introduzione di queste due ultime operazioni è giustificata dalla semplificazione,
sia formale sia operativa, che esse comportano.
5
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Due eventi E1 e E2 si dicono incompatibili se la loro intersezione da luogo
all'evento impossibile
E1 ∩ E2 = ø
si tratta di eventi che non hanno elementi (punti campionari) comuni.
A questo punto risulta facile verificare le relazioni seguenti, dove il simbolo
⇒ rappresenta
la
relazione
di
implicazione
necessariamente - è implicata - la seconda relazione):
E1 ⊂ E2 => E1 ∩ E2 = E1
E1 ⊂ E2 => E1 ∪ E2 = E2
φ =Ω
Ω=ø
ø⊂E⊂Ω
E∩ø=ø
E∩Ω=E
E∪ø=E
E∪Ω=Ω
E∩ E =ø
E∪ E =Ω
E1 ⊂ (E1 ∪ E2)
(E1 ∩ E2) ⊂ E1
E2 ⊂ (E1 ∪ E2)
(E1 ∩ E2) ⊂ E2
6
(dalla
prima
relazione
deriva
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Un ulteriore e rilevante concetto è quello di condizionamento degli eventi.
L'evento E1/E2 (e si legge l'evento E1 condizionato dall'evento E2 o, più
semplicemente, l'evento E1 dato E2) va analizzato presupponendo già verificato l'evento
condizionante E2. Il condizionamento degli eventi si risolve, praticamente, in una sorta
di ridefinizione dello spazio campionario che da Ω si trasforma nell'evento
condizionante, o, ancora meglio, è l'evento condizionante che assume la natura di spazio
campionario di riferimento.
Ω
E1
E2
Fig. 6 - Ridefinizione degli spazi per eventi condizionati
Se si considera l'evento condizionato E1/E2 non solo E2 si trasforma in Ω ma
anche l'evento E1 si trasforma nell'evento E1 ∩ E2, in quanto, sapendo che l'evento E2
si è verificato perdono di rilevanza tutti i punti campionari che pur appartenendo ad E1
non appartengono ad E2.
Le operazioni di unione e di intersezione possono, naturalmente, essere applicate
anche a k (>2) eventi. l'intersezione fra k eventi E1,E2,….,Ek fornisce come risultato
l'evento E
k
E = E 1 ∩ E 2 ∩...∩ E k = E i
i =1
che contiene tutti i punti campionari ω i comuni ai k eventi E1,E2,….,Ek; mentre, l'unione
tra gli stessi k eventi dà come risultato l'evento E
k
E = E1 ∪ E2 ∪ ... Ek =
7
Ei
i=1
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
che contiene tutti i punti campionari ω i che appartengono ad almeno uno degli eventi
Ei.
Le operazioni di unione e di intersezione soddisfano la proprietà associativa e
quella distributiva
E1 ∩ E2 ∩ E3 = (E1 ∩ E2) ∩ E3 = E1 ∩ (E2 ∩ E3)
E1 ∪ E2 ∪ E3 = (E1 ∪ E2) ∪ E3 = E1 ∪ (E2 ∪ E3)
E1 ∩ (E2 ∪ E3) = (E1 ∩ E2) ∪ (E1 ∩ E3)
E1 ∪ (E2 ∩ E3) = (E1 ∪ E2) ∩ (E1 ∪ E3)
Le due ultime proprietà (distributive) per k eventi danno
k
E ∩ (E1 ∪ E2 ∪...∪ Ek) = E ∩ ( Ei) =
i=1
k
E ∪ (E1 ∩ E2 ∩...∩ Ek) = E ∪ ( Ei ) =
i=1
k
(E ∩ Ei)
i=1
k
i=1
(E ∪ Ei)
Relativamente agli esperimenti casuali più semplici non s'incontrano, usualmente,
difficoltà nell'individuazione e nella successiva enumerazione dei punti campionari che
ne costituiscono i possibili risultati. In esperimenti più complessi possono risultare di
notevole ausilio alcune formule combinatorie (richiamate sinteticamente in appendice al
capitolo) che facilitano notevolmente l'enumerazione dei punti campionari, cioè l'esatta
definizione dello spazio campionario.
Definizione 4: Si dice probabilità di un evento, la funzione a
valori reali P(E),
definita sulla classe dei sottoinsiemi ammissibili (eventi) dello spazio
campionario che soddisfa specifiche proprietà.
I concetti (primitivi) prova o esperimento casuale, evento e probabilità introdotti
sono legati fra loro dalla seguente frase: "l'esperimento genera l'evento con una certa
8
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
probabilità". Dove, naturalmente, la probabilità va intesa come misura applicata agli
eventi quando viene condotto un esperimento casuale.
I tre concetti primitivi sono posti a base della definizione assiomatica di
probabilità. Si tratta di una definizione che non ha sollevato obiezioni sostanziali da
parte degli studiosi dopo la sua formulazione da parte di Kolmogorov. Si tratta infatti di
una definizione che si preoccupa di precisare e chiarire soltanto i contenuti sintattici sui
quali è più facile trovare l'accordo. Ma se da un lato il cosidetto approccio assiomaticoformale alla probabilità presenta indubbi vantaggi, sia in termini di accettabilità che di
sviluppo della teoria, dall'altro lato il considerare i soli aspetti formali esclude ogni
operatività della definizione stessa in quanto non consente la derivazione numerica della
probabilità nei singoli casi concreti.
Quando si vuol far ricorso alla probabilità per risolvere problemi reali si dovrà,
quindi, fare necessariamente ricorso ad altre definizioni nelle quali l'aspetto semantico
viene privilegiato.
Prima di trattare della definizione assiomatica di probabilità conviene, pertanto,
introdurre altre definizioni. Tra le innumerevoli definizioni proposte in letteratura, in
questa sede se ne presentano soltanto tre: la definizione classica, quella frequentista o
statistica e la definizione soggettiva. Si tratta delle tre definizioni non assiomatiche
della probabilità più note ed alle quali si fa più spesso riferimento in pratica; tutte e tre
le definizioni soddisfano ai postulati posti a base della definizione assiomatica di
probabilità.
Definizione classica (a priori) della probabilità
La probabilità P(E) di un evento E è data dal rapporto tra il numero n E dei casi
favorevoli al verificarsi dell'evento e il numero n dei casi possibili, purchè tutti i casi
siano egualmente possibili
P( E ) =
n E numero dei casi favorevoli
=
n
numero dei casi possibili
Alla definizione classica di probabilità sono state rivolte critiche di varia natura.
La prima critica è di ordine logico e riguarda la circolarità della definizione: affermare
9
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
che tutti i casi sono ugualmente possibili significa dire che sono ugualmente probabili
(non si può definire un concetto utilizzando lo stesso concetto).
Altre due critiche riguardano l’operatività della definizione; una volta superato lo
scoglio logico, non sono affatto rare le situazioni reali nelle queli non è possibile
procedere all’enumerazione dei casi favorevoli e dei casi possibili, inoltre, anche nelle
situazioni in cui si può effettuare una tale enumerazione, non è infrequente la
circostanza in cui non tutti i casi sono ugualmente possibili.
Per superare gli inconvenienti operativi cui si andrebbe incontro se si volesse far
ricorso alla definizione classica di probabilità quando le situazioni non lo consentono, è
stata introdotta una diversa definizione di probabilità.
Definizione frequentista o statistica (a posteriori) della probabilità
La probabilità di un evento ripetibile E è data dal rapporto tra il numero n E delle
volte in cui l'evento si è verificato ed il numero delle prove (effettuate tutte nelle stesse
condizioni) quando il numero delle prove stesse tende ad infinito
P(E) = lim
n→∞
nE
n
La probabilità secondo questa definizione può essere, pertanto, intesa come una
sorta di idealizzazione della frequenza relativa che verrà introdotta nel contesto della
statistica descrittiva. Taluni autori ritengono, infatti, che probabilità e frequenza relativa
non siano altro che l'aspetto teorico e quello empirico di uno stesso concetto ed
interpretano la frequenza relativa di un evento come misura approssimata (per n finito)
della probabilità.
Anche alla definizione frequentista sono state rivolte critiche di varia natura quale
quella relativa al limite irraggiungibile (+∞) imposto al numero delle prove, ma ad una
tale critica si risponde accettando la frequenza relativa di un numero finito (ma
sufficientemente elevato) di prove come misura approssimata della probabilità. Molto
più problematica è la risposta alla critica relativa alla ripetibilità delle prove
(esperimento) in situazioni invariate e, soprattutto, quella che fa riferimento alle
situazioni reali, e non sono affatto infrequenti, nelle quali non è possibile procedere
all’effettuazione di alcuna prova.
10
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Una definizione che supera le critiche, sia di ordine logico che operativo, rivolte
alla definizione classica e alla definizione frequentista di probabilità è la definizione
sotto riportata.
Definizione soggettiva della probabilità
La probabilità P(E) di un evento E viene definita come il grado di fiducia che un
individuo razionale attribuisce al verificarsi di un evento. La misura (soggettiva) di
probabilità si deriva ponendo l'individuo (razionale) di fronte ad un'operazione di
scommessa chiedendo quanto è disposto a puntare per ricevere 1 nel caso in cui l'evento
in questione si realizzi. Si deve sottolieare che questa affermazione vale solo nel caso di
individui con funzione di utilità lineare; ma sulla funzione di utilità si avrà modo di
tornare nelle pagine successive.
Anche alla definizione soggettiva di probabilità sono state rivolte critiche. La
prima riguarda proprio la soggettività insita nella stessa definizione, la seconda è
relativa alla difficoltà di traduzione in un valore numerico significativo del grado di
fiducia.
Alla prima critica si risponde osservando che qualunque probabilità deve essere
intesa in senso condizionato, cioè condizionatamente allo stato di informazione
dell’individuo (razionale); pertanto, anche se apparentemente due individui diversi
attribuiscono una diversa misura di probabilità ad uno stesso evento, gli stessi individui
si riferiscono a due diversi eventi essendo diverso lo stato di informazione su cui basano
l’esplicitazione del proprio grado di fiducia.
Alla seconda critica si risponde che, nonostante alcune difficoltà operative, alla
misura di probabilità si perviene, come già sottolineato, attraverso l’attivazione di un
processo relativamente semplice (almeno sul piano concettuale) che è quello di porre
l’individuo di fronte ad una operazione di scommessa.
Le tre definizioni introdotte, cui si può far ricorso per addivenire ad una
valutazione numerica della probabilità, non sono necessarie per lo sviluppo del calcolo
delle probabilità bastando a tal fine la definizione assiomatica, ed a questa definizione
si farà riferimento negli sviluppi teorici che seguono. Alle tre definizioni non
assiomatiche si farà, di volta in volta, riferimento nelle esemplificazioni delle
argomentazioni teoriche.
11
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Definizione assiomatica di probabilità
Gli assiomi o postulati di base del Calcolo delle probabilità sono sei: il primo
riguarda il concetto primitivo di evento, gli altri cinque il concetto primitivo di
probabilità.
Assioma 1 - Gli eventi formano un’algebra di Boole completa.
Assioma 2 - La misura di probabilità di un evento P(E) è unica.
Assioma 3 - La misura della probabilità di un evento è sempre non negativa
P(E) ≥ 0
Assioma 4 - La probabilità dell’evento certo è uguale a 1
P(Ω) = 1
Assioma 5 - Se due eventi E1 ed E2 sono incompatibili, cioè se la loro intersezione è
l’evento impossibile, allora la probabilità della loro unione è uguale alla
somma delle probabilità dei singoli eventi (principio delle probabilità
totali per eventi incompatibili)
P(E1 ∪ E2) = P(E1) + P(E2)
per E1 ∩ E2 = ∅
Assioma 6 - La probabilità dell’evento condizionato E1/E2 è pari alla probabilità
dell’intersezione dei due eventi rapportata alla probabilità dell’evento
condizionante supposta maggiore di 0
P(E1/E2) =
P(E1 ∩ E 2 )
P(E 2 )
per P(E2) > 0
L’ultima relazione può essere riscritta (principio delle probabilità composte)
come:
P(E1 ∩ E2) = P(E2) • P(E1/E2) = P(E1∩E2) = P(E1) • P(E2/E1)
Avendo definito la probabilità come funzione da applicare agli eventi dove, come
precisato, l'evento è un qualunque sottoinsieme dello spazio campionario Ω, cioè un
elemento dell’insieme B (Algebra di Boole completa costruita su Ω), risulta facile
dimostrare le relazioni d uguaglianza (teoremi) seguenti:
12
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
P( E) = 1 − P(E)
P(E) ≤ 1
P(ø) = 0
E1 ⊂ E2 => P(E1) < P(E2)
P(E1 ∪ E2) = P(E1) + P(E2) - P(E1 ∩ E2)
L'ultima relazione, detta anche (impropriamente) principio delle probabilità totali, per
k eventi diventa
k
 k 
k +1
P E i  = Σ P(E i ) − Σi Σ jP(E i ∩ E j ) + Σi Σ j Σ h P(E i ∩ E j ∩ E h ) + + (− 1) E i
i =1
 i =1 
e si riduce al postulato delle probabilità totali
 k 
P  Ei  =
 i =1 
k
∑ P(E )
i =1
i
quando i k eventi Ei sono tra loro incompatibili.
La probabilità per eventi condizionati o, più semplicemente, la probabilità
condizionata P(E1/E2) soddisfa ai primi cinque assiomi; infatti gli eventi condizionati
formano un’algebra di Boole, inoltre
P(E1/E) ≥ 0
P(E/E) = 1
P(E1 ∪ E2 ∪ .../E) = P(E1/E) + P(E2/E) +....
se gli eventi E1, E2,... sono incompatibili.
Inoltre
E1 ⊂ E2 => P(E1/E) ≤ P(E2/E)
P( E 1 /E) = 1 - P(E1/E)
13
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
P(E1 ∪ E2/E) = P(E1/E) + P(E2/E) - P(E1 ∩ E2/E)
Il principio delle probabilità composte; può riguardare anche un numero qualsiasi di eventi E1, E2, E3,..., si avrà allora
P(E1 ∩ E2 ∩ E3 ∩...) = P(E1).P(E2/E1).P(E3/E1 ∩ E2) ...
Si consideri una partizione dello spazio campionario Ω in k eventi
E1, E2, ... , Ei, ... , Ek; i k eventi sono necessari ed incompatibili, tali cioè da rispettare
k
E
le condizioni Ei ∩ Ej = ø per i ≠ j = 1, 2, ...,k e
i =1
i
= Ω. Se E è un evento
appartenente ad Ω si ha
k
k
E = E ∩ Ω = E ∩ ( Ei ) =
i =1
(E ∩ Ei)
i=1
e, per l'incompatibilità degli eventi Ei, anche
k
P(E) = P [ (E ∩ Ei)] =
i =1
k
∑
i =1
P(E ∩ Ei)
Inoltre, valendo le relazioni
P(E ∩ Ej) = P(Ej)P(E/ Ej) = P(Ej ∩ E) = P(E) P(Ej /E)
si avrà
P(Ej /E) =
=
P(E j )P(E / E j )
P(E)
P(E j )P(E/E j )
k
∑ P(E )P(E/E )
i
i
i =1
che viene detta formula di Bayes ed assume una rilevanza particolare quando i k eventi
Ei possono essere interpretati come possibili “cause” dell'evento E. In tale contesto,
14
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
P(Ej /E) viene detta probabilità a posteriori della causa Ej; mentre, P(Ej) rappresenta la
probabilità a priori della stessa causa e P(E/ Ej) è detta probabilità probativa o
verosimiglianza dell'evento E.
Ω
E1
E3
E4
E2
E
E5
Fig. 7 - Partizione dello spazio campionario Ω in cinque eventi E1, E2, E3, E4 ed E5
possibili cause dell’evento E
La formula di Bayes esprime in maniera molto semplice il processo di
apprendimento dall'esperienza in contesti non deterministici.
Della realtà si possiede una conoscenza probabilistica, che viene espressa in
termini di probabilità (a priori) P(Ej), queste probabilità si trasformano, al verificarsi
dell'evento E (acquisizione di ulteriori informazioni), nelle probabilità (a posteriori) P(Ej
/E).
Le probabilità condizionate si usano, quindi, per riassegnare le probabilità agli
eventi una volta che siano state acquisite ulteriori informazioni relative ad una
realizzazione parziale di un esperimento casuale.
Sapendo che si è realizzato un certo evento E1, non è detto che questo modifichi
necessariamente la probabilità di realizzarsi di un altro evento E2, può accadere cioè che
P(E2 / E1) = P(E2)
in tal caso si avrà anche (principio delle probabilità composte per eventi
indipendenti)
P(E2 ∩ E1) = P(E2) P(E1)
ed i due eventi E1 ed E2 si dicono indipendenti statisticamente (o indipendenti
stocasticamente, o indipendenti in probabilità).
15
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Più in generale, k eventi E1, E2, ... , Ek si dicono statisticamente (o stocasticamente o
probabilisticamente) indipendenti se
P(E i1 ∩ E i2 ∩ ... ∩ E i k ) = P(Ei1 ) ⋅ P(Ei2 ) ⋅ ...⋅ P(Eik )
per ogni sottoinsieme di eventi Ei1 ,˘ E i2 ,˘ ˘ , ˘ E is per s = 2, 3, 4, ... ,k . Ad esempio i
tre eventi E1, E2 ed E3 sono statisticamente indipendenti se valgono le relazioni
P(E1 ∩ E2) = P(E1) • P(E2)
P(E1∩ E3) = P(E1) • P(E3)
P(E2∩ E3) = P(E2) • P(E3)
P(E1∩ E2∩ E3) = P(E1) • P(E2) • P(E3)
Si deve sottolineare in proposito che le prime tre relazioni (indipendenze doppie)
non implicano la quarta (indipendenza tripla). Così come la quarta relazione non implica
le prime tre.
Prima di procedere all'introduzione di ulteriori concetti, conviene precisare ancora
una volta il ruolo che, in qualunque contesto di ricerca, viene svolto dalla statistica e
quello svolto dal calcolo delle probabilità.
Il calcolo delle probabilità si occupa dello studio degli esperimenti casuali, della
coerenza delle probabilità assunte dai vari eventi, della costruzione
di modelli
probabilistici su esperimenti casuali e sulle loro implicazioni. Mentre la statistica si
preoccupa di accertare se le effettive osservazioni, relative ad un determinato
esperimento o a una serie di esperimenti casuali, sono coerenti con il modello probabilistico assunto. Nella statistica, naturalmente, le osservazioni e le eventuali conoscenze a
priori sul fenomeno oggetto d'indagine possono essere utilizzate per la costruzione di un
modello probabilistico rappresentativo del fenomeno cui le osservazioni e le conoscenze
a priori si riferiscono.
L'uso delle conoscenze a priori nella statistica induttiva caratterizza la cosidetta
inferenza statistica bayesiana; che si distingue dalla inferenza statistica classica
proprio perchè questa ultima, basata sul presupposto della riproducibilità delle
esperienze, prefigura l'utilizzo delle sole informazioni campionarie.
16
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Se con Ip si indica l'insieme delle informazioni a priori, si può proporre una
rappresentazione schematica completa (cfr. Fig.8) di quanto si è andato dicendo fino a
questo momento dopo aver aggiunto, a completamento del quadro delineato, che il calcolo delle probabilità si occupa anche dello studio dell'universo o spazio dei campioni;
spazio questo costituito dall'insieme di tutti i possibili campioni estraibili da una
determinata popolazione.
F
f1(.)
.
.
fi(.)
.
P
R
SPAZIO o UNIVERSO
dei Campioni
DEDUZIONE
Calcolo
delle
Probabilità
t1(.)
.
ti(.)
.
tk(.)
C
Ip
Rc
R
INDUZIONE
Inferenza
Statistica
CLASSICA
BAYESIANA
Fig.8 - Rappresentazione grafica del processo di induzione statistica (classica e
bayesiana)
Dopo la sommaria indicazione delle operazioni proprie del calcolo delle
probabilità e dopo aver precisato che la tripletta (Ω, B, P(.)) [dove: Ω è lo spazio
campionario (cioè l’insieme di tutti i punti campionari ω1 , ω 2 ,... possibili risultati di un
esperimento casuale), B è l’algebra di Boole completa costruita su Ω e P(.) è una
funzione definita su B che gode di particolari proprietà], viene detta spazio di
probabilità o spazio probabilistico, si può procedere all'introduzione di due ulteriori
concetti che possono essere ritenuti fondamentali nello sviluppo sia del calcolo delle
probabilità sia della statistica. Il primo concetto è quello di "variabile casuale", il secondo è quello di "funzione di distribuzione".
17
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Definizione 5: Si dice variabile casuale, una funzione X (.) a valori reali definita sullo
spazio campionario Ω; cioè ogni funzione che, soddisfacendo ad
opportune condizioni (tali da preservare la struttura di B), associa ad
ogni punto dello spazio campionario un numero reale.
In termini più rigorosi, la funzione univoca X( ω ) definita su Ω è una variabile
casuale (o variabile stocastica, o variabile aleatoria o numero aleatorio) se vale la
relazione A = {ω ∈ Ω / X(ω ) ≤ x} ∈ B cioè se l’insieme A, costituito da tutti gli eventi
elementari ω per i quali il valore assunto dalla funzione X( ω ) è minore od uguale ad
un numero reale qualsiasi x , è un elemento di B, cioè un evento appartenente
all’algebra.
Le variabili casuali si distinguono in:
a) discrete, se il rango della funzione è costituito da un numero finito o da un'infinità
numerabile di numeri reali;
b) continue, se il rango della funzione è costituito da un insieme continuo (e quindi non
numerabile) di numeri reali.
Definizione 6: Si dice funzione di distribuzione (o funzione di ripartizione, o
funzione delle probabilità cumulate) della variabile casuale X, la
funzione F(x) definita dalla relazione
F(x) = P (X ≤ x)
dove: x rappresenta un numero reale qualunque; P (X ≤ x) misura la
probabilità con cui la variabile casuale X può assumere un valore
inferiore od uguale al numero reale x.
La funzione di distribuzione non rappresenta altro che la probabilità dell’evento A
definito in precedenza; infatti, P(A) = P[ω ∈ Ω / X(ω ) ≤ x] = P[X(ω ) ≤ x] = P( X ≤ x) .
18
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Se con x1, x2,...,xk, si indicano le possibili determinazioni distinte, ordinate in
modo crescente, di una certa variabile casuale discreta X e con p1, p2,...,pk, le
probabilità rispettive, si avrà
i
F(xi) = P(X ≤ xi) =
dove
∑
j =1
i
P(X = xj) =
∑
j =1
pj
pj = P(X = xj)
La funzione f(xi) che deriva dalla relazione f(xi) = F(xi) - F(xi-1) viene detta
funzione di massa di probabilità e, ovviamente, fornisce la probabilità che l’entità
variabile X ha di assumere la specifica determinazione xi ; infatti
F(xi) - F(xi-1) = P (X ≤ xi) - P (X ≤ xi-1) = P(X = xi)
per i = 1, 2, ... , k .
Nel caso in cui la variabile X sia continua, e la F(x) sia una funzione
assolutamente continua (si supporrà, da ora in poi e per tutte le F(x),
che tale
condizione sia soddisfatta), esisterà la derivata
f(x) =
d F( x)
dx
Si ricorda in proposito che le funzioni assolutamente continue sono funzioni
continue e derivabili (quasi ovunque).
La funzione f(x) così definita viene detta funzione di densità di probabilità o più
semplicemente funzione di densità. Si avrà quindi anche
∫
X
−∞
f(y) dy = F(x).
Evidentemente, f(x) dx = dF(x), rappresenta la probabilità con cui una variabile casuale
continua X assume valori all'interno dell'intervallino infinitesimo x − x+dx.
Va rilevato che le funzioni di distribuzione, e quindi le corrispondenti
(corrispondenza biunivoca) funzioni di massa di probabilità, nel discreto, di densità di
probabilità, nel continuo, che identificano completamente le variabili casuali cui si
riferiscono, sono caratterizzate da specifici valori (entità di riferimento) dette parametri. Per evidenziare tale fatto, si usa la notazione
19
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
F(x; θ1;θ2,...,θµ) ; f(x; θ1;θ2,...,θµ)
dove i simboli θ1;θ2,...,θµ indicano i parametri caratteristici della funzione (modello
probabilistico).
Ripercorrendo il processo che ha portato alla definizione della funzione di
distribuzione, della funzione di massa e di densità di probabilità, risulta immediata
l’individuazione delle proprietà che tali funzioni soddisfano.
Si supponga che la variabile casuale discreta X possa assumere le determinazioni
x1, x2,..., xi, ... , xk, (dove: xi< xi+1 e k può anche tendere al valore +∞) e che la variabile
casuale continua X risulti definita nell’intervallo dell’asse reale ab(dove:
a < b, a può tendere al valore -∞ e b tendere al valore +∞), allora la funzione di
distribuzione F(x):
1.
assume valori nell’intervallo unitario
0 ≤ F(x) ≤ 1
2.
il limite sinistro assume valore zero
lim F(x) = 0
x→−∞
3.
il limite destro assume valore uno
lim F(x) = 1
x→+∞
4.
è monotona non decrescente
5.
è continua a destra nel caso discreto (i punti di discontinuità si collocano in
corrispondenza dei valori x1, x2,..., assunti dalla variabile) è assolutamente
continua (continua e derivabile quasi ovunque) nel caso continuo.
La funzione di massa di probabilità f(xi) , essendo una probabilità gode delle
proprietà già considerate relativamente a tale entità, inoltre
k
∑ f (x ) = 1
i =1
i
.
La funzione di densità f(x) soddisfa le condizioni
f(x) ≥ 0
20
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
b
∫ f ( x)dx = 1
a
Da quanto è stato detto, risulta che una variabile casuale rimane individuata
completamente dalla sua funzione di distribuzione (o di massa o di densità di
probabilità) e che essa rappresenta una formalizzazione astratta (modello) dell'insieme
delle possibili manifestazioni di un certo fenomeno avente natura aleatoria.
Per particolari esigenze scientifiche ed operative si può essere interessati
all’effettuazione di una rappresentazione sintetica delle manifestazioni di un certo
fenomeno mediante indici caratteristici. Può, cioè, risultare conveniente, o sufficiente,
descrivere una variabile casuale con degli indici caratteristici, anzichè procedere ad
una sua rappresentazione completa mediante la funzione di distribuzione, la funzione di
massa o la funzione di densità di probabilità.
Un modo di pervenire alla sintesi di una variabile casuale X è quello di procedere
al calcolo del valore atteso E(.) di particolari trasformazioni Y = g(X) della variabile
casuale stessa. In questa sede si considerano solo le trasformazioni che portano alla
definizione di una nuova variabile casuale; se, ad es., X è una v.c. continua con funzione
di densità f(x), anche Y =g(X) è una variabile casuale, discreta o continua, la cui
funzione di densità f(y) o di massa di probabilità f(yi) potrà essere derivata attraverso
appropriate trasformazioni della funzione di densità f(x).
Definizione 7: Si definisce valore atteso di una trasformazione g(X) di una variabile
casuale X , con funzione di distribuzione F(x) , la quantità definita dalla
relazione
k
E [g (X )] = ∑ g (xi ) f (xi )
nel discreto
E [g (X )] = ∫ g (x ) f (x )dx
nel continuo
i 01
dove f (xi ) è la funzione di massa di probabilità della variabile casuale discreta X che
assume il valore xi con probabilità f (xi ), per i = 1, 2, ..., k ; mentre f (x ) è la funzione
di densità di probabilità della variabile casuale continua X , definita nell’intervallo ab.
Si può osservare come l’operatore valore atteso non richieda la derivazione della
funzione di densità o di massa di probabilità della variabile casuale trasformata Y =
21
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
g(X) e goda della proprietà di linearità; infatti, per qualunque variabile X, con funzione
f(xi) nel discreto, f(x) nel continuo, date due costanti a , b e due trasformazioni g1(X) e
g2(X) ancora variabili casuali
[
]
[
E{ag 1 ( X) + bg 2 ( X)} = a E g 1 ( X) + b E g 2 ( X)
]
come si può verificare facilmente osservando le relazioni sotto riportate
k
[
]
k
k
i =1
i =1
E{ag 1 ( X) + bg 2 ( X)} = ∑ ag 1 ( x i ) + bg 2 ( x i ) f ( x i ) =
i =1
[
]
[
= a ∑ g 1 ( x i ) f ( x i ) + b ∑ g 2 ( x i ) f ( x i ) = a E g 1 ( X) + b E g 2 ( X)
]
nel discreto e
b
[
] [
]
E ag 1 ( X) + bg 2 ( X) = ∫ ag 1 ( x) + bg 2 ( x) f ( x)dx =
a
b
b
a
a
[
]
[
= a ∫ g 1 ( x)f ( x)dx + b ∫ g 2 ( x)f ( x)dx = a E g 1 ( X) + b E g 2 ( X)
]
nel continuo.
Ponendo g(X) = Xr per r = 0, 1, 2 , ... si ha
 k r
 ∑ x i f ( x i ) nel discreto
µ r = E[g( X)] = E ( X r ) =  i =1
b
 x r f ( x)dx nel continuo
∫a
che viene detto momento r-esimo rispetto all’origine o momento di ordine r rispetto
all’origine. Da rilevare che il momento di ordine 0
 k
 ∑ f ( x i ) = 1 nel discreto
µ 0 = E ( X 0 ) =  i =1
b
 f ( x)dx = 1 nel continuo
∫
a
è assolutamente non significativo risultando, almeno nelle condizioni qui prefigurate,
sempre uguale ad uno per qualunque variabile casuale.
Particolare rilevanza assume il momento di ordine uno.
22
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
k
∑ x i f ( x i ) nel discreto
µ = µ 1 = E[g( X)] = E( X) =  i =1
b
 xf ( x)dx nel continuo
∫
 a
che viene detto anche media aritmetica della variabile casuale ed è l’indice sintetico
(indice caratteristico) più utilizzato per mettere in evidenza quanto c’è di tipico nella
variabile casuale. Altri momenti di un certo rilievo sono il momento secondo µ 2 , il
momento terzo µ 3 ed il momento quarto µ 4 che evidenziano, come si avrà modo di
sottolineare nelle righe successive, la loro rilevanza in contesti diversi di sintesi delle
variabili casuali.
Ponendo g(X) = ( X − µ ) r , per r = 0, 1, ... , dove µ = µ 1 = E( X) è il momento
primo rispetto all’origine (media aritmetica) della variabile casuale X , si avrà
 k
r
 ∑ ( x i − µ) f ( x i ) nel discreto
r
µ r = E[g (X)] = E[(X − µ) ] =  i =1
b
 ( x − µ) r f ( x )dx nel continuo
∫
a
che viene detto momento centrale r-esimo o momento di ordine r rispetto alla media
(aritmetica).
Oltre al momento di ordine zero, non presenta alcuna rilevanza anche il momento
di ordine uno; infatti
µ 1 = E[g( X)] = E[( X − µ )] = E( X) − E(µ ) = µ − µ = 0
dove non si è più proceduto, essendo fatto ormai acquisito, alla esplicitazione del valore
atteso in termini di sommatoria o di integrale.
La trasformazione g(X) = ( X − µ) si risolve con una traslazione dell’origine nel
punto medio. La variabile casuale trasformata si indica usualmente con il simbolo
S x = ( X − µ ) e viene detta variabile casuale scarto. Qualunque variabile casuale scarto
ha, pertanto, il momento primo sempre uguale a zero; cioè la media aritmetica di una
qualunque variabile casuale scarto è uguale a zero.
Il momento centrale di ordine due
µ 2 = E[g( X)] = E[( X − µ ) 2 ] =
= E( X 2 + µ 2 − 2µX) = E( X 2 ) + E(µ 2 ) − 2µE( X) =
23
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
= µ 2 + µ 2 − 2µ 2 = µ 2 − µ 2 = σ 2
viene denominato varianza ed assume una rilevanza tutta particolare in quanto è
l’indice più utilizzato per sintetizzare la variabilità di una variabile casuale. Da
sottolineare che il momento centrale di ordine due µ 2 , cioè la varianza σ 2 , è uguale al
momento secondo rispetto all’origine (µ 2 ) meno il quadrato del momento primo
rispetto all’origine (µ 2 ) .
Essendo la media (aritmetica) e la varianza gli indici caratteristici più utilizzati
per sintetizzare in un solo valore, rispettivamente, la tipicità e la variabilità di una
variabile casuale, si incontrano spesso situazioni in cui interessa valutare l’effetto sulla
media e sulla varianza di particolari trasformazioni di variabili casuali. Interessa, ad
esempio, in molti contesti di ricerca procedere ad una trasformazione lineare
(cambiamento del sistema di riferimento che si risolve nella traslazione dell’origine e
nel cambiamento dell’unità di misura con cui è espressa la variabile) della variabile X
Y = a + bX
Se con µ x e σ 2x si indicano rispettivamente la media e la varianza della variabile
casuale X , la media e la varianza della variabile casuale trasformata Y risultano dalla
relazione
µ y = E(Y) = E(a + bX) = a + bµ x
cioè, la media di una trasformazione lineare di una variabile casuale è uguale alla
trasformazione lineare della media della variabile casuale originaria.
σ 2y = E[(Y − µ y ) 2 ] = E[(a + bX − a − bµ x ) 2 ] =
[
]
[
]
= E ( bX − bµ x ) 2 = b 2 E ( X − µ x ) 2 = b 2 σ 2x
cioè, la varianza di una trasformazione lineare di una variabile casuale è pari alla
varianza della variabile casuale originaria moltiplicata per il quadrato del coefficiente
angolare della trasformazione.
 X − µ
Ponendo g(X) = 

 σ 
r
24
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
dove: µ è il momento primo (media aritmetica) della variabile casuale X e σ la radice
quadrata positiva della sua varianza σ 2 , si ha
 k  x i − µ r

 f ( x i ) nel discreto
 X − µ  r   ∑
σ 
i =1 
per r = 1, 2, ...
=
µ r = E[g (X)] = E 
  
r
b x − µ 
σ



 
f ( x )dx nelcontinuo
∫a  σ 
che viene detto momento standardizzato r-esimo o momento standardizzato di ordine r .
La trasformazione (lineare), standardizzazione
Zx =
X−µ
µ 1
=− + X
σ
σ σ
è particolarmente rilevante in quanto oltre a procedere alla traslazione nel punto medio
si utilizza come nuova unità di misura il valore assunto dall’indice caratteristico di
variabilità σ che prende il nome di scostamento quadratico medio.
(
)
(
)
Oltre ai momenti standardizzati di ordine zero µ 0 = 1 e di ordine uno µ 1 = 0
anche il momento standardizzato di ordine due è del tutto irrilevante; infatti
[
]
 X − µ  2 
1
1
2
µ 2 = E 
  = 2 E ( X − µ) = 2 ⋅ σ 2 = 1
σ
 σ   σ
cioè, per qualunque variabile casuale il secondo momento standardizzato è uguale a uno.
Particolare rilevanza assumono, invece, il momento terzo standardizzato
[
 X − µ  3  E ( X − µ )
µ 3 = E 
 =
σ3
 σ  
3
]= µ
σ
3
3
= γ1
che misura la simmetria (rispetto al valore centrale) delle distribuzioni, ed il momento
quarto standardizzato
[
 X − µ  4  E ( X − µ )
µ 4 = E 
 =
σ4
 σ  
4
]= µ
σ
4
4
= γ2
che misura la curtosi (appiattimento rispetto alla distribuzione normale che verrà
analizzata nelle pagine successive) della distribuzione.
25
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Sui due indici di simmetria ( γ 1 ) e di curtosi ( γ 2 ) si avrà modo di tornare
successivamente, dopo aver parlato della variabile casuale normale, mentre risulta
conveniente definire altri due indici caratteristici molto usati per sintetizzare gli aspetti
di tipicità delle variabili casuali.
Il primo indice caratteristico che si considera è la moda di una variabile casuale.
Si definisce come moda ( M o ) di una distribuzione il valore della modalità cui
corrisponde la probabilità (nel caso discreto) o la densità di probabilità (nel caso
continuo) più elevata.
Quando il massimo non è unico si parla di distribuzioni plurimodali; concetto
questo che può essere esteso anche a situazioni in cui si considerano non solo il
massimo assoluto (della probabilità o della densità di probabilità) ma anche i massimi
relativi (massimi locali).
Il secondo indice caratteristico che serve ad evidenziare la tipicità delle variabili
casuali è la mediana. Si definisce come mediana ( M e ) di una variabile casuale
continua il valore centrale della distribuzione stessa; cioè il valore della modalità
rispetto a quale si registra una probabilità pari a 0,50 di valori inferiori e pari a 0,50 di
valori superiori.
Si può aver interesse alla individuazione di altri valori (segnaletici) particolari. Se
la variabile casuale è continua, il valore che è preceduto dal 25% dei casi e seguito dal
75% dei casi (Q1 ) e quello preceduto dal 75% dei casi e seguito dal 25% dei casi (Q 3 ) .
I valori Q1 e Q 3 vengono detti, rispettivamente, primo e terzo quartile; ovviamente il
secondo quartile Q 2 è uguale alla Mediana. In generale il p-esimo quantile, con 0 < p <
1 ,è il valore, usualmente indicato con Qx(p), che soddisfa la relazione P[ X ≤ Qx(p) ] =
p.
Per le variabili casuali continue è possibile operare la suddivisione con una
proporzione esatta p di casi a sinistra ed una proporzione (1-p) esatta di casi a destra
di Qx(p) mentre ciò non è sempre possibile per le variabili casuali discrete. Infatti, per
le variabili casuali discrete la massa di probabilità del punto x = Qx(p) può essere
diversa da zero, pertanto, la proporzione di valori a sinistra di Qx(p) può essere ≤ p e la
proporzione di valori a destra di Qx(p) può essere ≤ (1-p) . Può accadere, cioè, che non
esista alcun valore x per il quale F(x) = p, il quantile viene comunque facilmente
individuato in corrispondenza del valore Qx(p) nel quale si riscontra il salto della
26
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
funzione di distribuzione (da un valore inferiore a p ad un valore superiore a p ).
Inoltre, sempre per le variabili casuali discrete può accadere che la relazione F(x) = p
valga per un intervallo di valori di x , in questo caso il quantile si ottiene calcolando la
semisomma degli estremi dell’intervallo.
Variabili casuali di uso più frequente.
Alcuni modelli probabilistici (tipi specifici di variabili casuali) si sono dimostrati
particolarmente utili in vari campi della ricerca applicata. Tra questi, ne vengono
presentati alcuni, tra quelli più comunemente usati, facendo riferimento al tipo di
distribuzione ad essi associata.
DISTRIBUZIONI DISCRETE
Distribuzione binomiale
La distribuzione binomiale si usa quando si è interessati al numero delle volte con
cui un certo evento E si presenta in n ripetizioni indipendenti di un esperimento casuale.
Se con P(E) = p si indica la probabilità che ha l'evento di presentarsi in una
singola prova, 1 - p = q rappresenterà la probabilità contraria, cioè la probabilità del non
verificarsi dell'evento.
Si consideri ora la variabile casuale X ( = numero delle volte in cui l'evento E si
presenta nelle n prove). Per n = 1 si avrà che la variabile casuale X, detta variabile
casuale di Bernoulli, potrà assumere unicamente i due valori 0 e 1, con probabilità
rispettive
P (X = 0) = q = 1 - p , P (X = 1) = p
La corrispondente funzione di massa assume i valori f(0) = q e f(1) = p, e può
essere espressa dalla formula
f(x) = f(x;p) = px q1-x
27
per x = 0, 1
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Per n qualsiasi, si avrà che la variabile casuale X potrà assumere i valori 0, 1, 2,...,n, si
tratta cioè di una funzione che associa ad ogni possibile successione di successi ed
insuccessi in n prove indipendenti, il numero x di successi che nelle n prove stesse si
sono verificati. La probabilità di x successi P(X = x) = f(x), cioè la funzione di massa di
probabilità è data da
 n
f(x) = f(x;n,p) =   p x q n − x
 x
 n
dove   rappresenta il numero di permutazioni con ripetizione di n oggetti di cui x e
 x
(n-x) sono uguali tra loro che coincide con il numero delle combinazioni di n oggetti x
a x, cioè
 n
n!
 =
 x x !( n − x)!
L'interpretazione della formula della funzione di massa di probabilità della
variabile casuale binomiale è immediata: la probabilità di una specifica successione di x
successi e (n-x) insuccessi indipendenti è pari a (principio delle probabilità composte
per eventi indipendenti)
p ⋅ p p p
x volte
q ⋅ q q = p x q n − x ;
( n − x ) volte
non essendo interessati all'ordine di presentazione dei successi, ma solo al loro numero,
tali probabilità dovranno essere sommate (principio delle probabilità totali per eventi
incompatibili) tante volte quante sono le permutazioni di n oggetti di cui x ed
(n-x) sono uguali tra loro.
Il nome di variabile casuale binomiale deriva dal fatto che i valori della funzione
f(x) rappresentano i termini dello sviluppo del binomio di Newton. Ovviamente la
28
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
somma delle probabilità relative a tutti i possibili valori assunti dalla variabile casuale
binomiale (come per qualunque variabile discreta) è uguale ad uno; infatti
n
n
∑  x  p
x =0
 
x
q n − x = (p + q ) n = 1n = 1
La media e la varianza della distribuzione binomiale sono date rispettivamente
dalle uguaglianze
n
n
 n
µ = ∑ x f ( x; n, p) = ∑ x   p x q n − x = np
 x
x=0
x=0
n
n
 n
σ 2 = ∑ ( x − µ ) 2 f ( x; n, p) = ∑ ( x − np) 2   p x q n − x = npq
 x
x=0
x=0
Esempio 1.
Assumendo che la probabilità di nascita di un maschio o una femmina sia uguale,
cioè p = 1-p = 0,5, si vuol determinare la probabilità che in una famiglia con quattro
figli vi sia: a) Almeno un maschio, b) almeno un maschio ed una femmina.
a) - Poichè si ha
4
1
P (0 maschi) =   0 ,5 0 0 ,5 4 =
16
0 
1
 4
P (1 maschio) =   0,51 0,53 =
4
1
3
 4
P (2 maschi) =   0,5 2 0,5 2 =
8
 2
1
 4
P (3 maschi) =   0,53 0,51 =
4
 3
29
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
1
 4
P (4 maschi) =   0,5 4 0,5 0 =
16
 4
la probabilità che nella famiglia vi sia almeno un maschio sarà fornita dall'espressione
P (almeno un maschio) = P (1 maschio) + P (2 maschi) + P (3 maschi) + P (4 maschi) =
1 3 1 1 15
+ + +
=
4 8 4 16 16
Una soluzione più rapida si ottiene se si considera l'evento contrario (nessun maschio) a
quello che interessa (almeno un maschio), si determina poi la probabilità del suo
verificarsi che sottratta alla unità fornisce il risultato; si avrà
P ( almeno un maschio ) = 1 - P ( nessun maschio) =
1 15
 4
= −  0,5 0 0,5 4 = 1 −
=
16 16
0
b) - Per rispondere al quesito si può seguire la seconda via sopra indicata; si avrà
P ( almeno un maschio ed una femmina ) =
= 1 - P ( nessun maschio ) - P (nessuna femmina) =
1−
1
1 14 7
−
=
=
16 16 16 8
Esempio 2
In una serie di esperimenti su cavie è stata riscontrata una mortalità del 60%.
Volendo predisporre un ulteriore esperimento in modo tale che, con una probabilità
superiore all'80%, almeno due animali sopravvivano, si chiede quale dovrà essere il
numero minimo di cavie da sottoporre ad esperimento. In altri termini si dovrà ricercare
30
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
il più piccolo n (numero di cavie da sottoporre ad esperimento) capace di soddisfare la
disuguaglianza.
P (X ≥ 2) > 0,80
dove X sta per il numero di cavie che sopravvivono all'esperimento.
Nella distribuzione binomiale per p = 0,4 (probabilità di successo; e nel caso
specifico successo significa cavia sopravvissuta) ed n = 7, si ha
7
7
P(X ≥ 2) = 1 − P(X = 0) − P(X = 1) = 1 −   0,40 0 0,60 7 −   0,401 0,60 6 = 0,84
 0
1
Per p = 0,4 ed n = 6, si ha
 6
 6
P(X ≥ 2) = 1 − P(X = 0) − P(X = 1) = 1 −   0,40 0 0,60 6 −   0,401 0,60 = 0,77
 0
1
Il numero minimo di cavie da sottoporre ad esperimento dovrà quindi essere pari a 7.
Distribuzione ipergeometrica
Per
introdurre
la
distribuzione
ipergeometrica
conviene
riprendere
in
considerazione la distribuzione binomiale proponendo un'interpretazione che si rifà al
linguaggio dell'estrazione casuale da un'urna.
Si consideri un'urna contenente N palline, di cui K siano bianche e N - K nere. La
probabilità di estrarre pallina bianca in una prova sarà p =
K .
N
Se si effettuano n estrazioni con ripetizione (cioè con reinserimento della pallina
nell’urna) la probabilità di ottenere esattamente x palline bianche, nelle n prove, è data
da
31
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
 n  K  
K
P ( X = x ) = f ( x) =      1 − 
N
 x  N  
x
n−x
 n
=   p x q n− x
 x
Quanto detto mostra come l'estrazione con ripetizione (campionamento
bernoulliano) conduce alla distribuzione binomiale. Si ammetta ora di effettuare le n
estrazioni, senza rimettere ogni volta la pallina estratta nell'urna (campionamento
esaustivo o campionamento senza ripetizione); in questa situazione la probabilità di
estrarre esattamente x palline bianche è data da
 K  N − K 
 

x  n − x 

f ( x ) = f ( x; n , K , N ) =
 N
 
n
per max [ 0,n - (N - K) ] ≤ x ≤ min [n, K]
Infatti, se n > K, X potrà assumere al massimo il valore K, inoltre se
n > N - K, il valore minimo che X può assumere sarà pari a n - (N - K).
Naturalmente
n
∑
x=0
 K  N − K
 

n
 x n − x 
f ( x; n, K, N ) = ∑
=1
 N
x=0
 
 n
La media e la varianza, della distribuzione che ha la funzione di massa sopra
indicata e che viene detta ipergeometrica, sono date rispettivamente da
 K  N − K
 

n
n
 x n − x 
K
µ = ∑ x f ( x; b, K, N ) = ∑ x
= n ⋅ = np
N
 N
x=0
x=0
 
 n
32
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
 K  N − K 
 

nk   x  n − x  N − n K 
K
N−n

2
2
n ⋅ 1 −  = npq
σ = ∑ ( x − µ) f ( x; n , K , N ) = ∑  x −
=

N
N −1
N
N
N −1
 N
x =0
x =0 
 
n
n
Il fattore
2
n
N−n
(≤ 1) viene usualmente detto fattore di correzione per il
N −1
campionamento senza ripetizione.
Distribuzione di Poisson
La distribuzione che ha la funzione di massa di probabilità
f ( x) = f ( x; λ ) =
λx e − λ
x!
per x = 0, 1, ...
(dove e è la costante di Nepero e λ un numero reale positivo) è detta distribuzione di
Poisson. Naturalmente la somma delle probabilità, per questa particolare variabile
casuale discreta che può assumere l'infinità (numerabile) di valori diversi 0, 1, 2,...
pari ad 1
∞
λx e − λ
=1
x!
x=0
∞
∑ f ( x; λ ) = ∑
x=0
Si dimostra che
λx e − λ
µ = ∑ xf ( x; λ ) = ∑ x
=λ
x!
x=0
x=0
∞
∞
∞
∞
x=0
x=0
σ = ∑ ( x − µ ) 2 f ( x; λ ) = ∑ ( x − λ ) 2
2
33
λx e − λ
=λ
x!
,è
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Dalle uguaglianze sopra riportate risulta che il parametro, caratterizzante la
distribuzione di Poisson, coincide con la media e la varianza della variabile casuale ad
esso associata.
La distribuzione di Poisson ha importanti applicazioni anche perchè essa
rappresenta una conveniente approssimazione della distribuzione binomiale nel caso in
cui il numero delle prove n sia abbastanza elevato e le probabilità che l'evento si
presenti in una singola prova sia sufficientemente prossima allo 0.
Alcune
considerazioni
sull'applicazione
delle
distribuzioni:
binomiale,
ipergeometrica e di Poisson.
La distribuzione binomiale può essere considerata un'eccellente modello
probabilistico per molte situazioni sperimentali. Infatti, tale distribuzione può servire
per studiare ad es. l'atteggiamento dei cittadini nei confronti di un determinato
provvedimento legislativo (favorevoli o contrari alla elezione diretta del Presidente della
Repubblica), per analizzare la produzione di un determinato macchinario (pezzi regolari
e pezzi difettosi) ecc. Serve cioè, in generale, nello studio di tutti quei fenomeni che
possono essere caratterizzati da un evento che può realizzarsi o meno: "successo" o
"insuccesso"; dove, successo vuol dire estrazione di pallina bianca, essere favorevole
alla elezione diretta del Presidente, pezzo regolare, ecc., mentre insuccesso vuol dire
estrazione di pallina nera, essere contrari alla elezione diretta, pezzo difettoso, ecc.
La distribuzione ipergeometrica ha lo stesso campo di applicabilità della
distribuzione binomiale, e dovrà essere ad essa sostituita tutte le volte che gli eventi
relativi alle singole prove non possono essere considerati indipendenti.
L'esperienza mostra che l'applicazione della distribuzione di Poisson in svariati
campi dell'analisi conduce a dei risultati piuttosto soddisfacenti. Si consideri ad es. il
numero delle particelle emesse da una sostanza radioattiva in un certo intervallo di
tempo e si indichi tale numero con X, si potrà accertare che, per un conveniente valore
di λ, la variabile casuale X ha una distribuzione di probabilità approssimativamente
poissoniana. Si pensi ancora al numero di difetti riscontrabili in un manufatto, al numero
delle chiamate telefoniche in un certo intervallo di tempo, al numero degli arrivi, sempre
34
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
in un determinato intervallo di tempo, a un casello autostradale o a uno sportello
bancario. In tutti questi casi si può pensare ad un processo di generazione di numeri
casuali (difetti, chiamate, ecc.) in un determinato intervallo temporale o spaziale,
approssimativamente poissoniano.
Altre distribuzioni discrete frequentemente usate sono: la distribuzione
geometrica e la distribuzione binomiale negativa.
35
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
DISTRIBUZIONI CONTINUE
Distribuzione normale.
La distribuzione normale, o gaussiana, o degli errori accidentali, può essere
considerata la più importante tra le distribuzioni continue, soprattutto per le seguenti
ragioni:
a) una vasta serie di esperimenti casuali ha associata una variabile casuale la cui
distribuzione è approssimativamente normale;
b) alcune variabili casuali che non sono distribuite normalmente, possono essere rese
tali mediante trasformazioni relativamente semplici;
c) alcune distribuzioni relativamente complicate, possono essere approssimate
sufficientemente bene dalla distribuzione normale;
d) alcune variabili casuali, che sono alla base di procedure per la verifica di ipotesi
statistiche o per la determinazione di intervalli di stima, o sono distribuite
normalmente o derivano da tale distribuzione.
Si deve, comunque, sottolineare che in passato si è esagerato sull'importanza, pure
notevolissima, della distribuzione normale. Un tale fatto è derivato soprattutto dal ruolo
fondamentale che la distribuzione ha giocato nella "teoria degli errori accidentali" e
che ha spinto diversi studiosi a ritenere che essa potesse riguardare praticamente tutti i
fenomeni naturali. In realtà, la giustificazione teorica del ruolo importantissimo che
svolge la distribuzione normale nella ricerca scientifica risiede soprattutto nel “teorema
del limite centrale” o “teorema centrale del limite”; di questo teorema si tratterà in
seguito.
La funzione di densità di probabilità della distribuzione normale è
f ( x ) = f ( x; µ ,σ 2 ) =
1
2πσ 2
e
1  x−µ 
− 

2 σ 
Ovviamente
36
2
per -∞ ≤ x ≤ +∞
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
∫
+∞
−∞
f (x; µ; σ2 )dx = 1
Si controlla facilmente che la distribuzione normale è simmetrica e che ha il
massimo nel punto x =µ. Si dimostra inoltre che i due parametri caratteristici µ e σ2
corrispondono proprio alla media (momento primo rispetto all’origine) e alla varianza
(momento secondo rispetto alla media) della distribuzione.
÷∞
µ = ∫ x f ( x; µ ,σ 2 )dx
−∞
σ2 =
∫
+∞
−∞
( x − µ) 2 f ( x; µ, σ 2 )dx
Il momento terzo ed il momento quarto standardizzati (indice di simmetria e
indice di curtosi) sono dati rispettivamente, da:
3
x −µ
2
γ1 = µ 3 = ∫ 
 f ( x; µ, σ )dx = 0
−∞
 σ 
+∞
4
x −µ
2
γ2 = µ4 = ∫ 
 f ( x; µ, σ )dx = 3
−∞
σ


+∞
Ovviamente, essendo la distribuzione normale simmetrica, l’indice γ1 assume
valore zero. L’indice assume, invece, valore negativo in caso di asimmetria a sinistra,
valore positivo in caso di asimmetria a destra, della distribuzione (cfr. Fig. 9).
Mentre l’asimmetria è definita in termini assoluti, la curtosi è concetto relativo;
infatti, si può affermare che una distribuzione è platicurtica o leptocurtica solo se si fa
riferimento alla distribuzione normale. Essendo per quest’ultima distribuzione il valore
assunto dall’indice di curtosi pari a tre, si dirà platicurtica la distribuzione con valore
dell’indice γ2 inferiore a tre, leptocurtica la distribuzione con valore dell’indice γ2
maggiore di tre (cfr. Fig. 9).
37
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Asimmetria positiva
γ1 > 0
Asimmetria negativa
γ1 < 0
µ Me Mo
Mo Me µ
Distribuzione leptocurtica
γ2 > 3
Distribuzione normale
γ2 = 3
Distribuzione platicurtica
γ2 < 3
Fig. 9 - Forma delle distribuzioni
La funzione di distribuzione della variabile casuale normale è:
F(x) = P(X ≤ x) =
∫
1
x
−∞
2 πσ 2
e
−
1
2σ2
(y − µ ) 2
Ricorrendo alla variabile casuale standardizzata Z =
F(z) = P(Z ≤ z) =
1
2π
∫
z
−∞
e
1
− y2
2
dy
x−µ
si ha
σ
dy
i cui valori sono stati tabulati.
Si ricorda che tutte le variabili casuali espresse in forma standardizzata hanno
valore medio nullo e varianza pari ad 1.
Tenendo presente che
b − µ
 a − µ X − µ b − µ
a−µ
F( b) − F(a ) = P(a < X ≤ b) = P
<
≤
 = P
<Z≤

 σ
 σ
σ
σ 
σ 
Se si pone a = µ - σ e b = µ + σ si avrà, utilizzando le tavole della distribuzione normale
38
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
standardizzata, che
P (µ - σ< X ≤ µ + σ) = P(-1 < Z ≤ 1) ≈ 0,68
per a = µ - 2σ e b = µ + 2σ si ha
P (µ - 2σ < X ≤ µ + 2σ) = P(-2 < Z ≤ 2) ≈ 0,955
Per a = µ - 3σ e b = µ + 3σ si ha
P (µ - 3σ < X ≤ µ + 3σ) = P(-3 < Z ≤ 3) ≈ 0,997
Le relazioni sopra scritte
portano a concludere che per qualunque variabile
casuale normale:
- circa i due terzi dei valori, sono contenuti nell'intervallo (µ - σ)(µ + σ);
- circa il 95% dei valori, sono contenuti nell'intervallo (µ - 2σ)(µ + 2σ);
- circa il 99,7% dei valori (praticamente tutti), sono contenuti nell'intervallo
(µ - 3σ)(µ + 3σ).
Ragionando in termini analoghi si ottiene
P (µ - 1,96σ < X ≤ µ + 1,96σ) = 0,95
P (µ - 2,58σ < X ≤ µ + 2,58 ) = 0,99
P (µ - 3,29σ < X ≤ µ + 3,29σ) = 0,999
Si dimostra che, per n sufficientemente grande, la distribuzione binomiale, la cui
funzione di massa di probabilità è, come già detto pari a
 n
f ( x; n, p) =   p x q n − x
 x
può essere approssimata abbastanza bene dalla distribuzione normale con valore medio
µ = np e con varianza σ2 = npq; cioè, dalla distribuzione normale con funzione di
densità di probabilità
39
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
1
( x − np ) 2
−
1
2 npq
e
2 πnpq
f ( x) =
Esempio 3.
Sia X una variabile casuale normale di media µ = -2 e varianza σ2 = 0,25; si vuol
determinare il valore della costante c in modo da soddisfare le relazioni:
a)
P (X ≥ c) = 0,2;
c)
P (-c ≤ X ≤ c) = 0,95; d)
b)
P (-c ≤ X ≤ -1) = 0,5;
P (-2-c ≤ X ≤ -2+c) = 0,9.
Utilizzando la tavola, in cui sono riportati i valori della funzione di distribuzione
della variabile casuale normale standardizzata, si ottengono i seguenti risultati:
c + 2
c + 2


 c + 2
 X − µ c − µ
a ) − P ( X ≥ c) = P
≥
 = P Z ≥
 = 1 − P Z <
 = 1 − F
 = 0,2 ⇔
 σ


 0,5 
0,5 
0,5 
σ 
c + 2
c+2

⇔ P Z ≤
= 0 ,842 ⇔ c = 1,579
 = 0 ,8 ⇔
0 ,5 
0 ,5

− c + 2
 − c + 2 X − µ −1+ 2
−c+2


b) − P (−c ≤ X ≤ −1) = P
≤
≤
≤ Z ≤ 2  = P(Z ≤ 2 ) − P Z <
 = P
=
0,5 
0,5 
σ
 0,5
 0,5


2−c
2−c
2−c
= F ( 2 ) − F
= − 0,057 ⇒ c = 2,0285
 = 0 ,5 ⇔ F 
 = 0, 4772 ⇒
0,5
 0,5 
 0 ,5 
 

c + 2
− c + 2
 − c + 2 X − µ c + 2
−c+2
c ) − P ( −c ≤ X ≤ c ) = P 
≤
≤
≤Z≤
 = P
 = 2  P Z <
 − 0,5 =
0,5 
0,5 
0,5 
σ
 0,5
 0,5
 

c+2
c+ 2
2+ c
= 2 F
= 1,96 ⇒ c = − 1,02
 − 1 = 0,95 ⇔ F
 = 0,975 ⇒
0 ,5
 0 ,5 
 0 ,5 
c 
c 
−c X−µ
−c
d ) − P ( −2 − c ≤ X ≤ − 2 + c ) = P 
≤
≤
≤Z≤
 = P
 = P ( Z ≤ 2c) − P ( Z < 2c ) =
0,5 
0,5 
σ
 0,5
 0,5
= F( 2 c ) − F ( − 2 c ) = 0,9 ⇒ 2 c = 1,645 ⇒ c = 0,823
Esempio 4.
Si supponga che le lamine d'acciaio prodotte da una certa industria debbano avere
un determinato spessore e che la produzione subisca delle piccole variazioni (in termini
40
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
di spessore) aventi carattere accidentale. Il fenomeno, spessore delle lamine d'acciaio
prodotte,
può
essere
convenientemente
rappresentato
mediante
un
modello
probabilistico di tipo normale. Sia X la variabile casuale normale che interessa e si
ammetta di conoscere la sua media µ = 10 mm. e la sua varianza σ2 = 0,0004. Si vuol
determinare la percentuale attesa di lamine difettose supposto che:
a) Siano difettose le lamine con spessore inferiore a 9,97 mm.;
b) siano difettose le lamine con spessore superiore a 10,05 mm.;
c) siano difettose le lamine che si discostano dalla media per più di |0,03| mm.
Si chiede inoltre:
d) Quale valore dovrebbe assumere la costante c affinchè la percentuale attesa di
lamine che si discosta da 10 mm. per una quantità non superiore a c sia pari a 0,05;
e) come varierebbe la percentuale attesa di cui al punto d) e,relativamente al
valore della costante |c| trovato, nel caso in cui si avesse µ = 10,01.
Usando la tavola della distribuzione normale si ottengono i seguenti risultati:
 9,97 − 10 
 = F( −1,5) ≈ 0,067
a) - P( X < 9,97) = F
0,02 
 10,05 − 10 
 ≈ 0,006
b) - P(X > 10,05) = 1 − p(X ≤ 10,05) = 1 − F
 0,02 
c) - P (X < 9,97) + P (X > 10,03) = 1 - P (9,97 ≤ X ≤ 10,03) = 1 - P (X ≤ 10,03)
 10,03 − 10 
 9,97 − 10 
 + F

+ P (X < 9,97) = 1 - F 
 0,02  = 0,13
0,02 
d) - Per quanto detto nel testo e visto nell'esempio precedente, si ottiene
immediatamente
c = 1,96; σ = 1,96 . 0,02 = 0,039
e) - P (X < 10-0,039) + P (X > 10 + 0,039) = 1 - P (9,961 ≤ X ≤ 10,039) =
 10,039 − 10,01
 9,961 − 10,01
 + F
 = 0,08
= 1 - F 



0,02
0,02
41
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Distribuzione χ2 (di Pizzetti-Pearson).
Se Z è una variabile casuale normale standardizzata, cioè una variabile casuale
normale con media uguale a zero e varianza uguale ad uno, la variabile casuale X = Z2
,definita nell’intervallo 0+∞ , è una variabile del tipo χ2 (chi quadro) con un grado
di libertà. In generale, se X1, X2,...,Xn sono variabili casuali normali standardizzate
(cioè con valor medio nullo e varianza unitaria) indipendenti (in probabilità o
stocasticamente indipendenti), la somma dei loro quadrati X = X12 + X22 + ...+Xn2 dà
luogo ad una variabile casuale, generalmente indicata con il simbolo χ 2n , che ha la
funzione di densità di probabilità pari a
f ( x) = f ( x; n) =
2
n/2
1
x ( n / 2 ) −1 e − x / 2
Γ ( n / 2)
per x ≥ 0
dove il parametro caratteristico n è un intero positivo e rappresenta i gradi di libertà
della distribuzione χ2;
Γ(n/2) è la c.d. funzione gamma, definita in generale dall'integrale
+∞
Γ(λ ) = ∫ e − x x λ −1 dx
0
per λ>0
Si dimostra facilmente la relazione Γ(n ) = (n - 1)!
1
e quindi Γ (n / 2) = (n/2 - 1)! e Γ  = π
 2
La curva della distribuzione χ2 è monotona per n = 1 e n = 2; per n > 2 ha un
massimo nel punto x = n - 2.
Il valor medio e la varianza della distribuzione χ 2 sono rispettivamente
∞
µ = ∫ x f ( x; n )
0
dx=n
42
B. Chiandotto
Metodi Statistici per l’impresa
∞
σ 2 = ∫ ( x − µ) 2 f ( x; n )
0
Versione 00 - Cap. 2
dx = 2n
Si dimostra che la variabile casuale χ2 standardizzata tende, al crescere di n, alla
distribuzione normale (con media zero e varianza unitaria), ne deriva quindi una
possibilità di approssimazione della v.c. χ2 mediante la v.c. normale per n
sufficientemente elevato. Si dimostra inoltre che la somma di k variabili casuali del tipo
χ2, stocasticamente indipendenti e con gradi di libertà rispettivamente pari a
k
n1, n2, ...,nk, è ancora una variabile casuale
χ2
con g =
∑n
i =1
i
gradi di libertà (proprietà
addittiva del χ2).
Esempio 5
Sia X una variabile casuale del tipo χ2
con 5 gradi di libertà. Si vogliono
determinare le costanti c, c1 e c2 in modo che sia:
a) P (X ≤ c) = 0,10
b) P (X > c) = 0,05
c) P (c1 < X ≤ c2) = 0,95 per c1 < c2
Utilizzando le tavole della distribuzione χ2 si avrà
a) - P (X ≤ c) = F(c) = 0,10 => c = 1,61
b) - P (X > c) = 1 - p (X ≤ c) = 1 - F(c) = 0,05 => c = 11,1
c) - In relazione a questo quesito, va detto che esistono infinite coppie di valori (c1, c2)
capaci di soddisfare la condizione posta, si potrebbe ad esempio suddividere la
probabilità 0,05 in modo da avere un livello pari a 0,01 alla sinistra di c1 ed un
intervallo 0,04 alla destra di c2, oppure 0,02 a sinistra di c1 e 0,03 a destra di c2
ecc.;usualmente, a meno che non vi siano particolari ragioni per specificare altrimenti, si
suddivide la probabilità in parti uguali, così facendo si avrà
43
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
P (X ≤ c1) = F(c1) = 0,025 => c1 = 0,831
P (X > c2) = 1 - P (X ≤ c2) = 0,025 => c2 = 12,8
da cui
P (c1 < X ≤ c2) = P (0,831 < X ≤ 12,8) = 0,95
Distribuzione t (di Student)
La c.d. distribuzione t è stata introdotta dal chimico W.S. Gosset nel 1908 sotto lo
pseudonimo di "Student".
La distribuzione t è relativa alla variabile casuale
X=
Z
Y/n
dove:
a) n è un intero positivo che rappresenta il numero dei gradi di libertà della
distribuzione t;
b) Z è una variabile casuale normale standardizzata;
c) Y è una variabile casuale χ2 con n gradi di libertà;
d) Z e Y sono variabili stocasticamente indipendenti.
La distribuzione t ha funzione di densità di probabilità
44
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
 n + 1
Γ

1
2 

f ( x ) = f ( x; n ) =
n +1
n
Γ  nπ  x 2  2
1 +

2
n 

per − ∞ ≤ x ≤ +∞
è simmetrica ed ha un massimo nel punto t = 0. La media µ = 0 per n ≥2 , mentre non
esiste per n = 1; la varianza non esiste per n = 1,2 mentre per n ≥ 3 la varianza è data
da σ2 ==
n
n−2
Al crescere di n la distribuzione t tende alla distribuzione normale standardizzata;
un buona approssimazione si ottiene anche per n relativamente piccolo ( n > 30 ).
Esempio 6.
Sia X una variabile casuale del tipo t di Student con 9 gradi di libertà. Si vogliono
determinare i valori della costante c che soddisfano le relazoini: a) P(X > c) = 0,05;
b) P(X < c) = 0,05; c)P(-k < X ≤ k) = 0,99; d) P(0 < X ≤ c) = 0,475.
Utilizzando le tavole della distribuzione t
e ricordando la simmetria di tale
distribuzione, si ottiene
a)- P (X > c) = 1 - P (X ≤ c) = 1 - F(c) = 0,05 => c = 1,83
b)- P (X ≤ c) = F(c) = 0,05 => c = -1,83
c)- P (-c < X ≤ c) = P (X < c) - P (X ≤ c) = F(c) - F(-c) = F(c) - [ 1 - F(c) ] =
0,99 => c = 3,25
d)- P (0 < X ≤ c) = P (X ≤ c) - P (X ≤ 0) = F(c) - 0,5 = 0,475 => c = 2,26
45
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Distribuzione F (di Fisher- Snedecor).
La distribuzione F è relativa alla variabile
X=
V / n1
Y / n2
dove V e Y sono due variabili casuali del tipo χ2, con gradi di libertà rispettivamente
pari a n1 e n2, distribuite indipendentemente. Si noti che l'ordine dei gradi di libertà n1 e
n2 è fondamentale, infatti si verifica facilmente che le due variabili casuali
Fn1 , n2 e
Fn−21, n1 hanno la stessa distribuzione.
La funzione di densità di probabilità di una variabile casuale X di tipo F, con n1 e
n2 gradi di libertà, risulta essere
 n 1 + n 2  n1 / 2 n2 / 2
Γ
 n n2
 2  1
x ( n 1 / 2 ) −1
f ( x) = f ( x; n 1 , n 2 ) =
( n 1 x + n 2 ) ( n1 + n 2 )/ 2
 n1   n 2 
Γ  Γ 
 2  2
per 0 ≤ x ≤ +∞
La media e la varianza sono date da.
2n 22 (n1 + n − 2)
n2
2
;σ =
µ=
n2 −1
n1 (n 2 − 2) 2 (n 2 − 4)
Esempio 7.
Sia X una variabile casuale del tipo F con n1 = 7 e n2 = 10 gradi di libertà. Si
vogliono determinare i valori della costante c che soddisfano le relazioni:
a) P (X ≤ c) = 0,95 ; b) P (X ≤ c) = 0,01.
46
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Utilizzando la tavola della distribuzione F si ottiene
a) P (X ≤ c) = F7,10(c) = 0,95 => c = 3,14
b) - Per quanto detto nel testo risulta l'uguaglianza
F7,10(c) = 1 - F10,7(1/c), per cui
P (X ≤ c) = F7,10(c) = 0,01 <=> 1 - F10,7 (1/c) = 0,01 =>
47
1
= 3,64 => c = 0,27.
c
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Variabili casuali multiple
Nelle pagine precedenti sono state introdotte le variabili casuali semplici, cioè
delle funzioni che soddisfano a certe condizioni e che associano a ciascun evento
elementare (punto dello spazio campionario) ω ∈Ω un numero reale.
L’estensione al caso multidimensionale o multivariato non presenta difficoltà di
ordine logico, si tratta, infatti, di definire un’analoga funzione che associa a ciascun
evento elementare non più un numero ma una k-upla (k ≥ 2) ordinata di numeri reali.
Definizione 8 - Si dice variabile casuale (vettore casuale) a k dimensioni una
funzione
X(ω)
[ X( ω ) = ( x , x
1
2
,..., x k ) = x
]
a valori reali in Rk
(spazio euclideo a k dimensioni) definita su Ω per la quale vale la
relazione
[
]
A = ω ∈Ω / X(ω ) ≤ x ∈ B per ogni x ∈ Rk ;
dove x = (x1,x2,...,xk).
Quindi la variabile casuale a k dimensioni è una funzione a k componenti che fa
corrispondere a ciascun punto campionario una k-upla ordinata di numeri reali; inoltre,
essendo A ∈ B elemento dell’algebra di Boole costruita sugli eventi (ω ∈ Ω) è possibile
determinare la sua misura di probabilità
P(A) = P[ω ∈ Ω / X(ω ) ≤ x] = P[ X(ω ) ≤ x] =
[
]
= P(X ≤ x) = P (X 1 ≤ x 1 ) ∩ (X 2 ≤ x 2 ) ∩ ∩ (X k ≤ x k ) =
= F(x1,x2, ..., xk) = F(x)
che definisce la funzione di distribuzione o funzione di ripartizione o funzione delle
probabilità cumulate della variabile casuale a k dimensioni (vettore casuale)
X = (X1,X2, ..., Xk).
La variabile casuale multipla X = (X1,X2, ..., Xk) è discreta se tutte le componenti
possono assumere soltanto un numero finito o un’infinità numerabile di valori reali
distinti, è invece continua se tutte le componenti possono assumere un’infinità non
numerabile di valori (tutti i valori in intervalli dell’asse reale); si parla di variabili
casuali miste, quando alcune componenti sono discrete, altre continue.
48
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
La funzione di distribuzione F(x) gode di proprietà analoghe a quelle già viste a
proposito della funzione di distribuzione F(x) relativa a variabili casuali semplici.
Infatti, la funzione di distribuzione F(x) = F(x1,x2, ..., xk):
i)
è monotona non decrescente rispetto a tutti gli argomenti;
ii)
valgono i limiti
lim F( x 1 , x 2 ,..., x k ) = 1
x1 →+∞
x 2 →+∞
x k →+∞
lim F( x 1 , x 2 ,..., x i ,..., x k ) = 0
per i = 1,2,...,k
x i →−∞
lim F( x 1 , x 2 ,..., x i ,..., x k ) =
x i →+∞
= F( x 1 , x 2 ,..., x i −1 , x i +1 ,..., x k )
per i = 1,2,...,k
dove = F( x 1 , x 2 ,..., x i −1 , x i +1 ,..., x k ) è la funzione di distribuzione della variabile
casuale a k-1 dimensioni (X1, X2, ..., Xi-1, Xi+1 ,..., Xk)
iii)
è continua a destra rispetto a tutti gli argomenti nel caso discreto, è assolutamente
continua rispetto a tutti gli argomenti nel caso continuo.
Analogamente a quanto già fatto per le variabili casuali semplici, dalla funzione
di distribuzione possono essere ricavate in modo univoco, rispettivamente, nel caso
discreto e nel caso continuo, la funzione di massa di probabilità
[
(
)
]
f ( x 1i , x 2 j ,..., x ks ) = P (X 1 = x 1i ) ∩ X 2 = x 2 j ∩ ∩ (X k = x ks )
e la funzione di densità di probabilità
f ( x 1 ,x 2 ,...,x k ) =
∂k
F( x 1 ,x 2 ,..., x k )
∂ x 1 ⋅∂ x 2 ⋅⋅∂ x k
Per la funzione di massa di probabilità valgono le proprietà:
49
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
0 ≤ f(x1i, x2j, ... , xks) ≤ 1
∑∑
,
i
j
...
∑ f (x
s
1i
, x 2 j ,..., x ks ) = 1
mentre per la funzione di densità valgono le proprietà
+∞ +∞
f(x1, x2, ... , xk) ≥ 0
;
∫ ∫
+∞
...
−∞ −∞
∫
f ( x 1 , x 2 ,..., x k ) dx 1 dx 2 ... dx k = 1
−∞
Tra la funzione di distribuzione e la funzione di massa di probabilità, nel caso
discreto, di densità di probabilità, nel caso continuo, esiste una corrispondenza
biunivoca e le funzioni stesse identificano completamente la variabile casuale multipla
X = (X1, X2, ..., Xk).
Le variabili casuali semplici X1, X2, ..., Xi, ..., Xk , componenti la variabile
casuale multipla (X1, X2, ..., Xi, ..., Xk), si dicono indipendenti in probabilità o
statisticamente indipendenti se vale la relazione
F(x1, x2, ..., xk) = F(x1) ⋅ F(x2) ⋅ ... ⋅ F(xk)
od anche
f(x1i, x2j, ..., xks) = f(x1i) ⋅ f(x2j) ⋅ ... ⋅ f(xks)
nel discreto
f(x1, x2, ..., xk) = f(x1) ⋅ f(x2) ⋅ ... ⋅ f(xk)
nel continuo
Si consideri ora il caso k = 2, cioè la variabile casuale doppia o variabile casuale
a due dimensioni (X1, X2) = (X, Y) , dove, per semplificare la notazione algebrica, si è
posto X1 = X e X2 = Y .
La variabile casuale doppia
(X, Y)
è completamente individuata dalla sua
funzione di distribuzione
[
F( x, y) = P ( X ≤ x) ∩ (Y ≤ y)
]
od anche:
i)
dalla sua funzione di massa di probabilità nel caso discreto
50
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
f ( x i , y j ) = F( x i , y j )− F( x i , y j−1 )− F( x i −1 , y j )+ F( x i −1 , y j−1 )=
[
]
= P (X = x i ) ∩ (Y = y j ) = p ij = f ij
per i=1,2,...,h e j=1,2,...,k (h e/o k possono assumere anche il valore +∞);
ii)
dalla sua funzione di densità di probabilità nel caso continuo
∂2
f ( x , y) =
F( x, y)
∂x ⋅ ∂y
per a ≤ x ≤ b e c ≤ y ≤ d (a e/o c possono tendere al valore -∞, b e/o d
possono tendere al valore +∞).
Valgono, ovviamente, le relazioni
h
0 ≤ f(xi , yj) ≤ 1
f(x , y) ≥ 0
,
k
∑ ∑ f (x , y ) = 1
,
i =1 j =1
b
d
a
c
i
j
∫ ∫ f ( x , y) dx dy = 1
inoltre
h
∑ f (x , y ) =
i =1
f (y j )
per j = 1,2,..., k
f (xi )
per i = 1,2,..., h
f ( x , y) dx = f ( y)
per c ≤ y ≤ d
f ( x , y) dy = f ( x)
per a ≤ x ≤ b
i
j
k
∑ f (x , y ) =
j =1
i
j
b
∫
a
d
∫
c
che forniscono le funzioni di massa e di densità di probabilità delle variabili casuali
semplici componenti la variabile casuale doppia (variabili casuali marginali).
51
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Una variabile casuale doppia discreta viene usualmente rappresentata in una
tabella a doppia entrata del tipo
Y
y1
y2
...
yj
...
yk
x1
p11
p12
...
p1j
...
p1k
p1.
x2
p21
p22
...
p2j
...
p2k
p2.
xi
pi1
pi2
pik
pi.
xh
ph1
ph2
...
phj
...
phk
ph.
p.1
p.2
...
p.j
...
p.k
1
X
...
pij
...
Tab. 1 - Schema di tabella a doppia entrata per la variabile casuale doppia
discreta (Xi,Yj)
dove
[
p ij = f ij = f ( x i , y j ) = P ( X = x i ) ∩ (Y = y j )
]
k
p i. = ∑ p ij
per i = 1,2,...,h
j =1
h
p . j = ∑ p ij
per j = 1,2,...,k
i =1
h
k
p .. =∑∑ p ij =1
i =1 j=1
Le due variabili casuali semplici X ed Y , componenti la variabile casuale
doppia (X , Y), sono indipendenti statisticamente, o indipendenti in probabilità se
pij = pi. ⋅ p.j ⇔
[
]
P ( X= x i ) ∩ (Y = y j ) = P( X = x i ) ⋅ P(Y = y j ) ⇔
f (xi , y j ) = f (x i ) ⋅ f (y j )
52
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Se le due componenti, come avviene nella generalità dei casi, non sono
indipendenti, interesserà, per un verso, la misura dell’eventuale relazione, per altro
verso, l’analisi delle cosidette variabili casuali condizionate che, riferendosi per
semplicità sempre al caso discreto, sono definite dalle relazioni:
i)
variabili casuali condizionate X/⋅
(X/Y = yj) = X/yj
per j = 1,2,...,k
con funzioni di massa condizionata
f(xi/yj) =
ii)
f (x i , y j )
f (y j )
per i = 1,2,...,h ; j = 1,2,...,k
variabili casuali condizionate Y/⋅
(Y/X = xi) = Y/ xi
per i = 1,2,...,h
con funzioni di massa condizionata
f(yj/xi) =
f (x i , y j )
f (xi )
per i = 1,2,...,h ; j = 1,2,...,k
Si hanno, pertanto, k variabili condizionate X/yj (tante quante sono le modalità
della variabile condizionante Y) e h variabili condizionate Y/xi (tante quante sono le
modalità della variabile condizionante X).
Ovviamente, nel caso continuo le variabili casuali condizionate (X/Y = y) = X/y
e (Y/X = x) = Y/x saranno in numero infinito.
La funzione di distribuzione o le funzioni di massa o di densità di probabilità
descrivono in modo completo sia la variabile casuale doppia che le variabili casuali
semplici (variabili casuali marginali) componenti la variabile casuale doppia e le
variabili casuali condizionate. Come già evidenziato a proposito delle variabili casuali
semplici può risultare comunque conveniente una descrizione sintetica (e quindi
parziale) delle variabili casuali doppie. Un modo per procedere nella sintesi,
analogamente a quanto si è fatto per le variabili casuali semplici, è quello di calcolare il
valore atteso di opportune trasformazioni delle variabili casuali doppie; ovviamente, le
trasformazioni devono essere tali da rendere significativo (finito) il computo del valore
atteso.
53
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Se con g(X , Y) si indica la generica trasformazione, il valore atteso resta definito
da
h k
∑ ∑ g(x i , y j ) f(x i , y j ) =
 i =1 j = 1
E[g( X, Y)] =  b d

∫ ∫ g(x, y) f(x, y) dx dy
a c
h
k
∑ ∑ g(x , y
i =1 j =1
i
j
) p ij
nel discreto
nel continuo
Ponendo g(X , Y) = Xr ⋅ Ys , per r,s = 0,1,2,..., si ha
h k r s
∑∑ x i y j p ij
 i =1 j=1
µ rs = E(X r ⋅ Y s )= 
b d r s
∫ ∫ x y f(x, y) dx dy
a c
nel discreto
nel continuo
che viene detto momento misto di ordine r⋅s rispetto all’origine.
Risulta facile verificare che i momenti misti µ10 e µ01 sono i momenti primi
(cioè le medie aritmetiche) delle variabili casuali semplici X ed Y ; infatti, si ha, ad
es.:
h
h
h k 1 0
 k



x
y
p
x
p
x i p i. = µ x
nel discreto
=
=
∑∑ i j ij
∑
∑
i  ∑ ij 
i
1
j
1
i
1
i
1
j
1
=
=
=
=
=




µ10 = 
b
b
b d
d

1 0

x y f(x, y) dx dy = ∫ x  ∫ f ( x , y) dy  dx = ∫ x f ( x ) dx = µ x nel continuo
∫a ∫c
a c
a

Analoghe considerazioni possono essere fatte nei confronti dei momenti µ01, µ20,
µ02, µ30, µ03, ecc.
Il momento misto più significativo ed interessante è quello del primo ordine o
momento misto rispetto all’origine di ordine 1⋅1 (µ11 = µxy) che può essere inteso come
una sorta di media aritmetica della variabile casuale doppia (X , Y).
Ponendo
54
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
g(X ⋅ Y) = (X − µ x ) r (Y − µ y ) s
per r, s = 0,1,2,…
si ha
[
µ rs = E (X − µ x ) r (Y − µ y ) s
]
che viene detto momento misto centrale, o momento misto rispetto alla media, di
ordine r⋅s .
I momenti misti di ordine 0⋅0, 0⋅1 e 1⋅0, non sono significativi essendo sempre
uguali a uno e zero, mentre risulta particolarmente interessante il momento misto di
ordine 1⋅1 :
[
]
µ11 = E (X − µ x ) (Y − µ y ) = σ xy = σ yx = µ11 − µ10 ⋅ µ 01
che viene detto covarianza.
La covarianza è un indice assoluto di concordanza tra le due componenti. Si
tratta, cioè, di un indice che misura l’associazione tra le due componenti X ed Y e potrà
assumere valore positivo, negativo o nullo. Assumerà un valore positivo quando le due
componenti la variabile casuale doppia variano tendenzialmente nella stessa direzione,
al crescere dei valori assunti dalla X crescono i valori assunti dalla Y , ed anche, al
diminuire dei valori assunti dalla X diminuiscono i valori assunti dalla Y . In questo
caso si avrà che a scarti positivi (negativi) (X-µx) corrisponderanno, usualmente, scarti
positivi (negativi) (Y-µy) ed il prodotto degli scarti risulterà, usualmente, positivo.
La covarianza assume invece valore negativo quando le due variabili variano in
direzione opposta, cioè quando al crescere dei valori assunti da una variabile i valori
assunti all’altra variabile diminuiscono e viceversa. In questo caso nella formula per il
computo della varianza si troveranno, usualmente, prodotti tra uno scarto positivo di una
variabile ed uno scarto negativo dell’altra variabile e viceversa.
Per r = 2 e s = 0, r = 0 e s = 2 si ottengono i momenti centrali del secondo
ordine delle due variabili casuali marginali, cioè le due varianze:
[
] [
]
µ 20 = E (X − µ x ) 2 (Y − µ y ) 0 = E (X − µ x ) 2 = σ 2x
55
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
[
] [
]
µ 02 = E (X − µ x ) 0 (Y − µ y ) 2 = E (Y − µ y ) 2 = σ 2y
Se si pone
 X − µx
g(X,Y) = 
 σx



r
 Y − µy

 σy





s
per r,s = 0,1,2,…
si ha
 X − µ
x
µ rs = E 
 σ x




r
 Y − µy

 σy





s




che viene detto momento misto standardizzato di ordine r⋅s .
Il momento misto più significativo è il momento mista standardizzato di ordine
1⋅1
 X − µ 
x

µ11 = E 
 σ x 
 Y − µ y 
σ xy

 =
= ρ xy = ρ yx = ρ
 σ y  σ x ⋅ σ y


usualmente detto coefficiente di correlazione (di Bravais-Pearson).
Il coefficiente di correlazione, sul quale si avrà modo di tornare diffusamente in
seguito, è un indice relativo di concordanza, si dimostra, infatti, la relazione
 σxy  ≤ σx σy
dove il segno di uguaglianza vale solo quando le due variabili casuali semplici X ed Y
sono linearmente dipendenti cioè quando Y = a+b X . In questo caso ρxy = ρyx = ±1
ed il segno dipenderà dal segno del coefficiente angolare della retta.
Quindi, il coefficiente di correlazione varia tra -1 e +1 ; quando ρxy = ρyx = 0
(cioè quando
σxy = σyx = 0) le due componenti
56
X
ed
Y
sono linearmente
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
indipendenti. Questa forma di indipendenza è una forma molto particolare di mancanza
di associazione tra variabili e non esclude affatto la presenza di un possibile legame di
natura diversa tra le due componenti X ed Y della variabile casuale doppia (X,Y).
Infatti potrebbe sussistere tra le due componenti un legame funzionale molto stretto, ad
es. Y = a+bX2 , e risultare ρxy = 0.
Si deve, pertanto, concludere, che il coefficiente di correlazione (indice relativo
di concordanza) è un indice di dipendenza o meglio interdipendenza (essendo ρxy = ρyx)
lineare.
Ovviamente l’indipendenza statistica implica l’indipendenza lineare (e qualsiasi
altra forma di indipendenza). Infatti, se le due componenti
X
ed
Y
sono
statisticamente indipendenti f(x,y) = f(x)⋅f(y) e quindi (senza perdere in generalità si
considera il caso continuo)
[
]
b
µ xy = E (X − µ x ) (Y − µ y ) = ∫
a
b
d
∫ (x − µ
x
)( y −µ y ) f ( x , y) dx dy
c
d
=∫
∫ (x − µ
a
x
)( y −µ y ) f ( x ) ⋅ f ( y) dx dy =
c
b
= ∫ ( x − µ x ) f ( x ) dx ⋅
a
d
∫
( y − µ y ) f ( y) dy = µ10 ⋅ µ 01 = 0
c
L’indipendenza lineare, come già sottolineato, non implica l’indipendenza
statistica a meno di casi particolari; su uno di questi casi si avrà modo di soffermare
l’attenzione nelle righe seguenti ed è quello particolarmente rilevante della variabile
casuale normale doppia.
Oltre alla variabile casuale normale verrà esaminato un solo altro caso di variabile
doppia: la variabile casuale binomiale doppia (detta usualmente variabile casuale
trinomiale)
di
cui
verrà
proposta
k >2 (variabile casuale multinomiale).
57
anche
l’estensione
al
caso
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Distribuzione normale doppia
La funzione di densità della variabile casuale normale doppia o variabile
casuale normale bivariata è data da
f ( x , y ; µ x , µ y ;σ x ,σ y ; ρ xy ) =
−
1
2 π σ xσ y 1 − ρ xy2
e

 x − µ x

)   σ x

1
2
2( 1− ρ xy
2

 x−µx
 − 2 ρ xy 
 σ

x


  y − µ y


 σ y
  y−µ y
+
  σy
 




2




per -∞ ≤ x ≤ +∞ e -∞ ≤ y ≤ +∞
dove i parametri che caratterizzano la distribuzione coincidono con gli indici
caratteristici più significativi della distribuzione stessa
µ 10 = E(X ) = µ x , µ 01 = E (Y ) = µ y
[
]
 X − µ x
µ11 = E 
 σ x
 Y − µy
 

 σy
[
]
µ 20 = E (X − µ x ) 2 = σ 2x , µ 02 = E (Y − µ y ) 2 = σ 2y

σ xy
 = µ11 − µ10 ⋅ µ 01 =
= ρ xy = ρ yx

σx σy
σx σy

E’ possibile verificare senza eccessiva difficoltà le relazioni seguenti
f (x ) =
+∞
∫ f (x, y)dy =
−∞
f ( y )=
+∞
∫
f ( x , y )dx =
−∞
58
1
2π σ 2x
1
2π σ y2
−
e
1
2 σ 2x
−
e
( x −µ x ) 2
1
2 σ y2
( y − µ y )2
B. Chiandotto
Metodi Statistici per l’impresa
f ( x , y)
f ( x / y) =
=
f ( y)
f ( x , y)
f (y / x) =
=
f (x )
Versione 00 - Cap. 2
1
2π σ 2x (1 − ρ 2xy )
1
2π σ 2y (1 − ρ 2xy )
−


1
σ
 y − µ x − ρ xy x ( y − µ y ) 
σy
2 σ 2x (1− ρ 2xy ) 

−
σy


1
( x −µ x ) 
 y − µ y −ρ xy
σx
2 σ 2y (1− ρ 2xy ) 

e
e
che evidenziano la normalità sia delle distribuzioni marginali che delle distribuzioni
condizionate.
Dalle relazioni sopra scritte si desumono anche le medie e le varianze delle
distribuzioni condizionate che dipendono da medie e varianze delle distribuzioni
marginali e dal coefficiente di correlazione. Se ρxy = ρyx = 0 , le due variabili casuali
componenti sono statisticamente indipendenti
[f (x, y) = f (x ) ⋅ f ( y)]
e le distribuzioni
condizionate, per l’indipendenza, non risentono più del condizionamento e risultano
uguali alle distribuzioni marginali.
Nella Fig. 10 è riportata la forma della funzione di densità e le sezioni orizzontali
e verticali della variabile casuale normale doppia le cui componenti sono incorrelate
(indipendenti) ed hanno uguale varianza.
Fig. 10 – Funzione di densità di una variabile casuale normale bivariata con ρxy = ρyx = 0
e σ 2x = σ 2y = σ .2
59
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Nella Fig. 11 sono riportate le sezioni orizzontali di variabili casuali normali
doppie incorrelate (ρxy = 0) con relazione diversa tra le varianze delle due distribuzioni
marginali
Fig. 11 - Sezioni orizzontali di una variabile casuale normale doppia con ρxy = ρyx = 0
Fig. 12 – Sezioni orizzontali di una variabile casuale normale bivariata con σ 2x = σ 2y = 1
60
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Fig. 13 - Sezioni orizzontali di una variabile casuale normale bivariata con
σ 2x = 4 e σ 2y = 1
Nella Fig. 12 sono riportate le sezioni orizzontali di una variabile casuale normale
doppia, le cui componenti hanno stessa varianza σ 2x = σ 2y = 1 , per diversi livelli di
correlazione; mentre nella Fig. 13 le sezioni sono relative a diversi livelli di correlazione
e diversa varianza ( σ 2x = 4 e σ 2y = 1) .
Osservando le Figg. 11, 12 e 13 si rileva l’incidenza del valore assunto da
parametri caratteristici sulla forma della funzione di densità. La forma campanulare
perfetta si ha solo quando ρxy = ρyx = 0 e σ 2x = σ 2y . Se ρxy = ρyx = ±1 , cioè se esiste
un legame lineare tra le due componenti, si avrà un completo schiacciamento della
distribuzione doppia che degenera in una distribuzione semplice. Cosa questa peraltro
desumibile immediatamente anche per via analitica e dal punto di vista logico; non ha
più senso, infatti, parlare di variabilità su due componenti essendo la variabilità dell’una
(ad es. la Y) strettamente determinata dalla variabilità dell’altra (valendo la relazione
Y = a+bX).
Come esempio di variabile casuale doppia discreta è stato detto che verrà
considerata la sola variabile casuale trinomiale.
61
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Distribuzione trinomiale (distribuzione binomiale doppia)
Si supponga di poter effettuare n prove indipendenti e che il risultato di ciascuna
prova sia ω1 o ω2 o ω3; i tre risultati sono necessari e incompatibili, nel senso che in
ciascuna prova, uno dei tre deve necessariamente presentarsi ed il presentarsi di un
risultato esclude la possibilità del presentarsi dell’altro. Si supponga che le probabilità
associate ai tre possibili risultati siano, rispettivamente, p1, p2 e p3 (p1 + p2 + p3 = 1).
Si definisca ora la variabile casuale doppia (X,Y) come coppia ordinata di
numeri reali in cui la prima componente X rappresenta il numero delle volte in cui si è
presentato il risultato ω1 nelle n prove, mentre Y rappresenta il numero delle volte in
cui si è presentato il risultato ω2. Ovviamente, il numero delle volte in cui si presenta il
risultato ω3 non può essere inserito come terza variabile essendo lo stesso numero
univocamente determinato per differenza (n – x – y).
Se, per semplicità di notazione, si pone
p1 = P(ω1 ) = P(X = 1) = p x
p 2 = P(ω 2 ) = P(Y = 1) = p y
p 3 = P(ω3 ) = P[(X = 0) ∩ (Y = 0)]= 1 − p x − p y = q
si avrà
f ( x , y) = P[(X = x ) ∩ (Y = y)]=
n!
p xx p yy q n − x − y
x! y!(n − x − y)!
dove: x rappresenta il numero delle volte in cui si è presentato il risultato ω1 nelle n
prove ed y il numero delle volte in cui si è presentato il risultato ω2 ; x potrà, pertanto,
assumere i valori 0, 1, 2, …, n mentre y potrà assumere i valori 0, 1, 2, …, n-x , ed
anche x,y = 0, 1, 2, …, n con il vincolo x+y ≤ n .
Si verifica facilmente che le v.c. marginali e le variabili casuali condizionate sono
variabili casuali binomiali, così come risulta facile verificare le uguaglianze sotto
riportate relative ad alcuni momenti misti
62
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
µ10 = µx = n px , µ01 = µy = n py
µ 20 = σ 2x = n p x (1 − p x ) , µ 02 = σ 2y = n p y (1 − p y )
µ11 = σ xy = σ yx = − n p x p y , µ11 = ρ xy = ρ yx = −
E(Y / x ) = (n − x )
py
px ⋅py
(1 − p x ) (1 − p y )
, E ( X / y) = ( n − y)
1− px
px
1− py
L’espressione analitica delle due distribuzioni condizionate è
(n − x )!  p y

f ( y / x) =
y!(n − x − y)!  1 − p x



y
 q

1− px



n−x −y
(n − y)!  p x
f ( x / y) =
x!(n − x − y)!  1 − p y




x
 q

1− py





n −x −y
L’estensione al caso k>2 è immediata: infatti basterà considerare n prove
indipendenti ed ipotizzare che in ciascuna prova si possa presentare uno dei k+1
risultati necessari ed incompatibili ω1, ω2, …, ωk, ωk+1 . Si potrà introdurre la variabile
casuale multinomiale a
k
dimensioni
(X1, X2, …, Xk) , dove le componenti
rappresentano il numero delle volte in cui, nelle
n
prove, si è presentato,
rispettivamente il risultato ω1, ω2, …, ωk . Il numero delle volte in cui si presenta il
k
risultato ωk+1 non viene considerato risultando il suo valore per differenza n − ∑ x i .
i =1
Distribuzione multinomiale e ipergeometrica multipla
k
Se con
p1 , p 2 , ... , p k
e
q =1 − ∑ p i
si indicano le probabilità dei risultati
i =1
(punti campionari) ω1, ω2, …, ωk+1 , la funzione di massa di probabilità della variabile
casuale multinomiale è
63
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
k
n −∑
n!
x1
x2
xk
i =1
f ( x 1 , x 2 , ..., x k ) =
p
p
...
p
q
⋅
1
2
k
k


x 1! x 2 ! ... x k ! n − ∑ x i  !
i =1


k
dove x1, x2, …, xk = 0, 1, 2, …, n , con il vincolo
∑x
i
≤ n.
i =1
Se nella situazione sopra considerata si fa riferimento ad
n
prove non
indipendenti che, rifacendosi allo schema di estrazione da un’urna, significa effettuare n
estrazioni senza ripetizione, si deriva la versione a
k dimensioni della variabile
casuale ipergeometrica (X1, X2, …, Xk) che ha funzione di massa di probabilità
k


 N − ∑ Ni 
N
N
N
 1  2  k  
i =1

    ... 

k

x
x
x
 1   2   k  n − ∑x 
i 

i =1


f ( x 1 , x 2 , ..., x k ) =
 N
 
n
k
dove N1, N2, …, Nk, Nk+1 ( N k +1 = ∑ N i ) rappresentano le palline, rispettivamente, del
i =1
colore 1,2,…,k e
k+1
presenti nell’urna. Ovviamente, in questo caso, il valore
numerico assumibile dalle varie componenti sarà condizionato, oltre che dal vincolo
k
∑x
i
≤ n anche dai valori N1, N2, …, Nk.
i =1
***
Nelle pagine precedenti si è visto come sia possibile rappresentare fenomeni reali
attraverso appropriati modelli probabilistici. In taluni casi, i modelli risultano
univocamente determinati ed individuati facendo riferimento al processo generatore dei
dati, in altri casi, i modelli possono rappresentare una conveniente schematizzazione e
semplificazione della realtà; semplificazione spesso finalizzata alla risoluzione di
specifici problemi decisionali. Si è anche accennato al comportamento dei modelli
quando i parametri che li caratterizzano assumono specifici valori numerici. Si è poi
64
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
discusso della sintesi delle distribuzioni attraverso appropriati indici caratteristici. In
questo contesto i momenti svolgono un ruolo molto particolare e di grande rilevanza;
infatti, si è visto come specifici momenti siano in grado di evidenziare quello che c’è di
tipico nelle manifestazioni del fenomeno di interesse (momenti rispetto all’origine) o
quanto c’è di variabile (momento centrale di ordine due o varianza), od anche la forma
della distribuzione (momento terzo standardizzato – indice di asimmetria – e momento
quarto standardizzato – indice di curtosi), o la relazione tra componenti di una variabile
doppia (momento misto standardizzato di ordine 1.1).
***
Alcuni teoremi fondamentali del calcolo delle probabilità
Alcuni teoremi del calcolo delle probabilità consentono la derivazione di risultati
di carattere generale con notevoli implicazioni operative; forniscono, cioè, tipologie
informative che si collocano ad un livello intermedio tra la conoscenza completa,
seppure spesso approssimata, della realtà espressa dal modello e la conoscenza sintetica
espressa dagli indici caratteristici (momenti). Tra questi teoremi uno dei più noti e
significativi è quello usualmente noto come disuguaglianza di Bienaymé-Cebiçev a
cui si perviene facilmente attraverso una opportuna specificazione di un teorema più
generale.
Teorema (di Markov) – Sia X una variabile casuale con funzione di distribuzione
F(x), g(⋅) una funzione a valori reali non negativa (in modo tale che g(X)
sia essa stessa variabile casuale) e c una costante positiva, allora
P[g (X) ≥ c] ≤
E[g (X)]
c
Considerando, senza perdere in generalità, il caso continuo, si dimostra il teorema
con relativa facilità.
E[g(X)] =
+∞
∫ g( x) f (x ) dx =
−∞
=
∫ g(x ) f (x ) dx + [ ∫ g(x]) f (x ) dx ≥
[x / g ( x )≥ c ]
x / 0≤g ( x )< c
65
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
≥
∫c
[x / g ( x ) ≥c ]
f ( x ) dx +
∫
= c
∫0
[x / 0≤ g ( x ) <c ]
f ( x ) dx =
f ( x ) dx = c P[g ( x ) ≥ c] ⇔
[x / g ( x ) ≥c ]
⇔ P[g ( x ) ≥ c] ≤
E[g( x )]
c
Di particolare interesse risulta una specificazione (corollario) del teorema
(disuguaglianza di Bienaymé-Cebiçev). Se si pone
g(X) = X - µ , c = k σ
per k > 0
dove: µ = E(X) e σ2 = var(X) , si avrà
P[ X − µ ≥ k σ] = P[(X − µ) 2 ≥ k 2 σ 2 ] ≤
≤
[
]
E ( X − µ) 2
1
σ2
=
= 2 ⇔
2
2
2
2
k σ
k σ
k
⇔ P [ X − µ ≥ k σ] ≤
1
k2
ed anche
[
]
P X − µ < k σ ≥ 1−
1
k2
Il che sta ad indicare che, per qualunque variabile casuale, la probabilità dei valori
che si collocano in un intorno della media di ampiezza ± k σ è sempre superiore ad
1−
1
. Ovviamente la disuguaglianza assume significato solo per k > 1.
k2
Se si fa riferimento ad una particolare distribuzione e si considera una specifica
funzione g(x) si perviene ad un altro interessante risultato.
66
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Si consideri la variabile casuale binomiale caratterizzata dai parametri p ed n e
la trasformazione
Y=
X
, usualmente nota come variabile casuale binomiale
n
X
 X  pq
.
relativa, la cui media e varianza sono, rispettivamente, E   = p e var   =
n
n n
X X
Applicando la disuguaglianza per g(Y) = g  =
− p , si avrà
n n
2
 X

X


P  − p ≥ c = P  − p  ≥ c 2  ≤

n

 n

2
 X
 
E  − p  
 
 n
c
2
=
pq
n c2
da cui
pq
X

lim P  − p ≥ c ≤ lim
=0
2
n → +∞
n
 n →+∞ n c
ed anche (probabilità dell’evento contrario)
X

lim P  − p < c = 1
n

n → +∞
Siccome c può essere scelto piccolo a piacere, si può anche concludere che al
crescere del numero delle prove (se le prove sono indipendenti e ripetute in condizioni
analoghe) la frequenza relativa di un evento converge, in probabilità, alla probabilità
dell’evento stesso.
Il risultato sopra conseguito è noto come teorema di Bernoulli essendo la
variabile casuale binomiale relativa interpretabile come media aritmetica di n variabili
casuali di Bernoulli indipendenti e identicamente distribuite.
Il teorema di Bernoulli è stato generalizzato in vario modo; la generalizzazione
più interessante è quella che estende il risultato ad una successione qualsiasi di variabili
casuali X1, X2, …, Xn, … indipendenti, identicamente distribuite (i.i.d.) e con media
E(Xi) = µ.
Teorema di Kolmogorov (legge forte dei grandi numeri) – Sia X1, X2, …, Xn, …
67
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
una successione di variabili casuali indipendenti e identicamente distribuite,
di media µ finita, allora per la variabile casuale X n =
1
n
n
∑X
i
, di media
i =1
E( X n ) = µ , vale la relazione
(
)
P lim X n = µ = 1
n → +∞
Se alle ipotesi sopra introdotte si aggiunge la condizione che le variabili abbiano
varianza σ2 > 0 finita si può, ricorrendo alla disuguaglianza di Bienaymé-Cebiçev,
dimostrare facilmente al cosidetta legge debole dei grandi numeri espressa dalla
relazione
[
]
lim P X n − µ < c = 1
n → +∞
Sulla rilevanza operativa, tutt’altro che marginale, della legge dei grandi numeri si
avrà modo di soffermare l’attenzione successivamente.
Il teorema di Bernoulli occupa una posizione di tutto rilievo nell’ambito della
probabilità e della statistica ma ancora più rilevante è, come si avrà modo di
approfondire anche successivamente, il ruolo svolto dal teorema del limite centrale
(teorema centrale del limite), qui se ne propone una versione particolare, quella
usualmente attribuita a Lindberg-Levy.
Teorema (del limite centrale) – Sia X1, X2, …, Xn, … una successione di variabili
casuali indipendenti ed identicamente distribuite (i.i.d.) di media
µ
e
varianza σ2 > 0 finita; si consideri la variabile casuale (media aritmetica dei
primi n elementi della successione)
Xn =
che
avrà
Var( X n ) =
valore
medio
1
n
e
n
∑X
i
i =1
varianza,
rispettivamente,
σ2
, allora la variabile casuale standardizzata
n
68
E( X n ) = µ
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Zn =
Xn −µ
σ/ n
per n → +∞ tende alla distribuzione normale (standardizzata) con media 0 e
varianza 1.
L’implicazione più rilevante del teorema e che per n abbastanza grande la
variabile casuale X n può essere approssimata dalla distribuzione normale di media µ
e varianza σ2/n . La bontà dell’approssimazione dipende, come si avrà modo di chiarire
in seguito, dal tipo di distribuzione comune.
In letteratura si ritrovano versioni generalizzate del teorema quali, ad esempio,
quella in cui non si richiede più che le variabili casuali della successione abbiano
identica distribuzione, si mantiene l’ipotesi di indipendenza, si inseriscono alcune
ipotesi generali di regolarità delle distribuzioni tra le quali la condizione che le medie
E(Xi) = µ(i) e le varianze Var (X i ) = σ i2 > 0 siano finite. In questo caso, naturalmente,
la variabile che tende alla variabile casuale normale standardizzata è
Zn =
dove: X n =
1
n
n
∑ Xi , µ =
i =1
1
n
n
∑ µ (i)
e
Xn −µ
σ/n
σ2 =
i =1
n
∑σ
i =1
69
2
i
.
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
Appendice - Calcolo combinatorio
Il primo concetto utile a tal fine è quello delle permutazioni di n oggetti distinti.
Si definisce come permutazione di n oggetti il numero dei gruppi che possono essere
formati dagli n dati scambiando di posto gli oggetti stessi. Se A, B e C sono i tre oggetti
(n = 3), le possibili permutazioni saranno
(A, B, C); (A, C, B); (B, A, C); (B, C, A); (C, A, B); (C, B, A)
Per individuare il numero delle possibili permutazioni di n oggetti basta
considerare che vi sono n modi diversi di occupare la prima posizione, a ciascuna di
queste va associato uno degli n - 1 modi diversi di occupare la seconda posizione (dagli
n -1 oggetti residui) che potrà, a sua volta essere associato ad uno degli n - 2 modi
diversi di occupare la terza posizione e così via
Le permutazioni di n oggetti distinti saranno pertanto pari a:
Pn = n (n -1) (n - 2)...2 . 1 = n!
dove n! si legge n fattoriale. Si noti che per convenzione e convenienza matematica, si
pone 0! = 1.
Se degli n oggetti ve ne sono n1 (≤ n) uguali tra loro, n2 (n2 ≤ n) uguali tra loro,
h
fino a nh (nh ≤ n) uguali tra loro, con
n =
∑n
i =1
i
, e si vuol procedere alla
determinazione del numero dei gruppi diversi che possono essere formati, si dovrà tener
conto del fatto che lo scambio di posto fra due oggetti uguali non modifica il gruppo; ad
esempio se i tre oggetti sono A, A e B, si verifica, immediatamente che i possibili
gruppi diversi sono soltanto tre
(A, A, B) ; (A, B, A) ; (B, A, A)
sono stati, cioè, eliminati dai sei gruppi iniziali i tre gruppi che comportavano uno
scambio di posto dello stesso oggetto A; il numero delle permutazioni in questo caso è
dato da
3!
.
2 ! 1!
70
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
In generale il numero delle permutazioni di n oggetti, di cui n1 uguali tra loro, n2
uguali tra loro, ... nh uguali tra loro, che vengono dette con ripetizione, proprio per il
ripetersi di alcuni oggetti è dato da
Pn1 ,n 2 ,...,n h
La quantità
Pn1 ,n 2 ,...,n h =
n!
dove n =
=
n 1 ! n 2 ! ... n h !
h
∑n
i =1
i
n!
n!



= 
n 1 ! n 2 ! ... n h !
 n1!, n 2 !,......., n h !
viene usualmente
detta coefficiente multinomiale in quanto rappresenta il coefficiente nella espansione
multinomiale (polinomio di Leibniz)
(a1 + a 2 + ⋅ ⋅ ⋅ ⋅ ⋅ + a h ).n = ∑ n ∑ n
1
n

 n1 n 2
...a1 a 2 .....a nh h
⋅ ⋅ ⋅ ⋅ ⋅ ∑ n 
2
h
 n1 , n 2 ,⋅ ⋅ ⋅ ⋅ ⋅, n h 
Un altro importante concetto di raggruppamenti possibili è quello relativo al
numero di gruppi che si possono formare da n oggetti distinti prendendone k (≤ n) alla
volta e considerando diversi i gruppi che differiscono o per un elemento o per il posto
che l'elemento occupa. Anche in questo caso risulta facile il conteggio basandosi sullo
stesso schema di ragionamento fatto sopra. Il primo, dei k posti, potrà essere occupato in
n modi diversi (cioè da ciascuno degli n oggetti dati) a ciascuno di questi dovrà essere
associato al secondo posto che potrà essere occupato in n -1 modi diversi (cioè da
ciascuno degli n - 1 oggetti residui) e così via fina al k-esimo posto che potrà essere
occupato in n - (k - 1) = n - k + 1 modi diversi (gli oggetti residui sono n meno k - 1
oggetti che sono stati utilizzati per occupare le prime k - 1 posizioni). La formula, detta
delle disposizioni di n elementi k a k (o disposizioni di n elementi di classe k) sarà
Dn,k = n (n - 1) (n - 2)...(n - k + 1)
naturalmente
Dn,n = Pn
71
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
cioè le disposizioni di n elementi di classe n coincidono con le permutazioni di n
elementi.
Se disponendo di n oggetti, diversi o per ordine o per elemento, si considerano
tutti i possibili gruppi che si possono formare prendendone k (≤ n) dagli n dati ma
ammettendo che ciascun oggetto possa essere preso fino a k volte (cioè i k oggetti vengono scelti con ripetizione degli n dati), risulta facile, sulla scorta delle considerazioni
sopra fatte, arrivare alla determinazione del numero di disposizioni, dette con
ripetizione, di classe k, che è dato da
D rn ,k = n k
in quanto ciascuno dei k posti può essere occupato da ciascuno degli n oggetti
(n . n......n = nk).
Se ci si propone di determinare i possibili gruppi che possono essere formati
prendendone k (senza ripetizione) dagli n dati in modo che ciascun gruppo differisca
dall'altro per almeno un elemento, il numero dei possibili gruppi, cioè delle
combinazioni di n oggetti k a k (o di n elementi di classe k), si otterrà escludendo dal
numero delle disposizioni di classe k tutte quelle che differiscono tra loro solo per
l'ordine degli elementi, cioè
C n ,k =
D n ,k
Pk
=
n!
n(n − 1)¯...¯(n − k + 1) n(n − 1) ... (n − k + 1)(n − k)!
=
=
k!(n − k)!
k!(n − k)!
k!
 n
= 
 k
 n
dove il simbolo   delle combinazioni di n elementi di classe k rappresenta anche il k k
esimo termine dello sviluppo del binomio di Newton (a + b)n e viene usualmente detto
coefficiente binomiale.Si tratta, ovviamente, di una particolarizzazione del polinomio
di Leibniz per h = 2. Si noti inoltre che le combinazioni di n elementi di classe k (C n ,k )
coincidono con le permutazioni con ripetizione di n elementi dei quali k uguali tra loro
ed (n - k) uguali tra loro
72
B. Chiandotto
Metodi Statistici per l’impresa
Versione 00 - Cap. 2
 n
n!
C n ,k =   =
= Pk,n − k
k!(n − k)!
 k
Le formule sopra introdotte delle permutazioni (con e senza ripetizioni), delle
disposizioni (con e senza ripetizione) e delle combinazioni si riveleranno estremamente
utili nella misura delle probabilità di eventi non elementari in quanto consentono in
modo abbastanza immediato la determinazione del numero degli eventi elementari
associati ad esperimenti casuali complessi.
Si riportano alcune relazioni di uguaglianza tra formule combinatorie utili nel
calcolo delle probabilità.
n  n 

  = 
k n − k
 n + 1  n   n 
 =   + 


 k   k   k − 1
per n = 1,2,……e k = 0, ± 1, k = ±2,⋅ ⋅ ⋅
− n
k  n + k − 1
  = (− 1) 

k
k
 


73